CN111833846B - 一种根据意图启动听写状态的方法和装置,及存储介质 - Google Patents
一种根据意图启动听写状态的方法和装置,及存储介质 Download PDFInfo
- Publication number
- CN111833846B CN111833846B CN201910291333.7A CN201910291333A CN111833846B CN 111833846 B CN111833846 B CN 111833846B CN 201910291333 A CN201910291333 A CN 201910291333A CN 111833846 B CN111833846 B CN 111833846B
- Authority
- CN
- China
- Prior art keywords
- dictation
- intention
- voice
- words
- regular expression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种根据意图启动听写状态的方法和装置,及存储介质,包括:S100在学习状态下时时获取用户输入的语音;S200对所述语音进行解析,得到所述语音的意图;S300当所述意图与“听写”意图正则表达式匹配时,开启“听写”功能模式。通过收集语音信息,解析出语音信息意图,并将该意图与“通过听写”意图的表达式进行匹配,匹配成功后即可开启“听写APP”;解决了现有技术中,只能通过预设的听写命令打开听写APP的局限性,本申请的技术方案使用户使用更加方便,更加智能化,贴近人的思维,进一步增加了用户的体验度。
Description
技术领域
本发明涉及语音交互技术领域,尤其涉及一种根据意图启动听写状态的方法和装置,及存储介质。
背景技术
目前,随着技术的发展,智能设备已经可以具备语音识别功能。语音识别功能的开启对整个语音识别的体验是至关重要的,同时好的开启模式还对避免噪音干扰起着很大的帮助。
针对现有的伴读的智能设备(例如家教机)中语音识别开启方法主要有三种:一种是触摸操作之后开启语音识别。例如,按屏幕上的开启按钮,或是定义滑屏等操作来开启;还有一种是用户发出预设的语音命令来开启。
特别是针对学生使用伴读的智能设备在现有技术中的语音识别的开启方法中,第一种方法不够便捷,智能不方便;第二种方法在语音识别之前都要有个命令识别过程,不具备智能性,降低效率,容易造成误操作。
基于以上,本发明提供了解决以上技术问题的技术方案。
发明内容
本发明的目的是提供一种根据意图启动听写状态的方法和装置,及存储介质,通过收集多用户的语料信息针对“听写”模式开启提供更多的触发条件,使用户使用更加方便,更加智能化,贴近人的思维,进一步增加了用户的体验度。
本发明提供的技术方案如下:
一种根据意图启动听写状态的方法,包括:S100在学习状态下时时获取用户输入的语音;S200对所述语音进行解析,得到所述语音的意图;S300当所述意图与“听写”意图正则表达式匹配时,开启“听写”功能模式。
在上述技术方案中,通过收集语音信息,解析出语音信息意图,并将该意图与“通过听写”意图的表达式进行匹配,匹配成功后即可开启“听写APP”;解决了现有技术中,只能通过预设的听写命令打开听写APP的局限性,本申请的技术方案使用户使用更加方便,更加智能化,贴近人的思维,进一步增加了用户的体验度。
进一步优选的,所述“听写”意图正则表达式的构建包括:S010在学习状态下收集多用户的语料;S020分拣出与“听写”相关的句子;S030对所述“听写”相关的句子进行特征词的提取,并构建所述“听写”意图正则表达式以及“听写”词库。
以上的技术方案,在同一环境状态下收集多用户输入的语料并进行解析,根据语义对应建立与“听写”意图相关的正则表达式,当用户输入的语音与正则表达式匹配时,开启“听写”模式;收集多用户的语料信息为本申请针对“听写”模式开启提供更多的触发条件,能够更加快速的准确的分析出用户意图,为用户的针对智能产品的使用操作简单、方便、快捷,进一步提高了用户的使用体验和满意度。
进一步优选的,所述S030中进行特征词的提取包括:步骤S031对所述“听写”相关的句子进行分词,得到相关的词语,并对所述词语标注词性;步骤S032在不改变所述“听写”相关的句子意图的条件下,根据所述词语的词性以及多种组合位置关系,建立所述“听写”意图正则表达式,以及与所述词语相关的词库。
在以上的技术方案中,同一词性的词语建立词语库,相当于增加该词语的维度,使其词库更加丰富,方便用户的使用,提高用于的使用率,使该功能为提高学生的成绩提供有力的保障。
进一步优选的,所述步骤S200包括:S210将时时获取所述语音信息转化成文本信息;S220对所述文本信息进行分词,得到所述语音信息中的主体词语;
S230匹配所述主体词语对应的所述语音的意图。
在以上的技术方案中,本申请通过语音开启“听写”功能模式,并非是现有技术中针对开启“听写”功能模式设置有预设的指令,例如“请开启“听写APP””,本申请通过大量的收集与“听写”意图相关的语料,并建立正则表达式以及数据库;能够时时的通过用户输入的语音进行识别后,开启“听写”模式;因此本申请的应用更加方便,给用户的更高的体验度。
进一步优选的,包括:所述开启“听写”功能模式对应多种并列意图的所述“听写”意图正则表达。
一种根据意图启动听写状态的装置,包括:输入模块,用于在学习状态下时时获取用户输入的语音;解析模块,用于对所述语音进行解析,得到所述语音的意图;开启模块,用于当所述意图与“听写”意图正则表达式匹配时,开启“听写”功能模式。
在上述技术方案中,通过收集语音信息,解析出语音信息意图,并将该意图与“通过听写”意图的表达式进行匹配,匹配成功后即可开启“听写APP”;解决了现有技术中,只能通过预设的听写命令打开听写APP的局限性,本申请的技术方案使用户使用更加方便,更加智能化,贴近人的思维,进一步增加了用户的体验度。
进一步优选的,在所述输入模块之前还包括:收集模块,在学习状态下收集多用户的语料;分拣模块,分拣出与“听写”相关的句子;构建模块,对所述“听写”相关的句子进行特征词的提取,并构建所述“听写”意图正则表达式以及“听写”词库。
以上的技术方案,在同一环境状态下收集多用户输入的语料并进行解析,根据语义对应建立与“听写”意图相关的正则表达式,当用户输入的语音与正则表达式匹配时,开启“听写”模式;收集多用户的语料信息为本申请针对“听写”模式开启提供更多的触发条件,能够更加快速的准确的分析出用户意图,为用户的针对智能产品的使用操作简单、方便、快捷,进一步提高了用户的使用体验和满意度。
进一步优选的,包括:所述构建模块,进一步用于对所述“听写”相关的句子进行分词,得到相关的词语,并对所述词语标注词性;在不改变所述“听写”相关的句子意图的条件下,根据所述词语的词性以及多种组合位置关系,建立所述“听写”意图正则表达式,以及与所述词语相关的词库。
在以上的技术方案中,同一词性的词语建立词语库,相当于增加该词语的维度,使其词库更加丰富,方便用户的使用,提高用于的使用率,使该功能为提高学生的成绩提供有力的保障。
进一步优选的,包括:所述解析模块,进一步用于将时时获取所述语音信息转化成文本信息;对所述文本信息进行分词,得到所述语音信息中的主体词语;匹配所述主体词语对应的所述语音的意图。
在以上的技术方案中,本申请通过语音开启“听写”功能模式,并非是现有技术中针对开启“听写”功能模式设置有预设的指令,例如“请开启“听写APP””,本申请通过大量的收集与“听写”意图相关的语料,并建立正则表达式以及数据库;能够时时的通过用户输入的语音进行识别后,开启“听写”模式;因此本申请的应用更加方便,给用户的更高的体验度。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任一项所述根据意图启动听写状态的方法的步骤。
本发明提供的一种根据意图启动听写状态的方法和装置,及存储介质,至少包括以下一种益效果:
本发明中,通过收集语音信息,解析出语音信息意图,并将该意图与“通过听写”意图的表达式进行匹配,匹配成功后即可开启“听写APP”;解决了现有技术中,只能通过预设的听写命令打开听写APP的局限性,本申请的技术方案使用户使用更加方便,更加智能化,贴近人的思维,进一步增加了用户的体验度。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种根据意图启动听写状态的方法和装置,及存储介质的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明一种根据意图启动听写状态的方法一实施例的流程图;
图2是本发明一种根据意图启动听写状态的方法另一实施例的流程图;
图3是本发明一种根据意图启动听写状态的方法另一实施例的流程图;
图4是本发明一种根据意图启动听写状态的装置一实施例的示意图;
图5是本发明智能终端一个实施例的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本发明。在其他情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”指示描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或集合的存在或添加。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘出了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
具体实现中,本发明实施例中描述的终端设备包括但不限于诸如具有触摸敏感表面(例如,触摸屏显示器和/或触摸板)的移动电话、膝上型计算机、家教学习机或平板计算机之类的其他便携式设备。还应当理解的是,在某些实施例中,终端设备并非便携式通信设备,而是具有触摸敏感表面(例如:触摸屏显示器和/或触摸板)的台式计算机。
在接下来的讨论中,描述了包括显示器和触摸敏感表面的终端设备。然而,应当理解的是,终端设备可以包括诸如物理键盘、鼠标和/或控制杆的一个或多个其他物理用户接口设备。
终端设备支持各种应用程序,例如以下中的一个或多个:绘图应用程序、演示应用程序、网络创建应用程序、文字处理应用程序、盘刻录应用程序、电子表格应用程序、游戏应用程序、电话应用程序、视频会议应用程序、电子邮件应用程序、即时消息收发应用程序、锻炼支持应用程序、照片管理应用程序、数码相机应用程序、数字摄像机应用程序、Web浏览应用程序、数字音乐播放器应用程序和/或数字视频播放器应用程序。
可以在终端设备上执行的各种应用程序可以使用诸如触摸敏感表面的至少一个公共物理用户接口设备。可以在应用程序之间和/或相应应用程序内调整和/或改变触摸敏感表面的一个或多个功能以及终端上显示的相应信息。这样,终端的公共物理架构(例如,触摸敏感表面)可以支持具有对用户而言直观且透明的用户界面的各种应用程序。
另外,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
图1示出了本发明的一种根据意图启动听写状态的方法一个实施例的实现流程图,该意图启动听写状态的方法可以应用于终端设备(例如:家教学习机,本实施例中为方便理解,都以家教学习机作为主语解释,但本领域的技术人员均明白该根据意图启动听写状态的方法也可应用于其他终端设备,只要能实现相应功能即可),根据意图启动听写状态的方法包括以下步骤:
S100在学习状态下时时获取用户输入的语音;
具体的,学生在学习过程中家教机一直处于时时检测用户输入的语音信息,例如在学习的过程中说“这里是学习的重点,应该进行多次的温习”或者说“这一部分还没有完全掌握”;学生是否处于学习状态,通过家教学习机的外设的摄像头进行获取。
终端设备上都会配备有麦克风,可以内置,也可以外置,根据实际的产品设计和实际使用情况决定。通过麦克风获取用户的语料,供终端设备进行后续的语义解析、意图选择。
S200对语音进行解析,得到语音的意图;
具体的,语音解析是指通过家教机获取学生输入的声音信息,通过语音识别技术转换为文本信息,并根据文本信息解读该语音的意图是什么?
例如,用户的输入的语音是“这个数学题怎么解出答案呢?”家教机可以进行解析语音的意图是,该题不知道怎么解答,需要帮助,那么应该打开学习APP,根据科目搜索出该题目的答案;简单说“这个数学题怎么解出答案呢?”对应的意图是“打开解题APP”。
S300当意图与“听写”意图正则表达式匹配时,开启“听写”功能模式。
具体的,根据上述中对语音意图的分析“这个数学题怎么解出答案呢?”对应一个正则表达,该正则表达式的意图则是“打开解题APP”;根据匹配后的意图,打开家教机“解题APP”这个软件程序,进一步检索到与上述中数学题相关的答案和解析过程;
再举一个例子:家教机收到的语音信息是“这一课的词语怎么巩固”,那么在家教机中将“这一课的词语怎么巩固”的意图确定为“通过听写”,那么只需要对“词语巩固”进行识别分析,则进入“听写APP”。
在上述技术方案中,通过收集语音信息,解析出语音信息意图,并将该意图与“通过听写”意图的表达式进行匹配,匹配成功后即可开启“听写APP”;解决了现有技术中,只能通过预设的听写命令打开听写APP的局限性,本申请的技术方案使用户使用更加方便,更加智能化,贴近人的思维,进一步增加了用户的体验度。
图2示出了本发明的一个根据意图启动听写状态的方法的另一个实施例实现流程图,该意图启动听写状态的方法可以应用于终端设备(例如:家教学习机,本实施例中为方便理解,都以家教学习机作为主语解释,但本领域的技术人员均明白该根据意图启动听写状态的方法也可应用于其他终端设备,只要能实现相应功能即可),在本实施例中,人与家教机之间互动,使家教机能够更加灵便的分析出人的语义,前提是要收集大量各种同一意图相关的语料信息,通过对语料的学习,建立语料库,时时快速解读用户的语义提供基础,因此,根据意图启动听写状态的方法包括以下步骤:
S010在学习状态下收集多用户的语料;
具体的,语料即语言材料,通俗理解就是用户所说的话。例如:用户对他的终端设备说“打电话给小红”这一句话,这句话的内容就是用户的语料,语音则是语料的一分部。
在收集语料信息时,需要针对环境进行分析,因为根据不同的环境同一句话代表出不同的表达,例如用户处于在学习的状态时说:“我没有钱了”,这种情况可以分析出“该学习软件可能到期,没有钱了,不能继续使用”;或者“我该停止本次学习,进行充值后再学习”例如在商场购物的时候说“我没有钱了”这种情况是“我没有钱了,不能购买每一项产品,”或者,“我需要回家了”。
因此需要针对同一环境,多种语义,进行意图的匹配。
S020分拣出与“听写”相关的句子;
具体的,通过家教机的摄像头判断该学生是否处于学习状态,如果处于学习状态,在收集的多用户语料中,找到与“听写”相关的句子;例如,在学习时句子1为“我饿了”;句子2“这一课的词语怎么巩固”;句子3“这一课词语怎么复习”;句子4“这一课词语怎么读”等;从上述的4个句子中,句子1可以很明显的看出与“听写”没有任何的关系;而句子2~句子4可以看出是与“听写”相关的句子,因此将句子2~句子4分拣出来。
S030对“听写”相关的句子进行特征词的提取,并构建“听写”意图正则表达式以及“听写”词库;
具体的,将上述中分拣出来的句子2~句子4进行特征词提取;对句子中进行分词处理,是为了判断语料中的主体词语,例如句子4“这一课词语怎么读”,提取出“词语怎么读”相当于对该句子的句意概括,并对应的建立正则表达式,并将该正则表达式定义为打开“听写”的意图;并建立词库。
正则表达式可以理解为:通过获取大量的语料信息,然后根据获取的大量语料信息生成大量的正则表达式,正则表达式是指用来描述或者匹配一系列符合某个句法规则的字符串。具体的实现过程请参见现有正则表达式要求,在此不再详细描述。
S100在学习状态下时时获取用户输入的语音;
S200对语音进行解析,得到语音的意图;
S300当意图与“听写”意图正则表达式匹配时,开启“听写”功能模式。
以上的技术方案,在同一环境状态下收集多用户输入的语料并进行解析,根据语义对应建立与“听写”意图相关的正则表达式,当用户输入的语音与正则表达式匹配时,开启“听写”模式;收集多用户的语料信息为本申请针对“听写”模式开启提供更多的触发条件,能够更加快速的准确的分析出用户意图,为用户的针对智能产品的使用操作简单、方便、快捷,进一步提高了用户的使用体验和满意度。
图2示出了本发明的一个根据意图启动听写状态的方法的另一个实施例实现流程图,该意图启动听写状态的方法可以应用于终端设备(例如:家教学习机,本实施例中为方便理解,都以家教学习机作为主语解释,但本领域的技术人员均明白该根据意图启动听写状态的方法也可应用于其他终端设备,只要能实现相应功能即可),在本实施例中,人与家教机之间互动,使家教机能够更加灵便的分析出人的语义,前提是要收集大量各种同一意图相关的语料信息,通过对语料的学习,建立语料库,时时快速解读用户的语义提供基础,因此,根据意图启动听写状态的方法包括以下步骤:
S010在学习状态下收集多用户的语料;
S020分拣出与“听写”相关的句子;
S031对“听写”相关的句子进行分词,得到相关的词语,并对词语标注词性;
S032在不改变“听写”相关的句子意图的条件下,根据词语的词性以及多种组合位置关系,建立“听写”意图正则表达式,以及与词语相关的词库;
具体的,分词处理在得到主体词语后,对应的建立正则表达式,并通过终端设备会搭建与“听写”相关的数据库,将该正则表达式匹配为“听写”意图。
句子2“这一课的词语怎么巩固”;“怎么巩固”为主体关键词,并根据“怎么巩固”进一步的标注词性,例如“巩固”相近的词语为“加强”“稳固”建立该动词性相关的动词词库;同样句子3“这一课词语怎么复习”;句子4“这一课词语怎么读”;通过同样的方式进行处理,建立词库,以及正则表达式;并将该正则表达式对应设置的意图为“听写”开启模式。
同样将句子3“这一课词语怎么复习”;句子4“这一课词语怎么读”进行词性的分词,建立正则表达式,并对应的意图为“听写”开启模式。
分词处理可采用现有的分词算法完成,例如:基于字符串匹配的分词方法,基于理解的分词方法和基于统计的分词方法,具体的实现过程请参见现有分词算法的要求,在此不再详细描述。
S100在学习状态下时时获取用户输入的语音;
S200对语音进行解析,得到语音的意图;
S300当意图与“听写”意图正则表达式匹配时,开启“听写”功能模式。
在以上的技术方案中,同一词性的词语建立词语库,相当于增加该词语的维度,使其词库更加丰富,方便用户的使用,提高用于的使用率,使该功能为提高学生的成绩提供有力的保障。
图3示出了本发明的一个根据意图启动听写状态的方法的另一个实施例实现流程图,该意图启动听写状态的方法可以应用于终端设备(例如:家教学习机,本实施例中为方便理解,都以家教学习机作为主语解释,但本领域的技术人员均明白该根据意图启动听写状态的方法也可应用于其他终端设备,只要能实现相应功能即可),在本实施例中,人与家教机之间互动,使家教机能够更加灵便的分析出人的语义,前提是要收集大量各种同一意图相关的语料信息,通过对语料的学习,建立语料库,时时快速解读用户的语义提供基础,因此,根据意图启动听写状态的方法包括以下步骤:
S010在学习状态下收集多用户的语料;
S020分拣出与“听写”相关的句子;
S031对“听写”相关的句子进行分词,得到相关的词语,并对词语标注词性;
S032在不改变“听写”相关的句子意图的条件下,根据词语的词性以及多种组合位置关系,建立“听写”意图正则表达式,以及与词语相关的词库;
S100在学习状态下时时获取用户输入的语音;
S210将时时获取语音信息转化成文本信息;
S220对文本信息进行分词,得到语音信息中的主体词语;
S230匹配主体词语对应的语音的意图;
具体的,在本实施例中,当用户处于学习状态过程中,时时的收集用户的语音信息,在本申请的智能设备中设置有拾音器,并将拾音器中收集的语音信息,通过语音识别功能,转换成文本信息;从文本信息中找到关键词,例如用户发出的语音为“这一课我该怎么复习”或者“这一课我该怎么巩固”;提取出的关键词为“怎么复习”以及“怎么巩固”;并将该关键词与正则表达式进行匹配,匹配的结果意图是刚好与数据库中的正则表达式为“开启“听写”功能模式”匹配成功,则开启“听写”功能模式。
S300当意图与“听写”意图正则表达式匹配时,开启“听写”功能模式。
在以上的技术方案中,本申请通过语音开启“听写”功能模式,并非是现有技术中针对开启“听写”功能模式设置有预设的指令,例如“请开启“听写APP””,本申请通过大量的收集与“听写”意图相关的语料,并建立正则表达式以及数据库;能够时时的通过用户输入的语音进行识别后,开启“听写”模式;因此本申请的应用更加方便,给用户的更高的体验度。
优选的,包括:开启“听写”功能模式对应多种并列意图的“听写”意图正则表达。
具体的,例如用户发出的语音为“这一课我该怎么复习”或者“这一课我该怎么巩固”;提取出的关键词为“怎么复习”以及“怎么巩固”;整两个句子建立正则表达式后,对应的意图为同一个,即为开启“听写”功能模式,使该智能终端进入听写模式。
在本申请中可以提供一个场景,例如通过家教机的外设摄像头,查看学生处于学习状态,该学生学习的语文,对应的课文为《画》,“远看山有色,近听水无声。春去花还在,人来鸟不惊。”该课文是明天上课老师要进行听写的任务,但是,不要求学生背诵,此时学生会说“需要默写这一课的每个汉字”;家教机收集到语音后,进行关键词的提炼为“默写汉字”;在数据库中对应的正则意图为开启“听写”模式;此时家教机直接开启“听写”功能界面,并播放,例如“请某个小朋友,根据您的语音信息,进行解读后,现在带您一起复习该课文,我来读,您来写”。因此这样就实现了家教机陪同学生一起进行复习巩固的功能。
图4是本发明提供的根据意图启动听写状态的装置一个实施例的示意图,为了便于说明,仅示出了与本发明实施例相关的部分。
该根据意图启动听写状态的装置可以是内置于终端设备内的软件单元、硬件单元或者软硬结合的单元,也可以作为独立的挂件集成到终端设备中。
该根据意图启动听写状态的装置,包括:
输入模块100,用于在学习状态下时时获取用户输入的语音;
具体的,学生在学习过程中家教机一直处于时时检测用户输入的语音信息,例如在学习的过程中说“这里是学习的重点,应该进行多次的温习”或者说“这一部分还没有完全掌握”;是否处于学习状态,通过家教学习机的外设的摄像头进行获取。
终端设备上都会配备有麦克风,可以内置,也可以外置,根据实际的产品设计和实际使用情况决定。通过麦克风获取用户的语料,供终端设备进行后续的语义解析、意图选择。
解析模块200,用于对语音进行解析,得到语音的意图;
具体的,语音解析是指通过家教机获取学生输入的声音信息,通过语音识别技术转换为文本信息,并根据文本信息解读该语音的意图是什么?
例如,用户的输入的语音是“这个数学题怎么解出答案呢?”家教机可以进行解析语音的意图是,该题不知道怎么解答,需要帮助,那么应该打开学习APP,根据科目搜索出该题目的答案;简单说“这个数学题怎么解出答案呢?”对应的意图是“打开解题APP”。
开启模块300,用于当意图与“听写”意图正则表达式匹配时,开启“听写”功能模式。
具体的,根据上述中对语音意图的分析“这个数学题怎么解出答案呢?”对应一个正则表达,该正则表达式的意图则是“打开解题APP”;根据匹配后的意图,打开家教机“解题APP”这个软件程序,进一步检索到与上述中数学题相关的答案和解析过程;
再举一个例子:家教机收到的语音信息是“这一课的词语怎么巩固”,那么在家教机中将“这一课的词语怎么巩固”的意图确定为“通过听写”,那么只需要对“词语巩固”进行识别分析,则进入“听写APP”。
在上述技术方案中,通过收集语音信息,解析出语音信息意图,并将该意图与“通过听写”意图的表达式进行匹配,匹配成功后即可开启“听写APP”;解决了现有技术中,只能通过预设的听写命令打开听写APP的局限性,本申请的技术方案使用户使用更加方便,更加智能化,贴近人的思维,进一步增加了用户的体验度。
图4是本发明提供的根据意图启动听写状态的装置的另一个实施例的示意图,为了便于说明,仅示出了与本发明实施例相关的部分。
该根据意图启动听写状态的装置可以是内置于终端设备内的软件单元、硬件单元或者软硬结合的单元,也可以作为独立的挂件集成到终端设备中。
该根据意图启动听写状态的装置,包括:
收集模块010,在学习状态下收集多用户的语料;
分拣模块020,分拣出与“听写”相关的句子;
构建模块030,对“听写”相关的句子进行特征词的提取,并构建“听写”意图正则表达式以及“听写”词库;
输入模块100,用于在学习状态下时时获取用户输入的语音;
解析模块200,用于对语音进行解析,得到语音的意图;
开启模块300,用于当意图与“听写”意图正则表达式匹配时,开启“听写”功能模式。
图4是本发明提供的根据意图启动听写状态的装置另一个实施例的的示意图,为了便于说明,仅示出了与本发明实施例相关的部分。
该根据意图启动听写状态的装置可以是内置于终端设备内的软件单元、硬件单元或者软硬结合的单元,也可以作为独立的挂件集成到终端设备中。该根据意图启动听写状态的装置,包括:
收集模块010,在学习状态下收集多用户的语料;
具体的,语料即语言材料,通俗理解就是用户所说的话。例如:用户对他的终端设备说“打电话给小红”这一句话,这句话的内容就是用户的语料,语音则是语料的一分部。
在收集语料信息时,需要针对环境进行分析,因为根据不同的环境同一句话代表出不同的表达,例如用户处于在学习的状态时说:“我没有钱了”,这种情况可以分析出“该学习软件可能到期,没有钱了,不能继续使用”;或者“我该停止本次学习,进行充值后再学习”例如在商场购物的时候说“我没有钱了”这种情况是“我没有钱了,不能购买每一项产品,”或者,“我需要回家了”。
因此需要针对同一环境,多种语义,进行意图的匹配。
分拣模块020,分拣出与“听写”相关的句子;
具体的,通过家教机的摄像头判断该学生是否处于学习状态,如果处于学习状态,在收集的多用户语料中,找到与“听写”相关的句子;例如,在学习时句子1为“我饿了”;句子2“这一课的词语怎么巩固”;句子3“这一课词语怎么复习”;句子4“这一课词语怎么读”等;从上述的4个句子中,句子1可以很明显的看出与“听写”没有任何的关系;而句子2~句子4可以看出是与“听写”相关的句子,因此将句子2~句子4分拣出来。
构建模块030,进一步用于对“听写”相关的句子进行分词,得到相关的词语,并对词语标注词性;在不改变“听写”相关的句子意图的条件下,根据词语的词性以及多种组合位置关系,建立“听写”意图正则表达式,以及与词语相关的词库;
具体的,将上述中分拣出来的句子2~句子4进行特征词提取;对句子中进行分词处理,是为了判断语料中的主体词语,例如句子4“这一课词语怎么读”,提取出“词语怎么读”相当于对该句子的句意概括,并对应的建立正则表达式,并将该正则表达式定义为打开“听写”的意图;并建立词库。
正则表达式可以理解为:通过获取大量的语料信息,然后根据获取的大量语料信息生成大量的正则表达式,正则表达式是指用来描述或者匹配一系列符合某个句法规则的字符串。具体的实现过程请参见现有正则表达式要求,在此不再详细描述。
输入模块100,用于在学习状态下时时获取用户输入的语音;
解析模块200,用于对语音进行解析,得到语音的意图;
开启模块300,用于当意图与“听写”意图正则表达式匹配时,开启“听写”功能模式。
以上的技术方案,在同一环境状态下收集多用户输入的语料并进行解析,根据语义对应建立与“听写”意图相关的正则表达式,当用户输入的语音与正则表达式匹配时,开启“听写”模式;收集多用户的语料信息为本申请针对“听写”模式开启提供更多的触发条件,能够更加快速的准确的分析出用户意图,为用户的针对智能产品的使用操作简单、方便、快捷,进一步提高了用户的使用体验和满意度。
图4是本发明提供的根据意图启动听写状态的装置的另一个实施例的示意图,为了便于说明,仅示出了与本发明实施例相关的部分。
该根据意图启动听写状态的装置可以是内置于终端设备内的软件单元、硬件单元或者软硬结合的单元,也可以作为独立的挂件集成到终端设备中。该根据意图启动听写状态的装置,包括:
收集模块010,在学习状态下收集多用户的语料;
分拣模块020,分拣出与“听写”相关的句子;
构建模块030,进一步用于对“听写”相关的句子进行分词,得到相关的词语,并对词语标注词性;在不改变“听写”相关的句子意图的条件下,根据词语的词性以及多种组合位置关系,建立“听写”意图正则表达式,以及与词语相关的词库;
具体的,分词处理在得到主体词语后,对应的建立正则表达式,并通过终端设备会搭建与“听写”相关的数据库,将该正则表达式匹配为“听写”意图。
句子2“这一课的词语怎么巩固”;“怎么巩固”为主体关键词,并根据“怎么巩固”进一步的标注词性,例如“巩固”相近的词语为“加强”“稳固”建立该动词性相关的动词词库;同样句子3“这一课词语怎么复习”;句子4“这一课词语怎么读”;通过同样的方式进行处理,建立词库,以及正则表达式;并将该正则表达式对应设置的意图为“听写”开启模式。
同样将句子3“这一课词语怎么复习”;句子4“这一课词语怎么读”进行词性的分词,建立正则表达式,并对应的意图为“听写”开启模式。
分词处理可采用现有的分词算法完成,例如:基于字符串匹配的分词方法,基于理解的分词方法和基于统计的分词方法,具体的实现过程请参见现有分词算法的要求,在此不再详细描述。
输入模块100,用于在学习状态下时时获取用户输入的语音;
解析模块200,进一步用于将时时获取语音信息转化成文本信息;对文本信息进行分词,得到语音信息中的主体词语;匹配主体词语对应的语音的意图;
开启模块300,用于当意图与“听写”意图正则表达式匹配时,开启“听写”功能模式。
在以上的技术方案中,同一词性的词语建立词语库,相当于增加该词语的维度,使其词库更加丰富,方便用户的使用,提高用于的使用率,使该功能为提高学生的成绩提供有力的保障。
一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,其特征在于,计算机程序被处理器执行时实现上述一个根据意图启动听写状态的方法任一实施例的步骤。
本实施例中,既可对语料中各主体词语的逻辑关系进行处理,也可针对匹配到的多个平行关系的意图进行处理,使识别出来的目标意图更能靠近用户的真实意图,提高终端设备(例如:家教学习机)的智能化,从而提高用户的使用体验。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序单元或模块,以完成以上描述的全部或者部分功能。实施例中的各程序模块可以集成在一个处理单元中,也可是各个单元单独物理存在,也可以两个或两个以上单元集成在一个处理单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件程序单元的形式实现。另外,各程序模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
图5是本发明一个实施例中提供的终端设备5的结构示意图。如图4所示,本实施例的终端设备5包括:处理器53、存储器51以及存储在存储器51中并可在处理器53上运行的计算机程序52,例如:根据意图启动听写状态的程序。处理器53执行计算机程序52时实现上述各个根据意图启动听写状态的方法实施例中的步骤,或者,处理器53执行计算机程序52时实现上述各根据意图启动听写状态的装置实施例中各模块的功能。
终端设备5可以为桌上型计算机、笔记本、掌上电脑、平板型计算机、手机、家教学习机等设备。终端设备5可包括,但不仅限于,处理器53、存储器51。本领域技术人员可以理解,图5仅仅是终端设备的示例,并不构成对终端设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如:终端设备还可以包括输入输出设备、显示设备、网络接入设备、总线等。
处理器53可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器51可以是终端设备5的内部存储单元,例如:终端设备的硬盘或内存。存储器也可以是终端设备的外部存储设备,例如:终端设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器51还可以既包括终端设备5的内部存储单元也包括外部存储设备。存储器51用于存储计算机程序52以及终端设备5所需要的其他程序和数据。存储器还可以用于暂时地存储已经输出或者将要输出的数据。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述或记载的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/终端设备和方法,可以通过其他的方式实现。例如,以上所描述的装置/终端设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性、机械或其他的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可能集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序发送指令给相关的硬件完成,的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括:计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如:在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
应当说明的是,上述实施例均可根据需要自由组合。以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (9)
1.一种根据意图启动听写状态的方法,其特征在于,包括步骤:
步骤S100:在学习状态下时时获取用户输入的语音;所述语音通过终端设备的麦克风获取;所述学习状态通过外设摄像头进行获取;
步骤S200:对所述语音进行解析,得到所述语音的意图;所述语音包括非预设的指令;
步骤S300:当所述意图与“听写”意图正则表达式匹配时,开启“听写”功能模式;所述开启“听写”功能模式对应多种并列意图的所述“听写”意图正则表达。
2.根据权利要求1所述的根据意图启动听写状态的方法,其特征在于,所述“听写”意图正则表达式的构建包括步骤:
步骤S010:在学习状态下收集多用户的语料;
步骤S020:分拣出与“听写”相关的句子;
步骤S030:对所述“听写”相关的句子进行特征词的提取,并构建所述“听写”意图正则表达式以及“听写”词库。
3.根据权利要求2所述的根据意图启动听写状态的方法,其特征在于,所述步骤S030中进行特征词的提取包括步骤:
步骤S031:对所述“听写”相关的句子进行分词,得到相关的词语,并对所述词语标注词性;
步骤S032:在不改变所述“听写”相关的句子意图的条件下,根据所述词语的词性以及多种组合位置关系,建立所述“听写”意图正则表达式,以及与所述词语相关的词库。
4.根据权利要求1所述的根据意图启动听写状态的方法,其特征在于,所述步骤S200包括步骤:
步骤S210:将时时获取所述语音信息转化成文本信息;
步骤S220:对所述文本信息进行分词,得到所述语音信息中的主体词语;
步骤S230:匹配所述主体词语对应的所述语音的意图。
5.一种根据意图启动听写状态的装置,其特征在于,包括:
输入模块,用于在学习状态下时时获取用户输入的语音;所述语音通过终端设备的麦克风获取;所述学习状态通过外设摄像头进行获取;
解析模块,用于对所述语音进行解析,得到所述语音的意图;所述语音包括非预设的指令;
开启模块,用于当所述意图与“听写”意图正则表达式匹配时,开启“听写”功能模式;所述开启“听写”功能模式对应多种并列意图的所述“听写”意图正则表达。
6.根据权利要求5所述的根据意图启动听写状态的装置,其特征在于,在所述输入模块之前还包括:
收集模块,在学习状态下收集多用户的语料;
分拣模块,分拣出与“听写”相关的句子;
构建模块,对所述“听写”相关的句子进行特征词的提取,并构建所述“听写”意图正则表达式以及“听写”词库。
7.根据权利要求6所述的根据意图启动听写状态的装置,其特征在于,包括:
所述构建模块,进一步用于对所述“听写”相关的句子进行分词,得到相关的词语,并对所述词语标注词性;在不改变所述“听写”相关的句子意图的条件下,根据所述词语的词性以及多种组合位置关系,建立所述“听写”意图正则表达式,以及与所述词语相关的词库。
8.根据权利要求5所述的根据意图启动听写状态的装置,其特征在于,包括:
所述解析模块,进一步用于将时时获取所述语音信息转化成文本信息;对所述文本信息进行分词,得到所述语音信息中的主体词语;匹配所述主体词语对应的所述语音的意图。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述根据意图启动听写状态的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910291333.7A CN111833846B (zh) | 2019-04-12 | 2019-04-12 | 一种根据意图启动听写状态的方法和装置,及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910291333.7A CN111833846B (zh) | 2019-04-12 | 2019-04-12 | 一种根据意图启动听写状态的方法和装置,及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111833846A CN111833846A (zh) | 2020-10-27 |
CN111833846B true CN111833846B (zh) | 2023-06-02 |
Family
ID=72915248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910291333.7A Active CN111833846B (zh) | 2019-04-12 | 2019-04-12 | 一种根据意图启动听写状态的方法和装置,及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111833846B (zh) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6795806B1 (en) * | 2000-09-20 | 2004-09-21 | International Business Machines Corporation | Method for enhancing dictation and command discrimination |
KR20140116642A (ko) * | 2013-03-25 | 2014-10-06 | 삼성전자주식회사 | 음성 인식 기반의 기능 제어 방법 및 장치 |
CN109360557A (zh) * | 2018-10-10 | 2019-02-19 | 腾讯科技(北京)有限公司 | 语音控制应用程序的方法、装置和计算机设备 |
CN109388700A (zh) * | 2018-10-26 | 2019-02-26 | 广东小天才科技有限公司 | 一种意图识别方法及系统 |
CN109558511A (zh) * | 2018-12-12 | 2019-04-02 | 广东小天才科技有限公司 | 一种听写报读方法及装置 |
CN109460209B (zh) * | 2018-12-20 | 2022-03-01 | 广东小天才科技有限公司 | 一种听写报读进度的控制方法及电子设备 |
-
2019
- 2019-04-12 CN CN201910291333.7A patent/CN111833846B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN111833846A (zh) | 2020-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109918676B (zh) | 一种检测意图正则表达式的方法及装置、终端设备 | |
CN107481720B (zh) | 一种显式声纹识别方法及装置 | |
CN110517689B (zh) | 一种语音数据处理方法、装置及存储介质 | |
CN100578614C (zh) | 用语音应用语言标记执行的语义对象同步理解 | |
WO2022095380A1 (zh) | 基于ai的虚拟交互模型生成方法、装置、计算机设备及存储介质 | |
US10192544B2 (en) | Method and system for constructing a language model | |
CN110597952A (zh) | 信息处理方法、服务器及计算机存储介质 | |
US20160247068A1 (en) | System and method for automatic question answering | |
US9613093B2 (en) | Using question answering (QA) systems to identify answers and evidence of different medium types | |
CN107463700B (zh) | 用于获取信息的方法、装置及设备 | |
JP2017534941A (ja) | オーファン発話検出システム及び方法 | |
CN109582825B (zh) | 用于生成信息的方法和装置 | |
CN109979450B (zh) | 信息处理方法、装置及电子设备 | |
CN111897511A (zh) | 一种语音绘图方法、装置、设备及存储介质 | |
CN113342948A (zh) | 一种智能问答方法及装置 | |
CN111898382A (zh) | 一种命名实体识别方法、装置和用于命名实体识别的装置 | |
CN111444321B (zh) | 问答方法、装置、电子设备和存储介质 | |
CN114064943A (zh) | 会议管理方法、装置、存储介质及电子设备 | |
CN109948155B (zh) | 一种多意图的选择方法及装置、终端设备 | |
US10282417B2 (en) | Conversational list management | |
WO2019228140A1 (zh) | 指令执行方法、装置、存储介质及电子设备 | |
CN111833846B (zh) | 一种根据意图启动听写状态的方法和装置,及存储介质 | |
KR102357313B1 (ko) | 비디오 콘텐츠에 포함된 오디오 데이터를 기반으로 색인어를 설정하는 전자 장치의 콘텐츠 인덱싱 방법 | |
CN110399468A (zh) | 一种数据处理方法、装置和用于数据处理的装置 | |
CN114138960A (zh) | 用户意图识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |