CN106653013B - 语音识别方法及装置 - Google Patents
语音识别方法及装置 Download PDFInfo
- Publication number
- CN106653013B CN106653013B CN201610875665.6A CN201610875665A CN106653013B CN 106653013 B CN106653013 B CN 106653013B CN 201610875665 A CN201610875665 A CN 201610875665A CN 106653013 B CN106653013 B CN 106653013B
- Authority
- CN
- China
- Prior art keywords
- voice data
- command word
- command
- client
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Abstract
本发明提供了一种语音识别方法及装置。所述方法包括:接收语音数据;判断所述语音数据是否属于用于触发所述客户端的特定功能的命令词类,所述命令词类包括由词或词的组合构成的多个命令词;当所述语音数据属于所述命令词类时,在所述命令词类中确定出与所述语音数据对应的命令词,并触发所述命令词对应的特定功能;当所述语音数据不属于所述命令词类时,将包含所述语音数据的操作指令上传至网络侧,由所述网络侧识别出所述语音数据对应的文字内容,并根据所述操作指令执行相应操作。该技术方案能够避免用户连续输入不同类型的语音数据时需在不同语音识别方式间来回切换的情况,极大地提升了用户对客户端语音识别功能的使用体验。
Description
技术领域
本发明涉及语音处理技术领域,特别是涉及一种语音识别方法及装置。
背景技术
语音识别通常支持命令词匹配和在线语音识别两种模式。其中,命令词匹配指用户预先定义几个词作为命令词,当终端接收到用户输入的语音数据时,从预先定义的多个命令词中匹配出与该语音数据对应的词。可以看出,命令词匹配仅能匹配出预先定义的几个命令词,其主要用于唤醒、触发终端上的特定功能。而在线语音识别则是由终端将接收到的语音数据上传至网络侧,利用网络侧的声音模型对语音数据进行识别。因此,在线语音识别可识别出任意的词,识别结果可用于终端执行搜索、书写、人机对话等操作。
现有的语音助手类软件或者含有语音输入功能的软件中,都只单方面支持上述两种模式中的一种模式,而不支持另一种模式。即将命令词匹配和在线语音识别分开使用。用户在使用这类软件输入语音数据时,要么切换到命令词场景中,要么切换到在线语音听写场景中。例如,用户想要通过语音输入功能触发终端上的某一特定功能,则需首先将终端的语音识别模式切换到命令词场景中;当成功触发该特定功能后,假如用户又想通过语音输入的方式向好友打电话,则需将终端的语音识别模式从命令词场景中切换到语音拨号场景(即在线语音识别场景)中。显然,上述语音识别方式需要用户来回在不同场景间切换,操作起来十分麻烦,极大地降低了用户使用语音识别功能的体验度。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的语音识别方法及装置。
依据本发明的一个方面,提供了一种语音识别方法,应用于客户端,所述方法包括:
接收语音数据;
判断所述语音数据是否属于用于触发所述客户端的特定功能的命令词类,所述命令词类包括由词或词的组合构成的多个命令词;
当所述语音数据属于所述命令词类时,在所述命令词类中确定出与所述语音数据对应的命令词,并触发所述命令词对应的特定功能;
当所述语音数据不属于所述命令词类时,将包含所述语音数据的操作指令上传至网络侧,由所述网络侧识别出所述语音数据对应的文字内容,并根据所述操作指令执行相应操作。
可选地,判断所述语音数据是否属于用于触发所述客户端的特定功能的命令词类,包括:
获取所述客户端预设的命令词类;
将所述语音数据与所述命令词类进行匹配,以判断出所述命令词类中是否包含与所述语音数据相匹配的命令词;
当所述命令词类中包含与所述语音数据相匹配的命令词时,确定所述语音数据属于所述命令词类。
可选地,将所述语音数据与所述命令词类进行匹配,以判断出所述命令词类中是否包含与所述语音数据相匹配的命令词,包括:
利用所述客户端预存的语言模型确定所述语音数据对应的语言文字;
计算所述语言文字与所述命令词类中的各命令词之间相匹配的置信度;
当置信度最高值大于或等于预设阈值时,确定所述命令词类中包含与所述语音数据相匹配的命令词。
可选地,在所述命令词类中确定出与所述语音数据对应的命令词,包括:
将所述置信度最高值对应的命令词确定为所述语音数据对应的命令词。
可选地,当所述语音数据属于所述命令词类时,所述方法还包括:
判断所述语音数据是否为具有语义的词或词的组合;
当所述语音数据为具有语义的词或词的组合时,将所述语音数据上传至所述网络侧进行识别,并从所述网络侧获取识别出的所述语音数据对应的文字内容;
显示用于选择的多个选项,所述多个选项包括所述命令词对应的选项以及所述文字内容对应的选项;
当接收到针对所述多个选项中任一选项的选择操作时,根据所述选择操作执行相应操作。
可选地,根据所述选择操作执行相应操作,包括:
当接收到用户对所述命令词对应的选项的选择操作时,触发所述命令词对应的特定功能;
当接收到用户对所述文字内容对应的选项的选择操作时,根据所述文字内容执行相应的操作。
可选地,触发所述命令词对应的特定功能,包括:
根据所述命令词类中各命令词和所述客户端的特定功能之间的对应关系,确定所述语音数据对应的命令词所对应的特定功能;
触发所述确定的特定功能。
可选地,当所述操作指令包括在搜索引擎中的输入指令时,所述方法还包括:
接收由所述网络侧返回的所述语音数据对应的文字内容;
将所述文字内容输入至所述搜索引擎中的输入框内并进行搜索。
依据本发明的另一个方面,提供了一种语音识别装置,应用于客户端,所述装置包括:
第一接收模块,适于接收语音数据;
第一判断模块,适于判断所述语音数据是否属于用于触发所述客户端的特定功能的命令词类,所述命令词类包括由词或词的组合构成的多个命令词;
触发模块,适于当所述语音数据属于所述命令词类时,在所述命令词类中确定出与所述语音数据对应的命令词,并触发所述命令词对应的特定功能;
第一上传模块,适于当所述语音数据不属于所述命令词类时,将包含所述语音数据的操作指令上传至网络侧,由所述网络侧识别出所述语音数据对应的文字内容,并根据所述操作指令执行相应操作。
可选地,所述第一判断模块还适于:
获取所述客户端预设的命令词类;
将所述语音数据与所述命令词类进行匹配,以判断出所述命令词类中是否包含与所述语音数据相匹配的命令词;
当所述命令词类中包含与所述语音数据相匹配的命令词时,确定所述语音数据属于所述命令词类。
可选地,所述第一判断模块还适于:
利用所述客户端预存的语言模型确定所述语音数据对应的语言文字;
计算所述语言文字与所述命令词类中的各命令词之间相匹配的置信度;
当置信度最高值大于或等于预设阈值时,确定所述命令词类中包含与所述语音数据相匹配的命令词。
可选地,所述触发模块还适于:
将所述置信度最高值对应的命令词确定为所述语音数据对应的命令词。
可选地,所述装置还包括:
第二判断模块,适于当所述语音数据属于所述命令词类时,判断所述语音数据是否为具有语义的词或词的组合;
第二上传模块,适于当所述语音数据为具有语义的词或词的组合时,将所述语音数据上传至所述网络侧进行识别,并从所述网络侧获取识别出的所述语音数据对应的文字内容;
显示模块,适于显示用于选择的多个选项,所述多个选项包括所述命令词对应的选项以及所述文字内容对应的选项;
执行模块,适于当接收到针对所述多个选项中任一选项的选择操作时,根据所述选择操作执行相应操作。
可选地,所述执行模块还适于:
当接收到用户对所述命令词对应的选项的选择操作时,触发所述命令词对应的特定功能;
当接收到用户对所述文字内容对应的选项的选择操作时,根据所述文字内容执行相应的操作。
可选地,所述触发模块还适于:
根据所述命令词类中各命令词和所述客户端的特定功能之间的对应关系,确定所述语音数据对应的命令词所对应的特定功能;
触发所述确定的特定功能。
可选地,所述装置还包括:
第二接收模块,适于当所述操作指令包括在搜索引擎中的输入指令时,接收由所述网络侧返回的所述语音数据对应的文字内容;
输入模块,适于将所述文字内容输入至所述搜索引擎中的输入框内并进行搜索。
采用本发明实施例提供的技术方案,能够在接收到语音数据后判断该语音数据是否属于用户触发客户端的特定功能的命令词类,当属于命令词类时从命令词类中确定出与语音数据对应的命令词,并触发命令词对应的特定功能,当不属于命令词类时将包含语音数据的操作指令上传至网络侧,由网络侧识别出语音数据对应的文字内容,并根据操作指令执行相应操作,使得客户端能够在接收到语音数据后自动判断出语音数据是否属于命令词类,从而确定出用户输入语音数据的意图是触发客户端的特定功能还是通过网络侧进行其他操作,进而根据用户输入语音数据的意图选择本地识别语音数据或者在线识别语音数据,避免了用户连续输入不同类型的语音数据时需在不同语音识别方式(即不同的语音识别场景)之间来回切换的情况,极大地提升了用户对客户端语音识别功能的使用体验。此外,该技术方案在接收到语音数据时优先判断语音数据是否属于命令词类,这是由于通过网络侧在线识别语音数据时需要连网,有可能出现因网络不好或者网络丢包等问题导致无法在线识别语音数据的情况,使得语音数据的识别效率大大降低,因此,优先判断是否属于命令词类的方案能够使客户端优先选用本地识别的方式,仅在语音数据不属于命令词类时再使用在线识别方式,在一定程度上提高了语音识别的效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
根据下文结合附图对本发明具体实施例的详细描述,本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是根据本发明一个实施例的一种语音识别方法的示意性流程图;
图2是根据本发明一个实施例的一种语音识别方法中客户端的界面示意图;
图3是根据本发明另一个实施例的一种语音识别方法中客户端的界面示意图;
图4是根据本发明一个实施例的一种语音识别装置的示意性框图;
图5是根据本发明另一个实施例的一种语音识别装置的示意性框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1是根据本发明一个实施例的一种语音识别方法的示意性流程图。如图1所示,该方法应用于客户端,其一般性地可包括以下步骤S101-S104:
步骤S101,接收语音数据。
步骤S102,判断语音数据是否属于用于触发客户端的特定功能的命令词类。当语音数据属于命令词类时,执行步骤S103;当语音数据不属于命令词类时,执行步骤S104。
其中,命令词类包括由词或词的组合构成的多个命令词。例如,命令词“开启”用于触发客户端启动进程,命令词“清理垃圾”用于触发客户端执行清理垃圾功能。命令词类中的多个命令词可预先设定并存储在客户端中,且与各自用于触发的特定功能对应存储。命令词可以是任意词或词的组合,包括有意义的词或词的组合,例如“清理垃圾”,也包括无意义的词或词的组合,例如“清拉”。
步骤S103,在命令词类中确定出与语音数据对应的命令词,并触发命令词对应的特定功能。
步骤S104,将包含语音数据的操作指令上传至网络侧,由网络侧识别出语音数据对应的文字内容,并根据操作指令执行相应操作。
采用本发明实施例提供的技术方案,能够在接收到语音数据后判断该语音数据是否属于用户触发客户端的特定功能的命令词类,当属于命令词类时从命令词类中确定出与语音数据对应的命令词,并触发命令词对应的特定功能,当不属于命令词类时将包含语音数据的操作指令上传至网络侧,由网络侧识别出语音数据对应的文字内容,并根据操作指令执行相应操作,使得客户端能够在接收到语音数据后自动判断出语音数据是否属于命令词类,从而确定出用户输入语音数据的意图是触发客户端的特定功能还是通过网络侧进行其他操作,进而根据用户输入语音数据的意图选择本地识别语音数据或者在线识别语音数据,避免了用户连续输入不同类型的语音数据时需在不同语音识别方式(即不同的语音识别场景)之间来回切换的情况,极大地提升了用户对客户端语音识别功能的使用体验。此外,该技术方案在接收到语音数据时优先判断语音数据是否属于命令词类,这是由于通过网络侧在线识别语音数据时需要连网,有可能出现因网络不好或者网络丢包等问题导致无法在线识别语音数据的情况,使得语音数据的识别效率大大降低,因此,优先判断是否属于命令词类的方案能够使客户端优先选用本地识别的方式,仅在语音数据不属于命令词类时再使用在线识别方式,在一定程度上提高了语音识别的效率。
在接收到语音数据之后,可按照如下步骤判断语音数据是否属于用于触发客户端的特定功能的命令词类(即步骤S102):首先,获取客户端预设的命令词类;其次,将语音数据与命令词类进行匹配,以判断出命令词类中是否包含与语音数据相匹配的命令词;然后,当命令词类中包含与语音数据相匹配的命令词时,确定语音数据属于命令词类。
上述实施例中,在将语音数据与命令词类进行匹配时,需将语音数据对应的语言文字与命令词类进行匹配,具体实施步骤如下:首先,利用客户端预存的语言模型确定语音数据对应的语言文字;其中,客户端预存的语言模型中包括语音数据与语言文字的对应关系,利用该对应关系,可准确确定出用户输入的语音数据对应的语言文字。其次,计算语言文字与命令词类中的各命令词之间相匹配的置信度,当置信度最高值大于或等于预设阈值时,确定命令词类中包含与语音数据相匹配的命令词。并且,置信度最高值对应的命令词即确定为语音数据对应的命令词。反之,当语音数据对应的语言文字与各命令词之间相匹配的置信度均小于预设阈值,则确定命令词类中不包含与语音数据相匹配的命令词,该语音数据不属于命令词类。其中,置信度即为可靠度,其允许语音数据对应的语言文字与命令词匹配时存在一定范围的误差,通常情况下,该误差值较小,不会对语音数据是否属于命令词类的判断结果产生影响。因此,预设阈值可设置为一个较高的值,例如将预设阈值设为95%,即允许有5%的匹配误差。例如,命令词类中包括三个命令词,语音数据对应的语言文字与各命令词之间相匹配的置信度分比为50%、20%、99%,由于置信度最高值(即99%)大于预设阈值95%,因此,可确定命令词类中包含与语音数据相匹配的命令词。此外,将语言文字与命令词进行匹配的方法为现有技术,在此不再赘述。
以下通过一具体实施例说明如何判断语音数据是否属于命令词类。在该具体实施例中,客户端预设的命令词类包括“清理垃圾”、“退出”、“体检”等命令词,且命令词“清理垃圾”与客户端的特定功能“清理系统垃圾”相对应,命令词“退出”与客户端的特定功能“退出进程”相对应,命令词“体检”与客户端的特定功能“立即体检”相对应。将语音数据与命令词类进行匹配时,首先利用客户端预存的语言模型确定出语音数据对应的语言文字,假设确定出语音数据对应的语言文字为“体检”;然后计算语言文字与命令词类中的各命令词之间相匹配的置信度,当语言文字为“体检”时,与各命令词之间相匹配的置信度分别为:与命令词“清理垃圾”之间相匹配的置信度为0%,与命令词“退出”之间相匹配的置信度为0%,与命令词“体检”之间相匹配的置信度为100%;由各置信度可看出,语音数据对应的语言文字与命令词“体检”之间完全匹配,其匹配的置信度必然大于预设阈值。因此,可确定语音数据属于命令词类,并且,命令词“体检”即被确定为语音数据对应的命令词。
当确定出语音数据属于命令词类、且在命令词类中确定出与语音数据对应的命令词之后,触发命令词对应的特定功能。在一个实施例中,可按照如下步骤触发命令词对应的特定功能:首先,根据命令词类中各命令词和客户端的特定功能之间的对应关系,确定语音数据对应的命令词所对应的特定功能;其次,触发确定的特定功能。例如,命令词“清理垃圾”与客户端的特定功能“清理系统垃圾”相对应,命令词“退出”与客户端的特定功能“退出进程”相对应,命令词“体检”与客户端的特定功能“立即体检”相对应,等等。当语音数据对应的命令词为“退出”时,根据各命令词和客户端的特定功能之间的对应关系可确定出命令词“退出”对应的特定功能为“退出进程”,因此,客户端根据命令词“退出”执行退出进程的操作。
当命令词类中不包含与语音数据相匹配的命令词时,可确定语音数据不属于命令词类,此时采取在线识别方式来识别语音数据。即,将包含语音数据的操作指令上传至网络侧,由网络侧识别出语音数据对应的文字内容,并根据操作指令执行相应操作。其中,操作指令可包括输入指令、查询指令、人机对话指令等等。输入指令即为在客户端当前显示的界面或输入框内输入语音数据对应的文字内容的指令,查询指令即为通过网络侧查询语音数据对应的相关问题的指令。以下分别针对各操作指令说明网络侧如何执行相应操作。
当操作指令包括输入指令时,例如,操作指令为在搜索引擎中的输入指令,此时,网络侧根据该输入指令,将识别出的语音数据对应的文字内容返回至客户端,客户端接收由网络侧返回的语音数据对应的文字内容,并将该文字内容输入至搜索引擎中的输入框内并进行搜索。例如,网络侧识别出语音数据对应的文字内容为“北京旅游”,并根据输入指令将文字内容“北京旅游”返回至客户端,客户端接收到该文字内容时,就会在搜索引擎的输入框内输入文字内容“北京旅游”,并以“北京旅游”为关键词进行搜索,将搜索到的有关北京旅游的相关信息显示在搜索结果页面上。此外,输入指令还可以是在客户端中的书写板上进行书写的指令,此时,网络侧将识别出的语音数据对应的文字内容返回至客户端,客户端接收到该文字内容后,将该文字内容输入至书写板上。
当操作指令包括查询指令(即通过网络侧查询语音数据对应的相关问题的指令)时,网络侧根据识别出的语音数据对应的文字内容,在网络侧的数据库中查询文字内容对应的相关问题,并将相关问题的答案返回至客户端。例如,网络侧识别出语音数据对应的文字内容为“北京天气怎么样”,则网络侧在数据库中查询到有关北京天气的相关信息,然后将有关北京天气的相关信息返回至客户端,由客户端在本地输出接收到的相关信息。其中,信息输出方式包括多种,例如将有关北京天气的相关信息采用文字输出方式输出在当前界面的预设位置,或者将有关北京天气的相关信息采用语音输出方式进行播报,等等。
当操作指令包括人机对话指令时,网络侧根据识别出的语音数据对应的文字内容,并对文字内容进行语义识别,然后根据识别到的语义将文字内容的对话内容返回至客户端,由客户端输出对话内容,对话内容的输出方式通常采用语音输出方式进行播报,也可采用语音输出方式和文字输出方式结合的方式。
以上列举了三种不同操作方式下网络侧所执行的相应操作,需要说明的是,操作指令并不仅限于上述三种,操作指令可以是客户端所具有的任一语音输入功能能够执行的操作指令。
在一个实施例中,当确定出语音数据属于命令词类时,还可执行以下步骤:首先判断语音数据是否为具有语义的词或词的组合;其中,判断语音数据是否为具有与语义的词或词的组合时,可利用本地预存的语言模型确定语音数据对应的语言文字,并判断语音数据对应的语言文字是否为具有语义(即具有逻辑性)的词或词的组合,当语音数据对应的语言文字为具有语义的词或词的组合时,确定语音数据为具有语义的词或词的组合。其次,当语音数据为具有语义的词或词的组合时,将语音数据上传至网络侧进行识别,并从网络侧获取识别出的语音数据对应的文字内容。然后,显示用于选择的多个选项,多个选项包括命令词对应的选项以及文字内容对应的选项。最后,当接收到针对多个选项中任一选项的选择操作时,根据选择操作执行相应操作。
具体地,当接收到用户对命令词对应的选项的选择操作时,触发命令词对应的特定功能;当接收到用户对文字内容对应的选项的选择操作时,根据文字内容执行相应的操作。
举例而言,假设语音数据对应的文字内容为“清理垃圾”。图2示出了客户端显示多个选项的界面示意图,在图2中,客户端界面20上显示有以下三个选项:本地识别命令词“清理垃圾”、在线识别文字内容“清理垃圾”以及取消选项。当用户选择本地识别命令词“清理垃圾”选项时,客户端根据用户的选择操作触发命令词“清理垃圾”对应的特定功能;当用户选择在线识别文字内容“清理垃圾”选项时,客户端根据用户的选择操作执行与文字内容相应的操作,例如在搜索引擎的输入框内输入文字“清理垃圾”并搜索;当用户选择取消选项时,客户端根据用户的选择操作取消当前语音识别的操作。
此外,命令词对应的选项以及文字内容对应的选项还可以按照其各自对应的执行操作来显示。仍以图2所示的实施例为例,图3示出了按照不同识别方式所执行的不同操作来显示选项的界面示意图,在图3中,客户端的界面30上显示有以下三个选项:清理系统垃圾、在输入框内输入“清理垃圾”以及取消选项,其中,清理系统垃圾选项即为本地识别命令词对应的选项,在输入框内输入“清理垃圾”选项即为在线识别文字内容对应的选项。当用户选择清理系统垃圾时,客户端根据用户的选择操作清理系统垃圾;当用户选择在输入框内输入“清理垃圾”选项时,客户端根据用户的选择操作在输入框内输入文字“清理垃圾”并搜索;当用户选择取消选项时,客户端根据用户的选择操作取消当前语音识别的操作。
该实施例中,能够在语音数据属于命令词、且该语音数据为具有语义的词或词的组合时,同时执行本地识别及在线识别两种方式,并将两种识别方式的识别结果显示给用户,由用户选择执行哪种操作,从而使客户端所执行的操作能够符合用户当前输入语音数据的需求,避免执行错误操作时给用户带来的不便。
图4是根据本发明一个实施例的一种语音识别装置的示意性框图。如图4所示,该装置应用于客户端,包括:
第一接收模块410,适于接收语音数据;
第一判断模块420,与第一接收模块410相耦合,适于判断所述语音数据是否属于用于触发所述客户端的特定功能的命令词类,所述命令词类包括由词或词的组合构成的多个命令词;
触发模块430,与第一判断模块420相耦合,适于当所述语音数据属于所述命令词类时,在所述命令词类中确定出与所述语音数据对应的命令词,并触发所述命令词对应的特定功能;
第一上传模块440,与第一判断模块420相耦合,适于当所述语音数据不属于所述命令词类时,将包含所述语音数据的操作指令上传至网络侧,由所述网络侧识别出所述语音数据对应的文字内容,并根据所述操作指令执行相应操作。
可选地,第一判断模块420还适于:
获取客户端预设的命令词类;
将语音数据与命令词类进行匹配,以判断出命令词类中是否包含与语音数据相匹配的命令词;
当命令词类中包含与语音数据相匹配的命令词时,确定语音数据属于命令词类。
可选地,第一判断模块420还适于:
利用客户端预存的语言模型确定语音数据对应的语言文字;
计算语言文字与命令词类中的各命令词之间相匹配的置信度;
当置信度最高值大于或等于预设阈值时,确定命令词类中包含与语音数据相匹配的命令词。
可选地,触发模块430还适于:
将置信度最高值对应的命令词确定为语音数据对应的命令词。
可选地,如图5所示,上述装置还包括:
第二判断模块450,与第一判断模块420相耦合,适于当语音数据属于命令词类时,判断语音数据是否为具有语义的词或词的组合;
第二上传模块460,与第二判断模块450相耦合,适于当语音数据为具有语义的词或词的组合时,将语音数据上传至网络侧进行识别,并从网络侧获取识别出的语音数据对应的文字内容;
显示模块470,与第二上传模块460相耦合,适于显示用于选择的多个选项,多个选项包括命令词对应的选项以及文字内容对应的选项;
执行模块480,与显示模块470相耦合,适于当接收到针对多个选项中任一选项的选择操作时,根据选择操作执行相应操作。
可选地,执行模块480还适于:
当接收到用户对命令词对应的选项的选择操作时,触发命令词对应的特定功能;
当接收到用户对文字内容对应的选项的选择操作时,根据文字内容执行相应的操作。
可选地,触发模块430还适于:
根据命令词类中各命令词和客户端的特定功能之间的对应关系,确定语音数据对应的命令词所对应的特定功能;
触发确定的特定功能。
可选地,上述装置还包括:
第二接收模块,与第一上传模块440相耦合,适于当操作指令包括在搜索引擎中的输入指令时,接收由网络侧返回的语音数据对应的文字内容;
输入模块,与第二接收模块相耦合,适于将文字内容输入至搜索引擎中的输入框内并进行搜索。
采用本发明实施例提供的装置,能够在接收到语音数据后判断该语音数据是否属于用户触发客户端的特定功能的命令词类,当属于命令词类时从命令词类中确定出与语音数据对应的命令词,并触发命令词对应的特定功能,当不属于命令词类时将包含语音数据的操作指令上传至网络侧,由网络侧识别出语音数据对应的文字内容,并根据操作指令执行相应操作,使得客户端能够在接收到语音数据后自动判断出语音数据是否属于命令词类,从而确定出用户输入语音数据的意图是触发客户端的特定功能还是通过网络侧进行其他操作,进而根据用户输入语音数据的意图选择本地识别语音数据或者在线识别语音数据,避免了用户连续输入不同类型的语音数据时需在不同语音识别方式(即不同的语音识别场景)之间来回切换的情况,极大地提升了用户对客户端语音识别功能的使用体验。此外,该技术方案在接收到语音数据时优先判断语音数据是否属于命令词类,这是由于通过网络侧在线识别语音数据时需要连网,有可能出现因网络不好或者网络丢包等问题导致无法在线识别语音数据的情况,使得语音数据的识别效率大大降低,因此,优先判断是否属于命令词类的方案能够使客户端优先选用本地识别的方式,仅在语音数据不属于命令词类时再使用在线识别方式,在一定程度上提高了语音识别的效率。
本领域的技术人员应可理解,图4和图5中的语音识别装置能够用来实现前文所述的语音识别方案,其中的细节描述应与前文方法部分描述类似,为避免繁琐,此处不另赘述。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的语音识别装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
至此,本领域技术人员应认识到,虽然本文已详尽示出和描述了本发明的多个示例性实施例,但是,在不脱离本发明精神和范围的情况下,仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此,本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。
Claims (14)
1.一种语音识别方法,应用于客户端,所述方法包括:
接收语音数据;
判断所述语音数据是否属于用于触发所述客户端的特定功能的命令词类,所述命令词类包括由词或词的组合构成的多个命令词;
当所述语音数据属于所述命令词类时,在所述命令词类中确定出与所述语音数据对应的命令词,并触发所述命令词对应的特定功能;
当所述语音数据不属于所述命令词类时,将包含所述语音数据的操作指令上传至网络侧,由所述网络侧识别出所述语音数据对应的文字内容,并根据所述操作指令执行相应操作;
其中,当所述语音数据属于所述命令词类时,所述方法还包括:
判断所述语音数据是否为具有语义的词或词的组合;
当所述语音数据为具有语义的词或词的组合时,将所述语音数据上传至所述网络侧进行识别,并从所述网络侧获取识别出的所述语音数据对应的文字内容;
显示用于选择的多个选项,所述多个选项包括所述命令词对应的选项以及所述文字内容对应的选项;
当接收到针对所述多个选项中任一选项的选择操作时,根据所述选择操作执行相应操作。
2.根据权利要求1所述的方法,其中,判断所述语音数据是否属于用于触发所述客户端的特定功能的命令词类,包括:
获取所述客户端预设的命令词类;
将所述语音数据与所述命令词类进行匹配,以判断出所述命令词类中是否包含与所述语音数据相匹配的命令词;
当所述命令词类中包含与所述语音数据相匹配的命令词时,确定所述语音数据属于所述命令词类。
3.根据权利要求2所述的方法,其中,将所述语音数据与所述命令词类进行匹配,以判断出所述命令词类中是否包含与所述语音数据相匹配的命令词,包括:
利用所述客户端预存的语言模型确定所述语音数据对应的语言文字;
计算所述语言文字与所述命令词类中的各命令词之间相匹配的置信度;
当置信度最高值大于或等于预设阈值时,确定所述命令词类中包含与所述语音数据相匹配的命令词。
4.根据权利要求3所述的方法,其中,在所述命令词类中确定出与所述语音数据对应的命令词,包括:
将所述置信度最高值对应的命令词确定为所述语音数据对应的命令词。
5.根据权利要求1所述的方法,其中,根据所述选择操作执行相应操作,包括:
当接收到用户对所述命令词对应的选项的选择操作时,触发所述命令词对应的特定功能;
当接收到用户对所述文字内容对应的选项的选择操作时,根据所述文字内容执行相应的操作。
6.根据权利要求1所述的方法,其中,触发所述命令词对应的特定功能,包括:
根据所述命令词类中各命令词和所述客户端的特定功能之间的对应关系,确定所述语音数据对应的命令词所对应的特定功能;
触发所述确定的特定功能。
7.根据权利要求1-6中任一项所述的方法,其中,当所述操作指令包括在搜索引擎中的输入指令时,所述方法还包括:
接收由所述网络侧返回的所述语音数据对应的文字内容;
将所述文字内容输入至所述搜索引擎中的输入框内并进行搜索。
8.一种语音识别装置,应用于客户端,所述装置包括:
第一接收模块,适于接收语音数据;
第一判断模块,适于判断所述语音数据是否属于用于触发所述客户端的特定功能的命令词类,所述命令词类包括由词或词的组合构成的多个命令词;
触发模块,适于当所述语音数据属于所述命令词类时,在所述命令词类中确定出与所述语音数据对应的命令词,并触发所述命令词对应的特定功能;
第一上传模块,适于当所述语音数据不属于所述命令词类时,将包含所述语音数据的操作指令上传至网络侧,由所述网络侧识别出所述语音数据对应的文字内容,并根据所述操作指令执行相应操作;
其中,所述装置还包括:
第二判断模块,适于当所述语音数据属于所述命令词类时,判断所述语音数据是否为具有语义的词或词的组合;
第二上传模块,适于当所述语音数据为具有语义的词或词的组合时,将所述语音数据上传至所述网络侧进行识别,并从所述网络侧获取识别出的所述语音数据对应的文字内容;
显示模块,适于显示用于选择的多个选项,所述多个选项包括所述命令词对应的选项以及所述文字内容对应的选项;
执行模块,适于当接收到针对所述多个选项中任一选项的选择操作时,根据所述选择操作执行相应操作。
9.根据权利要求8所述的装置,其中,所述第一判断模块还适于:
获取所述客户端预设的命令词类;
将所述语音数据与所述命令词类进行匹配,以判断出所述命令词类中是否包含与所述语音数据相匹配的命令词;
当所述命令词类中包含与所述语音数据相匹配的命令词时,确定所述语音数据属于所述命令词类。
10.根据权利要求9所述的装置,其中,所述第一判断模块还适于:
利用所述客户端预存的语言模型确定所述语音数据对应的语言文字;
计算所述语言文字与所述命令词类中的各命令词之间相匹配的置信度;
当置信度最高值大于或等于预设阈值时,确定所述命令词类中包含与所述语音数据相匹配的命令词。
11.根据权利要求10所述的装置,其中,所述触发模块还适于:
将所述置信度最高值对应的命令词确定为所述语音数据对应的命令词。
12.根据权利要求8所述的装置,其中,所述执行模块还适于:
当接收到用户对所述命令词对应的选项的选择操作时,触发所述命令词对应的特定功能;
当接收到用户对所述文字内容对应的选项的选择操作时,根据所述文字内容执行相应的操作。
13.根据权利要求8所述的装置,其中,所述触发模块还适于:
根据所述命令词类中各命令词和所述客户端的特定功能之间的对应关系,确定所述语音数据对应的命令词所对应的特定功能;
触发所述确定的特定功能。
14.根据权利要求8-13中任一项所述的装置,其中,所述装置还包括:
第二接收模块,适于当所述操作指令包括在搜索引擎中的输入指令时,接收由所述网络侧返回的所述语音数据对应的文字内容;
输入模块,适于将所述文字内容输入至所述搜索引擎中的输入框内并进行搜索。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610875665.6A CN106653013B (zh) | 2016-09-30 | 2016-09-30 | 语音识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610875665.6A CN106653013B (zh) | 2016-09-30 | 2016-09-30 | 语音识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106653013A CN106653013A (zh) | 2017-05-10 |
CN106653013B true CN106653013B (zh) | 2019-12-20 |
Family
ID=58855084
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610875665.6A Active CN106653013B (zh) | 2016-09-30 | 2016-09-30 | 语音识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106653013B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102441067B1 (ko) * | 2017-10-12 | 2022-09-06 | 현대자동차주식회사 | 차량의 사용자 입력 처리 장치 및 사용자 입력 처리 방법 |
CN107895573B (zh) | 2017-11-15 | 2021-08-24 | 百度在线网络技术(北京)有限公司 | 用于识别信息的方法及装置 |
CN110299137B (zh) * | 2018-03-22 | 2023-12-12 | 腾讯科技(深圳)有限公司 | 语音交互方法和装置 |
CN108831475B (zh) * | 2018-05-24 | 2020-09-29 | 广州市千钧网络科技有限公司 | 一种文本消息提取方法及系统 |
CN109410927B (zh) * | 2018-11-29 | 2020-04-03 | 北京蓦然认知科技有限公司 | 离线命令词与云端解析结合的语音识别方法、装置和系统 |
CN110197663B (zh) * | 2019-06-30 | 2022-05-31 | 联想(北京)有限公司 | 一种控制方法、装置及电子设备 |
CN111243577B (zh) * | 2020-03-27 | 2022-04-19 | 四川虹美智能科技有限公司 | 语音交互方法及装置 |
CN113658601A (zh) * | 2021-08-18 | 2021-11-16 | 开放智能机器(上海)有限公司 | 语音交互方法、装置、终端设备、存储介质及程序产品 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102543071A (zh) * | 2011-12-16 | 2012-07-04 | 安徽科大讯飞信息科技股份有限公司 | 用于移动设备的语音识别系统和方法 |
CN102831157A (zh) * | 2012-07-04 | 2012-12-19 | 四川长虹电器股份有限公司 | 语意识别搜索的方法及系统 |
CN103531197A (zh) * | 2013-10-11 | 2014-01-22 | 安徽科大讯飞信息科技股份有限公司 | 一种对用户语音识别结果反馈的命令词识别自适应优化方法 |
CN104282301A (zh) * | 2013-07-09 | 2015-01-14 | 安徽科大讯飞信息科技股份有限公司 | 一种语音命令处理方法以及系统 |
CN104464723A (zh) * | 2014-12-16 | 2015-03-25 | 科大讯飞股份有限公司 | 一种语音交互方法及系统 |
CN104575494A (zh) * | 2013-10-16 | 2015-04-29 | 中兴通讯股份有限公司 | 一种语音处理的方法和终端 |
CN105719650A (zh) * | 2016-01-30 | 2016-06-29 | 深圳市尔木科技有限责任公司 | 一种语音识别的方法及系统 |
CN105824857A (zh) * | 2015-01-08 | 2016-08-03 | 中兴通讯股份有限公司 | 一种语音搜索方法、装置及终端 |
CN105931644A (zh) * | 2016-04-15 | 2016-09-07 | 广东欧珀移动通信有限公司 | 一种语音识别方法及移动终端 |
-
2016
- 2016-09-30 CN CN201610875665.6A patent/CN106653013B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102543071A (zh) * | 2011-12-16 | 2012-07-04 | 安徽科大讯飞信息科技股份有限公司 | 用于移动设备的语音识别系统和方法 |
CN102831157A (zh) * | 2012-07-04 | 2012-12-19 | 四川长虹电器股份有限公司 | 语意识别搜索的方法及系统 |
CN104282301A (zh) * | 2013-07-09 | 2015-01-14 | 安徽科大讯飞信息科技股份有限公司 | 一种语音命令处理方法以及系统 |
CN103531197A (zh) * | 2013-10-11 | 2014-01-22 | 安徽科大讯飞信息科技股份有限公司 | 一种对用户语音识别结果反馈的命令词识别自适应优化方法 |
CN104575494A (zh) * | 2013-10-16 | 2015-04-29 | 中兴通讯股份有限公司 | 一种语音处理的方法和终端 |
CN104464723A (zh) * | 2014-12-16 | 2015-03-25 | 科大讯飞股份有限公司 | 一种语音交互方法及系统 |
CN105824857A (zh) * | 2015-01-08 | 2016-08-03 | 中兴通讯股份有限公司 | 一种语音搜索方法、装置及终端 |
CN105719650A (zh) * | 2016-01-30 | 2016-06-29 | 深圳市尔木科技有限责任公司 | 一种语音识别的方法及系统 |
CN105931644A (zh) * | 2016-04-15 | 2016-09-07 | 广东欧珀移动通信有限公司 | 一种语音识别方法及移动终端 |
Also Published As
Publication number | Publication date |
---|---|
CN106653013A (zh) | 2017-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106653013B (zh) | 语音识别方法及装置 | |
KR101909807B1 (ko) | 메시지 입력 방법 및 장치 | |
US11322153B2 (en) | Conversation interaction method, apparatus and computer readable storage medium | |
US11138388B2 (en) | Method and system for facilitating a user-machine conversation | |
US10846475B2 (en) | Emoji input method and device thereof | |
CN109348275B (zh) | 视频处理方法和装置 | |
CN109309751B (zh) | 语音记录方法、电子设备及存储介质 | |
WO2016150083A1 (zh) | 一种信息输入方法和装置 | |
WO2020253064A1 (zh) | 语音的识别方法及装置、计算机设备、存储介质 | |
CN106571140A (zh) | 一种基于语音语义的电器智能控制方法及系统 | |
CN111949240A (zh) | 交互方法、存储介质、服务程序和设备 | |
CN109637548A (zh) | 基于声纹识别的语音交互方法及装置 | |
CN108039175B (zh) | 语音识别方法、装置及服务器 | |
CN107357578B (zh) | 一种基于移动终端的社交软件的快捷搜索方法及装置 | |
CN110459211A (zh) | 人机对话方法、客户端、电子设备及存储介质 | |
CN111125314B (zh) | 书籍查询页面的展示方法、电子设备及计算机存储介质 | |
CN109473104A (zh) | 语音识别网络延时优化方法及装置 | |
CN112286485B (zh) | 通过语音控制应用的方法、装置、电子设备与存储介质 | |
CN113806503A (zh) | 一种对话融合方法和装置及设备 | |
CN111540355A (zh) | 基于语音助手的个性化设置方法和设备 | |
CN110187780B (zh) | 长文本预测方法、装置、设备和存储介质 | |
CN110929014B (zh) | 信息处理方法、装置、电子设备及存储介质 | |
CN109871128B (zh) | 一种题型识别方法及装置 | |
CN115658875B (zh) | 基于聊天服务的数据处理方法及相关产品 | |
CN105893402A (zh) | 用于终端设备的信息展现方法和终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220715 Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015 Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd. Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park) Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd. Patentee before: Qizhi software (Beijing) Co.,Ltd. |