CN105931644A - 一种语音识别方法及移动终端 - Google Patents
一种语音识别方法及移动终端 Download PDFInfo
- Publication number
- CN105931644A CN105931644A CN201610239553.1A CN201610239553A CN105931644A CN 105931644 A CN105931644 A CN 105931644A CN 201610239553 A CN201610239553 A CN 201610239553A CN 105931644 A CN105931644 A CN 105931644A
- Authority
- CN
- China
- Prior art keywords
- voice
- unrecognized
- segment
- speech
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 239000012634 fragment Substances 0.000 claims description 48
- 238000007796 conventional method Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 7
- 241001672694 Citrus reticulata Species 0.000 description 3
- 230000001174 ascending effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例公开了一种语音识别方法及移动终端,其中语音识别方法可包括:对接收到的语音消息进行语音识别,获取未识别语音片段;判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本;若判断结果为是,根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。采用本发明实施例,可从本地语音库中查找匹配的样本来识别传统方法无法识别的语音片段,从而有效提高语音识别率。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种语音识别方法及移动终端。
背景技术
伴随着电子技术的迅速发展,移动终端的发展速度越来越快,功能也越来越多。如今市场上的大多数移动终端都具备语音识别功能,可识别用户发出的语音指令,并根据用户的指令执行相应的操作。
在现有技术中,移动终端只能识别一些通用的语言,例如普通话、英文等,并且,移动终端只能识别发音标准的语言,若用户发音不标准,可能导致无法识别。而在实际使用过程中,由于地域、口音、习惯等原因,许多用户的发音不标准,或者在通用语言中夹杂着方言,导致移动终端无法成功识别语音。由此可见,现有语音识别技术的识别率较低,亟需开发一种提高识别率的语音识别方法。
发明内容
本发明实施例提供一种语音识别方法及移动终端,可提高语音识别率。
本发明实施例第一方面提供了一种语音识别方法,可包括:
对接收到的语音消息进行语音识别,获取未识别语音片段;
判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本;
若判断结果为是,根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。
在一些可行的实施方式中,所述判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本之后,所述语音识别方法还包括:
若判断结果为否,则再次识别所述未识别语音片段;或者,
若判断结果为否,向服务器发送所述未识别语音片段以及语音识别请求;
接收所述服务器返回的所述未识别语音片段的语音识别结果。
在一些可行的实施方式中,所述判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本之后,所述语音识别方法还包括:
若判断结果为否,则生成提示信息,所述提示信息用于提示用户输入所述未识别语音片段的语义;
接收用户输入的文字信息,并根据所述文字信息确定所述未识别语音片段的识别结果。
在一些可行的实施方式中,所述接收用户输入的文字信息之后,所述语音识别方法还包括:
将所述未识别语音片段存储为新增语音样本,并根据所述文字信息标记所述新增语音样本的语义。
在一些可行的实施方式中,所述对接收到的语音消息进行语音识别之后,所述语音识别方法还包括:
获取已识别语音片段;
根据所述未识别语音片段的识别结果和所述已识别语音片段的识别结果,生成所述语音消息所指示的操作指令。
本发明实施例第二方面提供了一种移动终端,可包括:
识别模块,用于对接收到的语音消息进行语音识别,获取未识别语音片段;
判断模块,用于判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本;
确定模块,用于在所述判断模块的判断结果为是时,根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。
在一些可行的实施方式中,
所述识别模块,还用于在所述判断模块的判断结果为否时,再次识别所述未识别语音片段;
所述移动终端还包括:
发送模块,用于在所述判断模块的判断结果为否时,向服务器发送所述未识别语音片段以及语音识别请求;
第一接收模块,用于接收所述服务器返回的所述未识别语音片段的语音识别结果。
在一些可行的实施方式中,所述移动终端还包括:
提示模块,用于在所述判断模块的判断结果为否时,生成提示信息,所述提示信息用于提示用户输入所述未识别语音片段的语义;
第二接收模块,用于接收用户输入的文字信息,并根据所述文字信息确定所述未识别语音片段的识别结果。
在一些可行的实施方式中,所述移动终端还包括:
存储模块,用于将所述未识别语音片段存储为新增语音样本;
标记模块,用于根据所述文字信息标记所述新增语音样本的语义。
在一些可行的实施方式中,所述识别模块,还用于获取已识别语音片段;
所述移动终端还包括:
生成模块,用于根据所述未识别语音片段的识别结果和所述已识别语音片段的识别结果,生成所述语音消息所指示的操作指令。
本发明实施例中,对接收到的语音消息进行语音识别,获取未识别语音片段,若本地语音库中存储有与所述未识别语音片段相匹配的语音样本,则根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。采用本发明实施例,可从本地语音库中查找匹配的样本来识别传统方法无法识别的语音片段,从而有效提高语音识别率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的一个实施例提供的语音识别方法的流程示意图;
图2是本发明的另一个实施例提供的语音识别方法的流程示意图;
图3是本发明的一个实施例提供的移动终端的结构示意图;
图4是本发明的另一个实施例提供的移动终端的结构示意图;
图5是本发明的又一个实施例提供的移动终端的结构示意图;
图6是本发明的又一个实施例提供的移动终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种语音识别方法及移动终端,可提高语音识别率。以下将结合附图进行详细说明。具体实现中,本发明实施例中描述的移动终端可包括但不限于:手机、平板电脑、笔记本电脑等移动终端。
参见图1,图1是本发明的一个实施例提供的语音识别方法的流程示意图。所述语音识别方法可由软系统控制移动终端的硬件来执行。如图1所示,所述方法可包括如下步骤:
S101,对接收到的语音消息进行语音识别,获取未识别语音片段。
具体实施中,接收到语音消息后,可先进行抗混叠滤波、预加重、模/数转换、自动增益控制等预处理过程,以滤除语音消息中的噪音及次要信息,并将语音消息转化为数字信号。然后,可分析语音消息中的声学参数,提取出声学特征。将提取出的升学特征与预先训练得到的参考模板库中的样本进行比较,将相似度最高样本作为识别结果。
在本发明实施例中,经过上述过程可识别出接收到的语音消息中的部分内容,该部分内容称为已识别语音片段,接收到的语音消息中经过上述过程仍未能成功识别的内容称为未识别语音片段。
可选地,上述未识别语音片段未能被识别的原因可能是用户的发音不标准,或者该未识别语音片段的语言不属于可识别的语言,如外语、方言等。
S102,判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本,若判断结果为是,执行步骤S103。
在一些可行的实施方式中,可在本地语音库存储一些非通用的语音样本并关联存储其语义,例如方言样本、带地域口音的普通话样本、小语种样本等。其中可选地,本地语音库存储的语音样本可以是通过网络下载的,也可以是用户自定义的。
当接收到的语音消息中存在未识别语音片段时,可轮询本地语音库中的语音样本,判断是否存储有与该未识别语音片段相匹配的语音样本。其中,上述相匹配可以是相似度达到一定的阈值,例如相似度超过85%。
S103,根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。
在本地语音库中,语音样本及其语义是关联存储的,即每一条语音样本均标记了语义。具体实施中,若存在相匹配的语音样本,可读取该语音样本的语义,并将该语音样本的语义确定为上述未识别语音片段的识别结果。
本发明实施例的语音识别方法,对接收到的语音消息进行语音识别,获取未识别语音片段,若本地语音库中存储有与所述未识别语音片段相匹配的语音样本,则根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。采用本发明实施例,可从本地语音库中查找匹配的样本来识别传统方法无法识别的语音片段,从而有效提高语音识别率。
参见图2,图2是本发明的另一个实施例提供的语音识别方法的流程示意图。所所述语音识别方法可由软系统控制移动终端的硬件来执行。如图2所示,所述方法可包括如下步骤:
S201,对接收到的语音消息进行语音识别,获取未识别语音片段和已识别语音片段。
S202,判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本,若判断结果为是,执行步骤S203;否则执行步骤S204。
S203,根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。
具体地,步骤S201-S203的具体实现方式可参考图1所示实施例中步骤S101-S103的相关描述,此处不再赘述。
S204,向服务器发送所述未识别语音片段以及语音识别请求。
在一些可行的实施方式中,若本地语音库中未存储有与上述未识别语音片段相匹配的语音样本,则可向服务器发送语音识别请求及上述未识别语音片段,以通过服务器在网络上搜索上述未识别语音片段的语义。
在一些可行的实施方式中,若本地语音库中未存储有与上述未识别语音片段相匹配的语音样本,也可再次尝试识别所述未识别语音片段,若识别失败次数超过一定的次数阈值,再向服务器发送上述未识别语音片段以及语音识别请求。
S205,接收所述服务器返回的所述未识别语音片段的语音识别结果。
在一些可行的实施方式中,服务器可根据上述语音识别请求,在数据库或网络上搜索与上述未识别语音片段相匹配的语音样本。若搜索到相匹配的语音样本,服务器可将该语音样本的语义以文字或标准语音的方式返回至移动终端。
可选地,若服务器以文字信息形式返回语音识别结果,移动终端可接收该文字信息并将该文字信息存储为该未识别语音片段的语音识别结果。若服务器以标准语音的形式返回语音识别结果,移动终端可识别服务器返回的语音,得到语音识别结果。
在一些可行的实施方式中,接收到语音识别结果之后,移动终端还可将所述未识别语音片段存储为新增语音样本,并根据所述服务器返回的所述未识别语音片段的语音识别结果标记所述新增语音样本的语义,即关联存储该新增语音样本及其语义。
S206,根据所述未识别语音片段的识别结果和所述已识别语音片段的识别结果,生成所述语音消息所指示的操作指令。
具体实施中,在对接收到的语音消息进行语音识别,获取已识别语音片段和未识别语音片段的同时,可得到已识别语音片段的识别结果。将已识别语音片段的识别结果和未识别语音片段的识别结果相结合,可得到上述语音消息的识别结果。
在一些可行的实施方式中,上述语音消息实际为语音指令,用于指示移动移动终端执行某些操作。识别出上述语音消息的内容后,可根据所述未识别语音片段的识别结果和所述已识别语音片段的识别结果,生成所述语音消息所指示的操作指令,并执行相应的操作。
本发明实施例的语音识别方法,对接收到的语音消息进行语音识别,获取未识别语音片段和已识别语音片段,若本地语音库中存储有与所述未识别语音片段相匹配的语音样本,则根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。若未存储有所述相匹配的语音样本,则向服务器发送所述未识别语音片段以及语音识别请求,接收所述服务器返回的所述未识别语音片段的语音识别结果,并根据所述未识别语音片段的识别结果和所述已识别语音片段的识别结果,生成所述语音消息所指示的操作指令。采用本发明实施例,可从本地语音库中查找匹配的样本或向服务器请求识别结果来识别传统方法无法识别的语音片段,从而有效提高语音识别率。
参见图3,图3是本发明的另一个实施例提供的语音识别方法的流程示意图。所所述语音识别方法可由软系统控制移动终端的硬件来执行。如图3所示,所述方法可包括如下步骤:
S301,对接收到的语音消息进行语音识别,获取未识别语音片段和已识别语音片段。
S302,判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本,若判断结果为是,执行步骤S303;否则执行步骤S304。
S303,根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。
具体地,步骤S301-S303的具体实现方式可参考图1所示实施例中步骤S101-S103的相关描述,此处不再赘述。
S304,生成提示信息,所述提示信息用于提示用户输入所述未识别语音片段的语义。
在一些可行的实施方式中,若本地语音库中未存储有与上述未识别语音片段相匹配的语音样本,则可提示用户无法识别,并请求用户输入上述未识别语音片段的语义,以助于识别上述语音消息。具体地,可播放上述未识别语音片段,以使用户了解哪些内容无法被识别。
在一些可行的实施方式中,若本地语音库中未存储有与上述未识别语音片段相匹配的语音样本,也可再次尝试识别所述未识别语音片段,当识别失败次数超过一定的次数阈值时,再生成提示信息。
S305,接收用户输入的文字信息,并根据所述文字信息确定所述未识别语音片段的识别结果。
具体实施中,若用户输入了文字信息,可直接将该文字信息的内容确定为上述未识别语音片段的识别结果。在一些可行的实施方式中,还可将用户输入的文字信息与已识别语音片段的识别结果进行对比,判断两者之中是否有重复的内容,若存在重复的内容,则从用户输入的文字信息中删除上述重复的内容,得到上述未识别语音片段的识别结果。
应当理解的是,上述重复的内容可以是连续重复的多个字词或句子。仅一个重复的字或词语不应当理解为重复的内容。
S306,根据所述未识别语音片段的识别结果和所述已识别语音片段的识别结果,生成所述语音消息所指示的操作指令。
具体地,步骤S306的具体实现方式可参考图2所示实施例中步骤S206的相关描述,此处不再赘述。
S307,将所述未识别语音片段存储为新增语音样本,并根据所述文字信息标记所述新增语音样本的语义。
在一些可行的实施方式中,用户输入的文字信息之后,移动终端还可将所述未识别语音片段存储为新增语音样本,并根据确定的所述未识别语音片段的识别结果来标记所述新增语音样本的语义,即关联存储该新增语音样本及其语义。
本发明实施例的语音识别方法,对接收到的语音消息进行语音识别,获取未识别语音片段和已识别语音片段,若本地语音库中存储有与所述未识别语音片段相匹配的语音样本,则根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。若未存储有所述相匹配的语音样本,则生成提示信息,所述提示信息用于提示用户输入所述未识别语音片段的语义,接收用户输入的文字信息,并根据所述文字信息确定所述未识别语音片段的识别结果,根据所述未识别语音片段的识别结果和所述已识别语音片段的识别结果,生成所述语音消息所指示的操作指令。采用本发明实施例,可从本地语音库中查找匹配的样本或根据用户输入的文字信息来识别传统方法无法识别的语音片段,从而有效提高语音识别率。
参见图4,图4是本发明的一个实施例提供的移动终端的结构示意图。如图4所示,所述移动终端可包括:
识别模块401,用于对接收到的语音消息进行语音识别,获取未识别语音片段。
具体实施中,接收到语音消息后,可先进行抗混叠滤波、预加重、模/数转换、自动增益控制等预处理过程,以滤除语音消息中的噪音及次要信息,并将语音消息转化为数字信号。然后,可分析语音消息中的声学参数,提取出声学特征。将提取出的升学特征与预先训练得到的参考模板库中的样本进行比较,将相似度最高样本作为识别结果。
在本发明实施例中,经过上述过程可识别出接收到的语音消息中的部分内容,该部分内容称为已识别语音片段,接收到的语音消息中经过上述过程仍未能成功识别的内容称为未识别语音片段。
可选地,上述未识别语音片段未能被识别的原因可能是用户的发音不标准,或者该未识别语音片段的语言不属于可识别的语言,如外语、方言等。
判断模块402,用于判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本。
在一些可行的实施方式中,可在本地语音库存储一些非通用的语音样本并关联存储其语义,例如方言样本、带地域口音的普通话样本、小语种样本等。其中可选地,本地语音库存储的语音样本可以是通过网络下载的,也可以是用户自定义的。
当接收到的语音消息中存在未识别语音片段时,可轮询本地语音库中的语音样本,判断是否存储有与该未识别语音片段相匹配的语音样本。其中,上述相匹配可以是相似度达到一定的阈值,例如相似度超过85%。
确定模块403,用于在所述判断模块的判断结果为是时,根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。
在本地语音库中,语音样本及其语义是关联存储的,即每一条语音样本均标记了语义。具体实施中,若存在相匹配的语音样本,可读取该语音样本的语义,并将该语音样本的语义确定为上述未识别语音片段的识别结果。
本发明实施例的移动终端,对接收到的语音消息进行语音识别,获取未识别语音片段,若本地语音库中存储有与所述未识别语音片段相匹配的语音样本,则根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。采用本发明实施例,可从本地语音库中查找匹配的样本来识别传统方法无法识别的语音片段,从而有效提高语音识别率。
参见图5,图5是本发明的一个实施例提供的移动终端的结构示意图。如图5所示,所述移动终端可包括:
识别模块501,用于对接收到的语音消息进行语音识别,获取未识别语音片段和已识别语音片段。
判断模块502,用于判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本。
确定模块503,用于在所述判断模块的判断结果为是时,根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。
在一些可行的实施方式中,识别模块501、判断模块502和确定模块503可用于执行图4所示实施例中识别模块401、判断模块402和确定模块403的具体实施方式。
在一些可行的实施方式中,识别模块501还可用于:在判断模块502的判断结果为否时,再次识别所述未识别语音片段。
在一些可行的实施方式中,若本地语音库中未存储有与上述未识别语音片段相匹配的语音样本,也可再次尝试识别所述未识别语音片段,若识别失败次数超过一定的次数阈值,再通过发送模块504向服务器发送上述未识别语音片段以及语音识别请求,或者通过提示模块506提示用户输入所述未识别语音片段的语义。
发送模块504,用于在判断模块502的判断结果为否时,向服务器发送所述未识别语音片段以及语音识别请求。
在一些可行的实施方式中,若本地语音库中未存储有与上述未识别语音片段相匹配的语音样本,则可向服务器发送语音识别请求及上述未识别语音片段,以通过服务器在网络上搜索上述未识别语音片段的语义。
第一接收模块505,用于接收所述服务器返回的所述未识别语音片段的语音识别结果。
在一些可行的实施方式中,服务器可根据上述语音识别请求,在数据库或网络上搜索与上述未识别语音片段相匹配的语音样本。若搜索到相匹配的语音样本,服务器可将该语音样本的语义以文字或标准语音的方式返回至移动终端。
可选地,若服务器以文字信息形式返回语音识别结果,移动终端可接收该文字信息并将该文字信息存储为该未识别语音片段的语音识别结果。若服务器以标准语音的形式返回语音识别结果,移动终端可识别服务器返回的语音,得到语音识别结果。
在一些可行的实施方式中,接收到语音识别结果之后,移动终端还可将所述未识别语音片段存储为新增语音样本,并根据所述服务器返回的所述未识别语音片段的语音识别结果标记所述新增语音样本的语义,即关联存储该新增语音样本及其语义。
提示模块506,用于在判断模块502的判断结果为否时,生成提示信息,所述提示信息用于提示用户输入所述未识别语音片段的语义。
在一些可行的实施方式中,若本地语音库中未存储有与上述未识别语音片段相匹配的语音样本,则可提示用户无法识别,并请求用户输入上述未识别语音片段的语义,以助于识别上述语音消息。具体地,可播放上述未识别语音片段,以使用户了解哪些内容无法被识别。
在一些可行的实施方式中,若本地语音库中未存储有与上述未识别语音片段相匹配的语音样本,也可再次尝试识别所述未识别语音片段,当识别失败次数超过一定的次数阈值时,再生成提示信息。
第二接收模块507,用于接收用户输入的文字信息,并根据所述文字信息确定所述未识别语音片段的识别结果。
具体实施中,若用户输入了文字信息,可直接将该文字信息的内容确定为上述未识别语音片段的识别结果。在一些可行的实施方式中,还可将用户输入的文字信息与已识别语音片段的识别结果进行对比,判断两者之中是否有重复的内容,若存在重复的内容,则从用户输入的文字信息中删除上述重复的内容,得到上述未识别语音片段的识别结果。
应当理解的是,上述重复的内容可以是连续重复的多个字词或句子。仅一个重复的字或词语不应当理解为重复的内容。
存储模块508,用于将所述未识别语音片段存储为新增语音样本。
标记模块509,用于根据所述文字信息标记所述新增语音样本的语义。
在一些可行的实施方式中,用户输入的文字信息之后,移动终端还可将所述未识别语音片段存储为新增语音样本,并根据确定的所述未识别语音片段的识别结果来标记所述新增语音样本的语义,即关联存储该新增语音样本及其语义。
在一些可行的实施方式中,存储模块508和标记模块509还可将所述未识别语音片段存储为新增语音样本,并根据所述服务器返回的所述未识别语音片段的语音识别结果标记所述新增语音样本的语义。
生成模块510,用于根据所述未识别语音片段的识别结果和所述已识别语音片段的识别结果,生成所述语音消息所指示的操作指令。
具体实施中,在对接收到的语音消息进行语音识别,获取已识别语音片段和未识别语音片段的同时,可得到已识别语音片段的识别结果。将已识别语音片段的识别结果和未识别语音片段的识别结果相结合,可得到上述语音消息的识别结果。
在一些可行的实施方式中,上述语音消息实际为语音指令,用于指示移动移动终端执行某些操作。识别出上述语音消息的内容后,可根据所述未识别语音片段的识别结果和所述已识别语音片段的识别结果,生成所述语音消息所指示的操作指令,并执行相应的操作。
本发明实施例的移动终端,对接收到的语音消息进行语音识别,获取未识别语音片段和已识别语音片段,若本地语音库中存储有与所述未识别语音片段相匹配的语音样本,则根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。若未存储有所述相匹配的语音样本,则通过服务器或用户输入的文字信息确定未识别语音片段的语音识别结果,并根据所述未识别语音片段的识别结果和所述已识别语音片段的识别结果,生成所述语音消息所指示的操作指令。采用本发明实施例,可从本地语音库中查找匹配的样本、向服务器请求识别结果或根据用户输入的文字信息来识别传统方法无法识别的语音片段,从而有效提高语音识别率。
参见图6,图6是本发明的又一个实施例提供的移动终端的结构示意图。如图6所示,所述终端还可包括至少一个输入设备1000;至少一个输出设备2000;至少一个处理器3000,例如CPU;和存储器4000,上述输入设备1000、输出设备2000、处理器3000和存储器4000通过总线5000连接。
其中,上述输入设备1000具体可为终端的触摸控制屏、按键、或语音识别模块等。在本发明实施例中,输入设备1000可用于接收用户输入的语音消息或文字信息等。
上述输出设备2000具体可为终端的显示屏或语音播放模块等,在本发明实施例中,上述输出设备2000可用于输出提示信息。
上述存储器4000可以是高速RAM存储器,也可为非不稳定的存储器(non-volatile memory),例如磁盘存储器。上述存储器4000用于存储一组程序代码。
上述处理器3000可用于调用存储器4000中存储的程序代码,执行如下操作:
对接收到的语音消息进行语音识别,获取未识别语音片段;
判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本;
若判断结果为是,根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。
在一些可行的实施方式中,在判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本之后,上述处理器3000还可用于执行如下操作:
若判断结果为否,则再次识别所述未识别语音片段;或者,
若判断结果为否,向服务器发送所述未识别语音片段以及语音识别请求;
接收所述服务器返回的所述未识别语音片段的语音识别结果。
在一些可行的实施方式中,在判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本之后,上述处理器3000还可用于执行如下操作:
若判断结果为否,则生成提示信息,所述提示信息用于提示用户输入所述未识别语音片段的语义;
接收用户输入的文字信息,并根据所述文字信息确定所述未识别语音片段的识别结果。
在一些可行的实施方式中,接收用户输入的文字信息之后,上述处理器3000还可用于执行如下操作:
将所述未识别语音片段存储为新增语音样本,并根据所述文字信息标记所述新增语音样本的语义。
在一些可行的实施方式中,对接收到的语音消息进行语音识别之后,上述处理器3000还可用于执行如下操作:
获取已识别语音片段;
根据所述未识别语音片段的识别结果和所述已识别语音片段的识别结果,生成所述语音消息所指示的操作指令。
本发明实施例中,对接收到的语音消息进行语音识别,获取未识别语音片段,若本地语音库中存储有与所述未识别语音片段相匹配的语音样本,则根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。采用本发明实施例,可从本地语音库中查找匹配的样本来识别传统方法无法识别的语音片段,从而有效提高语音识别率。
本发明所有实施例中的模块或单元,可以通过通用集成电路,例如CPU(Central Processing Unit,中央处理器),或通过ASIC(Application Specific Integrated Circuit,专用集成电路)来实现。
本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本发明实施例装置中的模块或单元可以根据实际需要进行合并、划分和删减。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (10)
1.一种语音识别方法,其特征在于,包括:
对接收到的语音消息进行语音识别,获取未识别语音片段;
判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本;
若判断结果为是,根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。
2.根据权利要求1所述的语音识别方法,其特征在于,所述判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本之后,所述语音识别方法还包括:
若判断结果为否,则再次识别所述未识别语音片段;或者,
若判断结果为否,向服务器发送所述未识别语音片段以及语音识别请求;
接收所述服务器返回的所述未识别语音片段的语音识别结果。
3.根据权利要求1所述的语音识别方法,其特征在于,所述判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本之后,所述语音识别方法还包括:
若判断结果为否,则生成提示信息,所述提示信息用于提示用户输入所述未识别语音片段的语义;
接收用户输入的文字信息,并根据所述文字信息确定所述未识别语音片段的识别结果。
4.根据权利要求3所述的语音识别方法,其特征在于,所述接收用户输入的文字信息之后,所述语音识别方法还包括:
将所述未识别语音片段存储为新增语音样本,并根据所述文字信息标记所述新增语音样本的语义。
5.根据权利要求1至4任一项所述的语音识别方法,其特征在于,所述对接收到的语音消息进行语音识别之后,所述语音识别方法还包括:
获取已识别语音片段;
根据所述未识别语音片段的识别结果和所述已识别语音片段的识别结果,生成所述语音消息所指示的操作指令。
6.一种移动终端,其特征在于,包括:
识别模块,用于对接收到的语音消息进行语音识别,获取未识别语音片段;
判断模块,用于判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本;
确定模块,用于在所述判断模块的判断结果为是时,根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。
7.根据权利要求6所述的移动终端,其特征在于,
所述识别模块,还用于在所述判断模块的判断结果为否时,再次识别所述未识别语音片段;
所述移动终端还包括:
发送模块,用于在所述判断模块的判断结果为否时,向服务器发送所述未识别语音片段以及语音识别请求;
第一接收模块,用于接收所述服务器返回的所述未识别语音片段的语音识别结果。
8.根据权利要求6所述的移动终端,其特征在于,所述移动终端还包括:
提示模块,用于在所述判断模块的判断结果为否时,生成提示信息,所述提示信息用于提示用户输入所述未识别语音片段的语义;
第二接收模块,用于接收用户输入的文字信息,并根据所述文字信息确定所述未识别语音片段的识别结果。
9.根据权利要求8所述的移动终端,其特征在于,所述移动终端还包括:
存储模块,用于将所述未识别语音片段存储为新增语音样本;
标记模块,用于根据所述文字信息标记所述新增语音样本的语义。
10.根据权利要求6至9任一项所述的移动终端,其特征在于,
所述识别模块,还用于获取已识别语音片段;
所述移动终端还包括:
生成模块,用于根据所述未识别语音片段的识别结果和所述已识别语音片段的识别结果,生成所述语音消息所指示的操作指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610239553.1A CN105931644B (zh) | 2016-04-15 | 2016-04-15 | 一种语音识别方法及移动终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610239553.1A CN105931644B (zh) | 2016-04-15 | 2016-04-15 | 一种语音识别方法及移动终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105931644A true CN105931644A (zh) | 2016-09-07 |
CN105931644B CN105931644B (zh) | 2019-10-25 |
Family
ID=56839174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610239553.1A Active CN105931644B (zh) | 2016-04-15 | 2016-04-15 | 一种语音识别方法及移动终端 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105931644B (zh) |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106228984A (zh) * | 2016-10-18 | 2016-12-14 | 江西博瑞彤芸科技有限公司 | 语音识别信息获取方法 |
CN106601236A (zh) * | 2016-12-22 | 2017-04-26 | 北京云知声信息技术有限公司 | 语音识别方法及装置 |
CN106653013A (zh) * | 2016-09-30 | 2017-05-10 | 北京奇虎科技有限公司 | 语音识别方法及装置 |
CN106992008A (zh) * | 2017-03-30 | 2017-07-28 | 联想(北京)有限公司 | 处理方法及电子设备 |
CN107134279A (zh) * | 2017-06-30 | 2017-09-05 | 百度在线网络技术(北京)有限公司 | 一种语音唤醒方法、装置、终端和存储介质 |
CN107319857A (zh) * | 2017-06-30 | 2017-11-07 | 广东工业大学 | 一种交互镜子及具有该交互镜子的智能家电系统 |
CN107591150A (zh) * | 2017-08-16 | 2018-01-16 | 珠海市魅族科技有限公司 | 语音识别方法及装置、计算机装置及计算机可读存储介质 |
CN108010527A (zh) * | 2017-12-19 | 2018-05-08 | 深圳市欧瑞博科技有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
WO2018149209A1 (zh) * | 2017-02-15 | 2018-08-23 | 腾讯科技(深圳)有限公司 | 语音识别方法、电子设备以及计算机存储介质 |
CN108573706A (zh) * | 2017-03-10 | 2018-09-25 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置及设备 |
CN109785840A (zh) * | 2019-03-05 | 2019-05-21 | 湖北亿咖通科技有限公司 | 自然语言识别的方法、装置及车载多媒体主机、计算机可读存储介质 |
CN110033576A (zh) * | 2019-05-24 | 2019-07-19 | 广东电网有限责任公司 | 自动提示方法、装置及使用其的机构箱 |
CN110364155A (zh) * | 2019-07-30 | 2019-10-22 | 广东美的制冷设备有限公司 | 语音控制报错方法、电器及计算机可读存储介质 |
CN110910890A (zh) * | 2019-12-11 | 2020-03-24 | 微创(上海)网络技术股份有限公司 | 一种自然语言的识别处理方法及系统 |
CN111081253A (zh) * | 2019-12-25 | 2020-04-28 | 沈阳先进医疗设备技术孵化中心有限公司 | 语音处理方法、装置及系统 |
CN111950459A (zh) * | 2020-08-13 | 2020-11-17 | 深圳市睿策者科技有限公司 | 移动人脸识别方法、装置、计算机和存储介质 |
CN112017653A (zh) * | 2020-07-13 | 2020-12-01 | 武汉戴美激光科技有限公司 | 具有语音识别功能的激光治疗手柄及调节方法 |
US10964317B2 (en) | 2017-07-05 | 2021-03-30 | Baidu Online Network Technology (Beijing) Co., Ltd. | Voice wakeup method, apparatus and system, cloud server and readable medium |
US10984795B2 (en) | 2018-04-12 | 2021-04-20 | Samsung Electronics Co., Ltd. | Electronic apparatus and operation method thereof |
CN113763673A (zh) * | 2021-09-13 | 2021-12-07 | 贵州明策大数据应用策划有限公司 | 关爱老人智能语音识别报警器 |
CN114242068A (zh) * | 2021-11-23 | 2022-03-25 | 中国第一汽车股份有限公司 | 语音处理方法、装置、电子设备和存储介质 |
CN114639395A (zh) * | 2020-12-16 | 2022-06-17 | 观致汽车有限公司 | 车载虚拟人物的语音控制方法、装置及具有其的车辆 |
US11574632B2 (en) | 2018-04-23 | 2023-02-07 | Baidu Online Network Technology (Beijing) Co., Ltd. | In-cloud wake-up method and system, terminal and computer-readable storage medium |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077713A (zh) * | 2012-12-25 | 2013-05-01 | 青岛海信电器股份有限公司 | 一种语音处理方法及装置 |
-
2016
- 2016-04-15 CN CN201610239553.1A patent/CN105931644B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077713A (zh) * | 2012-12-25 | 2013-05-01 | 青岛海信电器股份有限公司 | 一种语音处理方法及装置 |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106653013A (zh) * | 2016-09-30 | 2017-05-10 | 北京奇虎科技有限公司 | 语音识别方法及装置 |
CN106653013B (zh) * | 2016-09-30 | 2019-12-20 | 北京奇虎科技有限公司 | 语音识别方法及装置 |
CN106228984A (zh) * | 2016-10-18 | 2016-12-14 | 江西博瑞彤芸科技有限公司 | 语音识别信息获取方法 |
CN106601236A (zh) * | 2016-12-22 | 2017-04-26 | 北京云知声信息技术有限公司 | 语音识别方法及装置 |
US11043211B2 (en) | 2017-02-15 | 2021-06-22 | Tencent Technology (Shenzhen) Company Limited | Speech recognition method, electronic device, and computer storage medium |
KR20190082900A (ko) * | 2017-02-15 | 2019-07-10 | 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 | 음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체 |
KR102222317B1 (ko) | 2017-02-15 | 2021-03-03 | 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 | 음성 인식 방법, 전자 디바이스, 및 컴퓨터 저장 매체 |
US11562736B2 (en) | 2017-02-15 | 2023-01-24 | Tencent Technology (Shen Zhen) Company Limited | Speech recognition method, electronic device, and computer storage medium |
WO2018149209A1 (zh) * | 2017-02-15 | 2018-08-23 | 腾讯科技(深圳)有限公司 | 语音识别方法、电子设备以及计算机存储介质 |
CN108573706A (zh) * | 2017-03-10 | 2018-09-25 | 北京搜狗科技发展有限公司 | 一种语音识别方法、装置及设备 |
CN106992008A (zh) * | 2017-03-30 | 2017-07-28 | 联想(北京)有限公司 | 处理方法及电子设备 |
CN106992008B (zh) * | 2017-03-30 | 2021-04-13 | 联想(北京)有限公司 | 处理方法及电子设备 |
CN107319857A (zh) * | 2017-06-30 | 2017-11-07 | 广东工业大学 | 一种交互镜子及具有该交互镜子的智能家电系统 |
CN107134279A (zh) * | 2017-06-30 | 2017-09-05 | 百度在线网络技术(北京)有限公司 | 一种语音唤醒方法、装置、终端和存储介质 |
US10964317B2 (en) | 2017-07-05 | 2021-03-30 | Baidu Online Network Technology (Beijing) Co., Ltd. | Voice wakeup method, apparatus and system, cloud server and readable medium |
CN107591150A (zh) * | 2017-08-16 | 2018-01-16 | 珠海市魅族科技有限公司 | 语音识别方法及装置、计算机装置及计算机可读存储介质 |
CN108010527A (zh) * | 2017-12-19 | 2018-05-08 | 深圳市欧瑞博科技有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
CN108010527B (zh) * | 2017-12-19 | 2020-06-12 | 深圳市欧瑞博科技有限公司 | 语音识别方法、计算机设备和存储介质 |
CN111508489A (zh) * | 2017-12-19 | 2020-08-07 | 深圳市欧瑞博科技股份有限公司 | 语音识别方法、装置、计算机设备和存储介质 |
US10984795B2 (en) | 2018-04-12 | 2021-04-20 | Samsung Electronics Co., Ltd. | Electronic apparatus and operation method thereof |
US11574632B2 (en) | 2018-04-23 | 2023-02-07 | Baidu Online Network Technology (Beijing) Co., Ltd. | In-cloud wake-up method and system, terminal and computer-readable storage medium |
CN109785840A (zh) * | 2019-03-05 | 2019-05-21 | 湖北亿咖通科技有限公司 | 自然语言识别的方法、装置及车载多媒体主机、计算机可读存储介质 |
CN110033576A (zh) * | 2019-05-24 | 2019-07-19 | 广东电网有限责任公司 | 自动提示方法、装置及使用其的机构箱 |
CN110364155A (zh) * | 2019-07-30 | 2019-10-22 | 广东美的制冷设备有限公司 | 语音控制报错方法、电器及计算机可读存储介质 |
CN110910890A (zh) * | 2019-12-11 | 2020-03-24 | 微创(上海)网络技术股份有限公司 | 一种自然语言的识别处理方法及系统 |
CN111081253A (zh) * | 2019-12-25 | 2020-04-28 | 沈阳先进医疗设备技术孵化中心有限公司 | 语音处理方法、装置及系统 |
CN111081253B (zh) * | 2019-12-25 | 2023-07-28 | 沈阳先进医疗设备技术孵化中心有限公司 | 语音处理方法、装置及系统 |
CN112017653A (zh) * | 2020-07-13 | 2020-12-01 | 武汉戴美激光科技有限公司 | 具有语音识别功能的激光治疗手柄及调节方法 |
CN111950459A (zh) * | 2020-08-13 | 2020-11-17 | 深圳市睿策者科技有限公司 | 移动人脸识别方法、装置、计算机和存储介质 |
CN114639395A (zh) * | 2020-12-16 | 2022-06-17 | 观致汽车有限公司 | 车载虚拟人物的语音控制方法、装置及具有其的车辆 |
CN113763673A (zh) * | 2021-09-13 | 2021-12-07 | 贵州明策大数据应用策划有限公司 | 关爱老人智能语音识别报警器 |
CN114242068A (zh) * | 2021-11-23 | 2022-03-25 | 中国第一汽车股份有限公司 | 语音处理方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN105931644B (zh) | 2019-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105931644B (zh) | 一种语音识别方法及移动终端 | |
CN108847241B (zh) | 将会议语音识别为文本的方法、电子设备及存储介质 | |
CN110164435B (zh) | 语音识别方法、装置、设备及计算机可读存储介质 | |
CN110444198B (zh) | 检索方法、装置、计算机设备和存储介质 | |
JP6909832B2 (ja) | オーディオにおける重要語句を認識するための方法、装置、機器及び媒体 | |
JP6541673B2 (ja) | モバイル機器におけるリアルタイム音声評価システム及び方法 | |
KR101259558B1 (ko) | 문장경계 인식 장치 및 방법 | |
CN113327609B (zh) | 用于语音识别的方法和装置 | |
CN108447471A (zh) | 语音识别方法及语音识别装置 | |
CN110060674B (zh) | 表格管理方法、装置、终端和存储介质 | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
JP2006053906A (ja) | コンピューティングデバイスへの入力を提供するための効率的なマルチモーダル方法 | |
WO2016008128A1 (en) | Speech recognition using foreign word grammar | |
CN112927679A (zh) | 一种语音识别中添加标点符号的方法及语音识别装置 | |
CN112669842A (zh) | 人机对话控制方法、装置、计算机设备及存储介质 | |
CN109062891B (zh) | 媒体处理方法、装置、终端和介质 | |
CN112101003B (zh) | 语句文本的切分方法、装置、设备和计算机可读存储介质 | |
CN111192570A (zh) | 语言模型训练方法、系统、移动终端及存储介质 | |
CN111309876A (zh) | 一种服务请求的处理方法、装置、电子设备及存储介质 | |
CN114999463B (zh) | 语音识别方法、装置、设备及介质 | |
JP2022120024A (ja) | オーディオ信号処理方法、モデルトレーニング方法、並びにそれらの装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN111768789A (zh) | 电子设备及其语音发出者身份确定方法、装置和介质 | |
CN110750626B (zh) | 一种基于场景的任务驱动的多轮对话方法及系统 | |
CN110956958A (zh) | 搜索方法、装置、终端设备及存储介质 | |
CN112669850A (zh) | 语音质量检测方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Changan town in Guangdong province Dongguan 523860 usha Beach Road No. 18 Applicant after: OPPO Guangdong Mobile Communications Co., Ltd. Address before: Changan town in Guangdong province Dongguan 523860 usha Beach Road No. 18 Applicant before: Guangdong Opel Mobile Communications Co., Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |