CN105931644A

CN105931644A - 一种语音识别方法及移动终端

Info

Publication number: CN105931644A
Application number: CN201610239553.1A
Authority: CN
Inventors: 凌绪衡
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2016-04-15
Filing date: 2016-04-15
Publication date: 2016-09-07
Anticipated expiration: 2036-04-15
Also published as: CN105931644B

Abstract

本发明实施例公开了一种语音识别方法及移动终端，其中语音识别方法可包括：对接收到的语音消息进行语音识别，获取未识别语音片段；判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本；若判断结果为是，根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。采用本发明实施例，可从本地语音库中查找匹配的样本来识别传统方法无法识别的语音片段，从而有效提高语音识别率。

Description

一种语音识别方法及移动终端

技术领域

本发明涉及数据处理技术领域，尤其涉及一种语音识别方法及移动终端。

背景技术

伴随着电子技术的迅速发展，移动终端的发展速度越来越快，功能也越来越多。如今市场上的大多数移动终端都具备语音识别功能，可识别用户发出的语音指令，并根据用户的指令执行相应的操作。

在现有技术中，移动终端只能识别一些通用的语言，例如普通话、英文等，并且，移动终端只能识别发音标准的语言，若用户发音不标准，可能导致无法识别。而在实际使用过程中，由于地域、口音、习惯等原因，许多用户的发音不标准，或者在通用语言中夹杂着方言，导致移动终端无法成功识别语音。由此可见，现有语音识别技术的识别率较低，亟需开发一种提高识别率的语音识别方法。

发明内容

本发明实施例提供一种语音识别方法及移动终端，可提高语音识别率。

本发明实施例第一方面提供了一种语音识别方法，可包括：

对接收到的语音消息进行语音识别，获取未识别语音片段；

判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本；

若判断结果为是，根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。

在一些可行的实施方式中，所述判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本之后，所述语音识别方法还包括：

若判断结果为否，则再次识别所述未识别语音片段；或者，

若判断结果为否，向服务器发送所述未识别语音片段以及语音识别请求；

接收所述服务器返回的所述未识别语音片段的语音识别结果。

若判断结果为否，则生成提示信息，所述提示信息用于提示用户输入所述未识别语音片段的语义；

接收用户输入的文字信息，并根据所述文字信息确定所述未识别语音片段的识别结果。

在一些可行的实施方式中，所述接收用户输入的文字信息之后，所述语音识别方法还包括：

将所述未识别语音片段存储为新增语音样本，并根据所述文字信息标记所述新增语音样本的语义。

在一些可行的实施方式中，所述对接收到的语音消息进行语音识别之后，所述语音识别方法还包括：

获取已识别语音片段；

根据所述未识别语音片段的识别结果和所述已识别语音片段的识别结果，生成所述语音消息所指示的操作指令。

本发明实施例第二方面提供了一种移动终端，可包括：

识别模块，用于对接收到的语音消息进行语音识别，获取未识别语音片段；

判断模块，用于判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本；

确定模块，用于在所述判断模块的判断结果为是时，根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。

在一些可行的实施方式中，

所述识别模块，还用于在所述判断模块的判断结果为否时，再次识别所述未识别语音片段；

所述移动终端还包括：

发送模块，用于在所述判断模块的判断结果为否时，向服务器发送所述未识别语音片段以及语音识别请求；

第一接收模块，用于接收所述服务器返回的所述未识别语音片段的语音识别结果。

在一些可行的实施方式中，所述移动终端还包括：

提示模块，用于在所述判断模块的判断结果为否时，生成提示信息，所述提示信息用于提示用户输入所述未识别语音片段的语义；

第二接收模块，用于接收用户输入的文字信息，并根据所述文字信息确定所述未识别语音片段的识别结果。

在一些可行的实施方式中，所述移动终端还包括：

存储模块，用于将所述未识别语音片段存储为新增语音样本；

标记模块，用于根据所述文字信息标记所述新增语音样本的语义。

在一些可行的实施方式中，所述识别模块，还用于获取已识别语音片段；

所述移动终端还包括：

生成模块，用于根据所述未识别语音片段的识别结果和所述已识别语音片段的识别结果，生成所述语音消息所指示的操作指令。

本发明实施例中，对接收到的语音消息进行语音识别，获取未识别语音片段，若本地语音库中存储有与所述未识别语音片段相匹配的语音样本，则根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。采用本发明实施例，可从本地语音库中查找匹配的样本来识别传统方法无法识别的语音片段，从而有效提高语音识别率。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一个实施例提供的语音识别方法的流程示意图；

图2是本发明的另一个实施例提供的语音识别方法的流程示意图；

图3是本发明的一个实施例提供的移动终端的结构示意图；

图4是本发明的另一个实施例提供的移动终端的结构示意图；

图5是本发明的又一个实施例提供的移动终端的结构示意图；

图6是本发明的又一个实施例提供的移动终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种语音识别方法及移动终端，可提高语音识别率。以下将结合附图进行详细说明。具体实现中，本发明实施例中描述的移动终端可包括但不限于：手机、平板电脑、笔记本电脑等移动终端。

参见图1，图1是本发明的一个实施例提供的语音识别方法的流程示意图。所述语音识别方法可由软系统控制移动终端的硬件来执行。如图1所示，所述方法可包括如下步骤：

S101，对接收到的语音消息进行语音识别，获取未识别语音片段。

具体实施中，接收到语音消息后，可先进行抗混叠滤波、预加重、模/数转换、自动增益控制等预处理过程，以滤除语音消息中的噪音及次要信息，并将语音消息转化为数字信号。然后，可分析语音消息中的声学参数，提取出声学特征。将提取出的升学特征与预先训练得到的参考模板库中的样本进行比较，将相似度最高样本作为识别结果。

在本发明实施例中，经过上述过程可识别出接收到的语音消息中的部分内容，该部分内容称为已识别语音片段，接收到的语音消息中经过上述过程仍未能成功识别的内容称为未识别语音片段。

可选地，上述未识别语音片段未能被识别的原因可能是用户的发音不标准，或者该未识别语音片段的语言不属于可识别的语言，如外语、方言等。

S102，判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本，若判断结果为是，执行步骤S103。

在一些可行的实施方式中，可在本地语音库存储一些非通用的语音样本并关联存储其语义，例如方言样本、带地域口音的普通话样本、小语种样本等。其中可选地，本地语音库存储的语音样本可以是通过网络下载的，也可以是用户自定义的。

当接收到的语音消息中存在未识别语音片段时，可轮询本地语音库中的语音样本，判断是否存储有与该未识别语音片段相匹配的语音样本。其中，上述相匹配可以是相似度达到一定的阈值，例如相似度超过85％。

S103，根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。

在本地语音库中，语音样本及其语义是关联存储的，即每一条语音样本均标记了语义。具体实施中，若存在相匹配的语音样本，可读取该语音样本的语义，并将该语音样本的语义确定为上述未识别语音片段的识别结果。

本发明实施例的语音识别方法，对接收到的语音消息进行语音识别，获取未识别语音片段，若本地语音库中存储有与所述未识别语音片段相匹配的语音样本，则根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。采用本发明实施例，可从本地语音库中查找匹配的样本来识别传统方法无法识别的语音片段，从而有效提高语音识别率。

参见图2，图2是本发明的另一个实施例提供的语音识别方法的流程示意图。所所述语音识别方法可由软系统控制移动终端的硬件来执行。如图2所示，所述方法可包括如下步骤：

S201，对接收到的语音消息进行语音识别，获取未识别语音片段和已识别语音片段。

S202，判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本，若判断结果为是，执行步骤S203；否则执行步骤S204。

S203，根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。

具体地，步骤S201-S203的具体实现方式可参考图1所示实施例中步骤S101-S103的相关描述，此处不再赘述。

S204，向服务器发送所述未识别语音片段以及语音识别请求。

在一些可行的实施方式中，若本地语音库中未存储有与上述未识别语音片段相匹配的语音样本，则可向服务器发送语音识别请求及上述未识别语音片段，以通过服务器在网络上搜索上述未识别语音片段的语义。

在一些可行的实施方式中，若本地语音库中未存储有与上述未识别语音片段相匹配的语音样本，也可再次尝试识别所述未识别语音片段，若识别失败次数超过一定的次数阈值，再向服务器发送上述未识别语音片段以及语音识别请求。

S205，接收所述服务器返回的所述未识别语音片段的语音识别结果。

在一些可行的实施方式中，服务器可根据上述语音识别请求，在数据库或网络上搜索与上述未识别语音片段相匹配的语音样本。若搜索到相匹配的语音样本，服务器可将该语音样本的语义以文字或标准语音的方式返回至移动终端。

可选地，若服务器以文字信息形式返回语音识别结果，移动终端可接收该文字信息并将该文字信息存储为该未识别语音片段的语音识别结果。若服务器以标准语音的形式返回语音识别结果，移动终端可识别服务器返回的语音，得到语音识别结果。

在一些可行的实施方式中，接收到语音识别结果之后，移动终端还可将所述未识别语音片段存储为新增语音样本，并根据所述服务器返回的所述未识别语音片段的语音识别结果标记所述新增语音样本的语义，即关联存储该新增语音样本及其语义。

S206，根据所述未识别语音片段的识别结果和所述已识别语音片段的识别结果，生成所述语音消息所指示的操作指令。

具体实施中，在对接收到的语音消息进行语音识别，获取已识别语音片段和未识别语音片段的同时，可得到已识别语音片段的识别结果。将已识别语音片段的识别结果和未识别语音片段的识别结果相结合，可得到上述语音消息的识别结果。

在一些可行的实施方式中，上述语音消息实际为语音指令，用于指示移动移动终端执行某些操作。识别出上述语音消息的内容后，可根据所述未识别语音片段的识别结果和所述已识别语音片段的识别结果，生成所述语音消息所指示的操作指令，并执行相应的操作。

本发明实施例的语音识别方法，对接收到的语音消息进行语音识别，获取未识别语音片段和已识别语音片段，若本地语音库中存储有与所述未识别语音片段相匹配的语音样本，则根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。若未存储有所述相匹配的语音样本，则向服务器发送所述未识别语音片段以及语音识别请求，接收所述服务器返回的所述未识别语音片段的语音识别结果，并根据所述未识别语音片段的识别结果和所述已识别语音片段的识别结果，生成所述语音消息所指示的操作指令。采用本发明实施例，可从本地语音库中查找匹配的样本或向服务器请求识别结果来识别传统方法无法识别的语音片段，从而有效提高语音识别率。

参见图3，图3是本发明的另一个实施例提供的语音识别方法的流程示意图。所所述语音识别方法可由软系统控制移动终端的硬件来执行。如图3所示，所述方法可包括如下步骤：

S301，对接收到的语音消息进行语音识别，获取未识别语音片段和已识别语音片段。

S302，判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本，若判断结果为是，执行步骤S303；否则执行步骤S304。

S303，根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。

具体地，步骤S301-S303的具体实现方式可参考图1所示实施例中步骤S101-S103的相关描述，此处不再赘述。

S304，生成提示信息，所述提示信息用于提示用户输入所述未识别语音片段的语义。

在一些可行的实施方式中，若本地语音库中未存储有与上述未识别语音片段相匹配的语音样本，则可提示用户无法识别，并请求用户输入上述未识别语音片段的语义，以助于识别上述语音消息。具体地，可播放上述未识别语音片段，以使用户了解哪些内容无法被识别。

在一些可行的实施方式中，若本地语音库中未存储有与上述未识别语音片段相匹配的语音样本，也可再次尝试识别所述未识别语音片段，当识别失败次数超过一定的次数阈值时，再生成提示信息。

S305，接收用户输入的文字信息，并根据所述文字信息确定所述未识别语音片段的识别结果。

具体实施中，若用户输入了文字信息，可直接将该文字信息的内容确定为上述未识别语音片段的识别结果。在一些可行的实施方式中，还可将用户输入的文字信息与已识别语音片段的识别结果进行对比，判断两者之中是否有重复的内容，若存在重复的内容，则从用户输入的文字信息中删除上述重复的内容，得到上述未识别语音片段的识别结果。

应当理解的是，上述重复的内容可以是连续重复的多个字词或句子。仅一个重复的字或词语不应当理解为重复的内容。

S306，根据所述未识别语音片段的识别结果和所述已识别语音片段的识别结果，生成所述语音消息所指示的操作指令。

具体地，步骤S306的具体实现方式可参考图2所示实施例中步骤S206的相关描述，此处不再赘述。

S307，将所述未识别语音片段存储为新增语音样本，并根据所述文字信息标记所述新增语音样本的语义。

在一些可行的实施方式中，用户输入的文字信息之后，移动终端还可将所述未识别语音片段存储为新增语音样本，并根据确定的所述未识别语音片段的识别结果来标记所述新增语音样本的语义，即关联存储该新增语音样本及其语义。

本发明实施例的语音识别方法，对接收到的语音消息进行语音识别，获取未识别语音片段和已识别语音片段，若本地语音库中存储有与所述未识别语音片段相匹配的语音样本，则根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。若未存储有所述相匹配的语音样本，则生成提示信息，所述提示信息用于提示用户输入所述未识别语音片段的语义，接收用户输入的文字信息，并根据所述文字信息确定所述未识别语音片段的识别结果，根据所述未识别语音片段的识别结果和所述已识别语音片段的识别结果，生成所述语音消息所指示的操作指令。采用本发明实施例，可从本地语音库中查找匹配的样本或根据用户输入的文字信息来识别传统方法无法识别的语音片段，从而有效提高语音识别率。

参见图4，图4是本发明的一个实施例提供的移动终端的结构示意图。如图4所示，所述移动终端可包括：

识别模块401，用于对接收到的语音消息进行语音识别，获取未识别语音片段。

判断模块402，用于判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本。

确定模块403，用于在所述判断模块的判断结果为是时，根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。

本发明实施例的移动终端，对接收到的语音消息进行语音识别，获取未识别语音片段，若本地语音库中存储有与所述未识别语音片段相匹配的语音样本，则根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。采用本发明实施例，可从本地语音库中查找匹配的样本来识别传统方法无法识别的语音片段，从而有效提高语音识别率。

参见图5，图5是本发明的一个实施例提供的移动终端的结构示意图。如图5所示，所述移动终端可包括：

识别模块501，用于对接收到的语音消息进行语音识别，获取未识别语音片段和已识别语音片段。

判断模块502，用于判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本。

确定模块503，用于在所述判断模块的判断结果为是时，根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。

在一些可行的实施方式中，识别模块501、判断模块502和确定模块503可用于执行图4所示实施例中识别模块401、判断模块402和确定模块403的具体实施方式。

在一些可行的实施方式中，识别模块501还可用于：在判断模块502的判断结果为否时，再次识别所述未识别语音片段。

在一些可行的实施方式中，若本地语音库中未存储有与上述未识别语音片段相匹配的语音样本，也可再次尝试识别所述未识别语音片段，若识别失败次数超过一定的次数阈值，再通过发送模块504向服务器发送上述未识别语音片段以及语音识别请求，或者通过提示模块506提示用户输入所述未识别语音片段的语义。

发送模块504，用于在判断模块502的判断结果为否时，向服务器发送所述未识别语音片段以及语音识别请求。

第一接收模块505，用于接收所述服务器返回的所述未识别语音片段的语音识别结果。

提示模块506，用于在判断模块502的判断结果为否时，生成提示信息，所述提示信息用于提示用户输入所述未识别语音片段的语义。

第二接收模块507，用于接收用户输入的文字信息，并根据所述文字信息确定所述未识别语音片段的识别结果。

存储模块508，用于将所述未识别语音片段存储为新增语音样本。

标记模块509，用于根据所述文字信息标记所述新增语音样本的语义。

在一些可行的实施方式中，存储模块508和标记模块509还可将所述未识别语音片段存储为新增语音样本，并根据所述服务器返回的所述未识别语音片段的语音识别结果标记所述新增语音样本的语义。

生成模块510，用于根据所述未识别语音片段的识别结果和所述已识别语音片段的识别结果，生成所述语音消息所指示的操作指令。

本发明实施例的移动终端，对接收到的语音消息进行语音识别，获取未识别语音片段和已识别语音片段，若本地语音库中存储有与所述未识别语音片段相匹配的语音样本，则根据所述相匹配的语音样本所标记的语义确定所述未识别语音片段的识别结果。若未存储有所述相匹配的语音样本，则通过服务器或用户输入的文字信息确定未识别语音片段的语音识别结果，并根据所述未识别语音片段的识别结果和所述已识别语音片段的识别结果，生成所述语音消息所指示的操作指令。采用本发明实施例，可从本地语音库中查找匹配的样本、向服务器请求识别结果或根据用户输入的文字信息来识别传统方法无法识别的语音片段，从而有效提高语音识别率。

参见图6，图6是本发明的又一个实施例提供的移动终端的结构示意图。如图6所示，所述终端还可包括至少一个输入设备1000；至少一个输出设备2000；至少一个处理器3000，例如CPU；和存储器4000，上述输入设备1000、输出设备2000、处理器3000和存储器4000通过总线5000连接。

其中，上述输入设备1000具体可为终端的触摸控制屏、按键、或语音识别模块等。在本发明实施例中，输入设备1000可用于接收用户输入的语音消息或文字信息等。

上述输出设备2000具体可为终端的显示屏或语音播放模块等，在本发明实施例中，上述输出设备2000可用于输出提示信息。

上述存储器4000可以是高速RAM存储器，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。上述存储器4000用于存储一组程序代码。

上述处理器3000可用于调用存储器4000中存储的程序代码，执行如下操作：

对接收到的语音消息进行语音识别，获取未识别语音片段；

在一些可行的实施方式中，在判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本之后，上述处理器3000还可用于执行如下操作：

若判断结果为否，则再次识别所述未识别语音片段；或者，

在一些可行的实施方式中，接收用户输入的文字信息之后，上述处理器3000还可用于执行如下操作：

在一些可行的实施方式中，对接收到的语音消息进行语音识别之后，上述处理器3000还可用于执行如下操作：

获取已识别语音片段；

本发明所有实施例中的模块或单元，可以通过通用集成电路，例如CPU(Central Processing Unit，中央处理器)，或通过ASIC(Application Specific Integrated Circuit，专用集成电路)来实现。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本发明实施例装置中的模块或单元可以根据实际需要进行合并、划分和删减。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种语音识别方法，其特征在于，包括：

对接收到的语音消息进行语音识别，获取未识别语音片段；

2.根据权利要求1所述的语音识别方法，其特征在于，所述判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本之后，所述语音识别方法还包括：

若判断结果为否，则再次识别所述未识别语音片段；或者，

3.根据权利要求1所述的语音识别方法，其特征在于，所述判断本地语音库中是否存储有与所述未识别语音片段相匹配的语音样本之后，所述语音识别方法还包括：

4.根据权利要求3所述的语音识别方法，其特征在于，所述接收用户输入的文字信息之后，所述语音识别方法还包括：

5.根据权利要求1至4任一项所述的语音识别方法，其特征在于，所述对接收到的语音消息进行语音识别之后，所述语音识别方法还包括：

获取已识别语音片段；

6.一种移动终端，其特征在于，包括：

7.根据权利要求6所述的移动终端，其特征在于，

所述移动终端还包括：

8.根据权利要求6所述的移动终端，其特征在于，所述移动终端还包括：

9.根据权利要求8所述的移动终端，其特征在于，所述移动终端还包括：

10.根据权利要求6至9任一项所述的移动终端，其特征在于，

所述识别模块，还用于获取已识别语音片段；

所述移动终端还包括：