CN106469553A

CN106469553A - 语音识别方法及装置

Info

Publication number: CN106469553A
Application number: CN201510496816.2A
Authority: CN
Inventors: 曾庭; 曾一庭
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2015-08-13
Filing date: 2015-08-13
Publication date: 2017-03-01
Also published as: WO2017024835A1

Abstract

本发明公开了一种语音识别方法及装置，其中，该方法包括：获取并识别语音信息；判断该语音信息与预先提取的预定用户的声音特征是否相符；在判断结果为是的情况下，确定该语音信息为该预定用户的语音信息，解决了相关技术中语音识别受其他声音影响导致误识别率高的问题，降低了误识别率。

Description

语音识别方法及装置

技术领域

本发明涉及通信领域，具体而言，涉及一种语音识别方法及装置。

背景技术

随着苹果siri的发布，智能语音应用进入了爆发式的发展，对于语音应用来说，语音识别的成功率是衡量语音应用的一个重要指标，目前语音识别都是获取到声音的输入，然后根据输入的声音来进行相应的识别，然而目前的语音应用都无法区分出是用户说话的声音，还是周围的环境噪声，或者是其他人的声音，这就导致了一个问题，在安静的环境下，语音应用的识别成功率都很高，而一旦在实际的使用场景中，一旦周围有突发的环境噪音，或者其他人的人声都会触发语音应用开始识别，导致语音应用误触发，从而出现识别成功率大幅下降的情况。

目前的语音识别都有一个置信度的概念，即将用户说话的录音与引擎预置的经过大数据量培训后的标准数据进行匹配，置信度越高代表越正确。而语音应用就是根据自己的情况确定一个置信度作为标准，超过这个标准认为识别正确，低于这个标准认为识别不正确。

由于语音应用是通过置信度的方式来判断识别成功或者失败的，置信度阈值设置低，识别容易，用户的命令不需要说的很标准，声音也不需要很响亮，就可以得到识别结果，但是也更容易将周围噪音当成用户声音进行识别，从而导致了误识别的发生，降低了识别率；置信度阈值设置高，识别精准，受噪音影响小，但是用户命令需要说的很标准，同时声音响亮，才能识别成功，很多时候用户明明已经说的很清楚，但是仍然没有通过置信度阈值，导致识别失败。

置信度的方式是没有办法区分是否是用户自己说出的命令还是其他的人声，在实际的使用场景中，比如在驾驶环境中，在其他人说话的情况下，也很容易会导致语音应用开始误识别，出现识别率降低的情况。

针对相关技术中语音识别受其他声音影响导致误识别率高的问题，还未提出有效的解决方案。

发明内容

本发明提供了一种语音识别方法及装置，以至少解决相关技术中语音识别受其他声音影响导致误识别率高的问题。

根据本发明的一个方面，提供了一种语音识别方法，包括：获取并识别语音信息；判断所述语音信息与预先提取的预定用户的声音特征是否相符；在判断结果为是的情况下，确定所述语音信息为所述预定用户的语音信息。

进一步地，在确定所述语音信息为所述预定用户的语音信息之后，所述方法还包括：判断所述语音信息的置信度是否超过预设阈值；在判断结果为是的情况下，确定所述语音信息为所述预定用户下达的指令；在判断结果为否的情况下，丢弃所述语音信息。

进一步地，在确定所述语音信息为所述预定用户下达的指令之后，所述方法还包括：执行所述语音信息对应的指令。

进一步地，在判断所述语音信息与预先提取的预定用户的声音特征是否相符之前，所述方法还包括：通过重复获取相同的录音提取所述录音的声音特征；保存提取的所述声音特征。

进一步地，在保存提取的所述声音特征之前，所述方法还包括：确定所述声音特征的置信度超过预设阈值。

根据本发明的另一方面，还提供了一种语音识别装置，包括：获取模块，用于获取并识别语音信息；第一判断模块，用于判断所述语音信息与预先提取的预定用户的声音特征是否相符；第一确定模块，用于在判断结果为是的情况下，确定所述语音信息为所述预定用户的语音信息。

进一步地，所述装置还包括：第二判断模块，用于判断所述语音信息的置信度是否超过预设阈值；第二确定模块，用于在判断结果为是的情况下，确定所述语音信息为所述预定用户下达的指令；丢弃模块，用于在判断结果为否的情况下，丢弃所述语音信息。

进一步地，所述装置还包括：执行模块，用于执行所述语音信息对应的指令。

进一步地，所述装置还包括：重复获取模块，用于通过重复获取相同的录音提取所述录音的声音特征；保存模块，用于保存提取的所述声音特征。

进一步地，所述装置还包括：第三确定模块，用于确定所述声音特征的置信度超过预设阈值。

通过本发明，采用获取并识别语音信息；判断所述语音信息与预先提取的预定用户的声音特征是否相符；在判断结果为是的情况下，确定所述语音信息为所述预定用户的语音信息，解决了相关技术中语音识别受其他声音影响导致误识别率高的问题，降低了误识别率。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的语音识别方法的流程图；

图2是根据本发明实施例的语音识别装置的框图；

图3是根据本发明优选实施例的语音识别装置的框图一；

图4是根据本发明实施例的提取声音特征的示意图；

图5是根据本发明实施例的语音识别的示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明实施例提供了一种语音识别方法，图1是根据本发明实施例的语音识别方法的流程图，如图1所示，包括：

步骤S102，获取并识别语音信息；

步骤S104，判断该语音信息与预先提取的预定用户的声音特征是否相符；

步骤S106，在判断结果为是的情况下，确定该语音信息为该预定用户的语音信息。

通过上述步骤，获取并识别语音信息；判断该语音信息与预先提取的预定用户的声音特征是否相符；在判断结果为是的情况下，确定该语音信息为该预定用户的语音信息，解决了相关技术中语音识别受其他声音影响导致误识别率高的问题，降低了误识别率。

在确定该语音信息为该预定用户的语音信息之后，判断该语音信息的置信度是否超过预设阈值；在判断结果为是的情况下，确定该语音信息为该预定用户下达的指令；在判断结果为否的情况下，丢弃该语音信息。

在确定该语音信息为该预定用户下达的指令之后，执行该语音信息对应的指令，例如根据指令触发某应用。

在判断该语音信息与预先提取的预定用户的声音特征是否相符之前，通过重复获取相同的录音提取该录音的声音特征；保存提取的该声音特征。

在保存提取的该声音特征之前，确定该声音特征的置信度超过预设阈值。

本发明实施例还提供了一种语音识别装置，图2是根据本发明实施例的语音识别装置的框图，如图2所示，包括：

获取模块22，用于获取并识别语音信息；

第一判断模块24，用于判断该语音信息与预先提取的预定用户的声音特征是否相符；

第一确定模块26，用于在判断结果为是的情况下，确定该语音信息为该预定用户的语音信息。

图3是根据本发明优选实施例的语音识别装置的框图一，如图3所示，该装置还包括：

第二判断模块32，用于判断该语音信息的置信度是否超过预设阈值；

第二确定模块34，用于在判断结果为是的情况下，确定该语音信息为该预定用户下达的指令；

丢弃模块36，用于在判断结果为否的情况下，丢弃该语音信息。

进一步地，该装置还包括：执行模块，用于执行该语音信息对应的指令。

进一步地，该装置还包括：重复获取模块，用于通过重复获取相同的录音提取该录音的声音特征；保存模块，用于保存提取的该声音特征。

进一步地，该装置还包括：第三确定模块，用于确定该声音特征的置信度超过预设阈值。

针对相关技术中存在的上述问题，下面结合具体的可选实施例进行进一步说明，下述可选实施例结合了上述可选实施例及其可选实施方式。

本发明实施例包含的有以下几个部分，声纹提取模块，声纹特征库，声纹辨别模块，语音识别模块，控制模块和录音管理模块，其功能由上述的获取模块22，第一判断模块24，第一确定模块26，第二判断模块32，第二确定模块34，以及丢弃模块36等模块的部分或全部一起实现。

声纹提取模块，用于用户培训声纹，提取用户的声音特征。

声纹特征库，用于存储用户的声音特征，提供给后续模块使用。

声纹辨别模块，根据录音管理模块提供的用户声音数据，判断是否是当前用户的声音。

语音识别模块，根据录音管理模块提供的用户声音数据，进行相应的语音识别，将声音转换为文字。

控制模块，用于控制整个逻辑。

录音管理模块，用于管理系统录音，分别提供给声纹辨别模块与语音识别模块。

本发明实施例还描述了一种利用声纹提高语音识别率的使用方式，包括：

图4是根据本发明实施例的提取声音特征的示意图，如图4所示，用户在首次使用本系统时，使用声纹培训模块进行用户声音特征的提取，比如，要求用户重复朗读某一段文字，由于提取用户的声音特征。将提取好的声音特征，保存到声纹特征库。

用户开始语音识别，通过录音管理模块，将系统录音分别送入到声纹识别模块和语音识别模块。图5是根据本发明实施例的语音识别的示意图，如图5所示，声纹识别模块的结果和语音识别模块的结果提供给控制模块，由控制模块进行判定，首先判断声纹识别的结果是否符合用户声音特征，如果不符合，说明是噪音或者是周围人声，将语音识别结果抛弃，同时通知录音管理模块继续录音。如果声纹判断通过，控制模块在判断语音识别模块的置信度是否超过阀值，如果不超过，说明虽然是用户的声音，但是不一定是说的语音命令，控制模块抛弃掉结果，通知录音管理模块继续录音。如果都通过验证，那么将正确的结果返回给后续应用流程使用。

当用户已经预先培训好了声纹，系统记录下声纹特征。当应用被用户声音或者噪音触发时候，录音模块开始录音，并把相应的录音分发给识别模块和声纹识别模块，控制模块等待识别模块和声纹模块分别给出结果。

当控制模块，收到声纹模块返回的结果，控制模块判断是否声纹匹配度达到阀值，比如阈值为80％，这个阀值可以用户设置，也可以系统预置，如果控制模块判断声纹匹配度没有超过阀值，那么控制抛弃掉语音识别模块返回的结果，同时通知录音模块继续录音，等待正确的结果。

当控制模块判断声纹匹配度超过阀值，继续判断语音识别结果是否超过阀值，如果未超过，仍然抛弃。如果通过，那么将此结果返回给后端其他流程或者模块使用。

用户将无线路由装置连接到有线网络中，打开电源开关。使用手机搜索无线路由装置的蓝牙，进行配对。配对完成后，用户打开手机中的设置程序，设置路由器的热点、加密方式、密码以及WAN口的接入方式，设置成功后路由器就生效了。此设备一般用于商旅用户，经常更换旅馆，需要能够随身携带且设置方便的无线路由设备。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，包括：

获取并识别语音信息；

判断所述语音信息与预先提取的预定用户的声音特征是否相符；

在判断结果为是的情况下，确定所述语音信息为所述预定用户的语音信息。

2.根据权利要求1所述的方法，其特征在于，在确定所述语音信息为所述预定用户的语音信息之后，所述方法还包括：

判断所述语音信息的置信度是否超过预设阈值；

在判断结果为是的情况下，确定所述语音信息为所述预定用户下达的指令；

在判断结果为否的情况下，丢弃所述语音信息。

3.根据权利要求2所述的方法，其特征在于，在确定所述语音信息为所述预定用户下达的指令之后，所述方法还包括：

执行所述语音信息对应的指令。

4.根据权利要求1所述的方法，其特征在于，在判断所述语音信息与预先提取的预定用户的声音特征是否相符之前，所述方法还包括：

通过重复获取相同的录音提取所述录音的声音特征；

保存提取的所述声音特征。

5.根据权利要求4所述的方法，其特征在于，在保存提取的所述声音特征之前，所述方法还包括：

确定所述声音特征的置信度超过预设阈值。

6.一种语音识别装置，其特征在于，包括：

获取模块，用于获取并识别语音信息；

第一判断模块，用于判断所述语音信息与预先提取的预定用户的声音特征是否相符；

第一确定模块，用于在判断结果为是的情况下，确定所述语音信息为所述预定用户的语音信息。

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

第二判断模块，用于判断所述语音信息的置信度是否超过预设阈值；

第二确定模块，用于在判断结果为是的情况下，确定所述语音信息为所述预定用户下达的指令；

丢弃模块，用于在判断结果为否的情况下，丢弃所述语音信息。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

执行模块，用于执行所述语音信息对应的指令。

9.根据权利要求6所述的装置，其特征在于，所述装置还包括：

重复获取模块，用于通过重复获取相同的录音提取所述录音的声音特征；

保存模块，用于保存提取的所述声音特征。

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

第三确定模块，用于确定所述声音特征的置信度超过预设阈值。