CN107863098A

CN107863098A - 一种语音识别控制方法和装置

Info

Publication number: CN107863098A
Application number: CN201711312814.9A
Authority: CN
Inventors: 侯永福
Original assignee: Guangzhou I-Tech Electronic Co Ltd
Current assignee: Guangzhou I-Tech Electronic Co Ltd
Priority date: 2017-12-07
Filing date: 2017-12-07
Publication date: 2018-03-30

Abstract

本发明涉及语音识别技术领域，公开了一种语音识别控制方法和装置。其中，语音识别控制方法包括先将获取的第一音频信号的声纹特征存储至本地声纹特征数据库，然后获取第二音频信号的声纹特征，接着将第二音频信号的声纹特征与本地声纹特征数据库中的每一第一音频信号的声纹特征进行匹配，最后在判断第二音频信号的声纹特征与本地声纹特征数据库中的任一第一音频信号的声纹特征完全匹配时，将对应的控制指令发送至被控设备。本发明有效避免现有的语音识别装置通过联网的语言语义库来识别语音而导致在网络信号较差或没有wifi的地方使用反应太慢，使用体验不佳的问题，且有效避免地方口音、发音不准造成的识别不准问题，从而有效地提高了语音的识别率。

Description

一种语音识别控制方法和装置

技术领域

本发明涉及语音识别技术领域，特别是涉及一种语音识别控制方法和装置。

背景技术

现有的语音识别装置广泛运用于家电产品中，其能够通过语音识别来控制电视机、VCD、空调、电扇和窗帘等。目前，现有的语音识别装置一般需要联网，从而依靠网络的语言语义库进行语音识别，但是，由于各地的方言存在较大差异，即使是同一语种，其发音也会存在地方口音的不同，因此导致现有的语音识别装置难以区分不同地方口音的音频信号，从而造成现有的语音识别装置的识别率较低。

发明内容

本发明的目的是提供一种语音识别控制方法和装置，其能够克服语音识别时的难以区分地方口音的问题，从而有效地提高了语音的识别率。

为了解决上述技术问题，本发明提供一种语音识别控制方法，包括以下步骤：

获取第一音频信号的声纹特征；

将所述第一音频信号的声纹特征存储至本地声纹特征数据库；

获取第二音频信号的声纹特征；

将所述第二音频信号的声纹特征与所述本地声纹特征数据库中的每一所述第一音频信号的声纹特征进行匹配；

当判断所述第二音频信号的声纹特征与所述本地声纹特征数据库中的任一所述第一音频信号的声纹特征完全匹配时，将与所述第二音频信号的声纹特征完全匹配的所述第一音频信号的声纹特征对应的控制指令发送至被控设备。

作为优选方案，所述获取第一音频信号的声纹特征具体包括步骤：

获取所述第一音频信号；

提取获取后的所述第一音频信号的特征信息，获得第一音频信号的声纹特征。

作为优选方案，所述获取第一音频信号具体为：

通过话筒获取第一音频信号。

作为优选方案，所述获取第二音频信号的声纹特征具体包括步骤：

获取所述第二音频信号；

提取获取后的所述第二音频信号的特征信息，获得第二音频信号的声纹特征。

作为优选方案，所述获取第二音频信号具体为：

通过话筒获取第二音频信号。

为了解决相同的技术问题，本发明还提供一种语音识别控制装置，包括：

第一声纹特征获取模块，用于获取第一音频信号的声纹特征；

存储模块，用于将所述第一音频信号的声纹特征存储至本地声纹特征数据库；

第二声纹特征获取模块，用于获取第二音频信号的声纹特征；

语音声纹识别模块，用于将所述第二音频信号的声纹特征与所述本地声纹特征数据库中的每一所述第一音频信号的声纹特征进行匹配；

控制模块，用于当判断所述第二音频信号的声纹特征与所述本地声纹特征数据库中的任一所述第一音频信号的声纹特征完全匹配时，将与所述第二音频信号的声纹特征完全匹配的所述第一音频信号的声纹特征对应的控制指令发送至被控设备。

作为优选方案，所述第一声纹特征获取模块具体包括：

第一音频信号获取单元，用于获取所述第一音频信号；

第一声纹特征获得单元，提取获取后的所述第一音频信号的特征信息，获得第一音频信号的声纹特征。

作为优选方案，所述第一音频信号获取单元具体用于：

通过话筒获取第一音频信号。

作为优选方案，所述第二声纹特征获取模块具体包括：

第二音频信号获取单元，用于获取所述第二音频信号；

第二声纹特征获得单元，提取获取后的所述第二音频信号的特征信息，获得第二音频信号的声纹特征。

作为优选方案，所述第二音频信号获取单元具体用于：

通过话筒获取第二音频信号。

本发明提供一种语音识别控制方法和装置，先将获取的第一音频信号的声纹特征存储至本地声纹特征数据库，然后获取第二音频信号的声纹特征，接着将第二音频信号的声纹特征与本地声纹特征数据库中的每一第一音频信号的声纹特征进行匹配，最后在判断第二音频信号的声纹特征与本地声纹特征数据库中的任一第一音频信号的声纹特征完全匹配时，将与第二音频信号的声纹特征完全匹配的第一音频信号的声纹特征对应的控制指令发送至被控设备，以避免现有的语音识别装置难以区分地方口音、难以识别发音不准的语音控制指令问题，从而有效地提高了语音的识别率。

此外，由于现有的语音识别装置都必须借助于互联网及云后台，当用户在网络信号比较差的地方或者在没有wifi的地方使用现有的语音识别装置时，容易造成语音识别的速度过慢，从而导致用户使用体验不佳，甚至根本无法使用该语音识别装置。而本发明提供的一种语音识别控制方法和装置通过将用户发出的第一音频信号的声纹特征进行采样并存储到本地声纹特征数据库中，当用户再次发出与第一音频信号的声纹特征完全一致的第二音频信号的声纹特征时，将与第二音频信号的声纹特征完全匹配的第一音频信号的声纹特征对应的控制指令发送至被控设备，由于本地声纹特征数据库存储在设备中的存储芯片内，因此无需连接wifi即可实现语音识别并直接向被控设备发送控制指令，以使得被控设备能够快速响应，从而大大提升了用户的使用体验感。

附图说明

图1是本发明实施例中的语音识别控制方法的流程图；

图2是本发明实施例中的步骤S1的流程图；

图3是本发明实施例中的步骤S3的流程图；

图4是本发明实施例中的语音识别控制装置的结构示意图；

图5是本发明实施例中的第一声纹特征获取模块的结构示意图；

图6是本发明实施例中的第二声纹特征获取模块的结构示意图；

其中，1、第一声纹特征获取模块；11、第一音频信号获取单元；12、第一声纹特征获得单元；2、存储模块；3、第二声纹特征获取模块；31、第二音频信号获取单元；32、第二声纹特征获得单元；4、语音声纹识别模块；5、控制模块。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明优选实施例的一种语音识别控制方法，包括以下步骤：

S1，获取第一音频信号的声纹特征；

S2，将所述第一音频信号的声纹特征存储至本地声纹特征数据库；

S3，获取第二音频信号的声纹特征；

S4，将所述第二音频信号的声纹特征与所述本地声纹特征数据库中的每一所述第一音频信号的声纹特征进行匹配；

S5，当判断所述第二音频信号的声纹特征与所述本地声纹特征数据库中的任一所述第一音频信号的声纹特征完全匹配时，将与所述第二音频信号的声纹特征完全匹配的所述第一音频信号的声纹特征对应的控制指令发送至被控设备。

下面对本发明实施例的语音识别控制方法进行详细描述：

首先，获取由用户发出的第一音频信号的声纹特征，然后将所述第一音频信号的声纹特征存储至本地声纹特征数据库，接着，获取由用户发出的第二音频信号的声纹特征，将所述第二音频信号的声纹特征与所述本地声纹特征数据库中的每一所述第一音频信号的声纹特征进行匹配，当判断所述第二音频信号的声纹特征与所述本地声纹特征数据库中的任一所述第一音频信号的声纹特征完全匹配时，将与所述第二音频信号的声纹特征完全匹配的所述第一音频信号的声纹特征对应的控制指令发送至被控设备。

在本发明实施例中，需要说明的是，所述第一音频信号和所述第二音频信号不限于人类语言，其可以是语言、拍掌声和口哨等等，在此不做更多的赘述。

在上述实施例中，先将获取的第一音频信号的声纹特征存储至本地声纹特征数据库，然后获取第二音频信号的声纹特征，接着将第二音频信号的声纹特征与本地声纹特征数据库中的每一第一音频信号的声纹特征进行匹配，最后在判断第二音频信号的声纹特征与本地声纹特征数据库中的任一第一音频信号的声纹特征完全匹配时，将与第二音频信号的声纹特征完全匹配的第一音频信号的声纹特征对应的控制指令发送至被控设备，以避免现有的语音识别装置由于通过联网的语言语义库来识别语音而导致难以区分地方口音，从而有效地提高了语音的识别率。

此外，由于本发明提供的一种语音识别控制方法通过将用户发出的第一音频信号的声纹特征进行采样并存储到本地声纹特征数据库中，当用户再次发出与第一音频信号的声纹特征完全一致的第二音频信号的声纹特征时，将与第二音频信号的声纹特征完全匹配的第一音频信号的声纹特征对应的控制指令发送至被控设备，且无需联网即可实现语音识别并直接向被控设备发送控制指令，以使得被控设备能够快速响应，从而大大提升了用户的使用体验感。

结合图1和图2所示，为了获得用户发出的第一音频信号的声纹特征，以便于将所述第一音频信号的声纹特征存储至本地声纹特征数据库，本实施例中的所述步骤S1具体包括步骤：

S11，获取所述第一音频信号；

S12，提取获取后的所述第一音频信号的特征信息，获得第一音频信号的声纹特征。

在上述实施例中，先获取所述第一音频信号，再提取获取后的所述第一音频信号的特征信息，从而获得用户发出的第一音频信号的声纹特征，以便于将所述第一音频信号的声纹特征存储至本地声纹特征数据库，从而实现了采集用户的音频声纹样本，进而丰富了所述本地声纹特征数据库中用于语音识别的音频声纹样本。

在本发明实施例中，为了简化结构，从而降低成本，本实施例中的所述步骤S11具体为：通过话筒获取第一音频信号。通过话筒获取第一音频信号，以简化结构，从而降低成本。

结合图1和图3所示，为了获得用户发出的第二音频信号的声纹特征，以便于将第二音频信号的声纹特征与所述第一音频信号的声纹特征进行实时比较，本实施例中的所述步骤S3具体包括步骤：

S31，获取所述第二音频信号；

S32，提取获取后的所述第二音频信号的特征信息，获得第二音频信号的声纹特征。

在上述实施例中，先获取所述第二音频信号，再提取获取后的所述第二音频信号的特征信息，从而获得用户发出的第二音频信号的声纹特征，以便于将所述第二音频信号的声纹特征与所述本地声纹特征数据库中的每一所述第一音频信号的声纹特征进行实时比较；此外，无需将所述第二音频信号的声纹特征存储至所述本地声纹特征数据库，以节省所述本地声纹特征数据库的存储空间。

在本发明实施例中，为了简化结构，从而降低成本，本实施例中的所述获取第二音频信号具体为：通过话筒获取第二音频信号。通过话筒获取第二音频信号，以简化结构，从而降低成本。

下面对本发明实施例的语音识别控制方法进行详细描述：

首先，通过话筒获取由用户发出的第一音频信号，再提取获取后的所述第一音频信号的声纹特征，然后将所述第一音频信号的声纹特征存储至本地声纹特征数据库，接着，通过话筒获取由用户发出的第二音频信号的声纹特征，再提取获取后的所述第二音频信号的声纹特征，将所述第二音频信号的声纹特征与所述本地声纹特征数据库中的每一所述第一音频信号的声纹特征进行匹配，当判断所述第二音频信号的声纹特征与所述本地声纹特征数据库中的任一所述第一音频信号的声纹特征完全匹配时，将与所述第二音频信号的声纹特征完全匹配的所述第一音频信号的声纹特征对应的控制指令发送至被控设备。

如图4所示，为了解决相同的技术问题，本发明还提供一种语音识别控制装置，包括：

第一声纹特征获取模块1，用于获取第一音频信号的声纹特征；

存储模块2，用于将所述第一音频信号的声纹特征存储至本地声纹特征数据库；

第二声纹特征获取模块3，用于获取第二音频信号的声纹特征；

语音声纹识别模块4，用于将所述第二音频信号的声纹特征与所述本地声纹特征数据库中的每一所述第一音频信号的声纹特征进行匹配；

控制模块5，用于当判断所述第二音频信号的声纹特征与所述本地声纹特征数据库中的任一所述第一音频信号的声纹特征完全匹配时，将与所述第二音频信号的声纹特征完全匹配的所述第一音频信号的声纹特征对应的控制指令发送至被控设备。

下面对本发明实施例的语音识别控制装置进行详细描述：

首先，通过所述第一声纹特征获取模块1获取由用户发出的第一音频信号的声纹特征，然后通过所述存储模块2将所述第一音频信号的声纹特征存储至本地声纹特征数据库，接着，通过所述第二声纹特征获取模块3获取由用户发出的第二音频信号的声纹特征，最后通过所述语音声纹识别模块4将所述第二音频信号的声纹特征与所述本地声纹特征数据库中的每一所述第一音频信号的声纹特征进行匹配，当判断所述第二音频信号的声纹特征与所述本地声纹特征数据库中的任一所述第一音频信号的声纹特征完全匹配时，通过所述控制模块5将与所述第二音频信号的声纹特征完全匹配的所述第一音频信号的声纹特征对应的控制指令发送至被控设备。

结合图4和图5所示，为了获得用户发出的第一音频信号的声纹特征，以便于将所述第一音频信号的声纹特征存储至本地声纹特征数据库，本实施例中的所述第一声纹特征获取模块1具体包括：

第一音频信号获取单元11，用于获取所述第一音频信号；

第一声纹特征获得单元12，提取获取后的所述第一音频信号的特征信息，获得第一音频信号的声纹特征。

在上述实施例中，先通过所述第一音频信号获取单元11获取所述第一音频信号，再通过所述第一声纹特征获得单元12提取获取后的所述第一音频信号的特征信息，从而获得用户发出的第一音频信号的声纹特征，以便于将所述第一音频信号的声纹特征存储至本地声纹特征数据库，从而实现了采集用户的音频声纹样本，进而丰富了所述本地声纹特征数据库中用于语音识别的音频声纹样本。

在本发明实施例中，为了简化结构，从而降低成本，本实施例中的所述第一音频信号获取单元11具体用于：通过话筒获取第一音频信号。通过话筒获取第一音频信号，以简化结构，从而降低成本。

结合图4和图6所示，本实施例中的所述第二声纹特征获取模块3具体包括：

第二音频信号获取单元31，用于获取所述第二音频信号；

第二声纹特征获得单元32，提取获取后的所述第二音频信号的特征信息，获得第二音频信号的声纹特征。

在上述实施例中，先通过所述第二音频信号获取单元31获取所述第二音频信号，再通过所述第二声纹特征获得单元32提取获取后的所述第二音频信号的特征信息，从而获得用户发出的第二音频信号的声纹特征，以便于将所述第二音频信号的声纹特征与所述本地声纹特征数据库中的每一所述第一音频信号的声纹特征进行实时比较；此外，无需将所述第二音频信号的声纹特征存储至所述本地声纹特征数据库，以节省所述本地声纹特征数据库的存储空间。

在本发明实施例中，为了简化结构，从而降低成本，本实施例中的所述第二音频信号获取单元31具体用于：通过话筒获取第二音频信号。通过话筒获取第二音频信号，以简化结构，从而降低成本。

下面对本发明实施例的语音识别控制装置的工作过程进行详细描述：

首先，通过所述第一音频信号获取单元11获取由用户发出的第一音频信号，再通过所述第一声纹特征获得单元12提取获取后的所述第一音频信号的声纹特征，然后通过所述存储模块2将所述第一音频信号的声纹特征存储至本地声纹特征数据库，接着，通过所述第二音频信号获取单元31获取由用户发出的第二音频信号的声纹特征，再通过所述第二声纹特征获得单元32提取获取后的所述第二音频信号的声纹特征，最后通过所述语音声纹识别模块4将所述第二音频信号的声纹特征与所述本地声纹特征数据库中的每一所述第一音频信号的声纹特征进行匹配，当判断所述第二音频信号的声纹特征与所述本地声纹特征数据库中的任一所述第一音频信号的声纹特征完全匹配时，通过所述控制模块5将与所述第二音频信号的声纹特征完全匹配的所述第一音频信号的声纹特征对应的控制指令发送至被控设备。

综上，本发明提供一种语音识别控制方法和装置，先将获取的第一音频信号的声纹特征存储至本地声纹特征数据库，然后获取第二音频信号的声纹特征，接着将第二音频信号的声纹特征与本地声纹特征数据库中的每一第一音频信号的声纹特征进行匹配，最后在判断第二音频信号的声纹特征与本地声纹特征数据库中的任一第一音频信号的声纹特征完全匹配时，将与第二音频信号的声纹特征完全匹配的第一音频信号的声纹特征对应的控制指令发送至被控设备，以避免现有的语音识别装置由于通过联网的语言语义库来识别语音而导致难以区分地方口音，从而有效地提高了语音的识别率。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.一种语音识别控制方法，其特征在于，包括以下步骤：

获取第一音频信号的声纹特征；

获取第二音频信号的声纹特征；

2.如权利要求1所述的语音识别控制方法，其特征在于，所述获取第一音频信号的声纹特征具体包括步骤：

获取所述第一音频信号；

3.如权利要求2所述的语音识别控制方法，其特征在于，所述获取第一音频信号具体为：

通过话筒获取第一音频信号。

4.如权利要求1所述的语音识别控制方法，其特征在于，所述获取第二音频信号的声纹特征具体包括步骤：

获取所述第二音频信号；

5.如权利要求4所述的语音识别控制方法，其特征在于，所述获取第二音频信号具体为：

通过话筒获取第二音频信号。

6.一种语音识别控制装置，其特征在于，包括：

7.如权利要求6所述的语音识别控制装置，其特征在于，所述第一声纹特征获取模块具体包括：

第一音频信号获取单元，用于获取所述第一音频信号；

8.如权利要求7所述的语音识别控制装置，其特征在于，所述第一音频信号获取单元具体用于：

通过话筒获取第一音频信号。

9.如权利要求6所述的语音识别控制装置，其特征在于，所述第二声纹特征获取模块具体包括：

第二音频信号获取单元，用于获取所述第二音频信号；

10.如权利要求9所述的语音识别控制装置，其特征在于，所述第二音频信号获取单元具体用于：

通过话筒获取第二音频信号。