CN109065051B

CN109065051B - 一种语音识别处理方法及装置

Info

Publication number: CN109065051B
Application number: CN201811162123.XA
Authority: CN
Inventors: 张新; 王慧君; 廖湖锋; 韩雪; 毛跃辉; 陶梦春; 王现林; 赖孝成; 李报水; 刘健军
Original assignee: Gree Electric Appliances Inc of Zhuhai
Current assignee: Gree Electric Appliances Inc of Zhuhai
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2021-04-09
Anticipated expiration: 2038-09-30
Also published as: CN109065051A

Abstract

本发明提供了一种语音识别处理方法及装置，其中，该方法包括：通过麦克采集多人发出的混合语音信息；从所述混合语音信息中提取出N个语音信号；对所述N个语音信号的语音特征进行差异化对比；根据差异化对比的结果确定待识别语音信号；对所述待识别语音信号进行语义解析得到控制指令，执行与所述控制指令对应的操作。通过本发明，可以解决相关技术中多人说话场景下语言识别效果差导致难以准确执行用户下达的指令的问题，提高了用户的控制指令的识别效果，达到提高用户体验的效果。

Description

一种语音识别处理方法及装置

技术领域

本发明涉及通信领域，具体而言，涉及一种语音识别处理方法及装置。

背景技术

语音交互作为新一代模式，已成为主流交互方式之一。但其存在多人对话场景下拾音混乱的缺点。如果聆听所有人的话语内容，由于每个人说话内容不同，组合在一起严重影响识别率。为解决此问题，人们开发出基于声纹识别的识别方式，将语音信号根据声纹拆分成多个语音信号，选择其一进行识别语义。但这样出现该识别的未识别，不该识别的识别了，出错率较大。

针对相关技术中多人说话场景下语言识别效果差导致难以准确执行用户下达的指令的问题，尚未提出解决方案。

发明内容

本发明实施例提供了一种语音识别处理方法及装置，以至少解决相关技术中多人说话场景下语言识别效果差导致难以准确执行用户下达的指令的问题。

根据本发明的一个实施例，提供了一种语音识别处理方法，包括：

通过麦克采集多人发出的混合语音信息；

从所述混合语音信息中提取出N个语音信号，其中，N为大于1的整数；

对所述N个语音信号的语音特征进行差异化对比；

根据差异化对比的结果确定待识别语音信号；

对所述待识别语音信号进行语义解析得到控制指令，执行与所述控制指令对应的操作。

可选地，从所述混合语音信息中提取出N个语音信号包括：

对所述混合语音信息进行特征提取；

根据提取的所述混合语音信息的特征进行语音分离，得到所述N个语音信号。

可选地，根据差异化对比的结果确定待识别语音信号包括：

在所述N个语音信号为两个语音信号的情况下，将所述两个语音信号中语音特征差异较大的语音信号确定为所述待识别语音信号；

在所述N个语音信号为大于或等于三个语音信号的情况下，将所述N个语音信号中语音特征差异最大的语音信号确定为待识别语音信号。

可选地，将所述N个语音信号中语音特征差异最大的语音信号确定为待识别语音信号包括：

根据所述N个语音信号的语音特征将所述N个语音信号进行排列；

根据预先为语音特征分配的权重系数计算得到所述N个语音信号中差异性最大的语音信号；

确定差异性最大的语音信号为所述待识别语音信号。

可选地，所述语音特征至少包括以下之一：语速、音色、音调、响度。

根据本发明的另一个实施例，还提供了一种语音识别处理装置，包括：

采集模块，用于通过麦克采集多人发出的混合语音信息；

提取模块，用于从所述混合语音信息中提取出N个语音信号；

差异化对比模块，用于对所述N个语音信号的语音特征进行差异化对比；

确定模块，用于根据差异化对比的结果确定待识别语音信号；

解析模块，用于对所述待识别语音信号进行语义解析得到控制指令，执行与所述控制指令对应的操作。

可选地，所述提取模块包括：

特征提取单元，用于对所述混合语音信息进行特征提取；

分离单元，用于根据提取的所述混合语音信息的特征进行语音分离，得到所述N个语音信号。

可选地，所述确定模块包括：

第一确定单元，用于在所述N个语音信号为两个语音信号的情况下，将所述两个语音信号中语音特征差异较大的语音信号确定为所述待识别语音信号；

第二确定单元，用于在所述N个语音信号为大于或等于三个语音信号的情况下，将所述N个语音信号中语音特征差异最大的语音信号确定为待识别语音信号。

可选地，所述确定模块包括：

排列单元，用于根据所述N个语音信号的语音特征将所述N个语音信号进行排列；

计算单元，用于根据预先为语音特征分配的权重系数计算得到所述N个语音信号中差异性最大的语音信号；

第三确定单元，用于确定差异性最大的语音信号为所述待识别语音信号。

根据本发明的又一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，通过麦克采集多人发出的混合语音信息；从所述混合语音信息中提取出N个语音信号；对所述N个语音信号的语音特征进行差异化对比；根据差异化对比的结果确定待识别语音信号；对所述待识别语音信号进行语义解析得到控制指令，执行与所述控制指令对应的操作，因此，可以解决相关技术中多人说话场景下语言识别效果差导致难以准确执行用户下达的指令的问题，提高了用户的控制指令的识别效果，达到提高用户体验的效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明实施例的一种语音识别处理方法的移动终端的硬件结构框图；

图2是根据本发明实施例的一种语音识别处理方法的流程图；

图3是根据本发明实施例的多人语音识别处理的流程图；

图4是根据本发明实施例的语音识别处理装置的框图；

图5是根据本发明优选实施例的语音识别处理装置的框图一；

图6是根据本发明优选实施例的语音识别处理装置的框图二。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

实施例1

本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例，图1是本发明实施例的一种语音识别处理方法的移动终端的硬件结构框图，如图1所示，移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104，可选地，上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述移动终端的结构造成限定。例如，移动终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的报文接收方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种语音识别处理方法，应用于广告终端、播放器等设备，该设备可以通过无线连接的方式与上述移动终端建立连接，例如，可以通过WIFI模块与上述的移动终端建立无线连接。图2是根据本发明实施例的一种语音识别处理方法的流程图，如图2所示，该流程包括如下步骤：

步骤S202，通过麦克采集多人发出的混合语音信息；

步骤S204，从所述混合语音信息中提取出N个语音信号，其中，N为大于1的整数；

步骤S206，对所述N个语音信号的语音特征进行差异化对比；

步骤S208，根据差异化对比的结果确定待识别语音信号；

步骤S210，对所述待识别语音信号进行语义解析得到控制指令，执行与所述控制指令对应的操作。

通过上述步骤，通过麦克采集多人发出的混合语音信息；从所述混合语音信息中提取出N个语音信号；对所述N个语音信号的语音特征进行差异化对比；根据差异化对比的结果确定待识别语音信号；对所述待识别语音信号进行语义解析得到控制指令，执行与所述控制指令对应的操作，解决了相关技术中多人说话场景下语言识别效果差导致难以准确执行用户下达的指令的问题，提高了用户的控制指令的识别效果，达到提高用户体验的效果。

本发明实施例中，从所述混合语音信息中提取出N个语音信号可以包括：对所述混合语音信息进行特征提取，根据提取的所述混合语音信息的特征进行语音分离，得到所述N个语音信号。具体地，可以通过多人语音分离算法将所述语音信息中各个用户语音分离。

本发明实施例中，根据差异化对比的结果确定待识别语音信号可以包括：在所述N个语音信号为两个语音信号的情况下，将所述两个语音信号中语音特征差异较大的语音信号确定为所述待识别语音信号；在所述N个语音信号为大于或等于三个语音信号的情况下，将所述N个语音信号中语音特征差异最大的语音信号确定为待识别语音信号。具体地，可以为每种语音特征设置不同的权重系数，根据权重系数计算出语音特征差异较大的语音信号，识别差异较大的语音信号即可。

进一步地，将所述N个语音信号中语音特征差异最大的语音信号确定为待识别语音信号包括：根据所述N个语音信号的语音特征将所述N个语音信号进行排列；根据预先为语音特征分配的权重系数计算得到所述N个语音信号中差异性最大的语音信号；确定差异性最大的语音信号为所述待识别语音信号。上述的语音特征至少包括以下之一：语速、音色、音调、响度。

若识别了多个语音信号的根据语音强度语速、音色、音调、响度，经过对比语速、音色、音调差别均不大，则将所述语音信息中所述用户语音根据语音响度从强到弱逐个通过本地识别；若识别了多个语音信号的根据语音强度语速、音色、音调、响度，经过对比响度、音色、音调差别均不大，则将所述语音信息中所述用户语音根据语音语速从强到弱逐个通过本地识别，之后判断所述用户语音是否与空调控制相关。将所述语音信息中与空调控制相关且语音响度最大的所述用户语音识别筛选出，所述语音信息中与空调控制相关且语音响度最大的所述用户语音即为指令语音；进一步的，将所述指令语音转化成相应的空调控制命令，将所述空调控制命令转化为反馈语音并播放；再次采集到用户对所述反馈语音作出的判断结果，根据所述判断结果，根据所述空调控制命令输出控制信号实现对空调的相应控制；或对用户再次下达的语音信息进行语音分离。

多人会话时，基于声纹识别提取出多个语音信号；服务器有基于用户声纹的模型，如果当拾音器拾取的声音信号经过预处理后辨别出混合信号，认为是多人会话场景。每个人的声纹独一无二，基于声纹可以将语音信号拆分为多个基于声纹的语音信号。对多个语音信号的语速、音色、音调、响度进行差异对比，将差异较大的语音信号对象视为识别对象，优先对其语义进行解析。语速越急促、音色越尖锐、音调越偏向阈值、响度越大的语音信号权重越重。选择权重最大的语音信号进行后续识别过程，其他的语音信号不识别。音调的阈值为基于控制指令训练出来的音调模型。图3是根据本发明实施例的多人语音识别处理的流程图，如图3所示，包括：

步骤S302，采集语音并识别语音信号；

步骤S304，判断是否多种声纹，在判断结果为否的情况下，执行步骤S306，在判断结果为是的情况下，执行步骤S308；

步骤S306，进入后续识别过程；

步骤S308，基于声纹将语音信号分解为多个语音信号；

步骤S310，对多个语音信号进行语速、音色、音调、响度方面的对比；

步骤S312，根据预先为语音特征设置的权重系数计算多个语音信号的语音特征差值；

例如，语速为A、音色为B、音调为C、响度为D，混合语音中识别出语音信号1，语音信号2和语音信号3，语音信号1的语音特征为A1、B1、C1、D1，语音信号2的语音特征为A2、B2、C2、D2，语音信号3的语音特征为A3、B3、C3、D3，若事先设置的语速A的权重系数为K1、音色B的权重系数为K2，音调C的权重系数为K3，响度D的权重系数为K4，语音信号1与语音信号2的语音特征差值为X1＝K1(A1-A2)+K2(B1-B2)+K3(C1-C2)+K4(D1-D2)，若X1大于0，则计算语音信号1与语音信号3的语音特征差值X2＝K1(A1-A3)+K2(B1-B3)+K3(C1-C3)+K4(D1-D3)，若X2大于0，则确定语音信号1为待识别的语音信号，若X2小于0，则确定语音信号3为待识别的语音信号。

步骤S314，根据计算得到的语音特征值确定待识别的语音信号，之后对确定的语音信号进行后续识别过程，其他的语音信号不识别，其中，可以选择语速急促、音色尖锐、音调偏向阈值、响度越大的语音信号。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

在本实施例中还提供了一种语音识别处理装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图4是根据本发明实施例的语音识别处理装置的框图，如图4所示，包括：

采集模块42，用于通过麦克采集多人发出的混合语音信息；

提取模块44，用于从所述混合语音信息中提取出N个语音信号；

差异化对比模块46，用于对所述N个语音信号的语音特征进行差异化对比；

确定模块48，用于根据差异化对比的结果确定待识别语音信号；

解析模块410，用于对所述待识别语音信号进行语义解析得到控制指令，执行与所述控制指令对应的操作。

图5是根据本发明优选实施例的语音识别处理装置的框图一，如图5所示，所述提取模块44包括：

特征提取单元52，用于对所述混合语音信息进行特征提取；

分离单元54，用于根据提取的所述混合语音信息的特征进行语音分离，得到所述N个语音信号。

图6是根据本发明优选实施例的语音识别处理装置的框图二，如图6所示，所述确定模块48包括：

第一确定单元62，用于在所述N个语音信号为两个语音信号的情况下，将所述两个语音信号中语音特征差异较大的语音信号确定为所述待识别语音信号；

第二确定单元64，用于在所述N个语音信号为大于或等于三个语音信号的情况下，将所述N个语音信号中语音特征差异最大的语音信号确定为待识别语音信号。

可选地，所述确定模块48包括：

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

实施例3

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S11，通过麦克采集多人发出的混合语音信息；

S12，从所述混合语音信息中提取出N个语音信号；

S13，对所述N个语音信号的语音特征进行差异化对比；

S14，根据差异化对比的结果确定待识别语音信号；

S15，对所述待识别语音信号进行语义解析得到控制指令，执行与所述控制指令对应的操作。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

实施例4

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S11，通过麦克采集多人发出的混合语音信息；

S12，从所述混合语音信息中提取出N个语音信号；

S13，对所述N个语音信号的语音特征进行差异化对比；

S14，根据差异化对比的结果确定待识别语音信号；

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别处理方法，其特征在于，包括：

通过麦克采集多人发出的混合语音信息；

对所述N个语音信号的语音特征进行差异化对比；

根据差异化对比的结果确定待识别语音信号；

对所述待识别语音信号进行语义解析得到控制指令，执行与所述控制指令对应的操作；

其中，根据差异化对比的结果确定所述待识别语音信号包括：在所述N个语音信号为两个语音信号的情况下，将所述两个语音信号中语音特征差异较大的语音信号确定为所述待识别语音信号；在所述N个语音信号为大于或等于三个语音信号的情况下，将所述N个语音信号中语音特征差异最大的语音信号确定为所述待识别语音信号；

其中，将所述N个语音信号中语音特征差异最大的语音信号确定为所述待识别语音信号包括：根据所述N个语音信号的语音特征将所述N个语音信号进行排列；根据预先为语音特征分配的权重系数计算得到所述N个语音信号中差异性最大的语音信号；确定差异性最大的语音信号为所述待识别语音信号。

2.根据权利要求1所述的方法，其特征在于，所述从所述混合语音信息中提取出所述N个语音信号包括：

对所述混合语音信息进行特征提取；

3.根据权利要求1所述的方法，其特征在于，所述语音特征至少包括以下之一：语速、音色、音调、响度。

4.一种语音识别处理装置，其特征在于，包括：

采集模块，用于通过麦克采集多人发出的混合语音信息；

提取模块，用于从所述混合语音信息中提取出N个语音信号，其中，N为大于1的整数；

解析模块，用于对所述待识别语音信号进行语义解析得到控制指令，执行与所述控制指令对应的操作；

其中，所述确定模块包括：第一确定单元，用于在所述N个语音信号为两个语音信号的情况下，将所述两个语音信号中语音特征差异较大的语音信号确定为所述待识别语音信号；第二确定单元，用于在所述N个语音信号为大于或等于三个语音信号的情况下，将所述N个语音信号中语音特征差异最大的语音信号确定为待识别语音信号；

其中，所述确定模块包括：排列单元，用于根据所述N个语音信号的语音特征将所述N个语音信号进行排列；计算单元，用于根据预先为语音特征分配的权重系数计算得到所述N个语音信号中差异性最大的语音信号；第三确定单元，用于确定差异性最大的语音信号为所述待识别语音信号。

5.根据权利要求4所述的装置，其特征在于，所述提取模块包括：

特征提取单元，用于对所述混合语音信息进行特征提取；

6.一种存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至3任一项中所述的方法。

7.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至3任一项中所述的方法。