CN110012331B

CN110012331B - 一种红外触发的远场双麦远场语音识别方法

Info

Publication number: CN110012331B
Application number: CN201910289037.3A
Authority: CN
Inventors: 杨洋; 姚嘉; 高永泽; 任金平
Original assignee: Hangzhou Nanosic Technology Co ltd
Current assignee: Hangzhou Nanosic Technology Co ltd
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2021-05-25
Anticipated expiration: 2039-04-11
Also published as: CN110012331A

Abstract

本发明公开了一种红外触发的远场双麦远场语音识别方法，通过前置后置双麦克的方式，从硬件上限制两路麦克的拾音方向，前置麦克拾取的语音强度大，背景噪声相对小，而后置麦克拾取的语音相对小，背景噪声相对大，而且不会包含喷麦噪声。同时，软件算法利用硬件麦克拾音的差异在背景噪声的抑制上采用了频域相关性函数计算频域增益的方式，在喷麦噪声上采用了前置麦克检测加后置麦克补偿的方式，很好的解决单颗麦克风上无法规避的问题。

Description

一种红外触发的远场双麦远场语音识别方法

技术领域

本发明属于语音降噪技术领域，涉及一种对远场双麦远场语音识别方法，尤其是一种红外触发的远场双麦远场语音识别方法。

背景技术

伴随智能电视的普及，语音识别功能也越来越普及，智能语音遥控器作为人和电视语音的交互工具，起到了语音采集，传输的功能，是人机交互的一个重要接口。

目前的主流为语音遥控器，主要是单个麦克风对语音进行采集，并通过蓝牙传输到电视端进行语音识别，在背景噪声低或者无噪声的情况下能获得很好的语音识别效果。中国专利201780029587.0公开了一种用于自动语音识别预处理的系统和技术，其采用的技术方案中，首先获得多个音频通道；然后从音频通道去除混响，在去除混响之后，将多个音频通道划分为诸波束。基于噪声水平选择与诸波束中的波束对应的分区。从所选分区过滤音频信号。经过滤的音频信号可以经由预处理流水线的输出接口被提供给外部实体。

在实际的技术应用中，中国专利201811323511.1公开了一种远程会议语音识别数据传输方法，包括若干个参会终端设备，每个参会终端设备包括麦克风阵列、摄像头、wifi模块、语音处理模块、声纹训练模块、存储模块、语音识别服务器、中央处理器、扬声器和显示屏，所述语音处理模块分别连接声纹训练模块和麦克风阵列，所述中央处理器分别连接存储模块、摄像头、wifi模块、扬声器和显示屏，所述Wifi模块通过互联网连接语音识别服务器。该技术方案不仅构建了远程视频会议，还通过语音识别将会议上发言人的语音进行处理，并转换成文档进行存储，通过声纹识别确认发音人的身份，并对会议中不同的发言人进行身份记录。

中国专利201810541703.3公开了一种远场语音识别方法、装置及系统，涉及语音识别技术领域，其主要用于远场语音识别。主要目的在于实现一种能够较好覆盖住宅或建筑物的语音识别方法，提高远场语音识别结果的准确性而发明。具体包括：采集预设区域内的语音信息，所述语音信息是由所述预设区域内的用户发出的；识别所述语音信息是否为预设语音信息；若是，则通过无线传输将所述语音信息发送至处理端。综合比较现有技术，通过遥控器进行语音采集作为语音识别的输入，因空中带宽有限，需要对采集的语音进行压缩，通过蓝牙传输到电视端，解压后再输入给语音识别系统进行识别，而语音压缩算法会对采集的语音造成频谱损失，在一定程度上丢失原始语音的信息，也会带来延迟；因而不可避免的会带来对语音识别的影响，增加语音识别的误识别几率。

另外，在遥控器语音识别过程中，人必须对着手持麦遥控器，说话时嘴必须对着麦克风进行语音输入，使用中仍然有不方便的地方。

发明内容

针对现有技术存在的问题，本发明的目的在于提供软硬件结合的更符合智能人机接口应用的一种远场双麦克阵列降噪方法。

为实现上述目的，本发明采用的技术方案为一种红外触发的远场双麦远场语音识别方法，该方法的具体实现过程如下：

1)在电视端设置两颗麦克风拾音装置，通过两颗麦克风拾音装置实时采集语音数据；

2)当需要进行语音识别时，使用电视遥控器的红外语音按键控制电视端启动两颗麦克风拾音装置，然后进入语音识别状态，此时两颗麦克风拾音装置同时采集语音数据，分别获取时域语音数据T1和T2；

3)对T1和T2进行延迟相加和延迟相减，获得T_ADD和T_SUB。

4)分别对延迟相加T_ADD和延迟相减T_SUB的时域语音数据进行频域加窗和傅里叶变换处理，获取频域语音数据F1和F2。进而获得频域信号能量F1_2和F2_2，由此获得两路频域语音数据。

5)对两路频域语音数据进行稳态噪声估计，获得两颗麦克风的平均稳态噪声信息的估计值N1和N2；

6)计算两颗麦克风拾音装置的信号平均能量值X1和X2，然后和稳态噪声估计值进行比较，计算信号噪声能量和参考噪声能量的比值OMEGA，然后通过OMEGA的值和设定的阈值估计语音存在概率P，进而得到语音不存在概率Q。

7)使用语音存在概率和语音不存在概率计算语音存在的增益G对频域数据增益调整，获得调整增益后的频域优化信号F_OPT。之后再通过频域加窗和逆傅里叶变换将频域优化信号转换成时域稳态噪声优化信号T_FINAL。

进一步，所述步骤2)中，两颗麦克风分别获取时域语音数据，采样率为16000hz，并分每帧128个语音数据进行处理；输出所述时域语音数据为T1和T2。

进一步，在所述步骤3)中，延迟相加T_ADD和延迟相减信号T_SUB的计算公式为：

T_ADD＝T1+T2

T_SUB＝T1-T2

进一步，所述步骤4)中，输入的是时域语音数据T_ADD和T_SUB，输出是频域语音数据F1、F2和频域信号能量F1_2，F2_2，公式为：

F1＝fft(HanningWindow*T_ADD)

F2＝fft(HanningWindow*T_SUB)

F1_2＝|F1|²

F2_2＝|F2|²

HanningWindow指的是汉宁窗函数。

进一步，所述步骤5)中，语音噪声估计的方式是采用滑动最小递归平均(MCRA)算法对语音的稳态噪声进行估计，具体的实现方式计算频域信号的平方作为信号能量值，公式为：

alpha是平滑系数、N1_last是1通道上一帧的噪声能量、THR_SIGNAL是噪声能量判断阈值、N2_last是2通道上一帧的噪声能量。

进一步，所述步骤6)中，信号平均能量X1和X2：

M是平均窗长度、i是平均序列号。

信号和参考噪声能量比值OMEGA的计算公式如下：

语音信号存在概率P的计算公式如下：

OMEGA_high语音存在阈值、OMEGA_low语音不存在阈值。

语音不存在概率Q计算公式如下：

Q＝1-P

进一步，所述步骤6)中，增益函数G的计算公式是：

进一步，所述步骤7)中，降噪后的频域语音数据公式为：

F1_OPT＝G*F1

降噪后的时域语音数据公式为：

T1_FINAL＝ifft(F1_OPT)。

进一步，所述步骤3)中，加窗运算选择的是汉宁窗，对每帧128个乘以汉宁窗系数，用来防止后面时频转换时发生频谱混叠。

本发明硬件上结构简单，相比之前的智能语音遥控器仅简单地增加1个远场拾音装置，在使用方式上摆脱了每次拾音都需要手持遥控器对着麦克风讲话的语音识别方式，采用了遥控器按键触发加远场语音识别的方式。软件算法上通过递归平均噪声估计方法对噪声进行消除增强语音信号。

附图说明

图1为设置于产品远场双麦降噪拾音装置的示意图。

图2为本发明远场双麦克建造方法流程框架图。

图3为远场降噪和语音增强效果。

具体实施方式

以下参考附图1-3，对本发明进行更全面的说明，附图中示出了本发明的示例性实施例。然而，本发明可以体现为多种不同形式，并不应理解为局限于这里叙述的示例性实施例。而是，提供这些实施例，从而使本发明全面和完整，并将本发明的范围完全地传达给本领域的普通技术人员。

如图1至图3所示，本发明一种红外触发的远场双麦远场语音识别方法，其中，在电视端正面设置麦克1和麦克2，采用线性放置的两颗麦克风进行语音采集。

当需要进行语音识别时，使用电视遥控器的红外语音按键控制电视端启动两颗麦克风拾音装置，然后进入语音识别状态。语音输入时，2路麦克同时拾音，开始语音增强算法处理。

语音增强，背景噪声降噪算法处理主要利用前后2路麦克语音数据的频域相关性对主麦克语音数据的频域增益进行修正：

如附图2所示，前置麦克风和后置麦克风分别获取时域语音数据，采样率为16000hz，即每秒16000个时域语音数据，我们分每帧128个语音数据进行处理，即每次取128个时域语音数据进行背景噪声降噪。该部分获得输出是时域语音数据T1和T2，分别对T1和T2进行延迟相加和延迟相减获得T_ADD和T_SUB，其中T_ADD用于主信号增强，而T_SUB用于参考噪声估计。

分别对主信号增强T_ADD和参考噪声T_SUB的时域语音数据进行频域加窗和傅里叶变换处理，获取频域语音数据。加窗运算选择的是汉宁窗，对每帧128个乘以汉宁窗系数，用来防止后面时频转换时发生频谱混叠，傅里叶变换是时域数据到频域数据的转换，具体算法实现中我们采用快速傅里叶变换(FFT)，以减少硬件的负担。该部分的输入是时域语音数据T1和T2，输出是频域语音数据F1和F2。公式为：

F1＝fft(HanningWindow*T_ADD)

F2＝fft(HanningWindow*T_SUB)。

对主信号和参考噪声的频域数据采用递归拼接方法进行噪声估计。首先计算主信号的参考噪声信号的频域信号能量F1_2和F2_2，公式为:

F1_2＝|F1|²

F2_2＝|F2|²

然后计算信号噪声估计N1和N2，公式为：

其中，alpha是平滑系数，N1_last和N2_last是前一次计算的噪声值，THR_noise是噪声判断阈值，能量小于改值即认为是噪声。

该部分输入是频域语音数据F1和F2，输出是频域噪能量估计N1和N2。

估计语音存在概率，首先计算平均信号能量X1和X2，公式如下：

然后计算信号和参考噪声能量比，公式如下：

然后计算语音信号存在概率，公式如下：

当信号和参考噪声能量比小于OMEGA_low时，认为此时干扰噪声强，语音不存在，当信号参考噪声能量比大于OMEGA_high时，认为此时主信号强，语音存在。其他情况下，根据信号和参考噪声能量比与OMEGA_low之差占比来计算语音信号存在概率。最后计算语音不存在概率，公式如下：

Q＝1-P

该部分的输入为主信号能量和估计噪声、参考噪声信号能量和估计噪声，输出是语音信号存在概率。

采用信号存在概率计算增益函数G，公式如下：

其中G_min是语音不存在时的最小增益。该部分输入是语音存在概率和主信号频域数据，输出是频域增益函数。

采用增益函数对前置麦克风的频域语音数据进行增益调整，获得降噪后的主信号麦克风的频域语音数据。该部分的输入是主信号频域语音数据和增益函数，输出是降噪后的频域语音数据。公式为(其中F1是主信号麦克的频域语音数据，F1_OPT为降噪后的频域语音数据)：

F1_OPT＝G*F1

降噪后的频域语音数据进行逆傅里叶变换，将频域语音数据变换成时域语音数据，实际采用的是快速逆傅里叶变换变换(IFFT)。公式为(其中T1_FINAL是降噪后的时域语音数据，F1_OPT是降噪后的频域语音数据)：

T1_FINAL＝ifft(F1_OPT)。

最终输出降噪后的时域语音数据T1_FINAL。

本发明中通过软件算法和硬件结合的方式达到语音增强目的：通过线性阵列双麦克的方式，组成了双麦克阵列。同时软件算法利用延迟相加和相减的方式构造了主信号和参考噪声信号，然后利用主信号和参考噪声信号的差异来判断语音信号存在概率，进而获得信号增益的函数，对语音进行噪声消除和语音增强。

本发明硬件上结构简单，相比之前的智能语音遥控器仅简单地增加1个远场拾音装置就能达到很好的语音增强的功能。简化了原语音遥控器需要一直手持输入语音的使用方式为简单的按键触发加远场语音识别方式，更符合语音识别的方便使用需求。软件算法上通过语音存在概率估计的方式计算语音增益函数，抑制了背景噪声，增强的语音信号。

背景噪声效果：如图3所示，是实际录音时的前置麦克和后置麦克录制的语音，可以看到有较强的背景噪声，降噪后的语音，可以看到经过降噪后的噪声被抑制而语音被完成的保留。

Claims

1.一种红外触发的远场双麦远场语音识别方法，其特征在于：该方法的具体为：

2)使用电视遥控器的红外语音按键，控制电视端启动两颗麦克风拾音装置，然后进入语音识别状态，此时两颗麦克风拾音装置同时采集语音数据，分别获取时域语音数据T1和T2；

3)对T1和T2进行延迟相加和延迟相减，获得主信号增强T_ADD和参考噪声T_SUB的时域语音数据；

4)对主信号增强T_ADD和参考噪声T_SUB的时域语音数据采用递归拼接方法进行噪声估计，获得主信号和参考噪声能量的比值OMEGA；

5)当主信号和参考噪声能量比小于OMEGA_low时，干扰噪声强，语音不存在；当主信号参考噪声能量比大于OMEGA_high时，主信号强，语音存在；

6)当检测到语音存在，采用增益函数对前置麦克风的频域语音数据进行增益调整，获得降噪后的主信号麦克风的频域语音数据；并最终输出降噪后的时域语音数据；

所述步骤3)进一步包括：

1)分别对所述主信号增强T_ADD和参考噪声T_SUB的时域语音数据进行频域加窗和傅里叶变换处理，获取频域语音数据F1和F2；进而获得频域信号能量F1_2和F2_2，由此获得两路频域语音数据；

2)对两路频域语音数据进行稳态噪声估计，获得两颗麦克风的平均稳态噪声信息的估计值N1和N2；

3)计算两颗麦克风拾音装置的信号平均能量值X1和X2，然后和稳态噪声估计值进行比较，计算信号噪声能量和参考噪声能量的比值OMEGA，然后通过OMEGA的值和设定的阈值估计语音存在概率P，进而得到语音不存在概率Q；

4)使用语音存在概率和语音不存在概率计算语音存在的增益G对频域数据增益调整，获得调整增益后的频域语音数据F_OPT；之后再通过频域加窗和逆傅里叶变换将频域优化信号转换成时域稳态噪声优化信号T_FINAL。

2.根据权利要求1所述的一种红外触发的远场双麦远场语音识别方法，其特征在于：所述步骤2)中，两颗麦克风分别获取时域语音数据，采样率为16000hz，并分每帧128个语音数据进行处理；输出所述时域语音数据为T1和T2。

3.根据权利要求1所述的一种红外触发的远场双麦远场语音识别方法，其特征在于：在所述步骤3)中，延迟相加T_ADD和延迟相减信号T_SUB的计算公式为：

T_ADD＝T1+T2

T_SUB＝T1-T2。

4.根据权利要求1所述的一种红外触发的远场双麦远场语音识别方法，其特征在于：所述步骤1)中，输入的是时域语音数据T_ADD和T_SUB，输出是频域语音数据F1、F2和频域信号能量F1_2，F2_2，公式为：

F1＝fft(HanningWindow*T_ADD)

F2＝fft(HanningWindow*T_SUB)

F1_2＝|F1|²

F2_2＝|F2|²

HanningWindow指的是汉宁窗函数。

5.根据权利要求1所述的一种红外触发的远场双麦远场语音识别方法，其特征在于：所述步骤2)中，语音噪声估计的方式是采用滑动最小递归平均MCRA算法对语音的稳态噪声进行估计，具体的实现方式计算频域信号的平方作为信号能量值，公式为：

其中，alpha是平滑系数、N1_last是1通道上一帧的噪声能量、THR_SIGNAL是噪声能量判断阈值、N2_last是2通道上一帧的噪声能量。

6.根据权利要求1所述的一种红外触发的远场双麦远场语音识别方法，其特征在于：所述步骤3)中，信号平均能量X1和X2：

M是平均窗长度、i是平均序列号；

信号和参考噪声能量比值OMEGA的计算公式如下：

语音信号存在概率P的计算公式如下：

OMEGA_high语音存在阈值、OMEGA_low语音不存在阈值；

语音不存在概率Q计算公式如下：

Q＝1-P。

7.根据权利要求1所述的一种红外触发的远场双麦远场语音识别方法，其特征在于：所述步骤4)中，增益函数G的计算公式是：

8.根据权利要求1所述的一种红外触发的远场双麦远场语音识别方法，其特征在于：所述步骤4)中，降噪后的频域语音数据公式为：

F1_OPT＝G*F1

降噪后的时域语音数据公式为：

T1_FINAL＝ifft(F1_OPT)。

9.根据权利要求1所述的一种红外触发的远场双麦远场语音识别方法，其特征在于：所述步骤1)中，加窗运算选择的是汉宁窗，对每帧128个乘以汉宁窗系数，用来防止后面时频转换时发生频谱混叠。