CN105225672B

CN105225672B - 融合基频信息的双麦克风定向噪音抑制的系统及方法

Info

Publication number: CN105225672B
Application number: CN201510518333.8A
Authority: CN
Inventors: 胡旻波
Original assignee: Individual
Current assignee: Individual
Priority date: 2015-08-21
Filing date: 2015-08-21
Publication date: 2019-02-22
Anticipated expiration: 2035-08-21
Also published as: CN105225672A

Abstract

本发明公开了一种融合基频信息的双麦克风定向噪音抑制系统和方法，所述系统包括主声音信号输入设备、辅助声音信号输入设备、单通道语音信号分离模块和双通道语音信号分离模块；所述方法为主声音信号输入设备收集主要语音信号输入单通道语音信号分离模块，辅助声音信号输入设备收集背景噪音信号；单通道语音信号分离模块和辅助声音信号输入设备的输出信号都输入和双通道语音信号分离模块中，最后输出处理后的声音信号。本发明充分考虑了噪音残留与语音扭曲这一矛盾问题，可以达到在不至扭曲语音的前提下有效抑制噪音，可以处理大部分真实环境中的非平稳噪音。

Description

融合基频信息的双麦克风定向噪音抑制的系统及方法

技术领域

本发明涉及噪音抑制的系统和方法，具体涉及一种融合基频信息的双麦克风定向噪音抑制的系统及方法。

背景技术

基于语音的人机交互技术是人与人、人与计算机最便捷、自然的交互方式。随着智能手机、语音识别等相关产品技术的发展，市场对语音降噪相关技术的需求越来越迫切。而用户在使用智能语音相关产品的同时，目标语音通常伴随着一些噪音，比如在家居环境下电视、音响设备的声音，这些噪音限制了智能语音的效果与用户体验。本专利发明的技术正是基于这项需求，通过信号处理，有效过滤掉相关噪音，确保语音信号的纯净度，提高语音交互的用户感知与体验。

常规的基于噪音能量估计的方法，通常需要对噪音类型进行限制，必须能量时不变的平稳信号，才能有一定的噪音抑制效果。此外，由于语音谱也被破坏，不能提高后续语音识别相关技术的准确率。采用麦克风阵列的beamforming技术，需要准确估计用户方位信息，或者需要用户必须站在某个固定的位置，限制了其应用的灵活性。本项发明采用了计算听觉场景分析技术，可以有效抑制真实环境下的非平稳定向噪声，并且只需要两个麦克风，对用户方位信息并无特殊要求，应用更为灵活。

对现有的降噪技术和市场上的语音降噪类产品进行仔细的对比和分析，可发现现有的降噪技术技术或者只能抑制某一类噪音，或者对噪音的处理效果不佳，有很大的噪音残留，不能提高语音识别的准确性，或者对麦克风的数量有严格要求，使用并不灵活。比较详细的比较如下所示：

以谱减法(spectral subtraction)为代表的语音增强技术，对噪音的平稳性有严格要求，只能有效处理白噪声或者其他能量变化缓慢的噪音信号；语音信号通常也会被误减，语音扭曲很大，降噪后语音感知质量差、可懂度并未提高，由于语音扭曲会导致语音识别率进一步下降。

以beamforming为代表的麦克风阵列处理技术，需要4个或者更多的麦克风才能达到相对良好的降噪效果，需要知道用户方位的先验信息，对于定向噪音抑制性能有限。

以主成分分析为代表的盲源分离技术，在理想无混响或者混响较弱的情况下，效果良好，但是真实家居环境应用下，混响通常很强，导致性能下降；通常声源的数量，不能多于麦克风的数量，比如以双麦克风为例，如果噪音源超过一个(用户声源也要计算)，会导致性能下降；此外过高的时间开销也是限制其应用的重要原因。

发明内容

针对现有技术的不足，本发明公开了一种融合基频信息的双麦克风定向噪音抑制的系统及方法。

本发明的技术方案如下：

一种融合基频信息的双麦克风定向噪音抑制系统，包括主声音信号输入设备和辅助声音信号输入设备，所述辅助声音信号输入设备距离声源的距离远于主声音信号输入设备；还包括：

单通道语音信号分离模块，包括恢复语音信号中的谐波的缺失成分的模块；

双通道语音信号分离模块，包括构造优化目标和最优滤波器，所述最优滤波器用于计算系统在保证语音信号无扭曲的条件下抑制噪音；

输出模块；

所述主声音信号输入设备的输出端连接单通道语音信号分离模块，单通道语音信号分离模块的输出端和辅助声音信号输入设备的输出端都连接双通道语音信号分离模块；双通道语音信号分离模块的输出端连接输出模块，所述输出模块输出可识别文本。

其进一步的技术方案为，其特征在于，所述单通道语音信号分离模块包括谐波结构缺失成分恢复模块，具体包括：

听觉谱计算模块，计算听觉谱估计函数；

二值掩蔽估计模块，设置有二值掩蔽函数，根据听觉谱估计函数区分由噪音主导的时频单元并将其排除，得到目标语音谱估计；

谐波结构模型分析模块，设置有谐波结构分析函数，分析所述听觉谱计算模块的输出信号的谐波结构；

谐波缺失成分恢复模块，设置有时域到频域的卷积函数，可恢复所述二值掩蔽估计模块得到的目标语音谱估计中的谐波缺失成分。

其进一步的技术方案为，所述单通道语音信号分离模块还包括基于CASA和维纳滤波的平滑滤波模块，具体包括：

噪音谱估计模块，可根据所述主声音信号输入设备所输入的信号中的无语音信号的空白时间段噪音谱估计函数和并估计噪音能量；

自适应噪音控制因子计算模块，可根据噪音谱估计模块和所述二值掩蔽估计模块所输出的信息得到与噪音效果成负相关的噪音控制因子；

浮值掩蔽计算模块，设置有浮值掩蔽计算函数，可根据噪音控制因子得到目标语音频谱估计函数；对语音频谱估计函数进行短时傅里叶逆变换得到目标语音时域估计函数。

其进一步的技术方案为，所述双通道语音信号分离模块包括对偶滤波器和最优滤波器；所述对偶滤波器用于提取所述单通道语音信号分离模块所输出的目标语音信号和辅助声音信号输入设备所输出的背景噪音信号；所述最优滤波器内设置有噪音残留评价函数、语音扭曲度评价函数和最优滤波器估计函数；所述噪音残留评价函数与噪音抑制效果呈负相关；所述语音扭曲度评价函数与语音扭曲程度呈正相关；所述最优滤波器估计函数在噪音抑制效果和语音扭曲度之间找到噪音抑制的最佳值。

一种使用如上所述的融合基频信息的双麦克风定向噪音系统抑制噪音的方法，包括以下步骤：

步骤1、主声音信号输入设备收集主要语音信号，同时辅助声音信号输入设备收集背景噪音信号；

步骤2、单通道语音信号分离模块对主要语音信号进行噪音过滤，恢复主要语音信号谐波结构缺失成分，输出目标语音信号；

步骤3、双通道语音信号分离模块对所收集的背景噪音信号和所述步骤2输出的目标语音信号构建对偶滤波器，并通过对偶滤波器建立优化函数，在语音不扭曲的基础上抑制所述目标语音信号中含有的噪声。

其进一步的技术方案为，所述步骤2具体包括：

步骤2.1、使用gammatone滤波器组对所属主要语音信号进行听觉滤波并计算听觉谱估计函数；gammatone滤波器的时域冲击响应函数为：

式(1)中，l为滤波器阶数，b为等效矩形带宽，b＝1.019×24.7×(0.0043f+1)；

步骤2.2、二值掩蔽估计，根据所述步骤2.1中得到的听觉谱估计函数，区分出由噪音主导的时频单元并将其排除，得到目标语音谱估计；

二值掩蔽估计函数为：

式(2)中，S(t,f)为语音听觉谱估计函数，N(t,f)为噪音听觉谱估计函数；LC为门限阈值；

步骤2.3、谐波结构分析，根据所述步骤2.1中听觉滤波器的输出信号，计算第f通道、第m时间帧自相关谱：

根据式(3)计算互通道相关系数：

式(4)中互通道相关系数C(f,m)的最大值对应处为基频对应圆频率f₀，当f₀∈[50,800]Hz时，对所述输出信号进行梳状滤波，梳状滤波器频域响应函数为：

H_comb(f)＝1+αexp(-j2πfF_s/F₀) (5)

H_shift(f)＝1+αexp(-j(2πfF_s/F₀+π)) (6)

式(5)和式(6)中，α为控制参数，F_s为采样频率；H_comb(f)用以抓取谐波结构上的语音能量，H_shift(f)用以抓取谐波结构之间的语音能量；

根据滤波后的时域信号计算梳状滤波能量比：

式(7)中CFR是进行谐波结构分析得到的特征；

步骤2.4、谐波缺失成分恢复，

通过相邻的谐波成分对孤立出现的谐波成分的缺失进行恢复，恢复所述二值掩蔽估计模块得到的目标语音谱估计中的谐波缺失成分。

其进一步的技术方案为，所述步骤2.4中，采用半波整流的方法和窗函数恢复谐波缺失成分，所述半波整流所对应的频域响应函数为：

所述窗函数为：

式(9)中，W为窗长为2M+1的窗函数；根据所述步骤2.2中二值掩蔽估计中得到的语音谱估计函数卷积式(9)中的窗函数，得到目标语音谱估计。

其进一步的技术方案为，所述步骤2还包括抑制语音扭曲的基于CASA和维纳滤波的平滑滤波算法，与上述恢复主要语音信号谐波结构缺失成分的步骤并行进行，具体包括以下步骤：

步骤2.5、噪音谱估计。对每一个时频单元，选取前后M个时频单元，根据步骤2.1所计算出的听觉谱和步骤2.2得到的二值掩蔽估计的结果，估计噪音谱：

式(24)中，N是前移帧长；

根据噪音谱估计，估计当前语音谱能量

式(25)中，|Y(l)|²为混合语音功率谱，ε是一个正数阈值以避免估计值小于0；

步骤2.6、自适应噪声控制因子计算；

式(27)中，α_B(l)是原二值掩蔽估计结果，ω(l)是为了保证每一个时频单元都有等权重以影响噪音控制因子的选择，在每一时间帧，任一μ对应一组浮值掩蔽α_μ，L(α_μ,α_B)定义为μ与二值掩蔽的距离；

对L(α_μ,α_B)优化即得到自适应噪声控制因子

步骤2.7、浮值掩蔽计算并合成语音信号

根据自适应控制因子计算语音频谱估计：

将式(28)进行短时傅里叶逆变换即得到目标语音时域估计。

其进一步的技术方案为，所述步骤3具体包括以下步骤：

步骤3.1、构造对偶滤波器：

所述对偶滤波器长为2L，式(10)中滤波器u_s用以提取目标语音信号，滤波器u_v用以提取背景噪音信号，滤波器u_s和滤波器u_v满足：

u_s+u_v＝u_I＝[1,0,...,0]^T (11)

步骤3.2、构造特征矩阵，

对于时间点t，构造如下特征矩阵：

式(12)中，L_D L_D为时间点t前L_D个样本点，y₁为主麦克风采集到的声信号，y₂为辅助麦克风采集到的声音信号。

由式(12)，A(t)u_s为时间t时目标语音信号估计函数，A(t)u_v为时间t时背景噪音信号估计函数；

步骤3.3、构造噪音残留评价函数，

式(13)中，t₀＝8000；J_nr与噪音的抑制效果呈负相关；

步骤3.4、构造语音扭曲度评价函数：

或者为：

J_OS(u_v)＝[u_I-u_S]^TA(t₁)^TA(t₁)[u_I-u_S] (16)

在式(14)、式(15)和式(16)中，t₁为所输入的信号中前0.5秒包含语音信号的任一时刻；J_OS的数值与语音扭曲度呈正相关；

步骤3.5、构造联合优化函数，取得最优滤波器，

式(17)中，λ为噪音控制因子，λ的值与噪音抑制效果和语音扭曲度呈负相关。

最优的滤波器为：

式(18)中B(t)＝A(t)^T

步骤3.6、时域滤波；

由上述步骤3.5得到的最优滤波器，估计目标语音函数：

式(19)中，为滤波器的前L段，为代表滤波器的后L段，y₁为最有滤波器的主通道的混合语音信号，y₂为最优滤波器的辅通道的混合语音信号。

其进一步的技术方案为，所述步骤3.1至步骤3.6中，涉及矩阵计算时，可使用简化计算方法，具体包括下述步骤：

步骤4.1、设B(t)＝A(t)^T

式(20)中，子矩阵B₁₁(t)、B₁₂(t)、B₂₁(t)和B₂₂(t)都为L×L阶方阵，且都为对称矩阵；

步骤4.2、式(20)中的四个子矩阵B₁₁(t)、B₁₂(t)、B₂₁(t)和B₂₂(t)都可表示为：

式(21)中，i＝1,j＝1...L_D，m＝1或2，n＝1或2；

步骤4.3、对i＞1,i≤j≤L_D的取值进行依次迭代，计算B_mn的上三角矩阵：

步骤4.4、由对称矩阵的性质：

由式(22)和式(23)，计算B_mn的下三角矩阵。

本发明的有益技术效果是：

1、本发明采用了计算听觉场景分析技术(Computational auditory sceneanalysis,CASA)，CASA是一种从上世纪90年代发展起来语音降噪技术。CASA通常基于听觉感知生理学和心理学领域的研究，通过一组听觉滤波器模拟耳蜗的声信号处理方式，根据相关组织线索和组织模式，对接收到的信号再次组织，以实现背景噪音过滤与抑制的目的。与传统的基于噪音估计得语音增强相比，该项技术可以处理非平稳噪声，处理的噪音类型更为广泛。由于语音能量大部分集中于谐波结构上，基频信息是CASA进行信号重组的重要信息，本项发明基于统计学习技术对基频信息进行建模，有效提高了基频信息使用效率。

2、本发明采用了双麦克风进行降噪，原则上，增加麦克风的数量会提高噪音抑制的效果，但是如果采用过多的麦克风，会增加硬件成本，使用的灵活性也会大大降低，压缩了应用市场。采用双麦克风，可以在不过分增加硬件成本的前提下，得到可以接受的降噪效果。此外，大部分智能手机等终端产品都内置两个麦克风，因此双麦克风降噪技术市场空间最大。相比于单麦克风来讲，双麦克风有两路信号可以使用，隐含了声源方位信息，是对基频信息的有效补充，可以提高降噪功能的鲁棒性。

3、本发明应用范围十分广泛，近几年来，纯净语音识别技术有了大的发展，智能语音驱动的相关产业也迅速扩大，包括智能家居语音交互平台、智能硬件、车联网等相关产业对本项发明有着迫切需求，也可以很大程度上推动智能语音整个产业链的发展。上游产业的迅速发展，为本项发明提供了良好的应用环境。

4、本发明尤其可以应用在听障患者使用的助听器上，目前中国有180多万听障患者有佩戴助听器的意愿，但是当前的助听设备通常只能放大信号，并无噪音抑制的功能。过分放大信号，虽然可以使得患者暂时可以听到声音，但是对耳朵的伤害巨大，属于“饮鸩止渴”，加剧听觉障碍。这也是当前助听器设备用户满意度普遍不高的重要原因之一。集成本项发明技术，可以使得患者有选择性的与人语音交流，降低纯粹功放的二次伤害。此外，助听器设备价格昂贵，一般的产品都要卖到1000元以上。因此，本项发明有着重大的市场潜力。

附图说明

图1是使用多线程系统并行处理噪音的原理示意图。

图2是本发明的原理图。

图3是本发明的系统结构示意图。

图4是64通道的gammatone滤波器组频域响应函数图。

图5是在基频为400Hz时梳状滤波器对应的频域响应函数图。

图6是矩形脉冲函数示意图。

图7是图6是频域示意图。

图8是恢复缺失谐波过程图。

具体实施方式

图1是使用多线程系统并行处理噪音的原理示意图。本发明结合计算机软硬件的功能特点，充分利用计算机多线程(multiple Threading)、多任务(Multiple Task)和并行处理(Parallel Processing)的能力，使之与降噪技术有效结合起来，从而可以实现实时噪音抑制与语音增强。图1所示的使用多线程系统并行加速处理的技术可以支持多个麦克风，本发明所述的降噪技术只需要2个麦克风。

图2是本发明的原理图。本发明的原理是通过信号采集系统得到目标语音流和背景噪音流两个信号流，经过噪音估计、谐波结构分析和滤波器设计三个阶段实现噪音抑制目的，噪音抑制后的分离语音传送到后续人机交互系统。其中，并行多线程系统并行处理的技术可实现多任务协同工作，降低了系统的复杂度与时间开销，保证降噪的实时性。

图3是本发明的系统结构示意图。本发明包括：

(1)、主声音信号输入设备1和辅助声音信号输入设备2，辅助声音信号输入设备2距离声源的距离远于主声音信号输入设备1。在本实施例中，主声音信号输入设备1和辅助声音信号输入设备2即为主麦克风和辅助麦克风。

(2)、单通道语音信号分离模块3，其中设置有恢复语音信号中的谐波的缺失成分的模块。具体包括谐波结构确实成分恢复模块和基于CASA和维纳滤波的平滑滤波模块。

谐波结构缺失成分恢复模块包括：

(21)、听觉谱计算模块，进行语音听觉谱计算；

(22)、二值掩蔽估计模块，通过所述听觉谱计算模块和噪音谱计算模块的输出信号，区分由噪音主导的时频单元并将其排除；

(23)、谐波结构模型分析模块，分析所述听觉谱计算模块的输出信号的谐波结构；

(24)、谐波缺失成分恢复模块，通过二值掩蔽估计模块的输出信号，恢复谐波缺失成分。

本发明还提出了更优的技术方案，即增加了从二值估计到浮值估计的过渡算法，以便有效抑制语音扭曲。具体是增加了基于CASA和维纳滤波的平滑滤波模块，包括：

(25)、噪音谱估计模块，根据所述主声音信号输入设备所输入的信号中的无语音信号的空白时间段进行噪音谱估计。

(26)、自适应噪音控制因子计算模块，根据所述二值掩蔽估计模块所输出的信息，设计函数，得到噪音控制因子。

(27)、浮值掩蔽计算模块，根据自适应控制因子计算语音频谱估计，根据短时傅里叶逆变换得到目标语音时域估计。

谐波结构缺失成分恢复模块是基于二值掩蔽估计函数对语音信号进行分析，但由于噪音主导时频单元能量被全部去除，在语音谱上会存在许多能量为0的时频单元。不论是在时间轴还是频率轴，都存在着能量的骤增和骤减，通常被称作“Musical”噪声，这和语音能量的渐变性是相互矛盾的，也是制约CASA直接应用于语音识别前端系统的重要原因。在实际分离系统中，由于二值掩蔽估计不可避免的出现错误，对后续语音识别的负面影响更为明显。所以增加了基于CASA和维纳滤波的平滑滤波模块对单通道语音信号分离模块进行进一步优化。

(3)、双通道语音信号分离模块4，设置有含有最优滤波函数的最优滤波器，使得在系统在抑制噪音的同时保证语音信号无扭曲。

双通道语音信号分离模块4包括对偶滤波器和最优滤波器；对偶滤波器用于提取所述单通道语音信号分离模块所输出的目标语音信号和辅助声音信号输入设备所输出的背景噪音信号；

最优滤波器内设置有噪音残留评价函数、语音扭曲度评价函数和最优滤波器估计函数；噪音残留评价函数与噪音抑制效果呈负相关；语音扭曲度评价函数与语音扭曲程度呈正相关；最优滤波器估计函数在噪音抑制效果和语音扭曲度之间找到噪音抑制的最佳值

(4)、输出模块5，输出模块包括鲁棒声学提取模块、语音识别引擎和识别文本输出端。双通道语音信号分离模块4的输出信号输入鲁棒声学提取模块，鲁棒声学提取模块的输出端连接语音识别引擎，语音识别引擎的输出端连接识别文本输出端，完成整个噪音处理过程。

本发明还公开了基于上述融合基频信息的双麦克风定向噪音抑制的系统的噪音抑制方法。具体包括：

步骤2、单通道语音信号分离模块对主要语音信号进行噪音过滤，恢复谐波结构缺失成分，输出目标语音信号；

步骤2具体包括：

步骤2.1、使用gammatone滤波器组进行听觉滤波并计算听觉谱，gammatone滤波器的时域冲击响应函数为：

式(1)中，l为滤波器阶数，b为等效矩形带宽，b＝1.019×24.7×(0.0043f+1)。

在本实施例中，gammatone滤波器组为64路滤波器组，滤波器阶数l＝4。图4是64通道的gammatone滤波器组频域响应函数图。

步骤2.2、二值掩蔽估计，二值掩蔽是一种粗略的时频单元分类方式，主要目标是区分出由噪音主导的时频单元并将其排除；二值掩蔽估计函数为：

式(2)中，S(t,f)为语音听觉谱估计函数，N(t,f)为噪音听觉谱估计函数；LC为门限阈值，在本实施例中，设定LC＝0。

根据式(3)计算互通道相关系数：

式(4)中互通道相关系数C(f,m)的最大值对应处为基频对应圆频率f₀，由于语音浊音基频通常分布在[50，800]Hz之间，如果超出这个区间，则定义为无谐波结构。对于有谐波结构时间帧，采用梳状滤波，即当f₀∈[50，800]Hz时，对所述输出信号进行梳状滤波，梳状滤波器频域响应函数为：

H_comb(f)＝1+αexp(-j2πfF_s/F₀) (5)

H_shift(f)＝1+αexp(-j(2πfF_s/F₀+π)) (6)

式(5)和式(6)中，α为控制参数，F_s为采样频率；H_comb(f)用以抓取谐波结构上的语音能量，H_shift(f)用以抓取谐波结构之间的语音能量。

在本实施例中，α＝0.8，图5是在基频为400Hz时梳状滤波器对应的频域响应函数图。

下图所示为基频为400Hz对应的滤波器频域响应函数。

根据滤波后的时域信号计算梳状滤波能量比：

式(7)中CFR是进行谐波结构分析的特征，可用来用以构建贝叶斯分类器的特征空间。

步骤2.4、谐波缺失成分恢复。

图6是矩形脉冲函数示意图。图7是图6是频域示意图。

在浊音帧，半波整流等价于原时域信号点乘以一个周期近似为基频周期的矩形脉冲函数，如图6所示；在频域上，等价于原基于二值或浮值估计对应的语音谱估计，卷积上一个平滑窗，图7所示。图7中，Ω为基频对应的角频率。以任一频带f为例，谐波恢复后的语音能量等于相邻谐波能量的加权平均，其中f的相邻谐波为f±nΩ,n＝0,1,2...。因此，孤立出现的谐波成分缺失，可以通过相邻的几个谐波成分进行一定程度的恢复。所以本步骤通过相邻的谐波成分恢复孤立出现的谐波成分缺失，得到新的语音谱估计。

在本实施例中，采用半波整流和新的窗函数方法恢复缺失谐波，其中半波整流对应频域响应函数为：

所采用的窗函数为：

式(9)中，W为窗长为2M+1的窗函数；在本实施例中，M＝10。根据所述步骤2.2中二值掩蔽估计得到语音谱估计函数卷积卷积式(9)中的窗函数即可得到目标语音谱估计。

本发明还提出了更优的技术方案，即增加从二值估计到浮值估计的过渡算法，以便有效抑制语音扭曲。具体是在单通道语音信号分离模块中增加了基于CASA和维纳滤波的平滑滤波算法。基于CASA和维纳滤波的平滑滤波算法和恢复谐波结构缺失成分的过程并行进行，具体包括以下步骤：

式(24)中，N是前移帧长，在本实施例中，N＝10。

根据噪音谱估计，估计当前语音谱能量

式(25)中，|Y(l)|²为混合语音功率谱，ε是一个小正数阈值以避免估计值小于0。

步骤2.6、自适应噪声控制因子计算，

在每一时间帧，任一μ对应一组浮值掩蔽α_μ。假设L(α_μ,α_B)定义为μ与二值掩蔽的距离，通过优化该距离可以得到一个噪音控制因子在本实施例中，采用加权-1范数作为距离函数：

式(27)中，α_B(l)是原二值掩蔽估计结果，ω(l)是为了保证每一个时频单元都有等权重以影响噪音控制因子的选择。

步骤2.7、浮值掩蔽计算并合成语音信号

根据自适应控制因子计算语音频谱估计：

将式(28)进行短时傅里叶逆变换得到目标语音时域估计。

图8是恢复缺失谐波过程图，首先对语音谱估计函数进行基频估计，其次进行短时傅里叶变换，之后进行谐波频带辨识，所得到的结果与窗函数进行卷积，再进行短时傅里叶逆变换，最终得到目标语音谱估计。

本发明的技术方案主要基于由于各声源到主麦克风与辅麦克风距离的不同，进而导致幅度衰减因子和时延不同这一事实。辅麦克风的引入，可以进一步抑制原单通道语音分离算法中的“Musical”噪声，提高噪音抑制性能。具体流程如下所示：

步骤3.1、构造对偶滤波器：

u_s+u_v＝u_I＝[1,0,...,0]^T (11)

在本实施例中，L＝500。

步骤3.2、构造特征矩阵，

对于时间点t，构造如下特征矩阵：

式(12)中，L_D为时间点t前L_D个样本点；y₁为主麦克风采集到的声信号，y₂为辅助麦克风采集到的声音信号。

由式(12)，A(t)u_s为时间点t时目标语音信号估计结果，A(t)u_v为时间点t时背景噪音信号估计结果。

在本实施例中，采用半秒时间信号，即如果采样率为16000，则L_D＝8000。

步骤3.3、构造噪音残留评价函数，

式(13)中，选取音频前0.5秒钟信号，t₀＝8000；J_nr与噪音的抑制效果呈负相关的关系，即J_nr越低代表噪音抑制效果越好，但是过低的J_nr则潜在较大的语音扭曲。很明显0向量是上述评价函数的解，但是0向量也会同时抑制掉全部语音，因此需要避免0向量这一平凡解。

步骤3.4、构造语音扭曲度评价函数，

J_OS(u_v)＝[u_I-u_S]^TA(t₁)^TA(t₁)[u_I-u_S] (16)

式(14)、式(15)和式(16)都可以起到类似的作用，在式(14)、式(15)和式(16)中，选定t1为混合语音中的任一时刻，确保t1前0.5秒信号中包含语音信号；J_OS的数值与潜在的语音扭曲程度呈正相关的关系；即J_OS越高，代表潜在的语音扭曲越大。噪音抑制的同时必须确保语音扭曲不能过大。

步骤3.5、构造联合优化函数，取得最优滤波器估计，

式(17)中，λ为噪音控制因子，λ的值与噪音抑制效果和语音扭曲度呈负相关。即λ值越大，噪音抑制效果越差，同时语音扭曲度越低，反之，λ值越小，噪音抑制效果更好，但是同时语音扭曲过高。λ值的参考范围为[0.0001,0.1]，在本实施例中，λ＝0.005。

由式(17)得到的最优的滤波器如下：

式(18)中B(t)＝A(t)^T

步骤3.6、时域滤波；

由上述步骤3.5得到的最优滤波器，估计目标语音：

滤波器长2L，在式(19)中，和分别代表滤波器的前L和后L段，y₁和y₂分别代表主通道和辅通道混合语音信号。

在上述的噪音抑制方法流程中，设计到了大型的矩阵运算，影响了算法的实时性能。本发明给出了更优的技术方案，即矩阵的简化算法流程：涉及矩阵计算时，可使用下述计算方法，具体包括下述步骤：

步骤4.1、设B(t)＝A(t)^T

步骤4.2、式(20)中的四个子矩阵B₁₁(t)、B₁₂(t)、B₂₁(t)和B₂₂(t)可进行如下的迭代计算，

式(21)中，i＝1,j＝1...L_D，m＝1或2，n＝1或2；

步骤4.3、对任一i＞1,i≤j≤L_D二维坐标依次迭代，计算B_mn的上三角矩阵：

步骤4.4、由对称矩阵的性质：

由式(22)和式(23)，计算B_mn的下三角矩阵。

对于B₁₁(t)、B₁₂(t)、B₂₁(t)和B₂₂(t)四个矩阵均可使用上述简化方法进行计算。

以上所述的仅是本发明的优选实施方式，本发明不限于以上实施例。可以理解，本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化，均应认为包含在本发明的保护范围之内。

Claims

1.一种融合基频信息的双麦克风定向噪音抑制系统，包括主声音信号输入设备和辅助声音信号输入设备，所述辅助声音信号输入设备距离声源的距离远于主声音信号输入设备；其特征在于，还包括：

输出模块；

所述主声音信号输入设备的输出端连接单通道语音信号分离模块，单通道语音信号分离模块的输出端和辅助声音信号输入设备的输出端都连接双通道语音信号分离模块；双通道语音信号分离模块的输出端连接输出模块，所述输出模块输出可识别文本；

所述单通道语音信号分离模块包括谐波结构缺失成分恢复模块，具体包括：

听觉谱计算模块，计算听觉谱估计函数；

2.如权利要求1所述的融合基频信息的双麦克风定向噪音抑制系统，其特征在于，所述单通道语音信号分离模块还包括基于计算听觉场景分析技术CASA和维纳滤波的平滑滤波模块，具体包括：

3.如权利要求1所述的融合基频信息的双麦克风定向噪音抑制系统，其特征在于，所述双通道语音信号分离模块包括对偶滤波器和最优滤波器；所述对偶滤波器用于提取所述单通道语音信号分离模块所输出的目标语音信号和辅助声音信号输入设备所输出的背景噪音信号；所述最优滤波器内设置有噪音残留评价函数、语音扭曲度评价函数和最优滤波器估计函数；所述噪音残留评价函数与噪音抑制效果呈负相关；所述语音扭曲度评价函数与语音扭曲程度呈正相关；所述最优滤波器估计函数在噪音抑制效果和语音扭曲度之间找到噪音抑制的最佳值。

4.一种使用如权利要求1所述的融合基频信息的双麦克风定向噪音抑制系统抑制噪音的方法，其特征在于，包括以下步骤：

5.如权利要求4所述的抑制噪音的方法，其特征在于，所述步骤2具体包括：

二值掩蔽估计函数为：

根据式(3)计算互通道相关系数：

H_comb(f)＝1+αexp(-j2πfF_s/F₀) (5)

H_shift(f)＝1+αexp(-j(2πfF_s/F₀+π)) (6)

根据滤波后的时域信号计算梳状滤波能量比：

式(7)中CFR是进行谐波结构分析得到的特征；

步骤2.4、谐波缺失成分恢复，

6.如权利要求5所述的抑制噪音的方法，其特征在于，所述步骤2.4中，采用半波整流的方法和窗函数恢复谐波缺失成分，所述半波整流所对应的频域响应函数为：

所述窗函数为：

7.如权利要求5所述的抑制噪音的方法，其特征在于，所述步骤2还包括抑制语音扭曲的基于计算听觉场景分析技术CASA和维纳滤波的平滑滤波算法，具体包括以下步骤：

步骤2.5、噪音谱估计；对每一个时频单元，选取前后M个时频单元，根据步骤2.1所计算出的听觉谱和步骤2.2得到的二值掩蔽估计的结果，估计噪音谱：

式(24)中，N是前移帧长；

根据噪音谱估计，估计当前语音谱能量

步骤2.6、自适应噪声控制因子计算；

对L(α_μ,α_B)优化即得到自适应噪声控制因子

步骤2.7、浮值掩蔽计算并合成语音信号

根据自适应控制因子计算语音频谱估计：

将式(28)进行短时傅里叶逆变换即得到目标语音时域估计。

8.如权利要求4所述的抑制噪音的方法，其特征在于，所述步骤3具体包括以下步骤：

步骤3.1、构造对偶滤波器：

u_s+u_v＝u_I＝[1,0,...,0]^T (11)

步骤3.2、构造特征矩阵，

对于时间点t，构造如下特征矩阵：

式(12)中，L_D为时间点t前L_D个样本点，y₁为主麦克风采集到的声信号，y₂为辅助麦克风采集到的声音信号；

步骤3.3、构造噪音残留评价函数，

式(13)中，t₀＝8000；J_nr与噪音的抑制效果呈负相关；

步骤3.4、构造语音扭曲度评价函数：

或者为：

J_os(u_v)＝[u_I-u_s]^TA(t₁)^TA(t₁)[u_I-u_s] (16)

步骤3.5、构造联合优化函数，取得最优滤波器，

式(17)中，λ为噪音控制因子，λ的值与噪音抑制效果和语音扭曲度呈负相关；

最优的滤波器为：

式(18)中

步骤3.6、时域滤波；

由上述步骤3.5得到的最优滤波器，估计目标语音函数：

9.如权利要求8所述的抑制噪音的方法，其特征在于，所述步骤3.1至步骤3.6中，涉及矩阵计算时，可使用简化计算方法，具体包括下述步骤：

步骤4.1、设

式(21)中，i＝1,j＝1...L_D，m＝1或2，n＝1或2；

步骤4.3、对i>1,i≤j≤L_D的取值进行依次迭代，计算B_mn的上三角矩阵：

步骤4.4、由对称矩阵的性质：

由式(22)和式(23)，计算B_mn的下三角矩阵。