CN110534125A

CN110534125A - 一种抑制竞争性噪声的实时语音增强系统及方法

Info

Publication number: CN110534125A
Application number: CN201910857922.7A
Authority: CN
Inventors: 宫琴
Original assignee: Beijing Qinger Huacong Technology Co Ltd; Wuxi Research Institute of Applied Technologies of Tsinghua University
Current assignee: Beijing Qinger Huacong Technology Co Ltd; Wuxi Research Institute of Applied Technologies of Tsinghua University
Priority date: 2019-09-11
Filing date: 2019-09-11
Publication date: 2019-12-03

Abstract

本发明涉及一种抑制竞争性噪声的实时语音增强系统及方法，该系统包括双麦克风阵列模块，用于采集各种声源信号；音频模块，用于将采集的声源信号进行模数转换；处理器模块，用于通过信号输入接口获取所述音频模块传送的数据进行实时处理，并通过输出接口发送控制信号到所述音频模块，使所述音频模块输出实时处理过的音频信号。本发明包含了一种通过提取麦克风阵列的延迟参数，计算带噪信号的掩蔽权重的语音增强算法，可以应用于多人交谈的场合，抑制与目标源处于不同方位的竞争性语音噪声。

Description

一种抑制竞争性噪声的实时语音增强系统及方法

技术领域

本发明是关于一种抑制竞争性噪声的实时语音增强系统及方法，涉及电子学、计算机和信号处理等技术领域。

背景技术

在日常生活中，人们所接触到的声音信号往往充斥着噪声的干扰，具体到在室内参加会议或者课程，进入讨论时，现场其他参与者的自由发言会影响到我们对于目标说话人语音的正常接收，尤其是针对于使用自动语音识别系统或者佩戴电子耳蜗和助听器的用户，如果不对前端麦克风采集到的带噪声音进行预处理，会严重影响用户的言语识别率。目前电子设备的发展日趋小型化，尤其是助听器等听力辅助设备体积与功耗的限制，通常只采用两个近距离的微型麦克风采集声音。

中山大学的李宇等人提出单麦克风的感知增益函数的语音增强方法，采用单麦克风采集带噪信号，并对信号进行DFT变换到频域。采用MMSE法估计噪声功率谱，用判决引导方法估计先验信噪比，并且利用基于广义Gamma模型与感知的加权欧式失真测度计算增益函数，求出信号在频域的幅值，最终进行DFT的逆变换，获得增强语音的时域形式。该方法对硬件的要求低，应用范围较广，但是同样也是由于硬件的限制，一旦背景噪声的功率谱特性不断变化，尤其是干扰噪声是与目标语音信号能量相近的竞争性语音噪声时，语音增强性能将会下降。

桂林电子科技大学的曾庆宁等人提出应用于噪声环境下语音识别的语音增强方法，该方法将利用语音时频域稀疏性原理的基于时频掩蔽的改进MVDR波束形成与改进维纳滤波相结合，构建一个基于时频掩蔽的MVDR波束形成器，抑制方向性的干扰噪声。但是该方法使用了四元麦克风阵列，而应用于远场模型的四元麦克风阵列往往在硬件上占用的空间会比较多，硬件电路也会相应变得复杂，无法满足目前电子产品小型化，轻量化的发展需求。

诺尔康公司的王宁远等人提出人工耳蜗及助听器的双麦克风降噪系统和方法，在传统的双麦克风波束形成法的基础上，对前向的目标信号进行估算和维纳滤波，最后得到增强的语音信号，可以较好地抑制来自正后方的语音噪声，但是如果出现多个竞争性语音噪声，该方法的性能将会下降。

发明内容

针对上述问题，本发明的目的是提供一种抑制竞争性噪声的实时语音增强系统及方法，能够抑制与目标源处于不同方位的竞争性语音噪声。

为实现上述目的，本发明采取以下技术方案：

第一方面，本发明提供一种抑制竞争性噪声的实时语音增强系统，该系统包括：

双麦克风阵列模块，用于采集各种声源信号；

音频模块，用于将采集的声源信号进行模数转换；

处理器模块，用于通过信号输入接口获取所述音频模块传送的数据进行实时处理，并通过输出接口发送控制信号到所述音频模块，使所述音频模块输出实时处理过的音频信号。

进一步地，所述双麦克风阵列模块包括麦克风阵列采集电路、信号放大电路，带通滤波电路和电源管理模块，所述信号放大电路包括第一级放大电路和第二级放大电路；所述麦克风阵列采集电路由两个近距离的全向性微型麦克风组成，两个所述微型麦克风的输出端连接所述第一级放大电路的输入端，所述第一级放大电路的输出端通过所述带通滤波电路连接所述第二级放大电路的输入端，所述第二放大电路的输出端连接所述音频模块的输入端，所述电源管理模块用于对各用电器件进行供电。

进一步地，每一所述麦克风均采用硅麦克风，两个所述麦克风的间距为10～20mm。

进一步地，所述带通滤波电路由二阶低通电路和二阶高通电路组成。

进一步地，所述音频模块采用音频解码器芯片，所述音频解码器芯片的采样率范围为8kHz～96kHz，支持LINE-IN和MIC-IN两种输入方式。

第二方面，本发明还提供了一种抑制竞争性噪声的实时语音增强方法，包括：

S1、定义双麦克风中靠近目标声源S的麦克风为前向麦克风mic₁，另一个则为后向麦克风mic₂，两个麦克风采集到的信号m₁(n)和m₂(n)，此时采集到的信号是带噪的信号；

S2、对时域信号进行分帧、加窗后再傅里叶变换可得M₁(k)和M₂(k)，其中，k＝1,2,…,N，N为傅里叶变换的点数；

S3、根据信号到达双麦克风阵列的时间存在延迟的特性，计算延迟系数：

S4、比较延迟系数τ(k)与目标声源的理想延迟时间其中，d为双麦克风之间的距离，θ₁为目标声源的方位角，c为声速，f_s为采样频率；

S5、根据比较结果计算M₁(k)的掩蔽权重B(k)：

其中，x₁，x₂，x₃，x₄分别是四个0-1之间的数，根据实验测试获得，然后得到增强信号的频域表达式：

S6、对增强信号进行逆傅里叶变换，利用重叠相加法，得到增强后的信号

进一步地，上述步骤S4的具体比较过程为：

当τ(k)在x₁δ₁～x₂δ₁的范围内时认为目标信号占主导的可能性最大，对这一部分的时频单元的能量全部予以保留；

当τ(k)在x₃δ₁～x₄δ₁的范围内时，目标信号占主导的可能性略有减小，对τ(k)在这一范围内的时频单元的能量进行部分保留；

当τ(k)在x₃δ₁以下时，目标信号占主导的可能性更小，对τ(k)在这个范围内的时频单元中的能量进行舍弃。

本发明由于采取以上技术方案，其具有以下特点：

1、本发明提供了一套以近距离双麦克风阵列为基础的语音增强硬件电路，系统体积小，方便扩展，可以应用于助听器等便携式电子设备中；

2、本发明包含了一种通过提取麦克风阵列的延迟参数，计算带噪信号的掩蔽权重的语音增强算法，可以应用于多人交谈的场合，抑制与目标源处于不同方位的竞争性语音噪声；

3、本发明以TI公司的芯片为核心处理器，对实时语音增强方法进行了工程实现，根据实测结果，该方法可以有效地抑制竞争性语音噪声，提高了前端信号的信噪比，并且算法鲁棒性好，测试时选取的语料、干扰噪声源静止的方位和目标声源较正方向的轻微偏差等因素，均不会对算法的效果产生本质的影响。

附图说明

图1是本发明实施例1的系统组成框图；

图2是本发明实施例1的双麦克风阵列模块的结构框图；

图3是本发明实施例1的音频解码器与处理器连接示意图；

图4是本发明实施例1的双麦克风与声源位置示意图；

图5是本发明实施例2的基于DSP的算法处理流程图；

图6是本发明实施例2的系统测试示意图；

图7是本发明实施例2的测试指标随声源位置变化折线图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

如图1所示，本实施例提供了一种能够抑制多方向性竞争性噪声的实时语音增强系统，包括双麦克风阵列模块1、音频模块2和嵌入式处理器模块(DSP)3。

双麦克风阵列模块1采集到的信号通过LINE-IN口发送到音频模块2，音频模块2通过音频线以左右声道的形式传输并进行模数转换，音频模块2通过McASP接口将数据传递到DSP3中进行实时处理，音频模块2通过I2C接口接收来自DSP3的控制指令，DSP3将处理后的结果传输到其内部DAC模块进行数模转换发送到音频模块2，由音频模块2的LINE-OUT口输出处理过的音频信号。

在一个优选的实施中，如图2所示，双麦克风阵列模块1包括麦克风阵列采集电路11、信号放大电路，带通滤波电路12和电源管理模块13，其中，信号放大电路包括第一级放大电路14和第二级放大电路15。

麦克风阵列采集电路11采用两个近距离的全向性微型麦克风组成，两个麦克风的输出端连接第一级放大电路14的输入端，第一级放大电路14的输出端通过带通滤波电路12连接第二级放大电路15的输入端，第二级放大电路15的输出端连接音频模块2。其中，电源管理模块13用于提供麦克风阵列采集电路11所需的3.3V、信号放大电路和带通滤波电路12的正负12V电压，由于现有电源适配器提供的是5V直流电，因此需要通过电源管理模块13进行电压转换，用于给各器件供电。

具体地，麦克风阵列采集电路11选用的是楼氏公司生产的硅麦克风，该类麦克风是全向型的模拟输出麦克风，体积小，灵敏度高，低噪声输入，一般用于手机，助听器和其他便携式电子设备中。为了保证双麦克风阵列远场拾音时不出现相位混叠的情况，双麦克风的间距不宜设置过大，本实施例基于助听器等小型设备的体积大小，最终确定双麦克风的间距为10～20mm。

第一级放大电路14可以选用现有的低噪声高线性度放大器芯片，该芯片需要具有低噪声系数，高线性度等优点，适合于对麦克风采集的微弱信号的放大并减少噪声的引入。实际使用中可以根据需要调节第一级电路的放大倍数。在本实施例中，当信号通过第一级放大电路14后，信号放大了10倍，并且反相输出，以此为例，不限于此。

带通滤波电路12采用现有的二阶低通电路和二阶高通电路组成同相输入的有源滤波电路，理论通带为160-12000Hz，该频带满足电子耳蜗滤波器组的频带要求同时省去50Hz陷波电路的设计，减少电路的复杂性及电路板的尺寸。经过滤波后的信号需要经过二级反向放大才能达到合适的电压范围，在第二级放大电路15中仍然使用与第一级放大电路14同款放大芯片作为运算放大器，可以在电路中加入贴片式可调电阻作为反馈电阻，共同组成反相比例运算放大电路。在实际使用过程中，可以根据环境声的变化来调节音量。在本发明中，第二级放大电路的放大倍数为1～8.7倍，并且可以将第一级放大电路14中反相的信号恢复成初始相位。

在一个优选的实施例中，如图3所示，本实施例的音频模块2可以采用音频解码器芯片，其采样率范围为8kHz～96kHz，支持LINE-IN和MIC-IN两种输入方式，本实施例的音频解码器具有线性输入接口LINE-IN和耳机输出接口LINE-OUT。

实施例2：

如图4所示，本实施例适用于处理多方向的竞争性语音噪声，目标信号偏离正向的角度设为θ₁，θ₁为0°或非常接近0°，两个竞争性语音噪声分别位于θ₂和θ₃。前、后向麦克风分别记作mic₁、mic₂，其采集的信号分别记作m₁(n)和m₂(n)，其中n为采样点数据的离散序号，本实例中采集到的信号以帧为单位，n的范围为1～512。目标声源、干扰噪声源1和干扰噪声源2所处的方位分别是θ₁、θ₂和θ₃，mic₁采到的目标声源、干扰噪声源1、干扰噪声源2分别记作s₁(n)、s₂(n)和s₃(n)。

则mic₁所采集到的混合信号m₁(n)可被表示为：

m₁(n)＝s₁(n)+s₂(n)+s₃(n)

mic₂所采集到的混合信号相对于mic₁会有一定的延迟，根据几何关系可以推出表达式：

其中，d为双麦克风之间的距离，c为声速，f_s为采样频率。

对时域信号进行分帧、加窗后再进行傅里叶变换可得其在频域的表达式M₁(k)和M₂(k)，

k＝1,2,…,N，N为傅里叶变换的点数，如果在混合信号的一个时频单元内，目标信号的能量占了主导，即在这个时频单元内，|S₁(k)|＞＞|S₂(k)|并且|S₁(k)|＞＞|S₃(k)|，混合信号与目标信号的关系可以近似表示为

将两式相除，并且根据欧拉公式展开可以得到，

记不等式左边的代数式为δ₁，因为θ₁为0°或非常接近0°，所以δ₁实际是一个常量，记不等式右边的代数式为τ(k)，可以根据前后麦克风采集到的数据计算每个频域点的τ(k)，与δ₁进行比较。

为了较好地平衡干扰噪声的引入和目标信号的能量损失，当τ(k)在0.9δ₁～1.0δ₁的范围内时，认为目标信号占主导的可能性最大，对这一部分的时频单元的能量全部予以保留；当τ(k)在0.5δ₁～0.9δ₁的范围内时，目标信号占主导的可能性略有减小，对τ(k)在这一范围内的时频单元的能量进行部分保留；当τ(k)在0.5δ₁以下时，目标信号占主导的可能性更小，如果对其中的能量进行部分保留，会使得干扰噪声引入所带来的影响大于能量损失所带来的影响，因此对τ(k)在这个范围内的时频单元中的能量进行舍弃。掩蔽矩阵(掩蔽矩阵的维度与M₁、M₂的维度相同，矩阵中的元素是范围在0～1间的实数)的确定准则为：

其中，x₁，x₂，x₃，x₄分别是四个(0-1)之间的数，根据实验测试获得，本实施例中分别为0.9、1.0、0.5、0.9，以此为例。

最后可以得到增强信号的频域表达式对增强信号进行逆傅里叶变换，然后利用重叠相加法，可以得到增强后的信号此时的信号已经抑制了方向性的竞争语音噪声。

基于上述原理，本实施例还提供一种抑制竞争性噪声的实时语音增强方法，具体过程为：

1、DSP系统初始化，配置McASP为EDMA方式，传输音频数据，传输协议为I2S。EDMA的传输类型为A同步传输，每次传输的采样数据为左右声道相同点数，DSP实际处理的数据由上次采集数据和本次采集数据拼接而成。

2、定义双麦克风中靠近与目标声源S的麦克风为前向麦克风mic₁，另一个则为后向麦克风mic₂，那么可以得到两个麦克风采集到的信号m₁(n)和m₂(n)，这时，采集到的信号是带噪的信号。对时域信号进行分帧、加窗后再傅里叶变换可得M₁(k)和M₂(k)，k＝1,2,…,N，N为傅里叶变换的点数。

3、根据信号到达双麦克风阵列的时间存在延迟的特性，可以计算关于前后向麦克风的延迟系数：

4、比较延迟系数τ(k)与目标声源的理想延迟时间

5、根据比较结果计算M₁(k)的掩蔽权重B(k)，

然后得到增强信号的频域表达式：

6、对增强信号进行逆傅里叶变换，利用重叠相加法，可以得到增强后的信号此时的信号已经抑制了方向性的竞争语音噪声。

本实施例还选用TI公司生产的32位浮点DSP作为嵌入式处理器模块实现上述方法。单帧的音频数据在该嵌入式处理器模块内部的移动是基于DMA模式的。在本实施例中配置EDMA3通道控制器(EDMA3CC)的参数RAM(PaRAM)为连接传输，数据传输协议为IIS协议，一个采样周期内同时传输左右声道的数据，数据长度为16b。本实施例的系统采样频率为16kHz，每次传输的采样数据为左右声道各256点，DSP实际处理的数据由上次采集数据和本次采集数据拼接而成。如图5所示，完成DSP与AIC3106的配置以后，系统进行音频信号的分帧和PING-PONG缓存的操作，之后EDMA3搬运左右声道的单帧数据至DSP的内存中进行实时处理。

为了说明本发明的有益效果，判定其是否对噪声进行了有效去除，通过在静音室内的实际测试来验证发明效果。如图6所示，将本实施例的实时语音增强系统位于静音室正中央，目标信号位于正方向，而干扰噪声1和2位于其它方向。声源与采集系统的距离约为1.5m。声源信号均由音箱播放。随机取标准汉语句子库中的3段语音作为测试语料，语料的采样频率为16kHz，其中目标声源使用其中任意一段，声源方位设置在0°附近(包括0°、5°、10°和15°)，剩余两段语料分别作为干扰噪声源1和干扰噪声源2，声源方位设置为60°、90°、120°、150°和180°中的任意角度。考虑以上的所有情况，可以得到6种语料组合和100种方位组合。利用本实施例可实现所有情况下的信号采集和实时处理工作。为了验证不同情况下本实施例的性能，这里选取分段信噪比SSNR的提升ΔSSNR和感知语音质量评估PESQ作为评价指标。SSNR可以反映语音的局部失真水平，ΔSSNR越高代表算法的噪声消除水平越高，而PESQ与主观评价的相关度高，PESQ越高代表语音的可懂度越高。

如图7所示，为所有语料组合经过DSP处理后得到的指标均值，横坐标代表干扰声源2的方位θ₃。由结果可以看出，当噪声源分别位于60°和90°方位角时，两项指标最高，效果最好；在所有的测试条件下，ΔSSNR均在7dB以上，处于较高的提升水平，并且当噪声源的位置固定不变时，随着目标声源在0°附近的变化，ΔSSNR的变化均小于0.1dB，在子图中体现为4条曲线相距较近，这体现了算法处理效果的一致性；而对于所有测试条件，算法的PESQ的值均高于1.42，并且当目标声源变化时，图中相同方位的干扰声源各点的PESQ变化均小于1％。

最后应当说明的是：以上实施例仅用于说明本发明的技术方案而非对其保护范围的限制，尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解：本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换，但这些变更、修改或者等同替换，均在申请待批的权利要求保护范围之内。

Claims

1.一种抑制竞争性噪声的实时语音增强系统，其特征在于，该系统包括：

双麦克风阵列模块，用于采集各种声源信号；

音频模块，用于将采集的声源信号进行模数转换；

2.根据权利要求1所述的实时语音增强系统，其特征在于，所述双麦克风阵列模块包括麦克风阵列采集电路、信号放大电路，带通滤波电路和电源管理模块，所述信号放大电路包括第一级放大电路和第二级放大电路；

所述麦克风阵列采集电路由两个近距离的全向性微型麦克风组成，两个所述微型麦克风的输出端连接所述第一级放大电路的输入端，所述第一级放大电路的输出端通过所述带通滤波电路连接所述第二级放大电路的输入端，所述第二放大电路的输出端连接所述音频模块的输入端，所述电源管理模块用于对各用电器件进行供电。

3.根据权利要求2所述的实时语音增强系统，其特征在于，每一所述麦克风均采用硅麦克风，两个所述麦克风的间距为10～20mm。

4.根据权利要求2所述的实时语音增强系统，其特征在于，所述带通滤波电路由二阶低通电路和二阶高通电路组成。

5.根据权利要求1～4任一项所述的实时语音增强系统，其特征在于，所述音频模块采用音频解码器芯片，所述音频解码器芯片的采样率范围为8kHz～96kHz，支持LINE-IN和MIC-IN两种输入方式。

6.一种抑制竞争性噪声的实时语音增强方法，其特征在于包括：

S5、根据比较结果计算M₁(k)的掩蔽权重B(k)：

其中，x₁,x₂,x₃,x₄分别是四个0-1之间的数，根据实验测试获得，然后得到增强信号的频域表达式：

7.根据权利要求6所述的实时语音增强方法，其特征在于，上述步骤S4的具体比较过程为：