CN115802225A

CN115802225A - 一种用于无线耳机的噪声抑制方法和噪声抑制装置

Info

Publication number: CN115802225A
Application number: CN202211369657.6A
Authority: CN
Inventors: 顾金凤; 朱志豪; 李倩
Original assignee: Bestechnic Shanghai Co Ltd
Current assignee: Bestechnic Shanghai Co Ltd
Priority date: 2022-11-03
Filing date: 2022-11-03
Publication date: 2023-03-14

Abstract

本申请涉及一种用于无线耳机的噪声抑制方法和噪声抑制装置，无线耳机包括第一麦克风、第二麦克风和第三麦克风，噪声抑制方法包括：利用三个麦克风分别采集得到第一语音信号、第二语音信号和第三语音信号；基于第一语音信号和第三语音信号的第一频域相干系数结合第二语音信号与第三语音信号的信号能量比值，来判定是否为噪声帧；基于第一语音信号和第二语音信号的第二频域相干系数结合第一语音信号的自功率谱密度，来确定风噪等级；确定噪声等级；根据风噪等级和噪声等级确定频率阈值，对第一语音信号和第三语音信号进行数据融合以抑制噪声。该噪声抑制方法能够有效抑制外界干扰语音和噪声，改善语音低频段的清晰度，提高目标语音的可懂度。

Description

一种用于无线耳机的噪声抑制方法和噪声抑制装置

技术领域

本申请涉及耳机降噪技术领域，更具体地，涉及一种用于无线耳机的噪声抑制方法和噪声抑制装置。

背景技术

目前，真无线降噪耳机已成为人们生活中必不可少的生活用品，然而，当身处嘈杂的大街、餐厅和地铁等场景时，通过耳机接听和拨打电话，语音信号淹没在背景噪声中，导致通话质量差，语音可懂度低。随着电子技术的高速发展，用户对其输出的语音质量要求越来越高。

针对上述问题，业内通用的语音活动检测系统采用语音能量检测、语音特征提取等方法，从麦克风拾取到的信号中提取语音特征来判断是否存在佩戴者的上行语音信号。

现有的基于传统DSP(digital signal processing)单麦降噪方法通过噪声估计来获得当前帧的语音存在概率，但这种方法只适用于平稳噪声，降噪能力有限，对于非稳态噪声，该方法不能跟踪噪声谱的快速变化，在嘈杂的环境中语音活动检测误差较大。基于神经网络单麦降噪方法是通过从麦克风拾取到的信号中提取语音特征来判断是否是语音帧，但是无法区分是目标语音信号还是旁边人讲话的干扰，当周围环境噪音较大的时候，语音活动检测的准确性就会降低。因此，现有技术尚未能解决非平稳态噪声条件下的上行目标语音的准确识别和语音信号中噪声的有效抑制问题。

发明内容

提供了本申请以解决现有技术中存在的上述缺陷。需要一种用于无线耳机的噪声抑制方法和噪声抑制装置，需要一种用于无线耳机的噪声抑制方法和噪声抑制装置，其能够有效地抑制强非平稳态噪声条件下通话时语音中的噪声和风噪，特别是增强低频段语音信号的清晰度和可懂度，提高通话质量，改善用户体验。

根据本申请的第一方案，提供了一种用于无线耳机的噪声抑制方法，所述无线耳机包括设置于无线耳机腔体下端的第一麦克风、设置于无线耳机腔体上端的第二麦克风和位于腔体内侧，佩戴时置于耳内的第三麦克风，所述噪声抑制方法包括：利用所述第一麦克风采集得到第一语音信号，利用所述第二麦克风采集得到第二语音信号，利用所述第三麦克风采集信号并进行回声消除处理以得到第三语音信号。基于所述第一语音信号的当前帧和所述第三语音信号的当前帧在第一频率范围内的第一频域相干系数结合所述第二语音信号的当前帧与所述第三语音信号的当前帧在第二频率范围内的信号能量比值，来判定当前帧是否为噪声帧，其中，所述第一频率范围和所述第二频率范围基于所述无线耳机的佩戴者颌骨振动信号的频率范围与所述第三麦克风的灵敏度来确定。基于所述第一语音信号的当前帧和所述第二语音信号的当前帧在所述第一频率范围内的第二频域相干系数结合所述第一语音信号的当前帧在所述第一频率范围内的自功率谱密度，来确定当前帧的风噪等级。对所述第一语音信号的当前帧估计噪声能量相关参数，根据所估计的噪声能量相关参数确定当前帧的噪声等级。根据所述风噪等级和所述噪声等级确定频率阈值，并基于所述频率阈值对所述第一语音信号和所述第三语音信号进行数据融合以抑制所述第一语音信号中的噪声。

根据本申请的第二方案，提供了一种用于无线耳机的噪声抑制装置，所述无线耳机包括设置于无线耳机腔体下端的第一麦克风、设置于无线耳机腔体上端的第二麦克风和位于腔体内侧，佩戴时置于耳内的第三麦克风，其中，所述第一麦克风用于采集得到第一语音信号；所述第二麦克风用于采集得到第二语音信号；所述第三麦克风用于采集信号并进行回声消除处理以得到第三语音信号。所述噪声抑制装置包括片上系统，所述片上系统配置为基于所述第一语音信号的当前帧和所述第三语音信号的当前帧在第一频率范围内的第一频域相干系数结合所述第二语音信号的当前帧与所述第三语音信号的当前帧在第二频率范围内的信号能量比值，来判定当前帧是否为噪声帧，其中，所述第一频率范围和所述第二频率范围基于所述无线耳机的佩戴者颌骨振动信号的频率范围与所述第三麦克风的灵敏度来确定。所述片上系统还配置为基于所述第一语音信号的当前帧和所述第二语音信号的当前帧在所述第一频率范围内的第二频域相干系数结合所述第一语音信号的当前帧在所述第一频率范围内的自功率谱密度，来确定当前帧的风噪等级。所述片上系统还配置为对所述第一语音信号的当前帧估计噪声能量相关参数，根据所估计的噪声能量相关参数确定当前帧的噪声等级。所述片上系统还配置为根据所述风噪等级和所述噪声等级确定频率阈值，并基于所述频率阈值对所述第一语音信号和所述第三语音信号进行数据融合以抑制所述第一语音信号中的噪声。

本申请各个实施例提供的用于无线耳机的噪声抑制方法和噪声抑制装置，对多个麦克风采集的语音信号进行分帧处理，并通过各帧语音信号的能量及其之间的相关性来确定语音信号当前帧的风噪等级和噪声等级，并在综合考虑语音信号的风噪等级和噪声等级的情况下确定频率阈值，并基于该频率阈值对无线耳机腔体下端的第一麦克风所采集的第一语音信号和耳内麦克风所采集的第三语音信号进行融合处理，利用第三语音信号处理后具有更高信噪比的优势，使得融合后的语音信号在各个频段特别是风噪所处的低频段的噪声被快速而有效地抑制，从而使强非平稳态噪声条件下的语音能够更清晰可懂，通话质量更高，用户体验更好。

附图说明

图1示出根据本申请实施例用于无线耳机的噪声抑制方法的流程图；

图2示出根据本申请实施例的第一语音信号和第三语音信号融合过程的流程图；

图3示出根据本申请另一实施例的用于无线耳机的噪声抑制方法的流程图；以及

图4示出根据本申请实施例的噪声抑制装置的部分结构示意图。

具体实施方式

为使本领域技术人员更好的理解本申请的技术方案，下面结合附图和具体实施方式对本申请作详细说明。下面结合附图和具体实施例对本申请的实施例作进一步详细描述，但不作为对本申请的限定。

本申请中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分。“包括”或者“包含”等类似的词语意指在该词前的要素涵盖在该词后列举的要素，并不排除也涵盖其他要素的可能。

图1示出了本申请实施例用于无线耳机的噪声抑制方法的流程图。所述无线耳机包括设置于无线耳机腔体下端的第一麦克风101、设置于无线耳机腔体上端的第二麦克风102和位于腔体内侧，佩戴时置于耳内的第三麦克风103，其中，第一麦克风101位于无线耳机腔体下端，对应采集无线耳机佩戴者的嘴部发出的目标语音信号，而且在周围环境中有噪声时，还会采集到周围的噪声，比如在地铁站的环境中，还会采集到列车的声音等。第二麦克风102位于无线耳机的腔体上端，面朝外侧或者后侧，对应主要采集周围人说话声和复杂的环境噪声，也会采集到无线耳机佩戴者的目标语音信号，但是信噪比较低。第三麦克风103位于耳内，采集耳内的语音信号，可以是佩戴者耳道内的振动信号，也有可能是耳道内传播的语音信号，这种耳内麦克风采集的语音信号中主要是目标语音信号，也会泄露进去采集到一些周围环境的噪声，但是低频信噪比较高。另外，由于第三麦克风103距离喇叭的位置很近，采集到的回声信号较大，需对采集到的所述第三麦克风103的语音信号进行回声消除。

根据本申请实施例的噪声抑制方法可以包括：利用所述第一麦克风101采集得到第一语音信号104，利用所述第二麦克风102采集得到第二语音信号105，利用所述第三麦克风103采集信号并进行回声消除处理107以得到第三语音信号106。在一些实施例中，为了能够实现对各个麦克风获取的语音信号的快速处理，同时降低运算量，通常可以将各路语音信号进行统一的分帧和加窗处理，然后对分帧、加窗处理后的语音信号帧进行后续的傅里叶变换等处理。

如图1所示，基于第一语音信号104的当前帧和第三语音信号106的当前帧，计算两者在第一频率范围内的第一频域相干系数108，具体地，例如可以将第一语音信号104的当前帧和第三语音信号106的当前帧分别进行傅里叶变换，将其从时域信号转换为频域信号，然后计算得到两个频域信号在第一频率范围内的第一频域相干系数108。此外，还可以计算第二语音信号105的当前帧与第三语音信号106的当前帧在第二频率范围内的信号能量比值111，具体的方法与如上所述类似，即，通过对各个语音信号的当前帧进行傅里叶变换以从时域信号转换为频域信号，并计算得到两个频域信号在第二频率范围内的信号能量比值111。

在一些实施例中，所述第一频率范围和所述第二频率范围基于所述无线耳机的佩戴者颌骨振动信号的频率范围与所述第三麦克风103的灵敏度来确定。仅作为示例，例如通常情况下人体讲话时颌骨振动信号的频率范围在100Hz～1.5kHz之间，因此可以将用于计算第一频域相干系数108和信号能量比值111的频率范围设置为至少覆盖这一频率范围的区间，而对于偏离上述频率范围的信号则不做处理，如此，不仅能够大大减小运算量，还可以避免由于对其他频段上可能存在的与语音无关的信号进行计算而导致的误判，因此能够提高在判断当前帧是否为噪声帧时的准确性。在一些实施例中，第一频率范围和第二频率范围可以设置为相同的值，在另一些实施例中，两者也可以按需设置为不同的值，本申请对此不做限定。

然后，结合第一频域相干系数108和信号能量比值111，在步骤S11中判定当前帧是否为噪声帧。如果步骤S11中判定结果为“是”，即，当前帧是噪声帧，说明当前帧中可能仅存在噪声或干扰信号，而不包含可识别的佩戴者的目标语音信号，比如在佩戴者没有发出语音，并且周围环境具有噪声或干扰。对应地，如果判定当前帧不是噪声帧，一种情况是当前帧中存在佩戴者的目标语音信号，称之为语音帧，或者在另一些情况下，当前帧中既不包含目标语音信号，也没有较大的噪声或干扰信号，可以称之为安静帧。根据步骤112中所判定的是否为噪声帧的结果，可以在后续的步骤中对第一语音信号进行相对应的处理。

值得注意的是，由于在未判定为噪声帧的当前帧中也可能存在噪声，因此，在一些实施例中，无论是否将当前帧判定为噪声帧，都需要进一步确定当前帧的风噪等级和噪声等级。关于风噪等级，如图1所示，可以首先根据所述第一语音信号104的当前帧和所述第二语音信号105的当前帧计算两者在所述第一频率范围内的第二频域相干系数110，并计算所述第一语音信号的当前帧在所述第一频率范围内的自功率谱密度109，然后，在步骤S12中，将第二频域相干系数110和自功率谱密度109两者相结合地确定当前帧的风噪等级。

关于当前帧的噪声等级，例如可以对所述第一语音信号104的当前帧估计噪声能量相关参数，并在步骤S13中，根据所估计的噪声能量相关参数确定当前帧的噪声等级。

与前述处理类似，第二频域相干系数110、自功率谱密度109和第一语音信号104的当前帧的噪声能量相关参数等的计算同样需要在将各个语音信号的分帧、加窗后的信号转换到频域之后进行，在此不赘述。

在一些实施例中，在获取第一语音信号104、第二语音信号105和第三语音信号106之后，可以分别但同步地对各个语音信号中的每一路进行分帧，再将分帧信号进行加窗处理，并完成进行傅里叶变换，并且上述第一频域相干系数108、自功率谱密度109、第二频域相干系数110和信号能量比值111的计算可以同时进行。

接下来，当在步骤S12中确定了当前帧的风噪等级并在步骤S13中确定了当前帧的噪声等级的情况下，可以在步骤S14中根据所述风噪等级和所述噪声等级来确定频率阈值，并基于所述频率阈值对所述第一语音信号104和所述第三语音信号106进行数据融合，以抑制所述第一语音信号中的噪声。

根据本申请实施例的噪声抑制方法通过步骤S11-步骤S14，通过分帧处理后的各个麦克风所采集的分帧语音信号的信号能量及其之间的相关性来确定语音信号当前帧的风噪等级和噪声等级，并在综合考虑语音信号的风噪等级和噪声等级的情况下确定频率阈值，并基于该频率阈值对无线耳机腔体下端的第一麦克风所采集的第一语音信号和耳内麦克风所采集的第三语音信号进行融合处理，利用第三语音信号处理后具有更高信噪比的优势，使得融合后的语音信号在各个频段特别是风噪所处的低频段的噪声被快速而有效地抑制，从而使强非平稳态噪声条件下的语音能够更清晰可懂，通话质量更高，用户体验更好。

在一些实施例中，上述第一频域相干系数108例如可以通过公式(1)来计算：

其中，Φ_ii(ω)，Φ_kk(ω)分别为第一语音信号104和第三语音信号106的自功率谱密度；Φ_ik(ω)为第一语音信号104和第三语音信号106的互功率谱密度；ω为角频率；δ₁是大于0的小量，用于避免除零运算；ω₁，ω₂分别为所述选定的第一频率范围的上限和下限，ω₁的最小值为0，ω₂的最大取值可以为FFT帧长的1/2。自动率谱密度反映信号的信号能量，而按照如上定义的第一频域相干系数108可以体现在第一频率范围内的第一语音信号104和第三语音信号106的频率相关性。

在一些实施例中，第二语音信号105的当前帧与所述第三语音信号106的当前帧在第二频率范围内的信号能量比值111可以通过公式(2)来计算：

其中，S_jk即为计算得到的信号能量比值111，Φ_jj(ω)为第二语音信号105的自功率谱密度，Φ_kk(ω)为第三语音信号106的自功率谱密度，δ₂是大于0的小量，用于避免除零运算。

根据当第三麦克风103获取的第三语音信号106中包含有佩戴者发出的目标语音信号时，具有特别强的低频能量的特点，因此，当信号能量比值111低于预设的第一阈值时，则可以认为当前帧的信号中存在佩戴者的目标语音信号，反之，可以认为当前帧中不包含目标语音信号。并且，在当前帧为如上所述的安静帧的情况下，第一频域相干系数108的值比包含噪声时更小，例如为接近于0的很小的值。因此，在基于第一频域相干系数108结合信号能量比值111判定当前帧是否为噪声帧时，可以进一步包括：在信号能量比值111大于或等于预设的第一阈值且第一频域相干系数108大于预设的第二阈值时，判定当前帧为噪声帧，即，仅存在噪声或干扰信号。其中，第一阈值和第二阈值可以在无线耳机出厂前通过实验测定并设置为适当的值，通过第一阈值和第二阈值的合理设置，能够对仅包含噪声信号的噪声帧更准确地识别。

确定当前帧的风噪等级的具体方式如下。首先，可以通过公式(3)来计算第二频域相干系数110：

其中，C_ij为第二频域相干系数110，Φ_ii(ω)，Φ_jj(ω)分别为第一语音信号104和第二语音信号105的自功率谱密度；Φ_ij(ω)为第一语音信号104和第二语音信号105的互功率谱密度；ω为角频率；δ₁是大于0的小量，用于避免除零运算；ω₃，ω₄分别为所述选定的频率范围的上限和下限，ω₃的最小值为0，ω₄的最大取值可以为FFT帧长的1/2。

考虑到风噪具有较大的随机性，因此在不同麦克风之间的复相干函数模平方接近于0，且通常在低频段的信号能量较大，因此可以通过计算第一语音信号104和第二语音信号105在选定的频率范围的表征信号之间相关性的第二频域相干系数110，结合所述第一语音信号104在选定的频率范围内表征信号能量的自功率谱密度109，来共同判断当前帧是否有风以及对应的风噪等级。具体地，例如可以将第二频域相干系数110和第一语音信号104的自功率谱密度109一并输入第一状态机(Finite State Machine，FSM)，来以复合的方式确定是否有风以及对应的风噪等级。仅作为示例，当自功率谱密度109大于预设的风噪阈值而第二频域相干系数110小于预设的相干系数阈值时，通常可以判定为有风，在判定为有风的情况下，自功率谱密度109越大，则风噪等级也越大，例如进一步划分为对应于大风的风噪二级，对应于小风的风噪一级等等，具体的等级划分阈值可以预先设定，在此不赘述。

在步骤S13中，可以根据对所述第一语音信号104的当前帧估计的噪声能量相关参数来确定当前帧的噪声等级，其中，噪声能量相关参数例如可以包括噪声的自功率谱密度或信噪比等。确定噪声等级可以按照噪声能量相关参数对应地设置阈值来划分等级，比如噪声能量大于1000，设置为噪声一级，噪声能量大于2000，设置为噪声二级，大于3500，设置为噪声四级等，在此不一一列举。

在另一些实施例中，也可以将第二频域相干系数110、第一语音信号104的自功率谱密度109以及第一语音信号104的当前帧估计的噪声能量相关参数一并输入第二状态机，经过统一设置的逻辑运算，相关联地输出是否有风、风噪等级以及噪声等级，本申请对此不做限制。

下面结合图2介绍根据所述风噪等级和所述噪声等级确定频率阈值，并基于所述频率阈值对所述第一语音信号104和所述第三语音信号106进行数据融合以抑制所述第一语音信号104中的噪声的具体方式。

图2示出根据本申请实施例的第一语音信号和第三语音信号融合过程的流程图。在步骤S21中，基于所述风噪等级确定相对应的第一频率，基于所述噪声等级确定相对应的第二频率，选取第一频率与第二频率中较大者作为所述频率阈值。各个级别的风噪等级都有相对应的第一频率，类似地，各个级别的噪声等级也都有相对应的第二频率，具体地的对应关系可以预先根据实验或测试结果来确定，本申请具体不做限制。

在步骤S22中，在对所述第一语音信号104和所述第三语音信号106进行频域数据融合的情况下，将所述频率阈值以下的第一语音信号104替换为第三语音信号106以抑制所述第一语音信号104中的噪声。在将噪声抑制后的第一语音信号输出时，需进行傅里叶逆变换以将其从频域转换为时域信号并输出。

在另一些实施例中，可以在步骤S23中，对所述第一语音信号104和所述第三语音信号106进行时域数据融合，例如可以基于所述频率阈值设置高通滤波和低通滤波的参数，并将高通滤波后的第一语音信号104和低通滤波后的第三语音信号106在时域上进行融合处理以抑制所述第一语音信号中的噪声，也即，第一语音信号104经过高通滤波器后滤除了频率阈值以下的低频部分信号，第三语音信号106通过低通滤波器后，滤除了频率阈值以上的高频部分的信号，如此，使得在频率阈值以下，采用第三语音信号106来替换原有的第一语音信号104，而在频率阈值以上则保持原有的第一语音信号104不变。然后，可以将结合第三语音信号进行噪声抑制后后的第一语音信号作为输出信号。

通过步骤S21-步骤S23，综合风噪等级和噪声等级选取根据风噪等级和噪声等级确定的两者中更大的频率阈值，可以使得在较大的频率范围内选择使用信噪比更高的第三语音信号106来替换第一语音信号104，从而使得融合后的语音信号具有更高的信噪比，特别是可以有效抑制外界干扰语音和噪声，改善语音低频段的清晰度，提高目标语音的可懂度，从而提升通话质量，改善无线耳机的用户体验。

图3示出根据本申请另一实施例用于无线耳机的噪声抑制方法的流程图。图3中示出了对第一麦克风采集得到的第一语音信号104和第三语音信号106在融合之前的处理过程。

首先，在步骤S31中，分别对所述第一语音信号104进行残余非线性回声消除，以获取第一增益G_out1，以及对所述第三语音信号106进行残余非线性回声消除，以获取第三增益G_in1。如此，通过上述非线性处理，可以分别去除第一麦克风和第二麦克风所采集到的语音信号中的残余回声信号，这样第一语音信号104将会输出第一增益G_out1，第一语音信号104将会输出第三增益G_in1。

在步骤S32中，对第一语音信号和第三语音信号分别进行自适应滤波，如果依照图1所示实施例判定当前帧为噪声帧，更新当前帧第一语音信号104的第一自适应滤波的系数，以及，更新当前帧第三语音信号106的自适应滤波系数。也即，按照公式(4)判断是否进行自适应滤波系数的更新：

其中，C_ik表示第一频域相干系数，S_jk表示信号能量比值，b表示第二阈值，c表示第一阈值。C_ik大于第二阈值且S_jk大于或等于第一阈值时，当前帧为噪声帧，update＝1时，表示需要对第一自适应滤波器301和第三自适应滤波器302的系数进行更新，update＝0时，表示无需对上述两个滤波器的系数进行更新。

具体地，如果判断当前帧为噪声帧，即当前帧中仅存在噪声或干扰信号，此时公式(4)的update的值输出为1，则分别利用第一语音信号104的当前帧和第三语音信号106的当前帧更新对应的自适应滤波的系数，利用系数更新后的自适应滤波器能够更有效地滤除噪声。反之，如果判定当前帧不是噪声帧，此时公式(4)的update的值输出为0，则不对对应的自适应滤波系数进行更新，而是用原有的自适应滤波系数进行滤波，因为例如在当前帧中包含目标语音信号，即包含人声时，此时如果更新自适应滤波系数，则可能导致将当前帧中的人声信号进行误处理，从而在当前帧通过滤波后，会产生不期望的人声失真。因此，需要在准确检测当前帧是否为噪声帧的基础上，对自适应滤波器系数进行恰当的更新，以避免意图滤除噪声时导致目标语音信号人声失真的不良体验。

接下来，在步骤S33中，对自适应滤波处理步骤119后的第一语音信号104进行单麦克噪声抑制，以获取第二增益G_out2；对自适应滤波处理后的第三语音信号106进行单麦克噪声抑制，以获取第四增益G_in2。通过步骤S33可以降低麦克风的底噪，并使自适应滤波后的第一语音信号和第三语音信号分别获得一个增益。在一些实施例中，单麦克噪声抑制方法可以选择DSP(digital signal processing)降噪或者神经网络降噪，也可以用这两种方法分别进行降噪，然后从分别获得的增益中进行选择，比如对自适应滤波后的第一语音信号通过DSP降噪获得的增益为G_out4，通过神经网络降噪获得的增益为G_out3，最后的增益为G_out2＝min(G_out3，G_out4)。通过择优选择可以选出噪声抑制效果更好的方法，以增加对外界高频环境噪声的抑制量。

在一些实施例中，在对所述第一语音信号和所述第三语音信号进行频域数据融合的情况下，将所述频率阈值以下的第一语音信号替换为第三语音信号以抑制所述第一语音信号中的噪声具体包括如公式(5)和公式(6)所示：

y(t)＝IFFT(ftF₁(ω)) (6)

其中，ftF₁(ω)为融合后的语音信号的短时频谱，ftF(ω)，ftFB(ω)分别为第一语音信号104和第三语音信号106的短时频谱，G_mix(ω)为安静情况下第一语音信号和第三语音信号由于频响差异而进行增益补偿的系数；ω₀为频率阈值，并且ω₀的最小值为0，最大值为对第一语音信号和第三语音信号进行FFT变换时的FFT长度的1/2，IFFT(ftF₁(ω))表示对ftF₁(ω)进行傅里叶逆变换，y(t)为通过傅里叶逆变换得到的噪声抑制后输出的时域的上行语音信号。

在一些实施例中，在对所述第一语音信号和所述第三语音信号进行时域数据融合的情况下，将高通滤波后的第一语音信号和低通滤波后的第三语音信号在时域进行融合处理，并且，利用所述频率阈值设置所述高通滤波和所述低通滤波的参数具体包括如公式(7)和公式(8)所示：

x₁(t)＝IFFT(ftF(ω)),x₃(t)＝IFFT(ftFB(ω)) (7)

y(t)＝hpf(x₁(t)，ω₀)+lpf(x₃(t)，ω₀) (8)

其中，x₁(t)为对ftF(ω)进行傅里叶逆变换后得到的时域的第一语音信号，x₃(t)为对ftFB(ω)进行傅里叶逆变换后得到的时域的第三语音信号，hpf(x₁(t)，ω₀)表示对x₁(t)进行截止频率为ω₀的高通滤波，lpf(x₃(t)，ω₀)表示对x₃(t)进行截止频率为ω₀的低通滤波。

时域融合的语音信号为高通滤波后的时域的第一语音信号和低通滤波后的时域的第三语音信号的叠加结果。以频率阈值为截止频率，高通滤波器滤除大于频率阈值的第一语音信号，低通滤波器滤除低于频率阈值的第三语音信号，然后进行融合。融合后的语音信号低频段的噪声更小，能够有效抑制外界干扰语音和噪声，改善语音低频段的清晰度，提高目标语音的可懂度。

通过公式(5)-公式(8)，融合后的语音信号能够同时具有更高的高频环境噪声抑制量，同时，还可以具有与风噪和噪声等级相适应的低频段的噪声抑制量，因此，在有风噪或噪声等的非平稳态噪声的条件下，能够使所输出的上行语音信号在低频段和高频段均有较好的降噪效果，语音信号更清晰，通话时的语音可懂度更高，用户体验更好。

在一些实施例中，基于所述第三语音信号的当前帧，可以利用DNN神经网络来辅助判定当前帧是否为噪声帧。利用深度神经网络对第三语音信号进行识别和判断，第三语音信号信噪比较高，如果从第三语音信号中识别出噪声，再结合第一语音信号与第三语音信号的相关性和第二语音信号与第三语音信号的信号能量比，可以辅助判断当前帧为噪声帧。

在一些实施例中，所述第三麦克风包括麦克风、骨传导麦克风或振动传感器中的一种。麦克风可采集传播到耳内的声波，骨传导麦克风采集是骨骼振动传播的声音信号，振动传感器采集耳内振动的声波。

在一些实施例中，所述无线耳机为入耳式无线耳机、半入耳式无线耳机中的一种。

根据本申请的实施例还提供一种用于无线耳机的噪声抑制装置，下面对根据本申请实施例的用于无线耳机的噪声抑制装置进行具体说明。

图4示出根据本申请实施例的噪声抑制装置的部分结构示意图。所述无线耳机400包括设置于无线耳机400腔体下端的第一麦克风401、设置于无线耳机400腔体上端的第二麦克风402和位于腔体内侧，佩戴时置于耳内的第三麦克风403，其中，所述第一麦克风401用于采集得到第一语音信号；所述第二麦克风402用于采集得到第二语音信号；所述第三麦克风403用于采集信号并进行回声消除处理以得到第三语音信号。第一麦克风401、第二麦克风402和第三麦克风403分别位于无线耳机400的不同位置，采集信号的侧重点不同，第一麦克风401主要采集的是佩戴者嘴部发出的目标语音信号，还会采集到周围的噪声，比如在地铁站的环境中，还会采集到列车的声音等。第二麦克风402在空气流动的风噪，可能还有无线耳机佩戴者的目标语音信号和周围环境的噪声。第三麦克风403位于耳内，采集耳内的语音信号，包括佩戴者耳道内的振动信号，也有可能是耳道内传播的语音信号，这种耳内麦克风采集的语音信号中主要包括目标语音信号也有可能包括周围环境的噪声，但是信噪比较高。

所述噪声抑制装置404包括片上系统4041，所述片上系统4041配置为基于所述第一语音信号的当前帧和所述第三语音信号的当前帧在第一频率范围内的第一频域相干系数结合所述第二语音信号的当前帧与所述第三语音信号的当前帧在第二频率范围内的信号能量比值，来判定当前帧是否为噪声帧，其中，所述第一频率范围和所述第二频率范围基于所述无线耳机的佩戴者颌骨振动信号的频率范围与所述第三麦克风的灵敏度来确定。通过第一语音信号的相关性程度和第二语音信号与第三语音信号的能量比值的情况，判断当前帧是否是噪声帧。如果当前帧是噪声帧，说明当前帧中可能仅存在噪声或干扰信号，而不包含可识别的佩戴者的目标语音信号，比如在佩戴者没有发出语音，并且周围环境具有噪声或干扰。对应地，如果判定当前帧不是噪声帧，一种情况是当前帧中存在直接或经处理后可识别的佩戴者的目标语音信号，称之为语音帧，或者在另一些情况下，当前帧中既不包含目标语音信号，也没有较大的噪声或干扰信号，可以称之为安静帧。根据步骤112中所判定的是否为噪声帧的结果，可以在后续的步骤中对第一语音信号进行相对应的处理。

所述片上系统4041还配置为基于所述第一语音信号的当前帧和所述第二语音信号的当前帧在所述第一频率范围内的第二频域相干系数结合所述第一语音信号的当前帧在所述第一频率范围内的自功率谱密度，来确定当前帧的风噪等级；对所述第一语音信号的当前帧估计噪声能量相关参数，根据所估计的噪声能量相关参数确定当前帧的噪声等级。具体地，例如可以将第二频域相干系数和第一语音信号的自功率谱密度一并输入第一状态机(Finite State Machine，FSM)，来以复合的方式确定是否有风以及对应的风噪等级。仅作为示例，当自功率谱密度大于预设的风噪阈值而第二频域相干系数110小于预设的相干系数阈值时，通常可以判定为有风，在判定为有风的情况下，自功率谱密度越大，则风噪等级也越大，例如进一步划分为对应于大风的风噪二级，对应于小风的风噪一级等等，具体的等级划分阈值可以预先设定，在此不赘述。噪声能量相关参数例如可以包括噪声的自功率谱密度或信噪比等。

所述片上系统4041还配置为根据所述风噪等级和所述噪声等级确定频率阈值，并基于所述频率阈值对所述第一语音信号和所述第三语音信号进行数据融合以抑制所述第一语音信号中的噪声。

在一些实施例中，所述片上系统4041进一步配置为：在所述信号能量比值大于或等于第一阈值，并且所述第一频域相干系数大于第二阈值的情况下，判定当前帧为噪声帧。根据当第三麦克风403获取的第三语音信号中包含有佩戴者发出的目标语音信号时，具有特别强低频能量的特点，因此，当信号能量比值低于预设的第一阈值时，则可以认为当前帧的信号中存在佩戴者的目标语音信号，反之，可以认为当前帧中不包含目标语音信号。并且，在当前帧为如上所述的安静帧的情况下，第一频域相干系数的值比包含噪声时更小，例如为接近于0的很小的值。因此，在信号能量比值大于或等于预设的第一阈值且第一频域相干系数大于预设的第二阈值时，判定当前帧为噪声帧。

在一些实施例中，所述片上系统4041进一步配置为：基于所述风噪等级确定相对应的第一频率，基于所述噪声等级确定相对应的第二频率，选取第一频率与第二频率中较大者作为所述频率阈值。还配置为在对所述第一语音信号和所述第三语音信号进行频域数据融合的情况下，将所述频率阈值以下的第一语音信号替换为第三语音信号以抑制所述第一语音信号中的噪声。还配置为在对所述第一语音信号和所述第三语音信号进行时域数据融合的情况下，基于所述频率阈值设置高通滤波和低通滤波的参数，并将高通滤波后的第一语音信号和低通滤波后的第三语音信号在时域上进行融合处理以抑制所述第一语音信号中的噪声。使得在较大的频率范围内选择使用信噪比更高的第三语音信号来替换第一语音信号，从而使得融合后的语音信号具有更高的信噪比，特别是可以能够有效抑制外界干扰语音和噪声，改善语音低频段的清晰度，提高目标语音的可懂度，从而提升通话质量，改善无线耳机的用户体验。

在一些实施例中，所述片上系统4041进一步配置为：对所述第一语音信号进行残余非线性回声消除，以获取第一增益G_out1；对所述第三语音信号进行残余非线性回声消除，以获取第三增益G_in1。如此，通过上述非线性处理，可以分别去除第一麦克风和第二麦克风所采集到的语音信号中的残余回声信号，这样第一语音信号将会输出第一增益G_out1，第一语音信号将会输出第三增益G_in1。

所述片上系统4041还配置为对第一语音信号和第三语音信号分别进行自适应滤波，在判定当前帧为噪声帧的情况下，更新当前帧第一语音信号的第一自适应滤波系数，以及，更新当前帧第三语音信号的第三自适应滤波系数。在准确检测当前帧是否为噪声帧的基础上，对自适应滤波器系数进行恰当的更新，以避免意图滤除噪声时导致目标语音信号人声失真的不良体验。

所述片上系统4041还配置为对自适应滤波后的第一语音信号进行单麦克噪声抑制，以获取第二增益G_out2；对自适应滤波后的第三语音信号进行单麦克噪声抑制，以获取第四增益G_in2。通过单麦克噪声抑制可以降低麦克风的底噪，使第一语音信号和第三语音信号分别获得一个增益。

所述片上系统4041还配置为在对所述第一语音信号和所述第三语音信号进行频域数据融合的情况下，将所述频率阈值以下的第一语音信号替换为第三语音信号以抑制所述第一语音信号中的噪声具体包括如公式(5)和公式(6)所示：

y(t)＝IFFT(ftF₁(ω)) (6)

其中，ftF₁(ω)为融合后的语音信号的短时频谱，ftF(ω)，ftFB(ω)分别为第一语音信号和第三语音信号的短时频谱，G_mix(ω)为安静情况下第一语音信号和第三语音信号由于频响差异而进行增益补偿的系数；ω₀为频率阈值，并且ω₀的最小值为0，最大值为对第一语音信号和第三语音信号进行FFT变换时的FFT长度的1/2，IFFT(ftF₁(ω))表示对ftF₁(ω)进行傅里叶逆变换，y(t)为通过傅里叶逆变换得到的噪声抑制后输出的时域的上行语音信号。

所述片上系统4041还配置为在对所述第一语音信号和所述第三语音信号进行时域数据融合的情况下，将高通滤波后的第一语音信号和低通滤波后的第三语音信号在时域进行融合处理，并且，利用所述频率阈值设置所述高通滤波和所述低通滤波的参数具体包括如公式(7)和公式(8)所示：

x₁(t)＝IFFT(ftF(ω)),x₃(t)＝IFFT(ftFB(ω)) (7)

y(t)＝hpf(x₁(t)，ω₀)+lpf(x₃(t)，ω₀) (8)

其中，x₁(t)为对ftF(ω)进行傅里叶逆变换后得到的时域的第一语音信号，x₃(t)为对ftFB(ω)进行傅里叶逆变换后得到的时域的第三语音信号，hpf(x₁(t)，ω₀)表示对x₁(t)进行截止频率为ω₀的高通滤波，

表示对x₃(t)进行截止频率为ω₀的低通滤波。时域融合的语音信号为高通滤波后的时域的第一语音信号和低通滤波后的时域的第三语音信号的叠加结果。以频率阈值为截止频率，高通滤波器滤除大于频率阈值的第一语音信号，低通滤波器滤除低于频率阈值的第三语音信号，然后进行融合。融合后的语音信号低频段的噪声更小，能够有效抑制外界干扰语音和噪声，改善语音低频段的清晰度，提高目标语音的可懂度。

在一些实施例中，所述片上系统4041进一步配置为：基于所述第一语音信号的当前帧、所述第二语音信号的当前帧与所述第三语音信号的当前帧，可以利用DNN神经网络来辅助判定当前帧是否为噪声帧。利用深度神经网络对第三语音信号进行识别和判断，第三语音信号信噪比较高，如果从第三语音信号中识别出噪声，再结合第一语音信号与第三语音信号的相关性和第二语音信号与第三语音信号的信号能量比，可以辅助判断当前帧为噪声帧。

根据本申请实施例的用于无线耳机的噪声抑制装置，通过分帧处理后的各个麦克风所采集的分帧语音信号的信号能量及其之间的相关性来确定语音信号当前帧的风噪等级和噪声等级，并在综合考虑语音信号的风噪等级和噪声等级的情况下确定频率阈值，并基于该频率阈值对无线耳机腔体下端的第一麦克风所采集的第一语音信号和耳内麦克风所采集的第三语音信号进行融合处理，利用第三语音信号处理后具有更高信噪比的优势，使得融合后的语音信号在各个频段特别是风噪所处的低频段的噪声被快速而有效地抑制，从而使强非平稳态噪声条件下的语音能够更清晰可懂，通话质量更高，用户体验更好。

此外，尽管已经在本文中描述了示例性实施例，其范围包括任何和所有基于本申请的具有等同元件、修改、省略、组合(例如，各种实施例交叉的方案)、改编或改变的实施例。权利要求书中的元件将被基于权利要求中采用的语言宽泛地解释，并不限于在本说明书中或本申请的实施期间所描述的示例，其示例将被解释为非排他性的。因此，本说明书和示例旨在仅被认为是示例，真正的范围和精神由权利要求以及其等同物的全部范围所指示。

以上描述旨在是说明性的而不是限制性的。例如，上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外，在上述具体实施方式中，各种特征可以被分组在一起以简单化本申请。这不应解释为一种不要求保护的申请的特征对于任一权利要求是必要的意图。相反，本申请的主题可以少于特定的申请的实施例的全部特征。从而，权利要求书作为示例或实施例在此并入具体实施方式中，其中每个权利要求独立地作为单独的实施例，并且考虑这些实施例可以以各种组合或排列彼此组合。本发明的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。

以上实施例仅为本申请的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本申请的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种用于无线耳机的噪声抑制方法，其特征在于，所述无线耳机包括设置于无线耳机腔体下端的第一麦克风、设置于无线耳机腔体上端的第二麦克风和位于腔体内侧，佩戴时置于耳内的第三麦克风，所述噪声抑制方法包括：

利用所述第一麦克风采集得到第一语音信号，利用所述第二麦克风采集得到第二语音信号，利用所述第三麦克风采集信号并进行回声消除处理以得到第三语音信号；

基于所述第一语音信号的当前帧和所述第三语音信号的当前帧在第一频率范围内的第一频域相干系数结合所述第二语音信号的当前帧与所述第三语音信号的当前帧在第二频率范围内的信号能量比值，来判定当前帧是否为噪声帧，其中，所述第一频率范围和所述第二频率范围基于所述无线耳机的佩戴者颌骨振动信号的频率范围与所述第三麦克风的灵敏度来确定；基于所述第一语音信号的当前帧和所述第二语音信号的当前帧在所述第一频率范围内的第二频域相干系数结合所述第一语音信号的当前帧在所述第一频率范围内的自功率谱密度，来确定当前帧的风噪等级；

对所述第一语音信号的当前帧估计噪声能量相关参数，根据所估计的噪声能量相关参数确定当前帧的噪声等级；

根据所述风噪等级和所述噪声等级确定频率阈值，并基于所述频率阈值对所述第一语音信号和所述第三语音信号进行数据融合以抑制所述第一语音信号中的噪声。

2.根据权利要求1所述的噪声抑制方法，其特征在于，基于所述第一语音信号的当前帧和所述第三语音信号的当前帧在第一频率范围内的第一频域相干系数结合所述第二语音信号的当前帧与所述第三语音信号的当前帧在所述第一频率范围内的信号能量比值，来判定当前帧是否为噪声帧进一步包括：

在所述信号能量比值大于或等于第一阈值，并且所述第一频域相干系数大于第二阈值的情况下，判定当前帧为噪声帧。

3.根据权利要求1或2所述的噪声抑制方法，其特征在于，根据所述风噪等级和所述噪声等级确定频率阈值，并基于所述频率阈值对所述第一语音信号和所述第三语音信号进行数据融合以抑制所述第一语音信号中的噪声进一步包括：

基于所述风噪等级确定相对应的第一频率，基于所述噪声等级确定相对应的第二频率，选取第一频率与第二频率中较大者作为所述频率阈值；

在对所述第一语音信号和所述第三语音信号进行频域数据融合的情况下，将所述频率阈值以下的第一语音信号替换为第三语音信号以抑制所述第一语音信号中的噪声；

在对所述第一语音信号和所述第三语音信号进行时域数据融合的情况下，基于所述频率阈值设置高通滤波和低通滤波的参数，并将高通滤波后的第一语音信号和低通滤波后的第三语音信号在时域上进行融合处理以抑制所述第一语音信号中的噪声。

4.根据权利要求3所述的噪声抑制方法，其特征在于，所述噪声抑制方法还包括：

对所述第一语音信号进行残余非线性回声消除，以获取第一增益G_out1；对所述第三语音信号进行残余非线性回声消除，以获取第三增益G_in1；

对第一语音信号和第三语音信号分别进行自适应滤波，在判定当前帧为噪声帧的情况下，更新当前帧第一语音信号的第一自适应滤波系数，以及，更新当前帧第三语音信号的第三自适应滤波系数；

对自适应滤波后的第一语音信号进行单麦克噪声抑制，以获取第二增益G_out2；对自适应滤波后的第三语音信号进行单麦克噪声抑制，以获取第四增益G_in2；

在对所述第一语音信号和所述第三语音信号进行频域数据融合的情况下，将所述频率阈值以下的第一语音信号替换为第三语音信号以抑制所述第一语音信号中的噪声具体包括如公式(5)和公式(6)所示：

y(t)＝IFFT(ftF₁(ω)) (6)

其中，ftF₁(ω)为融合后的语音信号的短时频谱，ftF(ω)，ftFB(ω)分别为第一语音信号和第三语音信号的短时频谱，G_mix(ω)为安静情况下第一语音信号和第三语音信号由于频响差异而进行增益补偿的系数；ω₀为频率阈值，并且ω₀的最小值为0，最大值为对第一语音信号和第三语音信号进行FFT变换时的FFT长度的1/2，IFFT(ftF₁(ω))表示对ftF₁(ω)进行傅里叶逆变换，y(t)为通过傅里叶逆变换得到的噪声抑制后输出的时域的上行语音信号；

在对所述第一语音信号和所述第三语音信号进行时域数据融合的情况下，将高通滤波后的第一语音信号和低通滤波后的第三语音信号在时域进行融合处理，并且，利用所述频率阈值设置所述高通滤波和所述低通滤波的参数具体包括如公式(7)和公式(8)所示：

x₁(t)＝IFFT(ftF(ω)),x₃(t)＝IFFT(ftFB(ω)) (7)

y(t)＝hpf(x₁(t)，ω₀)+lpf(x₃(t)，ω₀) (8)

5.根据权利要求1或2所述的噪声抑制方法，其特征在于，所述噪声抑制方法还包括：基于所述第三语音信号的当前帧，利用DNN神经网络来辅助判定当前帧是否为噪声帧。

6.根据权利要求1或2所述的噪声抑制方法，其特征在于，所述第三麦克风包括麦克风、骨传导麦克风或振动传感器中的一种。

7.根据权利要求1或2所述的噪声抑制方法，其特征在于，所述无线耳机为入耳式无线耳机、半入耳式无线耳机中的一种。

8.一种用于无线耳机的噪声抑制装置，其特征在于，所述无线耳机包括设置于无线耳机腔体下端的第一麦克风、设置于无线耳机腔体上端的第二麦克风和位于腔体内侧，佩戴时置于耳内的第三麦克风，其中，

所述第一麦克风用于采集得到第一语音信号；

所述第二麦克风用于采集得到第二语音信号；

所述第三麦克风用于采集信号并进行回声消除处理以得到第三语音信号；

所述噪声抑制装置包括片上系统，所述片上系统配置为：

基于所述第一语音信号的当前帧和所述第三语音信号的当前帧在第一频率范围内的第一频域相干系数结合所述第二语音信号的当前帧与所述第三语音信号的当前帧在第二频率范围内的信号能量比值，来判定当前帧是否为噪声帧，其中，所述第一频率范围和所述第二频率范围基于所述无线耳机的佩戴者颌骨振动信号的频率范围与所述第三麦克风的灵敏度来确定；

基于所述第一语音信号的当前帧和所述第二语音信号的当前帧在所述第一频率范围内的第二频域相干系数结合所述第一语音信号的当前帧在所述第一频率范围内的自功率谱密度，来确定当前帧的风噪等级；

9.根据权利要求8所述的噪声抑制装置，其特征在于，所述片上系统进一步配置为：

在所述信号能量比值大于或等于第二阈值，并且所述第一频域相干系数大于第三阈值的情况下，判定当前帧为噪声帧。

10.根据权利要求8或9所述的噪声抑制装置，其特征在于，所述片上系统进一步配置为：

11.根据权利要求10所述的噪声抑制装置，其特征在于，所述片上系统进一步配置为：

y(t)＝IFFT(ftF₁(ω)) (6)

其中，ftF₁(ω)为融合后的语音信号的短时频谱，ftF(ω)，ftFB(ω)为分别为第一语音信号和第三语音信号的短时频谱，G_mix(ω)为安静情况下第一语音信号和第三语音信号由于频响差异而进行增益补偿的系数；ω₀为频率阈值，并且ω₀的最小值为0，最大值为对第一语音信号和第三语音信号进行FFT变换时的FFT长度的1/2，IFFT(ftF(ω))表示对ftF(ω)进行傅里叶逆变换，y(t)为通过傅里叶逆变换得到的噪声抑制后输出的时域的上行语音信号；

x₁(t)＝IFFT(ftF(ω)),x₃(t)＝IFFT(ftFB(ω)) (7)

y(t)＝hpf(x₁(t)，ω₀)+lpf(x₃(t)，ω₀) (8)

12.根据权利要求8或9所述的噪声抑制装置，其特征在于，所述片上系统进一步配置为：

基于所述第三语音信号的当前帧，利用DNN神经网络来辅助判定当前帧是否为噪声帧。

13.根据权利要求8或9所述的噪声抑制装置，其特征在于，所述第三麦克风包括麦克风、骨传导麦克风或振动传感器中的一种。

14.根据权利要求8或9所述的噪声抑制装置，其特征在于，所述无线耳机为入耳式无线耳机、半入耳式无线耳机中的一种。