CN110856072B

CN110856072B - 一种耳机通话降噪方法及耳机

Info

Publication number: CN110856072B
Application number: CN201911230002.9A
Authority: CN
Inventors: 邱锋海; 项京朋
Original assignee: Beijing Sound+ Technology Co ltd
Current assignee: Beijing Sound+ Technology Co ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2021-03-19
Anticipated expiration: 2039-12-04
Also published as: CN110856072A

Abstract

本发明提供一种耳机通话降噪方法及耳机。在一个实施例中，通过至少一个外部传声器接收人耳外部的多个第一语音信号；通过一个内耳传声器接收人耳内部的第二语音信号；并将所述多个第一语音信号和第二语音信号转换到频域中；对多个第一语音信号进行波束合成得到第三语音信号；对第二语音信号进行回声抵消处理以及频谱延拓处理得到第四语音信号；计算第三语音信号中各个频点的信噪比，通过所述信噪比对第三语音信号和第四语音信号进行加权处理得到第五语音信号，将第五语音信号转换到时域并输出。在低信噪比及较多说话人干扰等复杂声学场景下，能有效拾取佩戴者语音并抑制其他噪声。

Description

一种耳机通话降噪方法及耳机

技术领域

本发明涉及语音降噪技术领域,尤其涉及一种耳机通话降噪方法及耳机。

背景技术

随着互联网及人工智能技术的发展，耳机已经被赋予了多种功能，包括听音乐、语音通话及语音助手等。实际应用中，耳机传声器接收信号中也会拾取各种各样的噪声，包括地铁噪声、马路噪声这类较为平稳的环境噪声，以及附近其他说话人或商城、高铁站广播产生的非平稳噪声。这些噪声不仅会使得佩戴者自身感到不适，同时也会影响通话质量及人机语音交互性能。因此，越来越多的耳机增加了通话降噪及主动降噪等功能。

通话降噪技术往往将传声器置于耳机壳外拾取佩戴者语音，使用波束形成及后滤波技术对佩戴者说话语音进行增强，对环境噪声及其他干扰噪声进行抑制。

主动降噪技术中，自适应降噪系统往往包括分别置于耳内及耳外的反馈传声器。耳外传声器拾取噪声信号作为参考信号，将当前信号经耳机系统模型的传递函数作用后预测耳罩内的噪声，然后将预测噪声反相后与所需音频信号进行叠加，最终传送给耳机换能器，从而获得降噪效果。

目前常用的耳机通话降噪方法主要分为三类，第一类是采用基于传声器阵列的语音增强算法对目标方向语音进行增强，通过自适应波束技术对佩戴者语音进行增强，但该方法在低信噪比情况下性能会严重下降。第二类是基于辅助传感器的方法进行降噪，采用例如振动传感器或者加速度传感器(例如骨导传感器)等提取佩戴者语音，该类方法在低信噪比情况下可以有效提取佩戴者中低频语音，但该类传感器需要佩戴者正确佩戴耳机且成本较高。第三类是使用机器学习方法对接收信号进行语音增强，该类方法可以有效去除动态噪声但计算资源及内存占用较多。

实际应用中，对于主动降噪的半入耳式或入耳式耳机，内耳传声器接收信号经处理后可辅助进行降噪处理。相比于壳外传声器，内耳传声器具有以下优点：

1、紧耦合佩戴的入耳式耳机，内耳传声器能隔绝环境噪声(被动隔声+主动降噪)在20dB以上，隔绝风噪可达25dB以上；

2、佩戴者的语音能通过骨导在耳道内形成比较好的中低频响应；

3、松耦合佩戴的浅入耳式耳机，内耳传声器能一定程度隔绝风噪，特别是自然风状态。

同时，内耳传声器也具有一定的局限性：

1、包含耳机扬声器的信号成分较多，需要额外的回声抵消处理；

2、内耳传声器接收信号中目标语音的中高频成分丢失严重，在高信噪比情况下中高频成分音质明显差于壳外传声器接收信号。

发明内容

有鉴于此，本申请实施例提供了一种耳机通话降噪方法及耳机。

第一方面，本发明申请提供一种耳机通话降噪方法，包括：

通过至少一个外部传声器接收人耳外部的多个第一语音信号；通过一个内耳传声器接收人耳内部的第二语音信号；并将所述多个第一语音信号和第二语音信号转换到频域中；

对多个第一语音信号进行波束合成得到第三语音信号；

对第二语音信号进行回声抵消处理以及频谱延拓处理得到第四语音信号；

计算第三语音信号中各个频点的信噪比，通过所述信噪比对第三语音信号和第四语音信号进行加权处理得到第五语音信号，将第五语音信号转换到时域并输出。

可选地，所述第一语音信号、第二语音信号均包括：目标语音信号、平稳态噪声和瞬态噪声。

可选地，其特征在于，所述对多个第一语音信号进行波束合成得到第三语音信号包括：

当通过一个外部传声器接收人耳外部的第一语音信号时，对接收的第一语音信号进行后滤波处理得到第三语音信号；

当通过至少两个外部传声器接收人耳外部的多个第一语音信号时，将至少两个外部传声器接收的多个第一语音信号形成固定波束，并对目标方向上的语音进行增强，输出固定波束信号；通过构造阻塞矩阵对第一语音信号中目标方向上的语音进行抑制，得到参考噪声信号；

对固定波束信号和参考噪声信号进行自适应滤波处理以及后滤波处理得到第三语音信号。

可选地，其特征在于，所述对固定波束信号和参考噪声信号进行自适应滤波处理以及后滤波处理得到第三语音信号包括：

对第一语音信号进行时延和DOA估计，并计算出目标声源与外部传声器阵列端射连线的第一夹角，然后通过第一夹角控制滤波器更新。

可选地，所述计算第三语音信号中各个频点的信噪比包括：估计第三语音信号中小于等于3kHz的各频点的信噪比。

第二方面，本发明申请提供一种通话降噪耳机，包括：

至少一个外部传声器和一个内耳传声器安装在耳机上；

所述至少一个外部传声器安装在耳机佩戴时远离人耳的一侧，用于接收人耳外部的多个第一语音信号；

所述内耳传声器安装在耳机佩戴时与人耳接触的一侧，用于接收人耳内部的第二语音信号；

处理单元，用于对第一语音信号进行波束合成得到第三语音信号；对第二语音信号进行回声抵消处理以及频谱延拓处理得到第四语音信号；

所述处理单元，还用于计算第三语音信号中各个频点的信噪比，通过所述信噪比对第三语音信号和第四语音信号进行加权处理得到第五语音信号；

输出单元，用于将第五语音信号转换到时域并输出。

可选地，所述对多个第一语音信号进行波束合成得到第三语音信号包括：

当通过一个外部传声器接收人耳外部的第一语音信号时，对接收的语音信号进行后滤波处理得到第三语音信号；

可选地，所述对固定波束信号和参考噪声信号进行自适应滤波处理以及后滤波处理得到第三语音信号包括：

对第一语音信号进行时延和DOA估计，并计算出目标声源与外部传声器阵列端射连线的第一夹角，通过第一夹角控制滤波器更新。

本申请实施例提供了一种耳机通话降噪方法及耳机，在一个实施例中，利用耳机壳体外传声器阵列进行波束形成，得到波束输出信号；并对内耳传声器低频信号进行提取及增强；将增强后的信号进行频谱拓展，并与波束输出信号进行融合，得到增强后佩戴者语音信号。在低信噪比及多说话人干扰等复杂声学场景下，能有效拾取佩戴者语音并抑制其他噪声，为后续的语音通话及语音识别技术提供重要依据。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明申请一种通话降噪耳机的信号模型图；

图2为本发明申请一种通话降噪耳机的结构示意图；

图3为2麦通话降噪耳机与本发明申请的3麦通话降噪耳机的传声器阵列构型示意图；

图4为本发明申请一种耳机通话降噪方法的流程示意图；

图5为对外部传声器接收的声音信号进行自适应滤波处理的流程图；

图6为对外部传声器接收的声音信号进行自适应滤波处理的示意图；

图7为基于内外耳传声器信号融合的语音增强算法流程图；

图8a为原始传声器接收信号、2麦算法处理语音信号及3麦算法处理语音信号在0-4kHz的语谱图；

图8b为原始传声器接收信号、2麦算法处理语音信号及3麦算法处理语音信号在0-2kHz的语谱图；

图9a为又一为原始传声器接收信号、2麦算法处理语音信号及3麦算法处理语音信号在0-4kHz的语谱图；

图9b为又一为原始传声器接收信号、2麦算法处理语音信号及3麦算法处理语音信号在0-2kHz的语谱图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

本发明申请提出一种耳机通话降噪方法，针对目前入耳式或半入耳式的主动降噪耳机都含有内耳反馈传声器的特点，将主动降噪耳机中的内耳反馈传声器用于通话降噪。

在本发明申请中，任意一个单侧耳机具有一个内耳传声器和至少两个外部传声器。当佩戴者佩戴耳机，并通过耳机进行语音通话时，其周围的信号模型如图1所示，耳机接收的信号包括目标语音和噪声。其中，目标语音是佩戴者说话语音，噪声包括了混响声、稳态的环境噪声以及其他方向的非稳态噪声。

图2为本发明申请一种通话降噪耳机的结构示意图，参见图2，本申请实施例中的一种通话降噪耳机包括：至少一个外部传声器201、一个内耳传声器202、处理单元203和输出单元204。

至少一个外部传声器201安装在耳机佩戴时远离人耳的一侧，用于接收人耳外部的多个第一语音信号。

内耳传声器202安装在耳机佩戴时与人耳接触的一侧，用于接收人耳内部的第二语音信号。

在一个可能的实施例中，第一语音信号、第二语音信号均包括：目标语音信号、平稳态噪声和瞬态噪声。

在一个可能的实施例中，通话降噪耳机包括两个外部传声器和一个内耳传声器构成3麦通话降噪耳机。其中，2麦通话降噪耳机和本实施例中的3麦通话降噪耳机的传声器阵列的构型如图3所示。

处理单元203用于对第一语音信号进行波束合成得到第三语音信号；对第二语音信号进行回声抵消处理以及频谱延拓处理得到第四语音信号。

在一个可能的实施例中，通话降噪耳机通过一个外部传声器接收第一语音信号时。处理单元203用于对接收的语音信号进行后滤波处理得到第三语音信号。

在一个可能的实施例中，通话降噪耳通过至少两个外部传声器接收第一语音信号时。处理单元203用于将至少两个外部传声器接收的多个第一语音信号形成固定波束，并对目标方向上的语音进行增强，并输出固定波束信号。通过构造阻塞矩阵对第一语音信号中目标方向上的语音进行抑制，得到参考噪声信号。对固定波束信号和参考噪声信号进行自适应滤波处理以及后滤波处理得到第三语音信号。

处理单元203还用于计算第三语音信号中各个频点的信噪比，并根据计算得到的信噪比对第三语音信号和第四语音信号进行加权处理得到第五语音信号。

输出单元204，用于将第五语音信号转换到时域并输出。在将第五语音信号转换到时域输出前，对第五语音信号进行平滑处理。

在一个可能的实施例中，输出单元通过逆傅里叶变换将第五语音信号转换到时域中。

图4为本发明申请一种耳机通话降噪方法的流程示意图，如图4所示，包括步骤：

步骤S401：通过至少两个外部传声器接收人耳外部的多个第一语音信号；通过一个内耳传声器接收人耳内部的第二语音信号。

当存在M个外部传声器时，第i个外部传声器在时域接收到的第一语音信号x_i(n)为：

x_i(n)＝s_i(n)+d_s,i(n)+d_t,i(n) (1)

其中，s_i(n)、d_s,i(n)和d_t,i(n)分别为第i个传声器接收到的目标语音信号、平稳态噪声和瞬态噪声；i＝1,2,…M，其中M为大于等于1的整数。

内耳传声器接收到的信号xⁱⁿ(n)为：

其中，sⁱⁿ(n)、

和

分别为内耳传声器接收到的目标语音信号、平稳态噪声和瞬态噪声；eⁱⁿ(n)为内耳传声器接收的耳机扬声器信号。

步骤S402：对第一语音信号进行波束合成得到第三语音信号。

将外部传声器在时域接收到的第一语音信号x_i(n)转换到频域中，第一语音信号x_i(n)在频域中的表达式为：

X_i(k,l)＝S_i(k,l)+D_s,i(k,l)+D_t,i(k,l),i＝1,2…M (3)

其中，X_i(k,l)、S_i(k,l)、D_s,i(k,l)和D_s,i(k,l)分别是x_i(n)、s_i(n)、

和

的第l帧第k个频点短时谱。

将内耳传声器在时域接收到的第一语音信号xⁱⁿ(n)转换到频域中，第一语音信号xⁱⁿ(n)在频域中的表达式为：

其中，Xⁱⁿ(k,l)、Sⁱⁿ(k,l)、

和Eⁱⁿ(k,l)分别是sⁱⁿ(n)、

和eⁱⁿ(n)的第l帧第k个频点短时谱。

在一个可能的实施例中，将时域中语音信号转换到频域中进行表示，可以通过快速傅里叶变换(FFT：Fast Fourier Transform)实现。

在一个可能的实施例中，利用一个外部传声器接收第一语音信号，对接收的语音信号进行后滤波处理得到第三语音信号。

在一个可能的实施例中，利用两个外部传声器M1，M2接收第一语音信号，两个外部传声器M1，M2的间距为d。对外部传声器M1、M2接收的语音信号进行时延和DOA估计。其中，M1和M2接收信号之间互相关函数为：

其中，τ为时延，NFFT为FFT点数，f_S为采样频率，k_L和k_H分别为计算时选择频率范围的上下限，W₁₂(k,l)为基于频谱信息的加权系数。

在τ∈[-d/c,d/c]的范围内对

进行搜索并寻找

取值最大时对应的τ记作

并通过公式(6)输出

根据公式(6)输出的

计算目标声源与外部传声器阵列端射连线的估计角度

当只存在佩戴者说话语音时，目标声源位于正前方，即目标声源与外部传声器阵列之间的实际角度θ_s1＝0度，目标声源与外部传声器阵列之间的估计角度

也在0度附近。当存在其他方向干扰时，估计角度

会偏向产生干扰的方向。

对两个外部传声器M1、M2接收的声音信号进行自适应滤波处理如图5所示，其处理的流程图如图6所示，包括步骤：

步骤S4021：将外部传声器接收的声音信号形成固定波束，并对固定波束中目标方向上的语音进行增强后得到带噪信号Y_BF(k,l)。

步骤S4022：构造阻塞矩阵，对目标方向上的语音进行抑制，得到参考噪声信号Y_BM(k,l)。

需要说明的是，步骤S4021和步骤S4022之间没有先后顺序，步骤S4021和步骤S4022可以同时执行。

步骤S4023：将带噪信号Y_BF(k,l)和参考噪声信号Y_BM(k,l)进行自适应滤波处理并输出信号Y_ADF(k,l)，并通过估计角度θ₁₂控制滤波器的系数。

对带噪信号Y_BF(k,l)和参考噪声信号Y_BM(k,l)进行自适应滤波处理后输出信号Y_ADF(k,l)，自适应滤波处理具体公式如下：

其中，W_ADF(k,l)为自适应滤波器的系数。γ为防止分母为0的小量。参数μ由目标声源与外部传声器阵列端射连线的估计角度

决定。E_ADF(k,l)为残差信号。

步骤S4024：将自适应滤波器输出的信号Y_ADF(k,l)和参考信号进行后滤波处理并得到信号Y_Post(k,l)。

步骤S403：对第二语音信号进行回声抵消处理以及频谱延拓处理得到第四语音信号。

对内耳传声器接收的第二声音信号进行回声抵消处理，得到处理后的信号Y_AEC(k,l)。

对内耳传声器接收的第二声音信号进行单通道语音增强处理和频谱延拓处理，并将延拓后的信号记为Y_Extend(k,l)。

在一个可能的实施例中，内耳传声器用于接收1kHz以下的声音信号，在对接收的1kHz以下的声音信号进行频谱延拓处理时，需要将接收的1kHz以下的声音信号延拓至2kHz至3kHz。

步骤S404：计算第三语音信号中各个频点的信噪比，通过所述信噪比对第三语音信号和第四语音信号进行加权处理得到第五语音信号，将第五语音信号转换到时域并输出。

在一个可能的实施例中，对第三语音信号中3kHz以下的声音信号的各频点的信噪比进行估计。

将外耳传声器接收并处理以后的信号与内耳传声器接收并处理以后的信号进行融合的语音增强处理，其处理的算法流程图如图7所示。

在一个可能的实施例中，对第三声音信号Y_Post(k,l)进行风噪声估计，并估计3kHz以下各频点的信噪比。根据信噪比对第三声音信号Y_Post(k,l)和第四声音信号Y_Extend(k,l)进行加权处理，并且信噪比越高Y_Post(k,l)的加权权重β(k,l)越大，加权公式如下：

其中k_M为融合时的分界频点。

在一个可能的实施例中，不同于传统振动传感器或加速度传感器直接接收低频信号作为最终输出，内耳传声器信号由于混有回声残留及其他噪声成分，仍需要对其中低频信号进行信噪比估计，用于辅助控制加权权重β(k,l)。

对加权后得到的信号Y_mix(k,l)进行平滑处理，得到融合输出信号Y_out(k,l)，经逆傅里叶变换后得到最终的时域输出信号y_out(n)。

图8a-8b为环境噪声情况下2麦(通过两个传声器接收声音信号)算法和本申请实施例中的3麦(通过两个外部传声器和一个内耳传声器接收声音信号)算法的处理结果。图8a由上自下依次给出了原始传声器接收信号、2麦算法处理语音信号及3麦算法处理语音信号在0-4kHz的语谱图；图8b由上自下依次给出了原始传声器接收信号、2麦算法处理语音信号及3麦算法处理语音信号在0-2kHz的语谱图。分析结果可知，相比于2麦算法，3麦算法处理后信号的降噪效果更好，特别是在1kHz以下，3麦结果语音频谱结构保留更为完整，基于频谱延拓技术得到的1-2kHz的中频语音频谱也比2麦结果更为清晰。

图9a-9b给出了环境噪声情况下2麦算法和本申请实施例中的3麦算法的处理结果。图9a由上自下依次给出了原始传声器接收信号、2麦算法处理语音信号及3麦算法处理语音信号在0-4kHz的语谱图；图9b由上自下依次给出了原始传声器接收信号、2麦算法处理语音信号及3麦算法处理语音信号在0-2kHz的语谱图。相比于2麦算法，3麦算法处理后信号的降噪效果更好，且中低频语音结构保留更为完整。

本发明申请一种基于耳机通话的语音降噪方法，在不使用振动传感器和骨导传声器的情况下，通过内耳传声器有效提取佩戴者的中低频语音信号，经回声消除、频谱拓展等处理，与耳机壳外传声器阵列波束输出结果进行有效融合，得到最终增强语音信号。能在大噪声环境下取得比双麦算法更好的效果。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本发明的保护范围之内。

Claims

1.一种耳机通话降噪方法，包括：

通过至少两个外部传声器接收人耳外部的多个第一语音信号；通过一个内耳传声器接收人耳内部的第二语音信号；并将所述多个第一语音信号和第二语音信号转换到频域中；

对多个第一语音信号进行时延和DOA估计，并计算目标声源与至少两个外部传声器形成的外部传声器阵列端射连线的第一夹角；

对多个第一语音信号进行自适应滤波处理得到第三语音信号，并根据所述第一夹角控制滤波器的系数；

2.根据权利要求1所述的方法，其特征在于，所述第一语音信号、第二语音信号均包括：目标语音信号、平稳态噪声和瞬态噪声。

3.根据权利要求1所述的方法，其特征在于，所述对多个第一语音信号进行自适应滤波处理包括：

将至少两个外部传声器接收的多个第一语音信号形成固定波束，并对目标方向上的语音进行增强，输出固定波束信号；通过构造阻塞矩阵对第一语音信号中目标方向上的语音进行抑制，得到参考噪声信号；

4.根据权利要求1所述的方法，其特征在于，所述计算第三语音信号中各个频点的信噪比包括：估计第三语音信号中小于等于3kHz的各频点的信噪比。

5.一种通话降噪耳机，包括：

至少两个外部传声器和一个内耳传声器安装在耳机上；

所述至少两个外部传声器安装在耳机佩戴时远离人耳的一侧，用于接收人耳外部的多个第一语音信号；

处理单元，用于对多个第一语音信号进行时延和DOA估计，并计算目标声源与至少两个外部传声器形成的外部传声器阵列端射连线的第一夹角；对多个第一语音信号进行自适应滤波处理得到第三语音信号，并根据所述第一夹角控制滤波器的系数；

所述处理单元，还用于对第二语音信号进行回声抵消处理以及频谱延拓处理得到第四语音信号；

输出单元，用于将第五语音信号转换到时域并输出。

6.根据权利要求5所述的耳机，其特征在于，所述第一语音信号、第二语音信号均包括：目标语音信号、平稳态噪声和瞬态噪声。

7.根据权利要求5所述的耳机，其特征在于，所述对多个第一语音信号进行波束合成得到第三语音信号包括：

8.根据权利要求5所述的耳机，其特征在于，所述计算第三语音信号中各个频点的信噪比包括：估计第三语音信号中小于等于3kHz的各频点的信噪比。