CN112702460B

CN112702460B - 一种语音通信的回声消除方法及装置

Info

Publication number: CN112702460B
Application number: CN202011528127.2A
Authority: CN
Inventors: 杨晓云
Original assignee: Beijing Jiaxun Feihong Electrical Co Ltd
Current assignee: Beijing Jiaxun Feihong Electrical Co Ltd
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2023-02-24
Anticipated expiration: 2040-12-22
Also published as: CN112702460A

Abstract

本发明公开了一种语音通信的回声消除方法及装置。该方法包括：分别获取远端语音信号和近端语音信号，并将远端语音信号和近端语音信号对齐；根据非线性声学回声的短时相关度特性，基于最小平均短时累计误差准则的优化准则处理对齐后的远端语音信号和近端语音信号，得到并更新最优地非线性滤波器的滤波系数；根据非线性滤波器的滤波系数以及远端语音信号生成估计的回声，以消除近端语音信号中回声语音信号。该方法不仅处理实际通话终端因功放元器件、声学结构设计等产生的非线性声学回声，在实际运用中较好地满足IP电话对于语音的要求，从而提高了通话的质量。而且，该回声消除方法还解决了NLMS自适应方法在处理非线性回声效果较差的问题。

Description

一种语音通信的回声消除方法及装置

技术领域

本发明涉及一种语音通信的回声消除方法，同时也涉及相应的回声消除装置，属于语音通信技术领域。

背景技术

声学回声是指在进行语音通话或语音播放等场景讲话者的语音返回而再次被听到的现象。如图1所示，讲话者使用的扬声器的声音m首先要经过D/A变换，从数字域变换到模拟域，然后再经过功率放大器放大后驱动扬声器发出声音，该声音经过空气信道传播之后，被麦克风采集到并再次经过功率放大器放大、A/D变换后，使得讲话者听到自己说话的声音，这就形成了声学回声q。由于功率放大器驱动扬声器发出声音时会进入非线性放大区域，引起非线性失真，从而导致非线性声学回声的产生。

另外一方面，由于声学结构设计的不合理，也会带来一定程度的非线性失真。例如，声学系统的隔振设计不合理，扬声器发声单元跟麦克风接收单元之间，通常是需要做隔振处理的，如果没有隔振处理的话，那么在扬声器发生的过程中，它所产生的振动会通过物理方式传递到麦克风接收端，对麦克风接收到的声学信号进行调制，而这种振动本质上是一种随机的、非线性的振动，所以必然会带来非线性失真，从而导致非线性声学回声的产生。

因此，非线性声学回声成为在语音通话、播放或多方语音会议等时音质降低的主要原因。如果不对该回声进行处理，将会影响通话质量和用户体验，更严重的还会形成震荡，产生啸叫，严重降低了通话语音质量。

发明内容

本发明所要解决的首要技术问题在于提供一种语音通信的回声消除方法。

本发明所要解决的另一技术问题在于提供一种语音通信的回声消除装置。

为了实现上述目的，本发明采用下述技术方案：

根据本发明实施例的第一方面，提供一种语音通信的回声消除方法，包括如下步骤：

步骤S1、分别获取远端语音信号和近端语音信号，并将所述远端语音信号和所述近端语音信号对齐；

步骤S2、根据非线性声学回声的短时相关度特性，基于最小平均短时累计误差准则的优化准则处理对齐后的远端语音信号和近端语音信号，得到并更新最优地非线性滤波器的滤波系数；

步骤S3、根据所述非线性滤波器的滤波系数以及远端语音信号生成估计的回声，以消除近端语音信号中的回声语音信号。

其中较优地，在获取所述远端语音信号和所述近端语音信号时，每次采样预设数量时域波形上的点，并对所述远端语音信号进行延时估计，以将所述远端语音信号和所述近端语音信号对齐。

其中较优地，对所述远端语音信号在时域上进行延时估计时，根据设备本身固有的播放延时进行估计，将所述远端语音信号和所述近端语音信号在时域上对齐。

其中较优地，对所述和远端语音信号在频域上进行延时估计时，将获取的远端语音信号和近端语音信号进行时频转换，得到相应的频域信号，将所述远端语音信号的频谱缓存起来作为候选匹配项，并从所述远端语音信号的频谱中选择最重要的频段，估算该频谱的均值并设其为门限值；当某个频段值大于门限值时，将该位设为1，反之则设为0，得到远端和近端语音信号的二值化的频谱；通过求解远端和近端语音信号的按位异或值，选择相似度最高的候选远端语音信号并计算对应的延时，根据该延时将所述远端语音信号和所述近端语音信号在频域上对齐。

其中较优地，步骤S2包括如下步骤：

步骤S21、确定每个短时观测时间窗内所述远端语音信号与所述近端语音信号的时域波形最接近时，对应的时域波形上的采样点所在的时间位置点；

步骤S22、基于每个所述短时观测时间窗内确定的时间位置点，在该短时观测时间窗内，对残差进行累积；

步骤S23、基于最小平均短时累计误差准则的优化准则，以得到的每个短时观测时间窗内残差最小时对应的非线性滤波器的滤波系数，作为最优滤波系数。

其中较优地，计算远端语音信号x与近端语音信号y在短时观测时间窗T内的短时相关度，并确定出短时相关度的值最大时对应的时域波形上的采样点d所在的时间位置点，根据如下公式实现；

上式中，k表示每个短时观测时间窗内，从短时相关度的值最大时对应的时域波形上的采样点d所在的时间位置点到该短时观测时间窗结束时的时间位置点之间的起始样本点；x[d]y^H[d]表示远端语音信号与近端语音信号的内积，

表示相位矫正因子，

表示远端语音信号的能量，

表示近端语音信号的能量。

其中较优地，每个所述短时观测时间窗T内，远端语音信号与近端语音信号时域波形最接近时对应的时间位置点时到对应的短时观测时间窗结束的时间位置点之间的每个样本点的残差，根据如下公式得到；

上式中，k表示每个所述短时观测时间窗内，从短时相关度的值最大时对应的时域波形上的采样点d所在的时间位置点到该短时观测时间窗结束时的时间位置点之间的起始样本点，W[k]^HX[d]表示非线性滤波器的滤波系数与远端语音信号对应的频域信号的内积，Y[d]表示近端语音信号对应的频域信号。

其中较优地，每个所述短时观测时间窗内残差最小时对应的非线性滤波器的滤波系数，根据如下公式得到；

W_n[k]＝(X^HX)^-1X^HY

上式中，W_n[k]表示每个短时观测时间窗内残差最小时对的非线性滤波器的滤波系数，X^HX表示远端语音信号对应的频域信号的内积,X^HY表示远端语音信号对应的频域信号与近端语音信号对应的频域信号的内积。

其中较优地，将所述非线性滤波器的滤波系数与远端语音信号相乘，得到估计的回声。

根据本发明是实施例的第二方面，提供一种语音通信的回声消除装置，包括处理器和存储器，所述处理器读取所述存储器中的计算机程序或指令，用于执行以下操作：

分别获取远端语音信号和近端语音信号，并将所述远端语音信号和所述近端语音信号对齐；

根据非线性声学回声的短时相关度特性，基于最小平均短时累计误差准则的优化准则处理对齐后的远端语音信号和近端语音信号，得到并更新最优地非线性滤波器的滤波系数；

根据所述非线性滤波器的滤波系数以及远端语音信号生成估计的回声，以消除近端语音信号中的回声语音信号。

本发明所提供的语音通信的回声消除方法及装置采用基于最小平均短时累计误差准则的回声消除方法，不仅处理实际通话终端因功放元器件、声学结构设计等产生的非线性声学回声，在实际运用中能够较好地满足IP电话对于语音的要求，从而提高了通话的质量。而且，该回声消除方法还解决了NLMS自适应方法在处理非线性回声效果较差的问题。

附图说明

图1为现有声学回声路径图；

图2为本发明实施例提供的语音通信的回声消除方法的流程图；

图3为本发明实施例提供的语音通信的回声消除装置的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明的技术内容做进一步的详细说明。

在实现本发明实施例的过程中，发明人发现，目前最为普遍的回声消除方法为使用声学回声消除器(Acoustic EchoCanceller，AEC)实现回声的抑制。该声学回声消除器的核心模块是自适应滤波器，自适应滤波器主要采用归一化最小均方误差算法(normalizedleast mean square，NLMS)处理线性回声；由于该归一化最小均方误差算法主要针对线性滤波器而言，因此在使用归一化最小均方误差算法处理非线性回声信号时，线性滤波器会去逼近非线性失真，但是由于学习的速度跟不上滤波器变化的速度，因此它跟真实值之间总是存在一个比较大的误差，导致回声出现很大残留的现象。

因此，基于非线性声学回声的特性，如图2所示，本发明实施例提供一种语音通话的回声消除方法，以解决语音通信系统中的非线性声学回声问题，提高语音通信的质量。该方法包括如下步骤：

步骤S1、分别获取远端语音信号和近端语音信号，并将远端语音信号和近端语音信号对齐。

为了便于理解远端语音信号和近端语音信号，以近端设备与远端设备进行语音通话来说明远端语音信号和近端语音信号。其中，本发明实施例中的近端设备和远端设备可以是能够进行实时语音通信的终端，例如手机、平板电脑等终端，终端可以包括扬声器，扬声器用于播放语音信号；终端可以包括麦克风，麦克风用于检测声音信号。需要说明的是，以下所述的近端设备、远端设备、近端语音信号和远端语音信号只是相对而言的，并不是绝对的，例如，用户A在使用手机与用户B进行语音通话，那么对于用户B来说，其使用的手机为近端设备，用户A使用的手机为远端设备，用户B的手机接收并通过手机扬声器播放用户A的手机传输的远端语音信号，同时用户B的手机麦克风采集声音信号，该声音信号为包含有环境中回声信道产生的回声信号的近端语音信号。而对于用户A来说，其使用的手机为近端设备，用户B使用的手机为远端设备，那么，用户A的手机接收并通过手机扬声器播放用户B的手机传输的远端语音信号，同时用户A的手机麦克风采集声音信号，该声音信号为包含有环境中回声信道产生的回声信号的近端语音信号。

在获取远端语音信号和近端语音信号时，以块为单位，每次采样预设数量时域波形上的点，所获取的远端语音信号和近端语音信号的采样点数量根据实际采样时间而定，例如，每次采样128个时域波形上的点。由于远端设备向近端设备传输的远端语音信号会有延时，因此需要对远端语音信号进行延时估计，并基于远端语音信号的延时，将远端语音信号和近端语音信号对齐。

其中，可以对远端语音信号在时域上进行延时估计，此时根据扬声器本身固有的播放延时进行估计，例如扬声器本身固有的播放延时为96ms,则可以认为所采集的远端语音信号延时96ms，据此可以将远端语音信号和近端语音信号在时域上对齐。

此外，还可以对远端语音信号在频域上进行延时估计，此时采用如下方法：将获取的远端语音信号和近端语音信号进行时频转换，得到相应的频域信号。即获取远端语音信号和近端语音信号时，每次采样预设数量时域波形上的点，进行快速傅立叶变换(FFT)，得到相应的频域信号。将进行时频转换后的远端语音信号的频谱缓存起来作为候选匹配项，并从该远端语音信号的频谱中选择最重要的频段，估算该频谱的均值并设其为门限值。当某个频段值大于门限值时，将该位设为1，反之则设为0。这样便得到了远端和近端语音信号的二值化的频谱；通过求解远端和近端语音信号的按位异或值，选择相似度最高的候选远端语音信号并计算对应的延时，根据该延时将远端语音信号和近端语音信号在频域上对齐。

步骤S2、根据非线性声学回声的短时相关度特性，基于最小平均短时累计误差准则的优化准则处理对齐后的远端语音信号和近端语音信号，得到并更新最优非线性滤波器的滤波系数。

该步骤包括如下步骤：

步骤S21、确定每个短时观测时间窗内远端语音信号与近端语音信号时域波形最接近时，对应的时域波形上的采样点所在的时间位置点。

由于远端语音信号与近端语音信号在短时观测时间窗T这样一个尺度范围内具有较强的相关度；即远端语音信号与近端语音信号具有短时相关度，具体表示为远端语音信号与近端语音信号在短时观测时间窗T内的波形相似程度。并且，通过实验证明，短时相关度函数能够相对客观的反映声学系统的线性度特征，线性度越好，短时相关度的值越大；同时，对于非线性失真很强的系统，其在短时观测窗内(如T<100ms)依然具有较强的相关度。

因此，远端语音信号与近端语音信号在短时观测时间窗T内的短时相关度最大时，表示远端语音信号与近端语音信号的时域波形最接近。具体的说，根据如下公式，计算远端语音信号x与近端语音信号y在短时观测时间窗T内的短时相关度，并确定出短时相关度的值最大时对应的时域波形上的采样点d所在的时间位置点。

表示相位矫正因子，用于将远端语音信号与近端语音信号的初始相位对齐。

表示远端语音信号的能量，

表示近端语音信号的能量。其中，采用数学期望E的计算方式计算远端语音信号x与近端语音信号y在短时观测时间窗T内的短时相关度，使得所计算的短时相关度具有了统计意义。

需要强调的是，基于时域对齐后的远端语音信号x与近端语音信号y对应的时域信号，计算远端语音信号x与近端语音信号y在短时观测时间窗T内的短时相关度。如果采用步骤S1中频域对齐后的远端语音信号x与近端语音信号y对应的频域信号，需要先进行逆快速傅立叶变换(IFFT)，得到相应的时域信号。

步骤S22、基于每个短时观测时间窗内确定的时间位置点，在该短时观测时间窗内，对残差进行累积。

当确定出每个短时观测时间窗内远端语音信号与近端语音信号时域波形最接近所对应的时域波形上的采样点所在的时间位置点时，即可知道从该时间位置点到对应的短时观测时间窗结束的时间位置点之间的样本点数量，那么分别计算每个样本点的残差并进行累积。其中，每个短时观测时间窗T内，远端语音信号与近端语音信号时域波形最接近时对应的时间位置点时到对应的短时观测时间窗结束的时间位置点之间的每个样本点的残差，根据如下公式得到。

上式中，k表示每个短时观测时间窗内，从短时相关度的值最大时对应的时域波形上的采样点d所在的时间位置点到该短时观测时间窗结束时的时间位置点之间的起始样本点，W[k]^HX[d]表示非线性滤波器的滤波系数与远端语音信号对应的频域信号的内积，Y[d]表示近端语音信号对应的频域信号。

需要强调的是，公式(2)中涉及的远端语音信号与近端语音信号对应的频域信号，可以是将步骤S1中时域对齐后的远端语音信号x与近端语音信号y对应的时域信号，进行快速傅立叶变换(FFT)，得到相应的频域信号。或者，直接采用步骤S1中频域对齐后的远端语音信号x与近端语音信号y对应的频域信号频域对齐后的远端语音信号x与近端语音信号y对应的频域信号。

采用基于最小平均短时累计误差准则的优化准则，使得最后得到的非线性滤波器的滤波器系数能够满足两个特性，第一个特性是通过在目标函数里加入数学期望运算，使得非线性滤波器在统计意义上能够达到最优，即全局最优；第二个特性是，在数学期望内部，对误差进行短时积分，使得在一个短时观测时间窗的尺度内也是最优的，即局部最优，即根据如下公式，得到的每个短时观测时间窗内残差最小时对应的非线性滤波器的滤波系数，作为该非线性滤波器的最优滤波系数。

基于最小平均短时累计误差准则的优化准则，得到非线性滤波器的最优滤波系数，它具有最小二乘估计形式，如下公式作为公式(3)的具体计算形式，从而得到每个短时观测时间窗内残差最小时对应的非线性滤波器的滤波系数，并实时更新每一次得到的非线性滤波器的滤波系数。

W_n[k]＝(X^HX)^-1X^HY (4)

最小平均短时累计误差准则的优化准则，与传统的NLMS的线性自适应滤波器有本质区别，因为传统的NLMS线性自适应滤波器是基于最小均方误差准则，它只是在统计意义上最优，没有局部最优约束；而由于非线性回声的短时相关度特性，决定其只在很短的时间窗口内(如100ms)，远端语音信号x和近端语音信号y才具有较好的相关性；而在长的统计时间内，远端语音信号x和近端语音信号y的相关性很差，导致自适应滤波器无法得到较好的滤波系数。

步骤S3、根据非线性滤波器的滤波系数以及远端语音信号生成估计的回声，以消除近端语音信号中的回声信号。

将步骤S2得到的最优非线性滤波器的滤波系数与远端语音信号相乘，得到估计的回声。由于估计的回声为频域信号，因此需要将近端语音信号对应的频域信号减去估计的回声，得到消除回声后的语音信号对应的频域信号后，依次通过非线性处理、添加舒适噪声和快速傅立叶逆变换(IFFT)后，输出回声消除后的声音信号。

此外，如图3所示，本发明实施例还提供一种语音通信的回声消除装置，包括处理器32和存储器31，还可以根据实际需要进一步包括通信组件、传感器组件、电源组件、多媒体组件及输入/输出接口。其中，存储器、通信组件、传感器组件、电源组件、多媒体组件及输入/输出接口均与该处理器32连接。前已述及，存储器31可以是静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器等；处理器32可以是中央处理器(CPU)、图形处理器(GPU)、现场可编程逻辑门阵列(FPGA)、专用集成电路(ASIC)、数字信号处理(DSP)芯片等。其它通信组件、传感器组件、电源组件、多媒体组件等均可以采用现有智能手机中的通用部件实现，在此就不具体说明了。

另外，本发明实施例提供的语音通信的回声消除装置，包括处理器32和存储器31，处理器32读取所述存储器31中的计算机程序或指令，用于执行以下操作：

分别获取远端语音信号和近端语音信号，并将远端语音信号和近端语音信号对齐。

根据非线性声学回声的短时相关度特性，基于最小平均短时累计误差准则的优化准则处理对齐后的远端语音信号和近端语音信号，得到并更新最优地非线性滤波器的滤波系数。

根据非线性滤波器的滤波系数以及远端语音信号生成估计的回声，以消除近端语音信号中的回声语音信号。

另外，本发明实施例还提供一种计算机可读存储介质，所述可读存储介质上存储有指令，当其在计算机上运行时，使得所述计算机执行如上述图2所述的语音通信的回声消除方法，此处不再赘述其具体实现方式。

另外，本发明实施例还提供一种包含指令的计算机程序产品，当其在计算机上运行时，使得所述计算机执行如上述图2所述的语音通信的回声消除方法，此处不再赘述其具体实现方式。

以上对本发明所提供的语音通信的回声消除方法及装置进行了详细的说明。对本领域的一般技术人员而言，在不背离本发明实质内容的前提下对它所做的任何显而易见的改动，都将属于本发明专利权的保护范围。

Claims

1.一种语音通信的回声消除方法，其特征在于包括如下步骤：

步骤S1.分别获取远端语音信号和近端语音信号，并将所述远端语音信号和所述近端语音信号对齐；

步骤S2.根据非线性声学回声的短时相关度特性，基于最小平均短时累计误差准则的优化准则处理对齐后的远端语音信号和近端语音信号，得到并更新非线性滤波器的滤波系数；其中，根据如下公式确定每个短时观测时间窗T内，所述远端语音信号x与所述近端语音信号y的时域波形最接近时，对应的时域波形上的采样点d所在的时间位置点：

上式中，k表示每个短时观测时间窗T内，从短时相关度的值最大时对应的时域波形上的采样点d所在的时间位置点到该短时观测时间窗结束时的时间位置点之间的起始样本点；x[d]y^H[d]表示远端语音信号x与近端语音信号y的内积，

表示相位矫正因子，

表示远端语音信号x的能量，

表示近端语音信号y的能量；

步骤S3.根据所述非线性滤波器的滤波系数以及远端语音信号生成估计的回声，以消除近端语音信号中的回声语音信号。

2.如权利要求1所述的语音通信的回声消除方法，其特征在于：

在获取所述远端语音信号和所述近端语音信号时，每次采样预设数量时域波形上的点，并对所述远端语音信号进行延时估计，以便将所述远端语音信号和所述近端语音信号对齐。

3.如权利要求2所述的语音通信的回声消除方法，其特征在于：

对所述远端语音信号在时域上进行延时估计时，根据设备本身固有的播放延时进行估计，将所述远端语音信号和所述近端语音信号在时域上对齐。

4.如权利要求2所述的语音通信的回声消除方法，其特征在于：

对所述远端语音信号在频域上进行延时估计时，将获取的远端语音信号和近端语音信号进行时频转换，得到相应的频域信号，将所述远端语音信号的频谱缓存起来作为候选匹配项，并从所述远端语音信号的频谱中选择最重要的频段，估算该频谱的均值并设其为门限值；当某个频段值大于门限值时，将该位设为1，反之则设为0，得到远端和近端语音信号的二值化的频谱；通过求解远端和近端语音信号的按位异或值，选择相似度最高的候选远端语音信号并计算对应的延时，根据该延时将所述远端语音信号和所述近端语音信号在频域上对齐。

5.如权利要求2所述的语音通信的回声消除方法，其特征在于步骤S2进一步包括如下步骤：

基于每个所述短时观测时间窗内确定的时间位置点，在该短时观测时间窗内，对残差进行累积；

基于最小平均短时累计误差准则的优化准则，以得到的每个短时观测时间窗内残差最小时对应的非线性滤波器的滤波系数，作为最优滤波系数。

6.如权利要求5所述的语音通信的回声消除方法，其特征在于：

每个所述短时观测时间窗T内，远端语音信号与近端语音信号的时域波形最接近时对应的时间位置点时到对应的短时观测时间窗结束的时间位置点之间的每个样本点的残差，根据如下公式得到；

上式中，k表示每个所述短时观测时间窗T内，从短时相关度的值最大时对应的时域波形上的采样点d所在的时间位置点到该短时观测时间窗结束时的时间位置点之间的起始样本点，W[k]^HX[d]表示非线性滤波器的滤波系数与远端语音信号对应的频域信号的内积，Y[d]表示近端语音信号对应的频域信号。

7.如权利要求6所述的语音通信的回声消除方法，其特征在于：

每个所述短时观测时间窗内残差最小时对应的非线性滤波器的滤波系数，根据如下公式得到；

W_n[k]＝(X^HX)^-1X^HY

上式中，W_n[k]表示每个短时观测时间窗内残差最小时对的非线性滤波器的滤波系数，X^HX表示远端语音信号对应的频域信号的内积，X^HY表示远端语音信号对应的频域信号与近端语音信号对应的频域信号的内积。

8.如权利要求1所述的语音通信的回声消除方法，其特征在于：

将所述非线性滤波器的滤波系数与远端语音信号相乘，得到估计的回声。

9.一种语音通信的回声消除装置，其特征在于包括处理器和存储器，所述处理器读取所述存储器中的计算机程序或指令，用于执行权利要求1～8中任意一项所述的语音通信的回声消除方法。