CN111756906B

CN111756906B - 一种语音信号的回声抑制方法、装置和计算机可读介质

Info

Publication number: CN111756906B
Application number: CN202010588768.0A
Authority: CN
Inventors: 许云峰
Original assignee: Shanghai Li Ke Semiconductor Technology Co ltd
Current assignee: Shanghai Li Ke Semiconductor Technology Co ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2021-07-23
Anticipated expiration: 2040-06-24
Also published as: CN111756906A

Abstract

本发明提供了一种语音信号的回声抑制方法，包括以下步骤，获取输入信号；抑制所述输入信号的线性回声信号以获得残差信号，所述残差信号包括非线性回声信号；抑制所述残差信号中的非线性回声信号，包括：计算所述残差信号与所述输入信号的互相关系数；计算所述输入信号的频谱在每个时频点的衰减增益；使用所述互相关系数和所述输入信号的频谱在每个时频点的衰减增益计算联合衰减增益因子；使用所述联合衰减增益因子对所述残差信号的非线性回声信号进行抑制。

Description

一种语音信号的回声抑制方法、装置和计算机可读介质

技术领域

本发明主要涉及数字信号处理，尤其涉及一种语音信号的回声抑制方法和装置。

背景技术

在语音通话中，回声是影响通话质量的重要因素。回声指讲话者通过通话设备发送给他人的语音又传回到讲话者的听筒的现象。回声会对讲话者产生严重的干扰，因此需要消除。通常，回声可分为电路回声和声学回声两种类型。电路回声可以通过硬件设备的合理设计而消除，例如通过线性叠加器将产生的电路回声信号在数值上取反，线性地叠加在回声信号上，将产生的电路回声信号抵消。而声学回声是远端用户的声音信号从听筒播放出来后，经过空气及其他的传播媒介传导近端用户的话筒，再通过近端用户的话筒录音或又重新传导远端用户的听筒中形成的回声。

一般而言，回声主要包含两个部分，线性回声和非线性回声。线性回声和非线性回声是同时存在的。通常语音信号在扬声器播放后，通过直达波或通过各种反射后被麦克风采集，就产生了回声。这些反射的回声通常都是准线性的回声，但由于喇叭器件等原因导致其播放的声音发生非线性失真，这部分非线性失真产生的回声就是非线性回声。

发明内容

本发明要解决的技术问题是提供一种语音信号的回声抑制方法和装置，对语音通话中的回声信号进行抑制，特别是消除语音信号中的非线性回声。

为解决上述技术问题，本发明提供了一种语音信号的回声抑制方法，包括以下步骤，获取输入信号；抑制所述输入信号的线性回声信号以获得残差信号，所述残差信号包括非线性回声信号；抑制所述残差信号中的非线性回声信号，包括，计算所述残差信号与所述输入信号的互相关系数；计算所述输入信号的频谱在每个时频点的衰减增益；使用所述互相关系数和所述输入信号的频谱在每个时频点的衰减增益计算联合衰减增益因子；使用所述联合衰减增益因子对所述残差信号的非线性回声信号进行抑制。

在本发明的一实施例中，语音信号的回声抑制方法还包括将输入信号、残差信号变换为频域信号；抑制所述残差信号中的非线性回声还包括：将经过非线性回声抑制后的残差信号反变换为时域信号。

在本发明的一实施例中，所述反变换为傅立叶反变换。

在本发明的一实施例中，所述输入信号的频谱在每个时频点的衰减增益AfGain(k,n)为

其中，k为频域点索引值，n为时域点索引值，E(k,n)为所述残差信号对应的频域信号，D(k,n)为输入信号对应的频域信号。

在本发明的一实施例中，所述联合衰减增益因子comGain(k,n)为

comGain(k,n)＝min(ρ_ed(k,n),power(AfGain(k,n),2))

其中，ρ_ed(k,n)为所述互相关系数。

在本发明的一实施例中，所述非线性回声抑制后的信号的频谱为

Enh(k,n)＝((1-|comGain(k,n)|²))*Rand(k,n)+comGain(k,n)*E(k,n)

其中，Rand(k,n)为舒适噪声对应的频谱。

在本发明的一实施例中，通过自适应滤波器抑制所述线性回声信号，所述自适应滤波器采用NLMS滤波。

本发明还提供一种语音信号的回声抑制装置，包括用于获取输入信号的模块；用于抑制线性回声的模块；用于抑制非线性回声的模块；其中，所述用于抑制非线性回声的模块被配置为执行如下操作：计算残差信号与输入信号的互相关系数，所述残差信号通过抑制所述输入信号的所述线性回声得到；计算输入信号的频谱在每个时频点的衰减增益；使用所述互相关系数和所述输入信号的频谱在每个时频点的衰减增益计算联合衰减增益因子；使用所述联合衰减增益因子对所述残差信号的非线性回声信号进行抑制。

本发明还提供一种语音信号的回声抑制装置，包括存储器，用于存储可由处理器执行的指令；以及处理器，用于执行所述指令以实现如前所述的方法。

本发明还提供一种存储有计算机程序代码的计算机可读介质，所述计算机程序代码在由处理器执行时实现如前所述的方法。

与现有技术相比，本发明具有以下优点：通过以输入信号的频谱在每个时频点的衰减增益为基础计算联合衰减因子，并通过联合衰减增益因子对残差信号的非线性回声信号进行抑制，使残留回声得到较好的抑制，从而保证语音通话的质量。

附图说明

附图是为提供对本申请进一步的理解，它们被收录并构成本申请的一部分，附图示出了本申请的实施例，并与本说明书一起起到解释本发明原理的作用。附图中：

图1是回声信号抑制的原理示意图。

图2是语音信号应用互相关的方法进行回声抑制的结果示意图。

图3是本发明一实施例的回声抑制方法的原理示意图。

图4是本发明一实施例的语音信号的回声抑制方法的示例性流程图。

图5是本发明一实施例的语音信号的回声抑制方法中非线性回声抑制的示例性流程图。

图6是互相关的方法抑制回声信号的结果与本申请提供的新的回声信号抑制方法的结果的对比示意图。

图7是本发明一实施例的语音信号的回声抑制装置的系统框图。

具体实施方式

为让本发明的上述目的、特征和优点能更明显易懂，以下结合附图对本发明的具体实施方式作详细说明。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其它不同于在此描述的其它方式来实施，因此本发明不受下面公开的具体实施例的限制。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或下面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各种步骤。同时，或将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

图1是回声信号抑制的原理示意图。如图1所示，语音通话中，远端信号x(t)经过扬声器101播放出来。播放的语音经过不同路径的反射，部分信号将被麦克风102拾取。拾取的信号与近端的讲话者的语音共同形成近端信号d(t)。近端信号d(t)即为麦克风输入信号(亦可简称为输入信号)。

回声消除技术主要通过两个部分，即线性回声消除模块和非线性回声 (也可称为残留回声)消除模块。如图1所示，模块103是线性回声消除模块。例如，线性回声消除模块可设置为一自适应滤波器(Adaptive Filter， AF)。自适应滤波器(AF)通过自适应的方法来估计回声反射路径，进而获得估计回声y(t)。而后通过e(t)＝d(t)–y(t)对线性回声进行消除。e(t)可称为回声残差信号。自适应滤波器采用的算法例如可为NLMS(Normalized LeastMean Square，归一化最小均方差)算法，也可为其他算法。

模块104主要用来消除非线性回声。由于扬声器(或称喇叭)等器件引入的失真以及前述的各种路径形成的反射信号，因此线性回声消除模块 103的自适应滤波器很难消除这部分回声，因而需要一个残留回声(或称非线性回声)消除单元。

残留回声处理通常有两种方式。一种通过残留回声检测，一种通过对残留回声进行抑制。要实现对残留回声进行精确的检测和处理对系统的要求极高。本申请的技术方案对残留回声进行抑制。

在一些残留回声的抑制方法中，通过互相关的方法估计回声，从而抑制残留回声。回声残差信号e(t)和麦克风输入信号d(t)的互相关系数可通过如下方式计算得到：

Pee＝(1-alpha)*Pee+alpha*|E(k，n)|²

Pdd＝(1-alpha)*Pdd+alpha*|D(k，n)|²

Ped＝(1-alpha)*Ped+alpha*E(k，n)*D(k，n)⁸

ρ_ec(k，n)＝|Ped|²/(Pdd*Pee)

其中，D(k,n)是d(t)对应的频域信号，E(k,n)是e(t)对应的频域信号。从时域变换至频域可通过傅立叶变换实现。ρ_ed(k，n)是麦克风输入信号d(t)和回声残差信号e(t)(亦可简称为残差信号e(t))的互相关系数，也可称为相干统计量。alpha为平滑因子，其可根据需要取0至1之间的数值，例如0.3， 0.5或0.7。

理论上，相干统计量ρ_ed(k，n)表示d(t)和e(t)两个信号的相似程度。当残留回声信号较小时，ρ_ed(k，n)相对偏大。当残留回声信号较大时，ρ_ed(k，n) 相对偏小。以ρ_ed(k，n)为基础，经过残留回声抑制后的信号的频谱Enh(k,n) 可通过如下方式得到：

其中，Rand(k，n)为舒适噪声的频谱。舒适噪声是无线电和无线通信中使用的合成背景噪声，用于填充由于检测语音活动或题提升数字线路的音频清晰度而导致的传输中的人工静音。换言之，舒适噪声可用于对残留回声进行抑制后，因背景噪声可被一同抑制而导致的通话者感觉语音通话疑似中断的情形。

然而，互相关方法估计残留回声存在较大误差。一方面，相干估计本身是有偏估计。另一方面，因互相关方法是应用消除残差信号中的线性回声部分的结果来间接估计残差信号中的残留，而残留回声本身和麦克输入信号并不是严格的线性关系，只是存在正相关，因此互相关的估计方法抑制回声信号存在误差。故通过互相关的方法抑制残留回声并不能对残留回声实现较好的抑制结果。

图2是语音信号应用互相关的方法进行回声抑制的结果示意图。如图2所示，图2中(a)图是语音通话中，例如免提通话中的一段语音信号包含回声信号的数据，其中包括较难处理的非线性回声信号。图2中(a)图的横轴为时间t，单位为秒(s)或毫秒(ms)。纵轴为信号幅度(Amplitude)，单位为分贝(dB)或其他经归一化后的单位。图2中(b)图为图2中(a)图的语音信号对应的频谱。图2中(b)图经处理后，以黑色为背景，图中的白色像素的分布主要是非线性回声对应的频谱。实际上语音信号亦在整个时频点范围内分布有频谱值，但在经过黑色背景的处理后，图2中(b)图的白色像素值主要对应非线性回声在相应的时频点处的频谱。图中的白色像素值的亮度越亮或越暗对应在相应的时频点处的频谱的强度值越大或越小。图2中(b)图的横轴和纵轴，为方便信号的分析和处理，将横轴的单位用时域点索引值n标示，纵轴用频域点索引值k标示。例如，对应图2中(a)图的横轴t从0 至220ms，每隔10ms作为一计数点，则时域点索引值n对应为0至22。图2中的(b)图的纵轴，其原始单位可用频率标示，为方便信号的分析，将纵轴的单位用频域点索引值k标示。在一实施例中，纵轴对应的原始频率范围为0至8MHz，每隔50Hz作为一计数点，则频域点索引值k相应的数值为0至160。k和n在坐标系中的交点(k，n)可称为时频点。图2中的 (b)图的频谱图，在每一时频点处亦有一对应的频域信号的强度值。

图2中(c)图为经过互相关方法进行残留回声抑制后的语音信号强度示意图。图2中(d)图为相应的频谱。图2中(d)图的虚线框中白色像素值为经过互相关方法进行回声抑制后的回声信号对应的在相应时频点处的的主要的频谱。从图2中(d)图可以看出，经过互相关方法进行回声信号抑制后，仍残存一些残留回声信号，从而给通话者造成听觉上的影响，无法保证较高的通话质量。

本申请的技术方案提出一种新的语音信号的回声抑制方法，特别是非线性的残留回声抑制。图3为本发明一实施例的回声抑制方法的原理示意图。图3中，301为扬声器。302为麦克风。模块303为线性回声抑制模块，其可为自适应滤波器(AF)，滤波器的算法可为NLMS算法。x(t)，d(t)与 y(t)的定义与图1类似，不再赘述。

图3中还包括麦克风输入信号经过自适应滤波器滤波前后的衰减增益计算模块304和联合残留回声抑制模块305。如图4所示，本发明的语音信号的回声抑制方法包括步骤401获取输入信号，即麦克风输入信号d(t)。步骤402抑制输入信号d(t)中的线性回声信号以获得残差信号e(t)。残差信号 e(t)中仍包括非线性回声信号。步骤403抑制残差信号中的非线性回声信号。

图5为非线性回声抑制的示例性流程图。如图5所示，抑制残差信号中的非线性回声的步骤包括，步骤501计算残差信号e(t)与输入信号d(t)的互相关系数；步骤502计算输入信号的频谱在每个时频点的衰减增益；步骤503使用互相关系数和输入信号的频谱在每个时频点的衰减增益计算联合衰减增益因子；步骤504使用联合衰减增益因子对残差信号的非线性回声进行抑制。

在步骤501，计算残差信号e(t)与输入信号d(t)的互相关系数ρ_ed(k，n)。互相关系数ρ_ed(k，n)的计算过程如前述，在此不再赘述。

在步骤502，计算输入信号的频谱在每个时频点的衰减增益。输入信号的频谱在每个时频点的衰减增益AfGain(k,n)为

其中，E(k,n)是e(t)对应的频域信号，D(k,n)是d(t)对应的频域信号。 min(,)表示取两个数值中的较小值。

即为取

和1.0的较小值。如前述，k为频域点索引值，n为时域点索引值。

在步骤503，使用互相关系数和输入信号的频谱在每个时频点的衰减增益计算联合衰减增益因子comGain(k,n)。具体的计算过程为

comGain(k,n)＝min(ρ_ed(k,n),power(AfGain(k,n),2))

其中，power为取幂符号。power(a,b)表示a的b次方。 power(AfGain(k,n),2)即为AfGain(k,n)的2次方。如前述，min(,)表示取两个数值中的较小值。故min(ρ_ed(k,n),power(AfGain(k,n),2))表示ρ_ed(k，n)和power(AfGain(k,n),2)，即AfGain(k,n)的2次方，两个数值中的较小值。

在步骤504，通过联合衰减增益因子comGain(k,n)对残差信号的非线性回声进行抑制。具体的过程为：

其中，Rand(k，n)为舒适噪声的频谱。经过残留回声抑制后的信号的频谱为Enh(k,n)。Enh(k,n)经过傅立叶反变换可得到时域信号enh(t)。enh(t)即为经过回声抑制后得到语音信号。

图6为互相关方法抑制回声信号的结果示意图与本申请提供的新的回声信号抑制方法的结果示意图的对比。如图6所示，图6中(a)图和(b)图实际为图2中的(c)图和(d)图。为直观体现两种回声抑制方法的比较结果，故将其作为图6中(a)图和(b)图再次展示于此。如前述，图6中(b)图的虚线框中白色像素值为经过互相关方法进行回声抑制后的回声信号对应的在相应时频点处的的主要的频谱。图6中的(c)图和(d)图为本申请提出的新的回声抑制方法的结果示意图。其中图6中的(c)图为经过回声抑制后的语音数据的时域示意图。图6中的(d)图为对应的频谱。即图6中(d)图的虚线框中白色像素值为经过联合残留回声抑制方法进行回声抑制后的回声信号对应的在相应时频点处的的主要的频谱。如前所述，横轴的单位用时域点索引值n 标示，纵轴用频域点索引值k标示。从图中可以看出，经过本申请的回声抑制方法进行回声抑制后，残留回声得到较好的抑制。

需要说明的是，因数字信号处理的固有特点，因此要实现的对回声的百分之百的抑制极难实现，亦无特别的必要。若要实现完全抑制，则对系统的信号处理性能亦提出了极高的要求。这无疑将极大增加通话终端的制造成本。因此，本申请的技术方案可在对通话系统的性能无较大提升要求的基础上，实现对回声信号的较好的抑制。

本发明的理论基础是，通常语音信号在频谱图上是稀疏分布的，特别是浊音信号，其频谱图呈现规律性的谐波条纹。而包含非线性回声信号的残留回声信号的频谱图的能量强弱，与线性回声信号频谱图具有相关性。本申请的发明人发现，如果对应于输入信号的频谱图的当前时频点的自适应滤波器的线性增益衰减较大，则该时频点存在残留的非线性回声的概率较大。

以此原理为基础，通过计算出自适应滤波器每个时频点的衰减增益，并使其联合相干残留回声估计方法(即互相关方法进行联合残留回声抑制) 一起作用于残留回声抑制，得到联合衰减增益因子comGain(k,n)。从而使残留回声得到进一步抑制。

本发明还提供一种语音信号的回声抑制装置，包括：用于获取输入信号的模块，用于抑制线性回声的模块和用于抑制非线性回声的模块。其中，用于抑制非线性回声的模块被配置为执行如下操作：计算残差信号与输入信号的互相关系数，所述残差信号通过抑制所述输入信号的所述线性回声得到；计算输入信号的频谱在每个时频点的衰减增益；使用所述互相关系数和所述输入信号的频谱在每个时频点的衰减增益计算联合衰减增益因子；使用所述联合衰减增益因子对所述残差信号的非线性回声信号进行抑制。从而实现对语音信号中的回声进行较好的抑制。

图7示出了根据本申请一实施例示出的语音信号的回声抑制装置的系统框图。语音信号的回声抑制装置700可包括内部通信总线701、处理器 (Processor)702、只读存储器(ROM)703、随机存取存储器(RAM)704、以及通信端口705。内部通信总线701可以实现语音信号的回声抑制装置 700组件间的数据通信。处理器702可以进行判断和发出提示。在一些实施例中，处理器702可以由一个或多个处理器组成。通信端口705可以实现语音信号的回声抑制装置700与外部的数据通信。在一些实施例中，语音信号的回声抑制装置700可以通过通信端口705从网络发送和接受信息及数据。语音信号的回声抑制装置700还可以包括不同形式的程序储存单元以及数据储存单元，例如只读存储器(ROM)703和随机存取存储器(RAM) 704，能够存储计算机处理和/或通信使用的各种数据文件，以及处理器702 所执行的可能的程序指令。处理器执行这些指令以实现方法的主要部分。处理器处理的结果通过通信端口传给用户设备，在用户界面上显示。

上述的语音信号的回声抑制装置可以实施为计算机程序，保存在存储器中，并可记载到处理器502中执行，以实施本申请的语音信号的回声抑制方法。

本申请还提供了一种存储有计算机程序代码的计算机可读介质，所述计算机程序代码在由处理器执行时实现如上所述的语音信号的回声抑制方法。

本申请的一些方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。处理器可以是一个或多个专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理器件(DAPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器或者其组合。此外，本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。例如，计算机可读介质可包括，但不限于，磁性存储设备(例如，硬盘、软盘、磁带……)、光盘(例如，压缩盘CD、数字多功能盘DVD……)、智能卡以及闪存设备(例如，卡、棒、键驱动器……)。

计算机可读介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等等、或合适的组合形式。计算机可读介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机可读介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、射频信号、或类似介质、或任何上述介质的组合。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本申请实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

虽然本申请已参照当前的具体实施例来描述，但是本技术领域中的普通技术人员应当认识到，以上的实施例仅是用来说明本申请，在没有脱离本申请精神的情况下还可作出各种等效的变化或替换，因此，只要在本申请的实质精神范围内对上述实施例的变化、变型都将落在本申请的权利要求书的范围内。

Claims

1.一种语音信号的回声抑制方法，包括以下步骤：

获取输入信号；

抑制所述输入信号的线性回声信号以获得残差信号，所述残差信号包括非线性回声信号；

抑制所述残差信号中的非线性回声信号，包括：

计算所述残差信号与所述输入信号的互相关系数；

计算所述输入信号的频谱在每个时频点的衰减增益；

所述输入信号的频谱在每个时频点的衰减增益AfGain(k,n)为

其中，k为频域点索引值，n为时域点索引值，E(k,n)为所述残差信号对应的频域信号，D(k,n)为输入信号对应的频域信号；

使用所述互相关系数和所述输入信号的频谱在每个时频点的衰减增益计算联合衰减增益因子；

使用所述联合衰减增益因子对所述残差信号的非线性回声信号进行抑制。

2.根据权利要求1所述的语音信号的回声抑制方法，其特征在于，还包括将输入信号、残差信号变换为频域信号；抑制所述残差信号中的非线性回声还包括：

将经过非线性回声抑制后的残差信号反变换为时域信号。

3.根据权利要求2所述的语音信号的回声抑制方法，其特征在于，所述反变换为傅立叶反变换。

4.根据权利要求1所述的语音信号的回声抑制方法，其特征在于，所述联合衰减增益因子comGain(k,n)为

comGain(k,n)＝min(ρ_ed(k,n),power(AfGain(k,n),2))

其中，ρ_ed(k,n)为所述互相关系数。

5.根据权利要求4所述的语音信号的回声抑制方法，其特征在于，所述非线性回声抑制后的信号的频谱为

Enh(k,n)＝((1-|comGain(k,n)|²))*Rand(k,n)+comGain(k,n)*E(k,n)

其中，Rand(k,n)为舒适噪声对应的频谱。

6.根据权利要求1所述的语音信号的回声抑制方法，其特征在于，通过自适应滤波器抑制所述线性回声信号，所述自适应滤波器采用NLMS滤波。

7.一种语音信号的回声抑制装置，包括：

用于获取输入信号的模块；

用于抑制线性回声的模块；

用于抑制非线性回声的模块；

其中，所述用于抑制非线性回声的模块被配置为执行如下操作：

计算残差信号与输入信号的互相关系数，所述残差信号通过抑制所述输入信号的所述线性回声得到；

计算输入信号的频谱在每个时频点的衰减增益；

所述输入信号的频谱在每个时频点的衰减增益AfGain(k,n)为

8.一种语音信号的回声抑制装置，包括：

存储器，用于存储可由处理器执行的指令；以及

处理器，用于执行所述指令以实现如权利要求1-6任一项所述的方法。

9.一种存储有计算机程序代码的计算机可读介质，所述计算机程序代码在由处理器执行时实现如权利要求1-6任一项所述的方法。