CN102655558B

CN102655558B - 一种双端发音鲁棒结构及其消除声学回声的方法

Info

Publication number: CN102655558B
Application number: CN 201210158169
Authority: CN
Inventors: 袁红星; 陈天; 吴少群; 朱仁祥; 诸葛霞
Original assignee: Ningbo University of Technology
Current assignee: Ningbo University of Technology
Priority date: 2012-05-21
Filing date: 2012-05-21
Publication date: 2013-10-09
Anticipated expiration: 2032-05-21
Also published as: CN102655558A

Abstract

本发明一种双端发音鲁棒结构，包括有用于接收并保存远端语音数据的远端语音数据缓存模块及接收并保存近端语音数据的近端语音数据缓存模块，其中，远端语音数据缓存模块及近端语音数据缓存模块信号连接有自回归模块，自回归模块包括有能根据估计误差进行自适应学习的自适应滤波器，自回归模块连接有能将处理后信号输出至远端的残留回声抑制模块；自适应滤波器在双端发音时进行自适应调节，降低学习速度。本发明采用自回归模块和自适应滤波器更新技术，用白噪声通过自回归模块估计近端语音加快收敛速度，同时根据通信场景自适应调节学习速度避免了双端发音情况下滤波器发散的问题。保证全双工通信中的语音信号质量，能广泛应用于移动通信领域中。

Description

一种双端发音鲁棒结构及其消除声学回声的方法

技术领域

本发明属于移动通信语音增强技术领域，特别涉及一种移动通信系统中声学回声消除的装置及方法，具体的说，是一种双端发音鲁棒结构及其消除声学回声的方法。

背景技术

声学回声是指近端扬声器播放的远端语音被近端麦克风采集后又传输到远端，使得远端用户听到自己之前说话的声音。声学回声的存在严重干扰了通信质量。声学回声消除器是解决这一问题的有效途径。因此，在移动通信系统中，回声消除器是必不可少的组成部分。为了使语音信号不受声学回声干扰，回声消除器在单端发音（single talk, ST）的情况下，加权的终端耦合损耗至少要达到46dB；而在双端发音（double talk, DT）的情况下要大于26dB。回声消除器的原理是以远端语音作为参考信号，通过自适应滤波器来逼近从扬声器到麦克风的耦合回声路径，得到近似的回声信号，并从近端信号中减去这部分估计的回声。理想的回声消除器在保证低失配值（misalignment）的前提下，应该具有快速收敛和跟踪（应对回声路径的时变特性）能力。这两个特性都取决于滤波器所采用的自适应算法。在ST情况下，现有的自适应算法都能得到满意的回声消除效果。在DT情况下，由于受近端语音的干扰，这些自适应算法将会发散，偏离实际的回声信道，使得回声消除的性能急剧恶化。根据统计结果，在一次通话过程中，DT发生的时间约占20%左右。因此DT时回声消除器的性能很重要。常用的解决方案是引入双端发音检测器（double talk detector, DTD）。当DTD检测到双端发音时，自适应滤波器停止更新。这种解决方案的缺点是，在DTD检测到双端发音时滤波器可能已经发散。针对这一问题，人们提出了各种变步长自适应算法。其思路是根据远、近端的语音特性，自动调节自适应滤波器的更新步长，ST时步长较大，DT时步长较小。但是这些变步长方法在ST和回声路径发生变化时收敛速度会受到影响。

发明内容

本发明所要解决的技术问题是针对现有技术的现状，提供一种单端发音和回声路径发生变化的情况下具有快速跟踪能力从而保证全双工通信中的语音质量，避免了双端发音情况下滤波器发散问题的一种双端发音鲁棒结构及其消除声学回声的方法。

本发明解决上述技术问题所采用的技术方案为：

一种双端发音鲁棒结构，包括有用于接收并保存远端语音数据的远端语音数据缓存模块及接收并保存近端语音数据的近端语音数据缓存模块，其中，远端语音数据缓存模块及近端语音数据缓存模块信号连接有自回归模块，自回归模块包括有能根据估计误差进行自适应学习的自适应滤波器，自回归模块连接有能将处理后信号输出至远端的残留回声抑制模块；自适应滤波器在双端发音时进行自适应调节，降低学习速度。

为优化上述技术方案，采取的措施还包括：

上述的残留回声抑制模块连接有均衡化处理器。

上述的残留回声抑制模块连接有自动增益控制处理器。

一种双端发音鲁棒结构消除声学回声的方法，其中，包括以下步骤：

步骤一：通过远端语音数据缓存模块将远端语音数据缓存后作为回声估计参考信号；

步骤二：通过近端语音数据缓存模块将近端语音数据缓存后作为麦克语音估计参考信号；

步骤三：根据近端语音估计参考信号，用自回归模块估计近端语音信号，自回归模块的系数根据估计误差进行自适应学习；

步骤四：根据回声估计参考信号，通过自适应滤波器估计从扬声器耦合到麦克的回声,并根据残留回声、近端语音和远端语音的能量自适应调节规则化因子，调整自适应滤波器学习速度；

步骤五：将近端语音减去估计的回声得到误差信号；

步骤六：将步骤五得到的误差信号作为残留回声抑制模块的输入；

步骤七：将残留回声抑制模块的输出经过均衡化处理器、自动增益控制处理器的处理后，发送到远端。

上述的自适应滤波器为自适应FIR滤波器。

上述的自适应滤波器在单端发音或回声路径发生变化时的学习速度高于在双端发音时的学习速度。

上述的残留回声抑制模块根据通信状态，对近端及远端语音进行衰减。

与现有技术相比，本发明一种双端发音鲁棒结构，包括有用于接收并保存远端语音数据的远端语音数据缓存模块及接收并保存近端语音数据的近端语音数据缓存模块，其中，远端语音数据缓存模块及近端语音数据缓存模块信号连接有自回归模块，自回归模块包括有能根据估计误差进行自适应学习的自适应滤波器，自回归模块连接有能将处理后信号输出至远端的残留回声抑制模块；自适应滤波器在双端发音时进行自适应调节，降低学习速度。单端发音或回声路径发生变化的情况下自适应滤波器学习速度较快，双端发音情况下学习速度较慢。由于采用了自回归模块和自适应滤波器更新技术，用白噪声通过自回归模块估计近端语音可加快收敛速度，同时根据通信场景自适应调节学习速度避免了双端发音情况下滤波器发散的问题。自适应滤波器仅能消除线性回声，对于非线性回声，还需要经过残留回声抑制模块的处理。本发明可保证全双工通信中的语音信号质量，能广泛应用于移动通信领域中。

附图说明

图1是本发明双端发音鲁棒结构示意图；

图2为本发明声学回声消除的示意图；

图3为本发明声学回声消除方法在单端发音情况下的一个能量统计结果；

图4为本发明声学回声消除方法在双端发音情况下的一个能量统计结果；

图5为本发明声学回声消除方法在回声路径发生改变情况下的一个能量统计结果。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

如图1至图5所示，图标号说明如下远端语音数据缓存模块1、近端语音数据缓存模块2、自回归模块3、自适应滤波器4、残留回声抑制模块5、均衡化处理器6、自动增益控制处理器7。

图1至图5所示本发明的一种双端发音鲁棒结构，包括有用于接收并保存远端语音数据的远端语音数据缓存模块1及接收并保存近端语音数据的近端语音数据缓存模块2，其中，远端语音数据缓存模块1及近端语音数据缓存模块2信号连接有自回归模块3，自回归模块3包括有能根据估计误差进行自适应学习的自适应滤波器4，自回归模块3连接有能将处理后信号输出至远端的残留回声抑制模块5；自适应滤波器4在双端发音时进行自适应调节，降低学习速度。

实施例中，残留回声抑制模块5连接有均衡化处理器6。

实施例中，残留回声抑制模块5连接有自动增益控制处理器7。

一种通过双端发音鲁棒消除声学回声的方法，其中，包括以下步骤：

步骤一：通过远端语音数据缓存模块1将远端语音数据缓存后作为回声估计参考信号；

步骤二：通过近端语音数据缓存模块2将近端语音数据缓存后作为麦克语音估计参考信号；

步骤三：根据近端语音估计参考信号，用自回归模块3估计近端语音信号，自回归模块3的系数根据估计误差进行自适应学习；

步骤四：根据回声估计参考信号，通过自适应滤波器4估计从扬声器耦合到麦克的回声,并根据残留回声、近端语音和远端语音的能量自适应调节规则化因子，调整自适应滤波器4学习速度；

步骤五：将近端语音减去估计的回声得到误差信号；

步骤六：将步骤五得到的误差信号作为残留回声抑制模块5的输入；

步骤七：将残留回声抑制模块5的输出经过均衡化处理器6、自动增益控制处理器7的处理后，发送到远端。

实施例中，自适应滤波器4为自适应FIR滤波器。

实施例中，自适应滤波器4在单端发音或回声路径发生变化时的学习速度高于在双端发音时的学习速度。

实施例中，残留回声抑制模块5根据通信状态，对近端及远端语音进行衰减。

单端发音或回声路径发生变化的情况下自适应滤波器4学习速度较快，双端发音情况下学习速度较慢。由于采用了自回归模块3和自适应滤波器4更新技术，用白噪声通过自回归模块3估计近端语音可加快收敛速度，同时根据通信场景自适应调节学习速度避免了双端发音情况下滤波器发散的问题。自适应滤波器4仅能消除线性回声，对于非线性回声，还需要经过残留回声抑制模块5的处理。本发明可保证全双工通信中的语音信号质量，能广泛应用于移动通信领域中。

本发明的主要构思是，利用自回归模块3将近端语音和远端语音去相关，以达到加快收敛速度的目的；同时根据近、远端信号和残留回声的能量统计特性调整自适应滤波器4的学习速度，在保证单端发音和回声路径改变情况下收敛速度的同时，避免了双端发音情况下滤波器的发散。

下面结合附图及具体实施方法，对本发明采用的技术方案作进一步详细说明。

参见图3，以1阶自回归模块为例，假设：y(n)为近端语音信号，x(n)为远端语音信号，h(n)表示估计的回声耦合路径冲激响应，L表示h(n)的阶数，a(n)为自回归模块系数，d(n)为估计的回声，

Figure 2012101581690100002DEST_PATH_IMAGE002

表示自回归模块3对近端语音的估计误差，e(n)为y(n)减去估计回声d(n)得到的误差信号，

Figure 2012101581690100002DEST_PATH_IMAGE004

、

Figure 2012101581690100002DEST_PATH_IMAGE006

、和

Figure 2012101581690100002DEST_PATH_IMAGE010

分别表示近端语音估计误差、e(n)、x(n)和y(n)的能量估计，

Figure 2012101581690100002DEST_PATH_IMAGE012

、、

Figure 2012101581690100002DEST_PATH_IMAGE016

和

Figure 2012101581690100002DEST_PATH_IMAGE018

分别表示计算这些能量估计时所采用的遗忘因子，

Figure 2012101581690100002DEST_PATH_IMAGE020

和

Figure 2012101581690100002DEST_PATH_IMAGE022

分别表示h(n)和a(n)的梯度矢量。

Figure 2012101581690100002DEST_PATH_IMAGE024

（表示卷积）

Figure 2012101581690100002DEST_PATH_IMAGE028

在单端发音和回声路径发生改变的情况下，满足

，h(n)更新的规则化因子；在双端发音情况下，

较大，使得

Figure 2012101581690100002DEST_PATH_IMAGE054

，与前述情况相比，相当于减小了学习速度。一个具体的实验结果如图3至图5所示，其中图4对应的实验双端发音发生的时间段为第8秒和第9秒之间。从图中可以看出，只有在双端发音的时间段。因此，这种自适应规则化方法既可以在不影响单端发音情况下性能的同时保证双端发音的鲁棒性，又能快速响应回声路径发生变化的情况。另外，为了防止远端信号处于静音状态时，滤波器更新出现发散。当

Figure 2012101581690100002DEST_PATH_IMAGE056

时（th为预先设定的阈值），估计回声路径冲激响应的自适应滤波器停止更新。

残留回声抑制模块根据

和

的比较结果判断是否发生双端发音情况，即

表示发生双端发音。当仅仅只有近端发音时，残留回声抑制模块5不进行任何处理；当仅仅只有远端发音时，残留回声抑制模块5对输入信号进行较大幅度的衰减；双端发音情况下，残留回声抑制模块5对近端和接收到的远端语音分别进行适度的衰减。

以上实施例仅仅是对本发明的优选实施方式进行描述，并非对本发明的范围进行限定，在不脱离本发明涉及精神的前提下，本领域普通工程技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明的权利要求书确定的保护范围内。

Claims

1.一种双端发音鲁棒结构，包括有用于接收并保存远端语音数据的远端语音数据缓存模块(1)及接收并保存近端语音数据的近端语音数据缓存模块(2)，其特征是：所述的远端语音数据缓存模块(1)及近端语音数据缓存模块(2) 连接有自回归模块(3)，且所述的远端语音数据缓存模块(1)及近端语音数据缓存模块(2)能与自回归模块(3)传递信号，所述的自回归模块(3)包括有能根据估计误差进行自适应学习的自适应滤波器(4)，所述的自回归模块(3)连接有能将处理后信号输出至远端的残留回声抑制模块(5)；所述的自适应滤波器(4)在双端发音时进行自适应调节，降低学习速度；所述的自回归模块(3)将近端语音和远端语音去相关；所述的残留回声抑制模块(5)连接有自动增益控制处理器(7)。

2.根据根据权利要求1所述的一种双端发音鲁棒结构，其特征是：所述的残留回声抑制模块(5)连接有均衡化处理器(6)。

3.通过如权利要求1所述的一种双端发音鲁棒结构消除声学回声的方法，其特征是：包括以下步骤：

步骤一：通过远端语音数据缓存模块(1)将远端语音数据缓存后作为回声估计参考信号；

步骤二：通过近端语音数据缓存模块(2)将近端语音数据缓存后作为麦克语音估计参考信号；

步骤三：根据近端语音估计参考信号，用自回归模块(3)估计近端语音信号，自回归模块(3)的系数根据估计误差进行自适应学习；

步骤四：根据回声估计参考信号，通过自适应滤波器(4)估计从扬声器耦合到麦克的回声,并根据残留回声、近端语音和远端语音的能量自适应调节规则化因子，调整自适应滤波器(4)学习速度；

步骤五：将近端语音减去估计的回声得到误差信号；

步骤六：将步骤五得到的误差信号作为残留回声抑制模块(5)的输入；

步骤七：将残留回声抑制模块(5)的输出经过均衡化处理器(6)、自动增益控制处理器(7)的处理后，发送到远端；

所述的自适应滤波器(4)为自适应FIR滤波器。

4.根据权利要求3所述的一种双端发音鲁棒结构消除声学回声的方法，其特征是：所述的自适应滤波器(4)在单端发音或回声路径发生变化时的学习速度高于在双端发音时的学习速度。

5.根据权利要求4所述的一种双端发音鲁棒结构消除声学回声的方法，其特征是：所述的残留回声抑制模块(5)根据通信状态，对近端及远端语音进行衰减。