CN105472191A

CN105472191A - 一种跟踪回声时延的方法和装置

Info

Publication number: CN105472191A
Application number: CN201510795224.0A
Authority: CN
Inventors: 李峥
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-11-18
Filing date: 2015-11-18
Publication date: 2016-04-06
Anticipated expiration: 2035-11-18
Also published as: CN105472191B

Abstract

本发明提供了一种跟踪回声时延的方法和装置，其中方法包括：获取回声参考信号和声音输入信号，利用回声参考信号和声音输入信号在当前帧的互相关函数的峰值，确定所述回声参考信号在当前帧的回声时延。本发明的跟踪回声时延的方法和装置在获取回声参考信号的过程中，利用回声参考信号和声音输入信号在当前帧的互相关函数的峰值来确定回声参考信号在当前帧的回声时延，从而跟踪回声参考信号在每一帧的回声时延，以便为消除时延抖动以及提高回声消除性能的长期稳定性提供基础。

Description

一种跟踪回声时延的方法和装置

【技术领域】

本发明涉及声音信号处理技术，尤其涉及一种跟踪回声时延的方法和装置。

【背景技术】

设备自身扬声器发出的声音被称为回声，回声和说话人信号混杂在一起被麦克风拾音后送入系统，会影响设备对说话人语音信号的响应。为了消除混杂在说话人语音信号中的回声，需要使用回声消除技术，或称自动回声消除(AutomaticEchoCancellation，简称AEC)。

图1示出了利用ACE消除回声的系统结构示意图，如图1所示，其消除回声的基本原理是：从系统中获取扬声器所发出回声的回声参考信号，利用该回声参考信号模拟从麦克风输入的实际声音信号，完成回声消除。该回声消除技术在手机通话、电视电话会议系统里已有广泛的应用。

现有的手机、会议系统等设备为了实现高性能的回声消除，一般会采用定制的AEC芯片，从硬件设计之初就会进行针对性的电路设计从而进行回声消除。采用定制的AEC芯片，通过硬件设计消除回声的优点是，由于回声参考信号是通过硬件获取并传送给AEC处理的，而由硬件获取信号具有实时稳定的特点，由此能够确保实时稳定的获取回声参考信号。

对于已经具有成熟硬件设计的产品设备，要实现AEC功能，只能考虑在已有硬件架构基础上，采用纯软件的方法进行回声消除。而使用软件获取信号会受到例如信号传输速度、软件运行不稳定等多种因素的影响而导致获取和传输回声参考信号到AEC的过程中出现延迟，这种延迟会造成较大的抖动而影响回声消除的准确性。

【发明内容】

本发明提供了一种跟踪回声时延的方法和装置，以便于精确跟踪回声时延，为提高回声消除性能的稳定性提供基础。

具体技术方案如下：

本发明提供了一种跟踪回声时延的方法，所述方法包括：

获取回声参考信号和声音输入信号；

利用回声参考信号和声音输入信号在当前帧的互相关函数的峰值，确定所述回声参考信号在当前帧的回声时延。

根据本发明一优选实施例，该方法还包括：在确定所述回声参考信号在当前帧的回声时延之前，依据回声参考信号的能量判断所述回声参考信号在当前帧是否存在回声，如果存在回声，则继续执行确定所述回声参考信号在当前帧的回声时延的步骤；否则，取前一帧的回声时延或者不做处理。

根据本发明一优选实施例，所述依据回声参考信号的能量判断所述回声参考信号在当前帧是否存在回声具体包括：

从包含当前帧的所述回声参考信号的预定信号长度中采集多个时间点的信号能量；

将采集的信号能量的平均值与最小能量阈值进行比较，如果所述信号能量的平均值大于或等于最小能量的阈值，则判断为存在回声，否则不存在回声；

其中所述预定信号长度的取值与预设的最大时延有关。

根据本发明一优选实施例，所述方法还包括：将所述当前帧的互相关函数中的时域变量转换为频域变量，利用快速傅里叶变换确定所述互相关函数的峰值。

根据本发明一优选实施例，所述方法还包括：对所述当前帧的互相关函数进行跟踪滤波，利用跟踪滤波后的互相关函数，确定所述回声参考信号在当前帧的回声时延。

根据本发明一优选实施例，对所述当前帧的互相关函数进行跟踪滤波具体包括：

利用第一系数对当前帧的互相关函数进行滤波；

利用第二系数对前一帧跟踪滤波后的互相关函数进行跟踪；

结合所述利用第一系数滤波的结果以及利用第二系数跟踪的结果，得到所述跟踪滤波后的互相关函数。

根据本发明一优选实施例，所述方法还包括：

对确定出的所述当前帧的回声时延进行误差分析；

依据误差分析结果，对所述当前帧的回声时延进行跟踪滤波。

根据本发明一优选实施例，依据误差分析结果，对所述当前帧的回声时延进行跟踪滤波具体包括：

利用第三系数对当前帧的回声时延进行滤波；

利用第四系数对前一帧跟踪滤波后的回声时延进行跟踪；

结合所述利用第三系数滤波的结果以及利用第四系数跟踪的结果，对所述当前帧的回声时延进行跟踪滤波。

根据本发明一优选实施例，依据误差分析结果，对所述当前帧的回声时延进行跟踪滤波还包括：

如果当前帧的回声时延的误差在误差范围以内，则通过增加第三系数的值以增加跟踪的权重；否则通过减小第三系数的值以增加滤波的权重。

根据本发明一优选实施例，对确定出的所述当前帧的回声时延进行误差分析具体包括：

获取当前帧之前的一个或多个帧的滤波后的回声时延并确定其均值和方差；

确定当前帧的回声时延与均值之差的绝对值；

如果所述绝对值小于等于误差阈值，则确定所述当前帧的回声时延的误差在误差范围以内；

否则，确定所述当前帧的回声时延的误差超过误差范围；

其中所述误差阈值由所述方差确定。

本发明还提供了一种跟踪回声时延的装置，所述装置包括：

获取单元，用于获取回声参考信号和声音输入信号；

回声时延确定单元，用于利用回声参考信号和声音输入信号在当前帧的互相关函数的峰值，确定所述回声参考信号在当前帧的回声时延。

根据本发明一优选实施例，所述装置还包括回声判断单元，所述回声判断单元用于在确定所述回声参考信号在当前帧的回声时延之前，依据回声参考信号的能量判断所述回声参考信号在当前帧是否存在回声；

如果存在回声，则触发所述回声时延确定单元继续执行确定所述回声参考信号在当前帧的回声时延的操作；

否则，交由维护单元取前一帧的回声时延或者不做处理。

根据本发明一优选实施例，所述回声判断单元具体执行如下操作：

其中所述预定信号长度的取值与预设的最大时延有关。

根据本发明一优选实施例，所述装置还包括互相关函数确定单元，用于利用快速傅里叶变换将所述当前帧的互相关函数中的时域变量转换为频域变量，从而使回声时延确定单元利用快速傅里叶变换确定的互相关函数的峰值来确定所述回声参考信号在当前帧的回声时延。

根据本发明一优选实施例，所述装置还包括互相关函数跟踪滤波单元，用于对所述当前帧的互相关函数进行跟踪滤波，以便所述回声时延确定单元利用跟踪滤波后的互相关函数，确定所述回声参考信号在当前帧的回声时延。

根据本发明一优选实施例，所述互相关函数跟踪滤波单元具体执行如下操作：

利用第一系数对当前帧的互相关函数进行滤波；

利用第二系数对前一帧跟踪滤波后的互相关函数进行跟踪；

根据本发明一优选实施例，所述装置还包括：

误差分析单元，用于对确定出的所述当前帧的回声时延进行误差分析；以及

回声时延跟踪滤波单元，用于依据误差分析结果，对所述当前帧的回声时延进行跟踪滤波。

根据本发明一优选实施例，所述回声时延跟踪滤波单元具体执行如下操作：

利用第三系数对当前帧的回声时延进行滤波；

利用第四系数对前一帧跟踪滤波后的回声时延进行跟踪；

根据本发明一优选实施例，所述回声时延跟踪滤波单元还执行如下操作：

根据本发明一优选实施例，所述误差分析单元具体执行如下操作：

确定当前帧的回声时延与均值之差的绝对值；

否则，确定所述当前帧的回声时延的误差超过误差范围；

其中所述误差阈值由所述方差确定。

由以上技术方案可以看出，本发明在获取回声参考信号的过程中，利用回声参考信号和声音输入信号在当前帧的互相关函数的峰值来确定回声参考信号在当前帧的回声时延，从而跟踪回声参考信号在每一帧的回声时延，以便为消除时延抖动以及提高回声消除性能的长期稳定性提供基础。

【附图说明】

图1示出了现有技术中利用AEC消除回声的系统结构示意图；

图2示出了根据本发明实施例一提供的一种跟踪回声时延的方法流程图；

图3示出了根据本发明实施例一提供的一种对当前帧的回声时延进行跟踪滤波的方法流程图；

图4示出了根据本发明实施例二提供的一种跟踪回声时延的装置结构示意图；

图5示出了现有技术中自动回声消除的效果图；

图6示出了利用本发明跟踪的回声时延的结果；

图7示出了根据本发明跟踪的回声时延进行时延补偿后的自动回声消除的效果图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

实施例一、

图2为本发明实施例一提供的一种跟踪回声时延的方法流程图。如图2所示，该方法可以包括以下步骤：

201、获取回声参考信号和声音输入信号。

该步骤中，可以通过系统的硬件或软件获取回声参考信号；可以通过麦克风来获取说话人的声音输入信号。

另外，可以将回声参考信号的每一帧作为时间单位，每一帧执行一次获取信号的操作。其中回声参考信号的帧长可以根据需要自行设定。

例如取15ms，20ms、或30ms的回声参考信号的长度为一帧，每次按帧来执行获取信号的操作。

202、判断回声参考信号在当前帧是否存在回声。

该步骤中，可以依据回声参考信号的能量判断回声参考信号在当前帧是否存在回声，并根据判断的结果做相应的处理。

确定当前帧的回声参考信号的能量的基本原理是，从包含当前帧的回声参考信号的预定信号长度中采集多个时间点的信号能量；根据采集的多个时间点的信号能量得到信号能量的平均值，该平均值即为当前帧的回声参考信号的信号能量。

其中所述预定信号长度的取值与预设的最大时延有关。由于最大时延与消除回声设备的设备自身处理参数有关，虽然每个设备的最大时延可能会有不同，但是当设备固定后，最大时延的范围也将确定，因此预设的最大时延可以根据硬件设备或软件系统的实际情况进行选取。

设当前帧的回声参考信号为u(k)，k代表回声参考信号的当前帧的时间，每次处理的预定信号长度为N，而n代表从包含当前帧的回声参考信号的预定信号长度中采集的n个时间点。

则当前帧的回声参考信号的能量可以表示为：

E_{u} (k) = \frac{1}{N} Σ_{n = 0}^{N - 1} u^{2} (k - n) - - - (1)

公式(1)中可以使回声参考信号的帧长相对N短一些，例如设定30ms为一帧，也就是说每30ms进行一次当前帧的回声参考信号能量的计算，由于N与最大时延有关，假设预设的最大时延为60ms，则N可以取大于60ms的长度，或者接近60ms的长度，例如将N取100ms，即在100ms的信号长度中采集n个时间点。

在对当前帧的信号能量进行计算时，通过将采集的时间点扩展为大于等于当前帧长的预定信号长度，可以避免由于时延超过当前帧而导致检测不到回声的情况。还是以30ms为一帧、在100ms的信号长度内采集多个时间点为例，假设时延为45ms时，由于是在100ms的信号长度内采集用于计算平均能量的时间点能量，因此即使当前帧的长度小于时延，也能检测到当前帧的回声。

在确定了当前帧的回声参考信号能量后，可以将信号能量的平均值与最小能量阈值进行比较，如果所述信号能量的平均值大于或等于最小能量的阈值，则判断为存在回声，否则不存在回声。

可以通过如下能量检测法来判断当前帧是否存在回声信号，即：

其中，E_u(k)表示当前帧的回声参考信号的能量，E_uMin表示回声参考信号的最小能量阈值。

极端情况下，考虑到从系统获取的回声参考信号比较纯净，当设备自身不发声时，回声参考信号的预设最小能量值可以为0。

然而，由于通过软件或硬件获取的回声参考信号可能存在误差与干扰，因此可以将E_uMin的阈值设定为大于0的一个值，以对噪声给出一定的宽容性。该阈值的大小可以根据系统实际情况进行设置。

当回声参考信号的能量大于等于E_uMin时，表示当前帧存在回声，则进入步骤203，利用回声参考信号和声音输入信号在当前帧的互相关函数来确定回声时延；否则，直接进入步骤206，取前一帧的回声时延作为时延跟踪的结果，或者不做处理。

203、利用回声参考信号和声音输入信号在当前帧的互相关函数以确定回声时延。

该步骤中，确定回声参考信号和声音输入信号在当前帧的互相关函数的目的是获取当前帧回声参考信号与声音输入信号之间的时延差，或者称为回声参考信号在当前帧的回声时延。

由于互相关函数的互相关就是两个函数之间的相似性，当两个函数都具有相同周期分量的时候，它的极大值同样能体现这种周期性的分量。由此，可以根据互相关函数的峰值来确定回声参考信号在当前帧的回声时延。

设由麦克风获取的声音输入信号为d(k)，表示为：

d(k)＝s(k)+u′(k)+ε(k)＝s(k)+u(k-τ_k)+ε(k)(2)

其中k与公式(1)一样，仍然表示当前帧的时间；s(k)表示说话人信号；ε(k)表示环境噪声，为平稳高斯随机过程；u′(k)表示扬声器发出的回声信号，与回声参考信号u(k)之间存在不稳定的时延τ_k，这个时延τ_k即是希望准确估计的回声时延变量。

由于s(k)、ε(k)与u(k)互不相关，则声音输入信号d(k)和回声参考信号u(k)的互相关函数R_du(τ)可以表示为：

R_{d u} (τ) = Σ_{n = 0}^{N - 1} d (k - n) u (k - n - τ) = Σ_{n = 0}^{N - 1} u (k - n - τ_{k}) u (k - n - τ) - - - (3)

其中公式(3)的k、N、n与公式(1)所表示的含义相同。

当τ＝τ_k时，互相关函数R_du(τ)取最大，信号d(k)与u(k)的波形相似性最大。因此通过估计互相关函数R_du(τ)的峰值，在该峰值处互相关函数自变量τ的取值就是确定出的回声时延τ_k。

可替代地，由于互相关函数与功率谱之间存在快速傅里叶变换(FFT)的关系，因此考虑到工程实现的计算效率，为了加快对当前帧的回声时延的计算速度，可以使用快速傅里叶变换(FFT)和快速傅里叶反变换(IFFT)来确定互相关函数的峰值。

具体地，由于快速傅里叶变换所处理的是频域信号，因此可以将当前帧的互相关函数中的时域变量转换为频域变量，从而利用快速傅里叶变换确定所述互相关函数的峰值。

对于长度N的数字信号d(k)、u(k)，互相关函数可以求解如下：

R_du(τ)＝IFFT[D(jw)·U^*(jw)]＝IFFT[FFT[d(k)]·FFT^*[u(k)]](4)

其中，FFT[]和IFFT[]分别表示信号的FFT和IFFT变换；jw是对应的频域变量；d(k)、u(k)是时域信号；*表示共轭函数。

当互相关函数的相关峰很尖锐时，比较容易得到准确的峰值位置，从而精确确定当前帧的回声时延。因此如果在步骤203中即获得了满意的结果，则可以将步骤103所确定的当前帧的回声时延作为跟踪回声时延的结果输出。

然而在实际应用中，受到环境噪声和语音传播信道复杂性的影响，互相关函数可能出现多个虚假峰或者没有明显的主峰。优选地，为了增强互相关主峰，本实施例还可以在步骤203的基础上，选择执行步骤204和/或步骤205，以使互相关函数以及回声时延能够结合跟踪滤波来提高所确定的当前帧的回声时延的精度。

204、对当前帧的互相关函数进行跟踪滤波。

该步骤的目的是对由步骤203确定的当前帧的互相关函数进行跟踪滤波，利用跟踪滤波后的互相关函数得到回声参考信号在当前帧的回声时延。

对当前帧的互相关函数进行跟踪滤波可以具体采用如下手段实现，即：利用第一系数对当前帧的互相关函数进行滤波；利用第二系数对前一帧跟踪滤波后的互相关函数进行跟踪；结合所述利用第一系数滤波的结果以及利用第二系数跟踪的结果，得到所述跟踪滤波后的互相关函数。

作为一种优选的实施方式，第一系数和第二系数可以互相约束，例如第一系数采用α，第二系数采用1-α，即可以采用如下公式进行跟踪滤波：

R_{d u}^{i} (τ) = {αr}_{d u}^{i} (τ) + (1 - α) R_{d u}^{i - 1} (τ) - - - (5)

式(5)中，α为滤波系数，0＜α＜1，表示互相关函数在第i帧时计算得到的互相关函数，其中i个帧的最后一帧也可以理解为当前帧，因此第i帧也可称为当前帧；表示第i帧的经跟踪滤波后的互相关函数；表示相对于第i帧的前一帧(即i-1帧)的跟踪滤波后的互相关函数。第一系数α以及第二系数(1-α)用来分配第i帧的互相关函数与第i帧的前一帧跟踪滤波后的互相关函数的权重，其目的是取前几帧和当前帧的平均α滤波值。

如果α越大，则为第i帧计算得到的互相关函数分配的权值越大，由此更倾向于考虑i个帧的信号的相关性，因此在i个帧时间内对于回声参考信号和回声信号的跟踪性能越好；α越小，即(1-α)越大，由此更倾向于考虑前一帧跟踪滤波后的互相关函数对于确定当前帧回声时延的影响，即考虑与当前帧最接近的帧的时间延迟，从而滤波性能越好。

优选地，为了有效滤除互相关函数的杂波，因此将α可以取得比较小，例如可以把α滤波系数取在0-0.2之间。或者，也可以根据实际使用时的需要进行设置。

205、对确定出的所述当前帧的回声时延进行误差分析，依据误差分析结果对所述当前帧的回声时延进行跟踪滤波。

由于环境噪声和声传播信道的影响，可能会使确定的回声时延产生误差，因此在根据经过跟踪滤波或者未经过跟踪滤波的互相关函数确定了回声时延后，可以对回声时延进行滤波和跟踪，从而去除回声时延中出现的误差，保证时延差能够稳定、准确、连续，以此保证AEC性能的长期稳定性。

其中误差可以包括野值或偏差。

野值是指严重偏离大部分数据所呈现变化趋势的一小部分数据，例如极端值、奇异值。

偏差是指实际值与理想值或者平均值之间的差异。

图3为本发明实施例一提供的一种对当前帧的回声时延进行跟踪滤波的方法流程图。如图3所示，该方法主要是对确定出的所述当前帧的回声时延进行误差分析；依据误差分析结果，对当前帧的回声时延进行跟踪滤波。

其可以具体通过以下步骤实现：

301、获取当前帧之前的一个或多个帧的回声时延并确定其均值和方差。

该步骤中，设当前时刻检测到的时延为τ(i)，输出的时延为τ_out(i)，i表示当前帧。

优选地，输出的时延可以是经过滤波与跟踪后输出的时延。

取当前帧之前的一个或多个帧的回声时延τ_out(i-p),p＝1,…,P，P表示帧的个数，计算其均值τ_{out_mean}和方差τ_{out_std}。

优选地，可以取P为20个帧。

302、确定当前帧的回声时延与均值之差的绝对值。如果所述绝对值小于等于误差阈值，则确定所述当前帧的回声时延的误差在误差范围以内；否则，确定所述当前帧的回声时延的误差超过误差范围。其中该误差阈值由所述方差确定。

该步骤中，根据当前帧的回声时延τ(i)与τ_{out_mean}、τ_{out_std}的关系进行误差分析，从而依据误差范围对时延进行不同方式的跟踪滤波：

若|τ(i)-τ_{out_mean}|≤β·τ_{out_std}，说明时延估计较为稳定

若|τ(i)-τ_{out_mean}|＞β·τ_{out_std}，说明时延估计稳定性较差(6)

式(6)中，β表示经验比例，用来约束时延野值和偏差的范围。

303、依据误差分析结果，对所述当前帧的回声时延进行跟踪滤波。

该步骤中，主要是利用第三系数对当前帧的回声时延进行滤波；利用第四系数对前一帧跟踪滤波后的回声时延进行跟踪；结合所述利用第三系数滤波的结果以及利用第四系数跟踪的结果，对所述当前帧的回声时延进行跟踪滤波。

作为一种优选的实施方式，第三系数和第四系数可以互相约束，例如第三系数采用α'，第二系数采用1-α'。

利用第三、第四系数进行跟踪滤波处理的公式可以为：

τ_out(i)＝α'τ(i)+(1-α')τ_out(i-1)(7)

其中α'表示第三系数；1-α'表示第四系数；且0<α'<1。

步骤303还可以进一步划分为步骤3031、如果当前帧的回声时延的误差在误差范围以内，则侧重跟踪性能的处理，以及步骤3032、如果当前帧的回声时延的误差超过误差范围，则侧重滤波去噪处理。具体地：

3031、如果当前帧的回声时延的误差在误差范围以内，则通过增加第三系数的值以增加跟踪的权重。

例如，如果当前帧的回声时延的误差在误差范围以内，说明时延估计较为稳定，因此使用公式：

τ_out(i)＝α1'τ(i)+(1-α₁')τ_out(i-1)，(8)

其中α₁'为第三系数，1-α₁'为第四系数。可以为α₁'取较大的数值，例如将α₁'取值在0.8至1之间，从而强调跟踪性能。

3032、如果当前帧的回声时延的误差超过误差范围，则通过减小第三系数的值以增加滤波的权重。

该步骤中，如果当前帧的回声时延的误差超过误差范围，

则τ_out(i)＝α'₂τ(i)+(1-α'₂)τ_out(i-1)，(9)

可以为α'₂取较小的数值，例如将α'₂取值在0至0.2之间，以强调滤波性能。

206、若经过能量检测，当前帧不存在回声，则取前一帧的回声时延；

可替代地，也可以在当前帧不存在回声的情况下，不做处理。

由于在步骤202中，依据信号能量判断是否存在回声的过程是从包含当前帧的预定信号长度中采集的多个时间点的信号能量，其中预定信号长度虽然和预设的最大时延有关，但仍然有可能由于极端情况的出现，致使当前帧的回声参考信号的时延大于预定信号长度，当这种情况出现的时候，会导致实际上存在回声，但却在预定信号长度的范围内未检测到的情况，例如，假设时延为45ms，而预定信号长度设为40ms，则对40ms求能量的平均值显然不可能检测到45ms的延迟。

基于在当前帧虽然未能检测到回声，但回声仍真实存在的情况，因此假设每一帧的时延相对都是稳定的，则可以将上一帧的回声时延作为时延跟踪结果而输出到AEC进行自动回声消除的处理。

取上一帧的回声时延可以如下表示：τ_out(i)＝τ_out(i-1)。

当然，如果对采集时间点的预定信号长度设置的足够大，从而避免了上述情况的发生，或者基于其他运算性能和精度的考虑等，也可以在当前帧未检测到回声的情况下，不做任何处理。

207、得到时延跟踪结果。

该步骤中，可以将确定的当前帧的回声时延作为时延跟踪结果，或者将获得的前一帧的回声时延作为时延跟踪结果而发送到AEC，从而通过时延补偿使进入AEC的回声参考信号与声音输入信号严格对齐，提高AEC的性能。

实施例二、

图4为本发明实施例二提供的一种跟踪回声时延的装置结构示意图。如图4所示，该装置可以包括获取单元401，回声判断单元402，互相关函数确定单元403，回声时延确定单元404，维护单元405，互相关函数跟踪滤波单元406，误差分析单元407，回声时延跟踪滤波单元408。其中：

获取单元401，用于获取回声参考信号和声音输入信号。

具体地，获取单元401可以通过系统的硬件或软件获取回声参考信号；可以通过麦克风来获取说话人的声音输入信号。

回声判断单元402，用于判断回声参考信号在当前帧是否存在回声。

具体地，回声判断单元402可以依据回声参考信号的能量判断回声参考信号在当前帧是否存在回声，并根据判断的结果做相应的处理。

其中所述预定信号长度的取值与预设的最大时延有关。预设的最大时延可以根据硬件设备或软件系统的实际情况进行选取。

在对当前帧的信号能量进行计算时，通过将采集的时间点扩展为大于等于当前帧长的预定信号长度，可以避免由于时延超过当前帧而导致检测不到回声的情况。

在确定了当前帧的回声参考信号能量后，回声判断单元402可以将信号能量的平均值与最小能量阈值进行比较，如果所述信号能量的平均值大于或等于最小能量的阈值，则判断为存在回声，否则不存在回声。

然而，由于回声参考信号中存在噪声，从而对回声参考信号产生干扰，因此可以将最小能量的阈值设定为大于0的一个值，以对噪声给出一定的宽容性。该阈值的大小可以根据系统实际情况进行设置。

当回声参考信号的能量大于等于最小能量的阈值时，表示当前帧存在回声，则可以交由其他功能单元继续执行确定所述回声参考信号在当前帧的回声时延的操作；

其中，所述功能单元包括回声时延确定单元404。

否则，可以交由维护单元405取前一帧的回声时延，或者不做处理；

其中，维护单元405可以用于维护每一帧确定的回声时延并且用于获取所维护的回声时延。

互相关函数确定单元403，用于确定回声参考信号和声音输入信号的互相关函数；以及回声时延确定单元404，用于利用在当前帧的互相关函数以确定回声时延。

通过互相关函数确定单元403确定回声参考信号和声音输入信号在当前帧的互相关函数的目的是使回声时延确定单元404能够基于互相关函数获取当前帧回声参考信号与声音输入信号之间的时延差，或者称为回声参考信号在当前帧的回声时延。

具体地，由于互相关函数的互相关就是两个函数之间的相似性，当两个函数都具有相同周期分量的时候，它的极大值同样能体现这种周期性的分量。由此，回声时延确定单元404可以根据互相关函数的峰值来确定回声参考信号在当前帧的回声时延。

可替代地，由于互相关函数与功率谱之间存在快速傅里叶变换(FFT)的关系，因此考虑到工程实现的计算效率，为了加快对当前帧的回声时延的计算速度，互相关函数确定单元403可以使用快速傅里叶变换(FFT)和快速傅里叶反变换(IFFT)来确定互相关函数，从而使回声时延确定单元404利用快速傅里叶变换确定的互相关函数的峰值来确定所述回声参考信号在当前帧的回声时延。

当互相关函数的相关峰很尖锐时，比较容易得到准确的峰值位置，从而精确确定当前帧的回声时延。因此如果通过互相关函数确定单元403和回声时延确定单元404就可以获得满意的互相关函数和回声时延，则可以将直接将回声时延确定单元所确定的当前帧的回声时延作为跟踪回声时延的结果输出。

然而在实际应用中，受到环境噪声和语音传播信道复杂性的影响，互相关函数可能出现多个虚假峰或者没有明显的主峰。优选地，为了增强互相关主峰，本实施例还可以在互相关函数确定单元403和回声时延确定单元404的基础上，选择互相关函数跟踪滤波单元406和/或回声时延跟踪滤波单元408，以使互相关函数以及回声时延能够结合跟踪滤波来提高所确定的当前帧的回声时延的精度。

互相关函数跟踪滤波单元406，用于对当前帧的互相关函数进行跟踪滤波。

具体地，互相关函数跟踪滤波单元406可以具体执行以下操作：利用第一系数对当前帧的互相关函数进行滤波；利用第二系数对前一帧跟踪滤波后的互相关函数进行跟踪；结合所述利用第一系数滤波的结果以及利用第二系数跟踪的结果，得到所述跟踪滤波后的互相关函数。

如果第一系数越大，则跟踪性能越好；如果第一系数越小，则滤波性能越好。

作为一种优选的实施方式，第一系数和第二系数可以互相约束，例如第一系数采用α，第二系数采用1-α。

优选地，为了有效滤除互相关函数的杂波，因此可以将第一系数的α值取得比较小，例如可以把α滤波系数取在0-0.2之间。或者，也可以根据实际使用时的需要进行设置。

由于环境噪声和声传播信道的影响，可能会使确定的回声时延产生误差，因此在根据经过跟踪滤波或者未经过跟踪滤波的互相关函数确定了回声时延后，可以利用回声时延跟踪滤波单元408对回声时延进行滤波和跟踪，从而去除回声时延中出现的误差，保证时延差能够稳定、准确、连续，以此保证AEC性能的长期稳定性。

在利用回声时延跟踪滤波单元408对回声时延进行跟踪滤波之前，需要对确定出的所述当前帧的回声时延进行误差分析，依据误差分析结果对所述当前帧的回声时延进行跟踪滤波，该功能是通过误差分析单元407来实现的。

具体地，误差分析单元407可以执行如下操作：

获取当前帧之前的一个或多个帧的回声时延并确定其均值和方差。

确定当前帧的回声时延与均值之差的绝对值。

如果所述绝对值小于等于误差阈值，则确定所述当前帧的回声时延的误差在误差范围以内；否则，确定所述当前帧的回声时延的误差超过误差范围。其中该误差阈值由所述方差确定。

回声时延跟踪滤波单元408，用于依据误差分析结果，对所述当前帧的回声时延进行跟踪滤波。

具体地，回声时延跟踪滤波单元408主要执行如下操作：利用第三系数对当前帧的回声时延进行滤波；利用第四系数对前一帧跟踪滤波后的回声时延进行跟踪；结合所述利用第三系数滤波的结果以及利用第四系数跟踪的结果，实现对所述当前帧的回声时延进行跟踪滤波。

如果当前帧的回声时延的误差在误差范围以内，则侧重跟踪性能的处理，以及如果当前帧的回声时延的误差超过误差范围，则侧重滤波去噪处理。具体地：

如果当前帧的回声时延的误差在误差范围以内，则通过增加第三系数的值以增加跟踪的权重。

如果当前帧的回声时延的误差超过误差范围，则通过减小第三系数的值以增加滤波的权重。

若经过能量检测，当前帧不存在回声，则交由维护单元405取前一帧的回声时延；或者，若当前帧不存在回声，则不做处理。

最后，可以将确定的当前帧的回声时延作为时延跟踪结果，或者将获得的前一帧的回声时延作为时延跟踪结果而发送到AEC，从而通过时延补偿使进入AEC的回声参考信号与声音输入信号严格对齐，提高AEC的性能。

下面给出一个测试，说明本发明的实际效果。

以android手机为例，使用本发明的跟踪回声时延的方法，通过android底层获取扬声器发出的回声参考信号u(k)，以及手机麦克风录取的声音输入信号d(k)，采用开源语音处理包speecx中的AEC模块进行回声消除测试。

若没有采用本发明进行时延跟踪，则存在时延抖动，回声消除效果如图5所示，其中上图表示回声参考信号u(k)，中图表示麦克风录音的声音输入信号d(k)，下图表示回声消除的输出结果e(k)，可以看出，回声消除效果很一般，尤其是下图中输出结果的后半段，回声明显没有被消除。

图6示出了本发明跟踪的回声参考信号u(k)与麦克风录音的声音输入信号d(k)之间的时延估计结果，以采样点表示，可以看出时延随时间变化出现明显抖动。

图7示出了根据本发明跟踪的回声时延进行时延补偿后的自动回声消除的效果图，如图7所示，在对时延进行补偿后，回声被消除的非常干净。

上述测试说明本发明对提升AEC的性能和稳定性具有重要作用。

由以上描述可以看出，本发明针对纯软件实现回声消除过程中，系统提供的回声参考信号与麦克风的声音输入信号之间存在不确定的时延抖动，提出了一种依据互相关函数的峰值确定回声时延的方法和装置，且通过将获得的回声时延与时延跟踪过滤相结合，动态的估计AEC过程中的回声时延抖动，为输入AEC模块的回声参考信号与声音输入信号实时精确对齐提供了依据，从而为确保回声消除性能的长期稳定性提供基础，使人在与机器的交互过程中具有良好的打断体验。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种跟踪回声时延的方法，其特征在于，所述方法包括：

获取回声参考信号和声音输入信号；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：在确定所述回声参考信号在当前帧的回声时延之前，依据回声参考信号的能量判断所述回声参考信号在当前帧是否存在回声，如果存在回声，则继续执行确定所述回声参考信号在当前帧的回声时延的步骤；否则，取前一帧的回声时延或者不做处理。

3.根据权利要求2所述的方法，其特征在于，所述依据回声参考信号的能量判断所述回声参考信号在当前帧是否存在回声具体包括：

其中所述预定信号长度的取值与预设的最大时延有关。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：将所述当前帧的互相关函数中的时域变量转换为频域变量，利用快速傅里叶变换确定所述互相关函数的峰值。

5.根据权利要求1或4所述的方法，其特征在于，所述方法还包括：对所述当前帧的互相关函数进行跟踪滤波，利用跟踪滤波后的互相关函数，确定所述回声参考信号在当前帧的回声时延。

6.根据权利要求5所述的方法，其特征在于，对所述当前帧的互相关函数进行跟踪滤波具体包括：

利用第一系数对当前帧的互相关函数进行滤波；

利用第二系数对前一帧跟踪滤波后的互相关函数进行跟踪；

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对确定出的所述当前帧的回声时延进行误差分析；

8.根据权利要求7所述的方法，其特征在于，依据误差分析结果，对所述当前帧的回声时延进行跟踪滤波具体包括：

利用第三系数对当前帧的回声时延进行滤波；

利用第四系数对前一帧跟踪滤波后的回声时延进行跟踪；

9.根据权利要求8所述的方法，其特征在于，依据误差分析结果，对所述当前帧的回声时延进行跟踪滤波还包括：

10.根据权利要求7至9任一项所述的方法，其特征在于，对确定出的所述当前帧的回声时延进行误差分析具体包括：

确定当前帧的回声时延与均值之差的绝对值；

否则，确定所述当前帧的回声时延的误差超过误差范围；

其中所述误差阈值由所述方差确定。

11.一种跟踪回声时延的装置，其特征在于，所述装置包括：

获取单元，用于获取回声参考信号和声音输入信号；

12.根据权利要求11所述的装置，其特征在于，所述装置还包括回声判断单元，所述回声判断单元用于在确定所述回声参考信号在当前帧的回声时延之前，依据回声参考信号的能量判断所述回声参考信号在当前帧是否存在回声；

否则，交由维护单元取前一帧的回声时延或者不做处理。

13.根据权利要求12所述的装置，其特征在于，所述回声判断单元具体执行如下操作：

其中所述预定信号长度的取值与预设的最大时延有关。

14.根据权利要求11所述的装置，其特征在于，所述装置还包括互相关函数确定单元，用于利用快速傅里叶变换将所述当前帧的互相关函数中的时域变量转换为频域变量，从而使回声时延确定单元利用快速傅里叶变换确定的互相关函数的峰值来确定所述回声参考信号在当前帧的回声时延。

15.根据权利要求11或14所述的装置，其特征在于，所述装置还包括互相关函数跟踪滤波单元，用于对所述当前帧的互相关函数进行跟踪滤波，以便所述回声时延确定单元利用跟踪滤波后的互相关函数，确定所述回声参考信号在当前帧的回声时延。

16.根据权利要求15所述的装置，其特征在于，所述互相关函数跟踪滤波单元具体执行如下操作：

利用第一系数对当前帧的互相关函数进行滤波；

利用第二系数对前一帧跟踪滤波后的互相关函数进行跟踪；

17.根据权利要求11所述的装置，其特征在于，所述装置还包括：

18.根据权利要求17所述的装置，其特征在于，所述回声时延跟踪滤波单元具体执行如下操作：

利用第三系数对当前帧的回声时延进行滤波；

利用第四系数对前一帧跟踪滤波后的回声时延进行跟踪；

19.根据权利要求18所述的装置，其特征在于，所述回声时延跟踪滤波单元还执行如下操作：

20.根据权利要求17至19任一项所述的装置，其特征在于，所述误差分析单元具体执行如下操作：

确定当前帧的回声时延与均值之差的绝对值；

否则，确定所述当前帧的回声时延的误差超过误差范围；

其中所述误差阈值由所述方差确定。