CN103905656B

CN103905656B - 残留回声的检测方法及装置

Info

Publication number: CN103905656B
Application number: CN201210580309.3A
Authority: CN
Inventors: 宋颖
Original assignee: Leadcore Technology Co Ltd
Current assignee: Shanghai Li Ke Semiconductor Technology Co Ltd
Priority date: 2012-12-27
Filing date: 2012-12-27
Publication date: 2016-12-28
Anticipated expiration: 2032-12-27
Also published as: CN103905656A

Abstract

本发明涉及语音通信领域，公开了一种残留回声的检测方法及装置。本发明中，根据语音频谱统计特性，在语音信噪比较高频段内，用几个频段的平均相干系数，替代现有的全频带平均相干系数，作为残留回声检测统计量。由于在语音能量较低的频段内，语音信噪比较低，相干系数受噪声的影响较大；而在语音能量较高的频段内，语音信噪比较高，相干系数受噪声的影响较小。因此，全频带的平均相干系数的抗干扰性要小于语音能量较高的频段，从而使得在实际应用中，这种选定频段的检测方法，具有较强抗干扰能力。同时由于无需计算全频带的平均相干系数，因此大大降低了检测方法的复杂度。

Description

残留回声的检测方法及装置

技术领域

本发明涉及语音通信领域，特别涉及残留回声的检测方法及装置。

背景技术

在语音通信系统中，远端输入信号到达本地信号接收设备后，经过本地信号接收设备的处理到达听筒，在此过程中经常会产生回声。现有技术中，通常采用声学回声消除器来消除回声，该声学回声消除器会涉及到自适应滤波器，双端检测和残留回声抑制，如图1所示。

通常，声学回声消除器应用自适应滤波器合成回声，根据误差信号自适应的调节滤波器系数，消除线性回声。自适应滤波后，y(n)中仍残留部分回声，这主要因为：

1)自适应滤波器在初始收敛、回声路径改变后重新收敛过程中，滤波器未达稳定状态时，所产生的回声。

2)即使在滤波器稳定状态，也会由于基于算法复杂度考虑，滤波器长度小于回声路径所产生的回声；以及为加快收敛速度牺牲跟踪准确性等因素所产生的回声。

3)自适应滤波器只能消除线性回声，但在实际通讯环境中，回声传输路径中，麦克风、喇叭、硬件放大器、A/D、D/A等器件的非线性失真，都会带来非线性回声。

由此可见，残留回声抑制是声学回声消除必不可少的一部分。残留回声抑制主要负责进一步消除回声，包括非线性回声及自适应滤波器未消除的线性回声。残留回声抑制的基础是残留回声的检测。只有准确的检测到当前帧是否包含残留回声，才可进行残留回声的抑制。

现有技术中，通常的残留回声检测方法通过比较检测量ξ和预先设置的门限T来确定是否存在残留回声，具体步骤如下：

1)利用一些已知信号产生检测统计量ξ，如远端输出信号，近端输入信号，自适应滤波后信号等。

2)检测统计量ξ同预设门限T进行比较，一旦有T<ξ，就判定存在残留回声。

3)一旦被判定当前帧为残留回声帧，将在Thold时间内，进行残留回声抑制。

4)Thold时间过后，若T≥ξ则，停止残留回声抑制，直至再次出现T<ξ。

目前，常见残留回声统计量包括以下三种计算方法：

1)应用自适应滤波器输入、输出的短时能量比作为残留回声检测量；

2)应用远端输出信号与近端自适应滤波后信号的相关系数作为残留回声检测量；

3)应用远端输出信号与近端自适应滤波后信号的全频带相干系数作为残留回声检测量。

方法1和方法2在近端背景噪声较小的情况下，可以准确检测到残留回声；随着近端背景噪声的增加，残留回声检测的准确性逐渐降低。方法3较前两种方法抗干扰能力有所增加，但运算复杂度较高。

发明内容

本发明的目的在于提供一种残留回声的检测方法及装置，使得对残留回声的检测具有较强抗干扰能力，也降低了复杂度。

为解决上述技术问题，本发明的实施方式提供了一种残留回声的检测方法，包含以下步骤：

A．对当前帧的远端语音信号及近端语音的自适应滤波后信号分别进行短时语音分析，得到所述远端语音信号的频域信号和所述近端语音的自适应滤波后信号的频域信号；

B．提取预设频段的频域信号；其中，所述预设频段根据语音频谱统计特性预先确定；

C．根据所述预设频段的频域信号，计算得到残留回声检测统计量；

D．比较所述残留回声检测统计量与预设限值，如果所述残留回声检测统计量大于所述门限值，则判定当前帧存在残留回声。

本发明的实施方式还提供了一种残留回声的检测装置，包含：短时语音分析模块、预设频段频域信号提取模块、检测统计量计算模块和残留回声确定模块；

所述短时语音分析模块用于对当前帧的远端语音信号及近端语音的自适应滤波后信号分别进行短时语音分析，得到所述远端语音信号的频域信号和所述近端语音的自适应滤波后信号的频域信号；

所述预设频段频域信号提取模块用于提取预设频段内频域信号；其中，所述预设频段根据语音频谱统计特性预先确定；

所述检测统计量计算模块用于根据所述预设频段的频域信号，计算得到残留回声检测统计量；

所述残留回声确定模块用于比较所述残留回声检测统计量与预设的门限值，并在所述残留回声检测统计量大于所述门限值时，判定当前帧存在残留回声。

本发明实施方式相对于现有技术而言，根据语音频谱统计特性，在语音信噪比较高频段内，用预设频段的平均相干系数，替代现有的全频带平均相干系数，作为残留回声检测统计量。根据统计2KHz以上语音能量较2KHZ以下语音能量下降6dB，而噪声在全频带的分布较语音更平坦。在语音能量较低的频段内，语音信噪比较低，相干系数受噪声的影响较大；而在语音能量较高的频段内，语音信噪比较高，相干系数受噪声的影响较小。因此，全频带的平均相干系数的抗干扰性要小于语音信号能量较高的频段，从而使得在实际应用中，这种选定频带的检测方法，具有较强抗干扰能力。同时由于无需计算全频带的平均相干系数，因此大大降低了检测方法的复杂度。

另外，在所述步骤C中，包含以下子步骤：

对所述预设频段的频率信号进行功率谱估计；

根据所述功率谱估计值，计算所述预设频段的平方相干系数；

对所述预设频段的平方相干系数进行算术平均，得到残留回声的检测统计值；

对所述残留回声的检测统计值进行短时估计，得到所述残留回声检测统计量。

通过计算几个预设频带的功率谱估计、平方相干系数、平均相干系数，无需计算全频段的平均相干系数，从而进一步降低了残留回声检测的复杂度。

另外，在根据语音频谱统计特性预先确定所述预设频段的过程中，根据2KHz以上语音能量较2KHz以下语音能量下降6dB，而噪声在全频带的分布较语音更平坦这一语音频谱统计特性，将2KHz以下语音频谱中出现第一共振峰的最小频段300Hz作为所述预设频段中的一个；在所述最小频段至2KHz范围内，选取I-1个频段作为所述预设频段；其中，所述I-1个频段均匀分布在所述最小频段至2KHz范围内；所述I为预先设定的值。通过这种预设频段的选取方式，可以进一步提高残留回声检测的抗干扰能力。

附图说明

图1是现有的声学回声消除器的结构框图；

图2是根据本发明第一实施方式的残留回声的检测方法的流程图；

图3是根据本发明第一实施方式的残留回声的检测方法的残留回声检测统计量的计算流程图；

图4是根据本发明第一实施方式的残留回声的检测方法和全带相干、相关方法在背景噪声较小情况下求得的残留回声检测统计量的对比图；

图5是根据本发明第一实施方式的残留回声的检测方法和全带相干、相关方法在背景噪声较大情况下求得的残留回声检测统计量的对比图；

图6是根据本发明第二实施方式的残留回声的检测装置的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请各权利要求所要求保护的技术方案。

本发明的第一实施方式涉及一种残留回声的检测方法，该方法的基本思路是根据语音频谱特性，用几个预设子带的平均相干系数，替代全带平均相干系数，作为残留回声检测统计量。具体流程如图2所示，包含以下步骤：

步骤201，对远端语音信号x(n)及近端语音的自适应滤波后信号y(n)分别进行短时语音分析，得到远端语音信号的频域信号和近端语音的自适应滤波后信号的频域信号。其中，短时语音分析包括预处理、分帧、加窗，并通过快速傅里叶变换将加窗之后的语音信号从时域转换到频域。

具体地说，对语音信号进行预处理，用以滤除工频干扰信号及其他低频干扰。依据语音信号的短时相关性，将预处理后语音信号，分割为一定时间长度（比如，16~20毫秒）的数据段，即分帧。为减小语音帧的截断效应，进行加窗处理，并进行重叠存储（比如，30%~50%的重叠存储），保证帧与帧之间的平滑过渡。例如：对于50%重叠存储、加汉宁（hanning）窗，具体计算如下：

x^{'} (n, t) = \{\begin{matrix} h (t) x (n - 1, t), 1 \leq t \leq M \\ h (t) x (n, t - M), M \leq t \leq 2 M \end{matrix}

其中，M为帧长度，h(t)为2M点hanning窗函数，x(n,t)为M输入语音信号，x'(n,t)为2M加窗、分帧语音信号。

时域信号x'(n,t)经傅里叶变换后得到频域信号X_n(k)，即

X_n(k)=FFT[x'_n(t)]，

其中，k为频带系数。

对远端语音信号x(n)及近端语音的自适应滤波后信号y(n)分别进行预处理、分帧、加窗、快速傅里叶变换后，得到频域信号X_n(k)和Y_n(k)。

步骤202，提取预设频段的频域信号。

根据语音频谱统计特性，2KHz以上语音能量较2KHz以下语音能量下降6dB，而噪声在全频带的分布较语音更平坦，因此，可以将在2KHz以下语音频谱中出现第一共振峰的最小频段300Hz作为预设频段中的一个；在最小频段至2KHz范围内，选取I-1个频段作为预设频段；其中，I-1个频段大致均匀分布在最小频段至2KHz范围内；I为预先设定的值。比如说，欲选择3个预设频段，在300Hz出现第一共振峰，那么，可以选择300Hz、1200Hz、1800Hz这3个频段作为预设频段。通过这种预设频段的选取方式，可以进一步提高残留回声检测的抗干扰能力。

步骤203，根据预设频段的频域信号，计算得到残留回声检测统计量。

基于相干算法的残留回声检测方法是基于正交性准则的，也就是说，近端语音的自适应滤波后信号y(n)中没有残留回声时，远端信号x(n)和y(n)的相干值接近0；y(n)中含有残留回声越多时，则x(n)和y(n)的相干值越接近1。因此，本实施方式可以采用如下步骤计算残留回声检测统计量，如图3所示。

步骤301，对预设频段的频率信号进行功率谱估计，也就是说，对步骤201进行短时语音分析处理后的频域数据进行功率谱估计。

步骤302，根据功率谱估计值，计算预设频段的平方相干系数，其具体计算式为：

γ_{xy}^{2} (k) = \frac{{| S_{xy} (k) |}^{2}}{S_{xx} (k) S_{yy} (k)}

S.(k)为FFT后频域信号交叉功率谱估计，k为频带系数。

对于本实施方式，交叉功率谱估计可通过加窗平均求得，具体定义如下：

S_{xx} (k) = \frac{1}{P} Σ_{p = 0}^{P - 1} {| X_{p} (k) |}^{2}

S_{yy} (k) = \frac{1}{P} Σ_{p = 0}^{P - 1} {| Y_{p} (k) |}^{2}

S_{xy} (k) = \frac{1}{P} Σ_{p = 0}^{P - 1} X_{p} (k) Y_{p}^{*} (k)

其中，P为每个预设频段中参与计算平方相干系数的频点个数。比如，对于8Khz采样语音信号，P可以取3；对于16Khz采样语音信号，P可以取5。

例如，对于8KHz采样率，提取300Hz、1200Hz、1800Hz三个预设频段进行功率谱估计，对于每个频段P可以选取3。若20ms帧长，50%重叠，320点FFT，300Hz、1200Hz、1800Hz分别对应应用系数为11、12、13所对应X_n(k)、Y_n(k)，计算300Hz频段交叉频率谱S_xx(300)、S_xy(300)、S_yy(300)，进而求得应用系数为47、48、49所对应X_n(k)、Y_n(k)，计算1200Hz频段交叉频率谱S_xx(1200)、S_xy(1200)、S_yy(1200)，进而求得应用系数为71、72、73所对应X_n(k)、Y_n(k)，计算1800Hz频段交叉频率谱S_xx(1800)、S_xy(1800)、S_yy(1800)，进而求得

步骤303，对预设频段的平方相干系数进行算术平均，得到残留回声的检测统计值。

在本实施方式中，仅选择步骤302所求得的特定频段的平均值作为残留回声的检测统计值，具体定义如下：

\overset{&OverBar;}{γ_{xy}^{2}} = \frac{1}{I} Σ_{i = 0}^{I - 1} γ_{xy}^{2} (k_{i})

其中，I为预设频带数。

步骤304，对残留回声的检测统计值进行短时估计，得到残留回声检测统计量。

为减少近端环境噪声对残留回声检测准确性的影响，对特定频段平均相干系数进行短时估计，作为残留回声检测统计量ξ，具体定义如下：

ξ (n) = α^{*} ξ (n - 1) + {(1 - α)}^{*} \overset{&OverBar;}{γ_{xy}^{2}},

其中，α为遗忘因子，0<α<1。

在计算得到残留回声检测统计量之后，通过比较残留回声检测统计量ξ和预先设置的门限值T来确定是否存在残留回声，如步骤204至206所示，与背景技术中现有技术类似，在此不再赘述。

图4和图5分别为在背景噪声较小及背景噪声较大两种情况下，应用本实施方式、全带相干、相关方法求得的残留回声检测统计量的对比图，图中，401和501分别是在背景噪声较小及背景噪声较大两种情况下近端语音信号的时域波形图，402和502分别是采用本实施方式计算得到的残留回声检测统计量曲线图，403和503分别是采用全带相干算法计算得到的残留回声检测统计量曲线图，404和504分别是采用相关方法计算得到的残留回声检测统计量曲线图。通过进一步相关系数计算，得到三种算法在两种环境下检测量曲线相关系数对比，如表1所示。由图4和图5可见，通过本实施方式的特定子带相干算法，得到的在背景噪声小及背景噪声大的两张检测量曲线，具有较高相似性。由表1可见，本实施方式具有较高抗干扰特性。特别是，在背景噪声大，信噪比低的情况下，本实施方式的检测效果优于全频带。

表1

	两种环境下检测量曲线相关系数
		本实施方式	0.9753
全带相干算法	0.3275
		相关算法	0.4928

与现有技术相比，本实施方式根据语音频谱统计特性，在语音信噪比较高频段内，用几个预设频段的平均相干系数，替代现有的全带平均相干系数，作为残留回声检测统计量。由于2KHz以上语音能量较2KHZ以下语音能量下降6dB，而噪声在全频带的分布较语音更平坦。在语音能量较低的频段内，语音信噪比较低，相干系数受噪声的影响较大；而在语音能量较高的频段内，语音信噪比较高，相干系数受噪声的影响较小。因此，全频带的平均相干系数的抗干扰性要小于语音信号能量较高的频段，从而使得在实际应用中，这种选定频带的检测方法，具有较强抗干扰能力。同时由于无需计算全频带的平均相干系数，因此大大降低了检测方法的复杂度。

本发明第二实施方式涉及一种残留回声的检测装置，如图6所示，包含：短时语音分析模块、预设频段频域信号提取模块、检测统计量计算模块和残留回声确定模块。

短时语音分析模块用于对当前帧的远端语音信号及近端语音的自适应滤波后信号分别进行短时语音分析，得到远端语音信号的频域信号和近端语音的自适应滤波后信号的频域信号。短时语音分析模块进一步包括：预处理子模块、分帧子模块、加窗子模块和傅里叶变换子模块，分别进行预处理、分帧、加窗，并通过快速傅里叶变换将加窗之后的语音信号从时域转换到频域。

预设频段频域信号提取模块用于提取预设频段的频域信号，该预设频段根据语音频谱统计特性预先确定。因此，本实施方式还包含预设频段选取模块，用于根据2KHz以上语音能量较2KHz以下语音能量下降6dB，而噪声在全频带的分布较语音更平坦这一语音频谱统计特性，将2KHz以下语音频谱中出现第一共振峰的最小频段300Hz作为预设频段中的一个；并在最小频段至2KHz范围内，选取I-1个频段作为预设频段；其中，I-1个频段均匀分布在最小频段至2KHz范围内；I为预先设定的值。

检测统计量计算模块用于根据预设频段的频域信号，计算得到残留回声检测统计量。

检测统计量计算模块进一步包含以下子模块：功率谱估计子模块、平方相干系数计算子模块、检测统计值计算子模块、短时估计子模块。

其中，功率谱估计子模块用于对预设频段的频率信号进行功率谱估计。平方相干系数计算子模块用于根据功率谱估计值，计算预设频段的平方相干系数；其具体计算式为：

γ_{xy}^{2} (k) = \frac{{| S_{xy} (k) |}^{2}}{S_{xx} (k) S_{yy} (k)};

其中，

S_{xx} (k) = \frac{1}{P} Σ_{p = 0}^{P - 1} {| X_{p} (k) |}^{2};

S_{yy} (k) = \frac{1}{P} Σ_{p = 0}^{P - 1} {| Y_{p} (k) |}^{2};

S_{xy} (k) = \frac{1}{P} Σ_{p = 0}^{P - 1} X_{p} (k) Y_{p}^{*} (k);

X_p(k)为远端语音信号的频域信号，Y_p(k)为近端语音的自适应滤波后信号的频域信号；k为频带系数，P为每个预设频段中参与计算平方相干系数的频点个数。

检测统计值计算子模块用于对预设频段的平方相干系数进行算术平均，得到残留回声的检测统计值；短时估计子模块用于对残留回声的检测统计值进行短时估计，得到残留回声检测统计量，其具体计算式为：

ξ (n) = α^{*} ξ (n - 1) + {(1 - α)}^{*} \overset{&OverBar;}{γ_{xy}^{2}}

其中，为残留回声的检测统计值；α为遗忘因子，0<α<1。

残留回声确定模块用于比较残留回声检测统计量与预设的门限值，并在残留回声检测统计量大于门限值时，判定当前帧存在残留回声。

不难发现，本实施方式为与第一实施方式相对应的系统实施例，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种残留回声的检测方法，其特征在于，包含以下步骤：

A.对当前帧的远端语音信号及近端语音的自适应滤波后信号分别进行短时语音分析，得到所述远端语音信号的频域信号和所述近端语音的自适应滤波后信号的频域信号；

B.提取预设频段的频域信号；其中，所述预设频段根据语音频谱统计特性预先确定；

C.根据所述预设频段的频域信号，计算得到残留回声检测统计量；

D.比较所述残留回声检测统计量与预设门限值，如果所述残留回声检测统计量大于所述门限值，则判定当前帧存在残留回声；

其中，在根据语音频谱统计特性预先确定所述预设频段的步骤中，包含以下子步骤：

根据2KHz以上语音能量较2KHz以下语音能量下降6dB，而噪声在全频带的分布较语音更平坦这一语音频谱统计特性，将2KHz以下语音频谱中出现第一共振峰的最小频段作为所述预设频段中的一个；

在所述最小频段至2KHz范围内，选取I-1个频段作为所述预设频段；其中，所述I-1个频段均匀分布在所述最小频段至2KHz范围内；所述I为预先设定的值。

2.根据权利要求1所述的残留回声的检测方法，其特征在于，在所述步骤C中，包含以下子步骤：

对所述预设频段的频域信号进行功率谱估计；

3.根据权利要求2所述的残留回声的检测方法，其特征在于，在根据所述功率谱估计值，计算所述预设频段的平方相干系数的步骤中，所述平方相干系数通过下式计算：

γ_{x y}^{2} (k) = \frac{| S_{x y} (k) |^{2}}{S_{x x} (k) S_{y y} (k)};

其中，

X_p(k)为所述远端语音信号的频域信号，Y_p(k)为所述近端语音的自适应滤波后信号的频域信号；k为频带系数，P为每个预设频段中参与计算平方相干系数的频点个数。

4.根据权利要求3所述的残留回声的检测方法，其特征在于，所述P为3或者5。

5.根据权利要求2所述的残留回声的检测方法，其特征在于，在对所述残留回声的检测统计值进行短时估计，得到所述残留回声检测统计量的步骤中，所述残留回声检测统计量ξ的计算式为

ξ (n) = α * ξ (n - 1) + (1 - α) * \overset{&OverBar;}{γ_{x y}^{2}}

其中，为残留回声的检测统计值；α为遗忘因子，0<α<1。

6.根据权利要求1所述的残留回声的检测方法，其特征在于，在所述步骤A中，所述短时语音分析包括：预处理、分帧、加窗，并通过快速傅里叶变换将加窗之后的语音信号从时域转换到频域。

7.一种残留回声的检测装置，其特征在于，包含：短时语音分析模块、预设频段频域信号提取模块、检测统计量计算模块和残留回声确定模块；

所述预设频段频域信号提取模块用于提取预设频段的频域信号；其中，所述预设频段根据语音频谱统计特性预先确定；

所述残留回声确定模块用于比较所述残留回声检测统计量与预设门限值，并在所述残留回声检测统计量大于所述门限值时，判定当前帧存在残留回声；

所述残留回声的检测装置还包含预设频段选取模块；

所述预设频段选取模块用于根据2KHz以上语音能量较2KHz以下语音能量下降6dB，而噪声在全频带的分布较语音更平坦这一语音频谱统计特性，将2KHz以下语音频谱中出现第一共振峰的最小频段作为所述预设频段中的一个；并在所述最小频段至2KHz范围内，选取I-1个频段作为所述预设频段；其中，所述I-1个频段均匀分布在所述最小频段至2KHz范围内；所述I为预先设定的值。

8.根据权利要求7所述的残留回声的检测装置，其特征在于，所述检测统计量计算模块包含以下子模块：功率谱估计子模块、平方相干系数计算子模块、检测统计值计算子模块、短时估计子模块；

所述功率谱估计子模块用于对所述预设频段的频率信号进行功率谱估计；

所述平方相干系数计算子模块用于根据所述功率谱估计值，计算所述预设频段的平方相干系数；

所述检测统计值计算子模块用于对所述预设频段的平方相干系数进行算术平均，得到残留回声的检测统计值；

所述短时估计子模块用于对所述残留回声的检测统计值进行短时估计，得到所述残留回声检测统计量。

9.根据权利要求8所述的残留回声的检测装置，其特征在于，所述平方相干系数计算子模块采用下式计算预设频段的平方相干系数

γ_{x y}^{2} (k) = \frac{| S_{x y} (k) |^{2}}{S_{x x} (k) S_{y y} (k)};

其中，

10.根据权利要求8所述的残留回声的检测装置，其特征在于，所述短时估计子模块采用下式计算得到所述残留回声检测统计量ξ；

ξ (n) = α * ξ (n - 1) + (1 - α) * \overset{&OverBar;}{γ_{x y}^{2}}

其中，为残留回声的检测统计值；α为遗忘因子，0<α<1。

11.根据权利要求7所述的残留回声的检测装置，其特征在于，所述短时语音分析模块包括：预处理子模块、分帧子模块、加窗子模块和傅里叶变换子模块，分别进行预处理、分帧、加窗，并通过快速傅里叶变换将加窗之后的语音信号从时域转换到频域。