CN105825864A

CN105825864A - 基于过零率指标的双端说话检测与回声消除方法

Info

Publication number: CN105825864A
Application number: CN201610335013.3A
Authority: CN
Inventors: 唐明
Original assignee: Nanjing Qiyinshi Information Technology Co Ltd
Current assignee: Shenzhen Yajin Smart Technology Co ltd
Priority date: 2016-05-19
Filing date: 2016-05-19
Publication date: 2016-08-03
Anticipated expiration: 2036-05-19
Also published as: CN105825864B

Abstract

本发明公开了一种基于过零率指标的双端说话检测与回声消除方法：步骤1、过零率计算及双端说话监测；对双端和单端两种场景分别采用不同的回声消除策略。步骤2、回声滤波器估计及回声消除；由于房间冲击响应，麦克风采集到的回声信号和远端信号存在差异，从麦克风信号中减除该回声分量。步骤3、目标语音谐波结构恢复。本模块采用谐波结构分析的方法对近端语音缺失的谐波成分进行补偿，以进一步抑制语音扭曲。本发明和传统的回声消除技术相比，通过过零率指标实现双端监测，避免目标语音被消除；基于频域最小均方误差准则，回声消除滤波器收敛迅速；采用频域并行处理框架，复杂度低；增加了语音扭曲抑制模块，降低了目标语音的扭曲程度。

Description

基于过零率指标的双端说话检测与回声消除方法

技术领域

本发明涉及语音信号处理领域，具体涉及一种基于过零率指标的双端说话检测与回声消除方法。

背景技术

有关回声消除：

所谓回声是指任一个同时内置有麦克风和扬声器的终端设备，麦克风在采集目标用户语音的同时也会接收到有扬声器发出的声音。对于语音通讯设备，如果不把回声消除掉会在通讯回路内多次迭代并形成啸叫，造成通讯无法使用。对于内置语音控制中枢的智能音箱等应用，如果从回声不被抑制，则会影响语音识别的准确性，降低了语音控制的智能化水平。

回声消除系统有三个重要的信号：近端信号(near-endsignal)，远端信号(far-endsignal)和回声。近端信号是指，在目标通讯端，由麦克风采集到的目标语音信号，是回声消除系统要保留的目标信号；远端信号是指在通讯系统的另一端，由用户发出，并通过网络信道传输至目标通讯端，通常用作回声消除的参考信号；回声是指远端信号由通讯端的扬声器发出，再次被麦克风采集到的信号，需要被消除。

语音通讯系统必须要求回声消除能够实时处理，如果不能做到实时处理，会造成数据包的拥塞。对于许多内置语音控制功能的终端设备，还需要在回声消除的同时，不会造成目标语音的扭曲。

有关双端说话检测：

双端说话(double-talk)是指通讯双端说话人同时在发出语音信号。相对应的，单端说话(single-talk)是指通讯端只有单方用户在讲话。在实际应用中，双端说话的持续时间远低于单端说话的持续时间。虽然双端说话的持续时间短，但是会对回声消除的滤波器收敛造成很大的干扰，因此双端说话检测非常的重要。

通用的回声消除系统中，检测到双端说话场景之后，停止回声消除的适应滤波器更新，或者滤波器更新步长调整到很小值，以避免目标语音被错误的抑制。如果双端说话场景没有被及时检测，则会造成目标语音在开始的一段时间内会被扭曲，影响通讯质量。在诸如Wifi音箱等应用中，目标语音的扭曲会造成后续语音识别的误差。因此，双端说话检测必须对迅速响应双端说话场景。

过零率是指在一段时间内，相邻两个样本分别为正负样本的次数，占所有样本数量的比值。双端说话场景和单端说话场景过零率有很大的不同，因此过零率是用以监测双端说话的有效指标。

双端说话及回声消除技术现状和不足：

目前，基于最小均方误差准则的自适应滤波技术是当前业界采用主流回声消除技术，在基于电话通讯等通讯终端中有了比较成熟的应用。双端说话检测主要依据判断回声消除后的能量残留或者互相关系数的方式实现，主要的技术不足包括：

1)长混响情况下存在很强的回声残留。在传统的电话通讯系统中，一方面麦克风与扬声器的距离比较短，混响比较小，采用自适应滤波技术可以很好的解决回声消除问题；另一方面扬声器的声音通常远低于用户的声音能量，即便存在回声残留也不至于被感知。然而，当前的许多应用中，麦克风与扬声器的距离比较远、混响大，采用传统算法回声残留更多。

2)基于能量残留或者互相关系数的双端说话检测需要人为设定一个阈值，通过对比每一帧与当前阈值来决定是否为双端说话场景。采用这种方式会有一定的延迟，即双端说话持续若干时间帧之后才能被监测到。另外一个缺陷在于，阈值的设定不能百分之百保证双端检测的准确性，通常会有误检时间帧的发生。

3)通讯系统除了回声之外还被系统白噪声所干扰，一个高质量的语音通讯系统需要对白噪声鲁棒。而传统算法对系统噪声比较敏感，容易被噪声所干扰。

发明内容

针对现有技术的不足，本发明公开了一种基于过零率指标的双端说话检测与回声消除方法。

本发明的技术方案如下：

一种基于过零率指标的双端说话检测与回声消除方法，包括以下步骤：

步骤1、过零率计算及双端说话监测；

将麦克风信号y(t)写入缓冲区，缓冲区长度为N；对缓冲区域中间内的样本点，计算过零率：

Z C R (n) = \frac{1}{2 M} Σ_{m = n - M + 1}^{n} | sgn (y (m)) - sgn (y (n)) | w (n - m), - - - (2)

式(2)中，M为汉明窗函数w(n)的长度；

计算当前缓冲区过零率的平均值：

\overset{&OverBar;}{Z} = \frac{1}{N - M} Σ_{n = M + 1}^{N} Z C R (n), - - - (4)

计算自适应阈值：

γ = \frac{1}{1 + \exp (- {\hat{Γ}}_{y r} / {\hat{Γ}}_{y y} {\hat{Γ}}_{r r})}, - - - (8)

式(8)中，表示经过平滑处理的麦克风信号与远端信号的互相关系数；分别表示经过平滑处理的麦克风信号与远端信号的自相关系数

双端说话判定基于过零率平均值与该自适应阈值的对比，判定准则如下：

如果则表明当前缓冲区存在近端信号，为双端说话场景；

如果则表明当前缓冲区不存在近端信号，为单端说话场景；

步骤2、回声滤波器估计及回声消除；

在每一个频带，对当前时间帧构建参考信号向量：

\overset{&RightArrow;}{R} (l, k) = {[R (l, k), R (l - 1, k), ..., R (l - L_{p} + 1, k)]}^{T}, - - - (11)

式(11)中，R(l,k)为远端信号r(t)的傅里叶变换，L_p为向量长度；

计算回声滤波器：

W (l, k) = Ψ_{R R}^{- 1} (l, k) Ψ_{R Y} (l, k), - - - (14)

式(14)中，Ψ_RR(l,k)为参考向量的自相关矩阵，Ψ_RY(l,k)为麦克风信号与参考信号向量的互相关矩阵；

在每一个麦克风上估计回声并消除回声，信号输出为：

Z (l, k) = Y (l, k) - W^{H} (l, k) \overset{&RightArrow;}{R} (l, k), - - - (15)

基于该步骤，回声的大部分能量得到了抑制；

基于所述步骤1中的双端说话监测结果，如果当前缓冲区为双端说话场景，需要对估计信号进行补偿，补偿步骤如下所示：

首先、计算语音扭曲控制因子：

v (l, k) = (1 - α) {\overset{&RightArrow;}{R}}^{H} (l, k) Ψ_{R R}^{- H} (l, k) \overset{&RightArrow;}{R} (l, k), - - - (16)

其次、更新目标语音估计如下所示：

\hat{Z} (l, k) = \frac{Z (l, k)}{v (l, k)}, - - - (17)

最后、更新互相关矩阵估计，如下所示：

Ψ_{R Y} (l, k) = Ψ_{R Y} (l, k) - (1 - α) \overset{&RightArrow;}{R} (l, k) {\hat{Z}}^{H} (l, k); - - - (18)

步骤3、目标语音谐波结构恢复；采用谐波结构分析的方法对近端语音缺失的谐波成分进行补偿；

构造梳状滤波函数，滤波器频域响应函数为：

\begin{matrix} H_{c o m b} (f) = 1 + β \exp (- j 2 {πfF}_{s} / F_{0}) \\ H_{s h i f t} (f) = 1 + β \exp (- j (2 {πfF}_{s} / F_{0} + π)) \end{matrix}, - - - (23)

其中，β为控制参数，F₀为听觉谱的互通道相关系数的最大值所应处的基频对应圆频率，F_s为采样频率；H_comb(f)用以抓取谐波结构上的语音能量，H_shift(f)用以抓取谐波结构之间的语音能量；

根据滤波后的信号计算梳状信号残留比：

C F R (f, m) = \frac{\underset{t}{Σ} z_{c o m b} {(t)}^{2}}{\underset{t}{Σ} z_{s h i f t} {(t)}^{2}}, - - - (24)

根据设定阈值判定当前时频单元是否缺失，并对缺失的时频单元能量进行补偿：

如果CFR(f,m)＜0.6，则当前时频单元谐波结构缺失，掩蔽值为1；

如果CFR(f,m)≥0.6，则当前视频单元谐波结构无缺失，掩蔽值为0；

根据掩蔽值，z(t)通过gammatone滤波器组，得到缺失的谐波结构信号最终的输出语音信号为：

\hat{z} (t) = z (t) + \tilde{z} (t) . - - - (25)

其进一步的技术方案为：

近端信号和远端信号分别表示为s(t)和r(t)；终端麦克风采集到的信号记为y(t)，可以表示为：

y(t)＝h(t)*r(t)+s(t)+u(t),i＝1,2,...,N，(1)

式(1)中，h(t)为扬声器到麦克风的房间冲击响应，x(t)＝h(t)*r(t)为回声信号，u(t)为系统白噪声和环境噪声，“*”为卷积运算符；

步骤10、麦克风信号y(t)写缓入冲区，缓冲区长度为N；

步骤11、构造长度为M的汉明窗函数w(n)；

步骤12、对缓冲区域内的样本点，计算过零率：

Z C R (n) = \frac{1}{2 M} Σ_{m = n - M + 1}^{n} | sgn (y (m)) - sgn (y (n)) | w (n - m), - - - (2)

式(2)中，函数sgn表示为：

sgn (y (n)) = {\begin{matrix} 1, & y (n) > 0 \\ - 1, & y (n) < 0 \end{matrix}, - - - (3)

步骤13、计算当前缓冲区过零率的平均值：

\overset{&OverBar;}{Z} = \frac{1}{N - M} Σ_{n = M + 1}^{N} Z C R (n); - - - (4)

步骤14、当前缓冲区内的麦克风信号的自相关系数和远端信号的自相关系数分别为：

Γ_{y y} = \frac{1}{N} Σ_{t = 1}^{N} y (t) y (t), Γ_{r r} = \frac{1}{N} Σ_{t = 1}^{N} r (t) r (t), - - - (5)

步骤15、计算当前缓冲区内麦克风信号与远端信号的互相关系数：

Γ_{y r} = \frac{1}{N} Σ_{t = 1}^{N} y (t) r (t), - - - (6)

步骤16、对所述自相关系数与互相关系数进行平滑：

\begin{matrix} {\hat{Γ}}_{y y} = α {\hat{Γ}}_{p r e, y y} + (1 - α) Γ_{y y}, {\hat{Γ}}_{r r} = α {\hat{Γ}}_{p r e, r r} + (1 - α) Γ_{r r} \\ {\hat{Γ}}_{y r} = α {\hat{Γ}}_{p r e, y r} + (1 - α) Γ_{y r} \end{matrix}, - - - (7)

式(7)中，α为为平滑因子，带有‘pre’角标的符号均代表上一缓冲区的相关数值，初始缓冲区统一设置为零；

步骤17、计算自适应阈值：

γ = \frac{1}{1 + \exp (- {\hat{Γ}}_{y r} / {\hat{Γ}}_{y y} {\hat{Γ}}_{r r})}, - - - (8)

步骤18、双端说话判定基于过零率平均值与该自适应阈值的对比，判定准则如下：

如果则表明当前缓冲区存在近端信号，为双端说话场景；

如果则表明当前缓冲区不存在近端信号，为单端说话场景；

步骤19、更新自相关及互相关系数，并进入下一缓冲区计算；系数更新如下所示：

{\hat{Γ}}_{p r e, y y} = {\hat{Γ}}_{y y}, {\hat{Γ}}_{p r e, r r} = {\hat{Γ}}_{r r}, {\hat{Γ}}_{p r e, y r} = {\hat{Γ}}_{y r} . - - - (9)

其进一步的技术方案为，所属步骤2具体包括：

步骤20、分别计算当前缓冲区麦克风信号与远端信号的傅里叶变换：

\begin{matrix} R (l, k) = \underset{t}{Σ} w (t) r (t) \exp (- j \frac{2 π t}{T} k) \\ Y (l, k) = \underset{t}{Σ} w (t) y (t) \exp (- j \frac{2 π t}{T} k) \end{matrix}, - - - (10)

式(10)中，l和k分别代表时间帧和频带；

步骤21、在每一个频带，对当前时间帧构建参考信号向量：

\overset{&RightArrow;}{R} (l, k) = {[R (l, k), R (l - 1, k), ..., R (l - L_{p} + 1, k)]}^{T}, - - - (11)

式(11)中，L_p为向量长度；

步骤22、计算该参考向量的自相关矩阵：

Ψ_{R R} (l, k) = {αΨ}_{R R} (l, k) + (1 - α) \overset{&RightArrow;}{R} (l, k) {\overset{&RightArrow;}{R}}^{H} (l, k), - - - (12)

式(12)中，H为共轭算子，α为平滑参数；

步骤23、计算麦克风信号与参考信号向量的互相关矩阵：

Ψ_{R Y} (l, k) = {αΨ}_{R Y} (l, k) + (1 - α) \overset{&RightArrow;}{R} (l, k) Y^{H} (l, k), - - - (13)

步骤24、计算回声滤波器：

W (l, k) = Ψ_{R R}^{- 1} (l, k) Ψ_{R Y} (l, k), - - - (14)

步骤25、在每一个麦克风上估计回声并消除回声，信号输出为：

Z (l, k) = Y (l, k) - W^{H} (l, k) \overset{&RightArrow;}{R} (l, k), - - - (15)

步骤26、基于步骤1中的双端说话监测结果，如果当前缓冲区为双端说话场景，需要对估计信号进行补偿，补偿步骤如下所示：

步骤26a、计算语音扭曲控制因子：

v (l, k) = (1 - α) {\overset{&RightArrow;}{R}}^{H} (l, k) Ψ_{R R}^{- H} (l, k) \overset{&RightArrow;}{R} (l, k), - - - (16)

步骤26b、更新目标语音估计如下所示：

\hat{Z} (l, k) = \frac{Z (l, k)}{v (l, k)}, - - - (17)

步骤26c、更新互相关矩阵估计，如下所示：

Ψ_{R Y} (l, k) = Ψ_{R Y} (l, k) - (1 - α) \overset{&RightArrow;}{R} (l, k) {\hat{Z}}^{H} (l, k), - - - (18)

步骤27、对各个频带处理之后，进行短时傅里叶逆变换，得到回声抑制后的时域信号：

z (t) = \underset{k}{Σ} w (k) Y (l, k) \exp (j \frac{2 π t}{T} k), - - - (19)

经过步骤2，回声能量受到抑制。

其进一步的技术方案为，所属步骤3具体包括：

步骤31、对步骤2输出的时域信号z(t)，估计听觉谱；听觉谱由64路gammatone变换所得到，该变换的冲击响应函数为：

g (f, t) = \{\begin{matrix} t^{l - 1} \exp (- 2 π b t) c o s (2 π t), & \begin{matrix} i f & t > 0 \end{matrix} \\ 0, & e l s e \end{matrix}, - - - (20)

式(20)中，l为滤波器阶数，等效矩形带宽为b＝1.019×24.7×(0.0043f+1)；

步骤32、根据听觉滤波器输出，计算第f通道、第m时间帧自相关谱：

A (f, m, τ) = \frac{1}{N} \underset{i = 1 : N}{Σ} h (f, i) h (f, i + τ), - - - (21)

步骤33、计算互通道相关系数：

C (f, m) = \frac{1}{L} \underset{τ = 0 : L - 1}{Σ} A (f, m, τ) A (f + 1, m, τ), - - - (22)

其中，互通道相关系数的最大值对应处为基频对应圆频率F₀；

步骤34、构造梳状滤波函数，此滤波器频域响应函数为：

\begin{matrix} H_{c o m b} (f) = 1 + β \exp (- j 2 {πfF}_{s} / F_{0}) \\ H_{s h i f t} (f) = 1 + β \exp (- j (2 {πfF}_{s} / F_{0} + π)) \end{matrix}, - - - (23)

式(23)中，β为控制参数，F_s为采样频率，H_comb(f)用以抓取谐波结构上的语音能量，H_shift(f)用以抓取谐波结构之间的语音能量；

步骤35、根据滤波后的信号计算梳状信号残留比：

C F R (f, m) = \frac{\underset{t}{Σ} z_{c o m b} {(t)}^{2}}{\underset{t}{Σ} z_{s h i f t} {(t)}^{2}}, - - - (24)

步骤36、根据设定阈值判定当前时频单元是否缺失，并对缺失的时频单元能量进行补偿：

如果CFR(f,m)＜0.6，则当前时频单元谐波结构缺失，掩蔽值为1，对当前时频单元进行补偿；

如果CFR(f,m)≥0.6，则当前视频单元谐波结构没有缺失，掩蔽值为0，不补偿谐波结构；

步骤37、根据掩蔽值，z(t)再次通过gammatone滤波器组，得到缺失的谐波结构信号

步骤38、谐波结构恢复后，最终的输出语音信号为：

\hat{z} (t) = z (t) + \tilde{z} (t) . - - - (25)

本发明的有益技术效果是：

本发明公开了基于过零率指标的双端说话检测与回声消除方法。回声抑制是语音通讯、会议系统、智能语音控制领域最基本的问题之一，随着计算机网络、嵌入式系统相关领域的技术进展，应用场景变得更为复杂，回声抑制的难度也随之增大。本发明针对当前复杂的应用场景，设计了一种可以快速实现双端说话监测、强混响情况下的回声消除技术，复杂度低，对系统白噪声有着很强的适应性和鲁棒性，可以做到实时处理，有着巨大的商业应用潜力。

本发明和传统的回声消除技术相比，通过过零率指标实现双端监测，避免目标语音被消除；基于频域最小均方误差准则，回声消除滤波器收敛迅速；采用频域并行处理框架，复杂度低；增加了语音扭曲抑制模块，降低了目标语音的扭曲程度。相比于现有回声抑制技术，本项发明的优势包括：

1.采用频域滤波器，可以适应于长混响情况下，回声残留能量低，语音扭曲小。

2.采用过零率指标，双端监测更加迅速和完整，避免了语音扭曲的出现。

3.增加了语音扭曲抑制模块，可以处理多说话人同时说话的应用场景，语音纯净度更高。

另外，本发明还有很强的实用性，适用于各种场景如下：

本发明的一个重要应用是车载语音控制中枢，用以抑制行车过程中播放音乐的回声信号。双端检测可以保证用户发出语音指令的第一时间做出响应，提高语音控制的准确度。车载语音控制这项应用是近几年来的新兴产业，潜力巨大。

本发明的另外一个重要应用面向企业的高质量视频会议系统。此类视频会议系统价格昂贵，利润率高，市场需求迫切，有着很大的应用前景。

智能硬件是这两年来发展比较迅速的新兴行业，许多集成语音控制功能的智能终端走进人民的生活，比如陪伴型机器人、Wifi音箱等，由于这些智能设备也集成了扬声器以支持语音播放、音乐播放等功能，因此也迫切需要本项技术。如果该扬声器产生的回声信号得不到抑制，后续的语音识别会受到抑制而无法实现智能控制的目的。

附图说明

图1是过零率计算及双端说话监测步骤的流程图。

图2是汉明窗函数的示意图。

图3是回声滤波器估计及回声消除处理流程图。

图4是目标语音谐波结构恢复处理流程图。

图5是64通道gammatone变换频域响应函数示意图。

图6是梳状滤波器频域响应示意图。

具体实施方式

本发明主要包括三个核心步骤：(1)过零率计算及双端说话监测；(2)回声滤波器估计及回声消除；(3)目标语音谐波结构恢复。本发明的处理流程详细介绍如下：

步骤1、过零率计算及双端说话监测。

假定近端信号和远端信号分别表示为s(t)和r(t)。通讯或其他应用终端麦克风采集到的信号记为y(t)，可以表示为：

y(t)＝h(t)*r(t)+s(t)+u(t),i＝1,2,...,N，(1)

式(1)中，h(t)代表扬声器到麦克风的房间冲击响应，x(t)＝h(t)*r(t)代表回声信号，u(t)代表系统白噪声和环境噪声，“*”代表卷积运算。本项发明的第一个重要任务是计算在一段时间内的信号过零率，并监测出是否为双端说话场景，即s(t)是否非零值。

图1是过零率计算及双端说话监测步骤的流程图。如图1所示，步骤1的具体的计算流程如下：

步骤10、麦克风信号y(t)写缓冲区，缓冲区大小为1024B，其中远端信号信号r(t)的缓冲区大小也为1024B。

步骤11、构造长度为M＝256的汉明窗函数w(n)，图2是汉明窗函数的示意图。

步骤12、对缓冲区域中间内的样本点，计算过零率：

Z C R (n) = \frac{1}{2 M} Σ_{m = n - M + 1}^{n} | sgn (y (m)) - sgn (y (m)) | w (n - m), - - - (2)

式(2)中，函数sgn表示为：

sgn (y (n)) = {\begin{matrix} 1, & y (n) > 0 \\ - 1, & y (n) < 0 \end{matrix}, - - - (3)

步骤13、计算当前缓冲区过零率的平均值：

\overset{&OverBar;}{Z} = \frac{1}{N - M} Σ_{n = M + 1}^{N} Z C R (n), - - - (4)

式(4)中N＝1024代表缓冲区的长度。

Γ_{y y} = \frac{1}{N} Σ_{t = 1}^{N} y (t) y (t), Γ_{r r} = \frac{1}{N} Σ_{t = 1}^{N} r (t) r (t), - - - (5)

Γ_{y r} = \frac{1}{N} Σ_{t = 1}^{N} y (t) r (t), - - - (6)

步骤16、对自相关系数与互相关系数进行平滑：

\begin{matrix} {\hat{Γ}}_{y y} = α {\hat{Γ}}_{p r e, y y} + (1 - α) Γ_{y y}, {\hat{Γ}}_{r r} = α {\hat{Γ}}_{p r e, r r} + (1 - α) Γ_{r r} \\ {\hat{Γ}}_{y r} = α {\hat{Γ}}_{p r e, y r} + (1 - α) Γ_{y r} \end{matrix}, - - - (7)

式(7)中，α＝0.995为平滑因子，带有‘pre’角标的符号均代表上一缓冲区的相对应的值，初始缓冲区统一设置为零。

步骤17、计算自适应阈值：

γ = \frac{1}{1 + \exp (- {\hat{Γ}}_{y r} / {\hat{Γ}}_{y y} {\hat{Γ}}_{r r})}, - - - (8)

和传统基于能量残留的双端监测相比，该阈值由系统自适应计算，避免了主观设定造成的双端误检。

如果则表明当前缓冲区存在近端信号，为双端说话场景；

如果则表明当前缓冲区不存在近端信号，为单端说话场景。

步骤19、更新自相关及互相关系数，并进入下一缓冲区计算，系数更新如下所示：

{\hat{Γ}}_{p r e, y y} = {\hat{Γ}}_{y y}, {\hat{Γ}}_{p r e, r r} = {\hat{Γ}}_{r r}, {\hat{Γ}}_{p r e, y r} = {\hat{Γ}}_{y r}, - - - (9)

步骤1可以迅速的监测出是否为双端说话场景，并对双端和单端两种场景分别采用不同的回声消除策略，可以最大的程度的消除回声而不造成近端语音扭曲。

步骤2、回声滤波器估计及回声消除。

如上文所述，麦克风采集到的回声信号和远端信号存在差异，这个差异是由房间冲击响应所造成。回声滤波器估计的目的即为估计出房间冲击响应，并从麦克风信号中减除该回声分量。根据步骤1得到的双端监测结果采用不同的估计策略。图3是回声滤波器估计及回声消除处理流程图，如图3所示，滤波器估计及回声消除流程如下所示：

\begin{matrix} R (l, k) = \underset{t}{Σ} w (t) r (t) \exp (- j \frac{2 π t}{T} k) \\ Y (l, k) = \underset{t}{Σ} w (t) y (t) \exp (- j \frac{2 π t}{T} k) \end{matrix}, - - - (10)

式(10)中，l和k分别代表时间帧和频带。

步骤21、在每一个频带，对当前时间帧构建参考信号向量：

\overset{&RightArrow;}{R} (l, k) = {[R (l, k), R (l - 1, k), ..., R (l - L_{p} + 1, k)]}^{T}, - - - (11)

式(11)中，L_p＝4为向量长度。

步骤22、计算该参考向量的自相关矩阵：

Ψ_{R R} (l, k) = {αΨ}_{R R} (l, k) + (1 - α) \overset{&RightArrow;}{R} (l, k) {\overset{&RightArrow;}{R}}^{H} (l, k), - - - (12)

式(12)中，H代表共轭算子，平滑参数α＝0.995。

步骤23、计算麦克风信号与参考信号向量的互相关矩阵：

Ψ_{R Y} (l, k) = {αΨ}_{R Y} (l, k) + (1 - α) \overset{&RightArrow;}{R} (l, k) Y^{H} (l, k), - - - (13)

步骤24、计算回声滤波器：

W (l, k) = Ψ_{R R}^{- 1} (l, k) Ψ_{R Y} (l, k), - - - (14)

该滤波器基于最小均方误差准则估计得出，该滤波器输出可以使得无目标语音时间帧回声残留在均方误差评价指标下最小。该滤波器即为回声滤波器估计。

Z (l, k) = Y (l, k) - W^{H} (l, k) \overset{&RightArrow;}{R} (l, k), - - - (15)

基于该步骤回声的大部分能量得到了抑制。

步骤26、基于步骤1的双端说话监测结果，如果当前缓冲区为双端说话场景，需要对估计信号进行补偿，补偿步骤如下所示：

步骤26a、计算语音扭曲控制因子：

v (l, k) = (1 - α) {\overset{&RightArrow;}{R}}^{H} (l, k) Ψ_{R R}^{- H} (l, k) \overset{&RightArrow;}{R} (l, k), - - - (16)

步骤26b、更新目标语音估计如下所示：

\hat{Z} (l, k) = \frac{Z (l, k)}{v (l, k)}, - - - (17)

步骤26c、更新互相关矩阵估计，如下所示：

Ψ_{R Y} (l, k) = Ψ_{R Y} (l, k) - (1 - α) \overset{&RightArrow;}{R} (l, k) {\hat{Z}}^{H} (l, k), - - - (18)

z (t) = \underset{k}{Σ} w (k) Y (l, k) \exp (j \frac{2 π t}{T} k), - - - (19)

经过步骤2的处理流程，回声能量受到了抑制。

上述步骤完成，虽然通过语音扭曲控制因子，对近端语音的扭曲程度进行了控制，依然存在一定的语音扭曲，还需要进一步抑制以提高语音通讯质量。

步骤3、目标语音谐波结构恢复。

由于回声消除是在各个频带分别进行处理，在某些时频单元上近端语音可能会缺失。由于语音信号能量大部分分布在基频及其倍频上，本模块采用谐波结构分析的方法对缺失的谐波成分进行补偿，以进一步抑制语音扭曲。图4是目标语音谐波结构恢复处理流程图，如图4所示，步骤3的具体流程如下所示：

步骤31、对上一模块输出的时域信号z(t)，估计听觉谱。听觉谱由64路gammatone变换所得到，该变换的冲击响应函数为：

g (f, t) = \{\begin{matrix} t^{l - 1} \exp (- 2 π b t) c o s (2 π t), & \begin{matrix} i f & t > 0 \end{matrix} \\ 0, & e l s e \end{matrix}, - - - (20)

式(20)中，滤波器阶数l＝4，等效矩形带宽为b＝1.019×24.7×(0.0043f+1)。本项发明采用64路滤波器组。图5是64通道gammatone变换频域响应函数示意图。

步骤32、根据听觉滤波器输出，计算第f通道、第m时间的帧自相关谱：

A (f, m, τ) = \frac{1}{N} \underset{i = 1 : N}{Σ} h (f, i) h (f, i + τ), - - - (21)

步骤33、计算互通道相关系数：

C (f, m) = \frac{1}{L} \underset{τ = 0 : L - 1}{Σ} A (f, m, τ) A (f + 1, m, τ), - - - (22)

其中，互通道相关系数的最大值对应处为基频对应圆频率F₀，由于语音浊音基频通常分布在[50,800]Hz之间，如果超出这个区间，则定义为无谐波结构，L＝128为最大计算长度。假设当前帧互通道系数最大值处为f_l,根据频率换算，其基频为：

F_{l} = \frac{f_{s}}{2 (f_{l} - 1)} .

如果F_l属于[50,800]Hz之间，则定义该时频单元存在谐波结构，否则判定为不存在谐波结构。

步骤34、构造梳状滤波函数，滤波器频域响应函数为：

\begin{matrix} H_{c o m b} (f) = 1 + β \exp (- j 2 {πfF}_{s} / F_{0}) \\ H_{s h i f t} (f) = 1 + β \exp (- j (2 {πfF}_{s} / F_{0} + π)) \end{matrix}, - - - (23)

其中，β为控制参数，本项发明采用参数β＝0.8，F_s为采样频率。H_comb(f)用以抓取谐波结构上的语音能量，H_shift(f)用以抓取谐波结构之间的语音能量。图6是梳状滤波器频域响应示意图。图6所示的为基频为400Hz对应的滤波器频域响应函数。

步骤35、根据滤波后的信号计算梳状信号残留比：

C F R (f, m) = \frac{\underset{t}{Σ} z_{c o m b} {(t)}^{2}}{\underset{t}{Σ} z_{s h i f t} {(t)}^{2}}, - - - (24)

CFR特征是反应谐波结构是否缺失的最重要特征。

如果CFR(f,m)＜0.6，则说明当前时频单元谐波结构是缺失的，采用全1掩蔽的方式对当前时频单元进行补偿。

如果CFR(f,m)≥0.6，则说明当前视频单元谐波结构没有缺失，则不用补偿谐波结构，掩蔽值为0。

步骤38、谐波结构恢复后，最终的输出语音信号为：

\hat{z} (t) = z (t) + \tilde{z} (t), - - - (25)

步骤3主要利用基于gammatone变换的谐波结构分析的方式，对信号时频单元缺失的谐波成分进行判定和恢复。经过步骤3的处理，输出信号的谐波结构更为完整，语音感知质量更高。

以上所述的仅是本发明的优选实施方式，本发明不限于以上实施例。可以理解，本领域技术人员在不脱离本发明的精神和构思的前提下直接导出或联想到的其他改进和变化，均应认为包含在本发明的保护范围之内。

Claims

1.一种基于过零率指标的双端说话检测与回声消除方法，其特征在于，包括以下步骤：

步骤1、过零率计算及双端说话监测；

Z C R (n) = \frac{1}{2 M} Σ_{m = n - M + 1}^{n} | sgn (y (m)) - sgn (y (n)) | w (n - m), - - - (2)

式(2)中，M为汉明窗函数w(n)的长度；

计算当前缓冲区过零率的平均值：

\overset{&OverBar;}{Z} = \frac{1}{N - M} Σ_{n = M + 1}^{N} Z C R (n), - - - (4)

计算自适应阈值：

γ = \frac{1}{1 + \exp (- {\hat{Γ}}_{y r} / {\hat{Γ}}_{y y} {\hat{Γ}}_{r r})}, - - - (8)

如果则表明当前缓冲区存在近端信号，为双端说话场景；

如果则表明当前缓冲区不存在近端信号，为单端说话场景；

步骤2、回声滤波器估计及回声消除；

在每一个频带，对当前时间帧构建参考信号向量：

\overset{&RightArrow;}{R} (l, k) = {[R (l, k), R (l - 1, k), ..., R (l - L_{p} + 1, k)]}^{T}, - - - (11)

计算回声滤波器：

W (l, k) = Ψ_{R R}^{- 1} (l, k) Ψ_{R Y} (l, k), - - - (14)

在每一个麦克风上估计回声并消除回声，信号输出为：

Z (l, k) = Y (l, k) - W^{H} (l, k) \overset{&RightArrow;}{R} (l, k), - - - (15)

基于该步骤，回声的大部分能量得到了抑制；

首先、计算语音扭曲控制因子：

ν (l, k) = (1 - α) {\overset{&RightArrow;}{R}}^{H} (l, k) Ψ_{R R}^{- H} (l, k) \overset{&RightArrow;}{R} (l, k), - - - (16)

其次、更新目标语音估计如下所示：

\hat{Z} (l, k) = \frac{Z (l, k)}{ν (l, k)}, - - - (17)

最后、更新互相关矩阵估计，如下所示：

Ψ_{R Y} (l, k) = Ψ_{R Y} (l, k) - (1 - α) \overset{&RightArrow;}{R} (l, k) {\hat{Z}}^{H} (l, k); - - - (18)

构造梳状滤波函数，滤波器频域响应函数为：

\begin{matrix} H_{c o m b} (f) = 1 + β \exp (- j 2 {πfF}_{s} / F_{0}) \\ H_{s h i f t} (f) = 1 + β \exp (- j (2 {πfF}_{s} / F_{0} + π)) \end{matrix}, - - - (23)

根据滤波后的信号计算梳状信号残留比：

C F R (f, m) = \frac{\underset{t}{Σ} z_{c o m b} {(t)}^{2}}{\underset{t}{Σ} z_{s h i f t} {(t)}^{2}}, - - - (24)

\hat{z} (t) = z (t) + \tilde{z} (t) . - - - (25)

2.如权利要求1所述的过零率指标的双端说话检测与回声消除方法，其特征在于，所属步骤1具体包括：

y(t)＝h(t)*r(t)+s(t)+u(t),i＝1,2,...,N，(1)

步骤10、麦克风信号y(t)写缓入冲区，缓冲区长度为N；

步骤11、构造长度为M的汉明窗函数w(n)；

步骤12、对缓冲区域内的样本点，计算过零率：

Z C R (n) = \frac{1}{2 M} Σ_{m = n - M + 1}^{n} | sgn (y (m)) - sgn (y (n)) | w (n - m), - - - (2)

式(2)中，函数sgn表示为：

sgn (y (n)) = \{\begin{matrix} 1, & y (n) > 0 \\ - 1, & y (n) < 0 \end{matrix}, - - - (3)

步骤13、计算当前缓冲区过零率的平均值：

\overset{&OverBar;}{Z} = \frac{1}{N - M} Σ_{n = M + 1}^{N} Z C R (n); - - - (4)

Γ_{y y} = \frac{1}{N} Σ_{t = 1}^{N} y (t) y (t), Γ_{r r} = \frac{1}{N} Σ_{t = 1}^{N} r (t) r (t), - - - (5)

Γ_{y r} = \frac{1}{N} Σ_{t = 1}^{N} y (t) r (t), - - - (6)

步骤16、对所述自相关系数与互相关系数进行平滑：

\begin{matrix} {\hat{Γ}}_{y y} = α {\hat{Γ}}_{p r e, y y} + (1 - α) Γ_{y y}, {\hat{Γ}}_{r r} = α {\hat{Γ}}_{p r e, r r} + (1 - α) Γ_{r r} \\ {\hat{Γ}}_{y r} = α {\hat{Γ}}_{p r e, y r} + (1 - α) Γ_{y r} \end{matrix}, - - - (7)

步骤17、计算自适应阈值：

γ = \frac{1}{1 + \exp (- {\hat{Γ}}_{y r} / {\hat{Γ}}_{y y} {\hat{Γ}}_{r r})}, - - - (8)

如果则表明当前缓冲区存在近端信号，为双端说话场景；

如果则表明当前缓冲区不存在近端信号，为单端说话场景；

{\hat{Γ}}_{p r e, y y} = {\hat{Γ}}_{y y}, {\hat{Γ}}_{p r e, r r} = {\hat{Γ}}_{r r}, {\hat{Γ}}_{p r e, y r} = {\hat{Γ}}_{y r} . - - - (9)

3.如权利要求1所述的过零率指标的双端说话检测与回声消除方法，其特征在于，所属步骤2具体包括：

\begin{matrix} R (l, k) = \underset{t}{Σ} w (t) r (t) \exp (- j \frac{2 π t}{T} k) \\ Y (l, k) = \underset{t}{Σ} w (t) y (t) \exp (- j \frac{2 π t}{T} k) \end{matrix}, - - - (10)

式(10)中，l和k分别代表时间帧和频带；

步骤21、在每一个频带，对当前时间帧构建参考信号向量：

\overset{&RightArrow;}{R} (l, k) = {[R (l, k), R (l - 1, k), ..., R (l - L_{p} + 1, k)]}^{T}, - - - (11)

式(11)中，L_p为向量长度；

步骤22、计算该参考向量的自相关矩阵：

Ψ_{R R} (l, k) = {αΨ}_{R R} (l, k) + (1 - α) \overset{&RightArrow;}{R} (l, k) {\overset{&RightArrow;}{R}}^{H} (l, k), - - - (12)

式(12)中，H为共轭算子，α为平滑参数；

步骤23、计算麦克风信号与参考信号向量的互相关矩阵：

Ψ_{R Y} (l, k) = {αΨ}_{R Y} (l, k) + (1 - α) \overset{&RightArrow;}{R} (l, k) Y^{H} (l, k), - - - (13)

步骤24、计算回声滤波器：

W (l, k) = Ψ_{R R}^{- 1} (l, k) Ψ_{R Y} (l, k), - - - (14)

Z (l, k) = Y (l, k) - W^{H} (l, k) \overset{&RightArrow;}{R} (l, k), - - - (15)

步骤26a、计算语音扭曲控制因子：

ν (l, k) = (1 - α) {\overset{&RightArrow;}{R}}^{H} (l, k) Ψ_{R R}^{- H} (l, k) \overset{&RightArrow;}{R} (l, k), - - - (16)

步骤26b、更新目标语音估计如下所示：

\hat{Z} (l, k) = \frac{Z (l, k)}{ν (l, k)}, - - - (17)

步骤26c、更新互相关矩阵估计，如下所示：

Ψ_{R Y} (l, k) = Ψ_{R Y} (l, k) - (1 - α) \overset{&RightArrow;}{R} (l, k) {\hat{Z}}^{H} (l, k), - - - (18)

z (t) = \underset{k}{Σ} w (k) Y (l, k) \exp (j \frac{2 π t}{T} k), - - - (19)

经过步骤2，回声能量受到抑制。

4.如权利要求1所述的过零率指标的双端说话检测与回声消除方法，其特征在于，所属步骤3具体包括：

g (f, t) = \{\begin{matrix} t^{l - 1} \exp (- 2 π b t) c o s (2 π t), & i f t > 0 \\ 0, & e l s e \end{matrix}, - - - (20)

A (f, m, τ) = \frac{1}{N} \underset{i = 1 : N}{Σ} h (f, i) h (f, i + τ), - - - (21)

步骤33、计算互通道相关系数：

C (f, m) = \frac{1}{L} \underset{τ = 0 : L - 1}{Σ} A (f, m, τ) A (f + 1, m, τ), - - - (22)

步骤34、构造梳状滤波函数，此滤波器频域响应函数为：

\begin{matrix} H_{c o m b} (f) = 1 + β \exp (- j 2 {πfF}_{s} / F_{0}) \\ H_{s h i f t} (f) = 1 + β \exp (- j (2 {πfF}_{s} / F_{0} + π)) \end{matrix}, - - - (23)

步骤35、根据滤波后的信号计算梳状信号残留比：

C F R (f, m) = \frac{\underset{t}{Σ} z_{c o m b} {(t)}^{2}}{\underset{t}{Σ} z_{s h i f t} {(t)}^{2}}, - - - (24)

步骤38、谐波结构恢复后，最终的输出语音信号为：

\hat{z} (t) = z (t) + \tilde{z} (t) . - - - (25)