CN1114122A

CN1114122A - 用于回声抑制器的话音作用检测器和回声抑制器

Info

Publication number: CN1114122A
Application number: CN94190639A
Authority: CN
Inventors: 福格尔·埃利泽
Original assignee: Motorola Inc
Current assignee: Motorola Solutions Inc
Priority date: 1993-08-27
Filing date: 1994-08-11
Publication date: 1995-12-27
Also published as: GB2281680B; US5619566A; GB2281680A; WO1995006382A2; GB9317825D0; EP0671099A1; WO1995006382A3

Abstract

一种话音作用检测器适合在回声抑制器中应用，它包括一个白化滤波器(19)，用以均衡在发送通路上声频信号的频谱，以提供一个均衡信号，还包括一个决定装置(20)，与上述的白化滤波器相耦合，测量均衡信号中的能量，借此检测发送通路上的话音。白化滤波器是一个话音白化滤波器，根据话音解码器在接收通路上接收的话音参数自适应地工作(8，19)。另一方面，进入发送通路的近端话音与远端话音不同而从接收通路产生回声，在发送通路上的话音基本上是由于来自接收通路的回声引起的时候，发送和接收衰减器 (26，27)按第一种配置来安排，当传送通路上的话音至少部分因近端话音引起的时候，按第二种配置来安排。

Description

本发明涉及适合在回声抑制器中使用的话音作用检测器，独立地和另外地还涉及回声抑制器。本发明提出了在有另外的扬声器存在的情况下检测话音（语音）的问题。

在例如（车载）扬声器电话（VSP）中出现了话音作用检测的需求。在这种电话中，出网的（陆地到移动）话音被引入车载扬声器中和车载电话的用户可能想插入。在本文中按照上下文的要求，对于话音作用检测和话音作用检测器使用了“VAD”简称。

在全双工通信信道中允许双对话的一种安排是回声抵消，在这种安排中，发出的话音在进入的通路中被抵消。但是，这种安排就计算资源而言是非常昂贵的，因此经常是行不通的。

在其它极度状态下，利用根据给定噪声背景的标准话音检测的回声抑制器概念，在车辆环境下处理回声是可能的。

1988年第Ⅲ-1分册里186-205页的CCITT建议G.164中概括地描述了各种回声抑制器，其中D型回声抑制器是全数字的并提供了近端话音的话音编码和远端话音的解码（或合成）。在这样一些安排中，例如正如在许多现代通信系统中执行LPC型编码时，“背景话音”参数是可利用的。

然而，在全双工状态下常规的回声抑制器将不能很好地工作，在全双工状态下扬声器功率是与本地用户话音功率可比拟的，因为其话音检测是根据话音功率和/或它的静态背景噪声特性之间的区别进行的。因此，或者扬声器的话音将由VAD检测到，或者当这超出VAD指示作用时该本地用户将被阻塞。

一般来说，在VSP情况下当今的VAD是根据相对于背景噪声能量测量信号能量的（噪声控制阈值（NRT）类型检测（Noise Riding Threshold（NRT type detection））。为了实现这样一种检测器，VAD必须能够首先检测噪声，估算它的瞬时能量等级，和如果信号能量超过一个阈值（在噪声基础值以上），则接着检测话音。在更为先进的VAD中，噪声频谱特性也被估算，和白化反向滤波器的能量输出被用于VAD。从话音区别噪声的处理中，有时利用附加特性提取予以增强，例如静态测试和/或周期性检测（噪声被静态地和作周期性地与话音比较）。

1989年5月22日的GSM 06.32建议是一个基于VAD能量的例子，在该例子中能量是在背景噪声整形滤波器（“白化滤波器”）的反向输出端测量的。包括自适应阈值的过程和滤波的能量的计算的详细内容在该文件中已给出。

按照本发明的第一个方面，提供了一个用于回声抑制器的话音作用检测器，该检测器包括具有一个话音检测器的接收音频通路，用于接收各话音参数和合成该参数的话音，一个发送音频通路，一个白化滤波器，用于均衡该发送通路的音频信号的频谱以提供一个经均衡的信号，和连接到白化滤波器的判决装置，测量在经均衡信号中的能量和从而检测在发送通路中的能量，其特征在于，该白化滤波器是话音白化滤波器和设置用于按照由接收通路中的话音解码器接收的话音参数自适应白化滤波器的装置。

据此，本发明至少在其第一方面，根据对另外的用户话音特性检测解决了存在另外的用户的情况下的话音（话音）检测问题。

在本发明的第二方面，提供一种回声抑制器，该抑制器包括一个接收音频通路，具有用于接收话音参数和由该参数合成话音的话音解码器;发送音频通路;在相应通路中的接收和发送衰减装置，用于在该各通路中衰减音频信号;话音作用检测器，用于在发送通路检测话音，连接到接收与发送衰减器装置上，当在发送通路上检测到话音时，用于控制衰减器装置，抑制在接收通路上的音频信号;在发送通路上用于对由于来自接收通路的回声的结果在进入发送通路的近端话音和进入发送通路的近端话音之间进行区别的装置;以及当发送通路的话音基本上是来自接收通路的回声时用于提供发送与接收衰减器的第一配置和当在发送通路的话音至少部分地来自远端话音时提供发送与接收衰减器的第二配置的装置。

在发送通路中用于在进入发送通路的近端话音与进入发送通路的远端话音之间进行区别的装置，可以包括一个话音白化滤波器和根据由话音解码器接收的话音参数自适应该白化滤波器的装置，和/或这些装置可以包括音调区分装置。

回声抑制器在全双工操作中将允许VSP用户在其希望的时候插话，也就是说，该设计逻辑应当允许双对话。结果，远端用户可以听到叠加有其自己回声的VSP用户的声音。虽然这不是一种希望的状态，但是本发明至少在其优选实施例中做出这样的假设，即在双对话状态下，如果远端用户的回声相对于VSP用户的讲话电平被衰减的情况下，则远端用户能够克服其回声（见下文）。

为了实现本发明的回声抑制器的上述目的，至少在其优选实施例中包括如下述的超过现有技术VAD状况的两个特点：（1）能够检测在有来自扬声器的话音的情况下的本地话音，即能够在两个扬声器之间的区别;（2）可调节的进入和发出衰减器，而不是发出通路无限地衰减（阻塞）。

图1表示现有技术回声抑制器的框图;

图2表示按照本发明的优选实施例的回声抑制器的框图;

图3是用于说明图2的装置操作的真值表;和

图4表示用于与现有技术和本发明的回声抑制器有关的相关音频信号通路的模型。

图7表示一种现有技术的话音作用检测器与回声抑制器的框图。图中包括一个以其先进形式（GSM 06.32）的进入话音作用检测器，该检测器包括：麦克风1、A/D变换器2、扬声器3、D/A变换器4、和数字信号处理器DSP11。在DSP的内部的各种方框或程序是按下述方式实现的。设置一个自适应白化滤波器9，该滤波器自适应抵消背景噪声频谱。自适应可以以在编码器5中估算的LPC参数为基础。设置VAD逻辑10，它把涉及背景噪声由滤波器9均衡的信号能量与一个阈值比较。一旦由VAD逻辑10检测到话音的作用，发送衰减器6和/或接收衰减器7被插入相应的通路抑制回声。一般，衰减器6具有大于46dB的衰减量并可以接通电路或者给出实际上完全阻塞的关断电路。衰减器7是按CCITT G.164建议的理论描述的，但在实际中未被利用。DSP与通信信号12接口连接。注意DSP和其所实现的方框可以以一个单片微处理器实现，或按照一种方便的处理器与电路的组合实现。

图1的VAD能够检测相对于背景噪声的话音，但在扬声器3引入远端话音时检测本地用户的话音将会失效。

上文描述的附加两个特点反映到图2中，图2表示按照本发明的优选实施例的回声抑制器的框图。对于图1的安排主要的增加是一个话音白化滤波器9。它利用了发出话音的LPC参数。这些参数是可以自话音解码器8得到。在图2安排中设置了衰减器26和27。这些是可变衰减器。图中示出了VAD判决逻辑20，其细节在下面给出。

VAD工作在双模式下，或者当远端用户无声时利用按照现有技术的常规技术，或者当发出扬声器被启动时使用下面详述的算法。发出话音作用状态从解码器8是已知的。

在进入通路（T_X衰减）和发出通路（R_X衰减）引入衰减描述在设置在图3的真值表上。

在图3中，第一和第二列分别表示近端（VSP）用户和远端用户的用户状态（1＝讲话，0＝不讲话）。问题是在它们之间进行区别和控制由该表中第二与第四行所表示的情况，也就是说仅仅远端用户正在讲话的情况（第二行，其中在发送通路的话音中以话音出现的回声情况）和双方用户都正在讲话的情况（表的第四行）。

第三和第四列分别表示要引入发送和接收衰减器6和7的衰减量。

在单一回声情况（远端用户讲话，VSP用户不讲话）中的Z值应当包括扬声器到麦克风的衰减/放大。对应于GSM3.5建议的Z＝46dB是一个可接受的值。如果预期没有回声，即远端用户没有讲话（远端用户＝0），则没有衰减引入，除非如果为了避免不稳定，要求一定的衰减。X和Y值在双向同时讲话时应当满足XdB+YdB＜ZdB这样的关系。

如图3所描述的逻辑是以VSP VAD和远端用户VAD的可行性为基础的。前者是由编码器5提供的，后者是来自远端编码器在解码器8中接收的话音指示符的形式提供的（也用作不连续传输的目的）。基于VAD，衰减的插入和去消的定时应当在避免由于脉冲噪声的虚假瞬态的同时设计为实现最小箝位。一种可能的办法是采用CCITT建议P.34“扬声器电话的瞬态特性”或类似的逻辑。

图2所描述的VSP的应用的关键性问题是对于远端用户作用的情况的VAD设计。这是下面要详细予以讨论的。

对于图2的VSP的TX VAD的解决包括来自进入和发出信号的信息。因为大多数数字话音编码的通信协议包括VAD指示（见GSM标准），所以在VSP设备上存在或不存在发出话音是已知的。另外，如果远端用户没有讲话，即其VAD指示“0”，则利用现有技术本地话音编码器VAD应当给出VSP用户作用的适当指示。为此，在现有技术的情况下，由图3的表的第一和第三行表示的利用远端用户的VAD指示状态是已知的。

然而，如果远端用户VAD指示是“1”，本地VAD将被启动进入“双对话”模式，用于VSP用户发出讲话开始的检测和该发出讲话结束的检测。下面仅涉及当远端用户VAD＝1时VAD操作的讨论。

当远端用户VAD指示为“1”时，为了实现本地话音作用的检测，建议利用发出的和进入的声码器参数，这种参数可以对与单一扬声器（仅远端用户）状态相比的识别多个扬声器（本地用户和远端用户）状态有所贡献。所考虑的声码器是诸如CELP、VSELP、RLPT等LPC型的。这种声码器按照称为帧（30ms数量级）的时间周期提取话音参数。常常某些例如音调的参数更经常以子帧速率（例如每7.5ms）被更新。这种结构和信息被用于本发明的VAD中。

为了建立描述VAD的符号表示法和相关基础，提供一种有关于音频信号通路的模型。图4表示各相关的信号，其中数字信号处理器（DSP）11表示装置/算法和实现回声抑制器及其相关VAD的相关电路。

对于DSP执行VAD的可用参数是：

So-解码的（合成的）话音和其相关的编码参数;和

Si-麦克风的输入，该输入是一种叠加;

Sp-本地扬声器产生的信号（话音：话音、未说出的或无声）;

Se-So的声音回声;和

N-车辆的背景噪声。

回声信号Se是被滤波的和被延迟的So形式并且可以表示为：

Se（t）＝h（t）^＊So（t-d）（1）

其中

h（t）是回声通路的自由脉冲响应的延迟;

d是回声通路的纯延迟;和

＊是卷积运算符。

这里假设回声通路是线性的，正如公式（1）所反映的。h（t）项代表从扬声器到麦克风的直接通路加上混响效应。

延迟可以估算，假设扬声器到麦克风的距离是在0.33m到1.5m的范围，将得到

1ms＜d＜5ms

对于8kHz的取样速率，这对应于8到40个样值的延迟。这至多是一个典型LPC声码器的子帧的数量级。

在远端用户正在讲话时，为了根据能量考虑便利地确定本地话音的发出，建议对“白化”Si信号的能量进行估计，其中白化滤波器是在远端话音合成滤波器的基础上采用编码器。

有效地实现能量计算和阈值估计类似于在GSM建议06.32提出的，但做了如下的某些修改。

P_rad。

Pvad可以按照GSM建议06.32有效地计算。与GSM 06.32的Pvad计算的区别是利用R_X滤波器系数，而不是特定特性的噪声估算。这种运算在强调不同信号（即本地用户）的同时，具有减小回声信号的测量失真的效果。

THCAD

THVAD在仅有噪声的情况被确定，即Q＊[噪声反相滤波能量]（建议Q＝3）。利用辅助程序（阈值和滤波器参数自适应）取噪声的半静态值。

在插入话的情况下，虽然可利用远端能量的变化，但THVAD应当能够跟踪快速变化而变化。因此，对于第K子帧，建议采用以下步骤估算能量：

E_cst（K）＝A₁E₀（k）+A₂E₀（k-1）（2.1）

估算阈值

THVAD（k）＝Q[BE_cst（k）+（1-B）THVAD（k-1）]

其中

E_cst（K）＝在子帧K估算的（麦克风）能量;

A_j＝滤波器系数（见下面的“辅助程序”）;

E_o（K）＝在子帧K的能量输出（即在扬声器）;

＝帧能量＊子帧增益（编码器参数）;

Q＝阈值因子（例如3）;和

B＝THVAD自适应时间常数。

辅助程序

在噪声背景中噪声与话音之间区别的VAD操作是根据静态的和周期的测试。在话音已在另外的话音背景中被检测的当前上下文中的第一参数是无效的。在下文另外讨论周期性音调。

因此，能够进行仅远端状态的检测的下述标准应当利用：

估算误差和比较阈值

‖误差（k）‖＝‖Ei（k）+E_cst（k）‖＜Th （3）

其中

E_i（K）＝在子帧K中的能量（即，在麦克风）;

Th＝阈值。

据此，式2.1中能量估算器的参数Ai应当被调整（在[近端、远端]＝[0、1]状态下同时在话音模式中）到由公式3限定的最小误差。为此目的，任何自适应话音算法（例如，LMS、WRLS）都可以实现。最简单的这种程序是标准化的LMS。

自适应滤波器的自适应

A（k+1）＝A（k）+mE₀/（E^T _OE₀）·误差（k）（4）

A＝[A₁A₂]^T

E₀＝[E₀（k）E₀（k-1）]^T

误差（k）＝Ei（k）+A（k）^TE₀

m ＝自适应常数（可以与时间有关）

其中右上角标T表示矢量易位（Vector transposition）并且矢量是用下标线的值表示的。

参数A反映到回声通路中并应当在话音模式中仅远端话音期间被调整。可以合理地假定这些参数将是非常慢地变化，并且将不会存在大多数时间双对话的状态。因此，在一个短时间的自适应以后，A将不会明显的改变，除非该本地用户插话，误差将保持在很小的水平上。A可以具有反映该车箱声学特性的正常值。在一次谈话结束以后，新的被估算的参数可以在非易失存储器中更新。

VAD

插话（和插话去除break-out）的判断因此能够以超过THVAD（K）的和/或超过一个阈值的误差（K）的Ei（K）为基础。对于插话和去插话的转换时间应当与标准方法的概念类似（避免在一方的插话脉冲噪声，和避免在另一方的话音箝位）。

音调

对于分开的扬声器的另一参数是音调（和其谐波）。当前对于扬声器的算法是相当复杂的并且尚未涉及回声抑制问题。然而，因为在回声通路中音调是不变的，所以可以有益地利用双对话状态的检测。下面的描述被建议作为上面描述的能量过程的一种增强技术。

一些声码器以滞后的方式反映音调信息，例如VSELP，（因为该滞后可能对应于谐波或音调的子谐波），所以So的基本音调跟踪（基本滞后跟踪）首先从接收的信号中建立。上述公式2.1中的类似平滑过程应当用于回声通路延迟的补偿。

其后，如果Si音调检测器（滞后估算器）在回声信号中从所期望的音调/音调谐波（滞后）中产生不同的音调（滞后），则表明一个插话状态。

Claims

1、一种用于回声抑制器的话音作用检测器，该检测器包括：

接收音频通路(12、8、27、4、3)，具有话音检测器(8)，用于接收话音参数和由这些参数合成话音，

发送音频通路(1、2、5、26、12)，

白化滤波器(19)，用于均衡在发送通路的音频信号的频谱，提供一个均衡的信号，

判断装置(20)，连接到白化滤波器，测量在均衡的信号中的能量和从而检测在发送通路中的话音，其特征在于，

该白化滤波器是一个话音白化滤波器，和

提供一个用于按照在接收通路由话音解码器接收的话音参数自适应该白化滤波器的装置(8、19)，。

2、按照权利要求1的话音作用检测器，其特征在于，还包括一个噪声白化滤波器（9），用于对发送通路的信号进行滤波，提供一个信号给该判断装置，该提供的信号是相对于噪声被均衡的。

3、一种回声抑制器，其特征在于，该抑制器包括按照权利要求1或2的话音作用检测器和还包括在相应的通路中的至少一个发送衰减器（26）和接收衰减器（27），用于衰减在该通路或各通路中的音频信号，该话音作用检测器的判断装置（20）被连接到发送和/或接收衰减器，当由话音作用检测器检测到话音时，用于控制该衰减器或每个衰减器，以抑制在一个通路上或两个通路上的音频信号。

4、一种回声抑制器，其特征在于，该抑制器包括：

接收音频通路（12、8、27、4、3），具有话音检测器（8），用于接收话音参数和由这些参数合成话音，

发送音频通路（1、2、5、26、12），

接收和发送衰减器装置（27、26），设在各自通路中，用于衰减在这些通路中的音频信号，

话音作用检测器（20），用于检测在发送通路中的话音，并连接到接收与发送衰减器装置上，用于控制衰减器装置，当在发送通路接收到话音时，以抑制在相应通路上的音频信号，

在发送通路中的装置（9、19），用于作为来自接收通路的回声的结果，在近端话音进入发送通路和远端话音进入发送通路之间进行区别，和

装置（20），当在发送通路中的话音基本上由于来自接收通路的回声时，提供发送和接收衰减器的第一配置和当在发送通路中的话音是至少部分地由于来自近端话音时，提供发送和接收衰减器的第二配置。

5、按照权利要求4的回声抑制器，其特征在于，第一配置包括在发送衰减器中相对高的衰减（Z），和第二配置包括在发送衰减器中相对低的衰减（X）。

6、按照权利要求5的回声抑制器，其特征在于，第二配置还包括在接收衰减器中的衰减（Y）。

7、按照权利要求6的回声抑制器，其特征在于，第一配置包括在接收衰减器中基本上没有衰减。

8、按照权利要求6或7的回声抑制器，其特征在于，X+Y近似等于Z，且其中这样选择X和Y，即同时远端和近端用户可以彼此听到。

9、按照权利要求4到8任何一个的回声抑制器，其特征在于，包括音调区别装置，用于在近端与远端话音之间进行区分。

10、按照权利要求4到8任何一个的回声抑制器，其特征在于，包括一个按照权利要求1或2的话音作用检测器。