CN1491018A

CN1491018A - 一种对话交互前端的回声消除和语音检测方法及装置

Info

Publication number: CN1491018A
Application number: CNA021486859A
Authority: CN
Inventors: 张建平; 颜永红; 潘接林; 韩疆; 刘建
Original assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Current assignee: Institute of Acoustics CAS; Beijing Kexin Technology Co Ltd
Priority date: 2002-10-14
Filing date: 2002-11-15
Publication date: 2004-04-21
Anticipated expiration: 2022-11-15
Also published as: CN1248477C

Abstract

本发明涉及一种对话交互前端的回声消除和语音检测方法，包括下述步骤：利用含有录音和放音通道的电话卡作为通信机对话交互前端的声音接口卡，及利用电话卡的两个通道进行回声消除步骤得到干净的语音残差数据；然后将语音残差数据进行语音信号自适应检测步骤，判断语音残差数据的类型；及当语音残差数据判断为语音时，则停止进行回声消除步骤并关闭放音通道；本发明利用普通电话卡的录音和放音通道，结合语音增强、语音识别和信号处理手段，实现回声的实时消除及语音的实时检测，以实现对话交互功能。

Description

一种对话交互前端的回声消除和语音检测方法及装置

技术领域

本发明是利用具有录音和放音通道的普通电话卡实现通信机对话交互前端的回声消除和语音检测的方法及装置。

技术背景

通常，参照图1，在通信机(Communicator)的最前端，需要有一个声音处理器来对语音进行增强和检测。例如：进行线路回声和空间回声的消除；以及检测用户是否说话，有没有噪音。如何结合目前一般的电话卡的有限的功能，实现回声的消除以及语音和噪音的实时的检测和判断，现在的系统都还没有能够很好的加以解决。在一般的通信机中，主要有声音接口、网络接口、语言生成、语义分析、对话管理、可信度量、语音识别和语音合成等模块。声音接口处于通信机最前端，其预处理对语音质量的影响是后面的各个系统模块无法弥补的，因而对系统的整体性能有直接的影响。在象通信机这样的对话系统中，用户希望能象对人说话一样地交流，即随时插入和打断系统的提示话，这种功能我们称之为对话交互(Barge-in)功能。对话交互对硬件和软件都提出了较高的要求。

为了适应语音自动电话服务的需要，目前国外生产的电话卡都同时可以接多路电话线。各条电话线之间的通信是通过信号计算总线(SignalComputing Bus，SCBus)来完成。所谓信号计算总线是指一条公用的总线，多路电话信号以分时复用的方式共享这条总线。究竟某路信号占用那个时槽可由编程自行决定。由于目前生产的电话卡主要用于网络和视听，不是针对语音识别和对话系统应用而设计，所以存在各种缺陷。就当前而言，带回声消除的卡局限于高密度的电话卡，这种卡有8路以上电话线接口，其价格昂贵。另一种卡虽有能量检测功能，并可根据能量大小来判断用户是否在说话，具有了对话交互(Barge-in)功能，但性能欠佳。而将回声消除和能量检测结合实现对话交互功能的卡还尚未见报道。

现有的回声消除有两种常用算法：LMS和RLS。相比而言，前者较稳健但收敛速度慢而后者收敛速度快但有稳健性问题。从厂家的说明书中，发现采用LMS方法的居多。但一般厂商只是提供可选的几个参数供编程者去设置，这样使这种方法没有充分发挥作用。而且，一般只考虑线路回声，所用滤波器阶数不大于128。对空间回声一般不考虑。

现有的声音检测，目前的方法都是一种能量窗的方法，即：如果当前帧的能量大于某个特定的值，即认为是语音帧，而如果能量小于某个特定的值，则认为是静音帧或噪音帧。如果连续的几帧(比如10帧)中有较多的帧(比如7帧)判为语音帧，即断定用户已开始说话。这种方法在实际的有噪音的情况下，存在明显的局限因为噪声本身的能量也可能很大。另外，由于没有有效的运用信号计算总线的功能，用一个声道(时槽)进行录放，而由于从放音到录音的切换延时，使录音到的声音常被切掉开始部分。

发明内容

本发明的目的是为了提供一种对话交互前端的回声消除和语音检测方法，该方法是利用电话卡的录音和放音通道，结合语音增强，语音识别和信号处理手段，实现回声的实时消除及语音的实时检测，以实现对话交互功能。

本发明的另一目的是为了提供一种对话交互前端的回声消除和语音检测装置，该装置利用电话卡的录音和放音通道，结合语音增强，语音识别和信号处理手段，实现回声的实时消除及语音的实时检测，以实现对话交互功能。

本发明的目的可通过如下措施来实现：

一种对话交互前端的回声消除和语音检测方法，包括下述步骤：

利用含有录音和放音通道的电话卡作为通信机对话交互前端的声音接口卡，及

利用电话卡的两个通道进行回声消除步骤得到干净的语音残差数据；然后

将语音残差数据进行语音信号自适应检测步骤，判断语音残差数据的类型；及

当语音残差数据判断为语音时，则停止进行回声消除步骤并关闭放音通道。

所述的回声消除步骤包括下述步骤：

(1)系统处于挂机等待时，打开电话卡的录音和放音通道；

(2)当用户拨打系统时，系统初始化，同时放音和录音通道开始工作；分别存贮录音和放音数据；

(3)利用系统提示音的放音数据作为参考信号，通过归一化最小均方算法，计算出参考信号的回声数据；

(4)同时将录音数据减去相应的回声数据得到干净的语音残差数据。

所述的回声消除步骤还包括一将语音残差数据更新回声消除步骤中的回声滤波器的滤波器系数。

所述的系统回声的归一法最小均方算法是基于公知的归一化LMS法进行最小均方算法，其公式如下：

v (n) = Σ_{k = 0}^{M - 1} h_{k} (n) u (n - k),

式中v(n)为系统回声，h_k(n)为n时刻第k个滤波器系数；n为系统提示的时刻，u为系统提示音，M为滤波器抽头数。

所述的语音信号自适应检测步骤包括下述步骤：

(1)存贮用户语音及噪音/静音的语音数据的平均模型，该平均模型包括单个音素的声学均值和方差及分布特性；

(2)计算经回声消除后的语音残差数据的语音帧能量和相应的MFCC特征；

(3)然后将上述(2)步的语音帧能量和MFCC特征与(1)步中的模型的能量和特征进行比较，得出相应的概率密度，挑选与模型比较后最大的概率密度，来判断其属于语音、静音/噪音模型，即可判断为语音帧或静音/噪音帧；

(4)利用双域值法进行通话状态判断据此可判断用户通话的通断。

上述的语音信号自适应检测步骤还包括将回声消除后的语音残差数据分成语音帧。

所述的语音残差数据被分成语音帧，每一语音帧的帧长为20-30毫秒，帧移为5-15毫秒，两帧之间重叠5-25毫秒。

所述的语音信号自适应检测步骤还包括一当前帧的声学特征更新模型步骤，该步骤是利用残差语音帧与模型比较的相应概率密度的最大及次大的概率密度的归一化距离大于定域值α(0＜α＜1)时，则用当前语音残差帧更新用户的语音数据的平均模型。

所述的利用双域值法进行通话状态判断是将通信机在通信时系统处于的状态分为静音/噪音状态L；语音状态H；静音-＞语音转化状态LH；语音-＞静音转化状态HL；然后对系统处于的状态按下述步骤进行判断：

a)在起始静音状态L，如果对当前帧的判断E为静音，即E＜＝L，则转为LL状态；其中LL代表原曾为静音状态，当前帧仍为静音状态；否则，转为LH状态；

在LL状态，如果对当前帧的判断E是语音，即E＞H，则转为状态LH；否则，保持状态不变；

在状态LH，如果E是静音，即E＜L，则转为LL；如果有连续n帧都判为语音，则转入状态H；否则，保持状态不变；

b)在起始语音状态H，如果对当前帧的判断E是语音，即E＞＝H，则转为HH状态；其中HH代表原曾为语音状态，当前帧仍判为语音帧；否则，转为HL状态；

在HH状态，如果对当前帧的判断E是静音，即E＜L，则转为状态HL；否则，保持状态不变；

在状态HL，如果E是语音，即E＞H，则转为HH；如果有连续m帧都判为静音，则转入状态L；否则，保持状态不变。

本发明的目的还可通过如下措施来实现：

一种对话交互前端的回声消除和语音检测装置，包括一具有录音和放音通道的电话卡，还包括：

回声消除器，该回声消除器是利用一回声滤波器将系统电话卡的录音信号减去系统放音产生的回声信号得到干净的语音残差信号；

再利用该残差信号更新回声消除器的滤波器系数；还包括

语音信号自适应检测器，该检测器是利用回声消除器消除回声后的语音残差信号的能量与MFCC特征与用户语音和静音/噪音平均模型进行比对，判断语音残差信号是语音还是静音/噪音。

本发明相比现有技术具有如下优点：

1、本发明使用电话卡的两个通道(时槽)来实现一个电话信道的检测；该卡的两个通道中，一个用于录音，一个用于放音；当放音通道工作时，录音通道必须同时打开并且开始录音；此时，同时开始工作的还有回声消除器和语音检测器；录到的语音将分别通过回声消除器和语音检测器；最后，干净的语音信号被送给后端进行处理。

2、本发明利用普通电话卡实现回声消除，其消除效果好、语音干净。

3、本发明的语音检测方法及装置与传统的基于纯粹能量的方法比，检测错误率下降了四分之一。

4、本发明不需要用很复杂的电话语音处理卡，用廉价的接口卡实现复杂的电话语音前端处理功能。

附图说明

图1是公知的人机交互系统的总图

图2是本发明的人机交互系统的前端处理图

1-电话卡 2-回声消除器 3-语音检测器

图3是本发明的回声消除和语音检测流程图

具体的实施方式

下面结合附图详细对本发明的实施例作进一步详述：

参看图1，本发明是处于一个通信机系统的声音接口部分。声音接口部分的作用是对语音进行预处理，包括回声消除，声音检测。其最终的目的是将干净的语音通过通信枢纽送给语音识别器。本方案可以在带有信号计算总线的Dialogic卡上实现，当然也可以用于任何支持同时录音和放音的电话卡上实现。

参看图2，系统一开始应该进行初始化，并且处于等待拨号状态。一旦用户拨打系统，该声音处理单元应该摘机，并且同时启动录音、放音、回声消除器2和语音自适应声音检测器3。在录音的同时，进行回声消除和声音检测。如果检测到用户已经开始讲话，此时，应该暂停放音模块和回声消除器3的运行。只有录音和语音检测器3在工作，这种状态一直进行到用户讲话完毕或超过一定的时长。这个过程即：放音到录音再放音的过程，将持续到对话结束。当用户挂机或系统因为对话结束或非正常情况而主动挂机而完成。

参照图3，进一步描述回声消除器2和语音自适应声音检测器3的工作过程。我们以Dialogic的D/41ESC为例，说明实现预处理声音处理的方法。首先，应该打开Dialogic卡的两个声道，一个声道用于放音，一个用于录音。此时，系统处于挂机等待拨号状态。一旦用户拨打本系统，软件上使系统摘机并初始化各个模块，开始放音、录音、同时启动回声消除器2和语音自适应声音检测器3。放音和录音都是分别存取于一个链表数据队列中。链表把各个数据块连接起来，每个数据块的大小最好是小于4K字节。因为数据块愈大，放音效果越好；但是，回声消除的延时也就愈大。利用相应的放音数据块作为参考信号，通过归一化最小均方算法，算出相应的回声。录音得到的每一个数据块中的每一个采样点都要减去相应的回声含量，得到残差信号。而该残差信号又可以用于进一步更新回声消除器的滤波器系数，一般可采用128-256阶的滤波器。由于归一化最小均方算法的收敛速度较慢，一般系统的开始0.5秒至1秒的残差信号比较强，不适于用作声音自适应检测器的输入。所以，语音自适应声音检测器3真正开始工作是在每次系统开始播放提示音的0.5秒至1秒以后。残差信号是8KHz采样的信号，首先该数据流被组合成帧流。所谓的帧是指有固定长度的一段语音采样，在实际实现中，语音帧的长度是20-30毫秒即160-240个采样点，两帧之间距离为5-15毫秒即40-120个采样点，即：两帧之间可重叠5-25毫秒即40-200个采样点。计算出每一个语音帧的能量和相应的Mel频率倒谱系数(Mel-Frequency Cepstrum Coefficient，MFCC)特征，并且与单音节单状态的各个隐含马尔可夫模型的特征相比较，算出相应的概率密度。如果最优两个候选模型的之间的概率距离大于一定域值α(0＜α＜1)，即认为本判定可信，当前判断有效，当前帧的MFCC特征及能量用于对系统模型特征的贝叶斯自适应。如果当前判断认为不可靠，则系统的模型特征不进行自适应。对系统状态的判定由当前判定和先前的历史状态通过一个状态机来判定。

参照图3，为本发明的工作流程：

首先，系统处于挂机状态，当有外来用户呼叫本系统时，系统检测到振铃声，并发出摘机命令。如果摘机成功，系统进入空闲等待状态。此时如果用户需要提示(由对话管理模块决定)，则系统播放来自TTS的语音流，同时启动录音，回声消除(EC)和语音检测(VAD)模块。此时录入的音是经过回声消除的，如果VAD模块检测出用户已经开始说话，则转入录音状态，同时关闭放音和回声消除模块。但VAD模块继续工作，因为需要检测语音结束。录入的语音通过通信枢纽(HUB)送识别器。直到检出用户讲话结束，转入空闲状态。这个空闲-＞放音-＞录音的过程将循环反复多次，直到对话结束或用户主动挂机为止。

1、所述的回声消除算法

本发明所采用的算法是基于块的归一化LMS算法。算法描述如下：

假设：u(n)是n时刻的系统提示声音；x(n)是用户话音；v(n)是系统

回声；h(n)是回声消除滤波器权重；s(n)是系统回声和用户声音之和。

那么，我们算法可描述为：

a)计算回声：

v (n) = Σ_{k = 0}^{M - 1} h_{k} (n) u (n - k)

b)计算残差：

e(n)＝s(n)-v(n)

c)更新滤波器权重

h_{k} (n + 1) = h_{k} (n) + β Σ_{i = 0}^{L - 1} e (n - i) u (u - i - k)

其中：β是归一化步长参数，M是滤波器抽头数，L是迭代块长度。

2、本发明的声音检测算法：

本发明利用Bayes自适应语音检测算法：假设用户的每个单音素声学特征的概率密度函数服从高斯分布，首先统计出每个音素的平均的声学特征分布和不同信道或人的分布差异，并用这些信息进行模型自适应。使自适应后的模型更匹配当前说话人的声学特征。

a)、统计得到平均模型：包括每个单音素的声学均值和方差。以及，不同人之间的分布特性。

b)、对当前帧进行判断，用高斯模型计算各个单音素的概率密度，挑选最大的。如果属于语音，则判当前帧为语音帧；反之，判为静音或噪音帧。

c)、如果首选和二选的概率密度距离大于定域值α(0＜α＜1)，则用当前帧的声学特征更新模型。

d)、利用双域值法进行通话状态判断，判定用户是否开始讲话或讲话停止或暂无法判断。

上面所介绍的方法都是一种基于帧的语音检测方法，所描述的算法只是为了更准确的判断一帧究竟是语音帧还是噪音帧。实验结果显示：与传统的基于纯粹能量的方法比，检测错误率下降四分之一。但对实际系统来说，更需要知道用户究竟从那一帧真正开始说话；从那一帧停止说话。纯粹依靠一帧是无法得出可靠判断的。因此，需要根据能量和当前帧和历史帧的情况作出合理判断。

所述的MFCC特征的计算：MFCC的计算是用目前广泛使用的方法。即先进行FFT计算，然后通过一个Mel滤波器算出在各个Mel频段的分量，最后再进行DCT变换得到。

所述的双域值法：

一般的域值(比如能量域值)是用固定的值。也就是说，目前广泛使用的判别方法都是硬判断法，要么是语音状态；要么是静音/噪音状态。我们采用了两个域值，即：语音域值和静音域值。如果判断落入中间，即无法准确判断，我们将使状态保持不变。本发明引入的这种模糊判断方法，允许当无法准确判断时保持现有状态。

b)在起始语音状态H，如果对当前帧的判断E是语音，即E＞＝H，则转为HH状态；其中HH代表原曾为语音状态，当前帧仍判为语音帧；否则，转为HL状态，

Claims

1、一种对话交互前端的回声消除和语音检测方法，包括下述步骤：

2、如权利要求1所述的一种对话交互前端的回声消除和语音检测方法，其特征在于所述的回声消除步骤包括下述步骤：

(1)系统处于挂机等待时，打开电话卡的录音和放音通道；

3、如权利要求2所述的一种对话交互前端的回声消除和语音检测方法，其特征在于还包括将回声消除后的语音残差数据分成语音帧。

4、如权利要求3所述的一种对话交互前端的回声消除和语音检测方法，其特征在于将回声消除后的语音残差数据分成语音帧，每一语音帧的帧长为20-30毫秒，帧移为5-15毫秒，两帧之间重叠5-25毫秒。

5、如权利要求2所述的一种对话交互前端的回声消除和语音检测方法，其特征在于所述的回声消除步骤还包括一将语音残差数据更新回声消除步骤中的回声滤波器的滤波器系数。

6、如权利要求2所述的一种对话交互前端的回声消除和语音检测方法，其特征在于所述的系统回声的归一法最小均方算法是基于公知的归一化LMS法进行最小均方算法，其公式如下：

v (n) = Σ_{k = 0}^{M - 1} h_{k} (n) u (n - k),

7、如权利要求1或3所述的一种对话交互前端的回声消除和语音检测方法，其特征在于所述的语音信号自适应检测步骤包括下述步骤：

8、如权利要求7所述的一种对话交互前端的回声消除和语音检测方法，其特征在于所述的语音信号自适应检测步骤还包括一当前帧的声学特征更新模型步骤，该步骤是利用残差语音帧与模型比较的相应概率密度的最大及次大的概率密度的归一化距离大于定域值α(0＜α＜1)时，则用当前语音残差帧更新用户的语音数据的平均模型。

9、如权利要求7所述的一种对话交互前端的回声消除和语音检测方法，其特征在于所述的利用双域值法进行通话状态判断是将通信机在通信时系统处于的状态分为静音/噪音状态L；语音状态H；静音-＞语音转化状态LH；语音-＞静音转化状态HL；然后对系统处于的状态按下述步骤进行判断：

10、一种对话交互前端的回声消除和语音检测装置，包括一具有录音和放音通道的电话卡，其特征在于还包括：

再利用该残差信号更新回声消除器的滤波器系数；还包括