CN106033673B

CN106033673B - 一种近端语音信号检测方法及装置

Info

Publication number: CN106033673B
Application number: CN201510102968.XA
Authority: CN
Inventors: 梁民; 韩波
Original assignee: China Academy of Telecommunications Technology CATT
Current assignee: China Academy of Telecommunications Technology CATT
Priority date: 2015-03-09
Filing date: 2015-03-09
Publication date: 2019-09-17
Anticipated expiration: 2035-03-09
Also published as: TWI594234B; TW201633292A; CN106033673A; WO2016141773A1

Abstract

本发明公开了一种近端语音信号检测方法及装置，包括：接收第一输入信号以及第二输入信号，所述第一输入信号通过对远端语音信号进行线性变换或非线性变换获得，所述第二输入信号为音频接收传感器的输出信号；根据所述第一输入信号确定出所述第一输入信号的第一声纹特征矢量，根据所述第二输入信号确定出所述第二输入信号的第二声纹特征矢量；确定出所述第一声纹特征与所述第二声纹特征之间的距离，并根据所述距离确定是否发生双讲。

Description

一种近端语音信号检测方法及装置

技术领域

本发明涉及语音信号检测技术领域，尤其涉及一种近端语音信号检测方法及装置。

背景技术

声学回波抵消器(Acoustic Echo canceller，AEC)是电话会议系统、免提通信终端等设备的一个重要模块，是用来抵消由扬声器到麦克风的声学耦合反馈效应，即扬声器到麦克风之间的声学回波。

在声学回波抵消器中，用一个滤波器对回波路径进行自适应地数学建模，并由此合成一个声学回波的有效估计，然后在麦克风的接收信号的输出信号中减去该声学回波的有效估计，从而实现声学回波抵消的目的。当麦克风的接收信号中出现近端语音信号时，即发生双讲(Double-Talk，DT)情形，由于它与远端语音信号统计上不相关，因而其犹如一个突发的噪声，使得滤波器的系数将偏离实际声学回波路径所对应的真值而发生发散现象。这便相应地增大了回波残留量，使声学回波抵消器的性能恶化。为使声学回波抵消器的工作性能稳定可靠，准确而及时地检测出麦克风接收信号中是否发生双讲，便是一项非常重要和必要的任务。在DT发生的条件下，滤波器系数的自适应学习必须停止进行，以避免在该情况下滤波器系数持续学习所致的发散现象。

为克服这一问题，一种自然的处理方法是：滤波器的滤波器系数矢量的学习算法应该在发生双讲的情况下被停止执行，而在未发生双讲时将持续进行。由此，双讲检测器(DTD)便应运而生。目前，双讲检测器主要是基于互相关(Cross-Correlation)准则实现的。在基于互相关准则的DTD中，较典型的技术方案有以下两种：

第一种方案，利用声学回波抵消器中的误差信号e(n)和远端语音信号矢量之间互相关来进行双讲检测，误差信号e(n)和远端语音信号矢量之间互相关系数如下：

在由放大器过载和编码解码器引入的非线性失真可以忽略不计，以及环境噪声是平稳的假设条件下(在无特别注明的情况下，以下均假设该条件成立)，式(1)变为：

其中，为声学回波的回波路径中线性部分的冲击响应，L为回波路径的长度；为滤波器的冲击响应；为远端语音信号的自相关矩阵。

式(2)中的高度依赖于回波路径的变化，因而适合用于检测声学回波路径是否发生变化，而不是用来检测双讲是否发生。

第二种方案，利用远端语音信号矢量和麦克风输出信号y(n)之间的互相关来构造一个决策统计量用于双讲检测。矢量和y(n)之间的互相关可表达为：

考虑到麦克风输出信号y(n)的方差可表示成下式：

其中和分别为环境噪声和近端语音信号的功率。

在无DT，即u(n)＝0时，式(4)即为：

将决策统计量ξ_Benesty定义为用式(5)除以式(4)后再开方，即：

根据式(6)可以确定，在无双讲时，决策统计量ξ_Benesty取值为1；在有双讲时，决策统计量ξ_Benesty取值小于1。因此可定义一个门限值参数T_Benesty，当ξ_Benesty＜T_Benesty,则确定发生双讲；否则，确定无双讲发生。

还可以利用误差信号e(n)和麦克风输出信号y(n)之间的互相关来构造DTD的决策统计量，具体的，将误差信号e(n)和麦克风输出信号y(n)之间的互相关定义为：

构造的决策统计量ξ_Iqbal如下：

在滤波器收敛时，滤波器的冲击响应趋于回波路径的冲击响应，即那么在无双讲的情况下ξ_Iqbal≈1，而在有双讲时ξ_Iqbal＜1。因此可定义一个门限值参数T_Iqbal，当ξ_Iqbal＜T_Iqbal,则确定发生双讲；否则，就确定未发生双讲。

上述介绍的双讲检测技术都是基于以下两个假设：1、声学回波路径中非线性失真很小而忽略不计；2、环境噪声是平稳的。然而实际系统中，由于放大器过载和编码解码器所引发的非线性失真不可忽略，使得现有基于互相关技术的双讲检测技术的性能较差；此外，实际环境中的噪声也并非是平稳的，这一非平稳性也将进一步加剧该类双讲检测技术性能的恶化程度，乃至有时无法正常检测出是否发生双讲。

发明内容

本发明实施例提供了一种近端语音信号检测方法及装置，用以提高双讲检测性能。

本发明实施例提供了一种近端语音信号检测方法，包括：

接收第一输入信号以及第二输入信号，所述第一输入信号为移动终端接收到的远端信号被线性或非线性变换后所得到的信号，所述第二输入信号为所述移动终端接收到的近端信号；

提取所述第一输入信号的第一声纹特征，以及所述第二输入信号的第二声纹特征；

确定所述第一声纹特征与所述第二声纹特征的距离；

根据所述距离确定所述第二输入信号中是否存在近端语音信号。

较佳的，所述第一输入信号为所述移动终端的自适应滤波器输出的回波估计信号，所述回波估计信号是所述自适应滤波器对所述远端信号进行线性或非线性滤波得到的。

较佳的，所述第一输入信号为所述远端信号被线性延时后得到的信号。

较佳的，所述根据所述距离确定所述第二输入信号中是否存在近端语音信号，包括：

判断所述距离是否小于第一门限值，若是，则确定所述第二输入信号中不存在近端语音信号，否则，确定所述第二输入信号中存在近端语音信号。

较佳的，所述确定所述第二输入信号中存在近端语音信号之后，还包括：

向所述移动终端的自适应滤波器发送指示信息，所述指示信息用于指示所述自适应滤波器暂停更新滤波器系数。

本发明实施例提供了一种近端语音信号检测方法，包括：

接收第一输入信号以及第二输入信号，所述第一输入信号为移动终端接收到的远端信号，所述第二输入信号为所述移动终端接收到的近端信号；

检测所述第一输入信号是否大于第二门限值，以及检测所述第二输入信号是否大于第三门限值；

若所述第一输入信号大于第二门限值，且所述第二输入信号大于第三门限值，则提取所述第一输入信号的第一声纹特征，以及提取所述第二输入信号的第二声纹特征，确定所述第一声纹特征与所述第二声纹特征的距离，根据所述距离确定所述第二输入信号中是否存在近端语音信号。

较佳的，所述检测所述第一输入信号是否大于第二门限值，以及检测所述第二输入信号是否大于第三门限值，包括：

检测所述第一输入信号在第一时间点是否大于所述第二门限值，以及检测所述第二输入信号在第二时间点是否大于所述第三门限值，所述第二时间点为所述第一时间点经过延时后的时间点。

若所述距离小于第四门限值，则确定所述第二输入信号在所述第二时间点不存在近端语音信号，否则，确定所述第二输入信号在所述第二时间点存在近端语音信号。

较佳的，还包括：

若所述第二输入信号小于所述第三门限值，则确定所述第二输入信号在所述第二时间点不存在近端语音信号；或者，

若所述第一输入信号小于所述第二门限值，且所述第二输入信号大于所述第三门限值，则确定所述第二输入信号在所述第二时间点存在近端语音信号。

较佳的，确定所述第二输入信号中存在近端语音信号之后，还包括：

本发明实施例提供了一种近端语音信号检测装置，包括：

接收单元，用于接收第一输入信号以及第二输入信号，所述第一输入信号为移动终端接收到的远端信号被线性或非线性变换后所得到的信号，所述第二输入信号为所述移动终端接收到的近端信号；

提取单元，用于提取所述第一输入信号的第一声纹特征，以及所述第二输入信号的第二声纹特征；

确定单元，用于确定所述第一声纹特征与所述第二声纹特征的距离，根据所述距离确定所述第二输入信号中是否存在近端语音信号。

较佳的，所述确定单元具体用于：

较佳的，所述确定单元还用于：

本发明实施例提供了一种近端语音信号检测装置，包括：

接收单元，用于接收第一输入信号以及第二输入信号，所述第一输入信号为移动终端接收到的远端信号，所述第二输入信号为所述移动终端接收到的近端信号；

检测单元，用于检测所述第一输入信号是否大于第二门限值，以及检测所述第二输入信号是否大于第三门限值；

确定单元，用于确定所述第一输入信号大于第二门限值，且所述第二输入信号大于第三门限值时，提取所述第一输入信号的第一声纹特征，以及提取所述第二输入信号的第二声纹特征，确定所述第一声纹特征与所述第二声纹特征的距离，根据所述距离确定所述第二输入信号中是否存在近端语音信号。

较佳的，所述检测单元用于：

较佳的，所述确定单元具体用于：

较佳的，所述确定单元还用于：

根据本发明实施例提供的方法及装置，提取远端信号的第一声纹特征，以及近端信号中的第二声纹特征之后，通过对比第一声纹特征与第二声纹特征确定是否发生双讲。由于本发明实施例是根据远端信号和近端信号的声纹特征来进行近端语音信号的判决，即判断是否发生双讲，没有像现有技术一样基于互相关技术以及以下两个假设：1、声学回波路径中非线性失真很小而忽略不计，2、环境噪声是平稳的，来进行双讲检测，因此一定程度上避免了现有技术中以假设声学回波路径中非线性失真很小而忽略不计以及假设环境噪声平稳为前提条件去检测是否发生双讲时产生的误判等情况，从而更准确的实现双讲检测。

附图说明

图1为现有技术中声学回波抵消器的结构示意图；

图2为本发明实施例提供的一种近端语音信号检测方法流程示意图；

图3为本发明实施例提供的声纹特征提取流程示意图；

图4为本发明实施例提供的一种近端语音信号检测方法流程示意图；

图5为本发明实施例提供的一种近端语音信号检测装置结构图；

图6为本发明实施例提供的一种近端语音信号检测方法流程示意图；

图7为本发明实施例提供的第二种近端语音信号检测装置应用场景示意图；

图8为本发明实施例提供的一种近端语音信号检测装置结构图；

图9为本发明实施例提供的一种近端语音信号检测装置结构图。

具体实施方式

如图1所示，为现有技术中声学回波抵消器的结构示意图，包括扬声器101，自适应滤波器102，双讲检测器103，麦克风104。远端语音信号x(n)从扬声器101输出时，扬声器101中放大器过载和编码解码器会导致远端语音信号x(n)非线性失真；远端语音信号x(n)从扬声器101传输到麦克风104的过程中，扬声器101传输到麦克风104之间的声学回波路径也会对远端语音信号x(n)产生影响。

现假设导致远端语音信号x(n)非线性失真的非线性冲击响应很小，可以忽略不计，那么有：

其中，y(n)为麦克风104的接收信号，u(n)为近端语音信号，v(n)为系统噪声，x1(n)为远端语音信号x(n)经过非线性冲击响应后的语音信号，它们均为零均值；x2(n)为回波信号，由下式确定：

其中，为扬声器101到麦克风104之间的声学回波路径中线性部分的冲击响应，L为回波路径的长度；

这时用自适应滤波器102对扬声器101馈入麦克风104的回波信号x2(n)进行估计，得估计信号如下：

其中，为自适应滤波器102的系数矢量。

将从麦克风104的输出信号y(n)中减去，获得相应的误差信号e(n)为：

自适应滤波器102的系数矢量是通过自适应算法学习获得的，在收敛于的条件下，误差信号e(n)中的回波信号x2(n)会被抵消，从而达到消除回波信号的目的。当近端语音信号u(n)出现，即发生双讲时，由于近端语音信号u(n)与远端语音信号x(n)之间统计上不相关，因此近端语音信号u(n)对于远端语音信号x(n)来说犹如一个突发干扰信号，致使自适应滤波器102的系数矢量的自适应学习算法发散，由此导致误差信号e(n)中将出现较大的残留回波。

目前通过检测双讲是否发生，并在检测到双讲发生时停止自适应滤波器102的系数矢量的更新，从而避免导致误差信号e(n)中将出现较大的残留回波。

现有技术中，在检测双讲是否发生时，都是基于以下两个假设：1、声学回波路径中非线性失真很小而忽略不计；2、环境噪声是平稳的。然而，实际情况中，声学回波路径中非线性失真往往很大，或者环境噪声非常不平稳，导致基于这两个假设条件的双讲检测技术的性能很不稳定，有时无法正常检测出是否发生双讲。

本发明实施例中将摒弃这两个假设条件，从另外一个角度去实现双讲检测，下面详细描述本发明实施例提供的双讲检测方法是如何检测双讲是否发生。需要说明的是，本发明实施例提供的双讲检测方法并不仅仅是应用于带有声学回波抵消器的电话会议系统、免提通信终端等设备，还可以应用于其他设备和系统，在此并不限定其应用场景。

如图2所示，本发明实施例提供的一种近端语音信号检测方法，该方法包括：

步骤201：接收第一输入信号以及第二输入信号，所述第一输入信号为移动终端接收到的远端信号被线性或非线性变换后所得到的信号，所述第二输入信号为所述移动终端接收到的近端信号；

步骤202：提取所述第一输入信号的第一声纹特征，以及所述第二输入信号的第二声纹特征；

步骤203：确定所述第一声纹特征与所述第二声纹特征的距离；

步骤204：根据所述距离确定所述第二输入信号中是否存在近端语音信号。

本发明实施例中的移动终端可以为手机、平板电脑、会议电话等设备。

在步骤201中，第一输入信号为移动终端接收到的远端信号被线性或非线性变换后所得到的信号。远端信号是经过编码、调制，并需要被扬声器等设备播放的信号。

第二输入信号，即近端信号由麦克风等音频接收传感器接收到的信号，可能包括远端信号经过回声路径形成的声学回波信号、环境噪声信号以及近端语音信号中的一种或多种组合，第二输入信号中的声学回波信号是需要消除的信号。第二输入信号中包含由远端信号经过回声路径形成的声学回波信号时，会产生一定的延时，导致与远端信号之间不同步，如果不对远端信号进行延时处理，直接采用远端信号与第二输入信号进行双讲检测，会降低检测的准确性。因此需要将远端信号进行线性变换或非线性变换，形成与第二输入信号中声学回波信号同步的第一输入信号。

实现将远端信号进行线性变换或非线性变换形成第一输入信号的方法有多种。第一输入信号可以为移动终端的自适应滤波器输出的回波估计信号，所述回波估计信号是所述自适应滤波器对所述远端信号进行线性或非线性滤波得到的；也可以通过延时单元对远端语音信号延时，将延时后的远端语音信号作为第一输入信号。需要说明的是，该延时单元对信号的延时与回波路径的延时相匹配，可以通过声学回声路径延时估计算法确定出延时单元，也可以通过其他方法确定出延时单元，本发明对此并不限定。

在步骤201中，获得第一输入信号以及第二输入信号之前，还可以检测输入的第一输入信号和\或第二输入信号中是否有语音信号，在未获得第一输入信号或者获得的第一输入信号中不包含语音信号时，移动终端中的自适应滤波器的滤波器系数可以停止系数的更新，以便节省功耗；获得的第一输入信号中包含语音信号时，若第二输入信号中存在近端语音信号时，移动终端中的自适应滤波器的滤波器系数可以停止系数的更新，若第二输入信号中不存在近端语音信号时，可以直接确定未发生双讲，此时移动终端中的自适应滤波器需要根据残差信号进行滤波器系数的更新。

检测输入的第一输入信号和\或第二输入信号中是否有语音信号的方法有多种，例如可以通过语音活动检测(Voice activity detection，VAD)来检测输入的信号是否包含语音信号。

步骤202中，在获得第一输入信号以及第二输入信号之后，分别提取第一输入信号的第一声纹特征，以及第二输入信号第二声纹特征。

声纹(Voiceprint)是携带语音信息的声波频谱，由于人在讲话时使用的发生器在尺寸和形态方面各自有差异，所以任何两个人的声纹都存在差异；另一方面，人耳能在吵杂的背景噪声中及各种变异的情况下听到语音信号，该特性是得益于这样一个事实：耳蜗实质上相当于一个滤波器组，其滤波作用是在对数频率尺度上进行的，从而使得人耳对低频信号比对高频信号更敏感。综合考虑人耳的听觉感知和人的语音产生的机理，在本发明实施例中选择Mel频率的倒谱系数(Mel-Frequency Cepstral Coefficient，MFCC)作为语音信号的声纹特征参数，用来进行双讲检测。其基本原理是：首先分别提取第一输入信号和第二输入信号的MFCC特征参数矢量，然后计算它们之间的距离，根据距离判断有无发生双讲。在未发生双讲的情况下，第二输入信号中仅含回波信号，因而第一输入信号和第二输入信号的MFCC特征参数矢量间的距离较小；在发生双讲的情况下，第二输入信号中不仅含近端语音信号u(n)，而且还可能包含回波信号(在有远端语音信号的前提下)，此时第一输入信号和第二输入信号的MFCC特征参数矢量间的距离较大。由于声纹特征参数对声学回波路径中的非线性失真和噪声干扰具有较强的不敏感特性，因而本发明提出的基于声纹特征参数之DTD对环境噪声和声学回波路径中的非线性退变，具有较好的鲁棒性。

需要说明的是，本发明实施例中从音频信号中提取的声纹特征包括但不限于MFCC，可以是能有效表征和鉴别信号的任何特征参数，并且该类参数对信号的噪声污染和非线性畸变具有较好的抵免性。

针对一个输入信号，根据预加重函数对所述输入信号进行预加重，获得预加重后的输入信号；通过窗函数对所述预加重后的输入信号进行加窗，并计算所述加窗后的输入信号的频谱；通过Mel滤波器组对所述加窗后的输入信号的频谱进行滤波，并对滤波后的所述加窗后的输入信号的频谱进行离散余弦变换，获得所述输入信号的声纹特征。

具体的，如图3所示，本发明实施例提供的提取声纹特征流程图。

步骤301：预加重处理；

将输入信号通过预加重函数进行预加重处理，预加重函数为：

z(n)＝x(n)-α·x(n-1) (13)

其中，0.9<α<1.0为预加重系数，α一般取0.95，x(n)为输入信号，可以为第一输入信号或者第二输入信号，z(n)为预加重后的输入信号。对输入信号进行预加重可以提升信号的高频分量进而补偿声门脉冲形状和口唇辐射对语音信号产生的影响，从而提高检测的准确性。

步骤302：加窗；

通过窗函数对预加重后的输入信号进行加窗，获得加窗后的输入信号z(n)w(n)；其中w(n)为长度N的窗函数，可以为汉明窗函数、高斯窗函数、矩形窗函数等。

步骤303：计算频谱；

对加窗后的输入信号进行离散傅立叶变换，获得第t帧输入信号的频谱Z(t,k):

步骤304：Mel滤波器组滤波；

采用M组Mel滤波器{H_m(k)，m＝0，1，2，...，M-1}对Z(t,k)进行处理，每个Mel滤波器的输出能量E(t,m)为：

这里H_m(k)为Mel滤波器组第m个滤波器的频响函数，它定义为：

其中f_m为第m个Mel滤波器的中心频率，它由下式定义：

式(17)中f_low和f_high分别为Mel滤波器组的最低和最高频率，Fs为采样率，M为滤波器组的数目,函数

步骤305：取对数；

首先对式(17)取对数，获得Mel滤波器组中每个滤波器输出的对数能量S(t,m):

S(t，m)＝log_eE(t，m)，m＝0，1，...，M-1 (18)

步骤306：离散余弦变换：

然后对(18)式经离散余弦变换(DCT)变换得MFCC的系数如下：

由此提取到输入信号的的声纹特征矢量为：

根据上述提取信号声纹特征的流程，可以提取第一输入信号的第一声纹特征以及第二输入信号第二声纹特征

在步骤203中，根据式(20)计算第一声纹特征与第二声纹特征之间的距离D：

其中，‖·‖为矢量的范数，可为1-范数、2-范数或者∞-范数。

最后，在步骤204中，当第一声纹特征与第二声纹特征之间的距离D大于或等于门限值T时(为了与其他门限值相区别，此处可称该门限值为第一门限值)，确定第二输入信号中包含近端语音信号，即发生双讲，否则确定未发生双讲，即处于单讲状态，具体如式(21)所示：

在确定发生双讲之后，向移动终端的自适应滤波器发送指示信息，所述指示信息用于指示所述自适应滤波器暂停更新滤波器系数。

根据以上图2所示流程的描述，图4和图5分别示出了两种具体应用场景的示意图。

图4示出了利用麦克风输出信号y(n)和自适应滤波器输出信号来进行双讲检测的实施例。如图4所示，远端输入信号x(n)经过自适应滤波器滤波后形成y(n)为麦克风输出信号。对麦克风输出信号y(n)和分别进行声纹特征提取，对所提取的声纹特征矢量进行匹配处理，若两路信号的声纹特征矢量是模式匹配的，则判为单讲状态；否则，判为双讲状态。这里所提取的声纹特征矢量可以是MFCC型特征参数，也可以是能有效表征和鉴别输入信号的任何其它类型的特征参数。所采用的“模式匹配”技术可以是特征矢量间的距离匹配技术，也可以是特征矢量间的其它“相似度”匹配技术。

图5给出了利用麦克风输出信号y(n)和远端输入信号x(n)来进行双讲检测的实施例。如图所示，对x(n)通过延时单元进行延时处理后进行特征提取，所延时的长度由声学回声路径延时估计算法决定，并对y(n)进行特征提取；然后，对所提取的声纹特征矢量进行匹配处理，若两路信号的声纹特征矢量是模式匹配的，则判为单讲状态；否则，判为双讲状态。这里所提取的声纹特征矢量可以是MFCC型特征参数，也可以是能有效表征和鉴别输入信号的任何其它类型的特征参数。所采用的“模式匹配”技术可以是特征矢量间的距离匹配技术，也可以是特征矢量间的其它“相似度”匹配技术。

上述实施例中，通过将第一输入信号的第一声纹特征与第二输入信号的第二声纹特征进行比较，在第一声纹特征与第二声纹特征相近时，认为第一输入信号与第二输入信号中均包含远端信号，且第二输入信号中不包含近端语音信号，因此可以认为并未发生双讲，否则认为发生双讲。

由于语音信号是非平稳信号，表现在时域或频域上为非连续信号。因此并不需要一直检测第一输入信号的第一声纹特征，或第二输入信号的第二声纹特征，可以先检测第一输入信号或第二输入信号中是否有语音信号，如果存在语音信号，则提取第一输入信号或第二输入信号的声纹特征。下面通过具体的实施例来详细描述。

如图6所示，本发明实施例提供的一种近端语音信号检测方法，包括：

步骤601：接收第一输入信号以及第二输入信号，所述第一输入信号为移动终端接收到的远端信号，所述第二输入信号为所述移动终端接收到的近端信号；

步骤602：检测所述第一输入信号是否大于第二门限值，以及检测所述第二输入信号是否大于第三门限值；

步骤603：若所述第一输入信号大于第二门限值，且所述第二输入信号大于第三门限值，则提取所述第一输入信号的第一声纹特征，以及提取所述第二输入信号的第二声纹特征，确定所述第一声纹特征与所述第二声纹特征的距离，根据所述距离确定所述第二输入信号中是否存在近端语音信号。

在步骤601中接收到的第一输入信号为远端信号。远端信号是经过编码、调制，并需要被扬声器等设备播放的信号。

第二输入信号，即近端信号，是由麦克风等音频接收传感器接收到的信号，可能包括远端信号经过回声路径形成的声学回波信号、环境噪声信号以及近端语音信号中的一种或多种组合，第二输入信号中的声学回波信号是需要消除的信号。

在步骤602中，分别检测第一输入信号以及第二输入信号中是否具有语音信号特征的信号，检测的方法有多种，可以通过语音活性检测算法进行检测，也可以通过其他方法进行检测，本发明实施例对此并不限定。

在步骤602中，第二门限值可以是预设的信号能量与噪声能量比的短时能量差，当检测到第一输入信号的短时能量差高于第二门限值时，确定第一输入信号为语音信号。对应的，第三门限值可以是预设的信号能量与噪声能量比的短时能量差

在步骤602中，由于第二输入信号中包含由远端信号经过回声路径形成的声学回波信号时，会产生一定的延时，导致与第一输入信号之间不同步，第二输入信号相对于第一输入信号有一定的滞后。如果不对第一输入信号进行延时处理，直接检测第一输入信号是否大于所述第二门限值，那么需要将第一输入信号的检测结果与第二输入信号在经过延时后的检测结果相比较；如果对第一输入信号进行延时处理，那么需要将第一输入信号的检测结果与同一时间点第二输入信号的检测结果相比较。

综上所述，检测第一输入信号在第一时间点是否大于所述第二门限值，以及检测第二输入信号在第二时间点是否大于第三门限值，其中，第二时间点为第一时间点经过延时后的时间点，延时的时间长度可以根据实际情况确定。由上面的描述可知，延时的时间长度的取值可以分为下面两种情况：

第一种，不对第一输入信号进行延时处理，此时延时的时间长度大于0，即第二时间点为第一时间点之后的时间点；延时的时间长度的具体取值可以根据远端信号在回波路径中的延时确定；

第二种，对第一输入信号进行延时处理，此时延时的时间长度等于0，即第二时间点与第一时间点重合。

最后，在步骤603中，对第一输入信号和第二输入信号的检测结果可以分为以下三种情况：

一、若第二输入信号小于第三门限值，则确定第二输入信号在第二时间点不存在近端语音信号；

二、若第一输入信号小于第二门限值，且第二输入信号大于第三门限值，则确定第二输入信号在第二时间点存在近端语音信号。

三、若第一输入信号大于第二门限值，且第二输入信号大于第三门限值，则提取第一输入信号的第一声纹特征，以及提取第二输入信号的第二声纹特征，确定第一声纹特征与第二声纹特征的距离，根据距离确定所述第二输入信号中是否存在近端语音信号。

第三种情况中，若第一声纹特征与第二声纹特征的距离小于第四门限值，则确定第二输入信号在第二时间点不存在近端语音信号，否则，确定第二输入信号在所述第二时间点存在近端语音信号。其中，这里的“第四门限值”与图2所示流程中的“第一门限值”取值可以相同也可以不同。

具体如何提取第一输入信号的第一声纹特征，以及提取第二输入信号的第二声纹特征，可以参考前一实施例的描述，在此不再赘述。

当确定第二输入信号中存在近端语音信号之后，向移动终端的自适应滤波器发送指示信息，所述指示信息用于指示所述自适应滤波器暂停更新滤波器系数。

根据以上图6所示流程的描述，图7示出了两种具体应用场景的示意图。

图7给出了基于VAD并利用麦克风输出信号y(n)和远端输入信号x(n)来进行双讲检测的实施例。如图所示，对远端输入信号x(n)进行VAD监测，如果有语音信号，则对信号x(n)提取声纹特征矢量VPx，否则，不作处理。对下行链路中的麦克风输出信号y(n)进行VAD监测，如果有语音信号，则对信号y(n)提取声纹特征矢量VPy，否则，不作处理。在声纹特征矢量VPx可使用时开始等待直到声纹特征矢量VPy可使用时即刻进行模式匹配处理。具体如下：

为了方便，标记下行链路的VAD在第t个时刻的值为DL_VAD(t)，上行链路的VAD在第t个时刻的值为UL_VAD(t)，如果DL_VAD(t)＝0并且UL_VAD(t)＝1时，则判定为双讲；如果DL_VAD(t)＝0并且UL_VAD(t)＝0时，则判定为单讲；如果DL_VAD(t)＝1并且UL_VAD(t+t0)＝1(这里t0>0)时，则按声纹识别技术判决是否为双讲。这里所提取的声纹特征矢量可以是MFCC型特征参数，也可以是能有效表征和鉴别输入信号的任何其它类型的特征参数。所采用的“模式匹配”技术可以是特征矢量间的距离匹配技术，也可以是特征矢量间的其它“相似度”匹配技术。

针对上述方法流程，本发明实施例还提供一种近端语音信号检测装置，该装置的具体内容可以参照上述方法实施，在此不再赘述。

如图8所示，本发明实施例提供了一种近端语音信号检测装置，包括：

接收单元801，用于接收第一输入信号以及第二输入信号，所述第一输入信号为移动终端接收到的远端信号被线性或非线性变换后所得到的信号，所述第二输入信号为所述移动终端接收到的近端信号；

提取单元802，用于提取所述第一输入信号的第一声纹特征，以及所述第二输入信号的第二声纹特征；

确定单元803，用于确定所述第一声纹特征与所述第二声纹特征的距离；根据所述距离确定所述第二输入信号中是否存在近端语音信号。

较佳的，所述确定单元803具体用于：

较佳的，所述确定单元803还用于：

如图9所示，本发明实施例提供了一种近端语音信号检测装置，包括：

接收单元901，用于接收第一输入信号以及第二输入信号，所述第一输入信号为移动终端接收到的远端信号，所述第二输入信号为所述移动终端接收到的近端信号；

检测单元902，用于检测所述第一输入信号是否大于第二门限值，以及检测所述第二输入信号是否大于第三门限值；

确定单元903，用于确定所述第一输入信号大于第二门限值，且所述第二输入信号大于第三门限值时，提取所述第一输入信号的第一声纹特征，以及提取所述第二输入信号的第二声纹特征，确定所述第一声纹特征与所述第二声纹特征的距离，根据所述距离确定所述第二输入信号中是否存在近端语音信号。

较佳的，所述检测单元902用于：

检测所述第一输入信号在第一时间点是否大于所述第二门限值，以及检测所述第二输入信号在第二时间点是否大于所述第三门限值，所述第二时间点为所述第一时间点经过延时之后的时间点。

较佳的，所述确定单元903具体用于：

较佳的，所述确定单元903还用于：

综上所述，根据本发明实施例提供的方法及装置，本发明实施例中通过提取远端语音信号的第一声纹特征，以及音频接收设备的输出信号中的第二声纹特征，通过对比第一声纹特征与第二声纹特征确定是否发生双讲。通过本发明实施例提供的方法，避免了现有技术中以假设声学回波路径中非线性失真很小而忽略不计以及假设环境噪声平稳为前提条件去检测是否发生双讲时产生的误判等情况，从而更准确的实现双讲检测。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种近端语音信号检测方法，其特征在于，包括：

接收第一输入信号以及第二输入信号，所述第一输入信号为移动终端接收到的远端信号被变换后所得到的信号，所述第二输入信号为所述移动终端接收到的近端信号；

提取所述第一输入信号的第一声纹特征矢量，以及所述第二输入信号的第二声纹特征矢量；

确定所述第一声纹特征矢量与所述第二声纹特征矢量之间的差的范数，以确定所述第一声纹特征矢量与所述第二声纹特征矢量之间的距离；

比较所述距离与第一门限值，以确定所述第二输入信号中是否存在近端语音信号；其中，在所述接收第一输入信号以及第二输入信号前，所述方法还包括：检测第一输入信号中是否存在语音信号。

2.根据权利要求1所述的方法，其特征在于，所述第一输入信号为所述移动终端的自适应滤波器输出的回波估计信号，所述回波估计信号是所述自适应滤波器对所述远端信号进行线性或非线性滤波得到的。

3.根据权利要求1所述的方法，其特征在于，所述第一输入信号为所述远端信号被线性延时后得到的信号。

4.根据权利要求1所述的方法，其特征在于，所述比较所述距离与第一门限值，以确定所述第二输入信号中是否存在近端语音信号，包括：

判断所述距离是否小于所述第一门限值，若是，则确定所述第二输入信号中不存在近端语音信号，否则，确定所述第二输入信号中存在近端语音信号。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述确定所述第二输入信号中存在近端语音信号之后，还包括：

6.一种近端语音信号检测方法，其特征在于，包括：

若所述第一输入信号大于第二门限值，且所述第二输入信号大于第三门限值，则提取所述第一输入信号的第一声纹特征矢量，以及提取所述第二输入信号的第二声纹特征矢量，确定所述第一声纹特征矢量与所述第二声纹特征矢量之间的差的范数，以确定所述第一声纹特征矢量与所述第二声纹特征矢量之间的距离，比较所述距离与第四门限值，以确定所述第二输入信号中是否存在近端语音信号；

其中，在所述接收第一输入信号以及第二输入信号前，所述方法还包括：检测第一输入信号中是否存在语音信号。

7.根据权利要求6所述的方法，其特征在于，所述检测所述第一输入信号是否大于第二门限值，以及检测所述第二输入信号是否大于第三门限值，包括：

8.根据权利要求7所述的方法，其特征在于，所述比较所述距离与第四门限值，以确定所述第二输入信号中是否存在近端语音信号，包括：

若所述距离小于所述第四门限值，则确定所述第二输入信号在所述第二时间点不存在近端语音信号，否则，确定所述第二输入信号在所述第二时间点存在近端语音信号。

9.根据权利要求7所述的方法，其特征在于，还包括：

10.根据权利要求6至9任一项所述的方法，其特征在于，确定所述第二输入信号中存在近端语音信号之后，还包括：

11.一种近端语音信号检测装置，其特征在于，包括：

接收单元，用于接收第一输入信号以及第二输入信号，其中，所述第一输入信号为移动终端接收到的远端信号被变换后所得到的信号，所述第二输入信号为所述移动终端接收到的近端信号；

提取单元，用于提取所述第一输入信号的第一声纹特征矢量以及所述第二输入信号的第二声纹特征矢量；以及

确定单元，用于确定所述第一声纹特征矢量与所述第二声纹特征矢量之间的差的范数，以确定所述第一声纹特征矢量与所述第二声纹特征矢量之间的距离，并比较所述距离与第一门限值，以确定所述第二输入信号中是否存在近端语音信号；

其中，所述接收单元还用于在所述接收第一输入信号以及第二输入信号前，检测第一输入信号中是否存在语音信号。

12.根据权利要求11所述的装置，其特征在于，所述第一输入信号为所述移动终端的自适应滤波器输出的回波估计信号，所述回波估计信号是所述自适应滤波器对所述远端信号进行线性或非线性滤波得到的。

13.根据权利要求11所述的装置，其特征在于，所述第一输入信号为所述远端信号被线性延时后得到的信号。

14.根据权利要求11所述的装置，其特征在于，所述确定单元具体用于：

15.根据权利要求11至14中任一项所述的装置，其特征在于，所述确定单元还用于：

16.一种近端语音信号检测装置，其特征在于，包括：

接收单元，用于接收第一输入信号以及第二输入信号，其中，所述第一输入信号为移动终端接收到的远端信号，所述第二输入信号为所述移动终端接收到的近端信号；

检测单元，用于检测所述第一输入信号是否大于第二门限值以及检测所述第二输入信号是否大于第三门限值；以及

确定单元，用于在确定所述第一输入信号大于所述第二门限值且所述第二输入信号大于所述第三门限值时，提取所述第一输入信号的第一声纹特征矢量，以及提取所述第二输入信号的第二声纹特征矢量，确定所述第一声纹特征矢量与所述第二声纹特征矢量之间的差的范数，以确定所述第一声纹特征矢量与所述第二声纹特征矢量之间的距离，并比较所述距离与第四门限值，以确定所述第二输入信号中是否存在近端语音信号；

17.根据权利要求16所述的装置，其特征在于，所述检测单元用于：

18.根据权利要求17所述的装置，其特征在于，所述确定单元具体用于：

19.根据权利要求17所述的装置，其特征在于，所述确定单元还用于：

20.根据权利要求16至19任一项所述的装置，其特征在于，所述确定单元还用于：

21.根据权利要求1所述的近端语音信号检测方法，其中，所述第一、第二声纹特征矢量为表达语音特性的特征矢量，包括语音信号帧的Mel频率的倒谱系数。

22.根据权利要求6所述的近端语音信号检测方法，其中，所述第一、第二声纹特征矢量为表达语音特性的特征矢量，包括语音信号帧的Mel频率的倒谱系数。

23.根据权利要求11所述的近端语音信号检测装置，其中，所述第一、第二声纹特征矢量为表达语音特性的特征矢量，包括语音信号帧的Mel频率的倒谱系数。

24.根据权利要求16所述的近端语音信号检测装置，其中，所述第一、第二声纹特征矢量为表达语音特性的特征矢量，包括语音信号帧的Mel频率的倒谱系数。