CN109068012A

CN109068012A - 一种用于音频会议系统的双端通话检测方法

Info

Publication number: CN109068012A
Application number: CN201810733912.8A
Authority: CN
Inventors: 梁瑞宇; 王青云; 何超; 丁帆; 徐飞; 陶宇
Original assignee: Nanjing Shibaolian Information Technology Co Ltd
Current assignee: Nanjing Shibaolian Information Technology Co Ltd
Priority date: 2018-07-06
Filing date: 2018-07-06
Publication date: 2018-12-21
Anticipated expiration: 2038-07-06
Also published as: CN109068012B

Abstract

本发明公开了一种用于音频会议系统的双端通话检测方法，包括步骤(A)，对音频会议系统的近端信号d(n)和远端参考信号x(n)进行语音活性检测；步骤(B)，根据语音活性检测结果，判断该音频会议系统处于静默状态、单近状态或者远端有语音状态；步骤(C)，若该音频会议系统为远端有语音状态，根据功率谱计算结果，判断是单远状态或者是双端通话状态。本发明的用于音频会议系统的双端通话检测方法，通过语音活性检测、功率谱计算，来区别音频会议系统的静默状态、单近状态、单远状态或者双端通话状态四种状态，提高双端状态判断的准确度，进而可以改善后端非线性回声抑制能力，具有良好的应用前景。

Description

一种用于音频会议系统的双端通话检测方法

技术领域

本发明涉及语音信号处理技术领域，具体涉及一种用于音频会议系统的双端通话检测方法。

背景技术

回声是指扬声器播出的声音在被受话方听到的同时，也通过多种路径被麦克风拾取到。多路径反射的结果产生了不同延时的回声，包括直接回声和间接回声，其中直接回声是指由扬声器播出的声音未经任何反射直接进入麦克风，这种回声的延时最短，它同远端说话者的语音能量、扬声器与麦克风之间的距离、角度、扬声器的播放音量、麦克风的拾取灵敏度等因素直接相关；而间接回声是指由扬声器播出的声音经过不同的路径的一次或多次反射后进入麦克风所产生的回声的集合，房屋内的任何物体的任何变动都会改变回声的通道，因此，这种回声的特点是多路径的、时变的。

如果在不做任何回声处理的情况下，回声会不断叠加形成啸叫，用户体验会变得很差。回声消除就是将输入给麦克风的信号中的回声成分消除，比较常见的算法有归一化最小均方算法、分块频域自适应滤波算法。但是，这些算法只能线性消除回声，对于非线性的残留回声只能采用非线性的方法来消除。

但是，对于非线性的回声消除方法，常常依赖于双端通话状态检测的精度，所谓双端是指音频会议系统两端的说话人同时说话。在实际应用中，双端通话的持续时间虽然低于单端讲话，但是如果不检测出双端通话，会严重干扰回声消除滤波器的性能，从而严重影响非线性回声消除算法效果。当前，基于相关性系数的双端通话检测是常用的方法之一。但是，该方法通过对比每帧的相关性系数来决定是否为双端通话状态，其精度易受设定阈值限制，通常会发生误判。

如何克服上述问题，是当前需要解决的问题。

发明内容

本发明的目的是解决传统的非线性回声消除方法中双端通话状态检测度不高的问题。本发明的用于音频会议系统的双端通话检测方法，通过语音活性检测、功率谱估计，来区别音频会议系统的静默状态、单近状态、单远状态或者双端通话状态四种状态，提高双端通话状态判断的准确度，进而为改善后端非线性回声抑制能力提供依据，具有良好的应用前景。

为了达到上述目的，本发明所采用的技术方案是：

一种用于音频会议系统的双端通话检测方法，包括以下步骤，

步骤(A)，对音频会议系统的近端信号d(n)和远端参考信号x(n)进行语音活性检测；

步骤(B)，根据语音活性检测结果，判断该音频会议系统为静默状态、单近状态或者远端有语音状态，

(B1)若近端信号d(n)和远端参考信号x(n)都无语音时，则该音频会议系统的状态为静默状态；

(B2)，若近端信号d(n)有语音，而远端参考信号x(n)无语音时，则该音频会议系统的状态为单近状态；

(B3)，若远端参考信号x(n)有语音，则该音频会议系统的状态为远端有语音状态；

步骤(C)，若该音频会议系统为远端有语音状态，根据功率谱计算结果，判断是单远状态或者是双端通话状态。

前述的一种用于音频会议系统的双端通话检测方法，步骤(C)，若该音频会议系统为远端有语音状态，根据功率谱计算结果，判断是单远状态或者是双端通话状态，包括以下步骤，

(C1)，计算近端信号d(n)、远端参考信号x(n)和残差信号e(n)的功率谱能量Sd(k)、Sx(k)和Se(k)，如公式(1)所示，

其中，D(k)、X(k)和E(k)分别是近端信号d(n)、远端参考信号x(n)和残差信号e(n)的傅里叶变换；α为功率谱平滑系数；

(C2)，计算近端信号d(n)和远端参考信号x(n)，近端信号d(n)和残差信号 e(n)的互功率谱能量Sxd(k)和Sde(k)，如公式(2)所示，

(C3)，计算近端信号d(n)和远端参考信号x(n)，近端信号d(n)和残差信号 e(n)的第一组相关性指标P_de1和P_xd1，如公式(3)所示，

其中，N为傅里叶变换长度的一半；

(C4)，计算近端信号d(n)和远端参考信号x(n)，近端信号d(n)和残差信号 e(n)的第二组相关性指标P_de2和P_xd2，如公式(4)所示，

其中，Sd(k)、Sx(k)和Se(k)分别为近端信号d(n)、远端参考信号x(n)和残差信号e(n)的功率谱能量；cov函数为协方差函数；δ_Sx、δ_Sd、δ_Se分别为Sd(k)、Sx(k) 和Se(k)的方差；

(C5)，计算第一组相关性指标P_de1和P_xd1、第二组相关性指标P_de2和P_xd2联合相关性指标P_de、P_xd，如公式(5)所示，

其中，β为联合相关性指标系数；

(C6)，当P_de大于T1且P_xd大于T2时，则该音频会议系统为双端通话状态；否则为单远状态，其中，T1为表征近端信号d(n)和残差信号e(n)相关性阈值，T2 为表征近端信号d(n)和远端参考信号x(n)相关性阈值。

前述的用于音频会议系统的双端通话检测方法，(C1)，所述α为功率谱平滑系数，且取值范围在0-1之间。

前述的用于音频会议系统的双端通话检测方法，(C5)，所述β为联合相关性指标系数，且取值范围在0-1之间。

前述的用于音频会议系统的双端通话检测方法，(C6)，T1、T2的取值范围均在0-1之间。

前述的用于音频会议系统的双端通话检测方法，步骤(A)，对音频会议系统的近端信号d(n)和远端参考信号x(n)进行语音活性检测，是采用高斯混合模型进行处理。

本发明的有益效果是：本发明的用于音频会议系统的双端通话检测方法，通过语音活性检测、功率谱估计，来区别音频会议系统的静默状态、单近状态、单远状态或者双端通话状态四种状态，提高双端通话状态判断的准确度，进而为改善后端非线性回声抑制能力提供依据，具有良好的应用前景。

附图说明

图1是本发明的用于音频会议系统的双端通话检测方法的流程图。

具体实施方式

下面将结合说明书附图，对本发明作进一步的说明。

如图1所示，本发明的用于音频会议系统的双端通话检测方法，包括以下步骤，

步骤(A)，对音频会议系统的近端信号d(n)和远端参考信号x(n)进行语音活性检测，该计算过程是采用高斯混合模型进行处理，高斯分布又称为正态分布，若随机变量X服从一个数学期望为μ，标准差为σ²的高斯分布，则X～N(μ,σ²)，其概率密度函数为：

在进行语音活性检测时，定义函数

x_k是六个子带的能量(子带是80～250Hz，250～500Hz，500Hz～1K，1～2K， 2～3K，3～4KHz)，r_k是均值u_z和方差σ²的参数结合，这两个参数决定了高斯分布的概率Z，Z＝0情况是计算噪声的概率，Z＝1是计算是语音的概率，噪声和语音的频谱差异以一个个波峰和波谷的形式呈现。基于这一假设，算法将频谱分成了6个子带。它们是：80Hz～250Hz，250Hz～500Hz，500Hz～1K，1K～2K，2K～3K，3K～4K。以1KHz为分界，向下500HZ，250Hz以及80HZ三个段，向上也有三个段，每个段是1KHz，这一频段涵盖了语音中绝大部分的信号能量，且能量越大的子带的区分度越细致。我国交流电标准是220V～50Hz，电源50Hz 的干扰会混入麦克风采集到的数据中且物理震动也会带来影响，所以取了80Hz 以上的信号。为减小计算量，将不同输入采样率(48KHz，32HKz，16KHz)都下采样到8KHz，这样根据莱奎斯特频率定理，有用的频谱就是4KHz以下，六个子带的上限频率为4KHz。如果采用8KHz截止频率就需要重新训练和修改高斯模型的参数，其中，VAD(语音激活检测)算法中，用到了两个聚类，一个类是语音，一个类是噪声。对每帧信号都求其语音和噪声的概率，根据概率进行聚类，当然为了避免一帧带来的误差，会有延时统计判决；

步骤(B)，根据语音活性检测结果，判断该音频会议系统的静默状态、单近状态或者远端有语音状态，

步骤(C)，若该音频会议系统为远端有语音状态，根据功率谱计算结果，判断是单远状态或者是双端通话状态，包括以下步骤，

其中，N为傅里叶变换长度的一半；

其中，β为联合相关性指标系数；

优选的，(C1)所述α为功率谱平滑系数，且取值范围在0-1之间。

优选的，(C5)所述β为联合相关性指标系数，且取值范围在0-1之间。

优选的，(C6)T1、T2的取值范围均在0-1之间。

综上所述，本发明的用于音频会议系统的双端通话检测方法，通过语音活性检测、功率谱估计，来区别音频会议系统的静默状态、单近状态、单远状态或者双端通话状态四种状态，提高双端状态判断的准确度，进而为改善后端非线性回声抑制能力，提供依据，具有良好的应用前景。

以上内容描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种用于音频会议系统的双端通话检测方法，其特征在于：包括以下步骤，

2.根据权利要求1所述的一种用于音频会议系统的双端通话检测方法，其特征在于：步骤(C)，若该音频会议系统为远端有语音状态，根据功率谱计算结果，判断是单远状态或者是双端通话状态，包括以下步骤，

(C2)，计算近端信号d(n)和远端参考信号x(n)，近端信号d(n)和残差信号e(n)的互功率谱能量Sxd(k)和Sde(k)，如公式(2)所示，

(C3)，计算近端信号d(n)和远端参考信号x(n)，近端信号d(n)和残差信号e(n)的第一组相关性指标P_de1和P_xd1，如公式(3)所示，

其中，N为傅里叶变换长度的一半；

(C4)，计算近端信号d(n)和远端参考信号x(n)，近端信号d(n)和残差信号e(n)的第二组相关性指标P_de2和P_xd2，如公式(4)所示，

其中，Sd(k)、Sx(k)和Se(k)分别为近端信号d(n)、远端参考信号x(n)和残差信号e(n)的功率谱能量；cov函数为协方差函数；δ_Sx、δ_Sd、δ_Se分别为Sd(k)、Sx(k)和Se(k)的方差；

其中，β为联合相关性指标系数；

(C6)，当P_de大于T1且P_xd大于T2时，则该音频会议系统为双端通话状态；否则为单远状态，其中，T1为表征近端信号d(n)和残差信号e(n)相关性阈值，T2为表征近端信号d(n)和远端参考信号x(n)相关性阈值。

3.根据权利要求2所述的用于音频会议系统的双端通话检测方法，其特征在于：(C1)，所述α为功率谱平滑系数，且取值范围在0-1之间。

4.根据权利要求2所述的用于音频会议系统的双端通话检测方法，其特征在于：(C5)，所述β为联合相关性指标系数，且取值范围在0-1之间。

5.根据权利要求2所述的用于音频会议系统的双端通话检测方法，其特征在于：(C6)，T1、T2的取值范围均在0-1之间。

6.根据权利要求1所述的用于音频会议系统的双端通话检测方法，其特征在于：步骤(A)，对音频会议系统的近端信号d(n)和远端参考信号x(n)进行语音活性检测，是采用高斯混合模型进行处理。