CN101557443A

CN101557443A - 数字电话会议的桥路运算方法

Info

Publication number: CN101557443A
Application number: CNA2009101038240A
Authority: CN
Inventors: 黄河清; 高世幸; 廖红云
Original assignee: Chongqing Jinmei Communication Co Ltd
Current assignee: Chongqing Jinmei Communication Co Ltd
Priority date: 2009-05-11
Filing date: 2009-05-11
Publication date: 2009-10-14
Anticipated expiration: 2029-05-11
Also published as: CN101557443B

Abstract

本发明公开了一种数字电话会议的桥路运算方法，其特征在于：采用时延抖动处理机制对多网段码流整形；采用单帧检测与长时窗检测相结合的VAD语音激活检测与采样率匹配算法，减少进入桥路运算的无效通道数并降低运算误判率；采用短时幅度运算及漏斗混音运算，降低运算量。本发明的有益技术效果是：1)适应分组网环境下的大时延抖动，并可提供多网段的码流整形，为终端提供连续、均匀的话音码流，提高解码后话音听觉质量。2)采用VAD语音激活检测与采样率匹配算法，减少进入桥路运算的无效通道数，并降低桥路运算误判率。3)采用短时幅度运算及漏斗混音方法，极大地降低运算量，并避免冲击干扰造成的桥路误判，提高桥路混音的质量。

Description

数字电话会议的桥路运算方法

技术领域

本发明涉及一种数字电话技术，尤其涉及一种数字电话会议的桥路运算方法。

背景技术

通常的话音会议运算是采用波形叠加方式实现，该方式在参会通道数较大时，波形失真明显加剧，话音质量甚至达到难以分辩的程度，并且叠加后的信号幅度呈现一种衰弱起伏现象，话音增益不稳定，话音听觉效果不自然。

发明内容

本发明提出了一种数字电话会议的桥路运算方法，该方法采用时延抖动处理机制对多网段码流整形；采用单帧检测与长时窗检测相结合的VAD语音激活检测与采样率匹配算法，减少进入桥路运算的无效通道数和运算误判率；采用短时幅度运算及漏斗混音运算，降低运算量。

时延抖动处理机制包括：系统接收端对接收到的信号进行FIFO缓冲后再对信号进行解码，FIFO深度30ms；同时，系统发送端每10ms在桥路运算处理后对各通道送出均匀、连续的10ms码流量；系统每10ms进行一次桥路运算。

单帧检测与长时窗检测相结合的VAD语音激活检测，包括：从各个通道解码后的语音帧中提取4种语音特征参数，根据4种语音特征参数与对应的背景噪声的运行平均值的差值构造判据，根据判据进行单帧检测，根据单帧检测结果进行长时窗检测，根据长时窗检测结果确定该语音通道状态。

4种语音特征参数与对应的背景噪声的运行平均值的差值构造出的判据如下：

1)if ΔS＞a₁ΔZCR+b₁ then I_VD＝1；

2)if ΔS＞a₁ΔZCR+b₂ then I_VD＝1；

3)if ΔE_f＜a₃ΔZCR+b₃ then I_VD＝1；

4)if ΔE_f＜a₄×ΔZCR+b₄ then I_VD＝1；

5)if ΔE_f＜b₅ then I_VD＝1；

6)if ΔE_f＜a₆×ΔS+b₆ then I_VD＝1；

7)if ΔS＞b₇ then I_VD＝1；

8)if ΔE_l＜a₈×ΔZCR+b₈ then I_VD＝1；

9)if ΔE_l＜a₉×ΔZCR+b₉ then I_VD＝1；

10)if ΔE_l＜b₁₀ then I_VD＝1；

11)if ΔE_l＜a₁₁×ΔS+b₁₁ then I_VD＝1；

12)if ΔE_l＞a₁₂×ΔE_f+b₁₂ then I_VD＝1；

13)if ΔE_l＜a₁₃×ΔE_f+b₁₃ then I_VD＝1；

14)if ΔE_l＜a₁₄×ΔE_f+b₁₄ then I_VD＝1；

I_VD＝1表示当前语音通道为激活状态；I_VD＝0表示当前语音通道为非激活状态；

其中，

ΔS = Σ_{i = 1}^{10} {({LSF}_{i} - \overset{&OverBar;}{{LSF}_{i}})}^{2},

ΔE_f＝E_j-E_f，AE_l＝E_l-E_l，

ΔZCR＝ZCR-ZCR，

LSF_i为语音特征参数中的线谱频率；E_f为语音特征参数中的全带能量；E_l为语音特征参数中的子带能量；ZCR为语音特征参数中的归一过零率；

LSF_i，E_f，E_l，ZCR为：分别与前述4种语音特征参数对应的背景噪声的运行平均值，此运行平均值分别为4种语音特征参数在前32帧的平均值；

前述14个判据中的常量取值见下表：

a₁	23448	a₈	16384	b₁	28521	b₈	-22938
a₁	23448	a₈	16384	b₁	28521	b₈	-22938	a₂	-30504	a₉	-19065	b₂	19446	b₉	-31576
a₃	-32768	a₁₀	0	b₃	-32802	b₁₀	-17367	a₂	-30504	a₉	-19065	b₂	19446	b₉	-31576
a₃	-32768	a₁₀	0	b₃	-32802	b₁₀	-17367	a₄	26214	a₁₁	22400	b₄	-19661	b₁₁	-27034
a₅	0	a₁₂	30427	b₅	30199	b₁₂	29959	a₄	26214	a₁₁	22400	b₄	-19661	b₁₁	-27034
a₅	0	a₁₂	30427	b₅	30199	b₁₂	29959	a₆	28160	a₁₃	-24576	b₆	-22938	b₁₃	-29491
a₇	0	a₁₄	23406	b₇	-31576	b₁₄	-28087	a₆	28160	a₁₃	-24576	b₆	-22938	b₁₃	-29491

判据处理样点长度10ms，采样率8khz；对上述14个判据作出判断的过程即为单帧检测，单帧检测结果作为长时窗检测的输入；

300ms长时窗检测包括：若由前述14个判据作出的判断结果在300ms长时窗内均为I_VD＝1，则判断当前语音通道为活动通道；若由前述14个判据作出的判断结果在300ms长时窗内均为I_VD＝0，则判断当前语音通道为非活动通道；若由前述14个判据作出的判断结果在300ms长时窗中，I_VD＝1和I_VD＝0同时存在，则判断该语音通道保持为前一状态；语音通道状态为活动通道时，该通道才参与桥路运算，否则该通道不参与桥路运算。

前述的4种语音特征参数：

线谱频率：{LSF_i}，i＝1，…10，由线性预测分析得到的一组线谱频率LSF系数。

全带能量：

E_{f} = 10 * \log_{10} [\frac{1}{N} R (0)],

其中R(0)为输入语音的第一个自相关系数，N＝240为LPC分析窗的长度。

子带能量：

E_{l} = 10 * \lg [\frac{1}{N} h^{T} Rh],

该特征参数是指输入语音在0-1kHz频段的能量，其中h为截止频率1kHz的FIR滤波器的冲击响应，R为13阶托伯里兹自相关系数矩阵。

归一过零率：

ZCR = \frac{1}{2 M} Σ_{i = 0}^{M - 1} [| sgn [x (i)] - sgn [x (i - 1)] |],

其中{x(i)}为输入语音信号，i为序数，M＝80为编码的帧长度。

短时幅度运算和采样率匹配算法，包括：进行路桥运算之前，将各通道的采样率统一转换为8khz的采样率，进行短时幅度运算后，再进行桥路运算，待桥路运算结束后，将各通道的采样率还原为各个通道的原采样率；

内插处理首先对原样点进行零值内插，然后采用截止频率为4khz的低通滤波器对插值信号进行滤波处理；

抽取处理采用抽取因子为2的抽取器进行级联处理，若通道原采样率为f_S，将频率在f_S/4以上的频率分量全部滤除。

漏斗混音运算包括：在10ms单位桥路处理周期内，对各通道进行短时幅度和计算，得出短时幅度和最大通道及短时幅度和第二大通道，将短时幅度和第二大通道的话音信息送给发言者通道，将短时幅度和最大通道话音信息发送给其他所有参会通道。

本发明方法的完整步骤如下：系统对接收到的不同网段信号：1)进行FIFO缓冲，2)解码，3)VAD语音激活检测，4)采样率匹配，5)短时幅度计算，6)桥路运算，7)采样率还原，8)漏斗混音运算，9)系统发送端每10ms对各通道送出均匀、连续的10ms码流量；桥路运算周期10ms。

本发明的有益技术效果是：1)适应分组网环境下的大时延抖动，并可提供多网段的码流整形，为终端提供连续、均匀的话音码流，提高解码后话音听觉质量。2)采用单帧检测与长时窗检测相结合的VAD语音激活检测与采样率匹配算法，减少进入桥路运算的无效通道数，并降低桥路运算误判率。3)采用短时幅度运算及漏斗混音方法，极大地降低运算量，并避免冲击干扰造成的桥路误判，提高桥路混音的质量。

附图说明

图1，本发明处理流程示意图；

图2，FIFO处理流程示意图；

图3，抽取率为M＝2时信号抽取处理流程图；

图4，抽取率为M＝2时信号抽取处理前频谱图；

图5，抽取率为M＝2时信号抽取处理后频谱图；

具体实施方式

针对背景技术中现有技术的不足，本发明提出了一种数字电话会议的桥路运算方法，参见附图1，本发明方法的流程可概括如下：系统对接收到的不同网段信号：1)进行FIFO缓冲，2)解码，3)单帧检测与长时窗检测相结合的VAD语音激活检测(即图中的VAD计算)，4)采样率匹配，5)短时幅度计算，6)桥路运算，7)采样率还原，8)漏斗混音运算，9)系统发送端每10ms对各通道送出均匀、连续的10ms码流量；桥路运算周期10ms。

桥路运算周期选择10ms的依据：人的语音特性(主要由清音、浊音组成)中，清音为类白噪声信号，浊音由声带振动发生，具有缓变性、周期性，大致可以认为在10-30ms短时间间隔内语音信号的特性基本上是固定不变的；根据以上理论结果，本发明中的桥路运算处理周期确定为10ms(根据语音基音周期范围)；

前述方法流程中的步骤1)和9)共同构成时延抖动处理机制，该机制对信号产生整形效果，可有效消除网络时延抖动。其原理如下：

为了有效平滑网络时延抖动形成的数据突发性对会议桥路效果的影响，在接收端(即图1中网络收接口)采用FIFO缓冲方式，FIFO深度可根据实际资源进行设计，经过试验测试，FIFO深度达到30ms即可达到良好的平滑效果，FIFO处理流程参见图2；为了匹配接收端的FIFO平滑效果，在发送端(网络发接口)设计为每10ms在桥路运算处理后对各通道送出均匀、连续的10ms码流量，实现对各通道的码流整形，经过试验验证，该收发端的匹配设计可以降低收端的FIFO深度，并明显改善网络多级路由带来的时延抖动累积效应，极大提升会议桥路处理质量，使终端话机接收的会场语音更加流畅、清晰；

早期的语音检测算法只抽取语音的单一特征参数，如短时功率，而且判决门限是固定的，很难适应实际应用中背景噪声变化的特点；本发明的单帧检测与长时窗检测相结合的VAD语音激活检测所起的作用是使噪声通道无法进入桥路运算，具体做法是：在各通道解码器进行解码后对各通道进行单帧检测与长时窗检测相结合的VAD语音激活检测，剔除部分静音或低噪声通道，其核心是：

VAD语音激活检测采用单帧检测与长时开窗口判断(即长时窗检测)相结合的方式提高检测的正确度与有效性；单帧检测处理的样点长度为10ms，采样率为8khz，对语音帧中提取以下4种语音特征参数：

(1)线谱频率：{LSF_i}，i＝1，…10，由线性预测分析得到的一组线谱频率LSF系数。

(2)全带能量：

E_{f} = 10 * \log_{10} [\frac{1}{N} R (0)],

(3)子带能量：

E_{l} = 10 * \lg [\frac{1}{N} h^{T} Rh],

(4)归一过零率：

ZCR = \frac{1}{2 M} Σ_{i = 0}^{M - 1} [| sgn [x (i)] - sgn [x (i - 1)] |],

其中{x(i)}为输入语音信号，i为序数，M＝80为编码的帧长度。

对每一帧所抽取的4个参数不直接与相应门限进行比较，而是利用它们与背景噪声的运行平均值的差值构造判据；这里背景噪声的运行平均值定义为上述4个特征参数在前32帧的平均值，分别表示为ZSF_i，E_f，E_l，ZCR，4个参数与背景噪声的运行平均值的差值分别为：

ΔS = Σ_{i = 1}^{10} {({LSF}_{i} - \overset{&OverBar;}{{LSF}_{i}})}^{2},

ΔE_f＝E_f-E_f，AE_l＝E_l-E_l，ΔZCR＝ZCR-ZCR，

由此构建出的判据如下：

1)if ΔS＞a₁ΔZCR+b₁ then I_VD＝1；

2)if ΔS＞a₁ΔZCR+b₂ then I_VD＝1；

3)if ΔE_f＜a₃ΔZCR+b₃ then I_VD＝1；

4)if ΔE_f＜a₄×ΔZCR+b₄ then I_VD＝1；

5)if ΔE_f＜b₅ then I_VD＝1；

6)if ΔE_f＜a₆×ΔS+b₆ then I_VD＝1；

7)if ΔS＞b₇ then I_VD＝1；

8)if ΔE_l＜a₈×ΔZCR+b₈ then I_VD＝1；

9)if ΔE_l＜a₉×ΔZCR+b₉ then I_VD＝1；

10)if ΔE_l＜b₁₀ then I_VD＝1；

11)if ΔE_l＜a₁₁×ΔS+b₁₁ then I_VD＝1；

12)if ΔE_l＞a₁₂×ΔE_f+b₁₂ then I_VD＝1；

13)if ΔE_l＜a₁₃×ΔE_f+b₁₃ then I_VD＝1；

14)if ΔE_l＜a₁₄×ΔE_f+b₁₄ then I_VD＝1；

其中各常量取值为：

由于单帧检测周期仅为10ms，所以在长时间轴上，其具有快变特性，而根据汉语正常发音速度，一个音节持续时间大致在500ms以上，为了增强桥路运算的准确度，本方法在短时检测的基础上，叠加了一层慢检测窗口，即开窗300ms左右的检测窗，如果窗内单帧检测结果(即14个判据的判断结果)均为激活状态(即I_VD＝1)则认为该语音通道为活动通道，如果窗内单帧检测结果均为非激活状态(即I_VD＝0)，则认为该语音通道为非活动通道，如果窗内单帧检测结果中I_VD＝1和I_VD＝0同时存在，则判断该语音通道保持为前一状态；语音通道状态为活动通道时，该通道才参与桥路运算，否则该通道不参与桥路运算；试验证明，该设计判决准确率高，效果理想。

由于会议桥路的各通道编码算法不同，其采样率可能为8khz、16khz或者为32khz，而高采样率在桥路运算中短时幅度、短时能量要大于低采样率的情况，这样容易造成误判，本发明在进入桥路运算之前先对各通道进行采样率匹配运算，统一转换为8khz的采样率，在桥路运算结束之后再按通道转换为原采样率。

前述的采样率转换处理采用整数倍内插和抽取进行。内插处理首先对原样点进行零值内插，然后对插值信号进行滤波处理。内插滤波器的作用主要是滤除采样率的提高产生的镜像干扰，即在时域上利用信号连续性的特点，在采杆点之间利用冲激响应来补充内插位置上的信号点，可以采用截止频率为4khz的低通滤波器对插值信号进行滤波处理；

在原采样率为f_S过采样情况下，本发明中的抽取处理采用抽取因子为2的抽取器进行级联处理，图3、4、5为抽取率为M＝2时信号的处理流程和抽取前后频谱图。

为了保证抽取因子为2的采样率变化后不产生混叠失真，必须将频率在f_S/4以上的频率分量全部滤除，否则信号将以f_S/4为中心折叠进有用频带；本发明采用FIR半带滤波器来实现抽取和滤波动作的同时处理：

在匹配采样率之后，进行短时幅度计算，避免短时能量计算时，由于高幅度毛刺平方后造成短时能量激增而造成误判；

漏斗混音运算分析：

利用人耳对话音波形相位不敏感的特性，在10ms单位桥路处理周期内，对各通道进行短时幅度和计算，得出短时幅度和最大通道和第二大通道，根据人的语音特性，话音信号主要由浊音决定，而浊音具有明显的周期性和大幅度特性，可以认为选出的短时幅度和最大通道为会场发言者话音信息。本发明把短时幅度和第二大通道的话音信息送给发言者通道，给发言者构造会场背景声音状态，而把短时幅度和最大通道话音信息发送给其他所有参会通道，形成会场信息传送，此漏斗混音运算运算量小，效果良好，桥路输出话音清晰。

Claims

1、一种数字电话会议的桥路运算方法，其特征在于：采用时延抖动处理机制对多网段码流整形；采用单帧检测与长时窗检测相结合的VAD语音激活检测和采样率匹配算法，减少进入桥路运算的无效通道数并降低运算误判率；采用短时幅度运算及漏斗混音运算，降低运算量。

2、根据权利要求1所述的数字电话会议的桥路运算方法，其特征在于：时延抖动处理机制包括：系统接收端对接收到的信号进行FIFO缓冲后再对信号进行解码，FIFO深度30ms；同时，系统发送端每10ms在桥路运算处理后对各通道送出均匀、连续的10ms码流量；系统每10ms进行一次桥路运算。

3、根据权利要求1所述的数字电话会议的桥路运算方法，其特征在于：单帧检测与长时窗检测相结合的VAD语音激活检测，包括：从各个通道解码后的语音帧中提取4种语音特征参数，根据4种语音特征参数与对应的背景噪声的运行平均值的差值构造判据，根据判据进行单帧检测，根据单帧检测结果进行长时窗检测，根据长时窗检测结果确定该语音通道状态。

4、根据权利要求3所述的数字电话会议的桥路运算方法，其特征在于：4种语音特征参数与对应的背景噪声的运行平均值的差值构造出的判据如下：

1)if ΔS＞a₁ΔZCR+b₁ then I_VD＝1；

2)if ΔS＞a₁ΔZCR+b₂ then I_VD＝1；

3)if ΔE_f＜a₃ΔZCR+b₃ then I_VD＝1；

4)if ΔE_f＜a₄×ΔZCR+b₄ then I_VD＝1；

5)if ΔE_f＜b₅ then I_VD＝1；

6)if ΔE_f＜a₆×ΔS+b₆ then I_VD＝1；

7)if ΔS＞b₇ then I_VD＝1；

8)ifΔE_l＜a₈×ΔZCR+b₈ then I_VD＝1；

9)if ΔE_l＜a₉×ΔZCR+b₉ then I_VD＝1；

10)ifΔE_l＜b₁₀ then I_VD＝1；

11)if ΔE_l＜a₁₁×ΔS+b₁₁ then I_VD＝1；

12)if ΔE_l＞a₁₂×ΔE_f+b₁₂ then I_VD＝1；

13)if ΔE_l＜a₁₃×ΔE_f+b₁₃ then I_VD＝1；

14)if ΔE_l＜a₁₄×ΔE_f+b₁₄ then I_VD＝1；

其中，

ΔS = Σ_{i = 1}^{10} {({LSF}_{i} - \overset{&OverBar;}{{LSF}_{i}})}^{2},

ΔE_f＝E_f-E_f，ΔE_l＝E_l-E_l，ΔZCR＝ZCR-ZCR，

LSF_i为语音特征参数中的线谱频率；E_f为语音特征参数中的全带能量；E_i为语音特征参数中的子带能量；ZCR为语音特征参数中的归一过零率；

前述14个判据中的常量取值见下表：

a₁ 23448 a₈ 16384 b₁ 28521 b₈ -22938 a₂ -30504 a₉ -19065 b₂ 19446 b₉ -31576 a₃ -32768 a₁₀ 0 b₃ -32802 b₁₀ -17367 a₄ 26214 a₁₁ 22400 b₄ -19661 b₁₁ -27034 a₅ 0 a₁₂ 30427 b₅ 30199 b₁₂ 29959 a₆ 28160 a₁₃ -24576 b₆ -22938 b₁₃ -29491 a₇ 0 a₁₄ 23406 b₇ -31576 b₁₄ -28087

5、根据权利要求4所述的数字电话会议的桥路运算方法，其特征在于：

线谱频率：{LSF_i}，i＝1，…10，由线性预测分析得到的一组线谱频率LSF系数；

全带能量：

E_{f} = 10 * \log_{10} [\frac{1}{N} R (0)],

其中R(0)为输入语音的第一个自相关系数，N＝240为LPC分析窗的长度；

子带能量：

E_{l} = 10 * \lg [\frac{1}{N} h^{T} Rh],

该特征参数是指输入语音在0-1kHz频段的能量，其中h为截止频率1khz的FIR滤波器的冲击响应，R为13阶托伯里兹自相关系数矩阵；

归一过零率：

ZCR = \frac{1}{2 M} Σ_{i = 0}^{M - 1} [| sgn [x (i)] - sgn [x (i - 1)] |],

其中{x(i)}为输入语音信号，i为序数，M＝80为编码的帧长度。

6、根据权利要求1所述的数字电话会议的桥路运算方法，其特征在于：短时幅度运算和采样率匹配算法，包括：进行路桥运算之前，将各通道的采样率统一转换为8khz的采样率，进行短时幅度运算后，再进行桥路运算，待桥路运算结束后，将各通道的采样率还原为各个通道的原采样率；

采用整数倍内插和抽取进行采样率转换处理。

7、根据权利要求6所述的数字电话会议的桥路运算方法，其特征在于：采用整数倍内插和抽取进行采样率转换处理，包括：内插处理首先对原样点进行零值内插，然后采用截止频率为4khz的低通滤波器对插值信号进行滤波处理；

8、根据权利要求1所述的数字电话会议的桥路运算方法，其特征在于：漏斗混音运算包括：在10ms单位桥路处理周期内，对各通道进行短时幅度和计算，得出短时幅度和最大通道及短时幅度和第二大通道，将短时幅度和第二大通道的话音信息送给发言者通道，将短时幅度和最大通道话音信息发送给其他所有参会通道。

9、根据权利要求1所述的数字电话会议的桥路运算方法，其特征在于：该方法步骤如下：系统对接收到的不同网段信号：1)进行FIFO缓冲，2)解码，3)单帧检测与长时窗检测相结合的VAD语音激活检测，4)采样率匹配，5)短时幅度计算，6)桥路运算，7)采样率还原，8)漏斗混音运算，9)系统发送端每10ms对各通道送出均匀、连续的10ms码流量；桥路运算周期10ms。