CN1805006A

CN1805006A - 一种用于多媒体会议的快速实时混音方法

Info

Publication number: CN1805006A
Application number: CN 200610001567
Authority: CN
Inventors: 廖建新; 王晶; 王纯; 李炜; 王文林; 朱晓民; 武家春; 张磊; 樊利民; 程莉
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2006-01-24
Filing date: 2006-01-24
Publication date: 2006-07-19
Anticipated expiration: 2026-01-24
Also published as: CN100495534C

Abstract

一种用于多媒体会议的快速实时混音方法，是先对输入信号进行线性叠加，再对该叠加信号进行分段收缩处理，使得混音后的输出信号值处于正常范围内；在分段收缩处理过程中，使用与时间和混音输入无关的分段收缩因子，且各分段收缩因子构成一等比级数，即采用数值大的收缩因子对叠加信号低强度部分进行较小压缩，采用按比例缩小的数值小的收缩因子对叠加信号高强度部分进行较大压缩，以便解决混音过程中的音量忽大忽小变化的问题。该方法混音速度快，混音后的语音自然、清楚、流畅，没有噪音，避免了音量突变；所有计算可通过二进制的加、减、移位、与等操作快速完成，没有乘除法和浮点运算，容易采用硬件实现，可广泛应用于大规模多媒体会议系统中。

Description

一种用于多媒体会议的快速实时混音方法

技术领域

本发明涉及一种多媒体会议通信技术，确切地说，涉及一种用于多媒体会议的快速实时混音方法，属于多媒体会议通信中的混音技术领域。

背景技术

近年来，多媒体会议已经成为多媒体通信发展的热点之一。在多媒体会议系统中，混音处理是其中的关键环节，直接影响用户之间的相互交流。因为作为多媒体会议中最基本的要素-音频交流最为频繁，其对实时性的要求也远远高于视频及数据。为了能够有更好的会议临场感，与会者希望能同时听到多个发言者的声音，在分散控制会议模式下，每个发言者的语音信号都单独传送给与会者，在终端处进行混音后再播放。这种方式需要占用大量的网络带宽，影响语音信号的质量，并对终端设备的要求较高。

为此，ITU-T提出了集中控制会议模式，在MCU(Multipoint Control Unit)中对来自各个发言者的语音信号进行混音处理后，再将处理结果传送给与会者，这样就大大降低了网络的传输负担和终端的处理能力。其中对语音信号进行混音处理是集中控制会议模式的关键技术。

目前，人们已经研制出来了多种混音方法，但是它们存在一个共同缺点：在混音过程中音量发生忽大忽小的变化。其原因是：现有的各种混音算法中的每路音频输入的混音权重是时间t的函数，这样随着时间的变化，其混音权重也会随之发生变化，进而导致各路音频流的音量会随着时间不同而有不同程度的缩放，进而造成音量在混音过程中发生忽大忽小的变化，严重影响了语音的识别。因此如何寻找一个与时间t无关的权重进行混音处理，就成为业内人士关注的焦点。

发明内容

有鉴于此，本发明的目的是提供一种用于多媒体会议的快速实时混音方法，即采用非均匀混音波形的收缩计算方法，又称AWS算法(AsymmetricalWave-Shrinking audio mixing algorithm)，本发明基于在语音信号中低强度信号比高强度信号出现几率更高的事实，使用与时间和混音输入无关的恒定混音权重，来解决混音过程中的音量忽大忽小的变化问题，该方法混音速度快、容易采用硬件实现，可以广泛应用于大规模的多媒体会议系统中。

为了达到上述目的，本发明提供了一种用于多媒体会议的快速实时混音方法，其特征在于：先对输入信号进行线性叠加，再对该叠加信号进行分段收缩处理，使得混音后的输出信号值处于正常范围内；在分段收缩处理过程中，使用与时间和混音输入无关的分段收缩因子，且各分段收缩因子构成一等比级数，即采用数值大的收缩因子对该叠加信号低强度部分进行较小压缩，采用按比例缩小的数值小的收缩因子对该叠加信号高强度部分进行较大压缩，以解决混音过程中音量忽大忽小变化的问题。

所述方法包括下列步骤：

(A)先计算系统在t时刻将全部M路音频输入信号进行线性叠加后得到的叠加信号

b_{M + 1} (t) = Σ_{i = 1}^{M} a_{i} (t),

式中，a_i(t)是在t时刻解码后的第i路音频输入信号；

再计算系统在t时刻将所有M路音频输入信号的叠加信号b_M+1(t)中减去其中第j路的音频输入信号a_j(t)后，得到除去a_j(t)外的其他M-1路音频输入的叠加信号b_j(t)＝b_M+1(t)-a_j(t)；

(B)先计算上述步骤求得的叠加信号的绝对值，再按照每段的标准长度数值2^Q-1进行均匀分段，得到下述各个均匀分段区间：区间1：[0，2^Q-1]，…，区间n：((n-1)2^Q-1，n2^Q-1]，区间(n+1)：(n2^Q-1，(n+1)2^Q-1]，…；若叠加信号的绝对值大小落入区间n：((n-1)2^Q-1，n2^Q-1]，则称其为(n-1)级强度信号；然后计算叠加信号b_j(t)的强度等级n_j＝[|b_j(t)|/2^Q-1]，即不包括剩余的不够标准长度的尾段的整段区间数；式中，函数[x]表示取不大于x的最大整数，函数|x|表示取x的绝对值；Q是音频信号进行量化的量化精度，在该量化精度下，每一路音频输入信号的取值范围在区间[-2^Q-1，2^Q-1-1]内；

(C)分别计算第j路音频的混音输出信号：

{b^{'}}_{j} (t) = sgn (b_{j} (t)) ({Σ_{i = 0}^{n_{j} - 1} \frac{k - 1}{k} (\frac{1}{k})}^{i} 2^{Q - 1} + \frac{k - 1}{k} {(\frac{1}{k})}^{n_{j}} (| b_{j} (t) | \mod 2^{Q - 1})),

式中，基本收缩因子k为大于1的正整数，函数sgn(x)表示取x的符号，运算符mod表示模运算，其中尾段数值是把叠加信号的绝对值|b_j(t)|以值2^Q-1为模进行模运算得到的，即|b_j(t)|mod2^Q-1；当全部M+1路混音输出信号计算完毕后，操作结束。

所述步骤(C)进一步包括下列操作步骤：在步骤(B)对叠加信号的绝对值大小进行分段的基础上，先把包括整段和尾段的各段区间的信号绝对值分别进行收缩处理，且每个区间采用不同的收缩因子：区间1的收缩因子为

区间2的收缩因子为

区间3的收缩因子为

依次类推，区间(n+1)的收缩因子为把各个整段和尾段的各段区间信号绝对值都收缩后，进行叠加处理，再乘以原叠加信号的正负号，即获得原叠加信号的压缩信号-每路音频混音输出信号b’_j(t)，该压缩信号b’_j(t)的取值范围仍保持在区间[-2^Q-1，2^Q-1-1]内；由于各区间的收缩因子是与时间t无关的常数，所以叠加信号收缩后能够避免音量的忽大忽小变化。

所述步骤(C)中，实际应用时基本收缩因子k的值选择2的整数次幂，以方便二进制运算；推荐值为8或16。

本发明是一种用于多媒体会议的快速实时混音方法，通过对目前现有的混音算法的分析研究，人们得出的结论是：变化的混音权重是导致音量忽大忽小的主要原因。本发明方法采用与时间和混音输入无关的恒定混音权重的非均匀波形收缩混音算法，较好地解决了混音过程中音量忽大忽小变化的问题，混音后的语音自然、清楚、流畅，没有噪音，避免了音量突变；同时该混音方法中的全部计算，都可以通过二进制的加、减、移位、与等操作快速完成，不需要进行乘除法操作，也没有浮点运算，容易采用硬件实现，因此，本发明具有很好的应用前景，能够广泛应用于大规模的多媒体会议系统中。

附图说明

图1是本发明用于多媒体会议的快速实时混音方法操作步骤方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。

假设在多媒体会议中，一共有M位代表参加发言，则共有M路音频输入信号参与混音，且这些参与混音的输入信号都是已经经过采样、量化、滤波等处理后的数字信号。这样，一位参与会议并发言的代表就要接收其他M-1路音频混音后的输出信号，即除去自己一路后的其余各路音频混音后的输出信号。另外，混音后的输出信号共有M+1路，该第M+1路混音输出信号是将全部M路输入信号进行混音后的输出信号，可供不参与发言的与会代表收听使用。

参见图1，介绍本发明用于多媒体会议的快速实时混音方法，其包括下列步骤：

(一)先计算系统在t时刻将全部M路音频输入信号进行线性叠加后得到的叠加信号

b_{M + 1} (t) = Σ_{i = 1}^{M} a_{i} (t),

式中，a_i(t)是在t时刻解码后的第i路音频输入信号；

(二)先计算上述步骤求得的叠加信号的绝对值，再按照每段的标准长度数值2^Q-1进行均匀分段，得到下述各个均匀分段区间：区间1：[0，2^Q-1]，…，区间n：((n-1)2^Q-1，n2^Q-1]，区间(n+1)：(n2^Q-1，(n+1)2^Q-1]，…；若叠加信号的绝对值大小落入区间n：((n-1)2^Q-1，n2^Q-1]，则称其为(n-1)级强度信号；然后计算叠加信号b_j(t)的强度等级n_j＝[|b_j(t)|/2^Q-1]，即不包括剩余的不够标准长度的尾段的整段区间数；式中，函数[x]表示取不大于x的最大整数，函数|x|表示取x的绝对值；Q是音频信号进行量化的量化精度，在该量化精度下，每一路音频输入信号的取值范围在区间[-2^Q-1，2^Q-1-1]内；

(三)分别计算第j路音频的混音输出信号：

{b^{'}}_{j} (t) = sgn (b_{j} (t)) (Σ_{i = 0}^{n_{j} - 1} \frac{k - 1}{k} {(\frac{1}{k})}^{i} 2^{Q - 1} + \frac{k - 1}{k} {(\frac{1}{k})}^{n_{j}} (| b_{j} (t) | \mod 2^{Q - 1})),

该步骤的物理含义是：在步骤(B)对叠加信号的绝对值大小进行分段的基础上，先把包括整段和尾段的各段区间的信号绝对值分别进行收缩处理，即把叠加信号按区间分别进行压缩处理，且每个区间采用不同的收缩因子：区间1的收缩因子为区间2的收缩因子为区间3的收缩因子为依次类推，区间(n+1)的收缩因子为

把各个整段和尾段的各段区间信号绝对值都收缩后，进行叠加处理，再乘以原叠加信号的正负号，即获得原叠加信号的压缩信号-每路音频混音输出信号b’_j(t)，该压缩信号b’_j(t)的取值范围仍保持在区间[-2^Q-1，2^Q-1-1]内；由于各区间的收缩因子是与时间t无关的常数，所以叠加信号收缩后能够避免音量的忽大忽小变化。

在本发明方法的实际应用中，首要考虑是基本收缩因子k的取值，为了方便二进制运算，通常k取2的整数次幂。根据计算的特点，k值太小会对较大的收缩波形造成整体失真，太大又会导致高强度信号严重失真，所以推荐取k＝8或16。

下面介绍本发明方法的一个实施例：此时，根据ITU-T G.7xx系列规范，取Q＝16。由于在实施过程中，要大量计算区间收缩因子

的值，下面分别以k＝8和Q＝16为例，说明如何快速计算区间收缩因子

的值。

由于7＝4+2+1，所以7x＝4x+2x+x＝(x＜＜2)+(x＜＜1)+x，式中运算符＜＜表示二进制的左移位运算，进而

\frac{7}{8} {(\frac{7}{8})}^{n_{j}} x = ((x < < 2) + (x < < 1) + x) > > (3 \times (n_{j} + 1)),

式中运算符＞＞表示二进制的右移位运算，同时注意到对于固定的n_j、k和Q来说是常数，并且当n＝5，k＝8和Q＝16时，

\frac{k - 1}{k} {(\frac{1}{k})}^{n} 2^{Q - 1} = \frac{7}{8} {(\frac{1}{8})}^{5} 2^{15} = 0.875

已经小于1，所以可以忽略掉n_j＞5以后的数值.于是得到下述表1：

这样在实际应用中，可以直接查询表1来快速获得

的值。

此外，对于前述公式中的模(mod)运算，可以用二进制的与(&)操作完成，即：|b_j(t)|mod2^Q-1=|b_j(t)|&(2^Q-1-1)。所以，本发明混音方法中的全部计算都可以通过二进制的加、减、移位、与等操作快速完成，不需要进行乘除法操作，没有浮点运算，容易采用硬件实现，具有很好的应用前景。

Claims

1、一种用于多媒体会议的快速实时混音方法，其特征在于：先对输入信号进行线性叠加，再对该叠加信号进行分段收缩处理，使得混音后的输出信号值处于正常范围内；在分段收缩处理过程中，使用与时间和混音输入无关的分段收缩因子，且各分段收缩因子构成一等比级数，即采用数值大的收缩因子对该叠加信号低强度部分进行较小压缩，采用按比例缩小的数值小的收缩因子对该叠加信号高强度部分进行较大压缩，以解决混音过程中音量忽大忽小变化的问题。

2、根据权利要求1所述的用于多媒体会议的快速实时混音方法，其特征在于：所述方法包括下列步骤：

b_{M + 1} (t) = Σ_{i = 1}^{M} a_{i} (t),

式中，a_i(t)是在t时刻解码后的第i路音频输入信号；

(B)先计算上述步骤求得的叠加信号的绝对值，再按照每段的标准长度数值2^Q-1进行均匀分段，得到下述各个均匀分段区间：区间1：[0，2^Q-1]，...，区间n：((n-1)2^Q-1，n2^Q-1]，区间(n+1)：(n2^Q-1，(n+1)2^Q-1]，...；若叠加信号的绝对值大小落入区间n：((n-1)2^Q-1，n2^Q-1]，则称其为(n-1)级强度信号；然后计算叠加信号b_j(t)的强度等级n_j＝[|b_j(t)|/2^Q-1]，即不包括剩余的不够标准长度的尾段的整段区间数；式中，函数[x]表示取不大于x的最大整数，函数|x|表示取x的绝对值；Q是音频信号进行量化的量化精度，在该量化精度下，每一路音频输入信号的取值范围在区间[-2^Q-1，2^Q-1-1]内；

(C)分别计算第j路音频的混音输出信号：

{b^{'}}_{j} (t) = sgn (b_{j} (t)) (Σ_{i = 0}^{n_{j} - 1} \frac{k - 1}{k} {(\frac{1}{k})}^{i} 2^{Q - 1} + \frac{k - 1}{k} {(\frac{1}{k})}^{n_{j}} ({| b}_{j} (t) | \mod 2^{Q - 1})),

3、根据权利要求1所述的用于多媒体会议的快速实时混音方法，其特征在于：所述步骤(C)进一步包括下列操作步骤：在步骤(B)对叠加信号的绝对值大小进行分段的基础上，先把包括整段和尾段的各段区间的信号绝对值分别进行收缩处理，且每个区间采用不同的收缩因子：区间1的收缩因子为

区间2的收缩因子为

区间3的收缩因子为依次类推，区间(n+1)的收缩因子为

4、根据权利要求3所述的用于多媒体会议的快速实时混音方法，其特征在于：所述步骤(C)中，实际应用时基本收缩因子k的值选择2的整数次幂，以方便二进制运算；推荐值为8或16。