CN100495534C - 一种用于多媒体会议的快速实时混音方法 - Google Patents

一种用于多媒体会议的快速实时混音方法 Download PDF

Info

Publication number
CN100495534C
CN100495534C CNB2006100015676A CN200610001567A CN100495534C CN 100495534 C CN100495534 C CN 100495534C CN B2006100015676 A CNB2006100015676 A CN B2006100015676A CN 200610001567 A CN200610001567 A CN 200610001567A CN 100495534 C CN100495534 C CN 100495534C
Authority
CN
China
Prior art keywords
signal
interval
contraction factor
superposed signal
road
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2006100015676A
Other languages
English (en)
Other versions
CN1805006A (zh
Inventor
廖建新
王晶
王纯
李炜
王文林
朱晓民
武家春
张磊
樊利民
程莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CNB2006100015676A priority Critical patent/CN100495534C/zh
Publication of CN1805006A publication Critical patent/CN1805006A/zh
Application granted granted Critical
Publication of CN100495534C publication Critical patent/CN100495534C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

一种用于多媒体会议的快速实时混音方法,是先对输入信号进行线性叠加,再对该叠加信号进行分段收缩处理,使得混音后的输出信号值处于正常范围内;在分段收缩处理过程中,使用与时间和混音输入无关的分段收缩因子,且各分段收缩因子构成一等比级数,即采用数值大的收缩因子对叠加信号低强度部分进行较小压缩,采用按比例缩小的数值小的收缩因子对叠加信号高强度部分进行较大压缩,以便解决混音过程中的音量忽大忽小变化的问题。该方法混音速度快,混音后的语音自然、清楚、流畅,没有噪音,避免了音量突变;所有计算可通过二进制的加、减、移位、与等操作快速完成,没有乘除法和浮点运算,容易采用硬件实现,可广泛应用于大规模多媒体会议系统中。

Description

一种用于多媒体会议的快速实时混音方法
技术领域
本发明涉及一种多媒体会议通信技术,确切地说,涉及一种用于多媒体会议的快速实时混音方法,属于多媒体会议通信中的混音技术领域。
背景技术
近年来,多媒体会议已经成为多媒体通信发展的热点之一。在多媒体会议系统中,混音处理是其中的关键环节,直接影响用户之间的相互交流。因为作为多媒体会议中最基本的要素-音频交流最为频繁,其对实时性的要求也远远高于视频及数据。为了能够有更好的会议临场感,与会者希望能同时听到多个发言者的声音,在分散控制会议模式下,每个发言者的语音信号都单独传送给与会者,在终端处进行混音后再播放。这种方式需要占用大量的网络带宽,影响语音信号的质量,并对终端设备的要求较高。
为此,ITU-T提出了集中控制会议模式,在MCU(Multipoint Control Unit)中对来自各个发言者的语音信号进行混音处理后,再将处理结果传送给与会者,这样就大大降低了网络的传输负担和终端的处理能力。其中对语音信号进行混音处理是集中控制会议模式的关键技术。
目前,人们已经研制出来了多种混音方法,但是它们存在一个共同缺点:在混音过程中音量发生忽大忽小的变化。其原因是:现有的各种混音算法中的每路音频输入的混音权重是时间t的函数,这样随着时间的变化,其混音权重也会随之发生变化,进而导致各路音频流的音量会随着时间不同而有不同程度的缩放,进而造成音量在混音过程中发生忽大忽小的变化,严重影响了语音的识别。因此如何寻找一个与时间t无关的权重进行混音处理,就成为业内人士关注的焦点。
发明内容
有鉴于此,本发明的目的是提供一种用于多媒体会议的快速实时混音方法,即采用非均匀混音波形的收缩计算方法,又称AWS算法(AsymmetricalWave-Shrinking audio mixing algorithm),本发明基于在语音信号中低强度信号比高强度信号出现几率更高的事实,使用与时间和混音输入无关的恒定混音权重,来解决混音过程中的音量忽大忽小的变化问题,该方法混音速度快、容易采用硬件实现,可以广泛应用于大规模的多媒体会议系统中。
为了达到上述目的,本发明提供了一种用于多媒体会议的快速实时混音方法,其特征在于:先对输入信号进行线性叠加,再对该叠加信号进行分段收缩处理,使得混音后的输出信号值处于正常范围内;在分段收缩处理过程中,使用与时间和混音输入无关的分段收缩因子,且各分段收缩因子构成一等比级数,即采用数值大的收缩因子对该叠加信号低强度部分进行较小压缩,采用按比例缩小的数值小的收缩因子对该叠加信号高强度部分进行较大压缩,以解决混音过程中音量忽大忽小变化的问题。
所述方法包括下列步骤:
(A)先计算系统在t时刻将全部M路音频输入信号进行线性叠加后得到的叠加信号 b M + 1 ( t ) = Σ i = 1 M a i ( t ) , 式中,ai(t)是在t时刻解码后的第i路音频输入信号;
再计算系统在t时刻将所有M路音频输入信号的叠加信号bM+1(t)中减去其中第j路的音频输入信号aj(t)后,得到除去aj(t)外的其他M-1路音频输入的叠加信号bj(t)=bM+1(t)-aj(t);
(B)先计算上述步骤求得的叠加信号的绝对值,再按照每段的标准长度数值2Q-1进行均匀分段,得到下述各个均匀分段区间:区间1:[0,2Q-1],...,区间n:((n-1)2Q-1,n2Q-1],区间(n+1):(n2Q-1,(n+1)2Q-1],...;若叠加信号的绝对值大小落入区间n:((n-1)2Q-1,n2Q-1],则称其为(n-1)级强度信号;然后计算叠加信号bj(t)的强度等级nj=[|bj(t)|/2Q-1],即不包括剩余的不够标准长度的尾段的整段区间数;式中,函数[x]表示取不大于x的最大整数,函数|x|表示取x的绝对值;Q是音频信号进行量化的量化精度,在该量化精度下,每一路音频输入信号的取值范围在区间[-2Q-1,2Q-1-1]内;
(C)分别计算第j路音频的混音输出信号: b ′ j ( t ) = sgn ( b j ( t ) ) ( Σ i = 0 n j - 1 k - 1 k ( 1 k ) i 2 Q - 1 + k - 1 k ( 1 k ) n j ( | b j ( t ) | mod 2 Q - 1 ) ) , 式中,基本收缩因子k为大于1的正整数,函数sgn(x)表示取x的符号,运算符mod表示模运算,其中尾段数值是把叠加信号的绝对值|bj(t)|以值2Q-1为模进行模运算得到的,即|bj(t)|mod2Q-1;当全部M+1路混音输出信号计算完毕后,操作结束。
所述步骤(C)进一步包括下列操作步骤:在步骤(B)对叠加信号的绝对值大小进行分段的基础上,先把包括整段和尾段的各段区间的信号绝对值分别进行收缩处理,且每个区间采用不同的收缩因子:区间1的收缩因子为
Figure C200610001567D00062
区间2的收缩因子为
Figure C200610001567D00063
区间3的收缩因子为
Figure C200610001567D00064
依次类推,区间(n+1)的收缩因子为
Figure C200610001567D00065
把各个整段和尾段的各段区间信号绝对值都收缩后,进行叠加处理,再乘以原叠加信号的正负号,即获得原叠加信号的压缩信号-每路音频混音输出信号b’j(t),该压缩信号b’j(t)的取值范围仍保持在区间[-2Q-1,2Q-1-1]内;由于各区间的收缩因子是与时间t无关的常数,所以叠加信号收缩后能够避免音量的忽大忽小变化。
所述步骤(C)中,实际应用时基本收缩因子k的值选择2的整数次幂,以方便二进制运算;推荐值为8或16。
本发明是一种用于多媒体会议的快速实时混音方法,通过对目前现有的混音算法的分析研究,人们得出的结论是:变化的混音权重是导致音量忽大忽小的主要原因。本发明方法采用与时间和混音输入无关的恒定混音权重的非均匀波形收缩混音算法,较好地解决了混音过程中音量忽大忽小变化的问题,混音后的语音自然、清楚、流畅,没有噪音,避免了音量突变;同时该混音方法中的全部计算,都可以通过二进制的加、减、移位、与等操作快速完成,不需要进行乘除法操作,也没有浮点运算,容易采用硬件实现,因此,本发明具有很好的应用前景,能够广泛应用于大规模的多媒体会议系统中。
附图说明
图1是本发明用于多媒体会议的快速实时混音方法操作步骤方框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
假设在多媒体会议中,一共有M位代表参加发言,则共有M路音频输入信号参与混音,且这些参与混音的输入信号都是已经经过采样、量化、滤波等处理后的数字信号。这样,一位参与会议并发言的代表就要接收其他M-1路音频混音后的输出信号,即除去自己一路后的其余各路音频混音后的输出信号。另外,混音后的输出信号共有M+1路,该第M+1路混音输出信号是将全部M路输入信号进行混音后的输出信号,可供不参与发言的与会代表收听使用。
参见图1,介绍本发明用于多媒体会议的快速实时混音方法,其包括下列步骤:
(一)先计算系统在t时刻将全部M路音频输入信号进行线性叠加后得到的叠加信号 b M + 1 ( t ) = Σ i = 1 M a i ( t ) , 式中,ai(t)是在t时刻解码后的第i路音频输入信号;
再计算系统在t时刻将所有M路音频输入信号的叠加信号bM+1(t)中减去其中第j路的音频输入信号aj(t)后,得到除去aj(t)外的其他M-1路音频输入的叠加信号bj(t)=bM+1(t)-aj(t);
(二)先计算上述步骤求得的叠加信号的绝对值,再按照每段的标准长度数值2Q-1进行均匀分段,得到下述各个均匀分段区间:区间1:[0,2Q-1],...,区间n:((n-1)2Q-1,n2Q-1],区间(n+1):(n2Q-1,(n+1)2Q-1],...;若叠加信号的绝对值大小落入区间n:((n-1)2Q-1,n2Q-1],则称其为(n-1)级强度信号;然后计算叠加信号bj(t)的强度等级nj=[|bj(t)|/2Q-1],即不包括剩余的不够标准长度的尾段的整段区间数;式中,函数[x]表示取不大于x的最大整数,函数|x|表示取x的绝对值;Q是音频信号进行量化的量化精度,在该量化精度下,每一路音频输入信号的取值范围在区间[-2Q-1,2Q-1-1]内;
(三)分别计算第j路音频的混音输出信号: b ′ j ( t ) = sgn ( b j ( t ) ) ( Σ i = 0 n j - 1 k - 1 k ( 1 k ) i 2 Q - 1 + k - 1 k ( 1 k ) n j ( | b j ( t ) | mod 2 Q - 1 ) ) , 式中,基本收缩因子k为大于1的正整数,函数sgn(x)表示取x的符号,运算符mod表示模运算,其中尾段数值是把叠加信号的绝对值|bj(t)|以值2Q-1为模进行模运算得到的,即|bj(t)|mod2Q-1;当全部M+1路混音输出信号计算完毕后,操作结束。
该步骤的物理含义是:在步骤(B)对叠加信号的绝对值大小进行分段的基础上,先把包括整段和尾段的各段区间的信号绝对值分别进行收缩处理,即把叠加信号按区间分别进行压缩处理,且每个区间采用不同的收缩因子:区间1的收缩因子为
Figure C200610001567D00082
区间2的收缩因子为
Figure C200610001567D00083
区间3的收缩因子为
Figure C200610001567D00084
依次类推,区间(n+1)的收缩因子为把各个整段和尾段的各段区间信号绝对值都收缩后,进行叠加处理,再乘以原叠加信号的正负号,即获得原叠加信号的压缩信号-每路音频混音输出信号b’j(t),该压缩信号b’j(t)的取值范围仍保持在区间[-2Q-1,2Q-1-1]内;由于各区间的收缩因子是与时间t无关的常数,所以叠加信号收缩后能够避免音量的忽大忽小变化。
在本发明方法的实际应用中,首要考虑是基本收缩因子k的取值,为了方便二进制运算,通常k取2的整数次幂。根据计算的特点,k值太小会对较大的收缩波形造成整体失真,太大又会导致高强度信号严重失真,所以推荐取k=8或16。
下面介绍本发明方法的一个实施例:此时,根据ITU-T G.7xx系列规范,取Q=16。由于在实施过程中,要大量计算区间收缩因子
Figure C200610001567D00086
的值,下面分别以k=8和Q=16为例,说明如何快速计算区间收缩因子
Figure C200610001567D00091
的值。
由于7=4+2+1,所以7x=4x+2x+x=(x<<2)+(x<<1)+x,式中运算符<<表示二进制的左移位运算,进而 7 8 ( 1 8 ) n j x = ( ( x < < 2 ) + ( x < < 1 ) + x ) > > ( 3 &times; ( n j + 1 ) ) , 式中运算符>>表示二进制的右移位运算,同时注意到
Figure C200610001567D00093
对于固定的nj、k和Q来说是常数,并且当n=5,k=8和Q=16时, k - 1 k ( 1 k ) n 2 Q - 1 = 7 8 ( 1 8 ) 5 2 15 = 0.875 已经小于1,所以可以忽略掉nj>5以后的数值.于是得到下述表1:
Figure C200610001567D00095
这样在实际应用中,可以直接查询表1来快速获得的值。
此外,对于前述公式中的模(mod)运算,可以用二进制的与(&)操作完成,即:|bj(t)|mod2Q-1=|bj(t)|&(2Q-1-1)。所以,本发明混音方法中的全部计算都可以通过二进制的加、减、移位、与等操作快速完成,不需要进行乘除法操作,没有浮点运算,容易采用硬件实现,具有很好的应用前景。

Claims (4)

1、一种用于多媒体会议的快速实时混音方法,其特征在于:先对输入信号进行线性叠加,再对该叠加信号进行分段收缩处理,使得混音后的输出信号值处于正常范围内;在分段收缩处理过程中,使用与时间和混音输入无关的分段收缩因子,且各分段收缩因子构成一等比级数,即采用数值大的收缩因子对该叠加信号低强度部分进行较小压缩,采用按比例缩小的数值小的收缩因子对该叠加信号高强度部分进行较大压缩,以解决混音过程中音量忽大忽小变化的问题。
2、根据权利要求1所述的用于多媒体会议的快速实时混音方法,其特征在于:所述方法包括下列步骤:
(A)先计算系统在t时刻将全部M路音频输入信号进行线性叠加后得到的叠加信号 b M + 1 ( t ) = &Sigma; i = 1 M a i ( t ) , 式中,ai(t)是在t时刻解码后的第i路音频输入信号;
再计算系统在t时刻将所有M路音频输入信号的叠加信号bM+1(t)中减去其中第j路的音频输入信号aj(t)后,得到除去aj(t)外的其他M-1路音频输入的叠加信号bj(t)=bM+1(t)-aj(t);
(B)先计算上述步骤求得的叠加信号的绝对值,再按照每段的标准长度数值2Q-1进行均匀分段,得到下述各个均匀分段区间:区间1:[0,2Q-1],...,区间n:((n-1)2Q-1,n2Q-1],区间(n+1):(n2Q-1,(n+1)2Q-1],...;若叠加信号的绝对值大小落入区间n:((n-1)2Q-1,n2Q-1],则称其为(n-1)级强度信号;然后计算叠加信号bj(t)的强度等级nj=[|bj(t)|/2Q-1],即不包括剩余的不够标准长度的尾段的整段区间数;式中,函数[x]表示取不大于x的最大整数,函数|x|表示取x的绝对值;Q是音频信号进行量化的量化精度,在该量化精度下,每一路音频输入信号的取值范围在区间[-2Q-1,2Q-1-1]内;
(C)分别计算第j路音频的混音输出信号: b &prime; j ( t ) = sgn ( b j ( t ) ) ( &Sigma; i = 0 n j - 1 k - 1 k ( 1 k ) i 2 Q - 1 + k - 1 k ( 1 k ) n j ( | b j ( t ) | mod 2 Q - 1 ) ) , 式中,基本收缩因子k为大于1的正整数,函数sgn(x)表示取x的符号,运算符mod表示模运算,其中尾段数值是把叠加信号的绝对值|bj(t)|以值2Q-1为模进行模运算得到的,即|bj(t)|mod2Q-1;当全部M+1路混音输出信号计算完毕后,操作结束。
3、根据权利要求2所述的用于多媒体会议的快速实时混音方法,其特征在于:所述步骤(C)进一步包括下列操作步骤:在步骤(B)对叠加信号的绝对值大小进行分段的基础上,先把包括整段和尾段的各段区间的信号绝对值分别进行收缩处理,且每个区间采用不同的收缩因子:区间1的收缩因子为
Figure C200610001567C00031
区间2的收缩因子为区间3的收缩因子为
Figure C200610001567C00033
依次类推,区间(n+1)的收缩因子为
Figure C200610001567C00034
把各个整段和尾段的各段区间信号绝对值都收缩后,进行叠加处理,再乘以原叠加信号的正负号,即获得原叠加信号的压缩信号-每路音频混音输出信号b’j(t),该压缩信号b’j(t)的取值范围仍保持在区间[-2Q-1,2Q-1-1]内;由于各区间的收缩因子是与时间t无关的常数,所以叠加信号收缩后能够避免音量的忽大忽小变化。
4、根据权利要求3所述的用于多媒体会议的快速实时混音方法,其特征在于:所述步骤(C)中,实际应用时基本收缩因子k的值选择2的整数次幂,以方便二进制运算。
CNB2006100015676A 2006-01-24 2006-01-24 一种用于多媒体会议的快速实时混音方法 Expired - Fee Related CN100495534C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2006100015676A CN100495534C (zh) 2006-01-24 2006-01-24 一种用于多媒体会议的快速实时混音方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006100015676A CN100495534C (zh) 2006-01-24 2006-01-24 一种用于多媒体会议的快速实时混音方法

Publications (2)

Publication Number Publication Date
CN1805006A CN1805006A (zh) 2006-07-19
CN100495534C true CN100495534C (zh) 2009-06-03

Family

ID=36866985

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100015676A Expired - Fee Related CN100495534C (zh) 2006-01-24 2006-01-24 一种用于多媒体会议的快速实时混音方法

Country Status (1)

Country Link
CN (1) CN100495534C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102202038A (zh) * 2010-03-24 2011-09-28 华为技术有限公司 一种实现语音能量显示的方法、系统、会议服务器和终端

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100459696C (zh) * 2006-09-29 2009-02-04 华为技术有限公司 一种音频混音处理方法及其装置
CN102543087A (zh) * 2011-12-28 2012-07-04 中兴长天信息技术(南昌)有限公司 一种应用于多点移动音频通信系统的混音方法
CN102664019B (zh) * 2012-04-27 2014-05-28 深圳市邦彦信息技术有限公司 一种全交互会议的dsp混音方法和装置
CN102682776B (zh) * 2012-05-28 2014-11-19 深圳市茁壮网络股份有限公司 一种音频数据的处理方法和服务器
CN105719653B (zh) * 2016-01-28 2020-04-24 腾讯科技(深圳)有限公司 一种混音处理方法和装置
CN106601264B (zh) * 2016-11-30 2020-08-07 广州广哈通信股份有限公司 一种语音会议混音系统及方法
CN109448738B (zh) * 2018-10-25 2021-05-14 广州市保伦电子有限公司 一种网络音频混音处理方法及装置
CN109920445B (zh) * 2019-03-04 2022-03-11 北京佳讯飞鸿电气股份有限公司 一种混音方法、装置及设备
CN110400570B (zh) * 2019-06-24 2021-08-31 成都航天通信设备有限责任公司 一种多路数字音频混音实现方法
CN111741177B (zh) * 2020-06-12 2021-07-27 浙江齐聚科技有限公司 在线会议的混音方法、装置、设备和介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Communication Architectures and Algorithms for MediaMixing in Multimedia Conferences. P.Venkat Rangan, Harrick M. Vin, Srinivas Ramanathan.IEEE/ACM TRANSACTIONS ON NETWORKING,Vol.1 No.1. 1993 *
一个改进的混音算法. 徐保民,王秀玲.电子与信息学报,第25卷第12期. 2003 *
多媒体会议中的快速实时自适应混音方案研究. 樊星,顾伟康,叶秀清.软件学报,第16卷第1期. 2005 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102202038A (zh) * 2010-03-24 2011-09-28 华为技术有限公司 一种实现语音能量显示的方法、系统、会议服务器和终端

Also Published As

Publication number Publication date
CN1805006A (zh) 2006-07-19

Similar Documents

Publication Publication Date Title
CN100495534C (zh) 一种用于多媒体会议的快速实时混音方法
CN103988486B (zh) 在多方电话会议的混音中选择活动信道的方法
CN103050124B (zh) 混音方法、装置及系统
CN102789782A (zh) 对输入数据流进行混合以及从中产生输出数据流
CN105304079A (zh) 一种多方通话的多模式语音合成方法与系统
CN101989430B (zh) 一种混音处理系统及混音处理方法
CN101010725A (zh) 多信道信号编码装置以及多信道信号解码装置
CN102664019B (zh) 一种全交互会议的dsp混音方法和装置
Hess On multivalued martingales whose values may be unbounded: martingale selectors and Mosco convergence
EP1074976A3 (en) Block switching based subband audio coder
CN101729850A (zh) 基于笔迹特征数据流的视频通信方法及其处理系统
CN101308655B (zh) 一种音频编解码方法与装置
CN101674450A (zh) 视频指挥调度系统中的混音方法
CH622113A5 (zh)
EP1304681A3 (en) Speech absence probability estimation and noise removal
CN101502043A (zh) 用于实施语音会议的方法和语音会议系统
EP0867074B1 (de) Verfahren zur kompression eines analogen signals
CN102395097A (zh) 一种多声道音频信号缩混方法及系统
JP2006324865A (ja) ネットワークコミュニケーションサービス満足度推定装置、方法、およびプログラム
CN103474067A (zh) 语音信号传输方法及系统
CN103680508A (zh) 多级混音的动态分配方法及动态分配装置
CN101242168A (zh) 一种fir数字滤波器直接型实现方法及实现装置
CN1770256A (zh) 一种基于变换域的数字音频混合方法
CN108010533A (zh) 音频数据码率的自动识别方法和装置
CN113299299B (zh) 音频处理设备、方法及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090603

Termination date: 20150124

EXPY Termination of patent right or utility model