CN101252452A - 一种多媒体会议中分布式混音系统 - Google Patents

一种多媒体会议中分布式混音系统 Download PDF

Info

Publication number
CN101252452A
CN101252452A CNA2007100679135A CN200710067913A CN101252452A CN 101252452 A CN101252452 A CN 101252452A CN A2007100679135 A CNA2007100679135 A CN A2007100679135A CN 200710067913 A CN200710067913 A CN 200710067913A CN 101252452 A CN101252452 A CN 101252452A
Authority
CN
China
Prior art keywords
voice
data stream
audio data
audio
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007100679135A
Other languages
English (en)
Other versions
CN101252452B (zh
Inventor
宋旭东
杜武平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Sequoia United Communication Technology Co., Ltd.
Original Assignee
INFOWARELAB (HANGZHOU) INFORMATION TECHNOLOGIES Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INFOWARELAB (HANGZHOU) INFORMATION TECHNOLOGIES Inc filed Critical INFOWARELAB (HANGZHOU) INFORMATION TECHNOLOGIES Inc
Priority to CN2007100679135A priority Critical patent/CN101252452B/zh
Publication of CN101252452A publication Critical patent/CN101252452A/zh
Application granted granted Critical
Publication of CN101252452B publication Critical patent/CN101252452B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

一种多媒体会议中分布式混音系统,该混音系统包括语音主服务器、语音子服务器以及客户端,所述的客户端连接语音子服务器、所述语音子服务器连接语音主服务器,所述的客户端包括:语音采集模块,用于在与会者说话时,传送通话过程中交谈的音频数据流;语音发送模块,用于将采集的音频数据流通过实时传输协议对语音帧打包发送到语音子服务器;信号能量计算模块,用于在采集到音频数据流之后,计算信号能量E;所述的语音主服务器与语音子服务器呈树状形的网络;语音主服务器实现终选算法,而语音子服务器采用初步选择算法。本发明提供了一种能够减少服务器端的CPU负荷、提高混音效率的多媒体会议中分布式混音系统。

Description

一种多媒体会议中分布式混音系统
技术领域
本发明涉及一种多媒体会议中分布式混音系统。
背景技术
语音混音是多媒体会议中一个重要组成部分.目前的混音方案采用了传统的解码-混音-编码模式。这种方法的缺点为:(1)、服务器端的中央处理单元(Central Processing Unit,CPU)负荷较大;(2)、混音效率较低;(3)、编解码语音数据流带来的时延较长;(4)、参与者麦克风不能平滑地切换。
发明内容
为了克服已有的多媒体会议中混音系统的服务器端的CPU负荷较大、混音效率较低的不足,本发明提供了一种能够减少服务器端的CPU负荷、提高混音效率的多媒体会议中分布式混音系统。
本发明解决其技术问题所采用的技术方案是:
一种多媒体会议中分布式混音系统,该混音系统包括语音主服务器、语音子服务器以及客户端,所述的客户端连接语音子服务器、所述语音子服务器连接语音主服务器,所述的客户端包括:
语音采集模块,用于在与会者说话时,传送通话过程中交谈的音频数据流;
语音发送模块,用于将采集的音频数据流通过传输协议对语音帧打包发送到语音子服务器;
所述的语音主服务器与语音子服务器呈树状形的网络;
所述的客户端还包括:
信号能量计算模块,用于在采集到音频数据流之后,计算信号能量E,音频数据流的当前帧的能量E可由以下公式(1)计算获得:
E = Σ n = 0 N - 1 s 2 [ n ] 20 - - - ( 1 )
式中,{s[n]}n=0,...,N-1表示音频数据流的输入信号;
语音帧的短时平均能量Energy由相邻两帧的信号能量E1和E2计算得出:
Energy=(E1+E2)/2    (2);
在语音发送模块中,将平均能量存储到打包发送的语音帧的扩展位;
混音模块,用于接收语音子服务器回传的终选的音频数据,送入抖动缓冲区队列,经过解码器解码后送入语音帧缓冲区队列,定时激活混音算法处理程序,混音处理程序从每列语音帧缓冲区中提取最早到达的语音帧,做语音信号混音处理,混音公式表示为(6):
mixing [ i ] = Σ j = 1 M input [ j ] [ i ] - - - ( 6 )
其中,{input[j][i]}i=0,...,N-1表示第J列语音流所包括的语音帧,经解码后得到的语音输入信号;混音处理后的输出结果被放到mixing[i],M表示语音流的总数;
处理完毕送到播放缓冲区队列等待回放;
所述的语音子服务器包括:
语音接收模块,用于接收来自作为发言者的客户端的音频数据流,并解析语音帧的扩展位,获得各音频数据流当前帧的短时平均能量Energy;
初选模块,用于比较各音频数据流的平均能量大小,根据设定的语音流的总数,数选中平均能量最大的音频数据流作为初选结果;
所述的语音主服务器包括:
语音接收模块,用于接收来自各个语音子服务器初选完成的音频数据流,解析语音帧的扩展位,获得各音频数据流当前帧的短时平均能量Energy;
语音活动度量计算模块,用于计算音频数据流的语音活动度量ψ,其算式为(3):
ψ=α1A12A2    (3)
其中A1为当前语音活动,A2为上一次活动;
A1由矩形窗W1计算获得,如下形式(4):
A 1 = 1 W 1 Σ t = t p t p - W 1 + 1 Energ y t - - - ( 4 )
其中,W1即最近语音序列的时间段,tp表示当前的时间段,即当前的矩形窗长度;
A2由矩形窗口W2计算得出,表示成(5):
A 2 = 1 W 2 Σ t = t p - W 1 t p - W 1 - W 2 + 1 Energy t - - - ( 5 )
其中,W2即上上个语音序列的时间段;
终选模块,用于比较各音频数据流的语音活动度量ψ大小,根据设定的语音流的总数,数选中语音活动度量ψ最大的音频数据流作为终选结果;
音频转发模块,用于将终选得到的音频数据转发到客户端。
作为优选的一种方案:所述的客户端包括与语音子服务器连接的客户端A、直接与语音主服务器连接的客户端H;在所述的语音子服务器中,接收来自作为发言者的客户端A的音频数据流;在所述的语音主服务器中,接收各个语音子服务器初选完成的音频流以及客户端H的音频数据流。
作为优选的再一种方案:所述的语音主服务器还包括:语音连续控制模块,用于当前已有三个人正在发言,如第四个人它的活动度量大于前三者的任何一位,控制正在说话的人继续发言;如已经发言的三人中任何一位停止说话,并会选中这第四人,允许该第四人发言。
作为优选的另一种方案:所述的语音主服务器还包括:子服务器转发控制命令模块,用于在主服务器选中的音频流是来自某个子服务器,向该子服务器发送反馈信号,通知它所转发的某个音频流已被选中。
进一步,在所述的语音采集模块中,采用语音检测技术,传送通话过程中的实际交谈的数据;当与会者不说话处于静音时,禁止发送语音包到服务器。
更进一步,在所述的音频转发模块中,将终选得到的音频数据转发到除被选中者之外的其他所有客户端。
本发明的技术构思为:主服务器(Root Server)实现终选算法,而子服务器(Sub Server)采用初步选择算法。
在这个架构中,主服务器(Root Server)和子服务器(Sub Server)组成了一个树状形的网络,实现对各个客户端进行分布式混音处理。客户端既可以直接联到主服务器(Root Server),也可以连到子服务器(Sub Server)。连接到子服务器(Sub Server)的客户端如A1,先发送音频流到子服务器(SubServer1)进行初选,如果被子服务器初选选中,则再转发到主服务器(RootServer)做进一步的选择算法。对于直接连到主服务器的客户端如H1,直接发送音频流到主服务器(Root Server)。主服务接收来自各子服务器(SubServer1,Sub Server2,...Sub Server N)初选后的音频流以及直接相连的音频流(H1,H2...Hn),根据选择算法选出3~5路音频流,再通过子服务器转发回客户端(如A1~An,B1~Bn和C1~Cn),或者直接发回跟它直接相连的客户端(H1,H2.....Hn)。
当一个音频实时传送协义(Real-Time Transport Protocol,RTP)包到达客户端混音模块时,它首先被送入抖动缓冲区队列,经过解码器解码后送入语音帧缓冲区队列(先进先出队列)。一个多媒体定时器将定时激活混音算法处理程序,混音处理程序从每列语音帧缓冲区中提取最早到达的语音帧,做语音信号混音处理,处理完毕送到播放缓冲区队列等待回放。
本发明的有益效果主要表现在:1、能够减少了服务器端的CPU负荷;2、提高了混音效率;3、并能够减少编解码语音数据流带来的时延,提高带宽资源利用率,并且增强服务器的转发能力;4、提高带宽利用率,节省通信资源和麦克风资源(应用产品中都会限制麦克风总数),并且将会使麦克风的切换更加流畅。
附图说明
图1是多媒体会议中分布式混音系统的架构图。
图2是语音帧的短时平均能量在RTP头中存储格式示意图。
图3是语音活动窗计算的示意图。
图4是客户端混音原理图。
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图4,一种多媒体会议中分布式混音系统,该混音系统包括语音主服务器、语音子服务器以及客户端.所述的客户端连接语音子服务器、所述语音子服务器连接语音主服务器。
所述的客户端包括:语音采集模块,用于在与会者说话时,传送通话过程中交谈的音频数据流;语音发送模块,用于将采集的音频数据流通过传输协议对语音帧打包发送到语音子服务器;
所述的语音主服务器与语音子服务器呈树状形的网络;所述的客户端还包括:信号能量计算模块,用于在采集到音频数据流之后,计算信号能量E,音频数据流的当前帧的能量E可由以下公式(1)计算获得:
E = Σ n = 0 N - 1 s 2 [ n ] 20 - - - ( 1 )
式中,{s[n]}n=0,...,N-1表示音频数据流的输入信号;
语音帧的短时平均能量Energy由相邻两帧的信号能量E1和E2计算得出:
Energy=(E1+E2)/2    (2);
在语音发送模块中,将平均能量存储到打包发送的语音帧的扩展位;混音模块,用于接收语音子服务器回传的终选的音频数据,送入抖动缓冲区队列,经过解码器解码后送入语音帧缓冲区队列,定时激活混音算法处理程序,混音处理程序从每列语音帧缓冲区中提取最早到达的语音帧,做语音信号混音处理,混音公式可以表示为(6):
mixing [ i ] = Σ j = 1 M input [ j ] [ i ] - - - ( 6 )
其中,{input[j][i]}i=0,...,N-1表示第J列语音流所包括的语音帧,经解码后得到的语音输入信号;混音处理后的输出结果被放到mixing[i],M表示语音流的总数;处理完毕送到播放缓冲区队列等待回放;
所述的语音子服务器包括:语音接收模块,用于接收来自作为发言者的客户端的音频数据流,并解析语音帧的扩展位,获得各音频数据流当前帧的短时平均能量Energy;初选模块,用于比较各音频数据流的平均能量大小,根据设定的语音流的总数,数选中平均能量最大的音频数据流作为初选结果;
所述的语音主服务器包括:语音接收模块,用于接收来自各个语音子服务器初选完成的音频数据流,解析语音帧的扩展位,获得各音频数据流当前帧的短时平均能量Energy;语音活动度量计算模块,用于计算音频数据流的语音活动度量ψ,其算式为(3):
ψ=α1A12A2    (3)
其中A1为当前语音活动,A2为上一次活动;
A1由矩形窗W1计算获得,可写成如下形式(4):
A 1 = 1 W 1 Σ t = t p t p - W 1 + 1 Energy t - - - ( 4 )
其中,W1即最近语音序列的时间段,tp表示当前的时间段,即当前的矩形窗长度;
A2由矩形窗口W2计算得出,表示成(5):
A 2 = 1 W 2 Σ t = t p - W 1 t p - W 1 - W 2 + 1 Energy t - - - ( 5 )
其中,W2即上上个语音序列的时间段;
终选模块,用于比较各音频数据流的语音活动度量ψ大小,根据设定的语音流的总数,数选中语音活动度量ψ最大的音频数据流作为终选结果;音频转发模块,用于将终选得到的音频数据转发到客户端。
所述的客户端包括与语音子服务器连接的客户端A、直接与语音主服务器连接的客户端H;在所述的语音子服务器中,接收来自作为发言者的客户端A的音频数据流;在所述的语音主服务器中,接收各个语音子服务器初选完成的音频流以及客户端H的音频数据流。
图1示出了一个基本的分布式混音架构。在这个架构中,主服务器(RootServer)和子服务器(Sub Server)组成了一个树状形的网络,实现对各个客户端进行分布式混音处理。客户端既可以直接联到主服务器(Root Server),也可以连到子服务器(Sub Server)。连接到子服务器(Sub Server)的客户端如A1,先发送音频流到子服务器(Sub Server1)进行初选,如果被子服务器初选选中,则再转发到主服务器(Root Server)做进一步的选择算法。对于直接连到主服务器的客户端如H1,直接发送音频流到主服务器(RootServer)。主服务接收来自各子服务器(Sub Server1,Sub Server2,...Sub ServerN)初选后的音频流以及直接相连的音频流(H1,H2...Hn),根据选择算法选出3~5路音频流,再通过子服务器转发回客户端(如A1~An,B1~Bn和C1~Cn),或者直接发回跟它直接相连的客户端(H1,H2.....Hn)。
另外,为了保证该方案有效的工作,每一个客户端在采集语音时采用语音检测技术。当与会者不说话处于静音时,不再发送语音包到服务器,只传送通话过程中的实际交谈的数据,从而提高带宽利用率,节省通信资源和麦克风资源(应用产品中都会限制麦克风总数),并且将会使麦克风的切换更加流畅。
每个客户端采集到语音输入信号之后将计算信号能量E,当前帧的能量E可由以下公式计算获得:
E = Σ n = 0 N - 1 s 2 [ n ] 20 - - - ( 1 )
式中,{s[n]}n=0,...,N-1表示语音输入信号.每个客户端通过实时传输协议对语音帧打包,每一个RTP包括两个语音帧。语音帧的短时平均能量Energy由相邻两帧的信号能量E1和E2计算得出:
Energy=(E1+E2)/2    (2)
平均能量由两个字节组成,并被存储到RTP头的扩展位里,如图2如示。
子服务器(Sub Server)接收来自各客户端(发言者)的音频数据流,通过解析RTP包获得各音频数据流当前帧的短时平均能量Energy。比较各音频数据流的平均能量大小,选中三个平均能量最大的音频数据流作为初选结果。初选完成后的音频数据流连同该数据流对应的客户端识别号被转发到主服务器(Root Server)。
为确保说话者语音流畅,使正在进行的语音会话不被其他与会者的噪声(环境噪声,麦克风搬动时的磨擦声等)打断,我们定义了一个语音活动度量ψ。它由当前语音活动A1和上一次活动A2决定。
ψ=α1A12A2    (3)
其中A1可以由矩形窗W1(最近语音序列的时间段)计算获得,可写成如下形式:
A 1 = 1 W 1 Σ t = t p t p - W 1 + 1 Energy t - - - ( 4 )
这里tp表示当前的时间段(矩形窗长度)如图3所示。而矩形窗W1设置成3秒。
A2由上上个语音序列的时间段(矩形窗口W2)计算得出,表示成:
A 2 = 1 W 2 Σ t = t p - W 1 t p - W 1 - W 2 + 1 Energy t - - - ( 5 )
W2设成2秒;这里权值α1可以为0.6,α2为0.4.
主服务器(Root Server)接收所有与它直接相连的客户端音频流以及从子服务器初选完成后的音频流,解析音频流中的RTP包头,获得每个音频流的当前语音帧的短时平均能量。根据公式(3)计算语音活动度量ψ,选出活动度量ψ最大的三条音频流,这三条音频流相对应的发言者认为被真正选中,选中的三条音频流将通过主服务器或者子服务器转发给所有与会者(注:不发给被选中者本身,以减少带宽资源占用)。
为了使每个与会者能清晰的听到发言人的整句话,需要采取策略确保当前发言者的语音不被打断。举个例子,如果当前已经有三个人正在发言,那么即使有第四个人它的活动度量大于前三者的任何一位,这第四个人也不能被选中,以避免打断已经进行的语音交流,而是让正在说话的人继续发言。直到已经发言的三人中任何一位停止说话,服务器才会选中这第四人,充许他/她发言。
另外,如果主服务器选中的音频流是来自某个子服务器,那么主服务器不需要发回该音频流到该子服务器,仅仅通过一个反馈信号通知该子服务器,通知它所转发的某个音频流已被选中。这种措施可以有效的减少声音时延,提高带宽资源利用率,并且增强服务器的转发能力。
图4展示了客户端的混音工作原理。当一个音频RTP包到达客户端混音模块时,它首先被送入抖动缓冲区队列,经过解码器解码后送入语音帧缓冲区队列(先进先出队列)。一个多媒体定时器将定时激活混音算法处理程序,混音处理程序从每列语音帧缓冲区中提取最早到达的语音帧,做语音信号混音处理,处理完毕送到播放缓冲区队列等待回放。
混音公式可以表示为:
mixing [ i ] = Σ j = 1 M input [ j ] [ i ] - - - ( 6 )
其中,{input[j][i]}i=0,...,N-1表示第J列语音流所包括的语音帧,经解码后得到的语音输入信号。混音处理后的输出结果被放到mixing[i]。M表示语音流的总数,这里设成3。

Claims (7)

1. 一种多媒体会议中分布式混音系统,该混音系统包括语音主服务器、语音子服务器以及客户端,所述的客户端连接语音子服务器、所述语音子服务器连接语音主服务器,所述的客户端包括:
语音采集模块,用于在与会者说话时,传送通话过程中交谈的音频数据流;
语音发送模块,用于将采集的音频数据流通过传输协议对语音帧打包发送到语音子服务器;
其特征在于:
所述的语音主服务器与语音子服务器呈树状形的网络;
所述的客户端还包括:
信号能量计算模块,用于在采集到音频数据流之后,计算信号能量E,音频数据流的当前帧的能量E可由以下公式(1)计算获得:
E = Σ n = 0 N - 1 s 2 [ n ] 20 - - - ( 1 )
式中,{s[n]}n=0,...,N-1表示音频数据流的输入信号;
语音帧的短时平均能量Energy由相邻两帧的信号能量E1和E2计算得出:
Energy=(E1+E2)/2           (2);
在语音发送模块中,将平均能量存储到打包发送的语音帧的扩展位;混音模块,用于接收语音子服务器回传的终选的音频数据,送入抖动缓冲区队列(Jitter Buffers),经过解码器解码后送入语音帧缓冲区队列,定时激活混音算法处理程序,混音处理程序从每列语音帧缓冲区中提取最早到达的语音帧,做语音信号混音处理,混音公式表示为(6):
mixing [ i ] = Σ j = 1 M input [ j ] [ i ] - - - ( 6 )
其中,{input[j][i]}i=0,...,N-1表示第J列语音流所包括的语音帧,经解码后得到的语音输入信号;混音处理后的输出结果被放到mixing[i],M表示语音流的总数;
处理完毕送到播放缓冲区队列等待回放;
所述的语音子服务器包括:
语音接收模块,用于接收来自作为发言者的客户端的音频数据流,并解析语音帧的扩展位,获得各音频数据流当前帧的短时平均能量Energy;
初选模块,用于比较各音频数据流的平均能量大小,根据设定的语音流的总数,数选中平均能量最大的音频数据流作为初选结果;
所述的语音主服务器包括:
语音接收模块,用于接收来自各个语音子服务器初选完成的音频数据流,解析语音帧的扩展位,获得各音频数据流当前帧的短时平均能量Energy;语音活动度量计算模块,用于计算音频数据流的语音活动度量ψ,其算式为(3):
ψ=α1A12A2          (3)
其中A1为当前语音活动,A2为上一次活动;
A1由矩形窗W1计算获得,如下形式(4):
A 1 = 1 W 1 Σ t = t p t p - W 1 + 1 Energy t - - - ( 4 )
其中,W1即最近语音序列的时间段,tp表示当前的时间段,即当前的矩形窗长度;
A2由矩形窗口W2计算得出,表示成(5):
A 2 = 1 W 2 Σ t = t p - W 1 t p - W 1 - W 2 + 1 Energy t - - - ( 5 )
其中,W2即上上个语音序列的时间段;
终选模块,用于比较各音频数据流的语音活动度量ψ大小,根据设定的语音流的总数,数选中语音活动度量ψ最大的音频数据流作为终选结果;音频转发模块,用于将终选得到的音频数据转发到客户端。
2. 如权利要求1所述的一种多媒体会议中分布式混音系统,其特征在于:所述的客户端包括与语音子服务器连接的客户端A、直接与语音主服务器连接的客户端H;
在所述的语音子服务器中,接收来自作为发言者的客户端A的音频数据流;
在所述的语音主服务器中,接收各个语音子服务器初选完成的音频流以及客户端H的音频数据流。
3. 如权利要求1或2所述的一种多媒体会议中分布式混音系统,其特征在于:所述的语音主服务器还包括:
语音连续控制模块,用于当前已有三个人正在发言,如第四个人它的活动度量大于前三者的任何一位,控制正在说话的人继续发言;如已经发言的三人中任何一位停止说话,并会选中这第四人,允许该第四人发言。
4. 如权利要求1或2所述的一种多媒体会议中分布式混音系统,其特征在于:所述的语音主服务器还包括:
子服务器转发控制命令模块,用于在主服务器选中的音频流是来自某个子服务器,向该子服务器发送反馈信号,通知它所转发的某个音频流已被选中。
5. 如权利要求3所述的一种多媒体会议中分布式混音系统,其特征在于:在所述的语音采集模块中,采用语音检测技术,传送通话过程中的实际交谈的数据;当与会者不说话处于静音时,禁止发送语音包到服务器。
6. 如权利要求4所述的一种多媒体会议中分布式混音系统,其特征在于:在所述的语音采集模块中,采用语音检测技术,传送通话过程中的实际交谈的数据;当与会者不说话处于静音时,禁止发送语音包到服务器。
7. 如权利要求1或2所述的一种多媒体会议中分布式混音系统,其特征在于:在所述的音频转发模块中,将终选得到的音频数据转发到除被选中者之外的其他所有客户端。
CN2007100679135A 2007-03-31 2007-03-31 一种多媒体会议中分布式混音系统 Expired - Fee Related CN101252452B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007100679135A CN101252452B (zh) 2007-03-31 2007-03-31 一种多媒体会议中分布式混音系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007100679135A CN101252452B (zh) 2007-03-31 2007-03-31 一种多媒体会议中分布式混音系统

Publications (2)

Publication Number Publication Date
CN101252452A true CN101252452A (zh) 2008-08-27
CN101252452B CN101252452B (zh) 2011-05-25

Family

ID=39955649

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007100679135A Expired - Fee Related CN101252452B (zh) 2007-03-31 2007-03-31 一种多媒体会议中分布式混音系统

Country Status (1)

Country Link
CN (1) CN101252452B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102436818A (zh) * 2011-10-25 2012-05-02 浙江万朋网络技术有限公司 一种基于能量优先的服务器端选路混音方法
CN102664019A (zh) * 2012-04-27 2012-09-12 深圳市邦彦信息技术有限公司 一种全交互会议的dsp混音方法和装置
CN101707593B (zh) * 2009-11-17 2012-12-19 红杉树(杭州)信息技术有限公司 一种基于树形服务器、pc客户端和电话设备客户端的会议系统
CN103220258A (zh) * 2012-01-20 2013-07-24 华为技术有限公司 会议混音方法、终端和媒体资源服务器
CN103500580A (zh) * 2013-09-23 2014-01-08 广东威创视讯科技股份有限公司 混音处理方法及系统
CN103686059A (zh) * 2013-09-23 2014-03-26 广东威创视讯科技股份有限公司 分布式混音处理方法及系统
CN104167210A (zh) * 2014-08-21 2014-11-26 华侨大学 一种轻量级的多方会议混音方法和装置
CN104486518A (zh) * 2014-12-03 2015-04-01 中国电子科技集团公司第三十研究所 一种带宽受限网络环境下的电话会议分布式混音方法
CN105304079A (zh) * 2015-09-14 2016-02-03 上海可言信息技术有限公司 一种多方通话的多模式语音合成方法与系统
CN105743889A (zh) * 2016-01-27 2016-07-06 福建星网智慧科技股份有限公司 一种基于webrtc实现多方音频通话的方法以及系统
WO2017166948A1 (zh) * 2016-03-30 2017-10-05 芋头科技(杭州)有限公司 一种分布式语音控制系统
CN108712584A (zh) * 2018-05-16 2018-10-26 中国电子科技集团公司第二十八研究所 一种用于电话会议的分布式混音方法
CN110995946A (zh) * 2019-12-25 2020-04-10 苏州科达科技股份有限公司 混音方法、装置、设备、系统及可读存储介质
CN111049848A (zh) * 2019-12-23 2020-04-21 腾讯科技(深圳)有限公司 通话方法、装置、系统、服务器及存储介质
CN111585776A (zh) * 2020-05-26 2020-08-25 腾讯科技(深圳)有限公司 数据传输方法、装置、设备及计算机可读存储介质
WO2020170946A1 (ja) * 2019-02-19 2020-08-27 株式会社ソニー・インタラクティブエンタテインメント 音声出力制御装置、音声出力制御システム、音声出力制御方法及びプログラム
CN112104836A (zh) * 2020-11-23 2020-12-18 全时云商务服务股份有限公司 一种音频服务器混音方法、系统、存储介质及设备
CN113271432A (zh) * 2021-06-30 2021-08-17 北京二六三企业通信有限公司 发送和接收说话者列表的方法及装置
CN113450821A (zh) * 2021-06-11 2021-09-28 深圳波洛斯科技有限公司 基于分布式计算的多方会议通话系统、方法及计算设备
CN114500130A (zh) * 2021-12-30 2022-05-13 北京字节跳动网络技术有限公司 音频数据推送方法、装置、系统、电子设备及存储介质
CN114827101A (zh) * 2022-04-13 2022-07-29 京东科技信息技术有限公司 音频处理方法、装置、电子设备及存储介质
CN116866321A (zh) * 2023-09-04 2023-10-10 中科融信科技有限公司 一种无中心多路声音一致性选择方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100397855C (zh) * 2003-04-30 2008-06-25 华为技术有限公司 一种分布式混音处理方法

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101707593B (zh) * 2009-11-17 2012-12-19 红杉树(杭州)信息技术有限公司 一种基于树形服务器、pc客户端和电话设备客户端的会议系统
CN102436818A (zh) * 2011-10-25 2012-05-02 浙江万朋网络技术有限公司 一种基于能量优先的服务器端选路混音方法
CN103220258B (zh) * 2012-01-20 2016-07-27 华为技术有限公司 会议混音方法、终端和媒体资源服务器
CN103220258A (zh) * 2012-01-20 2013-07-24 华为技术有限公司 会议混音方法、终端和媒体资源服务器
CN102664019A (zh) * 2012-04-27 2012-09-12 深圳市邦彦信息技术有限公司 一种全交互会议的dsp混音方法和装置
CN103686059A (zh) * 2013-09-23 2014-03-26 广东威创视讯科技股份有限公司 分布式混音处理方法及系统
CN103686059B (zh) * 2013-09-23 2017-04-05 广东威创视讯科技股份有限公司 分布式混音处理方法及系统
CN103500580A (zh) * 2013-09-23 2014-01-08 广东威创视讯科技股份有限公司 混音处理方法及系统
CN104167210A (zh) * 2014-08-21 2014-11-26 华侨大学 一种轻量级的多方会议混音方法和装置
CN104486518A (zh) * 2014-12-03 2015-04-01 中国电子科技集团公司第三十研究所 一种带宽受限网络环境下的电话会议分布式混音方法
CN104486518B (zh) * 2014-12-03 2017-06-30 中国电子科技集团公司第三十研究所 一种带宽受限网络环境下的电话会议分布式混音方法
CN105304079B (zh) * 2015-09-14 2019-05-07 上海可言信息技术有限公司 一种多方通话的多模式语音合成方法与系统以及服务器
CN105304079A (zh) * 2015-09-14 2016-02-03 上海可言信息技术有限公司 一种多方通话的多模式语音合成方法与系统
CN105743889A (zh) * 2016-01-27 2016-07-06 福建星网智慧科技股份有限公司 一种基于webrtc实现多方音频通话的方法以及系统
CN105743889B (zh) * 2016-01-27 2019-05-17 福建星网智慧科技股份有限公司 一种基于webrtc实现多方音频通话的方法以及系统
WO2017166948A1 (zh) * 2016-03-30 2017-10-05 芋头科技(杭州)有限公司 一种分布式语音控制系统
CN108712584A (zh) * 2018-05-16 2018-10-26 中国电子科技集团公司第二十八研究所 一种用于电话会议的分布式混音方法
WO2020170946A1 (ja) * 2019-02-19 2020-08-27 株式会社ソニー・インタラクティブエンタテインメント 音声出力制御装置、音声出力制御システム、音声出力制御方法及びプログラム
JP7116240B2 (ja) 2019-02-19 2022-08-09 株式会社ソニー・インタラクティブエンタテインメント 音声出力制御システム、中継装置、通信装置、音声出力制御方法及びプログラム
JPWO2020170946A1 (ja) * 2019-02-19 2021-11-18 株式会社ソニー・インタラクティブエンタテインメント 音声出力制御装置、音声出力制御システム、音声出力制御方法及びプログラム
CN111049848A (zh) * 2019-12-23 2020-04-21 腾讯科技(深圳)有限公司 通话方法、装置、系统、服务器及存储介质
US11842751B2 (en) 2019-12-23 2023-12-12 Tencent Technology (Shenzhen) Company Limited Call method, apparatus, and system, server, and storage medium
JP7361890B2 (ja) 2019-12-23 2023-10-16 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 通話方法、通話装置、通話システム、サーバ及びコンピュータプログラム
JP2022546542A (ja) * 2019-12-23 2022-11-04 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 通話方法、通話装置、通話システム、サーバ及びコンピュータプログラム
CN111049848B (zh) * 2019-12-23 2021-11-23 腾讯科技(深圳)有限公司 通话方法、装置、系统、服务器及存储介质
CN110995946A (zh) * 2019-12-25 2020-04-10 苏州科达科技股份有限公司 混音方法、装置、设备、系统及可读存储介质
CN110995946B (zh) * 2019-12-25 2021-08-20 苏州科达科技股份有限公司 混音方法、装置、设备、系统及可读存储介质
CN111585776A (zh) * 2020-05-26 2020-08-25 腾讯科技(深圳)有限公司 数据传输方法、装置、设备及计算机可读存储介质
CN112104836A (zh) * 2020-11-23 2020-12-18 全时云商务服务股份有限公司 一种音频服务器混音方法、系统、存储介质及设备
CN113450821A (zh) * 2021-06-11 2021-09-28 深圳波洛斯科技有限公司 基于分布式计算的多方会议通话系统、方法及计算设备
CN113450821B (zh) * 2021-06-11 2024-05-07 深圳波洛斯科技有限公司 基于分布式计算的多方会议通话系统、方法及计算设备
CN113271432B (zh) * 2021-06-30 2022-11-18 北京二六三企业通信有限公司 发送和接收说话者列表的方法及装置
CN113271432A (zh) * 2021-06-30 2021-08-17 北京二六三企业通信有限公司 发送和接收说话者列表的方法及装置
CN114500130A (zh) * 2021-12-30 2022-05-13 北京字节跳动网络技术有限公司 音频数据推送方法、装置、系统、电子设备及存储介质
WO2023125350A1 (zh) * 2021-12-30 2023-07-06 北京字节跳动网络技术有限公司 音频数据推送方法、装置、系统、电子设备及存储介质
CN114827101A (zh) * 2022-04-13 2022-07-29 京东科技信息技术有限公司 音频处理方法、装置、电子设备及存储介质
CN116866321A (zh) * 2023-09-04 2023-10-10 中科融信科技有限公司 一种无中心多路声音一致性选择方法及系统
CN116866321B (zh) * 2023-09-04 2023-12-08 中科融信科技有限公司 一种无中心多路声音一致性选择方法及系统

Also Published As

Publication number Publication date
CN101252452B (zh) 2011-05-25

Similar Documents

Publication Publication Date Title
CN101252452B (zh) 一种多媒体会议中分布式混音系统
JP5185631B2 (ja) マルチメディア会議方法および信号
US6580694B1 (en) Establishing optimal audio latency in streaming applications over a packet-based network
JP4426454B2 (ja) 通信リンク間の遅延トレードオフ
US6940826B1 (en) Apparatus and method for packet-based media communications
US7327696B1 (en) Intelligent voice converter
US8438016B2 (en) Silence-based adaptive real-time voice and video transmission methods and system
US8412171B2 (en) Voice group sessions over telecommunication networks
CA2534731C (en) Managing multicast conference calls
Sat et al. Analyzing voice quality in popular VoIP applications
CN101488870A (zh) 语音混音的实现方法、系统及设备
US7136398B1 (en) Method and apparatus for adding functionality to an existing conference call
CN101656807B (zh) 一种网络电话发送端的语音控制方法及网络电话发送终端
CN101394363A (zh) 一种rtcp通信的实现方法
CN105827575B (zh) 一种传输控制方法、装置及电子设备
Mazurczyk et al. Adaptive voip with audio watermarking for improved call quality and security
Sadiwala et al. Performance evaluation of next generation networks using OPNET simulator
Dutta et al. A group synchronization algorithm for VoIP conferencing
Escobar et al. Convivo communicator: An interface‐adaptive VoIP system for poor quality networks
Smith et al. Tandem-free operation for VoIP conference bridges
Sulaiman et al. Performance evaluation of voice call over an IP based network
Maheswari et al. Performance evaluation of packet loss replacement using repetititon technique in voip streams
Yuhe et al. New solutions of VoIP on multi-hop wireless network
Lu et al. A scheme of improving the quality of speech mixing in multi-media conference system
Singh et al. Performance Progress in QoS Mechanism in Voice over Internet Protocol System.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: HANGZHOU HONGSHAN SAILIAN COMMUNICATION TECHNOLOGY

Free format text: FORMER OWNER: INFOWARELAB (HANGZHOU) INFORMATION TECHNOLOGIES, INC.

Effective date: 20120606

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20120606

Address after: 311200, building 3, building 11, No. 1, staff Road, Hangzhou, Zhejiang, Xihu District 306-308, China

Patentee after: Hangzhou Sequoia United Communication Technology Co., Ltd.

Address before: 311200 Jincheng Road, Xiaoshan District, Zhejiang, Hangzhou, China, 1038

Patentee before: InfowareLab (Hangzhou) Information Technologies, Inc

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110525

Termination date: 20160331

CF01 Termination of patent right due to non-payment of annual fee