CN112118264A - 会议混音方法以及系统 - Google Patents

会议混音方法以及系统 Download PDF

Info

Publication number
CN112118264A
CN112118264A CN202010997726.2A CN202010997726A CN112118264A CN 112118264 A CN112118264 A CN 112118264A CN 202010997726 A CN202010997726 A CN 202010997726A CN 112118264 A CN112118264 A CN 112118264A
Authority
CN
China
Prior art keywords
audio
audio code
conference
code streams
streams
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010997726.2A
Other languages
English (en)
Inventor
耿昌明
胡小鹏
顾振华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Keda Technology Co Ltd
Original Assignee
Suzhou Keda Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Keda Technology Co Ltd filed Critical Suzhou Keda Technology Co Ltd
Priority to CN202010997726.2A priority Critical patent/CN112118264A/zh
Publication of CN112118264A publication Critical patent/CN112118264A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/762Media network packet handling at the source 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/65Network streaming protocols, e.g. real-time transport protocol [RTP] or real-time control protocol [RTCP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/764Media network packet handling at the destination 

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种会议混音方法以及系统,应用于中心服务器处的会议混音方法包括:接收各与会终端发送的音频码流,所述音频码流包括音频数据、音频激励标志以及音频能量值;获取根据所述音频激励标志以及音频能量值从各与会终端的音频码流中选择N路音频码流,获取所述N路音频码流,其中,N为大于1且小于等于与会终端数量的整数;将所获取的N路音频码流发送至各与会终端,供各与会终端进行混音和播放。本发明提供的会议混音方法以及系统提高终端利用率,释放中心服务器的处理压力的同时,保障会议过程中的语音稳定性。

Description

会议混音方法以及系统
技术领域
本发明涉及多媒体信息通信领域,尤其涉及一种会议混音方法以及系统。
背景技术
传统视频会议系统包括多点控制单元(Multi Control Unit,MCU)、终端和通信网络,使用的会话协议为H.323/SIP。传统视频会议过程中终端只收发一路音频码流,由MCU服务器负责所有的音频编码、转码、解码、混合等复杂逻辑,服务器压力比较大,需要较高的配置,而对于与会终端数量较大的会议就需要耗费大量的中心节点媒体资源,性价比非常低,且转码过程增加了音频的延时。现有选择性转发单元(Selective Forwarding Unit,SFU)的混音方案都是由终端决定要订阅的对象,在与会终端数量较大的会议中,终端会频繁切换订阅对象,导致服务器信令通道压力非常大,且切换过程中语音丢失情况会非常突出。
发明内容
本发明为了克服上述现有技术存在的缺陷,提供一种会议混音方法以及系统,提高终端利用率,释放中心服务器的处理压力的同时,保障会议过程中的语音稳定性。
根据本发明的一个方面,提供一种会议混音方法,应用于中心服务器处,包括:
接收各与会终端发送的音频码流,所述音频码流包括音频数据、音频激励标志以及音频能量值;
根据所述音频激励标志以及音频能量值从各与会终端的音频码流中选择N路音频码流,获取所述N路音频码流,其中,N为大于1且小于等于与会终端数量的整数;
将所获取的N路音频码流发送至各与会终端,供各与会终端进行混音和播放。
在本发明的一些实施例中,所述接收各与会终端发送的音频码流之前还包括:
创建一虚拟混音选择器,所述根据所述音频激励标志以及音频能量值从各与会终端的音频码流中选择N路音频码流的步骤由所述虚拟混音选择器执行,其中,各所述与会终端订阅所述虚拟混音选择器选择的N路音频码流。
在本发明的一些实施例中,所述虚拟混音选择器部署在所述中心服务器或与会终端。
在本发明的一些实施例中,所述根据所述音频激励标志以及音频能量值从各与会终端的音频码流中选择N路音频码流包括:
获取当前选择的N路音频码流的音频激励标志和/或音频能量值;
根据所述音频激励标志和/或音频能量值判断该音频码流是否存在发言者;
若否,则从未被选择的多路音频码流中选择一路音频码流替换该音频码流。
在本发明的一些实施例中,所述根据所述音频激励标志和/或音频能量值判断该音频码流是否存在发言者包括:
判断所述音频激励标志是否指示该音频码流属于语音信号;或者
判断所述音频能量值是否在预设时间段内皆大于等于预设能力阈值。
在本发明的一些实施例中,所述从未被选择的多路音频码流中选择一路音频码流替换该音频码流包括:
将所述音频激励标志指示该音频码流属于语音信号的未被选择的多路音频码流,按所述音频能量值自大至小进行排序,形成第一音频码流序列;
将所述音频激励标志指示该音频码流不属于语音信号的未被选择的多路音频码流,按所述音频能量值自大至小进行排序,形成第二音频码流序列;
将所述第二音频码流序列排序在所述第一音频码流序列之后,形成音频码流序列;
按所述音频码流序列的排序顺序,从未被选择的多路音频码流中选择一路音频码流替换该音频码流。
在本发明的一些实施例中,所述将所获取的N路音频码流发送至各与会终端还包括:
判断所获取的N路音频码流中是否包含目的与会终端发送的音频码流;
若是,则向该目的与会终端发送除了该与会终端发送的音频码流之外的N-1路音频码流。
根据本发明的又一方面,还提供一种会议混音方法,应用于终端处,包括:
向中心服务器发送音频码流,所述音频码流包括音频数据、音频激励标志以及音频能量值;
接收由所述中心服务器发送的N路音频码流,所述N路音频码流根据所述音频激励标志以及音频能量值从各与会终端的音频码流中选择,其中,N为大于1且小于等于与会终端数量的整数;
对所接收的N路音频码流进行混音和播放。
在本发明的一些实施例中,所述对所接收的N路音频码流进行混音和播放还包括:
对所接收的N路音频码流进行解码,
其中,N根据各所述与会终端的解码能力确定。
在本发明的一些实施例中,所述音频码流为RTP码流,所述音频激励标志以及音频能量值位于所述RTP码流的扩展头部。
根据本发明的又一方面,还提供一种视频会议系统,包括中心服务器以及多个与会终端,
所述中心服务器处配置成:
接收各与会终端发送的音频码流,所述音频码流包括音频数据、音频激励标志以及音频能量值;
根据所述音频激励标志以及音频能量值从各与会终端的音频码流中选择N路音频码流,获取所述N路音频码流,其中,N为大于1且小于等于与会终端数量的整数;
将所获取的N路音频码流发送至各与会终端,供各与会终端进行混音和播放;
所述与会终端配置成:
向所述中心服务器发送音频码流,所述音频码流包括音频数据、音频激励标志以及音频能量值;
接收由所述中心服务器发送的N路音频码流,所述N路音频码流根据所述音频激励标志以及音频能量值从各与会终端的音频码流中选择,其中,N为大于1且小于等于与会终端数量的整数;
对所接收的N路音频码流进行混音和播放。
根据本发明的又一方面,还提供一种中心服务器,包括:
第一接收模块,配置成接收各与会终端发送的音频码流,所述音频码流包括音频数据、音频激励标志以及音频能量值;
获取模块,配置成根据所述音频激励标志以及音频能量值从各与会终端的音频码流中选择N路音频码流,获取所述N路音频码流,其中,N为大于1且小于等于与会终端数量的整数;
第一发送模块,配置成将所获取的N路音频码流发送至各与会终端,供各与会终端进行混音和播放。
根据本发明的又一方面,还提供一种与会终端,包括:
第二发送模块,配置成向所述中心服务器发送音频码流,所述音频码流包括音频数据、音频激励标志以及音频能量值;
第二接收模块,配置成接收由所述中心服务器发送的N路音频码流,所述N路音频码流根据所述音频激励标志以及音频能量值从各与会终端的音频码流中选择,N为大于1且小于等于与会终端数量的整数;
混音播放模块,配置成对所接收的N路音频码流进行混音和播放。
根据本发明的又一方面,还提供一种电子设备,所述电子设备包括:处理器;存储介质,其上存储有计算机程序,所述计算机程序被所述处理器运行时执行如上所述的步骤。
根据本发明的又一方面,还提供一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上所述的步骤。
由此可见,本发明提供的方案,与现有技术相比,具有如下优势:
1)由与会终端进行混音和播放,无需中心服务器对各与会终端发送的音频码流进行处理,只需进行音频码流的路由和转发,同时,由客户端完成多路音频混音,充分利用了终端的算力;
2)无须与会终端进行音频码流的选择,因此,与会终端无须通过频繁的信令交互去切换音频码流,通过音频激励标志以及音频能量值实现音频码流的智能挑选、无缝切换音频源,避免了切换过程中的语音丢失。
附图说明
通过参照附图详细描述其示例实施方式,本发明的上述和其它特征及优点将变得更加明显。
图1示出了根据本发明实施例的中心服务器处的会议混音方法的流程图。
图2示出了根据本发明具体实施例的确定是否需要替换音频码流的流程图。
图3示出了根据本发明具体实施例的选择用于替换的音频码流的流程图。
图4示出了根据本发明实施例的与会终端处的会议混音方法的流程图。
图5示出了根据本发明实施例的会议混音系统的示意图。
图6示出了根据本发明实施例的中心服务器的模块图。
图7示出了根据本发明实施例的与会终端的模块图。
图8示意性示出本公开示例性实施例中一种计算机可读存储介质示意图。
图9示意性示出本公开示例性实施例中一种电子设备示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本发明的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的步骤。例如,有的步骤还可以分解,而有的步骤可以合并或部分合并,因此,实际执行的顺序有可能根据实际情况改变。
为了克服上述现有技术存在的缺陷,本发明提供一种会议混音方法以及系统,提高终端利用率,释放中心服务器的处理压力的同时,保障会议过程中的语音稳定性。
首先参见图1,图1示出了根据本发明实施例的应用于中心服务器处的会议混音方法的流程图。图1共示出了如下步骤:
步骤S101:接收各与会终端发送的音频码流,所述音频码流包括音频数据、音频激励标志以及音频能量值。
具体而言,所述音频码流可以为RTP(实时传输协议,实时传输协议)码流,所述音频激励标志以及音频能量值位于所述RTP码流的扩展头部。本发明并非以此为限制,其它协议类型的码流和音频激励标志以及音频能量值的设置方式皆在本发明的保护范围之内。
具体而言,音频激励标志可以根据对音频码流的语音激励检测(Voice ActivityDetection,VAD)来设置。在一些实施例中,语音激励检测可以将音频码流划分为属于语音的音频码流和不属于语音的音频码流。在一些实施例中,属于语音可以仅仅指示音频码流包含语音信号;在一些变化例中,属于语音还可以指示音频码流包含当前发言人的语音信号,本发明并非以此为限制。当语音激励检测将音频码流划分为属于语音的音频码流时,可以设置音频激励标志为1;当语音激励检测将音频码流划分为不属于语音的音频码流时,可以设置音频激励标志为0。本发明并非以此为限制,更多的音频码流的分类、音频激励标志的不同设置方式皆在本发明的保护范围之内。进一步地,语音激励检测还可以用于将音频码流中的噪声和背景声去除,本发明并非以此为限制。
具体而言,音频能量值可以指音频码流的音量(设定时间段的最大音量或平均音量,设定时间段例如可以是视频会议中每一帧的持续时间),也可以指音频码流中语音的音量(设定时间段的最大音量或平均音量,设定时间段例如可以是视频会议中每一帧的持续时间)。各类音频能量值的计算方式皆在本发明的保护范围之内。
具体而言,通过音频激励标志和音频能量值可以从提供更多的音频码流选择的参数,以便于实现智能选择。进一步地,音频激励标志的信息量相对于音频能量值的信息量较少,由此,信息量较少的音频激励标志的变化一般较少/较不频繁,而信息量较大的音频能量值的变化较大/较频繁,结合音频激励标志(减少码流切换)和音频能量值(提高码流选择准确率)可以适应不同需求的码流选择。
具体而言,在步骤S101之前,中心服务器还可以执行创建会议,并基于与会终端的请求接入与会终端的步骤。
在本发明的一个具体实现中,会议混音方法基于Webrtc SFU(SelectiveForwarding Unit)框架,中心服务器只负责转发,不做码流解码、混音、编码的处理,由此,降低中心服务器的处理压力。在该实施例中,在步骤S101之前还包括创建一虚拟混音选择器的步骤。
具体而言,在SFU框架中,各与会终端可以向中心服务器发送订阅信令,以订阅指定与会终端的音频码流。在创建虚拟混音选择器后,虚拟混音选择器相当于一虚拟与会终端,从而,虚拟混音选择器向中心服务器发送订阅信令,以订阅每一接入中心服务器进行会议的与会终端的音频码流(并将该与会终端的音频码流加入虚拟混音选择器的订阅列表,订阅列表可以储存在中心服务器中,供中心服务器执行音频码流的转发);各与会终端向中心服务器发送订阅信令,以订阅虚拟混音选择器的音频码流,无需频繁进行更改订阅的与会终端,无需多余的信令传输和音频码流的转发切换,从而避免由于切换导致的语音丢失和语音中断。
具体而言,虚拟混音选择器可以部署在中心服务器或者部署在与会终端上,本发明并非以此为限制。具体而言,与会终端可以以客户端的形式与中心服务器进行交互,虚拟混音选择器可以是在中心服务器或者与会终端上创建的虚拟客户端或虚拟逻辑单元,从而实现其作为虚拟与会终端来与中心服务器进行交互。
具体而言,在上述实施例中,所述虚拟混音选择器接收各与会终端的音频码流后,执行根据所述音频激励标志以及音频能量值从各与会终端的音频码流中选择N路音频码流的步骤。
步骤S102:根据所述音频激励标志以及音频能量值从各与会终端的音频码流中选择N路音频码流,获取所述N路音频码流,其中,N为大于1且小于等于与会终端数量的整数。
具体而言,与会终端在接收到音频码流后,需要对接收的音频码流执行解码、混音和播放。因此,在本实施例中,N可以根据各所述与会终端的解码能力确定。例如,N可以为各与会终端中解码能力最低的与会终端所能够解码的音频码流的数量,从而保证会议的稳定进行,本发明并非以此为限制。
在一些变化例中,N的数量可以动态变化,例如,在保证各与会终端中解码能力最低的与会终端所能够解码的音频码流的数量大于等于N的前提下,使得N大于各与会终端的音频码流中音频激励标志指示该音频码流属于语音信号的数量,从而将会议中的各个语音都能够包含在最终的混音中。
步骤S103:将所获取的N路音频码流发送至各与会终端,供各与会终端进行混音和播放。
具体而言,中心服务器在将音频码流发送至各与会终端之前还包括一个判断步骤。中心服务器判断所获取的N路音频码流中是否包含目的与会终端(接收该N路音频码流的与会终端)发送的音频码流。若是,则向该目的与会终端发送除了该与会终端发送的音频码流之外的N-1路音频码流。换言之,各与会终端接收到的多路音频码流皆不包含该与会终端发送的音频码流,从而可以避免音频码流回传混音播放时造成的回声。
本发明提供的中心服务器处的会议混音方法,一方面,由与会终端进行混音和播放,无需中心服务器对各与会终端发送的音频码流进行处理,只需进行音频码流的路由和转发,同时,由客户端完成多路音频混音,充分利用了终端的算力;另一方面,无须与会终端进行音频码流的选择,因此,与会终端无须通过频繁的信令交互去切换音频码流,通过音频激励标志以及音频能量值实现音频码流的智能挑选、无缝切换音频源,避免了切换过程中的语音丢失。
下面参见图2,图2示出了根据本发明具体实施例的确定是否需要替换音频码流的流程图。具体而言,虚拟混音选择器执行的根据所述音频激励标志以及音频能量值从各与会终端的音频码流中选择N路音频码流可以包括如下步骤:
步骤S111:获取当前选择的N路音频码流的音频激励标志和/或音频能量值。
步骤S112:根据所述音频激励标志和/或音频能量值判断该音频码流是否存在发言者。
具体而言,步骤S112可以通过如下任一个判断方式来根据所述音频激励标志和/或音频能量值判断该音频码流是否存在发言者:判断所述音频激励标志是否指示该音频码流属于语音信号;或者判断所述音频能量值是否在预设时间段内皆大于等于预设能力阈值。当判断所述音频激励标志指示该音频码流属于语音信号则判断该音频码流存在发言者;当判断所述音频激励标志指示该音频码流不属于语音信号则判断该音频码流不存在发言者。当判断所述音频能量值在预设时间段(例如为1-10秒中的任意值,本发明并非以此为限制)内皆大于等于预设能力阈值则判断该音频码流存在发言者;当判断所述音频能量值在预设时间段内皆小于等于预设能力阈值则判断该音频码流不存在发言者。
若步骤S112判断否,则执行步骤S113:从未被选择的多路音频码流中选择一路音频码流替换该音频码流。若步骤S112判断是,则无需进行音频码流的替换。由此,无需进行频繁的音频码流的切换,且便于虚拟混音选择器的音频码流选择效率,提高会议语音传输的实时性和稳定性。
下面参见图3,图3示出了根据本发明具体实施例的选择用于替换的音频码流的流程图。具体而言,从未被选择的多路音频码流中选择一路音频码流替换该音频码流可以包括如下步骤:
步骤S121:将所述音频激励标志指示该音频码流属于语音信号的未被选择的多路音频码流,按所述音频能量值自大至小进行排序,形成第一音频码流序列。
步骤S122:将所述音频激励标志指示该音频码流不属于语音信号的未被选择的多路音频码流,按所述音频能量值自大至小进行排序,形成第二音频码流序列。
步骤S123:将所述第二音频码流序列排序在所述第一音频码流序列之后,形成音频码流序列。
步骤S124:按所述音频码流序列的排序顺序,从未被选择的多路音频码流中选择一路音频码流替换该音频码流。
具体而言,当仅需替换一路音频码流时,可以选择排序顺序中排于第一位的音频码流进行替换;当需替换多路音频码流时,可以选择排序顺序中排序最前的多路音频码流进行替换。
由此,可以通过音频激励标志首先进行排序,再通过音频能量值进行进一步地排序,进一步降低音频码流的切换频率,便于虚拟混音选择器的音频码流选择效率,提高会议语音传输的实时性和稳定性。进一步地,在虚拟混音选择器首次进行选择或者需要替换所有音频码流时,可以按上述排序方式进行音频码流的选择。上述排序顺序依据所接收的音频码流中的音频激励标志和音频能量值实时更新。
以上示例性地示出本发明的多个实现方式,本发明并非以此为限制,各实施方式中,步骤的增加、省略、顺序变换皆在本发明的保护范围之内;各实施方式可以单独或组合来实现。
本发明还提供一种与会终端处的会议混音方法,下面参见图4。图4共示出如下步骤:
步骤S131:向中心服务器发送音频码流,所述音频码流包括音频数据、音频激励标志以及音频能量值。
步骤S132:接收由所述中心服务器发送的N路音频码流,所述N路音频码流根据所述音频激励标志以及音频能量值从各与会终端的音频码流中选择,其中,N为大于1且小于等于与会终端数量的整数。
步骤S133:对所接收的N路音频码流进行混音和播放。
具体而言,与会终端处的会议混音方法的各个实施例和变化方式可以参照中心服务器处的会议混音方法,本发明并非以此为限制。
本发明还提供一种会议混音系统,参见图5。会议混音系统包括中心服务器210以及多个与会终端220。所述中心服务器处配置执行如图1所示的步骤。所述与会终端配置成执行如图4所示的步骤。
在图5所示的实施例中,中心服务器210可以创建一虚拟混音选择器230。虚拟混音选择器230向中心服务器210发送订阅信令,以订阅每一接入中心服务器210进行会议的与会终端220(与会终端A、与会终端B以及与会终端C)的音频码流。各与会终端220分别向中心服务器210发送订阅信令,以订阅虚拟混音选择器230的音频码流。在会议时,各与会终端220分别向中心服务器210发送音频码流Audio A、Audio B以及Audio C。中心服务器210根据订阅,将音频码流Audio A、Audio B以及Audio C转发至虚拟混音选择器230。根据各与会终端220的解码能力,该实施例中,虚拟混音选择器230依据音频激励标志以及音频能量值从音频码流Audio A、Audio B以及Audio C选择两路音频码流(例如音频码流Audio A、Audio B)作为用于混音的音频码流Mixer Audio1和Mixer Audio2。虚拟混音选择器230将所选择的音频码流Mixer Audio1和Mixer Audio2发送给中心服务器210,中心服务器210根据订阅,将音频码流Mixer Audio1和Mixer Audio2转发给各与会终端220。具体而言,中心服务器210将音频码流Mixer Audio1和Mixer Audio2转发给与会终端A时,由于MixerAudio1(AudioA)是由与会终端A发送的,因此,可以仅将Mixer Audio2转发给与会终端A。中心服务器210将音频码流Mixer Audio1和Mixer Audio2转发给与会终端B时,由于MixerAudio2(Audio B)是由与会终端B发送的,因此,可以仅将Mixer Audio1转发给与会终端B。中心服务器210将音频码流Mixer Audio1和Mixer Audio2转发给与会终端C时,由于MixerAudio1和Mixer Audio2皆不是由与会终端C发送的,因此,可以将Mixer Audio1和MixerAudio2转发给与会终端C。各与会终端220接收对应的音频码流Mixer Audio1和MixerAudio2后,进行解码、混音和播放。
以上仅仅是示意性地描述本发明的一个实现方式,本发明并非以此为限制。
下面结合图6描述本发明实施例的中心服务器。中心服务器210包括第一接收模块211、获取模块212以及第一发送模块213。
第一接收模块211配置成接收各与会终端发送的音频码流,所述音频码流包括音频数据、音频激励标志以及音频能量值。
获取模块212配置成根据所述音频激励标志以及音频能量值从各与会终端的音频码流中选择N路音频码流,获取所述N路音频码流,其中,N为大于1且小于等于与会终端数量的整数。
第一发送模块213配置成将所获取的N路音频码流发送至各与会终端,供各与会终端进行混音和播放。
本发明可以通过软件、硬件、固件及其任意结合的方式实现中心服务器210。图6仅仅是示意性的示出本发明提供的中心服务器210,在不违背本发明构思的前提下,模块的拆分、合并、增加都在本发明的保护范围之内。
下面结合图7描述本发明实施例的与会终端。与会终端220包括第二发送模块221、第二接收模块222以及混音播放模块223。
第二发送模块221配置成向所述中心服务器发送音频码流,所述音频码流包括音频数据、音频激励标志以及音频能量值。
第二接收模块222配置成接收由所述中心服务器发送的N路音频码流,所述N路音频码流根据所述音频激励标志以及音频能量值从各与会终端的音频码流中选择,其中,N为大于1且小于等于与会终端数量的整数。
混音播放模块223配置成对所接收的N路音频码流进行混音和播放。
本发明可以通过软件、硬件、固件及其任意结合的方式实现与会终端220。图7仅仅是示意性的示出本发明提供的与会终端220,在不违背本发明构思的前提下,模块的拆分、合并、增加都在本发明的保护范围之内。
本发明提供的中心服务器和与会终端中,一方面,由与会终端进行混音和播放,无需中心服务器对各与会终端发送的音频码流进行处理,只需进行音频码流的路由和转发,同时,由客户端完成多路音频混音,充分利用了终端的算力;另一方面,无须与会终端进行音频码流的选择,因此,与会终端无须通过频繁的信令交互去切换音频码流,通过音频激励标志以及音频能量值实现音频码流的智能挑选、无缝切换音频源,避免了切换过程中的语音丢失。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被例如处理器执行时可以实现上述任意一个实施例中在中心服务器处或者在与会终端处的所述会议混音方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,若所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述在中心服务器处或者在与会终端处的会议混音方法部分中描述的根据本发明各种示例性实施方式的步骤。
参考图8所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适若的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在租户计算设备上执行、部分地在租户设备上执行、作为一个独立的软件包执行、部分在租户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到租户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在本公开的示例性实施例中,还提供一种电子设备,该电子设备可以包括处理器,以及用于存储所述处理器的可执行指令的存储器。其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一个实施例中在中心服务器处或者在与会终端处的所述会议混音方法的步骤。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图9来描述根据本发明的这种实施方式的电子设备600。图9显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述在中心服务器处或者在与会终端处的会议混音方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元610可以执行如图1至图4中所示的步骤。
所述存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
所述存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得租户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应若明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本公开实施方式的上述在中心服务器处或者在与会终端处的会议混音方法。
由此可见,本发明提供的方案,与现有技术相比,具有如下优势:
1)由与会终端进行混音和播放,无需中心服务器对各与会终端发送的音频码流进行处理,只需进行音频码流的路由和转发,同时,由客户端完成多路音频混音,充分利用了终端的算力;
2)无须与会终端进行音频码流的选择,因此,与会终端无须通过频繁的信令交互去切换音频码流,通过音频激励标志以及音频能量值实现音频码流的智能挑选、无缝切换音频源,避免了切换过程中的语音丢失。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。

Claims (10)

1.一种会议混音方法,其特征在于,应用于中心服务器处,包括:
接收各与会终端发送的音频码流,所述音频码流包括音频数据、音频激励标志以及音频能量值;
根据所述音频激励标志以及音频能量值从各与会终端的音频码流中选择N路音频码流,获取所述N路音频码流,其中,N为大于1且小于等于与会终端数量的整数;
将所获取的N路音频码流发送至各与会终端,供各与会终端进行混音和播放。
2.如权利要求1所述的会议混音方法,其特征在于,所述接收各与会终端发送的音频码流之前还包括:
创建一虚拟混音选择器,所述根据所述音频激励标志以及音频能量值从各与会终端的音频码流中选择N路音频码流的步骤由所述虚拟混音选择器执行,其中,各所述与会终端订阅所述虚拟混音选择器选择的N路音频码流。
3.如权利要求2所述的会议混音方法,其特征在于,所述虚拟混音选择器部署在所述中心服务器或与会终端。
4.如权利要求2所述的会议混音方法,其特征在于,所述根据所述音频激励标志以及音频能量值从各与会终端的音频码流中选择N路音频码流包括:
获取当前选择的N路音频码流的音频激励标志和/或音频能量值;
根据所述音频激励标志和/或音频能量值判断该音频码流是否存在发言者;
若否,则从未被选择的多路音频码流中选择一路音频码流替换该音频码流。
5.如权利要求4所述的会议混音方法,其特征在于,所述根据所述音频激励标志和/或音频能量值判断该音频码流是否存在发言者包括:
判断所述音频激励标志是否指示该音频码流属于语音信号;或者
判断所述音频能量值是否在预设时间段内皆大于等于预设能力阈值。
6.如权利要求4所述的会议混音方法,其特征在于,所述从未被选择的多路音频码流中选择一路音频码流替换该音频码流包括:
将所述音频激励标志指示该音频码流属于语音信号的未被选择的多路音频码流,按所述音频能量值自大至小进行排序,形成第一音频码流序列;
将所述音频激励标志指示该音频码流不属于语音信号的未被选择的多路音频码流,按所述音频能量值自大至小进行排序,形成第二音频码流序列;
将所述第二音频码流序列排序在所述第一音频码流序列之后,形成音频码流序列;
按所述音频码流序列的排序顺序,从未被选择的多路音频码流中选择一路音频码流替换该音频码流。
7.如权利要求1至6任一项所述的会议混音方法,其特征在于,所述将所获取的N路音频码流发送至各与会终端还包括:
判断所获取的N路音频码流中是否包含目的与会终端发送的音频码流;
若是,则向该目的与会终端发送除了该与会终端发送的音频码流之外的N-1路音频码流。
8.一种会议混音方法,其特征在于,应用于终端处,包括:
向中心服务器发送音频码流,所述音频码流包括音频数据、音频激励标志以及音频能量值;
接收由所述中心服务器发送的N路音频码流,所述N路音频码流根据所述音频激励标志以及音频能量值从各与会终端的音频码流中选择,其中,N为大于1且小于等于与会终端数量的整数;
对所接收的N路音频码流进行混音和播放。
9.如权利要求8所述的会议混音方法,其特征在于,所述对所接收的N路音频码流进行混音和播放还包括:
对所接收的N路音频码流进行解码,
其中,N根据各所述与会终端的解码能力确定。
10.一种视频会议系统,其特征在于,包括中心服务器以及多个与会终端,
所述中心服务器处配置成:
接收各与会终端发送的音频码流,所述音频码流包括音频数据、音频激励标志以及音频能量值;
根据所述音频激励标志以及音频能量值从各与会终端的音频码流中选择N路音频码流,获取所述N路音频码流,其中,N为大于1且小于等于与会终端数量的整数;
将所获取的N路音频码流发送至各与会终端,供各与会终端进行混音和播放;
所述与会终端配置成:
向所述中心服务器发送音频码流,所述音频码流包括音频数据、音频激励标志以及音频能量值;
接收由所述中心服务器发送的N路音频码流,所述N路音频码流根据所述音频激励标志以及音频能量值从各与会终端的音频码流中选择;
对所接收的N路音频码流进行混音和播放。
CN202010997726.2A 2020-09-21 2020-09-21 会议混音方法以及系统 Pending CN112118264A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010997726.2A CN112118264A (zh) 2020-09-21 2020-09-21 会议混音方法以及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010997726.2A CN112118264A (zh) 2020-09-21 2020-09-21 会议混音方法以及系统

Publications (1)

Publication Number Publication Date
CN112118264A true CN112118264A (zh) 2020-12-22

Family

ID=73801280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010997726.2A Pending CN112118264A (zh) 2020-09-21 2020-09-21 会议混音方法以及系统

Country Status (1)

Country Link
CN (1) CN112118264A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112885329A (zh) * 2021-02-02 2021-06-01 广州广哈通信股份有限公司 一种提高混音音质的控制方法、装置及存储介质
CN114070826A (zh) * 2021-11-05 2022-02-18 广州朗国电子科技股份有限公司 基于鸿蒙的分布式数据管理方法、系统、控制终端和介质
CN114285830A (zh) * 2021-12-21 2022-04-05 北京百度网讯科技有限公司 语音信号处理方法、装置、电子设备及可读存储介质
CN114627886A (zh) * 2022-03-10 2022-06-14 军事科学院系统工程研究院网络信息研究所 一种会议语音处理方法及装置
CN114827101A (zh) * 2022-04-13 2022-07-29 京东科技信息技术有限公司 音频处理方法、装置、电子设备及存储介质
CN114900503A (zh) * 2022-04-22 2022-08-12 北京字节跳动网络技术有限公司 一种混音方法、装置、处理服务器、媒体服务器及介质
CN115643242A (zh) * 2022-10-13 2023-01-24 北京华建云鼎科技股份公司 一种多路音频数据处理方法和系统
CN116233079B (zh) * 2022-12-02 2024-03-12 北京富通亚讯网络信息技术有限公司 一种无中心终端自组视频会议的控制方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107276777A (zh) * 2017-07-27 2017-10-20 苏州科达科技股份有限公司 会议系统的音频处理方法及装置
CN108712584A (zh) * 2018-05-16 2018-10-26 中国电子科技集团公司第二十八研究所 一种用于电话会议的分布式混音方法
CN110070878A (zh) * 2019-03-26 2019-07-30 苏州科达科技股份有限公司 音频码流的解码方法及电子设备
CN111049848A (zh) * 2019-12-23 2020-04-21 腾讯科技(深圳)有限公司 通话方法、装置、系统、服务器及存储介质
CN111276152A (zh) * 2020-04-30 2020-06-12 腾讯科技(深圳)有限公司 一种音频处理方法、终端及服务器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107276777A (zh) * 2017-07-27 2017-10-20 苏州科达科技股份有限公司 会议系统的音频处理方法及装置
CN108712584A (zh) * 2018-05-16 2018-10-26 中国电子科技集团公司第二十八研究所 一种用于电话会议的分布式混音方法
CN110070878A (zh) * 2019-03-26 2019-07-30 苏州科达科技股份有限公司 音频码流的解码方法及电子设备
CN111049848A (zh) * 2019-12-23 2020-04-21 腾讯科技(深圳)有限公司 通话方法、装置、系统、服务器及存储介质
CN111276152A (zh) * 2020-04-30 2020-06-12 腾讯科技(深圳)有限公司 一种音频处理方法、终端及服务器

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112885329A (zh) * 2021-02-02 2021-06-01 广州广哈通信股份有限公司 一种提高混音音质的控制方法、装置及存储介质
CN112885329B (zh) * 2021-02-02 2023-10-31 广州广哈通信股份有限公司 一种提高混音音质的控制方法、装置及存储介质
CN114070826A (zh) * 2021-11-05 2022-02-18 广州朗国电子科技股份有限公司 基于鸿蒙的分布式数据管理方法、系统、控制终端和介质
CN114285830A (zh) * 2021-12-21 2022-04-05 北京百度网讯科技有限公司 语音信号处理方法、装置、电子设备及可读存储介质
CN114285830B (zh) * 2021-12-21 2024-05-24 北京百度网讯科技有限公司 语音信号处理方法、装置、电子设备及可读存储介质
CN114627886A (zh) * 2022-03-10 2022-06-14 军事科学院系统工程研究院网络信息研究所 一种会议语音处理方法及装置
CN114827101A (zh) * 2022-04-13 2022-07-29 京东科技信息技术有限公司 音频处理方法、装置、电子设备及存储介质
CN114900503A (zh) * 2022-04-22 2022-08-12 北京字节跳动网络技术有限公司 一种混音方法、装置、处理服务器、媒体服务器及介质
CN115643242A (zh) * 2022-10-13 2023-01-24 北京华建云鼎科技股份公司 一种多路音频数据处理方法和系统
CN116233079B (zh) * 2022-12-02 2024-03-12 北京富通亚讯网络信息技术有限公司 一种无中心终端自组视频会议的控制方法

Similar Documents

Publication Publication Date Title
CN112118264A (zh) 会议混音方法以及系统
US8331585B2 (en) Audio mixing
EP1360798B1 (en) Control unit for multipoint multimedia/audio conference
US9942580B2 (en) System and method for automatically selecting encoding/decoding for streaming media
US8340269B2 (en) Method, device, and system for processing multi-channel audio signals
US20130064387A1 (en) Audio processing method, system, and control server
EP1624632A1 (en) Transmission optimization for application-level multicast
CN110267064B (zh) 音频播放状态处理方法、装置、设备及存储介质
JP2004140850A (ja) 音声信号を配布するための方法及びシステム
CN112104836A (zh) 一种音频服务器混音方法、系统、存储介质及设备
KR20110103948A (ko) 다중 비트 전송률 스트림을 사용한 영상 회의 가입
US9560096B2 (en) Local media rendering
CN110070878B (zh) 音频码流的解码方法及电子设备
CN111755017B (zh) 云会议的音频录制方法、装置、服务器及存储介质
KR102626555B1 (ko) 원격 회의를 위한 방법 및 장치
US10432543B2 (en) Dual jitter buffers
CN103988486A (zh) 在多方电话会议的混音中选择活动信道的方法
CN109217980B (zh) 一种编解码能力配置方法、设备和计算机存储介质
CN106921634B (zh) 多媒体流组播方法和装置
CN112969202B (zh) 一种网络参数调整方法、装置、电子设备及存储介质
US20080304429A1 (en) Method of transmitting data in a communication system
CN111951821B (zh) 通话方法和装置
US11431855B1 (en) Encoder pools for conferenced communications
CN114979386A (zh) 小程序语音通信方法、装置、电子设备、存储介质
WO2017173953A1 (zh) 一种服务器、会场终端以及云会议处理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201222

RJ01 Rejection of invention patent application after publication