CN111541860A - 一种实时音频传输系统及其使用方法 - Google Patents

一种实时音频传输系统及其使用方法 Download PDF

Info

Publication number
CN111541860A
CN111541860A CN202010288867.7A CN202010288867A CN111541860A CN 111541860 A CN111541860 A CN 111541860A CN 202010288867 A CN202010288867 A CN 202010288867A CN 111541860 A CN111541860 A CN 111541860A
Authority
CN
China
Prior art keywords
audio
audio data
client
real
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010288867.7A
Other languages
English (en)
Other versions
CN111541860B (zh
Inventor
钱晓炯
俞谢益
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Juphoon Corp
Original Assignee
Juphoon Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Juphoon Corp filed Critical Juphoon Corp
Publication of CN111541860A publication Critical patent/CN111541860A/zh
Application granted granted Critical
Publication of CN111541860B publication Critical patent/CN111541860B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明一种实时多媒体传输系统,其特征在于:建立包括如下五个部分的媒体传输构架:媒体发布源、媒体服务单元、媒体订阅端、媒体发布订阅端和群组控制单元;群组控制单元负责实时通信群组的会话管理;群组控制单元负责对媒体发布源进行注册登记或注销,当有媒体发布源注册登记后,为其建立一个实时通信群组,同时还会主动为该实时通信群组生成一个媒体服务管理单元;群组控制单元还能在媒体服务管理单元的请求下生成新的媒体服务单元或删除某一个媒体服务单元。与现有技术相比,本发明的优点在于:建立的媒体传输构架,可以实现小型直连会议和大型网络会议,可以节省网络流量资源,又可动态扩充至多人参与的大型实时互动会议。

Description

一种实时音频传输系统及其使用方法
技术领域
本发明涉及一种实时音频传输系统及其使用方法。
背景技术
传统的音视频会议数据传输方式主要有Mesh方式、基于MCU的媒体服务器方式和基于SFU的媒体服务器方式。Mesh方式在多方音视频交互中,全部采用P2P结构,这种结构比较适用于参与方比较少的情况(2~3方),对于参与方多的情况,由于客户端需要较大的上行带宽,会导致通信效果下降,参见附图1所示。MCU(Multi-point Control Unit)是媒体服务器的一种结构,客户端上传媒体到MCU后,MCU会将多个媒体流解码、混屏、编码后再发给各个客户端,如果每个客户端的订阅不一样,则需要为每个客户端“单独”编码,因此MCU通常是计算能力较强的服务器来实现,其好处是混屏、编码后的视频只有一路流,压缩率能够提高,缺点是MCU计算量太大,规模部署成本很高,额外的解码、混屏、编码工作也为引入额外的延迟(几十毫秒到上百毫秒),参见图2所示。SFU(Selective Forwarding Unit)也是媒体服务器的一种结构,客户端上传媒体流(通常是SVC或Simulcast)到SFU后,SFU根据其它不同客户端的订阅需求和可用带宽约束选择性的发送媒体流,其好处是服务器负载低,部署成本较低,甚至便于在计算能力较低的客户端实现借路,延迟也比MCU要低;但相对MCU,上行SVC或 Simulcast压缩效率要低于单路流(估计差10%~50%);如果客户端订阅很多路,下行多路没有合并的流的压缩效率也会降低(估计差10%~100%)。
基于MCU或基于SFU的视频架构,可以实现多人参与的大型视频会议,其传输构架是一种星形结构,MCU媒体服务器或SFU作为媒体服务器处于星形结构的中心节点分发媒体数据给各个客户端。如果将多个星形结构连接,则可组合为更加复杂的视频会议结构,可实现分会场及扩容等功能。但是这种结构中间必须有一个媒体服务器,即 MCU媒体服务器或SFU媒体服务器,如果视频会议中只有两个人,也经过服务器,无法做到P2P直连,成本较高;而且很多时候(70%的情况)P2P的网络质量是优于服务器中转,服务器中转至少增加了一次转发,因此效果上可能也不如P2P。另外,这种星形结构对于链路优化也比较困难,例如,由于客户端可能分布在全球不同地区,某客户端上行到媒体服务器的链路质量欠佳,导致其它客户端订阅这个客户端的媒体质量无法保证。
而基于P2P的视频架构,只适用于小型视频会议系统,比如浏览器的WebRTC通过多方建立点对点连接实现小型的视频会议,不需要媒体服务器;但这种点对点直连的结构不适合较大型的会议(比如超过7人),因为每个客户端都必须向对端传送媒体,导致上行压力过大。
并且音频跟视频有很大不同,如果会场同时有3个或以上人在讲话,实际上是听不清的,因此把每个人的音频都转发出去会比较浪费带宽资源。
发明内容
本发明所要解决的首要技术问题是针对上述现有技术提供本发明所要解决的首要技术问题是针对上述现有技术提供一种能实现一对一、又能实现多对多,同时还能减少多路音频传输时计算量和传输冗余的实时音频传输系统。
本发明进一步所要解决的技术问题是针对上述现有技术提供一种能实现一对一、又能实现多对多,同时还能减少多路音频传输时计算量和传输冗余的实时音频传输系统的使用方法。
本发明解决上述技术问题所采用的技术方案为:一种实时音频传输系统,其特征在于:建立包括如下五个部分的音频传输构架:
音频发布源,能够将自身采集的音频数据发出,且所有音频发布源在发出音频数据的同时携带一个用来描述当前音频数据的音量大小的字段;
音频服务单元,能从音频发布源或其他音频服务单元订阅音频数据,并能将接收到的音频数据分发出去;音频服务单元能运行在客户端,也能运行在服务器端;音频服务单元具有传输网络的Qos服务功能,音频服务单元还具有能对分发的音频数据进行动态管理功能;
音频订阅端(Subs),能从音频服务单元订阅音频数据;
音频中转服务器端,能作为音频发布源,将自身采集的音频数据发送给音频服务单元;也能从音频服务单元订阅音频数据,然后对音频数据进行处理,再将处理后的音频数据发送出去,这里的处理包括以下内容之一或任意组合:提取、混合、解码、编码;
群组控制单元,负责实时音频会议群组的会话管理,实时音频会议群组的用户包括:音频发布源或音频中转服务器端、音频服务单元、音频订阅端;群组控制单元会主动为该实时音频会议群组生成一个音频服务管理单元和若干个为实时音频会议群组的用户服务的音频服务单元,音频服务管理单元同时具有音频服务单元的所有功能;
客户端在使用上述媒体传输构架时,采用如下三种模式:
第一模式:
有N个客户端注册音频发布源,N为自然数,并通过网络连接到群组控制单元,表示发布自己同时具有发出音频数据的能力;至少一个客户端注册音频中转服务器端,并通过网络连接到群组控制单元,表示发布自己同时具有发出音频数据的能力,也具有能从音频服务单元订阅音频数据、然后对音频数据进行处理、再将处理后的音频数据发送出去的能力;M个客户端注册音频订阅端,M为自然数,并通过网络连接到群组控制单元,表示自己需要订阅音频数据;群组控制单元为N个音频发布源、音频中转服务器端和M个音频订阅端建立一个实时通信群组,同时马上生成一个音频服务管理单元和若干个实时音频会议群组的用户服务的音频服务单元; N个音频发布源通过运行在自身上的音频服务单元或通过其他音频服务单元将自身的音频数据发送给音频中转服务器端,音频中转服务器端动态提取音量最大的两路音频数据,并将这两路音频数据不做音频解码和编码直接一起发送给各个音频订阅端;
第二模式:
有N个客户端注册音频发布源,N为自然数,并通过网络连接到群组控制单元,表示发布自己同时具有发出音频数据的能力;至少一个客户端注册音频中转服务器端,并通过网络连接到群组控制单元,表示发布自己同时具有发出音频数据的能力,也具有能从音频服务单元订阅音频数据、然后对音频数据进行处理、再将处理后的音频数据发送出去的能力;M个客户端注册音频订阅端,M为自然数,并通过网络连接到群组控制单元,表示自己需要订阅音频数据;群组控制单元为N个音频发布源、音频中转服务器端和M个音频订阅端建立一个实时通信群组,同时马上生成一个音频服务管理单元和若干个实时音频会议群组的用户服务的音频服务单元; N个音频发布源通过运行在自身上的音频服务单元或通过其他音频服务单元将自身的音频数据发送给音频中转服务器端,音频中转服务器端按照按如下a、b两种情况进行处理:
a、音频订阅端所在的客户端不发声,或音频订阅端所在的客户端同时注册了音频发布源,且该客户端发出的音频数据发声音量小于音量最大的两路音频数据,音频中转服务器端提取当前时间段内所接收到的所有音频数据中音量最大的两路音频数据,并进行解码,然后将解码后的两路音频数据合并为一路新的音频数据,将混合后的一路新的音频数据进行编码,将编码后的这路新的音频数据发送给音频订阅端;
b、音频订阅端所在的客户端同时注册了音频发布源,且该客户端发出的音频数据的为音量最大的两路音频数据之一,提取当前时间段内所接收到的所有音频数据中音量最大的两路音频数据,去除自己发出的音频数据,将另一路音频数据不做音频解码和编码直接转发给音频订阅端;
由此,第二模式下,音频中转服务器端在同一下个时间点最多进行两路音频解码和一路混合后的音频编码;
第三模式:
有N个客户端注册音频中转服务器端,并通过网络连接到群组控制单元,表示发布自己同时具有发出音频数据的能力,也具有能从音频服务单元订阅音频数据、然后对音频数据进行处理、再将处理后的音频数据发送出去的能力,此时每个音频发布源同时也是音频订阅端;群组控制单元为N个音频中转服务器端建立一个实时通信群组,同时马上生成一个音频服务管理单元和若干个实时音频会议群组的用户服务的音频服务单元;任意一个音频中转服务器端判断如果当前接收的两路及以上音频数据的音量大于自己发出的音频数据音量时,则不将接收的音频数据向外发送,如果当前接收的音频数据只有一路或虽然有多路但没有音量大于自己的音频数据,则将接收的音频数据向外发送。
所述群组控制单元生成一个音频服务管理单元(Main MSU)和若干个为实时音频会议群组的用户服务的音频服务单元的规则为:
(1)、生成就近原则,生成的音频服务管理单元(Main MSU)和音频服务单元(MSU)应该尽量离音频发布源接近,距离由IP地址距离、物理距离和经过实际测量的数据得到;
(2)、分配就近原则,从已有的音频服务单元(MSU)分配,优先选择离媒体订阅端近的媒体服务单元。
在第一模式、第二模式和第三模式中,音频中转服务器端在转发音频数据时,按照预设固定时间间隔进行转发处理,并且如果出现当前时间段音量最大的两路音频数据与上一个时间段音量最大的两路音频数据不相同时,将上一个时间段产生音量最大的两路音频数据的客户端称为客户端A和客户端B;将当前时间段产生音量最大的两路音频数据的客户端称为客户端C和客户端D;音频中转服务器端根据如下情况分别处理:
当前时间段内,客户端A和客户端B一直持续发声,客户端C和客户端D的发声时间晚于当前时间段的起始时间,且客户端C和客户端D产生的音频数据的长度小于预设值,此时将客户端C和客户端D产生的音频数据,直接将当前时间段内客户端A和客户端B新产生的音频数据进行解码、合并、编码后,再转发;当前时间段内,客户端A和客户端B发声结束后,客户端C和客户端D再开始发声,此时将当前时间段内客户端A和客户端B新产生的音频数据以及客户端C和客户端D产生的音频数据进行解码、合并、编码后,再转发;
当前时间段内,客户端A和客户端B发声一段时间后结束,客户端C和客户端D的发声时间早于客户端A和客户端B的结束时间,此时将客户端C和客户端D早于客户端A和客户端B结束时间前的数据丢弃,将当前时间段内客户端A和客户端B新产生的音频数据,以及客户端C和客户端D剩余产生的音频数据进行解码、合并、编码后,再转发。
本发明解决上述进一步技术问题所采用的技术方案为:一种具有上述结构的实时音频传输系统的使用方法,其特征在于包括如下步骤:
步骤1、多方音频会议启动时,默认以第三模式运行;
步骤2、随着参与人数增多,当音频发布源超过n,n的取值为8~13,如果每个音频订阅端都订阅n个以上的音频数据,马上运行第二模式;
步骤3、如果音频发布源减少到1人,或者实时通信群组中人数减少到2人,马上运行第一模式;
步骤4、如果在第一模式下又增加m个音频发布源,m为自然数,则又转回运行第二模式;
步骤5、会议终止,群组控制单元(GCU)释放建立的音频服务管理单元(Main MSU)和若干个为实时音频会议群组的用户服务的音频服务单元
与现有技术相比,本发明的优点在于:建立的音频媒体传输构架及其运行模式,可以减少多路音频混合的计算量,减少多路音频传输的冗余,只发送真正用户需要听到的数据,避免发送大量冗余数据。
附图说明
图1为现有技术中Mesh传输方式框图;
图2为现有技术中MCU传输方式框图
图3为现有技术中SFU传输方式框图
图4为本发明实施例中第一模式下实时音频传输系统的框图实例;
图5为本发明实施例中第二模式下实时音频传输系统的框图实例;
图6为本发明实施例中第三模式下实时音频传输系统的框图实例;
图7为本发明实施例中实时音频传输系统的使用方法流程图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提供了一种实时音频传输系统,首先需要建立包括如下五个部分的音频传输构架:
音频发布源(在附图中简称为Src),能够将自身采集的音频数据发出,且所有音频发布源在发出音频数据的同时携带一个用来描述当前音频数据的音量大小的字段;音频发布源Src可以是一个手机客户端或PC客户端,也可以是一个具有数据处理能力的MCU服务端;
音频服务单元(在附图中简称为MSU),能从音频发布源或其他音频服务单元订阅音频数据,并能将接收到的音频数据分发出去;音频服务单元能运行在手机客户端或PC客户端,也能运行在服务器端,如果运行在手机客户端或PC客户端,则可实现P2P直连能力,运行在服务器端,可实现多人音频网络会议,其能够将实时音频数据分发给多个不同的音频订阅端;音频服务单元具有传输网络的Qos服务功能,音频服务单元还具有能对分发的音频数据进行动态管理功能;
音频订阅端(Subs),能从音频服务单元订阅音频数据;
音频中转服务器端(在附图中简称为SS),能作为音频发布源,将自身采集的音频数据发送给音频服务单元;也能从音频服务单元订阅音频数据,然后对音频数据进行处理,再将处理后的音频数据发送出去,这里的处理包括以下内容之一或任意组合:提取、混合、解码、编码;音频中转服务器端可以是一个手机客户端或PC客户端,也可以是一个具有数据处理能力的 MCU服务端;
群组控制单元(在附图中简称GCU),负责实时音频会议群组的会话管理,实时音频会议群组的用户包括:音频发布源或音频中转服务器端、音频服务单元、音频订阅端;群组控制单元会主动为该实时音频会议群组生成一个音频服务管理单元(Main MSU)和若干个为实时音频会议群组的用户服务的音频服务单元,音频服务管理单元同时具有音频服务单元的所有功能;
客户端在使用上述媒体传输构架时,采用如下三种模式:
第一模式,参加图4所示:
有N个客户端注册音频发布源,N为自然数,并通过网络连接到群组控制单元,表示发布自己同时具有发出音频数据的能力;有一个客户端注册音频中转服务器端,并通过网络连接到群组控制单元,表示发布自己同时具有发出音频数据的能力,也具有能从音频服务单元订阅音频数据、然后对音频数据进行处理、再将处理后的音频数据发送出去的能力;M个客户端注册音频订阅端,M为自然数,并通过网络连接到群组控制单元,表示自己需要订阅音频数据;群组控制单元为N个音频发布源、音频中转服务器端和M个音频订阅端建立一个实时通信群组,同时马上生成一个音频服务管理单元和若干个实时音频会议群组的用户服务的音频服务单元; N个音频发布源通过运行在自身上的音频服务单元或通过其他音频服务单元将自身的音频数据发送给音频中转服务器端,音频中转服务器端动态提取音量最大的两路音频数据,并将这两路音频数据不做音频解码和编码直接一起发送给各个音频订阅端;
第二模式,参加图5所示:
有N个客户端注册音频发布源,N为自然数,并通过网络连接到群组控制单元,表示发布自己同时具有发出音频数据的能力;有一个客户端注册音频中转服务器端,并通过网络连接到群组控制单元,表示发布自己同时具有发出音频数据的能力,也具有能从音频服务单元订阅音频数据、然后对音频数据进行处理、再将处理后的音频数据发送出去的能力;M个客户端注册音频订阅端,M为自然数,并通过网络连接到群组控制单元,表示自己需要订阅音频数据;群组控制单元为N个音频发布源、音频中转服务器端和M个音频订阅端建立一个实时通信群组,同时马上生成一个音频服务管理单元和若干个实时音频会议群组的用户服务的音频服务单元; N个音频发布源通过运行在自身上的音频服务单元或通过其他音频服务单元将自身的音频数据发送给音频中转服务器端,很多情况下,同一个客户端既会注册音频发布源,也会注册音频订阅端;音频中转服务器端按照按如下a、b两种情况进行处理:
a、音频订阅端所在的客户端不发声,或音频订阅端所在的客户端同时注册了音频发布源,且该客户端发出的音频数据发声音量小于音量最大的两路音频数据,音频中转服务器端提取当前时间段内所接收到的所有音频数据中音量最大的两路音频数据,并进行解码,然后将解码后的两路音频数据合并为一路新的音频数据,将混合后的一路新的音频数据进行编码,将编码后的这路新的音频数据发送给音频订阅端;
b、音频订阅端所在的客户端同时注册了音频发布源,且该客户端发出的音频数据的为音量最大的两路音频数据之一,提取当前时间段内所接收到的所有音频数据中音量最大的两路音频数据,去除自己发出的音频数据,将另一路音频数据不做音频解码和编码直接转发给音频订阅端;
由此,第二模式下,音频中转服务器端在同一下个时间点最多进行两路音频解码和一路混合后的音频编码;
第三模式,参加图6所示:
有N个客户端注册音频中转服务器端,并通过网络连接到群组控制单元,表示发布自己同时具有发出音频数据的能力,也具有能从音频服务单元订阅音频数据、然后对音频数据进行处理、再将处理后的音频数据发送出去的能力,此时每个音频发布源同时也是音频订阅端;群组控制单元为N个音频中转服务器端建立一个实时通信群组,同时马上生成一个音频服务管理单元和若干个实时音频会议群组的用户服务的音频服务单元;任意一个音频中转服务器端判断如果当前接收的两路及以上音频数据的音量大于自己发出的音频数据音量时,则不将接收的音频数据向外发送,如果当前接收的音频数据只有一路或虽然有多路但没有音量大于自己的音频数据,则将接收的音频数据向外发送。
所述群组控制单元生成一个音频服务管理单元(Main MSU)和若干个为实时音频会议群组的用户服务的音频服务单元的规则为:
(1)、生成就近原则,生成的音频服务管理单元(Main MSU)和音频服务单元(MSU)应该尽量离音频发布源接近,距离由IP地址距离、物理距离和经过实际测量的数据得到;
(2)、分配就近原则,从已有的音频服务单元(MSU)分配,优先选择离媒体订阅端近的媒体服务单元。
在第一模式、第二模式和第三模式中,音频中转服务器端在转发音频数据时,按照预设固定时间间隔进行转发处理,并且如果出现当前时间段音量最大的两路音频数据与上一个时间段音量最大的两路音频数据不相同时,将上一个时间段产生音量最大的两路音频数据的客户端称为客户端A和客户端B;将当前时间段产生音量最大的两路音频数据的客户端称为客户端C和客户端D;音频中转服务器端根据如下情况分别处理:
当前时间段内,客户端A和客户端B一直持续发声,客户端C和客户端D的发声时间晚于当前时间段的起始时间,且客户端C和客户端D产生的音频数据的长度小于预设值,此时将客户端C和客户端D产生的音频数据,直接将当前时间段内客户端A和客户端B新产生的音频数据进行解码、合并、编码后,再转发;当前时间段内,客户端A和客户端B发声结束后,客户端C和客户端D再开始发声,此时将当前时间段内客户端A和客户端B新产生的音频数据以及客户端C和客户端D产生的音频数据进行解码、合并、编码后,再转发;
当前时间段内,客户端A和客户端B发声一段时间后结束,客户端C和客户端D的发声时间早于客户端A和客户端B的结束时间,此时将客户端C和客户端D早于客户端A和客户端B结束时间前的数据丢弃,将当前时间段内客户端A和客户端B新产生的音频数据,以及客户端C和客户端D剩余产生的音频数据进行解码、合并、编码后,再转发。
上述实时音频传输系统的使用方法,其包括如下步骤,参加图7所示:
步骤1、多方音频会议启动时,默认以第三模式运行;
步骤2、随着参与人数增多,当音频发布源超过n,n的取值为8~13,如果每个音频订阅端都订阅n个以上的音频数据,马上运行第二模式;
步骤3、如果音频发布源减少到1人,或者实时通信群组中人数减少到2人,马上运行第一模式;
步骤4、如果在第一模式下又增加m个音频发布源,m为自然数,则又转回运行第二模式;
步骤5、会议终止,群组控制单元(GCU)释放建立的音频服务管理单元(Main MSU)和若干个为实时音频会议群组的用户服务的音频服务单元。

Claims (4)

1.一种实时音频传输系统,其特征在于:建立包括如下五个部分的音频传输构架:
音频发布源(Src),能够将自身采集的音频数据发出,且所有音频发布源在发出音频数据的同时携带一个用来描述当前音频数据的音量大小的字段;
音频服务单元(MSU),能从音频发布源或其他音频服务单元订阅音频数据,并能将接收到的音频数据分发出去;音频服务单元能运行在客户端,也能运行在服务器端;音频服务单元具有传输网络的Qos服务功能,音频服务单元还具有能对分发的音频数据进行动态管理功能;
音频订阅端(Subs),能从音频服务单元订阅音频数据;
音频中转服务器端(SS),能作为音频发布源,将自身采集的音频数据发送给音频服务单元;也能从音频服务单元订阅音频数据,然后对音频数据进行处理,再将处理后的音频数据发送出去,这里的处理包括以下内容之一或任意组合:提取、混合、解码、编码;
群组控制单元(GCU),负责实时音频会议群组的会话管理,实时音频会议群组的用户包括:音频发布源或音频中转服务器端、音频服务单元、音频订阅端;群组控制单元会主动为该实时音频会议群组生成一个音频服务管理单元(Main MSU)和若干个为实时音频会议群组的用户服务的音频服务单元,音频服务管理单元同时具有音频服务单元的所有功能;
客户端在使用上述媒体传输构架时,采用如下三种模式:
第一模式:
有N个客户端注册音频发布源,N为自然数,并通过网络连接到群组控制单元,表示发布自己同时具有发出音频数据的能力;至少一个音频中转服务器端,并通过网络连接到群组控制单元,表示发布自己同时具有发出音频数据的能力,也具有能从音频服务单元订阅音频数据、然后对音频数据进行处理、再将处理后的音频数据发送出去的能力;M个客户端注册音频订阅端,M为自然数,并通过网络连接到群组控制单元,表示自己需要订阅音频数据;群组控制单元为N个音频发布源、音频中转服务器端和M个音频订阅端建立一个实时通信群组,同时马上生成一个音频服务管理单元和若干个实时音频会议群组的用户服务的音频服务单元;N个音频发布源通过运行在自身上的音频服务单元或通过其他音频服务单元将自身的音频数据发送给音频中转服务器端,音频中转服务器端动态提取音量最大的两路音频数据,并将这两路音频数据不做音频解码和编码直接一起发送给各个音频订阅端;
第二模式:
有N个客户端注册音频发布源,N为自然数,并通过网络连接到群组控制单元,表示发布自己同时具有发出音频数据的能力;至少一个音频中转服务器端,并通过网络连接到群组控制单元,表示发布自己同时具有发出音频数据的能力,也具有能从音频服务单元订阅音频数据、然后对音频数据进行处理、再将处理后的音频数据发送出去的能力;M个客户端注册音频订阅端,M为自然数,并通过网络连接到群组控制单元,表示自己需要订阅音频数据;群组控制单元为N个音频发布源、音频中转服务器端和M个音频订阅端建立一个实时通信群组,同时马上生成一个音频服务管理单元和若干个实时音频会议群组的用户服务的音频服务单元;N个音频发布源通过运行在自身上的音频服务单元或通过其他音频服务单元将自身的音频数据发送给音频中转服务器端,音频中转服务器端按照按如下a、b两种情况进行处理:
a、音频订阅端所在的客户端不发声,或音频订阅端所在的客户端同时注册了音频发布源,且该客户端发出的音频数据发声音量小于音量最大的两路音频数据,音频中转服务器端提取当前时间段内所接收到的所有音频数据中音量最大的两路音频数据,并进行解码,然后将解码后的两路音频数据合并为一路新的音频数据,将混合后的一路新的音频数据进行编码,将编码后的这路新的音频数据发送给音频订阅端;
b、音频订阅端所在的客户端同时注册了音频发布源,且该客户端发出的音频数据的为音量最大的两路音频数据之一,提取当前时间段内所接收到的所有音频数据中音量最大的两路音频数据,去除自己发出的音频数据,将另一路音频数据不做音频解码和编码直接转发给音频订阅端;
由此,第二模式下,音频中转服务器端在同一下个时间点最多进行两路音频解码和一路混合后的音频编码;
第三模式:
有N个音频中转服务器端,并通过网络连接到群组控制单元,表示发布自己同时具有发出音频数据的能力,也具有能从音频服务单元订阅音频数据、然后对音频数据进行处理、再将处理后的音频数据发送出去的能力,此时每个音频发布源同时也是音频订阅端;群组控制单元为N个音频中转服务器端建立一个实时通信群组,同时马上生成一个音频服务管理单元和若干个实时音频会议群组的用户服务的音频服务单元;任意一个音频中转服务器端判断如果当前接收的两路及以上音频数据的音量大于自己发出的音频数据音量时,则不将接收的音频数据向外发送,如果当前接收的音频数据只有一路或虽然有多路但没有音量大于自己的音频数据,则将接收的那一路音频数据向外发送或将接收的多路音频数据中音量最大的两个音频数据合并成一路新的音频数据向外发送。
2.根据权利要求1所述的实时音频传输系统,其特征在于:所述群组控制单元生成一个音频服务管理单元(MainMSU)和若干个为实时音频会议群组的用户服务的音频服务单元的规则为:
(1)、生成就近原则,生成的音频服务管理单元(MainMSU)和音频服务单元(MSU)应该尽量离音频发布源接近,距离由IP地址距离、物理距离和经过实际测量的数据得到;
(2)、分配就近原则,从已有的音频服务单元(MSU)分配,优先选择离媒体订阅端近的媒体服务单元。
3.根据权利要求1所述的实时音频传输系统,其特征在于:在第一模式、第二模式和第三模式中,音频中转服务器端在转发音频数据时,按照预设固定时间间隔进行转发处理,并且如果出现当前时间段音量最大的两路音频数据与上一个时间段音量最大的两路音频数据不相同时,将上一个时间段产生音量最大的两路音频数据的客户端称为客户端A和客户端B;将当前时间段产生音量最大的两路音频数据的客户端称为客户端C和客户端D;音频中转服务器端根据如下情况分别处理:
当前时间段内,客户端A和客户端B一直持续发声,客户端C和客户端D的发声时间晚于当前时间段的起始时间,且客户端C和客户端D产生的音频数据的长度小于预设值,此时将客户端C和客户端D产生的音频数据,直接将当前时间段内客户端A和客户端B新产生的音频数据进行解码、合并、编码后,再转发;当前时间段内,客户端A和客户端B发声结束后,客户端C和客户端D再开始发声,此时将当前时间段内客户端A和客户端B新产生的音频数据以及客户端C和客户端D产生的音频数据进行解码、合并、编码后,再转发;
当前时间段内,客户端A和客户端B发声一段时间后结束,客户端C和客户端D的发声时间早于客户端A和客户端B的结束时间,此时将客户端C和客户端D早于客户端A和客户端B结束时间前的数据丢弃,将当前时间段内客户端A和客户端B新产生的音频数据,以及客户端C和客户端D剩余产生的音频数据进行解码、合并、编码后,再转发。
4.一种如权利要求1所述实时音频传输系统的使用方法,其特征在于包括如下步骤:
步骤1、多方音频会议启动时,默认以第三模式运行;
步骤2、随着参与人数增多,当音频发布源超过n,n的取值为8~13,如果每个音频订阅端都订阅n个以上的音频数据,马上运行第二模式;
步骤3、如果音频发布源减少到1人,或者实时通信群组中人数减少到2人,马上运行第一模式;
步骤4、如果在第一模式下又增加m个音频发布源,m为自然数,则又转回运行第二模式;
步骤5、会议终止,群组控制单元(GCU)释放建立的音频服务管理单元(MainMSU)和若干个为实时音频会议群组的用户服务的音频服务单元。
CN202010288867.7A 2019-12-30 2020-04-14 一种实时音频传输系统及其使用方法 Active CN111541860B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911395834 2019-12-30
CN2019113958346 2019-12-30

Publications (2)

Publication Number Publication Date
CN111541860A true CN111541860A (zh) 2020-08-14
CN111541860B CN111541860B (zh) 2021-07-27

Family

ID=71979916

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010288867.7A Active CN111541860B (zh) 2019-12-30 2020-04-14 一种实时音频传输系统及其使用方法

Country Status (1)

Country Link
CN (1) CN111541860B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113194335A (zh) * 2021-06-30 2021-07-30 阿里云计算有限公司 流媒体传输方法、传输设备和播放设备
CN113422921A (zh) * 2021-06-18 2021-09-21 深圳方宇智云科技有限公司 基于K8s集群的音/视频通信系统、方法、介质及计算设备
CN114640653A (zh) * 2022-03-04 2022-06-17 杭州东信北邮信息技术有限公司 一种视频会议中的流媒体分发系统及方法
CN115334058A (zh) * 2022-10-13 2022-11-11 北京云中融信网络科技有限公司 一种媒体文件播放系统及其方法
CN115865877A (zh) * 2023-02-13 2023-03-28 共道网络科技有限公司 音视频处理方法、设备及计算机可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050213728A1 (en) * 2001-12-31 2005-09-29 Polycom, Inc. Conference endpoint instructing a remote device to establish a new connection
CN101022481A (zh) * 2007-03-21 2007-08-22 华为技术有限公司 实现多点会议中私有会话的方法及装置
CN101080000A (zh) * 2007-07-17 2007-11-28 华为技术有限公司 视频会议中显示发言人的方法、系统、服务器和终端
CN103220258A (zh) * 2012-01-20 2013-07-24 华为技术有限公司 会议混音方法、终端和媒体资源服务器
US20150172202A1 (en) * 2012-06-28 2015-06-18 Dolby Laboratories Licensing Corporation Reduced system latency for dominant speaker
CN105357208A (zh) * 2015-11-20 2016-02-24 深圳联友科技有限公司 一种多人网络音频会话方法及系统
CN106161814A (zh) * 2015-03-24 2016-11-23 北京视联动力国际信息技术有限公司 一种多方会议的混音方法和装置
CN106973253A (zh) * 2016-01-13 2017-07-21 华为技术有限公司 一种调整媒体流传输的方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050213728A1 (en) * 2001-12-31 2005-09-29 Polycom, Inc. Conference endpoint instructing a remote device to establish a new connection
CN101022481A (zh) * 2007-03-21 2007-08-22 华为技术有限公司 实现多点会议中私有会话的方法及装置
CN101080000A (zh) * 2007-07-17 2007-11-28 华为技术有限公司 视频会议中显示发言人的方法、系统、服务器和终端
CN103220258A (zh) * 2012-01-20 2013-07-24 华为技术有限公司 会议混音方法、终端和媒体资源服务器
US20150172202A1 (en) * 2012-06-28 2015-06-18 Dolby Laboratories Licensing Corporation Reduced system latency for dominant speaker
CN106161814A (zh) * 2015-03-24 2016-11-23 北京视联动力国际信息技术有限公司 一种多方会议的混音方法和装置
CN105357208A (zh) * 2015-11-20 2016-02-24 深圳联友科技有限公司 一种多人网络音频会话方法及系统
CN106973253A (zh) * 2016-01-13 2017-07-21 华为技术有限公司 一种调整媒体流传输的方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113422921A (zh) * 2021-06-18 2021-09-21 深圳方宇智云科技有限公司 基于K8s集群的音/视频通信系统、方法、介质及计算设备
CN113194335A (zh) * 2021-06-30 2021-07-30 阿里云计算有限公司 流媒体传输方法、传输设备和播放设备
CN114640653A (zh) * 2022-03-04 2022-06-17 杭州东信北邮信息技术有限公司 一种视频会议中的流媒体分发系统及方法
CN115334058A (zh) * 2022-10-13 2022-11-11 北京云中融信网络科技有限公司 一种媒体文件播放系统及其方法
CN115865877A (zh) * 2023-02-13 2023-03-28 共道网络科技有限公司 音视频处理方法、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN111541860B (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
CN111541860B (zh) 一种实时音频传输系统及其使用方法
US9742574B2 (en) Apparatus for the efficient transmission of multimedia streams for teleconferencing
US8614732B2 (en) System and method for performing distributed multipoint video conferencing
US9596433B2 (en) System and method for a hybrid topology media conferencing system
CN110971863B (zh) 一种多点控制单元跨区会议运行方法、装置、设备及系统
CN101997866A (zh) Ip网络中的分布式媒体混合和会议
CA2782775A1 (en) System and method for interactive synchronized video watching
CN101198008A (zh) 一种实现多屏多画面的方法和系统
CN105144702A (zh) 视频会议虚拟端点
CN111131759B (zh) 一种实时多媒体传输系统及其使用方法
CN1953537A (zh) 多mcu视频会议系统中的混音方法
US9497417B2 (en) Video conferencing with multipoint conferencing units and multimedia transformation units
CN112235238A (zh) 一种基于WebRTC的MCU系统及方法
CN105357208A (zh) 一种多人网络音频会话方法及系统
CN108156413A (zh) 视频会议的传输方法及装置、mcu
US8976225B2 (en) Method, computer program and device for managing media stream in video conferencing
CN112019488A (zh) 一种语音处理的方法、装置、设备和存储介质
CN114095688A (zh) 一种实现全域广播会议的方法和系统
CN103152545B (zh) 一种处理纠错请求的方法、视频服务器和视频会议系统
CN115695387B (zh) 音视频会议实现方法、音视频会议系统及相关装置
CN102546994B (zh) 一种多媒体会议成员实现消息交互的方法及系统
CN114666264A (zh) 一种多路径传输方法和装置
CN114710642A (zh) 一种媒体数据传输系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant