CN111541860A

CN111541860A - 一种实时音频传输系统及其使用方法

Info

Publication number: CN111541860A
Application number: CN202010288867.7A
Authority: CN
Inventors: 钱晓炯; 俞谢益
Original assignee: Juphoon Corp
Current assignee: Juphoon Corp
Priority date: 2019-12-30
Filing date: 2020-04-14
Publication date: 2020-08-14
Anticipated expiration: 2040-04-14
Also published as: CN111541860B

Abstract

本发明一种实时多媒体传输系统，其特征在于：建立包括如下五个部分的媒体传输构架：媒体发布源、媒体服务单元、媒体订阅端、媒体发布订阅端和群组控制单元；群组控制单元负责实时通信群组的会话管理；群组控制单元负责对媒体发布源进行注册登记或注销，当有媒体发布源注册登记后，为其建立一个实时通信群组，同时还会主动为该实时通信群组生成一个媒体服务管理单元；群组控制单元还能在媒体服务管理单元的请求下生成新的媒体服务单元或删除某一个媒体服务单元。与现有技术相比，本发明的优点在于：建立的媒体传输构架，可以实现小型直连会议和大型网络会议，可以节省网络流量资源，又可动态扩充至多人参与的大型实时互动会议。

Description

一种实时音频传输系统及其使用方法

技术领域

本发明涉及一种实时音频传输系统及其使用方法。

背景技术

传统的音视频会议数据传输方式主要有Mesh方式、基于MCU的媒体服务器方式和基于SFU的媒体服务器方式。Mesh方式在多方音视频交互中，全部采用P2P结构，这种结构比较适用于参与方比较少的情况(2～3方)，对于参与方多的情况，由于客户端需要较大的上行带宽，会导致通信效果下降，参见附图1所示。MCU(Multi-point Control Unit)是媒体服务器的一种结构，客户端上传媒体到MCU后，MCU会将多个媒体流解码、混屏、编码后再发给各个客户端，如果每个客户端的订阅不一样，则需要为每个客户端“单独”编码，因此MCU通常是计算能力较强的服务器来实现，其好处是混屏、编码后的视频只有一路流，压缩率能够提高，缺点是MCU计算量太大，规模部署成本很高，额外的解码、混屏、编码工作也为引入额外的延迟(几十毫秒到上百毫秒)，参见图2所示。SFU(Selective Forwarding Unit)也是媒体服务器的一种结构，客户端上传媒体流(通常是SVC或Simulcast)到SFU后，SFU根据其它不同客户端的订阅需求和可用带宽约束选择性的发送媒体流，其好处是服务器负载低，部署成本较低，甚至便于在计算能力较低的客户端实现借路，延迟也比MCU要低；但相对MCU，上行SVC或 Simulcast压缩效率要低于单路流(估计差10％～50％)；如果客户端订阅很多路，下行多路没有合并的流的压缩效率也会降低(估计差10％～100％)。

基于MCU或基于SFU的视频架构，可以实现多人参与的大型视频会议，其传输构架是一种星形结构，MCU媒体服务器或SFU作为媒体服务器处于星形结构的中心节点分发媒体数据给各个客户端。如果将多个星形结构连接，则可组合为更加复杂的视频会议结构，可实现分会场及扩容等功能。但是这种结构中间必须有一个媒体服务器，即 MCU媒体服务器或SFU媒体服务器，如果视频会议中只有两个人，也经过服务器，无法做到P2P直连，成本较高；而且很多时候(70％的情况)P2P的网络质量是优于服务器中转，服务器中转至少增加了一次转发，因此效果上可能也不如P2P。另外，这种星形结构对于链路优化也比较困难，例如，由于客户端可能分布在全球不同地区，某客户端上行到媒体服务器的链路质量欠佳，导致其它客户端订阅这个客户端的媒体质量无法保证。

而基于P2P的视频架构，只适用于小型视频会议系统，比如浏览器的WebRTC通过多方建立点对点连接实现小型的视频会议，不需要媒体服务器；但这种点对点直连的结构不适合较大型的会议(比如超过7人)，因为每个客户端都必须向对端传送媒体，导致上行压力过大。

并且音频跟视频有很大不同，如果会场同时有3个或以上人在讲话，实际上是听不清的，因此把每个人的音频都转发出去会比较浪费带宽资源。

发明内容

本发明所要解决的首要技术问题是针对上述现有技术提供本发明所要解决的首要技术问题是针对上述现有技术提供一种能实现一对一、又能实现多对多，同时还能减少多路音频传输时计算量和传输冗余的实时音频传输系统。

本发明进一步所要解决的技术问题是针对上述现有技术提供一种能实现一对一、又能实现多对多，同时还能减少多路音频传输时计算量和传输冗余的实时音频传输系统的使用方法。

本发明解决上述技术问题所采用的技术方案为：一种实时音频传输系统，其特征在于：建立包括如下五个部分的音频传输构架：

音频发布源，能够将自身采集的音频数据发出，且所有音频发布源在发出音频数据的同时携带一个用来描述当前音频数据的音量大小的字段；

音频服务单元，能从音频发布源或其他音频服务单元订阅音频数据，并能将接收到的音频数据分发出去；音频服务单元能运行在客户端，也能运行在服务器端；音频服务单元具有传输网络的Qos服务功能，音频服务单元还具有能对分发的音频数据进行动态管理功能；

音频订阅端(Subs)，能从音频服务单元订阅音频数据；

音频中转服务器端，能作为音频发布源，将自身采集的音频数据发送给音频服务单元；也能从音频服务单元订阅音频数据，然后对音频数据进行处理，再将处理后的音频数据发送出去，这里的处理包括以下内容之一或任意组合：提取、混合、解码、编码；

群组控制单元，负责实时音频会议群组的会话管理，实时音频会议群组的用户包括：音频发布源或音频中转服务器端、音频服务单元、音频订阅端；群组控制单元会主动为该实时音频会议群组生成一个音频服务管理单元和若干个为实时音频会议群组的用户服务的音频服务单元，音频服务管理单元同时具有音频服务单元的所有功能；

客户端在使用上述媒体传输构架时，采用如下三种模式：

第一模式：

有N个客户端注册音频发布源，N为自然数，并通过网络连接到群组控制单元，表示发布自己同时具有发出音频数据的能力；至少一个客户端注册音频中转服务器端，并通过网络连接到群组控制单元，表示发布自己同时具有发出音频数据的能力，也具有能从音频服务单元订阅音频数据、然后对音频数据进行处理、再将处理后的音频数据发送出去的能力；M个客户端注册音频订阅端，M为自然数，并通过网络连接到群组控制单元，表示自己需要订阅音频数据；群组控制单元为N个音频发布源、音频中转服务器端和M个音频订阅端建立一个实时通信群组，同时马上生成一个音频服务管理单元和若干个实时音频会议群组的用户服务的音频服务单元； N个音频发布源通过运行在自身上的音频服务单元或通过其他音频服务单元将自身的音频数据发送给音频中转服务器端，音频中转服务器端动态提取音量最大的两路音频数据，并将这两路音频数据不做音频解码和编码直接一起发送给各个音频订阅端；

第二模式：

有N个客户端注册音频发布源，N为自然数，并通过网络连接到群组控制单元，表示发布自己同时具有发出音频数据的能力；至少一个客户端注册音频中转服务器端，并通过网络连接到群组控制单元，表示发布自己同时具有发出音频数据的能力，也具有能从音频服务单元订阅音频数据、然后对音频数据进行处理、再将处理后的音频数据发送出去的能力；M个客户端注册音频订阅端，M为自然数，并通过网络连接到群组控制单元，表示自己需要订阅音频数据；群组控制单元为N个音频发布源、音频中转服务器端和M个音频订阅端建立一个实时通信群组，同时马上生成一个音频服务管理单元和若干个实时音频会议群组的用户服务的音频服务单元； N个音频发布源通过运行在自身上的音频服务单元或通过其他音频服务单元将自身的音频数据发送给音频中转服务器端，音频中转服务器端按照按如下a、b两种情况进行处理：

a、音频订阅端所在的客户端不发声，或音频订阅端所在的客户端同时注册了音频发布源，且该客户端发出的音频数据发声音量小于音量最大的两路音频数据，音频中转服务器端提取当前时间段内所接收到的所有音频数据中音量最大的两路音频数据，并进行解码，然后将解码后的两路音频数据合并为一路新的音频数据，将混合后的一路新的音频数据进行编码，将编码后的这路新的音频数据发送给音频订阅端；

b、音频订阅端所在的客户端同时注册了音频发布源，且该客户端发出的音频数据的为音量最大的两路音频数据之一，提取当前时间段内所接收到的所有音频数据中音量最大的两路音频数据，去除自己发出的音频数据，将另一路音频数据不做音频解码和编码直接转发给音频订阅端；

由此，第二模式下，音频中转服务器端在同一下个时间点最多进行两路音频解码和一路混合后的音频编码；

第三模式：

有N个客户端注册音频中转服务器端，并通过网络连接到群组控制单元，表示发布自己同时具有发出音频数据的能力，也具有能从音频服务单元订阅音频数据、然后对音频数据进行处理、再将处理后的音频数据发送出去的能力，此时每个音频发布源同时也是音频订阅端；群组控制单元为N个音频中转服务器端建立一个实时通信群组，同时马上生成一个音频服务管理单元和若干个实时音频会议群组的用户服务的音频服务单元；任意一个音频中转服务器端判断如果当前接收的两路及以上音频数据的音量大于自己发出的音频数据音量时，则不将接收的音频数据向外发送，如果当前接收的音频数据只有一路或虽然有多路但没有音量大于自己的音频数据，则将接收的音频数据向外发送。

所述群组控制单元生成一个音频服务管理单元(Main MSU)和若干个为实时音频会议群组的用户服务的音频服务单元的规则为：

(1)、生成就近原则，生成的音频服务管理单元(Main MSU)和音频服务单元(MSU)应该尽量离音频发布源接近，距离由IP地址距离、物理距离和经过实际测量的数据得到；

(2)、分配就近原则，从已有的音频服务单元(MSU)分配，优先选择离媒体订阅端近的媒体服务单元。

在第一模式、第二模式和第三模式中，音频中转服务器端在转发音频数据时，按照预设固定时间间隔进行转发处理，并且如果出现当前时间段音量最大的两路音频数据与上一个时间段音量最大的两路音频数据不相同时，将上一个时间段产生音量最大的两路音频数据的客户端称为客户端A和客户端B；将当前时间段产生音量最大的两路音频数据的客户端称为客户端C和客户端D；音频中转服务器端根据如下情况分别处理：

当前时间段内，客户端A和客户端B一直持续发声，客户端C和客户端D的发声时间晚于当前时间段的起始时间，且客户端C和客户端D产生的音频数据的长度小于预设值，此时将客户端C和客户端D产生的音频数据，直接将当前时间段内客户端A和客户端B新产生的音频数据进行解码、合并、编码后，再转发；当前时间段内，客户端A和客户端B发声结束后，客户端C和客户端D再开始发声，此时将当前时间段内客户端A和客户端B新产生的音频数据以及客户端C和客户端D产生的音频数据进行解码、合并、编码后，再转发；

当前时间段内，客户端A和客户端B发声一段时间后结束，客户端C和客户端D的发声时间早于客户端A和客户端B的结束时间，此时将客户端C和客户端D早于客户端A和客户端B结束时间前的数据丢弃，将当前时间段内客户端A和客户端B新产生的音频数据，以及客户端C和客户端D剩余产生的音频数据进行解码、合并、编码后，再转发。

本发明解决上述进一步技术问题所采用的技术方案为：一种具有上述结构的实时音频传输系统的使用方法，其特征在于包括如下步骤：

步骤1、多方音频会议启动时，默认以第三模式运行；

步骤2、随着参与人数增多，当音频发布源超过n，n的取值为8～13，如果每个音频订阅端都订阅n个以上的音频数据，马上运行第二模式；

步骤3、如果音频发布源减少到1人，或者实时通信群组中人数减少到2人，马上运行第一模式；

步骤4、如果在第一模式下又增加m个音频发布源，m为自然数，则又转回运行第二模式；

步骤5、会议终止，群组控制单元(GCU)释放建立的音频服务管理单元(Main MSU)和若干个为实时音频会议群组的用户服务的音频服务单元

与现有技术相比，本发明的优点在于：建立的音频媒体传输构架及其运行模式，可以减少多路音频混合的计算量，减少多路音频传输的冗余，只发送真正用户需要听到的数据，避免发送大量冗余数据。

附图说明

图1为现有技术中Mesh传输方式框图；

图2为现有技术中MCU传输方式框图

图3为现有技术中SFU传输方式框图

图4为本发明实施例中第一模式下实时音频传输系统的框图实例；

图5为本发明实施例中第二模式下实时音频传输系统的框图实例；

图6为本发明实施例中第三模式下实时音频传输系统的框图实例；

图7为本发明实施例中实时音频传输系统的使用方法流程图。

具体实施方式

以下结合附图实施例对本发明作进一步详细描述。

本发明提供了一种实时音频传输系统，首先需要建立包括如下五个部分的音频传输构架：

音频发布源(在附图中简称为Src)，能够将自身采集的音频数据发出，且所有音频发布源在发出音频数据的同时携带一个用来描述当前音频数据的音量大小的字段；音频发布源Src可以是一个手机客户端或PC客户端，也可以是一个具有数据处理能力的MCU服务端；

音频服务单元(在附图中简称为MSU)，能从音频发布源或其他音频服务单元订阅音频数据，并能将接收到的音频数据分发出去；音频服务单元能运行在手机客户端或PC客户端，也能运行在服务器端，如果运行在手机客户端或PC客户端，则可实现P2P直连能力，运行在服务器端，可实现多人音频网络会议，其能够将实时音频数据分发给多个不同的音频订阅端；音频服务单元具有传输网络的Qos服务功能，音频服务单元还具有能对分发的音频数据进行动态管理功能；

音频订阅端(Subs)，能从音频服务单元订阅音频数据；

音频中转服务器端(在附图中简称为SS)，能作为音频发布源，将自身采集的音频数据发送给音频服务单元；也能从音频服务单元订阅音频数据，然后对音频数据进行处理，再将处理后的音频数据发送出去，这里的处理包括以下内容之一或任意组合：提取、混合、解码、编码；音频中转服务器端可以是一个手机客户端或PC客户端，也可以是一个具有数据处理能力的 MCU服务端；

群组控制单元(在附图中简称GCU)，负责实时音频会议群组的会话管理，实时音频会议群组的用户包括：音频发布源或音频中转服务器端、音频服务单元、音频订阅端；群组控制单元会主动为该实时音频会议群组生成一个音频服务管理单元(Main MSU)和若干个为实时音频会议群组的用户服务的音频服务单元，音频服务管理单元同时具有音频服务单元的所有功能；

客户端在使用上述媒体传输构架时，采用如下三种模式：

第一模式，参加图4所示：

有N个客户端注册音频发布源，N为自然数，并通过网络连接到群组控制单元，表示发布自己同时具有发出音频数据的能力；有一个客户端注册音频中转服务器端，并通过网络连接到群组控制单元，表示发布自己同时具有发出音频数据的能力，也具有能从音频服务单元订阅音频数据、然后对音频数据进行处理、再将处理后的音频数据发送出去的能力；M个客户端注册音频订阅端，M为自然数，并通过网络连接到群组控制单元，表示自己需要订阅音频数据；群组控制单元为N个音频发布源、音频中转服务器端和M个音频订阅端建立一个实时通信群组，同时马上生成一个音频服务管理单元和若干个实时音频会议群组的用户服务的音频服务单元； N个音频发布源通过运行在自身上的音频服务单元或通过其他音频服务单元将自身的音频数据发送给音频中转服务器端，音频中转服务器端动态提取音量最大的两路音频数据，并将这两路音频数据不做音频解码和编码直接一起发送给各个音频订阅端；

第二模式，参加图5所示：

有N个客户端注册音频发布源，N为自然数，并通过网络连接到群组控制单元，表示发布自己同时具有发出音频数据的能力；有一个客户端注册音频中转服务器端，并通过网络连接到群组控制单元，表示发布自己同时具有发出音频数据的能力，也具有能从音频服务单元订阅音频数据、然后对音频数据进行处理、再将处理后的音频数据发送出去的能力；M个客户端注册音频订阅端，M为自然数，并通过网络连接到群组控制单元，表示自己需要订阅音频数据；群组控制单元为N个音频发布源、音频中转服务器端和M个音频订阅端建立一个实时通信群组，同时马上生成一个音频服务管理单元和若干个实时音频会议群组的用户服务的音频服务单元； N个音频发布源通过运行在自身上的音频服务单元或通过其他音频服务单元将自身的音频数据发送给音频中转服务器端，很多情况下，同一个客户端既会注册音频发布源，也会注册音频订阅端；音频中转服务器端按照按如下a、b两种情况进行处理：

第三模式，参加图6所示：

上述实时音频传输系统的使用方法，其包括如下步骤，参加图7所示：

步骤1、多方音频会议启动时，默认以第三模式运行；

步骤5、会议终止，群组控制单元(GCU)释放建立的音频服务管理单元(Main MSU)和若干个为实时音频会议群组的用户服务的音频服务单元。

Claims

1.一种实时音频传输系统，其特征在于：建立包括如下五个部分的音频传输构架：

音频发布源(Src)，能够将自身采集的音频数据发出，且所有音频发布源在发出音频数据的同时携带一个用来描述当前音频数据的音量大小的字段；

音频服务单元(MSU)，能从音频发布源或其他音频服务单元订阅音频数据，并能将接收到的音频数据分发出去；音频服务单元能运行在客户端，也能运行在服务器端；音频服务单元具有传输网络的Qos服务功能，音频服务单元还具有能对分发的音频数据进行动态管理功能；

音频订阅端(Subs)，能从音频服务单元订阅音频数据；

音频中转服务器端(SS)，能作为音频发布源，将自身采集的音频数据发送给音频服务单元；也能从音频服务单元订阅音频数据，然后对音频数据进行处理，再将处理后的音频数据发送出去，这里的处理包括以下内容之一或任意组合：提取、混合、解码、编码；

群组控制单元(GCU)，负责实时音频会议群组的会话管理，实时音频会议群组的用户包括：音频发布源或音频中转服务器端、音频服务单元、音频订阅端；群组控制单元会主动为该实时音频会议群组生成一个音频服务管理单元(Main MSU)和若干个为实时音频会议群组的用户服务的音频服务单元，音频服务管理单元同时具有音频服务单元的所有功能；

客户端在使用上述媒体传输构架时，采用如下三种模式：

第一模式：

有N个客户端注册音频发布源，N为自然数，并通过网络连接到群组控制单元，表示发布自己同时具有发出音频数据的能力；至少一个音频中转服务器端，并通过网络连接到群组控制单元，表示发布自己同时具有发出音频数据的能力，也具有能从音频服务单元订阅音频数据、然后对音频数据进行处理、再将处理后的音频数据发送出去的能力；M个客户端注册音频订阅端，M为自然数，并通过网络连接到群组控制单元，表示自己需要订阅音频数据；群组控制单元为N个音频发布源、音频中转服务器端和M个音频订阅端建立一个实时通信群组，同时马上生成一个音频服务管理单元和若干个实时音频会议群组的用户服务的音频服务单元；N个音频发布源通过运行在自身上的音频服务单元或通过其他音频服务单元将自身的音频数据发送给音频中转服务器端，音频中转服务器端动态提取音量最大的两路音频数据，并将这两路音频数据不做音频解码和编码直接一起发送给各个音频订阅端；

第二模式：

有N个客户端注册音频发布源，N为自然数，并通过网络连接到群组控制单元，表示发布自己同时具有发出音频数据的能力；至少一个音频中转服务器端，并通过网络连接到群组控制单元，表示发布自己同时具有发出音频数据的能力，也具有能从音频服务单元订阅音频数据、然后对音频数据进行处理、再将处理后的音频数据发送出去的能力；M个客户端注册音频订阅端，M为自然数，并通过网络连接到群组控制单元，表示自己需要订阅音频数据；群组控制单元为N个音频发布源、音频中转服务器端和M个音频订阅端建立一个实时通信群组，同时马上生成一个音频服务管理单元和若干个实时音频会议群组的用户服务的音频服务单元；N个音频发布源通过运行在自身上的音频服务单元或通过其他音频服务单元将自身的音频数据发送给音频中转服务器端，音频中转服务器端按照按如下a、b两种情况进行处理：

第三模式：

有N个音频中转服务器端，并通过网络连接到群组控制单元，表示发布自己同时具有发出音频数据的能力，也具有能从音频服务单元订阅音频数据、然后对音频数据进行处理、再将处理后的音频数据发送出去的能力，此时每个音频发布源同时也是音频订阅端；群组控制单元为N个音频中转服务器端建立一个实时通信群组，同时马上生成一个音频服务管理单元和若干个实时音频会议群组的用户服务的音频服务单元；任意一个音频中转服务器端判断如果当前接收的两路及以上音频数据的音量大于自己发出的音频数据音量时，则不将接收的音频数据向外发送，如果当前接收的音频数据只有一路或虽然有多路但没有音量大于自己的音频数据，则将接收的那一路音频数据向外发送或将接收的多路音频数据中音量最大的两个音频数据合并成一路新的音频数据向外发送。

2.根据权利要求1所述的实时音频传输系统，其特征在于：所述群组控制单元生成一个音频服务管理单元(MainMSU)和若干个为实时音频会议群组的用户服务的音频服务单元的规则为：

(1)、生成就近原则，生成的音频服务管理单元(MainMSU)和音频服务单元(MSU)应该尽量离音频发布源接近，距离由IP地址距离、物理距离和经过实际测量的数据得到；

3.根据权利要求1所述的实时音频传输系统，其特征在于：在第一模式、第二模式和第三模式中，音频中转服务器端在转发音频数据时，按照预设固定时间间隔进行转发处理，并且如果出现当前时间段音量最大的两路音频数据与上一个时间段音量最大的两路音频数据不相同时，将上一个时间段产生音量最大的两路音频数据的客户端称为客户端A和客户端B；将当前时间段产生音量最大的两路音频数据的客户端称为客户端C和客户端D；音频中转服务器端根据如下情况分别处理：

4.一种如权利要求1所述实时音频传输系统的使用方法，其特征在于包括如下步骤：

步骤1、多方音频会议启动时，默认以第三模式运行；

步骤5、会议终止，群组控制单元(GCU)释放建立的音频服务管理单元(MainMSU)和若干个为实时音频会议群组的用户服务的音频服务单元。