CN108616487B

CN108616487B - 基于视联网的混音方法和装置

Info

Publication number: CN108616487B
Application number: CN201611132046.4A
Authority: CN
Inventors: 王艳辉; 杨春晖; 潘廷勇; 赵广石
Original assignee: Visionvera Information Technology Co Ltd
Current assignee: Visionvera Information Technology Co Ltd
Priority date: 2016-12-09
Filing date: 2016-12-09
Publication date: 2021-09-21
Anticipated expiration: 2036-12-09
Also published as: CN108616487A

Abstract

本发明提供了一种基于视联网的混音方法，所述方法应用于视联网，包括：接收服务器获取的由多个第一终端发出的多路音频包；对所述多路音频包执行混音，将所述多路音频包合成总音频包；根据所述总音频包生成对应于所述多个第一终端的多个下发音频包，所述每个第一终端对应的下发音频包中不包括该第一终端自身发出的音频包；以及将所述下发音频包通过服务器传送至所述第一终端。采用本发明实施例提供的基于视联网的混音方法，可以通过软件算法实现多路音频混音、降低设备复杂度，从而大大提高操作的简便性并且降低了成本。

Description

基于视联网的混音方法和装置

技术领域

本发明涉及视联网技术领域，尤其涉及一种基于视联网的混音方法和一种基于视联网的混音装置。

背景技术

随着网络科技的快速发展，视频会议、视频教学等双向通信在用户的生活、工作、学习等方面广泛普及。在通信过程中，在多个用户发言的应用场景中，一般需要将多路声音混成一路进行传送。现有技术通常采用硬件设备，例如混音器，解决上述混音问题，不仅会增加设备复杂度，还会提高成本。

发明内容

有鉴于此，本发明的目的是针对现有技术中存在的问题，依据现有视联网技术，提供一种基于视联网的混音方法，用于取代现有硬件设备混音的方法。

根据本发明的一个方面，本发明公开了一种基于视联网的混音方法，该方法应用于视联网，包括：接收服务器获取的由多个第一终端发出的多路音频包；对所述多路音频包执行混音，将所述多路音频包合成总音频包；根据所述总音频包生成对应于所述多个第一终端的多个下发音频包，所述每个第一终端对应的下发音频包中不包括该第一终端自身发出的音频包；以及将所述下发音频包通过服务器传送至所述第一终端。

优选地，所述方法还包括：将所述总音频包通过服务器传送到其他未发出音频包的第二终端。

优选地，所述接收服务器获取的由多个第一终端发出的多路音频包的步骤之前，所述方法还包括：通过服务器获取第一终端发送的、针对混音终端的混音申请指令；针对所述混音申请指令，按照第一终端配置的下行通信链路向所述第一终端返回申请应答信息；接收所述第一终端针对所述申请应答信息发送的混音操作指令；根据所述混音操作指令生成混音操作命令；以及接收混音操作命令，将获取的由多个第一终端发出的多路音频包发送到混音终端。

可选地，所述混音操作指令包括混音操作码；所述生成混音操作命令的步骤包括采用所述混音操作码赋值给混音操作命令。

可选地，所述接收混音操作命令，将获取的由多个第一终端发出的多路音频包发送到混音终端的步骤，包括：利用服务器接收混音操作命令，读取混音操作码；将所述混音操作码映射为指定的混音参数；按照所述混音参数，将服务器获取的由多个第一终端发出的多路音频包发送到混音终端。

根据本发明的另一个方面，本发明还公开了一种基于视联网的混音装置，该装置应用于视联网，包括：接收模块，用于接收服务器获取的由多个第一终端发出的多路音频包；混音模块，用于对所述多路音频包执行混音，将所述多路音频包合成一路总音频包；下发音频包生成模块，用于根据所述总音频包生成对应于所述多个第一终端的多个下发音频包，所述每个第一终端对应的下发音频包中不包括该第一终端自身发出的音频包；以及传送模块，用于将所述下发音频包通过服务器传送至所述多个第一终端。

优选地，所述装置还包括：总音频包传送模块，用于将所述总音频包通过服务器传送到其他未发出音频包的第二终端。

优选地，所述装置还包括：混音申请指令接收模块，用于通过服务器获取第一终端发送的、针对混音终端的混音申请指令；申请应答模块，用于针对所述混音申请指令，按照第一终端配置的下行通信链路向所述第一终端返回申请应答信息；混音操作指令生成模块，用于接收所述第一终端针对所述申请应答信息发送的混音操作指令；混音操作命令生成模块，用于根据所述混音操作指令生成混音操作命令；以及混音操作命令接收模块，用于接收混音操作命令，将获取的由多个第一终端发出的多路音频包发送到混音终端。

可选地，所述混音操作指令包括混音操作码；所述混音操作命令生成模块包括：赋值子模块，用于采用所述混音操作码赋值给混音操作命令。

可选地，所述混音操作命令接收模块包括：解析子模块，接收混音操作命令，读取混音操作码；映射子模块，将所述混音操作码映射为指定的混音参数；发送子模块，按照所述混音参数，将服务器获取的由多个第一终端发出的多路音频包发送到混音终端。

与现有技术相比，本发明包括以下优点：

首先，本发明实施例利用了视联网的特性，全部整合在一个系统平台，通过电视或电脑实现高清品质视频播放。

其次，本发明实施例通过软件算法实现多路音频混音，可以降低设备复杂度，大大提高了操作的简便性并且降低了成本；

再次，本发明可以区分发出过音频包的第一终端和未发出过音频包的第二终端，在返回下发音频包的过程中，能保证：某个第一终端可以接收到其他第一终端发出的音频包而不会多余地接收自己发出的音频包，与此同时，第二终端可以同时接收到所有第一终端发出的音频包。

附图说明

为了更清楚地说明本发明的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

为了更清楚地说明本发明的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明的一种视联网的组网示意图；

图2是本发明的一种节点服务器的硬件结构示意图；

图3是本发明的一种接入交换机的硬件结构示意图；

图4是本发明的一种以太网协转网关的硬件结构示意图；

图5是本发明实施例一的一种基于视联网的混音方法的步骤流程图；

图6是本发明实施例二的另一种基于视联网的混音方法的步骤流程图；

图7是本发明实施例三的一种基于视联网的混音装置的方框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

视联网是网络发展的重要里程碑，是一个实时网络，能够实现高清视频实时传输，将众多互联网应用推向高清视频化，高清面对面。

视联网采用实时高清视频交换技术，可以在一个网络平台上将所需的服务，如高清视频会议、视频监控、智能化监控分析、应急指挥、数字广播电视、延时电视、网络教学、现场直播、VOD点播、电视邮件、个性录制(PVR)、内网(自办)频道、智能化视频播控、信息发布等数十种视频、语音、图片、文字、通讯、数据等服务全部整合在一个系统平台，通过电视或电脑实现高清品质视频播放。

为使本领域技术人员更好地理解本发明实施例，以下对视联网进行介绍：

1.视联网所应用的部分技术

网络技术(Network Technology)

视联网的网络技术创新改良了传统以太网(Ethernet)，以面对网络上潜在的巨大视频流量。不同于单纯的网络分组包交换(Packet Switching)或网络电路交换(CircuitSwitching)，视联网技术采用Packet Switching满足Streaming需求。视联网技术具备分组交换的灵活、简单和低价，同时具备电路交换的品质和安全保证，实现了全网交换式虚拟电路，以及数据格式的无缝连接。

交换技术(Switching Technology)

视联网采用以太网的异步和包交换两个优点，在全兼容的前提下消除了以太网缺陷，具备全网端到端无缝连接，直通用户终端，直接承载IP数据包。用户数据在全网范围内不需任何格式转换。视联网是以太网的更高级形态，是一个实时交换平台，能够实现目前互联网无法实现的全网大规模高清视频实时传输，将众多网络视频应用推向高清化、统一化。

服务器技术(Server Technology)

视联网和统一视频平台上的服务器技术不同于传统意义上的服务器，它的流媒体传输是建立在面向连接的基础上，其数据处理能力与流量、通讯时间无关，单个网络层就能够包含信令及数据传输。对于语音和视频业务来说，视联网和统一视频平台流媒体处理的复杂度比数据处理简单许多，效率比传统服务器大大提高了百倍以上。

储存器技术(Storage Technology)

统一视频平台的超高速储存器技术为了适应超大容量和超大流量的媒体内容而采用了最先进的实时操作系统，将服务器指令中的节目信息映射到具体的硬盘空间，媒体内容不再经过服务器，瞬间直接送达到用户终端，用户等待一般时间小于0.2秒。最优化的扇区分布大大减少了硬盘磁头寻道的机械运动，资源消耗仅占同等级IP互联网的20％，但产生大于传统硬盘阵列3倍的并发流量，综合效率提升10倍以上。

网络安全技术(Network Security Technology)

视联网的结构性设计通过每次服务单独许可制、设备与用户数据完全隔离等方式从结构上彻底根除了困扰互联网的网络安全问题，一般不需要杀毒程序、防火墙，杜绝了黑客与病毒的攻击，为用户提供结构性的无忧安全网络。

服务创新技术(Service Innovation Technology)

统一视频平台将业务与传输融合在一起，不论是单个用户、私网用户还是一个网络的总合，都不过是一次自动连接。用户终端、机顶盒或PC直接连到统一视频平台，获得丰富多彩的各种形态的多媒体视频服务。统一视频平台采用“菜谱式”配表模式来替代传统的复杂应用编程，可以使用非常少的代码即可实现复杂的应用，实现“无限量”的新业务创新。

2.视联网的组网

视联网是一种集中控制的网络结构，该网络可以是树型网、星型网、环状网等等类型，但在此基础上网络中需要有集中控制节点来控制整个网络。

如图1所示，视联网分为接入网和城域网两部分。

接入网部分的设备主要可以分为3类：节点服务器，接入交换机，终端(包括各种机顶盒、编码板、存储器等)。节点服务器与接入交换机相连，接入交换机可以与多个终端相连，并可以连接以太网。

其中，节点服务器是接入网中起集中控制功能的节点，可控制接入交换机和终端。节点服务器可直接与接入交换机相连，也可以直接与终端相连。

类似的，城域网部分的设备也可以分为3类：城域服务器，节点交换机，节点服务器。城域服务器与节点交换机相连，节点交换机可以与多个节点服务器相连。

其中，节点服务器即为接入网部分的节点服务器，即节点服务器既属于接入网部分，又属于城域网部分。

城域服务器是城域网中起集中控制功能的节点，可控制节点交换机和节点服务器。城域服务器可直接连接节点交换机，也可直接连接节点服务器。

由此可见，整个视联网络是一种分层集中控制的网络结构，而节点服务器和城域服务器下控制的网络可以是树型、星型、环状等各种结构。

形象地称，接入网部分可以组成统一视频平台(虚线圈中部分)，多个统一视频平台可以组成视联网；每个统一视频平台可以通过城域以及广域视联网互联互通。

3.视联网设备分类

3.1本发明实施例的视联网中的设备主要可以分为3类：服务器，交换机(包括以太网网关)，终端(包括各种机顶盒，编码板，存储器等)。视联网整体上可以分为城域网(或者国家网、全球网等)和接入网。

3.2其中接入网部分的设备主要可以分为3类：节点服务器，接入交换机(包括以太网网关)，终端(包括各种机顶盒，编码板，存储器等)。

各接入网设备的具体硬件结构为：

节点服务器：

如图2所示，主要包括网络接口模块201、交换引擎模块202、CPU模块203、磁盘阵列模块204；

其中，网络接口模块201，CPU模块203、磁盘阵列模块204进来的包均进入交换引擎模块202；交换引擎模块202对进来的包进行查地址表205的操作，从而获得包的导向信息；并根据包的导向信息把该包存入对应的包缓存器206的队列；如果包缓存器206的队列接近满，则丢弃；交换引擎模202轮询所有包缓存器队列，如果满足以下条件进行转发：1)该端口发送缓存未满；2)该队列包计数器大于零。磁盘阵列模块204主要实现对硬盘的控制，包括对硬盘的初始化、读写等操作；CPU模块203主要负责与接入交换机、终端(图中未示出)之间的协议处理，对地址表205(包括下行协议包地址表、上行协议包地址表、数据包地址表)的配置，以及，对磁盘阵列模块204的配置。

接入交换机：

如图3所示，主要包括网络接口模块(下行网络接口模块301、上行网络接口模块302)、交换引擎模块303和CPU模块304；

其中，下行网络接口模块301进来的包(上行数据)进入包检测模块305；包检测模块305检测包的目地地址(DA)、源地址(SA)、数据包类型及包长度是否符合要求，如果符合，则分配相应的流标识符(stream-id)，并进入交换引擎模块303，否则丢弃；上行网络接口模块302进来的包(下行数据)进入交换引擎模块303；CPU模块204进来的数据包进入交换引擎模块303；交换引擎模块303对进来的包进行查地址表306的操作，从而获得包的导向信息；如果进入交换引擎模块303的包是下行网络接口往上行网络接口去的，则结合流标识符(stream-id)把该包存入对应的包缓存器307的队列；如果该包缓存器307的队列接近满，则丢弃；如果进入交换引擎模块303的包不是下行网络接口往上行网络接口去的，则根据包的导向信息，把该数据包存入对应的包缓存器307的队列；如果该包缓存器307的队列接近满，则丢弃。

交换引擎模块303轮询所有包缓存器队列，在本发明实施例中分两种情形：

如果该队列是下行网络接口往上行网络接口去的，则满足以下条件进行转发：1)该端口发送缓存未满；2)该队列包计数器大于零；3)获得码率控制模块产生的令牌；

如果该队列不是下行网络接口往上行网络接口去的，则满足以下条件进行转发：1)该端口发送缓存未满；2)该队列包计数器大于零。

码率控制模块208是由CPU模块204来配置的，在可编程的间隔内对所有下行网络接口往上行网络接口去的包缓存器队列产生令牌，用以控制上行转发的码率。

CPU模块304主要负责与节点服务器之间的协议处理，对地址表306的配置，以及，对码率控制模块308的配置。

以太网协转网关：

如图4所示，主要包括网络接口模块(下行网络接口模块401、上行网络接口模块402)、交换引擎模块403、CPU模块404、包检测模块405、码率控制模块408、地址表406、包缓存器407和MAC添加模块409、MAC删除模块410。

其中，下行网络接口模块401进来的数据包进入包检测模块405；包检测模块405检测数据包的以太网MAC DA、以太网MAC SA、以太网length or frame type、视联网目地地址DA、视联网源地址SA、视联网数据包类型及包长度是否符合要求，如果符合则分配相应的流标识符(stream-id)；然后，由MAC删除模块410减去MAC DA、MAC SA、length or frame type(2byte)，并进入相应的接收缓存，否则丢弃；

下行网络接口模块401检测该端口的发送缓存，如果有包则根据包的视联网目地地址DA获知对应的终端的以太网MAC DA，添加终端的以太网MAC DA、以太网协转网关的MACSA、以太网length or frame type，并发送。

以太网协转网关中其他模块的功能与接入交换机类似。

终端：

主要包括网络接口模块、业务处理模块和CPU模块；例如，机顶盒主要包括网络接口模块、视音频编解码引擎模块、CPU模块；编码板主要包括网络接口模块、视音频编码引擎模块、CPU模块；存储器主要包括网络接口模块、CPU模块和磁盘阵列模块。

3.3城域网部分的设备主要可以分为2类：节点服务器，节点交换机，城域服务器。其中，节点交换机主要包括网络接口模块、交换引擎模块和CPU模块；城域服务器主要包括网络接口模块、交换引擎模块和CPU模块构成。

4.视联网数据包定义

4.1接入网数据包定义

接入网的数据包主要包括以下几部分：目的地址(DA)、源地址(SA)、保留字节、payload(PDU)、CRC。

如下表所示，接入网的数据包主要包括以下几部分：

DA

SA

Reserved

Payload

CRC

其中：

目的地址(DA)由8个字节(byte)组成，第一个字节表示数据包的类型(例如各种协议包、组播数据包、单播数据包等)，最多有256种可能，第二字节到第六字节为城域网地址，第七、第八字节为接入网地址；

源地址(SA)也是由8个字节(byte)组成，定义与目的地址(DA)相同；

保留字节由2个字节组成；

payload部分根据不同的数据报的类型有不同的长度，如果是各种协议包的话是64个字节，如果是单组播数据包话是32+1024＝1056个字节，当然并不仅仅限于以上2种；

CRC有4个字节组成，其计算方法遵循标准的以太网CRC算法。

4.2城域网数据包定义

城域网的拓扑是图型，两个设备之间可能有2种、甚至2种以上的连接，即节点交换机和节点服务器、节点交换机和节点交换机、节点交换机和节点服务器之间都可能超过2种连接。但是，城域网设备的城域网地址却是唯一的，为了精确描述城域网设备之间的连接关系，在本发明实施例中引入参数：标签，来唯一描述一个城域网设备。

本说明书中标签的定义和MPLS(Multi-Protocol Label Switch，多协议标签交换)的标签的定义类似，假设设备A和设备B之间有两个连接，那么数据包从设备A到设备B就有2个标签，数据包从设备B到设备A也有2个标签。标签分入标签、出标签，假设数据包进入设备A的标签(入标签)是0x0000，这个数据包离开设备A时的标签(出标签)可能就变成了0x0001。城域网的入网流程是集中控制下的入网过程，也就意味着城域网的地址分配、标签分配都是由城域服务器主导的，节点交换机、节点服务器都是被动的执行而已，这一点与MPLS的标签分配是不同的，MPLS的标签分配是交换机、服务器互相协商的结果。

如下表所示，城域网的数据包主要包括以下几部分：

DA

SA

Reserved

标签

Payload

CRC

即目的地址(DA)、源地址(SA)、保留字节(Reserved)、标签、payload(PDU)、CRC。其中，标签的格式可以参考如下定义：标签是32bit，其中高16bit保留，只用低16bit，它的位置是在数据包的保留字节和payload之间。

基于视联网的上述特性，提出了本发明实施例的核心构思之一，遵循视联网的协议，利用混音终端，接收服务器获取的由多个第一终端发出的多路音频包；对所述多路音频包执行混音，将所述多路音频包合成一路总音频包；根据所述总音频包生成对应于所述多个第一终端的多个下发音频包，所述下发音频包不包括其对应的终端自身发出的音频包；将所述下发音频包以及总音频包传送到服务器。

实施例一

本发明实施例一提供了一种基于视联网的混音方法。参照图5，示出了本发明的一种基于视联网的混音方法实施例的步骤流程图，该方法可以应用于视联网，具体包括如下步骤：

步骤S501，接收服务器获取的由多个第一终端发出的多路音频包；

在这一步骤中，利用视联网中的混音终端接收服务器获取的多路音频包。在具体实现中，在视频会议等应用场景中，多个视联网终端互为外部信号源，服务器获取各个视联网终端的多媒体数据。具体地，本发明服务器可以获取到多个视联网终端发送的音频数据，并且，由于终端之间的通信是持续的，故，服务器获取的各个终端的音频数据是持续的。其中，所述混音终端是一个视联网终端，这个终端既可以作为普通的视频会议通话用的终端，也可以是一个单纯的混音终端，具体由服务器内的配置软件根据具体情况来配置。例如，在一个具体示例中，混音终端可以是用户A、B、C或D所使用的视联网终端中的一个，也可以是另外一个不同于用户终端的，单独的混音终端，例如可以为终端H。

例如在一个具体示例中，某一视频会议，参会人员例如包括用户A、用户B、用户C、用户D和用户E，分别对应的视联网终端为：用户终端A、用户终端B、用户终端C、用户终端D和用户终端E。其中，所述用户终端以及前述混音终端一样，均为视联网终端，可以为机顶盒(SetTopBox，STB)，通常称作机顶盒或机上盒，是一个连接电视机与外部信号源的设备，它可以将压缩的数字信号转成音频及视频内容，并在电视机上显示与播放出来。一般而言，所述机顶盒可以连接麦克风，用于获取音频数据，也可以连接电视机，用于播放音频数据。某一段时间内，用户A、B、C同时发言，因此其对应的用户终端分别发送各一路音频包，例如：用户终端A发送2001音频包、用户终端B发送2003音频包和用户终端C发送2005音频包。此时，本实施例中将用户A、B和C对应的用户终端称为为三个第一终端。相应地，用户D和用户E不发言，因此其对应的用户终端D和用户终端E不发出音频包。因此，本实施例中将用户D和用户E对应的用户终端D和用户终端E称为第二终端。每个第一终端分别发送一路音频包，也就是说音频包的数量与发送音频的第一终端的数量一致，对于本示例即：三个第一终端分别发出三路音频包。

步骤S502，利用所述混音终端，对所述多路音频包执行混音，将所述多路音频包合成一路总音频包；

混音终端接收到服务器获取的多路音频包后，例如：用户终端A发出的2001音频包、用户终端B发出的2003音频包以及用户终端C发出的2005音频包，将所述三路音频包混成一路总音频包，且保证所述总音频包包含有所述三路音频包的全部音频数据。

步骤S503，利用所述混音终端，根据所述总音频包生成对应于每个第一终端的下发音频包，所述下发音频包不包括其对应的终端自身发出的音频包；

对于前述具体示例，例如，利用混音终端，剔除总音频包中用户A发送的2001音频包，生成对应于用户A的下发音频包A，所述下发音频包A只包括有2003和2005音频包；剔除总音频包中用户B发送的2003音频包，生成对应于用B的下发音频包B，所述下发音频包B只包括有2001和2005音频包；类似地，剔除总音频包中用户C发送的2005音频包，生成对应于用户C的下发音频包C，所述下发音频包C只包括2001和2003音频包。

步骤S504，将所述下发音频包通过服务器传送至所述多个第一终端；

对于前述具体示例，例如，视联网混音终端将生成的下发音频包A、下发音频包B、下发音频包C发回到服务器，然后通过服务器将接收到的所述对应于每个第一终端的下发音频包传送到对应的第一终端。

例如，对于前述示例，通过视联网服务器，将下发音频包A发送到用户终端A，将下发音频包B发送到用户终端B，将下发音频包C发送到用户终端C。也就是说，视频会议的发言用户A可以接收到另外两个发言用户B和C的发言内容，而不会听到类似回声一样的自己的声音；同理，发言用户B可以接收到另外两个发言用户A和C的发言内容，而不会听到类似回声一样的自己的声音；发言用户C可以接收到另外两个发言用户B和A的发言内容，而不会听到类似回声一样的自己的声音。上述过程中，所有用户终端接收到的下发音频包或者总音频包均包括两路以上音频，在传送过程中，包括有两路以上音频的下发音频包和总音频包均是混合后以一音频数据传送的，从而实现了视联网内多路音频的混音。

由此可见，本发明实施例通过软件算法实现多路音频混音，可以降低设备复杂度，大大提高了操作的简便性并且降低了成本。

实施例二

本发明实施例二提供了另一种基于视联网的混音方法。图6，示出了本发明的另一种基于视联网的混音方法实施例的步骤流程图，该方法同样可以应用于视联网，同实施例二相同也包括如下几个步骤：

步骤S503，利用所述混音终端，根据所述总音频包生成对应于每个第一终端的下发音频包，所述下发音频包不包括其对应的终端自身发出的音频包；以及

步骤S504，将所述下发音频包通过服务器传送至所述多个第一终端；所述四个步骤的具体操作和实现的效果参照实施例一，此处不再赘述。

参照图6，不同于实施例一的是，在本发明实施例中，步骤S501之前还包括以下几个步骤，用于利用视联网的特性实现由服务器发送其获取到的由多个第一终端发出的多路音频包到混音终端：

步骤S501a，通过服务器获取第一终端发送的、针对混音终端的混音申请指令。

对于视联网中的终端，所述混音申请指令的生成和发送一般需要受到预先设定的触发条件的触发。混音申请指令的触发条件例如可以设置为：当视联网终端获取到两路以上音频包时。对于前述示例，视联网服务器获取到A、B、C三个第一终端发送的三路音频包，触发第一终端发送针对混音终端的混音申请指令至视联网服务器，以请求视联网服务器做出下一步动作。

步骤S501b，针对所述混音申请指令，按照第一终端配置的下行通信链路向所述第一终端返回申请应答信息。

视联网服务器在接收到混音申请指令后，可以向第一终端返回申请应答信息，表示已经接收到服务申请指令。在视联网中，视联网服务器可以通过协议生成申请应答信息，所述协议的规范可以根据不同情况具体设置。

实际应用中，视联网为具有集中控制功能的网络，包括主控服务器和下级网络设备，该下级网络设备包括终端，视联网的核心构思之一在于，通过由主控服务器通知交换设备针对当次服务的下行通信链路配表，然后基于该配置的表进行数据包的传送。即，视联网中的通信方法包括：主控服务器配置当次服务的下行通信链路；将源终端发送的当次服务的数据包，按照所述下行通信链路传送至目标终端。对于本发明实施例，所述源终端是指发言方，只要是参会方发言，就可以定义为源终端。目标终端是指当前参会中除了发言方本人以外的参会方。

在本发明实施例中，配置当次服务的下行通信链路包括：通知当次服务的下行通信链路所涉及的交换设备配表；进一步而言，按照下行通信链路传送包括：查询所配置的表，交换设备对所接收的数据包通过相应端口进行传送。在具体实现中，服务包括单播通信服务和组播通信服务。即无论是组播通信还是单播通信，都可以采用上述配表—用表的核心构思实现视联网中的通信。

如前所述，视联网包括接入网部分，在接入网中，该主控服务器为节点服务器，下级网络设备包括接入交换机和终端。对于接入网中的单播通信服务而言，所述主控服务器配置当次服务的下行通信链路的步骤可以包括以下步骤：

子步骤S11，主控服务器依据源终端发起的服务请求协议包，获取当次服务的下行通信链路信息，下行通信链路信息包括，参与当次服务的主控服务器和接入交换机的下行通信端口信息；

子步骤S12，主控服务器依据控服务器的下行通信端口信息，在其内部的数据包地址表中设置当次服务的数据包所导向的下行端口；并依据接入交换机的下行通信端口信息，向相应的接入交换机发送端口配置命令；

子步骤S13，接入交换机依据端口配置命令在其内部的数据包地址表中，设置当次服务的数据包所导向的下行端口。

对于接入网中的组播通信服务(如视频会议)而言，主控服务器获取当次服务的下行通信链路信息的步骤可以包括以下子步骤：

子步骤S21，主控服务器获得目标终端发起的申请组播通信服务的服务请求协议包，服务请求协议包中包括服务类型信息、服务内容信息和目标终端的接入网地址；其中，服务内容信息中包括服务号码；

子步骤S22，主控服务器依据所述服务号码在预置的内容-地址映射表中，提取源终端的接入网地址；

子步骤S23，主控服务器获取源终端对应的组播地址，并分配给目标终端；以及，依据服务类型信息、源终端和目标终端的接入网地址，获取当次组播服务的通信链路信息。

步骤S501c，接收所述第一终端针对所述申请应答信息发送的混音操作指令。

第一视联网终端接收到申请应答信息后，认为视联网服务器已经接收并同意混音的申请指令，可以生成混音操作指令，以申请服务器将获取到的由多个第一终端发出的多路音频包发送到混音终端的操作。

步骤S501d，根据所述混音操作指令生成混音操作命令。

视联网服务器接收到混音操作指令后，通过解析混音操作指令，生成混音操作命令，以命令服务器将获取到的由多个第一终端发出的多路音频包发送到混音终端。

在本发明的一种优选实施例中，所述混音操作指令中可以包括混音操作码；则在本发明实施例中，步骤S501d可以包括如下子步骤：

子步骤S31，采用所述混音操作码赋值给混音操作命令。

对于本发明实施例，由于混音终端是一个视联网终端，这个终端既可以作为普通的视频会议通话用的终端，也可以是一个单纯的混音终端，具体由服务器内的配置软件根据具体情况来配置。因此，所述混音操作码可以用于标识混音终端。当服务器将获取的由多个第一终端发出的多路音频包发送到混音终端的时候，混音操作码可以用于指导该发送过程，使所述多路音频包的发送到准确的对象终端，也就是混音终端。因此，该混音操作码，例如可以包括混音终端的识别号码。

步骤S501e，接收混音操作命令，将服务器获取的由多个第一终端发出的多路音频包发送到混音终端。

视联网服务器接收混音操作命令，将获取到的多路音频包发送至混音终端。

在前述混音操作码的基础上，对于本发明的一种优选实施例，视联网服务器可以通过以下步骤进行混音：

子步骤S41，当从接收到的数据包读取到表征混音操作命令的数据时，从所述数据包中读取混音操作码；

子步骤S42，将所述混音操作码映射为指定的混音参数；

子步骤S43，按照所述混音参数，将服务器获取的由多个第一终端发出的多路音频包发送到混音终端。

所述的混音参数例如包括：前述子步骤S1提到的混音终端的识别号码。

另外，不同于实施例一，本发明实施例步骤S504之后还包括以下步骤，具体地，对于前述示例可以用于实现将所有发言用户的发言内容发送到未发言用户：

步骤S505，通过服务器将总音频包传送到其他未发出任何音频的第二终端。

例如，对于前述示例，通过视联网服务器，将总音频包发送到没发出过音频包的用户终端D及用户终端E，从而实现用户D和用户E，也就是未发言的用户，可以听到发言用户A、B和C的发言内容。

在本发明的一种优选实施例中，具体地，步骤S505还可以包括以下子步骤：

子步骤S505a，获取第一终端对应的第一用户号码；获取第二终端对应的第二用户号码；

子步骤S505b，将服务器接收到的所述对应于第一终端的下发音频包传送到第一用户号码对应的第一终端；将服务器接收到的所述总音频包传送到第二用户号码对应的第二终端。

在本发明实施例中，视联网服务器可以通过用户号码查找对应的第一视联网终端：用户终端A、B和C，以及第二视联网终端：用户终端D和E。例如，对于前述具体示例，用户终端A、B、C、D和E可以通过唯一且固定的用户号码进行区分，所述用户号码例如可以采用类似于电话号码的数字组合。

由此可见，除实施例二提到的效果外，本发明实施例还具有以下优点：

首先，本发明实施例利用了视联网的特性，具有视联网技术达到的效果。

其次，本发明可以区分发出过音频包的第一终端和未发出过音频包的第二终端，在返回下发音频包的过程中，能保证：某个第一终端可以接收到其他第一终端发出的音频包而不会多余地接收自己发出的音频包，与此同时，第二终端可以同时接收到所有第一终端发出的音频包。

需要说明的是，实施例一和实施例二中提到的用户终端A、B、C、D和E，以及将发言的用户终端A、B和C作为第一终端，未发言的用户终端D和E作为第二终端，只是举例只用，实际过程并不限于此，也就是说，用户终端的编号不限于A、B、C、D和E，用户终端的数量不限于五个，第一终端不限于三个，第二终端也不限于两个。上述内容可以按照实际应用根据不同场景具体确定。

还需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例三

本发明实施例提供了一种基于视联网的混音装置。参照图7，示出的基于视联网的混音装置，包括：接收模块1，用于接收服务器获取的由多个第一终端发出的多路音频包；混音模块2，用于对所述多路音频包执行混音，将所述多路音频包合成一路总音频包；下发音频包生成模块3，用于根据所述总音频包生成对应于每个第一终端的下发音频包，所述下发音频包中不包括其对应的终端自身发出的音频包；传送模块4，用于将所述下发音频包通过服务器传送至所述多个第一终端。

优选地，所述装置还包括总音频包传送模块，用于将所述总音频包通过服务器传送到其他未发出音频包的第二终端。

优选地，所述装置还包括：

混音申请指令接收模块，用于通过服务器获取第一终端发送的、针对混音终端的混音申请指令；申请应答模块，用于针对所述混音申请指令，按照第一终端配置的下行通信链路向所述第一终端返回申请应答信息；混音操作指令生成模块，用于接收所述第一终端针对所述申请应答信息发送的混音操作指令；混音操作命令生成模块，用于根据所述混音操作指令生成混音操作命令；以及混音操作命令接收模块，用于接收混音操作命令，将获取的由多个第一终端发出的多路音频包发送到混音终端。

优选地，所述混音操作指令包括混音操作码；所述混音操作命令生成模块包括：赋值子模块，用于采用所述混音操作码赋值给混音操作命令。

优选地，所述混音操作命令接收模块包括：解析子模块，接收混音操作命令，读取混音操作码；映射子模块，将所述混音操作码映射为指定的混音参数；发送子模块，按照所述混音参数，将获取的由多个第一终端发出的多路音频包发送到混音终端。

由此可见，本发明实施例提供的混音装置，与方法实施例相同也应用了视联网的特性，使用软件算法实现了对多路音频混音的效果，在降低设备复杂度的同时，可以大大提高了操作的简便性并且降低了成本。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本发明所提供的一种基于视联网的混音方法和一种基于视联网的混音装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。

综上所述，本说明书内容不应理解为对本发明的限制，具体地，需要注意以下几点：

首先，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

其次，本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包括有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

第三，本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

第四，这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

第五，这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

第六，尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

Claims

1.一种基于视联网的混音方法，其特征在于，所述方法应用于视联网，包括：

服务器获取第一终端发送的、针对混音终端的混音申请指令，所述混音终端由所述服务器内的配置软件来配置，其为多个第一终端和多个第二终端中的任一终端；

所述服务器针对所述混音申请指令，按照第一终端配置的下行通信链路向所述第一终端返回申请应答信息；

所述服务器接收所述第一终端针对所述申请应答信息发送的混音操作指令；

所述服务器根据所述混音操作指令生成混音操作命令；以及

所述服务器接收混音操作命令，将获取的由多个第一终端发出的多路音频包发送到混音终端；

所述混音终端对所述多路音频包执行混音，将所述多路音频包合成总音频包；

所述混音终端根据所述总音频包生成对应于所述多个第一终端的多个下发音频包，每个第一终端对应的下发音频包中不包括该第一终端自身发出的音频包；以及

将所述下发音频包通过服务器传送至所述第一终端；

将所述总音频包通过服务器传送到其他未发出音频包的所述第二终端。

2.根据权利要求1所述的方法，其特征在于，所述混音操作指令包括混音操作码，所述混音操作码包括混音终端的识别号码；

所述生成混音操作命令的步骤包括采用所述混音操作码赋值给混音操作命令。

3.根据权利要求2所述的方法，其特征在于，所述接收混音操作命令，将获取的由多个第一终端发出的多路音频包发送到混音终端的步骤，包括：

所述服务器接收混音操作命令，读取混音操作码；

所述服务器将所述混音操作码映射为指定的混音参数；

所述服务器按照所述混音参数，将获取的由多个第一终端发出的多路音频包发送到混音终端。

4.一种基于视联网的混音装置，其特征在于，所述装置应用于视联网，包括：

所述服务器包括：

混音申请指令接收模块，用于获取第一终端发送的、针对混音终端的混音申请指令，所述混音终端由所述服务器内的配置软件来配置，其为多个第一终端和多个第二终端中的任一终端；

申请应答模块，用于针对所述混音申请指令，按照第一终端配置的下行通信链路向所述第一终端返回申请应答信息；

混音操作指令生成模块，用于接收所述第一终端针对所述申请应答信息发送的混音操作指令；

混音操作命令生成模块，用于根据所述混音操作指令生成混音操作命令；以及

混音操作命令接收模块，用于接收混音操作命令，将获取的由多个第一终端发出的多路音频包发送到混音终端；

所述混音终端包括：

混音模块，用于对所述多路音频包执行混音，将所述多路音频包合成一路总音频包；

下发音频包生成模块，用于根据所述总音频包生成对应于所述多个第一终端的多个下发音频包，每个第一终端对应的下发音频包中不包括该第一终端自身发出的音频包；以及

传送模块，用于将所述下发音频包通过服务器传送至所述多个第一终端；

总音频包传送模块，用于将所述总音频包通过服务器传送到其他未发出音频包的所述第二终端。

5.根据权利要求4所述的装置，其特征在于，所述混音操作指令包括混音操作码，所述混音操作码包括混音终端的识别号码；

所述混音操作命令生成模块包括：

赋值子模块，用于采用所述混音操作码赋值给混音操作命令。

6.根据权利要求5所述的装置，其特征在于，所述混音操作命令接收模块包括：

解析子模块，接收混音操作命令，读取混音操作码；

映射子模块，将所述混音操作码映射为指定的混音参数；

发送子模块，按照所述混音参数，将获取的由多个第一终端发出的多路音频包发送到混音终端。