CN110995946B

CN110995946B - 混音方法、装置、设备、系统及可读存储介质

Info

Publication number: CN110995946B
Application number: CN201911358366.5A
Authority: CN
Inventors: 王展; 胡小鹏; 顾振华
Original assignee: Suzhou Keda Technology Co Ltd
Current assignee: Suzhou Keda Technology Co Ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2021-08-20
Anticipated expiration: 2039-12-25
Also published as: CN110995946A

Abstract

本发明公开了两种可分别应用于多点会议控制器和SFU中混音方法、装置、设备、系统及可读存储介质。当采用多点会议控制器进行混音处理时，在静音状态多点会议控制器不进行混音处理，在非静音状态下对音频RTP包进行筛选后进行混音，可大大降低多点会议控制器的混音任务量，在参会方较多的场景下，多点会议控制器也能满足混音需求。当采用终端测进行混音处理时，在静音状态SFU不转发音频数据包，在非静音状态下对音频RTP包的筛选，可大大降低SFU向各个会议终端转发的音频RTP包的数量，即会议终端的混音任务量便可降低。如此，在参会方较多的场景下，终端侧也能满足混音需求。

Description

混音方法、装置、设备、系统及可读存储介质

技术领域

本发明涉及信号处理技术领域，特别是涉及两种混音方法、装置、设备、系统及可读存储介质。

背景技术

随着在多方视频会议中，每一个接收端都要能够听到其他终端发出的声音，同时不能听到自己发出的声音，因此就需要有混音功能；混音可以在平台做，也可以在终端侧做。在平台做混音时平台就需要接收多有终端发送的音频码流，并进行解码，然后针对不同终端进行混音，使其不包含接收终端发送的声音，最后将混音后的声音进行编码发送给接收端。若终端做混音，则平台接收终端的音频码流，并将其转发给其他终端，终端收到多条音频码流后进行解码，最后进行混音播放。

对于上面所述的两种混音方式，在入会方数较少时，平台或者终端的性能能够满足解码播放；但在入户方数较多，甚至上百级别的大方数会议中，平台或者终端的性能完全不能满足大量的音频编解码和音频码流转发的需要。且，在大多数会议中，难以保证所有终端都能够被哑音，这就会导致很多噪声进入混音，导致混音后的声音嘈杂，严重影响声音的效果。

综上所述，如何有效地解决入会方数量较多情景下的混音等问题，是目前本领域技术人员急需解决的技术问题。

发明内容

本发明的目的是提供两种混音方法、装置、设备、系统及可读存储介质，以满足入会方数量较多的情景下的混音需求。

为解决上述技术问题，本发明提供如下技术方案：

一种混音方法，应用于多点会议控制器，包括：

接收各个会议终端发送的音频RTP包，并读取各个所述音频RTP包的扩展头信息；所述扩展头信息包括声音特征信息或静音标记信息；

利用当前混音时间对应的所述静音标记信息判断当前混音时间是否为静音状态；

如果是，则生成含有静音标记的音频帧；

如果否，则利用所述声音特征信息从各个所述音频RTP包中筛选出目标音频RTP包，并对所述目标音频RTP包进行解码混音；对混音结果进行编码，得到当前混音时间各个所述会议终端分别对应的混音RTP包，将所述混音RTP包发送至各个所述会议终端，以便所述会议终端利用所述混音RTP包播放会议语音。

优选地，所述声音特征信息包括语音标记、能量值、噪音标记和音乐标记；利用所述声音特征信息从各个所述音频RTP包中筛选出目标音频RTP包，包括：

判断具有所述声音特征信息的音频RTP包的路数是否小于预设阈值；

如果否，则按所述能量值的大小进行排序，并结合所述音乐标记、所述语音标记和所述噪音标记筛选出所述目标音频RTP包；

如果是，则将具有所述声音特征信息的音频RTP包确定为所述目标音频RTP包。

优选地，所述对混音结果进行编码，得到混音RTP包，包括：

分别判断各个所述会议终端分别对应的上一帧混音RTP包是否发送给各个所述会议终端；

将未发送的帧数添加至相应的会议终端对应的RTP扩展头中，获得所述混音RTP包。

优选地，在所述生成含有静音标记的音频帧之后，还包括：

分别判断各个所述会议终端对应的所述音频帧对应的上一个音频帧是否包括所述静音标记；

如果否，则将预设字节数据作为帧数据并将RTP扩展头中添加所述静音标记，将所述含有静音标记的音频帧发送至相应所述会议终端；

如果是，则不发送所述含有静音标记的音频帧。

优选地，在所述接收各个会议终端发送的音频RTP包之前，包括：

各个所述会议终端生成并发送的具有与声音识别结果相匹配的扩展头信息的音频RTP包；其中，所述声音识别结果为所述会议终端利用声音特征识别模型对自身采集得到的声音信号进行识别后获得的；所述声音特征识别模型为利用深度学习训练后获得的模型。

一种混音方法，应用于选择性转发单元，包括：

利用所述静音标记信息判断当前混音时间是否为静音状态；

如果是，则暂停向各个接收终端转发所述音频RTP包；

如果否，则利用所述声音特征信息从各个所述音频RTP包中筛选出目标音频RTP包，将所述目标音频RTP包发送至各个所述接收终端，以便所述接收终端利用所述目标音频RTP包进行混音后播放会议语音。

优选地，所述接收各个会议终端发送的音频RTP包，包括：

接收各个会议终端发送的具有与声音识别结果相匹配的扩展头信息的音频RTP包；其中，所述声音识别结果为所述会议终端利用声音特征识别模型对自身采集得到的声音信号进行识别后获得的；所述声音特征识别模型为利用深度学习训练后获得的模型。

一种混音装置，应用于多点会议控制器，包括：

扩展头信息读取模块，用于接收各个会议终端发送的音频RTP包，并读取各个所述音频RTP包的扩展头信息；所述扩展头信息包括声音特征信息或静音标记信息；

静音判断模块，用于利用当前混音时间对应的所述静音标记信息判断当前混音时间是否为静音状态；

静态混音模块，用于在所述静音状态时，生成含有静音标记的音频帧；

有声混音模块，用于在非所述静音状态时，则利用所述声音特征信息从各个所述音频RTP包中筛选出目标音频RTP包，并对所述目标音频RTP包进行解码混音；对混音结果进行编码，得到当前混音时间各个所述会议终端分别对应的混音RTP包，将所述混音RTP包发送至各个所述会议终端，以便所述会议终端利用所述混音RTP包播放会议语音。

一种混音装置，应用于选择性转发单元，包括：

静音判断模块，用于利用所述静音标记信息判断当前混音时间是否为静音状态；

静态转发模块，用于在所述静音状态时，暂停向各个接收终端转发所述音频RTP包；

有声转发模块，用于在非所述静音状态时，利用所述声音特征信息从各个所述音频RTP包中筛选出目标音频RTP包，将所述目标音频RTP包发送至各个所述接收终端，以便所述会接收端利用所述目标音频RTP包进行混音后播放会议语音。

一种混音设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述混音方法的步骤。

一种混音系统，包括：

发送端和接收端，所述发送端通过多点会议控制器或选择性转发单元与所述接收端进行会议；

所述发送端，对采集到的声音信号进行识别，并生成具有扩展头信息的音频RTP包，所述扩展头信息包括声音特征信息或静音标记信息；

所述多点会议控制器，用于实现对应的混音方法；

所述选择性转发单元，用于实现对应的混音方法。

一种可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述混音方法的步骤。

在多点会议控制器中应用本发明实施例所提供的第一种混音方法，多点会议控制器接收各个会议终端发送的音频RTP包，并读取各个音频RTP包的扩展头信息；扩展头信息包括声音特征信息或静音标记信息；利用当前混音时间对应的静音标记信息判断当前混音时间是否为静音状态；如果是，则生成含有静音标记的音频帧；如果否，则利用声音特征信息从各个音频RTP包中筛选出目标音频RTP包，并对目标音频RTP包进行解码混音；对混音结果进行编码，得到当前混音时间各个会议终端分别对应的混音RTP包，将混音RTP包发送至各个会议终端，以便会议终端利用混音RTP包播放会议语音。

可见，当采用多点会议控制器进行混音处理时，多个会议终端发送扩展头携带声音特征信息或静音标记信息的音频RTP包，多点会议控制器接收到音频RTP包，便可提供读取音频RTP包扩展头中的声音特征信息或静音标记信息。然后利用静音标记信息判断当前混音时间是否为静音状态，如果是，则仅需生成含有静音标记的音频帧，而无需进行混音；如果否，则进一步基于声音特征信息从音频RTP包中筛选出部分音频RTP包作为目标音频RTP包，仅针对目标音频RTP包进行解码混音，得到混音RTP包，然后将混音RTP包发送给各个会议终端。各个会议终端便可基于混音RTP包播放会议语音。在静音状态下多点会议控制器不进行混音处理，在非静音状态下对音频RTP包进行筛选后进行混音，可大大降低多点会议控制器的混音任务量，在参会方较多的场景下，多点会议控制器也能满足混音需求。

在选择性转发单元(SFU，Selective Forwarding Unit)中用于本发明实施例所提供的第二种混音方法，SFU接收各个会议终端发送的音频RTP包，并读取各个音频RTP包的扩展头信息；扩展头信息包括声音特征信息或静音标记信息；利用静音标记信息判断当前混音时间是否为静音状态；如果是，则暂停向各个接收终端转发音频RTP包；如果否，则利用声音特征信息从各个音频RTP包中筛选出目标音频RTP包，将目标音频RTP包发送至各个接收终端，以便接收终端利用目标音频RTP包进行混音后播放会议语音。

可见，当采用终端侧进行混音处理时，多个会议终端发送扩展头携带声音特征信息或静音标记信息的音频RTP包，SFU接收到音频RTP包，便可提供读取音频RTP包扩展头中的声音特征信息或静音标记信息。然后利用静音标记信息判断当前混音时间是否为静音状态，如果是，则暂停向各个接收终端转发音频RTP包，此时接收终端便可无需进行混音处理；如果否，则进一步基于声音特征信息从音频RTP包中筛选出部分音频RTP包作为目标音频RTP包，转发目标音频RTP包给各个接收终端。各个接收终端仅针对目标音频RTP包进行混音处理，混音量大大降低。在静音状态SFU不转发音频数据包，在非静音状态下对音频RTP包的筛选，可大大降低SFU向各个接收终端转发的音频RTP包的数量，即接收终端的混音任务量便可降低。如此，在参会方较多的场景下，终端侧也能满足混音需求。

相应地，本发明实施例还提供了与上述两种混音方法分别相对应的混音装置、设备和可读存储介质，具有上述技术效果，在此不再赘述。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中第一种混音方法的实施流程图；

图2为本发明实施例中第二种混音方法的实施流程图；

图3为本发明实施例中第一种混音装置的结构示意图；

图4为本发明实施例中第二种混音装置的结构示意图

图5为本发明实施例中一种混音设备的结构示意图；

图6为本发明实施例中一种混音设备的具体结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

实施例一：

本实施例对第一种混音方法进行详细说明。该方法可应用于多点会议控制器中。其中，多点会议控制器，即多点控制单元(MCU，Multipoint Control Unit)是视频会议系统中心控制设备的简称，是多点视频会议系统的关键设备。

请参考图1，图1为本发明实施例中第一种混音方法的流程图，该方法包括以下步骤：

S101、接收各个会议终端发送的音频RTP包，并读取各个音频RTP包的扩展头信息。

其中，扩展头信息包括声音特征信息或静音标记信息。

其中，RTP指实时传输协议(Real-time Transport Protocol)，即音频RTP包即基于RTP协议进行传输的具有音频信号的数据包。

各个会议终端生成音频RTP包的过程包括：各个会议终端生成并发送的具有与声音识别结果相匹配的扩展头信息的音频RTP包；其中，声音识别结果为会议终端利用声音特征识别模型对自身采集得到的声音信号进行识别后获得的；声音特征识别模型为利用深度学习训练后获得的模型。

具体地，举例说明，声音特征信息或静音标记信息的RTP包的扩展头格式。例如，可使用一个字节表示声音内容(语音、音乐、噪声)。前5位为0；第6位表示语音，有语音为1，无语音为0；第7位表示音乐，有音乐为1，无则为0；第8位表示噪声，有噪声为1，无则为0。可使用RFC5285标准携带该字节作为RTP的扩展头。

为便于区别描述，在本文中将发送RTP音频包的会议终端称之为声音发送端，将接收音频包的会议终端称之为声音接收端。

在声音发送端，以帧为单位使用深度学习训练获得的声音特征识别模型对编码前的声音信号进行特征提取，得到声音特征信息中关于是否有语音、是否为噪声、是否为音乐的标记信息。可对声音信号对应的调整信号(PCM)获取声音能量大小，即能量值。具体的，可通过获取待分析的音频帧的PCM；使用经过神经网络训练获得的声音特征识别模型对PCM进行分析，获得PCM中的声音内容特征；使用PCM中样本点值计算每个样本点的能量，然后按照能量大小从大到小排序，取前m个样本点的平均能量作为该PCM的音频能量值。

音频帧是音频码流数据的单位描述，音频RTP包是网络层的描述，音频RTP包包括音频码流帧数据和网络包头，网络包头中携带网络层传输信息，如IP地址。

若首次出现声音能量小于阀值或者声音中仅有噪声时，则可将该帧数据替换为预设数据，且在音频RTP包的扩展头中记录静音标记信息；若后续连续音频帧的能量都小于阀值，或者声音种仅有噪声，则这些音频帧不再发送，并在后续出现声音能量大于阀值，或者声音中有语音/音乐的帧时，在目标混音RTP包的RTP扩展头中添加本次至上一次发送目标音频RTP包的时间段内没有发送的音频帧个数。从而达到减少音频流量，减少平台处理的性能消耗。举例说明：可使用一个字节表示未发送帧的个数(即十进制数转十六进制)，可使用RFC5285标准携带该字节作为RTP的扩展头。

在非静音状态下，音频帧的声音特征信息(语音标记、能量值、噪音标记和音乐标记)添加到音频RTP包的扩展头中。举例说明：可使用一个字节表示声音能量dB值(即十进制数转十六进制)，将声音内容字节添加到该字节后面，可使用RFC5285标准携带这2个字节数据作为RTP的扩展头。

需要说明的是，对于多点会议控制器所接到的各个会议终端发送的音频RTP包，可根据各个不同会议终端所采集的声音信号的具体声音特征，具有具体的声音特征信息或静音标记信息。也就是说，多点会议控制器所接到的音频RTP包，其内的扩展头信息有可能是声音特征信息也有可能为静音标记信息，具体是声音特征信息还是静音标记信息根据各个会议终端所采集的声音信号而定。

S102、利用当前混音时间对应的静音标记信息判断当前混音时间是否为静音状态。

在当前混音时间各个会议终端发送的音频RTP包的扩展信息中均为静音标记信息时，或在当前混音时间指定声音发送端对应的音频RTP包的扩展信息中均为静音标记信息时，可确定当前混音时间为静音状态，即无人发言，也没有音乐。反之，当无静音标记信息，即可确定当前混音时间为非静音状态。

确定出是否为静音状态之后，便可根据具体的判断结果执行后续处理操作。具体的，当判断结果为是，则执行步骤S103的操作；当判断结果为否时，则执行步骤S104的操作。

S103、生成含有静音标记的音频帧。

在当前混音时间为静音状态，则可无需进行混音处理，此时可生成含有静音标记的音频帧。该音频帧可直接发送给各个会议终端。

优选地，可仅将静音状态出现的第一个音频帧发送给各个会议终端，以减少数据传输量。在生成含有静音标记的音频帧之后，执行以下步骤，包括：

步骤一、分别判断各个会议终端对应的音频帧对应的上一个音频帧是否包括静音标记；

步骤二、如果否，则将预设字节数据作为帧数据并将RTP扩展头中添加静音标记，将含有静音标记的音频帧发送至相应会议终端；

步骤三、如果是，则不发送含有静音标记的音频帧。

为便于描述，下面将上述三个步骤结合起来进行说明。

通过判断每一个会议终端的上一个音视帧是否包括静音标记，即可确定当前音频帧是否为静音状态下第一个音频帧。具体的，如果上一个音频帧中包括了静音标记，则确定当前音频帧不是静音状态下出现的第一个音频帧，此时可无需发送音频帧；如果上一个音频帧中未包括静音标记，则确定当前音频帧为静音状态下出现的第一个音频帧，此时将该音频帧发送给各个会议终端，以便各个会议终端在进行混音时，同步时间戳。

S104、利用声音特征信息从各个音频RTP包中筛选出目标音频RTP包，并对目标音频RTP包进行解码混音。

在当前混音时间非静音状态时，即有声状态，可利用声音特征信息对各个音频RTP包进行筛选，将一部分音频RTP包作为目标音频RTP包。然后对目标音频RTP包进行解码混音。

其中，筛选出目标RTP包，即基于语音标记、能量值、噪音标记和音乐标记，选择出需要进行混音的RTP包。具体的，为了避免噪音影响会议，可将具有噪音标记的音频RTP包进行剔除，然后进一步选择具有语音标记或音乐标记且能量值较高的音频RTP包作为目标RTP包。

优选地，为了减少混音任务量，还可控制目标音频RTP包的数量。目标音频RTP包的筛选过程，可包括：

步骤一、判断具有声音特征信息的音频RTP包的路数是否小于预设阈值；

步骤二、如果否，则按能量值的大小进行排序，并结合音乐标记、语音标记和噪音标记筛选出目标音频RTP包；

步骤三、如果是，则将具有声音特征信息的音频RTP包确定为目标音频RTP包。

为了便于描述，下面将上述三个步骤结合起来进行说明。

其中，路数即可视为发送的音频RTP包的扩展头信息包括声音特征信息的会议终端的个数c，预设阈值可仿照实际会议场景中通常发言人数进行设置，如设置为1，2，5，7等数值。预设阈值可具体根据实际参会规模进行设置，例如，可设置为参见本次会议的会议终端总数的10％。

在选择目标音频RTP包时，可仅针对语音标记为有语音，或音乐标记为有语音的音频RTP包按照能量值进行大小排序，然后选择能量值最高的c路会议终端发送的音频RTP包作为目标音频RTP包。特别地，当既存在音乐标记为有音乐，语音标记为有语音的情况下，可选定一部分语音标记为有语音的音频RTP包作为目标音频RTP包，选定一部分有音乐标记为有用于的音频RTP包为目标音频RTP包。

需要说明的是，由于具有扩展头中要么为静音状态标记信息，要么为声音特征信息，因此在具有声音特征信息的音频RTP包数量大于预设阈值时，所选定的目标音频RTP中无具有静音标记信息的音频RTP包。

确定出目标RTP包之后，便可基于目标RTP包进行混音。

具体的，在进行混音时，即针对每一个会议终端对应进行混音。在进行混音时，需将对各个终端进行分别混音处理，使得每个会议终端播放的声音为其他会议终端的采集的声音，而不包括自身采集的声音。例如，当参会的会议终端共10个时，针对1号会议终端进行混音时，则从目标RTP包中剔除出1号会议终端自身发出的音频RTP包，而对余下的目标音频RTP包进行解码，并混音，得到针对1号会议终端的混音结果。

S105、对混音结果进行编码，得到当前混音时间各个会议终端分别对应的混音RTP包，将混音RTP包发送至各个会议终端，以便会议终端利用混音RTP包播放会议语音。

完成混音之后，便可针对每一个会议终端分别对应的混音结果进行编码，得到混音RTP包，并分别将对应的混音RTP包发送给各个会议终端。

会议终端接收到自身对应的混音RTP包之后，对混音RTP包进行解码，便可播放会议语音。

优选地，为便于会议终端在对混音RTP包进行解码时，不出现时间混淆，以及误会出现丢包。生成混音RTP包可具体包括：

步骤一、分别判断各个会议终端分别对应的上一帧混音RTP包是否发送给各个会议终端；

步骤二、将未发送的帧数添加至相应的会议终端对应的RTP扩展头中，获得混音RTP包。

即，在这里所指的上一帧混音RTP包即指各个会议终端分别对应的上一帧混音RTP。如果已经发送，则表明当前混音RTP包不是会议开始后第一帧混音RTP包，也不是静音状态结束后的第一帧混音RTP包，可直接将当前混音RTP包发送给对应的会议终端；如果未发送，则表明可能为非静音状态结束后的第一帧混音RTP包，需要告知会议终端未发送的帧数。具体的，可将未发送的帧数添加至RTP扩展头中，获得混音RTP包，如此会议终端接收到具有未发送的帧数便不会误会出现丢包，避免影响丢包率计算，并且有利于会议终端对混音RTP包进行解码，还原会议声音。

可见，当采用多点会议控制器进行混音处理时，多个会议终端发送扩展头携带声音特征信息或静音标记信息的音频RTP包，多点会议控制器接收到音频RTP包，便可提供读取音频RTP包扩展头中的声音特征信息或静音标记信息。然后利用静音标记信息判断当前混音时间是否为静音状态，如果是，则仅需生成含有静音标记的音频帧，而无需进行混音；如果否，则进一步基于声音特征信息从音频RTP包中筛选出部分音频RTP包作为目标音频RTP包，仅针对目标音频RTP包进行解码混音，得到混音RTP包，然后将混音RTP包发送给各个会议终端。各个会议终端便可基于混音RTP包播放会议语音。在静音状态多点会议控制器不进行混音处理，在非静音状态下对音频RTP包进行筛选后进行混音，可大大降低多点会议控制器的混音任务量，在参会方较多的场景下，多点会议控制器也能满足混音需求。

实施例二：

本实施例对第二种混音方法进行详细说明。该方法可应用于SFU中。其中，SFU(Selective Forwarding Unit，选择性转发单元)。

请参考图2，图3为本发明实施例中第一种混音方法的流程图，该方法包括以下步骤：

S201、接收各个会议终端发送的音频RTP包，并读取各个音频RTP包的扩展头信息。

扩展头信息包括声音特征信息或静音标记信息。

其中，接收各个会议终端发送的音频RTP包，可具体为SFU接收各个会议终端发送的具有与声音识别结果相匹配的扩展头信息的音频RTP包；其中，声音识别结果为会议终端利用声音特征识别模型对自身采集得到的声音信号进行识别后获得的；声音特征识别模型为利用深度学习训练后获得的模型。

具体的，关于会议终端具体如何生成音频RTP包，可参见上述实施例一，在此不再一一赘述。

S202、利用静音标记信息判断当前混音时间是否为静音状态。

确定出是否为静音状态之后，便可根据具体的判断结果执行后续处理操作。具体的，当判断结果为是，则执行步骤S203的操作；当判断结果为否时，则执行步骤S204的操作。

S203、暂停向各个接收终端转发音频RTP包。

SFU向各个会议终端转发音频RTP包时，可向会议终端转发其他会议终端发送的音频RTP包。即避免会议终端接收到自身发送出的音频RTP包。为便于区别，在本实施例中，将接收音频RTP包的会议终端称之为接收终端。

S204、利用声音特征信息从各个音频RTP包中筛选出目标音频RTP包，将目标音频RTP包发送至各个接收终端，以便接收终端利用目标音频RTP包进行混音后播放会议语音。

其中，接收终端利用目标音频RTP包进行混音后播放会议语音，可具体为：接收终端从音频RTP扩展头中获取时间戳、声音特征信息、没有发送的音频帧个数。并将这些数据发送给终端网络组件、解码器和播放器。网络组件用这些信息判断是否有丢包，以及计算丢包率；解码器用这些信息判断是否需要解码；播放器用这些数据判断是否需要播放舒适噪声、是否需要语音增强。

其中，声音特征信息包括语音标记、能量值、噪音标记和音乐标记。优选地，利用声音特征信息从各个音频RTP包中筛选出目标音频RTP包，包括：

需要说明的是，在第二种混音方法中，其与第一种混音方法的核心思想相同，存在相似或相同的执行步骤，实施例二和实施例一可相互对应参照，在此不再一一赘述。

可见，当采用终端侧进行混音处理时，多个会议终端发送扩展头携带声音特征信息或静音标记信息的音频RTP包，SFU接收到音频RTP包，便可提供读取音频RTP包扩展头中的声音特征信息或静音标记信息。然后利用静音标记信息判断当前混音时间是否为静音状态，如果是，则暂停向各个接收终端转发音频RTP包，此时接收终端便可无需进行混音处理；如果否，则进一步基于声音特征信息从音频RTP包中筛选出部分音频RTP包作为目标音频RTP包，转发目标音频RTP包给各个接收终端。各个接收终端仅针对目标音频RTP包进行混音处理，混音量大大降低。在静音状态下SFU不转发音频数据包，在非静音状态下对音频RTP包的筛选，可大大降低SFU向各个接收终端转发的音频RTP包的数量，即接收终端的混音任务量便可降低。如此，在参会方较多的场景下，终端侧也能满足混音需求。

实施例三：

相应于上面的方法实施例，本发明实施例还提供了第一种混音装置，可应用于多点会议控制器中，下文描述的第一种混音装置与上文描述的混音方法可相互对应参照。

参见图3所示，该装置包括以下模块：

扩展头信息读取模块101，用于接收各个会议终端发送的音频RTP包，并读取各个音频RTP包的扩展头信息；扩展头信息包括声音特征信息或静音标记信息；

静音判断模块102，用于利用当前混音时间对应的静音标记信息判断当前混音时间是否为静音状态；

静态混音模块103，用于在静音状态时，生成含有静音标记的音频帧；

有声混音模块104，用于在非静音状态时，则利用声音特征信息从各个音频RTP包中筛选出目标音频RTP包，并对目标音频RTP包进行解码混音；对混音结果进行编码，得到当前混音时间各个会议终端分别对应的混音RTP包，将混音RTP包发送至各个会议终端，以便会议终端利用混音RTP包播放会议语音。

在本发明的一种具体实施方式中，声音特征信息包括语音标记、能量值、噪音标记和音乐标记；有声混音模块104，具体用于判断具有声音特征信息的音频RTP包的路数是否小于预设阈值；如果否，则按能量值的大小进行排序，并结合音乐标记、语音标记和噪音标记筛选出目标音频RTP包；如果是，则将具有声音特征信息的音频RTP包确定为目标音频RTP包。

在本发明的一种具体实施方式中，有声混音模块104，具体用于分别判断各个会议终端分别对应的上一帧混音RTP包是否发送给各个会议终端；将未发送的帧数添加至相应的会议终端对应的RTP扩展头中，获得混音RTP包。

在本发明的一种具体实施方式中，还包括：

音频帧发送模块，用于在生成含有静音标记的音频帧之后，分别判断各个会议终端对应的音频帧对应的上一个音频帧是否包括静音标记；如果否，则将预设字节数据作为帧数据并将RTP扩展头中添加静音标记，将含有静音标记的音频帧发送至相应会议终端；如果是，则不发送含有静音标记的音频帧。

在本发明的一种具体实施方式中，在接收各个会议终端发送的音频RTP包之前，各个会议终端生成并发送的具有与声音识别结果相匹配的扩展头信息的音频RTP包；其中，声音识别结果为会议终端利用声音特征识别模型对自身采集得到的声音信号进行识别后获得的；声音特征识别模型为利用深度学习训练后获得的模型。

实施例四：

相应于上面的方法实施例，本发明实施例还提供了第二种混音装置，可应用于SFU，下文描述的第二种混音装置与上文描述的混音方法可相互对应参照。

参见图4所示，该装置包括以下模块：

扩展头信息读取模块201，用于接收各个会议终端发送的音频RTP包，并读取各个音频RTP包的扩展头信息；扩展头信息包括声音特征信息或静音标记信息；

静音判断模块202，用于利用静音标记信息判断当前混音时间是否为静音状态；

静态转发模块203，用于在静音状态时，暂停向各个接收终端转发音频RTP包；

有声转发模块204，用于在非静音状态时，利用声音特征信息从各个音频RTP包中筛选出目标音频RTP包，将目标音频RTP包发送至各个接收终端，以便接收终端利用目标音频RTP包进行混音后播放会议语音。

在本发明的一种具体实施方式中，声音特征信息包括语音标记、能量值、噪音标记和音乐标记；有声转发模块204，具体用于判断具有声音特征信息的音频RTP包的路数是否小于预设阈值；如果否，则按能量值的大小进行排序，并结合音乐标记、语音标记和噪音标记筛选出目标音频RTP包；如果是，则将具有声音特征信息的音频RTP包确定为目标音频RTP包。

在本发明的一种具体实施方式中，扩展头信息读取模块201，具体用于接收各个会议终端发送的具有与声音识别结果相匹配的扩展头信息的音频RTP包；其中，声音识别结果为会议终端利用声音特征识别模型对自身采集得到的声音信号进行识别后获得的；声音特征识别模型为利用深度学习训练后获得的模型。

实施例五：

相应于上面的方法实施例，本发明实施例还提供了一种混音设备，下文描述的一种混音设备与上文描述的一种混音方法可相互对应参照。

参见图5所示，该混音设备包括：

存储器D1，用于存储计算机程序；

处理器D2，用于执行计算机程序时实现上述方法实施例的混音方法的步骤。

具体的，请参考图6，为本实施例提供的一种混音设备的具体结构示意图，该混音设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)322(例如，一个或一个以上处理器)和存储器332，一个或一个以上存储应用程序342或数据344的存储介质330(例如一个或一个以上海量存储设备)。其中，存储器332和存储介质330可以是短暂存储或持久存储。存储在存储介质330的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对数据处理设备中的一系列指令操作。更进一步地，中央处理器322可以设置为与存储介质330通信，在混音设备301上执行存储介质330中的一系列指令操作。

混音设备301还可以包括一个或一个以上电源326，一个或一个以上有线或无线网络接口350，一个或一个以上输入输出接口358，和/或，一个或一个以上操作系统341。例如，Windows ServerTM，Mac OS XTM，UnixTM，LinuxTM，FreeBSDTM等。

上文所描述的混音方法中的步骤可以由混音设备的结构实现。具体的，当所实现的混音方法与上述实施例一对应时，该混音设备可具体为多点会议控制器；当所实现的混音方法与上述实施例二对应时，该混音设备可具体为SFU。

实施例六：

相应于上面的方法实施例，本发明实施例还提供了一种混音系统，下文描述的一种混音系统与上文描述的一种混音方法可相互对应参照。

一种混音系统，包括：

发送端和接收端，发送端通过多点会议控制器或选择性转发单元与接收端进行会议；

发送端，对采集到的声音信号进行识别，并生成具有扩展头信息的音频RTP包，扩展头信息包括声音特征信息或静音标记信息；

多点会议控制器，用于实现对应的混音方法；

选择性转发单元，用于实现对应的混音方法。

其中，发送端和接收端均为会议终端对于数据传输分别对应的角色，当发送端通过多点会议控制器与接收端进行数据传输，进行会议时，则多点会议控制器中实施如上述实施例一所示的混音方法；当发送端通过选择性转发单元与接收端进行数据传输，进行会议时，则选择性转发单元中实施如上述实施例二所示的混音方法。具体的混音方法可参见上文描述，在此不再一一赘述。

实施例七：

相应于上面的方法实施例，本发明实施例还提供了一种可读存储介质，下文描述的一种可读存储介质与上文描述的一种混音方法可相互对应参照。

一种可读存储介质，可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例的混音方法的步骤。

该可读存储介质具体可以为U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可存储程序代码的可读存储介质。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

Claims

1.一种混音方法，其特征在于，应用于多点会议控制器，包括：

如果是，则生成含有静音标记的音频帧；

如果否，则利用所述声音特征信息从各个所述音频RTP包中筛选出目标音频RTP包，并对所述目标音频RTP包进行解码混音；对混音结果进行编码，得到当前混音时间各个所述会议终端分别对应的混音RTP包，将所述混音RTP包发送至各个所述会议终端，以便所述会议终端利用所述混音RTP包播放会议语音；

所述声音特征信息包括语音标记、能量值、噪音标记和音乐标记；利用所述声音特征信息从各个所述音频RTP包中筛选出目标音频RTP包，包括：

2.根据权利要求1所述的混音方法，其特征在于，所述对混音结果进行编码，得到混音RTP包，包括：

3.根据权利要求1所述的混音方法，其特征在于，在所述生成含有静音标记的音频帧之后，还包括：

如果是，则不发送所述含有静音标记的音频帧。

4.根据权利要求1至3任一项所述的混音方法，其特征在于，在所述接收各个会议终端发送的音频RTP包之前，包括：

5.一种混音方法，其特征在于，应用于选择性转发单元，包括：

利用所述静音标记信息判断当前混音时间是否为静音状态；

如果是，则暂停向各个接收终端转发所述音频RTP包；

如果否，则利用所述声音特征信息从各个所述音频RTP包中筛选出目标音频RTP包，将所述目标音频RTP包发送至各个所述接收终端，以便所述接收终端利用所述目标音频RTP包进行混音后播放会议语音；

6.根据权利要求5所述的混音方法，其特征在于，所述接收各个会议终端发送的音频RTP包，包括：

7.一种混音装置，其特征在于，应用于多点会议控制器，包括：

有声混音模块，用于在非所述静音状态时，则利用所述声音特征信息从各个所述音频RTP包中筛选出目标音频RTP包，并对所述目标音频RTP包进行解码混音；对混音结果进行编码，得到当前混音时间各个所述会议终端分别对应的混音RTP包，将所述混音RTP包发送至各个所述会议终端，以便所述会议终端利用所述混音RTP包播放会议语音；

所述声音特征信息包括语音标记、能量值、噪音标记和音乐标记；所述有声混音模块，具体用于判断具有所述声音特征信息的音频RTP包的路数是否小于预设阈值；

8.一种混音装置，其特征在于，应用于选择性转发单元，包括：

有声转发模块，用于在非所述静音状态时，利用所述声音特征信息从各个所述音频RTP包中筛选出目标音频RTP包，将所述目标音频RTP包发送至各个所述接收终端，以便所述接收终端利用所述目标音频RTP包进行混音后播放会议语音；

所述声音特征信息包括语音标记、能量值、噪音标记和音乐标记；所述有声转发模块，具体用于判断具有所述声音特征信息的音频RTP包的路数是否小于预设阈值；

9.一种混音设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述混音方法的步骤。

10.一种混音系统，其特征在于，包括：

所述多点会议控制器，用于实现如权利要求1至4任一项所述的混音方法；

所述选择性转发单元，用于实现如权利要求5至6任一项所述的混音方法。

11.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述混音方法的步骤。