CN105743911B

CN105743911B - 一种提升视频会议系统混音容量的方法

Info

Publication number: CN105743911B
Application number: CN201610191335.5A
Authority: CN
Inventors: 边学工; 唐雪华; 王中元; 邓亮; 汪亚洲
Original assignee: Wuhan Is With Sharp Hundred Million Mountain Science And Technology Ltds
Current assignee: Wuhan Is With Sharp Hundred Million Mountain Science And Technology Ltds
Priority date: 2016-03-30
Filing date: 2016-03-30
Publication date: 2018-11-13
Anticipated expiration: 2036-03-30
Also published as: CN105743911A

Abstract

本发明公开了一种提升视频会议系统混音容量的方法，借助opus码流中嵌入的语音活动状态标识，将压缩语音区分为活动语音和非活动语音，在网络接收阶段直接抛弃非活动语音，从而省掉了后续的解码和混音运算。具体步骤包括：从接收的opus编码语音帧中提取语音活动标记VAD，VAD标记分0、1、2三种值，分别指示非活动语音、活动语音、无法判断三种情况；对判断为非活动语音的opus帧在网络接收层选择性丢弃，同时修改后续的RTP包参数；当混音器输入语音缓冲区出现下溢时，填充静音帧，同时对静音帧的VAD标记和能量参数赋值。采用本发明方法可简化视频会议系统中混音运算步骤，从而大幅度提高混音容量，同时未给基于opus的互联互通带来不利影响。

Description

一种提升视频会议系统混音容量的方法

技术领域

本发明属于视频会议技术领域，涉及一种混音容量提升方法，具体涉及一种提升视频会议系统混音容量的方法。

技术背景

多点混音是视频会议系统的一项基本功能。多点混音器通过将物理上分布在不同位置的与会者的声音混合在一起，每个与会者都能听到其他多个发言人的声音，达到模仿真实的会话场景的效果，增加了会议的临场感。但多点混音涉及到复杂的多路话音的编解码、混合运算及其它辅助处理，极大地限制了混音器容量的提升，提高混音器的处理效率成为突破混音容量上限的技术瓶颈。

现有主流混音方案无一例外地对所有压缩语音数据全部解码，然后再选择能量高的活动语音来混合。由于所有语音数据都要经过解码及后续的处理，运算量居高不下。由于视频会议中通常只有少数人在讲话，大部分人不发言或很少发言，因此整体上多路语音中的非活动语音时段占绝对比例，对本不需要参与混音的非活动语音执行与活动语音同样的解码操作造成了运算资源的极大浪费。基于这一原理，部分研究者尝试在终端计算声音的能量和活动状态，作为参数与压缩语音一起传送到混音器，混音器只对能量高的活动语音进行处理。这种方式能有效降低计算量，但由于终端添加了本不属于音频标准的附加参数，影响了系统的互联互通性能。

发明内容

为了解决上述技术问题，本发明提供了一种提升视频会议系统简化混音器的运算过程、大幅度提高混音容量的混音容量的方法。

本发明所采用的技术方案是：一种提升视频会议系统混音容量的方法，其特征在于，包括以下步骤：

步骤1：活动语音标记提取；

从接收的opus编码语音帧中提取语音活动标记VAD，VAD标记分0、1、2三种值，分别指示非活动语音、活动语音、无法判断三种情况；

步骤2：非活动语音丢弃；

对判断为非活动语音的opus帧在网络接收层选择性丢弃，同时修改后续的RTP包参数；

步骤3：静音插入；

当混音器输入语音缓冲区出现下溢时，填充静音帧，同时给出静音帧的VAD标记和能量参数的值。

作为优选，步骤1的具体实现包括以下子步骤：

步骤1.1：解析opus码流中编码模式指示位，将当前语音帧区分为silk、celt和混合编码三种模式；所述码流为接收的opus编码语音帧；

步骤1.2：对silk和混合模式，解析码流中VAD标记指示位，获得VAD的0或1标记，0表明为非活动语音，1表明为活动语音；对celt模式，由于码流没有提供VAD指示信息，视为无法判断处理，将VAD标记置为2。

作为优选，步骤2的具体实现包括以下子步骤：

步骤2.1：设置非活动语音帧丢弃门限T，如果两次活动语音帧间连续的非活动语音帧数目超过了门限T，则将其间的非活动语音帧全部丢弃；否则保留；

步骤2.2：修改后续语音帧RTP包的序列号和时间戳，确保序列号连续、时间戳递增。

作为优选，步骤3的具体实现包括以下子步骤：

步骤3.1：对没有丢弃的活动语音和部分非活动语音，执行opus解码，同时将解码后语音的采样率转换到混音器工作的采样率上，采样率统一后的数据写入混音器输入缓冲区；

步骤3.2：混音器从输入缓冲区读取数据成功时，计算一帧语音的能量参数，若步骤1中提取的VAD标记为0或1，直接保留；否则，若为2，则进一步重新计算该语音帧的VAD标记；

步骤3.3：混音器从输入缓冲区读取数据出现下溢时，将待读取长度的语音数据用全零取代，同时赋予VAD和能量参数为0，跳过采样率转换。

与目前基于全解码的混音器设计方案或基于发送端的附加信息的设计方案相比，本发明具有以下优点和积极效果：

(1)由于视频会议中通常只有少数人在讲话、大部分人不发言或偶尔发言，因此整体上多路语音中的非活动语音占绝对比例，主动在网络接收阶段就放弃这部分数据，不仅避免了复杂的解码和重采样运算，而且还简化了混音器工作时需要的VAD、能量参数的计算，同时也省掉了后续数据流转的开销。因此，采用本发明设计的混音系统的工作效率将得到数量级的提升。

(2)即使不对硬件设备进行升级，采用本发明设计的混音系统的接入容量也将得到数量级的提升。

(3)本发明方法不涉及opus标准的修改，也不需要改动终端用户程序，因此，可做到任何基于opus的互联互通。

附图说明

图1：本发明具体实施例的原理图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

opus是国际互联网工程任务组IETF近年来开发的一种新的语音和音频编码标准，opus由于具有高压缩效率、高保真度、超强的纠错能力等优点，在互联网环境下的多媒体交互业务中逐步取代其它标准而成为主流。opus码流中本身就嵌入了语音活动状态的标识，本发明提出的方法通过巧妙地利用这一标识，简化混音器的运算过程，从而大幅度提高混音容量。

请见图1，本发明提供的一种提升视频会议系统混音容量的方法，包括以下步骤：

步骤1：活动语音标记提取，从接收的opus编码语音帧中提取语音活动标记VAD，VAD标记分0、1、2三种值，分别指示非活动语音、活动语音、无法判断三种情况；

opus编码器中内置了两种核心编码算法：silk和celt，opus编码器可每帧自适应地决定silk编码、celt编码还是二者的混合编码。opus码流中的VAD标记只出现在silk编码方式下，因此，提取VAD标记时需要事先对语音帧的编码方式进行分类，幸好opus语音帧中提供了编码模式的指示信息。综合起来，步骤1的具体实现进一步包括以下子步骤：

步骤1.1：解析opus码流中编码模式指示位，将当前语音帧区分为silk、celt和混合编码三种模式；其中码流为接收的opus编码语音帧；

步骤2：非活动语音丢弃，对判断为非活动语音的opus帧在网络接收层选择性丢弃，同时修改后续的RTP包参数；

opus编码利用了帧间相关性，后面帧的码流解析和参数解码依赖前面近邻帧的数据完整性，如果简单地丢弃压缩的码流数据，将影响随后语音的正确恢复。一般而言，短时非活动语音对应的是讲话中的语调转折，长时非活动语音对应的是讲话中的长时间停顿。因此，去掉活动语音间的短时非活动语音会对紧邻其后的活动语音的恢复造成影响，但去掉活动语音间的长时非活动语音基本不会影响后面活动语音的理解。另外，承载压缩语音的RTP数据包携带有顺序编号的序列号和时间戳，当序列号或时间戳不连续时，底层的opus解码器会采取诸如丢包消隐插补出丢失的帧这样的处理措施。对于真实的网络丢包这样处理有助于提高话音质量，但对于本发明中主动采取的人为丢包，显然不希望出现这种处理，因此，需要修改后续RTP包的序列号和时间戳参数，避免解码器误以为网络丢包。综合起来，步骤2的具体实现进一步包括以下子步骤：

步骤3：静音插入，当混音器输入语音缓冲区出现下溢时，填充静音帧，同时给出静音帧的VAD标记和能量参数的值。

混音器会为每路输入语音分配一个队列式缓冲区，以平滑网络传送抖动，解码器向输入缓冲区写解码后数据，混音器从缓冲区读取数据进行混音。主动放弃非活动语音数据不可避免地造成输入缓冲区下溢，即混音器读取不到数据，此时应通过填充静音帧来弥补缺失的非活动语音数据。填充的静音数据的重采样、VAD判别、能量计算都能简化，这正是运算复杂度得以大幅下降的根本原因。因此，步骤3的具体实现包括以下子步骤：

本发明方法通过从opus压缩码流中提取语音活动状态标识，主动在网络接收阶段就放弃非活动语音数据，从而避免了后续复杂的解码和重采样运算，简化了混音器工作时需要的语音活动检测、能量计算，而且，网络接收阶段就放弃也省掉了后续数据流转的开销。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种提升视频会议系统混音容量的方法，其特征在于，包括以下步骤：

步骤1：活动语音标记提取；

步骤2：非活动语音丢弃；

步骤2的具体实现包括以下子步骤：

步骤2.2：修改后续语音帧RTP包的序列号和时间戳，确保序列号连续、时间戳递增；

步骤3：静音插入；

2.根据权利要求1所述的提升视频会议系统混音容量的方法，其特征在于，步骤1的具体实现包括以下子步骤：

3.根据权利要求1所述的提升视频会议系统混音容量的方法，其特征在于，步骤3的具体实现包括以下子步骤：