CN105743911B - 一种提升视频会议系统混音容量的方法 - Google Patents

一种提升视频会议系统混音容量的方法 Download PDF

Info

Publication number
CN105743911B
CN105743911B CN201610191335.5A CN201610191335A CN105743911B CN 105743911 B CN105743911 B CN 105743911B CN 201610191335 A CN201610191335 A CN 201610191335A CN 105743911 B CN105743911 B CN 105743911B
Authority
CN
China
Prior art keywords
voice
vad
opus
speech
audio mixing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610191335.5A
Other languages
English (en)
Other versions
CN105743911A (zh
Inventor
边学工
唐雪华
王中元
邓亮
汪亚洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Is With Sharp Hundred Million Mountain Science And Technology Ltds
Original Assignee
Wuhan Is With Sharp Hundred Million Mountain Science And Technology Ltds
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Is With Sharp Hundred Million Mountain Science And Technology Ltds filed Critical Wuhan Is With Sharp Hundred Million Mountain Science And Technology Ltds
Priority to CN201610191335.5A priority Critical patent/CN105743911B/zh
Publication of CN105743911A publication Critical patent/CN105743911A/zh
Application granted granted Critical
Publication of CN105743911B publication Critical patent/CN105743911B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/764Media network packet handling at the destination 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/65Network streaming protocols, e.g. real-time transport protocol [RTP] or real-time control protocol [RTCP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Abstract

本发明公开了一种提升视频会议系统混音容量的方法,借助opus码流中嵌入的语音活动状态标识,将压缩语音区分为活动语音和非活动语音,在网络接收阶段直接抛弃非活动语音,从而省掉了后续的解码和混音运算。具体步骤包括:从接收的opus编码语音帧中提取语音活动标记VAD,VAD标记分0、1、2三种值,分别指示非活动语音、活动语音、无法判断三种情况;对判断为非活动语音的opus帧在网络接收层选择性丢弃,同时修改后续的RTP包参数;当混音器输入语音缓冲区出现下溢时,填充静音帧,同时对静音帧的VAD标记和能量参数赋值。采用本发明方法可简化视频会议系统中混音运算步骤,从而大幅度提高混音容量,同时未给基于opus的互联互通带来不利影响。

Description

一种提升视频会议系统混音容量的方法
技术领域
本发明属于视频会议技术领域,涉及一种混音容量提升方法,具体涉及一种提升视频会议系统混音容量的方法。
技术背景
多点混音是视频会议系统的一项基本功能。多点混音器通过将物理上分布在不同位置的与会者的声音混合在一起,每个与会者都能听到其他多个发言人的声音,达到模仿真实的会话场景的效果,增加了会议的临场感。但多点混音涉及到复杂的多路话音的编解码、混合运算及其它辅助处理,极大地限制了混音器容量的提升,提高混音器的处理效率成为突破混音容量上限的技术瓶颈。
现有主流混音方案无一例外地对所有压缩语音数据全部解码,然后再选择能量高的活动语音来混合。由于所有语音数据都要经过解码及后续的处理,运算量居高不下。由于视频会议中通常只有少数人在讲话,大部分人不发言或很少发言,因此整体上多路语音中的非活动语音时段占绝对比例,对本不需要参与混音的非活动语音执行与活动语音同样的解码操作造成了运算资源的极大浪费。基于这一原理,部分研究者尝试在终端计算声音的能量和活动状态,作为参数与压缩语音一起传送到混音器,混音器只对能量高的活动语音进行处理。这种方式能有效降低计算量,但由于终端添加了本不属于音频标准的附加参数,影响了系统的互联互通性能。
发明内容
为了解决上述技术问题,本发明提供了一种提升视频会议系统简化混音器的运算过程、大幅度提高混音容量的混音容量的方法。
本发明所采用的技术方案是:一种提升视频会议系统混音容量的方法,其特征在于,包括以下步骤:
步骤1:活动语音标记提取;
从接收的opus编码语音帧中提取语音活动标记VAD,VAD标记分0、1、2三种值,分别指示非活动语音、活动语音、无法判断三种情况;
步骤2:非活动语音丢弃;
对判断为非活动语音的opus帧在网络接收层选择性丢弃,同时修改后续的RTP包参数;
步骤3:静音插入;
当混音器输入语音缓冲区出现下溢时,填充静音帧,同时给出静音帧的VAD标记和能量参数的值。
作为优选,步骤1的具体实现包括以下子步骤:
步骤1.1:解析opus码流中编码模式指示位,将当前语音帧区分为silk、celt和混合编码三种模式;所述码流为接收的opus编码语音帧;
步骤1.2:对silk和混合模式,解析码流中VAD标记指示位,获得VAD的0或1标记,0表明为非活动语音,1表明为活动语音;对celt模式,由于码流没有提供VAD指示信息,视为无法判断处理,将VAD标记置为2。
作为优选,步骤2的具体实现包括以下子步骤:
步骤2.1:设置非活动语音帧丢弃门限T,如果两次活动语音帧间连续的非活动语音帧数目超过了门限T,则将其间的非活动语音帧全部丢弃;否则保留;
步骤2.2:修改后续语音帧RTP包的序列号和时间戳,确保序列号连续、时间戳递增。
作为优选,步骤3的具体实现包括以下子步骤:
步骤3.1:对没有丢弃的活动语音和部分非活动语音,执行opus解码,同时将解码后语音的采样率转换到混音器工作的采样率上,采样率统一后的数据写入混音器输入缓冲区;
步骤3.2:混音器从输入缓冲区读取数据成功时,计算一帧语音的能量参数,若步骤1中提取的VAD标记为0或1,直接保留;否则,若为2,则进一步重新计算该语音帧的VAD标记;
步骤3.3:混音器从输入缓冲区读取数据出现下溢时,将待读取长度的语音数据用全零取代,同时赋予VAD和能量参数为0,跳过采样率转换。
与目前基于全解码的混音器设计方案或基于发送端的附加信息的设计方案相比,本发明具有以下优点和积极效果:
(1)由于视频会议中通常只有少数人在讲话、大部分人不发言或偶尔发言,因此整体上多路语音中的非活动语音占绝对比例,主动在网络接收阶段就放弃这部分数据,不仅避免了复杂的解码和重采样运算,而且还简化了混音器工作时需要的VAD、能量参数的计算,同时也省掉了后续数据流转的开销。因此,采用本发明设计的混音系统的工作效率将得到数量级的提升。
(2)即使不对硬件设备进行升级,采用本发明设计的混音系统的接入容量也将得到数量级的提升。
(3)本发明方法不涉及opus标准的修改,也不需要改动终端用户程序,因此,可做到任何基于opus的互联互通。
附图说明
图1:本发明具体实施例的原理图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
opus是国际互联网工程任务组IETF近年来开发的一种新的语音和音频编码标准,opus由于具有高压缩效率、高保真度、超强的纠错能力等优点,在互联网环境下的多媒体交互业务中逐步取代其它标准而成为主流。opus码流中本身就嵌入了语音活动状态的标识,本发明提出的方法通过巧妙地利用这一标识,简化混音器的运算过程,从而大幅度提高混音容量。
请见图1,本发明提供的一种提升视频会议系统混音容量的方法,包括以下步骤:
步骤1:活动语音标记提取,从接收的opus编码语音帧中提取语音活动标记VAD,VAD标记分0、1、2三种值,分别指示非活动语音、活动语音、无法判断三种情况;
opus编码器中内置了两种核心编码算法:silk和celt,opus编码器可每帧自适应地决定silk编码、celt编码还是二者的混合编码。opus码流中的VAD标记只出现在silk编码方式下,因此,提取VAD标记时需要事先对语音帧的编码方式进行分类,幸好opus语音帧中提供了编码模式的指示信息。综合起来,步骤1的具体实现进一步包括以下子步骤:
步骤1.1:解析opus码流中编码模式指示位,将当前语音帧区分为silk、celt和混合编码三种模式;其中码流为接收的opus编码语音帧;
步骤1.2:对silk和混合模式,解析码流中VAD标记指示位,获得VAD的0或1标记,0表明为非活动语音,1表明为活动语音;对celt模式,由于码流没有提供VAD指示信息,视为无法判断处理,将VAD标记置为2。
步骤2:非活动语音丢弃,对判断为非活动语音的opus帧在网络接收层选择性丢弃,同时修改后续的RTP包参数;
opus编码利用了帧间相关性,后面帧的码流解析和参数解码依赖前面近邻帧的数据完整性,如果简单地丢弃压缩的码流数据,将影响随后语音的正确恢复。一般而言,短时非活动语音对应的是讲话中的语调转折,长时非活动语音对应的是讲话中的长时间停顿。因此,去掉活动语音间的短时非活动语音会对紧邻其后的活动语音的恢复造成影响,但去掉活动语音间的长时非活动语音基本不会影响后面活动语音的理解。另外,承载压缩语音的RTP数据包携带有顺序编号的序列号和时间戳,当序列号或时间戳不连续时,底层的opus解码器会采取诸如丢包消隐插补出丢失的帧这样的处理措施。对于真实的网络丢包这样处理有助于提高话音质量,但对于本发明中主动采取的人为丢包,显然不希望出现这种处理,因此,需要修改后续RTP包的序列号和时间戳参数,避免解码器误以为网络丢包。综合起来,步骤2的具体实现进一步包括以下子步骤:
步骤2.1:设置非活动语音帧丢弃门限T,如果两次活动语音帧间连续的非活动语音帧数目超过了门限T,则将其间的非活动语音帧全部丢弃;否则保留;
步骤2.2:修改后续语音帧RTP包的序列号和时间戳,确保序列号连续、时间戳递增。
步骤3:静音插入,当混音器输入语音缓冲区出现下溢时,填充静音帧,同时给出静音帧的VAD标记和能量参数的值。
混音器会为每路输入语音分配一个队列式缓冲区,以平滑网络传送抖动,解码器向输入缓冲区写解码后数据,混音器从缓冲区读取数据进行混音。主动放弃非活动语音数据不可避免地造成输入缓冲区下溢,即混音器读取不到数据,此时应通过填充静音帧来弥补缺失的非活动语音数据。填充的静音数据的重采样、VAD判别、能量计算都能简化,这正是运算复杂度得以大幅下降的根本原因。因此,步骤3的具体实现包括以下子步骤:
步骤3.1:对没有丢弃的活动语音和部分非活动语音,执行opus解码,同时将解码后语音的采样率转换到混音器工作的采样率上,采样率统一后的数据写入混音器输入缓冲区;
步骤3.2:混音器从输入缓冲区读取数据成功时,计算一帧语音的能量参数,若步骤1中提取的VAD标记为0或1,直接保留;否则,若为2,则进一步重新计算该语音帧的VAD标记;
步骤3.3:混音器从输入缓冲区读取数据出现下溢时,将待读取长度的语音数据用全零取代,同时赋予VAD和能量参数为0,跳过采样率转换。
本发明方法通过从opus压缩码流中提取语音活动状态标识,主动在网络接收阶段就放弃非活动语音数据,从而避免了后续复杂的解码和重采样运算,简化了混音器工作时需要的语音活动检测、能量计算,而且,网络接收阶段就放弃也省掉了后续数据流转的开销。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (3)

1.一种提升视频会议系统混音容量的方法,其特征在于,包括以下步骤:
步骤1:活动语音标记提取;
从接收的opus编码语音帧中提取语音活动标记VAD,VAD标记分0、1、2三种值,分别指示非活动语音、活动语音、无法判断三种情况;
步骤2:非活动语音丢弃;
对判断为非活动语音的opus帧在网络接收层选择性丢弃,同时修改后续的RTP包参数;
步骤2的具体实现包括以下子步骤:
步骤2.1:设置非活动语音帧丢弃门限T,如果两次活动语音帧间连续的非活动语音帧数目超过了门限T,则将其间的非活动语音帧全部丢弃;否则保留;
步骤2.2:修改后续语音帧RTP包的序列号和时间戳,确保序列号连续、时间戳递增;
步骤3:静音插入;
当混音器输入语音缓冲区出现下溢时,填充静音帧,同时给出静音帧的VAD标记和能量参数的值。
2.根据权利要求1所述的提升视频会议系统混音容量的方法,其特征在于,步骤1的具体实现包括以下子步骤:
步骤1.1:解析opus码流中编码模式指示位,将当前语音帧区分为silk、celt和混合编码三种模式;所述码流为接收的opus编码语音帧;
步骤1.2:对silk和混合模式,解析码流中VAD标记指示位,获得VAD的0或1标记,0表明为非活动语音,1表明为活动语音;对celt模式,由于码流没有提供VAD指示信息,视为无法判断处理,将VAD标记置为2。
3.根据权利要求1所述的提升视频会议系统混音容量的方法,其特征在于,步骤3的具体实现包括以下子步骤:
步骤3.1:对没有丢弃的活动语音和部分非活动语音,执行opus解码,同时将解码后语音的采样率转换到混音器工作的采样率上,采样率统一后的数据写入混音器输入缓冲区;
步骤3.2:混音器从输入缓冲区读取数据成功时,计算一帧语音的能量参数,若步骤1中提取的VAD标记为0或1,直接保留;否则,若为2,则进一步重新计算该语音帧的VAD标记;
步骤3.3:混音器从输入缓冲区读取数据出现下溢时,将待读取长度的语音数据用全零取代,同时赋予VAD和能量参数为0,跳过采样率转换。
CN201610191335.5A 2016-03-30 2016-03-30 一种提升视频会议系统混音容量的方法 Active CN105743911B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610191335.5A CN105743911B (zh) 2016-03-30 2016-03-30 一种提升视频会议系统混音容量的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610191335.5A CN105743911B (zh) 2016-03-30 2016-03-30 一种提升视频会议系统混音容量的方法

Publications (2)

Publication Number Publication Date
CN105743911A CN105743911A (zh) 2016-07-06
CN105743911B true CN105743911B (zh) 2018-11-13

Family

ID=56253366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610191335.5A Active CN105743911B (zh) 2016-03-30 2016-03-30 一种提升视频会议系统混音容量的方法

Country Status (1)

Country Link
CN (1) CN105743911B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107040359B (zh) * 2017-05-08 2021-01-19 海能达通信股份有限公司 一种语音呼叫过程中携带随路信令的方法、装置及设备
CN109842856A (zh) * 2017-11-29 2019-06-04 成都鼎桥通信技术有限公司 一种屏蔽上行丢包的方法和设备
CN110995946B (zh) * 2019-12-25 2021-08-20 苏州科达科技股份有限公司 混音方法、装置、设备、系统及可读存储介质
CN112104836A (zh) * 2020-11-23 2020-12-18 全时云商务服务股份有限公司 一种音频服务器混音方法、系统、存储介质及设备
CN116959459B (zh) * 2023-09-19 2023-12-22 国网江西省电力有限公司信息通信分公司 一种音频传输方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101573955A (zh) * 2006-12-27 2009-11-04 诺基亚公司 分布式电话会议多信道架构、系统、方法和计算机程序产品
CN102576538B (zh) * 2009-09-07 2015-05-20 诺基亚公司 用于处理音频信号的方法和设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101573955A (zh) * 2006-12-27 2009-11-04 诺基亚公司 分布式电话会议多信道架构、系统、方法和计算机程序产品
CN102576538B (zh) * 2009-09-07 2015-05-20 诺基亚公司 用于处理音频信号的方法和设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Definition of the Opus Audio Codec";JM. Valin et al.;《Internet Engineering Task Force (IETF)》;20120930;第1-325页 *

Also Published As

Publication number Publication date
CN105743911A (zh) 2016-07-06

Similar Documents

Publication Publication Date Title
CN105743911B (zh) 一种提升视频会议系统混音容量的方法
CN104917671B (zh) 基于移动终端的音频处理方法和装置
US20190198027A1 (en) Audio frame loss recovery method and apparatus
CN102226944B (zh) 混音方法及设备
CN101395886B (zh) 提供对数据分组的灵活压缩的通信站和方法
CN101790754B (zh) 用于提供amr-wb dtx同步的系统和方法
CN110995946B (zh) 混音方法、装置、设备、系统及可读存储介质
EP1724759A1 (en) Method and system for efficient transmission of communication traffic
JP2014512575A (ja) マルチレート・スピーチ/オーディオ・コーデックのためのフレーム損失隠匿
US20090135919A1 (en) Method and an apparatus for embedding data in a media stream
KR101279857B1 (ko) 적응적 멀티 레이트 코덱 모드 디코딩 방법 및 장치
CN101536088A (zh) 用于提供冗余管理的系统和方法
CN103503444A (zh) 在视频编码中用信号通知活动层的数量
US8438016B2 (en) Silence-based adaptive real-time voice and video transmission methods and system
CN103270764B (zh) 用于处理视频信号的方法和设备
US20160379658A1 (en) Hybrid rtp payload format
CN102970133B (zh) 量子网络的语音传输方法和语音终端
JP6270862B2 (ja) オーディオ多重符号化伝送方法及び対応装置
CN101478616A (zh) 一种即时语音通信方法
US7894486B2 (en) Method for depacketization of multimedia packet data
US6888801B1 (en) Devices, software and methods for determining a quality of service for a VoIP connection
CN102918589B (zh) 提供从以低比特率编码和解码的水印的音频或视频信号导出的水印的已解码音频或视频信号
US8009594B2 (en) Method and apparatus for automatic power saving mode insertion when an unknown or an offensive receiver detected in a wireless access system
CN107733833B (zh) 一种CDMA与VoLTE终端的语音互通方法与系统
CN104869004B (zh) 音频数据处理方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant