CN113038060A - 多路音频处理方法和系统 - Google Patents

多路音频处理方法和系统 Download PDF

Info

Publication number
CN113038060A
CN113038060A CN201911355338.8A CN201911355338A CN113038060A CN 113038060 A CN113038060 A CN 113038060A CN 201911355338 A CN201911355338 A CN 201911355338A CN 113038060 A CN113038060 A CN 113038060A
Authority
CN
China
Prior art keywords
audio
terminal
processing
channel audio
received
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911355338.8A
Other languages
English (en)
Other versions
CN113038060B (zh
Inventor
施隆海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201911355338.8A priority Critical patent/CN113038060B/zh
Publication of CN113038060A publication Critical patent/CN113038060A/zh
Application granted granted Critical
Publication of CN113038060B publication Critical patent/CN113038060B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/152Multipoint control units therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

本公开提出一种多路音频处理方法和系统,涉及多路音频处理。本公开通过由多点会议单元MCU对接收的多路音频进行对齐和降噪处理,并传输给终端,由终端对多路音频进行混音等语音处理,缓解了MCU的工作压力,降低了对MCU运算能力的要求,提高了MCU的承载能力。

Description

多路音频处理方法和系统
技术领域
本公开涉及多路音频处理,特别涉及一种多路音频处理方法和系统。
背景技术
目前视频会议采用的其中一种组网方案为MCU(Multipoint Conferencing Unit,多点会议单元)方案,该方案由一个MCU和多个终端组成一个星形结构。各终端将自己的音频发送给MCU,MCU会将所有终端的音频进行汇集,对齐,降噪,回声消除,后处理,混音等,最终生成一个混合后的音频再发给各个终端,这样各终端就可以听到其他终端的音频。这种方案MCU的工作压力会非常大,需要有非常强的运算能力。
发明内容
为了缓解MCU的工作压力,降低对MCU运算能力的要求,本公开通过由MCU对接收的多路音频进行对齐和降噪处理,并传输给终端,由终端对多路音频进行混音等语音处理,缓解了MCU的工作压力,降低了对MCU运算能力的要求,提高了MCU的承载能力。
本公开的一些实施例提出一种多路音频处理方法,包括:
多点会议单元对接收的多路音频进行对齐和降噪处理,并传输给终端;
终端对多路音频进行混音,并输出。
在一些实施例中,还包括:多点会议单元对处理后的多路音频进行高级音频编码AAC,然后再执行传输的步骤。
在一些实施例中,还包括:终端对多路音频进行混音包括:终端进行本地的语音活动检测,并基于不同的检测结果对多路音频进行相应的混音处理。
在一些实施例中,还包括:终端基于不同的检测结果对多路音频进行相应的混音处理包括:
如果检测到本地的语音活动,终端对接收的多路音频依次进行回声消除处理和混音处理;
或者,如果未检测到本地的语音活动,终端对接收的多路音频依次进行混音处理和增强处理。
在一些实施例中,还包括:所述增强处理为非线性增强处理。
在一些实施例中,还包括:多点会议单元接收的多路音频为视频会议中的多路音频。
本公开的一些实施例提出一种一种多路音频处理系统,包括:
多点会议单元,被配置为对接收的多路音频进行对齐和降噪处理,并传输给多个终端;
每个终端,被配置为对多路音频进行混音,并输出。
在一些实施例中,还包括:所述多点会议单元,还被配置为对处理后的多路音频进行高级音频编码AAC,然后再执行传输的步骤。
在一些实施例中,还包括:所述终端在对多路音频进行混音时,被配置为:
进行本地的语音活动检测;
如果检测到本地的语音活动,对接收的多路音频依次进行回声消除处理和混音处理;
或者,如果未检测到本地的语音活动,对接收的多路音频依次进行混音处理和增强处理。
在一些实施例中,多点会议单元接收的多路音频为视频会议中的多路音频。
本公开的一些实施例提出一种一种非瞬时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一实施例所述的多路音频处理方法的步骤。
附图说明
下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍。根据下面参照附图的详细描述,可以更加清楚地理解本公开,
显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开多路音频处理方法一些实施例的流程示意图。
图2为本公开多路音频处理系统一些实施例的示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。
图1为本公开多路音频处理方法一些实施例的流程示意图。如图1所示,该实施例的多路音频处理方法包括:步骤11-19。
在步骤11,多点会议单元对接收的多路音频进行对齐处理。
当本公开应用于视频会议系统音频处理领域时,多点会议单元接收的多路音频为视频会议中的多路音频。
多路音频来自多个终端,每路音频来自一个终端,每路音频可以缓存在声音池(sound pool)中。由于终端向多点会议单元传输音频过程中可能会发生丢包,因此,需要对多路音频进行对齐处理。例如,某路音频的第1个包丢失,该路音频的第2个包需要与其他音频的第2个包对齐。
在步骤12,然后,多点会议单元对接收的多路音频分别进行降噪处理。
例如,采用滤波技术等进行降低噪音等处理。
在步骤13,然后,多点会议单元对接收的多路音频进行编码处理。
例如,多点会议单元对处理后的多路音频进行AAC(Advanced Audio Coding,高级音频编码)处理。AAC是一种高压缩比的音频压缩算法,可以有效降低下行带宽,并且其质量可以与未压缩的CD音质相当。
在步骤14,然后,多点会议单元将处理后的多路音频传输给终端。
多点会议单元将处理后的多路音频传输给相关的多个终端。例如,参加视频会议的有终端A、B、C,则多点会议单元从终端A、B、C接收到三路音频,进行前述相关处理后,传输给终端A、B、C。后续的步骤15-19,每个终端都需要执行。
在步骤15,终端对接收的多路音频进行解码,然后执行后续的对多路音频进行混音并输出的步骤。
根据多点会议单元采用的编码方式,终端对接收的多路音频按照相应的解码方式进行解码。编解码技术可以参考现有技术。
在步骤16,终端进行本地的语音活动检测,然后执行后续的基于不同的检测结果对多路音频进行相应的混音处理的步骤。
语音活动检测(Voice Activity Detection,VAD)又称语音端点检测或语音边界检测,目的是从声音信号流里识别和消除长时间的静音期,以达到在不降低业务质量的情况下节省话路资源的作用。例如,将检测到的本地信号输入分类器,以确定该信号是或者不是语音信号。分类器中例如设置一个信号阈值,将检测到的本地信号与信号阈值进行比较,如果超过该信号阈值,则判定该信号是语音信号,否则,判定该信号不是语音信号。
在步骤17,如果检测到本地的语音活动,终端对接收的多路音频依次进行回声消除处理(步骤171)和混音处理(步骤172)。然后,执行步骤19。
如果终端A检测到本地的语音活动,则将终端A的语音采样作为回声消除参考,从接收到的多路音频中消除终端A的语音,以免使终端A的用户A听到自己的回声。
混音处理可以参考现有的混音算法,例如,对各路音频进行叠加,还可以对叠加后的音频进行均值处理。
在步骤18,如果未检测到本地的语音活动,终端对接收的多路音频依次进行混音处理(步骤181)和增强处理(步骤182)。然后,执行步骤19。
其中,增强处理例如为非线性增强处理,如非线性放大等,提升用户体验。
在步骤19,终端输出处理后的多路音频。
本公开通过由MCU对接收的多路音频进行对齐和降噪处理,并传输给终端,由终端对多路音频进行混音等语音处理,缓解了MCU的工作压力,降低了对MCU运算能力的要求,提高了MCU的承载能力。并且,通过AAC编码,有效降低下行带宽。
图2为本公开多路音频处理系统一些实施例的示意图。如图2所示,该实施例的多路音频处理系统20包括:多点会议单元21和多个终端22。
多点会议单元21,被配置为对接收的多路音频进行对齐和降噪处理,并传输给多个终端。多点会议单元21,还被配置为对处理后的多路音频进行AAC,然后再执行传输的步骤。
每个终端22,被配置为对多路音频进行混音,并输出。
其中,终端22在对多路音频进行混音时,被配置为:进行本地的语音活动检测;如果检测到本地的语音活动,对接收的多路音频依次进行回声消除处理和混音处理;或者,如果未检测到本地的语音活动,对接收的多路音频依次进行混音处理和增强处理。
本领域内的技术人员应当明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的较佳实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (12)

1.一种多路音频处理方法,其特征在于,包括:
多点会议单元对接收的多路音频进行对齐和降噪处理,并传输给终端;
终端对多路音频进行混音,并输出。
2.根据权利要求1所述的方法,其特征在于,还包括:
多点会议单元对处理后的多路音频进行高级音频编码AAC,然后再执行传输的步骤。
3.根据权利要求1所述的方法,其特征在于,终端对多路音频进行混音包括:
终端进行本地的语音活动检测,并基于不同的检测结果对多路音频进行相应的混音处理。
4.根据权利要求3所述的方法,其特征在于,终端基于不同的检测结果对多路音频进行相应的混音处理包括:
如果检测到本地的语音活动,终端对接收的多路音频依次进行回声消除处理和混音处理;
或者,如果未检测到本地的语音活动,终端对接收的多路音频依次进行混音处理和增强处理。
5.根据权利要求4所述的方法,其特征在于,所述增强处理为非线性增强处理。
6.根据权利要求1-5任一项所述的方法,其特征在于,多点会议单元接收的多路音频为视频会议中的多路音频。
7.一种多路音频处理系统,其特征在于,包括:
多点会议单元,被配置为对接收的多路音频进行对齐和降噪处理,并传输给多个终端;
每个终端,被配置为对多路音频进行混音,并输出。
8.根据权利要求7所述的系统,其特征在于,
所述多点会议单元,还被配置为对处理后的多路音频进行高级音频编码AAC,然后再执行传输的步骤。
9.根据权利要求7所述的系统,其特征在于,
所述终端在对多路音频进行混音时,被配置为:
进行本地的语音活动检测;
如果检测到本地的语音活动,对接收的多路音频依次进行回声消除处理和混音处理;
或者,如果未检测到本地的语音活动,对接收的多路音频依次进行混音处理和增强处理。
10.根据权利要求9所述的系统,其特征在于,所述增强处理为非线性增强处理。
11.根据权利要求7-10任一项所述的系统,其特征在于,多点会议单元接收的多路音频为视频会议中的多路音频。
12.一种非瞬时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-6任一项所述的多路音频处理方法的步骤。
CN201911355338.8A 2019-12-25 2019-12-25 多路音频处理方法和系统 Active CN113038060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911355338.8A CN113038060B (zh) 2019-12-25 2019-12-25 多路音频处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911355338.8A CN113038060B (zh) 2019-12-25 2019-12-25 多路音频处理方法和系统

Publications (2)

Publication Number Publication Date
CN113038060A true CN113038060A (zh) 2021-06-25
CN113038060B CN113038060B (zh) 2022-11-18

Family

ID=76458833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911355338.8A Active CN113038060B (zh) 2019-12-25 2019-12-25 多路音频处理方法和系统

Country Status (1)

Country Link
CN (1) CN113038060B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115643242A (zh) * 2022-10-13 2023-01-24 北京华建云鼎科技股份公司 一种多路音频数据处理方法和系统
CN116403589A (zh) * 2023-03-01 2023-07-07 天地阳光通信科技(北京)有限公司 一种音频处理方法、单元及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09163335A (ja) * 1995-12-05 1997-06-20 Ricoh Co Ltd 多地点会議制御装置
CN101414462A (zh) * 2007-10-15 2009-04-22 华为技术有限公司 音频编码方法和多点音频信号混音控制方法及相应设备
CN101471804A (zh) * 2007-12-28 2009-07-01 华为技术有限公司 一种音频处理方法、系统和控制服务器
CN102404546A (zh) * 2011-10-28 2012-04-04 广东威创视讯科技股份有限公司 会议音频系统
CN106601264A (zh) * 2016-11-30 2017-04-26 广州广哈通信股份有限公司 一种语音会议混音系统及方法
CN108055417A (zh) * 2017-12-26 2018-05-18 杭州叙简科技股份有限公司 一种基于语音检测回音抑制切换音频处理系统及方法
CN109087656A (zh) * 2017-06-14 2018-12-25 广东亿迅科技有限公司 一种基于mcu的多媒体会议混音方法及装置
CN109756852A (zh) * 2017-11-02 2019-05-14 中兴通讯股份有限公司 集群通信方法、服务器、终端和计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09163335A (ja) * 1995-12-05 1997-06-20 Ricoh Co Ltd 多地点会議制御装置
CN101414462A (zh) * 2007-10-15 2009-04-22 华为技术有限公司 音频编码方法和多点音频信号混音控制方法及相应设备
CN101471804A (zh) * 2007-12-28 2009-07-01 华为技术有限公司 一种音频处理方法、系统和控制服务器
CN102404546A (zh) * 2011-10-28 2012-04-04 广东威创视讯科技股份有限公司 会议音频系统
CN106601264A (zh) * 2016-11-30 2017-04-26 广州广哈通信股份有限公司 一种语音会议混音系统及方法
CN109087656A (zh) * 2017-06-14 2018-12-25 广东亿迅科技有限公司 一种基于mcu的多媒体会议混音方法及装置
CN109756852A (zh) * 2017-11-02 2019-05-14 中兴通讯股份有限公司 集群通信方法、服务器、终端和计算机可读存储介质
CN108055417A (zh) * 2017-12-26 2018-05-18 杭州叙简科技股份有限公司 一种基于语音检测回音抑制切换音频处理系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115643242A (zh) * 2022-10-13 2023-01-24 北京华建云鼎科技股份公司 一种多路音频数据处理方法和系统
CN116403589A (zh) * 2023-03-01 2023-07-07 天地阳光通信科技(北京)有限公司 一种音频处理方法、单元及系统

Also Published As

Publication number Publication date
CN113038060B (zh) 2022-11-18

Similar Documents

Publication Publication Date Title
US9456273B2 (en) Audio mixing method, apparatus and system
CN110072021B (zh) 一种在音频电话会议混合系统中的方法、装置和计算机可读介质
EP2786552B1 (en) Method to select active channels in audio mixing for multi-party teleconferencing
CN113038060B (zh) 多路音频处理方法和系统
US8705770B2 (en) Method, device, and system for mixing processing of audio signal
US10269371B2 (en) Techniques for decreasing echo and transmission periods for audio communication sessions
JP6224850B2 (ja) 会議における変化盲を使った知覚的連続性
EP2702775B1 (en) Processing stereophonic audio signals
CA2689230C (en) Method of transmitting data in a communication system
CN111628992B (zh) 一种多人通话控制方法、装置、电子设备及存储介质
US10237413B2 (en) Methods for the encoding of participants in a conference
EP2583454B1 (en) Bandwidth extension in a multipoint conference unit
US11973900B2 (en) Multipoint control method, apparatus and program
US11837241B2 (en) Encoding and decoding method, decoding method, apparatuses therefor and program
US20220086281A1 (en) Multipoint control method, apparatus and program
EP3913623A1 (en) Multipoint control method, device, and program
EP3913622A1 (en) Multipoint control method, device, and program
CN114550748A (zh) 音频信号混合处理方法、装置、设备和存储介质
CN112770222A (zh) 音频处理方法和装置
NZ715916B2 (en) Encoding of participants in a conference setting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant