CN113038060A

CN113038060A - 多路音频处理方法和系统

Info

Publication number: CN113038060A
Application number: CN201911355338.8A
Authority: CN
Inventors: 施隆海
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2021-06-25
Anticipated expiration: 2039-12-25
Also published as: CN113038060B

Abstract

本公开提出一种多路音频处理方法和系统，涉及多路音频处理。本公开通过由多点会议单元MCU对接收的多路音频进行对齐和降噪处理，并传输给终端，由终端对多路音频进行混音等语音处理，缓解了MCU的工作压力，降低了对MCU运算能力的要求，提高了MCU的承载能力。

Description

多路音频处理方法和系统

技术领域

本公开涉及多路音频处理，特别涉及一种多路音频处理方法和系统。

背景技术

目前视频会议采用的其中一种组网方案为MCU(Multipoint Conferencing Unit，多点会议单元)方案，该方案由一个MCU和多个终端组成一个星形结构。各终端将自己的音频发送给MCU，MCU会将所有终端的音频进行汇集，对齐，降噪，回声消除，后处理，混音等，最终生成一个混合后的音频再发给各个终端，这样各终端就可以听到其他终端的音频。这种方案MCU的工作压力会非常大，需要有非常强的运算能力。

发明内容

为了缓解MCU的工作压力，降低对MCU运算能力的要求，本公开通过由MCU对接收的多路音频进行对齐和降噪处理，并传输给终端，由终端对多路音频进行混音等语音处理，缓解了MCU的工作压力，降低了对MCU运算能力的要求，提高了MCU的承载能力。

本公开的一些实施例提出一种多路音频处理方法，包括：

多点会议单元对接收的多路音频进行对齐和降噪处理，并传输给终端；

终端对多路音频进行混音，并输出。

在一些实施例中，还包括：多点会议单元对处理后的多路音频进行高级音频编码AAC，然后再执行传输的步骤。

在一些实施例中，还包括：终端对多路音频进行混音包括：终端进行本地的语音活动检测，并基于不同的检测结果对多路音频进行相应的混音处理。

在一些实施例中，还包括：终端基于不同的检测结果对多路音频进行相应的混音处理包括：

如果检测到本地的语音活动，终端对接收的多路音频依次进行回声消除处理和混音处理；

或者，如果未检测到本地的语音活动，终端对接收的多路音频依次进行混音处理和增强处理。

在一些实施例中，还包括：所述增强处理为非线性增强处理。

在一些实施例中，还包括：多点会议单元接收的多路音频为视频会议中的多路音频。

本公开的一些实施例提出一种一种多路音频处理系统，包括：

多点会议单元，被配置为对接收的多路音频进行对齐和降噪处理，并传输给多个终端；

每个终端，被配置为对多路音频进行混音，并输出。

在一些实施例中，还包括：所述多点会议单元，还被配置为对处理后的多路音频进行高级音频编码AAC，然后再执行传输的步骤。

在一些实施例中，还包括：所述终端在对多路音频进行混音时，被配置为：

进行本地的语音活动检测；

如果检测到本地的语音活动，对接收的多路音频依次进行回声消除处理和混音处理；

或者，如果未检测到本地的语音活动，对接收的多路音频依次进行混音处理和增强处理。

在一些实施例中，多点会议单元接收的多路音频为视频会议中的多路音频。

本公开的一些实施例提出一种一种非瞬时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一实施例所述的多路音频处理方法的步骤。

附图说明

下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍。根据下面参照附图的详细描述，可以更加清楚地理解本公开，

显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开多路音频处理方法一些实施例的流程示意图。

图2为本公开多路音频处理系统一些实施例的示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。

图1为本公开多路音频处理方法一些实施例的流程示意图。如图1所示，该实施例的多路音频处理方法包括：步骤11-19。

在步骤11，多点会议单元对接收的多路音频进行对齐处理。

当本公开应用于视频会议系统音频处理领域时，多点会议单元接收的多路音频为视频会议中的多路音频。

多路音频来自多个终端，每路音频来自一个终端，每路音频可以缓存在声音池(sound pool)中。由于终端向多点会议单元传输音频过程中可能会发生丢包，因此，需要对多路音频进行对齐处理。例如，某路音频的第1个包丢失，该路音频的第2个包需要与其他音频的第2个包对齐。

在步骤12，然后，多点会议单元对接收的多路音频分别进行降噪处理。

例如，采用滤波技术等进行降低噪音等处理。

在步骤13，然后，多点会议单元对接收的多路音频进行编码处理。

例如，多点会议单元对处理后的多路音频进行AAC(Advanced Audio Coding，高级音频编码)处理。AAC是一种高压缩比的音频压缩算法，可以有效降低下行带宽，并且其质量可以与未压缩的CD音质相当。

在步骤14，然后，多点会议单元将处理后的多路音频传输给终端。

多点会议单元将处理后的多路音频传输给相关的多个终端。例如，参加视频会议的有终端A、B、C，则多点会议单元从终端A、B、C接收到三路音频，进行前述相关处理后，传输给终端A、B、C。后续的步骤15-19，每个终端都需要执行。

在步骤15，终端对接收的多路音频进行解码，然后执行后续的对多路音频进行混音并输出的步骤。

根据多点会议单元采用的编码方式，终端对接收的多路音频按照相应的解码方式进行解码。编解码技术可以参考现有技术。

在步骤16，终端进行本地的语音活动检测，然后执行后续的基于不同的检测结果对多路音频进行相应的混音处理的步骤。

语音活动检测(Voice Activity Detection，VAD)又称语音端点检测或语音边界检测，目的是从声音信号流里识别和消除长时间的静音期，以达到在不降低业务质量的情况下节省话路资源的作用。例如，将检测到的本地信号输入分类器，以确定该信号是或者不是语音信号。分类器中例如设置一个信号阈值，将检测到的本地信号与信号阈值进行比较，如果超过该信号阈值，则判定该信号是语音信号，否则，判定该信号不是语音信号。

在步骤17，如果检测到本地的语音活动，终端对接收的多路音频依次进行回声消除处理(步骤171)和混音处理(步骤172)。然后，执行步骤19。

如果终端A检测到本地的语音活动，则将终端A的语音采样作为回声消除参考，从接收到的多路音频中消除终端A的语音，以免使终端A的用户A听到自己的回声。

混音处理可以参考现有的混音算法，例如，对各路音频进行叠加，还可以对叠加后的音频进行均值处理。

在步骤18，如果未检测到本地的语音活动，终端对接收的多路音频依次进行混音处理(步骤181)和增强处理(步骤182)。然后，执行步骤19。

其中，增强处理例如为非线性增强处理，如非线性放大等，提升用户体验。

在步骤19，终端输出处理后的多路音频。

本公开通过由MCU对接收的多路音频进行对齐和降噪处理，并传输给终端，由终端对多路音频进行混音等语音处理，缓解了MCU的工作压力，降低了对MCU运算能力的要求，提高了MCU的承载能力。并且，通过AAC编码，有效降低下行带宽。

图2为本公开多路音频处理系统一些实施例的示意图。如图2所示，该实施例的多路音频处理系统20包括：多点会议单元21和多个终端22。

多点会议单元21，被配置为对接收的多路音频进行对齐和降噪处理，并传输给多个终端。多点会议单元21，还被配置为对处理后的多路音频进行AAC，然后再执行传输的步骤。

每个终端22，被配置为对多路音频进行混音，并输出。

其中，终端22在对多路音频进行混音时，被配置为：进行本地的语音活动检测；如果检测到本地的语音活动，对接收的多路音频依次进行回声消除处理和混音处理；或者，如果未检测到本地的语音活动，对接收的多路音频依次进行混音处理和增强处理。

本领域内的技术人员应当明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种多路音频处理方法，其特征在于，包括：

终端对多路音频进行混音，并输出。

2.根据权利要求1所述的方法，其特征在于，还包括：

多点会议单元对处理后的多路音频进行高级音频编码AAC，然后再执行传输的步骤。

3.根据权利要求1所述的方法，其特征在于，终端对多路音频进行混音包括：

终端进行本地的语音活动检测，并基于不同的检测结果对多路音频进行相应的混音处理。

4.根据权利要求3所述的方法，其特征在于，终端基于不同的检测结果对多路音频进行相应的混音处理包括：

5.根据权利要求4所述的方法，其特征在于，所述增强处理为非线性增强处理。

6.根据权利要求1-5任一项所述的方法，其特征在于，多点会议单元接收的多路音频为视频会议中的多路音频。

7.一种多路音频处理系统，其特征在于，包括：

每个终端，被配置为对多路音频进行混音，并输出。

8.根据权利要求7所述的系统，其特征在于，

所述多点会议单元，还被配置为对处理后的多路音频进行高级音频编码AAC，然后再执行传输的步骤。

9.根据权利要求7所述的系统，其特征在于，

所述终端在对多路音频进行混音时，被配置为：

进行本地的语音活动检测；

10.根据权利要求9所述的系统，其特征在于，所述增强处理为非线性增强处理。

11.根据权利要求7-10任一项所述的系统，其特征在于，多点会议单元接收的多路音频为视频会议中的多路音频。

12.一种非瞬时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-6任一项所述的多路音频处理方法的步骤。