CN112951197A

CN112951197A - 一种音频混音方法、装置、介质及设备

Info

Publication number: CN112951197A
Application number: CN202110360568.4A
Authority: CN
Inventors: 李强; 叶东翔; 朱勇
Original assignee: Barrot Wireless Co Ltd
Current assignee: Barrot Wireless Co Ltd
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2021-06-11
Anticipated expiration: 2041-04-02
Also published as: CN112951197B

Abstract

本发明公开了一种音频混音方法，包括，对每一路音频数据的当前帧音频数据进行语音活动检测，将当前语音帧音频数据进行混合得到第一级当前帧混合音频数据，或将当前非语音帧音频数据进行处理后与当前语音帧音频数据进行混合得到第一级当前帧混合音频数据；对第一级当前帧混合音频数据进行输出，或对第一级当前帧混合音频数据进行滤波得到第二级当前帧混合音频数据；对第二级当前帧混合音频数据进行输出，或对第二级当前帧混合音频数据进行非线性映射得到第三级当前帧混合音频数据，并进行输出。本发明的应用进行分级处理，若上一级输出在归一化表示范围内，则不需要进行下一级运算，从而节省了计算量，既确保语音的可懂度，又避免饱和、削顶和声音忽大忽小的情形。

Description

一种音频混音方法、装置、介质及设备

技术领域

本申请涉及蓝牙音频编解码技术领域，特别是一种音频混音方法、装置、介质及设备。

背景技术

随着互联网技术的高速发展，多媒体通信业务得到了广泛的应用。特别是多人会议电话，如何高效实时实现多路语音的混音功能，直接影响到语音交互质量的高低。因此混音方法成为衡量会议电话设备的一项重要指标。

在音频信号处理，特别是语音信号处理中，通常用16bit精度来表示采样点，即每个采样点的范围是：无符号数：0～65535；有符号数：-32768～32767。其中有符号数表示方法使用范围更广，以有符号数为例。假定有N路音频，Input1,input2,…,inputN每路音频有M个采样点，

Input1[1],input1[2],…,input1[M]

Input2[1],input2[2],…,input2[M]

…

inputN[1],inputN[2],…,inputN[M]

线性叠加后，第k个采样点混音的结果是：

简单起见，假定有4路输入，即N＝4，那么Output[k]的取值范围是：-131072～131068。上述信号需要18bit来表示，为了能让输出使用16bit表示，常用的混音方法有：直接线性叠加法：此即前述的方法，缺点是可能溢出导致噪声；线性叠加饱和混音法：当混音值超过量化上限时就用上限值代替，当混音值低于量化下限时就用下限值代替，此算法会造成削顶，破坏了音频信号的时域特性，会导致爆破声和声音不连续的现象；平均调整权重法：最后输出的结果是Output[k]/N，这样处理之后避免了数据的上溢和下溢，但随着混音路数的增加，各个语音分量衰减的幅度越来越大，原有语音会因为加入的新的语音路数而出现声音不断变小的情况。

发明内容

本发明提供一种音频混音方法，进行分级处理，若上一级输出在归一化表示范围内，则不需要进行下一级运算，从而节省了计算量，既确保语音的可懂度，又避免饱和、削顶和声音忽大忽小的情形。

为了解决上述问题，本发明采用的一个技术方案是：提供一种音频混音方法，该方法包括，

第一级混音处理步骤，对多路音频数据中每一路音频数据的当前帧音频数据进行语音活动检测，得到至少一个当前语音帧音频数据和/或至少一个当前非语音帧音频数据，并将全部当前语音帧音频数据进行混合得到第一级当前帧混合音频数据，或者，将至少一个当前非语音帧音频数据进行处理后与全部当前语音帧音频数据进行混合得到第一级当前帧混合音频数据；

第二级混音处理步骤，对第一级当前帧混合音频数据进行输出，或者根据第一级当前帧混合音频数据的最大采样点值绝对值，选择相应通带范围的滤波器对第一级当前帧混合音频数据进行滤波处理得到第二级当前帧混合音频数据；

第三级混音处理步骤，对第二级当前帧混合音频数据进行输出，或者根据第二级当前帧混合音频数据的最大采样点值绝对值，按照预定的映射曲线对第二级当前帧混合音频数据进行非线性映射得到第三级当前帧混合音频数据，并进行输出。

本发明采用的另一个技术方案是：提供一种音频混音装置，该装置包括，

第一级混音处理模块，用于对多路音频数据中每一路音频数据的当前帧音频数据进行语音活动检测，得到至少一个当前语音帧音频数据和/或至少一个当前非语音帧音频数据，并将全部当前语音帧音频数据进行混合得到第一级当前帧混合音频数据，或者，将至少一个当前非语音帧音频数据进行处理后与全部当前语音帧音频数据进行混合得到第一级当前帧混合音频数据；

第二级混音处理模块，用于对第一级当前帧混合音频数据进行输出，或者根据第一级当前帧混合音频数据的最大采样点值绝对值，选择相应通带范围的滤波器对第一级当前帧混合音频数据进行滤波处理得到第二级当前帧混合音频数据；

第三级混音处理模块，用于对第二级当前帧混合音频数据进行输出，或者根据第二级当前帧混合音频数据的最大采样点值绝对值，按照预定的映射曲线对第二级当前帧混合音频数据进行非线性映射得到第三级当前帧混合音频数据，并进行输出。

在本发明的另一个技术方案中，提供一种计算机可读存储介质，其存储有计算机指令，其中计算机指令被操作以执行方案中的音频混音方法。

在本申请的另一技术方案中，提供一种计算机设备，其包括处理器和存储器，存储器存储有计算机指令，其中，处理器操作计算机指令以执行方案中的音频混音方法。

本发明技术方案可以达到的有益效果是：本发明提出一种音频混音方法，进行分级处理，若上一级输出在归一化表示范围内，则不需要进行下一级运算，从而节省了计算量，既确保语音的可懂度，又避免饱和、削顶和声音忽大忽小的情形。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种音频混音方法一个具体实施例的示意图；

图2为本发明一种音频混音方法一个具体实例的流程示意图；

图3为本发明对第一级当前帧混合音频数据进行滤波处理一个具体实例的流程示意图；

图4为本发明使用低通滤波器1对第一级当前帧混合音频数据进行滤波处理一个具体实例的幅度响应图；

图5为本发明使用低通滤波器2对第一级当前帧混合音频数据进行滤波处理一个具体实例的幅度响应图；

图6为本发明使用低通滤波器3对第一级当前帧混合音频数据进行滤波处理一个具体实例的幅度响应图；

图7为本发明使用带通滤波器对第一级当前帧混合音频数据进行滤波处理一个具体实例的幅度响应图；

图8为本发明对第二级当前帧混合音频数据进行非线性映射一个具体实例的流程示意图；

图9为本发明一种音频混音装置另一个具体实施例的示意图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明一种音频混音方法的应用场景包括语音编解码、电话会议、音乐编解码等。

图1所示为本发明一种音频混音方法一个具体实施例的示意图。

在该具体实施方式中，音频混音方法主要包括：过程S101：第一级混音处理步骤，对多路音频数据中每一路音频数据的当前帧音频数据进行语音活动检测，得到至少一个当前语音帧音频数据和/或至少一个当前非语音帧音频数据，并将全部当前语音帧音频数据进行混合得到第一级当前帧混合音频数据，或者，将至少一个当前非语音帧音频数据进行处理后与全部当前语音帧音频数据进行混合得到第一级当前帧混合音频数据；过程S102：第二级混音处理步骤，对第一级当前帧混合音频数据进行输出，或者根据第一级当前帧混合音频数据的最大采样点值绝对值，选择相应通带范围的滤波器对第一级当前帧混合音频数据进行滤波处理得到第二级当前帧混合音频数据；过程S103：第三级混音处理步骤，对第二级当前帧混合音频数据进行输出，或者根据第二级当前帧混合音频数据的最大采样点值绝对值，按照预定的映射曲线对第二级当前帧混合音频数据进行非线性映射得到第三级当前帧混合音频数据，并进行输出。

本发明提出一种音频混音方法，进行分级处理，若上一级输出在归一化表示范围内，则不需要进行下一级运算，从而节省了计算量，既确保语音的可懂度，又避免饱和、削顶和声音忽大忽小的情形。

在图1所示的具体实施方式中，本发明的音频混音方法包括过程S101，第一级混音处理步骤，对多路音频数据中每一路音频数据的当前帧音频数据进行语音活动检测，得到至少一个当前语音帧音频数据和/或至少一个当前非语音帧音频数据，并将全部当前语音帧音频数据进行混合得到第一级当前帧混合音频数据，或者，将至少一个当前非语音帧音频数据进行处理后与全部当前语音帧音频数据进行混合得到第一级当前帧混合音频数据。此过程进行语音活动检测得到第一级当前帧混合音频数据，以便于降低后续模块饱和的可能性，从而提升音质，并进一步对第一级当前帧混合音频数据进行分级处理，使其最终归一化表示。

具体地，参照本发明图2提供的一种音频混音方法一个具体实例的流程示意图，以五路音频数据为例，分别为图2中的音频输入1、音频输入2、音频输入3、音频输入4、音频输入5。对这五路音频数据分别进行语音活动检测，即VAD检测，其目的是为了确认每一路音频数据的当前帧音频数据中是否包含有效语音，该具体实施例由于是基于时域信号进行语音活动检测，因此应用现有技术中成熟的语音活动检测方法即可，本发明不作限制。假设该具体实例中的五路音频数据经过语音活动检测之后，音频输入1、音频输入2以及音频输入3包含有效语音，即当前语音帧音频数据；音频输入4以及音频输入5不包含有效语音，即当前非语音帧音频数据。

在本发明的一个具体实施例中，上述将至少一个当前非语音帧音频数据进行处理的过程包括，将至少一个当前非语音帧音频数据进行衰减，或者将至少一个当前非语音帧音频数据使用舒适噪声进行替代。此过程以便于保证音质。

具体地，将上述实例中的音频输入4以及音频输入5进行衰减，或者使用舒适噪声进行替代音频输入4以及音频输入5。

在本发明的一个具体实例中，将上述包含有效语音的音频输入1、音频输入2以及音频输入3进行混合，即叠加得到第一级当前帧混合音频数据，或者将上述包含有效语音的音频输入1、音频输入2、音频输入3，以及上述处理后的音频输入4、音频输入5进行混合，即叠加得到第一级当前帧混合音频数据M1。

在图1所示的具体实施方式中，本发明的音频混音方法包括过程S102，第二级混音处理步骤，对第一级当前帧混合音频数据进行输出，或者根据第一级当前帧混合音频数据的最大采样点值绝对值，选择相应通带范围的滤波器对第一级当前帧混合音频数据进行滤波处理得到第二级当前帧混合音频数据。此过程对第一级当前帧混合音频数据进行滤波处理，以便于减小第一级当前帧混合音频数据，使其降低溢出的可能性，同时若第一级当前帧混合音频数据在归一化表示范围内，则不需要进行第二级混音处理步骤，从而节省了计算量，既确保语音的可懂度，又避免饱和、削顶和声音忽大忽小的情形。

在本发明的一个具体实施例中，若第一级当前帧混合音频数据的最大采样点值落入采样点归一化表示值范围内，则对第一级当前帧混合音频数据进行输出；若第一级当前帧混合音频数据的最大采样点值未落入采样点归一化表示值范围内，则根据第一级当前帧混合音频数据的最大采样点值绝对值，选择相应通带范围的滤波器对第一级当前帧混合音频数据进行滤波处理得到第二级当前帧混合音频数据。此过程对根据采样点归一化表示值范围设置条件，只有第一级当前帧混合音频数据的最大采样点值未落入采样点归一化表示值范围内时，才进行下一步的滤波，从而进一步降低了运算量，并降低了溢出的可能性。

上述采样点归一化表示值范围是约定俗成的，因为音频数据通常有两种表示方法，浮点法或定点法。浮点法表示时，不论其真实的音量、无论幅度是多少，其归一化之后的数值都在-1～1。定点法表示时，通常与字长有关，比较常用的是用INT16表示，即16bit的有符号数表示一个采样点，此时其范围是-32768～32767。因此采样点归一化表示值范围有两种，如果是浮点的输入，那么其每一个采样点的值范围是-1～1，如果是定点输入，譬如INT16，那么其每一个采样点的范围是-32768～32767。

因此，上述最大采样点值绝对值表示的是在一帧数据的所有采样点值的最大采样点值的绝对值，例如此帧数据的所有采样点值的最大采样点值为-3，其最大采样点值的绝对值为3。

具体地，参照本发明图2提供的一种音频混音方法一个具体实例的流程示意图。在本发明中约定这五路音频数据S1、S2、S3、S4、S5都是归一化的，并且都是利用浮点表示，即S1、S2、S3、S4、S5的对应的每一个当前帧音频数据的取值范围为-1～1，因此第一级当前帧混合音频数据的取值范围为-5～5。若第一级当前帧混合音频数据M1的最大采样点值落入采样点归一化表示值范围-1～1内，则对第一级当前帧混合音频数据M1进行输出；若第一级当前帧混合音频数据M1的最大采样点值未落入采样点归一化表示值范围-1～1内，则根据第一级当前帧混合音频数据M1的最大采样点值绝对值，选择相应通带范围的滤波器对第一级当前帧混合音频数据M1进行滤波处理得到第二级当前帧混合音频数据M2。

在本发明的一个具体实施例中，上述根据第一级当前帧混合音频数据的最大采样点值绝对值，选择相应通带范围的滤波器对第一级当前帧混合音频数据进行滤波处理的过程包括，对于最大采样点值绝对值越大的第一级当前帧混合音频数据，选择通带范围越窄的滤波器对第一级当前帧混合音频数据进行滤波处理。此过程选择不同通带范围的滤波器对第一级当前帧混合音频数据进行滤波，可以有效的降低时域的幅度，从而降低溢出的可能性。

具体地，参照本发明图3提供的对第一级当前帧混合音频数据进行滤波处理一个具体实例的流程示意图，在该具体实例中，设计三个低通滤波器和带通滤波器。如图中的低通滤波器1的截止频率为6KHz，低通滤波器2的截止频率为5KHz，低通滤波器3的截止频率为4KHz，带通滤波器的通带范围为300Hz～3400Hz。

参照本发明图3提供的对第一级当前帧混合音频数据进行滤波处理一个具体实例的流程示意图，当第一级当前帧混合音频数据M1的最大采样点值绝对值2>＝M1_MAX>1时，此情况表示虽然有溢出，但溢出的幅度不算很大，所以滤除6KHz以上的频谱成分，只保留6KHz以下的成分，虽然这是在频域操作，但对于时域的整体幅度也会有一定的降低，从而降低溢出的可能性。此情况使用通带范围最宽的低通滤波器1，其截止频率为6KHz，滤波处理得到第二级当前帧混合音频数据M2，参照图4本发明提供的使用低通滤波器1对第一级当前帧混合音频数据进行滤波处理一个具体实例的幅度响应图。

参照本发明图3提供的对第一级当前帧混合音频数据进行滤波处理一个具体实例的流程示意图，当第一级当前帧混合音频数据M1的最大采样点值绝对值3>＝M1_MAX>2时，此情况表示虽然有溢出，但溢出的幅度仍旧不算很大，所以滤除5KHz以上的频谱成分，只保留5KHz以下的成分，虽然这是在频域操作，但对于时域的整体幅度也会有一定的降低，从而降低溢出的可能性。此情况使用低通滤波器2，其截止频率为5KHz，滤波处理得到第二级当前帧混合音频数据M2，参照图5本发明提供的使用低通滤波器2对第一级当前帧混合音频数据进行滤波处理一个具体实例的幅度响应图。

参照本发明图3提供的对第一级当前帧混合音频数据进行滤波处理一个具体实例的流程示意图，当第一级当前帧混合音频数据M1的最大采样点值绝对值4>＝M1_MAX>3时，此情况表示溢出幅度相对较大，因此需要滤除4KHz以上的频谱成分，只保留4KHz以下的成分，虽然这是在频域操作，但对于时域的整体幅度也会大幅降低，从而降低溢出的可能性。此情况使用低通滤波器3，其截止频率为4KHz，滤波处理得到第二级当前帧混合音频数据M2，参照图6本发明提供的使用低通滤波器3对第一级当前帧混合音频数据进行滤波处理一个具体实例的幅度响应图。

参照本发明图3提供的对第一级当前帧混合音频数据进行滤波处理一个具体实例的流程示意图，当第一级当前帧混合音频数据M1的最大采样点值绝对值5>＝M1_MAX>4时，此情况为较为极端的场景，出现此种场景，表示输入的五路音频数据中5个人都在同时说话且音量都挺大，此情况使用通带范围最窄的带通滤波器，其通带宽度为：300Hz～3400Hz，这是典型的语音频带宽度，可以确保语音的可懂性，且滤除了较多的高频成分和一部分低频成分，可以有效的降低时域的幅度，从而降低溢出的可能性。滤波处理得到第二级当前帧混合音频数据M2，参照图7本发明提供的使用带通滤波器对第一级当前帧混合音频数据进行滤波处理一个具体实例的幅度响应图。

在图1所示的具体实施方式中，本发明的音频混音方法包括过程S103，第三级混音处理步骤，对第二级当前帧混合音频数据进行输出，或者根据第二级当前帧混合音频数据的最大采样点值绝对值，按照预定的映射曲线对第二级当前帧混合音频数据进行非线性映射得到第三级当前帧混合音频数据，并进行输出。此过程对第二级当前帧混合音频数据进行非线性映射，以便于进一步得到归一化第三级当前帧混合音频数据，既确保语音的可懂度，又避免饱和、削顶和声音忽大忽小的情形，同时若第二级当前帧混合音频数据在归一化表示范围内，则不需要进行第三级混音处理步骤，从而节省了计算量。若应用于会议电话场景中时，既确保了用户可以清楚听懂会议的内容，又避免了溢出引起的噪声。

具体地，参照本发明图2提供的一种音频混音方法一个具体实例的流程示意图。在该具体实例中，预定四个不同曲率的映射曲线，用来对第二级当前帧混合音频数据M2进行非线性映射。其中，曲率越大的映射曲线对应的非线性映射对第二级当前帧混合音频数据M2的压缩程度越大。

在本发明的一个具体实施例中，若第二级当前帧混合音频数据的最大采样点值落入采样点归一化表示值范围内，则对第二级当前帧混合音频数据进行输出；若第二级当前帧混合音频数据的最大采样点值未落入采样点归一化表示值范围内，则根据第二级当前帧混合音频数据的最大采样点值绝对值，按照预定的映射曲线对第二级当前帧混合音频数据进行非线性映射得到第三级当前帧混合音频数据。

具体地，参照本发明图8提供的对第二级当前帧混合音频数据进行非线性映射一个具体实例的流程示意图，若第二级当前帧混合音频数据M2的最大采样点值落入采样点归一化表示值范围-1～1内，则对第二级当前帧混合音频数据M2进行输出；若第二级当前帧混合音频数据M2的最大采样点值未落入采样点归一化表示值范围内，则根据第二级当前帧混合音频数据M2的最大采样点值绝对值，按照预定的映射曲线对第二级当前帧混合音频数据M2进行非线性映射得到第三级当前帧混合音频数据M3。

在本发明的一个具体实施例中，上述根据第二级当前帧混合音频数据的最大采样点值绝对值，按照预定的映射曲线对第二级当前帧混合音频数据进行非线性映射的过程包括，对于最大采样点值绝对值越大的第二级当前帧混合音频数据，按照曲率越大的映射曲线对第二级当前帧混合音频数据进行非线性映射。此过程选择对应曲率的映射曲线对第二级当前帧混合音频数据进行非线性映射，以便于确保语音的可懂度，又避免饱和、削顶和声音忽大忽小的情形。

在本发明的一个具体实施例中，上述按照预定的映射曲线对第二级当前帧混合音频数据进行非线性映射的过程包括，对于大于预设的门限值的第二级当前帧混合音频数据的采样点值进行非线性映射。

具体地，根据采样点归一化表示值范围，可以将上述预设的门限值可以设置为0.75。

参照本发明图8提供的对第二级当前帧混合音频数据进行非线性映射一个具体实例的流程示意图，当第二级当前帧混合音频数据M2的最大采样点值绝对值2>＝M2_MAX>1时，此情况表示在经过第二级混音处理后虽然还有溢出，但溢出的幅度不算很大，因此选择曲率最小的映射曲线对第二级当前帧混合音频数据M2进行非线性映射1，在进行非线性映射1时，由于上述预设的门限值为0.75，因此对大于0.75的第二级当前帧混合音频数据M2的采样点值进行非线性映射1，即压缩程度最小的非线性映射，最终得到归一化第三级当前帧混合音频数据M3。

参照本发明图8提供的对第二级当前帧混合音频数据进行非线性映射一个具体实例的流程示意图，当第二级当前帧混合音频数据M2的最大采样点值绝对值3>＝M2_MAX>2时，此情况表示在经过第二级混音处理后仍然有溢出，但溢出的幅度仍旧不算很大，对第二级当前帧混合音频数据M2进行非线性映射2，在进行非线性映射2时，由于上述预设的门限值为0.75，因此对大于0.75的第二级当前帧混合音频数据M2的采样点值进行非线性映射2，即压缩程度相对较小的非线性映射，最终得到归一化第三级当前帧混合音频数据M3。

参照本发明图8提供的对第二级当前帧混合音频数据进行非线性映射一个具体实例的流程示意图，当第二级当前帧混合音频数据M2的最大采样点值绝对值4>＝M2_MAX>3时，此情况表示在经过第二级混音处理后溢出幅度相对较大，对第二级当前帧混合音频数据M2进行非线性映射3，在进行非线性映射3时，由于上述预设的门限值为0.75，因此对大于0.75的第二级当前帧混合音频数据M2的采样点值进行非线性映射3，即压缩程度相对较大的非线性映射，最终得到归一化第三级当前帧混合音频数据M3。

参照本发明图8提供的对第二级当前帧混合音频数据进行进行非线性映射一个具体实例的流程示意图，当第二级当前帧混合音频数据M2的最大采样点值绝对值5>＝M2_MAX>4时，此情况表示溢出幅度很大，对第二级当前帧混合音频数据M2进行非线性映射4，在进行非线性映射4时，由于上述预设的门限值为0.75，因此对大于0.75的第二级当前帧混合音频数据M2的采样点值进行非线性映射4，即压缩程度最大的非线性映射，最终得到归一化第三级当前帧混合音频数据M3。

图9所示为本发明一种音频混音装置一个具体实施例的示意图。

在图9示出的具体实施方式中，本发明的音频混音装置包括模块901、模块902以及模块903。

图9示出的模块901，表示的是第一级混音处理模块，用于对多路音频数据中每一路音频数据的当前帧音频数据进行语音活动检测，得到至少一个当前语音帧音频数据和/或至少一个当前非语音帧音频数据，并将全部当前语音帧音频数据进行混合得到第一级当前帧混合音频数据，或者，将至少一个当前非语音帧音频数据进行处理后与全部当前语音帧音频数据进行混合得到第一级当前帧混合音频数据。此模块进行语音活动检测得到第一级当前帧混合音频数据，以便于降低后续模块饱和的可能性，从而提升音质，并进一步对第一级当前帧混合音频数据进行分级处理，使其最终归一化表示。

在本发明的一个具体实施例中，上述第一级混音处理模块的工作内容还包括，将至少一个当前非语音帧音频数据进行衰减，或者将至少一个当前非语音帧音频数据使用舒适噪声进行替代。此过程以便于保证音质。

图9示出的模块902，表示的是第二级混音处理模块，用于对第一级当前帧混合音频数据进行输出，或者根据第一级当前帧混合音频数据的最大采样点值绝对值，选择相应通带范围的滤波器对第一级当前帧混合音频数据进行滤波处理得到第二级当前帧混合音频数据。此模块对第一级当前帧混合音频数据进行滤波处理，以便于减小第一级当前帧混合音频数据，使其降低溢出的可能性，同时若第一级当前帧混合音频数据在归一化表示范围内，则不需要进行第二级混音处理步骤，从而节省了计算量，既确保语音的可懂度，又避免饱和、削顶和声音忽大忽小的情形。

在本发明的一个具体实施例中，上述第二级混音处理模块的工作内容还包括，若第一级当前帧混合音频数据的最大采样点值落入采样点归一化表示值范围内，则对第一级当前帧混合音频数据进行输出；若第一级当前帧混合音频数据的最大采样点值未落入采样点归一化表示值范围内，则根据第一级当前帧混合音频数据的最大采样点值绝对值，选择相应通带范围的滤波器对第一级当前帧混合音频数据进行滤波处理得到第二级当前帧混合音频数据。此过程对根据采样点归一化表示值范围设置条件，只有第一级当前帧混合音频数据的最大采样点值未落入采样点归一化表示值范围内时，才进行下一步的滤波，从而进一步降低了运算量，并降低了溢出的可能性。

图9示出的模块903，表示的是第三级混音处理模块，用于对第二级当前帧混合音频数据进行输出，或者根据第二级当前帧混合音频数据的最大采样点值绝对值，按照预定的映射曲线对第二级当前帧混合音频数据进行非线性映射得到第三级当前帧混合音频数据，并进行输出。此模块对第二级当前帧混合音频数据进行非线性映射，以便于进一步得到归一化第三级当前帧混合音频数据，既确保语音的可懂度，又避免饱和、削顶和声音忽大忽小的情形，同时若第二级当前帧混合音频数据在归一化表示范围内，则不需要进行第三级混音处理步骤，从而节省了计算量。若应用于会议电话场景中时，既确保了用户可以清楚听懂会议的内容，又避免了溢出引起的噪声。

在本发明的一个具体实施例中，上述第三级混音处理模块的工作内容还包括，若第二级当前帧混合音频数据的最大采样点值落入采样点归一化表示值范围内，则对第二级当前帧混合音频数据进行输出；若第二级当前帧混合音频数据的最大采样点值未落入采样点归一化表示值范围内，则根据第二级当前帧混合音频数据的最大采样点值绝对值，按照预定的映射曲线对第二级当前帧混合音频数据进行非线性映射得到第三级当前帧混合音频数据。此过程对第二级当前帧混合音频数据进行非线性映射，以便于进一步得到归一化第三级当前帧混合音频数据，既确保语音的可懂度，又避免饱和、削顶和声音忽大忽小的情形。

通过本发明音频混音装置的应用，进行分级处理，若上一级输出在归一化表示范围内，则不需要进行下一级运算，从而节省了计算量，既确保语音的可懂度，又避免饱和、削顶和声音忽大忽小的情形。

本发明提供的一种音频混音装置，可用于执行上述任一实施例描述的音频混音方法，其实现原理和技术效果类似，在此不再赘述。

在本发明的另一个具体实施方式中，一种计算机可读存储介质，其存储有计算机指令，其特征在于，计算机指令被操作以执行任一实施例描述的音频混音方法。其中，该存储介质可直接在硬件中、在由处理器执行的软件模块中或在两者的组合中。

软件模块可驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可装卸盘、CD-ROM或此项技术中已知的任何其它形式的存储介质中。示范性存储介质耦合到处理器，使得处理器可从存储介质读取信息和向存储介质写入信息。

处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)、现场可编程门阵列(英文：Field Programmable Gate Array，简称：FPGA)或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其任何组合等。通用处理器可以是微处理器，但在替代方案中，处理器可以是任何常规处理器、控制器、微控制器或状态机。处理器还可实施为计算装置的组合，例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一个或一个以上微处理器或任何其它此类配置。在替代方案中，存储介质可与处理器成一体式。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中，处理器和存储介质可作为离散组件驻留在用户终端中。

在本申请的一个具体实施方式中，一种计算机设备，其包括处理器和存储器，存储器存储有计算机指令，其中：处理器操作计算机指令以执行任一实施例描述的音频混音方法。

在本申请所提供的实施方式中，应该理解到，所揭露的系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上仅为本申请的实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种音频混音方法，其特征在于，包括，

第一级混音处理步骤，对多路音频数据中每一路所述音频数据的当前帧音频数据进行语音活动检测，得到至少一个当前语音帧音频数据和/或至少一个当前非语音帧音频数据，并将全部所述当前语音帧音频数据进行混合得到第一级当前帧混合音频数据，或者，将至少一个所述当前非语音帧音频数据进行处理后与全部所述当前语音帧音频数据进行混合得到所述第一级当前帧混合音频数据；

第二级混音处理步骤，对所述第一级当前帧混合音频数据进行输出，或者根据所述第一级当前帧混合音频数据的最大采样点值绝对值，选择相应通带范围的滤波器对所述第一级当前帧混合音频数据进行滤波处理得到第二级当前帧混合音频数据；

第三级混音处理步骤，对所述第二级当前帧混合音频数据进行输出，或者根据所述第二级当前帧混合音频数据的最大采样点值绝对值，按照预定的映射曲线对所述第二级当前帧混合音频数据进行非线性映射得到第三级当前帧混合音频数据，并进行输出。

2.如权利要求1所述的音频混音方法，其特征在于，所述将至少一个所述当前非语音帧音频数据进行处理的过程包括，

将所述至少一个所述当前非语音帧音频数据进行衰减，或者将所述至少一个所述当前非语音帧音频数据使用舒适噪声进行替代。

3.如权利要求1所述的音频混音方法，其特征在于，

若所述第一级当前帧混合音频数据的最大采样点值落入采样点归一化表示值范围内，则对所述第一级当前帧混合音频数据进行输出；

若所述第一级当前帧混合音频数据的最大采样点值未落入所述采样点归一化表示值范围内，则根据所述第一级当前帧混合音频数据的最大采样点值绝对值，选择相应通带范围的滤波器对所述第一级当前帧混合音频数据进行滤波处理得到第二级当前帧混合音频数据。

4.如权利要求1或3所述的音频混音方法，其特征在于，所述根据所述第一级当前帧混合音频数据的最大采样点值绝对值，选择相应通带范围的滤波器对所述第一级当前帧混合音频数据进行滤波处理的过程包括，

对于所述最大采样点值绝对值越大的所述第一级当前帧混合音频数据，选择通带范围越窄的所述滤波器对所述第一级当前帧混合音频数据进行滤波处理。

5.如权利要求1所述的音频混音方法，其特征在于，

若所述第二级当前帧混合音频数据的最大采样点值落入采样点归一化表示值范围内，则对所述第二级当前帧混合音频数据进行输出；

若所述第二级当前帧混合音频数据的最大采样点值未落入所述采样点归一化表示值范围内，则根据所述第二级当前帧混合音频数据的最大采样点值绝对值，按照预定的映射曲线对所述第二级当前帧混合音频数据进行非线性映射得到第三级当前帧混合音频数据。

6.如权利要求1或5所述的音频混音方法，其特征在于，所述根据所述第二级当前帧混合音频数据的最大采样点值绝对值，按照预定的映射曲线对所述第二级当前帧混合音频数据进行非线性映射的过程包括，

对于所述最大采样点值绝对值越大的所述第二级当前帧混合音频数据，按照曲率越大的所述映射曲线对所述第二级当前帧混合音频数据进行非线性映射。

7.如权利要求1或5所述的音频混音方法，其特征在于，所述按照预定的映射曲线对所述第二级当前帧混合音频数据进行非线性映射的过程包括，对于大于预设的门限值的所述第二级当前帧混合音频数据的采样点值进行非线性映射。

8.一种音频混音装置，其特征在于，包括，

第一级混音处理模块，用于对多路音频数据中每一路所述音频数据的当前帧音频数据进行语音活动检测，得到至少一个当前语音帧音频数据和/或至少一个当前非语音帧音频数据，并将全部所述当前语音帧音频数据进行混合得到第一级当前帧混合音频数据，或者，将至少一个所述当前非语音帧音频数据进行处理后与全部所述当前语音帧音频数据进行混合得到所述第一级当前帧混合音频数据；

第二级混音处理模块，用于对所述第一级当前帧混合音频数据进行输出，或者根据所述第一级当前帧混合音频数据的最大采样点值绝对值，选择相应通带范围的滤波器对所述第一级当前帧混合音频数据进行滤波处理得到第二级当前帧混合音频数据；

第三级混音处理模块，用于对所述第二级当前帧混合音频数据进行输出，或者根据所述第二级当前帧混合音频数据的最大采样点值绝对值，按照预定的映射曲线对所述第二级当前帧混合音频数据进行非线性映射得到第三级当前帧混合音频数据，并进行输出。

9.一种计算机可读存储介质，其存储有计算机指令，其特征在于，所述计算机指令被操作以执行权利要求1-7中任一项所述的音频混音方法。

10.一种计算机设备，其包括处理器和存储器，所述存储器存储有计算机指令，其中，所述处理器操作所述计算机指令以执行权利要求1-7任一项所述的音频混音方法。