CN111179947A

CN111179947A - 一种音频信号处理的方法及装置

Info

Publication number: CN111179947A
Application number: CN202010009960.XA
Authority: CN
Inventors: 沈俊聪; 陈勇华
Original assignee: Guangzhou Huanlao Network Technology Co ltd
Current assignee: Guangzhou Huanlao Network Technology Co ltd
Priority date: 2020-01-06
Filing date: 2020-01-06
Publication date: 2020-05-19
Anticipated expiration: 2040-01-06
Also published as: CN111179947B

Abstract

本申请涉及一种音频信号处理的方法及装置，其中所述方法包括：获取背景音乐信号以及用户录入的干音信号，并分别对所述背景音乐信号及所述干音信号进行分帧处理，获得对应的背景音乐帧序列以及干音帧序列；针对所述干音帧序列的各干音帧数据，确定所述干音帧数据的处理状态，所述处理状态包括第一值及第二值；对处理状态为第二值的干音帧数据进行增益保护处理；将进行增益保护处理获得的干音帧数据以及对应时间的背景音乐帧数据进行混音处理，获得用于输出的混音帧信号。本实施例可以提升音量小的干音信号的音量水平，让节目中各种声音的音量波动尽可能的小，提高用户的收听体验，进而提升用户留存。

Description

一种音频信号处理的方法及装置

技术领域

本申请涉及数据处理技术领域，尤其涉及一种音频信号处理的方法及装置。

背景技术

随着信息时代的到来，用户获取信息和发布信息的需求越来越强烈，越来越多用户使用手机等终端录制和发布音视频节目。

通常，在一个包含音频的节目中，可能会包含人声、背景音乐、环境音等不同声音，每种类型的声音的音量也有差别(例如摇滚类型的歌曲通常会比人的声音的音量大)。并且，使用不同厂商的终端录制出来的音量也会不同，导致听众在收听不同节目时，音量会参差不齐，影响用户体验。

发明内容

鉴于上述问题，提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的一种音频信号处理的方法及装置。

第一方面，本申请提供了一种音频信号处理的方法，所述方法包括：

获取背景音乐信号以及用户录入的干音信号，并分别对所述背景音乐信号及所述干音信号进行分帧处理，获得对应的背景音乐帧序列以及干音帧序列；

针对所述干音帧序列的各干音帧数据，确定所述干音帧数据的处理状态，所述处理状态包括第一值及第二值；

对处理状态为第二值的干音帧数据进行增益保护处理；

将进行增益保护处理获得的干音帧数据以及对应时间的背景音乐帧数据进行混音处理，获得用于输出的混音帧信号。

可选地，各干音帧数据中包括多个采样点；

所述针对所述干音帧序列的各干音帧数据，确定所述干音帧数据的处理状态，包括：

将各采样点的能量值转换成指定类型的浮点数，所述浮点数在[-1.0,1.0]区间内；

对各浮点数进行放大处理；

根据所述干音帧数据中包括的采样点的数量以及各采样点对应的放大后的浮点数，确定所述干音帧数据的平均能量；

若所述平均能量大于预设能量值，则将所述干音帧数据的处理状态确定为第一值；

若所述平均能量小于或等于预设能量值，则将所述干音帧数据的处理状态确定为第二值。

可选地，所述方法还包括：

若所述干音帧数据的处理状态为所述第一值，则将所述干音帧数据的各采样点的能量值乘以预设音量调整因子，其中，所述音量调整因子为小于1的正数。

可选地，所述对处理状态为第二值的干音帧数据进行增益保护处理，包括：

确定所述干音帧数据的各采样点的能量值；

分别判断各采样点的能量值是否在预设的能量区间内；

若否，则将该采样点的能量值调整为指定能量值，所述指定能量值为所述能量值距离所述能量区间最接近的端点的值；

基于各采样点的最新能量值，进行帧间平滑处理。

可选地，所述基于各采样点的最新能量值，进行帧间平滑处理，包括：

获取上一帧干音帧数据的处理状态；

若所述上一帧干音帧数据的处理状态与当前干音帧数据的处理状态不相同，则获取上一帧干音帧数据的最后指定长度的采样点的能量值，并根据所述最后指定长度的采样点的能量值计算所述最后指定长度的采样点的第一平均增益；

获取当前干音帧数据的开始指定长度的采样点的能量值，并根据所述开始指定长度的采样点的能量值计算所述开始指定长度的采样点的第二平均增益；

根据所述第一平均增益以及所述第二平均增益，确定增益调整因子；

将当前干音帧数据的各采样点的最新能量值乘上所述增益调整因子，获得帧间平滑处理后的能量值。

第二方面，本申请还提供了一种音频信号处理的装置，所述装置包括：

信号处理模块，用于获取背景音乐信号以及用户录入的干音信号，并分别对所述背景音乐信号及所述干音信号进行分帧处理，获得对应的背景音乐帧序列以及干音帧序列；

处理状态确定模块，用于针对所述干音帧序列的各干音帧数据，确定所述干音帧数据的处理状态，所述处理状态包括第一值及第二值；

增益保护处理模块，用于对处理状态为第二值的干音帧数据进行增益保护处理；

混音处理模块，用于将进行增益保护处理获得的干音帧数据以及对应时间的背景音乐帧数据进行混音处理，获得用于输出的混音帧信号。

可选地，各干音帧数据中包括多个采样点；

所述处理状态确定模块包括：

数据类型转换子模块，用于将各采样点的能量值转换成指定类型的浮点数，所述浮点数在[-1.0,1.0]区间内；

放大处理模块，用于对各浮点数进行放大处理；

平均能量值处理模块，用于根据所述干音帧数据中包括的采样点的数量以及各采样点对应的放大后的浮点数，确定所述干音帧数据的平均能量；

可选地，所述增益保护处理模块包括：

增益调整子模块，用于确定所述干音帧数据的各采样点的能量值；分别判断各采样点的能量值是否在预设的能量区间内；若否，则将该采样点的能量值调整为指定能量值，所述指定能量值为所述能量值距离所述能量区间最接近的端点的值；

帧间平滑处理子模块，用于基于各采样点的最新能量值，进行帧间平滑处理。

第三方面，本申请还提供了一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如上述的方法。

第四方面，本申请还提供了一种存储介质，当所述存储介质中的指令由所述设备的处理器执行时，使得所述电子设备能够执行如上述的方法。

本申请具有如下有益效果：

在本实施例中，对背景音乐信号以及用户录入的干音信号进行分帧处理获得对应的背景音乐帧序列以及干音帧序列以后，对于干音帧序列的各干音帧数据，首先确定该干音帧数据的处理状态，并对处理状态为第二值的干音帧数据进行增益保护处理，然后将进行增益保护处理获得的干音帧数据以及对应时间的背景音乐帧数据进行混音处理，获得用于输出的混音帧信号。使得通过不同终端录入的干音信号尽量与背景音乐信号的音量水平保持一致，以提升音量小的干音信号的音量水平，让节目中各种声音的音量波动尽可能的小，提高用户的收听体验，进而提升用户留存。

附图说明

图1为本申请实施例的一种音频信号处理的方法实施例的步骤流程图；

图2为本申请实施例的一种音频信号处理的装置实施例的结构框图。

具体实施方式

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

参照图1，示出了本申请实施例的一种音频信号处理的方法实施例的步骤流程图，本实施例可以应用于用户实时录音的场景，即用户边说话，声音就同时进行文件编码和保存。本实施例具体可以包括如下步骤：

步骤101，获取背景音乐信号以及用户录入的干音信号，并分别对所述背景音乐信号及所述干音信号进行分帧处理，获得对应的背景音乐帧序列以及干音帧序列。

在该步骤中，干音信号为从麦克风通路获取到的语音信号，用户通过麦克风说话而录入的语音信号属于干音信号。通过耳机播放出来的背景音乐被采集的语音信号属于音乐信号，即本实施例的背景音乐信号。

在本实施例中，对于获得的背景音乐信号以及干音信号，可以按照预设的分帧规则分别对两者进行分帧处理，例如，将干音信号按照每帧时长为100ms进行分帧，以获得多个干音帧数据，组成干音帧序列。又如，对背景音乐解码后，可以将解码得到的背景音乐信号按照每帧时长为100ms进行分帧，以获得多个背景音乐帧数据，组成背景音乐帧序列。

在实际中，每一帧干音帧数据或背景音乐帧数据中都可以包括多个采样点，而每一帧包含的采样点的数量可以由每一帧的时长和采样率决定，例如，假设采样率为44100Hz，每一帧时长为100ms，则每一帧的采样点的数量为：44100*0.1s＝4410。

步骤102，针对所述干音帧序列的各干音帧数据，确定所述干音帧数据的处理状态，所述处理状态包括第一值及第二值。

在该步骤中，处理状态用于确定当前干音帧数据是否进行了音量放大处理，以及在后续步骤中判断前后两帧的干音帧数据是否需要进行平滑处理。

示例性地，处理状态可以包括第一值以及第二值，例如，可以采用数值0和数值1表示处理状态，如第一值为数值0，第二值为数值1。

在一种实施方式中，步骤102可以包括如下子步骤：

子步骤S11，将各采样点的能量值转换成指定类型的浮点数，所述浮点数在[-1.0,1.0]区间内。

在一种例子中，干音信号可以为PCM(Pulse Code Modulation，脉冲编码调制)信号，一个采样点的数据类型可以为16位short类型的数据。在该步骤中，可以将一个采样点的数据由16位short类型转换为32位float数据，然后将该float数据进行归一化处理，得到在[-1.0,1.0]区间内float类型的浮点小数。

在实现归一化时，可以将32位float数据除以32768(即2^15)，得到一个小于1.0大于等于-1.0的float类型浮点小数。

子步骤S12，对各浮点数进行放大处理。

在一种实现中，获得指定类型的浮点数以后，可以将该浮点数乘上预设的增益因子，以对该浮点数进行放大处理，例如，将浮点数乘上增益因子2.5。

子步骤S13，根据所述干音帧数据中包括的采样点的数量以及各采样点对应的放大后的浮点数，确定所述干音帧数据的平均能量。

在一种实现中，可以采用如下公式计算放大后的当前干音帧数据的平均能量E：

其中，N表示当前干音帧数据的采样点的数量，k是指每个采样点放大后的能量值。子步骤S14，若所述平均能量大于预设能量值，则将所述干音帧数据的处理状态确定为第一值；若所述平均能量小于或等于预设能量值，则将所述干音帧数据的处理状态确定为第二值。

在该步骤中，若平均能量大于预设能量值，表示当前帧数据无需进行放大处理，此时可以将该干音帧数据的处理状态确定为第一值，例如处理状态为数值0；若平均能量小于或等于预设能量值，表示当前帧数据需要进行放大处理，此时可以将该干音帧数据的处理状态确定为第二值，例如处理状态为数值1。在一种实施方式中，可以采用状态列表来记录每帧数据的处理状态。

在一种例子中，预设能量值可以根据实际需求设定，例如，预设能量值可以为25000/32768＝0.763。

在一种实施方式中，若干音帧数据的处理状态为第一值，则将该干音帧数据的各采样点的能量值乘以预设音量调整因子，其中，所述音量调整因子为小于1的正数。

由于在子步骤S12中对干音帧数据的各采样点进行了放大处理，则若干音帧数据的处理状态为第一值表示该帧的采样点无需进行放大处理，此时可以将各采样点的能量值乘以预设音量调整因子，例如乘以0.667。

步骤103，对处理状态为第二值的干音帧数据进行增益保护处理。

在一种实施方式中，步骤103可以包括如下子步骤：

子步骤S21，确定所述干音帧数据的各采样点的能量值。

子步骤S22，分别判断进行各采样点的能量值是否在预设的能量区间内。

对于处理状态为第二值的干音帧数据，表示该干音帧数据中的采样点的能量值为放大处理后的值，获得各采样点的能量值以后，可以判断各采样点的能量值是否在预设的能量区间内，例如，可以设定预设的能量区间可以为[-1,1]。

子步骤S23，若否，则将该采样点的能量值调整为指定能量值，所述指定能量值为所述能量值距离所述能量区间最接近的端点的值。

例如，假设预设的能量区间为[-1,1]，若某个采样点的能量值为1.4，则可以将该采样点的能量值调整为数值1；若某个采样点的能量值为-1.4，则可以将该采样点的能量值调整为数值-1。

子步骤S24，基于各采样点的最新能量值，进行帧间平滑处理。

对当前帧各采样点的能量值进行判断及调整以后，则可以基于调整后的各采样点的能量值，进行帧间平滑处理。

在一种实施方式中，子步骤S24进一步可以包括如下子步骤：

子步骤S31，获取上一帧干音帧数据的处理状态。

子步骤S32，若所述上一帧干音帧数据的处理状态与当前干音帧数据的处理状态不相同，则获取上一帧干音帧数据的最后指定长度的采样点的能量值，并根据所述最后指定长度的采样点的能量值计算所述最后指定长度的采样点的第一平均增益。

在一种例子中，可以采用如下公式计算指定长度的采样点的平均增益P：

其中，M表示上一帧数据中最后指定长度的采样点的数量，k表示每个采样点的能量值；

例如，若上一帧干音帧数据的处理状态与当前干音帧数据的处理状态不相同(如一个为数值0另一个为数值1)，可以取上一帧干音帧数据的最后10％的采样点的能量值(例如，每帧数据的采样点数量为4410点，取后面10％，也就是取第3970-4410采样点及其能量值)。

子步骤S33，获取当前干音帧数据的开始指定长度的采样点的能量值，并根据所述开始指定长度的采样点的能量值计算所述开始指定长度的采样点的第二平均增益。

在该步骤中，第二平均增益与第一平均增益的计算方式类似，而第二平均增益取的是当前干音帧数据的前指定长度(如前10％)的采样点及其能量值进行计算。

子步骤S34，根据所述第一平均增益以及所述第二平均增益，确定增益调整因子。

例如，增益调整因子的计算方式可以为：第一平均增益/第二平均增益＝增益调整因子。

子步骤S35，将当前干音帧数据的各采样点的最新能量值乘上所述增益调整因子，获得帧间平滑处理后的能量值。

得到增益调整因子以后，可以将当前干音帧数据的各采样点的最新能量值乘上该增益调整因子，获得帧间平滑处理后的能量值，从而达到帧间平滑的目的。

步骤104，将进行增益保护处理获得的干音帧数据以及对应时间的背景音乐帧数据进行混音处理，获得用于输出的混音帧信号。

通过步骤102-步骤103对当前干音帧数据处理完成以后，则可以将同一时刻对应的干音帧数据以及背景音乐帧数据进行混音处理以及AAC编码(Advanced Audio Coding，高级音频编码)，得到该时刻的混音帧信号。

当前干音帧数据处理完成以后，则可以通过上述方法接着处理下一帧干音帧数据，直到录音完成。

基于上述的音频信号处理的方法，参照图2，示出了本申请一种音频信号处理的装置实施例的结构框图，所述装置可以包括如下模块：

信号处理模块201，用于获取背景音乐信号以及用户录入的干音信号，并分别对所述背景音乐信号及所述干音信号进行分帧处理，获得对应的背景音乐帧序列以及干音帧序列；

处理状态确定模块202，用于针对所述干音帧序列的各干音帧数据，确定所述干音帧数据的处理状态，所述处理状态包括第一值及第二值；

增益保护处理模块203，用于对处理状态为第二值的干音帧数据进行增益保护处理；

混音处理模块204，用于将进行增益保护处理获得的干音帧数据以及对应时间的背景音乐帧数据进行混音处理，获得用于输出的混音帧信号。

在一种实施方式中，各干音帧数据中包括多个采样点；所述处理状态确定模块202可以包括如下子模块：

放大处理模块，用于对各浮点数进行放大处理；

在一种实施方式中，所述装置还包括：

音量调整模块，用于若所述干音帧数据的处理状态为所述第一值，则将所述干音帧数据的各采样点的能量值乘以预设音量调整因子，其中，所述音量调整因子为小于1的正数。

在一种实施方式中，所述增益保护处理模块203可以包括如下子模块：

在一种实施方式中，所述帧间平滑处理子模块具体用于：

获取上一帧干音帧数据的处理状态；

本申请实施例还公开了一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述的方法实施例。

本申请实施例还公开了一种存储介质，当所述存储介质中的指令由所述设备的处理器执行时，使得所述电子设备能够执行上述的方法实施例。

关于上述实施例中的装置、电子设备及存储介质，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种音频信号处理的方法，其特征在于，所述方法包括：

对处理状态为第二值的干音帧数据进行增益保护处理；

2.根据权利要求1所述的方法，其特征在于，各干音帧数据中包括多个采样点；

对各浮点数进行放大处理；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求2或3所述的方法，其特征在于，所述对处理状态为第二值的干音帧数据进行增益保护处理，包括：

确定所述干音帧数据的各采样点的能量值；

分别判断各采样点的能量值是否在预设的能量区间内；

基于各采样点的最新能量值，进行帧间平滑处理。

5.根据权利要求4所述的方法，其特征在于，所述基于各采样点的最新能量值，进行帧间平滑处理，包括：

获取上一帧干音帧数据的处理状态；

6.一种音频信号处理的装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，各干音帧数据中包括多个采样点；

所述处理状态确定模块包括：

放大处理模块，用于对各浮点数进行放大处理；

8.根据权利要求7所述的装置，其特征在于，所述增益保护处理模块包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1-5任一项所述的方法。

10.一种存储介质，当所述存储介质中的指令由所述设备的处理器执行时，使得所述电子设备能够执行如权利要求1-5任一项所述的方法。