CN112669797A

CN112669797A - 音频处理方法、装置、电子设备及存储介质

Info

Publication number: CN112669797A
Application number: CN202011629121.4A
Authority: CN
Inventors: 范欣悦; 张晨; 郑羲光
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-16
Anticipated expiration: 2040-12-30
Also published as: CN112669797B

Abstract

本公开是关于一种音频处理方法、装置、电子设备及存储介质，该方法包括：采集录制的音频信号，音频信号包括：人声信号、伴奏信号；确定人声信号和伴奏信号的特征信息，人声信号的特征信息中包括频率信息，伴奏信号的特征信息包括响度信息；基于所述人声信号的频率信息，对所述人声信号进行均衡处理，得到经过均衡处理的人声信号；基于经过均衡处理的人声信号的响度信息和伴奏信号的响度信息，对经过均衡处理的人声信号和伴奏信号进行响度均衡处理，以生成目标音频。

Description

音频处理方法、装置、电子设备及存储介质

技术领域

本公开涉及音频技术领域，尤其涉及音频处理方法、装置、电子设备及存储介质。

背景技术

均衡(Equal izer)处理为通过调整人声信号的音量以改善人声质感的优化手段。相关技术中，均衡处理为对人声信号的音量进行固定幅度的调整。

然而，对于任意一个音频，均采用单一的均衡处理方式即对人声信号的音量进行固定幅度的调整，由于没有考虑诸如人声信号的频率信息的特征信息对均衡处理效果的影响，导致均衡处理的效果不佳。

发明内容

为克服相关技术中存在的问题，本公开提供一种音频处理方法、装置、电子设备及存储介质，以至少解决相关技术中的均衡处理的效果不佳问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种音频处理方法，包括：

采集录制的音频信号，所述音频信号包括：人声信号、伴奏信号；

确定所述人声信号和伴奏信号的特征信息，所述人声信号的特征信息中包括频率信息，所述伴奏信号的特征信息包括响度信息；

基于所述人声信号的频率信息，对所述人声信号进行均衡处理，得到经过均衡处理的人声信号；

基于经过均衡处理的人声信号的响度信息和伴奏信号的响度信息，对经过均衡处理的人声信号和伴奏信号进行响度均衡处理，以生成目标音频。

在一些实施例中，伴奏信号的特征信息还包括伴奏的风格信息；以及

基于所述人声信号的频率信息，对所述人声信号进行均衡处理，得到经过均衡处理的人声信号包括：

基于所述人声信号的频率信息和所述伴奏的风格信息，对所述人声信号进行均衡处理，得到经过均衡处理的人声信号。

在一些实施例中，所述人声信号的频率信息包括：人声信号中的帧在预设频带上的音量；以及

基于所述人声信号的频率信息和所述伴奏的风格信息，对所述人声信号进行均衡处理，得到经过均衡处理的人声信号包括：

基于人声信号中的帧在预设频带上的音量和目标音量，对所述人声信号进行均衡处理，得到经过均衡处理的人声信号，其中，目标音量为所述预设频带关联的多个预设音量中的、对应于所述音频信号所属的用户的性别和所述伴奏的风格信息的预设音量。

在一些实施例中，基于人声信号中的帧在预设频带上的音量和目标音量，对所述人声信号进行均衡处理，得到经过均衡处理的人声信号包括：

在人声信号中的帧在所述预设频带上的音量的平均值小于所述目标音量的情况下，确定所述预设频带对应的音量增加值，以及对于每一帧，将所述帧在所述预设频带上的音量调整为所述帧在所述预设频带上的当前音量与所述音量增加值之和；

在人声信号中的帧在所述预设频带上的音量的平均值大于所述目标音量的情况下，确定所述预设频带对应的音量减少值，以及对于每一帧，将所述帧在所述预设频带上的音量调整为所述帧在所述预设频带上的当前音量减去所述音量减少值。

在一些实施例中，基于经过均衡处理的人声信号的响度信息和伴奏信号的响度信息，对经过均衡处理的人声信号和伴奏信号进行响度均衡处理，以生成目标音频包括：

确定经过均衡处理的人声信号的动态压缩参数信息，其中，动态压缩参数信息包括：压缩比、压缩阈值、起始时长、释放时长；

基于所述动态压缩参数信息，对于经过均衡处理的人声信号进行动态压缩，得到压缩后的经过均衡处理的人声信号；

基于经过均衡处理的人声信号的响度信息和伴奏信号的响度信息，对压缩后的经过均衡处理的人声信号和伴奏信号进行响度均衡处理，以生成目标音频。

在一些实施例中，确定经过均衡处理的人声信号的动态压缩参数信息包括：

对人声信号中的帧的频谱流量的平均值和人声信号中的帧的局部能量的平均值进行加权计算，得到经过均衡处理的人声信号对应的动态范围值；

基于所述动态范围值，确定所述压缩比；

计算所述经过均衡处理的人声信号的整体响度；

将所述经过均衡处理的人声信号的整体响度与预设比例系数相乘，得到所述压缩阈值；

当所述伴奏信号的分钟节拍数大于第一节拍数阈值时，将预设时长范围内的最小时长作为所述起始时长，以及将所述最小时长作为所述释放时长；

当所述伴奏信号的分钟节拍数小于第二节拍数阈值时，将预设时长范围内的最大时长作为所述起始时长，以及将所述最大时长作为所述释放时长，其中，第一节拍数阈值大于第二节拍数阈值；

当所述伴奏信号的分钟节拍数小于第一节拍数阈值并且大于第二节拍数阈值时，在预设时长范围内进行线性插值，将进行线性插值得到的结果作为所述起始时长，以及将进行线性插值得到的结果作为所述释放时长。

在一些实施例中，所述方法还包括：

计算伴奏信号中的帧的频域丰富度的平均值，以及对所述伴奏信号的分钟节拍数和伴奏信号中的帧的频域丰富度的平均值进行加权计算，得到候选混响强度值；

基于候选混响强度值和预设混响强度值范围，确定目标混响强度值；

以目标混响强度值，对目标音频进行混响处理，得到经过混响处理的目标音频。

根据本公开实施例的第二方面，提供一种音频处理装置，包括：

录制模块，被配置为采集录制的音频信号，所述音频信号包括：人声信号、伴奏信号；

确定模块，被配置为确定所述人声信号和伴奏信号的特征信息，所述人声信号的特征信息中包括频率信息，所述伴奏信号的特征信息包括响度信息；

均衡处理模块，被配置为基于所述人声信号的频率信息，对所述人声信号进行均衡处理，得到经过均衡处理的人声信号；

目标音频生成模块，被配置为基于经过均衡处理的人声信号的响度信息和伴奏信号的响度信息，对经过均衡处理的人声信号和伴奏信号进行响度均衡处理，以生成目标音频。

在一些实施例中，伴奏信号的特征信息还包括伴奏的风格信息；均衡处理模块进一步被配置为基于所述人声信号的频率信息和所述伴奏的风格信息，对所述人声信号进行均衡处理，得到经过均衡处理的人声信号。

在一些实施例中，所述人声信号的频率信息包括：人声信号中的帧在预设频带上的音量；均衡处理模块进一步被配置为基于人声信号中的帧在预设频带上的音量和目标音量，对所述人声信号进行均衡处理，得到经过均衡处理的人声信号，其中，目标音量为所述预设频带关联的多个预设音量中的、对应于所述音频信号所属的用户的性别和所述伴奏的风格信息的预设音量。

在一些实施例中，均衡处理模块进一步被配置为在人声信号中的帧在所述预设频带上的音量的平均值小于所述目标音量的情况下，确定所述预设频带对应的音量增加值，以及对于每一帧，将所述帧在所述预设频带上的音量调整为所述帧在所述预设频带上的当前音量与所述音量增加值之和；在人声信号中的帧在所述预设频带上的音量的平均值大于所述目标音量的情况下，确定所述预设频带对应的音量减少值，以及对于每一帧，将所述帧在所述预设频带上的音量调整为所述帧在所述预设频带上的当前音量减去所述音量减少值。

在一些实施例中，目标音频生成模块包括：

压缩和响度均衡子模块，被配置为确定经过均衡处理的人声信号的动态压缩参数信息，其中，动态压缩参数信息包括：压缩比、压缩阈值、起始时长、释放时长；基于所述动态压缩参数信息，对于经过均衡处理的人声信号进行动态压缩，得到压缩后的经过均衡处理的人声信号；基于经过均衡处理的人声信号的响度信息和伴奏信号的响度信息，对压缩后的经过均衡处理的人声信号和伴奏信号进行响度均衡处理，以生成目标音频。

在一些实施例中，压缩和响度均衡子模块进一步被配置为对人声信号中的帧的频谱流量的平均值和人声信号中的帧的局部能量的平均值进行加权计算，得到经过均衡处理的人声信号对应的动态范围值；基于所述动态范围值，确定所述压缩比；计算所述经过均衡处理的人声信号的整体响度；将所述经过均衡处理的人声信号的整体响度与预设比例系数相乘，得到所述压缩阈值；当所述伴奏信号的分钟节拍数大于第一节拍数阈值时，将预设时长范围内的最小时长作为所述起始时长，以及将所述最小时长作为所述释放时长；当所述伴奏信号的分钟节拍数小于第二节拍数阈值时，将预设时长范围内的最大时长作为所述起始时长，以及将所述最大时长作为所述释放时长，其中，第一节拍数阈值大于第二节拍数阈值；当所述伴奏信号的分钟节拍数小于第一节拍数阈值并且大于第二节拍数阈值时，在预设时长范围内进行线性插值，将进行线性插值得到的结果作为所述起始时长，以及将进行线性插值得到的结果作为所述释放时长。

在一些实施例中，音频处理装置还包括：

混响模块，被配置为计算伴奏信号中的帧的频域丰富度的平均值，以及对所述伴奏信号的分钟节拍数和伴奏信号中的帧的频域丰富度的平均值进行加权计算，得到候选混响强度值；基于候选混响强度值和预设混响强度值范围，确定目标混响强度值；以目标混响强度值，对目标音频进行混响处理，得到经过混响处理的目标音频。

本公开的实施例提供的技术方案可以包括以下有益效果：

在对音频进行处理时，考虑了人声信号的频率信息对人声信号均衡效果的影响，基于基人声信号的频率信息，对人声信号进行均衡处理，对人声信号进行均衡处理具有较好的效果，改善音频中的人声的质感，进而使得生成的目标音频具有质感较好的人声。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种音频处理方法的一个实施例的流程图；

图2是对人声信号进行均衡处理的一个流程示意图；

图3是根据一示例性实施例示出的一种音频处理装置的结构框图；

图4是根据一示例性实施例示出的一种电子设备的结构框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的音频处理方法的一个实施例的流程图。该方法包括以下步骤：

步骤101，采集录制的音频信号。

在本公开中，音频信号包括：人声信号、伴奏信号。

例如，音频信号可以为在用户使用视频APP提供的线上KTV功能演唱歌曲时录制的音频的信号。

步骤102，确定人声信号和伴奏信号的特征信息。

在本申请中，人声信号的特征信息包括频率信息，人声信号的频率信息可以包括人声信号的每一帧的音量，伴奏信号的特征信息包括响度信息。

步骤103，基于人声信号的频率信息，对人声信号进行均衡处理，得到经过均衡处理的人声信号。

在本公开中，当基于人声信号的频率信息，对人声信号进行均衡处理时，可以计算人声信号中的帧的音量平均值，将人声信号中的帧的音量平均值与预设音量进行比较，若人声信号中的帧的音量平均值小于预设音量，可以提高人声信号中的每一帧的音量，可以对于人声信号中的每一帧，将该帧的音量调整为该帧的音量与预设音量增加量之和，若人声信号中的帧的音量平均值大于预设音量，可以降低人声信号中的每一帧的音量，可以对于人声信号中的每一帧，将该帧的音量调整为该帧的音量减去预设音量减少量。

在一些实施例中，伴奏信号的特征信息还包括伴奏的风格信息；以及基于人声信号的频率信息，对人声信号进行均衡处理，得到经过均衡处理的人声信号包括：基于人声信号的频率信息和伴奏的风格信息，对人声信号进行均衡处理，得到经过均衡处理的人声信号。

在本公开中，伴奏的风格信息指示伴奏信号的风格，当基于人声信号的频率信息和伴奏的风格信息，对人声信号进行均衡处理时，可以将人声信号中的帧的音量平均值与该伴奏的风格信息对应的预设音量进行比较，若人声信号中的帧的音量平均值小于该伴奏的风格信息对应的预设音量，可以提高人声信号中的每一帧的音量，可以对于人声信号中的每一帧，将该帧的音量调整为该帧的音量与该伴奏的风格信息对应的预设音量增加量之和，若人声信号中的帧的音量平均值大于该伴奏的风格信息对应的预设音量，可以降低人声信号中的每一帧的音量，可以对于人声信号中的每一帧，将该帧的音量调整为该帧的音量减去该伴奏的风格信息对应的预设音量减少量。

在一些实施例中，人声信号的频率信息包括：人声信号中的帧在预设频带上的音量；基于人声信号的频率信息和伴奏的风格信息，对人声信号进行均衡处理，得到经过均衡处理的人声信号包括：基于人声信号中的帧在预设频带上的音量和目标音量，对人声信号进行均衡处理，得到经过均衡处理的人声信号，其中，目标音量为该预设频带关联的多个预设音量中的、对应于音频信号所属的用户的性别和伴奏的风格信息的预设音量。

对于人声信号中的每一帧，可以对该帧分别进行傅里叶变换(FFT)，得到该帧的频谱，可以根据该帧的频谱，分别计算该帧在每一个预设频带上的音量。

在本公开中，预设频带为与人声的优化相关的频带，可以预先设置多个预设频带。例如，可以预先设置100Hz-200Hz、250-523Hz、600-1000Hz、1300-2000Hz、4kHz-5kHz、6kHz-8kHz等预设频带，100Hz-200Hz与声音的浑厚度相关，250-523Hz为女性声音的人声信号主要出现在的频带，600-1000Hz与声音的开阔度相关，1300-2000Hz与声音的明亮度相关，2.5kHz-4kHz，与人声的穿透力相关，4kHz-5kHz与人声的音色相关，6kHz-8kHz为极高音，与人声的清脆度有关。

在本公开中，对于任意一个预设频带，该预设频带可以关联多个预设音量，对于每一个预设频带，该预设频带关联的每一个预设音量可以各自对应一个性别和伴奏风格组合，性别和伴奏风格组合由一个性别和一个伴奏风格组成。

在本公开中，每一个预设频带各自关联的、对应于音频信号所属的用户的性别和伴奏的风格信息的预设音量均可以称之为目标音量。

对于一个预设频带，基于人声信号中的帧在该预设频带上的音量和目标音量，对人声信号进行均衡处理，该目标音量可以是指该预设频带关联的多个预设音量中的、对应于音频信号所属的用户的性别和伴奏的风格信息的预设音量。

对于任意一个预设频带，均可以基于人声信号中的帧在该预设频带上的音量和目标音量，对人声信号进行均衡处理。

例如，对于任意一个预设频带，可以将人声信号中的帧在该预设频带上的音量中的中位数与该预设频带关联的目标音量进行比较，若该中位数小于目标音量，可以对于人声信号中的每一帧，将该帧在该预设频带上的音量调整为该帧在该预设频带上的当前音量与该预设频带对应的预设音量增加值之和，若该中位数大于目标音量，可以对于人声信号中的每一帧，将该帧在该预设频带上的音量调整为该帧在该预设频带上的当前音量减去该预设频带对应的预设音量减少值。

在一些实施例中，基于人声信号中的帧在预设频带上的音量和目标音量，对人声信号进行均衡处理，得到经过均衡处理的人声信号包括：在人声信号中的帧在该预设频带上的音量的平均值小于目标音量的情况下，确定预设频带对应的音量增加值，以及对于每一帧，将该帧在该预设频带上的音量调整为该帧在该预设频带上的当前音量与该音量增加值之和；在人声信号中的帧在该预设频带上的音量的平均值大于目标音量的情况下，确定该预设频带对应的音量减少值，以及对于每一帧，将该帧在该预设频带上的音量调整为该帧在该预设频带上的当前音量减去该音量减少值。

在确定该预设频带对应的音量增加值时，可以将人声信号中的帧在该预设频带上的音量的平均值与一个第一预设调整系数相乘，第一预设调整系数为正数并且小于1，若得到的乘积大于预设音量调整范围中的最大值，将预设音量调整范围中的最大值确定为该预设频带对应的音量增加值，若得到的乘积小于预设音量调整范围中的最大值，将得到的乘积确定为该预设频带对应的音量增加值，预设音量调整范围中的最大值为正的分贝，预设音量调整范围中的最小值为负的分贝，预设音量调整范围由预设音量调整范围中的最小值到0的子范围和0到预设音量调整范围中的最大值的子范围组成。

在确定该预设频带对应的音量减少值时，可以将人声信号中的帧在该预设频带上的音量的平均值与一个第二预设调整系数相乘，第二预设调整系数为负数，第二预设调整系数大于-1并且小于0，若得到的乘积小于预设音量调整范围中的最小值，将预设音量调整范围中的最小值的绝对值确定为该预设频带对应的音量减少值，若得到的乘积大于预设音量调整范围中的最小值，可以将得到的乘积的绝对值确定为该预设频带对应的音量减少值。

以一个预设频带为例，说明调整每一帧在预设频带上的音量的过程，其他预设频带同理：

假设预设音量调整范围为-3.5dB到3.5dB，该预设频带对应的音量增加值位于预设音量调整范围内，预设音量调整范围中的最大值为3.5dB，预设音量调整范围中的最小值为-3.5dB。

若人声信号中的帧在该预设频带上的音量的平均值小于目标音量，确定该预设频带对应的音量增加值，可以将人声信号中的帧在该预设频带上的音量的平均值与第一预设调整系数相乘，若得到的乘积大于预设音量调整范围中的最大值即3.5dB，将3.5dB确定为该预设频带对应的音量增加值，若得到的乘积小于3.5dB，将得到的乘积确定为该预设频带对应的音量增加值。

若人声信号中的帧在该预设频带上的音量的平均值大于目标音量，确定该预设频带对应的音量减少值，可以将人声信号中的帧在该预设频带上的音量的平均值与一个第二预设调整系数相乘，若得到的乘积小于预设音量调整范围中的最小值即-3.5dB，可以将-3.5dB的绝对值即3.5dB确定为该预设频带对应的音量减少值，若得到的乘积大于预设音量调整范围中的最小值，可以将得到的乘积的绝对值确定为该预设频带对应的音量减少值。

对于任意一个预设频带，若人声信号中的帧在该预设频带上的音量的平均值小于目标音量，对于人声信号中的每一帧，将该帧在该预设频带上的音量调整为该帧在该预设频带上的当前音量与该预设频带对应的音量增加值之和，对于任意一个预设频带，若人声信号中的帧在该预设频带上的音量的平均值大于目标音量，对于人声信号中的每一帧，将该帧在该预设频带上的音量调整为该帧在该预设频带上的当前音量与该预设频带对应的音量减少值之和。

请参考图2，其示出了对人声信号进行均衡处理的一个流程示意图。

人声信号可以称之为干声，对干声进行分帧处理，得到所有帧，对于每一帧分别进行FFT，得到每一帧的频谱，对于每一帧，可以根据该帧的频谱，分别计算该帧在每一个预设频带上的音量。

预设频带可以称之为Filter Band，计算每一个Filter Band平均音量，对于每一个Fi lterBand，该FilterBand平均音量为人声信号中的帧在该预设频带上的音量的平均值。

根据服务器上存储的伴奏音乐即BGM音乐的BGM音乐标识，可以确定伴奏音乐的风格，根据服务器上存储的用户的属性信息，可以确定用户的性别，从而，对于每一个Fi lterBand，可以确定该Filter Band关联的对应于该用户的性别和伴奏的风格信息的目标音量即Target EQ。

对比并且确定每一个FilterBand增益或衰减大小，对于每一个Filter Band，将该FilterBand平均音量与Target EQ进行对比，若该FilterBand平均音量小于Target EQ，确定Fi lter Band的增益的大小即音量增加值，若该Fi lterBand平均音量大于Target EQ，确定Filter Band的衰减的大小即音量减少值，经过均衡处理的人声信号可以称之为EQ后的人声。

步骤104，基于经过均衡处理的人声信号的响度信息和伴奏信号的响度信息，对经过均衡处理的人声信号和伴奏信号进行响度均衡处理，以生成目标音频。

在本公开中，基于经过均衡处理的人声信号的响度信息和伴奏信号的响度信息，对经过均衡处理的人声信号和伴奏信号进行响度均衡处理，得到响度均衡处理后的经过均衡处理的人声信号、响度均衡处理后的伴奏信号，可以将响度均衡处理后的经过均衡处理的人声信号和响度均衡处理后的伴奏信号进行合成，得到目标音频。

经过均衡处理的人声信号的响度信息可以包括经过均衡处理的人声信号中的帧的平均响度，伴奏信号的响度信息可以包括伴奏信号中的帧的平均响度，响度均衡处理可以为：计算伴奏信号中的帧的平均响度减去经过均衡处理的人声信号中的帧的平均响度的差，将该差与预设响度调整量相加，得到目标响度调整量，对于经过均衡处理的人声信号中的每一帧，将该帧的响度调整为该帧人声信号的当前响度与目标响度调整量之和。

在一些实施例中，基于经过均衡处理的人声信号的响度信息和伴奏信号的响度信息，对经过均衡处理的人声信号和伴奏信号进行响度均衡处理，以生成目标音频包括：确定经过均衡处理的人声信号的动态压缩参数信息，其中，动态压缩参数信息包括：压缩比、压缩阈值、起始时长、释放时长；基于动态压缩参数信息，对于经过均衡处理的人声信号进行动态压缩，得到压缩后的经过均衡处理的人声信号；基于经过均衡处理的人声信号的响度信息和伴奏信号的响度信息，对压缩后的经过均衡处理的人声信号和伴奏信号进行响度均衡处理，以生成目标音频。

在一些实施例中，确定经过均衡处理的人声信号的动态压缩参数信息包括：对该人声信号中的帧的频谱流量的平均值和该人声信号中的帧的局部能量的平均值进行加权计算，得到经过均衡处理的人声信号对应的动态范围值；基于该动态范围值，确定压缩比；计算经过均衡处理的人声信号的整体响度；将经过均衡处理的人声信号的整体响度与预设比例系数相乘，得到压缩阈值；当伴奏信号的分钟节拍数大于第一节拍数阈值时，将预设时长范围内的最小时长作为起始时长，以及将最小时长作为释放时长；当伴奏信号的分钟节拍数小于第二节拍数阈值时，将预设时长范围内的最大时长作为起始时长，以及将最大时长作为释放时长，其中，第一节拍数阈值大于第二节拍数阈值；当伴奏信号的分钟节拍数小于第一节拍数阈值并且大于第二节拍数阈值时，在预设时长范围内进行线性插值，将进行线性插值得到的结果作为起始时长，以及将进行线性插值得到的结果作为释放时长。

经过均衡处理的人声信号中的帧的频谱流量(Spectral Flux)的平均值为经过均衡处理的人声信号中的所有帧的频谱流量之和除以人声信号的总帧数，经过均衡处理的人声信号中的帧的局部能量的平均值为经过均衡处理的人声信号中的所有帧的局部能量之和除以人声信号的总帧数，对经过均衡处理的人声信号中的帧的频谱流量的平均值和经过均衡处理的人声信号中的帧的局部能量的平均值进行加权计算，得到经过均衡处理的人声信号对应的动态范围值，经过均衡处理的人声信号对应的动态范围值指示经过均衡处理的人声信号中的相邻的两帧的人声信号的变化范围。

例如，经过均衡处理的人声信号中的帧的频谱流量的平均值的权重为0.5，经过均衡处理的人声信号中的帧的局部能量的平均值的权重为0.5，将经过均衡处理的人声信号中的帧的频谱流量的平均值与0.5相乘得到的结果与经过均衡处理的人声信号中的帧的局部能量的平均值与0.5相乘得到的结果相加，得到经过均衡处理的人声信号对应的动态范围值。

在本公开中，可以预先确定动态范围值与压缩比的之间的对应关系，可以将经过均衡处理的人声信号对应的动态范围值和预先确定的动态范围值和压缩比的之间的对应关系，确定经过均衡处理的人声信号的动态压缩参数信息中的压缩比。

压缩比的大小与经过均衡处理的人声信号对应的动态范围值的大小正相关，经过均衡处理的人声信号对应的动态范围值越大，经过均衡处理的人声信号的动态压缩参数信息中的压缩比越大。

作为示例，可以采用以下公式计算经过均衡处理的人声信号中的一帧的频谱流量：

SFnorm(n)为第n帧的频谱流量，N表示在对第n帧进行短时傅里叶变换得到的频点总数量，k表示频点的序号，X(n，k)为第n帧在频域中的表示，X(n-1，k)为第n-1帧在频域中的表示，第n帧在频域中的表示通过对第n帧在时域中的表示进行短时傅里叶变换得到，第n-1帧在频域中的表示通过对第n-1帧在时域中的表示进行短时傅里叶变换得到。

H(x)表示对x进行半波整流操作，当k的取值为某一个频点的序号时，X(n，k)的取值为第n帧在频域中的该频点的取值，X(n-1，k)的取值为第n-1帧在频域中的该频点的取值。

在本公开中，可以采用已有的针对信号的能量计算方法计算第n帧的能量和第n-1帧的能量，对第n帧的能量减去第n-1帧的能量的差进行半波整流操作，得到第n帧的局部能量。

作为示例，可以采用以下方式计算经过均衡处理的人声信号中的一帧的局部能量：

LE(n)＝H(E(n+1)-E(n-1))

E(n)表示第n帧的能量，w(m)表示预设窗口函数例如汉宁窗，k为在对第n帧进行短时傅里叶变换得到的频点的序号，当k的取值为某一个频点的序号时，X(n，k)的取值为第n帧在时域中对应于该频点的时间点的取值，w(m)的取值为在对应于该频点的时间点的窗口函数值。

LE(n)为第n帧的局部能量，对第n帧的能量减去第n-1帧的能量的差进行半波整流操作，得到第n帧的局部能量。

在本公开中，可以计算经过均衡处理的人声信号中的每一帧的响度，将人声信号中的帧的响度的平均值作为经过均衡处理的人声信号的整体响度，将经过均衡处理的人声信号的整体响度与预设比例系数相乘，将得到的乘积作为经过均衡处理的人声信号的动态压缩参数信息中的压缩阈值，预设比例系数小于1，例如预设比例系数为0.8。

在本公开中，在确定经过均衡处理的人声信号的动态压缩参数信息中的起始时长和释放时长时，可以首先获取伴奏信号的分钟节拍数(Beat Per Minute，BPM)，伴奏信号的BPM指示伴奏信号的节奏的快慢，在服务器存储伴奏信号的BPM的情况下，可以从服务器直接获取该伴奏信号的BPM，在服务器未存储该伴奏信号的BPM的情况下，可以计算伴奏信号的BPM，从而，获取到该伴奏信号的BPM。

在本公开中，在设置经过均衡处理的人声信号的动态压缩参数信息中的起始时长即Attack time和经过均衡处理的人声信号的动态压缩参数信息中的释放时长Releasetime时，考虑了伴奏信号的节奏快慢，对于伴奏信号的节奏较慢的演唱音频，可以将起始时长和释放时长均设置为较短的时长，对于伴奏信号的节奏较快的演唱音频，可以将起始时长和释放时长均设置为较短的时长，使得在动态压缩之后的音频中的人声更有力度感。

在获取伴奏信号的伴奏信号的BPM之后，可以根据伴奏信号的BPM、第一节拍数阈值、第二节拍数阈值、预设时长范围，确定经过均衡处理的人声信号的动态压缩参数信息中的起始时长和释放时长。

当该伴奏信号的分钟节拍数小于第一节拍数阈值并且大于第二节拍数阈值时，可以在预设时长范围内进行线性插值，可以建立由BPM的坐标轴和时长的坐标轴组成的坐标系，BPM的坐标轴为横坐标轴，时长的坐标轴为纵坐标轴，第一节拍数阈值和预设时长范围内的最小时长对应坐标系中的一个点，该点的横坐标为第一节拍数阈值，该点的纵坐标为预设时长范围内的最小时长，第二节拍数阈值和预设时长范围内的最大时长对应坐在系中的一个点，该点的横坐标为第二节拍数阈值，该点的纵坐标为预设时长范围内的最大时长，第一节拍数阈值和预设时长范围内的最小时长对应的坐标系中的一个点与第二节拍数阈值和预设时长范围内的最大时长对应坐在系中的一个点之间的连线可以作为表示BPM与时长的对应关系的直线，确定表示BPM与时长的对应关系的直线中的、横坐标为伴奏信号的分钟节拍数的点，该点的纵坐标即为进行线性插值得到的结果。

例如，第一节拍数阈值为150。第二节拍数阈值为60。预设时长范围为10ms-100ms。预设时长范围内的最小时长为10ms，预设时长范围内的最大时长为100ms，当伴奏信号的BPM大于第一节拍数阈值即150时，将预设时长范围内的最小值即10ms作为经过均衡处理的人声信号的动态压缩参数信息中的Attack time，以及将10ms作为经过均衡处理的人声信号的动态压缩参数信息中的Release time，当伴奏信号的BPM小于第二节拍数阈值即60时，将预设时长范围内的最大值即100ms作为经过均衡处理的人声信号的Attack time，以及将100ms作为经过均衡处理的人声信号的Release time，当伴奏信号的BPM小于第一节拍数阈值即150并且大于第二节拍数阈值即60时，在预设时长范围10ms-100ms内进行线性插值，进行线性插值得到的结果大于10ms并且小于100ms，将进行线性插值得到的结果作为经过均衡处理的人声信号的动态压缩参数信息中的Attack time，以及将进行线性插值得到的结果作为经过均衡处理的人声信号的动态压缩参数信息中的Release time。

在一些实施例中，还包括：计算伴奏信号中的帧的频域丰富度的平均值，以及对伴奏信号的分钟节拍数和伴奏信号中的帧的频域丰富度的平均值进行加权计算，得到候选混响强度值；基于候选混响强度值和预设混响强度值范围，确定目标混响强度值；以目标混响强度值，对目标音频进行混响处理，得到经过混响处理的目标音频。

在本公开中，可以采用以下公式计算伴奏信号中的第n帧的频域丰富度(SpectralRichness):

Mag(n，k)表示伴奏信号中的第n帧在频域中的幅度，Mag(n，k)＝abs(X(n，k))，X(n，k)为伴奏信号中的第n帧在频域中的表示，X(n，k)＝STFT(x(t))，x(t)为伴奏信号中的第n帧在时域中的表示，STFT(x(t))表示对伴奏信号中的第n帧在时域中的表示进行短时傅里叶变换。

在计算出伴奏信号中的每一帧的频域丰富度之后，可以计算伴奏信号中的帧的频域丰富度的平均值，伴奏信号中的帧伴奏信号的频域丰富度的平均值SpectralRichness_average表示为：

然后，对伴奏信号的分钟节拍数和伴奏信号中的帧的频域丰富度的平均值进行加权计算，得到候选混响强度值，可以采用以下公式计算候选混响强度值ReverbSize：

ReverbSize＝(w_BPM×L(BPM)+w_specrichness×L(SpecRichness_average))

L(BPM)表示对伴奏信号的BPM进行归一化处理之后得到的归一化值，L(SpectralRichness_average)表示对伴奏信号中的帧伴奏信号的频域丰富度的平均值进行归一化处理得到的归一化值。

W_bpm表示伴奏信号的BPM的权重、W_{SpectralRichness}表示伴奏信号中的帧的频域丰富度的平均值的权重。W_bpm+W_{SpectralRichness}＝1。

由于频谱丰富程度与音乐的整体风格和特点的关联度更高，W_{SpectralRichness}可以大于W_bpm。

最后，基于候选混响强度值和预设混响强度值范围，确定目标混响强度值。

在本公开中，可以预先设置混响强度范围，当计算出的候选混响强度值在混响强度范围内时，则可以将计算出的候选混响强度值确定为目标混响强度值，当计算出的候选混响强度值不在混响强度范围内并且小于混响强度范围中的最小值时，可以将混响强度范围中的最小值确定为目标混响强度值，当计算出的候选混响强度值不在混响强度范围内并且大于混响强度范围中的最大值时，可以将混响强度范围中的最大值确定为目标混响强度值。

图3是根据一示例性实施例示出的一种音频处理装置的结构框图。参照图3，音频处理装置包括：录制模块301，确定模块302，均衡处理模块303，目标音频生成模块304。

录制模块301被配置为采集录制的音频信号，所述音频信号包括：人声信号、伴奏信号；

确定模块302被配置为确定所述人声信号和伴奏信号的特征信息，所述人声信号的特征信息中包括频率信息，所述伴奏信号的特征信息包括响度信息；

均衡处理模块303被配置为基于所述人声信号的频率信息，对所述人声信号进行均衡处理，得到经过均衡处理的人声信号；

目标音频生成模块304被配置为基于经过均衡处理的人声信号的响度信息和伴奏信号的响度信息，对经过均衡处理的人声信号和伴奏信号进行响度均衡处理，以生成目标音频。

在一些实施例中，目标音频生成模块包括：

在一些实施例中，音频处理装置还包括：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种电子设备的结构框图。参照图4，电子设备包括处理组件422，其进一步包括一个或多个处理器，以及由存储器432所代表的存储器资源，用于存储可由处理组件422执行的指令，例如应用程序。存储器432中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件422被配置为执行指令，以执行上述方法。

电子设备还可以包括一个电源组件426被配置为执行电子设备的电源管理，一个有线或无线网络接口450被配置为将电子设备连接到网络，和一个输入输出(I/O)接口458。电子设备可以操作基于存储在存储器432的操作系统，例如Windows ServerTM，MacOS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器，上述指令可由电子设备执行以完成上述音频处理方法。可选地，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，本申请还提供一种计算机程序产品，包括计算机可读代码，当计算机可读代码在电子设备上运行时，使得电子设备执行音频处理方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，伴奏信号的特征信息还包括伴奏的风格信息；以及

3.据权利要求2所述的方法，其特征在于，所述人声信号的频率信息包括：人声信号中的帧在预设频带上的音量；以及

4.根据权利要求3所述的方法，其特征在于，基于人声信号中的帧在预设频带上的音量和目标音量，对所述人声信号进行均衡处理，得到经过均衡处理的人声信号包括：

5.根据权利要求1所述的方法，其特征在于，基于经过均衡处理的人声信号的响度信息和伴奏信号的响度信息，对经过均衡处理的人声信号和伴奏信号进行响度均衡处理，以生成目标音频包括：

6.根据权利要求5所述的方法，其特征在于，确定经过均衡处理的人声信号的动态压缩参数信息包括：

基于所述动态范围值，确定所述压缩比；

计算所述经过均衡处理的人声信号的整体响度；

7.根据权利要求1-6之一所述的方法，其特征在于，所述方法还包括：

8.一种音频处理装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的方法。

10.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至7中任一项所述的方法。