CN112951265A

CN112951265A - 音频处理方法、装置、电子设备和存储介质

Info

Publication number: CN112951265A
Application number: CN202110107918.6A
Authority: CN
Inventors: 熊贝尔; 朱一闻; 曹偲; 郑博; 刘华平
Original assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Current assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Priority date: 2021-01-27
Filing date: 2021-01-27
Publication date: 2021-06-11
Anticipated expiration: 2041-01-27
Also published as: CN112951265B

Abstract

本申请提供一种音频处理方法、装置、电子设备和存储介质，该方法包括：获取干音音频中目标时间段的目标干音音频；根据该目标干音音频的全局能量特征和该目标干音音频对应的目标伴奏音频的全局掩蔽特征，确定伴奏音频对干音音频的目标掩蔽能力度量值；基于预先设置的伴奏对干音的掩蔽能力度量值与伴奏干音音量比的对应关系，确定上述目标掩蔽能力度量值对应的目标伴奏干音音量比，将伴奏音频与干音音频的音量比调节至目标伴奏干音音量比。本申请可以得到适合音乐作品的伴奏音频与干音音频的音量比，并将伴奏音频的音量与干音音频的音量调节至该音量比，节省用户的调音时间，调音过程简单并且调音效果好。

Description

音频处理方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域，更具体地说，涉及一种音频处理方法、装置、电子设备和存储介质。

背景技术

一些唱歌软件的使用给用户的生活带来了许多乐趣。用户可以通过这些唱歌软件录制歌曲，生产自己的音乐作品，这一般分为三个过程：人声录制过程、回放调音过程、伴奏人声混音过程。在回放调音过程，可以在回放调音界面显示人声音量和伴奏音量，并且伴奏音量和人声音量的比例为预先设置的固定比例。

但是，上述伴奏音量和人声音量的固定比例，并不适用于所有音乐作品，通常需要用户自行调节伴奏音量和人声音量的比例，调音过程比较繁琐，并且用户自行调音的效果不好。

发明内容

本申请实施例提供一种音频处理方法、装置、电子设备和存储介质，用以为用户推荐合适的伴奏音频和人声音频的音量比，节省用户的调音时间，调音过程简单并且调音效果好。

一方面，本申请实施例提供一种音频处理方法，包括：

获取干音音频中目标时间段的目标干音音频；

根据所述目标干音音频的全局能量特征和所述目标干音音频对应的目标伴奏音频的全局掩蔽特征，确定所述干音音频对应的伴奏音频对所述干音音频的目标掩蔽能力度量值；

根据预先设置的伴奏对干音的掩蔽能力度量值与伴奏干音音量比的对应关系，确定所述目标掩蔽能力度量值对应的目标伴奏干音音量比；

将所述伴奏音频与所述干音音频的音量比调节至所述目标伴奏干音音量比。

在一种可选的实施方式中，所述获取干音音频中的目标时间段的目标干音音频，包括：

获取所述干音音频的各帧音频的均方根能量数据；

确定所述干音音频中设定时间段内的均方根能量数据的和最大的时间段，将确定的时间段的干音音频作为所述目标干音音频。

在一种可选的实施方式中，所述获取所述干音音频的各帧音频的均方根能量数据之后，确定所述干音音频中设定时间段内的均方根能量数据的和最大的时间段之前，还包括：

从获取的均方根能量数据中，去除所述干音音频的第一静音区域的均方根能量数据。

在一种可选的实施方式中，所述方法还包括：

对于所述目标干音音频的每帧音频，将所述每帧音频的各频带的能量特征求和，得到所述每帧音频的能量特征；

将所述目标干音音频的各帧音频的能量特征的和作为所述全局能量特征。

在一种可选的实施方式中，所述方法还包括：

从预先获取的所述伴奏音频的各帧音频的掩蔽特征中，获取所述目标时间段的伴奏音频的各帧音频的掩蔽特征；

将所述各帧音频的掩蔽特征的和作为所述目标伴奏音频的全局掩蔽特征。

在一种可选的实施方式中，所述获取所述目标时间段的伴奏音频的各帧音频的掩蔽特征之后，将所述各帧音频的掩蔽特征的和作为所述目标伴奏音频的全局掩蔽特征之前，还包括：

从获取的掩蔽特征中，去除所述目标时间段的第二静音区域的伴奏音频的掩蔽特征。

在一种可选的实施方式中，所述预先获取的所述伴奏音频的各帧音频的掩蔽特征通过如下方式获得：

对于所述伴奏音频的每帧音频，将所述每帧音频的各频带的掩蔽阈值求和，得到所述每帧音频的掩蔽特征。

在一种可选的实施方式中，所述将所述每帧音频的各频带的掩蔽阈值求和，包括：

将所述每帧音频中的最低Bark频带的音频剔除；

将剔除所述最低Bark频带后的每帧音频的各频带的掩蔽阈值求和。

在一种可选的实施方式中，所述根据所述目标干音音频的全局能量特征和所述目标干音音频对应的目标伴奏音频的全局掩蔽特征，确定所述干音音频对应的伴奏音频对所述干音音频的目标掩蔽能力度量值，包括：

将所述全局掩蔽特征和所述全局能量特征的比值的平方根，作为所述干音音频对应的伴奏音频对所述干音音频的目标掩蔽能力度量值。

在一种可选的实施方式中，所述预先设置的伴奏对干音的掩蔽能力度量值与伴奏干音音量比的对应关系通过如下方式获得：

基于样本数据集，建立伴奏对干音的掩蔽能力度量值与伴奏干音音量比的线性回归模型，并采用最小二乘法确定所述线性回归模型的系数；其中，所述样本数据集中的每个样本包括伴奏对干音的掩蔽能力度量值，以及标注的伴奏干音音量比。

一方面，本申请实施例提供一种音频处理装置，包括：

干音获取模块，用于获取干音音频中目标时间段的目标干音音频；

第一确定模块，用于根据所述目标干音音频的全局能量特征和所述目标干音音频对应的目标伴奏音频的全局掩蔽特征，确定所述干音音频对应的伴奏音频对所述干音音频的目标掩蔽能力度量值；

第二确定模块，用于根据预先设置的伴奏对干音的掩蔽能力度量值与伴奏干音音量比的对应关系，确定所述目标掩蔽能力度量值对应的目标伴奏干音音量比；

调节模块，用于将所述伴奏音频与所述干音音频的音量比调节至所述目标伴奏干音音量比。

在一种可选的实施方式中，所述干音获取模块还用于：

获取所述干音音频的各帧音频的均方根能量数据；

在一种可选的实施方式中，所述装置还包括第一去除模块，用于：

在一种可选的实施方式中，所述装置还包括能量特征获取模块，用于：

在一种可选的实施方式中，所述装置还包括掩蔽特征获取模块，用于：

在一种可选的实施方式中，所述装置还包括第二去除模块，用于：

在一种可选的实施方式中，所述掩蔽特征获取模块还用于：

将所述每帧音频中的最低Bark频带的音频剔除；

在一种可选的实施方式中，所述第一确定模块还用于：

在一种可选的实施方式中，所述装置还包括建立模块，用于：

一方面，本申请实施例提供一种电子设备，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器实现上述任一种音频处理方法的步骤。

一方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一种音频处理方法的步骤。

本申请实施例提供的一种音频处理方法、装置、电子设备和存储介质中，首先获取干音音频中目标时间段的目标干音音频，根据该目标干音音频的全局能量特征和该目标干音音频对应的目标伴奏音频的全局掩蔽特征，确定伴奏音频对干音音频的目标掩蔽能力度量值，然后基于预先设置的伴奏对干音的掩蔽能力度量值与伴奏干音音量比的对应关系，确定上述目标掩蔽能力度量值对应的目标伴奏干音音量比，将伴奏音频与干音音频的音量比调节至目标伴奏干音音量比。因此，本申请实施例通过分析目标时间段内的伴奏音频对干音音频的掩蔽能力，可以得到适合音乐作品的伴奏音频与干音音频的音量比，并将伴奏音频的音量与干音音频的音量调节至该音量比，节省用户的调音时间，调音过程简单并且调音效果好。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例方式中一种回放调音界面的示意图；

图2为本申请实施例方式中一种音频处理方法的应用场景的示意图；

图3为本申请实施例方式中一种音频处理方法的实施流程图；

图4为本申请实施例方式中另一种音频处理方法的实施流程图；

图5为本申请实施例方式中一种音频处理装置的结构示意图；

图6为本申请实施例方式中一种电子设备的结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请，而并非以任何方式限制本申请的范围。相反，提供这些实施方式是为了使本申请更加透彻和完整，并且能够将本申请的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本申请的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本申请可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

为了方便理解，下面对本申请实施例中涉及的部分概念进行解释：

音轨(audio track)：例如，在唱歌软件的唱歌场景下包括人声音轨、伴奏音轨等，本申请实施例中可以理解为音频。

干音音频：指的是人声音频，即没有任何处理的原始人声录音。

响度(loudness)：人听起来的声音大小，可以理解为音量。

听阈：一个声音刚好能引起听觉感受的响度，单位是dB。

掩蔽效应(masking)：心理声学的概念，例如声音A掩盖了声音B，提升了声音B听阈的一种现象。

掩蔽阈值(masking threshold)：心理声学的概念，以频带为单位衡量声音A对声音B的掩蔽能力的一个数值，由心理声学模型计算所得。

音量归一化：将不同音频或音轨，统一到某一响度值上，单位是lufs或dB。很多音乐平台对发布作品前会做音量归一化操作，使每首歌听起来音量差不多。现行主流的音量归一化标准为Replaygain2.0。

伴奏人声音量比：唱歌软件的调音界面中可以调节伴奏音频和人声音频的音量，伴奏音频和人声音频的音量比例，称为伴奏人声音量比。

VAD(Voice Activity Detection，语音活动检测)：用于检测音频中有人声的区域。

RMS(Root Mean Square，均方根)：将N个项的平方和除以N后开平方。本申请实施例中指的是一帧信号的均方根能量，体现了信号的短时能量特性。

混音(audio mixing)：在音乐后期制作中，将多个音轨(器乐、人声等)融合成一个音轨，以达到最佳的听觉效果。这个过程包含对单个音轨的音量调节、混响、均衡、压缩等音频处理。

下面对本申请实施例的设计思想进行介绍。

本申请人发现，目前的一些唱歌软件，当用户完成人声录制后，在回放调音界面，可以显示人声音量和伴奏音量，例如图1所示的回放调音界面，其中伴奏音量与人声音量的比例为设定的固定比例，例如80％：40％，该固定比例通常根据人耳的先验知识设定，即人声音量一般需要比伴奏音量偏大，并未考虑人声音轨和伴奏音轨混合后产生的掩蔽效应，即在伴奏音轨和人声音轨经过音量归一化并混音后，会产生伴奏掩盖人声的情况。因此，上述人声音量和伴奏音量的固定比例，并不适用于所有音乐作品，通常需要用户自行调节人声音量和伴奏音量的比例，调音过程比较繁琐，并且用户自行调音的效果不好。

为了改善上述情况，本申请实施例提供一种音频处理方法、装置、电子设备和存储介质中，首先获取干音音频中目标时间段的目标干音音频，根据该目标干音音频的全局能量特征和该目标干音音频对应的目标伴奏音频的全局掩蔽特征，确定伴奏音频对干音音频的目标掩蔽能力度量值，然后基于预先设置的伴奏对干音的掩蔽能力度量值与伴奏干音音量比的对应关系，确定上述目标掩蔽能力度量值对应的目标伴奏干音音量比，将伴奏音频与干音音频的音量比调节至目标伴奏干音音量比。因此，本申请实施例通过分析目标时间段内的伴奏音频对干音音频的掩蔽能力，可以得到适合音乐作品的伴奏音频与干音音频的音量比，并将伴奏音频的音量与干音音频的音量调节至该音量比，节省用户的调音时间，调音过程简单并且调音效果好。

下面结合附图对本申请实施例的应用场景进行介绍。

参考图2，其为本申请实施例所提供的音频处理方法的应用场景示意图。该应用场景包括终端设备100和服务器200。其中，终端设备100和服务器200之间可通过有线或无线的通信网络连接。终端设备100包括但不限于桌面计算机、移动电话、移动电脑、平板电脑、媒体播放器、智能可穿戴设备、智能电视、车载设备、个人数字助理(personal digitalassistant，PDA)等电子设备。服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

终端设备100中可以安装各种软件，例如安装有唱歌软件等，服务器200可以预先保存唱歌软件中的各个歌曲的伴奏音频的掩蔽特征，当用户通过终端设备100中的唱歌软件录制歌曲时，终端设备100可以获取到用户录制的干音音频，还可以向服务器200发送请求，以获取干音音频对应的伴奏音频的掩蔽特征，终端设备100基于干音音频和该干音音频对应的伴奏音频的掩蔽特征，可以分析伴奏音频对干音音频的掩蔽能力，进而确定伴奏音频和干音音频的音量比。其中伴奏音频的掩蔽特征包括伴奏音频的各帧音频的掩蔽特征，每帧音频的掩蔽特征可以为该帧音频的各频带的掩蔽阈值之和。

需要说明的是，终端设备还可以将获取到的干音音频发送给服务器200，服务器200基于干音音频和该干音音频对应的伴奏音频的掩蔽特征，可以分析伴奏音频对干音音频的掩蔽能力，进而确定伴奏音频和干音音频的音量比。

下面结合图2的应用场景，来描述根据本申请示例性实施方式的音频处理方法。需要注意的是，上述应用场景仅是为了便于理解本申请的精神和原理而示出，本申请的实施方式在此方面不受任何限制。相反，本申请的实施方式可以应用于适用的任何场景。

参考图3，本申请实施例提供了一种音频处理方法，可应用于终端设备，例如图2所示的终端设备100，也可以应用于服务器，例如图2所示的服务器200，在此不作限制。音频处理方法可以包括以下步骤：

步骤S301，获取干音音频中目标时间段的目标干音音频。

其中，干音音频可以是用户录制的人声音频，例如，用户通过终端设备上的唱歌软件进行人声录制过程中，终端设备可以获取到干音音频，目标时间段可以是干音音频中的任一时间段的音频，例如该干音音频的时长为3min，目标时间段可以是1′30″至2′之间的时间段，还可以是2′至2′30″之间的时间段等等，并且，该任一时间段的时长可以根据需要进行设定，例如30s、40s等等，本申请实施例对此不作限定。

步骤S302，根据目标干音音频的全局能量特征和目标干音音频对应的目标伴奏音频的全局掩蔽特征，确定干音音频对应的伴奏音频对干音音频的目标掩蔽能力度量值。

在步骤S302中，全局能量特征可以是目标干音音频的各帧音频的能量特征之和，每帧音频的能量特征可以根据标准ISO/IEC 11172-3中的心理声学模型二计算得到。全局掩蔽特征可以是目标伴奏音频的各帧音频的掩蔽特征之和，每帧音频的掩蔽特征可以根据该帧音频的掩蔽阈值曲线计算得到，掩蔽阈值曲线也可以根据标准ISO/IEC 11172-3中的心理声学模型二计算得到。

本申请实施例中，例如可以通过全局掩蔽特征和全局能量特征的比值，来衡量伴奏音频对干音音频的掩蔽能力，进而确定伴奏音频对干音音频的目标掩蔽能力度量值。

步骤S303，根据预先设置的伴奏对干音的掩蔽能力度量值与伴奏干音音量比的对应关系，确定目标掩蔽能力度量值对应的目标伴奏干音音量比。

其中，伴奏对干音的掩蔽能力度量值与伴奏干音音量比的对应关系可以基于音乐作品集确定，对于音乐作品集中的每个音乐作品，通过上述步骤S301-S302可以确定对应的伴奏对干音的掩蔽能力度量值，而伴奏干音音量比可以根据人耳经验确定。这样，根据各个音乐作品的伴奏对干音的掩蔽能力度量值和伴奏干音音量比，可以确定二者的对应关系。

步骤S304，将伴奏音频与干音音频的音量比调节至目标伴奏干音音量比。

该步骤中，例如，可以首先调节干音音频的音量，将干音音频的音量调节为固定音量后，调整伴奏音量，使得伴奏音频与干音音频的音量比为目标伴奏干音音量比。还可以不调节干音音频的音量，基于干音音频的固定音量，仅调节伴奏音量，使得伴奏音频与干音音频的音量比为目标伴奏干音音量比。

进一步地，将调节好的伴奏音频和干音音频进行混音后，得到相应的音乐作品，该音乐作品中，伴奏音频的掩蔽水平不会影响干音音频，使得人耳听起来感觉舒服。

本申请实施例通过分析目标时间段内的伴奏音频对干音音频的掩蔽能力，可以得到适合音乐作品的伴奏音频与干音音频的音量比，并将伴奏音频的音量与干音音频的音量调节至该音量比，节省用户的调音时间，调音过程简单并且调音效果好。

考虑到在干音音频最稳定的时间段内，伴奏音频对干音音频的掩蔽能力更能体现整个伴奏音频对整个干音音频的掩蔽能力，因此，上述步骤S301中的目标时间段可以是干音音频最稳定的时间段，而干音音频最稳定的时间段可以是干音音频能量最集中的时间段。

在一些实施例中，上述步骤S301可以通过如下步骤a和步骤b实现：

a、获取干音音频的各帧音频的均方根能量数据。

其中，每帧音频的均方根能量数据可以是上述一帧信号的均方根能量RMS，帧长可以为1024或2048个采样点，在人声录制过程中，可以实时获得每帧音频的各个采样点的能量，这里的能量可以理解为声波的平均能流密度，可以表征音量，然后计算各个采样点的能量的均方根能量RMS。

b、确定干音音频中设定时间段内的均方根能量数据的和最大的时间段，将确定的时间段的干音音频作为目标干音音频。

该步骤中，设定时间段可以根据需要进行设定，本申请实施例不作限定，下面以设定时间段为[x,x+τ₀]为例，可以通过如下式(1)确定[x,x+τ₀]时间段内的RMS和最大的时间段

其中，x是音频帧的序号，用来表征干音音频的时间点，X是帧的集合，τ₀是预设的固定时长，例如可以是12s～20s，f(x)是时间[x,x+τ₀]内的RMS和，argmax是对函数f(x)求参数的函数，

表示当函数f(x)取

的时候，得到f(x)取值范围的最大值。

根据上述式(1)，采用动态规划的思想，遍历一遍干音音频的各帧音频的RMS，可以确定使f(x)最大的

进而可以确定[x,x+τ₀]时间段内的RMS和最大的时间段

即可以作为干音音频最稳定的时间段。

进一步地，考虑到干音音频中通常存在静音区域，而静音区域可能存在一些噪声，为了防止噪声能量的干扰，在上述步骤a中获取到干音音频的各帧音频的均方根能量数据之后，在执行步骤b确定干音音频中设定时间段内的均方根能量数据的和最大的时间段之前，还可以执行如下步骤：

从获取的均方根能量数据中，去除干音音频的第一静音区域的均方根能量数据。

其中，获取的均方根能量数据即干音音频中各帧音频的RMS，例如，可以采用VAD检测模块对各帧音频的RMS进行检测，得到VAD信息，根据该VAD信息可以确定出干音音频中的人声区域与静音区域。上述VAD信息可以包括干音音频中人声区域的时间段和静音区域的时间段，例如，时长为3min的干音音频中，30″-35″之间、2′-2′5″之间、2′15″-2′20″之间为静音区域，其他时间段为人声区域。

为了去除确定出的静音区域可能存在的噪声能量，即上述第一静音区域的均方根能量数据，可以将确定出的静音区域的RMS的值设置为零，以确保静音区域无有效能量。

在一些可能的实施方式中，在执行上述步骤S302之前，可以通过以下步骤1和步骤2确定目标干音音频的全局能量特征：

1、对于目标干音音频的每帧音频，将每帧音频的各频带的能量特征求和，得到每帧音频的能量特征。

该步骤中，可以用x₁表示目标干音音频的帧序号，一帧音频的各频带用z表示，音频帧x₁的各频带z的能量特征为E(x₁,z)，分帧计算音频帧x₁的E(x₁,z)，E(x₁,z)可以采用标准ISO/IEC 11172-3中的心理声学模型二计算。在得到音频帧x₁的各频带z的E(x₁,z)后，可以将各频带z的能量特征E(x₁,z)求和，得到音频帧x₁的能量特征E(x₁)，即得到每帧音频的能量特征，E(x₁)可以通过以下式(2)进行计算：

其中，音频帧x₁的各频带z为1～24Bark，Bark用来衡量一个临界频带宽度，每个Bark对应于人耳的基底膜上约1mm的固定长度。临界频带是人类听觉的一种特征，即在一个1mm的固定长度对应的临界频带内的频率，人耳在听觉上是区分不出差别的。

2、将目标干音音频的各帧音频的能量特征的和作为全局能量特征。

该步骤中，在得到目标干音音频的音频帧x₁的能量特征E(x₁)之后，可以根据下式(3)计算

时间段内的目标干音音频的全局能量特征E：

在一些可能的实施方式中，在执行上述步骤S302之前，还可以通过以下步骤一和步骤二确定目标伴奏音频的全局掩蔽特征：

一、从预先获取的伴奏音频的各帧音频的掩蔽特征中，获取目标时间段的伴奏音频的各帧音频的掩蔽特征。

该步骤中，预先获取的伴奏音频的各帧音频的掩蔽特征可以通过如下方式获得：

对于伴奏音频的每帧音频，将每帧音频的各频带的掩蔽阈值求和，得到每帧音频的掩蔽特征。

由于伴奏音频和干音音频的音频帧的序号是一一对应的，因此，可以用x表示伴奏音频的帧序号，一帧音频的各频带用z表示，首先分帧计算音频帧x的掩蔽阈值曲线，该掩蔽阈值曲线包括音频帧x的各频带z的掩蔽阈值M(x,z)，可以根据标准ISO/IEC 11172-3中的心理声学模型二计算各帧音频的掩蔽阈值曲线。在得到音频帧x的各频带z的掩蔽阈值M(x,z)后，可以将各频带z的掩蔽阈值M(x,z)求和，得到音频帧x的掩蔽特征M(x)，即得到每帧音频的掩蔽特征，M(x)可以通过以下式(4)进行计算：

在上述得到的伴奏音频的各帧音频的掩蔽特征中，可以获取目标时间段

的伴奏音频(即目标伴奏音频)的各帧音频的掩蔽特征。

在一些实施例中，考虑到每帧音频的最低Bark频带可能产生底噪，因此，在上述将每帧音频的各频带的掩蔽阈值求和时，还可以将每帧音频中的最低Bark频带的音频剔除；将剔除最低Bark频带后的每帧音频的各频带的掩蔽阈值求和。

二、将各帧音频的掩蔽特征的和作为目标伴奏音频的全局掩蔽特征。

该步骤中，在得到目标伴奏音频的音频帧x的掩蔽特征M(x)之后，可以根据下式(5)计算目标时间段

内的目标伴奏音频的全局掩蔽特征M：

进一步地，考虑到目标时间段可能存在静音区域，而静音区域没有人声，伴奏的掩蔽效应无效，可以将静音区域的掩蔽特征去除。因此，在步骤一中获取目标时间段的伴奏音频的各帧音频的掩蔽特征之后，在执行步骤二之前，还可以执行如下步骤：

从获取的掩蔽特征中，去除目标时间段的第二静音区域的伴奏音频的掩蔽特征。

由于目标时间段为干音音频的某一时间段，因此，基于上述实施例中的干音音频的第一静音区域，可以确定目标时间段的第二静音区域，例如，对于3min时长的干音音频，30″-35″之间、2′-2′5″之间、2′15″-2′20″之间为第一静音区域，目标时间段为2′至2′30″之间的时间段，可以看出，2′至2′30″之间的时间段包含2′15″-2′20″之间的时间段，此时，目标时间段的第二静音区域为2′15″-2′20″。

例如，为了去除第二静音区域的伴奏音频的掩蔽特征，可以将第二静音区域的掩蔽特征设置为零。

在一些可能的实施方式中，上述步骤S303根据目标干音音频的全局能量特征和目标干音音频对应的目标伴奏音频的全局掩蔽特征，确定干音音频对应的伴奏音频对干音音频的目标掩蔽能力度量值，可以通过如下方式确定：

将全局掩蔽特征和全局能量特征的比值的平方根，作为干音音频对应的伴奏音频对干音音频的目标掩蔽能力度量值。

本申请实施例中，例如，全局掩蔽特征为M，全局能量特征为E，可以通过全局掩蔽特征和全局能量特征的比值

来衡量目标伴奏音频对目标干音音频的掩蔽能力。由心理声学模型二可知，上述掩蔽特征和能量特征均为信号幅度的平方项，即M和E均为信号幅度的平方项，其中信号幅度对应的是音量，即能量特征可以表征音量，因此，可以将

作为干音音频对应的伴奏音频对干音音频的目标掩蔽能力度量值。

在一些实施例中，考虑到干音音频的能量特征越小，伴奏音频的掩蔽能力越强，通常干音音频的音量需要大于伴奏音频的音量，即伴奏干音音量比r＜1，理论上

和r呈负相关，即

与r呈负相关。

为了确定

与伴奏干音音量比r的关系，本申请实施例预先获取大量的样本数据集，样本数据集中的每个样本包括音乐作品的伴奏对干音的掩蔽能力度量值，以及标注的伴奏干音音量比。例如，样本数据集包括不同风格的100首音乐作品，通过上述实施例的音频处理方法，可以确定每首音乐作品的伴奏对干音的掩蔽能力度量值

然后通过人耳经验分别标注这100首音乐作品的最佳伴奏干音音量比

基于上述样本数据集，可以确定

与

可以是线性关系。

进一步地，上述实施例中预先设置的伴奏对干音的掩蔽能力度量值与伴奏干音音量比的对应关系，可以通过如下方式获得：

基于样本数据集，建立伴奏对干音的掩蔽能力度量值与伴奏干音音量比的线性回归模型，并采用最小二乘法确定线性回归模型的系数；其中，样本数据集中的每个样本包括伴奏对干音的掩蔽能力度量值，以及标注的伴奏干音音量比。

例如，建立如式(6)所示的线性回归模型：

可选地，还可以设置伴奏干音音量比r的上下限，不至于过大或过小。

下面通过如下方式确定式(6)中的系数a和b：

将上述样本数据集中的异常样本剔除，得到n组样本数据，每组样本数据标记为i，包括伴奏对干音的掩蔽能力度量值

以及标注的伴奏干音音量比r_i，可以采用最小二乘法计算出系数a和b的值，例如式(7)所示：

基于上述式(6)和式(7)可以确定预先设置的伴奏对干音的掩蔽能力度量值与伴奏干音音量比的对应关系。

下面以具体实施例对音频处理方法的流程进行示例性介绍。

终端设备的唱歌软件中包括各种歌曲，服务器可以预先计算出每首歌曲的伴奏音频的掩蔽特征后保存起来，当用户使用终端设备的唱歌软件录制歌曲时，终端设备可以向服务器发送获取请求，以使服务器将所演唱歌曲的伴奏音频的掩蔽特征下发至终端设备，终端设备基于该伴奏音频的掩蔽特征可以进行后续的计算。

终端设备在用户录制歌曲过程中，可以获取录制的干音音频，然后执行如图4所示的步骤：

步骤S401，确定干音音频的目标时间段。

例如，该目标时间段可以是干音音频的任意时间段。可选地，可以是干音音频最稳定的时间段，其确定方式参见上述实施例，在此不再赘述。

步骤S402，在目标时间段内，计算对应的干音音频的全局能量特征以及对应的伴奏音频的全局掩蔽特征。

该步骤中的全局能量特征和全局掩蔽特征的计算过程参见上述实施例，在此不再赘述。

步骤S403，基于预先确定的线性回归模型，根据上述全局能量特征和上述全局掩蔽特征，得到伴奏干音音量比。

其中，线性回归模型可以根据上述式(6)和式(7)确定。

步骤S404，根据伴奏干音音量比调整干音音频的音量和伴奏音频的音量，并在回放调音界面显示。

通过上述实施例，可以为用户推荐合适的伴奏干音音量比，省去用户调音量的时间，降低了用户给自己的音乐作品调音的门槛，使用户感觉轻松，更愿意享受唱歌。

基于相同的发明构思，本申请实施例提供一种音频处理装置，该装置解决问题的原理与上述实施例的方法相似，因此该装置的实施可以参见方法的实施，重复之处不再赘述。参照图5所示，该音频处理装置包括：

干音获取模块51，用于获取干音音频中目标时间段的目标干音音频；

第一确定模块52，用于根据目标干音音频的全局能量特征和目标干音音频对应的目标伴奏音频的全局掩蔽特征，确定干音音频对应的伴奏音频对干音音频的目标掩蔽能力度量值；

第二确定模块53，用于根据预先设置的伴奏对干音的掩蔽能力度量值与伴奏干音音量比的对应关系，确定目标掩蔽能力度量值对应的目标伴奏干音音量比；

调节模块54，用于将伴奏音频与干音音频的音量比调节至目标伴奏干音音量比。

在一种可选的实施方式中，干音获取模块51还可以用于：

获取干音音频的各帧音频的均方根能量数据；

确定干音音频中设定时间段内的均方根能量数据的和最大的时间段，将确定的时间段的干音音频作为目标干音音频。

在一种可选的实施方式中，装置还可以包括第一去除模块，用于：

在一种可选的实施方式中，装置还可以包括能量特征获取模块，用于：

对于目标干音音频的每帧音频，将每帧音频的各频带的能量特征求和，得到每帧音频的能量特征；

将目标干音音频的各帧音频的能量特征的和作为全局能量特征。

在一种可选的实施方式中，装置还可以包括掩蔽特征获取模块，用于：

从预先获取的伴奏音频的各帧音频的掩蔽特征中，获取目标时间段的伴奏音频的各帧音频的掩蔽特征；

将各帧音频的掩蔽特征的和作为目标伴奏音频的全局掩蔽特征。

在一种可选的实施方式中，装置还可以包括第二去除模块，用于：

在一种可选的实施方式中，掩蔽特征获取模块还可以用于：

将每帧音频中的最低Bark频带的音频剔除；

将剔除最低Bark频带后的每帧音频的各频带的掩蔽阈值求和。

在一种可选的实施方式中，第一确定模块还可以用于：

在一种可选的实施方式中，装置还可以包括建立模块，用于：

基于相同的发明构思，本申请实施例还提供了一种电子设备，图6示出了本申请实施例提供的一种电子设备的结构示意图。

参阅图6所示，电子设备可以包括处理器602和存储器601。存储器601向处理器602提供存储器601中存储的程序指令和数据。在本申请实施例中，存储器601可以用于存储本申请实施例中音频处理的程序。

处理器602通过调用存储器601存储的程序指令，处理器602用于执行上述任意方法实施例中的音频处理方法，例如图3所示的实施例提供的一种音频处理方法。

本申请实施例中不限定上述存储器601和处理器602之间的具体连接介质。本申请实施例在图6中以存储器601和处理器602之间通过总线603连接，总线603在图6中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线603可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器可以包括只读存储器(Read-Only Memory，ROM)和随机存取存储器(RandomAccess Memory，RAM)，还可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、网络处理器(NetworkProcessor，NP)等；还可以是数字指令处理器(Digital Signal Processing，DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

本申请实施例还提供了一种计算机存储介质，该计算机可读存储介质内存储有计算机程序，计算机设备的处理器从计算机可读存储介质读取该计算机程序，处理器执行该计算机程序，使得该计算机设备执行上述任意方法实施例中的音频处理方法。

在一些可能的实施方式中，本申请提供的语音检测方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的语音检测方法的步骤，例如，所述计算机设备可以执行如图3所示的步骤S301-步骤S304中的音频处理的流程。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种音频处理方法，其特征在于，包括：

获取干音音频中目标时间段的目标干音音频；

2.根据权利要求1所述的方法，其特征在于，所述获取干音音频中的目标时间段的目标干音音频，包括：

获取所述干音音频的各帧音频的均方根能量数据；

3.根据权利要求2所述的方法，其特征在于，所述获取所述干音音频的各帧音频的均方根能量数据之后，确定所述干音音频中设定时间段内的均方根能量数据的和最大的时间段之前，还包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述获取所述目标时间段的伴奏音频的各帧音频的掩蔽特征之后，将所述各帧音频的掩蔽特征的和作为所述目标伴奏音频的全局掩蔽特征之前，还包括：

7.根据权利要求5所述的方法，其特征在于，所述预先获取的所述伴奏音频的各帧音频的掩蔽特征通过如下方式获得：

8.一种音频处理装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器实现权利要求1～7任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，其特征在于：所述计算机程序被处理器执行时，实现权利要求1～7任一项所述的方法。