CN114863953A

CN114863953A - 音量调节方法、装置、存储介质和计算设备

Info

Publication number: CN114863953A
Application number: CN202210427136.5A
Authority: CN
Inventors: 吴修坤; 林勇平; 刘华平; 曹偲; 高月洁
Original assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Current assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2022-08-05

Abstract

本公开的实施方式提供了一种音量调节方法、装置、存储介质和计算设备。包括：获取歌曲的第一录制音频和第二录制音频；其中，所述第二录制音频包括针对所述第一录制音频中的目标音频段另外录制的音频；提取所述第一录制音频对应的第一特征序列；以及，提取所述第二录制音频对应的第二特征序列；计算所述第一特征序列与所述歌曲的原唱音频对应的第三特征序列的比值，得到第一比值序列；以及，计算所述第二特征序列与所述第三特征序列的比值，得到第二比值序列；基于所述第一比值序列和所述第二比值序列计算音量调节参数，并基于所述音量调节参数调节所述第二录制音频的音量。

Description

音量调节方法、装置、存储介质和计算设备

技术领域

本公开的实施方式涉及计算机技术领域，更具体地，本公开的实施方式涉及一种音量调节方法、装置、存储介质和计算设备。

背景技术

本部分旨在为说明书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

在一些音频录制的场景(例如K歌应用)中，用户可以录制音频(例如录制歌曲的音频)，并且在某些情况如用户对已录制的第一录制音频中的某个目标音频段不满意时，还可以单独对该目标音频段进行重新录制，以利用重新录制的第二录制音频替换第一录制音频中的目标音频段。

然而，用户在重新录制时由于没有前后音频的铺垫，很难把控音量的大小，容易出现第一录制音频的音量和第二录制音频的音量不一致；从而在听觉上存在音量突兀的现象。这种现象的出现会严重降低录制音频的整体效果，从而降低录制体验。

发明内容

在本公开实施方式的第一方面中，提供了一种音量调节方法，所述方法包括：

获取歌曲的第一录制音频和第二录制音频；其中，所述第二录制音频包括针对所述第一录制音频中的目标音频段另外录制的音频；

提取所述第一录制音频对应的第一特征序列；以及，提取所述第二录制音频对应的第二特征序列；

计算所述第一特征序列与所述歌曲的原唱音频对应的第三特征序列的比值，得到第一比值序列；以及，计算所述第二特征序列与所述第三特征序列的比值，得到第二比值序列；

基于所述第一比值序列和所述第二比值序列计算音量调节参数，并基于所述音量调节参数调节所述第二录制音频的音量。

可选的，所述第一特征序列、第二特征序列和第三特征序列采用相同的特征提取方法得到，所述特征提取方法包括：

获取所述歌曲中每句歌词的起止时间信息；

基于所述歌词的起止时间信息，将待处理音频划分为若干段的音频段，计算每个音频段对应的特征；其中，每个音频段对应一句歌词；

基于各个音频段对应的特征，构建所述待处理音频对应的特征序列；其中，所述待处理音频为所述第一录制音频时，所述特征为第一特征，所述特征序列为第一特征序列；所述待处理音频为所述第二录制音频时，所述特征为第二特征，所述特征序列为第二特征序列；所述待处理音频为所述原唱音频时，所述特征为第三特征，所述特征序列为第三特征序列。

可选的，所述计算每个音频段对应的特征，包括：

针对每个音频段，基于预设的分帧帧长和采样个数，对所述音频段进行分帧处理，以得到多个所述分帧帧长的音频帧；

针对每个音频帧，从所述音频帧中采样所述采样个数的音频信号，并基于所述采样个数的音频信号，计算所述音频帧的单帧特征；

基于每个音频段内各个音频帧的单帧特征，构建每个音频段对应的特征。

可选的，所述起止时间信息包括每句歌词的起始时刻和每句歌词的持续时长；或，所述起止时间信息包括每句歌词的起始时刻和结束时刻。

可选的，在所述基于所述第一比值序列和所述第二比值序列计算音量调节参数之前，还包括：

对所述第一比值序列和第二比值序列中的比值进行异常识别，并过滤所述第一比值序列和第二比值序列中的异常比值。

可选的，所述对所述第一比值序列和第二比值序列中的比值进行异常识别，包括：

从打分系统获取所述第一录制音频中每句歌词的打分分值，以及所述第二录制音频中每句歌词的打分分值；

将低于预设分值的打分分值映射的比值确定为异常比值。

将所述第一比值序列和第二比值序列中位于预设阈值范围之外的比值确定为异常比值。

基于拉依达准则，将所述第一比值序列和第二比值序列中的离群比值确定为异常比值；所述离群比值是指大于所在序列的标准差比值三倍的比值。

可选的，所述过滤所述第一比值序列和第二比值序列中的异常比值，包括：

将所述第一比值序列和第二比值序列中的异常比值置为预设数值。

可选的，所述基于所述第一比值序列和所述第二比值序列计算音量调节参数，包括：

计算歌曲完整度；其中，所述歌曲完整度表示所述第一录制音频中的目标音频段和所述第二录制音频是否均演唱完整；

根据所述歌曲完整度的结果，采用与所述结果对应的计算方式，基于所述第一比值序列和所述第二比值序列计算音量调节参数。

可选的，所述计算歌曲完整度，包括：

从打分系统获取针对所述目标音频段中每句歌词的第一打分序列，以及针对所述第二录制音频中每句歌词的第二打分序列；

基于预设分值对所述第一打分序列和第二打分序列进行二值化处理，以将所述第一打分序列和第二打分序列中大于或等于所述预设分值的打分分值置为第一数值、小于所述预设分值的打分分值置为第二数值；

统计所述第一打分序列中第一数值的第一数量，以及所述第二打分序列中第一数值的第二数量；

如果所述第一数量等于所述目标音频段中歌词句数，并且所述第二数量等于所述第二录制音频中歌词句数，则确定歌曲完整度的结果为完整；反之，确定歌曲完整度的结果为不完整。

可选的，所述根据所述歌曲完整度的结果，采用与所述结果对应的计算方式，基于所述第一比值序列和所述第二比值序列计算音量调节参数，包括：

如果所述歌曲完整度的结果为完整，获取所述第一比值序列中对应目标音频段的第三比值序列；

基于所述第三比值序列和所述第二比值序列，计算音量调节参数。

如果所述歌曲完整度的结果为不完整，分别计算第一比值序列的有效均值和第二比值序列的有效均值；

根据所述第一有效均值和第二有效均值，计算音量调整参数。

可选的，所述基于所述音量调节参数调节所述第二录制音频的音量，包括：

将所述第二录制音频与所述音量调节参数相乘。

可选的，还包括：

将所述第一录制音频中的目标音频段替换为所述音量调节后的第二录制音频。

可选的，所述目标音频段包括所述第一录制音频中存在异常的音频段。

可选的，所述第一录制音频为录制的第一干声音频，所述第二录制音频为录制的第二干声音频；所述原唱音频为歌曲原唱的第三干声音频。

可选的，所述第一特征序列、第二特征序列和第三特征序列中的特征包括表示音频信号的能量强弱的特征。

可选的，所述表示音频信号的能量强弱的特征包括音频信号的均方根能量特征。

在本公开实施方式的第二方面中，提供了一种音量调节装置，所述装置包括：

获取单元，获取歌曲的第一录制音频和第二录制音频；其中，所述第二录制音频包括针对所述第一录制音频中的目标音频段另外录制的音频；

提取单元，提取所述第一录制音频对应的第一特征序列；以及，提取所述第二录制音频对应的第二特征序列；

计算单元，计算所述第一特征序列与所述歌曲的原唱音频对应的第三特征序列的比值，得到第一比值序列；以及，计算所述第二特征序列与所述第三特征序列的比值，得到第二比值序列；

调节单元，基于所述第一比值序列和所述第二比值序列计算音量调节参数，并基于所述音量调节参数调节所述第二录制音频的音量。

可选的，所述第一特征序列、第二特征序列和第三特征序列采用相同的特征提取单元得到，所述特征提取单元包括：

获取子单元，获取所述歌曲中每句歌词的起止时间信息；

划分子单元，基于所述歌词的起止时间信息，将待处理音频划分为若干段的音频段；其中，每个音频段对应一句歌词；

计算子单元，计算每个音频段对应的特征；

构建子单元，基于各个音频段对应的特征，构建所述待处理音频对应的特征序列；其中，所述待处理音频为所述第一录制音频时，所述特征为第一特征，所述特征序列为第一特征序列；所述待处理音频为所述第二录制音频时，所述特征为第二特征，所述特征序列为第二特征序列；所述待处理音频为所述原唱音频时，所述特征为第三特征，所述特征序列为第三特征序列。

可选的，所述计算子单元，进一步用于针对每个音频段，基于预设的分帧帧长和采样个数，对所述音频段进行分帧处理，以得到多个所述分帧帧长的音频帧；针对每个音频帧，从所述音频帧中采样所述采样个数的音频信号，并基于所述采样个数的音频信号，计算所述音频帧的单帧特征；基于每个音频段内各个音频帧的单帧特征，构建每个音频段对应的特征。

可选的，在所述调节单元之前，还包括：

识别单元，对所述第一比值序列和第二比值序列中的比值进行异常识别；

过滤单元，过滤所述第一比值序列和第二比值序列中的异常比值。

可选的，所述识别单元，进一步用于从打分系统获取所述第一录制音频中每句歌词的打分分值，以及所述第二录制音频中每句歌词的打分分值，并将低于预设分值的打分分值映射的比值确定为异常比值。

可选的，所述识别单元，进一步用于将所述第一比值序列和第二比值序列中位于预设阈值范围之外的比值确定为异常比值。

可选的，所述识别单元，进一步用于识别子单元，基于拉依达准则，将所述第一比值序列和第二比值序列中的离群比值确定为异常比值；所述离群比值是指大于所在序列的标准差比值三倍的比值。

可选的，所述过滤单元，进一步用于将所述第一比值序列和第二比值序列中的异常比值置为预设数值。

可选的，所述调节单元，包括：

完整度计算子单元，计算歌曲完整度；其中，所述歌曲完整度表示所述第一录制音频中的目标音频段和所述第二录制音频是否均演唱完整；

参数计算子单元，根据所述歌曲完整度的结果，采用与所述结果对应的计算方式，基于所述第一比值序列和所述第二比值序列计算音量调节参数。

可选的，所述完整度计算子单元，包括：

获取子单元，从打分系统获取针对所述目标音频段中每句歌词的第一打分序列，以及针对所述第二录制音频中每句歌词的第二打分序列；

处理子单元，基于预设分值对所述第一打分序列和第二打分序列进行二值化处理，以将所述第一打分序列和第二打分序列中大于或等于所述预设分值的打分分值置为第一数值、小于所述预设分值的打分分值置为第二数值；

统计子单元，统计所述第一打分序列中第一数值的第一数量，以及所述第二打分序列中第一数值的第二数量；

确定子单元，如果所述第一数量等于所述目标音频段中歌词句数，并且所述第二数量等于所述第二录制音频中歌词句数，则确定歌曲完整度的结果为完整；反之，确定歌曲完整度的结果为不完整。

可选的，所述参数计算子单元，进一步用于在所述歌曲完整度的结果为完整时，获取所述第一比值序列中对应目标音频段的第三比值序列；基于所述第三比值序列和所述第二比值序列，计算音量调节参数。

可选的，所述参数计算子单元，进一步用于在所述歌曲完整度的结果为不完整时，分别计算第一比值序列的有效均值和第二比值序列的有效均值；根据所述第一有效均值和第二有效均值，计算音量调整参数。

可选的，所述调节单元，进一步用于将所述第二录制音频与所述音量调节参数相乘。

可选的，还包括：

处理单元，将所述第一录制音频中的目标音频段替换为所述音量调节后的第二录制音频。

在本公开实施方式的第三方面中，提供了一种计算机可读存储介质，包括：

当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如前任一项所述的音量调节方法。

在本公开实施方式的第四方面中，提供了一种计算设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令，以实现如前任一项所述的音量调节方法。

根据本公开实施方式提供的音量调节方案，利用歌曲的原唱音频对第一录制音频和第二录制音频进行计算，以确定将第二录制音频调整到第一录制音频的音量所需的音量调节参数；如此，基于该音量调节参数调节第二录制音频的音量后，就可以使得第一录制音频和第二录制音频不会产生音量突兀的现象，从而提高了录制音频的整体效果，有助于提高录制体验。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1示意性地示出了本公开提供的音量调节系统架构的示意图；

图2示意性地示出了本公开提供的K歌APP中的录制音频的示意图；

图3示意性地示出了本公开提供的重录音频的示意图；

图4示意性地示出了本公开提供的音量调节方法示意图；

图5示意性地示出了本公开提供的介质示意图；

图6示意性地示出了本公开提供的音量调节装置示意图；

图7示意性地示出了本公开提供的计算设备示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本公开的实施方式，提出了一种音量调节方法、计算机可读存储介质、装置和计算设备。

在本文中，需要理解的是，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。

发明概述

如前所述，用户在重新录制时由于没有前后音频的铺垫，很难把控音量的大小，容易出现第一录制音频的音量和第二录制音频的音量不一致；从而在听觉上存在音量突兀的现象。这种现象的出现会严重降低录制音频的整体效果，从而降低录制体验。

为此，本说明书旨在提供一种可以自动调整重录音频的音量的方案，使得重录的第二录制音频与首录的第一录制音频的音量大致相当甚至相同，从而避免产生音量突兀的现象。

本说明书具体是利用歌曲的原唱音频对第一录制音频和第二录制音频进行计算，以确定将第二录制音频调整到第一录制音频的音量所需的音量调节参数；如此，基于该音量调节参数调节第二录制音频的音量后，就可以使得第一录制音频和第二录制音频不会产生音量突兀的现象，从而提高了录制音频的整体效果，有助于提高录制体验。

在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。

应用场景总览

图1示出了本文中可以适用的示例性的音量调节系统架构的示意图。图1中，各种网络节点借助网络可以实现信息的通信，继而完成交互和数据的处理。系统架构概念图可以包括经由网络112与一个或多个客户端106进行数据通信的服务端105，以及可以集成于服务端105或独立于服务端105的数据库115。

每个网络112都可以包括有线或无线电信装置，客户端106所基于的网络装置可以通过所述有线或无线电信装置来交换数据。例如，每个网络112都可以包括局域网(“LAN”)、广域网(“WAN”)、内部网、互联网、移动电话网络、虚拟专用网(VPN)、蜂窝式或其它移动通信网络、蓝牙、NFC或其任何组合。在示例性实施方案的讨论中，应理解，术语“数据”和“信息”可在本文中互换使用来指代可存在于基于计算机的环境中的文字、图像、音频、视频或任何其它形式的信息。

每个客户端106所基于的网络装置都可以包括具有能够经由网络112发出并接收数据的通信模块的装置。例如，每个客户端106所基于的网络装置都可以包括服务器、台式计算机、膝上型计算机、平板计算机、智能手机、手持式计算机、个人数字助理(“PDA”)，或者其它任何的有线或无线处理器驱动装置。在图1所描绘的示例性实施方案中，客户端106所基于的网络装置可以由用户进行操作。

用户可以使用如网页浏览器应用程序或独立应用程序的应用程序，以便经由网络112查看、下载、上传或以其它方式访问文件或网页。网络包括有线或无线电信系统或装置，网络装置(包括服务端105、客户端106)可以通过所述有线或无线电信装置来交换数据。例如，网络112可以包括局域网(“LAN”)、广域网(“WAN”)、内部网、互联网、存储区域网络(SAN)、个人区域网络(PAN)、城域网(MAN)、无线局域网(WLAN)、虚拟专用网(VPN)、蜂窝式或其它移动通信网络、蓝牙、NFC或其任何组合，或者有助于信号、数据和/或消息的通信的任何其它适当的架构或系统。在示例性实施方案的讨论中，应理解，术语“数据”和“信息”可在本文中互换使用来指代可存在于基于计算机的环境中的文字、图像、音频、视频或任何其它形式的信息。

网页浏览器应用程序或独立应用程序的应用程序，可以与连接到网络112的网页服务器(或其它服务器，诸如唱歌平台、K歌平台等)以完成交互。

图1中，与服务端105可以是集成关系或分立关系的计算装置(图中未示出)，特别是后者的情况下，一般可以通过内部网络或专用网络连接，或者也可以通过加密的公共网络连接。特别的，当为集成关系时，可能采用更高效、传输速度更快的内部总线形式的连接。该计算装置，当为集成关系或分立关系时，均可以直接或通过服务端105访问数据库115。

对计算机装置进行适当的编程，可以藉由这种指令控制本说明书中方法的实施。特别的，当为集成关系时，计算机装置处理的事务可以视为服务端105的处理而不必特别加以区分。

以K歌业务的场景为例，上述客户端可以包括安装有K歌APP的客户端；上述服务端可以包括K歌APP对应的服务平台。

以下结合图2所示的K歌APP中的录制音频的示意图加以说明。

在实现时，用户可以在客户端上打开K歌APP；并在歌曲列表中选择想要唱的歌曲名称。如图2所示的歌曲列表界面21中展示有若干的歌曲名称，当用户点击“歌曲名称3”对应的控件后，客户端响应于该控件被点击，从歌曲列表界面21跳转到K歌入口界面22。

进一步，用户可以点击“K歌”对应的控件，客户端响应于该控件被点击，从K歌入口界面22跳转到K歌录音界面23。

在K歌录音界面23中，展示有开始录音对应的控件24，在该控件24被触发后，用户的歌声将被开启的音频接收装置采集，从而得到录制的第一录制音频。

在录音过程中，该K歌录音界面23还可以展示“录音声波动态”的声波图像25。

一般的，在录音时长达到预设时长(一般是歌曲名称对应的歌曲时长)后，客户端可以从K歌录音界面23跳转到K歌上传界面26。

在K歌上传界面26中，展示有若干控件，例如用于试听录制的第一录制音频“试听”控件，用于重新录制的“重录”控件，以及用于上传录制的歌声信息的“上传”控件等。

当用户试听第一录制音频发现某段音频不是很满意则可以触发“重录”控件进行重录，以进入如图3所示的重录音频的界面。

如图3所示，在重录音频的界面中可以展示第一录制音频的进度条，并且用户可以在该进度条中指定某个音频段进行重新录制，如图3中用户选中了15秒到30秒这段音频进行重录。另外，该界面中可以根据展示重录音频对应的歌词提示信息。

当用户点击“重录此段音频”对应的控件后，用户可以重新录制该音频段，同样的用户的歌声将被开启的音频接收装置采集，从而得到重新录制的第二录制音频。

示例性方法

下面结合图1所示的应用场景，参考图4来描述根据本公开示例性实施方式的音量调节的方法。需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

如图4所示，所述音量调节方法，可以应用于电子设备，该方法可以包括以下步骤：

步骤210：获取歌曲的第一录制音频和第二录制音频；其中，所述第二录制音频包括针对所述第一录制音频中的目标音频段另外录制的音频。

在本说明书中，所述目标音频段可以包括所述第一录制音频中存在异常的音频段。

其中，所述异常的音频段可以是电子设备自动识别出的，例如电子设备基于现有的打分机制，对第一录制音频进行打分，如果某段音频分值低于阈值，则可以将该段音频确定为异常的音频段。

所述异常的音频段还可以是用户选择出的，例如用户对第一录制音频中的某段音频不满意，则可以手动标记这段音频，从而使得电子设备可以将标记的音频段确定为异常的音频段。

通过上述示例，可以从第一录制音频中确定需要重新录制的目标音频段，进而单独针对目标音频段进行重新录制，以获取第二录制音频。

步骤220：提取所述第一录制音频对应的第一特征序列；以及，提取所述第二录制音频对应的第二特征序列。

在本说明书中，所述第一特征序列、第二特征序列和步骤230中的第三特征序列可以采用相同的特征提取方法得到，并且所述特征提取方法可以包括以下步骤：

步骤A1：获取所述歌曲中每句歌词的起止时间信息。

在实际应用中，一首歌曲除了歌曲文件外，通常还包括歌词文件。一般的，歌词文件可以包括如LRC(Lyric，歌词)格式的文件。在这些歌词文件中记录了歌曲中每句歌词的起止时间信息。因此，可以从与歌曲相关的歌词文件中获取歌曲中每句歌词的起止时间信息。

在本说明书中，所述起止时间信息可以包括每句歌词的起始时刻和每句歌词的持续时长；或者，所述起止时间信息包括每句歌词的起始时刻和结束时刻。

步骤A2：基于所述歌词的起止时间信息，将待处理音频划分为若干段的音频段，计算每个音频段对应的特征；其中，每个音频段对应一句歌词。

步骤A3：基于各个音频段对应的特征，构建所述待处理音频对应的特征序列；其中，所述待处理音频为所述第一录制音频时，所述特征为第一特征，所述特征序列为第一特征序列；所述待处理音频为所述第二录制音频时，所述特征为第二特征，所述特征序列为第二特征序列；所述待处理音频为所述原唱音频时，所述特征为第三特征，所述特征序列为第三特征序列。

以第一录制音频为例，利用第一录制音频中每句歌词的起止时间信息，可以将第一录制音频划分为若干段的音频段，使得每个音频段都对应一句歌词；然后计算每个音频段对应的第一特征。

在一示例性的实施例中，所述计算每个音频段对应的特征，可以包括：

该示例中，分帧帧长是指1帧的时长，采样个数是指1帧内采样的次数。

以第一录制音频为例，假设第一录制音频有100秒，如果预设的分帧帧长为1秒，则按照1秒进行分帧处理，可以得到100个每个1秒的音频帧；进一步，假设采样个数为10个，则针对每个音频帧在1秒内采样10个音频信号，并基于这10个音频信号，计算该音频帧的单帧特征。

其中，音频帧的单帧特征可以通过以下公式1计算得到：

其中，X(l)表示第l帧的单帧特征，sqrt为开根函数，x(l,t)表示第l帧下第t个采样的音频信号的采样值，L表示分帧后的总帧数，T表示采样个数。

在计算出音频段内各个音频帧的单帧特征之后，就可以构建每个音频段对应的特征；以及基于各个音频段对应的特征，构建待处理音频对应的特征序列如下公式2所示：

其中，X(n,l)表示第n句歌词中第l帧的单帧特征，sqrt为开根函数，x(n,l,t)表示第n句歌词中第l帧下第t个采样的音频信号的采样值，N表示歌曲的歌词总句数，L表示分帧后的总帧数，T表示采样个数。

在本说明书中，所述第一特征序列、第二特征序列和第三特征序列中的特征可以包括表示音频信号的能量强弱的特征。例如，所述表示音频信号的能量强弱的特征可以包括音频信号的均方根能量特征(Root Mean Square，RMS)。

在本说明书中，所述第一录制音频为录制的第一干声音频，所述第二录制音频为录制的第二干声音频；所述原唱音频为歌曲原唱的第三干声音频。

其中，干声又称为裸声，属于音频术语，一般是指录音以后未经过任何后期处理或加工的纯人声。与之相对的经过后期处理或加工(如：混响、延迟等)的人声称为湿声。

由于干声是纯人声不包含伴奏和和声，因此从干声音频中提取的特征也不会受伴奏和和声影响准确性，因此采用干声音频进行计算的结果更为准确。

步骤230：计算所述第一特征序列与所述歌曲的原唱音频对应的第三特征序列的比值，得到第一比值序列；以及，计算所述第二特征序列与所述第三特征序列的比值，得到第二比值序列。

假设第一录制音频对应的第一特征序列为X₁(n,l)，第二录制音频对应的第二特征序列为X₂(n,l)，原唱音频对应的第三特征序列为X₃(n,l)；

则第一比值序列R₁(n,l)的计算如下公式3所示：

其中，N₁和N₂分别表示第一录制音频开始和结束的歌词序号，即第一录制音频是从第N₁句歌词开始录制，到第N₂句歌词结束录制。

另外，第二比值序列R₂(n,l)的计算如下公式4所示：

其中，N₃和N₄分别表示第二录制音频开始和结束的歌词序号，即第二录制音频是从第N₃句歌词开始录制，到第N₄句歌词结束录制。

在一示例性的实施例中，计算得到第一比值序列和第二比值序列之后，还可以包括：

在实际频录制过程中可能会受到如录音设备、背景噪声、用户操作等外部影响，可能会导致录制的音频中存在异常音频信号，而这些异常音频信号又会导致比值序列中可能出现异常比值；由于异常比值容易影响音量调节参数的准确性，因此为了提高音量调整参数的准确性，需要识别并过滤第一比值序列和第二比值序列中的异常比值。

在一示例性的实施例中，在识别出异常比值后，所述过滤所述第一比值序列和第二比值序列中的异常比值，可以包括：

这里将异常比值置为预设数值，是为了保留异常比值的时间信息，从而保证后续计算音量调节参数时不会由于丢失时间维度的信息而影响计算结果的准确性。

以下示例性的提供几种异常识别方式：

在第一种实现方式中，所述对所述第一比值序列和第二比值序列中的比值进行异常识别，包括：

将低于预设分值的打分分值映射的比值确定为异常比值。

该示例中，参考了打分系统对第一录制音频和第二录制音频中每句歌词的打分分值，将低于预设分值的打分分值映射的比值确定为异常比值，其目的是剔除第一录制音频和第二录制音频中用户没有录唱或者录唱无效的音频部分，提高比值计算的可靠性和鲁棒性。

针对第一比值序列的异常识别和过滤如下公式5所示：

其中，R₁₁(n,l)为经过第一种方式过滤异常比值后的第一比值序列，R₁(n,l)为过滤异常比值前的第一比值序列，

为第一录制音频中第n句歌词的打分分值，S_thr为预设分值。

针对第二比值序列的异常识别和过滤如下公式6所示：

其中，R₂₁(n,l)为经过第一种方式过滤异常比值后的第二比值序列，R₂(n,l)为过滤异常比值前的第二比值序列，

为第二录制音频中第n句歌词的打分分值，S_thr为预设分值。

在上述公式5和公式6中，对于高于或等于预设分值的打分分值映射的比值(即正常比值)不做处理，将低于预设分值的打分分值映射的比值(即异常比值)置为0(即预设数值)。

在第二种实现方式中，所述对所述第一比值序列和第二比值序列中的比值进行异常识别，包括：

该示例中，基于业务经验可以设置预设阈值，将位于预设阈值之外的比值确定为异常比值。其目的是剔除第一录制音频和第二录制音频中音频能量过大或过小的音频部分,提高比值计算的可靠性和鲁棒性。

针对第一比值序列的异常识别和过滤如下公式7所示：

其中，R₁₂(n,l)为经过第二种方式过滤异常比值后的第一比值序列，R₁(n,l)为过滤异常比值前的第一比值序列，R_MIN为预设阈值的最小值，R_MAX为预设阈值的最大值。

针对第二比值序列的异常识别和过滤如下公式8所示：

其中，R₂₂(n,l)为经过第二种方式过滤异常比值后的第二比值序列，R₂(n,l)为过滤异常比值前的第二比值序列，R_MIN为预设阈值的最小值，R_MAX为预设阈值的最大值。

在上述公式7和公式8中，大于R_MIN且小于R_MAX的比值为正常比值，不做处理，小于R_MIN或者大于R_MAX的比值则为异常比值，将异常比值置为0。

在第三种实现方式中，所述对所述第一比值序列和第二比值序列中的比值进行异常识别，包括：

该示例中，通过拉依达准则剔除第一比值序列和第二比值序列中的离群比值，提高音量调节参数的稳定性。

针对第一比值序列的异常识别和过滤如下公式9所示：

其中，R₁₃(n,l)为经过第三种方式过滤异常比值后的第一比值序列，R₁(n,l)为过滤异常比值前的第一比值序列，μ₁为第一比值序列的均值，σ₁为第一比值序列的方差。

针对第二比值序列的异常识别和过滤如下公式10所示：

其中，R₂₃(n,l)为经过第三种方式过滤异常比值后的第二比值序列，R₂(n,l)为过滤异常比值前的第二比值序列，μ₂为第二比值序列的均值，σ₂为第二比值序列的方差。

上述公式9中σ₁和公式10中σ₂的权重3仅为示例，在实际应用中可以根据需求灵活调整。

需要说明的是，上述异常识别方式仅为示例，在实际应用中也可以采用其它任意的异常识别方式，并且不同异常识别方式还可以进行组合从而提高异常识别效率。

步骤240：基于所述第一比值序列和所述第二比值序列计算音量调节参数，并基于所述音量调节参数调节所述第二录制音频的音量。

在计算出第一比值序列和第二比值序列之后，进一步可以基于第一比值序列和第二比值序列计算音量调节参数。

在一示例性的实施例中，所述基于所述第一比值序列和所述第二比值序列计算音量调节参数，可以包括：

步骤241：计算歌曲完整度；其中，所述歌曲完整度表示所述第一录制音频中的目标音频段和所述第二录制音频是否均演唱完整。

所述计算歌曲完整度，进一步可以包括：

步骤B1，从打分系统获取针对所述目标音频段中每句歌词的第一打分序列，以及针对所述第二录制音频中每句歌词的第二打分序列；

步骤B2，基于预设分值对所述第一打分序列和第二打分序列进行二值化处理，以将所述第一打分序列和第二打分序列中大于或等于所述预设分值的打分分值置为第一数值、小于所述预设分值的打分分值置为第二数值。

该步骤中，针对第一打分序列进行二值化处理可以参考如下公式11所示：

其中，

为打分系统的第一打分序列，C₁(n)为二值化后的第一打分序列，S_thr为预设分值。

针对第二打分序列进行二值化处理可以参考如下公式12所示：

其中，

为打分系统的第二打分序列，C₂(n)为二值化后的第二打分序列，S_thr为预设分值。

在上述公式11和公式12中，将第一打分序列和第二打分序列中大于或等于预设分值的打分分值置为1，小于预设分值的打分分值置为0。

步骤B3，统计所述第一打分序列中第一数值的第一数量，以及所述第二打分序列中第一数值的第二数量。

该步骤中，统计第一打分序列中第一数值的第一数量如下公式13所示：

其中，C₁表示第一数量，公式13表达的含义是统计第一打分序列中从第N₃句歌词到第N₄句歌词为第一数值的数量。

统计第二打分序列中第一数值的第二数量如下公式14所示：

其中，C₂表示第二数量，公式14表达的含义是统计第一打分序列中从第N₃句歌词到第N₄句歌词为第一数值的数量。

步骤B4，如果所述第一数量等于所述目标音频段中歌词句数，并且所述第二数量等于所述第二录制音频中歌词句数，则确定歌曲完整度的结果为完整；反之，确定歌曲完整度的结果为不完整。

该步骤中，歌曲完整度如下公式15所示：

其中，Confidenc为歌曲完整度，Confidence＝1表示完整，Confidenc＝0表示不完整；N₄-N₃表示目标音频段中歌词句数。

如果第一数量C₁等于目标音频段中歌词句数N₄-N₃，则说明第一录制音频中目标音频段的歌词唱得是完整的，同样的，如果第二数量C₂等于第二录制音频中歌词句数N₄-N₃，也说明第二录制音频的歌词唱得是完整的；因此歌曲完整度的结果也为完整。

反之，如果第一数量C₁不等于目标音频段中歌词句数N₄-N₃，则说明第一录制音频中目标音频段的歌词唱得不完整；或者第二数量C₂不等于第二录制音频中歌词句数N₄-N₃，也说明第二录制音频的歌词唱得不完整；因此歌曲完整度的结果也为不完整。

步骤245：根据所述歌曲完整度的结果，采用与所述结果对应的计算方式，基于所述第一比值序列和所述第二比值序列计算音量调节参数。

通过确定歌曲完整度的结果，可以采用不同的计算方式计算音量调节参数。

在一种实现方式中，如果所述歌曲完整度的结果为完整，获取所述第一比值序列中对应目标音频段的第三比值序列；基于所述第三比值序列和所述第二比值序列，计算音量调节参数。

该示例中，如果歌曲完整度的结果为完整，则可以采用如下公式16计算音量调节参数V：

其中，K表示比值序列的有效个数，R₁(n,l)'为异常比值处理后的第一比值序列，R₂(n,l)'为异常比值处理后的第二比值序列。

第一比值序列和第二比值序列中的预设数值(例如前述公式5至公式10中异常比值置为0)被视为无效值，剩余非预设数值的个数为有效个数。

由于歌曲完整度为完整，因而第一比值序列和第二比值序列的有效个数是相同的；因此公式16中统一即为K。

在另一种实现方式中，如果所述歌曲完整度的结果为不完整，分别计算第一比值序列的有效均值和第二比值序列的有效均值；根据所述第一有效均值和第二有效均值，计算音量调整参数。

该示例中，如果歌曲完整度的结果为不完整，则可以采用如下公式17计算音量调节参数V：

其中，K1表示第一比值序列的有效个数，K2表示第二比值序列的有效个数。

在计算出音量调节参数V后，基于所述音量调节参数调节所述第二录制音频的音量，可以包括：

将所述第二录制音频与所述音量调节参数相乘，以得到与第一录制音频的音量接近或相同的第二录制音频。

进一步的，在得到音量调节后的第二录制音频之后，还可以将所述第一录制音频中的目标音频段替换为所述音量调节后的第二录制音频。

通过上述示例，由于音量调整后的第二录制音频的音量与第一录制音频的音量相当，因此使得用第二录制音频替换第一录制音频中的目标音频段后，播放替换后的第一录制音频时不会产生音量突兀的现象；从而提高了录制音频的整体效果，有助于提高录制体验。

示例性介质

在介绍了本公开示例性实施方式的方法之后，接下来，参考图5对本公开示例性实施方式的介质进行说明。

本示例性实施方式中，可以通过程序产品实现上述方法，如可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

该程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RE等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

综上，本公开可以提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，可以使得电子设备能够执行前述图4所示的音量调节方法实施例。

示例性装置

在介绍了本公开示例性实施方式的介质之后，接下来，参考图6对本公开示例性实施方式的装置进行说明。

图6示意性地示出了根据本公开实施方式的一种音量调节装置的框图，对应于前述图4所示的方法实施例。该音量调节装置可以包括：

获取单元610，获取歌曲的第一录制音频和第二录制音频；其中，所述第二录制音频包括针对所述第一录制音频中的目标音频段另外录制的音频；

提取单元620，提取所述第一录制音频对应的第一特征序列；以及，提取所述第二录制音频对应的第二特征序列；

计算单元630，计算所述第一特征序列与所述歌曲的原唱音频对应的第三特征序列的比值，得到第一比值序列；以及，计算所述第二特征序列与所述第三特征序列的比值，得到第二比值序列；

调节单元640，基于所述第一比值序列和所述第二比值序列计算音量调节参数，并基于所述音量调节参数调节所述第二录制音频的音量。

获取子单元622，获取所述歌曲中每句歌词的起止时间信息；

划分子单元624，基于所述歌词的起止时间信息，将待处理音频划分为若干段的音频段；其中，每个音频段对应一句歌词；

计算子单元626，计算每个音频段对应的特征；

构建子单元628，基于各个音频段对应的特征，构建所述待处理音频对应的特征序列；其中，所述待处理音频为所述第一录制音频时，所述特征为第一特征，所述特征序列为第一特征序列；所述待处理音频为所述第二录制音频时，所述特征为第二特征，所述特征序列为第二特征序列；所述待处理音频为所述原唱音频时，所述特征为第三特征，所述特征序列为第三特征序列。

可选的，所述计算子单元626，进一步用于针对每个音频段，基于预设的分帧帧长和采样个数，对所述音频段进行分帧处理，以得到多个所述分帧帧长的音频帧；针对每个音频帧，从所述音频帧中采样所述采样个数的音频信号，并基于所述采样个数的音频信号，计算所述音频帧的单帧特征；基于每个音频段内各个音频帧的单帧特征，构建每个音频段对应的特征。

可选的，在所述调节单元640之前，还包括：

识别单元634，对所述第一比值序列和第二比值序列中的比值进行异常识别；

过滤单元636，过滤所述第一比值序列和第二比值序列中的异常比值。

可选的，所述识别单元634，进一步用于从打分系统获取所述第一录制音频中每句歌词的打分分值，以及所述第二录制音频中每句歌词的打分分值，并将低于预设分值的打分分值映射的比值确定为异常比值。

可选的，所述识别单元634，进一步用于将所述第一比值序列和第二比值序列中位于预设阈值范围之外的比值确定为异常比值。

可选的，所述识别单元634，进一步用于识别子单元，基于拉依达准则，将所述第一比值序列和第二比值序列中的离群比值确定为异常比值；所述离群比值是指大于所在序列的标准差比值三倍的比值。

可选的，所述过滤单元636，进一步用于将所述第一比值序列和第二比值序列中的异常比值置为预设数值。

可选的，所述调节单元640，包括：

可选的，所述完整度计算子单元，包括：

可选的，所述调节单元640，进一步用于将所述第二录制音频与所述音量调节参数相乘。

可选的，所述装置还包括：

处理单元650，将所述第一录制音频中的目标音频段替换为所述音量调节后的第二录制音频。

示例性计算设备

在介绍了本公开示例性实施方式的方法、介质和装置之后，接下来，参考图7对本公开示例性实施方式的计算设备进行说明。

图7显示的计算设备1500仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，计算设备1500以通用计算设备的形式表现。计算设备1500的组件可以包括但不限于：上述至少一个处理单元1501、上述至少一个存储单元1502，连接不同系统组件(包括处理单元1501和存储单元1502)的总线1503。

总线1503包括数据总线、控制总线和地址总线。

存储单元1502可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)15021和/或高速缓存存储器15022，可以进一步包括非易失性存储器形式的可读介质，例如只读存储器(ROM)15023。

存储单元1502还可以包括具有一组(至少一个)程序模块15024的程序/实用工具15025，这样的程序模块15024包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备1500也可以与一个或多个外部设备1504(例如键盘、指向设备等)通信。

这种通信可以通过输入/输出(I/O)接口1505进行。并且，计算设备1500还可以通过网络适配器1506与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图7所示，网络适配器1506通过总线1503与计算设备1500的其它模块通信。应当理解，尽管图中未示出，可以结合计算设备1500使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

综上，本公开可以提供一种计算设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述可执行指令，以实现前述图4所示的音量调节方法。

应当注意，尽管在上文详细描述中提及了音量调节装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种音量调节方法，包括：

2.根据权利要求1所述的方法，所述第一特征序列、第二特征序列和第三特征序列采用相同的特征提取方法得到，所述特征提取方法包括：

获取所述歌曲中每句歌词的起止时间信息；

3.根据权利要求2所述的方法，所述计算每个音频段对应的特征，包括：

4.根据权利要求2所述的方法，所述起止时间信息包括每句歌词的起始时刻和每句歌词的持续时长；或，所述起止时间信息包括每句歌词的起始时刻和结束时刻。

5.根据权利要求1所述的方法，在所述基于所述第一比值序列和所述第二比值序列计算音量调节参数之前，还包括：

6.根据权利要求5所述的方法，所述对所述第一比值序列和第二比值序列中的比值进行异常识别，包括：

将低于预设分值的打分分值映射的比值确定为异常比值。

7.根据权权利要求5所述的方法，所述对所述第一比值序列和第二比值序列中的比值进行异常识别，包括：

8.一种音量调节装置，包括：

9.一种计算机可读存储介质，包括：

当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1-7中任一项所述的音量调节方法。

10.一种计算设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令，以实现如权利要求1-7中任一项所述的音量调节方法。