CN110675848A

CN110675848A - 音频处理方法、装置及存储介质

Info

Publication number: CN110675848A
Application number: CN201910943772.1A
Authority: CN
Inventors: 庄晓滨; 林森
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-01-10
Anticipated expiration: 2039-09-30
Also published as: CN110675848B

Abstract

本发明实施例公开了一种音频处理方法、装置及存储介质。该方案可以获取具有目标音频标识的第一独唱音频和第二独唱音频，获取第一独唱音频当中的第一伴奏音频响度与第一人声音频响度，以及第二独唱音频当中的第二伴奏音频响度与第二人声音频响度，并确定第一独唱音频的第一声伴比以及第二独唱音频的第二声伴比，基于第一声伴比和第二声伴比，对第一伴奏音频响度与第一人声音频响度或第二伴奏音频响度与第二人声音频响度进行调整，获取目标音频标识的分段信息，并根据分段信息对调整后的第一独唱音频和第二独唱音频进行合成。本申请实施例所提供的方案可以实现将多个独唱作品合成为合唱作品，并能够提升合唱作品的一致性。

Description

音频处理方法、装置及存储介质

技术领域

本发明涉及数据处理技术领域，具体涉及一种音频处理方法、装置及存储介质。

背景技术

近些年来，移动端K歌软件的市场规模逐渐扩大，用户群体遍布各个年龄段以及各种音乐层次。特别是随着智能手机、平板电脑等智能终端的普及，使得用户足不出户进行K歌成为了一种可能。比如，用户在智能手机上安装了K歌软件后，无需走进KTV便可实现歌曲演唱。其中绝大部分是独唱作品，或者是在采集多个麦克风，将多用户干声和K歌伴奏进行混合形成合唱作品，目前尚未有支持将多个独唱作品进行合成以得到合唱作品的技术方案。

在现有技术中目前尚未有支持将多个独唱作品进行合成以得到合唱作品的技术方案。在合唱方面，有以下两种接近的技术方案。第一种，在合唱之前对歌词分段，发起合唱的用户在第一客户端形成半合唱作品，参与合唱的用户在第二客户端补录未唱部分，并合唱作品。第二种，对于一首作品中瑕疵，不需要重新开始录制，而是只录制需要替换的片段，然后将补录音频替换到原作品中相应位置中去，实现低成本补录。

申请人发现相关技术中存在以下问题：第一种方式只支持和半合唱作品的进行合唱，无法利用现有的独唱作品合成自动合成新的作品。第二种方式只是干声数据的替换，而伴奏是固定的，这两个片段合成的歌曲是可以直接拼接到原作品的。对于一个已经调整伴奏响度的作品，则无法实现合成。

发明内容

本发明实施例提供一种音频处理方法、装置及存储介质，可以将多个独唱作品合成为合唱作品，并能够提升合唱作品的一致性。

本发明实施例提供一种音频处理方法，包括：

获取具有目标音频标识的第一独唱音频和第二独唱音频；

获取所述第一独唱音频当中的第一伴奏音频响度与第一人声音频响度，以及所述第二独唱音频当中的第二伴奏音频响度与第二人声音频响度；

根据所述第一伴奏音频与第一人声音频响度确定所述第一独唱音频的第一声伴比，根据所述第二伴奏音频与第二人声音频响度确定所述第二独唱音频的第二声伴比；

基于所述第一声伴比和第二声伴比，对所述第一伴奏音频响度与第一人声音频响度或第二伴奏音频响度与第二人声音频响度进行调整；

获取所述目标音频标识的分段信息，并根据所述分段信息对调整后的第一独唱音频和第二独唱音频进行合成。

本发明实施例还提供一种音频处理装置，包括：

获取单元，用于获取具有目标音频标识的第一独唱音频和第二独唱音频；

计算单元，用于获取所述第一独唱音频当中的第一伴奏音频响度与第一人声音频响度，以及所述第二独唱音频当中的第二伴奏音频响度与第二人声音频响度；

确定单元，用于根据所述第一伴奏音频响度与第一人声音频响度确定所述第一独唱音频的第一声伴比，根据所述第二伴奏音频响度与第二人声音频响度确定所述第二独唱音频的第二声伴比；

调整单元，用于基于所述第一声伴比和第二声伴比，对所述第一伴奏音频与第一人声音频响度或第二伴奏音频与第二人声音频响度进行调整；

合成单元，用于获取所述目标音频标识的分段信息，并根据所述分段信息对调整后的第一独唱音频和第二独唱音频进行合成。

本发明实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一音频处理方法。

本发明实施例提供的音频处理方案，可以获取具有目标音频标识的第一独唱音频和第二独唱音频，获取第一独唱音频当中的第一伴奏音频响度与第一人声音频响度，以及第二独唱音频当中的第二伴奏音频响度与第二人声音频响度，根据第一伴奏音频响度与第一人声音频响度确定第一独唱音频的第一声伴比，根据第二伴奏音频响度与第二人声音频响度确定第二独唱音频的第二声伴比，基于第一声伴比和第二声伴比，对第一伴奏音频响度与第一人声音频响度或第二伴奏音频响度与第二人声音频响度进行调整，获取目标音频标识的分段信息，并根据分段信息对调整后的第一独唱音频和第二独唱音频进行合成。本申请实施例所提供的方案可以实现将多个独唱作品合成为合唱作品，并能够提升合唱作品的一致性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的音频处理方法的第一流程示意图；

图1b是本发明实施例提供的音频处理方法的第二流程示意图；

图2是本发明实施例提供的音频处理方法的场景示意图；

图3a是本发明实施例提供的音频处理装置的第一种结构示意图；

图3b是本发明实施例提供的音频处理装置的第二种结构示意图；

图4是本发明实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明实施例提供一种音频处理方法，该音频处理方法的执行主体可以是本发明实施例提供的音频处理装置，或者集成了该音频处理装置的服务器，其中该音频处理装置可以采用硬件或者软件的方式实现。

在描述本发明的技术方案之前，先对相关的技术术语进行简单解释：

独唱作品：指的是用单个伴奏和单个干声合成的音乐作品。大部分音乐作品都是独唱作品。

合唱作品：指的是用单个伴奏和多个不同干声混合，或者现成音乐作品和其他干声再次混合，形成具有合唱效果的音乐作品。

响度：响度是人对声音压力的主观感受,也是听觉的一种属性，根据这种属性，可以对声音进行排序，如从安静排列到响亮，或是从响亮排列至安静。响度虽是声音的物理属性，但其却与听者的生理感受，心理感受息息相关，准确来说这属于心理物理学的范畴了。

响度标准EUBR128:EBU的全称为European Broadcasting Union，即欧洲广播联盟，EBUR128实质上是欧洲广播联盟出的一个关于响度控制的建议书,该建议书在ITU-RBS.1770标准的(国际广播联盟规定的音频节目响度及真峰值的测量算法)基础之上，对响度的被测主体、积分窗长等细节作了更加明确的定义。

响度单位LUFS：LUFS的全称为Loudness units relative to full scale，既相对完整刻度的响度单位。LUFS的数值越大，其响度就越大。具体来讲，是将0作为这种满刻度单位的最大值，也就是说此类值均为负数

响度增益：即响度差。例如当前响度为-10LUFS，目标响度为-8LUFS，则响度增益为2LUFS。

歌词文件QRC：是一种记录歌词中每个字的时间戳的音乐歌词文件格式，这种歌词文件可以用来实现卡拉OK功能，并且歌词显示精准定位到逐字，精确到毫秒，使歌词同步显示更准确。

合唱分段：基于歌词文件，标记每一句歌词是由哪位用户歌唱的信息

如图1a所示，图1a是本发明实施例提供的音频处理方法的第一流程示意图，该音频处理方法的具体流程可以如下：

101、获取具有目标音频标识的第一独唱音频和第二独唱音频。

在一实施例中，上述目标音频标识可以为用户需要进行合成的歌曲，具体可以向服务器请求目标音频标识的第一独唱音频和第二独唱音频，上述第一独唱音频和第二独唱音频可以为两个用户分别对该目标音频标识进行演绎的音频。

比如根据目标音频标识(歌曲名、专辑名、演唱者等)向服务器发送请求，然后接收服务器根据上书请求返回的目标音频标识的第一独唱音频和第二独唱音频，其中，该第一独唱音频和第二独唱音频可以为用户选择的第一用户翻唱过的版本以及第二用户翻唱过的版本。

其中，上述目标音频标识的第一独唱音频或第二独唱音频可以为用户输入的音频并上传到服务器，比如在播放伴奏的同时通过终端设备的麦克风输入的人声，上述人声与伴奏结合后即为用户输入的音频，也即第一独唱音频或第二独唱音频。可以理解的是，上述目标音频标识的第一独唱音频或第二独唱音频还可以为目标音频标识的原唱音频，以实现用户录制的音频与原唱音频进行合成。

102、获取第一独唱音频当中的第一伴奏音频响度与第一人声音频响度，以及第二独唱音频当中的第二伴奏音频响度与第二人声音频响度。

在一实施例中，可以先获取第一独唱音频的歌词文件，由于歌词文件当中包括了所有歌词中每个字的时间戳信息，因此可以利用这些时间戳来对第一独唱音频进行分割，以得到第一伴奏音频以及包括伴奏与人声的第一混合音频，然后分别计算第一伴奏音频与第一混合音频响度，并基于第一伴奏音频与第一混合音频响度计算第一人声音频响度。同理，也可以利用歌词中的时间戳来对第二独唱音频进行分割，以得到第二伴奏音频以及包括伴奏与人声的第二混合音频，然后分别计算第二伴奏音频与第二混合音频响度，并基于第一伴奏音频与第二混合音频响度计算第二人声音频响度。

在一申请实施例中，可以使用EBUR128函数来分别计算第一伴奏音频与第一混合音频以及第二伴奏音频与第二混合音频响度。其中，EBU规定的响度单位有三个，分别是响度电平、响度范围和真实峰值电平。

其中响度电平用来描述节目的响度，即被测音频节目在指定的重放条件及相同的播出时长下，其主观音量相较于标准参考节目的大小。EBU制式的响度电平为LUFS和LU两种，－LUFS＝LU，数值越大，节目越响。EBU沿用ITU-R定义的、基于K计权的响度算法，这种算法分为三步：第一步，用一个滑动矩形窗，从待测音频中截取一段时长为T的响度块进行K计权滤波。第二步，计算出滤波后，确定各声道音频样本的均方能量。第三步，对各声道的均方值加权累加、取对数值，就可以获得响度电平。

响度范围则是用来描述节目的响度反差，即节目短时响度电平的离散度，或者说最常出现的那85％的响度的分布范围。响度范围的测量方法分为四步：第一步，将节目音频切割成相互重叠的短时响度块。第二步，以响度为横轴，出现的概率密度为纵轴，绘制出节目的响度-概率分布图。第三步，去掉低于－70LUFS及绝对选通总体响度下方20LU的横轴部分。第四步，剩余响度积累分布函数的10％至95％两点之间所对应的横轴宽度，即为响度范围。

真实峰值电平与平时常用的PPM“峰值电平”不同，模拟准峰值表的瞬态响应受上升时间的限制，无法显示短于上升时间的峰值，而以采样峰值表方式实现的数字PPM表，指示的是采样点的极大值，无法反映采样点之间的峰值。真实峰值电平表是改进的采样峰值表，它先对音频进行至少4倍的升采样，再读取采样峰值。相对于PPM表，TP表的误差较小，可减少为示数的不确定性预留的余量，最大化的利用数字信号的动态范围。真实峰值电平的单位是dBTP或TPFS，以满度电平为参考。

在其他实施例中，上述第一伴奏音频响度与第一混合音频响度以及第二伴奏音频响度与第二混合音频响度还可以根据平均振幅或最大振幅等方法来进行计算，本申请对此不做进一步限定。

在一实施例中，可以根据声音叠加原理来计算混合音频中干声的响度。具体的，可以先根据第一伴奏音频响度与第一混合音频响度计算第一混合音频中人声所带来的响度增益，进而根据混合音频中人声所带来的响度增益来计算第一混合音频当中干声的响度，也即第一人声音频响度。同理，再根据第二伴奏音频响度与第二混合音频响度计算第二混合音频中人声所带来的响度增益，进而根据第二混合音频中人声所带来的响度增益来计算第二混合音频当中干声的响度，也即第二人声音频响度。

103、根据第一伴奏音频响度与第一人声音频响度确定第一独唱音频的第一声伴比，根据第二伴奏音频响度与第二人声音频响度确定第二独唱音频的第二声伴比。

在一实施例中，上述声伴比为音乐中的人声和伴奏的响度比例关系。这不是具体的数值比例，而是响度的相对关系。如声伴比高，表示人声响度大伴奏响度小；如果声伴比低，表示人声响度小伴奏响度大；如果声伴比平衡，表示人声响度和伴奏响度接近。进一步的，在计算到第一伴奏音频与第一人声音频响度以及第二伴奏音频与第二人声音频响度之后，可以进一步根据第一伴奏音频与第一人声音频响度确定第一独唱音频的第一声伴比，根据第二伴奏音频与第二人声音频响度确定第二独唱音频的第二声伴比。

104、基于第一声伴比和第二声伴比，对第一伴奏音频响度与第一人声音频响度或第二伴奏音频响度与第二人声音频响度进行调整。

在一实施例中，可以将上述第一声伴比和第二声伴比进行对比，然后选取声伴比低的独唱作品作为标准作品，然后将另外的独唱作品根据标准作品进行调整。比如若第一声伴比小于第二声伴比，则可以将第一独唱音频作为标准音频，然后根据所述第一伴奏音频与第一人声音频响度对第二伴奏音频与第二人声音频响度进行调整。若第二声伴比小于第一声伴比，则可以将第二独唱音频作为标准音频，然后根据所述第二伴奏音频与第二人声音频响度对第一伴奏音频与第一人声音频响度进行调整。也即基于所述第一声伴比和第二声伴比，对所述第一伴奏音频与第一人声音频响度或第二伴奏音频与第二人声音频响度进行调整的步骤，包括：

若所述第一声伴比小于第二声伴比，则根据所述第一伴奏音频与第一人声音频响度对第二伴奏音频与第二人声音频响度进行调整；

若所述第二声伴比小于第一声伴比，则根据所述第二伴奏音频与第二人声音频响度对第一伴奏音频与第一人声音频响度进行调整。

在一实施例中，根据第一伴奏音频与第一人声音频响度对第二伴奏音频与第二人声音频响度进行调整的步骤可以包括：

根据所述第一伴奏音频与所述第二伴奏音频响度计算所述第二伴奏音频响度增益；

根据所述第二伴奏音频响度增益对所述第二伴奏音频响度进行调整；

根据所述第一人声音频与所述第二人声音频响度计算所述第二人声音频响度增益；

根据所述第二人声音频响度增益对所述第二人声音频响度进行调整_。

可以理解的是，根据第二伴奏音频与第二人声音频响度对第一伴奏音频与第一人声音频响度进行调整的步骤，可以参考上述步骤，在此不作进一步赘述。

105、获取目标音频标识的分段信息，并根据分段信息对调整后的第一独唱音频和第二独唱音频进行合成。

在一实施例中，上述分段信息标记了目标音频标识对应的歌曲中第一独唱音频和第二独唱音频分别对应的片段，从而可以根据分段信息对调整后的第一独唱音频和第二独唱音频进行合成，上述分段信息可以由用户进行设置。

比如，上述目标音频标识对应的歌曲时长为四分钟，而用户想要在歌曲中的开始秒至一分五十秒区间的部分使用第一独唱音频，而歌曲的一分五十秒至两分五十秒区间的部分使用第二独唱音频，剩下的两分五十秒至结束也即四分钟区间的部分使用第一独唱音频，此时就可以分别获取第一独唱音频的开始至一分五十秒区间的音频片段与两分五十秒至四分钟区间的音频片段，再获取第二独唱音频的一分五十秒至两分五十秒区间的音频片段，在将上述三个音频片段进行合成即可得到完整的合唱音频作品。也即获取所述目标音频标识的分段信息，并根据所述分段信息对调整后的第一独唱音频和第二独唱音频进行合成的步骤，包括：

获取所述目标音频标识的分段信息，并根据所述分段信息确定所述第一独唱音频的待拼接片段和第二独唱音频的待拼接片段；

将所述第一独唱音频的待拼接片段和第二独唱音频的待拼接片段进行合成。

经过上述步骤合成得到最终完整的合唱作品。处理后得到的合唱作品在响度上和标准音频中的响度接近或一致，其声伴比也和标准音频中的声伴比接近或一致，因此更能符合人类理想的听觉感知，更加符合用户预期。

由上所述，本发明实施例提出的音频处理方法可以获取具有目标音频标识的第一独唱音频和第二独唱音频，获取第一独唱音频当中的第一伴奏音频与第一人声音频响度，以及第二独唱音频当中的第二伴奏音频与第二人声音频响度，并确定第一独唱音频的第一声伴比以及第二独唱音频的第二声伴比，基于第一声伴比和第二声伴比，对第一伴奏音频与第一人声音频响度或第二伴奏音频与第二人声音频响度进行调整，获取目标音频标识的分段信息，并根据分段信息对调整后的第一独唱音频和第二独唱音频进行合成。本申请实施例所提供的方案可以实现将多个独唱作品合成为合唱作品，并能够提升合唱作品的一致性。

根据前面实施例所描述的方法，以下将作进一步详细说明。

请参阅图1b，图1b是本发明实施例提供的音频处理方法的第二流程示意图。所述方法包括：

201、获取具有目标音频标识的第一独唱音频和第二独唱音频。

202、获取目标音频标识的歌词文件，并提取歌词文件当中歌词所对应的时间戳信息。

在一实施例中，可以先通过爬虫技术在互联网中爬取目标音频标识的歌词文件。例如，电子设备通过运行预先设定的抓虫脚本，抓取各个音乐平台当中目标音频标识对应的歌词文件。其中，预先设定的抓虫脚本可以由用户根据实际需求来进行编写。需要说明的是，上述目标音频标识的歌词文件也可以由用户直接导入，本领域技术人员可以理解，实际应用中，可以采用多种方式获取目标音频标识的歌词文件，本实施方式不限制获取目标音频标识的歌词文件的具体方式。

在一实施例中，上述歌词文件可以为QRC歌词文件，由于该QRC歌词文件中包括了所有歌词中每个字的时间戳信息，因此可以利用这些时间戳来对第一独唱音频和第二独唱音频进行分割。

203、根据时间戳信息对第一独唱进行分割，得到第一伴奏音频以及包括伴奏与人声的第一混合音频。

比如，在一首时长为三分钟的歌曲当中，可以根据歌词的时间戳确定歌曲当中存在人声的区间为二十秒至一分十秒以及一分三十秒至两分四十秒，此时可以将原唱音频分割为两部分，第一部分包括从音频开始也即0秒至二十秒、一分十秒至一分三十秒以及两分四十秒至音频结束也即三分钟，这第一部分音频为纯伴奏部分不包括人声，也即第一伴奏音频，可以记为A段；第二部分则包括原唱音频的二十秒至一分十秒和一分三十秒至两分四十秒，这一部分音频既包括伴奏也包括人声，也即混合音频，可以记为M段。

204、分别计算第一伴奏音频响度与第一混合音频响度，并基于第一伴奏音频响度与第一混合音频响度计算第一人声音频响度。

在一实施例中，可以使用EBUR128函数来分别计算第一伴奏音频响度L_A与第一混合音频响度L_M。其中，EBU的响度单位可以为响度电平。具体的，可以用一个滑动矩形窗，从待测音频中截取一段时长为T的响度块进行K计权滤波，计算出滤波后，确定各声道音频样本的均方能量，然后对各声道的均方值加权累加、取对数值，就可以获得响度电平。

在一实施例中，可以根据声音叠加原理来计算第一混合音频中干声的响度L_V。具体的，可以先根据第一伴奏音频响度L_A与第一混合音频响度L_M计算第一混合音频中人声所带来的响度增益L_G，进而根据第一混合音频中人声所带来的响度增益L_G来计算第一混合音频当中干声的响度L_V，也即第一人声音频响度。也即，基于预设公式以及所述第一伴奏音频与第一混合音频响度计算第一人声音频响度，其中所述预设公式为：

L_G＝L_M-L_A

L_V＝L_M+10×lg(1-10^-0.1×L _G)

其中：L_A为第一伴奏音频响度，L_M为第一混合音频响度，L_G为第一混合音频当中第一人声音频对应的响度增益，L_V为第一人声音频响度。

205、根据时间戳信息对第二独唱进行分割，得到第二伴奏音频以及包括伴奏与人声的第二混合音频。

206、分别计算第二伴奏音频与第二混合音频响度，并基于第二伴奏音频与第二混合音频响度计算第二人声音频响度。

上述步骤可以参考步骤203及204当中针对第一独唱音频的处理过程，此处不再赘述。

207、根据第一伴奏音频响度与第一人声音频响度确定第一独唱音频的第一声伴比，根据第二伴奏音频响度与第二人声音频响度确定第二独唱音频的第二声伴比。

208、基于第一声伴比和第二声伴比，对第一伴奏音频响度与第一人声音频响度或第二伴奏音频响度与第二人声音频响度进行调整。

在一实施例中，可以将上述第一声伴比和第二声伴比进行对比，然后选取声伴比低的独唱作品作为标准作品，然后将另外的独唱作品根据该标准作品进行调整。

举例来说，若第一声伴比小于第二声伴比，则可以将第一独唱音频作为标准音频，然后根据所述第一伴奏音频与第一人声音频响度对第二伴奏音频与第二人声音频响度进行调整。具体的，上述第二伴奏音频可以记为A^′，第二伴奏音频响度可以记为L_A’，然后根据第一伴奏音频响度L_A来计算第二伴奏音频响度增益：

G_A＝L_A-L_A’

然后根据第二伴奏音频响度增益对第二伴奏音频响度进行调整。上述第二人声音频可以记为V′，第二人声音频响度可以记为L_V’，再根据第一人声音频响度L_V来计算第二人声音频响度增益：

G_V＝L_V-L_V’

然后根据第二人声音频响度增益对第二人声音频响度进行调整。

209、获取目标音频标识的分段信息，并根据分段信息确定第一独唱音频的待拼接片段和第二独唱音频的待拼接片段。

在一实施例中，上述分段信息标记了目标音频标识对应的歌曲中第一独唱音频的待拼接片段和第二独唱音频分别对应的待拼接片段。比如，上述目标音频标识对应的歌曲时长为四分钟，第一独唱音频的待拼接片段可以为开始至一分五十秒区间的音频片段与两分五十秒至四分钟区间的音频片段，第二独唱音频的待拼接片段可以为一分五十秒至两分五十秒区间的音频片段。

210、将第一独唱音频的待拼接片段和第二独唱音频的待拼接片段进行合成。

在一实施例中，请参阅图2，为了保证拼接自然流畅，可以使用如下淡入淡出算法进行合成，比如在将第一独唱音频的待拼接片段切换到第二独唱音频的待拼接片段时，第二独唱音频的待拼接片段可以提前500ms切入，第一独唱音频的待拼接片段可以推迟500ms退出。同理，在将第二独唱音频的待拼接片段切换到第一独唱音频的待拼接片段时，也可以将第一独唱音频的待拼接片段提前500ms切入，将第二独唱音频的待拼接片段推迟500ms退出。需要说明的是，上述提前进入的时间段与推迟退出的时间段也可以不同。也即，将所述第一独唱音频的待拼接片段和第二独唱音频的待拼接片段进行合成的步骤，包括：

在所述第一独唱音频的待拼接片段切换到第二独唱音频的待拼接片段时，所述第二独唱音频的待拼接片段提前第一预设时长进入，所述第一独唱音频的待拼接片段推迟第二预设时长退出；

在所述第二独唱音频的待拼接片段切换到第一独唱音频的待拼接片段时，所述第一独唱音频的待拼接片段提前第二预设时长进入，所述第二独唱音频的待拼接片段推迟第一预设时长退出。

由上所述，本发明实施例提出的音频处理方法可以获取目标音频标识的第一独唱音频和第二独唱音频，获取具有目标音频标识的歌词文件，并提取歌词文件当中歌词所对应的时间戳信息，根据时间戳信息对第一独唱进行分割，得到第一伴奏音频以及包括伴奏与人声的第一混合音频，分别计算第一伴奏音频与第一混合音频响度，并基于第一伴奏音频与第一混合音频响度计算第一人声音频响度，根据时间戳信息对第二独唱进行分割，得到第二伴奏音频以及包括伴奏与人声的第二混合音频，分别计算第二伴奏音频与第二混合音频响度，并基于第二伴奏音频与第二混合音频响度计算第二人声音频响度，根据第一伴奏音频与第一人声音频响度确定第一独唱音频的第一声伴比，根据第二伴奏音频与第二人声音频响度确定第二独唱音频的第二声伴比，基于第一声伴比和第二声伴比，对第一伴奏音频与第一人声音频响度或第二伴奏音频与第二人声音频响度进行调整，获取目标音频标识的分段信息，并根据分段信息确定第一独唱音频的待拼接片段和第二独唱音频的待拼接片段，将第一独唱音频的待拼接片段和第二独唱音频的待拼接片段进行合成。本申请实施例所提供的方案可以实现将多个独唱作品合成为合唱作品，并能够提升合唱作品的一致性。

为了实施以上方法，本发明实施例还提供一种音频处理装置，该音频处理装置具体可以集成在终端设备如手机、平板电脑等设备中。

例如，如图3a所示，是本发明实施例提供的音频处理装置的第一种结构示意图。该音频处理装置可以包括：

获取单元301，用于获取具有目标音频标识的第一独唱音频和第二独唱音频。

在一实施例中，上述目标音频标识可以为用户需要进行合成的歌曲，获取单元301可以向服务器请求目标音频标识的第一独唱音频和第二独唱音频，上述第一独唱音频和第二独唱音频可以为两个用户分别对该目标音频标识进行演绎的音频。

计算单元302，用于获取所述第一独唱音频当中的第一伴奏音频响度与第一人声音频响度，以及所述第二独唱音频当中的第二伴奏音频响度与第二人声音频响度。

在一实施例中，计算单元302可以先获取第一独唱音频的歌词文件，由于歌词文件当中包括了所有歌词中每个字的时间戳信息，因此可以利用这些时间戳来对第一独唱音频进行分割，以得到第一伴奏音频以及包括伴奏与人声的第一混合音频，然后分别计算第一伴奏音频与第一混合音频响度，并基于第一伴奏音频与第一混合音频响度计算第一人声音频响度。同理，也可以利用歌词中的时间戳来对计算所述第二独唱音频当中的第二伴奏音频与第二人声音频响度。

确定单元303，用于根据所述第一伴奏音频响度与第一人声音频响度确定所述第一独唱音频的第一声伴比，根据所述第二伴奏音频响度与第二人声音频响度确定所述第二独唱音频的第二声伴比。

调整单元304，用于基于所述第一声伴比和第二声伴比，对所述第一伴奏音频响度与第一人声音频响度或第二伴奏音频响度与第二人声音频响度进行调整。

在一实施例中，可以将上述第一声伴比和第二声伴比进行对比，然后选取声伴比低的独唱作品作为标准作品，然后将另外的独唱作品根据标准作品进行调整。比如若第一声伴比小于第二声伴比，则可以将第一独唱音频作为标准音频，然后根据所述第一伴奏音频与第一人声音频响度对第二伴奏音频与第二人声音频响度进行调整。若第二声伴比小于第一声伴比，则可以将第二独唱音频作为标准音频，然后根据所述第二伴奏音频与第二人声音频响度对第一伴奏音频与第一人声音频响度进行调整。

合成单元305，用于获取所述目标音频标识的分段信息，并根据所述分段信息对调整后的第一独唱音频和第二独唱音频进行合成。

在一实施例中，上述分段信息标记了目标音频标识对应的歌曲中第一独唱音频和第二独唱音频分别对应的片段，从而可以根据分段信息对调整后的第一独唱音频和第二独唱音频进行合成，上述分段信息可以由用户进行设置。经过上述步骤合成得到最终完整的合唱作品。处理后得到的合唱作品在响度上和标准音频中的响度接近或一致，其声伴比也和标准音频中的声伴比接近或一致，因此更能符合人类理想的听觉感知，更加符合用户预期。

在一实施例中，请参阅图3b，所述计算单元302包括：

获取子单元3021，用于获取所述目标音频标识的歌词文件；

分割子单元3022，用于根据所述歌词文件对所述第一独唱音频进行分割，得到第一伴奏音频以及包括伴奏与人声的第一混合音频；

计算子单元3023，用于分别计算所述第一伴奏音频与第一混合音频响度，并基于所述第一伴奏音频与第一混合音频响度计算第一人声音频响度。

在一实施例中，上述分割子单元3022，还可以用于根据所述歌词文件对所述第二独唱音频进行分割，得到第二伴奏音频以及包括伴奏与人声的第二混合音频；

上述计算子单元3023，还可以用于分别计算所述第二伴奏音频与第二混合音频响度，并基于所述第二伴奏音频与第二混合音频响度计算第二人声音频响度。

在一实施例中，所述调整单元304可以包括：

第一调整子单元3041，用于当所述第一声伴比小于第二声伴比时，根据所述第一伴奏音频与第一人声音频响度对第二伴奏音频与第二人声音频响度进行调整；

第二调整子单元3042，用于当所述第二声伴比小于第一声伴比时，根据所述第二伴奏音频与第二人声音频响度对第一伴奏音频与第一人声音频响度进行调整。

本发明实施例提出的音频处理装置，可以由获取单元301获取具有目标音频标识的第一独唱音频和第二独唱音频，计算单元302获取第一独唱音频当中的第一伴奏音频响度与第一人声音频响度，以及第二独唱音频当中的第二伴奏音频响度与第二人声音频响度，确定单元303确定第一独唱音频的第一声伴比以及第二独唱音频的第二声伴比，调整单元304基于第一声伴比和第二声伴比，对第一伴奏音频响度与第一人声音频响度或第二伴奏音频响度与第二人声音频响度进行调整，合成单元305获取目标音频标识的分段信息，并根据分段信息对调整后的第一独唱音频和第二独唱音频进行合成。本申请实施例所提供的方案可以实现将多个独唱作品合成为合唱作品，并能够提升合唱作品的一致性。

本发明实施例还提供一种终端，如图4所示，该终端可以包括射频(RF，RadioFrequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(WiFi，Wireless Fidelity)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解，图4中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路601可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器608处理；另外，将涉及上行的数据发送给基站。通常，RF电路601包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM，Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路601还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobile communication)、通用分组无线服务(GPRS，GeneralPacket Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、长期演进(LTE，Long TermEvolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

存储器602可用于存储软件程序以及模块，处理器608通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及信息处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器608和输入单元603对存储器602的访问。

输入单元603可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元603可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器608，并能接收处理器608发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元603还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元604可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元604可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器608以确定触摸事件的类型，随后处理器608根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图4中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

终端还可包括至少一种传感器605，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在终端移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路606、扬声器，传声器可提供用户与终端之间的音频接口。音频电路606可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路606接收后转换为音频数据，再将音频数据输出处理器608处理后，经RF电路601以发送给比如另一终端，或者将音频数据输出至存储器602以便进一步处理。音频电路606还可能包括耳塞插孔，以提供外设耳机与终端的通信。

WiFi属于短距离无线传输技术，终端通过WiFi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图4示出了WiFi模块607，但是可以理解的是，其并不属于终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器608是终端的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行终端的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器608可包括一个或多个处理核心；优选的，处理器608可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器608中。

终端还包括给各个部件供电的电源609(比如电池)，优选的，电源可以通过电源管理系统与处理器608逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源609还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端中的处理器608会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器608来运行存储在存储器602中的应用程序，从而实现各种功能：

获取具有目标音频标识的第一独唱音频和第二独唱音频；

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对音频处理方法的详细描述，此处不再赘述。

由上可知，本发明实施例的终端可以获取具有目标音频标识的第一独唱音频和第二独唱音频，获取第一独唱音频当中的第一伴奏音频响度与第一人声音频响度，以及第二独唱音频当中的第二伴奏音频响度与第二人声音频响度，并确定第一独唱音频的第一声伴比以及第二独唱音频的第二声伴比，基于第一声伴比和第二声伴比，对第一伴奏音频响度与第一人声音频响度或第二伴奏音频响度与第二人声音频响度进行调整，获取目标音频标识的分段信息，并根据分段信息对调整后的第一独唱音频和第二独唱音频进行合成。本申请实施例所提供的方案可以实现将多个独唱作品合成为合唱作品，并能够提升合唱作品的一致性。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种音频处理方法中的步骤。例如，该指令可以执行如下步骤：

获取具有目标音频标识的第一独唱音频和第二独唱音频；

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种音频处理方法中的步骤，因此，可以实现本发明实施例所提供的任一种音频处理方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种音频处理方法、装置、存储介质以及终端进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频处理方法，其特征在于，包括：

获取具有目标音频标识的第一独唱音频和第二独唱音频；

2.如权利要求1所述的音频处理方法，其特征在于，获取所述第一独唱音频当中的第一伴奏音频响度与第一人声音频响度的步骤，包括：

获取所述目标音频标识的歌词文件；

根据所述歌词文件对所述第一独唱音频进行分割，得到第一伴奏音频以及包括伴奏与人声的第一混合音频；

分别计算所述第一伴奏音频响度与第一混合音频响度，并基于所述第一伴奏音频响度与第一混合音频响度计算第一人声音频响度。

3.如权利要求2所述的音频处理方法，其特征在于，根据所述歌词文件对所述第一独唱音频进行分割，得到第一伴奏音频以及包括伴奏与人声的第一混合音频，包括：

获取所述歌词文件当中歌词所对应的时间戳信息；

根据所述时间戳信息对所述第一独唱进行分割，得到第一伴奏音频以及包括伴奏与人声的第一混合音频。

4.如权利要求2所述的音频处理方法，其特征在于，基于预设公式以及所述第一伴奏音频响度与第一混合音频响度计算第一人声音频响度，其中所述预设公式为：

L_G＝L_M-L_A

5.如权利要求1所述的音频处理方法，其特征在于，基于所述第一声伴比和第二声伴比，对所述第一伴奏音频响度与第一人声音频响度或第二伴奏音频响度与第二人声音频响度进行调整的步骤，包括：

若所述第一声伴比小于第二声伴比，则根据所述第一伴奏音频响度与第一人声音频响度对第二伴奏音频响度与第二人声音频响度进行调整；

若所述第二声伴比小于第一声伴比，则根据所述第二伴奏音频响度与第二人声音频响度对第一伴奏音频响度与第一人声音频响度进行调整。

6.如权利要求1所述的音频处理方法，其特征在于，获取所述目标音频标识的分段信息，并根据所述分段信息对调整后的第一独唱音频和第二独唱音频进行合成的步骤，包括：

7.如权利要求6所述的音频处理方法，其特征在于，将所述第一独唱音频的待拼接片段和第二独唱音频的待拼接片段进行合成的步骤，包括：

8.一种音频处理装置，其特征在于，包括：

9.如权利要求8所述的音频处理装置，其特征在于，所述计算单元包括：

获取子单元，用于获取所述目标音频标识的歌词文件；

分割子单元，用于根据所述歌词文件对所述第一独唱音频进行分割，得到第一伴奏音频以及包括伴奏与人声的第一混合音频；

计算子单元，用于分别计算所述第一伴奏音频响度与第一混合音频响度，并基于所述第一伴奏音频响度与第一混合音频响度计算第一人声音频响度。

10.如权利要求8所述的音频处理装置，其特征在于，所述调整单元包括：

第一调整子单元，用于当所述第一声伴比小于第二声伴比时，根据所述第一伴奏音频响度与第一人声音频响度对第二伴奏音频响度与第二人声音频响度进行调整；

第二调整子单元，用于当所述第二声伴比小于第一声伴比时，根据所述第二伴奏音频响度与第二人声音频响度对第一伴奏音频响度与第一人声音频响度进行调整。

11.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至7任一项所述的音频处理方法。