CN111785238B

CN111785238B - 音频校准方法、装置及存储介质

Info

Publication number: CN111785238B
Application number: CN202010590868.7A
Authority: CN
Inventors: 李胜存
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2024-02-27
Anticipated expiration: 2040-06-24
Also published as: CN111785238A

Abstract

本发明实施例公开了一种音频校准方法、装置及存储介质。该方案可以获取翻唱音频以及标准音频，并分别计算翻唱音频当中每个字的音高与标准音频中每个字的音高，及其每个对应字的音高之间的偏差值，根据偏差值对翻唱音频进行校准，以得到翻唱音频中每个字的修复音频，根据偏差值确定翻唱音频中每个字的刻度影射值，实时获取刻度设置值，并将刻度设置值与翻唱音频中每个字的刻度影射值进行对比，根据对比结果从每个字的修复音频以及翻唱音频当中选取目标音频进行输出。本申请实施例通过翻唱音频当中每个字的音高与标准音频中对应字的音高之间的偏差值来设置刻度影射值，从而结合刻度设置值实时调节音频的校准程度，提升音频校准的效率。

Description

音频校准方法、装置及存储介质

技术领域

本发明涉及数据处理技术领域，具体涉及一种音频校准方法、装置及存储介质。

背景技术

近些年来，移动端K歌软件的市场规模逐渐扩大，用户群体遍布各个年龄段以及各种音乐层次。特别是随着智能手机、平板电脑等智能终端的普及，使得用户足不出户进行K歌成为了一种可能。比如，用户在智能手机上安装了K歌软件后，无需走进KTV便可实现歌曲演唱。其中此类软件的主要场景之一就是录歌，也就是伴奏与人声两路音频信号，通过信号处理技术最终产生合成作品的一路音频信号数据即为用户的翻唱作品。

目前使用市面上的K歌APP录音时，用户交互中重要的一个环节是在用户对翻唱作品调节时让用户选择他偏好的修音程度,一些他认为无需要修复的段落保留原样,一些他认为唱的音准偏大的段落才应用修音算法。解决这一问题传统的方法将应用从简单修音到精修细分为一个或多个级别,让用户选择。

在实现本发明过程中，发明人发现，这种传统的修音方法在用户更改修音级别后需要重新计算，才能进行针对性的校准，因此需要进行多次调节才能找到最合适的修音级别，反复调节将会大大降低音频校准的效率。

发明内容

本发明实施例提供一种音频校准方法、装置及存储介质，可以有效提升音频的校准效率。

本发明实施例提供一种音频校准方法，包括：

获取翻唱音频以及标准音频，并分别计算所述翻唱音频当中每个字的音高与所述标准音频中每个字的音高，及其每个对应字的音高之间的偏差值；

根据所述偏差值对所述翻唱音频进行校准，以得到所述翻唱音频中每个字的修复音频；

根据所述偏差值确定所述翻唱音频中每个字的刻度影射值；

实时获取刻度设置值，并将所述刻度设置值与所述翻唱音频中每个字的刻度影射值进行对比；

若所述刻度影射值大于刻度设置值，则选取对应的字的翻唱音频作为目标音频进行输出；

若所述刻度影射值不大于刻度设置值，则选取对应的字的修复音频作为目标音频进行输出。

本发明实施例还提供一种音频校准装置，包括：

获取单元，用于获取翻唱音频以及标准音频，并分别计算所述翻唱音频当中每个字的音高与所述标准音频中每个字的音高，及其每个对应字的音高之间的偏差值；

校准单元，用于根据所述偏差值对所述翻唱音频进行校准，以得到所述翻唱音频中每个字的修复音频；

计算单元，用于根据所述偏差值确定所述翻唱音频中每个字的刻度影射值；

对比单元，用于实时获取刻度设置值，并将所述刻度设置值与所述翻唱音频中每个字的刻度影射值进行对比；

输出单元，用于当所述刻度影射值大于刻度设置值时，选取对应的字的翻唱音频作为目标音频进行输出，当所述刻度影射值不大于刻度设置值时，选取对应的字的修复音频作为目标音频进行输出。

本发明实施例还提供一种存储介质，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一音频校准方法。

本发明实施例提供的音频处理方案，可以获取翻唱音频以及标准音频，并分别计算翻唱音频当中每个字的音高与标准音频中每个字的音高，及其每个对应字的音高之间的偏差值，根据偏差值对翻唱音频进行校准，以得到翻唱音频中每个字的修复音频，根据偏差值确定翻唱音频中每个字的刻度影射值，实时获取刻度设置值，并将刻度设置值与翻唱音频中每个字的刻度影射值进行对比，根据对比结果从每个字的修复音频以及翻唱音频当中选取目标音频进行输出。本申请实施例通过翻唱音频当中每个字的音高与标准音频中对应字的音高之间的偏差值来设置刻度影射值，从而结合刻度设置值实时调节音频的校准程度，具有较高的灵活性并且大大提升了音频校准的效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的音频校准方法的第一流程示意图；

图1b是本发明实施例提供的音频校准方法的第二流程示意图；

图2a是本发明实施例提供的音频校准装置的第一种结构示意图；

图2b是本发明实施例提供的音频校准装置的第二种结构示意图；

图3是本发明实施例提供的终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明实施例提供一种音频校准方法，该音频校准方法的执行主体可以是本发明实施例提供的音频校准装置，或者集成了该音频校准装置的服务器，其中该音频校准装置可以采用硬件或者软件的方式实现。

如图1a所示，图1a是本发明实施例提供的音频校准方法的第一流程示意图，该音频校准方法的具体流程可以如下：

101、获取翻唱音频以及标准音频，并分别计算翻唱音频当中每个字的音高与标准音频中每个字的音高，及其每个对应字的音高之间的偏差值。

在一实施例中，上述翻唱音频可以为用户针对目标音频资源所翻唱的歌曲，进一步的，该翻唱音频可以为一路伴奏音频和一路干声音频合成后的音频信号，其中，该伴奏音频可以为用户所要翻唱的歌曲应的伴奏音频，比如根据目标音频资源的标识(歌曲名、专辑名、演唱者等)向服务器发送请求，然后接收服务器根据上书请求返回的伴奏音频，该伴奏音频为目标音频当中的纯伴奏部分。上述干声音频可以用户输入的音频，比如在播放伴奏的同时通过终端设备的麦克风输入的人声。比如用户在录歌时现根据目标音频的歌名获取该歌曲的伴奏音频，然后通过麦克风输入自己翻唱的干声音频。

在其他实施例当中，上述翻唱音频还可以包括一路伴奏音频和多路干声音频。比如多个用户采用合唱的方式对目标音频资源进行翻唱，若一首歌曲的时长为四分钟，而用户A对前两分钟的部分进行翻唱，用户B对后两分钟的部分进行翻唱，此时可以在根据歌曲名获取到伴奏音频之后，通过麦克风分别获取用户A输入的前两分钟对应的第一干声音频以及用户B输入的后两分钟对应的第二干声音频，以合成得到上述翻唱音频。

在一实施例中，标准音频可以为上述目标音频资源所对应的原唱音频，以用来对用户翻唱的歌曲进行校准。在其他实施例中，上述标准音频还可以为用户选取的其他版本的歌曲，比如其他用户上传的针对上述目标音频资源的翻唱版本，本申请对此不做进一步限定。

进一步的，在获取上述翻唱音频以及标准音频之后，计算翻唱音频以及标准音频当中每个字的音高，然后根据两个音频之间的对应关系计算翻唱音频当中每个字的音高与标准音频中对应字的音高之间的偏差值，具体可以根据歌词文件将上述翻唱音频以及标准音频之中的字建立对应关系。在一实施例中，可以先通过爬虫技术在互联网中爬取目标音频资源的歌词文件。例如，电子设备通过运行预先设定的抓虫脚本，抓取各个音乐平台当中目标音频资源的歌词文件。其中，预先设定的抓虫脚本可以由用户根据实际需求来进行编写。需要说明的是，上述目标音频资源的歌词文件也可以由用户直接导入，本领域技术人员可以理解，实际应用中，可以采用多种方式获取目标音频资源的歌词文件，在一实施例中，上述偏差值代表上述翻唱音频当中每个字的音高标准音频中对应字的音高之间的偏差程度，单位是半音。其中，一个半音为音高的12平均律下的最小粒度，对应为钢琴按键上相邻两个按键,对应频率上的关系为将一个倍频按等比数列等比均分12分,每份之间的频率差为一个半音。

102、根据偏差值对翻唱音频进行校准，以得到翻唱音频中每个字的修复音频。

在一实施例中，按照翻唱音频当中每个字与标准音频中对应字的音高之间的偏差值，根据预设的修音算法进行修复，以得到翻唱音频中每个字的修复音频。进一步的，将上述修复音频与用户输入的翻唱音频按字在时间线上对齐，比如根据歌词文件的时间轴来进行对齐，将上述修复音频作为缓存，但并不作为最终的输出。其中，上述修音算法可以使翻唱音频当中每个字的音高与标准音频中对应字的音高相同或相近。

103、根据偏差值确定翻唱音频中每个字的刻度影射值。

在一实施例中，可以先根据每个字的偏差值的大小对翻唱音频当中所有的字来进行排序，然后根据排序结果分别计算翻唱音频中每个字的刻度影射值。进一步的，还可以将上述翻唱音频中的字分为两个集合，比如根据预设偏差值将翻唱音频中的字划分为第一集合和第二集合，然后分别在上述第一集合和第二集合当中计算每个字的刻度影射值。其中，上述预设偏差值为预先设置的值，用于决策是否需要对字进行修复，此值为用户翻唱音频中按字与标准音频中对应字的音高的偏离程度半音数的值。通常情况下，人耳能明确感知一个半音以上的音准偏差，超过此阈值以上的字为需要修复的字，低于此阈值的音准偏差字可以不修复保持原样。因此可以将上述预设偏差值设为1个半音偏差。需要说明的是，如果修音标准严格一点，可以设定此小一点如0.8个半音偏差，如修音标准宽松一点，可以设定此值大一点如1.2个半音偏差等等。

在将上述翻唱音频中的字划分为两个集合之后，可以分别根据两个集合中子的排序情况来计算每个字刻度影射值。也即根据所述偏差值计算所述翻唱音频中每个字的刻度影射值的步骤，包括

根据预设偏差值将所述翻唱音频中的字划分为第一集合和第二集合；

分别对所述第一集合和第二集合进行排序；

按照排序结果分别计算所述第一集合和第二集合中每个字的刻度影射值。

举例来说，在后续用户调节刻度时，系统UI调节可以对应一个无级调节的调节滑块，分别影射为最小的值0，最大的值1，中间默认的值0.5。然后循环上述翻唱音频中的每一个字，比较每个字的偏差值与预设偏差值的大小，如果偏差值小于上述预设偏差值，则可以将该字划分至中间以左刻度值的集合，也即第一集合。如果偏差值大于上述预设偏差值，则可以将该字划分至中间以右刻度值的集合，也即第二集合。如果偏差值刚好等于0.5也即默认的中间值，则可以直接设置该字的刻度值为0.5。也即根据预设偏差值将所述翻唱音频中的字划分为第一集合和第二集合的步骤，包括：

分别将所述翻唱音频当中每个字的音高与标准音频中对应字的音高之间的偏差值与预设偏差值进行对比；

若每个对应字的音高之间的偏差值小于所述预设偏差值，则将对应翻唱音频中的字划分至第一集合；

若每个对应字的音高之间的偏差值大于所述预设偏差值，则将对应翻唱音频中的字划分至第二集合；

若每个对应字的音高之间的偏差值等于所述偏差值，则将对应翻唱音频中的字的刻度影射值设置为预设刻度值。

进一步的，在上述两个集合当中，可以分别对上述第一集合和第二集合进行排序，比如对第一集合中的字按照其对应的偏差值进行降序排序，对第二集合中的字按照其对应的偏差值进行升序排序。然后按照排序分别计算第一集合和第二集合内每个字的刻度影射值。

具体的，第一集合中计算刻度影射的公式：

scale[刻度值]＝0+(0.5-0)*sorted_index[元素排序序号索引]/size[集合元素个数]

第二集合中计算刻度影射的公式：

scale[刻度值]＝1-(1-0.5)*sorted_index[元素排序序号索引]/size[集合元素个数]

104、实时获取刻度设置值，并将刻度设置值与翻唱音频中每个字的刻度影射值进行对比。

在本申请实施例中，用户可以实时调节刻度值，比如当音频的修音程度过高时将刻度值调低，当修音程度不够时将刻度值调高。因此实时获取用户设置的刻度值，并且在获取之后与翻唱音频中每个字的刻度影射值进行对比。

在一实施例中，本申请实施例可以在播放音频的过程中实施对音频进行校准，举例来说，若用户先将刻度值调至0.3，此时将后续该翻唱音频中的字的刻度影射值与0.3进行对比，并根据对比结果输出。若用户播放过程中觉得修音的程度不够，实时的将该刻度值调至0.6，此时需要将接下来要播放翻唱音频中的字的刻度影射值与0.6进行对比，并根据对比结果输出。

105、根据对比结果从每个字的修复音频以及翻唱音频当中选取目标音频进行输出。

在一实施例中，对翻唱音频当中的每个字进行循环，若用户在播放音频的过程中调节刻度值，则可以只需对接下来将要播放的字进行循环。在循环时，分别将每个字的刻度影射值与用户设置的刻度值进行对比，并根据对比结果每个字的修复音频以及翻唱音频当中选取目标音频进行输出。

在一实施例中，若所述刻度影射值大于刻度设置值，则选取对应的字的翻唱音频作为目标音频进行输出，若所述刻度影射值不大于刻度设置值，则选取对应的字的修复音频作为目标音频进行输出。

比如，如果字的刻度影射值大于刻度设置值，则可以用翻唱音频的原声进行输出，如果小于或者等于刻度设置值，则可以用步骤102输出的修复音频进行输出。循环完成后，即可得到翻唱音频当中每个字的输出结果。进一步的，将上述每个字的输出结果拼接即可得到最终完成的音频。

在本申请实施例中，使用比分级调节更直观方便易用的交互UI，无级调节为一滑动块可由用户随意控制滑动调节。默认情况下调节块可以位于调节程度刻度的中央比如0.5代表推荐的最优的推荐使用修复程度。滑块调节到最左边为最低的修音程度即所有段落都没有动的原声，滑块调节到最右为最高的修音程度即所有的段落都应用修音算法，随着滑块从左往右移动，修音程度平均的从最低应用到最高。这种调节修音程度算法无需重新运算一次修音算法，无需阻断用户交互马上听到调节后的效果，可以有效提升修音的效率。

由上所述，本发明实施例提出的音频校准方法可以获取翻唱音频以及标准音频，并分别计算翻唱音频当中每个字的音高与标准音频中对应字的音高之间的偏差值，根据偏差值对翻唱音频进行校准，以得到翻唱音频中每个字的修复音频，根据偏差值计算翻唱音频中每个字的刻度影射值，实时获取刻度设置值，并将刻度设置值与翻唱音频中每个字的刻度影射值进行对比，根据对比结果从每个字的修复音频以及翻唱音频当中选取目标音频进行输出。本申请实施例通过翻唱音频当中每个字的音高与标准音频中对应字的音高之间的偏差值来设置刻度影射值，从而结合刻度设置值实时调节音频的校准程度，具有较高的灵活性并且大大提升了音频校准的效率。

根据前面实施例所描述的方法，以下将作进一步详细说明。

请参阅图1b，图1b是本发明实施例提供的音频校准方法的第二流程示意图。所述方法包括：

201、获取翻唱音频和标准音频，对翻唱音频和标准音频当中每个字进行基频检测，得到每个字所对应的基频序列。

在一实施例中，上述翻唱音频可以为用户针对目标音频资源所翻唱的歌曲，标准音频可以为上述目标音频资源所对应的原唱音频，以用来对用户翻唱的歌曲进行校准。在其他实施例中，上述标准音频还可以为用户选取的其他版本的歌曲。

在获取到翻唱音频和标准音频之后，可以分别针对翻唱音频和标准音频当中每个字进行基频检测。上述基频检测也叫做基音周期估计(pitch detection)或者基音检测，在一实施例中，上述基频检测可以通过时域估计法来进行检测，时域估计法直接由语音波形来估计基音周期，常见的有：自相关法、并行处理法、平均幅度差法、数据减少法等。在其他实施例中，上述基频检测还可以通过变换法或混合法来进行检测。其中，变换法是将语音信号变换到频域或者时域来估计基音周期的方法，首先利用同态分析方法将声道的影响消除，得到属于激励部分的信息，然后求取基音周期，最常用的就是倒谱法，这种方法的缺点就是算法比较复杂，但是基音估计的效果却很好。混合法则是先提取信号声道模型参数，然后利用它对信号进行滤波，得到音源序列，最后再利用自相关法或者平均幅度差法求得基因音周期。在分别针对翻唱音频和标准音频当中每个字进行基频检测后，即可得到每个字所对应的基频序列。

202、通过预设算法将基频序列转化为音高序列。

在一实施例中，根据midi规范的定义,440Hz对应标准钢琴的第69个键,所以频率对应半音音高的关系为：

noteNum＝69+log(frequency)/log(2)*12

通过上述公式即可将基频序列转化为noteNum序列，也即每个字所对应的音高序列。

203、根据音高序列计算翻唱音频和标准音频当中每个字的音高，并计算翻唱音频当中每个字的音高与标准音频中对应字的音高之间的偏差值。

在一实施例中，通过量化算法评估字内noteNum序列量并转化为和听感音高一致的NoteNum作为字的音高，在量化得到翻唱音频和标准音频当中每个字的音高之后，根据两个音频之间的对应关系计算翻唱音频当中每个字的音高与标准音频中对应字的音高之间的偏差值，具体可以根据歌词文件将上述翻唱音频以及标准音频之中的字建立对应关系。其中，上述偏差值代表上述翻唱音频当中每个字的音高标准音频中对应字的音高之间的偏差程度，单位是半音。

204、根据偏差值对翻唱音频进行校准，以得到翻唱音频中每个字的修复音频。

205、根据偏差值计算翻唱音频中每个字的刻度影射值。

在本申请实施例中，可以预先设置一个预设偏差值，该预设偏差值用于决策是否需要对字进行修复，此值为用户翻唱音频中按字与标准音频中对应字的音高的偏离程度半音数的值。通常情况下，人耳能明确感知一个半音以上的音准偏差，超过此阈值以上的字为需要修复的字，低于此阈值的音准偏差字可以不修复保持原样。因此可以将上述预设偏差值设为1个半音偏差。

进一步的，在后续用户调节刻度时，系统UI调节可以对应一个无级调节的调节滑块，分别影射为最小的值0，最大的值1，中间默认的值0.5。然后循环上述翻唱音频中的每一个字，比较每个字的偏差值与预设偏差值的大小，如果偏差值小于上述预设偏差值，则可以将该字划分至中间以左刻度值的集合，也即第一集合。如果偏差值大于上述预设偏差值，则可以将该字划分至中间以右刻度值的集合，也即第二集合。如果偏差值刚好等于0.5也即默认的中间值，则可以直接设置该字的刻度值为0.5。

然后可以对第一集合中的字按照其对应的偏差值进行降序排序，对第二集合中的字按照其对应的偏差值进行升序排序。此时第一集合影射到刻度[0，0.5]，第二集合影射到刻度[0.5，1]，然后分别在两个集合当中计算每个字的刻度影射值。

206、实时获取刻度设置值，并将刻度设置值与翻唱音频中每个字的刻度影射值进行对比。

比如，若用户先将刻度值调至0.3，此时将后续该翻唱音频中的字的刻度影射值与0.3进行对比，并根据对比结果输出。若用户播放过程中觉得修音的程度不够，实时的将该刻度值调至0.6，此时需要将接下来要播放翻唱音频中的字的刻度影射值与0.6进行对比，并根据对比结果输出。

207、根据对比结果从每个字的修复音频以及翻唱音频当中选取目标音频进行输出。

在一实施例中，根据对比结果从所述每个字的修复音频以及翻唱音频当中选取目标音频进行输出的步骤，可以包括：

若大于刻度设置值，则选取对应的字的翻唱音频作为目标音频进行输出；

若不大于刻度设置值，则选取对应的字的修复音频作为目标音频进行输出。

步骤208，将输出所有字的目标音频进行拼接，以得到完整音频。

对每个字进行循环后，即可得到翻唱音频当中每个字的输出结果。进一步的，将上述每个字的输出结果拼接即可得到最终完成的音频。

步骤209，获取完整音频中的过渡片段，并对过渡片段进行音频过渡处理。

在一实施例中，为了使拼接后的音频具有更好的听感，还可以对拼接后的音频进行音频过度。具体可以先获取完整音频中的过渡片段，并对过渡片段进行音频过渡处理，其中，上述过渡片段包括相邻且分别使用修复音频和翻唱音频作为目标音频的两个字。上述音频过度算法可以为crossfade(交叉渐入渐出技术)，这种技术可使一个声音片段平缓地过渡到另一个声音片段。有些设备需要两轨来完成这一过程，一轨将声音进行渐出处理，同时另一轨将声音进行渐入处理。有些则只需要一轨来完成一个声音片段渐出的同时另一个声音片段渐入的过程。这时控制程序将产生一个新的文件，包含了两个声音片段的混合过渡情况，此处不再赘述。

由上所述，本发明实施例提出的音频校准方法可以获取翻唱音频和标准音频，对翻唱音频和标准音频当中每个字进行基频检测，得到每个字所对应的基频序列，通过预设算法将基频序列转化为音高序列，根据音高序列计算翻唱音频和标准音频当中每个字的音高，并计算翻唱音频当中每个字的音高与标准音频中对应字的音高之间的偏差值，根据偏差值对翻唱音频进行校准，以得到翻唱音频中每个字的修复音频，根据偏差值计算翻唱音频中每个字的刻度影射值，实时获取刻度设置值，并将刻度设置值与翻唱音频中每个字的刻度影射值进行对比，根据对比结果从每个字的修复音频以及翻唱音频当中选取目标音频进行输出，将输出所有字的目标音频进行拼接，以得到完整音频，获取完整音频中的过渡片段，并对过渡片段进行音频过渡处理。本申请实施例通过翻唱音频当中每个字的音高与标准音频中对应字的音高之间的偏差值来设置刻度影射值，从而结合刻度设置值实时调节音频的校准程度，具有较高的灵活性并且大大提升了音频校准的效率。

为了实施以上方法，本发明实施例还提供一种音频校准装置，该音频校准装置具体可以集成在终端设备如手机、平板电脑等设备中。

例如，如图2a所示，是本发明实施例提供的音频校准装置的第一种结构示意图。该音频校准装置可以包括：

获取单元301，用于获取翻唱音频以及标准音频，并分别计算所述翻唱音频当中每个字的音高与标准音频中每个字的音高，及其每个对应字的音高之间的偏差值。

在一实施例中，上述翻唱音频可以为用户针对目标音频资源所翻唱的歌曲，标准音频可以为上述目标音频资源所对应的原唱音频，以用来对用户翻唱的歌曲进行校准，获取模块301在获取到获取翻唱音频以及标准音频之后，可以计算翻唱音频以及标准音频当中每个字的音高，然后根据两个音频之间的对应关系计算翻唱音频当中每个字的音高与标准音频中对应字的音高之间的偏差值。

校准单元302，用于根据所述偏差值对所述翻唱音频进行校准，以得到所述翻唱音频中每个字的修复音频。

在一实施例中，校准单元302按照翻唱音频当中每个字与标准音频中对应字的音高之间的偏差值，根据预设的修音算法进行修复，以得到翻唱音频中每个字的修复音频。进一步的，将上述修复音频与用户输入的翻唱音频按字在时间线上对齐，比如根据歌词文件的时间轴来进行对齐，将上述修复音频作为缓存，但并不作为最终的输出

计算单元303，用于根据所述偏差值确定所述翻唱音频中每个字的刻度影射值。

在一实施例中，计算单元303可以先根据每个字的偏差值的大小对翻唱音频当中所有的字来进行排序，然后根据排序结果分别计算翻唱音频中每个字的刻度影射值。进一步的，还可以将上述翻唱音频中的字分为两个集合，比如根据预设偏差值将翻唱音频中的字划分为第一集合和第二集合，然后分别在上述第一集合和第二集合当中计算每个字的刻度影射值。

对比单元304，用于实时获取刻度设置值，并将所述刻度设置值与所述翻唱音频中每个字的刻度影射值进行对比。

输出单元305，用于根据对比结果从所述每个字的修复音频以及翻唱音频当中选取目标音频进行输出。

比如，如果字的刻度影射值大于刻度设置值，则可以用翻唱音频的原声进行输出，如果小于或者等于刻度设置值，则可以用校准单元302输出的修复音频进行输出。循环完成后，即可得到翻唱音频当中每个字的输出结果。进一步的，将上述每个字的输出结果拼接即可得到最终完成的音频。

在一实施例中，如图2b所示，所述获取单元301可以包括：

检测子单元3011，用于对所述翻唱音频当中每个字进行基频检测，得到每个字所对应的基频序列；

转化子单元3012，用于通过预设算法将所述基频序列转化为音高序列；

第一计算子单元3013，用于根据所述音高序列计算所述翻唱音频当中每个字的音高。

在一实施例中，所述计算单元303可以包括：

划分子单元3031，用于根据预设偏差值将所述翻唱音频中的字划分为第一集合和第二集合；

排序子单元3032，用于分别对所述第一集合和第二集合进行排序；

第二计算子单元3033，用于按照排序结果分别计算所述第一集合和第二集合中每个字的刻度影射值。

在一实施例中，划分子单元3031具体用于分别将所述翻唱音频当中每个字的音高与标准音频中对应字的音高之间的偏差值与预设偏差值进行对比，当每个对应字的音高之间的偏差值小于所述预设偏差值时，将对应翻唱音频中的字划分至第一集合，当每个对应字的音高之间的偏差值大于所述预设偏差值时，将对应翻唱音频中的字划分至第二集合，当每个对应字的音高之间的偏差值等于所述偏差值时，将对应翻唱音频中的字的刻度影射值设置为预设刻度值。

本发明实施例提出的音频校准装置，可以获取翻唱音频以及标准音频，并分别计算翻唱音频当中每个字的音高与标准音频中对应字的音高之间的偏差值，根据偏差值对翻唱音频进行校准，以得到翻唱音频中每个字的修复音频，根据偏差值计算翻唱音频中每个字的刻度影射值，实时获取刻度设置值，并将刻度设置值与翻唱音频中每个字的刻度影射值进行对比，根据对比结果从每个字的修复音频以及翻唱音频当中选取目标音频进行输出。本申请实施例通过翻唱音频当中每个字的音高与标准音频中对应字的音高之间的偏差值来设置刻度影射值，从而结合刻度设置值实时调节音频的校准程度，具有较高的灵活性并且大大提升了音频校准的效率。

本发明实施例还提供一种终端，如图3所示，该终端可以包括射频(RF，RadioFrequency)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(WiFi，Wireless Fidelity)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解，图3中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路601可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器608处理；另外，将涉及上行的数据发送给基站。通常，RF电路601包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM，Subscriber Identity Module)卡、收发信机、耦合器、低噪声放大器(LNA，Low Noise Amplifier)、双工器等。此外，RF电路601还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(GSM，Global System of Mobile communication)、通用分组无线服务(GPRS，GeneralPacket Radio Service)、码分多址(CDMA，Code Division Multiple Access)、宽带码分多址(WCDMA，Wideband Code Division Multiple Access)、长期演进(LTE，Long TermEvolution)、电子邮件、短消息服务(SMS，Short Messaging Service)等。

存储器602可用于存储软件程序以及模块，处理器608通过运行存储在存储器602的软件程序以及模块，从而执行各种功能应用以及信息处理。存储器602可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器602可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器602还可以包括存储器控制器，以提供处理器608和输入单元603对存储器602的访问。

输入单元603可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元603可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器608，并能接收处理器608发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元603还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元604可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元604可包括显示面板，可选的，可以采用液晶显示器(LCD，Liquid Crystal Display)、有机发光二极管(OLED，Organic Light-Emitting Diode)等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器608以确定触摸事件的类型，随后处理器608根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图3中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

终端还可包括至少一种传感器605，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在终端移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路606、扬声器，传声器可提供用户与终端之间的音频接口。音频电路606可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为声音信号输出；另一方面，传声器将收集的声音信号转换为电信号，由音频电路606接收后转换为音频数据，再将音频数据输出处理器608处理后，经RF电路601以发送给比如另一终端，或者将音频数据输出至存储器602以便进一步处理。音频电路606还可能包括耳塞插孔，以提供外设耳机与终端的通信。

WiFi属于短距离无线传输技术，终端通过WiFi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图3示出了WiFi模块607，但是可以理解的是，其并不属于终端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器608是终端的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器602内的软件程序和/或模块，以及调用存储在存储器602内的数据，执行终端的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器608可包括一个或多个处理核心；优选的，处理器608可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器608中。

终端还包括给各个部件供电的电源609(比如电池)，优选的，电源可以通过电源管理系统与处理器608逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源609还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，终端中的处理器608会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中，并由处理器608来运行存储在存储器602中的应用程序，从而实现各种功能：

根据所述偏差值确定所述翻唱音频中每个字的刻度影射值；

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对音频校准方法的详细描述，此处不再赘述。

由上可知，本发明实施例的终端可以获取翻唱音频以及标准音频，并分别计算翻唱音频当中每个字的音高与标准音频中对应字的音高之间的偏差值，根据偏差值对翻唱音频进行校准，以得到翻唱音频中每个字的修复音频，根据偏差值计算翻唱音频中每个字的刻度影射值，实时获取刻度设置值，并将刻度设置值与翻唱音频中每个字的刻度影射值进行对比，根据对比结果从每个字的修复音频以及翻唱音频当中选取目标音频进行输出。本申请实施例通过翻唱音频当中每个字的音高与标准音频中对应字的音高之间的偏差值来设置刻度影射值，从而结合刻度设置值实时调节音频的校准程度，提升音频校准的效率。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种音频校准方法中的步骤。例如，该指令可以执行如下步骤：

根据所述偏差值确定所述翻唱音频中每个字的刻度影射值；

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种音频校准方法中的步骤，因此，可以实现本发明实施例所提供的任一种音频校准方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种音频校准方法、装置、存储介质以及终端进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频校准方法，其特征在于，包括：

根据所述偏差值确定所述翻唱音频中每个字的刻度影射值，包括：分别将所述翻唱音频当中每个字的音高与标准音频中对应字的音高之间的偏差值与预设偏差值进行对比；若每个对应字的音高之间的偏差值小于所述预设偏差值，则将对应翻唱音频中的字划分至第一集合；若每个对应字的音高之间的偏差值大于所述预设偏差值，则将对应翻唱音频中的字划分至第二集合；若每个对应字的音高之间的偏差值等于所述预设偏差值，则将对应翻唱音频中的字的刻度影射值设置为预设刻度设置值；分别对所述第一集合和第二集合进行排序；按照排序结果分别计算所述第一集合和第二集合中每个字的刻度影射值；其中，第一集合中计算刻度影射值的公式：scale= 0 + (0.5 - 0）* sorted_index / size；第二集合中计算刻度影射值的公式：scale= 1 - (1 - 0.5) * sorted_index / size；其中，scale为刻度影射值，sorted_index为元素排序序号索引，size为集合元素个数；

2.如权利要求1所述的音频校准方法，其特征在于，计算所述翻唱音频当中每个字的音高的步骤，包括：

对所述翻唱音频当中每个字进行基频检测，得到每个字所对应的基频序列；

将所述基频序列转化为音高序列；

根据所述音高序列计算所述翻唱音频当中每个字的音高。

3.如权利要求1所述的音频校准方法，其特征在于，在根据对比结果从所述每个字的修复音频以及翻唱音频当中选取目标音频进行输出之后，所述方法还包括：

将输出所有字的目标音频进行拼接，以得到完整音频；

获取所述完整音频中的过渡片段，所述过渡片段包括相邻且分别使用修复音频和翻唱音频作为目标音频的两个字；

对所述过渡片段进行音频过渡处理。

4.一种音频校准装置，其特征在于，包括：

输出单元，用于当所述刻度影射值大于刻度设置值时，选取对应的字的翻唱音频作为目标音频进行输出，当所述刻度影射值不大于刻度设置值时，选取对应的字的修复音频作为目标音频进行输出；

其中，所述计算单元包括：

划分子单元，用于分别将所述翻唱音频当中每个字的音高与标准音频中对应字的音高之间的偏差值与预设偏差值进行对比，当每个对应字的音高之间的偏差值小于所述预设偏差值时，将对应翻唱音频中的字划分至第一集合，当每个对应字的音高之间的偏差值大于所述预设偏差值时，将对应翻唱音频中的字划分至第二集合，当每个对应字的音高之间的偏差值等于所述偏差值时，将对应翻唱音频中的字的刻度影射值设置为预设刻度设置值；

排序子单元，用于分别对所述第一集合和第二集合进行排序；

第二计算子单元，用于按照排序结果分别计算所述第一集合和第二集合中每个字的刻度影射值；其中，第一集合中计算刻度影射值的公式：scale= 0 + (0.5 - 0）* sorted_index/ size；第二集合中计算刻度影射值的公式：scale= 1 - (1 - 0.5) * sorted_index/ size，其中，scale为刻度影射值，sorted_index为元素排序序号索引，size为集合元素个数。

5.如权利要求4所述的音频校准装置，其特征在于，所述获取单元包括：

检测子单元，用于对所述翻唱音频当中每个字进行基频检测，得到每个字所对应的基频序列；

转化子单元，用于将所述基频序列转化为音高序列；

第一计算子单元，用于根据所述音高序列计算所述翻唱音频当中每个字的音高。

6.一种存储介质，其特征在于，所述存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至3任一项所述的音频校准方法。