CN115101033A

CN115101033A - 一种混音的方法及相关装置

Info

Publication number: CN115101033A
Application number: CN202210752969.9A
Authority: CN
Inventors: 庄晓滨
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-09-23

Abstract

本发明实施例提供了一种混音的方法及相关装置，用于提升混音效果。本发明实施例方法包括：获取目标歌曲的原唱干声中每句歌词片段的音频指纹；将目标歌曲的用户干声切分为多句歌词片段；将用户干声中每句歌词片段的时间戳按照预设时长执行N次左右偏移，以得到用户干声中每句歌词片段的N+1个候选音频；计算N+1个候选音频对应的N+1个候选音频指纹；将用户干声中每句歌词片段的N+1个候选音频指纹与原唱干声中对应歌词片段的音频指纹逐一匹配，以得到与原唱干声中每句歌词片段的音频指纹相似度值最高的用户干声对应歌词片段的候选音频；将与最高相似度值对应的候选音频视为修正后的用户干声的歌词片段；将修正后的用户干声的歌词片段与伴奏进行混音。

Description

一种混音的方法及相关装置

技术领域

本发明涉及音频处理技术领域，尤其涉及一种混音的方法及相关装置。

背景技术

混音，是将干声与伴奏混合在一起，从而得到混合音效的一种方式。

现有技术在混音时，一般是将整首歌曲的干声和伴奏进行多次混合，从而得到多个混合音效，然后再将多个混合音效和原唱的音频指纹分别进行比对，以获取最佳的混合音效。

而这种混音方式至少存在以下缺点：

因为在比对时，需要将整首歌曲混合音效的音频指纹和原唱整首歌曲的音频指纹进行比对，故存在计算开销大，且对混合参数敏感度低的问题。

发明内容

本发明实施例提供了一种混音的方法及相关装置，用于将用户干声的多个候选音频的候选音频指纹和原唱干声的音频指纹逐句进行比对，以得到修正后的用户干声，再将修正后的用户干声和伴奏进行混音，从而在节省计算开销的前提下，提升了混音效果。

本申请实施例第一方面提供了一种混音的方法，包括：

获取目标歌曲的原唱干声中每句歌词片段的音频指纹；

获取所述目标歌曲的用户干声，将所述目标歌曲的用户干声切分为多句歌词片段；

将所述用户干声中每句歌词片段的时间戳按照预设时长执行N次左右偏移，以得到用户干声中每句歌词片段的N+1个候选音频，其中，N为大于等于1的整数；

计算所述用户干声中每句歌词片段的N+1个候选音频对应的N+1个候选音频指纹；

将所述用户干声中每句歌词片段的N+1个候选音频指纹与原唱干声中对应歌词片段的音频指纹逐一匹配，以得到与原唱干声中每句歌词片段的音频指纹相似度值最高的用户干声对应歌词片段的候选音频；

将与原唱干声中每句歌词片段音频指纹的最高相似度值对应的候选音频视为修正后的用户干声的歌词片段；

将所述修正后的用户干声的歌词片段与伴奏进行混音。

优选的，所述获取目标歌曲的原唱干声中每句歌词片段的音频指纹，包括：

对所述目标歌曲的原唱干声中的每句歌词片段进行分帧加窗；

将分帧加窗后原唱干声的每帧语音信号执行时域到频域的变换，以得到原唱干声中每帧语音信号的频域信号；

将所述原唱干声中每帧语音信号的频域信号执行巴克刻度滤波组处理，以得到原唱干声中每帧语音信号的巴克域特征；

根据差分计算公式，对所述原唱干声中每帧语音信号的巴克域特征进行差分计算，以得到原唱干声中每句歌词片段的音频指纹。

优选的，在获取目标歌曲的原唱干声中每句歌词片段的音频指纹之前，所述方法还包括：

根据目标歌曲原唱干声中的歌词信息和时间戳信息，获取所述歌词信息中每句歌词的开始时刻和结束时刻；

根据所述每句歌词的开始时刻和结束时候，将所述目标歌曲的原唱干声切分为多句歌词片段。

优选的，将所述目标歌曲的用户干声切分为多句歌词片段，包括：

利用低通滤波器从所述目标歌曲的用户干声中筛选出满足预设频率的第一干声信号；

利用声音激活检测算法从所述第一干声信号中筛选出音频能量大于预设值的第二干声信号；

确定所述第二干声信号在每句歌词上的开始时刻和结束时刻；

根据所述第二干声信号在每句歌词上的开始时刻和结束时刻，将所述目标歌曲的户干声切分为多句歌词片段。

优选的，所述计算所述用户干声中每句歌词片段的N+1个候选音频对应的N+1个候选音频指纹，包括：

分别获取所述用户干声中每句歌词片段的第M个候选音频，其中，M大于等于1且小于等于N+1；

将所述第M个候选音频进行分帧加窗；

将分帧加窗后的第M个候选音频中每帧语音信号执行时域到频域的变换，以得到第M个候选音频中每帧语音信号的频域信号；

将所述第M个候选音频中每帧语音信号的频域信号执行巴克刻度滤波组处理，以得到第M个候选音频中每帧语音信号的巴克域特征；

根据差分计算公式，对所述第M个候选音频中每帧语音信号的巴克域特征进行差分计算，以得到第M个候选音频的音频指纹。

优选的，所述目标歌曲的原唱干声和用户干声中的每句歌词片段包括n帧语音信号，每帧语音信号包括m个频带，每句歌词片段的音频指纹为包括n*m个元素的矩阵，其中，n为不小于1的整数，m为大于等于零且小于33的整数；

所述将所述用户干声中每句歌词片段的N+1个候选音频指纹与原唱干声中对应歌词片段的音频指纹逐一匹配，以得到与原唱干声中每句歌词片段的音频指纹相似度值最高的用户干声对应歌词片段的候选音频，包括：

获取所述用户干声中每句歌词片段的N+1个候选音频指纹对应的N+1个矩阵；

将所述N+1个矩阵与原唱干声中对应歌词片段的音频指纹所对应的目标矩阵进行比对，获取与所述目标矩阵相同元素最多的候选矩阵；

将所述候选矩阵对应的候选音频视为与原唱干声中对应歌词片段的音频指纹相似度值最高的用户干声歌词片段的候选音频。

优选的，在将所述修正后的用户干声的歌词片段与伴奏进行混音之前，所述方法还包括：

分别获取所述目标歌曲的用户干声中每句歌词片段的第一响度曲线，及所述目标歌曲的原唱干声中每句歌词片段的第二响度曲线；

将所述第一响度曲线和所述第二响度曲线中的对应响度值作差，以得到增益曲线；

根据所述增益曲线，对修正后用户干声中每句歌词片段的响度值进行调整，以得到响度调整后的修正用户干声；

将所述修正后的用户干声的歌词片段与伴奏进行混音，包括：

将响度调整后的修正用户干声的歌词片段与伴奏进行混音。

优选的，分别获取所述目标歌曲的用户干声中每句歌词片段的第一响度曲线，包括：

对所述目标歌曲的用户干声中的每句歌词片段进行分帧加窗；

将分帧加窗后用户干声的每帧语音信号执行时域到频域的变化，以得到用户干声中每帧语音信号的频域信号；

将所述用户干声中每帧语音信号的频域信号执行巴克刻度滤波组处理，以得到用户干声中每帧语音信号的巴克域特征；

计算所述用户干声每句歌词片段中多帧语音信号巴克域特征的均值，将所述用户干声中多帧语音信号巴克域特征的均值视为用户干声每句歌词片段的响度值；

根据所述用户干声每句歌词片段的响度值绘制用户干声每句歌词片段的第一响度曲线。

优选的，分别所述目标歌曲的原唱干声中每句歌词片段的第二响度曲线，包括：

将分帧加窗后原唱干声的每帧语音信号执行时域到频域的变化，以得到原唱干声中每帧语音信号的频域信号；

计算原唱干声每句歌词片段中多帧语音信号巴克域特征的均值，将所述原唱干声中多帧语音信号巴克域特征的均值视为原唱干声每句歌词片段的响度值；

根据所述原唱干声每句歌词片段的响度值绘制原唱干声每句歌词片段的第二响度曲线。

优选的，在分别获取所述目标歌曲的用户干声中每句歌词片段的第一响度曲线，及所述目标歌曲的原唱干声中每句歌词片段的第二响度曲线之后，所述方法还包括：

利用预设时长的滑动窗口，对所述第一响度曲线和所述第二响度曲线执行均值或中值平滑处理，以得到平滑处理后的第一响度曲线和平滑处理后的第二响度曲线。

优选的，所述方法还包括：

对作差后的响度值进行低通滤波，以得到平滑的增益曲线；

根据所述增益曲线，对修正后用户干声中每句歌词片段的响度值进行调整，以得到响度调整后的修正用户干声，包括：

根据所述平滑的增益曲线，对修正后用户干声中每句歌词片段的响度值进行调整，以得到响度调整后的修正用户干声。

优选的，在将响度调整后的修正用户干声与伴奏进行混音之前，所述方法还包括：

利用预设的响度标准，将响度调整后的修正用户干声的响度调整至第一响度值，将伴奏的响度调整至第二响度值，其中，第一响度值大于第二响度值；

所述将响度调整后的修正用户干声的歌词片段与伴奏进行混音，包括：

将第一响度值的修正用户干声的歌词片段与第二响度值的伴奏进行混音。

本申请实施例第二方面提供了一种混音的方法，包括：

获取目标歌曲的用户干声中每句歌词片段的音频指纹；

获取所述目标歌曲的原唱干声，将所述目标歌曲的原唱干声切分为多句歌词片段；

将所述原唱干声中每句歌词片段的时间戳按照预设时长执行N次左右偏移，以得到原唱干声中每句歌词片段的N+1个候选音频，其中，N为大于等于1的整数；

计算所述原唱干声中每句歌词片段的N+1个候选音频对应的N+1个候选音频指纹；

将所述原唱干声中每句歌词片段的N+1个候选音频指纹与用户干声中对应歌词片段的音频执行逐一匹配，以得到与用户干声中每句歌词片段的音频指纹相似度值最高的原唱干声对应歌词片段的候选音频；

按照与用户干声中每句歌词片段的最高相似度值对应的候选音频的偏移量，将用户干声中的对应歌词片段在反方向偏移相同的偏移量，以得到修正后的用户干声的歌词片段；

将所述修正后的用户干声的歌词片段与伴奏进行混音。

优选的，所述目标歌曲的用户干声和原唱干声中的每句歌词片段包括n帧语音信号，每帧语音信号包括m个频带，每句歌词片段的音频指纹为包括n*m个元素的矩阵，其中，n为不小于1的整数，m为大于等于零且小于33的整数；

将所述原唱干声中每句歌词片段的N+1个候选音频指纹与用户干声中对应歌词片段的音频指纹执行逐一匹配，以得到与用户干声中每句歌词片段的音频指纹相似度值最高的原唱干声对应歌词片段的候选音频，包括：

获取所述原唱干声中每句歌词片段的N+1个候选音频指纹对应的N+1个矩阵；

将所述N+1个矩阵与用户干声中对应歌词片段的音频指纹所对应的目标矩阵进行比对，获取与所述目标矩阵相同元素最多的候选矩阵；

将所述候选矩阵对应的候选音频视为与用户干声中对应歌词片段的音频指纹相似度值最高的原唱干声歌词片段的候选音频。

本申请实施例第三方面提供了一种混音的装置，包括：

获取单元，用于获取目标歌曲的原唱干声中每句歌词片段的音频指纹；

所述获取单元，还用于获取所述目标歌曲的用户干声，将所述目标歌曲的用户干声切分为多句歌词片段；

偏移单元，用于将所述用户干声中每句歌词片段的时间戳按照预设时长执行N次左右偏移，以得到用户干声中每句歌词片段的N+1个候选音频，其中，N为大于等于1的整数；

计算单元，用于计算所述用户干声中每句歌词片段的N+1个候选音频对应的N+1个候选音频指纹；

匹配单元，用于将所述用户干声中每句歌词片段的N+1个候选音频指纹与原唱干声中对应歌词片段的音频指纹逐一匹配，以得到与原唱干声中每句歌词片段的音频指纹相似度值最高的用户干声对应歌词片段的候选音频；

修正单元，用于将与原唱干声中每句歌词片段音频指纹的最高相似度值对应的候选音频视为修正后的用户干声的歌词片段；

混音单元，用于将所述修正后的用户干声的歌词片段与伴奏进行混音。

优选的，所述获取单元具体用于：

优选的，所述获取单元还用于：

在获取目标歌曲的原唱干声中每句歌词片段的音频指纹之前，根据目标歌曲原唱干声中的歌词信息和时间戳信息，获取所述歌词信息中每句歌词的开始时刻和结束时刻；

优选的，所述获取单元具体用于：

优选的，所述计算单元具体用于：

将所述第M个候选音频进行分帧加窗；

优选的，所述匹配单元具体用于：

优选的，所述获取单元还用于：

在将所述修正后的用户干声的歌词片段与伴奏进行混音之前，分别获取所述目标歌曲的用户干声中每句歌词片段的第一响度曲线，及所述目标歌曲的原唱干声中每句歌词片段的第二响度曲线；

将响度调整后的修正用户干声的歌词片段与伴奏进行混音。

优选的，所述获取单元具体用于：

优选的，所述装置还包括：

平滑单元，用于在分别获取所述目标歌曲的用户干声中每句歌词片段的第一响度曲线，及所述目标歌曲的原唱干声中每句歌词片段的第二响度曲线之后，利用预设时长的滑动窗口，对所述第一响度曲线和所述第二响度曲线执行均值或中值平滑处理，以得到平滑处理后的第一响度曲线和平滑处理后的第二响度曲线。

优选的，所述装置还包括：

滤波单元，用于对作差后的响度值进行低通滤波，以得到平滑的增益曲线；

优选的，所述混音单元还用于：

优选的，所述装置还包括：

响度调整单元，用于利用预设的响度标准，将响度调整后的修正用户干声的响度调整至第一响度值，将伴奏的响度调整至第二响度值，其中，第一响度值大于第二响度值；

优选的，所述混音单元具体用于：

本申请实施例第四方面提供了一种混音的装置，包括：

获取单元，用于获取目标歌曲的用户干声中每句歌词片段的音频指纹；

所述获取单元，还用于获取所述目标歌曲的原唱干声，将所述目标歌曲的原唱干声切分为多句歌词片段；

偏移单元，用于将所述原唱干声中每句歌词片段的时间戳按照预设时长执行N次左右偏移，以得到原唱干声中每句歌词片段的N+1个候选音频，其中，N为大于等于1的整数；

计算单元，用于计算所述原唱干声中每句歌词片段的N+1个候选音频对应的N+1个候选音频指纹；

匹配单元，用于将所述原唱干声中每句歌词片段的N+1个候选音频指纹与用户干声中对应歌词片段的音频指纹执行逐一匹配，以得到与用户干声中每句歌词片段的音频指纹相似度值最高的原唱干声对应歌词片段的候选音频；

修正单元，用于按照与用户干声中每句歌词片段的最高相似度值对应的候选音频的偏移量，将用户干声中的对应歌词片段在反方向偏移相同的偏移量，以得到修正后的用户干声的歌词片段；

所述匹配单元，具体用于：

本申请实施例第五方面方面提供了一种计算机装置，包括处理器和存储器，该处理器在执行存储于存储器上的计算机程序时，用于实现本申请实施例第一方面或第二方面提供的混音的方法。

本申请实施例第六方面提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，用于实现本申请实施例第一方面或第二方面提供的混音的方法。

从以上技术方案可以看出，本发明实施例具有以下优点：

本申请实施例中，获取目标歌曲的原唱干声中每句歌词片段的音频指纹；

获取所述目标歌曲的用户干声，将所述目标歌曲的用户干声切分为多句歌词片段；将所述用户干声中每句歌词片段的时间戳按照预设时长执行N次左右偏移，以得到用户干声中每句歌词片段的N+1个候选音频，其中，N为大于等于1的整数；计算所述用户干声中每句歌词片段的N+1个候选音频对应的N+1个候选音频指纹；将所述用户干声中每句歌词片段的N+1个候选音频指纹与原唱干声中对应歌词片段的音频指纹逐一匹配，以得到与原唱干声中每句歌词片段的音频指纹相似度值最高的用户干声对应歌词片段的候选音频；将与原唱干声中每句歌词片段音频指纹的最高相似度值对应的候选音频视为修正后的用户干声的歌词片段；将所述修正后的用户干声的歌词片段与伴奏进行混音。

因为本申请实施例是先将目标歌曲中用户干声每句歌词片段的N+1个候选音频指纹和原唱干声的音频指纹逐句进行比对，以得到修正后的用户干声的歌词片段，再将修正后的用户干声的歌词片段和伴奏进行混音，从而在节省计算开销的前提下，提升了混音效果。

附图说明

图1为本申请实施例中混音的方法的一个实施例示意图；

图2为本申请图1实施例中步骤101的细化步骤；

图3为本申请实施例中切分目标歌曲原唱干声的过程实施例示意图；

图4为本申请图1实施例中步骤102的细化步骤；

图5为本申请图1实施例中步骤104的细化步骤；

图6为本申请图1实施例中步骤105的细化步骤；

图7为本申请实施例中混音的方法的另一个实施例示意图；

图8为本申请实施例中混音的方法的另一个实施例示意图；

图9为本申请图8实施例中步骤805的细化步骤；

图10为本申请实施例中混音的装置的一个实施例示意图；

图11为本申请实施例中混音的装置的另一个实施例示意图。

具体实施方式

本发明实施例提供了一种混音的方法及相关装置，用于在节省计算开销的前提下，提升混音的效果。

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为方便理解，下面对本申请实施例中的混音方法进行描述，请参阅图1，图1为本申请实施例中混音的方法的一个实施例示意图：

101、获取目标歌曲的原唱干声中每句歌词片段的音频指纹；

基于现有技术中，用户在演唱目标歌曲时，总会与原唱干声出现一定的时间偏差，而导致用户干声与伴奏混音时，精准度较差的问题，本申请实施例提出了一种混音的方法，用于对演唱目标歌曲的用户干声进行修正，并将修正后的用户干声的歌词片段与伴奏进行混音，以提升混音的效果。

具体的，本申请实施例在对目标歌曲的用户干声进行修正时，需要获取目标歌曲的原唱干声中每句歌词片段的音频指纹，其中，音频指纹是指原唱干声中每句歌词片段的唯一标识符，故目标歌曲中每句歌词片段都对应一个唯一的音频指纹。而此处的干声为无音乐的纯人声，如目标歌曲的原唱干声为原唱在无音乐时，演唱目标歌曲的纯人声，而目标歌曲的用户干声为用户在无音乐时，演唱目标歌曲的纯人声。

进一步，本申请实施例中的目标歌曲可以为用户演唱的任一首歌曲，如《红日》、《小毛驴》等，但此处是根据目标歌曲的原唱干声对用户干声中的歌词片段进行修正，故原唱干声的目标歌曲和用户干声的目标歌曲为同一首歌曲。

而对于获取目标歌曲的原唱干声中每句歌词片段的音频指纹的过程将在下面的实施例中进行描述，此处不再赘述。

102、获取所述目标歌曲的用户干声，将所述目标歌曲的用户干声切分为多句歌词片段；

为了对目标歌曲的用户干声中的每句歌词片段进行修正，本申请实施例需要先获取目标歌曲的用户干声，并将目标歌曲的用户干声切分为多句歌词片段。

而至于具体将目标歌曲的用户干声切分为多句歌词片段的过程也将在下面的实施例中进行描述，此处也不再赘述。

103、将所述用户干声中每句歌词片段的时间戳按照预设时长执行N次左右偏移，以得到用户干声中每句歌词片段的N+1个候选音频，其中，N为大于等于1的整数；

得到用户干声中的多句歌词片段后，将用户干声中每句歌词片段的时间戳按照预设时长执行N次左右偏移，以得到用户干声中每句歌词片段的N+1个候选音频，其中，N为大于等于1的整数。

为方便理解，下面举例说明，假设用户干声中有3句歌词片段，为了获取用户干声中每句歌词片段准确的开始时间和结束时间，本申请实施例将用户干声中的每句歌词片段都按照预设时长(如3ms)执行N(4)次左右偏移，则得到用户干声中每句歌词片段的5个候选音频，也即用户干声中的每句歌词片段都对应5个候选音频，如第一个候选音频为未执行偏移用户干声的歌词片段，第二个候选音频为向左偏移3ms的用户干声的歌词片段，第三个候选音频为向左偏移6ms的用户干声的歌词片段，第四个候选音频为向右偏移3ms的用户干声的歌词片段，第五个候选音频为向右偏移6ms的用户干声的歌词片段，依次类推，可以得到每句歌词片段对应的N+1个候选音频。

104、计算所述用户干声中每句歌词片段的N+1个候选音频对应的N+1个候选音频指纹；

为了得到与原唱干声中每句歌词片段的音频指纹最相似的用户干声对应歌词片段的音频指纹，本申请实施例需要计算用户干声中每句歌词片段的N+1个候选音频对应的N+1个候选音频指纹，而对于用户干声中每句歌词片段的N+1个候选音频对应的N+1个候选音频指纹的计算过程也在下面的实施例中进行描述，此处也不再赘述。

105、将所述用户干声中每句歌词片段的N+1个候选音频指纹与原唱干声中对应歌词片段的音频指纹逐一匹配，以得到与原唱干声中每句歌词片段的音频指纹相似度值最高的用户干声对应歌词片段的候选音频；

得到原唱干声中每句歌词片段的音频指纹，及用户干声中每句歌词片段的N+1个候选音频指纹后，将用户干声中每句歌词片段的N+1个候选音频指纹与原唱干声中对应歌词片段的音频指纹逐一匹配，以得到与原唱干声中每句歌词片段的音频指纹相似度值最高的用户干声对应歌词片段的候选音频指纹，再根据候选音频指纹确定对应的候选音频。

为方便理解，下面举例说明：

假设目标歌曲包含3句歌词片段，计算得到目标歌曲原唱干声中第一句歌词片段的音频指纹，及目标歌曲用户干声中第一句歌词片段的N+1个候选音频指纹后，则分别将用户干声中第一句歌词片段的N+1个候选音频指纹，与目标歌曲原唱干声中第一句歌词片段的音频指纹逐一匹配，以得到与原唱干声中第一句歌词片段的音频指纹相似度最高的用户干声中第一句歌词片段的候选音频指纹，然后再根据最高相似度值所对应的候选音频指纹，确定对应的候选音频。

具体的，对于步骤105的具体执行过程，也将在下面的实施例中进行描述，此处也不再赘述。

106、将与原唱干声中每句歌词片段音频指纹的最高相似度值对应的候选音频视为修正后的用户干声的歌词片段；

得到与原唱干声中每句歌词片段的音频指纹相似度值最高的用户干声对应歌词片段的候选音频后，则将该候选音频视为修正后的用户干声的歌词片段。

为方便理解，下面举例说明：

同样假设目标歌曲包含3句歌词片段，而对目标歌曲用户干声中每句歌词片段的时间戳按照3ms执行4次左右偏移，得到用户干声中每句歌词片段的5个候选音频，且5个候选音频对应5个候选音频指纹。

以目标歌曲的第一句歌词片段为例，假设与目标歌曲原唱干声的第一句歌词片段的音频指纹最相似的是用户干声中第一句歌词片段的第5个候选音频，则将用户干声中第一句歌词片段的第5个候选音频视为修正后的用户干声的歌词片段。

依次类推，可以得到与目标歌曲原唱干声中第二句歌词片段的音频指纹最相似的用户干声中第二句歌词片段的候选音频，及与目标歌曲原唱干声中第三句歌词片段的音频指纹最相似的用户干声中第三句歌词片段的候选音频，则分别将用户干声中第二句歌词片段的候选音频和第三句歌词片段的候选音频，视为修正后的用户干声的第二句歌词片段和修正后的用户干声的第三句歌词片段。

107、将所述修正后的用户干声的歌词片段与伴奏进行混音。

得到修正后的用户干声的歌词片段后，则将修正后的用户干声的歌词片段与伴奏进行混音。

具体的，将修正后的用户干声的歌词片段与伴奏进行混音时，作为一种实施方式：可以是将修正后的用户干声按照目标歌曲歌词的先后顺序拼接为完整的歌词片段，在将拼接后完整的歌词片段与完整的伴奏进行混音。

而作为另一种可选的实施方式，还可以是将修正后的用户干声的歌词片段分别填充至对应的伴奏内，以得到最后的混音，如将用户干声的第一句歌词片段填充至第一句伴奏内，将用户干声的第二句歌词片段填充至第二句伴奏内，将用户干声的第三句歌词片段填充至第三句歌词片段，最后完成整首目标歌曲的混音。

基于图1所述的实施例，下面对图1实施例中的步骤101做详细描述，请参阅图2，图2为图1实施例中步骤101的细化步骤：

201、对所述目标歌曲的原唱干声中的每句歌词片段进行分帧加窗；

因为目标歌曲的原唱干声一般为连续的时域信号，而为了实现对语音信号的数字化处理，需要先将语音信号离散化，以得到离散化的周期性频域信号。

具体的，作为一种对语音信号的离散化方式，可以是对目标歌曲的原唱干声中的每句歌词片段分帧加窗。因为语音信号在宏观上是不平稳的，而在微观上时平稳的，也即具有短时平稳性，故可以将语音信号分为一些短段来进行处理，而每一个短段即为一帧。

而在对语音信号实现数字化处理的过程中，需要把长时间的信号截断，也即对语音信号进行加窗，同时使得没有周期性的语音信号呈现出周期函数的特征，而在加窗的过程中，会将一帧信号的两端部分信号削弱，故在分帧的时候，需要帧与帧之间有重叠。而具体的窗函数可以是汉明窗、汉宁窗或矩形窗等，此处对具体的窗函数形式不做限定。

202、将分帧加窗后原唱干声的每帧语音信号执行时域到频域的变换，以得到原唱干声中每帧语音信号的频域信号；

完成对语音信号的分帧加窗后，则可以对每帧语音信号执行时域与频域的转换，以将语音信号从时域信号转换为频域信号，而作为时域和频域的一种具体转换方式，可以是傅里叶变换，短时傅里叶变换等，此处也不做具体限制。

作为一种优选的实施例，本申请中的窗函数选用汉宁窗，而时域到频域的变换函数选用短时傅里叶变换，以得到音频信号的线性频谱。

203、将所述原唱干声中每帧语音信号的频域信号执行巴克刻度滤波组处理，以得到原唱干声中每帧语音信号的巴克域特征；

具体的，巴克刻度(Bark scale)是1961年由德国声学家Eberhard Zwicker提出的一种心理声学的尺度。在这个尺度下，实际的相同距离与感知上的相同距离一致。在大约500Hz以上这个尺度更相似于一个对数频率轴，在500Hz以下则更接近线性。这个尺度的范围是从1到24，并且它们与听觉的临界频带相对应。

得到原唱干声中每帧语音信号的频域信号后，其中，该频域信号优选的为线性频谱，则将该线性频谱经过巴克刻度滤波组处理，以将线性频谱映射到巴克域得到巴克域特征，因为巴克刻度滤波组包含了33个滤波器，因此得到的巴克域特征为33维。

具体的，以E(n,m)表示每帧语音信号的巴克域特征，其中，n表示帧数，m表示频带数，则E(n,m)可以进一步表示为第n帧信号在第m个频带上的能量，其中，因为本申请实施例中的巴克刻度滤波组包含了33个滤波器，故对应将每帧语音信号划分为33个频带，也即本申请实施例中的0≤m<33。

进一步，对本申请实施例中帧和频带的含义进行解释说明，假设每帧为330Hz，每帧语音信号包含33个频带，则每个频带为10HZ。

204、根据差分计算公式，对所述原唱干声中每帧语音信号的巴克域特征进行差分计算，以得到原唱干声中每句歌词片段的音频指纹。

得到每帧语音信号的巴克域特征后，根据差分计算公式，对原唱干声中每帧语音信号的巴克域特征进行差分计算，以得到原唱干声中每句歌词片段的音频指纹。

假设每句歌词片段包含n帧，则根据以下的差分计算公式：

可以计算出每帧语音信号的音频指纹，因为0≤m<33，故每帧语音信号的音频指纹为一个32bit的描述结果，为方便理解，下面给出了第一帧的音频指纹的示意结果：[0,1,1,1,1,1,0,1,0,0,0,0,0,0,0,0,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1]。

因为每句歌词片段包含了n帧，故每句歌词片段的音频指纹为n*m维的矩阵。

本申请实施例中，对计算原唱干声中每句歌词片段的音频指纹的过程做了详细描述，提升了计算原唱干声中每句歌词片段音频指纹过程的可靠性。

基于图1所述的实施例，在执行步骤101以前，还需要将目标歌曲的原唱干声进行切分，以得到原唱干声的多句歌词片段，下面对切分原唱干声的过程进行描述，请参阅图3，图3为切分目标歌曲原唱干声的过程实施例：

301、根据目标歌曲原唱干声中的歌词信息和时间戳信息，获取所述歌词信息中每句歌词的开始时刻和结束时刻；

得到目标歌曲的原唱干声后(如目标歌曲原唱干声的QRC文件)，可以根据原唱干声中的歌词信息(歌词中的文字信息)和时间戳信息，获取歌词信息中每句歌词的开始时刻和结束时刻。

302、根据所述每句歌词的开始时刻和结束时候，将所述目标歌曲的原唱干声切分为多句歌词片段。

得到每句歌词的开始时刻和结束时刻后，则根据每句歌词的开始时刻和结束时刻，将目标歌曲的原唱干声切分为多句歌词片段。

本申请实施例中对原唱干声切分为多句歌词片段的过程做了详细描述，提升了该切分过程的可靠性。

基于图1所述的实施例，下面接着对图1实施例中的步骤102做详细描述，请参阅图4，图4为步骤102的细化步骤：

401、利用低通滤波器从目标歌曲的用户干声中筛选出满足预设频率的第一干声信号；

因为用户在演唱目标歌曲时，一般都会存在一定的噪音，故本申请实施例先利用低通滤波器从目标歌曲的用户干声中筛选出满足预设频率的第一干声信号。

具体的，因为对于语音信号而言，在2KHZ以下的频率带包含的能量较高，而噪声在2-4KHZ或者4KHZ以上频带具有更高的能量，故本申请实施例可以是先利用低通滤波器，先过滤出2KHZ以下的信号，以得到用户干声中的第一干声信号。

402、利用声音激活检测算法从所述第一干声信号中筛选出音频能量大于预设值的第二干声信号；

声音激活检测算法(VAD,Voice Activity Detection)是进行语音/非语音(非语音/静音)检测，常见的检测方法是基于连续多帧的音频能量强度进行。

故本申请实施例中可以利用声音激活检测算法从第一干声信号中筛选出音频能量大于预设值的第二干声信号。

403、确定所述第二干声信号在每句歌词上的开始时刻和结束时刻；

当筛选出能量大于预设值的第二干声信号后，则认为有用户干声存在，则进一步根据用户干声中每句歌词的音频能量特征和计时器，确定第二干声信号在每句歌词上的开始时刻和结束时刻。

404、根据所述第二干声信号在每句歌词上的开始时刻和结束时刻，将所述目标歌曲的用户干声切分为多句歌词片段。

得到第二干声信号在每句歌词上的开始时刻和结束时刻后，则根据第二干声信号在每句歌词上的开始时刻和结束时刻，将所述目标歌曲的用户干声切分为多句歌词片段。

本申请实施例中对目标歌曲的用户干声切分为多句歌词片段的过程做了详细描述，提升了该切分过程的可靠性。

基于图1所述的实施例，下面接着对图1实施例中的步骤104做详细描述，请参阅图5，图5为步骤104的细化步骤：

501、分别获取所述用户干声中每句歌词片段的第M个候选音频，其中，M大于等于1且小于等于N+1；

为了计算出用户干声中每句歌词片段的N+1个候选音频对应的N+1个候选音频指纹，则需要分别计算出用户干声中每句歌词片段的每个候选音频对应的候选音频指纹。

也即分别获取用户干声中每句歌词片段的第M个候选音频，然后分别计算出第M个候选音频对应的候选音频指纹，其中，M从1开始计数，直至到N+1为止。

502、将所述第M个候选音频进行分帧加窗；

503、将分帧加窗后的第M个候选音频中每帧语音信号执行时域到频域的变换，以得到第M个候选音频中每帧语音信号的频域信号；

504、将所述第M个候选音频中每帧语音信号的频域信号执行巴克刻度滤波组处理，以得到第M个候选音频中每帧语音信号的巴克域特征；

505、根据差分计算公式，对所述第M个候选音频中每帧语音信号的巴克域特征进行差分计算，以得到第M个候选音频的音频指纹。

具体的，本申请实施例中计算用户干声中每句歌词片段的第M个候选音频的候选音频指纹的过程，与图2实施例中计算原唱干声中每句歌词片段的音频指纹的过程类似，此处不再赘述。

本申请实施例中对计算用户干声中每个歌词片段的N+1个候选音频对应的N+1个候选音频指纹的过程做了详细描述，提升了该过程的可靠性。

基于图1和图2所述的实施例，下面对图1实施例中的步骤105做详细描述，请参阅图6，图6为步骤105的细化步骤：

601、获取所述用户干声中每句歌词片段的N+1个候选音频指纹对应的N+1个矩阵；

由图2实施例可知，目标歌曲的原唱干声中每句歌词片段包括n帧语音信号，每帧语音信号包括m个频带，则每句歌词片段的音频指纹为包括n*m个元素的矩阵。

而目标歌曲的用户干声中每句歌词片段的音频指纹与原唱干声中每句歌词片段的音频指纹类似，也为n*m个元素的矩阵，因为用户干声中每句歌词片段有N+1个候选音频，故对应N+1个候选音频指纹，也即对应N+1个矩阵。

602、将所述N+1个矩阵与原唱干声中对应歌词片段的音频指纹所对应的目标矩阵进行比对，获取与所述目标矩阵相同元素最多的候选矩阵；

将用户干声中每句歌词片段的N+1个矩阵，与原唱干声中对应歌词片段的音频指纹所对应的目标矩阵进行比对，获取与目标矩阵相同元素最多的候选矩阵。

为方便理解，下面举例说明：

假设用户干声中每句歌词片段有5个候选音频，则对应的有5个矩阵，其中，每个矩阵中包含n*m个元素，原唱干声对应歌词片段的音频指纹对应的目标矩阵也包含n*m个元素，假设用户干声第一句歌词片段的第一个矩阵与目标矩阵的相同元素为5个，用户干声第一句歌词片段的第二个矩阵与目标矩阵的相同元素为6个，用户干声第一句歌词片段的第三个矩阵与目标矩阵的相同元素为7个，用户干声第一句歌词片段的第四个矩阵与目标矩阵的相同元素为8个，用户干声第一句歌词片段的第五个矩阵与目标矩阵的相同元素为9个，则对应的候选矩阵即为用户干声第一句歌词片段的第五个矩阵。

603、将所述候选矩阵对应的候选音频视为与原唱干声中对应歌词片段的音频指纹相似度值最高的用户干声歌词片段的候选音频。

得到候选矩阵后，则将候选矩阵对应的候选音频视为与原唱干声中对应歌词片段的音频指纹相似度最高的用户干声歌词片段的候选音频。

如步骤602中得到候选矩阵为用户干声第一句歌词片段的第五个矩阵后，则将第五个候选矩阵对应的候选音频视为与原唱干声中对应歌词片段的音频指纹相似度值最高的用户干声歌词片段的候选音频。

本申请实施例中对确定与原唱干声中每句歌词片段的音频指纹相似度值最高的用户干声对应歌词片段的候选音频的过程做了详细描述，提升了该过程的可靠性。

基于图1至图6所述的实施例，下面接着对本申请实施例中的混音方法进行描述，请参阅图7，图7为本申请实施例中混音方法的另一个实施例：

701、获取目标歌曲的原唱干声中每句歌词片段的音频指纹；

702、获取所述目标歌曲的用户干声，将所述目标歌曲的用户干声切分为多句歌词片段；

703、将所述用户干声中每句歌词片段的时间戳按照预设时长执行N次左右偏移，以得到用户干声中每句歌词片段的N+1个候选音频，其中，N为大于等于1的整数；

704、计算所述用户干声中每句歌词片段的N+1个候选音频对应的N+1个候选音频指纹；

705、将所述用户干声中每句歌词片段的N+1个候选音频指纹与原唱干声中对应歌词片段的音频指纹逐一匹配，以得到与原唱干声中每句歌词片段的音频指纹相似度值最高的用户干声对应歌词片段的候选音频；

706、将与原唱干声中每句歌词片段音频指纹的最高相似度值对应的候选音频视为修正后的用户干声的歌词片段；

需要说明的是，本申请实施例中的步骤701至706与图1实施例中的步骤101至106的描述类似，此处不再赘述。

707、分别获取所述目标歌曲的用户干声中每句歌词片段的第一响度曲线，及所述目标歌曲的原唱干声中每句歌词片段的第二响度曲线；

为了实现更好的混音效果，本申请实施例在将修改后的用户干声的歌词片段与伴奏混音之前，还分别获取目标歌曲的用户干声中每句歌词片段的额第一响度曲线，及目标歌曲的原唱干声中每句歌词片段的第二响度曲线，并根据第一响度曲线和第二响度曲线执行步骤708。

具体的，在获取第一响度曲线时，对所述目标歌曲的用户干声中的每句歌词片段进行分帧加窗；将分帧加窗后用户干声的每帧语音信号执行时域到频域的变化，以得到用户干声中每帧语音信号的频域信号；将所述用户干声中每帧语音信号的频域信号执行巴克刻度滤波组处理，以得到用户干声中每帧语音信号的巴克域特征；计算所述用户干声每句歌词片段中多帧语音信号巴克域特征的均值，将所述用户干声中多帧语音信号巴克域特征的均值视为用户干声每句歌词片段的响度值；根据所述用户干声每句歌词片段的响度值绘制用户干声每句歌词片段的第一响度曲线。

具体的，也即在获取到用户干声中每帧语音信号的巴克域特征E(n,m)后，进一步计算用户干声中每句歌词片段中多帧语音信号巴克域特征E(n,m)的均值

将用户干声中多帧语音信号巴克域特征的均值视为用户干声每句歌词片段的响度值。

类似的，在获取第二响度曲线时，是对所述目标歌曲的原唱干声中的每句歌词片段进行分帧加窗；将分帧加窗后原唱干声的每帧语音信号执行时域到频域的变化，以得到原唱干声中每帧语音信号的频域信号；将所述原唱干声中每帧语音信号的频域信号执行巴克刻度滤波组处理，以得到原唱干声中每帧语音信号的巴克域特征；计算原唱干声每句歌词片段中多帧语音信号巴克域特征的均值，将所述原唱干声中多帧语音信号巴克域特征的均值视为原唱干声每句歌词片段的响度值；根据所述原唱干声每句歌词片段的响度值绘制原唱干声每句歌词片段的第二响度曲线。

708、利用预设时长的滑动窗口，对所述第一响度曲线和所述第二响度曲线执行均值或中值平滑处理，以得到平滑处理后的第一响度曲线和平滑处理后的第二响度曲线；

为了避免第一响度曲线和第二响度曲线的毛刺点，还可以利用预设时长(如800ms)的滑动窗口对第一响度曲线和所述第二响度曲线执行均值或中值平滑处理，以得到平滑处理后的第一响度曲线和平滑处理后的第二响度曲线。

709、将所述第一响度曲线和所述第二响度曲线中的对应响度值作差，以得到增益曲线；

为了根据原唱干声的第一响度曲线对用户干声的第二响度曲线进行调制，本申请实施例进一步将第一响度曲线和所述第二响度曲线中的对应响度值作差，以得到增益曲线。

710、对作差后的响度值进行低通滤波，以得到平滑的增益曲线；

为了进一步提升增益曲线的平滑度，还可以对作差后的响度值进行低通滤波，以得到平滑的增益曲线。

711、根据所述平滑的增益曲线，对修正后用户干声中每句歌词片段的响度值进行调整，以得到响度调整后的修正用户干声；

得到平滑的增益曲线后，则利用平滑的增益曲线对修正后用户干声中每句歌词片段的响度值进行调整，以得到响度调整后的修正用户干声。

712、利用预设的响度标准，将响度调整后的修正用户干声的响度调整至第一响度值，将伴奏的响度调整至第二响度值，其中，第一响度值大于第二响度值；

为了是混音中的人声更加突出，一般会采用预设的响度标准(如EUB R128)，将响度调整后的修正用户干声的响度调整至第一响度值(如-12LUFS)，将伴奏的响度调整至第二响度值(-14LUFS)，其中，第一响度值大于第二响度值。

713、将第一响度值的修正用户干声的歌词片段与第二响度值的伴奏进行混音。

调制修正后用户干声的歌词片段的响度值后，进一步将第一响度值的修正用户干声的歌词片段与第二响度值的伴奏进行混音，以实现更好的混音效果。

本申请实施例，在修正用户干声歌词片段的基础上，又对用户干声中歌词片段的响度做了调整，并将响度调整后的修正后的用户干声与伴奏进行混音，从而进一步提升了混音的效果。

下面接着对本申请中的混音方法进行描述，请参阅图8，图8为本申请实施例中混音的方法的另一个实施例：

801、获取目标歌曲的用户干声中每句歌词片段的音频指纹；

区别于图1所述的实施例，图1实施例是将用户干声中每句歌词片段的候选音频与原唱干声中对应歌词片段执行比对，以获取与原唱干声中每句歌词片段最相似的用户干声的歌词片段，本申请实施例则是将原唱干声中每句歌词片段的候选音频与用户干声中对应歌词片段执行比对，以获取与用户干声中每句歌词片段最相似的原唱干声的歌词片段。

故本申请实施例中获取的是目标歌曲的用户干声中每句歌词片段的音频指纹，其中，获取目标歌曲的用户干声中每句歌词片段的音频指纹的过程与图1至图2实施例中获取目标歌曲的原唱干声中每句歌词片段的音频指纹的过程类似，此处不再赘述。

802、获取所述目标歌曲的原唱干声，将所述目标歌曲的原唱干声切分为多句歌词片段；

得到目标歌曲的用户干声中每句歌词片段的音频指纹后，进一步获取目标歌曲的原唱干声，并将目标歌曲的原唱干声切分为多句歌词片段。

具体的，切分目标歌曲原唱歌声的过程，与图3实施例中描述的类似，此处不再赘述。

803、将所述原唱干声中每句歌词片段的时间戳按照预设时长执行N次左右偏移，以得到原唱干声中每句歌词片段的N+1个候选音频，其中，N为大于等于1的整数；

得到原唱干声中的多句歌词片段后，将原唱干声中每句歌词片段的时间戳按照预设时长执行N次左右偏移，以得到原唱干声中每句歌词片段的N+1个候选音频，其中，N为大于等于1的整数。

为方便理解，下面举例说明，假设原唱干声中有3句歌词片段，本申请实施例将原唱干声中的每句歌词片段都按照预设时长(如3ms)执行N(4)次左右偏移，则得到原唱干声中每句歌词片段的5个候选音频，也即原唱干声中的每句歌词片段都对应5个候选音频，如第一个候选音频为未执行偏移原唱干声的歌词片段，第二个候选音频为向左偏移3ms的原唱干声的歌词片段，第三个候选音频为向左偏移6ms的原唱干声的歌词片段，第四个候选音频为向右偏移3ms的原唱干声的歌词片段，第五个候选音频为向右偏移6ms的原唱干声的歌词片段，依次类推，可以得到原唱干声中每句歌词片段对应的N+1个候选音频。

804、计算所述原唱干声中每句歌词片段的N+1个候选音频对应的N+1个候选音频指纹；

为了与用户干声中每句歌词片段执行对应的匹配，以得到与用户干声中每句歌词片段最相似的原唱干声对应的歌词片段，本申请实施例需要计算原唱干声中每句歌词片段的N+1个候选音频对应的N+1个候选音频指纹。

而对于具体的计算原唱干声中每句歌词片段的N+1个候选音频对应的N+1个候选音频指纹的过程与图2实施例中描述的类似，此处不再赘述。

805、将所述原唱干声中每句歌词片段的N+1个候选音频指纹与用户干声中对应歌词片段的音频指纹执行逐一匹配，以得到与用户干声中每句歌词片段的音频指纹相似度值最高的原唱干声对应歌词片段的候选音频；

获取到用户干声每句歌词片段的音频指纹，及原唱干声中每句歌词片段的N+1个候选音频指纹后，将原唱干声中每句歌词片段的N+1个候选音频指纹与用户干声中对应歌词片段的音频指纹执行逐一匹配，以得到与用户干声中每句歌词片段的音频指纹相似度值最高的原唱干声对应歌词片段的候选音频。

对于具体的匹配过程，将在下面的实施例中进行描述，此处不再赘述。

806、按照与用户干声中每句歌词片段的最高相似度值对应的候选音频的偏移量，将用户干声中对应歌词片段在反方向偏移相同的偏移量，以得到修正后的用户干声的歌词片段；

得到与用户干声中每句歌词片段的最高相似度值对应的候选音频的偏移量后，将用户干声中对应歌词片段在反方向偏移相同的偏移量，以得到修正后的用户干声的歌词片段。

为方便理解，下面举例说明：

假设原唱干声中有3句歌词片段，本申请实施例将原唱干声中的第一句歌词片段按照预设时长(如3ms)执行N(4)次左右偏移，则得到原唱干声中第一句歌词片段的5个候选音频，如第一个候选音频为未执行偏移的原唱干声的歌词片段，第二个候选音频为向左偏移3ms的原唱干声的歌词片段，第三个候选音频为向左偏移6ms的原唱干声的歌词片段，第四个候选音频为向右偏移3ms的原唱干声的歌词片段，第五个候选音频为向右偏移6ms的原唱干声的歌词片段。

若与用户干声中第一句歌词片段最相似的是，原唱干声中第一句歌词片段的第五个候选音频，也即是将原唱干声中第一句歌词片段向右偏移6ms后，与用户干声中第一句歌词片段的相似度值最高，那为了与原唱干声的第一句歌词片段最匹配，则相应的应该将用户干声中第一句歌词片段向左偏移6ms，并将向左偏移6ms后的用户干声视为正后的用户干声的歌词片段。

807、将所述修正后的用户干声的歌词片段与伴奏进行混音。

得到修正后的用户干声的歌词片段后，再将修正后的用户干声的歌词片段与伴奏进行混音。

具体的，将修正后的用户干声的歌词片段与伴奏进行混音时，作为一种实施方式：可以是将修正后的用户干声按照目标歌曲歌词的先后顺序拼接为完整的歌词片段，再将拼接后完整的歌词片段与完整的伴奏进行混音。

因为本申请实施例是将目标歌曲用户干声中的每句歌词片段与目标歌曲原唱干声中的每句歌词片段的多个候选音频逐一进行匹配，以得到与用户干声中每句歌词片段最相似的原唱干声的候选音频，并根据原唱干声的候选音频，对用户干声的歌词片段执行对应的修正，以得到修正后的用户干声，并将修正后的用户干声与伴奏进行混音，从而提升了混音的效果。

基于图8所述的实施例，下面接着对图8实施例中的步骤805做详细描述，请参阅图9，图9为步骤805的细化步骤：

901、获取所述原唱干声中每句歌词片段的N+1个候选音频指纹对应的N+1个矩阵；

而原唱干声中每句歌词片段有N+1个候选音频，故对应N+1个候选音频指纹，也即对应N+1个矩阵。

902、将所述N+1个矩阵与用户干声中对应歌词片段的音频指纹所对应的目标矩阵进行比对，获取与所述目标矩阵相同元素最多的候选矩阵；

将原唱干声中每句歌词片段所对应的N+1个矩阵，分别与用户干声中对应歌词片段的音频指纹所对应的目标矩阵进行比对，获取与目标矩阵相同元素最多的候选矩阵。

为方便理解，下面举例说明：

假设原唱干声中每句歌词片段有5个候选音频，则对应的有5个矩阵，其中，每个矩阵中包含n*m个元素，用户干声对应歌词片段的音频指纹对应的目标矩阵也包含n*m个元素，原唱干声中第一句歌词片段的第一个矩阵与目标矩阵的相同元素为5个，原唱干声中第一句歌词片段的的第二个矩阵与目标矩阵的相同元素为6个，原唱干声中第一句歌词片段的的第三个矩阵与目标矩阵的相同元素为7个，原唱干声中第一句歌词片段的的第四个矩阵与目标矩阵的相同元素为8个，原唱干声中第一句歌词片段的的第五个矩阵与目标矩阵的相同元素为9个，则对应的候选矩阵即为原唱干声中第一句歌词片段的第五个矩阵。

903、将所述候选矩阵对应的候选音频视为与用户干声中对应歌词片段的音频指纹相似度值最高的原唱干声歌词片段的候选音频。

得到候选矩阵后，则将候选矩阵对应的候选音频视为与用户干声中对应歌词片段的音频指纹相似度值最高的原唱干声歌词片段的候选音频。

如步骤902中得到的候选矩阵为原唱干声中第一句歌词片段的第五个矩阵后，则将第五个矩阵对应的候选音频视为与用户干声中对应歌词片段的音频指纹相似度值最高的候选音频。

本申请实施例中对确定与用户干声中每句歌词片段的音频指纹相似度值最高的原唱干声对应歌词片段的候选音频的过程做了详细描述，提升了该过程的可靠性。

上面对本申请实施例中的混音方法做了详细描述，下面接着对本申请实施例中的混音的装置进行描述，请参阅图10，图10为本申请实施例中混音的装置的一个实施例示意图：

获取单元1001，用于获取目标歌曲的原唱干声中每句歌词片段的音频指纹；

所述获取单元1001，还用于获取所述目标歌曲的用户干声，将所述目标歌曲的用户干声切分为多句歌词片段；

偏移单元1002，用于将所述用户干声中每句歌词片段的时间戳按照预设时长执行N次左右偏移，以得到用户干声中每句歌词片段的N+1个候选音频，其中，N为大于等于1的整数；

计算单元1003，用于计算所述用户干声中每句歌词片段的N+1个候选音频对应的N+1个候选音频指纹；

匹配单元1004，用于将所述用户干声中每句歌词片段的N+1个候选音频指纹与原唱干声中对应歌词片段的音频指纹逐一匹配，以得到与原唱干声中每句歌词片段的音频指纹相似度值最高的用户干声对应歌词片段的候选音频；

修正单元1005，用于将与原唱干声中每句歌词片段音频指纹的最高相似度值对应的候选音频视为修正后的用户干声的歌词片段；

混音单元1006，用于将所述修正后的用户干声的歌词片段与伴奏进行混音。

优选的，所述获取单元1001具体用于：

优选的，所述获取单元1001还用于：

优选的，所述获取单元1001具体用于：

优选的，所述计算单元1003具体用于：

将所述第M个候选音频进行分帧加窗；

优选的，所述目标歌曲的原唱干声中每句歌词片段包括n帧语音信号，每帧语音信号包括m个频带，每句歌词片段的音频指纹为包括n*m个元素的矩阵，其中，n为不小于1的整数，m为大于等于零且小于33的整数；

优选的，所述匹配单元1004具体用于：

优选的，所述获取单元1001还用于：

将响度调整后的修正用户干声的歌词片段与伴奏进行混音。

优选的，所述获取单元1001具体用于：

优选的，所述装置还包括：

平滑单元1007，用于在分别获取所述目标歌曲的用户干声中每句歌词片段的第一响度曲线，及所述目标歌曲的原唱干声中每句歌词片段的第二响度曲线之后，利用预设时长的滑动窗口，对所述第一响度曲线和所述第二响度曲线执行均值或中值平滑处理，以得到平滑处理后的第一响度曲线和平滑处理后的第二响度曲线。

优选的，所述装置还包括：

滤波单元1008，用于对作差后的响度值进行低通滤波，以得到平滑的增益曲线；

优选的，所述混音单元还用于：

优选的，所述装置还包括：

响度调整单元1009，用于利用预设的响度标准，将响度调整后的修正用户干声的响度调整至第一响度值，将伴奏的响度调整至第二响度值，其中，第一响度值大于第二响度值；

优选的，所述混音单元具体用于：

需要说明的是，上述各个单元的作用与图1至图7中描述的类似，此处不再赘述。

本申请实施例中，先通过匹配单元1004将目标歌曲中用户干声每句歌词片段的N+1个候选音频指纹和原唱干声的音频指纹逐句进行比对，以得到修正后的用户干声的歌词片段，再通过混音单元1006将修正后的用户干声的歌词片段和伴奏进行混音，从而在节省计算开销的前提下，提升了混音效果。

下面接着对本申请实施例中的混音的装置进行描述，请参阅图11，图11为本申请实施例中混音的装置的另一个实施例示意图：

获取单元1101，用于获取目标歌曲的用户干声中每句歌词片段的音频指纹；

所述获取单元1101，还用于获取所述目标歌曲的原唱干声，将所述目标歌曲的原唱干声切分为多句歌词片段；

偏移单元1102，用于将所述原唱干声中每句歌词片段的时间戳按照预设时长执行N次左右偏移，以得到原唱干声中每句歌词片段的N+1个候选音频，其中，N为大于等于1的整数；

计算单元1103，用于计算所述原唱干声中每句歌词片段的N+1个候选音频对应的N+1个候选音频指纹；

匹配单元1104，用于将所述原唱干声中每句歌词片段的N+1个候选音频指纹与用户干声中对应歌词片段的音频执行逐一匹配，以得到与用户干声中每句歌词片段的音频指纹相似度值最高的原唱干声对应歌词片段的候选音频；

修正单元1105，用于按照与用户干声中每句歌词片段的最高相似度值对应的候选音频的偏移量，将用户干声中的对应歌词片段在反方向偏移相同的偏移量，以得到修正后的用户干声的歌词片段；

混音单元1106，用于将所述修正后的用户干声的歌词片段与伴奏进行混音。

优选的，所述目标歌曲的用户干声中每句歌词片段包括n帧语音信号，每帧语音信号包括m个频带，每句歌词片段的音频指纹为包括n*m个元素的矩阵，其中，n为不小于1的整数，m为大于等于零且小于33的整数；

所述匹配单元1104，具体用于：

需要说明的是，本申请实施例中各单元的作用与图8至9实施例中描述的类似，此处不再赘述。

本申请实施例中，通过匹配单元1104将目标歌曲用户干声中的每句歌词片段与目标歌曲原唱干声中的每句歌词片段的多个候选音频逐一进行匹配，以得到与用户干声中每句歌词片段最相似的原唱干声的候选音频，再通过修正单元1105根据原唱干声的候选音频，对用户干声的歌词片段执行对应的修正，以得到修正后的用户干声，最后通过混音单元1106将修正后的用户干声与伴奏进行混音，从而提升了混音的效果。

上面从模块化功能实体的角度对本发明实施例中的混音的装置进行了描述，下面从硬件处理的角度对本发明实施例中的计算机装置进行描述：

该计算机装置用于实现混音的装置的功能，本发明实施例中计算机装置一个实施例包括：

处理器以及存储器；

存储器用于存储计算机程序，处理器用于执行存储器中存储的计算机程序时，可以实现如下步骤：

获取目标歌曲的原唱干声中每句歌词片段的音频指纹；

将所述修正后的用户干声的歌词片段与伴奏进行混音。

在本发明的一些实施例中，处理器，还可以用于实现如下步骤：

将所述第M个候选音频进行分帧加窗；

在本发明的一些实施例中，在将所述修正后的用户干声的歌词片段与伴奏进行混音之前，处理器，还可以用于实现如下步骤：

将响度调整后的修正用户干声的歌词片段与伴奏进行混音。

在本发明的一些实施例中，在分别获取所述目标歌曲的用户干声中每句歌词片段的第一响度曲线，及所述目标歌曲的原唱干声中每句歌词片段的第二响度曲线之后，处理器，还可以用于实现如下步骤：

对作差后的响度值进行低通滤波，以得到平滑的增益曲线；

在本发明的一些实施例中，在将响度调整后的修正用户干声与伴奏进行混音之前，处理器，还可以用于实现如下步骤：

本发明还提供了另一种计算机装置，该计算机装置也用于实现混音的装置的功能，本发明实施例中计算机装置的另一个实施例包括：

获取目标歌曲的用户干声中每句歌词片段的音频指纹；

将所述修正后的用户干声的歌词片段与伴奏进行混音。

在本发明的一些实施例中，处理器，具体用于实现如下步骤：

可以理解的是，上述说明的计算机装置中的处理器执行所述计算机程序时，也可以实现上述对应的各装置实施例中各单元的功能，此处不再赘述。示例性的，所述计算机程序可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器中，并由所述处理器执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述混音的装置中的执行过程。例如，所述计算机程序可以被分割成上述混音的装置中的各单元，各单元可以实现如上述相应混音的装置说明的具体功能。

所述计算机装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机装置可包括但不仅限于处理器、存储器。本领域技术人员可以理解，处理器、存储器仅仅是计算机装置的示例，并不构成对计算机装置的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述计算机装置还可以包括输入输出设备、网络接入设备、总线等。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质用于实现混音的装置的功能，其上存储有计算机程序，计算机程序被处理器执行时，处理器，可以用于执行如下步骤：

获取目标歌曲的原唱干声中每句歌词片段的音频指纹；

将所述修正后的用户干声的歌词片段与伴奏进行混音。

在本发明的一些实施例中，计算机可读存储介质存储的计算机程序被处理器执行时，处理器，还可以用于实现如下步骤：

将所述第M个候选音频进行分帧加窗；

在本发明的一些实施例中，在将所述修正后的用户干声的歌词片段与伴奏进行混音之前，计算机可读存储介质存储的计算机程序被处理器执行时，处理器，还可以用于实现如下步骤：

将响度调整后的修正用户干声的歌词片段与伴奏进行混音。

在本发明的一些实施例中，在分别获取所述目标歌曲的用户干声中每句歌词片段的第一响度曲线，及所述目标歌曲的原唱干声中每句歌词片段的第二响度曲线之后，计算机可读存储介质存储的计算机程序被处理器执行时，处理器，还可以用于实现如下步骤：

对作差后的响度值进行低通滤波，以得到平滑的增益曲线；

在本发明的一些实施例中，在将响度调整后的修正用户干声与伴奏进行混音之前，计算机可读存储介质存储的计算机程序被处理器执行时，处理器，还可以用于实现如下步骤：

本发明还提供了另一种计算机可读存储介质，该计算机可读存储介质也用于实现混音的装置的功能，其上存储有计算机程序，计算机程序被处理器执行时，处理器，可以用于执行如下步骤：

获取目标歌曲的用户干声中每句歌词片段的音频指纹；

将所述修正后的用户干声的歌词片段与伴奏进行混音。

在本发明的一些实施例中，计算机可读存储介质存储的计算机程序被处理器执行时，处理器，具体用于实现如下步骤：

可以理解的是，所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在相应的一个计算机可读取存储介质中。基于这样的理解，本发明实现上述相应的实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种混音的方法，其特征在于，包括：

获取目标歌曲的原唱干声中每句歌词片段的音频指纹；

将所述修正后的用户干声的歌词片段与伴奏进行混音。

2.根据权利要求1所述的方法，其特征在于，所述获取目标歌曲的原唱干声中每句歌词片段的音频指纹，包括：

3.根据权利要求1所述的方法，其特征在于，在获取目标歌曲的原唱干声中每句歌词片段的音频指纹之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，将所述目标歌曲的用户干声切分为多句歌词片段，包括：

5.根据权利要求1所述的方法，其特征在于，所述计算所述用户干声中每句歌词片段的N+1个候选音频对应的N+1个候选音频指纹，包括：

将所述第M个候选音频进行分帧加窗；

6.根据权利要求1所述的方法，其特征在于，所述目标歌曲的原唱干声和用户干声中的每句歌词片段包括n帧语音信号，每帧语音信号包括m个频带，每句歌词片段的音频指纹为包括n*m个元素的矩阵，其中，n为不小于1的整数，m为大于等于零且小于33的整数；

7.根据权利要求1所述的方法，其特征在于，在将所述修正后的用户干声的歌词片段与伴奏进行混音之前，所述方法还包括：

将响度调整后的修正用户干声的歌词片段与伴奏进行混音。

8.根据权利要求7述的方法，其特征在于，分别获取所述目标歌曲的用户干声中每句歌词片段的第一响度曲线，包括：

9.根据权利要求7所述的方法，其特征在于，分别所述目标歌曲的原唱干声中每句歌词片段的第二响度曲线，包括：

10.根据权利要求7所述的方法，其特征在于，在分别获取所述目标歌曲的用户干声中每句歌词片段的第一响度曲线，及所述目标歌曲的原唱干声中每句歌词片段的第二响度曲线之后，所述方法还包括：

11.根据权利要求7所述的方法，其特征在于，所述方法还包括：

对作差后的响度值进行低通滤波，以得到平滑的增益曲线；

12.根据权利要求7至11中任一项所述的方法，其特征在于，在将响度调整后的修正用户干声与伴奏进行混音之前，所述方法还包括：

13.一种混音的方法，其特征在于，包括：

获取目标歌曲的用户干声中每句歌词片段的音频指纹；

将所述原唱干声中每句歌词片段的N+1个候选音频指纹与用户干声中对应歌词片段的音频指纹执行逐一匹配，以得到与用户干声中每句歌词片段的音频指纹相似度值最高的原唱干声对应歌词片段的候选音频；

将所述修正后的用户干声的歌词片段与伴奏进行混音。

14.根据权利要求13所述的方法，其特征在于，所述目标歌曲的用户干声和原唱干声中的每句歌词片段包括n帧语音信号，每帧语音信号包括m个频带，每句歌词片段的音频指纹为包括n*m个元素的矩阵，其中，n为不小于1的整数，m为大于等于零且小于33的整数；

将所述原唱干声中每句歌词片段的N+1个候选音频指纹与用户干声中对应歌词片段的音频执行逐一匹配，以得到与用户干声中每句歌词片段的音频指纹相似度值最高的原唱干声对应歌词片段的候选音频，包括：

15.一种计算机装置，包括处理器和存储器，其特征在于，所述处理器在执行存储于存储器上的计算机程序时，用于实现如权利要求1至14中任一项所述的混音方法。

16.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，用于实现如权利要求1至14中任一项所述的混音方法。