CN114566191A

CN114566191A - 录音的修音方法及相关装置

Info

Publication number: CN114566191A
Application number: CN202210184390.7A
Authority: CN
Inventors: 庄晓滨
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2022-05-31

Abstract

本申请提供了一种录音的修音方法及相关装置，其中，该方法包括：对混音信号中的用户干声信号进行音量均衡，获得音量均衡后的用户干声信号；对歌曲的原唱干声信号以及音量均衡后的用户干声信号进行对齐处理，获得对齐信息，该对齐信息中包括用户干声信号的每个信号帧与原唱干声信号的每个信号帧之间的对应关系；根据对齐信息，对用户干声信号进行修音，获得修音后的用户干声信号。本申请实施例能够提升修音后的音准和音质效果。

Description

录音的修音方法及相关装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种录音的修音方法及相关装置。

背景技术

随着信息技术的快速发展，音乐娱乐已经成为计算机或手机等终端中的一项必备应用，在手机上唱歌也变得越来越流行。但是，由于不同年龄段和不同教育背景的人对乐感和旋律的感知能力参差不齐，跑调或是节奏跟不上的情况时有发生，因此，“一键修音”是应用程序中的一项音频处理功能。目前的修音技术方法中，为了避免采集到的干声混有伴奏杂音，需要用户戴耳机录制歌曲，之后再对录制得到的干声进行修音，否则无法使用修音功能。其中，干声是指不包含伴奏的纯净歌声。然而，大部分非入耳式耳机都存在漏音的情况，即使戴耳机录制得到的干声也会有伴奏杂音，从而会降低修音后的音准和音质效果。

发明内容

针对上述技术问题，本申请提供一种录音的修音方法及相关装置，可能够提升修音后的音准和音质效果。

一方面，本申请实施例提供了一种录音的修音方法，所述方法包括：

对混音信号中的用户干声信号进行音量均衡，获得音量均衡后的用户干声信号；

对歌曲的原唱干声信号以及音量均衡后的用户干声信号进行对齐处理，获得对齐信息，所述对齐信息中包括所述用户干声信号的每个信号帧与所述原唱干声信号的每个信号帧之间的对应关系；

根据所述对齐信息，对所述用户干声信号进行修音，获得修音后的用户干声信号。

可选地，所述对混音信号中的用户干声信号进行音量均衡，获得音量均衡后的用户干声信号之前，所述方法还包括：

对混音信号进行音量均衡，获得音量均衡后的混音信号；

对所述音量均衡后的混音信号进行歌声分离，获得所述混音信号中的用户干声信号。

可选地，所述对所述音量均衡后的混音信号进行歌声分离，获得所述混音信号中的用户干声信号，包括：

将所述音量均衡后的混音信号输入到神经网络，获得所述混音信号中的用户干声信号；

所述神经网络中卷积核大小和通道数是通过歌声分离训练样本进行训练获得的。

可选地，所述根据所述对齐信息，对所述音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号，包括：

根据所述对齐信息和所述歌曲的时间戳信息，确定所述音量均衡后的用户干声信号的时间戳信息；

根据所述音量均衡后的用户干声信号的时间戳信息和基频，确定所述音量均衡后的用户干声信号中每个字的基频；

根据所述音量均衡后的用户干声信号中每个字的基频，对所述音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号。

可选地，所述根据所述音量均衡后的用户干声信号的时间戳信息和基频，确定所述音量均衡后的用户干声信号中每个字的基频之前，所述方法还包括：

对所述音量均衡后的用户干声信号进行基频提取，获得所述音量均衡后的用户干声信号的基频。

可选地，所述根据所述音量均衡后的用户干声信号中每个字的基频，对所述音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号，包括：

根据所述音量均衡后的用户干声信号中每个字的基频和所述歌曲的参考曲谱中每个字的音高，确定所述音量均衡后的用户干声信号中每个字的修音幅度；

利用所述音量均衡后的用户干声信号中每个字的修音幅度对所述音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号。

可选地，在所述音量均衡后的用户干声信号中存在任一字的修音幅度大于预设阈值时，执行利用所述音量均衡后的用户干声信号中每个字的修音幅度对所述用户干声信号进行修音。

可选地，所述利用所述音量均衡后的用户干声信号中每个字的修音幅度对所述音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号，包括：

根据所述音量均衡后的用户干声信号中每个字的修音幅度，确定对每个字的修音程度；

基于所述每个字的修音程度和修音幅度，对所述音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号。

确定音量均衡后的用户干声信号中修音幅度大于预设阈值的目标字，利用所述目标字的修音幅度对所述目标字进行修音，获得修音后的用户干声信号。

一方面，本申请实施例提供了一种录音的修音装置，所述装置包括：

音质增强模块，用于终端对混音信号中的用户干声信号进行音量均衡，获得音量均衡后的用户干声信号；

歌声对齐模块，用于所述终端对所述歌曲的原唱干声信号以及音量均衡后的用户干声信号进行对齐处理，获得对齐信息，所述对齐信息中包括所述用户干声信号的每个信号帧与所述原唱干声信号的每个信号帧之间的对应关系；

修音模块，用于所述终端根据所述对齐信息，对所述用户干声信号进行修音，获得修音后的用户干声信号。

一方面，本申请实施例提供了一种终端，包括：处理器、通信接口和存储器，所述处理器、所述通信接口和所述存储器相互连接，其中，所述存储器存储有可执行程序代码，所述处理器用于调用所述可执行程序代码，执行本申请实施例提供的方法。

相应地，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现本申请实施例提供的方法。

相应地，本申请实施例还提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。终端的处理器从所述计算机可读存储介质读取所述计算机指令，处理器执行所述计算机指令，使得所述终端执行本申请实施例提供的方法。

本申请实施例中，终端对混音信号中的用户干声信号进行音量均衡，获得音量均衡后的用户干声信号；对歌曲的原唱干声信号以及音量均衡后的用户干声信号进行对齐处理，获得对齐信息；根据对齐信息，对用户干声信号进行修音，获得修音后的用户干声信号。可见，本申请实施例通过对用户干声信号进行音量均衡后再进行修音，从而提升了能够提升修音后的音准和音质效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方法，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例示出的一种语音频谱示意图；

图2是本申请实施例示出的一种录音的修音方法的示意图；

图3是本申请实施例示出的一种录音的修音方法的流程示意图；

图4是本申请实施例示出的一种神经网络模型的示意图；

图5是本申请实施例示出的一种歌声对齐信息的示意图；

图6是本申请实施例示出的一种频谱包络的示意图；

图7是本申请实施例示出的另一种录音的修音方法的示意图；

图8是本申请实施例示出的另一种录音的修音方法的流程示意图；

图9是本申请实施例示出的一种对音量均衡后的用户干声信号进行修音的示意图；

图10是本申请实施例示出的一种录音的修音装置的示意图；

图11是本申请实施例示出的一种终端的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方法进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为便于理解本申请公开的实施例，首先对本申请实施例涉及的一些概念进行阐述。这些概念的阐述包括但不限于以下内容。

1、语音

语音是指人类通过发音器官发出来的、具有一定意义的、目的是用来进行社会交际的声音，语音是由许多频率的简谐振动叠加而成的。不同频率的语音可以组成语音频谱，请参阅图1，图1是本申请实施例示出的一种语音频谱示意图，其中第一个峰叫基音，其余的峰叫泛音。

2、音高

语音频谱中基音的频率叫作音高，也可称为基频。在音乐领域中指的是人类心理对音符基频的感受。平时所谈及的“跑调”指的是唱歌者音高和音符不匹配。

目前，针对录音的修音方法需要用户通过佩戴耳机进行录制，进而通过基频提取、歌声对齐、偏差估计、共振峰保持以及变调算法重构这些基本步骤进行修音，否则无法使用修音功能。可见，该方法大大影响了用户的体验效果。

请参阅图2，图2是本申请实施例示出的一种录音的修音方法的示意图。如图2，终端接收混音信号，该混音信号包括原唱伴奏和用户干声；在音质增强部分，对混音信号中的用户干声信号进行音量均衡，获得音量均衡后的用户干声信号；在歌声对齐部分，对歌曲的原唱干声信号以及音量均衡后的用户干声信号进行对齐处理，获得对齐信息；在修音部分，根据对齐信息对音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号。可见，该方法通过对用户干声信号进行音量均衡后再进行修音，从而提升了混音信号中用户干声的信噪比和响度，进而能够提升修音后的音准和音质的效果。

需要说明的是，该终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能车载等，但并不局限于此。在一种实施方式中，终端获得混音信号后可以将混音信号发送至服务器，由服务器执行本申请实施例所提供录音的修音方法对混音信号进行修音。

需要说明的是，本申请实施例所提供的录音的修音方法中，混音信号的获取方式包括但不限于通过手机话筒录制(伴奏外放的情形下录制)获取，通过耳机话筒录制(佩戴耳机的情形下录制)获取。

为了便于理解本申请实施例，下面对上述录音的修音方法的具体实现方式进行详细阐述。

请参阅图3，图3为本申请实施例提供的一种录音的修音方法的流程示意图。为便于阐述，下面以终端执行该方法为例进行说明。本申请实施例中所描述的方法包括：

S301、对混音信号中的用户干声信号进行音量均衡，获得音量均衡后的用户干声信号。

其中，混音信号是在伴奏外放情况下录制用户演唱歌曲获得的音频信号。

在一种可选的实施方式中，终端对混音信号中的用户干声信号进行音量均衡，获得音量均衡后的用户干声信号之前，还包括：对混音信号进行音量均衡，获得音量均衡后的混音信号；对音量均衡后的混音信号进行歌声分离，获得混音信号中的用户干声信号。

在一种可选的实施方式中，终端对混音信号进行音量均衡，获得音量均衡后的混音信号时，可按照预定标准将所有音量都统一到预设响度。例如：可按照欧洲广播联盟(European Broadcasting Union，EBU)R128标准，将所有干声音量都统一到-18LUFS。在实际应用中，响度统一到[-15LUFS，-20LUFS]具有较好的混音效果。当原始干声音量低于-50LUFS时，可基本视为静音，则放弃修音。举例来说，当混音信号的响度为-36LUFS时，终端可通过对该混音信号进行音量均衡处理，将该混音信号的响度调整为-18LUFS。

在一种可选的实施方式中，终端对音量均衡后的混音信号进行歌声分离，获得混音信号中的用户干声信号，包括：将音量均衡后的混音信号输入到神经网络中，获得混音信号中的用户干声信号；其中，神经网络中的卷积核大小和通道数是通过歌声分离训练样本进行训练获得的。

在一种可选的实施方式中，终端将音量均衡后的混音信号输入到神经网络中，获得混音信号中的用户干声信号，包括：将音量均衡后的混音信号幅值X输入到神经网络中，获得混音信号中的用户干声信号幅值的掩模a，其中，掩模a用于指示所述用户干声幅值在所述混音信号幅值中占的比率，a的取值范围为[0,1]；根据音量均衡后的混音信号幅值X和混音信号中的用户干声信号的幅值的掩模a，获得混音信号中的用户干声信号幅值V；根据音量均衡后的混音信号的相位和混音信号中的用户干声信号幅值V，获得混音信号中的用户干声信号。

该实施方式中，终端根据音量均衡后的混音信号幅值X，获得混音信号中的用户干声信号的幅值的掩模a，包括：将音量均衡后的混音信号幅值X经过三路输入到神经网络中，获得混音信号中的用户干声信号的幅值的掩模a。请参阅图4，图4是本申请实施例示出的一种神经网络模型的示意图，其中，第一路先经过卷积和层归一化，然后经过门控线性单元(Gated Linear Units，GLU)，第二路作为条件信息，加入到GLU模块，第三路则是直接经过1*1的卷积与M层的GLU的计算结果相加，然后经过1*1的卷积和sigmoid(σ)激活函数，得到混音信号中的用户干声信号的幅值的掩模(即图示中的人声幅值掩膜)a。

该实施方式中，终端根据音量均衡后的混音信号幅值X和混音信号中的用户干声信号的幅值的掩模a，获得混音信号中的用户干声信号幅值V，包括：对音量均衡后的混音信号幅值X和混音信号中的用户干声信号的幅值的掩模a进行乘法运算，获得混音信号中的用户干声信号幅值V。

该实施方式中，终端根据音量均衡后的混音信号的相位和混音信号中的用户干声信号幅值V，获得混音信号中的用户干声信号，包括：对音量均衡后的混音信号的相位和混音信号中的用户干声信号幅值V进行反傅里叶变换，获得的混音信号中的用户干声信号。

该实施方式中，终端通过确定模型中的各个参数，对音量均衡后的混音信号进行歌声分离，获得混音信号中的用户干声信号。例如，可确定神经网络中所有的卷积核大小都为3，通道数为64，GLU的层数M为6，且GLU模块中的空洞卷积(Dilated/AtrousConvolution)的膨胀系数为分别为[2，4，8，4，2，1]，对音量均衡后的混音信号进行歌声分离，获得混音信号中的用户干声信号。经实践表明，当模型中的参数值为上述数值时，终端经过对音量均衡后的混音信号进行歌声分离，获得混音信号中的用户干声信号的效果更好。

可选地，该实施方式中，训练模型地算法可采用深度神经网络的自适应动量估计(Adaptive Momentum Estimation，Adam)算法等，损失函数可以是误差的绝对值等，此处不做限定。

在一种可选的实施方式中，当混音信号中的用户干声信号的幅值的掩模和混音信号中的伴奏信号的幅值的掩模之和为1时，终端基于混音信号中的用户干声信号的幅值的掩模a，确定混音信号中的伴奏信号的幅值的掩模1-a；根据音量均衡后的混音信号幅值X和混音信号中的伴奏信号的幅值的掩模1-a，获得混音信号中的伴奏信号幅值A；根据音量均衡后的混音信号的相位和混音信号中的伴奏信号幅值A，获得混音信号中的伴奏信号。具体过程请参见上述实施方式，此处不做赘述。

该实施方式中，终端根据音量均衡后的混音信号的相位和混音信号中的伴奏信号幅值A，获得混音信号中的伴奏信号，包括：对音量均衡后的混音信号的相位和混音信号中的伴奏信号幅值A进行反傅里叶变换，获得的混音信号中的伴奏信号。

可选地，在训练模型的过程中，终端可不断计算测试集的误差，当测试集误差最小时，能够得到网络模型的最佳参数，此时可停止训练。

在一种可选的实施方式中，终端在获得混音信号中的用户干声信号之后，对混音信号中的用户干声信号进行音量均衡，获得音量均衡后的用户干声信号，以避免因原本的干声信噪比过低而导致歌声分离得到的用户干声信号的音量过低。其中，音量均衡后的用户干声信号的响度和混音信号的响度相同。S302、对歌曲的原唱干声信号以及音量均衡后的用户干声信号进行对齐处理，获得对齐信息。

其中，对齐信息包括音量均衡后用户干声信号的每个信号帧与原唱干声信号的每个信号帧之间的对应关系。

可选地，原唱干声信号的获取方式可以是从本地存储空间中获取，也可以是通过录制得到的。

在一种可选的实施方式中，终端对歌曲的原唱干声信号以及音量均衡后的用户干声信号进行对齐处理，获得对齐信息，包括：获取原唱干声信号的声学特征和音量均衡后的用户干声信号的声学特征；计算原唱干声信号的每个帧与音量均衡后的用户干声信号的每个帧之间的相似度，获得对齐信息。例如，假设终端获取的原唱干声信号的声学特征和音量均衡后的用户干声信号的声学特征都包含T帧，则通过计算原唱干声信号的每个帧与音量均衡后的用户干声信号的每个帧之间的相似度可以得到一个T*T的规整矩阵M，规整矩阵M记录了具有对应关系的第i帧用户干声信号及第j帧原唱干声信号(在一种实施方式中，相似度达到相似度阈值要求的两个帧认为具有对应关系)。举例来说，请参阅图5，图5是本申请实施例示出的一种歌声对齐信息的示意图，图4中，(3，3)和(3，4)表示用户干声信号的第3帧对应了原唱干声信号的第3帧和第4帧，(4，5)和(5，5)表示用户干声信号的第4帧和第5帧对应了原唱干声信号的第5帧，等等。

可选地，终端在对歌曲的原唱干声信号以及音量均衡后的用户干声信号进行对齐处理，获得对齐信息时，可使用动态时间规整(Dynamic Time Warping，DTW)算法等，在获取原唱干声信号的声学特征和音量均衡后的用户干声信号的声学特征时，可通过梅尔频谱、频谱包络或者神经网络模型等方法进行特征提取，此处不做限定。为便于理解，下面对梅尔频谱和频谱包络的概念进行阐述，这些概念的阐述包括但不限于以下内容。

梅尔频谱：由于人耳能听到的频率范围是20-20000Hz，但人耳对Hz这种标度单位并不是线性感知关系。例如当适应了1000Hz的音调，如果把音调频率提高到2000Hz，我们的耳朵只能觉察到频率提高了一点，根本察觉不到频率提高了一倍。采用梅尔标度滤波器组可将线性频谱组变换为梅尔频谱，将线性频率标度转化为梅尔频率标度，则人耳对频率的感知度就成了线性关系。也就是说，在梅尔标度下，如果两段语音的梅尔频率相差两倍，则人耳可以感知到的音调大概也相差两倍。

频谱包络：声带振动产生的声波通过由口腔、鼻腔等构成的声道时将产生共振。共振的结果会使频谱的某些区域得到加强，形成峰。频谱上有多个峰，频谱上每个峰的高度是不一样的，这些峰的高度之比决定了音色(timbre)。如果将这些峰值通过平滑的曲线连接起来就是频谱包络。请参阅图6，图6是本申请实施例示出的一种频谱包络的示意图，图6中，将浅色的线条中的多个峰值通过深色的曲线连接起来就是频谱包络。语音是由周期信号和非周期信号组成，周期信号的频谱有包络线，而非周期信号没有包络线。只有结合周期参数和非周期参数，才能完美地合成原始信号。

在一种可选的实施方式中，终端可以通过计算用户干声信号的每个帧与原唱干声信号的每个帧之间的距离，获得用户干声信号的每个帧与原唱干声信号的每个帧之间的相似度，距离越小，则相似度越大。可选地，终端计算用户干声信号的每个帧与原唱干声信号的每个帧之间的相似度的方法可以是欧氏距离、余弦相似度等，此处不做限定。

S303、根据对齐信息，对音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号。

在一种可选的实施方式中，终端根据对齐信息对音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号，包括：根据对齐信息和歌曲的时间戳信息，确定音量均衡后的用户干声信号的时间戳信息；根据音量均衡后的用户干声信号的时间戳信息和基频，确定音量均衡后的用户干声信号中每个字的基频；根据音量均衡后的用户干声信号中每个字的基频，对音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号。

可见，本申请实施例中，终端对混音信号中的用户干声信号进行音量均衡，获得音量均衡后的用户干声信号；对歌曲的原唱干声信号以及音量均衡后的用户干声信号进行对齐处理，获得对齐信息；根据对齐信息，对用户干声信号进行修音，获得修音后的用户干声信号。该方法通过对用户干声信号进行音量均衡后再进行修音，可以提升混音信号中用户干声的信噪比和响度，避免了一些低信噪比的场景下，用户干声信号的质量不高而导致的修音“修飞”的音准问题或杂音加重的音质问题，从而能够提升修音后的音准和音质效果。

请参阅图7，图7是本申请实施例示出的另一种录音的修音方法的示意图。与图2相比，在音质增强部分，终端对混音信号中的用户干声信号进行音量均衡，获得音量均衡后的用户干声信号之前，还包括：对获得的混音信号进行音量均衡，获得音量均衡后的混音信号；对音量均衡后的混音信号进行歌声分离，获得混音信号中的用户干声信号。其中，混音信号包括原唱伴奏和用户干声。在歌声对齐部分，对歌曲的原唱干声信号以及音量均衡后的用户干声信号进行对齐处理，获得对齐信息；在修音部分，根据对齐信息，对音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号。可见，该方法先对混音信号进行音量均衡，然后通过对音量均衡后的混音信号进行分离，得到混音信号中的用户干声信号后，再对混音信号中的用户干声信号进行音量均衡，之后再进行修音，从而进一步提升了混音信号中用户干声的信噪比和响度，进而提升修音后的音准和音质的效果。

其中，对混音信号进行音量均衡采用的增益系数可应用于歌声分离后的音量均衡，以复原混音信号中用户干声信号的信号响度。例如，假设混音信号响度为-36LUFS，终端利用增益系数对该混音信号进行音量均衡处理，获得响度为-18LUFS的混音信号，即增益系数＝-18/-36＝0.5；对音量均衡后的混音信号进行歌声分离，获得混音信号中的用户干声信号；然后，再基于该增益系数(如0.5)，对该用户干声信号进行音量均衡处理，获得用户干声信号，如用户干声信号的响度恢复为-36LUFS。

请参阅图8，图8为本申请实施例提供的另一种录音的修音方法的流程示意图。为便于阐述，下面以终端执行该方法为例进行说明。本申请实施例中所描述的方法包括：

S801、对混音信号中的用户干声信号进行音量均衡，获得音量均衡后的用户干声信号。

S802、对歌曲的原唱干声信号以及音量均衡后的用户干声信号进行对齐处理，获得对齐信息。

在一种可选的实施方式中，步骤S801、S802的具体过程可分别参见上文S301、S302中的描述，此处不再进行赘述。

S803、根据对齐信息和歌曲的时间戳信息，确定音量均衡后的用户干声信号的时间戳信息。

S804、对音量均衡后的用户干声信号进行基频提取，获得音量均衡后的用户干声信号的基频。

其中，音量均衡后的用户干声信号的基频即音量均衡后的用户干声信号的演唱旋律。

源-滤波器模型：该模型将声音看成是由激励和相应的滤波器形成，激励相当于发音结构的声带，滤波器相当于人的声道以及共振腔。而声源激励部分主要包括周期性的脉冲序列生成的浊音信号和白噪声激励生成的静音信号。相应的，可基于声音的这一特征，一种可选的实施方式中，终端对音量均衡后的用户干声信号进行基频提取，获得音量均衡后的用户干声信号的基频，包括：使用不同的截止频率的低通滤波器对音量均衡后的用户干声信号进行滤波；分析滤波后的音频的波形的标准程度；选取标准程度最高的候选基频作为音量均衡后的用户干声信号的基频。

可选地，终端获取音量均衡后的用户干声信号的基频的方法包括但不限于使用world声码器中的harvest算法、pYin算法或者DIO算法等。

S805、根据音量均衡后的用户干声信号的时间戳信息和基频，以及歌曲的参考曲谱中每个字的音高，对音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号。

在一种可选的实施方式中，终端根据音量均衡后的用户干声信号的时间戳信息和基频，以及歌曲的参考曲谱中每个字的音高，对音量均衡后的用户干声信号进行修音获得修音后的用户干声信号，包括：根据音量均衡后的用户干声信号的时间戳信息和基频，确定音量均衡后的用户干声信号中每个字的基频；根据音量均衡后的用户干声信号中每个字的基频和歌曲的参考曲谱中每个字的音高，确定音量均衡后的用户干声信号中每个字的修音幅度；利用音量均衡后的用户干声信号中每个字的修音幅度对音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号。

在一种可选的实施方式中，终端在音量均衡后的用户干声信号中存在任一字的修音幅度大于预设阈值时，执行利用音量均衡后的用户干声信号中每个字的修音幅度对音量均衡后的用户干声信号进行修音的步骤。

在另一种可选的实施方式中，终端可以根据预设阈值来决定音量均衡后的用户干声信号中的目标字是否触发修音。终端利用音量均衡后的用户干声信号中每个字的修音幅度对所述音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号，包括：确定音量均衡后的用户干声信号中修音幅度大于预设阈值的目标字，利用目标字的修音幅度对目标字进行修音以获得修音后的用户干声信号。。

在一种可选的实施方式中，终端利用音量均衡后的用户干声信号中每个字的修音幅度对音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号，包括：根据音量均衡后的用户干声信号中每个字的修音幅度，确定对每个字的修音程度；基于每个字的修音程度和修音幅度，对音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号。可选地，当任一字的修音幅度小于第一阈值时，确定对任一字进行轻度修音；当任一字的修音幅度大于第一阈值且小于第二阈值时，确定对任一字进行中度修音；当任一字的修音幅度大于第二阈值时，确定对任一字进行深度修音。

可选地，终端利用音量均衡后的用户干声信号中每个字的修音幅度对音量均衡后的用户干声信号进行修音时，可使用同步交叠相加(Synchronized overlap-add method,SOLA)算法或者相位声码器(Phasc Vocoder，PV)算法等，此处不做限定。其中，SOLA算法可以通过基于基频周期划分的时间片段展缩实现变调；Phase Vocoder算法可以在计算合成帧之间相移的同时，通过调整幅度同步实现变调处理。

可选地，终端在获得修音后的用户干声信号之后，还包括：对修音后的用户干声信号的音量进行调整，以确保修音后的用户干声信号的音量和音量均衡后的用户干声信号的音量相同。

例如，请参阅图9，图9是本申请实施例示出的一种对音量均衡后的用户干声信号进行修音的示意图，对应上述步骤S803至S805。图9中，终端对音量均衡后的用户干声信号进行基频提取，获得音量均衡后的用户干声信号的基频；根据对齐信息，获得音量均衡后的用户干声信号的时间戳信息；根据音量均衡后的用户干声信号的时间戳信息和基频，以及歌曲的参考曲谱中每个字的音高对音量均衡后的用户干声信号中每个字的音高进行偏差估计，获得音量均衡后的用户干声信号中每个字的修音幅度；根据每个字的修音幅度，对音量均衡后的用户干声信号进行音频重构，获得修音后的用户干声信号。

可见，本申请实施例中，终端对混音信号中的用户干声信号进行音量均衡，获得音量均衡后的用户干声信号；对歌曲的原唱干声信号以及音量均衡后的用户干声信号进行对齐处理，获得对齐信息；根据对齐信息和歌曲的时间戳信息，确定音量均衡后的用户干声信号的时间戳信息；对音量均衡后的用户干声信号进行基频提取，获得音量均衡后的用户干声信号的基频；根据音量均衡后的用户干声信号的时间戳信息和基频，以及歌曲的参考曲谱中每个字的音高，对音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号。该方法通过对用户干声信号进行音量均衡，且根据对齐信息和歌曲的时间戳信息，确定音量均衡后的用户干声信号的时间戳信息之后再进行修音，提升了混音信号中用户干声的信噪比和响度，对于有伴奏杂音的用户干声信号，能够准确的评估出用户音准信息和时间戳信息，从而提升了基频提取、偏差估计等步骤的效果，进而能够提升修音后的音准和音质效果。

请参见图10，图10是本申请实施例示出的一种录音的修音装置示意图。该实施例中所描述的录音的修音装置可以包括以下部分：

音质增强模块1001，用于对混音信号中的用户干声信号进行音量均衡，获得音量均衡后的用户干声信号；

歌声对齐模块1002，用于对歌曲的原唱干声信号以及音量均衡后的用户干声信号进行对齐处理，获得对齐信息，对齐信息中包括用户干声信号的每个信号帧与原唱干声信号的每个信号帧之间的对应关系；

修音模块1003，用于根据对齐信息，对用户干声信号进行修音，获得修音后的用户干声信号。

在一种可选的实施方式中，音质增强模块1001，还用于对混音信号进行音量均衡，获得音量均衡后的混音信号；对音量均衡后的混音信号进行歌声分离，获得混音信号中的用户干声信号。

在一种可选的实施方式中，音质增强模块1001，还用于将音量均衡后的混音信号输入到神经网络，获得混音信号中的用户干声信号；神经网络中卷积核大小和通道数是通过歌声分离训练样本进行训练获得的。

在一种可选的实施方式中，歌声对齐模块1002，具体用于根据对齐信息和歌曲的时间戳信息，确定音量均衡后的用户干声信号的时间戳信息。

在一种可选的实施方式中，修音模块1003，具体用于根据音量均衡后的用户干声信号的时间戳信息和基频，确定音量均衡后的用户干声信号中每个字的基频；根据音量均衡后的用户干声信号中每个字的基频，对音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号。

在一种可选的实施方式中，修音模块1003，还具体用于对音量均衡后的用户干声信号进行基频提取，获得音量均衡后的用户干声信号的基频。

在一种可选的实施方式中，修音模块1003，还具体用于根据音量均衡后的用户干声信号中每个字的基频和歌曲的参考曲谱中每个字的音高，确定音量均衡后的用户干声信号中每个字的修音幅度；利用音量均衡后的用户干声信号中每个字的修音幅度对音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号。

在一种可选的实施方式中，修音模块1003，还具体用于在音量均衡后的用户干声信号中存在任一字的修音幅度大于预设阈值时，执行利用音量均衡后的用户干声信号中每个字的修音幅度对所述音量均衡后的用户干声信号进行修音的步骤。

在一种可选的实施方式中，修音模块1003，还具体用于根据音量均衡后的用户干声信号中每个字的修音幅度，确定对每个字的修音程度；基于每个字的修音程度和修音幅度，对音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号。

在一种可选地实施方式中，修音模块1003，还具体用于对于音量均衡后的用户干声信号中修音幅度小于或等于预设阈值的每个字，确定对该字不触发修音；对于音量均衡后的用户干声信号中修音幅度大于预设阈值的每个字，确定对该字触发修音，并利用该字的修音幅度对所述音量均衡后的用户干声信号中该字进行修音，获得修音后的用户干声信号。

可以理解的是，本申请实施例所描述的录音的修音装置中各个模块的具体实现以及可以达到的有益效果可参考前述相关实施例的描述，在此不再赘述。

请参见图11，图11是本申请实施例示出的一种终端的结构示意图。本申请实施例中所描述的终端包括：处理器1101、用户接口1102、通信接口1103及存储器1104。其中，处理器1101、用户接口1102、通信接口1103及存储器1104可通过总线或其他方式连接，本申请实施例以通过总线连接为例。

其中，处理器1101(或称CPU(Central Processing Unit，中央处理器))是终端的计算核心以及控制核心，其可以解析终端内的各类指令以及处理终端的各类数据，例如：CPU可以用于解析用户向终端所发送的开关机指令，并控制终端进行开关机操作；再如：CPU可以在终端内部结构之间传输各类交互数据，等等。用户接口1102是实现用户与终端进行交互和信息交换的媒介，其具体体现可以包括用于输出的显示屏(Display)以及用于输入的键盘(Keyboard)等等，需要说明的是，此处的键盘既可以为实体键盘，也可以为触屏虚拟键盘，还可以为实体与触屏虚拟相结合的键盘。通信接口1103可选的可以包括标准的有线接口、无线接口(如Wi-Fi、移动通信接口等)，受处理器1101的控制用于收发数据。存储器1104(Memory)是终端中的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器1104既可以包括终端的内置存储器，当然也可以包括终端所支持的扩展存储器。存储器1104提供存储空间，该存储空间存储了终端的操作系统，可包括但不限于：Android系统、iOS系统、Windows Phone系统等等，本申请对此并不作限定。

在本申请实施例中，处理器1101通过运行存储器1104中的可执行程序代码，执行如下操作：

对歌曲的原唱干声信号以及音量均衡后的用户干声信号进行对齐处理，获得对齐信息，对齐信息中包括用户干声信号的每个信号帧与原唱干声信号的每个信号帧之间的对应关系；

根据对齐信息，对用户干声信号进行修音，获得修音后的用户干声信号。

在一种可选的实施方式中，处理器1101对混音信号中的用户干声信号进行音量均衡，获得音量均衡后的用户干声信号之前，还用于：

对混音信号进行音量均衡，获得音量均衡后的混音信号；

对音量均衡后的混音信号进行歌声分离，获得混音信号中的用户干声信号。

在一种可选的实施方式中，处理器1101在对音量均衡后的混音信号进行歌声分离，获得混音信号中的用户干声信号时，具体用于：

将音量均衡后的混音信号输入到神经网络，获得混音信号中的用户干声信号；

神经网络中卷积核大小和通道数是通过歌声分离训练样本进行训练获得的。

在一种可选的实施方式中，处理器1101在根据对齐信息，对音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号时，具体用于：

根据对齐信息和歌曲的时间戳信息，确定音量均衡后的用户干声信号的时间戳信息；

根据音量均衡后的用户干声信号的时间戳信息和基频，确定音量均衡后的用户干声信号中每个字的基频；

根据音量均衡后的用户干声信号中每个字的基频，对音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号。

在一种可选的实施方式中，处理器1101在根据音量均衡后的用户干声信号的时间戳信息和基频，确定音量均衡后的用户干声信号中每个字的基频之前，还用于：

对音量均衡后的用户干声信号进行基频提取，获得音量均衡后的用户干声信号的基频。

在一种可选的实施方式中，处理器1101在根据音量均衡后的用户干声信号中每个字的基频，对音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号时，具体用于：

根据音量均衡后的用户干声信号中每个字的基频和歌曲的参考曲谱中每个字的音高，确定音量均衡后的用户干声信号中每个字的修音幅度；

利用音量均衡后的用户干声信号中每个字的修音幅度对音量均衡后的用户干声信号中每个字进行修音，获得修音后的用户干声信号。

在一种可选的实施方式中，处理器1101在音量均衡后的用户干声信号中存在任一字的修音幅度大于预设阈值时，执行终端利用音量均衡后的用户干声信号中每个字的修音幅度对音量均衡后的用户干声信号进行修音的步骤。

在一种可选的实施方式中，处理器1101在利用音量均衡后的用户干声信号中每个字的修音幅度对音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号时，具体用于：

根据音量均衡后的用户干声信号中每个字的修音幅度，确定对每个字的修音程度；

基于每个字的修音程度和修音幅度，对音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号。

在一种可选地实施方式中，处理器1101在用于利用音量均衡后的用户干声信号中每个字的修音幅度对音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号时，具体用于：

对于音量均衡后的用户干声信号中修音幅度小于或等于预设阈值的每个字，确定对该字不触发修音；

对于音量均衡后的用户干声信号中修音幅度大于预设阈值的每个字，确定对该字触发修音，并利用该字的修音幅度对音量均衡后的用户干声信号中该字进行修音，获得修音后的用户干声信号。

具体实现中，本申请实施例中所描述的处理器1101、用户接口1102、通信接口1103及存储器1104可执行本申请实施例提供的录音的修音方法中所描述的终端的实现方式，也可执行本申请实施例提供的录音的修音装置中所描述的实现方式，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序包括程序指令，该程序指令被处理器执行时实现本申请实施例所提供的录音的修音方法，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，计算机指令存储在计算机可读存储介质中。终端的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得终端执行本申请实施例提供的录音的修音方法。其具体实现方式可参考前文描述，此处不再赘述。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random AccessMemory，RAM)、磁盘或光盘等。

以上所揭露的仅为本申请部分实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种录音的修音方法，其特征在于，所述方法包括：

对混音信号中的用户干声信号进行音量均衡，获得音量均衡后的用户干声信号，

对歌曲的原唱干声信号以及音量均衡后的用户干声信号进行对齐处理，获得对齐信息，所述对齐信息中包括所述音量均衡后用户干声信号的每个信号帧与所述原唱干声信号的每个信号帧之间的对应关系；

根据所述对齐信息，对所述音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号。

2.根据权利要求1所述的方法，其特征在于，所述对混音信号中的用户干声信号进行音量均衡，获得音量均衡后的用户干声信号之前，所述方法还包括：

对混音信号进行音量均衡，获得音量均衡后的混音信号；

3.根据权利要求2所述的方法，其特征在于，所述对所述音量均衡后的混音信号进行歌声分离，获得所述混音信号中的用户干声信号，包括：

将所述音量均衡后的混音信号输入到神经网络，获得所述混音信号中的用户干声信号；所述神经网络中卷积核大小和通道数是通过歌声分离训练样本进行训练获得的。

4.根据权利要求1所述的方法，其特征在于，所述根据所述对齐信息，对所述音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述音量均衡后的用户干声信号的时间戳信息和基频，确定所述音量均衡后的用户干声信号中每个字的基频之前，所述方法还包括：

6.根据权利要求4所述的方法，其特征在于，所述根据所述音量均衡后的用户干声信号中每个字的基频，对所述音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号，包括：

7.根据权利要求6所述的方法，其特征在于，在所述音量均衡后的用户干声信号中存在任一字的修音幅度大于预设阈值时，执行利用所述音量均衡后的用户干声信号中每个字的修音幅度对所述音量均衡后的用户干声信号进行修音的步骤。

8.根据权利要求6所述的方法，其特征在于，所述利用所述音量均衡后的用户干声信号中每个字的修音幅度对所述音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号，包括：

9.根据权利要求6所述的方法，其特征在于，所述利用所述音量均衡后的用户干声信号中每个字的修音幅度对所述音量均衡后的用户干声信号进行修音，获得修音后的用户干声信号，包括：

确定音量均衡后的用户干声信号中修音幅度大于预设阈值的目标字，利用所述目标字的修音幅度对所述目标字进行修音，以获得修音后的用户干声信号。

10.一种终端，其特征在于，包括：处理器、通信接口和存储器，所述处理器、所述通信接口和所述存储器相互连接，其中，所述存储器存储有可执行程序代码，所述处理器用于调用所述可执行程序代码，执行如权利要求1-8中任一项所述的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时实现如权利要求1-8中任一项所述的方法。