CN111192594B

CN111192594B - 人声和伴奏分离方法及相关产品

Info

Publication number: CN111192594B
Application number: CN202010027976.3A
Authority: CN
Inventors: 庄晓滨; 林森
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2022-12-09
Anticipated expiration: 2040-01-10
Also published as: CN111192594A

Abstract

本申请实施例公开了一种人声和伴奏分离方法及相关产品，该方法包括：对混合音频进行傅里叶变换，得到所述混合音频的第一频谱图，所述混合音频为单声道音频，所述混合音频是由人声和伴奏进行混合得到的；将所述第一频谱图输入到神经网络，得到所述人声对应的第二频谱图以及所述伴奏对应的第三频谱图；根据所述第一频谱图对所述第二频谱图进行傅里叶反变换，得到所述人声；以及根据所述第一频谱图对所述第三频谱图进行傅里叶反变换，得到所述伴奏。

Description

人声和伴奏分离方法及相关产品

技术领域

本申请涉及音频处理技术领域，具体涉及一种人声和伴奏分离方法及相关产品。

背景技术

近些年来，音乐创作速度呈现爆炸式增长，每天有成百上千的原唱歌曲产生。但与原唱歌曲相对应的K歌伴奏和K歌歌词无法及时提供到K歌系统中使用。K歌系统中的绝大部分伴奏曲库都需要专业人员进行录制，录制效率低，成本较高。因此，为了提高录制效率，通过声伴分离技术，将原唱歌曲中的歌声和伴奏进行分离，将分离后的伴奏录入到K歌系统。

但是，目前现有技术大部分针对双声道歌曲的声伴分离，无法对单声道歌曲进行，造成应用场景受限。并且，对双声道歌曲进行分离时，需要利用人声在左右声道中的强度相似，而伴奏和乐器在两个声道中的强度有明显不同的特点才能将双声道歌曲中的伴奏和歌声进行分离。因此，对双声道歌曲进行分离时，需要同时对左右声道的混合歌曲进行分离，造成对双声道音频的分离复杂度比较高。

发明内容

本申请实施例提供了一种人声和伴奏分离方法及相关产品，通过对混合音频的频谱图的分离，以实现对单声道音频的人声和伴奏进行分离。

第一方面，本申请实施例提供一种人声和伴奏分离方法，包括：

对混合音频进行傅里叶变换，得到所述混合音频的第一频谱图，所述混合音频为单声道音频，所述混合音频是由人声和伴奏进行混合得到的；

将所述第一频谱图输入到神经网络，得到所述人声对应的第二频谱图以及所述伴奏对应的第三频谱图；

根据所述第一频谱图对所述第二频谱图进行傅里叶反变换，得到所述人声；以及根据所述第一频谱图对所述第三频谱图进行傅里叶反变换，得到所述伴奏。

第二方面，本申请实施例提供一种人声和伴奏分离方法，包括：

对第一混合音频和第二混合音频分别进行傅里叶变换，得到所述第一混合音频的第一频谱图以及第二混合音频的第二频谱图，其中，所述第一混合音频为双声道音频中一个声道上的音频，所述第二混合音频为所述双声道音频中另一个声道上的另一个混合音频，所述第一混合音频是由人声和第一伴奏混合得到的，所述第二混合音频是由所述人声和第二伴奏混合得到的；

将所述第一频谱图输入到神经网络，得到所述人声对应的第三频谱图以及所述第一伴奏对应的第四频谱图；

将所述第二频谱图输入到所述神经网络，得到所述人声对应的第五频谱图以及所述第二伴奏对应的第六频谱图；

根据所述第一频谱图分别对所述第三频谱图和所述第四频谱图执行傅里叶反变换，得到所述人声和所述第一伴奏；

根据所述第二频谱图分别对所述第五频谱图和所述第六频谱图执行傅里叶反变换，得到所述人声和所述第二伴奏。

第三方面，本申请实施例提供了一种人声和伴奏分离装置，包括：

第一变换单元，用于对混合音频进行傅里叶变换，得到所述混合音频的第一频谱图，所述混合音频为单声道音频，所述混合音频是由人声和伴奏进行混合得到的；

分离单元，用于将所述第一频谱图输入到神经网络，得到所述人声对应的第二频谱图以及所述伴奏对应的第三频谱图；

第二变换单元，用于根据所述第一频谱图对所述第二频谱图进行傅里叶反变换，得到所述人声；以及根据所述第一频谱图对所述第三频谱图进行傅里叶反变换，得到所述伴奏。

第四方面，本申请实施例提供了一种人声和伴奏分离装置，包括：

第一变换单元，用于对第一混合音频和第二混合音频分别进行傅里叶变换，得到所述第一混合音频的第一频谱图以及第二混合音频的第二频谱图，其中，所述第一混合音频为双声道音频中一个声道上的音频，所述第二混合音频为所述双声道音频中另一个声道上的另一个混合音频，所述第一混合音频是由人声和第一伴奏混合得到的，所述第二混合音频是由所述人声和第二伴奏混合得到的；

分离单元，用于将所述第一频谱图输入到神经网络，得到所述人声对应的第三频谱图以及所述第一伴奏对应的第四频谱图；

所述分离单元，还用于将所述第二频谱图输入到所述神经网络，得到所述人声对应的第五频谱图以及所述第二伴奏对应的第六频谱图；

第二变换单元，用于根据所述第一频谱图分别对所述第三频谱图和所述第四频谱图执行傅里叶反变换，得到所述人声和所述第一伴奏；

所述第二变换单元，还用于根据所述第二频谱图分别对所述第五频谱图和所述第六频谱图执行傅里叶反变换，得到所述人声和所述第二伴奏。

第五方面，本申请实施例提供一种人声和伴奏分离装置包括处理器、存储器、通信接口以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行如第一方面或第二方面所述的方法中的步骤的指令。

第六方面，本申请实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序使得计算机执行如第一方面或第二方面所述的方法。

第七方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机可操作来使计算机执行如第一方面或第二方面所述的方法。

实施本申请实施例，具有如下有益效果：

可以看出，在本申请实施例中，通过神经网络对单声道的混合音频的第一频谱图进行分离，得到人声的第二频谱图以及伴奏的第三频谱图；然后，基于该第一频谱图对第二频谱图进行傅里叶反变换，得到人声；同样，基于该第一频谱图对第三频谱图执行反变换操作，得到伴奏，从而实现对单声道音频进行分离，增加了分离人声和伴奏的应用场景。另外，在对双声道音频进行分离时，可以单独对每个声道上的音频进行单独分离，进而减少了双声道音频分离的复杂度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a为本申请实施例提供的一种人声和伴奏分离方法的流程示意图；

图1b为本申请实施例提供的一种对第一频谱图进行分离的示意图；

图2为本申请实施例提供的另一种人声和伴奏分离方法的流程示意图；

图3为本申请实施例提供的另一种人声和伴奏分离方法的流程示意图；

图4为本申请实施例提供的一种神经网络的网络结构；

图5为本申请实施例提供的另一种神经网络的网络结构；

图6为本申请实施例提供的一种人声和伴奏分离装置的结构示意图；

图7为本申请实施例提供的另一种人声和伴奏分离装置的结构示意图；

图8为本申请实施例提供的一种人声和伴奏分离装置的功能单元组成框图；

图9为本申请实施例提供的另一种人声和伴奏分离装置的功能单元组成框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结果或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请中的人声和伴奏分离装置可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(MobileInternet Devices，简称：MID)或穿戴式设备等。上述人声和伴奏分离装置仅是举例，而非穷举。在实际应用中，上述人声和伴奏分离装置还可以包括智能车载终端、计算机设备等等。

为了便于理解本申请，首先对本申请所涉及到的相关技术进行解释说明。

声伴分离：将歌曲中的伴奏和人声分离出来的技术手段。

参阅图1a，图1a为本申请实施例提供的一种人声和伴奏分离方法。该方法应用于人声和伴奏分离装置。该方法包括但不限于以下步骤：

101：人声和伴奏分离装置对混合音频进行傅里叶变换，得到该混合音频的第一频谱图。

其中，该混合音频可以为歌曲，且该歌曲是由人声和伴奏进行混合得到的。该人声可以为歌曲中的歌声和/或语音(例如，旁白)。

可选的，该混合音频可以为单声道音频。但是，在实际应用中，该混合音频也可以为该双声道音频中任意一个声道上的音频，此时，该混合音频实质上也可以看做一种单声道音频。另外，对双声道音频进行人声和伴奏的分离在后面进行详细说明，在此不做过多叙述。

可选的，对混合音频进行傅里叶变换之前，还可以根据混合音频的响度确定缩放比例(第一比例k1)，即根据该混合音频的响度以及需要缩放到的目标响度确定对该混合音频的缩放比例；然后，根据第一比例k1将该第一混合音频的响度缩放k1倍，避免音量过高或者过低而造成生成的第一频谱图中幅值过高或过低，从而难以从该第一频谱图中分离出人声的频谱图和伴奏的频谱图。

具体地，在实际应用中，对该混合音频进行缩放时，实质上就是将混合音频的响度与固定值进行相加减。举例来说，当k1等于1/2时，在混合音频的响度进行缩放时，就是将混合音频的响度统一减去6dB，当k1等于1/3时，就是将混合音频的响度统一减去8dB，等等。

进一步地，在对混合音频的响度进行缩放后，对缩放后的混合音频进行傅里叶变换(包括短时傅里叶变换或快速傅里叶变换)，得到该第一频谱图。

举例来说，在傅里叶变换为快速傅里叶变换(Fast Fourier Transform，FFT)时。FFT的采样点数n可以为2048，窗移hop_length可以为512，窗长win_length可以为2048。

102：人声和伴奏分离装置将该第一频谱图输入到神经网络，得到人声对应的第二频谱图以及伴奏对应的第三频谱图。

可选的，该第一频谱图为幅值频谱图，通过神经网络确定该第一频谱图中各个频点对应的幅值中人声所占的第一比例以及伴奏所占的第二比例。如图1b所示，在得到人声所占的第一比例以及伴奏所占的第二比例后，使用该第一比例从该第一频谱图中分离出人声的幅值，得到该第二频谱图，使用该第二比例从该第一频谱图中分离伴奏的幅值，得到该第三频谱图。可以理解，第二频谱图和第三频谱图是从第一频谱图中分离出来的，因此，第一频谱图、第二频谱图和第三频谱上的各个频点一一对应。

具体来说，使用神经网络对所述第一频谱图进行处理，以增强第一频谱图中人声的谐波特性，得到第一处理结果；使用神经网络对所述第一处理结果进行处理，得到第二处理结果；使用神经网络对所述第二处理结果进行处理，以增强第二处理结果中所述人声的连续性，得到第三处理结果；使用神经网络对第三处理结果进行处理，得到第四处理结果；根据第四处理结果得到所述人声对应的第一比例以及伴奏对应的第二比例，第一比例为第一频谱图中各个频点所对应的幅值中人声所占的比例，第二比例第一频谱图中各个频点所对应的幅值中所述伴奏所占的比例；根据第一比例对第一频谱图进行分离，得到人声对应的第二频谱图，根据第二比例对所述第一频谱图进行分离，得到伴奏对应的第三频谱图。

103：人声和伴奏分离装置根据所述第一频谱图对所述第二频谱图进行傅里叶反变换，得到所述人声；以及根据所述第一频谱图对所述第三频谱图进行傅里叶反变换，得到所述伴奏。

对于傅里叶反变换来说，需要有频谱图上每个频点的幅值和相位信息(相位角)才能将频域信号(频谱图)变换为时域信号。对于从歌曲中分离人声和伴奏的情况，相位信息对人声和伴奏的本质(音色和响度)影响很小。因此，可以使用混合音频的相位信息作为人声和伴奏的相位信息。由于不用考虑相位信息的特殊处理，故加快了伴奏和人声的分离速度。

具体来说，获取该第一频谱图上各个频点所对应的相位信息，即基于各个频点的实部大小和虚部大小，得到各个频点的相位信息，将第一频谱图上各个频点的相位信息作为该第二频谱图和第三频谱图上所对应的各个频点的相位信息。在确定出该第二频谱图上各个频点的相位信息后，使用该第二频谱图上各个频点的相位信息以及各个频点的幅值对各个频点进行快速傅里叶反变换，得到第一音频(缩放后的人声)。同样，使用该第三频谱图上各个频点的相位信息以及各个频点的幅值对各个频点进行傅里叶反变换，得到第二音频(缩放后的伴奏)。

可以理解的，由于对混合音频进行了缩放处理。所以，上述所得到的第一音频和第二音频均为缩放后的人声和伴奏。因此，为了得到歌曲的真实人声和真实伴奏，则需要对上述第一音频和第二音频进行反缩放处理。即使用第二比例k2对上述所得到的第一音频和第二音频的响度进行缩放处理，得到真实的人声和伴奏。其中，该第一比例k1和第二比例k2为倒数关系。

需要说明的是，混合音频为单声道音频，故上述经过反缩放处理所得到的人声和伴奏即为该混合音频的真实人声和真实伴奏，可以将该伴奏直接导入K歌系统，以及直接使用该人声进行声纹识别、或者作为修音的参考模板，等等。

可以看出，在本申请实施例中，通过神经网络对混合音频的第一频谱图进行处理，得到人声的第二频谱图以及伴奏的第三频谱图，然后，基于该第一频谱图对第二频谱图进行傅里叶反变换，得到人声；同样，基于该第一频谱图对第三频谱图进行傅里叶反变换，得到伴奏；由于该混合音频为单声道音频或者任意一个声道上的音频(相当于单声道音频)，从而实现对单声道音频的人声和伴奏进行分离，增加了声伴分离的应用场景。

在一种可能的实施方式中，从歌曲中分离人声和伴奏时。还可以考虑相位信息的影响；在考虑相位信息的影响的情况下，参阅图2，图2为本申请实施例提供的另一种人声和伴奏分离方法的流程示意图，该方法还包括如下步骤：

201：对混合音频执行进行傅里叶变换，得到混合音频的第一频谱图。

同样，在对该混合音频进行傅里叶变换之前，也可以对该混合音频进行缩放处理，其缩放过程可以参见上述的实现方式，在此不再叙述。

202：将该第一频谱图输入到神经网络，得到人声的实部频谱图以及虚部频谱图，以及得到伴奏的实部频谱图和虚部频谱图。

具体来说，该神经网络为多任务网络，在对人声和伴奏进行分离时，可以完成多任务的输出。即对该第一频谱图中各个频点的实部和虚部分别进行分离，得到人声以及伴奏分别对第一频谱图中各个频点的实部所占比例，以及对各个频点的虚部所占比例；根据该人声以及伴奏分别对各个频点的实部所占比例对该第一频谱图中各个频点的实部进行分离，得到该人声的实部频谱图(即人声所对应的各个频点的实部大小)以及伴奏的实部频谱图(即伴奏所对应的各个频点的实部大小)；同样，根据该人声以及伴奏各个频点的虚部所占比例对该第一频谱中各个频点的虚部进行分离，得到该人声的虚部频谱图(即人声所对应的各个频点的虚部大小)以及伴奏的虚部频谱图(即伴奏所对应的各个频点的虚部大小)。可以理解，无论是人声的实部频谱图和虚部频谱图，还是伴奏的实部频谱图和虚部频谱图，都是从混合音频的频谱图中分离出来的，所以，各个频谱图上的各个频点一一对应。

203：根据该人声的实部频谱图以及虚部频谱图得到该人声的相位信息，根据该伴奏的实部频谱图和虚部频谱图得到该伴奏的相位信息。

根据实部频谱图中各个频点的实部大小以及虚部频谱图中各个频点的虚部大小，得到各个频点的相位角，即相位信息。其中，人声以及伴奏的实部频谱图和虚部频谱图中的各个频点一一对应。

其中，相位角φ＝arctanb/a，其中，a为各个频点的实部大小，b为该个频点的虚部大小。

204：根据人声的实部频谱图、虚部频谱图以及相位信息得到人声，根据伴奏的实部频谱图和虚部频谱图得到伴奏。

具体来说，使用人声的各个频点的相位信息、实部大小以及虚部大小，对人声的各个频点进行傅里叶反变换，得到人声。同样，使用伴奏的各个频点的相位信息、实部大小以及虚部大小进行傅里叶反变换，得到伴奏。

可以看出，在本申请实施例中，通过神经网络对混合音频的第一频谱图在实部和虚部上分别进行处理，得到人声的实部频谱图和虚部频谱图以及伴奏的实部频谱图和虚部频谱图；然后，基于该第一频谱图对第二频谱图进行傅里叶反变换，得到人声；同样，基于该第一频谱图对第三频谱图进行傅里叶反变换，得到伴奏；由于该混合音频为单声道音频或者任意一个声道上的音频(相当于单声道音频)，从而实现对单声道音频的进行人声和伴奏的分离；另外在进行人声和伴奏的分离时，还单独考虑人声的相位信息以及伴奏的相位信息，从而提高人声和伴奏的分离精度。

参阅图3，图3为本申请实施例提供的另一种人声和伴奏分离方法的流程示意图。该方法应用人声和伴奏分离装置。该方法包括如下步骤：

301：人声和伴奏分离装置对第一混合音频和第二混合音频分别进行傅里叶变换，得到所述第一混合音频的第一频谱图以及第二混合音频的第二频谱图。

其中，第一混合音频为双声道音频中一个声道上的音频，第二混合音频为双声道音频中另一个声道上的另一个混合音频，第一混合音频是由人声和第一伴奏混合得到的，第二混合音频是由该人声和第二伴奏混合得到的。

由于，对于双声道音频来说，在两个声道上的伴奏不同。因此，可以将第一混合音频和第二混合音频可以看做两个不同的音频进行分离。

需要说明的是，在对第一混合音频和第二混合音频分别进行傅里叶变换之前，也可以对第一混合音频和第二混合音频分别进行缩放处理，其缩放过程可以参见步骤101中的内容，不再叙述。另外，对第一混合音频和第二混合音频进行缩放处理时，如两者的响度不同，则对应的缩放比列不同。

302：人声和伴奏分离装置将所述第一频谱图输入到神经网络，得到所述人声对应的第三频谱图以及所述第一伴奏对应的第四频谱图。

同样，通过神经网络对该第一混合音频的第一频谱图的处理过程与上述对混合音频的第一频谱图的处理过程类似，不再赘述。

303：人声和伴奏分离装置将所述第二频谱图输入到所述神经网络，得到所述人声对应的第五频谱图以及所述第二伴奏对应的第六频谱图。

同样，通过神经网络对该第二混合音频的第二频谱图的处理过程与上述对混合音频的第一频谱图的处理过程类似，不再赘述。

304：人声和伴奏分离装置根据所述第一频谱图分别对所述第三频谱图和所述第四频谱图执行傅里叶反变换，得到所述人声和所述第一伴奏。

305：人声和伴奏分离装置根据所述第二频谱图分别对所述第五频谱图和所述第六频谱图执行傅里叶反变换，得到所述人声和所述第二伴奏。

可选的，步骤304和步骤305中所提及的傅里叶反变换，可参见上述根据混合音频对第二频谱和第三频谱进行傅里叶反变换的过程，在此不再叙述。

另外，在对第一混合音频和第二混合音频分别进行缩放处理后，则分离出的人声、第一伴奏以及第二伴奏均为缩放后的，为了得到歌曲的真实人声和真实伴奏，则需要对人声、第一伴奏以及第二伴奏进行缩放处理，以将人声、第一伴奏以及第二伴奏还原为与真实响度对应的人声和伴奏。

可以看出，本申请实施例中，可以对双声道音频的每个声道上的混合音频进行独立分离，无需考虑两个声道上的相似性，从而降低了对双声道音频分离的复杂度。

另外，对双声道音频进行人声和伴奏的分离，实质上是对该双声道音频的每个声道上的混合音频进行人声和伴奏进行分离，其中，对每个声道上的混合音频进行人声和伴奏进行分离与对单声道音频的分离过程类似，不再赘述。

进一步地，由于每个声道上的伴奏不同，故分离出的第一伴奏和第二伴奏并不是该双声道音频的真实伴奏。因此，还需要对该第一伴奏和该第二伴奏进行混合，得到该混合音频的真实伴奏；然后，可将该真实伴奏导入到K歌系统。另外，从每个声道上分离出的人声均为真实人声，因此，可以使用进行声纹识别、或者修音的参考模板第一混合音频中分离出的人声进行声纹识别、或者作为修音的参考模板。

另外，对每个声道上的混合音频进行分离时，还可以考虑相位信息的影响，在考虑相位信息影响的情况下，可以参考图2所示的内容，在此不再叙述。

在一种可能的实施方式中，在对混合音频进行分离之前，首先需要进行模型的训练，以得到上述神经网络。下面详细说明对该神经网络的训练过程。

获取预设采样频率下的N个伴奏样本和M个人声样本，该预设采样频率可以为44.1KHz，N和M均为大于1的整数；

分别对该N个伴奏样本和该M个人声样本进行扩充处理，得到X个伴奏样本和Y个人声样本，该扩充处理包括变速和/或变速。即对N个伴奏样本进行扩充处理，得到X个伴奏样本，对M个人声样本进行扩充处理，得到Y个人声样本，其中，N≤X，M≤Y；

分别对该X个伴奏样本和该Y个人声样本进行缩放处理，得到缩放后的X个伴奏样本和缩放后的Y个人声样本。举例来说，可以将每个伴奏样本的响度缩放为-15LUFS，将每个人声样本的响度缩放为-12LUFS。在实际应用中，可以将伴奏样本或者人声样本的响度缩放到-10LUFS到-20LUFS；

对缩放后的X个伴奏样本和缩放后的Y个人声样本进行随机混合，得到训练数据集。即将X个伴奏样本和缩放后的Y个人声样本进行随机混合，每次混合所得到混合音频，并将本次混合所使用的伴奏样本和人声样本作为监督信息，从而得到带有监督信息的训练数据；

然后，使用该带有监督信息的训练数据对模型进行训练，得到预测结果；根据该预测结果与该监督信息得到损失梯度，采用随机梯度下降法以及该损失梯度对模型中的参数进行更新，直到预测结果与监督信息的差值小于阈值时，停止模型训练，得到该神经网络。

上述神经网络可用于分离混合音频(单声道音频)，或者分别分离双声道音频的每个声道上的混合音频。本申请中以对声道混合音频进行分离为例做具体说明。其中，对双声道音频的每个声道上的混合音频进行分离的过程可参见对声道混合音频的分离过程，不再叙述。

参阅图4，图4为本申请实施例提供的一种神经网络的网络结构，该神经网络用于实现本申请所涉及的人声和伴奏分离方法。如图3所示，该神经网络包括：预处理网络、卷积网络、门控循环(Gated Recurrent Unit，GRU)网络、反卷积网络以及全连接层。其中，该神经网络可以有N个通道，图4仅示出了一个通道上的网络结构。

预测处理网络，用于对混合音频的第一频谱图进行处理，得到第一处理结果，其中，该预处理网络由两个全连接层构成；由于人声的谐波是清晰、平行的，通过全连接层的权值可以放大人声的特征，增强第一频谱图中人声的谐波特性；

卷积网络，用于对该第一处理结果进行卷积处理(特征提取)，得到第二处理结果，其中，该卷积网络可以由5个卷积层构成，每个卷积层包括相互连接的子卷积网络、激活层和池化层，其中，子卷积网络的卷积核尺寸可以为3*5，该激活层可以为Relu层，池化层的尺寸可以为2*2；

GRU网络，用于对该第二处理结果进行处理，得到第三处理结果，由于GRU网络中重置门的输出结果用于控制前一时刻的状态信息被带入到当前状态中的程度，重置门的输出结果用于控制前一状态有多少信息被写入到当前记忆门的输出结果上，重置门的输出结果越小，前一状态的信息被写入的越少，通过重置门和更新门的控制，合适的信息将会被写入输出结果中，并保存到GRU的隐层中，并传递到下一个GRU单元，这样就解决了就把时间上的连续信息保留下来，从而增强了人声连续性的特点；

反卷积网络，用于对该第三处理进行反卷积处理，得到第四处理结果，其中，该反卷积网络可以包括5个反卷积层，每个反卷积层包括相互连接的子反卷积网络、激活层和池化层，其中，子卷积网络的卷积核尺寸可以为3*5，该激活层可以为Relu层，池化层的尺寸可以为2*2；

激活层，用于对第四处理结果进行激活，得到输出结果；

将该输入结果输入分类器，以执行类分类处理，得到各个频点的幅值中属于人声的幅值的第一概率以及属于第一伴奏的幅值的第二概率；然后，将该第一概率作为人声的第一比例，将第二概率作为第一伴奏的第二比例；

然后，根据该第一比例对第一频谱图进行分离，得到人声的第二频谱图，根据该第二比例对第一频谱图进行分离，得到第一伴奏的第三频谱图。

最后，基于第二频谱图以及第一频谱图对应的相位信息对第二频谱图进行傅里叶反变换，得到人声；基于第三频谱以及第一频谱图对应的相位信息对第三频谱图进行傅里叶反变换，得到第一伴奏。

可以理解的是，在考虑相位信息对声伴分离的影响时，可使用图4所示的神经网络进行多任务学习，以实现对第一频谱图上各个频点的实部和虚部进行分别分离，也就是预测人声以及第一伴奏在实部上各自所占的比例，预测人声以及第一伴奏在虚部上各自所占的比例，根据各自所占的比例分别对实部和虚部进行分离，如图5所示，得到人声的实部频谱图和虚部频谱图，以及第一伴奏的实部频谱图和虚部频谱图。

然后，根据人声的实部频谱图和虚部频谱图得到人声的相位信息，基于该人声的相位信息、人声的实部频谱图和虚部频谱进行傅里叶反变换，得到该人声；同样，根据第一伴奏的实部频谱图和虚部频谱图得到第一伴奏的相位信息，基于该第一伴奏的相位信息、第一伴奏的实部频谱图和虚部频谱图进行傅里叶反变换，得到该第一伴奏。

需要说明的是，当对双声道音频进行声伴分离时，可依次将两个声道上的第一混合音频和第二混合音频输入到图4或者图5所示的神经网络，然后分别得到第一混合音频和第二混合音频的人声和伴奏。

参阅图6，图6为本申请实施例提供的一种人声和伴奏分离装置的结构示意图。如图6所示，人声和伴奏分离装置600包括处理器、存储器、通信接口以及一个或多个程序，且上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行以下步骤的指令：

在一种可能的实施方式中，在对混合音频进行傅里叶变换之前，上述程序还用于执行以下步骤的指令：

根据所述混合音频的响度确定第一比例；

根据所述第一比例对所述混合音频进行缩放，得到缩放后的所述混合音频；

在对混合音频进行傅里叶变换，得到所述混合音频的第一频谱图方面，上述程序具体用于执行以下步骤的指令：

对缩放后的所述混合音频进行傅里叶变换，得到所述混合音频的第一频谱图。

在一种可能的实施方式中，在根据所述第一频谱图对所述第二频谱图进行傅里叶反变换，得到所述人声方面，上述程序具体用于执行以下步骤的指令：

根据所述第一频谱图确定所述混合音频在频域上的相位信息；

根据所述相位信息对所述第二频谱图进行傅里叶反变换，得到与所述第二频谱图对应的第一音频；

按照第二比例对所述第一音频进行缩放，得到所述人声，其中，所述第一比例和所述第二比例为倒数关系。

在一种可能的实施方式中，在根据所述第一频谱图对所述第三频谱图进行傅里叶反变换，得到所述伴奏方面，上述程序具体用于执行以下步骤的指令：

根据所述相位信息对所述第三频谱图进行傅里叶反变换，得到与所述第三频谱图对应的第二音频；

按照第二比例对所述第二音频进行缩放，得到所述伴奏，其中，所述第一比例和所述第二比例为倒数关系。

获取预设采样频率下的N个伴奏样本和M个人声样本；

分别对所述N个伴奏样本和所述M个人声样本进行扩充处理，得到X个伴奏样本和Y个人声样本，所述扩充处理包括变调和/或变速；

分别对所述X个伴奏样本和所述Y个人声样本进行缩放处理，得到缩放后的所述X个伴奏样本和缩放后的所述Y个人声样本；

对缩放后的所述X个伴奏样本和缩放后的所述Y个人声样本进行随机混合，得到训练数据集；

使用所述训练数据进行模型训练，得到所述神经网络。

在一种可能的实施方式中，在将所述第一频谱图输入到神经网络，得到所述人声对应的第二频谱图以及所述伴奏对应的第三频谱图方面，上述程序具体用于执行以下步骤的指令：

使用所述神经网络对所述第一频谱图进行处理，以增强所述第一频谱图中所述人声的谐波特性，得到第一处理结果；

使用所述神经网络对所述第一处理结果进行处理，得到第二处理结果；

使用所述神经网络对所述第二处理结果进行处理，以增强所述第二处理结果中所述人声的连续性，得到第三处理结果；

使用所述神经网络对所述第三处理结果进行处理，得到第四处理结果；

根据所述第四处理结果得到所述人声对应的第一比例以及所述伴奏对应的第二比例，所述第一比例为所述第一频谱图中各个频点所对应的幅值中所述人声所占的比例，所述第二比例所述第一频谱图中各个频点所对应的幅值中所述伴奏所占的比例；

根据所述第一比例对所述第一频谱图进行分离，得到所述人声对应的第二频谱图，根据所述第二比例对所述第一频谱图进行分离，得到所述伴奏对应的第三频谱图。

参阅图7，图7为本申请实施例提供的另一种人声和伴奏分离装置的结构示意图。如图7所示，人声和伴奏分离装置700包括处理器、存储器、通信接口以及一个或多个程序，且上述一个或多个程序被存储在上述存储器中，并且被配置由上述处理器执行，上述程序包括用于执行以下步骤的指令：

在一种可能的实施方式中，上述程序还用于执行以下步骤的指令：

对所述第一伴奏与所述第二伴奏进行混合，得到目标伴奏。

参阅图8，图8本申请实施例提供的一种人声和伴奏分离装置的功能单元组成框图。人声和伴奏分离装置800包括：第一变换单元810、分离单元820和第二变换单元830，其中：

第一变换单元810，用于对对混合音频进行傅里叶变换，得到所述混合音频的第一频谱图，所述混合音频为单声道音频，所述混合音频是由人声和伴奏进行混合得到的；

分离单元820，用于将所述第一频谱图输入到神经网络，得到所述人声对应的第二频谱图以及所述伴奏对应的第三频谱图；

第二变换单元830，用于根据所述第一频谱图对所述第二频谱图进行傅里叶反变换，得到所述人声；以及根据所述第一频谱图对所述第三频谱图进行傅里叶反变换，得到所述伴奏。

在一种可能的实施方式中，人声和伴奏分离装置800还包括预处理单元840；在对混合音频进行傅里叶变换之前，预处理单元840，用于根据所述混合音频的响度确定第一比例；根据所述第一比例对所述混合音频进行缩放，得到缩放后的所述混合音频；

在对混合音频进行傅里叶变换，得到所述混合音频的第一频谱图方面，第一变换单元810，具体用于：对缩放后的所述混合音频进行傅里叶变换，得到所述混合音频的第一频谱图。

在一种可能的实施方式中，在根据所述第一频谱图对所述第二频谱图进行傅里叶反变换，得到所述人声方面，第二变换单元830，具体用于：

在一种可能的实施方式中，在根据所述第一频谱图对所述第三频谱图进行傅里叶反变换，得到所述伴奏方面，第二变换单元830，具体用于：

在一种可能的实施方式中，在对混合音频进行傅里叶变换之前，人声和伴奏分离装置800还包括训练单元850；训练单元850，用于：

获取预设采样频率下的N个伴奏样本和M个人声样本；

使用所述训练数据进行模型训练，得到所述神经网络。

在一种可能的实施方式中，在将所述第一频谱图输入到神经网络，得到所述人声对应的第二频谱图以及所述伴奏对应的第三频谱图方面，分离单元820，具体用于：

参阅图9，图9本申请实施例提供的一种人声和伴奏分离装置的功能单元组成框图。人声和伴奏分离装置900包括：第一变换单元901、分离单元902和第二变换单元903，其中：

第一变换单元901，用于对第一混合音频和第二混合音频分别进行傅里叶变换，得到所述第一混合音频的第一频谱图以及第二混合音频的第二频谱图，其中，所述第一混合音频为双声道音频中一个声道上的音频，所述第二混合音频为所述双声道音频中另一个声道上的另一个混合音频，所述第一混合音频是由人声和第一伴奏混合得到的，所述第二混合音频是由所述人声和第二伴奏混合得到的；

分离单元902，用于将所述第一频谱图输入到神经网络，得到所述人声对应的第三频谱图以及所述第一伴奏对应的第四频谱图；

所述分离单元902，还用于将所述第二频谱图输入到所述神经网络，得到所述人声对应的第五频谱图以及所述第二伴奏对应的第六频谱图；

第二变换单元903，用于根据所述第一频谱图分别对所述第三频谱图和所述第四频谱图执行傅里叶反变换，得到所述人声和所述第一伴奏；

所述第二变换单元903，还用于根据所述第二频谱图分别对所述第五频谱图和所述第六频谱图执行傅里叶反变换，得到所述人声和所述第二伴奏。

在一种可能的实施例中，人声和伴奏分离装置900还包括混合单元904，其中，混合单元904，用于对所述第一伴奏与所述第二伴奏进行混合，得到目标伴奏。

本申请实施例还提供一种计算机存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种人声和伴奏分离方法的部分或全部步骤。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种人声和伴奏分离方法的部分或全部步骤。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置，可通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件程序模块的形式实现。

所述集成的单元如果以软件程序模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储器中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储器包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储器中，存储器可以包括：闪存盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取器(英文：Random Access Memory，简称：RAM)、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种人声和伴奏分离方法，其特征在于，包括：

将所述第一频谱图输入到神经网络，得到所述人声对应的第二频谱图以及所述伴奏对应的第三频谱图；具体包括：通过所述神经网络确定所述第一频谱图中各个频点对应的幅值中所述人声所占的比例以及所述伴奏所占的比例；根据所述人声所占的比例对所述第一频谱图进行分离，得到所述人声对应的第二频谱图，根据所述伴奏所占的比例对所述第一频谱图进行分离，得到所述伴奏对应的第三频谱图；

2.根据权利要求1所述的方法，其特征在于，在对混合音频进行傅里叶变换之前，所述方法还包括：

根据混合音频的响度确定第一比例；

所述对混合音频进行傅里叶变换，得到所述混合音频的第一频谱图，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一频谱图对所述第二频谱图进行傅里叶反变换，得到所述人声，包括：

4.根据权利要求2或3所述的方法，其特征在于，所述根据所述第一频谱图对所述第三频谱图进行傅里叶反变换，得到所述伴奏，包括：

5.根据权利要求1所述的方法，其特征在于，在对混合音频进行傅里叶变换之前，所述方法还包括：

获取预设采样频率下的N个伴奏样本和M个人声样本；

使用所述训练数据进行模型训练，得到所述神经网络。

6.根据权利要求1所述的方法，其特征在于，所述通过所述神经网络确定所述第一频谱图中各个频点对应的幅值中所述人声所占的比例以及所述伴奏所占的比例，包括：

根据所述第四处理结果得到所述第一频谱图中各个频点所对应的幅值中所述人声所占的比例以及所述伴奏所占的比例。

7.一种人声和伴奏分离方法，其特征在于，包括：

将所述第一频谱图输入到神经网络，得到所述人声对应的第三频谱图以及所述第一伴奏对应的第四频谱图，具体包括：通过所述神经网络确定所述第一频谱图中各个频点对应的幅值中人声所占的比例以及第一伴奏所占的比例；根据人声所占的比例对所述第一频谱图进行分离，得到人声对应的第三频谱图，根据第一伴奏所占的比例对所述第一频谱图进行分离，得到第一伴奏对应的第四频谱图；

将所述第二频谱图输入到所述神经网络，得到所述人声对应的第五频谱图以及所述第二伴奏对应的第六频谱图，具体包括：通过所述神经网络确定所述第二频谱图中各个频点对应的幅值中人声所占的比例以及第二伴奏所占的比例；根据人声所占的比例对所述第二频谱图进行分离，得到人声对应的第五频谱图，根据第二伴奏所占的比例对所述第二频谱图进行分离，得到第二伴奏对应的第六频谱图；

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

对所述第一伴奏与所述第二伴奏进行混合，得到目标伴奏。

9.一种人声和伴奏分离装置，其特征在于，包括：

分离单元，用于将所述第一频谱图输入到神经网络，得到所述人声对应的第二频谱图以及所述伴奏对应的第三频谱图；具体用于：通过所述神经网络确定所述第一频谱图中各个频点对应的幅值中所述人声所占的比例以及所述伴奏所占的比例；根据所述人声所占的比例对所述第一频谱图进行分离，得到所述人声对应的第二频谱图，根据所述伴奏所占的比例对所述第一频谱图进行分离，得到所述伴奏对应的第三频谱图；

10.一种人声和伴奏分离装置，其特征在于，包括：

分离单元，用于将所述第一频谱图输入到神经网络，得到所述人声对应的第三频谱图以及所述第一伴奏对应的第四频谱图；具体用于：通过所述神经网络确定所述第一频谱图中各个频点对应的幅值中人声所占的比例以及第一伴奏所占的比例；根据人声所占的比例对所述第一频谱图进行分离，得到人声对应的第三频谱图，根据第一伴奏所占的比例对所述第一频谱图进行分离，得到第一伴奏对应的第四频谱图；

所述分离单元，还用于将所述第二频谱图输入到所述神经网络，得到所述人声对应的第五频谱图以及所述第二伴奏对应的第六频谱图；具体用于：通过所述神经网络确定所述第二频谱图中各个频点对应的幅值中人声所占的比例以及第二伴奏所占的比例；根据人声所占的比例对所述第二频谱图进行分离，得到人声对应的第五频谱图，根据第二伴奏所占的比例对所述第二频谱图进行分离，得到第二伴奏对应的第六频谱图；

11.一种人声和伴奏分离装置，其特征在于，包括处理器、存储器、通信接口以及一个或多个程序，其中，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行权利要求1-6任一项所述的方法中的步骤的指令或用于权利要求7或8所述的方法中的步骤的指令。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-6任一项所述的方法或权利要求7或8所述的方法。