CN110164470A

CN110164470A - 人声分离方法、装置、用户终端及存储介质

Info

Publication number: CN110164470A
Application number: CN201910506796.0A
Authority: CN
Inventors: 尹学渊; 江天宇; 陈洪宇; 梁超
Original assignee: Chengdu Hi House Turning Technology Co Ltd
Current assignee: Chengdu Hi House Turning Technology Co Ltd
Priority date: 2019-06-12
Filing date: 2019-06-12
Publication date: 2019-08-23

Abstract

本发明公开了一种人声分离方法、装置、用户终端及存储介质，涉及音频处理技术领域。该方法包括将采样的待分离音频文件声道分离得到初始波形序列；初始波形序列离散傅立叶变换得到初始二维数组；对初始二维数组进行取模得到初始语谱图；对初始二维数组进行取相位得到初始相位图；将初始语谱图导入卷积神经网络模型运算得到掩膜；将掩膜与初始相位图进行第一点乘运算得到人声源语谱图；将人声源语谱图与初始相位图进行第二点乘运算；对第二点乘运算的结果进行离散傅立叶逆变换得到单人声源音频波形；将单人声源音频波形拼接得到立体音频。本发明公开的方法、装置、用户终端及存储介质可实现音频的自动化人声分离。

Description

人声分离方法、装置、用户终端及存储介质

技术领域

本发明涉及音频处理技术领域，尤其是涉及一种人声分离方法、装置、用户终端及存储介质。

背景技术

通常对流行音乐来说，人声即主旋律，而伴奏则是音乐的节奏，由于人声通常都伴随着背景音乐，所以人声分离是一项具有挑战性的任务，是歌手识别，情感识别，乐器分类的先决条件，而这些技术则可以作用于推荐系统、标签分类等应用。人声分离系统的商业应用之一是卡拉OK，意思是没有人声的音乐曲目。卡拉OK音乐有助于音乐爱好者学习歌唱现有的乐曲或者在音乐会中演唱该曲目。目前，提取卡拉OK音乐是在录制的过程中完成的，这需要大量的人工操作和时间。

现有用于人声分离的深度学习技术大多数都以降低采样率与减少声道为代价以提高分离效果，分离后导致音频质量下降，降低了音频的听觉效果。

发明内容

有鉴于此，本发明的目的在于提提供一种人声分离方法、装置、用户终端及存储介质，以改善上述问题。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明实施例提供了一种人声分离方法，应用于用户终端，所述方法包括：

将采样后的待分离音频文件进行声道分离，得到与左右声道对应的两个的初始波形序列；

对每个所述初始波形序列进行离散傅立叶变换，得到与两个所述初始波形序列一一对应两个初始二维数组；

对每个所述初始二维数组进行取模操作，得到与两个所述初始二维数组一一对应的两个初始语谱图；

对每个所述初始二维数组进行取相位操作，得到与两个所述初始二维数组一一对应的两个初始相位图；

将每个所述初始语谱图作为预先训练好的卷积神经网络模型的输入进行运算，得到与两个所述初始语谱图一一对应的两个掩膜；

将每个掩膜与对应的初始相位图进行第一点乘运算，得到与两个所述掩膜一一对应的人声源语谱图；

将每个所述人声源语谱图与对应的初始相位图进行第二点乘运算；

对每个所述第二点乘运算的结果进行离散傅立叶逆变换，得到两个单人声源音频波形；

将两个所述单人声源音频波形进行拼接，得到立体音频。

可选的，所述方法还包括：

读取每个音频文件的各个音轨；

根据读取到的各个音轨制作数据集，所述数据集包括混合源和对应的标签源，所述混合源包括人声音轨和一音频文件的所有乐器音轨，所述标签源为所述混合源中的人声音轨；

对所述数据集中的训练源进行采样，得到对应的训练波形序列，所述训练源包括所述混合源和所述标签源；

对每个所述训练波形序列进行离散傅立叶变化，得到对应的训练二维数据组；

对每个所述训练二维数组进行取模运算，得到对应的训练语谱图；

对每张所述训练语谱图进行归一化处理，得到目标训练集；

将所述目标训练集进行切片，得到多批训练数据；

将与所述混合源对应的训练数据作为输入，与所述标签源对应的训练数据作为目标进行训练，得到训练好的所述卷积神经网络模型。

可选的，所述对所述数据集中的训练源进行采样，包括

依据所述训练源自身的频率对所述数据集中的训练源进行采样或依据所述训练源自身的频率对所述数据集中的训练源向下采样。

可选的，所述对每个所述训练波形序列进行离散傅立叶变化，包括：

以预定的窗口大小对每个所述训练波形序列进行离散傅立叶变化。

第二方面，本发明实施例提供了一种人声分离装置，应用于用户终端，所述人声分离装置包括：

分离模块，用于将采样后的待分离音频文件进行声道分离，得到与左右声道对应的两个的初始波形序列；

傅立叶变换模块，用于对每个所述初始波形序列进行离散傅立叶变换，得到与两个所述初始波形序列一一对应两个初始二维数组；

取模模块，用于对每个所述初始二维数组进行取模操作，得到与两个所述初始二维数组一一对应的两个初始语谱图；

取相位模块，用于对每个所述初始二维数组进行取相位操作，得到与两个所述初始二维数组一一对应的两个初始相位图；

运算模块，用于将每个所述初始语谱图作为预先训练好的卷积神经网络模型的输入进行运算，得到与两个所述初始语谱图一一对应的两个掩膜；

点乘模块，用于将每个掩膜与对应的初始相位图进行第一点乘运算，得到与两个所述掩膜一一对应的人声源语谱图；

所述点乘模块还用于将每个所述人声源语谱图与对应的初始相位图进行第二点乘运算；

傅立叶逆变换模块，用于对每个所述第二点乘运算的结果进行离散傅立叶逆变换，得到两个单人声源音频波形；

拼接模块，用将两个所述单人声源音频波形进行拼接，得到立体音频。

可选的，人声分离装置还包括：读取模块、制作模块、采样模块、归一化模块、切片模块和训练模块；

所述读取模块用于读取每个音频文件的各个音轨；

所述制作模块用于根据读取到的各个音轨制作数据集，所述数据集包括混合源和对应的标签源，所述混合源包括人声音轨和一音频文件的所有乐器音轨，所述标签源为所述混合源中的人声音轨；

所述采样模块用于对所述数据集中的训练源进行采样，得到对应的训练波形序列，所述训练源包括所述混合源和所述标签源；

所述傅立叶变换模块还用于对每个所述训练波形序列进行离散傅立叶变化，得到对应的训练二维数据组；

所述取模模块还用于对每个所述训练二维数组进行取模运算，得到对应的训练语谱图；

所述归一化模块用于对每张所述训练语谱图进行归一化处理，得到目标训练集；

所述切片模块用于将所述目标训练集进行切片，得到多批训练数据；

所述训练模块用于将与所述混合源对应的训练数据作为输入，与所述标签源对应的训练数据作为目标进行训练，得到训练好的所述卷积神经网络模型。

可选的，所述采样模块用于依据所述训练源自身的频率对所述数据集中的训练源进行采样或依据所述训练源自身的频率对所述数据集中的训练源向下采样。

可选的，所述傅立叶变换模块用于以预定的窗口大小对每个所述训练波形序列进行离散傅立叶变化。

第三方面，本发明实施例提供了一种用户终端，所述用户终端包括：

存储器；

处理器；以及

人声分离装置，所述人声分离装置安装于所述存储器中并包括一个或多个由所述处理器执行的软件功能模组，所述人声分离装置包括：

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一所述方法的步骤。

与现有技术相比，本发明的有益效果在于：

本发明提供的人声分离方法、装置、用户终端及存储介质使用深度卷积网络作为人声分离的核心，可实现音频的自动化人声分离，相较与其他传统的人声分离方法，节省了大量手工设计功能的时间与人工经费的成本。同时，根据音频自身的频率进行采样，确保人声分离后的音频质量，相较与其它基于深度学习技术的人声分离系统，分离后的音频的精度更高。另外，具有分离立体声音频的功能，具有更好的听觉效果。

附图说明

图1为本发明较佳实施例提供的用户终端的方框示意图。

图2为本发明较佳实施例提供的人声分离方法的方框示意图。

图3为本发明较佳实施例提供的人声分离装置的功能模块图。

附图标记说明：100-用户终端；110-人声分离装置；1101-读取模块；1102-制作模块；1103-采样模块；1104-傅立叶变换模块；1105-取模模块；1106-归一化模块；1107-切片模块；1108-训练模块；1109-分离模块；1110-取相位模块；1111-运算模块；1112-点乘模块；1113-傅立叶逆变换模块；1114-拼接模块；120-存储器；130-存储控制器；140-处理器；150-外设接口；160-输入输出单元；170-显示单元。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

如图1所示，是本发明较佳实施例提供的一种用户终端100的方框示意图。所述用户终端100包括人声分离装置110、存储器120、存储控制器130、处理器140、外设接口150、输入输出单元160、显示单元170。

所述存储器120、存储控制器130、处理器140、外设接口150、输入输出单元160、显示单元170各元件相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述人声分离装置110包括至少一个可以软件或固件(firmware)的形式存储于所述存储器120中或固化在所述用户终端100的操作系统(operating system，OS)中的软件功能模块。所述处理器140用于执行存储器120中存储的可执行模块，例如所述人声分离装置110包括的软件功能模块或计算机程序。

其中，存储器120可以是，但不限于，随机存取存储器(Random Access Memory，RAM)，只读存储器(Read Only Memory，ROM)，可编程只读存储器(Programmable Read-OnlyMemory，PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，EEPROM)等。其中，存储器120用于存储程序，所述处理器140在接收到执行指令后，执行所述程序，本发明实施例任一实施例揭示的流过程定义的用户终端100所执行的方法可以应用于处理器140中，或者由处理器140实现。

处理器140可能是一种集成电路芯片，具有信号的处理能力。上述的处理器140可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所述外设接口150将各种输入/输入装置耦合至处理器140以及存储器120。在一些实施例中，外设接口150，处理器140以及存储控制器130可以在单个芯片中实现。在其他一些实例中，他们可以分别由独立的芯片实现。

输入输出单元160用于提供给用户输入数据实现用户与所述用户终端100的交互。所述输入输出单元160可以是，但不限于，鼠标和键盘等。

显示单元170在所述用户终端100与用户之间提供一个交互界面(例如用户操作界面)或用于显示图像数据给用户参考。在本实施例中，所述显示单元170可以是液晶显示器或触控显示器。若为触控显示器，其可为支持单点和多点触控操作的电容式触控屏或电阻式触控屏等。支持单点和多点触控操作是指触控显示器能感应到来自该触控显示器上一个或多个位置处同时产生的触控操作，并将该感应到的触控操作交由处理器140进行计算和处理。

请参阅图2，是本发明较佳实施例提供的应用于图1所示的用户终端100的人声分离方法的流程图。下面将对图2所示的具体流程进行详细阐述。

步骤S101，制作数据集。

本发明实施例提供的方法可以应用于图1所示的用户终端100，用于对人声进行分离。在对人声进行分离之前，所述用户终端100需要先建立并训练一用于人声分离的卷积神经网络模型。

用户在用户终端100收集有多个用于训练卷积神经网络模型的多轨音频文件，该多轨音频文件为音乐文件。在制作数据集时，用户终端100读取每个音频文件中的各个音轨，并将每个音频文件中的各个乐器源(音轨)与一人声源组合在一起形成混合源，该人声源作为对应的标签源，从而得到一数据集，该数据集中包括混合源和对应的人声源。其中，所述人声源与所述各个乐器源可以属于同一音频文件，也可以不属于同一音频文件。

例如，音频文件A的乐器源为a1，人声源为a2，音频文件B幅的乐器源为b1，人声源为b2。制作数据集时，可以将乐器源为a1与人声源a2一起组成混合源c1，此时混合源c1对应的人声源为a2。也可以将乐器源为a1与人声源b2一起组成混合源c2，此时混合源c2对应的人声源为b2。为方便描述，后续均以一个混合源与对于的一个人声源进行说明。

步骤S102，对数据集中的训练源进行采样。

得到数据集后，所述用户终端100对数据集中的训练源进行采样。具体点，所述用户终端100根据训练源自身的频率对数据集中的训练源进行采样，或者根据自身频率对据集中的训练源向下采样，得到对应的训练波形序列。其中，训练源是指数据集中的混合源和标签源，混合源采样得到第一训练波形序列，对应的标签源采样得到与第一训练波形序列对应的第二训练波形序列。

例如，数据集中的混合源和标签源的频率为44KHZ，那么对混合源和标签源进行采样时，可以以44KHZ的频率进行采样，也可以以22KHZ、11KHZ等频率进行采样。

步骤S103，对训练波形序列进行离散傅立叶变化，得到对应的训练二维数据组。

采样完成后，所述用户终端100分别对混合源采样得到的训练波形序列和人声源采样得到的训练波形序列以预定的窗口大小进行离散傅立叶变化，得到两个训练二维数据组，该两个训练二维数据组相对应。所述窗口大小是指数据长度，例如2048个数据、1024个数据等。

步骤S104，对训练二维数组进行取模运算，得到对应的训练语谱图。

对训练波形序列进行离散傅立叶变化，得到对应的训练二维数据组后，所述用户终端100分别对两个训练二维数据组(其中一个与混合源对应，另一个与人声源对应)进行取模运运算得到对应的两个训练语谱图，所述语谱图为一个用于表示波形转换到频域后的特性的二维数组。

步骤S105，对训练语谱图进行归一化处理，得到目标训练集。

然后所述用户终端100分别对两个训练语谱图进行归一化处理，并将归一化处理后的训练语谱图保存为npz类型的文件，得到一目标训练集，该目标训练集用于训练卷积神经网络模型。

步骤S106，将目标训练集切片，得到多批训练数据。

具体的，将目标训练集切片时，以一定的数据长度对目标训练集中的两个npz类型的文件进行切片，并分批。切片的长度可根据实际情况设定，如128个数据长度或256个数据长度等。批次的大小以2的指数为较佳，如批次大小可以为16或32等，如此以便用户终端100后续能更快的进行处理。

步骤S107，将多批练数据进行训练，得到训练好的卷积神经网络模型。

用户预先在用户终端100编写好一卷积神经网络模型，该卷积神经网络模型可以是，但不限于u-net卷积神经网络模型、ResNet卷积神经网络模型等。发明实施例中，所述卷积神经网络模型为u-net卷积神经网络模型，该u-net卷积神经网络模型的层数为6，最后一层的特征图通道数为1024。

在将目标训练集进行切片，得到多批训练数据后，用户终端100将与混合源对应的训练数据(即该训练数据是根据混合源处理后最终得到的)作为输入，与所述标签源对应的训练数据(即该训练数据是根据标签源处理后最终得到的)作为目标进行训练，得到训练好的卷积神经网络模型。

步骤S108，将采样后的待分离音频文件进行声道分离，得到与左右声道对应的两个的初始波形序列。

卷积神经网络模型训练好后，即可通过训练好的卷积神经网络模型对待分离音频文件进行人声分离。此时，用户终端100先将待分离音频文件进行采样得到波形序列，并将左右两个声道分离开来，得到与左右声道一一对应的两个的初始波形序列。可以理解的，进行采样时，采样频率可以以待分离音频文件的频率进行采样，也可以以待分离音频文件的频率向下采样，采样频率越高，采样的精度越大，后续分离后的人声音频质量更高。

步骤S109，对每个初始波形序列进行离散傅立叶变换，得到与两个所述初始波形序列一一对应两个初始二维数组。

得到与左右声道一一对应的两个初始波形序列后，用户终端100分别对两个初始波形序列以预定的窗口大小进行离散傅立叶变换，得到与两个所述初始波形序列一一对应两个初始二维数组。

步骤S110，对每个初始二维数组进行取模和取相位操作，得到对应的初始语谱图和初始相位图。

然后，对每个初始二维数组进行取模操作，得到与两个初始二维数组一一对应的两个初始语谱图。同时，对每个初始二维数组进行取相位操作，得到与两个初始二维数组一一对应的两个初始相位图。该两个初始语谱图与两个初始相位图一一对应。例如，两个初始二维数组分别为d和e，对初始二维数组d取模后得到对应的初始语谱图d1，对初始二维数组e取模后得到对应的初始语谱图e1，对始二维数组d取相位后得到对应的初始相位图d2，对始二维数组e取相位后得到对应的初始相位图e2。其中，初始语谱图d1与初始相位图d2由于均根据初始二维数组d得到的，因此初始语谱图d1与初始相位图d2相对应。初始语谱图e1与初始相位图e2由于均根据初始二维数组e得到的，因此初始语谱图e1与初始相位图e2相对应。

步骤S111，将初始语谱图作为卷积神经网络模型的输入进行运算，得到对应的两个掩膜。

对每个初始二维数组进行取模和取相位操作，得到对应的初始语谱图和初始相位图后，所述用户终端100将得到的两个初始语谱图作为卷积神经网络模型的输入进行运算，得到与该两个初始语谱图一一对应的两个掩膜。

步骤S112，将掩膜与对应的初始相位图进行第一点乘运算，得到与述掩膜对应的人声源语谱图。

然后用户终端100将每个掩膜与对应的初始相位图进行第一点乘运算，得到与两个所述掩膜一一对应的人声源语谱图。

例如，掩膜及初始相位图为一60×60的数组，共计3600个数据。在进行点乘运算时，掩膜中第N行第M列的数据与初始相位图中第N行第M列的数据相乘，并最终得到3600个数据，其中N与M均可以是1-60以内的任意整数。

其中，与掩膜对应的初始相位图是指，该掩膜所对应的初始语谱图与该初始相位图对应。例如，掩膜f1是由初始语谱图e1作为卷积神经网络模型的输入进行运算得到的，而初始语谱图e1与初始相位图e2相对应，因此掩膜f1与初始相位图e2也相对应，即与掩膜f1相对应的初始相位图为初始相位图e2。

步骤S113，将人声源语谱图与对应的初始相位图进行第二点乘运算。

与此同时，用户终端100将两个人声源语谱图与分别对应的初始相位图进行第二点乘运算，得到与该两个人声源语谱图一一对应的两组数据。

步骤S114，对第二点乘运算的结果进行离散傅立叶逆变换，得到两个单人声源音频波形。

将人声源语谱图与对应的初始相位图进行第二点乘运算后，用户终端100对得到的两组数据进行离散傅立叶逆变换，将该两组数据转换成两组波形序列，得到两个单人声源音频波形，该两个单人声源音频波形与分别与左右两个声道一一对应。

步骤S115，将两个单人声源音频波形进行拼接，得到立体音频。

最后，用户终端100将与左右两个声道一一对应的两个单人声源音频波形进行拼接得到立体音频，该立体音频为单人声源的立体音频。

综上所述，本发明实施例提供的人声分离方法使用深度卷积网络作为人声分离的核心，可实现音频的自动化人声分离，相较与其他传统的人声分离方法，节省了大量手工设计功能的时间与人工经费的成本。同时，根据音频自身的频率进行采样，确保人声分离后的音频质量，相较与其它基于深度学习技术的人声分离系统，分离后的音频的精度更高。另外，本发明提供的方案具有分离立体声音频的功能，具有更好的听觉效果。

请参阅图3，是本发明较佳实施例提供的人声分离装置110的功能模块图，所述人声分离装置110包括读取模块1101、制作模块1102、采样模块1103、傅立叶变换模块1104、取模模块1105、归一化模块1106、切片模块1107、训练模块1108、分离模块1109、取相位模块1110、运算模块1111、点乘模块1112、傅立叶逆变换模块1113和拼接模块1114。

所述读取模块1101用于读取每个音频文件的各个音轨。

可以理解的，所述读取模块1101可以用于执行上述的步骤S101中读取每个音频文件中的各个音轨的这一过程。

所述制作模块1102用于制作数据集。

可以理解的，所述所述制作模块1102可以用于执行上述的步骤S101中制作数据集这一过程。

所述采样模块1103用于对数据集中的训练源进行采样。

可以理解的，所述采样模块1103可以用于执行上述的步骤S102。

所述傅立叶变换模块1104用于对训练波形序列进行离散傅立叶变化，得到对应的训练二维数据组。

可以理解的，所述傅立叶变换模块1104可以用于执行上述的步骤S103。

所述取模模块1105用于对训练二维数组进行取模运算，得到对应的训练语谱图。

可以理解的，所述取模模块1105可以用于执行上述的步骤S104。

所述归一化模块1106用于对训练语谱图进行归一化处理，得到目标训练集。

可以理解的，所述归一化模块1106可以用于执行上述的步骤S105。

所述切片模块1107用于将目标训练集切片，得到多批训练数据。

可以理解的，所述切片模块1107可以用于执行上述的步骤S106。

所述训练模块1108用于将多批练数据进行训练，得到训练好的卷积神经网络模型。

可以理解的，所述训练模块1108可以用于执行上述的步骤S107。

所述分离模块1109用于将采样后的待分离音频文件进行声道分离，得到与左右声道对应的两个的初始波形序列。

可以理解的，所述分离模块1109可以用于执行上述的步骤S108。

所述傅立叶变换模块1104还用于对每个初始波形序列进行离散傅立叶变换，得到与两个所述初始波形序列一一对应两个初始二维数组。

可以理解的，所述傅立叶变换模块1104还可以用于执行上述的步骤S109。

所述取模模块1105还用于对每个初始二维数组进行取模操作。

可以理解的，所述取模模块1105还可以用于执行上述的步骤S110中的取模操作。

所述取相位模块1110用于对每个初始二维数组进行取相位操作。

可以理解的，所述取相位模块1110可以用于执行上述的步骤S110中的取相位操作。

所述运算模块1111用于将初始语谱图作为卷积神经网络模型的输入进行运算，得到对应的两个掩膜。

可以理解的，所述运算模块1111可以用于执行上述的步骤S111。

所述点乘模块1112用于将掩膜与对应的初始相位图进行第一点乘运算，得到与述掩膜对应的人声源语谱图，以及将人声源语谱图与对应的初始相位图进行第二点乘运算。

可以理解的，所述点乘模块1112可以用于执行上述的步骤S112和步骤S113。

所述傅立叶逆变换模块1113用于对第二点乘运算的结果进行离散傅立叶逆变换，得到两个单人声源音频波形。

可以理解的，所述傅立叶逆变换模块可以用于执行上述的步骤S114。

所述拼接模块1114用于将两个单人声源音频波形进行拼接，得到立体音频。

可以理解的，所述拼接模块可以用于执行上述的步骤S115。

综上所述，本发明实施例提供的人声分离装置110使用深度卷积网络作为人声分离的核心，可实现音频的自动化人声分离，相较与其他传统的人声分离方法，节省了大量手工设计功能的时间与人工经费的成本。同时，根据音频自身的频率进行采样，确保人声分离后的音频质量，相较与其它基于深度学习技术的人声分离系统，分离后的音频的精度更高。另外，本发明提供的方案具有分离立体声音频的功能，具有更好的听觉效果。

进一步的，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，当该程序被处理器执行时可执行上述实施例中的人声分离方法。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种人声分离方法，应用于用户终端，其特征在于，所述方法包括：

将两个所述单人声源音频波形进行拼接，得到立体音频。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

读取每个音频文件的各个音轨；

对每张所述训练语谱图进行归一化处理，得到目标训练集；

将所述目标训练集进行切片，得到多批训练数据；

3.根据权利要求2所述的方法，其特征在于，所述对所述数据集中的训练源进行采样，包括

4.根据权利要求2所述的方法，其特征在于，所述对每个所述训练波形序列进行离散傅立叶变化，包括：

5.一种人声分离装置，应用于用户终端，其特征在于，所述人声分离装置包括：

6.根据权利要求5所述的人声分离装置，其特征在于，还包括：读取模块、制作模块、采样模块、归一化模块、切片模块和训练模块；

所述读取模块用于读取每个音频文件的各个音轨；

7.根据权利要求6所述的人声分离装置，其特征在于，所述采样模块用于依据所述训练源自身的频率对所述数据集中的训练源进行采样或依据所述训练源自身的频率对所述数据集中的训练源向下采样。

8.根据权利要求6所述的人声分离装置，其特征在于，所述傅立叶变换模块用于以预定的窗口大小对每个所述训练波形序列进行离散傅立叶变化。

9.一种用户终端，其特征在于，所述用户终端包括：

存储器；

处理器；以及

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-4任一所述方法的步骤。