CN113470688B

CN113470688B - 语音数据的分离方法、装置、设备及存储介质

Info

Publication number: CN113470688B
Application number: CN202110838468.8A
Authority: CN
Inventors: 张旭龙; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2024-01-23
Anticipated expiration: 2041-07-23
Also published as: CN113470688A

Abstract

本发明涉及语音信号处理技术领域，本发明公开了一种语音数据的分离方法、装置、设备及存储介质，所述方法包括：通过将待分离语音数据输入至人声分离模型；对贷分离语音数据进行多通道子频带处理，得到全频数据和子频带数据；再对各全频数据以及所有子频带数据进行人声频率特征提取，根据提取的人声频率特征进行识别，得到人声识别矩阵；运用二值掩蔽方法，对所有人声识别矩阵进行掩码拼接处理，得到分离掩码结果；对待分离语音数据进行人声分离，得到人声音频数据。因此，本发明实现了自动分离出语音数据中的人声部分，无需人工录制，节省成本，提高了分离准确率和质量。

Description

语音数据的分离方法、装置、设备及存储介质

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种语音数据的分离方法、装置、设备及存储介质。

背景技术

音乐是一种乐器音和歌声混合叠加而成的复杂音频信号，其中包含了各种乐器的伴奏和不同人的歌声，近些年来，音乐创作速度呈现爆炸式增长，每天有成百上千的原唱歌曲产生，但与原唱歌曲相对应的K歌伴奏无法及时提供到K歌系统中进行导入使用，K歌系统中的绝大部分伴奏库都需要具有音频知识的专业人员进行录制，而且目前现有技术大部分针对双声道歌曲的人声和伴奏的分离，无法对单声道歌曲进行，造成应用场景受限，以及对双声道歌曲进行分离时，需要同时对左右声道的混合歌曲进行分离，造成对双声道音频的分离复杂度较高，往往容易出现混杂人声部分。因此，现有的人声和半奏的分离方案的要求门槛高，录制效率低，成本高，而且达不到用户对于纯净的伴奏声或者人声的要求。

发明内容

本发明提供一种语音数据的分离方法、装置、计算机设备及存储介质，实现了通过人声分离模型进行多通道子频带处理，和人声频率特征提取，以及运用二值掩蔽方法，自动分离出语音数据中的人声部分，无需人工录制，减少了成本，提高了分离准确率和质量，并提升了分离效率和用户体验满意度。

一种语音数据的分离方法，包括：

获取待分离语音数据，并将所述待分离语音数据输入至人声分离模型；

对所述待分离语音数据进行多通道子频带处理，得到多个全频数据和多个子频带数据；其中，一个所述全频数据对应多个所述子频带数据；

对各所述全频数据以及与各所述全频数据对应的所有所述子频带数据进行人声频率特征提取，根据提取的所述人声频率特征进行人声频率点识别，得到与各所述全频数据一一对应的人声识别矩阵；

运用二值掩蔽方法，对所有所述人声识别矩阵进行掩码拼接处理，得到分离掩码结果；

根据所述分离掩码结果，对所述待分离语音数据进行人声分离，得到与所述待分离语音数据对应的人声音频数据。

一种语音数据的分离装置，包括：

获取模块，用于获取待分离语音数据，并将所述待分离语音数据输入至人声分离模型；

处理模块，用于对所述待分离语音数据进行多通道子频带处理，得到多个全频数据和多个子频带数据；其中，一个所述全频数据对应多个所述子频带数据；

提取模块，用于对各所述全频数据以及与各所述全频数据对应的所有所述子频带数据进行人声频率特征提取，根据提取的所述人声频率特征进行人声频率点识别，得到与各所述全频数据一一对应的人声识别矩阵；

拼接模块，用于运用二值掩蔽方法，对所有所述人声识别矩阵进行掩码拼接处理，得到分离掩码结果；

分离模块，用于根据所述分离掩码结果，对所述待分离语音数据进行人声分离，得到与所述待分离语音数据对应的人声音频数据。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述语音数据的分离方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语音数据的分离方法的步骤。

本发明提供的语音数据的分离方法、装置、计算机设备及存储介质，该方法通过将待分离语音数据输入至人声分离模型；对所述待分离语音数据进行多通道子频带处理，得到多个全频数据和多个子频带数据；再对各所述全频数据以及与各所述全频数据对应的所有所述子频带数据进行人声频率特征提取，根据提取的所述人声频率特征进行人声频率点识别，得到与各所述全频数据一一对应的人声识别矩阵；运用二值掩蔽方法，对所有所述人声识别矩阵进行掩码拼接处理，得到分离掩码结果；最后，根据所述分离掩码结果，对所述待分离语音数据进行人声分离，得到与所述待分离语音数据对应的人声音频数据，如此，实现了通过人声分离模型进行多通道子频带处理，以及进行人声频率特征提取，并运用二值掩蔽方法，进行掩码拼接，自动分离出语音数据中的人声部分，无需专业人员的录制工作，大大降低了人声分离的门槛和成本，并打破了现有单声道无法分离的局限性，以及提高了分离准确率和质量，大大提升了分离效率和用户体验满意度。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中语音数据的分离方法的应用环境示意图；

图2是本发明一实施例中语音数据的分离方法的流程图；

图3是本发明一实施例中语音数据的分离方法的步骤S30的流程图；

图4是本发明一实施例中语音数据的分离方法的步骤S40的流程图；

图5是本发明一实施例中语音数据的分离装置的原理框图；

图6是本发明一实施例中计算机设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的语音数据的分离方法，可应用在如图1的应用环境中，其中，客户端(计算机设备或终端)通过网络与服务器进行通信。其中，客户端(计算机设备或终端)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种语音数据的分离方法，其技术方案主要包括以下步骤S10-S50：

S10，获取待分离语音数据，并将所述待分离语音数据输入至人声分离模型。

可理解地，所述待分离语音数据为一段混合有人声和伴奏(或者背景音乐、背景嘈杂声)的复杂的音频文件或音频数据，例如：音乐播放平台上的流行音乐、摇滚音乐，或者语音聊天中的语音对话，或者视频聊天中的音频部分的数据等等，在一实施例中，所述待分离语音数据可以通过实时获取来自音频采集设备进行采集传输过来的音频数据，即定时采集一段短时间的音频数据，例如：1秒或者2秒的音频数据。

其中，所述人声分离模型为训练完成的用于将输入的待分离语音数据分离出人声部分的深度神经网络模型。

S20，对所述待分离语音数据进行多通道子频带处理，得到多个全频数据和多个子频带数据；其中，一个所述全频数据对应多个所述子频带数据。

可理解地，所述人声分离模型可以包括多尺度多频带音频源分离层和频带人声识别层，所述多尺度多频带音频源分离层用于将输入的音频文件分解成多个不同频带的数据，并对音频文件和分解的不同频带的数据进行特征转换，输出全频的特征向量和不同频带的特征向量的提取模型，所述频带人声识别层用于结合全频的特征向量和不同频带的特征向量进行人声频率特征提取，并识别出相应的人声识别矩阵的提取模型。

其中，所述多通道子频带处理的处理过程为对输入的音频文件进行短时傅里叶变换处理，得到全频频谱图，并对所述全频频谱图划分成不同频带的子频带频谱图，通过全频特征提取模型进行全频特征提取，以及不同频带的子频带特征提取模型进行不同频带的音频特征的提取，最终得到全频数据和子频带数据的分解过程。

在一实施例中，所述步骤S20中，即所述对所述待分离语音数据进行多通道子频带处理，得到多个全频数据和多个子频带数据，包括：

S201，对所述待分离语音数据进行短时傅里叶变换处理，得到多个全频频谱图；所述人声分离模型包括一个全频特征提取模型和多个子频带特征提取模型，一个子频带特征提取模型对应一个子频带。

可理解地，所述多尺度多频带音频源分离层可以基于MMDenseNet(MultiscaleMultiband DenseNet)的模型，即多尺度多频带音频源分离层为训练完成的基于密集卷积网络(DenseNet)的频率域音频源分离模型，所述密集卷积网络为在接近输入和接近输出的层之间包含较短的连接，将每层与相邻层的连接更加密集和紧密，学习的特征更加准确和有效的网络模型，所述多尺度多频带音频源分离层为通过学习多个通道(即多个尺度)以及多个子频带的相应的音频特征的提取进行特征向量分离的模型，所述人声分离模型包括多尺度多频带音频源分离层，所述多尺度多频带音频源分离层包含一个所述全频特征提取模型和若干个所述子频带特征提取模型，通过所述多尺度多频带音频源分离层能够实现所述全频特征提取模型和所有所述子频带特征提取模型的功能，所述全频特征提取模型为对输入的待分离语音数据的全频段范围的频率进行全频特征提取的模型，所述全频特征为整个频段范围的时域与频率之间的音频特征或特性，所述子频带特征提取模型的个数可以根据需求设定，比如所述子频带特征提取模型的个数为四个，那么为对全频的音频范围划分为四等分，划分的子频带的个数就为四个，每一等分的子频带对应一个所述子频带特征提取模型，而该子频带特征提取模型提取时域与其所对应的等分的子频带范围内的频率之间的音频特征。

其中，所述子频带为全频的音频范围内的划分的一段频带范围，所述待分离语音数据可以看做时间维度上多个频率点混合的音频数据，即每一个时刻点包括多个频率点的混合的信号，所述多尺度多频带音频源分离层可以包括子频带通道分离子模块，即CWS(Channel-wise Subband)子模块，通过所述子频带通道分离子模块进行所述短时傅里叶变换处理，所述短时傅里叶变换处理的过程为：首先，对所述待分离语音数据进行分帧加窗，即按照帧移划分预设窗口大小的窗口的语音数据中的音频信号，相邻两窗口的起始帧的时间差叫做帧移，起始帧为窗口的开始时间帧，例如：预设窗口大小为32毫秒，帧移为8毫秒；然后，对分帧加窗后的每一个窗口的音频信号进行快速傅里叶变换(FFT)，快速傅里叶变换的作用是把时域信号转为频域信号，即把每一窗口的时域的音频信号转换成频域信号，即全频频谱图，一个窗口对应一个所述全频频谱图。

S202，对各所述全频频谱图进行频带分解，得到与各所述全频频谱图对应的子频带频谱图；一个所述全频频谱图对应预设子频带个数的所述子频带频谱图，且每一个所述子频带频谱图对应一个子频带。

可理解地，通过所述子频带通道分离子模块对每个所述全频频谱图进行分解，所述频带分解的过程为对所述全频频谱图进行预设子频带个数的等分的划分过程，经过所述频带分解后获得的频谱图记录为所述子频带频谱图，例如：预设子频带个数为四，那么频带分解的过程为对所述全频频谱图划分为四等分，每个频带的范围为四分之一全频频谱图的频率范围，一个全频频谱图对应四个子频带频谱图，如此，能够将全频频谱图划分成多个子频带频谱图，增加对音频信号的细粒度，为后续的音频特征学习提供了数据基础。

其中，所述频带为一段频率范围，例如：一个频带为100HZ到800HZ的频率范围。

S203，将各所述全频频谱图输入全频特征提取模型，通过所述全频特征提取模型对所述全频频谱图中的全频特征进行提取，得到与各所述全频频谱图一一对应的所述全频数据。

可理解地，所述全频特征提取模型为训练完成的用于对输入的待分离语音数据的全频段范围的频率进行全频特征提取的模型，所述全频特征为整个频段范围的时域与频率之间的音频特征或特性，通过所述全频特征提取模型对所述全频特征的提取可以转换为相应的特征向量，从而得到所述全频数据，一个所述全频频谱图对应一个所述全频数据。

S204，将各所述子频带频谱图输入与其子频带对应的子频带特征提取模型，通过各所述子频带特征提取模型提取各所述子频带频谱图中的与其子频带对应的音频特征，得到与各所述子频带频谱图一一对应的所述子频带数据。

可理解地，所述子频带特征提取模型为训练完成的用于在不同频率范围的维度上具有的音频的成分或者特性进行提取的模型，所述子频带特征提取模型能够有助于对音频信号进行更加细粒度的性能进行提取，更加有效的提取，因为分析提取的频率范围小，无需更高的计算模型，所以分析的过程更快跟高效，以及更快的效率，不同的频带相应的有不同的音频特征，例如：所述频带包括低频频带、中频频带和高频频带，每一个所述子频带频谱图对应一个子频带，将所述子频带频谱图输入至于该子频带频谱图对应的子频带所对应的所述子频带特征提取模型，通过该子频带特征提取模型对该子频带频谱图进行与该子频带对应的音频特征的提取，转换成具有与该子频带对应的音频特征的特征向量，将该转换后的特征向量记录为与该子频带频谱图对应的所述子频带数据。

其中，所述步骤S203和所述步骤S204的执行顺序可以是串行，也可以并行，在此不做限制。

本发明实现了通过对所述待分离语音数据进行短时傅里叶变换处理，得到多个全频频谱图；所述人声分离模型包括一个全频特征提取模型和多个子频带特征提取模型，一个子频带特征提取模型对应一个子频带；对各所述全频频谱图进行频带分解，得到与各所述全频频谱图对应的子频带频谱图；一个所述全频频谱图对应预设子频带个数的所述子频带频谱图，且每一个所述子频带频谱图对应一个子频带；将各所述全频频谱图输入全频特征提取模型，通过所述全频特征提取模型对所述全频频谱图中的全频特征进行提取，得到与各所述全频频谱图一一对应的所述全频数据；将各所述子频带频谱图输入与其子频带对应的子频带特征提取模型，通过各所述子频带特征提取模型提取各所述子频带频谱图中的与其子频带对应的音频特征，得到与各所述子频带频谱图一一对应的所述子频带数据，如此，能够通过自动对输入的待分离语音数据进行分解，分解出全频频谱图和不同频带的频谱图，并且提取全频特征和不同的子频带所对应的音频特征，转换获得全频数据和子频带数据，实现了对不同频带的高细粒度的学习，更加深入的提取不同的子频带的音频特征，能够获得全频的特征向量以及不同频带更高细粒度的特征向量，为后续的人声分离提高了分离准确率和可靠性。

在一实施例中，所述步骤S204中，即所述子频带包括低频频带和高频频带；

所述将各所述子频带频谱图输入与其子频带对应的子频带特征提取模型，通过各所述子频带特征提取模型提取各所述子频带频谱图中的与其子频带对应的音频特征，得到与各所述子频带频谱图一一对应的所述子频带数据，包括：

将与所述低频频带对应的所述子频带频谱图输入与所述低频频带对应的低频子频带特征提取模型，通过所述低频子频带特征提取模型对所述子频带频谱图进行低频频带的音频特征的提取，得到低频频带的所述子频带数据；所述低频子频带特征提取模型为基于MMDenseNet的深度学习模型。

可理解地，在不同子频带提取的特征维度具有不同复杂程度及不同的特征信息，因为所述低频频带含有较多的能量、较长的持续声、主频和声序列等信息，所以低频频带的音频特征具有人声较多的特征信息，所述低频子频带特征提取模型为基于MMDenseNet的深度学习模型，所述MMDenseNet的网络结构引入了具有相同特征映射大小的任意两个层之间的直接串联连接，因为MMDenseNet的网络结构没有从极深或极宽的体系结构中学习表示能力，而是通过特征重用来开发多个尺度(时域或者通道)和多个频带(频段)的网络潜力，从而产生易于训练和高参数效率的紧密浓缩的模型，由于该模型不需要重新学习冗余特征图，因此相对于传统的卷积网络只需要更少的参数即可学习到相应的音频特征，将与所述低频频带对应的所述子频带频谱图输入低频子频带特征提取模型，通过所述低频子频带特征提取模型对所述子频带频谱图进行低频频带的音频特征的提取，得到低频频带的所述子频带数据，所述低频频带的子频带数据为具有低频的音频特征的特征向量的矩阵，即一个由时域和频率两个维度组成的音频特征向量的矩阵。

其中，所述低频子频带特征提取模型的网络结构可以为9层致密卷积层，所述低频子频带特征提取模型的第一层的卷积核为3﹡4，通道为32，池化参数为(14,4)，所述低频子频带特征提取模型的第二层至第七层的池化参数为(16,4)，所述低频子频带特征提取模型的第八层为频率轴转换，所述低频子频带特征提取模型的第九层为时域或者通道转换，最后对所述低频子频带特征提取模型的第九层输出的特征向量进行Dense Block(32,2)，即包含32个1*1和位移2的卷积操作。

将与所述高频频带对应的所述子频带频谱图输入与所述高频频带对应的高频子频带特征提取模型，通过所述高频子频带特征提取模型对所述子频带频谱图进行高频频带的音频特征的提取，得到高频频带的所述子频带数据；所述高频子频带特征提取模型为基于MMDenseNet的深度学习模型。

可理解地，所述高频频带具有冲击信号和低能共振，含有较少的能量和较不复杂的信息，高频频带的音频特征具有人声较少的特征信息，将与所述高频频带对应的所述子频带频谱图输入高频子频带特征提取模型，通过所述高频子频带特征提取模型对所述子频带频谱图进行高频频带的音频特征的提取，得到高频频带的所述子频带数据，所述高频频带的子频带数据为具有高频的音频特征的特征向量的矩阵，即一个由时域和频率两个维度组成的音频特征向量的矩阵。

其中，所述高频子频带特征提取模型的网络结构可以为9层致密卷积层，所述高频子频带特征提取模型的第一层的卷积核为3﹡3，通道为32，池化参数为(10,3)，所述高频子频带特征提取模型的第二层至第七层的池化参数为(10,3)，所述高频子频带特征提取模型的第八层为频率轴转换，所述高频子频带特征提取模型的第九层为时域或者通道转换，最后对所述高频子频带特征提取模型的第九层输出的特征向量进行Dense Block(32,2)，即包含32个1*1和位移2的卷积操作。

本发明实现了通过将与所述低频频带对应的所述子频带频谱图输入与所述低频频带对应的低频子频带特征提取模型，通过所述低频子频带特征提取模型对所述子频带频谱图进行低频频带的音频特征的提取，得到低频频带的所述子频带数据；所述低频子频带特征提取模型为基于MMDenseNet的深度学习模型；将与所述高频频带对应的所述子频带频谱图输入与所述高频频带对应的高频子频带特征提取模型，通过所述高频子频带特征提取模型对所述子频带频谱图进行高频频带的音频特征的提取，得到高频频带的所述子频带数据；所述高频子频带特征提取模型为基于MMDenseNet的深度学习模型，如此，通过低频子频带特征提取模型和高频子频带特征提取模型分别提取低频频带的音频特征和高频频带的音频特征，并运用MMDenseNet的深度学习模型能够快速地提取出更加高质量的子频带数据，从而自动转换出低频频带的子频带数据和高频频带的子频带数据，提高了音频特征提取的速度和质量。

S30，对各所述全频数据以及与各所述全频数据对应的所有所述子频带数据进行人声频率特征提取，根据提取的所述人声频率特征进行人声频率点识别，得到与各所述全频数据一一对应的人声识别矩阵。

可理解地，所述人声分离模型可以通过频带人声识别层完成对各所述全频数据以及与各所述全频数据对应的所有所述子频带数据进行人声频率特征提取，根据提取的所述人声频率特征进行人声频率点识别，得到与各所述全频数据一一对应的人声识别矩阵的过程，所述频带人声识别层为训练完成的用于结合全频的特征向量和不同频带的特征向量进行人声频率特征提取，并识别出相应的人声识别矩阵的模型，所述频带人声识别层的网络结构可以根据需求设定，比如频带人声识别层的网络结构为UNet的网络结构，或者为Wave-UNet的网络结构，又或者为UNET++的网络结构，所述人声频率特征为人所发出的声音频率的范围的特征，所述人声频率特征提取的过程为对每个所述全频数据的特征向量矩阵进行人声频率特征的卷积，而且对每个所述子频带数据的特征向量矩阵进行人声频率特征的卷积的过程，其中，卷积的过程为下采样的方式进行卷积，下采样的层级为5层，最后每个全频数据或者子频带数据会提取得到与其一一对应的一维数组，即最终提取的人声频率特征，根据提取的所述人声频率特征进行人声频率点识别的过程为对提取的一维数组进行上采样的过程，其中，上采样的过程为每上采样一次，就和特征提取相应的层级输出的特征向量进行相同通道数的尺度融合，以及结合所述全频数据下采样获得的相同通道数的特征向量进行融合，通过相同通道数的子频带数据的上采样的特征向量、子频带数据的下采样的特征向量以及全频数据的下采样的特征向量进行融合，能够更加准确地识别出每个全频数据(时间-频率维度的矩阵)中的每个频率点(相当于一个图像矩阵中的每个像素点)是否为人声的占比或者概率的识别过程，经过所述频带人声识别层的提取及识别，能够得到与每个所述全频数据一一对应的所述人声识别矩阵，所述人声识别矩阵为全频数据中的每个频率点是否为人声的占比或者概率的集合矩阵。

在一实施例中，如图3所示，所述步骤S30中，即所述对各所述全频数据以及与各所述全频数据对应的所有所述子频带数据进行人声频率特征提取，根据提取的所述人声频率特征进行人声频率点识别，得到与各所述全频数据一一对应的人声识别矩阵，包括：

S301，对所述全频数据和与该全频数据对应的所有所述子频带数据进行多通道下采样，提取所述人声频率特征，得到与该全频数据对应的全频下采样特征向量，以及多个与所述子频带数据对应的子频带下采样特征向量。

可理解地，所述频带人声识别层为基于UNet网络结构的神经网络模型，所述频带人声识别层包括特征提取的下采样部分和人声识别的上采样部分，所述多通道下采样为首先将输入的全频数据或者子频带数据进行通道扩展，扩展至64，即一个通道复制成64个通道，然后通过一系列的多通道的卷积核进行卷积，每个卷积层包括卷积、批量归一化和线性校正，我们用3*3卷积核在卷积层中，填充值为1，以确保卷积操作不会改变频率和时间维度，通过所述人声频率特征提取，最终得到与该全频数据对应的全频下采样特征向量，以及多个与所述子频带数据对应的子频带下采样特征向量，所述全频洗采样特征向量为一维的针对全频数据具有人声特征的特征向量数组，所述子频带下采样特征向量为一维的针对不同子频带的子频带数据具有人声特征的特征向量数组。

S302，根据所述全频下采样特征向量，对各所述子频带下采样特征向量进行联动的上采样，识别出与各所述子频带数据对应的子频带识别矩阵。

可理解地，所述联动的上采样过程为对提取的一维数组进行上采样的过程，其中，上采样的过程为每上采样一次，就和特征提取相应的层级输出的特征向量进行相同通道数的尺度融合，以及结合所述全频数据下采样获得的相同通道数的特征向量进行融合，通过相同通道数的子频带数据的上采样的特征向量、子频带数据的下采样的特征向量以及全频数据的下采样的特征向量进行融合，能够识别出每个子频带频数据(时间-频率维度的矩阵)中的每个频率点(相当于一个图像矩阵中的每个像素点)是否为人声的占比或者概率的上采样过程，从而能够识别出每个子频带数据相对应的所述子频带识别矩阵，所述子频带识别矩阵为每个子频带数据中每个频率点人声占比的集合矩阵。

S303，将所有与所述全频数据相对应的所述子频带识别矩阵进行串联，得到与该全频数据对应的所述人声识别矩阵。

可理解地，所述串联的过程为对与相同的所述全频数据对应的所有所述子频带识别矩阵进行频率范围的拼接，即将各个所述子频带识别矩阵串联成一个与全频数据的频率范围相同的处理过程，从而得到每一个所述全频数据相对应的一个所述人声识别矩阵，所述人声识别矩阵为全频数据中的每个频率点是否为人声的占比或者概率的集合矩阵。

本发明实现了通过对所述全频数据和与该全频数据对应的所有所述子频带数据进行多通道下采样，提取所述人声频率特征，得到与该全频数据对应的全频下采样特征向量，以及多个与所述子频带数据对应的子频带下采样特征向量；根据所述全频下采样特征向量，对各所述子频带下采样特征向量进行联动的上采样，识别出与各所述子频带数据对应的子频带识别矩阵；将所有与所述全频数据相对应的所述子频带识别矩阵进行串联，得到与该全频数据对应的所述人声识别矩阵，如此，能够更加准确地识别出每个全频数据相对应的人声识别矩阵，为后续人声分离提供了数据基础，且为后续的人声分离提高了准确性和可靠性。

S40，运用二值掩蔽方法，对所有所述人声识别矩阵进行掩码拼接处理，得到分离掩码结果。

可理解地，所述二值掩蔽方法为通过0至1的范围的二值掩码衡量每个频率点的方法，即通过0至1的范围的二值掩码对人声识别矩阵中的数值进行权重相乘并归一化的处理方法，所述掩码拼接处理的过程可以为运用二值掩蔽方法将所述人声识别矩阵进权重相乘并归一化得到相应的待处理矩阵，将所有待处理矩阵按照待分离语音数据的时间顺序进行拼接，将矩阵中重叠的部分进行求均值的处理过程；也可以为对所有所述人声识别矩阵按照时序方式拼接，对重叠的矩阵部分进行均值处理，然后通过权重加成，并运用二值掩蔽方法进行掩码处理的处理过程，从而得到所述分离掩码结果，所述分离掩码结果为与所述待分离语音数据相同时间轴的矩阵，该矩阵中的每个频率点都有一个分离出人声的占比值。

在一实施例中，如图4所示，所述步骤S40中，即所述运用二值掩蔽方法，对所有所述人声识别矩阵进行掩码拼接处理，得到分离掩码结果，包括：

S401，对所有所述人声识别矩阵按照时序方式拼接，对重叠的矩阵部分进行均值处理，得到待处理人声矩阵。

可理解地，所述时序方式拼接为按照输入的所述待分离语音数据中的时间顺序或者时间轴的时序进行相应的时间点或者时间帧进行插入的拼接过程，然后将重叠的部分进行相同频率点位置的值进行求均值，最终得到所述待处理人声矩阵。

S402，对所述待处理人声矩阵进行权重加成，得到待掩码矩阵。

可理解地，通过所述人声分离模型中的致密层，即Dense Block，对所述待处理人声矩阵中的每个值进行相应的权重的相乘，其中，相应的权重能够体现每个频率点具有人声部分的可信度情况，从而得到所述待掩码矩阵。

S403，运用二值掩蔽方法，对所述待掩码矩阵进行掩码处理，得到所述分离掩码结果。

可理解地，所述掩码处理为运用二值掩蔽方法将所述待掩码矩阵中的值进0到1范围的转换并归一化处理的过程，从而得到所述分离掩码结果。

本发明实现了通过对所有所述人声识别矩阵按照时序方式拼接，对重叠的矩阵部分进行均值处理，得到待处理人声矩阵；对所述待处理人声矩阵进行权重加成，得到待掩码矩阵；运用二值掩蔽方法，对所述待掩码矩阵进行掩码处理，得到所述分离掩码结果，如此，实现了运用二值掩蔽方法，自动对所有人声识别矩阵进行时序拼接、权重加成及掩码处理，得到准确地分离掩码结果，提高后续分离的准确性和可靠性。

S50，根据所述分离掩码结果，对所述待分离语音数据进行人声分离，得到与所述待分离语音数据对应的人声音频数据。

可理解地，所述人声分离的过程为将所述待分离语音数据与所述分离掩码结果进行相乘，以及对相乘结果进行增强的分离过程，从而能够得到所述待分离语音数据所对应的人声内容，将该人声内容记录为所述人声音频数据，所述人声音频数据为只有人声的音频文件，通过分离出的所述人声音频数据进行播放就可以得到人声部分，通过将所述待分离语音数据与分离出的所述人声音频数据进行点乘处理，就可以得到所述待分离语音数据中的非人声音频数据，即伴奏部分或者背景音乐部分等等，根据需求可以选取人声音频数据或者非人声音频数据。

本发明实现了通过将待分离语音数据输入至人声分离模型；对所述待分离语音数据进行多通道子频带处理，得到多个全频数据和多个子频带数据；再对各所述全频数据以及与各所述全频数据对应的所有所述子频带数据进行人声频率特征提取，根据提取的所述人声频率特征进行人声频率点识别，得到与各所述全频数据一一对应的人声识别矩阵；运用二值掩蔽方法，对所有所述人声识别矩阵进行掩码拼接处理，得到分离掩码结果；最后，根据所述分离掩码结果，对所述待分离语音数据进行人声分离，得到与所述待分离语音数据对应的人声音频数据，如此，实现了通过人声分离模型进行多通道子频带处理，以及进行人声频率特征提取，并运用二值掩蔽方法，进行掩码拼接，自动分离出语音数据中的人声部分，无需专业人员的录制工作，大大降低了人声分离的门槛和成本，并打破了现有单声道无法分离的局限性，以及提高了分离准确率和质量，大大提升了分离效率和用户体验满意度。

在一实施例中，所述步骤S50中，即所述根据所述分离掩码结果，对所述待分离语音数据进行人声分离，得到与所述待分离语音数据对应的人声音频数据，包括：

S501，将所述待分离语音数据与所述分离掩码结果点乘处理，得到待加工音频。

可理解地，所述点乘处理为两个矩阵中的数值进行相乘的处理，从而得到待加工音频。

S502，对所述待加工音频进行增强处理，得到所述人声音频数据。

可理解地，所述增强处理为对输入的待加工音频进行高斯变换的处理过程，从而将增强处理后的所述待加工音频记录为分离出人声的所述人声音频数据。

本发明实现了通过将所述待分离语音数据与所述分离掩码结果点乘处理，得到待加工音频；对所述待加工音频进行增强处理，得到所述人声音频数据，如此，实现了通过点乘处理和增强处理，能够得到更加清晰和准确的人声音频数据。

在一实施例中，所述步骤S10之前，即所述将所述待分离语音数据输入至人声分离模型之前，包括：

获取音频样本集；所述音频样本集包括多个音频样本，一个所述音频样本对应一个人声提取样本。

可理解地，所述音频样本集可以来自MUSDB18-HQ音乐分轨训练集，也可以为历史收集的音频片段，所述音频样本集为所有所述音频样本的集合，所述音频样本为未经过压缩等加工处理的音频信号，所述人声提取样本为与其对应的所述音频样本中人声部分的音频信号。

将所述音频样本输入含有初始参数的多频带分离模型。

通过所述多频带分离模型对所述音频样本进行全流程的人声频率识别，得到人声识别结果。

可理解地，所述全流程的人声频率识别为进行多通道子频带处理，和人声率特征提取及识别，并运用二值掩蔽方法，进行掩码拼接处理，最后人声分离获得人声识别结果的识别过程，所述人声识别结果表征了所述音频样本中人声部分的结果。

根据与所述音频样本对应的所述人声识别结果和所述人声提取样本，确定出损失值。

可理解地，所述损失值体现了所述人声识别结果和所述人声提取样本之间的人声部分的差距。

在所述损失值未达到预设收敛条件时，运用Adam优化器迭代更新多频带分离模型中的初始参数，直至所述损失值达到所述预设收敛条件，将收敛之后的所述多频带分离模型记录为人声分离模型。

可理解地，所述预设收敛条件可以根据需求设定，比如连续20个时间段内没有验证改进，则停止训练进度，或者损失值达到预设阈值时，停止训练等等，所述Adam优化器的任务就是在每一个epoch中计算损失函数的梯度，进而更新初始参数，比如，Adam优化器的初始学习率为0.001，辍学率为0.1，学习率每隔三十小时的训练数据衰减一次，衰减率为0.87等，进而可以不断更新初始参数，能够让所述人声识别结果和所述人声提取样本之间的人声部分的差距越来越小，不断向正确结果靠拢，直至达到所述预设收敛条件，停止训练，将收敛之后的所述多频带分离模型记录为所述人声分离模型。

本发明实现了通过Adam优化器进行训练，能够加快模型的训练效率，提高训练的准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种语音数据的分离装置，该语音数据的分离装置与上述实施例中语音数据的分离方法一一对应。如图5所示，该语音数据的分离装置包括获取模块11、处理模块12、提取模块13、拼接模块14和分离模块15。各功能模块详细说明如下：

获取模块11，用于获取待分离语音数据，并将所述待分离语音数据输入至人声分离模型；

处理模块12，用于对所述待分离语音数据进行多通道子频带处理，得到多个全频数据和多个子频带数据；其中，一个所述全频数据对应多个所述子频带数据；

提取模块13，用于对各所述全频数据以及与各所述全频数据对应的所有所述子频带数据进行人声频率特征提取，根据提取的所述人声频率特征进行人声频率点识别，得到与各所述全频数据一一对应的人声识别矩阵；

拼接模块14，用于运用二值掩蔽方法，对所有所述人声识别矩阵进行掩码拼接处理，得到分离掩码结果；

分离模块15，用于根据所述分离掩码结果，对所述待分离语音数据进行人声分离，得到与所述待分离语音数据对应的人声音频数据。

关于语音数据的分离装置的具体限定可以参见上文中对于语音数据的分离方法的限定，在此不再赘述。上述语音数据的分离装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是客户端或者服务端，其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机程序和数据库。该内存储器为可读存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音数据的分离方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中语音数据的分离方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中语音数据的分离方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种语音数据的分离方法，其特征在于，包括：

根据所述分离掩码结果，对所述待分离语音数据进行人声分离，得到与所述待分离语音数据对应的人声音频数据；

所述对各所述全频数据以及与各所述全频数据对应的所有所述子频带数据进行人声频率特征提取，根据提取的所述人声频率特征进行人声频率点识别，得到与各所述全频数据一一对应的人声识别矩阵，包括：

对所述全频数据和与该全频数据对应的所有所述子频带数据进行多通道下采样，提取所述人声频率特征，得到与该全频数据对应的全频下采样特征向量，以及多个与所述子频带数据对应的子频带下采样特征向量；

根据所述全频下采样特征向量，对各所述子频带下采样特征向量进行联动的上采样，识别出与各所述子频带数据对应的子频带识别矩阵；

将所有与所述全频数据相对应的所述子频带识别矩阵进行串联，得到与该全频数据对应的所述人声识别矩阵；

所述运用二值掩蔽方法，对所有所述人声识别矩阵进行掩码拼接处理，得到分离掩码结果，包括：

对所有所述人声识别矩阵按照时序方式拼接，对重叠的矩阵部分进行均值处理，得到待处理人声矩阵；

对所述待处理人声矩阵进行权重加成，得到待掩码矩阵；

运用二值掩蔽方法，对所述待掩码矩阵进行掩码处理，得到所述分离掩码结果。

2.如权利要求1所述的语音数据的分离方法，其特征在于，所述对所述待分离语音数据进行多通道子频带处理，得到多个全频数据和多个子频带数据，包括：

对所述待分离语音数据进行短时傅里叶变换处理，得到多个全频频谱图；所述人声分离模型包括一个全频特征提取模型和多个子频带特征提取模型，一个子频带特征提取模型对应一个子频带；

对各所述全频频谱图进行频带分解，得到与各所述全频频谱图对应的子频带频谱图；一个所述全频频谱图对应预设子频带个数的所述子频带频谱图，且每一个所述子频带频谱图对应一个子频带；

将各所述全频频谱图输入全频特征提取模型，通过所述全频特征提取模型对所述全频频谱图中的全频特征进行提取，得到与各所述全频频谱图一一对应的所述全频数据；

将各所述子频带频谱图输入与其子频带对应的子频带特征提取模型，通过各所述子频带特征提取模型提取各所述子频带频谱图中的与其子频带对应的音频特征，得到与各所述子频带频谱图一一对应的所述子频带数据。

3.如权利要求2所述的语音数据的分离方法，其特征在于，所述子频带包括低频频带和高频频带；

将与所述低频频带对应的所述子频带频谱图输入与所述低频频带对应的低频子频带特征提取模型，通过所述低频子频带特征提取模型对所述子频带频谱图进行低频频带的音频特征的提取，得到低频频带的所述子频带数据；所述低频子频带特征提取模型为基于MMDenseNet的深度学习模型；

4.如权利要求1所述的语音数据的分离方法，其特征在于，所述根据所述分离掩码结果，对所述待分离语音数据进行人声分离，得到与所述待分离语音数据对应的人声音频数据，包括：

将所述待分离语音数据与所述分离掩码结果点乘处理，得到待加工音频；

对所述待加工音频进行增强处理，得到所述人声音频数据。

5.如权利要求1所述的语音数据的分离方法，其特征在于，所述将所述待分离语音数据输入至人声分离模型之前，包括：

获取音频样本集；所述音频样本集包括多个音频样本，一个所述音频样本对应一个人声提取样本；

将所述音频样本输入含有初始参数的多频带分离模型；

通过所述多频带分离模型对所述音频样本进行全流程的人声频率识别，得到人声识别结果；

根据与所述音频样本对应的所述人声识别结果和所述人声提取样本，确定出损失值；

6.一种语音数据的分离装置，其特征在于，包括：

分离模块，用于根据所述分离掩码结果，对所述待分离语音数据进行人声分离，得到与所述待分离语音数据对应的人声音频数据；

对所述待处理人声矩阵进行权重加成，得到待掩码矩阵；

7.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述语音数据的分离方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一项所述语音数据的分离方法。