CN114171053B

CN114171053B - 一种神经网络的训练方法、音频分离方法、装置及设备

Info

Publication number: CN114171053B
Application number: CN202111564702.9A
Authority: CN
Inventors: 刘雪松
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2024-04-05
Anticipated expiration: 2041-12-20
Also published as: CN114171053A

Abstract

本申请实施例公开了一种神经网络的训练方法、音频分离方法、装置及设备，该训练方法包括：获取音频数据集；基于第一音轨的音轨标识配置神经网络的网络参数；利用神经网络对混合音频数据进行分离，以得到第一音轨的音频数据；计算第一音轨的音频数据相对于第一音轨的期望音频数据的损失值，以调节网络参数。如此，根据不同音轨之间的共有音频特征(即第一特征)和每个音轨的特有音频特征(即第二特征)，构建神经网络并训练，其中第一权重配置成提取共有音频特征，第二权重配置成提取每个音轨的特有特征，整体而言降低了分离不同音轨时的神经网络的总权重个数，降低了处理资源占用量，使其更易于部署在移动设备上。

Description

一种神经网络的训练方法、音频分离方法、装置及设备

技术领域

本申请涉及人工智能技术，尤其涉及一种神经网络的训练方法、音频分离方法、装置及设备。

背景技术

音频分离技术是指从原始音频数据中提取和分离出人声和乐器等原始音轨的技术。近几年，基于AI(Artificial Intelligence，人工智能)的音频分离技术得到了很快的发展。以Deezer公司推出的Spleeter工具为代表，它可以将普通音频数据分离到人声、鼓点、贝斯和其他乐器四个音轨，基于大量数据的训练，其分离效果越来越准确，已经被广泛应用到音频制作和回放等领域。

然而，现有的基于AI的音频分离技术，是为每个音轨构建独立的音频分离网络，受限于处理资源和运行方式的限制，这种技术主要是应用在一些专业音频处理软件以及在线音频处理服务中，尚未应用到消费电子产品上，尤其是未应用到移动设备上，这极大地限制了这项技术的使用场景。因此，基于AI的音频分离技术亟待优化。

发明内容

为解决上述技术问题，本申请实施例期望提供一种神经网络的训练方法、音频分离方法、装置及设备。

本申请的技术方案是这样实现的：

第一方面，提供了一种神经网络的训练方法，所述方法包括：

获取音频数据集；其中，所述音频数据集包括第一音轨与第二音轨的混合音频数据，所述第一音轨包括第一特征和第二特征，所述第一特征为所述第一音轨与所述第二音轨所共有的音频特征，所述第二特征为所述第一音轨相对于所述第二音轨特有的音频特征；

基于所述第一音轨的音轨标识配置所述神经网络的网络参数；

利用所述神经网络对所述混合音频数据进行分离，以得到所述第一音轨的音频数据；

计算所述第一音轨的音频数据相对于所述第一音轨的期望音频数据的损失值，以调节所述网络参数；

其中，所述网络参数包括第一权重和第二权重，所述第一权重配置成提取所述第一特征，所述第二权重配置成提取所述第二特征。

第二方面，提供了一种音频分离方法，所述方法包括训练步骤和分离步骤，所述训练步骤包括：

获取第一音频数据集；其中，所述第一音频数据集包括第一音轨与第二音轨的混合音频数据，所述第一音轨包括第一特征和第二特征，所述第一特征为所述第一音轨与所述第二音轨所共有的音频特征，所述第二特征为所述第一音轨相对于所述第二音轨特有的音频特征；

第三方面，提供了一种音频处理装置，所述装置包括：

通信模块和音频分离模块，

所述通信模块配置成：

所述音频分离模块配置成：

基于所述第一音轨的音轨标识配置神经网络的网络参数；

第四方面，提供了一种电子设备，包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器配置为运行所述计算机程序时，执行前述方法的步骤。

第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现前述方法的步骤。

本申请实施例中提供了一种神经网络的训练方法、音频分离方法、装置及设备，根据不同音轨之间的共有音频特征(即第一特征)和每个音轨的特有音频特征(即第二特征)，构建神经网络并训练，其中第一权重配置成提取共有音频特征，第二权重配置成提取每个音轨的特有特征，整体而言降低了分离不同音轨时的神经网络的总权重个数，降低了处理资源占用量，使其更易于部署在移动设备上。

附图说明

图1为本申请实施例中神经网络的训练方法的第一流程示意图；

图2为本申请实施例中神经网络的训练方法的第二流程示意图；

图3为本申请实施例中神经网络的第一组成结构示意图；

图4为本申请实施例中调节网络的第一组成结构示意图；

图5为本申请实施例中编码器/编码瓶颈层/解码器的组成结构示意图；

图6为本申请实施例中第一特征提取模块的组成结构示意图；

图7为本申请实施例中第二特征提取模块的组成结构示意图；

图8为本申请实施例中音频分离方法的第一流程示意图；

图9为本申请实施例中音频分离方法的第二流程示意图；

图10为本申请实施例中神经网络的第二组成结构示意图；

图11为本申请实施例中调节网络的第二组成结构示意图；

图12为本申请实施例中音频处理装置的组成结构示意图；

图13为本申请实施例中电子设备的组成结构示意图。

具体实施方式

为了能够更加详尽地了解本申请实施例的特点与技术内容，下面结合附图对本申请实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本申请实施例。

图1为本申请实施例中神经网络的训练方法的第一流程示意图，如图1所示，该方法具体可以包括：

步骤101：获取音频数据集；

其中，所述音频数据集包括第一音轨与第二音轨的混合音频数据，所述第一音轨包括第一特征和第二特征，所述第一特征为所述第一音轨与所述第二音轨所共有的音频特征，所述第二特征为所述第一音轨相对于所述第二音轨特有的音频特征。

音轨可以理解为单独一种声音的音频数据。例如，人声音轨、乐器音轨、动物音轨，其他特定物体音轨等。混合音频数据可以理解为由至少两种音轨混合而成音频数据，例如，演唱音乐、演奏音乐，环境声音等。

第一音轨可以理解为混合音频数据中待分离的目标音轨。第二音轨可以理解为混合音频数据中除第一音轨之外的其他音轨。

示例性的，第一音轨为音乐中的人声音轨或者特定乐器音轨，例如，钢琴、大提琴、古筝等。其他音轨可以理解为混合音频数据中除第一音轨之外的其他音轨的混合。音乐中人声音轨为第一音轨时，其他音轨为伴奏，钢琴音轨为第一音轨时，其他乐器音轨为其他音轨。

步骤102：基于所述第一音轨的音轨标识配置所述神经网络的网络参数；

这里，音轨标识用于唯一区分不同音轨，神经网络基于音轨标识确定待分离的第一音轨，从而配置神经网络的网络参数。示例性的，音轨标识可以为预设的音轨索引i＝0,1,2…N-1，N为音轨数量。

示例性的，在一些实施例中，所述基于所述第一音轨的音轨标识配置所述神经网络的网络参数，包括：基于所述第一音轨的音轨标识配置所述第二权重。神经网络可以为深度神经网络(Deep Neural Network，DNN)。

示例性的，在一些实施例中，所述神经网络包括调节网络；所述调节网络配置成基于所述第一音轨的音轨标识配置所述第二权重。

示例性的，神经网络还包括第一特征提取模块和第二特征提取模块；所述第一权重为第一特征提取模块的权重，所述第二权重为所述第二特征提取模块的权重。也就是说，利用神经网络在分离不同音轨时，只需根据音轨标识确定第二特征提取模块的权重，整体而言降低了分离不同音轨时的总权重个数，降低了处理资源占用量，使其更易于部署在移动设备上。

将音轨标识输入到调节网络，调节网络根据音轨标识确定第二特征提取模块的第二权重，配置给第二特征提取模块，使第二特征提取模块具备提取第一音轨每个音轨的特有特征的能力。

示例性的，在一些实施例中，所述调节网络包括：嵌入网络和权重生成网络；所述嵌入网络配置成基于所述第一音轨的音轨标识生成所述第一音轨的N维向量；其中，N取正整数；所述权重生成网络配置成基于所述第一音轨的N维向量得到所述第二权重。

在训练阶段，嵌入(embedding)网络为输入的每一个音轨标识生成N维向量。该N维向量被输入至权重生成网络，并为神经网络中每个第二特征提取模块生成对应的第二权重。权重生成网络可由数层堆叠的全连接层和卷积层组成。

在训练阶段，调节网络的网络参数通过训练进行更新，训练结束后包括调节网络在内的网络参数被固定下来。

示例性的，在一些实施例中，所述方法还包括：利用经训练的所述神经网络中的调节网络，基于所述神经网络所能分离的至少一个音轨的音轨标识确定每个音轨对应的第二权重；保存所述至少一个音轨的音轨标识对应的第二权重。

为了节省推理的算力资源，在神经网络训练结束后，将神经网络所能分离的所有音轨的音轨标识全部输入训练好的调节网络，生成每个音轨标识对应的第二权重，并将生成的第二权重全部保存下来。在使用阶段，调节网络只需根据输入音轨标识从存储区中直接选择对应的第二权重。

在另一些实施例中，在使用阶段，可以直接使用训练好的调节网络根据音轨标识为神经网络生成对应的第二权重。

示例性的，在一些实施例中，神经网络还包括：循环神经网络；所述循环神经网络配置成利用所述循环神经网络上一次的隐藏状态和所述神经网络提取的第一特征图数据，产生本次的隐藏状态和第二特征图数据。循环神经网络除了接收本次推理的第一特征图数据之外，还会接受上一次的网络隐藏状态作为输入，而本次推理同样会输出本次的网络隐藏状态作为下一次推理的输入。通过网络隐藏状态的前后传递，使得神经网络在使用阶段可以在输入窗口较短的情况下依然能够对输入数据的长时依赖进行建模。

示例性的，循环神经网络可以采用门控循环单元(Gated Recurrent Unit，GRU)或长短时记忆单元(Long Short Term Memory，LSTM)。

需要说明的是，在训练阶段，若音频数据集中混合音频数据时长足够，即输入时间窗口足够长，本次训练过程中网络接收到足够数据，为了降低训练难度，循环神经网络可以不利用上一次的隐藏状态，只需接收本次的第一特征图数据作为输入，输出第二特征图数据。但训练过程中仍然会优化循环神经网络的网络参数，以便在使用过程中为了能够实现语音的实时分离，允许输入时间窗口足够小，比如输入时间窗口降低到0.5秒以内，通过隐藏状态的前后传递，使得语音分离网络可以在输入窗口较短的情况下依然能够实现语音的实时分离和重建。

步骤103：利用所述神经网络对所述混合音频数据进行分离，以得到所述第一音轨的音频数据；

步骤104：计算所述第一音轨的音频数据相对于所述第一音轨的期望音频数据的损失值，以调节所述网络参数；

音频数据集中还包括第一音轨的期望音频数据。根据神经网络分离得到的第一音轨的音频数据和期望音频数据计算损失值，损失值使用梯度反向传播算法得到神经网络中网络参数更新值，网络参数更新值具体包括第一权重和第二权重的更新值。

示例性的，网络参数更新值还包括调节网络的权重更新值，以及循环神经网络的权重更新值。使用网络参数更新值对神经网络各部分权重进行更新以使得损失值逐步下降至网络所能达到的最优值。

所述网络参数包括第一权重和第二权重，所述第一权重配置成提取所述第一特征，所述第二权重配置成提取所述第二特征。

示例性的，在一些实施例中，提取混合音频数据中的音频特征，将音频特征输入到神经网络。这里，音频特征可以是混合音频数据的频域特征或者时域特征。相应的，神经网络输出音轨的音频特征，再基于音频特征得到对应的音频数据。

采用上述技术方案，根据不同音轨之间的共有音频特征(即第一特征)和每个音轨的特有音频特征(即第二特征)，构建神经网络并训练，其中第一权重配置成提取共有音频特征，第二权重配置成提取每个音轨的特有特征，整体而言降低了分离不同音轨时的神经网络的总权重个数，降低了处理资源占用量，使其更易于部署在移动设备上。

下面对本申请实施例中神经网络及其训练方法进行进一步的举例说明，图2为本申请实施例中神经网络的训练方法的第二流程示意图，如图2所示，音频数据集至少包括：第一音轨的期望音频数据及其对应的混合音频数据。

在训练阶段，使用大量事先收集的单独音轨，对模型中的参数进行学习和调整。具体方法是，首先将单独音轨按照一定规则进行混合，得到混合音频数据。假定当前处理的音轨的音频数据为s_i,其中i＝0,1,2…N-1,N为音轨的个数，则混合音频数据x由下式获得：

其中α_i是每个音轨的混合增益，可事先指定或随机产生。

先使用短时傅里叶变换(Short Time Fourier Transform，STFT)分别将第一音轨的音频数据和混合音频数据变换到频域，得到对应的复频谱。注意所述复频谱包含实部和虚部，因此其通道个数为输入的音频数据和混合音频数据的两倍。例如，对于立体声音乐，其每个音轨以及混合音频均包含两个通道，因此相应地，其每个音轨的复频谱以及混合音频的复频谱均包含四个通道。时频变换的过程可由下式给出：

X＝STFT(x)

S_i＝STFT(s_i)

其中X和S_i均为复数。

混合音频的复频谱被输入进神经网络进行处理。神经网络同时还接收一个音轨标识i＝0,1,2…N-1作为输入以指示当前需要分离哪个音轨。神经网络输出当前分离的第一音轨的复数掩膜m_i:

m_i＝Net(X,i)

所述复数掩膜与混合音频的复频谱的实部和虚部分别相乘得到第一音轨的复频谱

第一音轨的复频谱与前述音频数据集中第一音轨的复频谱进行损失值J的计算，损失函数如下:

该损失函数的损失值使用梯度反向传播算法得到分离网络中的权重更新值。使用该权重更新值对神经网络中的权重进行更新以使得损失值逐步下降直至网络所能达到的最优值。在训练阶段结束后，神经网络的所有权重值被固定下来。

示例性的，在一些实施例中，所述神经网络为U-Net网络；所述神经网络为U-Net网络；所述神经网络包括至少一个编码块和与所述至少一个编码块分别对应的至少一个解码块；其中，第一编码块和对应的第一解码块之间跳跃连接，所述第一编码块属于所述至少一个编码块中的一个，所述第一解码块属于所述至少一个解码块中的一个，最高层的编码块和对应的解码块之间通过编码瓶颈层相连；所述编码块、所述解码块和所述编码瓶颈层包括：第一特征提取模块和第二特征提取模块；所述第一权重为第一特征提取模块的权重，所述第二权重为所述第二特征提取模块的权重。

也就是说，上述神经网络可以使用由二维卷积层堆叠的U-Net来同时进行时域和频域两个维度的信息提取，且编码块、编码瓶颈层、解码块均由第一特征提取模块和第二特征提取模块组成，分离不同音轨时，第一特征提取模块的权重在所有音轨之间共享，第二特征提取模块的权重为每个音轨单独配置。

示例性的，在一些实施例中，所述神经网络还包括循环神经网络；所述最高层的编码块产生的第一特征图数据输入到所述循环神经网络，所述循环神经网络配置成利用所述循环神经网络上一次的隐藏状态和所述第一特征图数据，产生本次的隐藏状态和第二特征图数据；所述第一特征图数据和所述第二特征图数据拼接后输入到所述编码瓶颈层。

循环神经网络除了接收本次推理的第一特征图数据之外，还会接受上一次的网络隐藏状态作为输入，而本次推理同样会输出本次的网络隐藏状态作为下一次推理的输入。通过网络隐藏状态的前后传递，使得神经网络在使用阶段可以在输入窗口较短的情况下依然能够对输入数据的长时依赖进行建模。

图3为本申请实施例中神经网络的第一组成结构示意图，如图3所示，输入混合音频数据的复数谱首先经过由一层或多层二维卷积组成的输入层，再经连续N个编码块在时域和频域上两个维度上对特征图进行编码和降采样，直到到达最高层输出第一特征图数据。编码块包括编码器和降采样器，解码块包括解码器和升采样器；编码块的输入特征图数据依次经过编码器进行编码，以及降采样器进行下采样，输出特征图数据；解码块的输入特征图数据依次经过升采样器进行上采样，以及编码器进行解码，输出特征图数据。为了恢复降采样时所损失的细节信息，将每一个降采样之前编码器输出的特征图都会跳接到对应的解码块的解码器上，并与解码器原本的输入拼接在一起。

最高层的编码块N产生的第一特征图数据输入到循环神经网络输出第二特征图数据，第一特征图数据和第二特征图数据拼接后输入到编码瓶颈层。编码瓶颈层可以理解为一个编码器，因为它在整个网络中处于编码尺度最粗，数据量最小的位置，因此被称为编码瓶颈层。

在经过编码瓶颈层后，特征图数据再逐次经过相同数目的解码块进行升采样和解码。最后，通过一个输出层，输出分离第一音轨的复数掩膜。输出层同样由一层或多层二维卷积组成，并且在最后进行一个tanh激活操作，使得输出的范围在(-1，1)之间。

示例性的，编码块中的编码器包括：第一特征提取模块和第二特征提取模块；解码块中的解码器包括：第一特征提取模块和第二特征提取模块；编码瓶颈层包括：第一特征提取模块和第二特征提取模块。

除了以上模块之外，神经网络还包括一个调节网络。调节网络接受当前要分离的音轨标识i＝0,1,2…N-1作为输入，并且根据对应音轨标识，为编码块、解码块以及编码瓶颈层中的第二特征提取模块配置对应的第二权重。

图4为本申请实施例中调节网络的第一组成结构示意图，如图4所示，

调节网络包括：嵌入网络和权重生成网络；所述嵌入网络配置成基于所述第一音轨的音轨标识生成所述第一音轨的N维向量；其中，N取正整数；所述权重生成网络配置成基于所述第一音轨的N维向量得到所述第二权重。

在训练阶段，嵌入(embedding)网络为输入的每一个音轨标识生成N维向量。该N维向量被输入至权重生成网络，并为神经网络中每个编码器、解码器和瓶颈层的第二特征提取模块生成对应的第二权重。权重生成网络可由数层堆叠的全连接层和卷积层组成。

在整个神经网络中，除了第二权重以外，其他部分的第一权重都是在音轨之间共享的，即对于所有的音轨，其他部分都使用同一套权重。而第二权重在所有权重中所占的比例是比较低的，因此和传统分离方法相比，权重总数可以得到极大的降低。通过这种方式，将网络中提取各音轨之间共有音频特征和每个音轨的特有特征两部分独立开，可以达到降低存储需求的效果。

示例性的，图5为本申请实施例中编码器/编码瓶颈层/解码器的组成结构示意图。如图5所示，每个编码器、解码器或编码瓶颈层均由一个第一特征提取模块(可以称为紧密连接卷积层)和第二特征提取模块(可以称为音轨特征变换模块)组成。其中第一特征提取模块的权重是在所有音轨之间共享的，而第二特征提取模块的权重是每个音轨独立的。每次推理时，第二特征提取模块的权重由调节网络根据当前分离的第一音轨的音轨标识配置。

示例性的，图6为本申请实施例中第一特征提取模块的组成结构示意图，如图6所示，第一特征提取模块由一组堆叠的二维卷积层组成，它的主要特征是，除了最后一层外，其他每一个卷积层的输入都被拼接到它的输出上并且作为下一层的输入。其中每个二维卷积层的卷积核大小可以是3*3或者5*5。每个卷积层后面可以附加一个线性整流(RectifiedLinear Unit，ReLU)激活层。卷积层的通道个数和其所在的编码块或解码块的位置有关，底层的编码块或解码块由于在时域和频域上的尺度较粗，可以使用更多的通道数。

例如，假设h_i为第i层二维卷积层的输入，y_i为第i层二维卷积层的输出，则第i+1层二维卷积层的输入h_i+1为：

h_i+1＝cat(y_i,h_i)

其中cat代表在通道上的拼接操作。

实际应用中，第一特征提取模块可以称为紧密连接卷积层，和普通卷积层相比，紧密连接卷积层相当于在不同的层之间共享了特征图，因此可以使用更少的权重提取到更丰富的隐含信息。

示例性的，图7为本申请实施例中第二特征提取模块的组成结构示意图，如图7所示，每个第二特征提取模块中可能包含一个通道特征变换层或一个频域特征变换层，或者两者都有。两种特征变换层均由一层或多层全连接网络组成。其中通道特征变换层的输入和输出维度均等于对应的紧密连接卷积层所输出的特征图数据的通道维度，它仅针对特征图数据的通道维度进行变换，目的是提取输入特征图数据中对应当前音轨的特性在通道维度上的特征。频域特征变换层的输入和输出维度均等于对应的紧密连接卷积层所输出的特征图数据的频率维度，它仅针对特征图数据的频率维度进行变换，目的是提取输入特征图数据中对应当前音轨的特性在频率维度上的特征。两个变换层的权重均由调节网络根据当前分离的音轨给出。第二权重通过一个权重分离模块被分成通道第二权重和频域第二权重两部分，并分别被加载到对应的特征变换层中。

第二特征提取模块的设计，实现了音轨之间共有音频特征和每个音轨的特有特征的分离。共有音频特征由紧第一特征提取模块来提取，而每个音轨的特有特征由第二特征提取模块来提取。利用此机制，可在提取共有音频特征时使用共享权重，而只在提取每个音轨的特有特征时使用各音轨分别的权重，极大降低模型的总权重个数。

上述神经网络可以将存储需求降低到10MB以内，并且将输入窗口长度降低到0.5s以内，从而达到在移动设备上进行实时推理的门槛。该神经网络在移动设备上有极为广泛的应用前景。例如，可以在移动设备上播放音乐时，对音乐进行实时分离和重建，在重建过程中对所分离的音轨分别进行音效处理和空间渲染处理，最后再进行混音。这样可使人声和每种乐器均达到最佳的效果，并且可为每个音轨生成独立的空间中的虚拟声像。这样经过处理后的音乐可以营造出真实的临场感和空间感，同时又能增强音乐中各个乐器和人声成分的分离度和方向感，这是传统音效处理无法达到的效果。

利用上述经训练的任意一种神经网络，本申请实施例还提供了一种音频分离方法，该方法包括训练步骤和分离步骤，图8为本申请实施例中音频分离方法的第一流程示意图，如图8所示，该方法包括：

步骤801：训练神经网络；

训练步骤具体包括：

这里，第一音频数据集可以理解为用于训练神经网络的数据集。

步骤802：利用经训练的所述神经网络将第二音频数据集分离为所述第一音轨的音频数据和所述第二音轨的音频数据。

这里，第二音频数据集可以理解为利用经训练的神经网络进行分离的数据集。所述第二音频数据集包括第一音轨与第二音轨的混合音频数据，所述第一音轨包括第一特征和第二特征，所述第一特征为所述第一音轨与所述第二音轨所共有的音频特征，所述第二特征为所述第一音轨相对于所述第二音轨特有的音频特征；

示例性的，在一些实施例中，利用经训练的所述神经网络将第二音频数据集分离为所述第一音轨的音频数据和所述第二音轨的音频数据包括：基于混合音频数据中的第一音轨的音轨标识配置神经网络的网络参数，利用配置完成的神经网络将混合音频数据分离为所述第一音轨的音频数据和所述第二音轨的音频数据。

示例性的，在一些实施例中，基于所述第一音轨的音轨标识配置所述神经网络中的所述第二权重。

在使用阶段，为了节省推理的算力资源，也可以在训练结束后，将神经网络所能分离的所有音轨的音轨标识全部输入训练好的调节网络，并将生成的第二权重全部保存下来，建立音轨标识和第二权重的对应关系。在使用阶段，调整网络只需根据输入音轨标识和对应关系，从存储区中直接选择对应的第二权重。

或者，在使用阶段，直接使用训练好的调节网络中嵌入网络和权重生成网络，根据音轨标识为神经网络中每个第二特征提取模块生成对应的第二权重。

示例性的，在一些实施例中，分离步骤还包括：提取混合音频数据中的音频特征，将音频特征输入到神经网络。这里，音频特征可以是混合音频数据的频域特征或者时域特征。相应的，神经网络输出第一音轨的音频特征，再基于音频特征得到对应的音频数据。

采用上述技术方案，可以利用一个神经网络分离不同音轨，其中第一特征提取模块配置第一权重用于提取共有音频特征，第二特征提取模块配置不同音轨对应的第二权重用于提取每个音轨的特有特征，相比于为不同音轨构建不同神经网络而言，降低了分离不同音轨时的总权重个数，降低了处理资源占用量，使其更易于部署在移动设备上。

下面对本申请实施例中音频分离方法进行进一步举例说明，图9为本申请实施例中音频分离方法的第二流程示意图，如图9所示，

在使用阶段，输入音频x是混合音频数据。首先同样使用STFT变换到频域，得到混合音频的复频谱：

X＝STFT(x)

随后，混合音频的复频谱被输入至神经网络。除了复频谱之外，神经网络同时还接收两个输入：音轨标识i＝0,1,2…N-1，以及上一次完成推理时所保留的隐藏状态H_i(t-1)。音轨标识与训练阶段相同，用以指示当前需要分离哪个音轨。神经网络还包括循环神经网络，通过对网络隐藏状态的前后传递，可以对较短输入数据进行实时分离。网络隐藏状态是指循环神经网络部分在上一次完成推理时所保留的内部状态。神经网络除了输出第一音轨的复数掩膜m_i以外，还会输出循环神经网络部分在本次完成推理时所保留的隐藏状态H_i(t)。该状态将在下一次推理时作为隐藏神经网络隐藏状态的输入。神经网络的处理可以被表示为下式：

(m_i,H_i(t))＝Net(X,i,H_i(t-1))

随后，第一音轨的复数掩膜与混合音频的复频谱的实部和虚部分别相乘得到第一音轨的复频谱

最后，第一音轨的复频谱通过逆短时傅里叶变换(Inverse Short Time FourierTransform，ISTFT)变换回时域并得到第一音轨最终的音频数据：

x＝ISTFT(X)

根据实际场景中需要分离的音轨个数，该流程可能被重复多次。例如，如果要提取人声、鼓点、贝斯和其他伴奏四个音轨，那么该流程会被重复四次，其中每次输入的混合音频是相同的，而输入的音轨标识分别是0，1，2，3。

图10为本申请实施例中神经网络的第二组成结构示意图，如图10所示，输入混合音频数据的复数谱首先经过由一层或多层二维卷积组成的输入层，再经连续N个编码块在时域和频域上两个维度上对特征图进行编码和降采样，直到到达最高层输出第一特征图数据。编码块包括编码器和降采样器，解码块包括解码器和升采样器；编码块的输入特征图数据依次经过编码器进行编码，以及降采样器进行下采样，输出特征图数据；解码块的输入特征图数据依次经过升采样器进行上采样，以及编码器进行解码，输出特征图数据。为了恢复降采样时所损失的细节信息，将每一个降采样之前编码器输出的特征图都会跳接到对应的解码块的解码器上，并与解码器原本的输入拼接在一起。

最高层的编码块N产生的第一特征图数据和循环神经网络上一次的隐藏状态输入到循环神经网络，输出本次的隐藏状态和第二特征图数据，第一特征图数据和第二特征图数据拼接后输入到编码瓶颈层。编码瓶颈层可以理解为一个编码器，因为它在整个网络中处于编码尺度最粗，数据量最小的位置，因此被称为编码瓶颈层。

除了以上模块之外，神经网络还包括一个调节网络。调节网络接受当前要分离的音轨标识i＝0,1,2…N-1作为输入，并且根据对应的音轨标识，为每一个第二特征提取模块各生成一组第二权重。

图11为本申请实施例中调节网络的第二组成结构示意图，如图11所示，

在使用阶段，调节网络只需根据输入音轨标识从存储区中直接选择对应的第二权重。

在整个神经网络中，除了第二权重以外，其他部分所有权重都是在音轨之间共享的，即对于所有的音轨，其他部分都使用同一套权重。而第二权重在所有权重中所占的比例是比较低的，因此和传统分离方法相比，权重总数可以得到极大的降低。通过这种方式，将网络中提取各音轨之间共有音频特征和每个音轨的特有特征两部分独立开，可以达到降低存储需求的效果。

为实现本申请实施例的方法，基于同一发明构思本申请实施例还提供了一种音频处理装置，如图12所示，该装置120包括：通信模块1201和音频分离模块1202，

所述通信模块1201配置成：

所述音频分离模块1202配置成：

基于所述第一音轨的音轨标识配置神经网络的网络参数；

示例性的，在一些实施例中，所述音频分离模块1202配置成：基于所述第一音轨的音轨标识配置所述第二权重。

示例性的，在一些实施例中，所述神经网络包括调节网络；

所述调节网络包括：嵌入网络和权重生成网络；

所述嵌入网络配置成基于所述第一音轨的音轨标识生成所述第一音轨的N维向量；其中，N取正整数；

所述权重生成网络配置成基于所述第一音轨的N维向量得到所述第二权重。

示例性的，在一些实施例中，所述音频分离模块1202配置成：利用经训练的所述神经网络中的调节网络，基于所述神经网络所能分离的至少一个音轨的音轨标识确定每个音轨对应的第二权重；保存所述至少一个音轨的音轨标识对应的第二权重。

示例性的，在一些实施例中，所述神经网络为U-Net网络；

所述神经网络包括至少一个编码块和与所述至少一个编码块分别对应的至少一个解码块；其中，第一编码块和对应的第一解码块之间跳跃连接，所述第一编码块属于所述至少一个编码块中的一个，所述第一解码块属于所述至少一个解码块中的一个，最高层的编码块和对应的解码块之间通过编码瓶颈层相连；

所述编码块、所述解码块和所述编码瓶颈层包括：第一特征提取模块和第二特征提取模块；

所述第一权重为第一特征提取模块的权重，所述第二权重为所述第二特征提取模块的权重。

示例性的，在一些实施例中，所述神经网络还包括循环神经网络；

所述最高层的编码块产生的第一特征图数据输入到所述循环神经网络，所述循环神经网络配置成利用所述循环神经网络上一次的隐藏状态和所述第一特征图数据，产生本次的隐藏状态和第二特征图数据；

所述第一特征图数据和所述第二特征图数据拼接后输入到所述编码瓶颈层。

示例性的，在一些实施例中，所述第一特征提取模块由至少一个卷积层堆叠而成；除最后一个卷积层之外，其他卷积层的输入特征图数据与输出特征图数据进行拼接，作为下一个卷积层的输入特征图。

示例性的，在一些实施例中，每个卷积层之后设置激活层。

示例性的，在一些实施例中，所述第二特征提取模块包括通道特征变换层和/或频域特征变换层；其中，所述通道特征变换层配置成从输入特征图数据中提取所述第一音轨的通道特征；所述频域特征变换层配置成从输入特征图数据中提取所述第一音轨的频域特征。

示例性的，在一些实施例中，所述第二特征提取模块包括所述通道特征变换层和所述频域特征变换层时，所述第二特征提取模块还包括权重分离模块；

所述权重分离模块配置为对所述第二特征提取模块的第二权重进行权重分离，得到通道第二权重和频域第二权重，将所述通道第二权重加载到所述通道特征变换层，将所述频域第二权重加载到所述频域特征变换层。

实际应用中，上述装置可以是电子设备，也可以是应用于电子设备的芯片。在本申请中，该装置可以通过或软件、或硬件、或软件与硬件相结合的方式，实现多个单元的功能，使该装置可以执行如上述实施例所提供的神经网络的训练方法，或者执行上述实施例所提供的音频分离方法。且该装置的各技术方案的技术效果可以参考对应方法中相应的技术方案的技术效果，本申请对此不再一一赘述。

基于上述装置中各单元的硬件实现，本申请实施例还提供了一种电子设备，如图13所示，该电子设备130包括：处理器1301和配置为存储能够在处理器上运行的计算机程序的存储器1302；

其中，处理器1301配置为运行计算机程序时，执行前述实施例中的方法步骤。

当然，实际应用时，如图13所示，该电子设备中的各个组件通过总线系统1303耦合在一起。可理解，总线系统1303用于实现这些组件之间的连接通信。总线系统1303除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图13中将各种总线都标为总线系统1303。

在实际应用中，上述处理器可以为特定用途集成电路(ASIC，ApplicationSpecific Integrated Circuit)、数字信号处理装置(DSPD，Digital Signal ProcessingDevice)、可编程逻辑装置(PLD，Programmable Logic Device)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的设备，用于实现上述处理器功能的电子器件还可以为其它，本申请实施例不作具体限定。

上述存储器可以是易失性存储器(volatile memory)，例如随机存取存储器(RAM，Random-Access Memory)；或者非易失性存储器(non-volatile memory)，例如只读存储器(ROM，Read-Only Memory)，快闪存储器(flash memory)，硬盘(HDD，Hard Disk Drive)或固态硬盘(SSD，Solid-State Drive)；或者上述种类的存储器的组合，并向处理器提供指令和数据。

在示例性实施例中，本申请实施例还提供了一种计算机可读存储介质，例如包括计算机程序的存储器，计算机程序可由电子设备的处理器执行，以完成前述方法的步骤。

本申请实施例还提供了一种计算机程序产品，包括计算机程序指令。

可选的，该计算机程序产品可应用于本申请实施例中的电子设备，并且该计算机程序指令使得计算机执行本申请实施例的各个方法中由电子设备实现的相应流程，为了简洁，在此不再赘述。

本申请实施例还提供了一种计算机程序。

可选的，该计算机程序可应用于本申请实施例中的电子设备，当该计算机程序在计算机上运行时，使得计算机执行本申请实施例的各个方法中由电子设备实现的相应流程，为了简洁，在此不再赘述。

应当理解，在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。本申请中表述“具有”、“可以具有”、“包括”和“包含”、或者“可以包括”和“可以包含”在本文中可以用于指示存在对应的特征(例如，诸如数值、功能、操作或组件等元素)，但不排除附加特征的存在。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开，不必用于描述特定的顺序或先后次序。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。

本申请实施例所记载的技术方案之间，在不冲突的情况下，可以任意组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法、装置和设备，可以通过其它的方式实现。以上所描述的实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元，即可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本申请各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种音频分离神经网络的训练方法，其特征在于，所述方法包括：

其中，所述网络参数包括第一权重和第二权重，所述第一权重配置成提取所述第一特征，所述第二权重配置成提取所述第二特征；

所述神经网络包括：第一特征提取模块和第二特征提取模块；

所述第一权重为第一特征提取模块的权重，所述第二权重为所述第二特征提取模块的权重，基于所述第一音轨的音轨标识配置所述第二权重；

所述第二特征提取模块包括通道特征变换层和/或频域特征变换层，其中，所述通道特征变换层配置成从输入特征图数据中提取所述第一音轨的通道特征；

所述频域特征变换层配置成从输入特征图数据中提取所述第一音轨的频域特征。

2.根据权利要求1所述的方法，其特征在于，所述神经网络包括调节网络；

所述调节网络包括：嵌入网络和权重生成网络；

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

利用经训练的所述神经网络中的调节网络，基于所述神经网络所能分离的至少一个音轨的音轨标识确定每个音轨对应的第二权重；

保存所述至少一个音轨的音轨标识对应的第二权重。

4.根据权利要求1所述的方法，其特征在于，所述神经网络为U-Net网络；

5.根据权利要求4所述的方法，其特征在于，所述神经网络还包括循环神经网络；

6.根据权利要求4所述的方法，其特征在于，所述第一特征提取模块由至少一个卷积层堆叠而成；

除最后一个卷积层之外，其他卷积层的输入特征图数据与输出特征图数据进行拼接，作为下一个卷积层的输入特征图。

7.根据权利要求6所述的方法，其特征在于，每个卷积层之后设置激活层。

8.根据权利要求7所述的方法，其特征在于，所述第二特征提取模块包括所述通道特征变换层和所述频域特征变换层时，所述第二特征提取模块还包括权重分离模块；

9.一种音频分离方法，其特征在于，所述方法包括训练步骤和分离步骤，所述训练步骤包括：

基于所述第一音轨的音轨标识配置神经网络的网络参数；

10.根据权利要求9所述的音频分离方法，其特征在于，

所述分离步骤包括：

利用经训练的所述神经网络将第二音频数据集分离为所述第一音轨的音频数据和所述第二音轨的音频数据。

11.一种音频处理装置，其特征在于，所述装置包括通信模块和音频分离模块，

所述通信模块配置成：

所述音频分离模块配置成：

基于所述第一音轨的音轨标识配置神经网络的网络参数；

12.一种电子设备，其特征在于，所述电子设备包括：处理器和配置为存储能够在处理器上运行的计算机程序的存储器，

其中，所述处理器配置为运行所述计算机程序时，执行权利要求1至8任一项所述方法的步骤。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8任一项所述方法的步骤。