CN113380270A

CN113380270A - 一种音频音源分离方法、装置、存储介质及电子设备

Info

Publication number: CN113380270A
Application number: CN202110499107.5A
Authority: CN
Inventors: 李治均
Original assignee: Pulian International Co ltd
Current assignee: Pulian International Co ltd
Priority date: 2021-05-07
Filing date: 2021-05-07
Publication date: 2021-09-10
Anticipated expiration: 2041-05-07
Also published as: CN113380270B

Abstract

本发明公开了一种音频音源分离方法，包括：获取待分离的混合音频数据；通过训练后的编码模型对所述待分离的混合音频数据进行编码，获得编码特征表征；将所述编码特征表征输入至训练后的生成网络模型中，获得源音频特征表征；通过训练后的解码模型对所述源音频特征表征进行解码，获得音源分离结果。相应的，本发明还公开了一种音频音源分离装置、计算机可读存储介质及电子设备。本发明的技术方案中所使用的音源分离模型具有较强的泛化能力，从而提高了音源分离结果的准确性。

Description

一种音频音源分离方法、装置、存储介质及电子设备

技术领域

本发明涉及音频数据处理技术领域，尤其涉及一种音频音源分离方法、装置、计算机可读存储介质及电子设备。

背景技术

对混合音频中的源音频进行音源分离，是音频处理领域的一个基本问题，到目前为止，基于深度学习模型的音源分离方法是解决这一问题的最有效的手段。

但是，当前所采用的相关的深度学习模型受到了极大的限制，因为这些模型通常是基于监督学习的情形下进行训练得到的，即已知混合音频与其相对应的源音频。这种训练方法存在两个重大缺陷：一为很多情况下我们容易获得混合音频而较难得到独立的源音频，例如，在医学诊断中容易获得各个器官所对应的混合的声音，而其中每一个器官所对应的单独的声音较难获得；二为在实际生活中，混合音频与独立源音频无法同时获得，实际应用中是将获得的独立源音频进行人工混合得到合成的混合音频，而人工合成的混合音频与真实场景中的混合音频的声源分布及环境响应并不相同，故利用人工合成的混合音频训练得到的模型实际应用场景受限，从而导致模型的泛化能力较差，音源分离结果的准确性较差。

发明内容

本发明实施例所要解决的技术问题在于，提供一种音频音源分离方法、装置、计算机可读存储介质及电子设备，所使用的音源分离模型具有较强的泛化能力，从而提高了音源分离结果的准确性。

为了解决上述技术问题，本发明实施例提供了一种音频音源分离方法，包括：

获取待分离的混合音频数据；

通过训练后的编码模型对所述待分离的混合音频数据进行编码，获得编码特征表征；

将所述编码特征表征输入至训练后的生成网络模型中，获得源音频特征表征；

通过训练后的解码模型对所述源音频特征表征进行解码，获得音源分离结果。

进一步地，所述编码模型至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成；所述解码模型至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成。

进一步地，所述方法预先通过以下步骤对所述编码模型和所述解码模型进行训练：

获取混合音频训练数据集；其中，所述混合音频训练数据集中包括N个混合音频训练数据，N＞1；

将N个所述混合音频训练数据输入至预设的编码模型和预设的解码模型中，对应获得N个混合音频估计数据；

根据N个所述混合音频训练数据、N个所述混合音频估计数据和预设的均方误差损失函数

对所述预设的编码模型和所述预设的解码模型进行训练；其中，x_j(t)表示第j个混合音频训练数据，

表示第j个混合音频训练数据x_j(t)经过编码-解码处理后对应获得的第j个混合音频估计数据，j＝1，2，…，N。

进一步地，所述生成网络模型包括生成模块和掩码模块；

则，所述将所述编码特征表征输入至训练后的生成网络模型中，获得源音频特征表征，具体包括：

将所述编码特征表征输入至所述生成模块中，获得初始源音频数据；

将所述编码特征表征输入至所述掩码模块中，获得源音频位置掩码数据；

根据所述初始源音频数据和所述源音频位置掩码数据，获得所述源音频特征表征。

进一步地，所述生成模块至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成；所述掩码模块至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成。

进一步地，所述生成模块包括降采样层、过渡层和升采样层；所述掩码模块包括降采样层、过渡层、升采样层和二值化处理层；其中，所述二值化处理层用于对所述掩码模块的升采样层的输出进行二值化处理。

进一步地，所述方法预先通过以下步骤对所述生成网络模型进行训练：

通过所述编码模型对N个所述混合音频训练数据进行编码，对应获得N个训练编码特征表征；

将N个所述训练编码特征表征输入至预设的生成网络模型中，对应获得N*M个训练源音频特征表征；其中，所述预设的生成网络模型中包括M个预设的生成模块和M个预设的掩码模块，M＞1；

通过所述解码模型对N*M个所述训练源音频特征表征进行解码，获得N*M个训练源音频数据；

根据N个所述混合音频训练数据、N*M个所述训练源音频特征表征、N*M个所述训练源音频数据和预设的损失函数L＝L_ex+L_tc+L_mc，对所述预设的生成网络模型进行训练；其中，L_ex表示预设的互斥损失函数，L_tc表示预设的时间连续损失函数，L_mc表示预设的预测源音频与原混合音频差值最小化函数；且，

|| ||_F表示F-范数，λ₁和λ₂表示归一化因子，

表示第j个混合音频训练数据x_j(t)经过所述编码模型、第i个所述预设的生成模块以及第i个所述预设的掩码模块处理后对应获得的第i个训练源音频特征表征，j＝1，2，…，N，i＝1，2，…，M，k＝1，2，…，M；

表示

所对应的矩阵中的第p行、第q列的元素；

表示第j个混合音频训练数据x_j(t)经过所述编码模型、第i个所述预设的生成模块、第i个所述预设的掩码模块以及所述解码模型处理后对应获得的第i个训练源音频数据。

为了解决上述技术问题，本发明实施例还提供了一种音频音源分离装置，包括：

混合音频数据获取单元，用于获取待分离的混合音频数据；

混合音频数据编码单元，用于通过训练后的编码模型对所述待分离的混合音频数据进行编码，获得编码特征表征；

源音频特征获取单元，用于将所述编码特征表征输入至训练后的生成网络模型中，获得源音频特征表征；

源音频特征解码单元，用于通过训练后的解码模型对所述源音频特征表征进行解码，获得音源分离结果。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一项所述的音频音源分离方法。

本发明实施例还提供了一种电子设备，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现上述任一项所述的音频音源分离方法。

与现有技术相比，本发明实施例提供了一种音频音源分离方法、装置、计算机可读存储介质及电子设备，首先，获取待分离的混合音频数据，接着，通过训练后的编码模型对所述待分离的混合音频数据进行编码，获得编码特征表征，并将所述编码特征表征输入至训练后的生成网络模型中，获得源音频特征表征，最后，通过训练后的解码模型对所述源音频特征表征进行解码，获得音源分离结果；本发明实施例中所使用的训练后的编码模型、生成网络模型和解码模型具有较强的泛化能力，从而提高了音源分离结果的准确性。

附图说明

图1是本发明提供的一种音频音源分离方法的一个优选实施例的流程图；

图2是本发明提供的一种音频音源分离装置的一个优选实施例的结构框图；

图3是本发明提供的一种电子设备的一个优选实施例的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本技术领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种音频音源分离方法，参见图1所示，是本发明提供的一种音频音源分离方法的一个优选实施例的流程图，所述方法包括步骤S11至步骤S14：

步骤S11、获取待分离的混合音频数据；

步骤S12、通过训练后的编码模型对所述待分离的混合音频数据进行编码，获得编码特征表征；

步骤S13、将所述编码特征表征输入至训练后的生成网络模型中，获得源音频特征表征；

步骤S14、通过训练后的解码模型对所述源音频特征表征进行解码，获得音源分离结果。

具体的，在执行步骤S11至步骤S14之前，本发明实施例预先训练好了相应的音源分离模型以供后续使用，本发明实施例中所采用的音源分离模型由训练后的编码模型、训练后的解码模型和训练后的生成网络模型构成，在对混合音频中的源音频进行音源分离时，首先，获取待分离的混合音频数据，接着，将获得的待分离的混合音频数据输入至训练后的编码模型中，通过训练后的编码模型对待分离的混合音频数据进行自动编码，相应获得待分离的混合音频数据所对应的高维空间中的编码特征表征，然后，将获得的编码特征表征输入至训练后的生成网络模型中进行音源分离，相应获得待分离的混合音频数据所对应的高维空间中的源音频特征表征，最后，将获得的源音频特征表征输入至训练后的解码模型中，通过训练后的解码模型对源音频特征表征进行自动解码，相应获得音源分离结果，即混合音频数据中的源音频分离完成。

其中，待分离的混合音频数据可以为直接根据音频时域波形获得的混合音频数据，也可为对时域波形进行时频域转换后的时频域音频特征数据，包括但不限于logmel频谱、梅尔频率倒谱系数MFCC以及CQT声谱等。

需要说明的是，本发明实施例中所采用的编码-解码方法与现有技术中常用的编码-解码方法不同，现有技术中所采用的编码-解码模型一般是一个模型，通常将编码后的输出直接作为解码的输入，通过解码得到相应的结果，即编码-解码处理流程是一体化的流程，而本发明实施例的目的在于分离混合音频中的源音频，故在模型处理流程上与一般的编码-解码模型不同，本发明实施例中所采用的编码模型和解码模型是两个独立的模型，由编码模型对混合音频数据进行编码处理后的输出，需要先经过生成网络模型进行音源分离，再将分离得到的源音频特征表征作为解码模型的输入，通过解码模型进行解码处理，以得到混合音频数据中的源音频数据。

进一步的，虽然本发明实施例中的编码-解码处理流程并不是一体化的流程，但是，为了保证音源分离的有效性(即混合音频长度与源音频长度相同)，需要保证解码模型的输出向量的维度与编码模型的输入向量的维度相同，以达到分离音频的目的；例如，利用卷积神经网络CNN搭建编码-解码模型，其编码模型中的运算一般为卷积运算，相应的解码模型中的运算则为反卷积运算。

假设编码模型的输入向量的维度为(5，5)，编码模型为3个隐藏单元的循环神经网络RNN，则编码模型的输出向量的维度为(5，3)，编码模型的输出作为生成网络模型的输入，由于生成网络模型的输入向量与输出向量的维度相同，故生成网络模型的输出向量的维度为(5，3)，然后将生成网络模型的输出经过由5个隐藏单元的RNN构成的解码模型进行自动解码，则得到解码模型的输出向量的维度为(5，5)；与上文中的卷积运算以及反卷积运算类似，只需通过专门设计的网络即可实现解码模型的输出向量的维度与编码模型的输入向量的维度相同。

另外，本发明实施例可以适用于各种混合音频数据，例如，单通道混合音频数据，单通道音频是音频格式中信息量最少的音频格式，在此情况下，本发明实施例仍然可以有效的工作。

本发明实施例所提供的一种音频音源分离方法，通过训练后的编码模型对待分离的混合音频数据进行编码，相应获得编码特征表征，通过训练后的生成网络模型对编码特征表征进行音源分离，相应获得源音频特征表征，通过训练后的解码模型对源音频特征表征进行解码，相应获得音源分离结果；所使用的训练后的编码模型、生成网络模型和解码模型具有较强的泛化能力，从而提高了音源分离结果的准确性。

作为上述方案的改进，所述编码模型至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成；所述解码模型至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成。

具体的，结合上述实施例，编码模型可以由深度神经网络DNN、卷积神经网络CNN、长短期记忆网络LSTM、门控循环神经网络GRU、循环神经网络RNN和注意力机制模型等网络中的一种或几种构成，解码模型可以由深度神经网络DNN、卷积神经网络CNN、长短期记忆网络LSTM、门控循环神经网络GRU、循环神经网络RNN和注意力机制模型等网络中的一种或几种构成。

其中，编码模型的公式为：h(x)＝E(x(t))，x(t)表示待分离的混合音频数据，E(·)表示编码模型，h(x)表示待分离的混合音频数据x(t)经过编码模型进行自动编码后获得的编码特征表征。

解码模型的公式为：

表示编码特征表征经过生成网络模型处理后获得的源音频特征表征，D(·)表示解码模型，

表示源音频特征表征

经过解码模型D(·)进行自动解码后获得的分离后的源音频数据。

以采用LSTM构成编码模型和解码模型为例，在编码模型中，待分离的混合音频数据x(t)经过多个LSTM层进行运算，得到编码特征表征h(x)，在解码模型中，源音频特征表征

经过多个LSTM层进行运算，得到分离后的源音频数据

可以理解的，编码模型和解码模型具体所采用的构成网络可以相同，也可以不相同，只需要保证解码模型的输出向量的维度与编码模型的输入向量的维度相同即可，为了设计方便，可以采用相同的网络构成编码模型和解码模型。

需要说明的是，常用的编码-解码模型，如seq2seq模型，其编码模型与解码模型均为LSTM模型，但是，由于seq2seq模型过大，无法在实际设备端部署，本发明实施例在实际应用时可以使用自行设计的RNN网络搭建相应的编码模型和解码模型。

在另一个优选实施例中，所述方法预先通过以下步骤对所述编码模型和所述解码模型进行训练：

具体的，结合上述实施例，本发明实施例在预先训练编码模型和解码模型时，首先，根据真实环境下采集的混合音频获取混合音频训练数据集，该混合音频训练数据集中包括N个混合音频训练数据{x₁(t),x₂(t),...,x_j(t),...,x_N(t)}，接着，将获得的N个混合音频训练数据{x₁(t),x₂(t),...,x_j(t),...x_N(t)}输入至预先构建的编码模型中进行自动编码，并将自动编码的输出结果输入至预先构建的解码模型中进行自动解码，对应获得N个混合音频估计数据

最后，利用预先设置的均方误差函数(Mean Square Error，MSE)作为损失函数对预先构建的编码模型和预先构建的解码模型进行训练，其中，均方误差损失函数的公式为：

x_j(t)表示N个混合音频训练数据中的第j个混合音频训练数据，

表示第j个混合音频训练数据x_j(t)经过依次编码模型和解码模型处理后对应获得的第j个混合音频估计数据，j＝1，2，…，N。

可以理解的，当根据均方误差损失函数

对编码模型和解码模型进行训练时，一般来说，L_mse会随着训练的进行逐渐变小，则可以自定义一个训练代数，如训练100代后停止训练，或者，也可以计算前后两次训练所对应的L_mse的变化量，若变化量过小，如小于10^-5，则说明已经收敛，可以停止训练，本发明实施例对具体的停止训练条件不做具体限定。

本发明实施例所提供的一种音频音源分离方法，使用真实环境下采集的大量的混合音频数据，并通过网络自行学习更便于计算机理解的音频特征而非人工设计特征，使得训练后的编码模型和训练后的解码模块的通用性更加广泛。

在又一个优选实施例中，所述生成网络模型包括生成模块和掩码模块；

具体的，结合上述实施例，训练后的生成网络模型由生成模块和掩码模块两部分构成，在通过训练后的编码模型相应获得待分离的混合音频数据所对应的编码特征表征之后，先将获得的编码特征表征输入至训练后的生成网络模型的生成模块中，相应获得待分离的混合音频数据中的源音频所对应的初始源音频数据，并且，将获得的编码特征表征输入至训练后的生成网络模型的掩码模块中，相应获得待分离的混合音频数据中的源音频所对应的源音频位置掩码数据，再根据获得的待分离的混合音频数据中的源音频所对应的初始源音频数据和源音频位置掩码数据进行运算，相应获得待分离的混合音频数据中的源音频所对应的源音频特征表征。

需要说明的是，训练后的生成网络模型由若干个生成模块和若干个掩码模块构成，并且一个生成模块与一个掩码模块对应为一组，生成网络模型中的总组数可以根据实际应用场景中可能出现的源音频的个数进行设置，也可以提前设置为一个较大值，例如，设置总组数为M(M＞1)，其中，生成模块的作用为初步生成源音频的高维特征，而不关心其出现的时间节点，由于源音频通常不会出现于整个音频时间，因此掩码模块的作用为输出源音频的激活与静默位置掩码，相应的，在第i(i＝1，2，…，M)组生成模块和掩码模块中，第i个生成模块将编码模型的输出h(x)作为输入，输出得到混合音频数据中的第i个源音频所对应的初始源音频数据

第i个掩码模块将编码模型的输出h(x)作为输入，输出得到混合音频数据中的第i个源音频所对应的源音频位置掩码数据m_i(x)，将第i个生成模块和第i个掩码模块的输出按照矩阵元素位置乘法进行相乘，即得到预测的第i个源音频所对应的高维空间中的源音频特征表征

即有

⊙为Hadamard乘积的运算符号，表示矩阵中的对应位置元素相乘。

作为上述方案的改进，所述生成模块至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成；所述掩码模块至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成。

具体的，结合上述实施例，生成模块可以由深度神经网络DNN、卷积神经网络CNN、长短期记忆网络LSTM、门控循环神经网络GRU、循环神经网络RNN和注意力机制模型等网络中的一种或几种构成，掩码模块可以由深度神经网络DNN、卷积神经网络CNN、长短期记忆网络LSTM、门控循环神经网络GRU、循环神经网络RNN和注意力机制模型等网络中的一种或几种构成。

可以理解的，生成模块和掩码模块具体所采用的构成网络可以相同，也可以不相同，为了设计方便，可以采用相同的网络构成生成模块和掩码模块。

作为上述方案的改进，所述生成模块包括降采样层、过渡层和升采样层；所述掩码模块包括降采样层、过渡层、升采样层和二值化处理层；其中，所述二值化处理层用于对所述掩码模块的升采样层的输出进行二值化处理。

具体的，结合上述实施例，生成模块的结构从功能上可以分为三部分：降采样部分、跳跃连接部分和升采样部分，相应的，生成模块包括若干层降采样层、一层过渡层和若干层升采样层，利用降采样部分与升采样部分可以使生成模块学习到不同尺寸的特征含义，利用跳跃连接部分可以使生成模块同时学习到不同层次(浅层与深层)的特征含义。

假设生成模块包括T层降采样层、一层过渡层和T层升采样层，首先，将编码特征表征h(x)输入至生成模块的降采样部分，得到不同降采样层的输出，具体公式为：

其中，DOWM_t(·)表示第t层降采样层，d_t(x)表示第t层降采样层的输出，1＜t≤T；接着，将第T层降采样层的输出d_T(x)经过一层过渡层，得到第1层升采样层的输入，具体公式为：u(x)＝Tran(d_T(x))，其中，Tran(·)表示过渡层，u(x)表示第1层升采样层的输入；然后，将u(x)输入至生成模块的升采样部分，得到不同的升采样层的输出，具体公式为：

其中，UP_t(·)表示第t层升采样层，u_t(x)表示第t层升采样层的输出，1＜t≤T。

掩码模块包括若干层降采样层、一层过渡层、若干层升采样层和一层二值化处理层，且掩码模块中的降采样层、过渡层和升采样层的功能以及处理流程与生成模块中的降采样层、过渡层和升采样层的功能以及处理流程对应相同，这里不再赘述。

掩码模块与生成模块的区别之处在于，由于掩码模块的作用为找出源音频在混合音频中激活与静默的位置掩码，其最好为0-1掩码，因此，可以在掩码模块中额外设置一层二值化处理层，以将掩码模块的最后一层升采样层的输出进行二值化处理，二值化处理层可以采用sigmoid函数，具体公式为：

其中，u_T(t)表示掩码模块的第T层升采样层的输出。

需要说明的是，第i个生成模块的第T层升采样层的输出即为上述实施例中的混合音频数据中的第i个源音频所对应的初始源音频数据

第i个掩码模块的二值化处理层的输出即为上述实施例中的混合音频数据中的第i个源音频所对应的源音频位置掩码数据m_i(x)。

另外，本发明实施例中的术语“降采样”、“升采样”为从功能上解释对应网络层操作的意义，其中，降采样的具体运算形式可以有很多，由于其主要目的为使维度减少，例如可以使用卷积层(CNN)作为降采样层，假设输入向量的维度为(5，5)，将其通过3*3的卷积操作可得到的输出向量的维度为(3，3)，即达到减少维度的目的；又如使用RNN层作为降采样层，将维度为(5，5)的输入向量通过3个隐藏单元的RNN可得到维度为(5，3)的输出向量，通过多个操作即可将维度逐渐减少以得到不同尺寸的特征；升采样同理，这里不再赘述。

在又一个优选实施例中，所述方法预先通过以下步骤对所述生成网络模型进行训练：

|| ||_F表示F-范数，λ₁和λ₂表示归一化因子，

表示

所对应的矩阵中的第p行、第q列的元素；

具体的，结合上述实施例，本发明实施例在预先训练生成网络模型时，首先，根据真实环境下采集的混合音频获取混合音频训练数据集，该混合音频训练数据集中包括N个混合音频训练数据{x₁(t),x₂(t),...,x_j(t),...,x_N(t)}，接着，通过训练后的编码模型对N个混合音频训练数据{x₁(t),x₂(t),...,x_j(t),...,x_N(t)}进行自动编码，对应获得N个训练编码特征表征，并将获得的N个训练编码特征表征输入至预先构建的生成网络模型(包括M个预设的生成模块和M个预设的掩码模块，M＞1)中进行音源分离，对应获得N*M个训练源音频特征表征，然后，通过训练后的解码模型对获得的N*M个训练源音频特征表征进行自动解码，相应获得N*M个训练源音频数据，最后，利用预先设置的损失函数L＝L_ex+L_tc+L_mc对预先构建的生成网络模型进行训练。

需要说明的是，本发明实施例在预先训练生成网络模型的过程中利用了上述实施例中的训练后的编码模型和训练后的解码模型，并且仅对生成网络模型中的相关参数进行训练学习调整，而编码模型和解码模型则保持不变；进一步的，在实际训练过程中，由于生成网络模型中包括M个生成模块和M个掩码模块，因此，一个混合音频训练数据通过生成网络模型即可得到M个训练源音频特征表征，N个混合音频训练数据通过生成网络模块可得到N*M个训练源音频特征表征。

其中，L_ex表示预先设置的互斥损失函数，为了保证生成网络模型的输出具有最大差异化的特征(即理想情况下生成网络模型的输出分别表示不同的音频类别，而非随意将混合音频进行分解)，使用互斥损失函数使其差异最大化，且互斥损失函数的具体公式为：

|| ||_F表示F-范数，λ₁和λ₂表示归一化因子，

表示N个混合音频训练数据中的第j个混合音频训练数据x_j(t)经过训练后的编码模型、第i个预设的生成模块以及第i个预设的掩码模块依次处理后对应获得的第i个训练源音频特征表征，j＝1，2，…，N，i＝1，2，…，M，k＝1，2，…，M；

L_tc表示预先设置的时间连续损失函数，为了保证预测的源音频不失真，从另一方面保证差异最大化以及时频域平稳，除了使用互斥损失函数之外，还可以使用时间连续损失函数进行学习，且时间连续损失函数的具体公式为：

实际上为二维矩阵，

则表示第i个训练源音频特征表征

所对应的矩阵中的第p行、第q列的元素；

L_mc表示预先设置的预测源音频与原混合音频差值最小化函数，为了保证预测的源音频能够组成原混合音频，还可以使用预测源音频与原混合音频差值最小化函数进行学习，且预测源音频与原混合音频差值最小化函数的具体公式为：

表示N个混合音频训练数据中的第j个混合音频训练数据x_j(t)经过训练后的编码模型、第i个预设的生成模块、第i个预设的掩码模块以及训练后的解码模型依次处理后对应获得的第i个训练源音频数据。

可以理解的，当根据损失函数L＝L_ex+L_tc+L_mc对预先构建的生成网络模型进行训练时，一般来说，损失函数L会随着训练的进行逐渐变小，则可以自定义一个训练代数，如训练100代后停止训练，或者，也可以计算前后两次训练所对应的损失函数L的变化量，若变化量过小，如小于10^-5，则说明已经收敛，可以停止训练，本发明实施例对具体的停止训练条件不做具体限定。

本发明实施例所提供的一种音频音源分离方法，使用真实环境下采集的大量的混合音频数据，并以无监督学习的方式对生成网络模型进行训练，使得训练后的生成网络模型的通用性更加广泛，同时，将生成网络模型划分为生成模块和掩码模块两部分，分别用于解决源音频类型问题和源音频出现位置问题，使得模型更有效的进行学习，此外，在通用的损失函数L_mc的基础上，增加了用于使各个源音频具有差异化特征的损失函数L_ex和L_tc，保证了在没有真实源音频数据的情况下，模型仍然能够获得准确的音源分离结果。

本发明实施例还提供了一种音频音源分离装置，参见图2所示，是本发明提供的一种音频音源分离装置的一个优选实施例的结构框图，所述装置包括：

混合音频数据获取单元11，用于获取待分离的混合音频数据；

混合音频数据编码单元12，用于通过训练后的编码模型对所述待分离的混合音频数据进行编码，获得编码特征表征；

源音频特征获取单元13，用于将所述编码特征表征输入至训练后的生成网络模型中，获得源音频特征表征；

源音频特征解码单元14，用于通过训练后的解码模型对所述源音频特征表征进行解码，获得音源分离结果。

优选地，所述编码模型至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成；所述解码模型至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成。

优选地，所述装置还包括编码-解码模型训练单元，所述编码-解码模型训练单元用于：

优选地，所述生成网络模型包括生成模块和掩码模块；

则，所述源音频特征获取单元13具体包括：

初始源音频获取子单元，用于将所述编码特征表征输入至所述生成模块中，获得初始源音频数据；

位置掩码获取子单元，用于将所述编码特征表征输入至所述掩码模块中，获得源音频位置掩码数据；

源音频特征获取子单元，用于根据所述初始源音频数据和所述源音频位置掩码数据，获得所述源音频特征表征。

优选地，所述生成模块至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成；所述掩码模块至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成。

优选地，所述生成模块包括降采样层、过渡层和升采样层；所述掩码模块包括降采样层、过渡层、升采样层和二值化处理层；其中，所述二值化处理层用于对所述掩码模块的升采样层的输出进行二值化处理。

优选地，所述装置还包括生成网络模型训练单元，所述生成网络模型训练单元用于：

|| ||_F表示F-范数，λ₁和λ₂表示归一化因子，

表示

所对应的矩阵中的第p行、第q列的元素；

需要说明的是，本发明实施例所提供的一种音频音源分离装置，能够实现上述任一实施例所述的音频音源分离方法的所有流程，装置中的各个单元、子单元的作用以及实现的技术效果分别与上述实施例所述的音频音源分离方法的作用以及实现的技术效果对应相同，这里不再赘述。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述任一实施例所述的音频音源分离方法。

本发明实施例还提供了一种电子设备，参见图3所示，是本发明提供的一种电子设备的一个优选实施例的结构框图，所述电子设备包括处理器10、存储器20以及存储在所述存储器20中且被配置为由所述处理器10执行的计算机程序，所述处理器10在执行所述计算机程序时实现上述任一实施例所述的音频音源分离方法。

优选地，所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序1、计算机程序2、······)，所述一个或者多个模块/单元被存储在所述存储器20中，并由所述处理器10执行，以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述所述计算机程序在所述电子设备中的执行过程。

所述处理器10可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，通用处理器可以是微处理器，或者所述处理器10也可以是任何常规的处理器，所述处理器10是所述电子设备的控制中心，利用各种接口和线路连接所述电子设备的各个部分。

所述存储器20主要包括程序存储区和数据存储区，其中，程序存储区可存储操作系统、至少一个功能所需的应用程序等，数据存储区可存储相关数据等。此外，所述存储器20可以是高速随机存取存储器，还可以是非易失性存储器，例如插接式硬盘，智能存储卡(Smart Media Card，SMC)、安全数字(Secure Digital，SD)卡和闪存卡(Flash Card)等，或所述存储器20也可以是其他易失性固态存储器件。

需要说明的是，上述电子设备可包括，但不仅限于，处理器、存储器，本领域技术人员可以理解，图3结构框图仅仅是上述电子设备的示例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件。

综上，本发明实施例所提供的一种音频音源分离方法、装置、计算机可读存储介质及电子设备，通过训练后的编码模型对待分离的混合音频数据进行编码，相应获得编码特征表征，通过训练后的生成网络模型对编码特征表征进行音源分离，相应获得源音频特征表征，通过训练后的解码模型对源音频特征表征进行解码，相应获得音源分离结果，从而能够从混合音频中分离出不同类别的源音频，并且利用了大量的真实场景中的混合音频数据，结合深度学习技术对编码模型、生成网络模型和解码模型进行训练，使得模型具有较强的泛化能力，可以适用于常见的多种混合音频场景，从而提高了音源分离结果的准确性。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种音频音源分离方法，其特征在于，包括：

获取待分离的混合音频数据；

2.如权利要求1所述的音频音源分离方法，其特征在于，所述编码模型至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成；所述解码模型至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成。

3.如权利要求1或2所述的音频音源分离方法，其特征在于，所述方法预先通过以下步骤对所述编码模型和所述解码模型进行训练：

4.如权利要求1所述的音频音源分离方法，其特征在于，所述生成网络模型包括生成模块和掩码模块；

5.如权利要求4所述的音频音源分离方法，其特征在于，所述生成模块至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成；所述掩码模块至少由深度神经网络、卷积神经网络、长短期记忆网络、门控循环神经网络、循环神经网络和注意力机制模型中的至少一种构成。

6.如权利要求4所述的音频音源分离方法，其特征在于，所述生成模块包括降采样层、过渡层和升采样层；所述掩码模块包括降采样层、过渡层、升采样层和二值化处理层；其中，所述二值化处理层用于对所述掩码模块的升采样层的输出进行二值化处理。

7.如权利要求4所述的音频音源分离方法，其特征在于，所述方法预先通过以下步骤对所述生成网络模型进行训练：

|| ||_F表示F-范数，λ₁和λ₂表示归一化因子，

表示

所对应的矩阵中的第p行、第q列的元素；

8.一种音频音源分离装置，其特征在于，包括：

混合音频数据获取单元，用于获取待分离的混合音频数据；

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的计算机程序；其中，所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1～7任一项所述的音频音源分离方法。

10.一种电子设备，其特征在于，包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序，所述处理器在执行所述计算机程序时实现如权利要求1～7任一项所述的音频音源分离方法。