CN114446318A

CN114446318A - 音频数据分离方法、装置、电子设备及存储介质

Info

Publication number: CN114446318A
Application number: CN202210120055.0A
Authority: CN
Inventors: 李晨星; 邓峰; 王晓瑞
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2022-02-07
Filing date: 2022-02-07
Publication date: 2022-05-06

Abstract

本公开关于一种音频数据分离方法、装置、电子设备和存储介质。该方法包括：对待处理音频数据进行变换处理，得到所述待处理音频数据对应的频谱特征，其中，所述待处理音频数据包括多种音频类型的目标音频信息；通过音频分离网络对所述频谱特征进行分离处理，得到所述待处理音频数据中各所述目标音频信息对应的预测频谱特征，其中，所述音频分离网络为基于编解码结构的卷积自注意力机制模型；对各所述目标音频信息对应的预测频谱特征进行反变换处理，得到所述待处理音频数据中的各所述目标音频信息。采用本公开可以提高音频分离效率和音频分离精度。

Description

音频数据分离方法、装置、电子设备及存储介质

技术领域

本公开涉及多媒体技术领域，尤其涉及一种音频数据分离方法、装置、电子设备和存储介质。

背景技术

日常生活中存在从混合音频中分离出固定类型的声音的需求。例如：麦克风收集的音频数据通常由多种声源组成，例如语音、音乐和背景噪音等，这些声音信号的混合会造成音频质量降低，例如：若音频中混合有歌声，会使对音频的语音识别造成干扰，进而使得语音识别失败或者降低语音识别精度。

相关技术中可以采用卷积网络或循环神经网络进行音频数据分离，也即从混合音频中分离出各种目标音频信息，例如：从混合音频中分别分离出语音、音乐和背景噪音等目标音频信息。

当目标音频信息为具有上下文相关性的音频信息时，由于卷积网络的感受野是固定的，故而卷积网络缺乏捕获全局依赖性的能力，由此会导致分离精度较低，分离效果较差。而循环神经网络虽然可以捕获音频信号的长期依赖关系，但此类网络的复杂度很高，对音频数据的分离效率较低。

发明内容

本公开提供一种音频数据分离方法、装置、电子设备和存储介质，以至少解决相关技术中分离效率较低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种音频数据分离方法，包括：

对待处理音频数据进行变换处理，得到所述待处理音频数据对应的频谱特征，其中，所述待处理音频数据包括多种音频类型的目标音频信息；

通过音频分离网络对所述频谱特征进行分离处理，得到所述待处理音频数据中各所述目标音频信息对应的预测频谱特征，其中，所述音频分离网络为基于编解码结构的卷积自注意力机制模型；

对各所述目标音频信息对应的预测频谱特征进行反变换处理，得到所述待处理音频数据中的各所述目标音频信息。

在其中一个实施例中，所述音频分离网络包括编码器、注意力模块及与所述多种音频类型一一对应的多个解码器，所述通过音频分离网络对所述频谱特征进行分离处理，得到所述待处理音频数据中各所述目标音频信息对应的预测频谱特征，包括：

通过所述编码器对所述频谱特征进行编码处理，得到所述待处理音频数据的音频特征；

通过所述注意力模块对所述音频特征进行特征提取，得到各所述目标音频信息对应的注意力特征；

分别通过各所述目标音频信息对应的解码器对各所述目标音频信息对应的所述注意力特征进行解码处理，得到各所述目标音频信息对应的预测频谱特征。

在其中一个实施例中，所述编码器及所述解码器均通过卷积自注意力机制模型构建得到，所述卷积自注意力机制模型包括特征激励层，所述特征激励层用于从空间维度和卷积通道维度进行特征学习。

在其中一个实施例中，所述注意力模块包括与所述多种音频类型一一对应的多个注意力机制，所述注意力机制包括卷积模块和第一特征归一化模块，所述通过所述注意力模块对所述音频特征进行特征提取，得到各所述目标音频信息对应的注意力特征，包括：

针对任一所述注意力机制，通过所述注意力机制中的卷积模块对所述音频特征进行特征提取，得到所述注意力机制对应的目标音频信息的初始注意力特征；

通过所述注意力机制中的第一特征归一化模块对所述初始注意力特征进行归一化处理，得到归一化的初始注意力特征，将所述归一化的初始注意力特征与所述音频特征进行融合，得到所述注意力机制对应的目标音频信息的注意力特征。

在其中一个实施例中，在所述通过音频分离网络对所述频谱特征进行分离处理，得到所述待处理音频数据中各所述目标音频信息对应的预测频谱特征之前，所述方法还包括：

获取样本组，所述样本组包括所述样本音频数据和所述样本音频数据的标注信息，所述样本音频数据的标注信息包括用于构成所述样本音频数据的N种音频类型的样本目标音频信息；

采用所述训练集中的样本组训练初始音频分离网络，得到所述音频分离网络。

在其中一个实施例中，所述采用所述训练集中的样本组训练初始音频分离网络，得到所述音频分离网络，包括：

对所述样本组中的所述样本音频数据进行变换处理，得到所述样本音频数据的样本频谱特征；

通过初始音频分离网络对所述样本频谱特征进行分离处理，得到所述样本音频数据中各所述样本目标音频信息对应的样本频谱特征；

对各所述样本目标音频信息对应的样本频谱特征进行反变换处理，得到多个预测目标音频信息；

根据所述多个预测目标音频信息与所述样本音频数据对应的多个样本目标音频信息，确定所述初始音频分离网络的分离损失；

根据所述分离损失训练所述初始音频分离网络，得到所述音频分离网络。

在其中一个实施例中，所述根据所述多个预测目标音频信息与所述样本音频数据对应的多个样本目标音频信息，确定所述初始音频分离网络的分离损失，包括：

根据各所述预测目标音频信息与所述样本音频数据对应的各所述样本目标音频信息，确定所述初始音频分离网络的第一损失和第二损失，所述第一损失用于表征所述预测目标音频信息与所述样本目标音频信息之间的差异，所述第二损失用于表征所述预测目标音频信息之间的差异；

对所述第一损失及所述第二损失进行融合处理，得到所述初始音频分离网络的分离损失。

根据本公开实施例的第二方面，提供一种音频数据分离装置，包括：

第一变换单元，被配置为执行对待处理音频数据进行变换处理，得到所述待处理音频数据对应的频谱特征，其中，所述待处理音频数据包括多种音频类型的目标音频信息；

第一分离单元，被配置为执行通过音频分离网络对所述频谱特征进行分离处理，得到所述待处理音频数据中各所述目标音频信息对应的预测频谱特征，其中，所述音频分离网络为基于编解码结构的卷积自注意力机制模型；

第一反变换单元，被配置为执行对各所述目标音频信息对应的预测频谱特征进行反变换处理，得到所述待处理音频数据中的各所述目标音频信息。

在其中一个实施例中，所述音频分离网络包括编码器、注意力模块及与所述多种音频类型一一对应的多个解码器，所述分离单元，还被配置为执行：

在其中一个实施例中，所述注意力模块包括与所述多种音频类型一一对应的多个注意力机制，所述注意力机制包括卷积模块和第一特征归一化模块，所述分离单元，还被配置为执行：

在其中一个实施例中，所述装置还包括：

获取单元，被配置为执行获取样本组，所述样本组包括所述样本音频数据和所述样本音频数据的标注信息，所述样本音频数据的标注信息包括用于构成所述样本音频数据的多种音频类型的样本目标音频信息；

第二变换单元，被配置为执行对所述样本组中的所述样本音频数据进行变换处理，得到所述样本音频数据的样本频谱特征；

第二分离单元，被配置为执行通过初始音频分离网络对所述样本频谱特征进行分离处理，得到所述样本音频数据中各所述样本目标音频信息对应的样本频谱特征；

第二反变换单元，被配置为执行对各所述样本目标音频信息对应的样本频谱特征进行反变换处理，得到多个预测目标音频信息；

确定单元，被配置为执行根据所述多个预测目标音频信息与所述样本音频数据对应的N个样本目标音频信息，确定所述初始音频分离网络的分离损失；

训练单元，被配置为执行根据所述分离损失训练所述初始音频分离网络，得到所述音频分离网络。

在其中一个实施例中，所述确定单元，还被配置为执行：

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现第一方面中提供的任一项音频数据分离方法。

根据本公开实施例的第四方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行第一方面中提供的任一项音频数据分离方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述计算机程序产品中包括指令，所述指令被电子设备的处理器执行时，使得所述电子设备能够执行第一方面中提供的任一项音频数据分离方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

本公开实施例提供一种音频数据分离方法、装置、电子设备和存储介质，可以对待处理音频数据进行变换处理，得到待处理音频数据对应的频谱特征，其中，待处理音频数据包括多种音频类型的目标音频信息。进一步的，可以通过音频分离网络对频谱特征进行分离处理，得到待处理音频数据中各目标音频信息对应的预测频谱特征，其中，音频分离网络为基于编解码结构的卷积自注意力机制模型。再进一步的，可以对各目标音频信息对应的预测频谱特征进行反变换处理，得到待处理音频数据中的各目标音频信息。基于本公开实施例提供的音频数据分离方法、装置、电子设备和存储介质，可以通过基于编解码结构的卷积自注意力机制模型构建的音频分离网络实现对待处理音频数据的音频分离，得到待处理音频数据中的各目标音频信息，由于基于编解码结构的卷积自注意力机制模型构建的音频分离网络可以同时获取待处理音频数据的局部特征和全局依赖信息，因而本公开实施例提高音频分离的精度，提高音频分离效果，且由于音频分离不使用循环神经网络，故可以降低网络复杂度，提高音频分离效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种音频数据分离方法的流程图。

图2是根据一示例性实施例示出的一种音频分离网络的结构框图。

图3是根据一示例性实施例示出的步骤104的流程图。

图4是根据一示例性实施例示出的一种卷积自注意力机制模型的结构框图。

图5是根据一示例性实施例示出的一种注意力模块的结构框图。

图6是根据一示例性实施例示出的步骤304的流程图。

图7是根据一示例性实施例示出的一种音频数据分离方法的流程图。

图8是根据一示例性实施例示出的步骤710的流程图。

图9是根据一示例性实施例示出的一种音频数据分离装置的框图。

图10是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

还需要说明的是，本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

在一个实施例中，如图1所示，提供了一种音频数据分离方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

在步骤102中，对待处理音频数据进行变换处理，得到待处理音频数据对应的频谱特征，其中，待处理音频数据包括多种音频类型的目标音频信息。

本公开实施例中，待处理音频数据可以为包括多种声音信号的混合音频数据，其中至少包括多种音频类型的目标音频信息，本公开实施例中不对待处理音频数据所包含的音频类型的数量做具体限定。示例性的，待处理音频数据中可以包括3种音频类型：语音、音乐、背景噪声，则待处理音频数据中的目标音频信息包括：语音类型的语音音频信息、音乐类型的音乐音频信息和背景噪声类型的背景噪声的音频信息。

举例来说，可以通过对待处理音频数据进行变换处理，得到待处理音频数据对应的频谱特征。示例性的，可以采用短时傅里叶变换对待处理音频数据进行转换，得到待处理音频数据对应的频谱特征。本公开实施例中不对得到频谱特征的变换处理的方式做具体限定，任一可以将待处理音频数据变换为对应的频谱特征的方式均适用于本公开实施例中，例如：小波变换、基于神经网络的非线性变换、梅尔谱特征变换等变换方式。

在步骤104中，通过音频分离网络对频谱特征进行分离处理，得到待处理音频数据中各目标音频信息对应的预测频谱特征，其中，音频分离网络为基于编解码结构的卷积自注意力机制模型。

本公开实施例中，可以预先训练音频分离网络，音频分离网络可以为基于编解码结构的conformer(Convolution-augmented Transformer for Speech Recognition，卷积自注意力机制模型)模型构建的网络，该音频分离网络可以用于对待处理音频数据进行音频分离，其输入信息是待处理音频数据的频谱特征，输出信息是待处理音频数据中的多个目标音频信息对应的预测频谱特征。其中，本公开实施例中不对音频分离网络的训练过程进行赘述，任一神经网络的训练方式均适用于音频分离网络的训练。

在一个示例中，还可以将各解码器的输出与音频特征进行融合(例如：矩阵相乘、拼接、非线性变换等方式，本公开实施例中不对融合的具体方式做具体限定，以下实施例中不再特殊说明)，得到待处理音频数据中多个目标音频信息对应的预测频谱特征。

在得到待处理音频数据的频谱特征之后，可以将待处理音频数据的频谱特征输入该音频分离网络做分离处理，得到待处理音频数据中各目标音频信息对应的预测频谱特征。例如：在待处理音频数据中包括语音、音乐和背景噪音3种音频类型的情况下，通过音频分离网络对待处理音频数据的频谱特征做分离处理后，可以得到待处理音频数据中语音音频信息对应的预测频谱特征1、音乐音频信息对应的预测频谱特征2和背景噪音音频信息对应的预测频谱特征3。

在步骤106中，对各目标音频信息对应的预测频谱特征进行反变换处理，得到待处理音频数据中的各目标音频信息。

本公开实施例中，在得到待处理音频数据中各目标音频信息对应的预测频谱特征后，可以分别对各目标音频信息对应的预测频谱特征进行反变换处理，得到待处理音频数据中的各目标音频信息。其中，反变换处理的方式为前述针对待处理音频数据进行的变换处理的逆变换，示例性的，在变换处理为短时傅里叶变换的情况下，反变换处理可以为逆傅里叶变换，也即可以采用逆傅里叶变换对各预测频谱特征进行反变换处理，可以得到待处理音频数据中的各目标音频信息，此时即完成从待处理音频数据中分离得到多个目标音频信息。

示例性的，仍以前述示例为例，则可以对预测频谱特征1进行反变换处理，得到待处理音频数据中的语音音频信息、对预测频谱特征2进行反变换处理，得到待处理音频数据中的音乐音频信息、对预测频谱特征3进行反变换处理，得到待处理音频数据中的背景噪音音频信息。

本公开实施例提供一种音频数据分离方法，可以对待处理音频数据进行变换处理，得到待处理音频数据对应的频谱特征，其中，待处理音频数据至少包括多种音频类型的目标音频信息。进一步的，可以通过音频分离网络对频谱特征进行分离处理，得到待处理音频数据中各目标音频信息对应的预测频谱特征，其中，音频分离网络为基于解码结构的卷积自注意力机制模型构建的网络。再进一步的，可以对各目标音频信息对应的预测频谱特征进行反变换处理，得到待处理音频数据中的各目标音频信息。基于本公开实施例提供的音频数据分离方法，可以通过基于解码结构的卷积自注意力机制模型构建的音频分离网络实现对待处理音频数据的音频分离，得到待处理音频数据中的各目标音频信息，由于基于解码结构的卷积自注意力机制模型构建的音频分离网络可以同时获取待处理音频数据的局部特征和全局依赖信息，因而本公开实施例提高音频分离的精度，提高音频分离效果，且由于音频分离不使用循环神经网络，故可以降低网络复杂度，提高音频分离效率。

在一示例性实施例中，如图2所示，音频分离网络包括编码器、注意力模块及与多种音频类型一一对应的多个解码器(示例性的，图2中示出了3种音频类型的情况)，如图3所示，在步骤104中，通过音频分离网络对频谱特征进行分离处理，得到待处理音频数据中各目标音频信息对应的预测频谱特征，可以包括：

在步骤302中，通过编码器对频谱特征进行编码处理，得到待处理音频数据的音频特征；

在步骤304中，通过注意力模块对音频特征进行特征提取，得到各目标音频信息对应的注意力特征；

在步骤306中，分别通过各目标音频信息对应的解码器对各目标音频信息对应的注意力特征进行解码处理，得到各目标音频信息对应的预测频谱特征。

本公开实施例中，音频分离网络可以包括编码器、注意力模块和多个解码器，该多个解码器与多个音频类型一一对应。其中，编码器用于从待处理音频数据的频谱特征中提取待处理音频数据的音频特征。注意力模块用于从待处理音频数据的音频特征中分别提取对各音频类型的目标音频信息有用的特征，也即提取音频特征中各音频类型所对应的注意力特征，并输入至各目标音频信息对应的解码器中。解码器可以用于对对应的音频类型的注意力特征进行特征提取，从而得到该音频类型的目标音频信息的预测频谱特征，进而通过对各目标音频信息的预测频谱特征进行反变换处理，可以得到各目标音频信息。

示例性的，仍以上述示例为例，音频分离网络包括编码器、注意力模块和解码器1、解码器2和解码器3。在将待处理音频数据变换为频谱特征后，可以将该频谱特征输入编码器中进行编码处理，输出待处理音频数据的音频特征。音频特征作为输入信息输入注意力模块进行特征提取，可以分别得到语音音频信息对应的注意力特征1、音乐音频信息对应的注意力特征2和背景噪声音频信息对应的注意力特征3。进一步的，采用解码器1对语音音频信息对应的注意力特征1进行解码，得到语音音频信息对应的预测频谱特征1，采用解码器2对音乐音频信息对应的注意力特征2进行解码，得到音乐音频信息对应的预测频谱特征2，采用解码器3用于对背景噪音音频信息对应的注意力特征3进行解码，得到背景噪声音频信息对应的预测频谱特征3。

再进一步的，可以分别对预测频谱特征1、预测频谱特征2和预测频谱特征3进行反变换处理，可以得到语音音频信息、音乐音频信息和背景噪声音频信息。

本公开实施例提供的音频数据分离方法，音频分离网络中包括与多种音频类型一一对应的多个解码器，也即针对任一音频类型的目标音频信息，本公开实施例可以采用单独的解码器对不同音频类型的目标音频信息对应的注意力特征进行解码，可以进一步提高音频分离的精度，提高音频分离的效果。

在一示例性实施例中，编码器及解码器均通过卷积自注意力机制模型构建得到，卷积自注意力机制模型包括特征激励层，所述特征激励层用于从空间维度和卷积通道维度进行特征学习。

本公开实施例中，卷积自注意力机制模型(conformer模型)中可以包括特征激励层，特征激励层可以通过特征激励层从空间维度和卷积通道维度进行特征学习，以放大有用特征，抑制无用特征，进而提高卷积自注意力机制模型的特征提取精度。

示例性的，参照图4所示，卷积自注意力机制模型可以包括第一全连接模块、多头注意力模块、多卷积模块和第二全连接模块，其中，多卷积模块由第一特征归一化层、第一卷积层、门控线性激活层、第二卷积层、特征激励层、第二特征归一化层、Swish激活层、第三卷积层顺序构成。

参照图2所示，本公开实施例中编码器和解码器均可以通过多个卷积自注意力机制模型堆叠得到。如图4所示，第一全连接模块可以与第二特征归一化模块连接，特征(在编码器内，该特征可以为频谱特征，在解码器内，该特征可以为注意力特征)输入第一全连接模块中进行全连接处理后，输出至该第二特征归一化模块进行归一化处理，进一步融合输入特征可以得到第一特征，该第一特征的处理过程可以参照下述公式(一)所示。

其中，

表示第一特征，z表示全连接模块的输入特征，FFN()表示全连接模块，layernorm()表示特征归一化模块。

参照图4所示，多头注意力模块可以与第三特征归一化模块连接。

作为多头注意力模块的输入信息，输入该多头注意力模块进行特征提取后，可以输出至该第三特征归一化模块进行归一化处理，进一步融合第一特征得到第二特征，该第二特征的处理过程可以参照下述公式(二)所示。

其中，z’用于表示第二特征，selfattention()用于表示多头注意力模块。

参照图4所示，多卷积模块与第四特征归一化模块连接。z’作为多卷积模块的输入信息，输入该多卷积模块进行特征处理后，可以输出至第四特征归一化模块进行归一化处理，进一步融合第一特征得到第三特征，该第三特征的处理过程可以参照下述公式(三)所示。

z”＝layernorm(conv(z’)+z’) 公式(三)

其中，z”用于表示第三特征，conv()用于表示多卷积模块。

在多卷积模块内，第二特征可以经由第一特征归一化层进行归一化处理后，得到归一化后的第二特征(1)，将归一化后的第二特征(1)输入第一卷积层进行卷积处理，得到卷积后的第二特征(1)，将卷积后的第二特征(1)输入门控线性激活层，得到激活后的第二特征(1)，并将激活后的第二特征(1)输入第二卷积层得到卷积后的第二特征(2)，将卷积后的第二特征(2)输入特征激励层进行特征学习，得到学习后的第二特征。特征激励层可以为用于从空间维度和卷积通道维度对特征进行特征学习的卷积网络，其可以放大有用特征，抑制无用特征。将学习后的第二特征输入第二特征归一化层进行归一化后，可以得到归一化后的第二特征(2)，将归一化后的第二特征(2)输入Swish激活层进行激活处理后，可以得到激活后的第二特征(2)，并将激活后的第二特征(2)输入第三卷积层顺序进行卷积处理后，可以得到该多卷积模块的输出信息。

参照图4所示，第二全连接模块与第五特征归一化模块连接。z”作为第二全连接模块的输入信息，输入该第二全连接模块进行全连接处理后，可以输出至第五特征归一化模块进行归一化处理，进一步融合第三特征得到conformer模块的输出信息，该输出信息的处理过程可以参照下述公式(四)所示。

其中，output用于表示conformer模块的输出信息。

需要说明的是，上述第一全连接模块和第二全连接模块均可以通过全连接层实现，多头注意力模块可以通过多头注意力机制实现，多卷积模块中的第一特征归一化层和第二特征归一化层均可以通过归一化函数实现，门控线性激活层和Swish激活层均可以通过激活函数实现，第一卷积层、第二卷积层和第三卷积层均可以通过卷积神经网络实现，特征激励层可以通过卷积网络实现。

本公开实施例提供的音频数据分离方法，音频分离网络中编码器及解码器均通过卷积自注意力机制模型堆叠构成，由于卷积自注意力机制模型可以通过特征激励层从空间维度和卷积通道维度进行特征学习，以放大有用特征，抑制无用特征，故可以提高音频分离网络的分离精度，提高分离效果。

在一示例性实施例中，参照图5所示，注意力模块可以包括与多种音频类型一一对应的多个注意力机制(图5中示出了3种音频类型的情况)，注意力机制包括卷积模块和第一特征归一化模块，参照图6所示，在步骤304中，通过注意力模块对音频特征进行特征提取，得到各目标音频信息对应的注意力特征，具体可以通过以下步骤实现：

在步骤602中，针对任一注意力机制，通过注意力机制中的卷积模块对音频特征进行特征提取，得到注意力机制对应的目标音频信息的初始注意力特征；

在步骤604中，通过注意力机制中的第一特征归一化模块对初始注意力特征进行归一化处理，得到归一化的初始注意力特征，将归一化的初始注意力特征与所述音频特征进行融合，得到注意力机制对应的目标音频信息的注意力特征。

本公开实施例中，注意力模块可以包括多个注意力机制，进而可以分别通过该多个注意力机制提取音频特征中各音频类型的特征信息，得到各目标音频信息对应的注意力特征。

其中，注意力模块可以包括卷积模块和第一特征归一化模块。在编码器对待处理音频数据对应的频谱特征进行编码处理，得到音频特征后，该音频特征可以分别输入各注意力机制的卷积模块中进行非线性处理，以从音频特征中提取该注意力机制对应的音频类型的初始注意力特征(该初始注意力特征可以为特征图，本公开实施例中对于初始注意力特征的表现形式不做具体限定)。

进一步的，卷积模块得到的初始注意力特征可以输入第一特征归一化模块中进行归一化处理，得到归一化的初始注意力特征，该归一化的初始注意力特征可以作为该注意力机制对应的音频类型的目标音频信息的注意力特征。

示例性的，仍以前述示例为例，目标音频信息包括语音音频信息、音乐信息和背景噪声音频信息，对应的，注意力模块中包括注意力机制1、注意力机制2和注意力机制3。在得到待处理音频数据对应的音频特征后，可以将该音频特征分别输入注意力机制1、注意力机制2和注意力机制3中进行特征提取。注意力机制1对音频特征进行提取，提取与语音音频信息相关的特征，与音频特征进行融合后可以得到语音音频信息的注意力特征1、注意力机制2对音频特征进行提取，提取与音乐音频信息相关的特征，与音频特征进行融合后可以得到音乐音频信息的注意力特征2，注意力机制3对音频特征进行提取，提取与背景噪声音频信息相关的特征，与音频特征进行融合后可以得到背景噪声音频信息的注意力特征3。

进一步的，可以将注意力特征1输入到对应的解码器1内进行解码，可以得到待处理音频数据中语音音频信息对应的预测频谱特征1、将注意力特征2输入到对应的解码器2内进行解码，可以得到待处理音频数据中音乐音频信息对应的预测频谱特征2，将注意力特征3输入到对应的解码器3内进行解码，可以得到待处理音频数据中背景噪声音频信息对应的预测频谱特征3，并分别对预测频谱特征1、预测频谱特征2和预测频谱特征3进行反变换处理，可以得到待处理音频数据中的语音音频信息、音乐音频信息和背景噪声音频信息。

本公开实施例提供的音频数据分离方法，音频分离网络中注意力模块可以通过多个注意力机制分别对待处理音频数据对应的音频特征进行各目标音频信息的特征提取，以进一步通过多个解码器分别解码各目标音频信息的注意力特征，可以进一步提高音频分离网络的分离精度，提高分离效果。

在一示例性实施例中，参照图5所示，注意力模块还可以包括升维模块，注意力机制中还包括降维模块，在步骤304中，通过注意力模块对音频特征进行特征提取，得到各目标音频信息对应的注意力特征，还可以包括：

通过升维模块对音频特征进行维度扩展，得到扩展后的音频特征；

在步骤602中，通过注意力机制中的卷积模块对音频特征进行特征提取，得到注意力机制对应的目标音频信息的初始注意力特征，可以包括：

通过注意力机制中的卷积模块对升维后的音频特征进行特征提取，得到注意力机制对应的目标音频信息的初始注意力特征；

在步骤604中，通过注意力机制中的第二特征归一化模块对初始注意力特征进行归一化处理与音频特征进行融合，得到目标音频信息的注意力特征，可以包括：

通过注意力机制中的归一化模块对初始注意力特征进行归一化处理，得到归一化注意力特征；

通过注意力机制中的降维模块对归一化注意力特征进行降维处理，得到注意力机制对应的目标音频信息的注意力特征。

本公开实施例中，在通过注意力模块对音频特征进行特征提取之前，可以通过升维模块对音频特征进行维度扩展，以获得更为精细的音频特征。该升维模块可以通过卷积神经网络实现，凡是可以进行维度扩展的卷积神经网络均适用于本公开实施例中，本公开实施例对升维模块不做具体限定。

在通过升维模块对音频特征进行维度扩展后，各注意力机制中处理的音频数据即为维度扩展后的音频特征，各注意力机制在对维度扩展后的音频特征进行特征提取后，需要通过降维模块对得到的归一化注意力特征(归一化后的初始注意力特征)进行降维处理，进而得到各目标音频信息的注意力特征。

本公开实施例提供的音频数据分离方法，音频分离网络中注意力模块可以通过升维模块对待处理音频数据对应的音频特征进行维度扩展，以使得音频特征的信息更为精细化，进而注意力机制可以更精准的提取各目标音频信息对应的注意力特征，以进一步提高音频分离网络的分离精度，提高分离效果。

在一示例性实施例中，参照图7所示，在步骤104中，通过音频分离网络对频谱特征进行分离处理，得到待处理音频数据中各目标音频信息对应的预测频谱特征之前，方法还可以包括：

在步骤702中，获取样本组，样本组包括样本音频数据和样本音频数据的标注信息，样本音频数据的标注信息包括用于构成样本音频数据的多种音频类型的样本目标音频信息；

在步骤704中，对样本组中的样本音频数据进行变换处理，得到样本音频数据的样本频谱特征；

在步骤706中，通过初始音频分离网络对样本频谱特征进行分离处理，得到样本音频数据中各样本目标音频信息对应的样本频谱特征；

在步骤708中，对各样本目标音频信息对应的样本频谱特征进行反变换处理，得到多个预测目标音频信息；

在步骤710中，根据多个预测目标音频信息与样本音频数据对应的多个样本目标音频信息，确定初始音频分离网络的分离损失；

在步骤712中，根据分离损失训练初始音频分离网络，得到音频分离网络。

本公开实施例中，可以预先构建用于训练音频分离网络的训练集。示例性的，可以采集多种音频类型的样本目标音频信息，将不同音频类型的多个样本目标音频信息混合，以得到样本音频数据。示例性的，以音频类型包括语音、音乐和背景噪声为例，可以采集多个语音音频信息、多个音乐音频信息、和多个背景噪声音频信息，将1个语音音频信息、1个音乐音频信息和1个背景噪声音频信息融合，可以得到样本音频数据，以此类推可以得到多个样本音频数据，各样本音频数据与组成该样本音频数据的多个样本目标音频信息组成样本组，多个样本组可以构建得到训练集。

构建得到训练集后，可以采用训练集中的样本组训练初始音频分离网络，进而得到音频分离网络。本公开实施例中，可以通过多样本组中的样本音频数据进行变换处理，得到样本音频数据的样本频谱特征。进而将样本音频数据的样本频谱特征作为初始音频分离网络的输入信息，该初始音频分离网络的网络结构可以参照前述实施例的相关描述，本公开实施例中对此不再赘述。初始音频分离网络对样本频谱特征进行分离处理后，可以得到样本音频数据中各样本目标音频信息对应的样本频谱特征，进而可以分别对各样本频谱特征进行反变换处理，得到样本音频数据中的各预测目标音频信息。

在得到多个预测目标音频信息后，可以通过多个预测目标音频信息与多个样本目标音频信息之间的差异，得到初始音频分离网络的分离损失，进而可以通过分离损失调整初始音频分离网络的网络参数后，继续迭代训练调整后的初始音频分离网络，直至初始音频分离网络的分离损失满足训练要求为止(例如：分离损失小于预设的损失阈值)，停止训练，得到音频分离网络。

本公开实施例提供的音频数据分离方法，可以预先训练基于编解码结构的卷积自注意力机制模型构建的音频分离网络，进而通过该音频分离网络对待处理音频数据进行音频分离，可以提高音频分离效率和音频分离结果。

在一示例性实施例中，参照图8所示，在上述步骤710中，根据多个预测目标音频信息与样本音频数据对应的多个样本目标音频信息，确定初始音频分离网络的分离损失，可以通过以下步骤实现：

在步骤802中，根据各预测目标音频信息与样本音频数据对应的各样本目标音频信息，确定初始音频分离网络的第一损失和第二损失，第一损失用于表征预测目标音频信息与样本目标音频信息之间的差异，第二损失用于表征预测目标音频信息之间的差异；

在步骤804中，对第一损失及第二损失进行融合处理，得到初始音频分离网络的分离损失。

本公开实施例中，可以通过各预测目标音频信息与各预测目标音频信息对应的样本目标音频信息之间的差异，得到初始音频分离网络的第一损失。并通过各预测目标音频信息与其他预测目标音频信息对应的样本目标音频信息的差异，得到初始音频分离网络的第二损失。融合第一损失和第二损失后，得到初始音频分离网络的总分离损失。

其中，第一损失为基于幅度的损失，第二损失用于衡量预测目标音频信息与除该预测目标音频信息对应的样本目标音频信息之外的其他目标音频信息之间的差异，差异越大，表明分离效果越好。本公开实施例中不对第一损失和第二损失的确定方式做具体限定，例如：Loss损失函数、L1正则化、L2正则化等损失函数均适用于本公开实施例中。

示例性的，第一损失、第二损失和分离损失的确定过程可以参照下述公式(五)、公式(六)和公式(七)所示。

其中，

表示第一损失，

表示第二损失，

表示分离损失，i和j分别表示预测目标音频信息的标号，X_i表示第i个预测目标音频信息，S_i表示第i个预测目标音频信息对应的样本目标音频信息，S_j表示第j个样本目标音频信息，λ是一个超参数，用于平衡损失函数中的每个损失项，使这两个损失在数值上在同一个尺度上。

基于幅度的第一损失实现了类内紧凑性，基于类间的第二损失提高了类间可分离性，可以增强音频分离网络对分离输出类别(语音、音乐和噪声)的判别能力，因此基于本公开实施例提供的音频分离方法，通过第一损失和第二损失训练音频分离网络，可以提高音频分离网络的精度。

为使本领域技术人员更好的理解本公开实施例，以下通过具体示例对本公开实施例加以说明。

本公开实施例中预先训练得到音频分离网络，音频分离网络可以包括：(1)编码器：处理待处理音频数据的频谱特征，生成待处理音频数据的音频特征表示。(2)注意力模块：在音频特征的基础上，为每个音频类型的音轨选择并提取有益的特征，并连接编码器和解码器。(3)多个解码器：分别处理注意力模块为各音频类型选择的音频特征并生成分离的目标音频信息的预测频谱特征。也即，待处理音频数据进行变换处理后，频谱特征进入音频分离网络后，依次进入编码器-注意力模块-解码器，最后生成分离后的各目标音频信息的预测频谱特征，经反变换处理后，可以得到分离后的各目标音频信息。

示例性的，首先利用短时傅里叶变换将待处理音频数据转换为频谱特征。编码器用于提取音频基本特征，编码器的输入是待处理音频数据的频谱特征，输出是待处理音频数据的音频特征，参照下述公式(八)所示。

E_O＝Encoder(|Y(t,f)|) 公式(八)

其中，|Y(t,f)|是待处理音频数据的频谱特征，E_o表示编码器输出的音频特征。编码器由多个Conformer模块组成。

注意力模块用来动态关注仅对不同音频类型有用的特征，注意力模块的处理过程参照下述公式(九)所示。

A₁,A₂,A₃＝Attenion(E_O) 公式(九)

其中，A₁,A₂,A₃分别用于表示三种不同音频类型的目标音频信息的注意力特征(本示例中可以表示语音、音乐、背景噪声对应的注意力特征)，Attenion(E_o)表示注意力模块。

注意力模块可以利用卷积网络将待处理音频数据的音频特征进行维度扩展，以获得精细的特征表示后，进一步采用三个卷积层对该特征表示进行非线性变换，对语音、音乐、背景噪声三个音频类型进行分别建模，用于学习特征表示中每个音频类型的重要性，获得不同音频类型的初始注意力特征，并进一步应用sigmoid网络进行归一化处理后，在音频特征和初始注意力特征之间进行矩阵乘法，得到每个音频类型的归一化注意力特征，归一化注意力特征包含从编码器中选择的丰富信息，最后利用卷积网络进行特征降维，获得各音频类型的注意力特征。

由于不同的音频类型：语音、音乐、背景噪声具有不同的声学特征，因此使用三个解码器分别对每个音频类型进行建模，参照下述公式(十)所示。

|X_i(t,f)|＝Decoder_i×|Y(t,f)|,i＝1,2,3 公式(十)

其中,|X_i(t,f)|是每个音频类型的预测频谱特征。每个预测音频特征的解码器由多个Conformer模块组成，Decoder_i表示第i个解码器。之后，利用逆傅里叶变换对预测频谱特征进行变换，得到目标音频信息号。

本公开实施例中，将Conformer结构扩展到音频分离任务中，Conformer结构可以同时处理音频数据的局部特征和捕捉音频数据号的全局依赖，因此本公开实施例通过Conformer结构获取待处理音频数据的局部和全局信息，可以提高音频数据分离的性能。

考虑到不同音频类型的音频信息的不同特性，本公开实施例提出了由Conformer结构组成，以编解码框架为基础的音频分离网络。具体来说，音频分离网络中共享相同的编码器，注意力模块为每个音频类型选择有用的特征，单独的解码器为每一个音频类型生成分离的频谱特征。在训练音频分离网络的过程，可以通过第一损失和第二损失(具体说明参照前述实施例的相关描述即可)训练音频分离网络，采用第一损失可以增强类内紧凑性，采用第二损失可以增加目标音频信息和其他音频类型的音频信息之间，增加了分离输出之间的距离，增强了网络的区分能力，缓解了误分类的问题。

应该理解的是，虽然图1-图8的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-图8中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

可以理解的是，本说明书中上述方法的各个实施例之间相同/相似的部分可互相参见，每个实施例重点说明的是与其他实施例的不同之处，相关之处参见其他方法实施例的说明即可。

图9是根据一示例性实施例示出的一种音频数据分离装置框图。参照图9，该装置包括第一变换单元902，第一分离单元904和第一反变换单元906。

第一变换单元902，被配置为执行对待处理音频数据进行变换处理，得到所述待处理音频数据对应的频谱特征，其中，所述待处理音频数据包括多种音频类型的目标音频信息；

第一分离单元904，被配置为执行通过音频分离网络对所述频谱特征进行分离处理，得到所述待处理音频数据中各所述目标音频信息对应的预测频谱特征，其中，所述音频分离网络为基于编解码结构的卷积自注意力机制模型；

第一反变换单元906，被配置为执行对各所述目标音频信息对应的预测频谱特征进行反变换处理，得到所述待处理音频数据中的各所述目标音频信息。

本公开实施例提供一种音频数据分离装置，可以对待处理音频数据进行变换处理，得到待处理音频数据对应的频谱特征，其中，待处理音频数据包括多种音频类型的目标音频信息。进一步的，可以通过音频分离网络对频谱特征进行分离处理，得到待处理音频数据中各目标音频信息对应的预测频谱特征，其中，音频分离网络为基于编解码结构的卷积自注意力机制模型。再进一步的，可以对各目标音频信息对应的预测频谱特征进行反变换处理，得到待处理音频数据中的各目标音频信息。基于本公开实施例提供的音频数据分离装置，可以通过基于编解码结构的卷积自注意力机制模型构建的音频分离网络实现对待处理音频数据的音频分离，得到待处理音频数据中的各目标音频信息，由于基于编解码结构的卷积自注意力机制模型构建的音频分离网络可以同时获取待处理音频数据的局部特征和全局依赖信息，因而本公开实施例提高音频分离的精度，提高音频分离效果，且由于音频分离不使用循环神经网络，故可以降低网络复杂度，提高音频分离效率。

在一示例性实施例中，所述音频分离网络包括编码器、注意力模块及与所述多种音频类型一一对应的多个解码器，所述第一分离单元904，还被配置为执行：

在一示例性实施例中，所述编码器及所述解码器均通过卷积自注意力机制模型构建得到，所述卷积自注意力机制模型包括特征激励层，所述特征激励层用于从空间维度和卷积通道维度进行特征学习。

在一示例性实施例中，所述注意力模块包括与所述多种音频类型一一对应的多个注意力机制，所述注意力机制包括卷积模块和第一特征归一化模块，所述第一分离单元604，还被配置为执行：

在一示例性实施例中，所述装置还包括：

获取训练集，所述训练集中包括多个样本组，所述样本组包括所述样本音频数据和所述样本音频数据的标注信息，所述样本音频数据的标注信息包括用于构成所述样本音频数据的多种音频类型的样本目标音频信息；

第二分离单元，被配置为执行通过所述初始音频分离网络对所述样本频谱特征进行分离处理，得到所述样本音频数据中各所述样本目标音频信息对应的样本频谱特征；

确定单元，被配置为执行根据所述多个预测目标音频信息与所述样本音频数据对应的多个样本目标音频信息，确定所述初始音频分离网络的分离损失；

在一示例性实施例中，所述确定单元，还被配置为执行：

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图10是根据一示例性实施例示出的一种用于音频数据分离方法的电子设备1000的框图。例如，电子设备1000可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。

参照图10，电子设备1000可以包括以下一个或多个组件：处理组件1002、存储器1004、电源组件1006、多媒体组件1008、音频组件1010、输入/输出(I/O)的接口1012、传感器组件1014以及通信组件1016。

处理组件1002通常控制电子设备1000的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件1002可以包括一个或多个处理器1020来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1002可以包括一个或多个模块，便于处理组件1002和其他组件之间的交互。例如，处理组件1002可以包括多媒体模块，以方便多媒体组件1008和处理组件1002之间的交互。

存储器1004被配置为存储各种类型的数据以支持在电子设备1000的操作。这些数据的示例包括用于在电子设备1000上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器1004可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘、光盘或石墨烯存储器。

电源组件1006为电子设备1000的各种组件提供电力。电源组件1006可以包括电源管理系统，一个或多个电源，及其他与为电子设备1000生成、管理和分配电力相关联的组件。

多媒体组件1008包括在所述电子设备1000和用户之间的提供输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1008包括前置摄像头和/或后置摄像头。当电子设备1000处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1010被配置为输出和/或输入音频信号。例如，音频组件1010包括麦克风(MIC)，当电子设备1000处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1004或经由通信组件1016发送。在一些实施例中，音频组件1010还包括扬声器，用于输出音频信号。

I/O接口1012为处理组件1002和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1014包括一个或多个传感器，用于为电子设备1000提供各个方面的状态评估。例如，传感器组件1014可以检测到电子设备1000的打开/关闭状态，组件的相对定位，例如所述组件为电子设备1000的显示器和小键盘，传感器组件1014还可以检测电子设备1000或电子设备1000组件的位置改变，用户与电子设备1000接触的存在或不存在，设备1000方位或加速/减速和电子设备1000的温度变化。传感器组件1014可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1014还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1014还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。

通信组件1016被配置为便于电子设备1000和其他设备之间有线或无线方式的通信。电子设备1000可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件1016经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1016还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备1000可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器1004，上述指令可由电子设备1000的处理器1020执行以完成上述方法。例如，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，所述计算机程序产品中包括指令，上述指令可由电子设备1000的处理器1020执行以完成上述方法。

需要说明的，上述的装置、电子设备、计算机可读存储介质、计算机程序产品等根据方法实施例的描述还可以包括其他的实施方式，具体的实现方式可以参照相关方法实施例的描述，在此不作一一赘述。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种音频数据分离方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述音频分离网络包括编码器、注意力模块及与所述多种音频类型一一对应的多个解码器，所述通过音频分离网络对所述频谱特征进行分离处理，得到所述待处理音频数据中各所述目标音频信息对应的预测频谱特征，包括：

分别通过各所述音频类型对应的解码器对各所述音频类型的所述目标音频信息对应的所述注意力特征进行解码处理，得到各所述目标音频信息对应的预测频谱特征。

3.根据权利要求2所述的方法，其特征在于，所述编码器及所述解码器均通过卷积自注意力机制模型构建得到，所述卷积自注意力机制模型中包括特征激励层，所述特征激励层用于从空间维度和卷积通道维度进行特征学习。

4.根据权利要求2或3所述的方法，其特征在于，所述注意力模块包括与所述多种音频类型一一对应的多个注意力机制，所述注意力机制包括卷积模块和第一特征归一化模块，所述通过所述注意力模块对所述音频特征进行特征提取，得到各所述目标音频信息对应的注意力特征，包括：

5.根据权利要求1至3中任一项所述的方法，其特征在于，在所述通过音频分离网络对所述频谱特征进行分离处理，得到所述待处理音频数据中各所述目标音频信息对应的预测频谱特征之前，所述方法还包括：

获取样本组，所述样本组包括所述样本音频数据和所述样本音频数据的标注信息，所述样本音频数据的标注信息包括用于构成所述样本音频数据的所述多种音频类型的样本目标音频信息；

6.根据权利要求5所述的方法，其特征在于，所述根据所述多个预测目标音频信息与所述样本音频数据对应的多个样本目标音频信息，确定所述初始音频分离网络的分离损失，包括：

7.一种音频数据分离装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的音频数据分离方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的音频数据分离方法。

10.一种计算机程序产品，所述计算机程序产品中包括指令，其特征在于，所述指令被电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的音频数据分离方法。