CN114512141A

CN114512141A - 音频分离的方法、装置、设备、存储介质和程序产品

Info

Publication number: CN114512141A
Application number: CN202210121128.8A
Authority: CN
Inventors: 罗艺; 王珺; 林永业; 李凯
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-02-09
Filing date: 2022-02-09
Publication date: 2022-05-17
Anticipated expiration: 2042-02-09
Also published as: CN114512141B

Abstract

本申请公开了一种音频分离的方法、装置、设备、存储介质和程序产品，属于音频处理领域。所述方法包括：获取采集的音频数据；基于所述音频数据和经过训练的音频分离模型，确定多个子音频数据；基于所述多个子音频数据和经过训练的音频分组模型，确定每个子音频数据对应的分组信息，其中，所述分组信息用于指示对应的子音频数据与至少一个声源对象的关联关系；基于所述每个子音频数据和所述每个子音频数据对应的分组信息，确定每个声源对象对应的声源对象音频数据。采用本申请，可以提高音频识别的准确度。

Description

音频分离的方法、装置、设备、存储介质和程序产品

技术领域

本申请涉及音频处理领域，特别涉及一种音频分离的方法、装置、设备、存储介质和程序产品。

背景技术

音频识别技术是让机器将人们的声音信号转换为相应的文本或命令的技术。近年来，随着人工智能的发展，音频识别技术被越来越多地应用于家电、汽车、医疗、消费电子产品等领域。

目前，音频识别的过程一般是将设备采集到的音频数据输入音频识别模型，识别出音频数据中包含的人声，输出文本或命令。

然而，当音频数据中包含有多个不同人的声音时，音频识别模型无法区分出不同人的声音，从而无法输出每个人声对应的文本或命令，导致音频识别准确率低。

发明内容

本申请提供了一种音频分离的方法、装置、设备、存储介质和程序产品，能够提高音频识别的准确率。

第一方面，提供了音频分离的方法，所述方法包括：获取采集的音频数据；基于所述音频数据和经过训练的音频分离模型，确定多个子音频数据；基于所述多个子音频数据和经过训练的音频分组模型，确定每个子音频数据对应的分组信息，其中，所述分组信息用于指示对应的子音频数据与至少一个声源对象的关联关系；基于所述每个子音频数据和所述每个子音频数据对应的分组信息，确定每个声源对象对应的声源对象音频数据。

在一种可能的实现方式中，所述子音频数据对应的分组信息包括所述子音频数据关联的声源对象；每个声源对象关联有多个子音频数据；所述基于所述每个子音频数据和所述每个子音频数据对应的分组信息，确定每个声源对象对应的声源对象音频数据，包括：将每个声源对象关联的多个子音频数据进行合成，得到每个声源对象对应的声源对象音频数据。

在一种可能的实现方式中，所述子音频数据对应的分组信息包括所述子音频数据与至少一个声源对象的关联度；所述基于所述每个子音频数据和所述每个子音频数据对应的分组信息，确定每个声源对象对应的声源对象音频数据，包括：确定每个子音频数据对应的关联度最高的声源对象，分别作为每个子音频数据关联的声源对象；每个声源对象关联有多个子音频数据；将每个声源对象关联的多个子音频数据进行合成，得到每个声源对象对应的声源对象音频数据。

在一种可能的实现方式中，所述子音频数据对应的分组信息包括所述子音频数据与至少一个声源对象的关联度；所述基于所述每个子音频数据和所述每个子音频数据对应的分组信息，确定每个声源对象对应的声源对象音频数据，包括：对于每个声源对象，确定与所述声源对象存在关联度的多个关联子音频数据，基于所述多个关联子音频数据、以及每个关联子音频数据与所述声源对象的关联度，确定所述声源对象对应的声源对象音频数据。

在一种可能的实现方式中，所述基于所述多个关联子音频数据、以及每个关联子音频数据与所述声源对象的关联度，确定所述声源对象对应的声源对象音频数据，包括：以每个关联子音频数据与所述声源对象的关联度为权重值，对多个关联子音频数据进行加权合成，得到所述声源对象对应的声源对象音频数据。

在一种可能的实现方式中，在基于音频数据和经过训练的音频分离模型，确定多个子音频数据之前，还包括：获取多个样本声源对象的样本声源对象音频数据，对所述多个样本声源对象的样本声源对象音频数据进行合成，得到样本音频数据；基于样本音频数据和待训练的音频分离模型，确定多个预测子音频数据；基于所述多个预测子音频数据和待训练的音频分组模型，确定所述每个预测子音频数据对应的预测分组信息，其中，所述预测分组信息用于指示对应的预测子音频数据与至少一个预测声源对象的关联关系；基于所述每个预测子音频数据和所述每个预测子音频数据对应的预测分组信息，确定每个预测声源对象对应的预测声源对象音频数据；基于多个预测声源对象音频数据和多个样本声源对象音频数据，对所述待训练的音频分离模型和所述待训练的音频分组模型，进行模型参数调整。

第二方面，提供了一种音频分离的方法，所述方法包括：提取音频数据的特征信息；将所述特征信息分别输入多个经过训练的声源对象音频提取模型，得到所述音频数据包括的多个声源对象音频数据。

第三方面，提供了一种音频分离的装置，所述装置包括：分离模块，用于获取采集的音频数据；基于所述音频数据和经过训练的音频分离模型，确定多个子音频数据；分组模块，用于基于所述多个子音频数据和经过训练的音频分组模型，确定每个子音频数据对应的分组信息，其中，所述分组信息用于指示对应的子音频数据与至少一个声源对象的关联关系；确定模块，用于基于所述每个子音频数据和所述每个子音频数据对应的分组信息，确定每个声源对象对应的声源对象音频数据。

在一种可能的实现方式中，所述子音频数据对应的分组信息包括所述子音频数据关联的声源对象；每个声源对象关联有多个子音频数据；所述确定模块用于将每个声源对象关联的多个子音频数据进行合成，得到每个声源对象对应的声源对象音频数据。

在一种可能的实现方式中，所述子音频数据对应的分组信息包括所述子音频数据与至少一个声源对象的关联度；所述确定模块用于确定每个子音频数据对应的关联度最高的声源对象，分别作为每个子音频数据关联的声源对象；每个声源对象关联有多个子音频数据；将每个声源对象关联的多个子音频数据进行合成，得到每个声源对象对应的声源对象音频数据。

在一种可能的实现方式中，所述子音频数据对应的分组信息包括所述子音频数据与至少一个声源对象的关联度；所述确定模块用于对于每个声源对象，确定与所述声源对象存在关联度的多个关联子音频数据，基于所述多个关联子音频数据、以及每个关联子音频数据与所述声源对象的关联度，确定所述声源对象对应的声源对象音频数据。

在一种可能的实现方式中，所述确定模块用于以每个关联子音频数据与所述声源对象的关联度为权重值，对多个关联子音频数据进行加权合成，得到所述声源对象对应的声源对象音频数据。

在一种可能的实现方式中，所述装置还用于获取多个样本声源对象的样本声源对象音频数据，对所述多个样本声源对象的样本声源对象音频数据进行合成，得到样本音频数据；基于样本音频数据和待训练的音频分离模型，确定多个预测子音频数据；基于所述多个预测子音频数据和待训练的音频分组模型，确定所述每个预测子音频数据对应的预测分组信息，其中，所述预测分组信息用于指示对应的预测子音频数据与至少一个预测声源对象的关联关系；基于所述每个预测子音频数据和所述每个预测子音频数据对应的预测分组信息，确定每个预测声源对象对应的预测声源对象音频数据；基于多个预测声源对象音频数据和多个样本声源对象音频数据，对所述待训练的音频分离模型和所述待训练的音频分组模型，进行模型参数调整。

第四方面，提供了一种音频分离的装置，所述装置包括：特征提取模块，用于提取音频数据的特征信息；音频提取模块，用于将所述特征信息分别输入多个经过训练的声源对象音频提取模型，得到所述音频数据包括的多个声源对象音频数据。

第五方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，存储器用于存储计算机指令，处理器用于执行存储器存储的计算机指令，以使计算机设备执行第一方面及其可能的实现方式的方法。

第六方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序代码，当计算机程序代码被计算机设备执行时，计算机设备执行第一方面及其可能的实现方式的方法。

第七方面，提供了一种计算机程序产品，计算机程序产品包括计算机程序代码，在计算机程序代码被计算机设备执行时，计算机设备执行第一方面及其可能的实现方式的方法。

本申请实施例中，基于音频数据和经过训练的音频分离模型，确定多个子音频数据，然后基于多个子音频数据和经过训练的音频分组模型，确定每个子音频数据对应的分组信息，进而基于每个子音频数据和每个子音频数据对应的分组信息，确定每个声源对象对应的声源对象音频数据。这样，可以分离出音频中包含的不同声源对象的音频数据，得到每个声源对象对应的文本或命令。从而，提高了音频识别的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种计算机设备的结构示意图；

图2是本申请实施例提供的一种音频分离的方法流程图；

图3是本申请实施例提供的一种音频分离的处理示意图；

图4是本申请实施例提供的一种音频分离的方法流程图；

图5是本申请实施例提供的一种音频分离的处理示意图；

图6是本申请实施例提供的一种训练机器学习模型的处理流程图；

图7是本申请实施例提供的一种音频分离的方法流程图；

图8是本申请实施例提供的一种音频分离的处理示意图；

图9是本申请实施例提供的一种训练机器学习模型的处理流程图；

图10是本申请实施例提供的一种音频分离的装置结构图；

图11是本申请实施例提供的一种音频分离的装置结构图；

图12是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

基于上述应用场景，本申请实施例提供了一种音频分离的方法，该方法可以由计算机设备实现。该计算机设备可以是服务器或终端等。终端可以是台式计算机、笔记本计算机、平板电脑、手机、车载终端、穿戴电子设备等。服务器可以是一个单独的服务器，也可以是多个服务器组成的服务器组。

图1是本申请实施例提供的一种计算机设备的结构示意图，从硬件组成上来看，计算机设备100的结构可以如图1所示，包括处理器101、存储器102和通信部件103。

处理器101可以是中央处理器(central processing unit，CPU)或系统级芯片(system on chip，SoC)等，处理器101可以用于基于音频数据和经过训练的音频分离模型确定多个子语音数据，可以用于基于多个子音频数据和经过训练的音频分组模型，确定每个子音频数据对应的分组信息，还可以基于每个子音频数据和每个子音频数据对应的分组信息，确定每个声源对象对应的声源对象音频数据，等等。

存储器102可以包括各种易失性存储器或非易失性存储器，如固态硬盘(solidstate disk，SSD)、动态随机存取存储器(dynamic random access memory，DRAM)内存等。存储器102可以用于存储音频分离的处理过程中的预存数据、中间数据和结果数据，例如，音频数据、子音频数据、经过训练的音频分离模型、经过训练的音频分组模型、每个子音频数据对应的分组信息、每个声源对象对应的声源对象音频数据，等等。

除了处理器101、存储器102，计算机设备100还可以包括通信部件103。

通信部件103可以是有线网络连接器、无线保真(wireless fidelity，WiFi)模块、蓝牙模块、蜂巢网通信模块等。通信部件103可以用于与其他设备进行数据传输，其他设备可以是服务器、也可以是终端等。例如，计算机设备100可以接收音频数据，计算机设备100还可以将每个声源对象对应的声源对象音频数据等发送至服务器进行存储。

本实施例以执行主体为服务器为例进行说明。服务器可以与音频采集设备建立通信，音频采集设备可以在采集同时段内的声音后将该音频数据发送至服务器。或者，服务器可以接收终端或其他服务器发送的音频数据。服务器可以对音频数据进行音频预处理，得到预处理后的音频数据。预处理可以包括音频降噪、音频增强等。根据使用的音频分离模型的类型，预处理还可以包括分帧、加窗、短时傅里叶变换(short time fourier transform，STFT)等。进行音频预处理的模块可以是独立于音频分离模型的模块，也可以是音频分离模型中的一个模块。

图2是本申请实施例提供的一种音频分离的方法的流程图，图3是相应的处理示意图。参见图2，该方法可以包括如下步骤：

201，获取采集的音频数据。

音频数据可以使用音频录制设备采集得到，也可以是通过人工合成的方式得到。服务器可以接收音频录制设备或其他服务器发送的音频数据。

202，基于音频数据和经过训练的音频分离模型，确定多个子音频数据。

可以将音频数据输入经过训练的音频分离模型，模型可以输出多个子音频数据。音频数据的形式可以是音频帧，也可以是音频段，本实施例在此不做限定。音频分离模型可以是机器学习模型，例如，可以是基于双路径递归神经网络(dual-path recurrent neuralnetwork，DPRNN)的时域音频分离网络(time-domain audio separation network，TasNet)、波形域U型网络(Wave-U-Net)、说话人提取网络、时域卷积网络，等等。

203，基于多个子音频数据和经过训练的音频分组模型，确定每个子音频数据对应的分组信息。

其中，子音频数据对应的分组信息包括子音频数据关联的声源对象。

在实施中，可以将子音频数据输入经过训练的音频分组模型，得到该子音频数据关联的声源对象。音频分组模型可以是一个机器学习模型，也可以是多个类型相同、模型参数不同的机器学习模型。对于只有一个音频分组模型的情况，可以将全部子音频数据都输入该音频分组模型，模型可以输出每个子音频数据关联的声源对象。对于音频分组模型的数量与子音频数据的数量相同的情况，可以将子音频数据分别输入音频分组模型，模型可以分别输出子音频数据关联的声源对象。音频分组模型可以有多种可能，例如，可以是高斯混合模型、支持向量机模型、多层感知机模型、深度神经网络模型、卷积神经网络模型、长短时记忆网络模型、深度非负矩阵分解模型，等等。

一个子音频数据可以关联一个声源对象，也可以关联多个声源对象。声源对象可以是发出该子音频数据的实体对象，也可以是该子音频所属的概念对象，声源对象可以由技术人员设置。例如，对于子音频数据是小提琴的高音段数据的情况，声源对象可以是“小提琴”这种实体对象，也可以是“配乐”这种概念对象，等等。

可选的，音频分离模型和音频分组模型可以是一个机器学习模型中的两个模块，机器学习模型可以有多种可能，例如，可以是高斯混合模型、支持向量机模型、多层感知机模型、深度神经网络模型、卷积神经网络模型、长短时记忆网络模型、深度非负矩阵分解模型，等等。

204，将每个声源对象关联的多个子音频数据进行合成，得到每个声源对象对应的声源对象音频数据。

声源对象可以关联有多个子音频数据，可以将该声源对象关联的子音频数据进行合成处理，得到该声源对象对应的声源对象音频数据。合成处理可以是在时域进行求和，或者在任何对于信号进行的线性变换下得到的信号域进行求和，等等。

上述处理是分组信息包括子音频数据关联的声源对象时的相应处理，对于分组信息包括子音频数据与声源对象的关联度的情况，相应的处理过程可以如图4所示，相应的处理示意图可以如图5所示。

401，获取采集的音频数据。

402，基于音频数据和经过训练的音频分离模型，确定多个子音频数据。

步骤402的处理与步骤202的处理相似，可以参照步骤202的相关处理，在此不做赘述。

403，基于多个子音频数据和经过训练的音频分组模型，确定每个子音频数据对应的分组信息。

其中，子音频数据对应的分组信息包括子音频数据与声源对象的关联度。

在实施中，可以将子音频数据输入经过训练的音频分组模型，得到该子音频数据与声源对象的关联度。音频分组模型可以是一个机器学习模型，也可以是多个类型相同、模型参数不同的机器学习模型。对于只有一个音频分组模型的情况，可以将全部子音频数据都输入该音频分组模型，模型可以输出每个子音频数据与声源对象的关联度。对于音频分组模型的数量与子音频数据的数量相同的情况，可以将子音频数据分别输入音频分组模型，模型可以分别输出子音频数据与声源对象的关联度。模型的输出可以有多种，例如，可以只输出与子音频数据关联度不为0的声源对象的关联度；或者，可以输出子音频数据与各个声源对象的关联度；或者，可以只输出与子音频数据关联度最高的声源对象的关联度。

音频分组模型可以有多种可能，例如，可以是双路径递归神经网络、循环神经网络、长短期记忆网络，等等。

404，基于每个子音频数据和每个子音频数据对应的分组信息，确定每个声源对象对应的声源对象音频数据。

确定每个声源对象对应的声源对象音频数据的处理方式可以有多种。

处理方式一

可以在子音频数据与声源对象的关联度中，确定每个子音频数据对应的关联度最高的声源对象，分别作为每个子音频数据关联的声源对象，然后将每个声源对象关联的多个子音频数据进行合成，得到每个声源对象对应的声源对象音频数据。

处理方式二

可以确定与声源对象存在关联度的多个关联子音频数据，然后以每个关联子音频数据与该声源对象的关联度为权重值，对多个关联子音频数据进行加权合成，得到该声源对象对应的声源对象音频数据。对每个声源对象进行处理方式二的处理，可以得到每个声源对象对应的声源对象音频数据。

加权合成可以是在时域进行加权求和，或者在任何对于信号进行的线性变换下得到的信号域进行加权求和。

例如，声源对象甲总共有两个关联子音频数据，其中关联子音频数据A的关联度为0.3，关联子音频数据B的关联度为0.7，则可以以0.3作为关联子音频数据A的权重，以0.7作为关联子音频数据B的权重，在时域对关联子音频数据A和关联子音频数据B进行加权求和，得到声源对象甲对应的声源对象音频数据。

处理方式三

可以确定与声源对象存在关联度的多个关联子音频数据，然后将每个关联子音频数据与该声源对象的关联度与关联度阈值进行比较，确定关联度大于关联度阈值的关联子音频数据。进而，可以对关联度大于关联度阈值的关联子音频数据进行合成，得到该声源对象对应的声源对象音频数据。对每个声源对象进行处理方式三的处理，可以得到每个声源对象对应的声源对象音频数据。

处理方式四

可以确定与声源对象存在关联度的多个关联子音频数据，将每个关联子音频数据与该声源对象的关联度与关联度阈值进行比较，确定关联度大于关联度阈值的关联子音频数据。然后，可以以关联度大于关联度阈值的关联子音频数据与该声源对象的关联度为权重值，进行加权合成，得到该声源对象对应的声源对象音频数据。对每个声源对象进行处理方式四的处理，可以得到每个声源对象对应的声源对象音频数据。

上述处理过程中涉及到一些机器学习模型，本申请实施例提供了针对机器学习模型的训练方法，如图6所示，该方法可以包括以下步骤：

601，获取多个样本声源对象的样本声源对象音频数据，对多个样本声源对象的样本声源对象音频数据进行合成，得到样本音频数据。

合成处理可以有多种可能，例如，对多个样本声源对象音频数据在时域上进行求和，或者在任何对于信号进行的线性变换下得到的信号域进行求和，等等。

可选的，可以先对多个样本声源对象音频数据中的一个或多个进行音频变调、音频变速等处理，再进行合成处理，得到样本音频数据。音频变调处理的方式可以有多种，例如可以对样本声源对象音频数据的频谱在频域上进行平移，得到音频变调后的样本声源对象音频数据。音频变速处理的方式可以有多种，例如可以将样本声源对象音频数据划分为若干连续不重叠的音频帧，然后重复或者丢弃其中某些音频帧，得到音频变速处理后的样本声源对象音频数据。

602，基于样本音频数据和待训练的音频分离模型，确定多个预测子音频数据。

可以将样本音频数据输入待训练的音频分离模型，模型可以输出多个预测子音频数据。样本音频数据的形式可以是音频帧，也可以是音频段，本实施例在此不做限定。待训练的音频分离模型可以是机器学习模型，例如，可以是基于双路径递归神经网络的时域音频分离网络、波形域U型网络、说话人提取网络、时域卷积网络，等等。

603，基于多个预测子音频数据和待训练的音频分组模型，确定每个预测子音频数据对应的预测分组信息。

其中，预测分组信息用于指示对应的预测子音频数据与至少一个预测声源对象的关联关系。预测分组信息可以包括预测子音频数据关联的预测声源对象，或者可以包括预测子音频数据与预测声源对象的预测关联度。

在实施中，可以将预测子音频数据输入待训练的音频分组模型，得到该预测子音频数据对应的预测分组信息。待训练的音频分组模型可以是一个机器学习模型，也可以是多个类型相同的机器学习模型。对于只有一个待训练的音频分组模型的情况，可以将全部预测子音频数据都输入该待训练的音频分组模型，模型可以输出每个预测子音频数据对应的预测分组信息。对于待训练的音频分组模型的数量与预测子音频数据的数量相同的情况，可以将预测子音频数据分别输入待训练的音频分组模型，模型可以分别输出预测子音频数据对应的预测分组信息。

待训练的音频分组模型可以是机器学习模型，例如，可以是高斯混合模型、支持向量机模型、多层感知机模型、深度神经网络模型、卷积神经网络模型、长短时记忆网络模型、深度非负矩阵分解模型，等等。

604，基于每个预测子音频数据和每个预测子音频数据对应的预测分组信息，确定每个预测声源对象对应的预测声源对象音频数据。

根据预测分组信息的不同，确定每个预测声源对象对应的预测声源对象音频数据的处理方式也可以不同。

(1)预测分组信息包括预测子音频数据关联的预测声源对象时，确定预测声源对象音频数据的相应处理。

将每个预测声源对象关联的多个预测子音频数据进行合成，得到每个预测声源对象对应的预测声源对象音频数据。合成处理可以有多种可能，例如，将该声源对象关联的子音频数据在时域上进行拼接，或者将该声源对象关联的子音频数据在频域上进行叠加，等等。

(2)预测分组信息包括预测子音频数据与预测声源对象的预测关联度时，确定预测声源对象音频数据的相应处理可以有多种。

①可以在预测子音频数据与预测声源对象的预测关联度中，确定每个预测子音频数据对应的预测关联度最高的预测声源对象，分别作为每个预测子音频数据关联的预测声源对象，然后将每个预测声源对象关联的多个预测子音频数据进行合成，得到每个预测声源对象对应的预测声源对象音频数据。

②可以确定与预测声源对象存在预测关联度的多个关联的预测子音频数据，然后以每个关联的预测子音频数据与该预测声源对象的预测关联度为权重值，对多个关联的预测子音频数据进行加权合成，得到该预测声源对象对应的预测声源对象音频数据。

③可以确定与预测声源对象存在预测关联度的多个关联的预测子音频数据，然后将每个的预测关联子音频数据与该预测声源对象的预测关联度与预测关联度阈值进行比较，确定预测关联度大于预测关联度阈值的关联的预测子音频数据。进而，可以对预测关联度大于预测关联度阈值的关联的预测子音频进行合成，得到该预测声源对象对应的预测声源对象音频数据。

④可以确定与预测声源对象存在预测关联度的多个关联的预测子音频数据，将每个关联的预测子音频数据与该预测声源对象的预测关联度与预测关联度阈值进行比较，确定预测关联度大于预测关联度阈值的关联的预测子音频数据。然后，可以以预测关联度大于预测关联度阈值的关联的预测子音频数据与该预测声源对象的预测关联度为权重值，进行加权合成，得到该预测声源对象对应的预测声源对象音频数据。

605，基于多个预测声源对象音频数据和多个样本声源对象音频数据，对待训练的音频分离模型和待训练的音频分组模型，进行模型参数调整。

可以将每个预测声源对象音频数据和对应的样本声源对象音频数据输入损失函数，得到该预测声源对象音频数据的损失值。损失函数可以是各种类型的损失函数，如平方损失函数(quadratic loss function)、绝对值损失函数(absolute loss function)、信噪比损失函数(signal to noise ratio loss function)、信干比损失函数(signal todistortion ratio loss function)，等等。

然后，可以对全部的预测声源对象音频数据的损失值求平均值，将该平均值作为目标损失值。进而，可以基于目标损失值对待训练的音频分离模型和待训练的音频分组模型进行参数调整。

可选的，可以选择损失值中的最高值作为目标损失值，然后基于目标损失值对待训练的音频分离模型和待训练的音频分组模型进行参数调整。

进行参数调整后，可以更换样本声源对象音频数据，使用参数调整后的待训练的音频分离模型、待训练的音频分组模型重复上述训练过程，直到满足训练结束条件为止。训练结束条件可以是目标损失值的绝对值小于预设目标损失值阈值，或者也可以是训练次数达到训练次数阈值，等等。

除了上述处理流程，音频分离的处理流程还可以如图7所示，相应的处理示意图可以参见图8。

701，提取音频数据的特征信息。

在实施中，可以将音频数据输入经过训练的特征提取模型，模型可以输出该音频数据的特征信息。特征提取模型可以是机器学习模型，例如卷积神经网络、长短时记忆网络、深度神经网络，等等。

702，将特征信息分别输入多个经过训练的声源对象音频提取模型，得到音频数据包括的多个声源对象音频数据。

在图2和图4的处理过程中，音频分离模型的输出层可以为前馈层，其函数可以表示为：

M_k＝f(W_kH+B_K)，k＝1，…，K

其中W_k、B_k为对应第k个输出的输出层的参数，H为音频分离模型输出层的输入(一般为所有输出层共享)，f(W_kH+B_K)为非线性函数。

图2和图4的处理过程中对同一声源对象关联的多个子音频数据进行合成，该过程可以表示为：

其中∑_p∈cM_p表示对同一声源对象关联的所有子音频数据进行合成(或称求和)。

考虑到多个非线性函数的和可以由另一个非线性函数进行估计，因此可以使用声源对象音频提取模型对

进行近似，过程可以如下：

∑_p∈cf(W_pH+B_p)≈g(H)

其中g(H)为声源对象音频提取模型定义的非线性函数。该机器学习模型可以由多种可能，例如，可以是多层感知机等。

通过上述数学近似，声源对象音频提取模型可以实现前述音频分离模型、音频分组模型中的部分或全部功能，从而可以输出音频数据包括的多个声源对象音频数据。多个经过训练的声源对象音频提取模型可以是相同类型的机器学习模型，也可以是不同类型的机器学习模型。声源对象音频提取模型的类型可以有多种可能，例如，可以是多层感知机等机器学习模型。特征提取模型和声源对象音频提取模型可以是相互独立的机器学习模型，也可以是同一个机器学习模型中的不同模块。

上述处理过程中涉及到一些机器学习模型，这些机器学习模型的训练处理流程可以如图9所示，包括以下步骤：

901，获取多个样本声源对象的样本声源对象音频数据，对多个样本声源对象的样本声源对象音频数据进行合成，得到样本音频数据。

902，基于样本音频数据和待训练的特征提取模型，得到样本音频数据的预测特征信息。

可以将样本音频数据输入待训练的特征提取模型，模型可以输出多个预测特征信息。样本音频数据的形式可以是音频帧，也可以是音频段，本实施例在此不做限定。待训练的特征提取模型可以是机器学习模型，例如，可以是卷积神经网络、长短时记忆网络、深度神经网络，等等。

903，将预测特征信息分别输入多个待训练的声源对象音频提取模型，得到多个预测声源对象音频数据。

多个待训练的声源对象音频提取模型可以是相同类型的机器学习模型，也可以是不同类型的机器学习模型，多个待训练的声源对象音频提取模型的初始参数各不相同。待训练的声源对象音频提取模型的模型类型可以有多种可能，例如，可以是多层感知机等机器学习模型。

904，基于多个预测声源对象音频数据和多个样本声源对象音频数据，对待训练的特征提取模型和待训练的声源对象音频提取模型，进行模型参数调整。

可以将每个预测声源对象音频数据和对应的样本声源对象音频数据输入损失函数，得到该预测声源对象音频数据的损失值。损失函数可以是各种类型的损失函数，如平方损失函数、绝对值损失函数、信噪比损失函数、信干比损失函数，等等。

然后，可以对全部的预测声源对象音频数据的损失值求平均值，将该平均值作为目标损失值。进而，可以基于目标损失值对待训练的特征提取模型和待训练的声源对象音频提取模型进行参数调整。

可选的，可以选择损失值中的最高值作为目标损失值，然后基于目标损失值对待训练的特征提取模型和待训练的声源对象音频提取模型进行参数调整。

进行参数调整后，可以更换样本声源对象音频数据，使用参数调整后的待训练的特征提取模型和待训练的声源对象音频提取模型重复上述训练过程，直到满足训练结束条件为止。训练结束条件可以是目标损失值的绝对值小于预设目标损失值阈值，或者也可以是训练次数达到训练次数阈值，等等。

为测试本实施例提供的音频分离的方法的有益效果，技术人员对设置了不同的处理方式并分别进行了性能测试。处理过程一采用经过训练的音频分离模型加上经过训练的音频分组模型进行处理，每个声源对象关联的子音频数据为2个；处理过程二采用经过训练的音频分离模型加上经过训练的音频分组模型进行处理，每个声源对象关联的子音频数据为8个；处理过程三采用经过训练的特征提取模型和经过训练的声源对象音频提取模型进行处理。另外，还设置了处理过程四，处理过程四采用经过训练的音频分离模型进行处理，将音频分离模型输出的子音频数据作为声源对象音频数据。

技术人员使用WSJ0-2mix与WHAMR！的基准数据集，其中包含30小时、10小时与5小时的训练、验证、测试数据。WSJ0-2mix数据不包含背景噪声或混响，WHAMR！数据包含真实录制的背景噪声和人工生成的混响。两个基准数据集中的每一条混合语音均包含两个说话人(即声源对象为2)，音频数据均从两个基准数据集中进行选取，说话人的相对能量从[-5，5]dB范围中随机选取。技术人员使用能量无关信干比提升作为性能测试的客观评价指标，性能测试结果如下表所示：

表1

如上表所示，可知声源对象关联的子音频数据越多，能量无关信干比提升越多。

需要说明的是，本实施例提供的音频分离的方法除了可以应用于音频识别领域，还可以应用于音频降噪、音频增强等领域。

图10是本申请实施例提供的一种音频分离的装置，所述装置包括：分离模块1001，用于获取采集的音频数据；基于所述音频数据和经过训练的音频分离模型，确定多个子音频数据；分组模块1002，用于基于所述多个子音频数据和经过训练的音频分组模型，确定每个子音频数据对应的分组信息，其中，所述分组信息用于指示对应的子音频数据与至少一个声源对象的关联关系；确定模块1003，用于基于所述每个子音频数据和所述每个子音频数据对应的分组信息，确定每个声源对象对应的声源对象音频数据。

在一种可能的实现方式中，所述子音频数据对应的分组信息包括所述子音频数据关联的声源对象；每个声源对象关联有多个子音频数据；所述确定模块1003用于将每个声源对象关联的多个子音频数据进行合成，得到每个声源对象对应的声源对象音频数据。

在一种可能的实现方式中，所述子音频数据对应的分组信息包括所述子音频数据与至少一个声源对象的关联度；所述确定模块1003用于确定每个子音频数据对应的关联度最高的声源对象，分别作为每个子音频数据关联的声源对象；每个声源对象关联有多个子音频数据；将每个声源对象关联的多个子音频数据进行合成，得到每个声源对象对应的声源对象音频数据。

在一种可能的实现方式中，所述子音频数据对应的分组信息包括所述子音频数据与至少一个声源对象的关联度；所述确定模块1003用于对于每个声源对象，确定与所述声源对象存在关联度的多个关联子音频数据，基于所述多个关联子音频数据、以及每个关联子音频数据与所述声源对象的关联度，确定所述声源对象对应的声源对象音频数据。

在一种可能的实现方式中，所述确定模块1003用于以每个关联子音频数据与所述声源对象的关联度为权重值，对多个关联子音频数据进行加权合成，得到所述声源对象对应的声源对象音频数据。

图11是本申请实施例提供的一种音频分离的装置，所述装置包括：特征提取模块1101，用于提取音频数据的特征信息；音频提取模块1102，用于将所述特征信息分别输入多个经过训练的声源对象音频提取模型，得到所述音频数据包括的多个声源对象音频数据。

图12是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备1200可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(centralprocessing units，CPU)1201和一个或一个以上的存储器1202，其中，存储器1202中存储有至少一条指令，至少一条指令由处理器1201加载并执行以实现上述各个方法实施例提供的方法。当然，该计算机设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号(包括但不限于用户终端与其他设备之间传输的信号等)，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的音频数据都是在充分授权的情况下获取的。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述实施例中音频分离的方法。该计算机可读存储介质可以是非暂态的。例如，计算机可读存储介质可以是ROM(read-only memory，只读存储器)、RAM(random access memory，随机存取存储器)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频分离的方法，其特征在于，所述方法包括：

获取采集的音频数据；

基于所述音频数据和经过训练的音频分离模型，确定多个子音频数据；

基于所述多个子音频数据和经过训练的音频分组模型，确定每个子音频数据对应的分组信息，其中，所述分组信息用于指示对应的子音频数据与至少一个声源对象的关联关系；

基于所述每个子音频数据和所述每个子音频数据对应的分组信息，确定每个声源对象对应的声源对象音频数据。

2.根据权利要求1所述的方法，其特征在于，所述子音频数据对应的分组信息包括所述子音频数据关联的声源对象；每个声源对象关联有多个子音频数据；

所述基于所述每个子音频数据和所述每个子音频数据对应的分组信息，确定每个声源对象对应的声源对象音频数据，包括：

将每个声源对象关联的多个子音频数据进行合成，得到每个声源对象对应的声源对象音频数据。

3.根据权利要求1所述的方法，其特征在于，所述子音频数据对应的分组信息包括所述子音频数据与至少一个声源对象的关联度；

确定每个子音频数据对应的关联度最高的声源对象，分别作为每个子音频数据关联的声源对象；每个声源对象关联有多个子音频数据；

4.根据权利要求1所述的方法，其特征在于，所述子音频数据对应的分组信息包括所述子音频数据与至少一个声源对象的关联度；

对于每个声源对象，确定与所述声源对象存在关联度的多个关联子音频数据，基于所述多个关联子音频数据、以及每个关联子音频数据与所述声源对象的关联度，确定所述声源对象对应的声源对象音频数据。

5.根据权利要求4所述的方法，其特征在于，所述基于所述多个关联子音频数据、以及每个关联子音频数据与所述声源对象的关联度，确定所述声源对象对应的声源对象音频数据，包括：

以每个关联子音频数据与所述声源对象的关联度为权重值，对多个关联子音频数据进行加权合成，得到所述声源对象对应的声源对象音频数据。

6.一种音频分离的方法，其特征在于，所述方法包括：

提取音频数据的特征信息；

将所述特征信息分别输入多个经过训练的声源对象音频提取模型，得到所述音频数据包括的多个声源对象音频数据。

7.一种音频分离的装置，其特征在于，所述装置包括：

分离模块，用于获取采集的音频数据；基于所述音频数据和经过训练的音频分离模型，确定多个子音频数据；

分组模块，用于基于所述多个子音频数据和经过训练的音频分组模型，确定每个子音频数据对应的分组信息，其中，所述分组信息用于指示对应的子音频数据与至少一个声源对象的关联关系；

确定模块，用于基于所述每个子音频数据和所述每个子音频数据对应的分组信息，确定每个声源对象对应的声源对象音频数据。

8.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现如权利要求1至权利要求6任一项所述的音频分离的方法所执行的操作。

9.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求6任一项所述的音频分离的方法所执行的操作。

10.一种计算机程序产品，其特征在于，所述计算机程序产品中包括至少一条指令，所述至少一条指令由处理器加载并执行以实现如权利要求1至权利要求6任一项所述的音频分离的方法所执行的操作。