CN115132183B

CN115132183B - 音频识别模型的训练方法、装置、设备、介质及程序产品

Info

Publication number: CN115132183B
Application number: CN202210583329.XA
Authority: CN
Inventors: 罗艺; 余剑威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-05-25
Filing date: 2022-05-25
Publication date: 2024-04-12
Anticipated expiration: 2042-05-25
Also published as: CN115132183A

Abstract

本申请公开了一种音频识别模型的训练方法、装置、设备、介质及程序产品，涉及语音识别领域。该方法包括：通过音频识别模型对样本音频进行音频分离，得到样本音频中属于第一音频类别的第一音频数据；获取样本音频数据集，其中包括属于第二音频类别的第二音频数据；将第一音频数据和第二音频数据进行混合得到混合音频；通过音频识别模型对混合音频进行音频分离，得到混合音频中与第二音频类别对应的预测音频数据；以预测音频数据与第二音频数据之间的差异对音频识别模型进行训练。通过以上方式，有效解决了训练样本不足的问题，利用训练得到的目标音频识别模型提高音频分离的质量和准确度。本申请可应用于云技术、人工智能、智慧交通等各种场景。

Description

音频识别模型的训练方法、装置、设备、介质及程序产品

技术领域

本申请实施例涉及语音识别领域，特别涉及一种音频识别模型的训练方法、装置、设备、介质及程序产品。

背景技术

音频分离(Speech Separation)属于经典且重要的信号处理问题，其目标是从采集的音频数据中分离出需要的音频内容，排除其他不需要的背景音频干扰。

相关技术中，通常依赖于监督学习框架，将预先收集得到且标注有音频标签的多种音频数据(如：人声音频数据、乐器音频数据、背景音音频数据等)进行随机混合，得到混合音频数据，通过混合音频数据对音频识别模型进行训练，从而得到对待分析的目标音频进行音频分离的目标模型。

然而，在采用上述方法对音频识别模型进行训练得到目标模型时，目标模型的训练依赖于标注有音频标签的音频数据，当标注有音频标签的音频数据的数量较少时，音频识别模型的训练次数较少，由此得到的目标模型的适应性较差，目标模型的音频分离预测效果通常并不理想。

发明内容

本申请实施例提供了一种音频识别模型的训练方法、装置、设备、介质及程序产品，能够有效解决了训练样本不足的问题，利用训练得到的目标音频识别模型提高音频分离的质量和准确度。所述技术方案如下。

一方面，提供了一种音频识别模型的训练方法，所述方法包括：

通过音频识别模型对样本音频进行音频分离，得到所述样本音频中属于第一音频类别的第一音频数据；

获取样本音频数据集，所述样本音频数据集中的样本音频数据标注有用于指示音频类别的音频类别标签，所述样本音频数据集中包括属于第二音频类别的第二音频数据；

将所述第一音频数据和所述第二音频数据进行混合，得到混合音频；

通过所述音频识别模型对所述混合音频进行音频分离，得到所述混合音频中与所述第二音频类别对应的预测音频数据；

基于所述预测音频数据与所述第二音频数据之间的差异，对所述音频识别模型进行训练，得到目标音频识别模型，所述目标音频识别模型用于进行音频分离。

另一方面，提供了一种音频识别模型的训练装置，所述装置包括：

分离模块，用于通过音频识别模型对样本音频进行音频分离，得到所述样本音频中属于第一音频类别的第一音频数据；

获取模块，用于获取样本音频数据集，所述样本音频数据集中的样本音频数据标注有用于指示音频类别的音频类别标签，所述样本音频数据集中包括属于第二音频类别的第二音频数据；

混合模块，用于将所述第一音频数据和所述第二音频数据进行混合，得到混合音频；

预测模块，用于通过所述音频识别模型对所述混合音频进行音频分离，得到所述混合音频中与所述第二音频类别对应的预测音频数据；

训练模块，用于基于所述预测音频数据与所述第二音频数据之间的差异，对所述音频识别模型进行训练，得到目标音频识别模型，所述目标音频识别模型用于进行音频分离。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述本申请实施例中任一所述音频识别模型的训练方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述本申请实施例中任一所述的音频识别模型的训练方法。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的音频识别模型的训练方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

将样本音频中属于第一音频类别的第一音频数据和样本音频数据集中属于第二音频类别的第二音频数据进行混合，得到混合音频，在确定样本音频中属于第一音频类别的第一音频数据后，选择与第一音频类别不同的第二音频类别对应的第二音频数据，以尽可能使得第二音频类别对应的预测音频数据与第二音频数据相接近为目标，对音频识别模型进行更广泛地训练，从而利用没有标签标注的样本音频对音频识别模型进行训练，有效解决了训练样本不足的问题，克服了全监督学习时过于依赖有标签的样本音频数据的弊端，从而得到训练效果更好的目标音频识别模型，提高音频分离的质量和准确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的实施环境示意图；

图2是本申请一个示例性实施例提供的音频识别模型的训练方法的流程图；

图3是本申请另一个示例性实施例提供的音频识别模型的训练方法的流程图；

图4是本申请一个示例性实施例提供的片段分割示意图；

图5是本申请另一个示例性实施例提供的音频识别模型的训练方法的流程图；

图6是本申请一个示例性实施例提供的初始识别模型的训练流程图；

图7是本申请一个示例性实施例提供的有效片段提取流程图；

图8是本申请另一个示例性实施例提供的音频识别模型的训练方法的流程图；

图9是本申请一个示例性实施例提供的混合音频合成的流程图；

图10是本申请一个示例性实施例提供的音频识别模型的训练流程图；

图11是本申请一个示例性实施例提供的音频识别模型的训练装置的结构框图；

图12是本申请一个示例性实施例提供的服务器的结构框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

相关技术中，通常依赖于监督学习框架，将预先收集得到且标注有音频标签的多种音频数据(如：人声音频数据、乐器音频数据、背景音音频数据等)进行随机混合，得到混合音频数据，通过混合音频数据对音频识别模型进行训练，从而得到对待分析的目标音频进行音频分离的目标模型。然而，在采用上述方法对音频识别模型进行训练得到目标模型时，目标模型的训练依赖于标注有音频标签的音频数据，当标注有音频标签的音频数据的数量较少时，音频识别模型的训练次数较少，由此得到的目标模型的适应性较差，目标模型的音频分离预测效果通常并不理想。

本申请实施例中，提供了一种音频识别模型的训练方法，利用训练得到的目标音频识别模型提高音频分离的质量和准确度。针对本申请训练得到的音频识别模型的训练方法，将其应用于音乐分离场景下。

音乐分离是指针对不同领域的要求，从混合音频中分离得到人声、伴奏声等声音，还包括从混合音频中分离得到单个乐器的声音。以待进行音乐分离的音频为目标音乐为例进行说明，通过上述音频识别模型的训练方法，在分离得到样本音频中属于第一音频类别的第一音频数据后，从样本音频数据集中选择与第一音频类别不同的第二音频类别对应的第二音频数据，将第一音频数据和第二音频数据进行混合得到混合音频，通过音频识别模型确定混合音频中与第二音频类别对应的预测音频数据，以预测音频数据与第二音频数据之间的差异对音频识别模型进行训练，有效克服了全监督学习时过于依赖有标签的样本音频数据的弊端，提高了训练样本的数量，从而得到训练效果更好的目标音频识别模型，提高音频分离的质量和准确度。

值得注意的是，上述应用场景仅为示意性的举例，本实施例提供的音频识别模型的训练方法还可以应用于其他场景中，例如：音频分离后的语音增强场景下等，本申请实施例对此不加以限定。

需要说明的是，本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号，均为经用户授权或者经过各方充分授权的，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如，本申请中涉及到的音频数据都是在充分授权的情况下获取的。

其次，对本申请实施例中涉及的实施环境进行说明，示意性的，请参考图1，该实施环境中涉及终端110、服务器120，终端110和服务器120之间通过通信网络130连接。

在一些实施例中，终端110用于向服务器120发送样本音频。在一些实施例中，终端110中安装有具有音频获取功能的应用程序，以获取得到样本音频。

本申请实施例提供的特征表示的提取方法可以由终端110单独执行实现，也可以由服务器120执行实现，或者由终端110和服务器120通过数据交互实现，本申请实施例对此不加以限定。本实施例中，终端110通过具有音频获取功能的应用程序获取样本音频后，向服务器120发送获取得到的样本音频，示意性的，以服务器120通过样本音频对音频识别模型121进行训练为例进行说明。

可选地，服务器120在接收到终端110发送的样本音频后，通过音频识别模型121对样本音频进行音频分离，得到样本音频中属于第一音频类别的第一音频数据；此外，服务器120获取存储有样本音频数据的样本音频数据集，样本音频数据标注有用于指示音频类别的音频类别标签，且样本音频数据集中包括属于第二音频类别的第二音频数据；将属于第一音频类别的第一音频数据和属于第二音频类别的第二音频数据进行混合，得到混合音频；通过音频识别模型121对混合音频进行音频分离，得到混合音频中与第二音频类别对应的预测音频数据，通过第二音频类别对应的第二音频数据以及第二音频类别对应的预测音频数据之间的差异，对音频识别模型121进行训练，得到训练好的目标音频识别模型，通过目标音频识别模型进行音频分离过程。以上为一种示意性的目标音频识别模型的训练方法，本申请实施例对此不加以限定。

可选地，服务器120将通过目标音频识别模型进行音频分离后的音频处理结果发送至终端110，由终端110对音频处理结果进行接收、播放、显示等。

值得注意的是，上述终端包括但不限于手机、平板电脑、便携式膝上笔记本电脑、智能语音交互设备、智能家电、车载终端等移动终端，也可以实现为台式电脑等；上述服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，云技术(Cloud technology)是指在广域网或局域网内将硬件、应用程序、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。

在一些实施例中，上述服务器还可以实现为区块链系统中的节点。

结合上述名词简介和应用场景，对本申请提供的音频识别模型的训练方法进行说明，以该方法应用于服务器为例进行说明，如图2所示，该方法包括如下步骤210至步骤250。

步骤210，通过音频识别模型对样本音频进行音频分离，得到样本音频中属于第一音频类别的第一音频数据。

示意性的，音频用于指示具有音频信息的数据，如：一段音乐、一段语音消息等。可选地，采用终端、录音机等内置或者外接语音采集组件的设备，对音频进行获取。例如：采用配置有麦克风、麦克风阵列或者拾音器的终端，对音频进行获取；或者，采用音频合成应用程序合成音频，从而对音频进行获取等。

示意性的，样本音频是采用上述采集方式或合成方式获取得到的音频数据。

可选地，音频识别模型为待训练的识别模型，通过音频识别模型能够对样本音频对应的音频类别进行确定。

在一个可选的实施例中，通过音频识别模型对样本音频进行音频分离，得到多个音频类别分别对应的音频数据。

可选地，音频识别模型具有一定的音频分离功能，用于对获取得到的样本音频进行音频分离，从而得到样本音频对应的多个音频类别。

示意性的，音频类别用于指示样本音频中对应的多种声源，例如：音频A的音频类别为人声音频类别，则代表音频A的声源是人物；或者，音频B的音频类别为乐器声音频类别，则代表音频B的声源是乐器声等。其中，不同的乐器声对应不同的声源，如：贝斯对应一种声源，钢琴对应另一种声源。

可选地，不同的音频类别通过声源对应的频段进行区别，频段为频率对应的范围，每一种声源有其对应的主要频段，例如：人声的主要频段为100HZ-8000HZ，贝斯的主要频段为100HZ-2000HZ等。在通过音频识别模型对样本音频进行音频分离时，通过样本音频中频段的分布情况，对样本音频对应的多个声源进行区别，从而确定样本音频对应的音频类别。

其中，音频数据用于指示样本音频对应的数据，基于不同音频类别对应的频段范围的差异，对于不同的音频类别，分别对应有不同的音频数据。示意性的，在通过音频识别模型对样本音频进行音频分离后得到的多个音频数据中，包括第一音频类别对应的第一音频数据。

可选地，第一音频类别为多个音频类别中任意一个音频类别，由于第一音频数据为样本音频中与第一音频类别对应的音频数据，在分离得到第一音频数据后，能够确定第一音频类别在样本音频中的时频域分布情况。

步骤220，获取样本音频数据集。

其中，样本音频数据集中的样本音频数据标注有用于指示音频类别的音频类别标签。

示意性的，在样本音频数据集中，存储有多个样本音频数据。多个样本音频数据通过上述音频采集方式、音频合成方式等获取得到。样本音频数据对应标注有音频类别标签，从而区别不同样本音频数据对应的音频类别。

可选地，每一种样本音频数据对应一种音频类别。示意性的，多个样本音频数据对应的标注的音频类别标签既可以相同，也可以不同。例如：在样本音频数据集中存储有样本音频数据M、样本音频数据L以及样本音频数据N，其中，样本音频数据M对应标注有音频类别标签“人声”，样本音频数据L对应标注有音频类别标签“贝斯”，样本音频数据N对应标注有音频类别标签“人声”，也即，样本音频数据M和样本音频数据N均属于人声音频类别的音频数据。

在一个可选的实施例中，样本音频数据集中包括属于第二音频类别的第二音频数据。

可选地，第二音频类别是多种音频类别中与第一音频类别所区别的音频类别。示意性的，多种音频类别包括日常生活中各种声源对应的音频类别，如：声源“人物”对应的音频类别“人声”、声源“贝斯”对应的音频类别“贝斯声”、声源“流水”对应的音频类别“水声”等。当样本音频中第一音频类别为“人声”时，第二音频类别为第一音频类别以外的其他音频类别，如：“贝斯声”、“水声”等。

示意性的，在根据样本音频数据集确定第二音频类别时，基于样本音频数据集中存储的多个样本音频数据分别对应的样本音频标签，通过样本音频标签所指示的音频类别，确定与第一音频类别不同的第二音频类别。

其中，第二音频数据为与第二音频类别对应的音频数据。示意性的，在确定第二音频类别后，将样本音频数据集中第二音频类别对应的至少一个样本音频数据作为第二音频数据。例如：确定第二音频类别为音频类别“贝斯”，确定样本音频数据集中标注有音频类别标签“贝斯”的样本音频数据，将该样本音频数据作为第二音频数据。

步骤230，将第一音频数据和第二音频数据进行混合，得到混合音频。

其中，第一音频数据为从样本音频中分离得到的第一音频类别对应的音频数据；第二音频数据为从样本音频数据集中获取得到的第二音频类别对应的音频数据。

可选地，基于样本音频的音频性质，分离得到的第一音频数据具有一定的噪音；作为存储于样本音频数据集中的第二音频数据，属于声源较为干净的音频数据。

示意性的，在得到第一音频数据和第二音频数据后，将第一音频数据和第二音频数据进行混合，从而得到混合音频。例如：将分离得到的第一音频数据与获取得到的第二音频数据输入具有混音功能的应用程序中，将第一音频数据和第二音频数据进行多音频叠加过程，从而得到一个音轨的混合音频等。

步骤240，通过音频识别模型对混合音频进行音频分离，得到混合音频中与第二音频类别对应的预测音频数据。

示意性的，在得到混合音频后，采用上述音频识别模型，将混合音频输入音频识别模型中，通过音频识别模型对混合音频进行音频分离。

其中，基于音频识别模型所具备的音频分离功能，音频识别模型从混合音频中分离得到与第二音频类别对应的预测音频数据。

可选地，在通过音频识别模型对混合音频进行分离时，在分离得到与第二音频类别对应的预测音频数据外，还能对混合音频中与第一音频类别对应的音频数据进行预测；或者，在通过音频识别模型对混合音频进行分离时，仅对与第二音频类别对应的预测音频数据进行分离等。

步骤250，基于预测音频数据与第二音频数据之间的差异，对音频识别模型进行训练，得到目标音频识别模型。

示意性的，在获取得到预测音频数据后，基于预测音频数据与第二音频数据均与第二音频类别相对应，确定第二音频数据与预测音频数据之间的差异。

可选地，确定第二音频数据与预测音频数据之间的损失值，通过损失值对音频识别模型进行训练，从而得到目标音频识别模型。其中，目标音频识别模型用于进行音频分离。

示意性的，在得到目标音频识别模型后，将以任意方式获取得到待进行音频分离的目标音频作为目标音频识别模型的输入，目标音频通过目标音频识别模型进行音频分离，从而确定目标音频对应的不同音频类别，以及与不同音频类别分别对应的音频数据。可选地，将不同音频类别分别对应的音频数据作为目标音频识别模型的输出，从而实现对目标音频的音频分离过程。

例如：目标音频为待进行音频分离的一段音乐，通过目标音频识别模型，将目标音频中不同乐器对应的音频数据进行分离，如：通过目标音频识别模型，得到目标音频中“钢琴”对应的音频数据以及“贝斯”对应的音频数据，从而实现对该段音乐的音频分离过程。

值得注意的是，以上仅为示意性的举例，本申请实施例对此不加以限定。

综上所述，在确定样本音频中属于第一音频类别的第一音频数据后，选择与第一音频类别不同的第二音频类别对应的第二音频数据，以尽可能使得第二音频类别对应的预测音频数据与第二音频数据相接近为目标，对音频识别模型进行更广泛地训练，从而利用没有标签标注的样本音频对音频识别模型进行训练，有效解决了训练样本不足的问题，克服了全监督学习时过于依赖有标签的样本音频数据的弊端，从而得到训练效果更好的目标音频识别模型，提高音频分离的质量和准确度。

在一个可选的实施例中，在对样本音频进行音频分离时，采用片段分割操作，对不同音频片段进行音频分离操作。示意性的，如图3所示，上述图2所示出的实施例中的步骤210还可以实现为如下步骤310至步骤330。

步骤310，沿时域维度对样本音频进行片段分割，得到样本音频对应的多个音频片段。

示意性的，根据样品音频的时序关系，沿时域维度对样本音频进行片段分割。其中，可以采用不同的片段分割度量方式，对样本音频进行片段分割操作。例如：以“秒”为单位，对样本音频进行片段分割操作；或者，以“音频帧”为单位，对样本音频进行片段分割操作等。

在基于上述片段分割操作对样本音频进行片段分割后，得到样本音频对应的多个音频片段。例如：以“秒”为单位对样本音频进行片段分割操作后，得到多个以秒为单位计量的音频片段；或者，以“音频帧”为单位对样本音频进行片段分割操作后，得到多个以“音频帧”为单位计量的音频片段。

可选地，在对样本音频进行片段分割时，以相同的分割长度对样本音频进行逐一分割，从而得到多个分割长度相同的音频片段；或者，以分割长度递增的方式对样本音频进行逐一分割，从而得到多个分割长度递增的音频片段等。

在一个可选的实施例中，基于预设分割长度和预设重叠率沿时域维度对样本音频进行片段分割。

其中，预设分割长度用于指示音频片段的分割长度要求，预设重叠率用于指示相邻两段音频片段之间的分割重叠关系。时域维度是采用时间标尺对样本音频在时间上的变化进行记录的维度情况。

示意性的，以“秒”为分割单位，在时域维度对样本音频进行片段分割操作，假设预设分割长度为1秒，代表对样本音频进行片段分割操作后得到的多个音频片段的片段长度为1秒；或者，以“音频帧”为分割单位，对样本音频进行片段分割操作，假设预设分割长度为2帧，代表对样本音频进行片段分割操作后得到的多个音频片段的片段长度为2帧等。

可选地，在基于预设分割长度对样本音频进行片段分割操作时，为避免相邻音频片段之间的音频信号的能量损耗，采用预设重叠率的方法，使得相邻音频片段之间具有重叠音频片段，其中，重叠音频片段与预设分割长度和预设重叠率相关。

示意性的，预设重叠率与预设分割长度相关。例如：以预设分割长度为T，预设重叠率为α为例进行说明。如图4所示，为一段样本音频数据410，在一次片段分割操作的过程中，预设分割长度T＝1秒，预设重叠率α＝1/6，基于片段分割操作得到多个音频片段420，其中，每个音频片段420的片段长度为1秒，且相邻两个音频片段420之间存在重叠音频片段430，重叠音频片段的片段长度为预设分割长度T与预设重叠率α的乘积，即，重叠音频片段的片段长度为1/6秒。

在一个可选的实施例中，以预设重叠片段长度代替预设重叠率，通过预设分割长度和预设重叠片段长度，在时域维度对样本音频进行片段分割操作。其中，基于预设重叠片段长度的要求，预设重叠片段长度小于预设分割长度。

步骤320，通过音频识别模型对多个音频片段进行音频分离，得到多个音频片段中分别属于第一音频类别的第一音频子数据。

可选地，在得到样本音频对应的多个音频片段后，将多个音频片段输入音频识别模型中，由音频识别模型对多个音频片段分别进行音频分离操作。

示意性的，在将多个音频片段输入音频识别模型时，既可以采用依次输入方法，将多个音频片段依次输入音频识别模型，由音频识别模型依次对多个音频片段进行片段分离操作；还可以采用同时输入方法，将多个音频片段同时输入音频识别模型，由音频识别模型同时对多个音频片段进行片段分离操作等。

例如，对样本音频进行片段分割后，得到样本音频对应的3个音频片段，分别为音频片段X、音频片段Y以及音频片段Z，在将3个音频片段依次输入音频识别模型后，由音频识别模型依次对多个音频片段进行片段分离操作，从而得到音频片段X、音频片段Y以及音频片段Z分别对应的音频数据，其中，不同音乐片段对应的音频数据中，包括至少一种音频类别对应的音频数据。

在一个可选的实施例中，在通过音频识别模型对多个音频片段进行音频分离时，对多个音频片段所对应的多个音频类别的音频子数据进行逐一获取。

示意性的，在通过音频识别模型对音频片段X进行片段分离操作后，确定音频片段X对应包括有与音频类别A对应的音频子数据a₁以及与音频类别B对应的音频子数据b₁；在通过音频识别模型对音频片段Y进行片段分离操作后，确定音频片段Y对应包括有与音频类别A对应的音频子数据a₂以及与音频类别C对应的音频子数据c₁；在通过音频识别模型对音频片段Z进行片段分离操作后，确定音频片段Z对应包括有与音频类别A对应的音频子数据a₃。其中，基于不同音频片段之间的频率差异，不同音频片段对应的音频子数据可能存在差异。

在一个可选的实施例中，在通过音频识别模型对多个音频片段进行音频分离时，对其中一种或者多种音频类别的音频子数据进行获取，即，对第一音频类别对应的第一音频数据进行获取。

可选地，在对其中一种音频类别的音频子数据进行获取时，从多个音频片段所对应的多个音频类别中，选择任意一种音频类别作为第一音频类别，对第一音频类别对应第一音频子数据进行获取。

示意性的，对多个音频片段分别进行音频分离，确定每个音频片段所对应包括的音频类别，其中，每个音频片段可能对应包括有多种音频类别，例如：音频片段X对应包括有音频类别A以及音频类别B。

示意性的，不同的音频片段之间所包含的音频类别可能相同。例如：音频片段X、音频片段Y以及音频片段Z均对应包括有音频类别A；此外，不同的音频片段之间所包含的音频类别也可能不同，例如：音频片段Y对应包括有音频类别C，但音频片段X以及音频片段Z并不对应包括有音频类别C等。

在一个可选的实施例中，从多种音频片段所对应的多种音频类别中，任意选择一个音频类别作为第一音频类别，从样本音频对应的多个音频片段中获取与该第一音频类别对应的音频数据作为第一音频子数据；或者，从多种音频片段所对应的多种音频类别中，任意选择多个音频类别作为第一音频类别，获取与该第一音频类别对应的音频数据作为第一音频子数据。

示意性的，以任意选择一个音频类别作为第一音频类别为例进行说明。例如：将音频类别C作为第一音频类别，从样本音频对应的多个音频片段中，获取与音频类别C对应的音频数据，即：将获取得到的音频片段Y中与音频类别C对应的音频子数据c₁作为第一音频子数据。

示意性的，以任意选择多个音频类别作为第一音频类别为例进行说明。例如：将音频类别A和音频类别B作为第一音频类别，从样本音频对应的多个音频片段中，获取与音频类别A和音频类别B分别对应的音频数据，即，获取得到的第一音频子数据包括：音频片段X中与音频类别A对应的音频子数据a₁、音频类别B对应的音频子数据b₁、音频片段Y中与音频类别A对应的音频子数据a₂以及音频片段Z中与音频类别A对应的音频子数据a₃。

在一个可选的实施例中，在对其中一种音频类别的音频子数据进行获取时，分析多个音频片段所分别对应的至少一种音频类别，得到每个音频片段中至少一种音频类别对应的分布比重；将多个音频片段中综合分布比重最大的音频类别作为第一音频类别；对多个音频片段中属于第一音频类别的第一音频子数据分别进行获取。

其中，综合分布比重用于指示每种音频类别在每个音频片段中的分布情况。示意性的，在分析样本音频数据中多个音频片段所分别对应的音频类别后，得到多个音频片段所分别对应的音频类别，多个音频类别包括音频类别A、音频类别B以及音频类别C，之后确定多个音频类别在多个音频片段所分别对应的分布比重。例如：多个音频片段中均对应包括音频类别A对应的音频数据，则音频类别A的分布比重较大，代表样本音频数据中来自与音频类别A对应声源的声音比重较大；或者，多个音频片段中仅有部分音频片段对应包括音频类别C对应的音频数据，则音频类别C的分布比重较小，代表样本音频数据中来自与音频类别C对应声源的声音比重较小等。

可选地，在得到不同音频类别在多个音频片段所分别对应的比重后，将最大比重的音频类别作为第一音频类别，并从多个音频片段对应的多个音频子数据中，确定第一音频类别对应的第一音频子数据，从而实现对第一音频子数据的获取过程；或者，将三个最大比重的音频类别作为第一音频类别，并从多个音频片段对应的多个音频子数据中，确定第一音频类别对应的第一音频子数据，从而实现对第一音频子数据的获取过程。

示意性的，基于音频类别A的比重较大，将音频类别A作为第一音频类别，并从多个音频片段对应的多个音频子数据中，获取与音频类别A对应的第一音频子数据。也即，从音频片段X中获取与音频类别A对应的音频子数据a₁，从音频片段Y中获取与音频类别A对应的音频子数据a₂，从音频片段Z中获取与音频类别A对应的音频子数据a₃，将音频子数据a₁、音频子数据a₂以及音频子数据a₃作为第一音频类别(音频类别A)对应的第一音频子数据。

步骤330，将多个音频片段中的第一音频子数据按时域维度进行拼接，得到第一音频数据。

其中，时域维度是采用时间标尺对样本音频在时间上的变化进行记录的维度情况，在通过时域维度获取得到多个片段音频时，不同片段音频之间具有时域关系，在根据时域维度对第一音频子数据进行拼接时，根据不同第一音频子数据所对应的片段音频之间的时域关系，进行拼接操作。

示意性的，在得到多个音频片段中第一音频类别对应的第一音频子数据后，确定多个第一音频子数据所对应的片段音频之间的时域关系。

例如：在沿时域对样本音频进行分离后，得到的音频片段X、音频片段Y以及音频片段Z之间具有时域关系，音频片段X之后是音频片段Y，音频片段Y之后是音频片段Z。将从音频片段X中获取得到的与音频类别A对应的音频子数据a₁、从音频片段Y中获取得到的与音频类别A对应的音频子数据a₂以及从音频片段Z中获取得到的与音频类别A对应的音频子数据a₃作为第一音频类别对应的第一音频子数据。基于音频片段X、音频片段Y以及音频片段Z之间的时域关系，确定沿时域维度上，音频类别A所对应的音频子数据a₁之后是音频子数据a₂，音频子数据a₂之后是音频子数据a₃。

可选地，根据多个第一音频子数据所对应的片段音频之间的时域关系，将第一音频类别所对应的第一音频子数据进行拼接。例如：基于音频片段X、音频片段Y以及音频片段Z之间的时域关系，在时域维度将音频子数据a₁、音频子数据a₂以及音频子数据a₃依次进行拼接，从而得到音频类别A所对应的第一音频数据。

在一个可选的实施例中，基于第一能量阈值对多个音频片段分别对应的第一音频子数据进行有效性过滤，得到过滤后的第一音频子数据。

其中，第一能量阈值用于过滤第一音频子数据中低于第一能量阈值的子数据。

示意性的，在得到多个音频片段中第一音频类别对应的多个第一音频子数据后，首先确定多个第一音频子数据所分别对应的音频能量，将不同第一音频子数据分别对应的音频能量与第一能量阈值进行数值比较。

可选地，第一能量阈值根据多个第一音频子数据所分别对应的音频能量而确定。例如：在确定多个第一音频子数据所分别对应的音频能量后，对多个第一音频子数据所分别对应的音频能量进行均值操作，确定多个第一音频子数据的音频能量均值，将该音频能量均值作为第一能量阈值。在将不同第一音频子数据分别对应的音频能量与第一能量阈值进行数值比较时，即将多个第一音频子数据分别对应的音频能量与音频能量均值进行比较。

示意性的，将第一音频子数据的音频能量低于音频能量均值的第一音频子数据进行过滤，将第一音频子数据的音频能量高于音频能量均值的第一音频子数据进行保留，从而使得保留得到的第一音频子数据的音频能量更具有有效性，实现对多个音频片段分别对应的第一音频子数据进行有效性过滤的过程。基于保留得到的第一音频子数据，得到过滤后的第一音频子数据。

在一个可选的实施例中，将过滤后的第一音频子数据按时域维度进行拼接，得到第一音频数据。

示意性的，在得到过滤后的第一音频子数据后，基于第一音频子数据所对应的音频片段之间的时域关系，沿时域维度对过滤后的第一音频子数据进行拼接，从而得到第一音频数据。

在本申请实施例中，在对样本音频进行音频分离时，采用片段分割操作得到样本音频对应的多个音频片段，通过音频识别模型对每个音频片段进行音频分离，得到不同音频片段中属于第一音频类别的第一音频子数据，并按时域维度对第一音频子数据进行拼接，从而得到第一音频数据。通过上述方法，考虑到样本音频的长度(时长)通常较大，先采用片段分割操作得到多个音频片段，既能够减少对样本音频分析时的计算量，也能够实现更细颗粒度的分析过程，此外，确定每一个分割得到的音频片段中属于第一音频类别的第一音频子数据，并根据分割时的时域维度，将多个第一音频子数据拼接后得到质量更好的第一音频数据，也有利于提高对音频识别模型的训练过程。

在一个可选的实施例中，对第一音频数据和第二音频数据进行混合，将得到的混合音频作为对音频识别模型进行训练的音频数据。示意性的，如图5所示，上述图2所示出的实施例中的步骤240还可以实现为如下步骤510至步骤560。

步骤510，通过音频识别模型对样本音频进行音频分离，得到样本音频中属于第一音频类别的第一音频数据。

示意性的，以随机选取的方式，从若干音频中获取得到的样本音频。例如：从音乐网站上随机下载几首歌曲作为样本音频；或者，开启录音笔，对周围环境的实时声音进行录制，从而得到样本音频等。

可选地，音频识别模型为经过训练得到的识别模型，也即，在对音频识别模型进行初步训练后，采用本申请提供的音频识别模型的训练方法，对初步训练后的音频识别模型继续进行训练。

示意性的，对初步训练得到音频识别模型的训练过程进行介绍。以初始识别模型为待训练的初始模型，通过标注有音频类别标签的多个样本音频数据，对初始识别模型进行初步训练，得到音频识别模型。

如图6所示，以获取得到的标注有音频类别标签的样本音频数据为干净人声音频数据610(Clean Vocal)以及干净背景音音频数据620(Clean Background music，CleanBGM)为例，其中，干净用于指示音频数据的音频纯净，例如：对人声音频数据进行提纯操作，从而得到干净的人声音频数据610。

可选地，将干净人声音频数据610以及干净背景音音频数据620进行混合(Mixing)，得到混合音频数据630(Mixture)。

示意性的，在将干净人声音频数据610以及干净背景音音频数据620进行混合时，采用如下混合方法进行混合操作。

(1)随机采样1-3份人声音频数据，其中，采样到1份人声音频数据的概率为0.7；采样到2份人声音频数据的概率为0.2；采样到3份人声音频数据的概率为0.1；

(2)随机采样1份干净背景音音频数据620；

(3)对于采样到的每份人声音频数据与干净背景音音频数据620(时长为L)，随机选取时长为T的子片段；

(4)如果有多于一份的人声音频数据，随机选取其中一份为主人声音频数据(mainvocal)，对其余人声音频数据的能量进行随机调整，使得主人声音频数据相对于每一份其余人声音频数据的信噪比(SNR)遵循[-25，-5]dB之间的均匀分布；将能量调整后的所有人声音频数据进行相加，生成调整后的干净人声音频数据610；

(5)调整干净背景音音频数据620的能量，使得调整后的干净人声音频数据610相对于干净背景音音频数据620的信噪比遵循[-20，20]dB之间的均匀分布；

(6)以0.1的概率将干净人声音频数据610删除(将干净人声音频数据610设为全0)，也即，有0.1的概率不存在干净人声音频数据610；当干净人声音频数据610没有被删除时，以0.1的概率将干净背景音音频数据620(将干净背景音音频数据620设为全0)，也即，有0.1的概率不存在干净背景音音频数据620。通过此过程对仅包含人声或伴奏的音频片段的场景进行模拟；

(7)将干净人声音频数据610与干净背景音音频数据620相加，得到混合音频数据630。

示意性的，经过上述操作得到混合音频数据630后，将混合音频数据630输入初始识别模型640中，通过初始识别模型640对混合音频数据630进行音频分离，得到预测人声音频数据650以及预测背景音音频数据660，确定预测人声音频数据650和干净人声音频数据610之间的人声音频数据损失670，确定预测背景音音频数据660与干净背景音音频数据620之间的背景音音频数据损失680，以人声音频数据损失670和背景音音频数据损失680中的至少一种损失，对初始识别模型640进行训练，进而得到音频识别模型。

示意性的，以人声音频数据损失670对初始识别模型640进行训练，当人声音频数据损失670达到收敛状态后，得到音频识别模型；或者，以背景音音频数据损失680对初始识别模型640进行训练，当背景音音频数据损失680达到收敛状态后，得到音频识别模型；或者，以人声音频数据损失670和背景音音频数据损失680对初始识别模型640进行训练，当人声音频数据损失670和背景音音频数据损失680均达到收敛状态后，得到音频识别模型。

在一个可选的实施例中，在获取得到初步训练的音频识别模型后，通过音频识别模型，对样本音频进行音频分离。

示意性的，对样本音频进行音频分离后，得到不同音频类别分别对应的音频数据，其中包括第一音频类别对应的第一音频数据，以及第二音频类别对应的第三音频数据。其中，第一音频类别与第二音频类别属于不同的音频类别。

在一个可选的实施例中，获取候选音频；对所述候选音频进行片段分割，得到多个候选子音频；确定所述多个候选子音频分别对应的音频能量；基于第二能量阈值对所述多个候选子音频进行有效性过滤，得到样本音频。

其中，第二能量阈值用于过滤候选子音频中低于第二能量阈值的音频。

示意性的，在获取得到候选音频后，考虑到候选音频中存在音频能量较低的音频片段，首先对候选音频进行有效性过滤。

在一个可选的实施例中，根据候选音频中不同音频片段对应的音频能量，对候选音频进行有效性过滤。

示意性的，将候选音频按照L/2的重叠长度，切分为长度为L的音频片段，对于每个音频片段中长为L/10的子片段，计算其信号能量∈；如果当前子片段能量为0，将其设为一个较小的数值∈＝1e^-5，统计所有片段中的所有子片段的能量的15％，将所有子片段能量的15％作为分位数Q，并将分位数Q设为能量阈值；对于每个片段，如果其中有超过50％的子片段的能量超过Q，则该片段为有效片段予以保留，否则视为静音片段予以舍弃。基于上述方法，得到样本音频。

在一个可选的实施例中，将候选音频中不同音频片段输入音频数据预处理模型中，通过对候选音频进行有效性过滤，得到样本音频。

可选地，如图7所示，音频数据预处理模型710是通过干净音频数据预先训练得到的处理模型。示意性的，将预先收集得到的干净音频数据(如：干净人声音频数据、干净背景音音频数据等)输入音频数据预处理模型710中，由音频数据预处理模型710对干净音频数据进行提取，其中，数据预处理模型710可以采用声源活动检测模块(source activitydetection，SAD)，从而对音频数据中的有效片段进行提取。

在一个可选的实施例中，将第一候选音频数据输入预先训练得到的有效音频提取模型中，基于有效音频提取模型，对第一候选音频数据进行有选择的取舍过程，从而得到第一音频数据。

步骤520，获取样本音频数据集。

其中，样本音频数据集中的样本音频数据标注有用于指示音频类别的音频类别标签，样本音频数据集中包括属于第二音频类别的第二音频数据。

可选地，在样本音频数据集中存储的多个音频数据中，包括标注有第一音频类别标签的音频数据，也即，该音频数据为第一音频类别对应的音频数据。

示意性的，第二音频类别为与以第一音频类别不同的音频类别，当样本音频数据集中存储有第一音频类别对应的音频数据时，在从样本音频数据集中获取第二音频类别对应的第二音频数据时，从除第一音频类别之外的其他音频类别中，确定至少一个音频类别作为第二音频类别，并将标注有第二音频类别标签的至少一个音频数据作为第二音频数据。

可选地，在样本音频数据集中存储的多个音频数据中，不包括标注有第一音频类别标签的音频数据，也即，在样本音频数据集中存储的多个音频数据中，没有音频数据属于第一音频类别。

示意性的，基于第二音频类别与第一音频类别之间的差异，当样本音频数据集中未存储有第一音频类别对应的音频数据时，在从样本音频数据集中获取第二音频类别对应的第二音频数据时，将样本音频数据集所对应的至少一个音频类别作为第二音频类别，并将标注有第二音频类别标签的至少一个音频数据作为第二音频数据。

在一个可选的实施例中，对样本音频进行音频分离后，得到包括第一音频类别对应的第一音频数据，以及第二音频类别对应的第三音频数据。

其中，样本音频对应的第二音频类别与样本音频数据集对应存储的第二音频类别相同。也即，在样本音频数据集对应的多个音频类别中，包括对样本音频进行分离后对应的音频类别。

步骤530，将第一音频数据和第二音频数据在时域维度进行对齐操作，确定对齐时域范围。

可选地，在得到样本音频对应的第一音频数据以及样本音频数据集中存储的第二音频数据后，在时域维度上，对第一音频数据和第二音频数据进行对齐操作。

示意性的，在时域维度上，将第一音频数据所对应的第一音轨与第二音频数据所对应的第二音轨进行对齐操作。例如：将第一音频数据所对应的第一音轨的起点，与第二音频数据所对应的第二音轨的起点进行对齐；实现对第一音轨与第二音轨的对齐过程。基于第一音轨与第二音轨的对齐过程，确定第一音轨与第二音轨的对齐时域范围。

步骤540，在对齐时域范围内，对对齐后的第一音频数据和第二音频数据进行叠加操作，得到混合音频。

示意性的，在对齐时域范围内，将第一音频数据和第二音频数据进行线性叠加操作，例如：将对齐后的第一音频数据与第二音频数据在对应时间的数据进行相加操作；或者，考虑到音频数据可能存在的数据溢出问题，在对齐时域范围内，采用平均调整权重法，将对齐后的第一音频数据和第二音频数据进行相加操作后，将数据和除以音轨数等。

可选地，在对对齐后的第一音频数据和第二音频数据进行叠加操作后，沿时域维度在对齐时域范围内，得到混合音频。示意性的，采用线性叠加操作得到第一音频数据与第二音频数据的叠加数值后，沿时域维度在对齐时域范围内，根据不同时间点所对应的叠加后的音频数据，得到混合音频。

步骤550，通过音频识别模型对混合音频进行音频分离，得到混合音频中与第二音频类别对应的预测音频数据。

示意性的，在得到混合音频后，采用上述音频识别模型，将混合音频输入音频识别模型中，通过音频识别模型对混合音频进行音频分离。其中，基于音频识别模型所具备的音频分离功能，音频识别模型从混合音频中分离得到与第二音频类别对应的预测音频数据。

步骤560，基于预测音频数据与第二音频数据之间的差异，对音频识别模型进行训练，得到目标音频识别模型。

其中，目标音频识别模型用于进行音频分离。

在一个可选的实施例中，确定预测音频数据与第二音频数据之间的损失值。其中，损失值用于指示预测音频数据与第二音频数据之间的差异。

可选地，在得到第二音频类别对应的预测音频数据后，采用损失函数对预测音频数据与第二音频数据之间的损失值进行确定。示意性的，采用均方差损失函数(mean-square error，MSE)，确定预测音频数据与第二音频数据对应点误差的平方的均值，将该均值作为损失值；或者，采用信噪比损失函数(signal to noise ratio，SNR)，确定预测音频数据与第二音频数据之间信噪比的差值，将该差值作为损失值等。

在一个可选的实施例中，通过损失值对音频识别模型进行训练，得到目标音频识别模型。

示意性的，在得到损失值后，以降低损失值为目标，对音频识别模型进行训练。可选地，在通过损失值对音频识别模型进行训练的过程中，会因为对音频识别模型的训练达到训练目标而得到目标音频识别模型，例如：响应于损失值达到收敛状态，将最近一次迭代训练得到的音频识别模型音频识别模型作为目标音频识别模型。

示意性的，损失值达到收敛状态用于指示通过损失函数得到的损失值的数值不再变化或者变化幅度小于预设阈值。例如：音频识别模型在训练过程中达到损失函数不再继续下降的状态等。

在本申请实施例中，介绍了通过混合音频对音频识别模型进行训练的过程。在音频分离后得到样本音频中第一音频类别对应的第一音频数据后，将第一音频数据与样本音频数据集中不同于第一音频类别的第二音频类别对应的第二音频数据在时域维度进行对齐操作，进而得到第一音频数据和第二音频数据的混合数据，以音频识别模型对混合数据进行音频分离，得到第二音频类别对应的预测音频数据，从而在对音频识别模型进行训练时，尽可能使得预测音频数据与第二音频数据相接近，并基于预测音频数据与第二音频数据之间的损失值对音频识别模型进行训练，在样本音频数据有限的条件下，借助随机选取的样本音频，得到更具有适应性的目标音频识别模型。

在一个可选的实施例中，以第一音频类别为人声类别，第二音频类别为背景音(伴奏)类别为例，对音频识别模型的训练方法进行说明。示意性的，如图8所示，上述图2所示出的实施例还可以实现为如下步骤810至步骤850。

步骤810，通过音频识别模型对样本音频进行音频分离，得到样本音频中属于人声类别的第一音频数据和属于背景音类别的第三音频数据。

示意性的，样本音频为一段歌曲音频，该语音音频对应两个声源，即两个音频类别，分别为人声类别以及背景音类别。在通过音频识别模型对样本音频进行音频分离后，得到人声类别对应的第一音频数据以及背景音类别的第三音频数据。

示意性的，如图9所示，将获取得到样本音频910输入音频识别模型920中，由音频识别模型920对样本音频910进行音频分离，得到样本音频910中人声类别对应的第一音频数据921以及背景音类别对应的第三音频数据922。

可选地，如图9所示，在通过音频识别模型920对样本音频910进行音频分离，得到样本音频910中人声类别对应的第一音频数据921的过程中，首先对样本音频910进行音频分离，得到第一分离数据，将第一分离数据输入SAD模型中，从而得到更干净、有效的第一音频数据921；同理，在通过音频识别模型920对样本音频910进行音频分离，得到背景音类别对应的第三音频数据922的过程中，首先对样本音频910进行音频分离，得到第三分离数据，将第三分离数据输入SAD模型中，从而得到更干净、有效的第三音频数据922。

步骤820，获取样本音频数据集。

其中，样本音频数据集中的样本音频数据标注有用于指示音频类别的音频类别标签，样本音频数据集中包括属于背景音类别的第二音频数据。

示意性的，在样本音频数据集中，包括有第二音频数据，该第二音频数据标注的音频类别标签为背景音类别对应的背景音类别标签。可选地，第二音频数据为干净的音频数据，例如：第二音频数据为经过预先处理后的、噪音极少的音频数据，且第二音频数据对应背景音类别。

步骤830，将第一音频数据和属于背景音类别的第二音频数据进行混合，得到混合音频。

可选地，在对样本音频进行音频得到属于人声类别的第一音频数据后，将第一音频数据与属于背景音类别的第二音频数据进行混合，从而得到混合数据。

示意性的，如图9所示，在得到样本音频910中人声类别对应的第一音频数据921以及背景音类别的第三音频数据922后，将人声类别对应的第一音频数据921与背景音类别的第二音频数据931进行混合，得到混合音频940。

可选地，在得到样本音频910中背景音类别对应的第三音频数据922后，将背景音类别对应的第三音频数据922与从样本音频数据集中获取得到的与人声类别对应的音频数据932进行混合，得到另一个混合音频。

在一个可选的实施例中，若第一音频类别为背景音类别，第二音频类别为人声类别，在得到样本音频中背景音类别对应的音频数据以及人声类别对应的音频数据，将背景音类别的音频数据与人声类别对应的音频数据进行混合，得到混合音频。

值得注意的是，上述第一音频类别和第二音频类别的实现方式仅为示意性的举例，既可以将人声类别或者背景音类别作为第一音频类别，也可以将乐器声类别、流水声类别等作为第一音频类别，在选取第二音频类别时，将多种音频类别中除第一音频类别以外的其他音频类别均可以作为第二音频类别。以上仅为示意性的举例，本申请实施例对此不加以限定。

步骤840，通过音频识别模型对混合音频进行音频分离，得到混合音频中与背景音类别对应的预测音频数据。

示意性的，通过音频识别模型对混合音频进行音频分离，从而从混合音频中分离得到与背景音类别对应的预测音频数据。

可选地，沿时域维度将混合音频分割成多个混合音频片段，通过音频识别模型对每一个混合音频片段进行音频分离，确定每一个混合音频片段中背景音类别对应的预测音频子数据。其中，可能存在一个或者多个混合音频片段中不存在背景音类别对应的预测音频子数据。

示意性的，在得到混合音频片段中背景音类别对应的预测音频子数据后，根据多个混合音频片段所对应的时域关系，将背景音类别对应的预测音频子数据进行拼接操作，从而得到混合音频中与背景音类别对应的预测音频数据。

示意性的，如图10所示，在得到由人声类别对应的第一音频数据与背景音类别的第二音频数据进行混合后的混合音频1010后，将混合音频1010输入音频识别模型1020中，得到背景音类别对应的预测音频数据1030。

可选地，在得到由背景音类别对应的第三音频数据与从样本音频数据集中获取得到的人声类别的音频数据进行混合后的另一个混合音频后，将混合音频输入音频识别模型1020中，得到人声类别对应的预测音频数据1040。

步骤850，基于预测音频数据与第二音频数据之间的差异，对音频识别模型进行训练，得到目标音频识别模型。

其中，目标音频识别模型用于进行音频分离。

可选地，采用损失值训练方法，以预测音频数据与第二音频数据之间的损失值对音频识别模型进行训练。示意性的，如图10所示，在得到背景音类别对应的预测音频数据1030后，对背景音类别对应的预测音频数据1030与背景音类别对应的第二音频数据1031进行综合分析，从而确定背景音类别对应的预测音频数据1030与背景音类别对应的第二音频数据1031之间的损失值1032，通过损失值1032对音频识别模型进行训练，以降低损失值1032为目标，得到目标音频识别模型。

可选地，在得到预测音频数据1030后，对人声类别对应的预测音频数据1040与人声类别对应的音频数据1041进行综合分析，从而确定人声类别对应的预测音频数据1040与人声类别对应的音频数据1041之间的损失值1042，通过损失值1042对音频识别模型进行训练，以降低损失值1042为目标，得到目标音频识别模型；或者，通过损失值1032和损失值1042对音频识别模型进行训练，进而得到目标音频识别模型等。

在一个可选的实施例中，若第一音频类别为背景音类别，第二音频类别为人声类别为例，在得到样本音频中背景音类别对应的音频数据以及人声类别对应的音频数据，将背景音类别的音频数据与人声类别对应的音频数据进行混合，得到混合音频。也即：混合音频是将样本音频中背景音类别对应的音频数据以及样本音频数据集中人声类别对应的音频数据进行混合后得到的音频数据，在混合音频中，人声类别对应的音频数据是干净的音频数据。

在一个可选的实施例中，使用同样的基线模型(音频识别模型)对相关技术中仅仅使用监督学习的方法，与本申请实施例中提供的加入了额外半监督学习的音频识别模型的训练方法进行对比。

对于相关技术中的监督学习部分，使用公开的音乐分轨训练集(MUSDB-18HQ)中的训练数据，包含了专业制作的干净人声与伴奏数据，其中100首作为训练集，50首作为测试集。

对于本申请实施例中提供的加入了额外半监督学习的音频识别模型的训练方法，在采用上述音乐分轨训练集(MUSDB-18HQ)作为样本音频数据集外，额外使用了(随机选取)可公开下载的1000首歌曲(样本音频)用于伪标签数据(混合数据)的生成流程。

表1

模型	人声SDR	伴奏SDR
			监督学习基线	8.1	14.6
半监督学习	9.6	16.1

如上表1展示了相关技术中的监督学习部分以及本申请实施例中提供的加入了额外半监督学习部分的对比。可选地，采用信干比(signal to distortion ratio，SDR)作为指标，其中，信干比的数值越高，代表提取得到的人声与伴奏的质量越好。

对比采用相关技术中的监督学习部分所训练得到的模型在应用时提取得到的人声与伴奏的质量，以及通过本申请实施例中的音频识别模型的训练方法所训练得到的目标音频识别模型在应用时提取得到的人声与伴奏的质量，可以看出本申请实施例提出的模型训练方法大幅超越了单纯的监督学习框架。

图11是本申请一个示例性实施例提供的音频识别模型的训练装置，如图11所示，该装置包括如下部分：

分离模块1110，用于通过音频识别模型对样本音频进行音频分离，得到所述样本音频中属于第一音频类别的第一音频数据；

获取模块1120，用于获取样本音频数据集，所述样本音频数据集中的样本音频数据标注有用于指示音频类别的音频类别标签，所述样本音频数据集中包括属于第二音频类别的第二音频数据；

混合模块1130，用于将所述第一音频数据和所述第二音频数据进行混合，得到混合音频；

预测模块1140，用于通过所述音频识别模型对所述混合音频进行音频分离，得到所述混合音频中与所述第二音频类别对应的预测音频数据；

训练模块1150，用于基于所述预测音频数据与所述第二音频数据之间的差异，对所述音频识别模型进行训练，得到目标音频识别模型，所述目标音频识别模型用于进行音频分离。

在一个可选的实施例中，所述预测模块1140还用于通过所述音频识别模型对所述样本音频进行音频分离，得到多个音频类别分别对应的音频数据，其中包括所述第一音频类别对应的第一音频数据，以及所述第二音频类别对应的第三音频数据。

在一个可选的实施例中，所述分离模块1110还用于沿时域维度对所述样本音频进行片段分割，得到所述样本音频对应的多个音频片段；通过所述音频识别模型对多个音频片段进行音频分离，得到多个音频片段中分别属于所述第一音频类别的第一音频子数据；将多个音频片段中的所述第一音频子数据按所述时域维度进行拼接，得到所述第一音频数据。

在一个可选的实施例中，所述分离模块1110还用于基于预设分割长度和预设重叠率沿所述时域维度对所述样本音频进行片段分割，其中，所述预设分割长度用于指示所述音频片段的分割长度要求，所述预设重叠率用于指示相邻两段音频片段之间的分割重叠关系。

在一个可选的实施例中，所述分离模块1110还用于基于第一能量阈值对多个音频片段分别对应的第一音频子数据进行有效性过滤，得到过滤后的第一音频子数据，其中，所述第一能量阈值用于过滤所述第一音频子数据中低于所述第一能量阈值的子数据；将过滤后的第一音频子数据按所述时域维度进行拼接，得到所述第一音频数据。

在一个可选的实施例中，所述分离模块1110还用于通过所述音频识别模型对多个音频片段进行音频分离，分析所述多个音频片段所分别对应的至少一种音频类别，得到每个音频片段中所述至少一种音频类别对应的分布比重；将所述多个音频片段中综合分布比重最大的音频类别作为所述第一音频类别；对所述多个音频片段中属于所述第一音频类别的第一音频子数据分别进行获取。

在一个可选的实施例中，所述分离模块1110还用于通过所述音频识别模型对所述样本音频进行音频分离，得到所述样本音频中属于第一音频类别的第一候选音频数据；基于第二能量阈值对所述第一候选音频数据进行有效性过滤，得到所述第一音频数据，其中，所述第二能量阈值用于过滤所述第一候选音频数据中低于所述第二能量阈值的音频数据。

在一个可选的实施例中，所述混合模块1130还用于将所述第一音频数据和所述第二音频数据在时域维度进行对齐操作，在对齐时域范围对对齐后的第一音频数据和第二音频数据进行叠加，得到所述混合音频。

在一个可选的实施例中，所述训练模块1150还用于确定所述预测音频数据与所述第二音频数据之间的损失值，所述损失值用于指示所述预测音频数据与所述第二音频数据之间的差异；通过所述损失值对所述音频识别模型进行训练，得到所述目标音频识别模型。

在一个可选的实施例中，所述第一音频类别是人声类别，所述第二音频类别是背景音类别；

所述分离模块1110还用于通过音频识别模型对样本音频进行音频分离，得到所述样本音频中属于人声类别的第一音频数据和属于背景音类别的第三音频数据；

所述混合模块1130还用于将所述第一音频数据和属于所述背景音类别的第二音频数据进行混合，得到所述混合音频。

综上所述，通过上述装置，在确定样本音频中属于第一音频类别的第一音频数据后，选择与第一音频类别不同的第二音频类别对应的第二音频数据，以尽可能使得第二音频类别对应的预测音频数据与第二音频数据相接近为目标，对音频识别模型进行更广泛地训练，从而利用没有标签标注的样本音频对音频识别模型进行训练，有效解决了训练样本不足的问题，克服了全监督学习时过于依赖有标签的样本音频数据的弊端，从而得到训练效果更好的目标音频识别模型，提高音频分离的质量和准确度。

需要说明的是：上述实施例提供的音频识别模型的训练装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频识别模型的训练装置与音频识别模型的训练方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图12示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器1200包括中央处理单元(Central Processing Unit，CPU)1201、包括随机存取存储器(RandomAccess Memory，RAM)1202和只读存储器(Read Only Memory，ROM)1203的系统存储器1204，以及连接系统存储器1204和中央处理单元1201的系统总线1205。服务器1200还包括用于存储操作系统1213、应用程序1214和其他程序模块1215的大容量存储设备1206。

大容量存储设备1206通过连接到系统总线1205的大容量存储控制器(未示出)连接到中央处理单元1201。大容量存储设备1206及其相关联的计算机可读介质为服务器1200提供非易失性存储。也就是说，大容量存储设备1206可以包括诸如硬盘或者紧凑型光盘只读存储器(Compact Disc Read Only Memory，CD-ROM)驱动器之类的计算机可读介质(未示出)。

不失一般性，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、带电可擦可编程只读存储器(Electrically Erasable Programmable Read Only Memory，EEPROM)、闪存或其他固态存储技术，CD-ROM、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1204和大容量存储设备1206可以统称为存储器。

根据本申请的各种实施例，服务器1200还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1200可以通过连接在系统总线1205上的网络接口单元1211连接到网络1212，或者说，也可以使用网络接口单元1211来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

本申请的实施例还提供了一种计算机设备，该计算机设备包括处理器和存储器，该存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述各方法实施例提供的音频识别模型的训练方法。

本申请的实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行，以实现上述各方法实施例提供的音频识别模型的训练方法。

本申请的实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例中任一所述的音频识别模型的训练方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频识别模型的训练方法，其特征在于，所述方法包括：

沿时域维度对样本音频进行片段分割，得到所述样本音频对应的多个音频片段；通过音频识别模型对所述多个音频片段进行音频分离，得到所述多个音频片段中分别属于第一音频类别的第一音频子数据；其中，所述样本音频未标注有用于指示音频类别的音频类别标签，所述音频识别模型为待训练的识别模型；

将所述多个音频片段分别对应的第一音频子数据中音频能量低于第一能量阈值的第一音频子数据进行过滤，得到过滤后的第一音频子数据，将过滤后的第一音频子数据按所述时域维度进行拼接，得到第一音频数据；其中，所述第一能量阈值基于所述多个音频片段分别对应的第一音频子数据的音频能量确定；

获取音频数据集，所述音频数据集中的音频数据标注有用于指示音频类别的音频类别标签，所述音频数据集中包括属于第二音频类别的第二音频数据；

2.根据权利要求1所述的方法，其特征在于，所述沿时域维度对样本音频进行片段分割，得到所述样本音频对应的多个音频片段，包括：

基于预设分割长度和预设重叠率沿所述时域维度对所述样本音频进行片段分割，其中，所述预设分割长度用于指示所述音频片段的分割长度要求，所述预设重叠率用于指示相邻两段音频片段之间的分割重叠关系。

3.根据权利要求1所述的方法，其特征在于，所述通过音频识别模型对所述多个音频片段进行音频分离，得到所述多个音频片段中分别属于第一音频类别的第一音频子数据，包括：

通过所述音频识别模型对所述多个音频片段进行音频分离，分析所述多个音频片段所分别对应的至少一种音频类别，得到每个音频片段中所述至少一种音频类别对应的分布比重；

将所述多个音频片段中综合分布比重最大的音频类别作为所述第一音频类别；

对所述多个音频片段中属于所述第一音频类别的第一音频子数据分别进行获取。

4.根据权利要求1至3任一所述的方法，其特征在于，所述将所述第一音频数据和所述第二音频数据进行混合，得到混合音频，包括：

将所述第一音频数据和所述第二音频数据在时域维度进行对齐，在对齐时域范围内，对对齐后的第一音频数据和第二音频数据进行叠加，得到所述混合音频。

5.根据权利要求1至3任一所述的方法，其特征在于，所述基于所述预测音频数据与所述第二音频数据之间的差异，对所述音频识别模型进行训练，得到目标音频识别模型，包括：

确定所述预测音频数据与所述第二音频数据之间的损失值，所述损失值用于表示所述预测音频数据与所述第二音频数据之间的差异；

通过所述损失值对所述音频识别模型进行训练，得到所述目标音频识别模型。

6.根据权利要求1至3任一所述的方法，其特征在于，

所述第一音频类别是人声类别，所述第二音频类别是背景音类别。

7.根据权利要求6所述的方法，其特征在于，所述将所述第一音频数据和所述第二音频数据进行混合，得到混合音频，包括：

将属于所述人声类别的第一音频数据和属于所述背景音类别的第二音频数据进行混合，得到所述混合音频。

8.一种音频识别模型的训练装置，其特征在于，所述装置包括：

分离模块，用于沿时域维度对样本音频进行片段分割，得到所述样本音频对应的多个音频片段；通过音频识别模型对所述多个音频片段进行音频分离，得到所述多个音频片段中分别属于第一音频类别的第一音频子数据；其中，所述样本音频未标注有用于指示音频类别的音频类别标签，所述音频识别模型为待训练的识别模型；将所述多个音频片段分别对应的第一音频子数据中音频能量低于第一能量阈值的第一音频子数据进行过滤，得到过滤后的第一音频子数据，将过滤后的第一音频子数据按所述时域维度进行拼接，得到第一音频数据；其中，所述第一能量阈值基于所述多个音频片段分别对应的第一音频子数据的音频能量确定；

获取模块，用于获取音频数据集，所述音频数据集中的音频数据标注有用于指示音频类别的音频类别标签，所述音频数据集中包括属于第二音频类别的第二音频数据；

9.根据权利要求8所述的装置，其特征在于，所述分离模块，用于基于预设分割长度和预设重叠率沿所述时域维度对所述样本音频进行片段分割，其中，所述预设分割长度用于指示所述音频片段的分割长度要求，所述预设重叠率用于指示相邻两段音频片段之间的分割重叠关系。

10.根据权利要求8所述的装置，其特征在于，所述分离模块，用于通过所述音频识别模型对所述多个音频片段进行音频分离，分析所述多个音频片段所分别对应的至少一种音频类别，得到每个音频片段中所述至少一种音频类别对应的分布比重；将所述多个音频片段中综合分布比重最大的音频类别作为所述第一音频类别；对所述多个音频片段中属于所述第一音频类别的第一音频子数据分别进行获取。

11.根据权利要求8至10任一所述的装置，其特征在于，所述混合模块，用于将所述第一音频数据和所述第二音频数据在时域维度进行对齐，在对齐时域范围内，对对齐后的第一音频数据和第二音频数据进行叠加，得到所述混合音频。

12.根据权利要求8至10任一所述的装置，其特征在于，所述训练模块，用于确定所述预测音频数据与所述第二音频数据之间的损失值，所述损失值用于表示所述预测音频数据与所述第二音频数据之间的差异；通过所述损失值对所述音频识别模型进行训练，得到所述目标音频识别模型。

13.根据权利要求8至10任一所述的装置，其特征在于，所述第一音频类别是人声类别，所述第二音频类别是背景音类别。

14.根据权利要求13所述的装置，其特征在于，所述混合模块，用于将属于所述人声类别的第一音频数据和属于所述背景音类别的第二音频数据进行混合，得到所述混合音频。

15.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至7任一所述的音频识别模型的训练方法。

16.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至7任一所述的音频识别模型的训练方法。

17.一种计算机程序产品，其特征在于，包括计算机程序或指令，所述计算机程序或指令被处理器执行时实现如权利要求1至7任一所述的音频识别模型的训练方法。