CN117642817A

CN117642817A - 识别音频数据类别的方法、装置及存储介质

Info

Publication number: CN117642817A
Application number: CN202280004611.6A
Authority: CN
Inventors: 丁翰林; 闫志勇; 王永庆; 张俊博; 王育军
Original assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd; Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2024-03-01
Also published as: WO2023245381A1

Abstract

本公开是关于一种识别音频数据类别的方法、装置及存储介质。识别音频数据类别的方法包括：获取待识别的音频数据；对所述待识别的音频数据进行特征提取，得到待识别音频特征；将所述待识别音频特征输入至预设的音频类别识别模型，得到所述音频数据的类别标签。通过本公开，将音频数据对应的弱标签转换为软标签，解决了弱标签存在漏标、标注错误等问题。

Description

识别音频数据类别的方法、装置及存储介质

技术领域

本公开涉及音频技术领域，尤其涉及一种识别音频数据类别的方法、装置及存储介质。

背景技术

当今，音频识别是一个重要的研究领域之一，它能够使得机器同声音世界进行全面的交互。音频识别的一个基本任务是能够区分不同的声音类型。在训练音频识别模型的过程中，大部分输入至模型之中的音频数据集来源于开源的音频标签数据集(AudioSet)。AudioSet数据集主要由两种标签类型构成，强标签和弱标签，其中，弱标签是一种比较常见的标注方式。然而，弱标签存在漏标、标注类别之间的混肴度高、标注错误以及无法获取精确的标注时间等问题。

目前，针对AudioSet数据集瑕疵的相关技术包括，利用机器打标进行标签增强，即，在原来硬标签的基础上，通过机器打分筛选的方式，增加训练数据的硬标签。但是，使用该技术得到的硬标签在进行应用时，导致模型性能的下降，例如，音频识别的准确率下降。

发明内容

为克服相关技术中存在的问题，本公开提供一种识别音频数据类别的方法、装置及存储介质。

根据本公开实施例的第一方面，提供一种识别音频数据类别的方法，包括：

获取待识别的音频数据；对所述待识别的音频数据进行特征提取，得到待识别音频特征；将所述待识别音频特征输入至预设的音频类别识别模型，得到所述音频数据的类别标签；其中，所述音频类别识别模型为采用机器学习的方式使用多组训练数据进行训练得到的神经网络模型，所述多组训练数据的中每一组训练数据均包括第一音频数据集和第二音频数据集，所述第一音频数据集包括具有第一预设时间长度的第一音频数据、以及与所述第一音频数据对应的弱标签，其中，所述弱标签用于表示所述第一音频数据的音频类别，所述第二音频数据集包括具有第二预设时间长度的第二音频数据、以及与所述第二音频数据对应的中的软标签，所述软标签用于表示所述第二音频数据为指定音频类别的概率，所述第二预设时间长度小于所述第一预设时间长度。

一种实施方式中，所述第一音频数据集基于多标签数据集确定；所述多标签数据集中单个音频片段中包括的弱标签数量小于第一数量阈值，且不同弱标签标注的音频数据的数量差值大于第二数量阈值。

一种实施方式中，所述第二音频数据集基于第一标签模型对第一音频数据集进行软标签标注得到；所述第一标签模型基于所述第一音频数据集以及所述第一音频数据集中包括的弱标签训练得到。

根据本公开实施例的第二方面，提供一种音频类别识别模型训练方法，包括：

确定多组训练数据，所述多组训练数据中每一组训练数据均包括第一音频数据集和第二音频数据集，所述第一音频数据集包括具有第一预设时间长度的第一音频数据、以及与所述第一音频数据对应的弱标签，其中，所述弱标签用于表示所述第一音频数据的音频类别，所述第二音频数据集包括具有第二预设时间长度的第二音频数据、以及与所述第二音频数据对应的中的软标签，所述软标签用于表示所述第二音频数据为指定音频类别的概率，所述第二预设时间长度小于所述第一预设时间长度确定第一音频数据集和第二音频数据集；基于所述第一音频数据集和所述第二音频数据集，训练得到音频类别识别模型。

一种实施方式中，所述基于所述第一音频数据集和所述第二音频数据集，训练得到音频类别识别模型，包括：基于多标签数据集确定第一音频数据集、以及与所述第一音频数据对应的弱标签，所述多标签数据集中单个音频片段中包括的弱标签数量小于第一数量阈值，且不同弱标签标注的音频数据的数量差值大于第二数量阈值；基于所述第一音频数据集以及与所述第一音频数据对应的弱标签，训练得到第一标签模型；基于所述第一标签模型对第一音频数据集进行软标签标注，得到软标签标注的音频数据集组成的第二音频数据集；基于所述软标签和所述第二音频数据集训练得到第二标签模型，将所述第二标签模型作为所述音频类别识别模型。

一种实施方式中，所述基于所述第一音频数据集和弱标签训练得到第一标签模型，包括：对所述第一音频数据集进行预处理，得到预处理后的第一音频数据集；将所述预处理后的第一音频数据集以及弱标签输入至轻量级神经网络模型，所述轻量级神经网络模型的模型结构大小小于预设值；基于目标损失函数，对所述轻量级神经网络模型进行迭代训练，得到第一标签模型。

一种实施方式中，所述对所述轻量级神经网络模型进行迭代训练，包括：对所述轻量级神经网络模型采用自适应矩阵估计优化器进行N轮迭代训练；从第N+1轮开始采用随机梯度下降SDG梯度优化器对所述轻量级神经网络模型进行迭代训练。

一种实施方式中，所述对所述第一音频数据集进行预处理，得到预处理后的第一音频数据集，包括：将所述第一音频数据集中的音频数据转换至频域空间中，并对转换至频域空间的音频数据进行均衡采样；对均衡采样后的音频数据集进行频谱增广和混合，得到预处理后的第一音频数据集。

一种实施方式中，所述基于所述软标签和所述第二音频数据集训练得到第二标签模型，包括：将所述第一音频数据集中的音频数据转换至频域空间中，并对转换至频域空间的音频数据进行随机采样；基于目标损失函数、随机采样得到的音频数据以及所述软标签，训练得到第二标签模型。

一种实施方式中，所述目标损失函数满足如下算式：其中，所述x为输入至第一标签模型/第二标签模型中的预设长度的音频特征，所述y为所述预设长度的音频特征对应的标签向量，所述为所述第一标签模型/所述第二标签模型输出的预测的软标签向量。

根据本公开实施例的第三方面，提供一种识别音频数据类别的装置，包括：

获取单元，用于获取待识别的音频数据；特征提取单元，用于对所述待识别的音频数据进行特征提取，得到待识别音频特征；生成单元，用于将所述待识别音频特征输入至预设的音频类别识别模型，得到所述音频数据的类别标签；其中，所述音频类别识别模型为采用机器学习的方式使用多组训练数据进行训练得到的神经网络模型，所述多组训练数据的中每一组训练数据均包括第一音频数据集和第二音频数据集，所述第一音频数据集包括具有第一预设时间长度的第一音频数据、以及与所述第一音频数据对应的弱标签，其中，所述弱标签用于表示所述第一音频数据的音频类别，所述第二音频数据集包括具有第二预设时间长度的第二音频数据、以及与所述第二音频数据对应的中的软标签，所述软标签用于表示所述第二音频数据为指定音频类别的概率，所述第二预设时间长度小于所述第一预设时间长度。

根据本公开实施例的第四方面，提供一种音频类别识别模型训练装置，包括：

确定单元，用于确定多组训练数据，所述多组训练数据中每一组训练数据均包括第一音频数据集和第二音频数据集，所述第一音频数据集包括具有第一预设时间长度的第一音频数据、以及与所述第一音频数据对应的弱标签，其中，所述弱标签用于表示所述第一音频数据的音频类别，所述第二音频数据集包括具有第二预设时间长度的第二音频数据、以及与所述第二音频数据对应的中的软标签，所述软标签用于表示所述第二音频数据为指定音频类别的概率，所述第二预设时间长度小于所述第一预设时间长度确定第一音频数据集和第二音频数据集；训练单元，用于基于所述第一音频数据集和所述第二音频数据集，训练得到音频类别识别模型。

一种实施方式中，所述训练单元采用如下方式基于所述第一音频数据集和所述第二音频数据集，训练得到音频类别识别模型：基于多标签数据集确定第一音频数据集、以及与所述第一音频数据对应的弱标签，所述多标签数据集中单个音频片段中包括的弱标签数量小于第一数量阈值，且不同弱标签标注的音频数据的数量差值大于第二数量阈值；基于所述第一音频数据集以及与所述第一音频数据对应的弱标签，训练得到第一标签模型；基于所述第一标签模型对第一音频数据集进行软标签标注，得到软标签标注的音频数据集组成的第二音频数据集；基于所述软标签和所述第二音频数据集训练得到第二标签模型，将所述第二标签模型作为所述音频类别识别模型。

一种实施方式中，所述训练单元采用如下方式基于所述第一音频数据集和弱标签训练得到第一标签模型：对所述第一音频数据集进行预处理，得到预处理后的第一音频数据集；将所述预处理后的第一音频数据集以及弱标签输入至轻量级神经网络模型，所述轻量级神经网络模型的模型结构大小小于预设值；基于目标损失函数，对所述轻量级神经网络模型进行迭代训练，得到第一标签模型。

一种实施方式中，所述训练单元采用如下方式对所述轻量级神经网络模型进行迭代训练：对所述轻量级神经网络模型采用自适应矩阵估计优化器进行N轮迭代训练；从第N+1轮开始采用随机梯度下降SDG梯度优化器对所述轻量级神经网络模型进行迭代训练。

一种实施方式中，所述训练单元采用如下方式对所述第一音频数据集进行预处理，得到预处理后的第一音频数据集：将所述第一音频数据集中的音频数据转换至频域空间中，并对转换至频域空间的音频数据进行均衡采样；对均衡采样后的音频数据集进行频谱增广和混合，得到预处理后的第一音频数据集。

一种实施方式中，所述训练单元采用如下方式基于所述软标签和所述第二音频数据集训练得到第二标签模型：将所述第一音频数据集中的音频数据转换至频域空间中，并对转换至频域空间的音频数据进行随机采样；基于目标损失函数、随机采样得到的音频数据以及所述软标签，训练得到第二标签模型。

根据本公开实施例第五方面，提供一种识别音频数据类别的装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行第一方面或者第一方面任意一种实施方式中所述的方法。

根据本公开实施例第六方面，提供一种音频类别识别模型训练装置，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行第二方面或者第二方面任意一种实施方式中所述的方法。

根据本公开实施例第七方面，提供一种计算机可读存储介质，所述存储介质中存储有指令，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行第一方面或者第一方面任意一种实施方式中所述的方法。

根据本公开实施例第八方面，提供一种计算机可读存储介质，所述存储介质中存储有指令，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行第二方面或者第二方面任意一种实施方式中所述的方法。

本公开的实施例提供的技术方案可以包括以下有益效果：获取待识别的音频数据，并对待识别的音频数据进行特征提取，得到待识别音频特征。进一步的，将待识别音频特征输入至预设的音频类别识别模型之中，得到音频数据对应的类别标签。基于此，通过音频类别识别模型，将音频数据对应的弱标签转换为软标签，解决了弱标签存在漏标、标注错误等问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种识别音频数据类别的方法的流程图。

图2是根据一示例性实施例示出的一种音频类别识别模型训练方法的流程图。

图3是根据一示例性实施例示出的一种训练得到音频类别识别模型的流程图。

图4是根据一示例性实施例示出的一种训练得到第一标签模型的流程图。

图5是根据一示例性实施例示出的一种训练第二标签模型的流程图。

图6示出了一种识别音频数据类别的示意图。

图7示出了一种识别音频数据类别的示意图。

图8是根据一示例性实施例示出的一种识别音频数据类别的装置框图。

图9是根据一示例性实施例示出的一种音频类别识别模型训练的装置框图。

图10是根据一示例性实施例示出的一种用于音箱播放控制的装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。

在附图中，自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。所描述的实施例是本公开一部分实施例，而不是全部的实施例。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。下面结合附图对本公开的实施例进行详细说明。

本公开实施例提供的识别音频数据类别的方法，可以应用于对音频数据进行处理的场景中，以及将处理后的音频数据应用于自动音频模式识别中，尤其涉及音频分类检测场景。同时，该处理方法还可以用于图像数据处理。图像数据处理方法，可以应用于图像识别场景中。

相关技术中，利用机器打标模型对硬标签进行标签增强，即，在硬标签的基础上，通过机器打分筛选的方式，增强训练数据的硬标签，其中，硬标签为手动对音频数据进行标记得到的标签，该方法在本质上解决了AudioSet数据集漏标问题。但在相关论文实验结果中，将得到的硬标签应用于音频识别模型之中，导致模型的性能反而下降，造成音频识别准确率的下降。

有鉴于此，本公开提供了一种识别音频数据类别的方法，通过对音频数据对应的弱标签进行标签增强，得到音频数据对应的软标签。且将软标签应用于音频识别模型之中，提高了音频识别准确率。同时，音频数据的片段时长越短，音频识别准确率越高，增加了音频识别的应用场景。因此，相较于相关技术中对硬标签进行标签增强的方式，本公开提供的音频数据处理方法体现的更加灵活。

图1是根据一示例性实施例示出的一种识别音频数据类别的方法的流程图，如图1所示，识别音频数据类别的方法用于终端中，包括以下步骤。

在步骤S11中，获取待识别的音频数据。

其中，待识别的音频数据包含弱标签。

在步骤S12中，对待识别的音频数据进行特征提取，得到待识别音频特征。

在本公开实施例中，对待识别的音频数据进行特征提取可以采取梅尔频率倒谱系数(Mel-frequency cepstral coefficients，MFCC)。对待识别的音频数据进行预加重，把高频段的信号放大，增大高频段的信噪比。对预加重后的音频数据进行分帧、加窗，使得帧和帧之间变得平滑，消除吉布斯效应。对加窗后的音频数据进行离散傅里叶变换，得到每一帧的能量总值。通过使用梅尔滤波器，得到能量特征参数的和能量总值。之后进行自然对数运算、离散余弦变换和升倒谱运算，最终得到待识别音频特征。可以理解的是，本公开实施例中，不对音频特征提取的方法进行限定。

在步骤S13中，将待识别音频特征输入至预设的音频类别识别模型，得到音频数据的类别标签。

其中，音频类别识别模型是由第一标签模型和第二标签模型组成。其中第二标签模型的模型结构小于第一标签模型的模型结构。

其中，音频类别识别模型为采用机器学习的方式使用多组训练数据进行训练得到的神经网络模型，多组训练数据的中每一组训练数据均包括第一音频数据集和第二音频数据集，第一音频数据集包括具有第一预设时间长度的第一音频数据、以及与第一音频数据对应的弱标签。其中，弱标签用于表示第一音频数据的音频类别。第二音频数据集包括具有第二预设时间长度的第二音频数据、以及与第二音频数据对应的中的软标签。其中，软标签用于表示第二音频数据为指定音频类别的概率，第二预设时间长度小于第一预设时间长度。

在本公开中，第一音频数据集基于多标签数据集确定。

在本公开实施例中，第一音频数据集是从开源音频标签数据集(AudioSet)中获取。 AudioSet数据集是目前世界上大规模弱监督音频标签任务中最大和最流行的数据集，它由每个10s的音频片段组成，总共包含527个声音类别，训练数据总时长为5200小时。AudioSet数据集主要由强标签和弱标签组成，其中，强标签是指在10s的音频片段中准确地标注了每个声音类别的起始时间和截止时间，弱标签是指在10s的音频片段中无法标注出每个声音类别的起始时间和截止时间。由于获取强标签的成本代价较高，因此AudioSet数据集主要由弱标签构成，导致AudioSet数据集存在很多瑕疵，比如漏标、标注类别之间的混肴度较高、标注错误以及无法获取精确的标注时间等问题。

在本公开中，第二音频数据集基于第一标签模型对第一音频数据集进行软标签标注得到。其中，第一标签模型基于第一音频数据集以及第一音频数据集中包括的弱标签训练得到。

在本公开实施例中，第二音频数据集是由上述公开实施例中的第一音频数据集经过预设的第一标签模型进行软标签标注得到的。

在本公开中，获取待识别的音频数据。对待识别的音频数据进行特征提取，得到待识别音频特征。将待识别音频特征输入至预设的音频类别识别模型，得到音频数据的类别标签。通过本公开，对待识别的音频数据中的弱标签进行标签增强，可以得到音频数据的软标签。

图2是根据一示例性实施例示出的一种音频类别识别模型训练方法的流程图，如图2所示，音频类别识别模型训练方法用于终端中，包括以下步骤。

在步骤S21中，确定多组训练数据。

其中，多组训练数据中每一组训练数据均包括第一音频数据集和第二音频数据集，第一音频数据集包括具有第一预设时间长度的第一音频数据、以及与第一音频数据对应的弱标签，其中，弱标签用于表示第一音频数据的音频类别，第二音频数据集包括具有第二预设时间长度的第二音频数据、以及与第二音频数据对应的中的软标签，软标签用于表示第二音频数据为指定音频类别的概率，第二预设时间长度小于第一预设时间长度确定第一音频数据集和第二音频数据集。

在本公开实施例中，第一音频数据集主要由三个音频数据集构成。其一，在AudioSet中筛选出各音频类别的音频片段数量较为均衡的音频数据作为平衡音频数据集(Balanced Dataset)。其二，在AudioSet中筛选出各音频类别的音频片段数量最多不超过200的音频数据作为Aud-300h音频数据集。其三，将AudioSet中所有的音频数据作为Full音频数据集。通过本公开实施例中提供的三种音频数据集，在进行预设的音频类别识别模型训练的过程中，AudioSet中音频类别分布的不平衡不会影响音频类别识别模型的训练。其中， AudioSet中音频类别分布的不平衡体现在最少的Toothbrush类只有67条，最常见的是Music类别，有大于超过一百万条的训练数据。

上述公开实施例中提供的三种音频数据集可以通过表1的内容更具体的展现，如表1所示。

表1

数据集	片段	持续时间(h)
Balanced音频数据集	21,155	58
Aud-300h音频数据集	109,295	300
Full音频数据集	1,904,746	5244

在本公开实施例中，由于AudioSet的音频数据的时长均为10s，为了满足业务上的需求，需要对音频数据元进行切割，切割成5s的音频数据和2s的音频数据。同时，将5s的音频数据标记为PSL-5s，以及将2s的音频数据标记为PSL-2s。

在步骤S22中，基于第一音频数据集和第二音频数据集，训练得到音频类别识别模型。

其中，音频类别识别模型是由第一标签模型和第二标签模型构成。其中，音频类别识别模型可以导入至终端之中，在终端进行离线使用。

在本公开实施例中，音频类别识别模型为基于第一音频数据集和第二音频数据集预先训练得到，第一音频数据集中的音频数据具有弱标签，第二音频数据集中的音频数据具有软标签，软标签标注的音频数据的时间长度小于弱标签标注的音频数据的时间长度。

在本公开中，确定多组训练数据。基于第一音频数据集和第二音频数据集，训练得到音频类别识别模型。通过本公开，将音频数据对应的弱标签转换为软标签，解决了弱标签存在漏标、标注错误等问题。

图3是根据一示例性实施例示出的一种训练得到音频类别识别模型的流程图，如图3所示，基于第一音频数据集和第二音频数据集，训练得到音频类别识别模型，包括以下步骤。

在步骤S31中，基于多标签数据集确定第一音频数据集、以及与第一音频数据对应的弱标签。

其中，多标签数据集中单个音频片段中包括的弱标签数量小于第一数量阈值，且不同弱标签标注的音频数据的数量差值大于第二数量阈值。

其中，基于多标签数据集确定第一音频数据集、以及与第一音频数据对应的弱标签的过程在图1对应的公开实施例已经进行了详细的说明，在此就不再赘述。

在下述公开实施例中，将老师(Teacher)模型称为第一标签模型，将学生(Student)模型称为第二标签模型。

在步骤S32中，基于第一音频数据集以及与第一音频数据对应的弱标签，训练得到第一标签模型。

在本公开实施例中，第一标签模型的输入为10s的第一音频数据集和第一音频数据集对应的弱标签。将第一音频数据集和弱标签输入至第一标签模型之中，对第一标签模型进行预训练，得到收敛的第一标签模型。

在步骤S33中，基于第一标签模型对第一音频数据集进行软标签标注，得到软标签标注的音频数据集组成的第二音频数据集。

在业务应用中，从第一音频数据集中获取2s的音频数据集和5s的音频数据集。将2s的音频数据集和弱标签输入至Teacher模型之中，得到2s的音频数据集和软标签。将5s的音频数据集和弱标签输入至Teacher模型之中，得到5s的音频数据集和软标签。以此，可以得到不同时长的音频数据集和该音频数据集对应的软标签，从而在音频识别等领域也可以进行使用。

在本公开实施例中，将第一音频数据集输入至训练完成的Teacher模型之中进行软标签标注，得到软标签标注的音频数据集组成的第二音频数据集。相关技术中的硬标签通过向量的形式呈现，每一个维度代表一种声音类型，例如，[1,1,0,0,1,......]，其中1代表该声音类型存在，0代表该声音类型不存在。相较于硬标签，软标签也是以向量的形式存在，每一个维度代表一种声音类型。不过，软标签可以将每种声音类型存在的概率呈现出来，例如，[0.1,0.5,0,1,0.7,......]，比硬标签体现的更具有代表性。

在步骤S34中，基于软标签和第二音频数据集训练得到第二标签模型，将第二标签模型作为音频类别识别模型。

在本公开实施例中，第二标签模型的输入为第二音频数据集和第二音频数据集对应的软标签。将第二音频数据集和软标签输入至第二标签模型之中，对第二标签模型进行预训练，得到收敛的第二标签模型。

在本公开中，基于多标签数据集确定第一音频数据集、以及与第一音频数据对应的弱标签。基于第一音频数据集以及与第一音频数据对应的弱标签，训练得到第一标签模型。基于第一标签模型对第一音频数据集进行软标签标注，得到软标签标注的音频数据集组成的第二音频数据集。基于软标签和第二音频数据集训练得到第二标签模型，将第二标签模型作为音频类别识别模型。通过本公开，对弱标签进行软标签标注，得到软标签，解决了弱标签存在漏标、标注错误等问题。

图4是根据一示例性实施例示出的一种训练得到第一标签模型的流程图，如图4所示，基于第一音频数据集和弱标签训练得到第一标签模型，包括以下步骤。

在步骤S41中，对第一音频数据集进行预处理，得到预处理后的第一音频数据集。

在本公开实施例中，将第一音频数据集中的音频数据转换至频域空间中，并对转换至频域空间的音频数据进行均衡采样。对均衡采样后的音频数据集进行频谱增广和混合，得到预处理后的第一音频数据集。

其中，该步骤中的对第一音频数据集进行预处理与音频类别识别方法中的提取音频特征方法类似，在此就不再进行赘述。在本公开实施例中，采用64维的FBank特征提取，并在特征计算的过程中，设置特征计算的帧长为32ms和帧移为10ms。可以理解的是，本公开实施例中，不对第一音频数据集进行预处理所采用的方式进行具体的限定。

在步骤S42中，将预处理后的第一音频数据集以及弱标签输入至轻量级神经网络模型。

其中，轻量级神经网络模型的模型结构大小小于预设值。

在本公开实施例中，使用的轻量级神经网络模型为CNN模型中的一种，MobileNetV2模型。该模型结构的一个比较突出的优势就是在模型性能基本稳定的情况下，模型尺寸可以做到3M左右。基于此，相关技术人员可以利用大数据集进行快速实验，且该模型可以在终端上进行使用。

在步骤S43中，基于目标损失函数，对轻量级神经网络模型进行迭代训练，得到第一标签模型。

在本公开中，对轻量级神经网络模型采用自适应矩估计Adam优化器进行N轮迭代训练。从第N+1轮开始采用随机梯度下降SDG梯度优化器对轻量级神经网络模型进行迭代训练。

在本公开中， x为输入至第一标签模型/第二标签模型中的预设长度的音频特征，y为预设长度的音频特征对应的标签向量，为第一标签模型/第二标签模型输出的预测的软标签向量。

其中，x表示输入的预设长度的音频特征(梅尔频率谱等)，y∈[0，1] ^C表示对应的标签，表示模型预测的分数，C＝527类，表示模型分类类别的总数。其中，表示时长n秒片段音频的弱标签标注，第一标签模型是使用原始弱标签训练的模型。

在本公开实施例中，训练批数根据训练数据的长度进行补零操作，对轻量级神经网络模型采用自适应矩估计Adam优化器进行N轮迭代训练，设置学习率为0.0001。从第N+1轮开始采用随机梯度下降SDG梯度优化器对轻量级神经网络模型进行迭代训练，同时，学习率采用多项式述衰减策略进行更新。在训练过程中，每10000个训练批数保存一个训练模型，进而基于上一个保存的训练模型继续进行训练，同时，还可以随时发现训练过程中产生的问题。

在本公开实施例中，针对第一标签模型，根据输入至第一标签模型的第一音频数据集对应的弱标签以及第一标签模型输出的预测分数，得到第一目标损失，基于第一目标损失，直至第一标签模型收敛。

在本公开中，对第一音频数据集进行预处理，得到预处理后的第一音频数据集。将预处理后的第一音频数据集以及弱标签输入至轻量级神经网络模型。基于目标损失函数，对轻量级神经网络模型进行迭代训练，得到第一标签模型。

图5是根据一示例性实施例示出的一种训练第二标签模型的流程图，如图5所示，基于软标签和第二音频数据集训练得到第二标签模型，包括以下步骤。

在步骤S51中，将第一音频数据集中的音频数据转换至频域空间中，并对转换至频域空间的音频数据进行随机采样。

在本公开实施例中，相较于训练第一标签模型采用的均衡取样，训练第二标签模型所采用的是随机采样。其中，使用随机采样的原因为：在训练第二标签模型时，音频数据对应的标签已经转换为软标签，这是无法通过软标签来具体知道每个声音类别训练样本的个数，所以采用随机采样对音频数据集进行处理。

在步骤S52中，基于目标损失函数、随机采样得到的音频数据以及软标签，训练得到第二标签模型。

其中，表示使用第一标签模型对时长n秒片段前向打分得到的软标签。其中，第二标签模型使用进行训练，针对2s、5s片段长度的音频，分别标记为PSL-2s，PSL-5s。

在本公开实施例中，针对第二标签模型，根据输入至第二标签模型的第二音频数据集对应的软标签以及第二标签模型输出的预测分数，得到第二目标损失，基于第二目标损失，直至第二标签模型收敛。

图6示出了一种识别音频数据类别的示意图。如图6所示，对具有弱标签的10s音频数据进行均衡采样，频谱增广和混合，并同时将弱标签和音频数据特征输入至预训练的神经网络之中。在神经网络训练的过程中，采用多项式衰减策略更新学习率，根据训练数据的大小设置训练批数，在训练次数满足预设标椎时保存神经网络。对神经网络采用自适应矩估计Adam优化器进行N轮迭代训练，从第N+1轮开始采用随机梯度下降SDG梯度优化器对所述轻量级神经网络模型进行迭代训练。基于BCE优化损失函数直至神经网络收敛，得到训练完成的第一标签模型。其中，神经网络可以为CNN、LSTM、Transformer等神经网络结构。对10s音频数据进行切割，得到2s音频数据和5s音频数据，并标记为PSL-2s，和PSL-5s。可以理解的是切割时间可以根据实际情况而定，本公开实施例中主要研究2s音频数据和5s音频数据，是因为2s音频数据和5s音频数据在应用领域使用较为频繁。将2s音频数据和弱标签输入至训练完成的第一标签模型之中，得到2s音频数据的软标签。再将5s音频数据和弱标签输入至训练完成的第一标签模型之中，得到5s音频数据的软标签。

图7示出了一种识别音频数据类别的示意图。如图7所示，对具有软标签的2s音频数据和5s音频数据进行随机采样，频谱增广和混合，并同时将软标签和音频数据特征输入至预训练的神经网络之中。在神经网络训练的过程中，采用多项式衰减策略更新学习率，根据训练数据的大小设置训练批数，在训练次数满足预设标椎时保存神经网络。对神经网络采用自适应矩估计Adam优化器进行N轮迭代训练，从第N+1轮开始采用随机梯度下降SDG梯度优化器对所述轻量级神经网络模型进行迭代训练。基于BCE优化损失函数直至神经网络收敛，得到训练完成的第二标签模型。其中，第二标签模型的模型结构尺寸小于第一标签模型的模型结构尺寸。将训练完成的第二标签模型导入至终端中进行离线使用，对具有弱标签的音频数据转换成具有软标签的音频数据。

表2示出了本公开实施例中的研究结果，如表2所示。

表2

在本公开实施例中，研究了伪强标签(Pseudo Strong Labels，PSL)在平衡数据集上的影响，并介绍了不同标签下的实验结果。从表中可以明显看出，平衡数据集上使用PSL方法可以将mAP由17.69提升至35.48。其中，使用mAP(mean-average precision)以及d’来表征模型性能，d’实际表征了模型检测类别召回的能力，d’越高，表示模型检测各个类别召回的能力越强。

在本公开实施例中，第一标签模型使用5200小时的音频数据得到的mAP：40.53，采用PSL方法只需要使用58小时的音频数据就可以达到其87％的性能，mAP：35.48。另外，可以看出使用PSL训练方法，相比于直接使用弱标签，d’由1.994提升至2.588。mAP和d’这两个指标都充分说明了当使用PSL方法进行自动音频标签检测训练的时候，模型的精度和召回能力相比于传统直接使用弱标签进行训练得到的模型，都有大幅的提升。

表3示出了本公开实施例中的研究结果，如表3所示。

表3

在本公开实施例中，研究了PSL在非平衡数据集上训练的模型对下游任务的影响。首先，使用非平衡数据，采用同上述平衡数据集一样的训练方法，训练得到了PSL-2s的模型。然后，分别对比了采用第一标签模型和PSL-2s模型作为特征提取器对下游分类任务的影响。其中，第一标签模型是使用了5200h的非平衡数据集并采用弱标签训练方式获得，PSL-2s是使用非平衡数据集并采用PSL方法训练得到。

基于相同的构思，本公开实施例还提供一种识别音频数据类别的装置。

可以理解的是，本公开实施例提供的音频数据处理装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤，本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本公开实施例的技术方案的范围。

图8是根据一示例性实施例示出的一种识别音频数据类别的装置框图。参照图8，该装置100包括获取单元101、特征提取单元102和生成单元103。

获取单元101，用于获取待识别的音频数据；特征提取单元102，用于对待识别的音频数据进行特征提取，得到待识别音频特征；生成单元103，用于将待识别音频特征输入至预设的音频类别识别模型，得到音频数据的类别标签；其中，音频类别识别模型为采用机器学习的方式使用多组训练数据进行训练得到的神经网络模型，多组训练数据的中每一组训练数据均包括第一音频数据集和第二音频数据集，第一音频数据集包括具有第一预设时间长度的第一音频数据、以及与第一音频数据对应的弱标签，其中，弱标签用于表示第一音频数据的音频类别，第二音频数据集包括具有第二预设时间长度的第二音频数据、以及与第二音频数据对应的中的软标签，软标签用于表示第二音频数据为指定音频类别的概率，第二预设时间长度小于第一预设时间长度。

一种实施方式中，第一音频数据集基于多标签数据集确定；多标签数据集中单个音频片段中包括的弱标签数量小于第一数量阈值，且不同弱标签标注的音频数据的数量差值大于第二数量阈值。

一种实施方式中，第二音频数据集基于第一标签模型对第一音频数据集进行软标签标注得到；第一标签模型基于第一音频数据集以及第一音频数据集中包括的弱标签训练得到。

图9是根据一示例性实施例示出的一种音频类别识别模型训练的装置框图。参照图9，该装置200包括确定单元201和训练单元202。

确定单元201，用于确定多组训练数据，多组训练数据中每一组训练数据均包括第一音频数据集和第二音频数据集，第一音频数据集包括具有第一预设时间长度的第一音频数据、以及与第一音频数据对应的弱标签，其中，弱标签用于表示第一音频数据的音频类别，第二音频数据集包括具有第二预设时间长度的第二音频数据、以及与第二音频数据对应的中的软标签，软标签用于表示第二音频数据为指定音频类别的概率，第二预设时间长度小于第一预设时间长度确定第一音频数据集和第二音频数据集；训练单元202，用于基于第一音频数据集和第二音频数据集，训练得到音频类别识别模型。

一种实施方式中，训练单元202采用如下方式基于第一音频数据集和第二音频数据集，训练得到音频类别识别模型：基于多标签数据集确定第一音频数据集、以及与第一音频数据对应的弱标签，多标签数据集中单个音频片段中包括的弱标签数量小于第一数量阈值，且不同弱标签标注的音频数据的数量差值大于第二数量阈值；基于第一音频数据集以及与第一音频数据对应的弱标签，训练得到第一标签模型；基于第一标签模型对第一音频数据集进行软标签标注，得到软标签标注的音频数据集组成的第二音频数据集；基于软标签和第二音频数据集训练得到第二标签模型，将第二标签模型作为音频类别识别模型。

一种实施方式中，训练单元202采用如下方式基于第一音频数据集和弱标签训练得到第一标签模型：对第一音频数据集进行预处理，得到预处理后的第一音频数据集；将预处理后的第一音频数据集以及弱标签输入至轻量级神经网络模型，轻量级神经网络模型的模型结构大小小于预设值；基于目标损失函数，对轻量级神经网络模型进行迭代训练，得到第一标签模型。

一种实施方式中，训练单元202采用如下方式对轻量级神经网络模型进行迭代训练：对轻量级神经网络模型采用自适应矩阵估计优化器进行N轮迭代训练；从第N+1轮开始采用随机梯度下降SDG梯度优化器对轻量级神经网络模型进行迭代训练。

一种实施方式中，训练单元202采用如下方式对第一音频数据集进行预处理，得到预处理后的第一音频数据集：将第一音频数据集中的音频数据转换至频域空间中，并对转换至频域空间的音频数据进行均衡采样；对均衡采样后的音频数据集进行频谱增广和混合，得到预处理后的第一音频数据集。

一种实施方式中，训练单元202采用如下方式基于软标签和第二音频数据集训练得到第二标签模型：将第一音频数据集中的音频数据转换至频域空间中，并对转换至频域空间的音频数据进行随机采样；基于目标损失函数、随机采样得到的音频数据以及软标签，训练得到第二标签模型。

一种实施方式中，目标损失函数满足如下算式：其中，x为输入至第一标签模型/第二标签模型中的预设长度的音频特征，y为预设长度的音频特征对应的标签向量，为第一标签模型/第二标签模型输出的预测的软标签向量。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图10是根据一示例性实施例示出的一种用于音箱播放控制的装置的框图。例如，装置300可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图10，装置300可以包括以下一个或多个组件：处理组件302，存储器304，电力组件306，多媒体组件308，音频组件310，输入/输出(I/O)接口312，传感器组件314，以及通信组件316。

处理组件302通常控制装置300的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件302可以包括一个或多个处理器320来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件302可以包括一个或多个模块，便于处理组件302和其他组件之间的交互。例如，处理组件302可以包括多媒体模块，以方便多媒体组件308和处理组件302之间的交互。

存储器304被配置为存储各种类型的数据以支持在装置300的操作。这些数据的示例包括用于在装置300上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器304可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电力组件306为装置300的各种组件提供电力。电力组件306可以包括电源管理系统，一个或多个电源，及其他与为装置300生成、管理和分配电力相关联的组件。

多媒体组件308包括在所述装置300和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件308包括一个前置摄像头和/或后置摄像头。当装置300处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件310被配置为输出和/或输入音频信号。例如，音频组件310包括一个麦克风(MIC)，当装置300处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器304或经由通信组件316发送。在一些实施例中，音频组件310还包括一个扬声器，用于输出音频信号。

I/O接口312为处理组件302和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件314包括一个或多个传感器，用于为装置300提供各个方面的状态评估。例如，传感器组件314可以检测到装置300的打开/关闭状态，组件的相对定位，例如所述组件为装置300的显示器和小键盘，传感器组件314还可以检测装置300或装置300一个组件的位置改变，用户与装置300接触的存在或不存在，装置300方位或加速/减速和装置300的温度变化。传感器组件314可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件314还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件314还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件316被配置为便于装置300和其他设备之间有线或无线方式的通信。装置300可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件316经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件316还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置300可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器304，上述指令可由装置300的处理器320执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

可以理解的是，本公开中“多个”是指两个或两个以上，其它量词与之类似。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

进一步可以理解的是，术语“第一”、“第二”等用于描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开，并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。

进一步可以理解的是，除非有特殊说明，“连接”包括两者之间不存在其他构件的直接连接，也包括两者之间存在其他元件的间接连接。

进一步可以理解的是，本公开实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利范围指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利范围来限制。

Claims

一种识别音频数据类别的方法，其特征在于，所述方法包括：

获取待识别的音频数据；

对所述待识别的音频数据进行特征提取，得到待识别音频特征；

将所述待识别音频特征输入至预设的音频类别识别模型，得到所述音频数据的类别标签；

其中，所述音频类别识别模型为采用机器学习的方式使用多组训练数据进行训练得到的神经网络模型，所述多组训练数据的中每一组训练数据均包括第一音频数据集和第二音频数据集，所述第一音频数据集包括具有第一预设时间长度的第一音频数据、以及与所述第一音频数据对应的弱标签，其中，所述弱标签用于表示所述第一音频数据的音频类别，所述第二音频数据集包括具有第二预设时间长度的第二音频数据、以及与所述第二音频数据对应的中的软标签，所述软标签用于表示所述第二音频数据为指定音频类别的概率，所述第二预设时间长度小于所述第一预设时间长度。
根据权利要求1所述的方法，其特征在于，所述第一音频数据集基于多标签数据集确定；

所述多标签数据集中单个音频片段中包括的弱标签数量小于第一数量阈值，且不同弱标签标注的音频数据的数量差值大于第二数量阈值。
根据权利要求1或2所述的方法，其特征在于，所述第二音频数据集基于第一标签模型对第一音频数据集进行软标签标注得到；

所述第一标签模型基于所述第一音频数据集以及所述第一音频数据集中包括的弱标签训练得到。
一种音频类别识别模型训练方法，其特征在于，所述方法包括：

确定多组训练数据，所述多组训练数据中每一组训练数据均包括第一音频数据集和第二音频数据集，所述第一音频数据集包括具有第一预设时间长度的第一音频数据、以及与所述第一音频数据对应的弱标签，其中，所述弱标签用于表示所述第一音频数据的音频类别，所述第二音频数据集包括具有第二预设时间长度的第二音频数据、以及与所述第二音频数据对应的中的软标签，所述软标签用于表示所述第二音频数据为指定音频类别的概率，所述第二预设时间长度小于所述第一预设时间长度确定第一音频数据集和第二音频数据集；

基于所述第一音频数据集和所述第二音频数据集，训练得到音频类别识别模型。
根据权利要求4所述的方法，其特征在于，所述基于所述第一音频数据集和所述第二音频数据集，训练得到音频类别识别模型，包括：

基于多标签数据集确定第一音频数据集、以及与所述第一音频数据对应的弱标签，所述多标签数据集中单个音频片段中包括的弱标签数量小于第一数量阈值，且不同弱标签标注的音频数据的数量差值大于第二数量阈值；

基于所述第一音频数据集以及与所述第一音频数据对应的弱标签，训练得到第一标签模型；

基于所述第一标签模型对第一音频数据集进行软标签标注，得到软标签标注的音频数据集组成的第二音频数据集；

基于所述软标签和所述第二音频数据集训练得到第二标签模型，将所述第二标签模型作为所述音频类别识别模型。
根据权利要求5所述的方法，其特征在于，所述基于所述第一音频数据集和弱标签训练得到第一标签模型，包括：

对所述第一音频数据集进行预处理，得到预处理后的第一音频数据集；

将所述预处理后的第一音频数据集以及弱标签输入至轻量级神经网络模型，所述轻量级神经网络模型的模型结构大小小于预设值；

基于目标损失函数，对所述轻量级神经网络模型进行迭代训练，得到第一标签模型。
根据权利要求6所述的方法，其特征在于，所述对所述轻量级神经网络模型进行迭代训练，包括：

对所述轻量级神经网络模型采用自适应矩阵估计优化器进行N轮迭代训练；

从第N+1轮开始采用随机梯度下降SDG梯度优化器对所述轻量级神经网络模型进行迭代训练。
根据权利要求6或7所述的方法，其特征在于，所述对所述第一音频数据集进行预处理，得到预处理后的第一音频数据集，包括：

将所述第一音频数据集中的音频数据转换至频域空间中，并对转换至频域空间的音频数据进行均衡采样；

对均衡采样后的音频数据集进行频谱增广和混合，得到预处理后的第一音频数据集。
根据权利要求5所述的方法，其特征在于，所述基于所述软标签和所述第二音频数据集训练得到第二标签模型，包括：

将所述第一音频数据集中的音频数据转换至频域空间中，并对转换至频域空间的音频数据进行随机采样；

基于目标损失函数、随机采样得到的音频数据以及所述软标签，训练得到第二标签模型。
根据权利要求6或9所述的方法，其特征在于，所述目标损失函数满足如下算式：

其中，所述x为输入至第一标签模型/第二标签模型中的预设长度的音频特征，所述y为所述预设长度的音频特征对应的标签向量，所述为所述第一标签模型/所述第二标签模型输出的预测的软标签向量。
一种识别音频数据类别的装置，其特征在于，包括：

获取单元，用于获取待识别的音频数据；

特征提取单元，用于对所述待识别的音频数据进行特征提取，得到待识别音频特征；

生成单元，用于将所述待识别音频特征输入至预设的音频类别识别模型，得到所述音频数据的类别标签；

其中，所述音频类别识别模型为采用机器学习的方式使用多组训练数据进行训练得到的神经网络模型，所述多组训练数据的中每一组训练数据均包括第一音频数据集和第二音频数据集，所述第一音频数据集包括具有第一预设时间长度的第一音频数据、以及与所述第一音频数据对应的弱标签，其中，所述弱标签用于表示所述第一音频数据的音频类别，所述第二音频数据集包括具有第二预设时间长度的第二音频数据、以及与所述第二音频数据对应的中的软标签，所述软标签用于表示所述第二音频数据为指定音频类别的概率，所述第二预设时间长度小于所述第一预设时间长度。
根据权利要求11所述的装置，其特征在于，所述第一音频数据集基于多标签数据集确定；

所述多标签数据集中单个音频片段中包括的弱标签数量小于第一数量阈值，且不同弱标签标注的音频数据的数量差值大于第二数量阈值。
根据权利要求11或12所述的装置，其特征在于，所述第二音频数据集基于第一标签模型对第一音频数据集进行软标签标注得到；

所述第一标签模型基于所述第一音频数据集以及所述第一音频数据集中包括的弱标签训练得到。
一种音频类别识别模型训练装置，其特征在于，包括：

确定单元，用于确定多组训练数据，所述多组训练数据中每一组训练数据均包括第一音频数据集和第二音频数据集，所述第一音频数据集包括具有第一预设时间长度的第一音频数据、以及与所述第一音频数据对应的弱标签，其中，所述弱标签用于表示所述第一音频数据的音频类别，所述第二音频数据集包括具有第二预设时间长度的第二音频数据、以及与所述第二音频数据对应的中的软标签，所述软标签用于表示所述第二音频数据为指定音频类别的概率，所述第二预设时间长度小于所述第一预设时间长度确定第一音频数据集和第二音频数据集；

训练单元，用于基于所述第一音频数据集和所述第二音频数据集，训练得到音频类别识别模型。
根据权利要求14所述的装置，其特征在于，所述训练单元采用如下方式基于所述第一音频数据集和所述第二音频数据集，训练得到音频类别识别模型：

基于多标签数据集确定第一音频数据集、以及与所述第一音频数据对应的弱标签，所述多标签数据集中单个音频片段中包括的弱标签数量小于第一数量阈值，且不同弱标签标注的音频数据的数量差值大于第二数量阈值；

基于所述第一音频数据集以及与所述第一音频数据对应的弱标签，训练得到第一标签模型；

基于所述第一标签模型对第一音频数据集进行软标签标注，得到软标签标注的音频数据集组成的第二音频数据集；

基于所述软标签和所述第二音频数据集训练得到第二标签模型，将所述第二标签模型作为所述音频类别识别模型。
根据权利要求15所述的装置，其特征在于，所述训练单元采用如下方式基于所述第一音频数据集和弱标签训练得到第一标签模型：

对所述第一音频数据集进行预处理，得到预处理后的第一音频数据集；

将所述预处理后的第一音频数据集以及弱标签输入至轻量级神经网络模型，所述轻量级神经网络模型的模型结构大小小于预设值；

基于目标损失函数，对所述轻量级神经网络模型进行迭代训练，得到第一标签模型。
根据权利要求16所述的装置，其特征在于，所述训练单元采用如下方式对所述轻量级神经网络模型进行迭代训练：

对所述轻量级神经网络模型采用自适应矩阵估计优化器进行N轮迭代训练；

从第N+1轮开始采用随机梯度下降SDG梯度优化器对所述轻量级神经网络模型进行迭代训练。
根据权利要求16或17所述的装置，其特征在于，所述训练单元采用如下方式对所述第一音频数据集进行预处理，得到预处理后的第一音频数据集：

将所述第一音频数据集中的音频数据转换至频域空间中，并对转换至频域空间的音频数据进行均衡采样；

对均衡采样后的音频数据集进行频谱增广和混合，得到预处理后的第一音频数据集。
根据权利要求15所述的装置，其特征在于，所述训练单元采用如下方式基于所述软标签和所述第二音频数据集训练得到第二标签模型：

将所述第一音频数据集中的音频数据转换至频域空间中，并对转换至频域空间的音频数据进行随机采样；

基于目标损失函数、随机采样得到的音频数据以及所述软标签，训练得到第二标签模型。
根据权利要求16或19所述的装置，其特征在于，所述目标损失函数满足如下算式：

其中，所述x为输入至第一标签模型/第二标签模型中的预设长度的音频特征，所述y为所述预设长度的音频特征对应的标签向量，所述为所述第一标签模型/所述第二标签模型输出的预测的软标签向量。
一种识别音频数据类别的装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1至3中任意一项所述的方法。
一种音频类别识别模型训练装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求4至10中任意一项所述的方法。
一种计算机可读存储介质，其特征在于，所述存储介质中存储有指令，当所述存储介质中的指令由处理器执行时，使得处理器能够执行权利要求1至3中任意一项所述的方法。
一种计算机可读存储介质，其特征在于，所述存储介质中存储有指令，当所述存储介质中的指令由处理器执行时，使得处理器能够执行权利要求4至10中任意一项所述的方法。