CN116129888A

CN116129888A - 一种音频数据分类方法、装置、设备及介质

Info

Publication number: CN116129888A
Application number: CN202310084304.XA
Authority: CN
Inventors: 周涛; 陈宇; 边占朝; 刘紫千
Original assignee: Tianyi Safety Technology Co Ltd
Current assignee: Tianyi Safety Technology Co Ltd
Priority date: 2023-01-18
Filing date: 2023-01-18
Publication date: 2023-05-16

Abstract

本申请实施例提供了一种音频数据分类方法、装置、设备及介质，在该方法中，获取音频数据集；将音频数据集输入到基础分类器，基于基础分类器，确定音频数据集的基类权重矩阵；将音频数据集输入到新类分类器，基于新类分类器，确定音频数据集的新类权重矩阵；根据基类权重矩阵和新类权重矩阵，确定音频数据集的分类结果。在该方法中，基础分类器可以确定音频数据集的基类权重矩阵，新类分类器可以确定音频数据集的新类权重矩阵，然后根据基类权重矩阵和新类权重矩阵确定音频数据集的分类结果，既适用于固定类别词汇表的场景，又适用于动态变换或者先验未知的场景，因此可以提高不同场景中的识别能力，提高音频分类精度。

Description

一种音频数据分类方法、装置、设备及介质

技术领域

本发明涉及深度学习技术领域，尤其涉及一种音频数据分类方法、装置、设备及介质。

背景技术

数据时代下企业变革和数字化转型的重点已从“数据”升级为“数据资产”，作为企业数字化流程中不可或缺的音频数据逐渐成为关注重点。而数据分类分级作为数据资产梳理的关键步骤，其准确性对差异化安全防护和精细化安全管控具有重要指导意义。随着计算机听觉技术的发展，深度学习在音频数据分类分级中发挥了重要作用。

然而，深度神经网络在训练过程中容易出现过拟合问题且对于数据量的要求比较高，而收集大规模的有效音频数据用以模型训练并不现实，导致模型识别音频的难度大，精度低。

因此，相关技术中的音频数据分类模型中通常基于固定的类别词汇表来实现高精度的分类，但是这对于动态变换或者先验未知场景中的识别能力有限，在这些场景下的音频分类精度较低。

发明内容

本申请实施例提供了一种音频数据分类方法、装置、设备及介质，用以解决现有技术中音频分类精度较低的问题。

第一方面，本申请实施例提供了一种音频数据分类方法，所述方法包括：

获取音频数据集；

将所述音频数据集输入到基础分类器，基于所述基础分类器，确定所述音频数据集的基类权重矩阵；

将所述音频数据集输入到新类分类器，基于所述新类分类器，确定所述音频数据集的新类权重矩阵；

根据所述基类权重矩阵和所述新类权重矩阵，确定所述音频数据集的分类结果。

第二方面，本申请实施例提供了一种音频数据分类装置，所述装置包括：

获取模块，用于获取音频数据集；

分类模块，用于将所述音频数据集输入到基础分类器，基于所述基础分类器，确定所述音频数据集的基类权重矩阵；将所述音频数据集输入到新类分类器，基于所述新类分类器，确定所述音频数据集的新类权重矩阵；

确定模块，用于根据所述基类权重矩阵和所述新类权重矩阵，确定所述音频数据集的分类结果。

第三方面，本申请实施例提供了一种电子设备，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如上述任一项所述音频数据分类方法的步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述音频数据分类方法的步骤。

在本申请实施例中，获取音频数据集；将音频数据集输入到基础分类器，基于基础分类器，确定音频数据集的基类权重矩阵；将音频数据集输入到新类分类器，基于新类分类器，确定音频数据集的新类权重矩阵；根据基类权重矩阵和新类权重矩阵，确定音频数据集的分类结果。在该方法中，基础分类器可以确定音频数据集的基类权重矩阵，新类分类器可以确定音频数据集的新类权重矩阵，然后根据基类权重矩阵和新类权重矩阵确定音频数据集的分类结果，既适用于固定类别词汇表的场景，又适用于动态变换或者先验未知的场景，因此可以提高不同场景中的识别能力，提高音频分类精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请的一些实施例提供的一种音频数据分类过程示意图；

图2为本申请的一些实施例提供的一种层次化分类模型组示意图；

图3为本申请的一些实施例提供的一种音频数据分类流程示意图；

图4为本申请的一些实施例提供的一种音频数据分类流程示意图；

图5为本申请的一些实施例提供的一种音频数据分类装置的结构示意图；

图6为本申请的一些实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

术语“包括”和“具有”以及他们的任何变形，意图在于覆盖但不排他的包含，例如，包含了一系列组件的产品或设备不必限于清楚地列出的所有组件，而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

术语“模块”是指任何已知或后来开发的硬件、软件、固件、人工智能、模糊逻辑或硬件或/和软件代码的组合，能够执行与该元件相关的功能。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

为了方便解释，已经结合具体的实施方式进行了上述说明。但是，上述示例性的讨论不是意图穷尽或者将实施方式限定到上述公开的具体形式。根据上述的教导，可以得到多种修改和变形。上述实施方式的选择和描述是为了更好的解释原理以及实际的应用，从而使得本领域技术人员更好的使用所述实施方式以及适于具体使用考虑的各种不同的变形的实施方式。

实施例1：

图1为本申请的一些实施例提供的一种音频数据分类过程示意图，该过程包括：

S101：获取音频数据集。

本申请实施例提供的音频数据分类方法应用于电子设备，该电子设备但不限于音频采集设备(如拾音器)、用户设备(如手机、平板电脑、穿戴设备等)、或服务器等。

在对音频数据分类的分类器(包括基础分类器和/或新类分类器)的训练场景下，音频数据集可以包括训练集、验证集或测试集等的一个或多个，相应的，分类器为正在进行训练的分类器。在音频数据分类的识别场景下，音频数据集可以包括待识别/分类的音频数据，相应地，分类器为经过预训练或者训练完成的分类器。

音频数据集可以包括原始音频数据集和/或对原始音频数据集处理后得到的集合。对原始音频数据集处理可以包括对原始音频数据集进行预处理和/或数据增强处理。示例的，在对原始音频数据集进行预处理时，可以对原始音频数据集进行分段，通过裁剪、补足等方式将片段调整为等时长片段，可选的可以对等时长片段进行打乱，然后划分训练集与测试集。此处对等时长片段的时长不做显示，例如但不限于10秒。又一示例的，在对原始音频数据集进行数据增强处理时，可以对原始音频数据集进行音频数据增强处理或谱图数据增强处理，也可以对原始音频数据集进行音频数据增强和谱图数据增强双重数据增强处理。

可选地，原始音频数据集可以包括公开数据集，也可以包括自采数据集。

电子设备中可以包括基础分类器和新类分类器，基础分类器和/或新类分类器可选的集成在一个音频分类模型(组)中。该音频分类模型(组)适用于少样本多标签音频数据的分类分级。

S102：将音频数据集输入到基础分类器，基于基础分类器，确定音频数据集的基类权重矩阵。

示例的，基础分类器可以为卷积神经网络(convolutional neural networks，CNN)模型，例如但不限于基础分类器以14层CNN为主体，包含6个卷积模块，每个卷积模块由2层卷积组成，卷积核的大小为3×3，每个卷积层之间应用批量归一化，并使用修正线性单元(rectified linear unit，ReLU)非线性激活函数加速和稳定训练。基础分类器中可以对每个卷积块应用大小为2×2的平均池化进行下采样。可选的，基础分类器中还可以应用全局时间池化总结特征，以提升针对弱标记音频数据的训练性能，应用全局时间池化的实现方式可以参见后续实施例。

基础分类器可以通过公开音频数据集训练得到，例如基础分类器可以在公开音频数据集上划分训练集、验证集及测试集预训练基础分类器中的特征提取模块，然后通过微调特征提取模块中的参数，将特征提取模块迁移至其他公开数据集和/或自采数据集上，得到音频数据集中音频数据所属的基类以及基类权重矩阵。

S103：将音频数据集输入到新类分类器，基于新类分类器，确定音频数据集的新类权重矩阵。

新类分类器可以通过动态少样本学习得到，即新类分类器可以通过少样本分类权重生成器模块来扩展上述基础分类器。

新分类器可以对除基类外的新类别进行识别，得到音频数据集中音频数据所属的新类以及新类权重矩阵。

S104：根据基类权重矩阵和新类权重矩阵，确定音频数据集的分类结果。

一个实现方式中，电子设备可以直接将基类权重矩阵和新类权重矩阵，作为分类结果。

另一个实现方式中，电子设备根据基类权重矩阵和新类权重矩阵，确定音频数据集中音频数据所属的分类，将音频数据所属的分类作为分类结果。

在该实施例中，基础分类器可以确定音频数据集的基类权重矩阵，新类分类器可以确定音频数据集的新类权重矩阵，然后根据基类权重矩阵和新类权重矩阵确定音频数据集的分类结果，既适用于固定类别词汇表的场景，又适用于动态变换或者先验未知的场景，因此可以提高不同场景中的识别能力，提高音频分类精度。

实施例2：

在上述实施例的基础上，本申请实施例中，获取音频数据集包括：

对原始音频数据集进行第一数据增强，第一数据增强包括以下一种或多种数据增强处理：音频旋转、音频调音、音频变调、或加噪处理；

将第一数据增强后的原始音频数据集转化为梅尔声谱图；

计算梅尔声谱图中的平均值；

采用平均值对梅尔声谱图中选择的行数据和/或列数据进行替换，得到第二数据增强后的梅尔声谱图；

根据原始音频数据集和第二数据增强后的梅尔声谱图，确定音频数据集。

由于深度神经网络在训练过程中容易出现过拟合问题且对数据量的要求比较高，在面对一些标签种类多但数据总量少的情况时，最终识别精度并不可控，并且收集大规模的有效音频数据用以模型训练并不现实，且音频数据通常受背景音、噪声等复杂因素影响，因此在本申请实施例中可以通过对原始音频样本应用双重数据增强策略来扩大数据集，增加数据的多样性，提高特征提取模型的泛化性，有利于解决少样本多标签音频数据分类分级场景下，标签种类多但数据总量少的问题。

本申请实施例中双重数据增强处理包括音频数据增强处理和谱图数据增强处理。

其中，音频数据增强处理时可以对原始数据集使用音频旋转、音频调音、音频变调以及加噪处理(中的一种或多种)扩展数据集，完成针对原始数据集中音频数据的第一次数据增强。

示例的，在音频数据增强处理之后，可以进行谱图数据增强处理，在进行谱图数据增强处理时，可以设置帧长、帧移、梅尔图带数及采样频率的设置将第一数据增强后的原始音频数据集转化为(一个或多个)梅尔声谱图。电子设备可以随机选择每个梅尔声谱图中部分行列计算每个梅尔声谱图的平均值，用平均值替换随机选中的行列数据，可以得到新的梅尔声谱图。可以理解的是，对行数据和/或列数据进行随机选择仅为示例，在另一些示例中，也可以按照设定规则对行数据和/或列数据进行选择，本申请实施例中对设定规则不做限制。

在根据原始音频数据集和新的梅尔声谱图，确定音频数据集时，可以将新的梅尔声谱图加入原始音频数据集，得到音频数据集，完成针对谱图数据的第二次数据增强。

在本申请实施例中，对原始音频样本进行双重数据增强处理可以扩大数据集，增加数据的多样性，进一步提高音频分类精度。

实施例3：

在上述各实施例的基础上，本申请实施例中，基础分类器中最后一个卷积层之后连接有全局时间池化层。

全局时间池化层可以总结特征，提升针对弱音频数据的训练性能，提高弱标签音频分类的准确性。

示例的，基础分类器中对每个卷积块应用大小为2×2的平均池化进行下采样，并在最后一个卷积层之后应用全局时间池化来总结特征。

由于音频数据具有多种声音在时间上重叠的特性，使得音频分类存在弱标签的问题，在本申请实施例中通过在基础分类器最后一个卷积层之后应用全局时间池化来总结音频特征，可以进一步提高音频分类的精度。

实施例4：

在上述各实施例的基础上，在本申请实施例中，该方法还包括：

在基类中确定用于训练新类分类器的伪新类，并确定伪新类的多个标记数据以及每个标记数据属于伪新类的权重；

将多个标记数据、每个标记数据属于伪新类的权重、以及基础分类器输出的基类权重向量输入新类分类器；

基于新类分类器，根据多个标记数据以及每个标记数据属于伪新类的权重，计算伪新类的平均特征向量；

基于新类分类器，对平均特征向量和基类权重向量进行加权处理，得到伪新类的权重向量；

根据伪新类的权重向量和基类权重向量，对基类权重矩阵进行更新；根据更新后的基类权重矩阵，更新该新类分类器的参数。

新类分类器可以对基础分类器进行扩展，可以实现音频新类别的识别。

在本申请实施例中，电子设备可以基于预训练的基础分类器以及包含基类的训练集对新类分类器进行训练，在每次迭代中，可以首先从基类中采用(一个或多个)伪新类来模拟推理阶段的新类别，然后对每个伪新类采样K个训练样本(即标记数据)，通过新类分类器生成针对伪新类的新的权重向量。

在通过新类分类器生成针对伪新类的新的权重向量时，可以将伪新类的标记数据、每个标记数据对应的权重，以及基类权重向量作为新类分类器的输入。新类分类器可以通过伪新类的多个标记数据以及和每个标记数据对应的权重，计算伪新类数据的平均特征向量，然后根据该平均特征向量和基类权重向量的加权结果，确定伪新类的权重向量。

其中，基类权重向量为每个基类的权重向量的线性组合，可选的，每个基类的权重向量均可以通过基础分类器中的余弦相似函数后接基类上的softmax(归一化指数函数)构成的注意力模块计算得到。

在该实现方式中，新类分类器通过动态少样本即可学习到，例如可以通过伪新类的K个标记数据学习到，本申请实施例中对K的取值不做限制，例如但不限于K≤5。

在训练新类分类器的过程中，根据伪新类的权重向量和基类权重向量，形成新的基类权重矩阵，然后基于新的基类权重矩阵，可以对新类分类器的参数进行更新，以最小化本批次的分类损失。

一个实现方式中，在训练新类分类器时，优化过程使用自适应矩估计(Adam)优化器，学习率设置为高学习率。

在本申请实施例中，可以基于动态少样本学习新类分类器，能够不断扩展经过训练的基础分类器，以在推理阶段仅基于少量标记数据即可识别新类别，克服固定类词汇表在动态变换或先验未知场景中的应用局限性。

在该方法中，还可以根据更新后的基类权重矩阵，对基类权重向量进行更新。在少样本新类分类器的训练过程中，基于根据伪新类的权重向量和基类权重向量形成的新的基类权重矩阵，可以对基类权重向量进行更新，以最小化本批次的分类损失。

基于注意力机制构建少样本权重生成器，充分利用基类分类权重的先验知识，仅基于少量新类别标记数据即可获得其相应的分类权重，通过联合新类权重与原始基类权重动态扩展分类权重先验矩阵，从而实现在一个统一框架中联合预测基类和新类，还可以进一步提高音频分类的精度。

实施例5：

在上述各实施例的基础上，在本申请实施例中，新类分类器中的损失函数包括二进制交叉熵损失函数。

通常神经网络中的损失函数为分类交叉熵损失函数，而在本申请实施例中采用二进制交叉熵损失函数代替分类交叉熵损失函数训练神经网络，可以实现多类别任务到多标签任务的迁移。

由于音频数据具有多种声音在时间上重叠的特性，使得音频分类存在多标签的问题，在本申请实施例中利用二进制交叉熵损失函数对新类分类器进行训练，可以适应多标签的音频分类，进一步提高音频分类的精度。

实施例6：

根据基础分类器和/或新类分类器的测试结果，确定分类精度低于设定阈值且混入其它类别的混淆类，以及分类精度高于设定阈值的正确类；

如果混淆类的数量与正确类的数量的比值超过设定比值，根据混淆类的数量对基础分类器和/或新类分类器中的节点数进行修改，得到待训练的分类器；采用音频数据集中包含混淆类的子音频数据集，对分类器继续进行训练。

在分类任务中，不同标签的识别难度往往有所差异，因此本申请实施例中可以通过层次化分类模型组训练方法来解决分类器在各类别中分类精度不均衡的问题。分类器包括基础分类器和/或新类分类器，在该实施例中以分类器的描述进行说明。

通过验证集和/或测试集可以对分类器进行测试，得到当前分类器的测试结果。根据测试结果可以识别出分类精度低于设定阈值且混入其它类别的混淆类，以及识别出分类精度高于设定阈值的正确类。其中混淆类由于预测精度低且容易混入其它类别，因此混淆类也可以看作易混易错类别。可选的，混淆类可以保存在测试结果的混淆矩阵中。在本申请实施例中对于设定阈值的取值不做限制。

根据混淆类的数量与正确类的数量的比值k可以确定是否训练下层模型，即如果混淆类的数量与正确类的数量的比值k超过设定比值，确定训练下层模型。该设定比值可以看作是下层模型构建的下层模型生成阈值p参数。可选的，下层模型构建的参数还可以包括下层模型学习率变化参数q，通过下层模型学习率变化参数q可以对下层模型的学习率进行调整，从而调整下层模型的收敛速度，相关描述可以参见后续实施例。

一种实现方式中，当混淆类的数量与正确类的数量的比值超过设定比值(如k≥p)时，训练下层模型。另一种实现方式中，当混淆类的数量与正确类的数量的比值超过设定比值，且上层模型(即当前分类器)不是二分类模型时，训练下层模型。

在训练下层模型时，可以复制上层训练好的分类器，修改分类器的softmax节点数，使用仅保留混淆类的子音频数据集对下层模型(修改节点数之后的分类器)重复训练，可以在剔除其他数据干扰的基础上对混淆类的分类效果进行重点修正。示例的，修改后的节点数与混淆类的数量相同。

一种实现方式中，当混淆类的数量与正确类的数量的比例小于设定比值(如k＜p)时，不训练下层模型，终止下层模型生成。另一种实现方式中，当混淆类的数量与正确类的数量的比值超过设定比值，且上层模型是二分类模型时，不训练下层数据，终止下层模型生成。

以图2为例进行说明，电子设备采用数据集S对少样本音频分类模型(基础分类器和/或新类分类器)进行训练，然后对训练完成的少样本音频分类模型进行测试，得到包括混淆类的混淆矩阵0。根据混淆矩阵0包括的混淆类，在数据集S中确定数据集S1和数据集S2，其中数据集S1和数据集S2可以对应相同或不同的混淆类。根据混淆类，对少样本音频分类模型中的节点数进行修改，得到下层的少样本音频分类模型1和少样本音频分类模型2。电子设备采用数据集S1对少样本音频分类模型1进行训练，以及采用数据集S2对少样本音频分类模型2进行序列。若对训练完成的少样本音频分类模型1进行测试，得到包括混淆类的混淆矩阵1，根据混淆矩阵1包括的混淆类，在数据集S中确定数据集S3，以及对少样本音频分类模型1中的节点数进行修改，得到下层的少样本音频分类模型3，再继续采用数据集S3对少样本音频分类模型3进行训练。若对训练完成的少样本音频分类模型2进行测试的测试结果，确定不需要训练下层模型，则终止生成下层模型。

在分类器对各类别分类精度不均衡的情况下，通过构建层次化分类模型组对易混易错类别进行重点修正训练，进一步优化现有少样本音频分类模型，可以提高整体对音频分类的准确率。

实施例7：

在上述各实施例的基础上，本申请实施例中，该方法还包括：

在经过设定轮次的训练后，采用学习率变化参数，下调分类器的学习率。

下层模型构建的参数除包括上述设定比值(如下层模型生成阈值p)外，还可以包括学习率变化参数(如下层模型学习率变化参数q)，通过学习率变化参数可以对分类器的学习率进行调整，从而调整分类器的收敛速度。

下层模型(即修改节点数后得到的待训练的分类器)的生成会训练耗时增加，因此会导致分类器的收敛速度降低，因此采用学习率变化参数，下调分类器的学习率，可以提高分类器的收敛速度。

在本申请实施例中，可以在设定轮次的训练后，下调一次分类器的学习率。其中，当训练集中每一个样本都参与了分类器的一次训练，这个过程称为一轮(epoch)，在此对设定轮次的取值不做限制，例如设定轮次可以是m个epoch，m为正整数。

示例的，学习率变化参数为q，q<1且q为正数，在采用学习率变化参数，下调分类器的学习率时，可以将分类器的学习率降为原来的q倍。

在本申请实施例中，针对因下层模型大量生成而导致的训练耗时可以引入学习率变化参数q，下层模型在每m个epoch后学习率降为原来的q倍，以提高多层模型的收敛速度，也就是说，在层次化模型组训练过程中，通过设置下层模型学习率变化参数，可以在保证准确率的同时适当加快学习率下降速度，以缓解因子模型大量生成而导致的训练耗时问题。

实施例8：

在上述各实施例的基础上，图3提供了一种音频数据分类的流程示意图，包括如下步骤：

S301：将原始音频样本裁剪或补足为等长音频片段，进行音频数据增强和谱图数据增强双重数据增强处理，得到扩展后的音频数据集。

在进行音频数据增强和谱图数据增强双重数据增强处理时，通过音频调音、变调、加噪等方式完成第一次数据增强；获取第一次数据增强后的音频数据的梅尔声谱图，通过随机均值替换产生新的梅尔声谱图，完成第二次数据增强。

S302：基于CNN模型训练基础分类器(包括基础分类器中的特征提取模块和基类权重矩阵模块)，使用基础分类器完成音频信号特征提取并通过对特征应用一组分类权重向量获取每个基类的概率。

具体而言，特征提取模块可以完成音频信号的特征提取，基类权重军阵模块可以对提取到的特征应用一组对应分类权重向量。该组分类权重向量中包括每个音频信号所属基类对应的概率，从而得到每个基类的概率。

S303：训练基于注意力的少样本权重生成器(即新类分类器)，将生成的新类权重与其它基类的原始权重联合，构造新的分类权重矩阵，更新权重生成器的参数和基类权重向量。

该步骤参见上述各实施例中新类分类器的训练过程，此处不做赘述。

S304：进行层次化分类模型组训练，根据上层模型未能精准分类的混淆类获取到原始数据集的子集对上层模型进行迁移学习，以得到针对混淆类的下层模型，并最终得到用于高精度分类的一系列模型组。

该步骤参见上述各实施例中基于混淆类对分类器继续进行训练的过程，此处不做赘述。

S305：将音频信号输入到训练完成的少样本音频分类模型(组)，输出音频信号对应的分类结果。

在该步骤中，将音频数据输入训练完成的少样本多标签音频分类模型(组)，获取音频信号对应的分类结果。具体地：将音频数据输入少样本多标签音频分类模型(组)，通过裁剪或补足转化为等长音频片段，通过音频调音、变调、加噪等方式完成第一次数据增强(音频数据增强)，获取数据增强后音频数据的梅尔声谱图，通过随机均值替换产生新的梅尔声谱图数据，完成第二次数据增强(谱图数据增强)，基于(少样本多标签音频分类模型中的)基础分类器完成音频特征提取并获取基类权重矩阵，基于(少样本多标签音频分类模型中的)新类分类器为新类别音频数据生成相应的分类权重并输出分类结果。

其中，上述S304为可选的步骤，例如在存在混淆类时，执行S304，又如在混淆类的数量与正确类的比值的数量的比值超过设定比值时，执行S304，又如在混淆类的数量与正确类的比值的数量的比值超过设定比值，且当前分类器不是二分类模型时，执行S304。以一种可能的实现方式进行说明，参见图4，对音频数据进行预处理，然后对音频数据进行双重数据增强处理，接着采用双重数据增强处理后的音频数据训练基础分类器，以及训练基于注意力的少样本权重生成器。对基础分类器和权重生成器进行测试，判断是否存在混淆类，如果是，构建层次化分类模型组对基础分类器和/或权重生成器继续进行测试，最后采用训练完成的基础分类器和/或权重生成器对音频数据进行分类识别，输出分类结果。如果不存在混淆类，可以直接采用训练完成的基础分类器和/或权重生成器对音频数据进行分类识别，输出分类结果。

在本申请实施例中，基于安全数据中台构建少样本多标签场景下的音频数据分类分级方法，通过双重数据增强策略扩展数据集完成样本量不足情况下基础分类器的训练，并基于动态少样本学习技术及注意力机制动态扩展基础分类器，实现在推理阶段仅基于少量标记数据即可识别新类别，通过微调模型定义及损失函数适应多标签、弱标签场景下的音频数据分类，在分类器对各类别分类精度不均衡的情况下，通过构建层次化分类模型组对易混易错类别进行重点修正训练，进一步优化现有少样本音频分类模型。

本申请实施例适用但不限于以下场景：

场景一：音频审核平台的敏感音频判定。数字时代，音频成为信息传递的重要手段，社交平台每日产生数以亿计的音频内容。一些含有敏感信息且不宜传播的有害音频也随之出现，与正常音频相比，这些敏感内容通常是少量的，但若不能准确识别并剔除将对国家安全、社会安定和谐，特别是对青少年成长都将造成不良影响。因此，可以借助少样本音频分类模型实现对数据量相对较少的敏感音频内容的精准分类，提升音频审核的效率及准确率。

场景二：音频会议纪要的分权限管理。线上会议的普及使得企业以音频形式存档的会议纪要大量涌现，这些会议纪要中往往包含企业少量且重要的业务音频内容，需要通过少样本多标签的音频分类模型实现对少量重要音频内容的识别，并通过设置不同层级的安全访问权限实现对企业业务音频会议纪要的差异化管理，即普通人员仅拥有音频会议纪要的一级权限，只能访问将重要内容脱敏后的音频会议纪要，而管理员及高层领导人员拥有音频会议纪要的二级权限，可以访问完整的音频会议纪要。

实施例9：

基于相同的技术构思，在上述各实施例的基础上，本申请提供了一种音频数据分类装置，图5为本申请的一些实施例提供的一种音频数据分类装置结构示意图，如图5所示，该装置包括：

获取模块501，用于获取音频数据集；

分类模块502，用于将音频数据集输入到基础分类器，基于基础分类器，确定音频数据集的基类权重矩阵；将音频数据集输入到新类分类器，基于新类分类器，确定音频数据集的新类权重矩阵；

确定模块503，用于根据基类权重矩阵和新类权重矩阵，确定音频数据集的分类结果。

在一种可能的实施方式中，获取模块501，具体用于对原始音频数据集进行第一数据增强，第一数据增强包括以下一种或多种数据增强处理：音频旋转、音频调音、音频变调、或加噪处理；将第一数据增强后的原始音频数据集转化为梅尔声谱图；计算梅尔声谱图中的平均值；采用平均值对梅尔声谱图中选择的行数据和/或列数据进行替换，得到第二数据增强后的梅尔声谱图；根据原始音频数据集和第二数据增强后的梅尔声谱图，确定音频数据集。

在一种可能的实施方式中，基础分类器中最后一个卷积层之后连接有全局时间池化层。

在一种可能的实施方式中，装置还包括：

训练模块，用于在基类中确定用于训练新类分类器的伪新类，并确定伪新类的多个标记数据以及每个标记数据属于伪新类的权重；将多个标记数据、每个标记数据属于伪新类的权重、以及基础分类器输出的基类权重向量输入新类分类器；基于新类分类器，根据多个标记数据以及每个标记数据属于伪新类的权重，计算伪新类的平均特征向量；基于新类分类器，对平均特征向量和基类权重向量进行加权处理，得到伪新类的权重向量；根据伪新类的权重向量和基类权重向量，对基类权重矩阵进行更新；根据更新后的基类权重矩阵，更新新类分类器的参数。

在一种可能的实施方式中，训练模块，还用于根据更新后的基类权重矩阵，对基类权重向量进行更新。

在一种可能的实施方式中，新类分类器中的损失函数包括二进制交叉熵损失函数。

在一种可能的实施方式中，装置还包括：

修正模块，用于根据基础分类器和/或新类分类器的测试结果，确定分类精度低于设定阈值且混入其它类别的混淆类，以及分类精度高于设定阈值的正确类；如果混淆类的数量与正确类的数量的比值超过设定比值，根据混淆类的数量对基础分类器和/或新类分类器中的节点数进行修改，得到待训练的分类器；采用音频数据集中包含混淆类的子音频数据集，对分类器继续进行训练。

在一种可能的实施方式中，修正模块，还用于在经过设定轮次的训练后，采用学习率变化参数，下调分类器的学习率。

实施例10：

基于相同的技术构思，本申请还提供了一种电子设备，图6为本申请实施例提供的一种电子设备结构示意图，如图6所示，包括：处理器601、通信接口602、存储器603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信；

存储器603中存储有计算机程序，当程序被处理器601执行时，使得处理器601执行如下步骤：

获取音频数据集；

将音频数据集输入到基础分类器，基于基础分类器，确定音频数据集的基类权重矩阵；

将音频数据集输入到新类分类器，基于新类分类器，确定音频数据集的新类权重矩阵；

根据基类权重矩阵和新类权重矩阵，确定音频数据集的分类结果。

在一种可能的实施方式中，处理器601，具体用于对原始音频数据集进行第一数据增强，第一数据增强包括以下一种或多种数据增强处理：音频旋转、音频调音、音频变调、或加噪处理；将第一数据增强后的原始音频数据集转化为梅尔声谱图；计算梅尔声谱图中的平均值；采用平均值对梅尔声谱图中选择的行数据和/或列数据进行替换，得到第二数据增强后的梅尔声谱图；根据原始音频数据集和第二数据增强后的梅尔声谱图，确定音频数据集。

在一种可能的实施方式中，处理器601，还用于在基类中确定用于训练新类分类器的伪新类，并确定伪新类的多个标记数据以及每个标记数据属于伪新类的权重；将多个标记数据、每个标记数据属于伪新类的权重、以及基础分类器输出的基类权重向量输入新类分类器；基于新类分类器，根据多个标记数据以及每个标记数据属于伪新类的权重，计算伪新类的平均特征向量；基于新类分类器，对平均特征向量和基类权重向量进行加权处理，得到伪新类的权重向量；根据伪新类的权重向量和基类权重向量，对基类权重矩阵进行更新；根据更新后的基类权重矩阵，更新新类分类器的参数。

在一种可能的实施方式中，处理器601，还用于根据更新后的基类权重矩阵，对基类权重向量进行更新。

在一种可能的实施方式中，处理器601，还用于根据基础分类器和/或新类分类器的测试结果，确定分类精度低于设定阈值且混入其它类别的混淆类，以及分类精度高于设定阈值的正确类；如果混淆类的数量与正确类的数量的比值超过设定比值，根据混淆类的数量对基础分类器和/或新类分类器中的节点数进行修改，得到待训练的分类器；采用音频数据集中包含混淆类的子音频数据集，对分类器继续进行训练。

在一种可能的实施方式中，处理器601，还用于在经过设定轮次的训练后，采用学习率变化参数，下调分类器的学习率。

上述电子设备提到的通信总线可以是PCI(Peripheral ComponentInterconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口602用于上述电子设备与其他设备之间的通信。

存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括NVM(Non-Volatile Memory，非易失性存储器)，例如至少一个磁盘存储器。可选地，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字指令处理器)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。

实施例11：

基于相同的技术构思，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质内存储有可由电子设备执行的计算机程序，当程序在电子设备上运行时，使得电子设备执行时实现上述任一实施例。

上述计算机可读存储介质可以是电子设备中的处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器如软盘、硬盘、磁带、MO(磁光盘)等、光学存储器如CD、DVD、BD、HVD等、以及半导体存储器如ROM、EPROM、EEPROM、NAND FLASH(非易失性存储器)、SSD(固态硬盘)等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种音频数据分类方法，其特征在于，所述方法包括：

获取音频数据集；

2.如权利要求1所述的方法，其特征在于，所述获取音频数据集包括：

对原始音频数据集进行第一数据增强，所述第一数据增强包括以下一种或多种数据增强处理：音频旋转、音频调音、音频变调、或加噪处理；

将第一数据增强后的所述原始音频数据集转化为梅尔声谱图；

计算所述梅尔声谱图中的平均值；

采用所述平均值对所述梅尔声谱图中选择的行数据和/或列数据进行替换，得到第二数据增强后的所述梅尔声谱图；

根据所述原始音频数据集和所述第二数据增强后的梅尔声谱图，确定所述音频数据集。

3.如权利要求1或2所述的方法，其特征在于，所述基础分类器中最后一个卷积层之后连接有全局时间池化层。

4.如权利要求1或2所述的方法，其特征在于，所述方法还包括：

在基类中确定用于训练所述新类分类器的伪新类，并确定所述伪新类的多个标记数据以及每个标记数据属于所述伪新类的权重；

将所述多个标记数据、所述每个标记数据属于所述伪新类的权重、以及所述基础分类器输出的基类权重向量输入所述新类分类器；

基于所述新类分类器，根据所述多个标记数据以及所述每个标记数据属于所述伪新类的权重，计算所述伪新类的平均特征向量；

基于所述新类分类器，对所述平均特征向量和所述基类权重向量进行加权处理，得到所述伪新类的权重向量；

根据所述伪新类的权重向量和所述基类权重向量，对基类权重矩阵进行更新；根据更新后的基类权重矩阵，更新所述新类分类器的参数。

5.如权利要求4所述的方法，其特征在于，所述新类分类器中的损失函数包括二进制交叉熵损失函数。

6.如权利要求1或2所述的方法，其特征在于，所述方法还包括：

根据所述基础分类器和/或所述新类分类器的测试结果，确定分类精度低于设定阈值且混入其它类别的混淆类，以及分类精度高于所述设定阈值的正确类；

如果所述混淆类的数量与所述正确类的数量的比值超过设定比值，根据所述混淆类的数量对所述基础分类器和/或所述新类分类器中的节点数进行修改，得到待训练的分类器；采用所述音频数据集中包含所述混淆类的子音频数据集，对所述分类器继续进行训练。

7.如权利要求6所述的方法，其特征在于，所述方法还包括：

在经过设定轮次的训练后，采用学习率变化参数，下调所述分类器的学习率。

8.一种音频数据分类装置，其特征在于，所述装置包括：

获取模块，用于获取音频数据集；

9.一种电子设备，其特征在于，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7任一项所述的音频数据分类方法的步骤。

10.一种计算机存储介质，其特征在于，其存储有可由电子设备执行的计算机程序，当所述程序在所述电子设备上运行时，使得所述电子设备执行权利要求1-7任一项所述的音频数据分类方法的步骤。