CN111261174B

CN111261174B - 音频的分类方法、装置、终端及计算机可读存储介质

Info

Publication number: CN111261174B
Application number: CN201811456608.XA
Authority: CN
Inventors: 陈家旭; 陈凯; 谢迪; 浦世亮
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2023-02-17
Anticipated expiration: 2038-11-30
Also published as: CN111261174A

Abstract

本公开是关于一种音频的分类方法、装置、终端及计算机可读存储介质，涉及目标分类领域。该方法包括：对第一音频样本数据集中的第一音频样本进行混合，得到第二音频样本数据集，并可以确定第二音频样本数据集中的每个第二多标签音频样本的标签。然后通过每个第二多标签音频样本以及每个第二多标签音频样本的标签，训练得到第一音频分类模型。因此，当需要对待分类的目标音频样本进行分类时，可以通过第一音频分类模型对目标音频样本进行分类。由于该第一音频分类模型是通过多标签音频样本训练得到的，因此，通过第一音频分类模型可以对多标签音频进行分类，提高了对多标签音频进行分类的准确性。

Description

音频的分类方法、装置、终端及计算机可读存储介质

技术领域

本公开涉及目标分类领域，尤其涉及一种音频的分类方法、装置、终端及计算机可读存储介质。

背景技术

在对音频信号进行处理的过程中，音频分类是尤为重要的一个环节。音频分类是指给定一段音频信号，确定出该段音频信号包含的事件，该事件通常用标签表示。例如，当一段音频信号是猫叫声时，该段音频信号包含的事件就是猫叫。

目前通常是对单标签音频进行分类，在对单标签音频进行分类的过程中，通常是获取大量单标签音频的训练样本，并将该单标签音频的训练样本输入至一个初始网络模型中，以对该初始网络模型进行训练，经过多次不断地训练，最终得到一个单标签音频分类模型。进而通过该单标签音频分类模型对单标签音频进行分类。

由于单标签音频分类模型是通过单标签音频的训练样本训练得到的，因此，该单标签音频分类模型在是获取大量单标签音频的训练样本，并将该单标签音频的训练样本输入至一个初始网络模型中只适用于对单标签音频进行分类。然而，自然生活中的音频往往都是由多种不同的音频混合得到的，即多标签音频，例如，在室外随机获取一段音频，该段音频中可能会包含汽车的鸣笛声、路人的讲话声和店铺放音乐的音乐声。因此，当通过单标签音频分类模型对多标签音频进行分类时，只能分类出该多标签音频中的一个事件，导致分类不准确。

发明内容

本公开提供一种音频的分类方法、装置、终端及计算机可读存储介质，可以解决当通过单标签音频分类模型对多标签音频进行分类时，只能分类出该多标签音频中的一个事件，导致分类不准确的问题。

第一方面，提供一种音频的分类方法，包括：

对第一音频样本数据集中的第一音频样本进行混合，得到第二音频样本数据集，所述第二音频样本数据集中包括至少一个第二多标签音频样本；

确定所述第二音频样本数据集中的每个第二多标签音频样本的标签；

通过所述第二音频样本数据集中的每个第二多标签音频样本以及所述每个第二多标签音频样本的标签，训练得到第一音频分类模型；

当需要对待分类的目标音频样本进行分类时，通过所述第一音频分类模型对所述目标音频样本进行分类。

在一个可能的实现方式中，所述对第一音频样本数据集中的第一音频样本进行混合，得到第二音频样本数据集，包括：

从所述第一音频样本数据集中选择至少一组音频样本，每组音频样本包括至少两个第一音频样本；

对于每组音频样本，根据所述每组音频样本包括的至少两个第一音频样本以及混合比例，对所述至少两个第一音频样本进行混合，得到第二多标签音频样本；

将所述至少一组音频样本混合得到的至少一个第二多标签音频样本组成所述第二音频样本数据集。

在一个可能的实现方式中，所述确定所述第二音频样本数据集中的每个第二多标签音频样本的标签，包括：

对于所述每个第二多标签音频样本，确定所述第二多标签音频样本对应的至少两个第一音频样本的标签；

将所述第二多标签音频样本对应的至少两个第一音频样本的标签组成所述第二多标签音频样本的标签。

在一个可能的实现方式中，所述通过所述第二音频样本数据集中的每个第二多标签音频样本以及所述每个第二多标签音频样本的标签，训练得到第一音频分类模型，包括：

通过初始网络模型，确定所述第二音频样本数据集中的每个第二多标签音频样本的预测标签以及每种预测标签的预测概率；

根据所述每种预测标签的预测概率和实际概率，以及预测标签的标签种类数量和所述第二音频样本数据集中第二多标签音频样本的音频样本数量，对所述初始网络模型进行迭代训练，得到所述第一音频分类模型。

在一个可能的实现方式中，所述根据所述每种预测标签的预测概率和实际概率，以及预测标签的标签种类数量和所述第二音频样本数据集中第二多标签音频样本的音频样本数量，对所述初始网络模型进行迭代训练，得到所述第一音频分类模型，包括：

根据所述每种预测标签的预测概率和实际概率，以及预测标签的标签种类数量和所述第二音频样本数据集中第二多标签音频样本的音频样本数量，确定所述第二音频样本数据集的损失值；

当所述损失值或者迭代次数满足迭代停止条件时，将所述初始网络模型确定为所述第一音频分类模型，所述迭代次数为确定所述损失值的次数；

当所述损失值或者所述迭代次数不满足所述迭代停止条件时，更新所述初始网络模型，直到通过更新后的初始网络模型确定出所述第二音频样本数据集的损失值或者所述迭代次数满足所述迭代停止条件为止，将满足所述迭代停止条件对应的更新后的初始网络模型确定为所述第一音频分类模型。

在一个可能的实现方式中，所述通过所述第二音频样本数据集中的每个第二多标签音频样本以及所述每个第二多标签音频样本的标签，训练得到第一音频分类模型之后，所述方法还包括：

通过所述第一音频样本数据集中的多个第一音频样本和所述多个第一音频样本的标签，对所述第一音频分类模型进行优化。

第二方面，提供一种音频的分类装置，所述装置包括：

混合模块，用于对第一音频样本数据集中的第一音频样本进行混合，得到第二音频样本数据集，所述第二音频样本数据集中包括至少一个第二多标签音频样本；

确定模块，用于确定所述第二音频样本数据集中的每个第二多标签音频样本的标签；

训练模块，用于通过所述第二音频样本数据集中的每个第二多标签音频样本以及所述每个第二多标签音频样本的标签，训练得到第一音频分类模型；

分类模块，用于当需要对待分类的目标音频样本进行分类时，通过所述第一音频分类模型对所述目标音频样本进行分类。

在一个可能的实现方式中，所述混合模块，还用于从所述第一音频样本数据集中选择至少一组音频样本，每组音频样本包括至少两个第一音频样本；

所述混合模块，还用于对于每组音频样本，根据所述每组音频样本包括的至少两个第一音频样本以及混合比例，对所述至少两个第一音频样本进行混合，得到第二多标签音频样本；

所述混合模块，还用于将所述至少一组音频样本混合得到的至少一个第二多标签音频样本组成所述第二音频样本数据集。

在一个可能的实现方式中，所述确定模块，还用于对于所述每个第二多标签音频样本，确定所述第二多标签音频样本对应的至少两个第一音频样本的标签；

所述确定模块，还用于将所述第二多标签音频样本对应的至少两个第一音频样本的标签组成所述第二多标签音频样本的标签。

在一个可能的实现方式中，所述训练模块，还用于通过初始网络模型，确定所述第二音频样本数据集中的每个第二多标签音频样本的预测标签以及每种预测标签的预测概率；

所述训练模块，还用于根据所述每种预测标签的预测概率和实际概率，以及预测标签的标签种类数量和所述第二音频样本数据集中第二多标签音频样本的音频样本数量，对所述初始网络模型进行迭代训练，得到所述第一音频分类模型。

在一个可能的实现方式中，所述训练模块，还用于根据所述每种预测标签的预测概率和实际概率，以及预测标签的标签种类数量和所述第二音频样本数据集中第二多标签音频样本的音频样本数量，确定所述第二音频样本数据集的损失值；

所述训练模块，还用于当所述损失值或者迭代次数满足迭代停止条件时，将所述初始网络模型确定为所述第一音频分类模型，所述迭代次数为确定所述损失值的次数；

所述训练模块，还用于当所述损失值或者所述迭代次数不满足所述迭代停止条件时，更新所述初始网络模型，直到通过更新后的初始网络模型确定出所述第二音频样本数据集的损失值或者所述迭代次数满足所述迭代停止条件为止，将满足所述迭代停止条件对应的更新后的初始网络模型确定为所述第一音频分类模型。

在一个可能的实现方式中，所述装置还包括：

优化模块，用于通过所述第一音频样本数据集中的多个第一音频样本和所述多个第一音频样本的标签，对所述第一音频分类模型进行优化。

第三方面，提供一种终端，所述终端包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述第一方面所述的任一项方法的步骤。

第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述第一方面所述的任一项方法的步骤。

第五方面，提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面任一项所述方法的步骤。

本公开的实施例提供的技术方案至少可以包括以下有益效果：

在本公开实施例中，对第一音频样本数据集中的第一音频样本进行混合，得到第二音频样本数据集，该第二音频样本数据集中包括至少一个第二多标签音频样本。然后可以确定第二音频样本数据集中的每个第二多标签音频样本的标签，并通过第二音频样本数据集中的每个第二多标签音频样本以及每个第二多标签音频样本的标签，训练得到第一音频分类模型。因此，当需要对待分类的目标音频样本进行分类时，可以通过第一音频分类模型对目标音频样本进行分类。由于该第一音频分类模型是通过多标签音频样本训练得到的，因此，通过第一音频分类模型可以对多标签音频进行分类，提高了对多标签音频进行分类的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种音频的分类方法的流程图。

图2是根据一示例性实施例示出的一种音频的分类方法的流程图。

图3是根据一示例性实施例示出的一种得到第一音频分类模型的示意图。

图4是根据一示例性实施例示出的一种对第一音频分类模型进行优化的示意图。

图5是根据一示例性实施例示出的一种音频的分类装置的框图。

图6是根据一示例性实施例示出的一种终端的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与本公开的一些方面相一致的装置和方法的例子。

在对本公开实施例进行详细的解释说明之前，先对本公开实施例的应用场景进行介绍：

在本公开实施例中，音频的分类方法可以由音频的分类装置实现，该音频的分类装置可以是终端。终端可以对第一音频样本数据集中的第一音频样本进行混合，并确定第二音频样本数据集中的每个第二多标签音频样本的标签，进而通过每个第二多标签音频样本以及每个第二多标签音频样本的标签，训练得到第一音频分类模型。因此，当需要对待分类的目标音频样本进行分类时，通过第一音频分类模型可以对目标音频样本进行分类。

其中，终端可以为手机终端设备、PAD(Portable Android Device，平板电脑)终端设备或者电脑终端设备等任一能够对音频进行分类的设备。

图1是根据一示例性实施例示出的一种音频的分类方法的流程图，如图1所示，该方法应用于终端中，包括以下步骤。

在步骤101中，对第一音频样本数据集中的第一音频样本进行混合，得到第二音频样本数据集，第二音频样本数据集中包括至少一个第二多标签音频样本。

在步骤102中，确定第二音频样本数据集中的每个第二多标签音频样本的标签。

在步骤103中，通过第二音频样本数据集中的每个第二多标签音频样本以及每个第二多标签音频样本的标签，训练得到第一音频分类模型。

在步骤104中，当需要对待分类的目标音频样本进行分类时，通过第一音频分类模型对目标音频样本进行分类。

在一个可能的实现方式中，对第一音频样本数据集中的第一音频样本进行混合，得到第二音频样本数据集，包括：

从第一音频样本数据集中选择至少一组音频样本，每组音频样本包括至少两个第一音频样本；

对于每组音频样本，根据每组音频样本包括的至少两个第一音频样本以及混合比例，对至少两个第一音频样本进行混合，得到第二多标签音频样本；

将至少一组音频样本混合得到的至少一个第二多标签音频样本组成第二音频样本数据集。

在一个可能的实现方式中，确定第二音频样本数据集中的每个第二多标签音频样本的标签，包括：

对于每个第二多标签音频样本，确定第二多标签音频样本对应的至少两个第一音频样本的标签；

将第二多标签音频样本对应的至少两个第一音频样本的标签组成第二多标签音频样本的标签。

在一个可能的实现方式中，通过第二音频样本数据集中的每个第二多标签音频样本以及每个第二多标签音频样本的标签，训练得到第一音频分类模型，包括：

通过初始网络模型，确定第二音频样本数据集中的每个第二多标签音频样本的预测标签以及每种预测标签的预测概率；

根据每种预测标签的预测概率和实际概率，以及预测标签的标签种类数量和第二音频样本数据集中第二多标签音频样本的音频样本数量，对初始网络模型进行迭代训练，得到第一音频分类模型。

在一个可能的实现方式中，根据每种预测标签的预测概率和实际概率，以及预测标签的标签种类数量和第二音频样本数据集中第二多标签音频样本的音频样本数量，对初始网络模型进行迭代训练，得到第一音频分类模型，包括：

根据每种预测标签的预测概率和实际概率，以及预测标签的标签种类数量和第二音频样本数据集中第二多标签音频样本的音频样本数量，确定第二音频样本数据集的损失值；

当损失值满足迭代停止条件时，将初始网络模型确定为第一音频分类模型；

当损失值不满足迭代停止条件时，更新初始网络模型，直到通过更新后的初始网络模型确定出第二音频样本数据集的损失值满足迭代停止条件为止，将满足迭代停止条件对应的更新后的初始网络模型确定为第一音频分类模型。

在一个可能的实现方式中，通过第二音频样本数据集中的每个第二多标签音频样本以及每个第二多标签音频样本的标签，训练得到第一音频分类模型之后，方法还包括：

通过第一音频样本数据集中的多个第一音频样本和多个第一音频样本的标签，对第一音频分类模型进行优化。

在本发明实施例中，对第一音频样本数据集中的第一音频样本进行混合，得到第二音频样本数据集，该第二音频样本数据集中包括至少一个第二多标签音频样本。然后可以确定第二音频样本数据集中的每个第二多标签音频样本的标签，并通过第二音频样本数据集中的每个第二多标签音频样本以及每个第二多标签音频样本的标签，训练得到第一音频分类模型。因此，当需要对待分类的目标音频样本进行分类时，可以通过第一音频分类模型对目标音频样本进行分类。由于该第一音频分类模型是通过多标签音频样本训练得到的，因此，通过第一音频分类模型可以对多标签音频进行分类，提高了对多标签音频进行分类的准确性。

上述所有可选技术方案，均可按照任意结合形成本公开的可选实施例，本公开实施例对此不再一一赘述。

图2是根据一示例性实施例示出的一种音频的分类方法的流程图，本实施例将对图1所示的实施例进行展开说明。该方法应用于终端中，如图2所示，该方法包括以下步骤。

在步骤201中，终端对第一音频样本数据集中的第一音频样本进行混合，得到第二音频样本数据集，该第二音频样本数据集中包括至少一个第二多标签音频样本。

当终端对第一音频样本数据集中的第一音频样本进行混合并得到第二音频样本数据集时，在一种可能的实现方式中，终端可以从第一音频样本数据集中选择至少一组音频样本，对于每组音频样本，根据每组音频样本包括的至少两个第一音频样本以及混合比例，对至少两个第一音频样本进行混合，得到第二多标签音频样本；然后将至少一组音频样本混合得到的至少一个第二多标签音频样本组成第二音频样本数据集。

需要说明的是，每组音频样本可以包括两个第一音频样本，因此，在上述一种可能的实现方式中，当每组音频样本包括两个第一音频样本时，终端根据每组多标签音频样本包括的至少两个第一音频样本以及混合比例，对至少两个第一音频样本进行混合，得到第二多标签音频样本的步骤可以为：

终端根据每组多标签音频样本包括的两个第一音频样本以及混合比例，对两个第一音频样本进行混合，可以通过如下公式一得到第二多标签音频样本：

公式一：

其中，

为得到的第k个第二多标签音频样本，x_i为第i个第一音频样本，x_j为第j个第一音频样本，α为混合比例，且α为一个0至1范围内的任意一个数值。

需要说明的是，终端根据每组音频样本包括的两个第一音频样本以及混合比例，对两个第一音频样本进行混合时，除了通过上述公式一得到第二多标签音频样本之外，还可以通过其他公式得到第二多标签音频样本，本公开实施例对此不作限定。

还需要说明的是，当每组音频样本包括的第一音频样本的数量大于两个时，终端可以对每组音频样本中的所有第一音频样本直接混合，也可以先两两混合第一音频样本，然后再通过两两混合第一音频样本得到的混合音频样本与另外一个第一音频样本进行混合。

其中，当每组音频样本包括三个第一音频样本，且终端对这三个第一音频样本直接混合时，可以通过如下公式二得到第二多标签音频样本：

公式二：

其中，

为得到的第l个第二多标签音频样本，x_a为第a个第一音频样本，x_b为第b个第一音频样本，x_c为第c个第一音频样本，β为混合比例中的第一比例，γ为混合比例中的第二比例，且β和γ均为0至1范围内的任意数值。

当终端先两两混合第一音频样本，然后再通过两两混合第一音频样本得到的混合音频样本与另外一个第一音频样本进行混合时，可以通过上述公式一实现，该种方式中的混合比例与上述公式一中的混合比例可以相同，也可以不同。

还需要说明的是，当终端对第一音频样本数据集中的第一音频样本进行混合并得到第二音频样本数据集时，在第二种可能的实现方式中，终端还可以将第一音频样本数据集中任意的至少两个第一音频样本作为一组，得到多组音频样本，并对每组音频样本中的至少两个第一音频样本进行混合得到多个第二多标签音频样本，然后将得到的多个第二多标签音频样本组成第二音频样本数据集。其中，当终端将第一音频样本数据集中任意两个第一音频样本作为一组进行混合，得到多个第二多标签音频样本时，如果第一音频样本数据集中包括M个不重复的第一音频样本，对该M个不重复的第一音频样本中的任意两个第一音频样本进行混合后，得到的第二音频样本数据集中则包括不重复的M×M＝M²个第二多标签音频样本。

需要说明一点的是，终端在对第一音频样本数据集中的第一音频样本进行混合之前，可以获取第一音频样本，进而由该第一音频样本组成第一音频样本数据集。其中，终端在接收到用户输入的音频样本时，可以对该音频样本进行条件选取以及噪音消除等预处理。

在本公开实施例中，终端对第一音频样本数据集中的第一音频样本进行混合，得到第二音频样本数据集，该第二音频样本数据集中的第二多标签音频样本的数量往往多于第一音频样本数据集中的第一音频样本的数量。因此，通过本公开实施例中对第一音频样本混合的方法扩充了音频样本数量，且增加了音频样本的多样性。

另外，在另一种可能的实现方式中，终端在第一音频样本进行混合得到第二音频样本数据集后，还可以从第一音频样本数据集中选取指定的至少一个第一音频样本移入到第二音频样本数据集中。此时，第二音频样本数据集中既包括至少一个第二多标签音频样本，还包括至少一个第一音频样本。如此，对第二音频样本数据集进行了充足的扩充，同时拓宽了音频分类的适用范围。其中，指定的至少一个第一音频样本可以是第一音频样本数据集中全部的第一音频样本，可以是第一音频样本数据集中随机选取的部分第一音频样本，也可以是标签重复率低的第一音频样本，还可以是样本质量高的第一音频样本，本公开实施例对此不做限定。

在步骤202中，终端确定该第二音频样本数据集中的每个第二多标签音频样本的标签。

由于第一音频样本有对应的标签，因此，终端在对第一音频样本数据集中的第一音频样本进行混合的过程中，对第一音频样本的标签也进行了混合，故终端可以确定对第一音频样本进行混合后得到的第二音频样本数据集中的每个第二多标签音频样本的标签。

在一种可能的实现方式中，对于每个第二多标签音频样本，终端可以确定该第二多标签音频样本对应的至少两个第一音频样本的标签，然后将该第二多标签音频样本对应的至少两个第一音频样本的标签组成该第二多标签音频样本的标签。

需要说明的是，终端可以将第二多标签音频样本对应的至少两个第一音频样本的标签的并集组成第二多标签音频样本的标签。

当第二多标签音频样本对应两个第一音频样本，也即第二多标签音频样本是由两个第一音频样本混合得到的时，终端可以将该第二多标签音频样本对应的两个第一音频样本的标签，根据如下公式三组成该第二多标签音频样本的标签：

公式三：

其中，

为第k个第二多标签音频样本的标签，y_i为第i个第一音频样本的标签，y_j为第j个第一音频样本的标签。

其中，终端可以将y_i与y_j的并集组成

例如，y_i包含两种标签A、B，表示为[1,1]，y_j包含标签A，不包含标签B，表示为[1,0]；因此，将y_i和y_j的标签取并集，得

的标签包含标签A、B，即[1,1]。

还需要说明的是，由于至少两个第一音频样本的标签之间可能存在重复的情况，因此，终端在确定第二多标签音频样本对应的至少两个第一音频样本的标签时，可以检测该至少两个第一音频样本的标签中是否存在重复的标签，当检测到有重复的标签时，终端可以提取重复的标签中的任意一个标签，避免了终端将重复的所有标签都确定出来而增加了工作量。例如，第一个第一音频样本的标签为A和B，第二个第一音频样本的标签为A和C，则终端可以检测出这两个第一音频样本中的标签A是重复的，因此，可以只提取这两个第一音频样本中任意一个第一音频样本中的标签A。

在步骤203中，终端通过第二音频样本数据集中的每个第二多标签音频样本以及每个第二多标签音频样本的标签，训练得到第一音频分类模型。

在终端得到第二音频样本数据集和第二音频样本数据集中每个第二多标签音频样本的标签之后，即可通过每个第二音频样本数据集中第二多标签音频样本以及每个第二多标签音频样本的标签，训练得到第一音频分类模型。

在一种可能的实现方式中，终端可以通过如下几个步骤得到第一音频分类模型：

步骤2031：终端通过初始网络模型，确定第二音频样本数据集中的每个第二多标签音频样本的预测标签以及每种预测标签的预测概率。

需要说明的是，终端在确定每个第二多标签音频样本的每种预测标签的预测概率之前，可以先确定每个第二多标签音频样本的每种预测标签。由于需要通过初始网络模型对第二多标签音频样本进行分类，得到第二多标签音频样本的标签，因此，可以将通过初始网络模型得到的第二多标签音频样本的标签称为预测标签。

可选地，终端可以通过初始网络模型，根据如下公式四确定第二音频样本数据集中的每个第二多标签音频样本的预测标签以及每种预测标签的预测概率：

公式四：

其中，

为第k个第二多标签音频样本的预测标签的预测概率，f_θ(·)为初始网络模型的函数，θ为初始网络模型的模型参数，

为第k个第二多标签音频样本，

为第k个第二多标签音频样本的第1种预测标签的预测概率，

为第k个第二多标签音频样本的第2种预测标签的预测概率，

为第k个第二多标签音频样本的第n种预测标签的预测概率，

为第k个第二多标签音频样本的第N种预测标签的预测概率。

步骤2032：终端根据每种预测标签的预测概率和实际概率，以及预测标签的标签种类数量和第二音频样本数据集中第二多标签音频样本的音频样本数量，对初始网络模型进行迭代训练，得到第一音频分类模型。

在一种可能的实现方式中，步骤2032中的方法可以通过如下几个步骤实现：

步骤20321：终端根据每种预测标签的预测概率和实际概率，以及预测标签的标签种类数量和第二音频样本数据集中第二多标签音频样本的音频样本数量，确定第二音频样本数据集的损失值。

可选地，终端可以通过如下公式五确定第二音频样本数据集的损失值：

公式五：

其中，L₁为第二音频样本数据集的损失值，K₁为第二音频样本数据集中第二多标签音频样本的音频样本数量，N₁为预测标签的标签种类数量，

为第k个第二多标签音频样本的第n种预测标签的实际概率，

为第k个第二多标签音频样本的第n种预测标签的预测概率，k和n均为变量。

在实际中，对于每个第二多标签音频样本而言，N种标签中的每一种标签要么在该第二多标签音频样本中出现，要么没有在该第二多标签音频样本中出现。也即是，当某种标签在一个第二多标签音频样本中出现时，该标签的实际概率就为1，当某种标签没有在一个第二多标签音频样本中出现时，该标签的实际概率就为0。因此，当用

表示第k个第二多标签音频样本的第n种预测标签的实际概率时，

或者

需要说明的是，第二音频样本数据集的损失值用于衡量第一音频分类模型进行分类时的错误程度。在衡量的过程中，当该损失值或者迭代次数满足迭代停止条件时，执行步骤20322；当该损失值或者迭代次数不满足迭代停止条件时，执行步骤20323，该迭代次数为确定损失值的次数。

其中，迭代停止条件可以为损失值小于预设阈值，也可以为损失值与预设阈值之间的差值不变，或者损失值与预设阈值之间的差值小于某个值，该预设阈值可以是预先设置的一个值。迭代停止条件也可以为迭代次数大于预设最大迭代次数。

步骤20322：终端将初始网络模型确定为第一音频分类模型。

由于当该损失值满足迭代停止条件，可以表示通过该初始网络模型进行分类时的分类错误率较低，因此，可以将该初始网络模型确定为第一音频分类模型。或者，当迭代次数满足迭代停止条件时，表示已经确定了多次第二音频样本数据集的损失值，此时通过该初始网络模型进行分类时的分类错误率较低，因此，可以将该初始网络模型确定为第一音频分类模型。

步骤20323：终端更新初始网络模型，直到通过更新后的初始网络模型确定出第二音频样本数据集的损失值或者迭代次数满足迭代停止条件为止，将满足迭代停止条件对应的更新后的初始网络模型确定为第一音频分类模型。

由于当该损失值或者迭代次数不满足迭代停止条件，可以表示通过该初始网络模型进行分类时的分类错误率较高，因此，可以更新该初始网络模型，直到通过更新后的初始网络模型确定出第二音频样本数据集的损失值或者迭代次数满足迭代停止条件为止，然后将满足迭代停止条件对应的更新后的初始网络模型确定为第一音频分类模型。其中，更新该初始网络模型的过程可以是更新初始网络模型中的模型参数的过程。

由于第二多标签音频样本是由第一音频样本线性混合得到的，第二音频样本数据集包含第一音频样本数据集中的所有的标签种类，并且第二多标签音频样本和第一音频样本的来源相同，因此通过第二音频样本数据集的损失值不仅可以判断第一音频分类模型对第二多标签音频样本分类的准确度，还可以判断第一音频分类模型对第一音频样本分类的准确度。

如图3所示，图3为得到第一音频分类模型的示意图，图3示出了对第一音频样本数据集中的第i个第一音频样本和第j个第一音频样本进行混合，得到第k个第二多标签音频样本，并根据第k个第二多标签音频样本训练得到了第一音频分类模型。由于i、j和k均是变量，因此，图3实际上是对第一音频样本数据集中的第一音频样本进行混合，得到至少一个第二多标签音频样本，并通过每个第二多标签音频样本以及每个第二多标签音频样本的标签，训练得到第一音频分类模型的过程。

需要说明的一点是，由于第二多标签音频样本是由第一音频样本进行混合得到的，因此，第二多标签音频样本相比于第一音频样本而言是标签较为复杂的音频样本；而第一音频分类模型是终端通过每个标签较为复杂的第二多标签音频样本以及每个标签较为复杂的第二多标签音频样本的标签训练得到的，因此，通过该第一音频分类模型可以对更复杂的多标签音频样本进行分类。

需要说明的另一点是，终端在训练得到第一音频分类模型后，为了检测该第一音频分类模型的分类准确性，可以通过测试样本集对该第一音频分类模型进行测试。其中，终端可以从第二音频样本数据集中提取出部分的第二标签音频样本组成测试样本集，也可以接收用户输入的其他音频样本数据集，本公开实施例对此不做限定。

另外，终端可以在通过本步骤训练得到第一音频分类模型后，直接执行步骤205，即通过第一音频分类模型对目标音频样本进行分类。终端也可以在训练得到第一音频分类模型后，先执行步骤204，即先通过第一音频样本数据集中的多个第一音频样本和多个第一音频样本的标签，对第一音频分类模型进行优化，然后通过优化后的第一音频分类模型执行步骤205中对目标音频样本进行分类的过程。

其中，当终端通过本步骤训练得到第一音频分类模型后直接执行步骤205时，由于在步骤201中终端可以从第一音频样本数据集中选取指定的至少一个第一音频样本移入到第二音频样本数据集中，也即第二音频样本数据集中既包括至少一个第二多标签音频样本，还包括至少一个第一音频样本。因此，终端可以预先通过第二音频样本数据集中每个第一音频样本和每个第一音频样本的标签、以及每个第二多标签音频样本和每个第二多标签音频样本的标签，训练得到第一音频分类模型，进而直接执行步骤205。而当终端没有从第一音频样本数据集中选取指定的至少一个第一音频样本移入第二音频样本数据集，即第二音频样本数据集中只包括至少一个第二多标签音频样本时，终端也可以只通过每个第二多标签音频样本和每个第二多标签音频样本的标签，训练得到第一音频分类模型，进而直接执行步骤205。

当终端在训练得到第一音频分类模型后，先执行步骤204，然后通过优化后的第一音频分类模型执行步骤205中对目标音频样本进行分类的过程时，终端可以预先不从第一音频样本数据集中选取指定的至少一个第一音频样本移入第二音频样本数据集，即第二音频样本数据集中只包括至少一个第二多标签音频样本。

在步骤204中，终端通过第一音频样本数据集中的多个第一音频样本和多个第一音频样本的标签，对第一音频分类模型进行优化。

终端在对第一音频分类模型进行优化时，可以从第一音频样本数据集中选取指定的至少一个第一音频样本，进而通过该指定的至少一个第一音频样本以及该指定的至少一个第一音频样本的标签，对第一音频分类模型进行优化。其中，本步骤中指定的至少一个第一音频样本与步骤201中指定的至少一个第一音频样本类似。也即是，指定的至少一个第一音频样本可以是第一音频样本数据集中全部的第一音频样本，可以是第一音频样本数据集中随机选取的部分第一音频样本，也可以是标签重复率低的第一音频样本，还可以是样本质量高的第一音频样本，本公开实施例对此不做限定。

需要说明的是，终端对第一音频分类模型进行优化的过程可以是通过第一音频样本数据集中的多个第一音频样本和多个第一音频样本的标签，对第一音频分类模型继续训练的过程。因此，本步骤中通过第一音频样本数据集中的多个第一音频样本和多个第一音频样本的标签，对第一音频分类模型进行优化的过程，与步骤203中通过第二音频样本数据集中的每个第二多标签音频样本以及每个第二多标签音频样本的标签，训练第一音频分类模型的过程类似。

还需要说明的是，终端在通过第一音频样本和第一音频样本的标签对第一音频分类模型进行优化的过程中，可以确定第一音频样本数据集的损失值。由于第一音频样本数据集中的第一音频样本可以是多标签音频样本，也可以是单标签音频样本，因此在通过多标签的第一音频样本和多标签的第一音频样本的标签对第一音频分类模型进行优化时，与通过单标签的第一音频样本和单标签的第一音频样本的标签对第一音频分类模型进行优化时，确定的第一音频样本数据集的损失值不同。如下进行详细说明：

(1)当第一音频样本是多标签音频样本，终端可以通过如下公式六和公示七确定第一音频样本数据集的损失值：

公式六：t_a＝f_θ(x_a)＝[t_a1,t_a2,…,t_an,…,t_aN]

其中，t_a为第a个第一音频样本的预测标签的预测概率，f_θ(·)为初始网络模型的函数，θ为初始网络模型的模型参数，x_a为第a个第一音频样本，t_a1为第a个第一音频样本的第1种预测标签的预测概率，t_a2为第a个第一音频样本的第2种预测标签的预测概率，t_an为第a个第一音频样本的第n种预测标签的预测概率，t_aN为第a个第一音频样本的第N种预测标签的预测概率，a是变量。

公式七：

其中，L₂为当第一音频样本是多标签音频样本时，第一音频样本数据集的损失值，K₂为第一音频样本数据集中多标签的第一音频样本的音频样本数量，N₂为第一音频样本数据集中多标签音频样本的预测标签的标签种类数量，y_an为第a个多标签的第一音频样本的第n种预测标签的实际概率，t_an为第a个多标签的第一音频样本的第n种预测标签的预测概率，n为变量。

(2)当第一音频样本是单标签音频样本，终端可以通过如下公式八和公式九确定第一音频样本数据集的损失值：

公式八：t_b＝f_θ(x_b)＝[t_b1,t_b2,…,t_bn,…,t_bN]

其中，t_b为第b个第一音频样本的预测标签的预测概率，f_θ(·)为初始网络模型的函数，θ为初始网络模型的模型参数，x_b为第b个第一音频样本，t_b1为第b个第一音频样本的第1种预测标签的预测概率，t_b2为第b个第一音频样本的第2种预测标签的预测概率，t_bn为第b个第一音频样本的第n种预测标签的预测概率，t_bN为第b个第一音频样本的第N种预测标签的预测概率，b是变量。

公式九：

其中，L₃为当第一音频样本是单标签音频样本时，第一音频样本数据集的损失值，K₃为第一音频样本数据集中单标签的第一单标签音频样本的音频样本数量，N₃为第一音频样本数据集中单标签音频样本的预测标签的标签种类数量，y_bn为第b个单标签的第一音频样本的第n种预测标签的实际概率，t_bn为第b个单标签的第一频样本的第n种预测标签的预测概率，n为变量。

需要说明的是，终端可以以较小的学习率对第一音频分类模型进行优化，也即对第一音频分类模型进行微调。在这种情况下，终端从第一音频样本数据集中选取一小部分指定的至少一个第一音频样本。例如，该小部分指定的至少一个第一音频样本可以是10％的第一音频样本。

如图4所示，图4为已经通过第二音频样本数据训练得到了第一音频分类模型，再对第一音频分类模型进行优化的示意图，图4示出了通过第一音频样本数据集的第i个第一音频样本以及第i个第一音频样本的标签对第一音频分类模型进行优化。由于i是一个变量，因此，图4实际上是通过第一音频样本数据集中的多个第一音频样本和多个第一音频样本的标签，对第一音频分类模型进行优化的过程。

由于第二音频样本数据集是由第一音频样本数据集中的第一音频样本进行混合得到的，所以第二音频样本数据集中的音频样本是虚构的音频数据，与真实自然的音频数据，例如第一音频样本数据集中的第一音频样本，具有一定的差异。因此，为了让通过第二音频样本训练得到的第一音频分类模型更适用于真实音频的分类问题。终端通过第一音频样本数据集中的多个第一音频样本和多个第一音频样本的标签再次训练第一音频分类模型，利用真实的音频样本微调第一音频分类模型参数，即对第一音频分类模型进行优化。优化后的第一音频分类模型在对真实的音频样本进行音频样本分类时，可以达到更好的分类效果。

并且，由于在对音频进行分类的过程中，通常需要通过大量音频样本训练得到一个音频分类模型，进而通过该音频分类模型对音频进行分类。由于音频分类模型是通过音频样本训练得到的，因此，音频分类模型的分类准确率依赖于音频样本的质量和数量。然而，在通过大量音频样本训练得到一个音频分类模型之前，往往需要人工对该大量的音频样本中的标签进行标定。而人工准确标定音频样本的标签需要耗费大量的时间、人力和物力，并且自然生活中的音频往往都是多标签音频，即由多种不同的音频混合的音频，进一步增加了人工准确标定音频样本的难度，进而增加了获取准确的音频样本的难度。因此，往往会导致训练音频分类模型的音频样本数量不足，进而影响音频分类模型的分类性能。

因此，在本公开实施例中，优化后的第一音频分类模型是由原始的第一音频样本和混合后的第二多标签音频样本共同训练得到的，与只通过原始的第一音频样本训练第一音频分类模型相比，增加了音频样本的数量，进而提高了优化后的第一音频分类模型的分类准确性和泛化性。并且由于第一音频样本可以是单标签音频样本也可以是多标签音频样本，因此优化后的第一音频分类模型可以对单标签音频进行分类，也可以对多标签音频进行分类，提高了优化后的第一音频分类模型的分类性能。

在步骤205中，当终端需要对待分类的目标音频样本进行分类时，通过第一音频分类模型对目标音频样本进行分类。

当终端需要对待分类的目标音频样本进行分类时，可以将待分类的目标音频样本输入至第一音频分类模型中，得到该目标音频样本包含的标签，进而实现通过第一音频分类模型对目标音频样本进行分类。

需要说明的是，通过单标签音频样本训练的音频分类模型只能对单标签音频样本进行分类，但通过多标签音频样本训练的音频分类模型既可以对多标签音频样本进行分类，也可以对单标签音频样本进行分类。因此，待分类的目标音频样本可以是单标签音频样本，也可以是多标签音频样本；也即是，本公开实施例中的第一音频分类模型既适用于对单标签音频样本进行分类，也适用于对多标签音频样本进行分类。

图5是根据一示例性实施例示出的一种音频的分类装置的框图。如图5所示，该装置包括混合模块501，确定模块502、训练模块503和分类模块504。

混合模块501，用于对第一音频样本数据集中的第一音频样本进行混合，得到第二音频样本数据集，第二音频样本数据集中包括至少一个第二多标签音频样本。

确定模块502，用于确定第二音频样本数据集中的每个第二多标签音频样本的标签。

训练模块503，用于通过第二音频样本数据集中的每个第二多标签音频样本以及每个第二多标签音频样本的标签，训练得到第一音频分类模型。

分类模块504，用于当需要对待分类的目标音频样本进行分类时，通过第一音频分类模型对目标音频样本进行分类。

在一个可能的实现方式中，混合模块501，还用于从第一音频样本数据集中选择至少一组音频样本，每组音频样本包括至少两个第一音频样本；

混合模块501，还用于对于每组音频样本，根据每组音频样本包括的至少两个第一音频样本以及混合比例，对至少两个第一音频样本进行混合，得到第二多标签音频样本；

混合模块501，还用于将至少一组音频样本混合得到的至少一个第二多标签音频样本组成第二音频样本数据集。

在一个可能的实现方式中，确定模块502，还用于对于每个第二多标签音频样本，确定第二多标签音频样本对应的至少两个第一音频样本的标签；

确定模块502，还用于将第二多标签音频样本对应的至少两个第一音频样本的标签组成第二多标签音频样本的标签。

在一个可能的实现方式中，训练模块503，还用于通过初始网络模型，确定第二音频样本数据集中的每个第二多标签音频样本的预测标签以及每种预测标签的预测概率；

训练模块503，还用于根据每种预测标签的预测概率和实际概率，以及预测标签的标签种类数量和第二音频样本数据集中第二多标签音频样本的音频样本数量，对初始网络模型进行迭代训练，得到第一音频分类模型。

在一个可能的实现方式中，训练模块503，还用于根据每种预测标签的预测概率和实际概率，以及预测标签的标签种类数量和第二音频样本数据集中第二多标签音频样本的音频样本数量，确定第二音频样本数据集的损失值；

训练模块503，还用于当该损失值或者迭代次数满足迭代停止条件时，将初始网络模型确定为第一音频分类模型，迭代次数为确定损失值的次数；

训练模块503，还用于当该损失值或者迭代次数不满足迭代停止条件时，更新初始网络模型，直到通过更新后的初始网络模型确定出第二音频样本数据集的损失值或者迭代次数满足迭代停止条件为止，将满足迭代停止条件对应的更新后的初始网络模型确定为第一音频分类模型。

在一个可能的实现方式中，该装置还包括：

优化模块，用于通过第一音频样本数据集中的多个第一音频样本和多个第一音频样本的标签，对第一音频分类模型进行优化。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图6示出了本发明一个示例性实施例提供的终端600的结构框图。该终端600可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio LayerIV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本申请中方法实施例提供的音频的分类方法。

在一些实施例中，终端600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、触摸显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置终端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在再一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位终端600的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制触摸显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测终端600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在终端600的侧边框和/或触摸显示屏605的下层。当压力传感器613设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在触摸显示屏605的下层时，由处理器601根据用户对触摸显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制触摸显示屏605的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏605的显示亮度；当环境光强度较低时，调低触摸显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时，由处理器601控制触摸显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时，由处理器601控制触摸显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

本公开实施例还提供了一种计算机可读存储介质，该计算机可读存储介质应用于终端，该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该指令、该程序、该代码集或该指令集由处理器加载并执行以实现上述实施例的音频的分类方法中终端所执行的操作。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

Claims

1.一种音频的分类方法，其特征在于，所述方法包括：

对于所述第二音频样本数据集中的每个第二多标签音频样本，确定所述第二多标签音频样本对应的至少两个第一音频样本的标签；将所述第二多标签音频样本对应的至少两个第一音频样本的标签组成所述第二多标签音频样本的标签；

2.如权利要求1所述的方法，其特征在于，所述对第一音频样本数据集中的第一音频样本进行混合，得到第二音频样本数据集，包括：

3.如权利要求1所述的方法，其特征在于，所述通过所述第二音频样本数据集中的每个第二多标签音频样本以及所述每个第二多标签音频样本的标签，训练得到第一音频分类模型，包括：

4.如权利要求3所述的方法，其特征在于，所述根据所述每种预测标签的预测概率和实际概率，以及预测标签的标签种类数量和所述第二音频样本数据集中第二多标签音频样本的音频样本数量，对所述初始网络模型进行迭代训练，得到所述第一音频分类模型，包括：

5.如权利要求1或3所述的方法，其特征在于，所述通过所述第二音频样本数据集中的每个第二多标签音频样本以及所述每个第二多标签音频样本的标签，训练得到第一音频分类模型之后，所述方法还包括：

6.一种音频的分类装置，其特征在于，所述装置包括：

确定模块，用于对于所述第二音频样本数据集中的每个第二多标签音频样本，确定所述第二多标签音频样本对应的至少两个第一音频样本的标签；将所述第二多标签音频样本对应的至少两个第一音频样本的标签组成所述第二多标签音频样本的标签；

7.如权利要求6所述的装置，其特征在于，

所述混合模块，还用于从所述第一音频样本数据集中选择至少一组音频样本，每组音频样本包括至少两个第一音频样本；

8.如权利要求6所述的装置，其特征在于，

所述训练模块，还用于通过初始网络模型，确定所述第二音频样本数据集中的每个第二多标签音频样本的预测标签以及每种预测标签的预测概率；

9.如权利要求8所述的装置，其特征在于，

所述训练模块，还用于根据所述每种预测标签的预测概率和实际概率，以及预测标签的标签种类数量和所述第二音频样本数据集中第二多标签音频样本的音频样本数量，确定所述第二音频样本数据集的损失值；

10.如权利要求6或8所述的装置，其特征在于，所述装置还包括：