CN117036834A

CN117036834A - 基于人工智能的数据分类方法、装置及电子设备

Info

Publication number: CN117036834A
Application number: CN202311307205.XA
Authority: CN
Inventors: 梁宇轩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2023-10-10
Filing date: 2023-10-10
Publication date: 2023-11-10
Anticipated expiration: 2043-10-10
Also published as: CN117036834B

Abstract

本申请提供了一种基于人工智能的数据分类方法、装置、电子设备、计算机可读存储介质及计算机程序产品，可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景；方法包括：对待分类数据进行分割处理，得到多个数据片段；对每个数据片段进行特征提取处理，得到每个数据片段对应的片段特征；对每个片段特征进行局部池化处理，得到每个片段特征对应的池化片段特征；对多个池化片段特征进行特征融合处理，得到融合特征；对融合特征进行全局池化处理，得到池化融合特征；根据池化融合特征进行类别预测处理，得到待分类数据属于的目标类别。通过本申请，采用从局部到全局的处理方式，能够提升分类精度，实现对视频、音频之类的待分类数据的智能分类。

Description

基于人工智能的数据分类方法、装置及电子设备

技术领域

本申请涉及人工智能技术，尤其涉及一种基于人工智能的数据分类方法、装置、电子设备、计算机可读存储介质及计算机程序产品。

背景技术

人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

针对连续型数据的数据分类是人工智能的一个重要应用，广泛应用于多种场景，例如在直播场景中，需要根据直播间的直播内容进行分类，以将直播间划分到对应的类别，如唱歌类别或者跳舞类别。在相关技术提供的方案中，通常是截取连续型数据中的某个数据片段（例如截取最新的图像帧），通过模型对该数据片段进行处理，得到连续型数据所属类别。然而，一方面，数据片段可能含有噪声，这些噪声会影响模型的判断；另一方面，数据片段可能无法有效代表原始的连续型数据。综上，相关技术提供的方案的分类精度低。

发明内容

本申请提供一种基于人工智能的数据分类方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够提升数据分类的精度。

本申请的技术方案是这样实现的：

本申请提供一种基于人工智能的数据分类方法，包括：

对待分类数据进行分割处理，得到多个数据片段；

对每个数据片段进行特征提取处理，得到每个数据片段对应的片段特征；

对每个片段特征进行局部池化处理，得到每个片段特征对应的池化片段特征；

对多个池化片段特征进行特征融合处理，得到融合特征；

对所述融合特征进行全局池化处理，得到池化融合特征；

根据所述池化融合特征进行类别预测处理，得到所述待分类数据属于的目标类别。

本申请提供一种基于人工智能的数据分类装置，包括：

分割模块，用于对待分类数据进行分割处理，得到多个数据片段；

特征提取模块，用于对每个数据片段进行特征提取处理，得到每个数据片段对应的片段特征；

局部池化模块，用于对每个片段特征进行局部池化处理，得到每个片段特征对应的池化片段特征；

特征融合模块，用于对多个池化片段特征进行特征融合处理，得到融合特征；

全局池化模块，用于对所述融合特征进行全局池化处理，得到池化融合特征；

类别预测模块，用于根据所述池化融合特征进行类别预测处理，得到所述待分类数据属于的目标类别。

在上述方案中，特征融合模块还用于：

对多个池化片段特征进行聚类处理，得到多个聚类中心；

对每个聚类中心分别与多个池化片段特征之间的距离向量进行向量融合处理，得到每个聚类中心对应的融合距离向量；

将所述多个聚类中心分别对应的融合距离向量组合为融合特征。

在上述方案中，特征融合模块还用于：

对每个池化片段特征进行卷积处理得到卷积结果，并对所述卷积结果进行权重映射处理，得到每个池化片段特征对应每个聚类中心的距离权重；

针对任意一个聚类中心，执行以下处理：

根据每个池化片段特征对应所述任意一个聚类中心的距离权重，对所述任意一个聚类中心分别与多个池化片段特征之间的距离向量进行加权求和处理，得到所述任意一个聚类中心对应的融合距离向量。

在上述方案中，基于人工智能的数据分类装置还包括归一化模块，用于：

对所述融合特征中的每个融合距离向量进行局部归一化处理；

对局部归一化处理后的多个融合距离向量进行全局归一化处理；

全局池化模块还用于：

对全局归一化处理后的融合特征进行全局池化处理，得到池化融合特征。

在上述方案中，局部池化模块还用于：

对每个片段特征进行局部最大池化处理，得到每个片段特征对应的池化片段特征；

全局池化模块还用于：

对所述融合特征进行全局平均池化处理，得到池化融合特征。

在上述方案中，基于人工智能的数据分类方法通过数据分类模型实现；基于人工智能的数据分类装置还包括训练模块，用于：

获取样本数据以及对应的标签类别；

通过数据分类模型对所述样本数据进行处理，得到分类结果；

根据所述样本数据对应的分类结果以及标签类别，确定损失值；

根据所述损失值调整所述数据分类模型的参数。

在上述方案中，所述数据分类模型包括用于特征提取处理的特征提取网络、用于特征融合处理的特征融合网络以及用于类别预测处理的类别预测网络；训练模块还用于：

根据预设数据集对所述特征提取网络进行预训练，以初始化所述特征提取网络的参数；

执行以下任意一种处理：

根据所述损失值对所述特征提取网络、所述特征融合网络以及所述类别预测网络进行参数更新；

冻结所述特征提取网络的参数，根据所述损失值对所述特征融合网络以及所述类别预测网络中的至少之一进行参数更新。

在上述方案中，所述分类结果包括所述样本数据分别属于多种类别的概率；训练模块还用于：

根据目标概率确定损失值权重；其中，所述目标概率表示所述分类结果中所述样本数据属于所述标签类别的概率；所述损失值权重与所述目标概率负相关；

根据所述损失值权重对所述损失值进行加权处理；

根据加权处理后的所述损失值调整所述数据分类模型的参数。

本申请提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请提供的基于人工智能的数据分类方法。

本申请提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请提供的基于人工智能的数据分类方法。

本申请提供了一种计算机程序产品，该计算机程序产品包括可执行指令，用于引起处理器执行时，实现本申请提供的基于人工智能的数据分类方法。

本申请具有以下有益效果：

本申请将待分类数据划分为多个数据片段，提取每个数据片段的片段特征，并对每个片段特征进行局部池化处理得到池化片段特征，如此，可以从每个片段特征中提取出最为关键的特征，从而有效抑制噪声，降低信息冗余。然后，对多个池化片段特征进行特征融合处理得到融合特征，并对融合特征进行全局池化处理得到池化融合特征，通过全局池化处理的方式来有效整合全局的信息，有助于提升分类过程的鲁棒性。最终，根据池化融合特征进行类别预测处理，得到待分类数据属于的目标类别。本申请采用从局部到全局的处理方式，能够减少噪声对分类过程的不良影响，同时有效整合全局的信息，能够提升分类精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的基于人工智能的数据分类系统的一个架构示意图；

图2是本申请实施例提供的终端设备的一个结构示意图；

图3A是本申请实施例提供的基于人工智能的数据分类方法的第一流程示意图；

图3B是本申请实施例提供的基于人工智能的数据分类方法的第二流程示意图；

图3C是本申请实施例提供的基于人工智能的数据分类方法的第三流程示意图；

图3D是本申请实施例提供的基于人工智能的数据分类方法的第四流程示意图；

图4是本申请实施例提供的音频分类模型的一个架构示意图；

图5是本申请实施例提供的特征融合网络的一个架构示意图；

图6是本申请实施例提供的损失值变化的一个示意图；

图7是本申请实施例提供的音频分类系统的一个架构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解, “一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。在以下的描述中，所涉及的术语“多个”是指至少两个。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1）机器学习（Machine Learning，ML）：是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。在本申请实施例中，可以基于机器学习原理构建数据分类模型（如神经网络模型），通过数据分类模型实现对待分类数据的智能分类。

2）连续型数据：由连续的数据片段所构成。例如，连续型数据为视频（不考虑视频中的音频），则数据片段为图像帧；连续型数据为音频，则数据片段为音频帧；连续型数据为文本，则数据片段为文本块（如文本中的每一句话）。在本申请实施例中，待分类数据以及样本数据均为连续型数据。

3）池化（Pooling）：是卷积神经网络中的一种操作，原理是模仿人的视觉系统对特征进行降维，从而减少噪声影响、提高运算速度，让特征更具健壮性。本申请实施例涉及局部池化处理以及全局池化处理，局部池化处理是指在特征图（feature map）上以窗口（或称采样区域）的形式进行滑动，并每次对窗口内的信息进行计算（如取最大值或者平均值等）得到结果值；而全局池化处理是指对整张特征图进行操作，将特征图中的所有信息压缩成一个结果值。其中，特征图是卷积神经网络中的一种数据结构，是由一系列卷积核对输入内容进行卷积操作得到的结果，它可以看作是输入内容的抽象表示，在本申请实施例中，片段特征、池化片段特征、融合特征以及池化融合特征均可以通过特征图的形式体现。

4）聚类：将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类，由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。由聚类所生成的簇的中心称为聚类中心，聚类中心可以是簇内的某一个对象，也可以是对簇内的所有对象进行计算（如求平均值）得到的。

5）归一化：是一种简化计算的方式，即是将有量纲的数值转换为无量纲的数值，成为标量，例如转换为[0，1]区间内的数值。本申请实施例对归一化处理的方式不做限定，例如包括但不限于L1归一化、L2归一化。

6）损失值（Loss）：用于表示神经网络模型的预测值与实际值之间的差距。在计算出损失值的基础上，可以结合反向传播（Back Propagation）和梯度下降（GradientDescent）技术，根据损失值调整神经网络模型的参数，以最小化损失值，如此实现对神经网络模型的训练。值得说明的是，本申请实施例涉及的参数可以仅是指权重参数（通常表示为w），也可以同时包括权重参数及偏置参数（通常表示为b）。

本申请实施例提供一种基于人工智能的数据分类方法、装置、电子设备、计算机可读存储介质及计算机程序产品，能够提升数据分类的精度。下面说明本申请实施例提供的电子设备的示例性应用，本申请实施例提供的电子设备可以实施为各种类型的终端设备，也可以实施为服务器。

参见图1，图1是本申请实施例提供的基于人工智能的数据分类系统100的一个架构示意图，终端设备400通过网络300连接服务器200，服务器200连接数据库500，其中，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，以电子设备是终端设备为例，本申请实施例提供的基于人工智能的数据分类方法可以由终端设备实现。例如，终端设备400可以获取本地存储的待分类数据（即本地文件），如本地视频或者本地音频等。然后，终端设备400对待分类数据进行分割处理，得到多个数据片段；对每个数据片段进行特征提取处理，得到每个数据片段对应的片段特征；对每个片段特征进行局部池化处理，得到每个片段特征对应的池化片段特征；对多个池化片段特征进行特征融合处理，得到融合特征；对融合特征进行全局池化处理，得到池化融合特征；根据池化融合特征进行类别预测处理，得到待分类数据属于的目标类别。

终端设备400可以根据待分类数据属于的目标类别进行进一步应用，例如，按照目标类别对多个待分类数据进行整理，即是将属于相同目标类别的多个待分类数据存储在同一个文件夹中，不同的文件夹代表不同的类别（例如在名称为“跳舞”的文件夹中，存储的均是目标类别为“跳舞”的视频），如此实现对终端设备400本地文件的智能分类整理，便于用户管理和查看文件；又例如，可以根据待分类数据属于的目标类别为待分类数据打上相应的数据标签（例如某个视频属于的目标类别为“跳舞”，则针对该视频打上数据标签“跳舞”），并在展示待分类数据的同时展示数据标签，如此，用户通过数据标签便可快速获知待分类数据的大概情况，而无需完整查看待分类数据。

在一些实施例中，以电子设备是服务器为例，本申请实施例提供的基于人工智能的数据分类方法可以由服务器实现。例如，服务器200可以获取本地或者数据库500存储的待分类数据；对待分类数据进行分割处理，得到多个数据片段；对每个数据片段进行特征提取处理，得到每个数据片段对应的片段特征；对每个片段特征进行局部池化处理，得到每个片段特征对应的池化片段特征；对多个池化片段特征进行特征融合处理，得到融合特征；对融合特征进行全局池化处理，得到池化融合特征；根据池化融合特征进行类别预测处理，得到待分类数据属于的目标类别。

服务器200可以根据待分类数据属于的目标类别进行进一步应用，例如，服务器200是直播平台的后台服务器，待分类数据为某个直播间最新的一段直播流，则服务器200在确定出直播流属于的目标类别之后，可以将该直播间划分到目标类别对应的版块中，其中，类别可以包括游戏、体育、户外等，分别对应游戏版块、体育版块和户外版块；又例如，服务器200是短视频平台的后台服务器，待分类数据为某个短视频，则服务器200在确定出该短视频属于的目标类别之后，可以根据目标类别为该短视频打上对应的标签，以在展示该短视频的同时展示对应的标签，便于用户根据标签快速获知该短视频的大概情况，或者，也可以与推荐算法相结合，将该短视频推荐给对目标类别感兴趣的目标用户，从而提升推荐的准确性以及用户体验。

在一些实施例中，本申请实施例提供的基于人工智能的数据分类方法可以由终端设备及服务器协同实现。例如，终端设备400可以将待分类数据发送至服务器200，服务器200对待分类数据进行一系列处理后，将得到的目标类别发送至终端设备400，如此，借助服务器200的计算能力对待分类数据进行分类，可以提升分类效率，减少终端设备400的计算压力。又例如，服务器200在向终端设备400发送待分类数据时，可以一并发送该待分类数据属于的目标类别。

在一些实施例中，终端设备400可以通过客户端410来显示待分类数据以及目标类别，或者通过客户端410来实现与服务器200之间的数据交互，例如，客户端410可以是相册客户端、直播客户端、短视频客户端等。

在一些实施例中，可以通过数据分类模型来实现本申请实施例的基于人工智能的数据分类方法。例如，数据分类模型可以部署于终端设备400或者服务器200中，终端设备400或者服务器200通过调用数据分类模型对待分类数据进行处理，即可得到待分类数据属于的目标类别。为了保证分类效果，可以提前对数据分类模型进行训练，例如，服务器200可以从数据库500中获取多个数据样本，根据多个数据样本对数据分类模型进行训练，其中，每个数据样本包括一个样本数据以及对应的标签类别，标签类别是指标注好的、认定为正确的类别。

在一些实施例中，终端设备400或服务器200可以通过运行计算机程序来实现本申请实施例提供的基于人工智能的数据分类方法，例如，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地（Native）应用程序（APP，Application），即需要在操作系统中安装才能运行的程序，如相册类、直播类、短视频类的应用程序（对应上文的客户端410）；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序，其中，该小程序可以由用户控制运行或关闭。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络（Content DeliveryNetwork，CDN）、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能手表、智能语音交互设备、智能家电、车载终端、飞行器等，但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。本申请实施例可应用于各种场景，包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。

以本申请实施例提供的电子设备是终端设备为例说明，可以理解的，对于电子设备是服务器的情况，图2中示出的结构中的部分（例如用户接口、呈现模块和输入处理模块）可以省略。参见图2，图2是本申请实施例提供的终端设备400的结构示意图，图2所示的终端设备400包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端设备400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器（DSP，Digital Signal Processor），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器（ROM，Read Only Memory），易失性存储器可以是随机存取存储器（RAM，Random Access Memory）。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个（有线或无线）网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证（WiFi）、和通用串行总线（USB，Universal Serial Bus）等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置431（例如，显示屏、扬声器等）使得能够呈现信息（例如，用于操作外围设备和显示内容和信息的用户接口）；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的装置可以采用软件方式实现，图2示出了存储在存储器450中的基于人工智能的数据分类装置455，其可以是程序和插件等形式的软件，包括以下软件模块：分割模块4551、特征提取模块4552、局部池化模块4553、特征融合模块4554、全局池化模块4555以及类别预测模块4556，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

将结合本申请实施例提供的电子设备的示例性应用和实施，说明本申请实施例提供的基于人工智能的数据分类方法。

参见图3A，图3A是本申请实施例提供的基于人工智能的数据分类方法的一个流程示意图，将结合图3A示出的步骤进行说明。

在步骤101中，对待分类数据进行分割处理，得到多个数据片段。

待分类数据由连续的数据片段所构成的，在本申请实施例中，首先从局部角度对待分类数据进行分析，即对待分类数据进行分割处理，得到多个数据片段，如此，相较于待分类数据整体而言，通过分割处理得到的数据片段在特征表现上更为稳定。

其中，分割处理所依赖的分割规则可以根据待分类数据对应的构成方式而定，例如对于一段视频或者一段音频来说，是由多个帧在时间上连续组合所构成的，因此，可以根据时间维度进行分割处理，例如以预设的时间间隔进行分割处理，以时间间隔为20ms举例，则以待分类数据的起始时间开始，分割出0至20ms这个时间段的部分以作为第一个数据片段，分割出20ms至40ms这个时间段的部分以作为第二个数据片段，以此类推；对于一段文本来说，其是由多个句子连续组合所构成的，因此可以根据语法规则来进行分割处理，例如将文本中的每一句话均作为一个数据片段。

在一些实施例中，可以通过这样的方式来实现上述的对待分类数据进行分割处理，得到多个数据片段：从待分类数据中提取对应目标媒体类型的提取数据；对提取数据进行分割处理，得到多个数据片段。

考虑到多媒体技术的盛行，待分类数据可能同时对应多种媒体类型，而其中的某些媒体类型在数据分类过程中可能是并非必要的，因此，可以从待分类数据中提取对应目标媒体类型的提取数据，再对提取数据进行分割处理，得到多个数据片段，如此得到的数据片段对应的媒体类型仅为目标媒体类型。举例来说，目标媒体类型是音频，待分类数据是一段视频，则提取该段视频中的音频数据以作为提取数据，再对提取出的音频数据进行分割处理得到多个音频帧，将该多个音频帧均作为数据片段。

值得说明的是，目标媒体类型可以是一种或多种。在目标媒体类型包括多种的情况下，是针对每种目标媒体类型单独执行“从待分类数据中提取属于目标媒体类型的提取数据；对提取数据进行分割处理，得到多个数据片段”的步骤。例如，待分类数据是一段视频，目标媒体类型包括图像以及音频，则对于目标媒体类型图像来说，从该段视频中提取图像数据，并对图像数据进行分割处理得到多个图像帧，将该多个图像帧均作为数据片段；对于目标媒体类型音频来说，从该段视频中提取音频数据，并对音频数据进行分割处理得到多个音频帧，将该多个音频帧均作为数据片段。如此，对于每种目标媒体类型，均可以得到对应的多个数据片段。

通过上述方式，能够从待分类数据中提取出影响分类判断的有效数据（即提取数据），同时，也能够减少后续处理的计算量。

在步骤102中，对每个数据片段进行特征提取处理，得到每个数据片段对应的片段特征。

这里，对每个数据片段进行特征提取处理，为了便于区分，将提取出的特征命名为片段特征。本申请实施例对特征提取处理的方式不做限定，例如可以是将数据片段输入至卷积神经网络，通过卷积神经网络来实现特征提取处理。

在一些实施例中，可以通过这样的方式来实现上述的对每个数据片段进行特征提取处理，得到每个数据片段对应的片段特征：通过目标媒体类型对应的特征提取算法，对目标媒体类型对应的每个数据片段进行特征提取处理，得到每个数据片段对应的片段特征。

考虑到对于不同媒体类型来说，特征提取算法可能存在差异，因此，在从待分类数据中提取对应目标媒体类型的提取数据，并对提取数据进行分割处理得到目标媒体类型对应的多个数据片段的情况下，通过目标媒体类型对应的特征提取算法，对目标媒体类型对应的每个数据片段进行特征提取处理，得到每个数据片段对应的片段特征。例如，在目标媒体类型为图像时，对应的是图像特征提取算法，例如通过视觉几何组（Visual GeometryGroup，VGG）网络或者Resnet网络提取图像特征以作为片段特征；在目标媒体类型为音频时，对应的是音频特征提取算法，例如通过VGGish网络或者PANNs网络提取音频特征以作为片段特征；在目标媒体类型为文本时，对应的是文本特征提取算法，例如通过Transformer网络提取文本特征以作为片段特征。通过上述方式，能够保证特征提取算法与数据片段对应的媒体类型相符，提升特征提取的成功率以及提取出的片段特征的准确性。

在一些实施例中，步骤101之后，基于人工智能的数据分类方法还包括：对多个数据片段进行采样处理；

可以通过这样的方式来实现上述的对每个数据片段进行特征提取处理：对采样得到的每个数据片段进行特征提取处理。

在对待分类数据进行分割处理得到多个数据片段后，可以对每个数据片段进行特征提取处理，也可以采样出其中的部分数据片段，并对采样得到的每个数据片段进行特征提取处理，后者方式能够有效减少计算量，同时也能够在一定程度上保证分类精度。本申请实施例对采样处理的方式不做限定，例如，可以是均匀采样（如每隔5个数据片段采样1个数据片段），也可以是随机采样直至采样得到的数据片段的数量达到数量阈值。

在步骤103中，对每个片段特征进行局部池化处理，得到每个片段特征对应的池化片段特征。

对于提取到的每个片段特征，由于其可能含有噪声，因此在本申请实施例中对每个片段特征进行局部池化处理，得到每个片段特征对应的池化片段特征，如此，相较于片段特征来说，池化片段特征中的噪声更少，同时数据量也更少，便于后续计算。即池化片段特征是能够有效表示数据片段含义的特征。

这里的局部池化处理是指在片段特征的每个特征图上以窗口（或称采样区域）的形式进行滑动，并在每次滑动后对窗口内的信息进行计算得到结果值（即池化片段特征的对应特征图中的数值），根据计算方式的不同，可以将局部池化处理进一步细分为多种类型，例如局部最大池化处理（计算窗口内的最大值以作为结果值）、局部平均池化处理（计算窗口内的平均值以作为结果值）等，在本申请实施例中均可适用。

在步骤104中，对多个池化片段特征进行特征融合处理，得到融合特征。

通过步骤101至步骤103，得到能够有效表示每个数据片段含义的池化片段特征，完成了局部层面的操作，因此在本步骤中，从局部层面转向全局层面，对所有池化片段特征进行特征融合处理，得到一个融合特征。其中，特征融合处理如组合处理（拼接处理），对此不做限定。

在一些实施例中，可以通过这样的方式来实现上述的对待分类数据进行分割处理，得到多个数据片段：根据每种目标媒体类型对待分类数据进行数据提取处理，得到每种目标媒体类型对应的提取数据；对每种目标媒体类型对应的提取数据进行分割处理，得到每种目标媒体类型对应的多个数据片段；

可以通过这样的方式来实现上述的对多个池化片段特征进行特征融合处理，得到融合特征：对每种目标媒体类型对应的多个池化片段特征进行特征融合处理，得到每种目标媒体类型对应的媒体类型特征；对多种目标媒体类型分别对应的媒体类型特征进行特征融合处理，得到融合特征。

在目标媒体类型包括多种的情况下，经过一系列处理可以得到每种目标媒体类型对应的多个池化片段特征。这里，可以先对每种目标媒体类型对应的多个池化片段特征进行特征融合处理，为了便于区分，将这里经过特征融合处理得到的特征命名为媒体类型特征，如此，对于每种目标媒体类型均可以得到对应的媒体类型特征，媒体类型特征能够有效表示数据片段在媒体类型特征对应的目标媒体类型上的含义。然后，再对多种目标媒体类型分别对应的媒体类型特征进行特征融合处理，得到融合特征。通过上述方式，能够结合目标媒体类型对所有池化片段特征进行有效融合，适用于待分类数据对应多种媒体类型的场景。

在步骤105中，对融合特征进行全局池化处理，得到池化融合特征。

由于融合特征是对多个池化片段特征进行特征融合处理得到的，因此融合特征中的数据量较多，故在本步骤中，对融合特征进行全局池化处理，得到池化融合特征。如此，在第一方面可以整合全局信息，提升分类过程的鲁棒性；在第二方面可以减少后续计算量；在第三方面，由于全局池化处理不需要权重参数，因此在训练时不会陷入过拟合。

这里的全局池化处理是指对融合特征中的每个特征图进行操作，即对整张特征图中的所有信息进行计算，以将这些信息压缩成一个结果值。其中，根据计算方式的不同，可以将全局池化处理进一步细分为多种类型，例如全局平均池化处理（计算特征图内所有信息的平均值以作为结果值）、全局最大池化处理（计算特征图内所有信息的最大值以作为结果值）等，在本申请实施例中均可适用。

在步骤106中，根据池化融合特征进行类别预测处理，得到待分类数据属于的目标类别。

池化融合特征能够有效、准确地表示待分类数据的含义，因此在本步骤中，根据池化融合特征进行类别预测处理，以在多种类别中确定待分类数据属于的目标类别。例如，可以通过概率分布函数对池化融合特征进行概率映射处理，得到待分类数据分别属于多种类别的概率，并将最大的概率对应的类别确定为目标类别，其中，概率分布函数如softmax函数、softmin函数等。

本申请实施例对得到的目标类别的用途不做限定，例如，可以按照目标类别对多个待分类数据进行整理，即是将属于相同目标类别的多个待分类数据存储在同一个文件夹中，不同的文件夹代表不同的类别，如此实现对多个待分类数据的智能分类整理，便于用户管理和查看文件；又例如，可以根据待分类数据属于的目标类别为待分类数据打上相应的数据标签，并在展示待分类数据的同时展示数据标签，如此，用户通过数据标签便可快速获知待分类数据的大概情况，而无需完整查看待分类数据；又例如，在待分类数据是直播间的直播流的情况下，可以将该直播间划分到目标类别对应的版块中，以实现直播间的智能分类，而无需人为调控；又例如，目标类别也可以与推荐算法相结合，将待分类数据推荐给对目标类别感兴趣的目标用户，从而提升推荐的准确性以及用户体验。

如图3A所示，本申请实施例将待分类数据划分为多个数据片段，提取每个数据片段的片段特征，并对每个片段特征进行局部池化处理得到池化片段特征，如此，可以从每个片段特征中提取出最为关键的特征，从而有效抑制噪声，降低信息冗余。然后，对多个池化片段特征进行特征融合处理得到融合特征，并对融合特征进行全局池化处理得到池化融合特征，通过全局池化处理的方式来有效整合全局的信息，有助于提升分类过程的鲁棒性。最终，根据池化融合特征进行类别预测处理，得到待分类数据属于的目标类别。本申请实施例采用从局部层面到全局层面的处理方式，在局部层面减少噪声对分类过程的不良影响，在全局层面有效整合全局的信息，能够提升分类精度，同时，通过局部池化处理及全局池化处理来减少数据量，能够提升分类效率。

在一些实施例中，参见图3B，图3B是本申请实施例提供的基于人工智能的数据分类方法的一个流程示意图，图3A示出的步骤104可以通过步骤201至步骤203实现，将结合各步骤进行说明。

在步骤201中，对多个池化片段特征进行聚类处理，得到多个聚类中心。

这里，提供了特征融合处理的一种示例。首先，对多个池化片段特征进行聚类处理，得到多个聚类中心，其中，对聚类处理所采用的算法不做限定，例如可以是k均值聚类算法（k-means clustering algorithm）。

在步骤202中，对每个聚类中心分别与多个池化片段特征之间的距离向量进行向量融合处理，得到每个聚类中心对应的融合距离向量。

对于步骤201得到的每个聚类中心，计算聚类中心分别与多个池化片段特征之间的距离向量，并对这些距离向量进行向量融合处理，得到聚类中心对应的融合距离向量。如此，抹去了不同簇本身特征分布的差异，而是考虑池化片段特征与聚类中心的不同所带来的特征分布，更能代表不同簇的独特性。

距离向量用于表示两个向量（聚类中心及池化片段特征均为向量形式）之间的差异，以第k个聚类中心及第i个池化片段特征举例，则可以将第i个池化片段特征与第k个聚类中心进行相减运算，得到第k个聚类中心与第i个池化片段特征之间的距离向量。

本申请实施例对向量融合处理的方式不做限定，例如可以是直接相加处理、加权求和处理等方式。

在一些实施例中，可以通过这样的方式来实现上述的对每个聚类中心分别与多个池化片段特征之间的距离向量进行向量融合处理，得到每个聚类中心对应的融合距离向量：针对任意一个聚类中心，执行以下处理：根据每个池化片段特征对应任意一个聚类中心的距离权重，对任意一个聚类中心分别与多个池化片段特征之间的距离向量进行加权求和处理，得到任意一个聚类中心对应的融合距离向量。

同样以第k个聚类中心举例，则可以根据每个池化片段特征对应第k个聚类中心的距离权重，对第k个聚类中心分别与多个池化片段特征之间的距离向量进行加权求和处理，得到第k个聚类中心对应的融合距离向量。

在加权求和处理的过程中，可以仅考虑每个簇内的池化片段特征，例如，可以根据池化片段特征是否属于聚类中心所在的簇的情况来为对应的距离权重进行赋值，若属于，则将对应的距离权重赋值为1；若不属于，则将对应的距离权重赋值为0。举例来说，若第i个池化片段特征属于第k个聚类中心所在的簇，则将第i个池化片段特征对应第k个聚类中心的距离权重赋值为1；若第i个池化片段特征不属于第k个聚类中心所在的簇，则将第i个池化片段特征对应第k个聚类中心的距离权重赋值为0。如此，对于得到的第k个聚类中心对应的融合距离向量来说，其表示了第k个聚类中心所在簇内的每个池化片段特征与第k个聚类中心的不同所带来的特征分布，显然，该特征分布具有语义层面的含义。

上述的为距离权重进行赋值的方式是离散的，无法求导，也就不能通过反向传播来训练。因此，在本申请实施例中，还可以对每个池化片段特征进行卷积处理得到卷积结果，并对卷积结果进行权重映射处理，得到每个池化片段特征对应每个聚类中心的距离权重，如此，求取距离权重过程中所用的各种参数是可以在训练过程中动态调整的，因此能够进一步提升融合效果。其中，权重映射处理可以基于概率分布函数来实现，在该情况下，每个池化片段特征对应每个聚类中心的距离权重即为每个池化片段特征属于每个聚类中心所在簇的概率，概率分布函数如softmax函数、softmin函数等。

在步骤203中，将多个聚类中心分别对应的融合距离向量组合为融合特征。

这里，将所有聚类中心分别对应的融合距离向量进行组合处理，得到融合特征。

在一些实施例中，步骤203之后，基于人工智能的数据分类方法还包括：对融合特征中的每个融合距离向量进行局部归一化处理；对局部归一化处理后的多个融合距离向量进行全局归一化处理；

可以通过这样的方式来实现上述的对所述融合特征进行全局池化处理，得到池化融合特征：对全局归一化处理后的融合特征进行全局池化处理，得到池化融合特征。

这里，对于融合特征中的每个融合距离向量来说，其内部的量纲可能不一致，导致数值的比较不在同一个尺度上，因此，可以对每个融合距离向量进行局部归一化处理，局部归一化处理是指对融合距离向量内部的多个数值进行归一化处理。本申请实施例对归一化处理的方式不做限定，例如可以是L2归一化或者L1归一化等。

在对每个融合距离向量进行局部归一化处理后，每个融合距离向量内部不再存在量纲的影响，但是不同融合距离向量之间的量纲可能还是不一致，因此，再对局部归一化处理后的多个融合距离向量进行全局归一化处理，全局归一化处理是指对融合特征内部的多个融合距离向量（这里指局部归一化处理后的多个融合距离向量）进行归一化处理。在完成对融合特征的全局归一化处理后，再对全局归一化处理后的融合特征进行全局池化处理，得到池化融合特征。上述方式同样采用从局部到全局的方式，能够消除量纲的影响，提升融合特征的准确性和可用性，在训练过程中也能够提升训练效率，加快收敛。

如图3B所示，本申请实施例通过聚类处理得到多个聚类中心，并根据池化片段特征与聚类中心之间的距离向量（即相对值）进行向量融合处理，能够抹去不同簇本身特征分布的差异，使得融合距离向量能够有效表示对应簇的含义，进而，将多个聚类中心分别对应的融合距离向量组合为融合特征，能够提升融合特征的准确性。

在一些实施例中，参见图3C，图3C是本申请实施例提供的基于人工智能的数据分类方法的一个流程示意图，图3A示出的步骤103可以更新为步骤301，在步骤301中，对每个片段特征进行局部最大池化处理，得到每个片段特征对应的池化片段特征。

这里，对每个片段特征进行局部最大池化处理，即在片段特征的每张特征图中以窗口的形式进行滑动，并在每次滑动后计算窗口内的最大值以作为结果值（指池化片段特征的对应特征图中的数值）。如此，通过局部最大池化处理提取片段特征中响应最强烈的部分，摒弃了大量的噪声和冗余信息，使得池化片段特征更加精简、有效。以片段特征为图像特征举例，则通过局部最大池化处理能够尽量地保留图像的纹理信息。

在图3C中，图3A示出的步骤105可以更新为步骤302，在步骤302中，对融合特征进行全局平均池化处理，得到池化融合特征。

这里，针对融合特征中的每个特征图，计算特征图内所有数值的平均值以作为结果值（指池化片段特征的对应特征图的数值），通过计算平均值的方式来整合特征图全局的信息。如此，在得到的池化片段特征中，每一张特征图对应一个数值，各个类别与特征图之间的联系更加直观（相较于全连接层的黑箱来说），特征图在类别预测处理的过程中被转换为概率也更加容易。

如图3C所示，本申请实施例在局部层面采用局部最大池化处理，能够摒弃噪声和冗余信息，尽量保留片段特征中响应最强烈的部分（如图像的纹理信息）；在全局层面采用全局平均池化处理，能够有效整合全局信息，提升分类精度以及分类过程的鲁棒性。

在一些实施例中，参见图3D，图3D是本申请实施例提供的基于人工智能的数据分类方法的一个流程示意图，基于图3A，在步骤101之前，还可以在步骤401中，获取样本数据以及对应的标签类别。

本申请实施例提供的基于人工智能的数据分类方法可以通过数据分类模型来实现，为了保证分类精度，可以先对数据分类模型进行训练。在训练过程中，首先获取样本数据以及对应的标签类别，其中，标签类别是指针对样本数据已标注好的、认定为正确的类别。

值得说明的是，为了保证训练效果，获取的样本数据的数量可以包括多个，通过多个样本数据以及分别对应的标签类别来构建样本数据集，以对数据分类模型进行训练。样本数据集包括多个样本，每个样本包括一个样本数据以及对应的标签类别。

在步骤402中，通过数据分类模型对样本数据进行处理，得到分类结果。

这里，调用数据分类模型，以通过数据分类模型对样本数据进行处理，处理的方式可以参照上述实施例，如包括分割处理、特征提取处理、局部池化处理、特征融合处理、全局池化处理以及类别预测处理。数据分类模型输出的处理结果称为分类结果，分类结果可以是样本数据属于的目标类别，也可以是样本数据分别属于多种类别的概率。

在步骤403中，根据样本数据对应的分类结果以及标签类别，确定损失值。

这里，将样本数据对应的分类结果以及标签类别代入至损失函数，得到损失值，损失值用于衡量分类结果与标签类别之间的差异。本申请实施例对损失函数的类型不做限定，例如可以是交叉熵损失函数。

在步骤404中，根据损失值调整数据分类模型的参数。

这里，根据损失值对数据分类模型进行训练，即调整数据分类模型的参数，直至满足停止条件，这里的参数可以仅是指权重参数，也可以包括权重参数以及偏置参数。其中，停止条件可以是训练次数达到预设的训练次数阈值，也可以是最新得到的若干个损失值均小于损失值阈值，对此不做限定。

值得说明的是，在训练过程中可以结合反向传播和梯度下降技术。例如，沿着数据分类模型的最后一个网络层到第一个网络层的方向，通过链式法则将损失值反向传播至各个网络层，以计算各个网络层的误差，对于各个网络层来说，根据计算出的误差进一步计算梯度，并沿梯度下降方向调整网络层的参数。本申请实施例涉及的网络层是指数据分类模型中包括参数的网络结构，并不包括用于局部池化处理的局部池化层以及用于全局池化处理的全局池化层，其原因在于：池化层（局部池化层以及全局池化层）不包括参数，因此也不需要对池化层内的参数进行调整。另外，网络层中的网络是指人工神经网络，而非通信网络。

在一些实施例中，可以将样本数据集划分为训练集以及验证集，其中，训练集用于调整数据分类模型的参数，验证集用于验证调整后的（训练后的）数据分类模型的性能，以调整超参数。其中，可以通过准确率（accuracy）、精确率（precision）、召回率（recall）或者F1-Score等性能指标来体现性能；超参数需要手动设置，例如可以包括网络层数、神经元数量、迭代次数以及学习率中的至少之一。例如，可以预设多个数据分类模型，每个数据分类模型包括预设好的超参数，然而，通过训练集调整每个数据分类模型的参数，并通过验证集验证调整后的每个数据分类模型的性能，将性能最好的数据分类模型对应的超参数作为最优超参数。此外，验证集还可以用于设定停止条件，例如，当数据分类模型在连续若干个Epoch中，通过验证集计算出的性能指标都不再提升时，停止训练，从而避免数据分类模型陷入过拟合，其中，一个Epoch是指根据训练集内的所有数据训练一次数据分类模型的过程。

在此基础上，还可以将样本数据集划分为训练集、验证集以及测试集，由于验证集参与到数据分类模型的训练过程中，通过验证集计算出的性能指标与实际的性能指标会存在一定误差，因此，可以通过测试集来评估数据分类模型的性能指标，其中，测试集并不参与到训练过程中。

在一些实施例中，数据分类模型包括用于特征提取处理的特征提取网络、用于特征融合处理的特征融合网络以及用于类别预测处理的类别预测网络；步骤404之前，基于人工智能的数据分类方法还包括：根据预设数据集对特征提取网络进行预训练，以初始化特征提取网络的参数；

可以通过这样的方式来实现上述的根据损失值调整数据分类模型的参数：执行以下任意一种处理：根据损失值对特征提取网络、特征融合网络以及类别预测网络进行参数更新；冻结特征提取网络的参数，根据损失值对特征融合网络以及类别预测网络中的至少之一进行参数更新。

在实际应用场景中，样本数据集往往是人工搜集的，其内的样本数量往往有限，因此，为了保证训练效果，可以先根据预设数据集对特征提取网络进行预训练，以初始化特征提取网络的参数，如此，初始化后的特征提取网络便具有较好的特征提取效果。其中，预设数据集可以是公共数据集，可以理解的是，公共数据集内的样本数量通常较多，能够支持充分的训练。值得说明的是，预设数据集也可以划分为训练集和验证集，以提升对特征提取网络的训练效果。

值得说明的是，在目标媒体类型包括多种的情况下，每种目标媒体类型对应单独的特征提取网络，针对于此，根据每种目标媒体类型对应的预设数据集，对每种目标媒体类型对应的特征提取网络进行预训练，例如，根据公共图像数据集，对图像特征提取网络（目标媒体类型图像对应的特征提取网络，以下同理）进行预训练；根据公共音频数据集，对音频特征提取网络进行预训练；根据公共文本数据集，对文本特征提取网络进行预训练。

在已初始化特征提取网络的参数的前提下，根据样本数据集训练数据分类模型时，可以采用以下任意一种方式：

1）根据损失值对特征提取网络、特征融合网络以及类别预测网络进行参数更新。即在该方式中，对特征提取网络、特征融合网络以及类别预测网络都进行训练，如此能够提升训练效果，同时训练耗时较久，训练所消耗的计算资源也较多。

2）冻结特征提取网络的参数，根据损失值对特征融合网络以及类别预测网络中的至少之一进行参数更新。相较于方式1），方式2）保持特征提取网络的参数不变，需要训练的仅是特征融合网络以及类别预测网络中的至少之一，训练所耗计算资源也较少，便于实现快速训练、快速部署，适用于对训练时效性要求较高的场景。

如此，先根据预设数据集初始化特征提取网络的参数，能够提升数据分类模型的初始性能，再根据样本数据集对数据分类模型进行微调，能够提升训练速度，同时也能够进一步提升训练后的数据分类模型的性能。

在一些实施例中，分类结果包括样本数据分别属于多种类别的概率；步骤403之后，基于人工智能的数据分类方法还包括：根据目标概率确定损失值权重；其中，目标概率表示分类结果中样本数据属于标签类别的概率；损失值权重与目标概率负相关；根据损失值权重对损失值进行加权处理；

可以通过这样的方式来实现上述的根据损失值调整数据分类模型的参数：根据加权处理后的损失值调整数据分类模型的参数。

在样本数据集中，可能存在类别不均衡的问题，例如对应某种标签类别的样本数据的数量偏多，这会导致训练出的数据分类模型更偏向于该种标签类别，而对其他标签类别的分类精度较低，即会影响到数据分类模型的鲁棒性。

因此，对于每一个样本数据，可以根据目标概率确定损失值权重，其中，目标概率表示分类结果中样本数据属于标签类别的概率，损失值权重与目标概率负相关。目标概率越大，表示数据分类模型越容易对该样本数据进行正确分类，因此，需要降低该样本数据对数据分类模型的影响，即确定出的损失值权重越小；反之，目标概率越小，表示数据分类模型越难对该样本数据进行正确分类，因此，需要加强该样本数据对数据分类模型的影响，即确定出的损失值权重越大。

在得到样本数据对应的损失值权重后，根据损失值权重对样本数据对应的损失值进行加权处理，再根据加权处理后的损失值调整数据分类模型的参数。如此，通过加权的方式来解决类别不均衡的问题，能够在训练过程中使数据分类模型学习到最本质的数据规律，提升训练效果。

如图3D所示，本申请实施例基于机器学习及神经网络的特性来训练数据分类模型，使得数据分类模型学习到样本数据与标签类别之间的数据规律，进而提升根据训练后的数据分类模型进行数据分类的精度。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。为了便于理解，以音频（对应上文的待分类数据）分类的场景进行举例说明，本申请实施例提供了如图4所示的音频分类模型（对应上文的数据分类模型）的一个架构示意图，将结合图4说明本申请实施例的主要优化方向。

1）网络架构优化。

①局部最大池化层。

在对输入的音频进行分帧处理（对应上文的分割处理）得到多个音频帧（对应上文的数据片段），并通过特征提取网络提取每个音频帧的音频特征（对应上文的片段特征）后，通过局部最大池化（Max Polling）层对音频特征进行局部最大池化处理，得到池化音频特征（对应上文的池化片段特征），如此，可以在一定程度上去除音频特征中的噪声及冗余信息，提取关键信息。

然后，通过特征融合网络对多个音频帧分别对应的池化音频特征进行特征融合处理，得到融合特征。特征融合网络的架构示意图如图5所示，将结合图5说明特征融合处理的过程。对于池化音频特征，一方面，将池化音频特征输入至核心网络层，在核心网络层中对所有池化音频特征进行聚类处理，得到多个聚类中心；另一方面，将池化音频特征输入至卷积层，对于每个池化音频特征来说，由卷积层（例如包括若干个1×1的卷积核）对池化音频特征进行卷积处理，再将得到的卷积结果输入至softmax层，得到池化音频特征分别对应多个聚类中心的距离权重，即实现权重分配。然后，在核心网络层中，根据每个池化音频特征对应第k个聚类中心的距离权重，对第k个聚类中心分别与多个池化音频特征之间的距离向量进行加权求和处理，得到第k个聚类中心对应的融合距离向量。举例来说，对于第k个聚类中心对应的融合距离向量中的第j个元素，计算公式如下：

其中，表示池化音频特征的数量，/>表示第i个池化音频特征的第j个元素，表示第k个聚类中心的第j个元素，/>表示第i个池化音频特征对应第k个聚类中心的距离权重，/>表示第k个聚类中心对应的融合距离向量中的第j个元素。

对多个聚类中心分别对应的融合距离向量进行组合处理，得到融合特征。然后，对融合特征中的每个融合距离向量进行局部归一化处理，再对局部归一化处理后的多个融合距离向量进行全局归一化处理，如此，消除量纲的影响，提升融合特征的准确性。

②全局平均池化层。

对于特征融合网络输出的融合特征（这里指全局归一化处理后的融合特征），通过全局平均池化层对融合特征进行全局平均池化处理，得到池化融合特征。其中，全局平均池化处理可以看作是一种结构化正则，即对多个特征图求取平均值，如图4所示，在对6×6×3（即具有3个特征图）的融合特征进行全局平均池化处理后，得到1×1×3的池化融合特征，即池化融合特征中的每个特征图对应一个数值。如此，通过全局平均池化处理可以整合全局的空间信息，鲁棒性更强；同时，相较于全连接层来说，全局平均池化层没有权重参数，在训练过程中不会陷入过拟合。

对于全局平均池化层输出的池化融合特征，通过softmax层进行概率映射处理，得到输入的音频分别属于多种类别的概率，再将最大的概率对应的类别作为音频属于的目标类别，完成整个音频分类流程。

值得说明的是，所要分类的多种类别可以根据实际应用场景进行设定，例如包括唱歌和非唱歌两类。

值得说明的是，上述过程以音频为待分类数据举例进行说明，在一些实施例中，待分类数据也可以是包含音频的其他数据，如包含音频的视频，通过从待分类数据中提取音频，并对音频进行分类，将得到的音频属于的目标类别视为待分类数据属于的目标类别。

2）网络训练优化。

在实际使用音频分类模型之前，需要对音频分类模型进行训练。而依靠人工搜集得到的样本数据集中的样本数量较少，无法对音频分类模型进行有效训练。因此，在本申请实施例中，根据公共数据集对特征提取网络进行预训练，以初始化特征提取网络的参数，例如，在特征提取网络为VGGish网络的情况下，公共数据集可以是YouTube-8M数据集。

在已初始化特征提取网络的参数的前提下，对于后续的训练过程，本申请实施例提供了两种方式，第一种方式是，通过样本数据集训练音频分类模型中的所有网络层，即对特征提取网络、特征融合网络以及特征融合网络后面的softmax层（对应上文的类别预测网络）进行训练，通过该方式能够提升训练效果，但是所耗计算资源较多；第二种方式是，冻结特征提取网络的参数，通过样本数据集训练特征融合网络以及特征融合网络后面的softmax层中的至少之一，通过该种方式能够提升训练效率，所耗计算资源也较少，适用于对训练时效性要求较高的场景。

3）损失值优化。

对于样本数据集，还可能存在类别不均衡的问题，例如某一种类别对应的样本明显过多，如果根据样本数据集对音频分类模型进行训练，则会导致音频分类模型的分类结果偏向于该类别，而对其他类别的分类精度低。

因此，在本申请实施例中，根据某个样本分类的容易程度来调整损失值权重，并根据损失值权重对该样本对应的损失值进行加权处理，加权后的损失值用于训练音频分类模型。为了便于说明，以二分类（类别包括唱歌及非唱歌）场景、且损失值通过交叉熵损失函数进行求解的情况进行举例说明。

首先，介绍交叉熵损失函数CE：

其中，表示标签类别，有1和0两种取值，1对应的是唱歌类别，0对应的是非唱歌类别；/>表示根据样本数据预测出的属于唱歌类别的概率。进一步，定义/>：

其中，反映了预测出的目标类别与标签类别之间的接近程度，/>越大（越趋近于1），证明目标类别越接近标签类别，即分类越准确。则上述的交叉熵损失函数CE可以表示为：/>

在交叉熵损失函数CE的基础上，可以设置损失值权重并进行加权处理，加权处理后的损失值可以表示为/>。其中，/>是预设值，可以根据实际应用场景进行设定，如设定为2。如此，对于分类越准确的样本，/>越趋近于1，损失值权重越趋近于0；对于分类越不准确的样本，/>越趋近于1，损失值权重越趋近于1。如此，使得在训练过程中倾向于难分类的样本，解决类别不均衡问题，提升训练效果。如图6所示，本申请实施例提供了在不同的/>值下，加权处理后的损失值的变化情况，图中横轴为/>，纵轴为加权处理后的损失值。

如图7所示，本申请实施例提供了音频分类系统的一个架构示意图，在图7中，通过服务模块对外提供音频分类的服务；通过总处理模块、线程管理模块以及单条流处理模块之间的协同，来实现音频分类的多线程处理，即可以同时对多个音频进行分类；视频模块用于获取待分类的视频；音频模块用于从视频中提取音频；音频特征模块用于提取音频特征；迁移学习模块用于根据公共数据集初始化音频特征提取网络的参数；训练模块用于训练音频分类模型；识别模块用于根据训练后的音频分类模型进行音频分类，得到音频属于的目标类别；数据上报模块用于将目标类别上报至特定的位置；日志模块用于记录各模块的处理过程以及交互过程。

综上，本申请实施例通过网络架构优化，在局部层面减少特征中的噪声及冗余信息，在全局层面整合全局的空间信息，能够提升分类精度；同时，通过预训练的方式来解决样本数据集中样本数量不足的问题，有助于提升音频分类模型的训练效果；通过损失值优化来解决样本数据集类别不均衡的问题。本申请实施例可以应用于音频分类的各种场景，例如直播平台、K歌平台以及短视频平台中的音频分类场景。

下面继续说明本申请实施例提供的基于人工智能的数据分类装置455实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器450的基于人工智能的数据分类装置455中的软件模块可以包括：分割模块4551，用于对待分类数据进行分割处理，得到多个数据片段；特征提取模块4552，用于对每个数据片段进行特征提取处理，得到每个数据片段对应的片段特征；局部池化模块4553，用于对每个片段特征进行局部池化处理，得到每个片段特征对应的池化片段特征；特征融合模块4554，用于对多个池化片段特征进行特征融合处理，得到融合特征；全局池化模块4555，用于对融合特征进行全局池化处理，得到池化融合特征；类别预测模块4556，用于根据池化融合特征进行类别预测处理，得到待分类数据属于的目标类别。

在一些实施例中，特征融合模块4554，还用于：对多个池化片段特征进行聚类处理，得到多个聚类中心；对每个聚类中心分别与多个池化片段特征之间的距离向量进行向量融合处理，得到每个聚类中心对应的融合距离向量；将多个聚类中心分别对应的融合距离向量组合为融合特征。

在一些实施例中，特征融合模块4554，还用于：对每个池化片段特征进行卷积处理得到卷积结果，并对卷积结果进行权重映射处理，得到每个池化片段特征对应每个聚类中心的距离权重；针对任意一个聚类中心，执行以下处理：根据每个池化片段特征对应任意一个聚类中心的距离权重，对任意一个聚类中心分别与多个池化片段特征之间的距离向量进行加权求和处理，得到任意一个聚类中心对应的融合距离向量。

在一些实施例中，基于人工智能的数据分类装置455还包括归一化模块，用于：对融合特征中的每个融合距离向量进行局部归一化处理；对局部归一化处理后的多个融合距离向量进行全局归一化处理；全局池化模块4555，还用于对全局归一化处理后的融合特征进行全局池化处理，得到池化融合特征。

在一些实施例中，局部池化模块4553，还用于对每个片段特征进行局部最大池化处理，得到每个片段特征对应的池化片段特征；全局池化模块4555，还用于对融合特征进行全局平均池化处理，得到池化融合特征。

在一些实施例中，基于人工智能的数据分类方法通过数据分类模型实现；基于人工智能的数据分类装置455还包括训练模块，用于：获取样本数据以及对应的标签类别；通过数据分类模型对样本数据进行处理，得到分类结果；根据样本数据对应的分类结果以及标签类别，确定损失值；根据损失值调整数据分类模型的参数。

在一些实施例中，数据分类模型包括用于特征提取处理的特征提取网络、用于特征融合处理的特征融合网络以及用于类别预测处理的类别预测网络；训练模块，还用于：根据预设数据集对特征提取网络进行预训练，以初始化特征提取网络的参数；执行以下任意一种处理：根据损失值对特征提取网络、特征融合网络以及类别预测网络进行参数更新；冻结特征提取网络的参数，根据损失值对特征融合网络以及类别预测网络中的至少之一进行参数更新。

在一些实施例中，分类结果包括样本数据分别属于多种类别的概率；训练模块，还用于：根据目标概率确定损失值权重；其中，目标概率表示分类结果中样本数据属于标签类别的概率；损失值权重与目标概率负相关；根据损失值权重对损失值进行加权处理；根据加权处理后的损失值调整数据分类模型的参数。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括可执行指令，该可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该可执行指令，处理器执行该可执行指令，使得该电子设备执行本申请实施例上述的基于人工智能的数据分类方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的基于人工智能的数据分类方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言（包括编译或解释语言，或者声明性或过程性语言）来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言（HTML，Hyper TextMarkup Language）文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件（例如，存储一个或多个模块、子程序或代码部分的文件）中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种基于人工智能的数据分类方法，其特征在于，包括：

对待分类数据进行分割处理，得到多个数据片段；

对多个池化片段特征进行特征融合处理，得到融合特征；

对所述融合特征进行全局池化处理，得到池化融合特征；

2.根据权利要求1所述的方法，其特征在于，所述对多个池化片段特征进行特征融合处理，得到融合特征，包括：

对多个池化片段特征进行聚类处理，得到多个聚类中心；

3.根据权利要求2所述的方法，其特征在于，所述对每个聚类中心分别与多个池化片段特征之间的距离向量进行向量融合处理，得到每个聚类中心对应的融合距离向量之前，所述方法还包括：

所述对每个聚类中心分别与多个池化片段特征之间的距离向量进行向量融合处理，得到每个聚类中心对应的融合距离向量，包括：

针对任意一个聚类中心，执行以下处理：

4.根据权利要求2所述的方法，其特征在于，所述将所述多个聚类中心分别对应的融合距离向量组合为融合特征之后，所述方法还包括：

所述对所述融合特征进行全局池化处理，得到池化融合特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述对每个片段特征进行局部池化处理，得到每个片段特征对应的池化片段特征，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述方法通过数据分类模型实现，所述数据分类模型的训练过程包括：

获取样本数据以及对应的标签类别；

根据所述损失值调整所述数据分类模型的参数。

7.根据权利要求6所述的方法，其特征在于，所述数据分类模型包括用于特征提取处理的特征提取网络、用于特征融合处理的特征融合网络以及用于类别预测处理的类别预测网络；所述根据所述损失值调整所述数据分类模型的参数之前，所述方法还包括：

所述根据所述损失值调整所述数据分类模型的参数，包括：

执行以下任意一种处理：

8.根据权利要求6所述的方法，其特征在于，所述分类结果包括所述样本数据分别属于多种类别的概率；所述根据所述样本数据对应的分类结果以及标签类别，确定损失值之后，所述方法还包括：

根据所述损失值权重对所述损失值进行加权处理；

所述根据所述损失值调整所述数据分类模型的参数，包括：

9.一种基于人工智能的数据分类装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至8任一项所述的基于人工智能的数据分类方法。

11.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至8任一项所述的基于人工智能的数据分类方法。

12.一种计算机程序产品，其特征在于，包括可执行指令，用于被处理器执行时，实现权利要求1至8任一项所述的基于人工智能的数据分类方法。