CN113204660A

CN113204660A - 多媒体数据处理方法、标签识别方法、装置及电子设备

Info

Publication number: CN113204660A
Application number: CN202110351954.7A
Authority: CN
Inventors: 吴翔宇
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-08-03
Anticipated expiration: 2041-03-31
Also published as: CN113204660B

Abstract

本公开关于一种多媒体数据处理方法、标签识别方法、装置及电子设备。多媒体数据处理方法包括：获取包括第一多媒体数据集和第二多媒体数据集的待处理多媒体数据集；对第一多媒体数据集中的待处理多媒体数据进行分类处理，得到多个分类中心以及每个分类中心对应的多媒体数据子集；根据每个分类中心对应的多媒体数据子集，确定每个分类中心对应的分类标签；获取第二多媒体数据集中的目标多媒体数据与每个分类中心的相似度信息；根据目标多媒体数据与每个分类中心的相似度信息，从多个分类中心对应的分类标签中确定至少一个分类标签作为目标多媒体数据对应的目标标签。根据本公开提供的技术方案，可以提高标签标注的效率和精准性。

Description

多媒体数据处理方法、标签识别方法、装置及电子设备

技术领域

本公开涉及数据分析技术领域，尤其涉及一种多媒体数据处理方法、标签识别方法、装置及电子设备。

背景技术

目前对多媒体数据内容的理解越来越重要，例如对多媒体内容的多维度理解对于内容传媒行业非常重要。相关技术中，一般通过人工定义标签—数据标注—模型训练—模型预测标签的过程以实现对多媒体数据内容的理解。其中，在人工定义标签时，会出现缺漏、冗余以及与实际多媒体数据分布不一致的问题；并且数据标注成本高且效率低，使得训练数据难以获取，这些问题在多标签场景下更加突出。

发明内容

本公开提供一种多媒体数据处理方法、标签识别方法、装置及电子设备，以至少解决相关技术中如何避免标签定义中缺漏、冗余以及与实际多媒体数据分布不一致的问题以及如何提高标签标注的效率和准确性的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种多媒体数据处理方法，包括：

获取待处理多媒体数据集，所述待处理多媒体数据集包括第一多媒体数据集和第二多媒体数据集；

对所述第一多媒体数据集中的待处理多媒体数据进行分类处理，得到多个分类中心以及每个分类中心对应的多媒体数据子集；

根据每个分类中心对应的多媒体数据子集，确定每个分类中心对应的分类标签；

获取所述第二多媒体数据集中的目标多媒体数据与每个分类中心的相似度信息，所述目标多媒体数据为所述第二多媒体数据集中的全量待处理多媒体数据或部分待处理多媒体数据；

根据所述目标多媒体数据与每个分类中心的相似度信息，从所述多个分类中心对应的分类标签中确定至少一个分类标签作为所述目标多媒体数据对应的目标标签。

在一种可能的实现方式中，所述对所述第一多媒体数据集中的待处理多媒体数据进行分类处理，得到多个分类中心以及每个分类中心对应的多媒体数据子集步骤包括：

将所述第一多媒体数据集中的待处理多媒体数据输入特征提取模型，进行特征提取处理，得到所述第一多媒体数据集中的待处理多媒体数据对应的特征信息；

对所述第一多媒体数据集中的待处理多媒体数据对应的特征信息进行分类处理，得到所述多个分类中心；

获取所述第一多媒体数据集中的待处理多媒体数据与每个分类中心的相似度信息；

根据所述第一多媒体数据集中的待处理多媒体数据与每个分类中心的相似度信息，获取每个分类中心对应的多媒体数据子集。

在一种可能的实现方式中，所述根据每个分类中心对应的多媒体数据子集，确定每个分类中心对应的分类标签步骤包括：

获取每个多媒体数据子集中待处理多媒体数据对应的特征信息；

当所述多媒体数据子集中待处理多媒体数据对应的特征信息满足预设条件时，根据所述多媒体数据子集中待处理多媒体数据对应的特征信息，确定所述多媒体数据子集对应分类中心的分类标签；

当所述多媒体数据子集中待处理多媒体数据对应的特征信息不满足预设条件时，对所述多媒体数据子集进行更新，得到目标多媒体数据子集；

根据所述目标多媒体数据子集，确定所述目标多媒体数据子集对应分类中心的分类标签。

在一种可能的实现方式中，所述根据所述目标多媒体数据与每个分类中心的相似度信息，从所述多个分类中心对应的分类标签中确定至少一个分类标签作为所述目标多媒体数据对应的目标标签步骤包括：

获取相似度阈值；

获取所述目标多媒体数据与每个分类中心的相似度信息中大于所述相似度阈值的目标相似度信息；

将所述目标相似度信息对应的分类中心作为目标分类中心；

将所述目标分类中心对应的分类标签作为所述目标多媒体数据对应的目标标签。

在一种可能的实现方式中，所述多媒体数据处理方法还包括：

获取样本多媒体数据集，所述样本多媒体数据集包括多个样本多媒体数据和对应的样本标签；

将所述多个样本多媒体数据输入预设特征提取神经网络，进行特征提取处理，得到样本特征信息；

将所述样本特征信息输入全连接层，进行分类处理，得到预测标签；

根据所述样本标签和所述预测标签，确定损失信息；

根据所述损失信息，对所述预设特征提取神经网络进行训练，得到所述特征提取模型。

在一种可能的实现方式中，在所述根据所述目标多媒体数据与每个分类中心的相似度信息，从所述多个分类中心对应的分类标签中确定至少一个分类标签作为所述目标多媒体数据对应的目标标签步骤之后，所述多媒体数据处理方法还包括：

将所述目标多媒体数据作为训练数据；

根据所述训练数据以及所述训练数据对应的目标标签，对预设神经网络模型进行训练，得到标签识别模型。

根据本公开实施例的第二方面，提供一种多媒体数据标签识别方法，包括：

获取待识别多媒体数据；

将所述待识别多媒体数据输入标签识别模型，进行内容标签识别处理，得到至少一个标签；其中，所述标签识别模型为上述第一方面中的标签识别模型。

根据本公开实施例的第三方面，提供一种多媒体数据处理装置，包括：

待处理多媒体数据集获取模块，被配置为执行获取待处理多媒体数据集，所述待处理多媒体数据集包括第一多媒体数据集和第二多媒体数据集；

分类中心和数据子集获取模块，被配置为执行对所述第一多媒体数据集中的待处理多媒体数据进行分类处理，得到多个分类中心以及每个分类中心对应的多媒体数据子集；

分类标签确定模块，被配置为执行根据每个分类中心对应的多媒体数据子集，确定每个分类中心对应的分类标签；

相似度信息获取模块，被配置为执行获取所述第二多媒体数据集中的目标多媒体数据与每个分类中心的相似度信息，所述目标多媒体数据为所述第二多媒体数据集中的全量待处理多媒体数据或部分待处理多媒体数据；

目标标签确定模块，被配置为执行根据所述目标多媒体数据与每个分类中心的相似度信息，从所述多个分类中心对应的分类标签中确定至少一个分类标签作为所述目标多媒体数据对应的目标标签。

在一种可能的实现方式中，所述分类中心和数据子集获取模块包括：

特征信息提取单元，被配置为执行将所述第一多媒体数据集中的待处理多媒体数据输入特征提取模型，进行特征提取处理，得到所述第一多媒体数据集中的待处理多媒体数据对应的特征信息；

分类处理单元，被配置为执行对所述第一多媒体数据集中的待处理多媒体数据对应的特征信息进行分类处理，得到所述多个分类中心；

相似度信息获取单元，被配置为执行获取所述第一多媒体数据集中的待处理多媒体数据与每个分类中心的相似度信息；

数据子集获取单元，被配置为执行根据所述第一多媒体数据集中的待处理多媒体数据与每个分类中心的相似度信息，获取每个分类中心对应的多媒体数据子集。

在一种可能的实现方式中，所述分类标签确定模块包括：

特征信息获取单元，被配置为执行获取每个多媒体数据子集中待处理多媒体数据对应的特征信息；

第一分类标签确定单元，被配置为执行当所述多媒体数据子集中待处理多媒体数据对应的特征信息满足预设条件时，根据所述多媒体数据子集中待处理多媒体数据对应的特征信息，确定所述多媒体数据子集对应分类中心的分类标签；

数据子集更新单元，被配置为执行当所述多媒体数据子集中待处理多媒体数据对应的特征信息不满足预设条件时，对所述多媒体数据子集进行更新，得到目标多媒体数据子集；

第二分类标签确定单元，被配置为执行根据所述目标多媒体数据子集，确定所述目标多媒体数据子集对应分类中心的分类标签。

在一种可能的实现方式中，所述目标标签确定模块包括：

相似度阈值获取单元，被配置为执行获取相似度阈值；

目标相似度信息获取单元，被配置为执行获取所述目标多媒体数据与每个分类中心的相似度信息中大于所述相似度阈值的目标相似度信息；

目标分类中心确定单元，被配置为执行将所述目标相似度信息对应的分类中心作为目标分类中心；

目标标签确定单元，被配置为执行将所述目标分类中心对应的分类标签作为所述目标多媒体数据对应的目标标签。

在一种可能的实现方式中，所述多媒体数据处理装置还包括：

样本多媒体数据集获取模块，被配置为执行获取样本多媒体数据集，所述样本多媒体数据集包括多个样本多媒体数据和对应的样本标签；

样本特征信息获取模块，被配置为执行将所述多个样本多媒体数据输入预设特征提取神经网络，进行特征提取处理，得到样本特征信息；

预测标签获取模块，被配置为执行将所述样本特征信息输入全连接层，进行分类处理，得到预测标签；

损失信息确定模块，被配置为执行根据所述样本标签和所述预测标签，确定损失信息；

特征提取模型获取模块，被配置为执行根据所述损失信息，对所述预设特征提取神经网络进行训练，得到所述特征提取模型。

训练数据获取模块，被配置为执行将所述目标多媒体数据作为训练数据；

标签识别模型获取模块，被配置为执行根据所述训练数据以及所述训练数据对应的目标标签，对预设神经网络模型进行训练，得到标签识别模型。

根据本公开实施例的第四方面，提供一种多媒体数据标签识别装置，包括：

待识别数据获取模块，被配置为执行获取待识别多媒体数据；

标签识别模块，被配置为执行将所述待识别多媒体数据输入标签识别模型，进行内容标签识别处理，得到至少一个标签；其中，所述标签识别模型为上述第三方面中的标签识别模型。

根据本公开实施例的第五方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上述第一方面中任一项所述的方法。

根据本公开实施例的第六方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如上述第二方面中所述方法。

根据本公开实施例的第七方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行本公开实施例的第一方面中任一所述方法。

根据本公开实施例的第八方面，提供一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行本公开实施例的第二方面中所述方法。

根据本公开实施例的第九方面，提供一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时，使得计算机执行本公开实施例的第一方面中任一项所述方法。

根据本公开实施例的第十方面，提供一种计算机程序产品，包括计算机指令，所述计算机指令被处理器执行时，使得计算机执行本公开实施例的第二方面中所述方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

通过对待处理多媒体数据进行分类处理，得到多个分类中心及对应的多个分类标签，实现通过对真实多媒体数据进行拟合以定义标签的目的，避免标签定义的缺漏、冗余以及与实际多媒体数据分布不一致的问题；并且可以通过目标多媒体数据与每个分类中心的相似度信息，获取目标多媒体数据在每个分类标签上的表达，从而可以根据分类标签为目标多媒体数据确定至少一个分类标签作为目标标签，进而可以从多个维度理解多媒体数据的内容，为多标签模型训练提供基础；以及通过分类标签的自动定义以及目标多媒体数据的目标标签的确定，可以提高标签标注的效率和精准性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种应用环境的示意图。

图2是根据一示例性实施例示出的一种多媒体数据处理方法的流程图。

图3是根据一示例性实施例示出的一种多媒体数据处理方法的流程图。

图4是根据一示例性实施例示出的对第一多媒体数据集中的待处理多媒体数据进行分类处理，得到多个分类中心以及每个分类中心对应的多媒体数据子集的方法流程图。

图5是根据一示例性实施例示出的一种特征提取模型的训练方法流程图。

图6是根据一示例性实施例示出的根据每个分类中心对应的多媒体数据子集，确定每个分类中心对应的分类标签的方法流程图。

图7是根据一示例性实施例示出的根据目标多媒体数据与每个分类中心的相似度信息，从多个分类中心对应的分类标签中确定至少一个分类标签作为目标多媒体数据对应的目标标签的方法流程图。

图8是根据一示例性实施例示出的一种多媒体数据标签识别方法的流程图。

图9是根据一示例性实施例示出的一种多媒体数据处理装置框图。

图10是根据一示例性实施例示出的一种多媒体数据标签识别装置框图。

图11是根据一示例性实施例示出的一种用于多媒体数据标签识别的电子设备的框图。

图12是根据一示例性实施例示出的一种用于多媒体数据处理的电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

请参阅图1，图1是根据一示例性实施例示出的一种应用环境的示意图，如图1所示，该应用环境可以包括服务器01和终端02。

在一个可选的实施例中，服务器01可以用于多媒体数据处理。具体的，服务器01可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。

在一个可选的实施例中，终端02可以用于面向用户的多媒体数据标签识别，终端02利用的标签识别模型可以是服务器01训练好后发送给终端02的。具体的，终端02可以包括但不限于智能手机、台式计算机、平板电脑、笔记本电脑、智能音箱、数字助理、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、智能可穿戴设备等类型的电子设备。可选的，电子设备上运行的操作系统可以包括但不限于安卓系统、IOS系统、linux、windows等。

此外，需要说明的是，图1所示的仅仅是本公开提供的多媒体数据处理方法的一种应用环境。例如，终端02可以结合服务器01实现多媒体数据处理和多媒体数据标签识别，其中，服务器01可以将训练好的特征提取模型和标签识别模型发送至终端02，终端02可以使用特征提取模型和标签识别模型进行多媒体数据处理和多媒体数据标签识别处理。

本说明书实施例中，上述服务器01以及终端02可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

图2是根据一示例性实施例示出的一种多媒体数据处理方法的流程图。如图2所示，可以包括以下步骤。

在步骤S201中，获取待处理多媒体数据集，该待处理多媒体数据集可以包括第一多媒体数据集和第二多媒体数据集。

本说明书实施例中，待处理多媒体数据集可以包括多个待处理多媒体数据，例如图像、视频等数据。其中，视频可以包括短视频，本公开对此不作限定。第一多媒体数据集可以包括待处理多媒体数据集中的全部或部分待处理多媒体数据；第二多媒体数据集可以包括待处理多媒体数据集中的全部或部分待处理多媒体数据；第一多媒体数据集和第二多媒体数据集可以相同或不同，本公开对此不作限定。

在一个示例中，第二多媒体数据集中的待处理多媒体数据的数量可以大于第一多媒体数据集中的待处理多媒体数据的数量。例如，第二多媒体数据集中的待处理多媒体数据的数量可以为1亿，第一多媒体数据集中的待处理多媒体数据的数量可以为100万。这样可以减少服务器进行分类处理的运算资源消耗，提高处理效率。

实际应用中，可以获取用户公开的大量多媒体数据作为待处理多媒体数据以形成待处理多媒体数据集。并可以将待处理多媒体数据集划分为第一多媒体数据集和第二多媒体数据集；或者可以从用户公开的大量多媒体数据中获取第一多媒体数据集和第二多媒体数据集，从而可以将第一多媒体数据集和第二多媒体数据集作为待处理多媒体数据集。本公开对此不作限定。其中，用户公开的大量多媒体数据可以包括用户公开的短视频，本公开对此不作限定。

在步骤S203中，对第一多媒体数据集中的待处理多媒体数据进行分类处理，得到多个分类中心以及每个分类中心对应的多媒体数据子集。

本说明书实施例中，可以对第一多媒体数据集中的待处理多媒体数据进行分类处理，例如，可以基于待处理多媒体数据的关联程度，对多媒体数据进行分类。并可以根据第一多媒体数据集中待处理多媒体数据与多个分类中心的关联程度，得到每个分类中心对应的多媒体数据子集。例如，可以获取与每个分类中心的关联程度小于关联程度阈值的待处理多媒体数据作为每个分类中心对应的多媒体数据子集，也就是说，可以将关联程度高的待处理多媒体资源划分为一类，一类可以对应一个分类中心，划分为一类的就可以作为这一类对应的多媒体数据子集。

在一个示例中，可以利用聚类算法，例如K-means算法(K均值聚类算法)，对第一多媒体数据集中的待处理多媒体数据进行聚类处理以实现对待处理多媒体数据的分类，得到多个聚类中心，从而可以将该聚类中心作为上述分类中心。从而可以获取与每个分类中心的距离小于距离阈值的待处理多媒体数据作为每个分类中心对应的多媒体数据子集。

在步骤S205中，根据每个分类中心对应的多媒体数据子集，确定每个分类中心对应的分类标签。

实际应用中，可以从每个分类中心对应的多媒体数据子集中抽象出一个共同特征，可以将该一个共同特征作为对应分类中心对应的分类标签。也就是说，可以利用每个分类中心对应的待处理多媒体数据的共同特征为每个分类中心定义标签，得到每个分类中心对应的分类标签，从而实现对标签的自定义，本公开对此不作限定。举例来说，一个分类中心对应的多媒体数据子集中的待处理多媒体数据的共同特征可以表征“乐器”，即可以从一个分类中心对应的多媒体数据子集中的待处理多媒体数据中抽象出共同特征“乐器”，从而可以确定该一个分类中心对应的分类标签为“乐器”。其中，每个分类中心可以对应一个分类标签。

可选地，多个分类中心对应的多个分类标签可以作为标签集合，从而可以使用该标签集合中的标签为多媒体数据标注标签。

在步骤S207中，获取第二多媒体数据集中的目标多媒体数据与每个分类中心的相似度信息，该目标多媒体数据可以为第二多媒体数据集中的全量待处理多媒体数据或部分待处理多媒体数据。

本说明书实施例中，当第二多媒体数据集与第一多媒体数据集相同时，作为一个示例，该目标多媒体数据可以为多个分类中心对应的多媒体数据子集包括的待处理多媒体数据。在另一个示例中，可以获取第二多媒体数据集中待处理多媒体数据与每个分类中心的距离；将与每个分类中心的距离小于距离阈值的待处理多媒体数据作为每个分类中心对应的待训练数据；或者可以根据第二多媒体数据集中待处理多媒体数据与每个分类中心的距离，对每个分类中心的待处理多媒体数据进行排序，例如可以按照距离从高到低排序，然后可以按照该排序选择一定数量的待处理多媒体数据作为每个分类中心对应的待训练数据，比如在第二多媒体数据集中的待处理多媒体数据为1亿时，该一定数量可以为1万，本公开对此不作限定。

从而可以将每个分类中心对应的待训练数据组成该目标多媒体数据。本公开对此不作限定。可选地，该目标多媒体数据可以作为训练数据。

实际应用中，在利用聚类方式进行分类处理的情况下，可以计算目标多媒体数据与每个分类中心的距离，从而可以根据目标多媒体数据与每个分类中心的距离，确定目标多媒体数据与每个分类中心的相似度信息。该目标多媒体数据与每个分类中心的相似度信息可以是指目标多媒体数据中的每个待处理多媒体数据与每个分类中心的相似度信息。其中，距离越小，关联程度越高，相似度越高。

在步骤S209中，根据目标多媒体数据与每个分类中心的相似度信息，从多个分类中心对应的分类标签中确定至少一个分类标签作为目标多媒体数据对应的目标标签。

本说明书实施例中，可以将相似度信息大于相似度阈值对应的分类中心的分类标签作为目标多媒体数据对应的目标标签。例如，在下表1中，目标多媒体数据中的待处理多媒体数据A与每个分类中心的相似度信息包括乐器：0.94；美女：0.84；演唱：0.73；二次元服饰：0.67；情景剧：0.46；帅哥：0.23；……；宠物：0。其中，多个分类中心对应的分类标签可以包括乐器，美女，演唱，二次元服饰，情景剧，帅哥，……，宠物，即多个分类标签可以组成标签集合，该标签集合可以为[乐器，美女，演唱，二次元服饰，情景剧，帅哥，……，宠物]。这里仅仅是多个分类中心对应的分类标签的示例，本公开对此不作限定。

表1

如表1所示，当需要为目标多媒体数据中的待处理多媒体数据A确定一个标签时，可以从待处理多媒体数据A对应的多个相似度信息“0.94，0.84，0.73，0.67，0.46，0.23，……，0”中选择最大的0.94对应的分类标签“乐器”，作为待处理数据A对应的目标标签，即待处理多媒体数据A对应的目标标签可以为“乐器”。

当需要为待处理多媒体数据A确定至少两个标签时，可以将待处理多媒体数据A对应的多个相似度信息“0.94，0.84，0.73，0.67，0.46，0.23，……，0”进行从高到低的排序，可以根据排序，从高到低选择至少两个相似度信息对应的至少两个分类标签作为待处理多媒体数据A对应的目标标签。例如，可以选择三个分类标签“乐器、美女、演唱”作为待处理多媒体数据A对应的目标标签。

按照上述为待处理多媒体数据A确定目标标签的方法，为目标多媒体数据中的每个待处理数据确定目标标签，从而实现为目标多媒体数据确定对应目标标签的目的。

图3是根据一示例性实施例示出的一种多媒体数据处理方法的流程图。在一种可能的实现方式中，在步骤S209之后，该多媒体数据处理方法还可以包括：

在步骤S301中，将目标多媒体数据作为训练数据；

在步骤S303中，根据训练数据以及训练数据对应的目标标签，对预设神经网络模型进行训练，得到标签识别模型。

实际应用中，预设神经网络模型可以为残差神经网络ResNet-50，本公开对此不作限定。在一个示例中，当目标标签为多标签时，预设神经网络模型的损失函数可以为二元交叉熵损失函数BCEWithLogitsLoss，模型的优化器可以是SGD(Stochastic GradientDescent，随机梯度下降法)优化器，初始化学习率可以为0.01，并可以使用余弦退火cosine衰减的方式调整学习率。这里仅仅是一个示例，不对本公开进行限定。

本说明书实施例中，可以将目标多媒体数据作为训练数据。并可以根据训练数据以及训练数据对应的目标标签，对预设神经网络模型进行训练，直至损失不再变化或损失小于阈值，得到标签识别模型。该标签识别模型可以用于对输入的多媒体数据进行标签识别处理，从而得到多媒体数据的标签，该标签可以为多标签。

通过将目标多媒体数据作为训练数据，该目标多媒体数据的目标标签为至少一个分类标签，使得根据该目标多媒体数据训练得到的标签识别模型可以识别多媒体数据的至少一个标签，可以从至少一个维度理解多媒体数据的内容，且标签识别效率高。

图4是根据一示例性实施例示出的对第一多媒体数据集中的待处理多媒体数据进行分类处理，得到多个分类中心以及每个分类中心对应的多媒体数据子集的方法流程图。在一种可能的实现方式中，如图4所示，该步骤S203可以包括：

在步骤S401中，将第一多媒体数据集中的待处理多媒体数据输入特征提取模型，进行特征提取处理，得到第一多媒体数据集中的待处理多媒体数据对应的特征信息。

本说明书实施例中，可以将第一多媒体数据集中的待处理多媒体数据输入特征提取模型，进行特征提取处理，得到第一多媒体数据集中的待处理多媒体数据对应的特征信息。该特征信息可以为特征向量，该特征向量可以为512维的特征向量，本公开对此不作限定。

在一种可能的实现方式中，如图5所示，图5是根据一示例性实施例示出的一种特征提取模型的训练方法流程图。该特征提取模型可以通过以下步骤获取：

在步骤S501中，获取样本多媒体数据集，样本多媒体数据集包括多个样本多媒体数据和对应的样本标签。

本说明书实施例中，可以从用户公开的、带话题标签的多媒体数据中获取多个样本多媒体数据，例如话题标签包括“#冬日穿搭#围巾”、“#乐器#钢琴”等；并可以将话题标签作为样本标签，从而可以将多个样本多媒体数据和对应的样本标签作为样本多媒体数据集。这里使用话题标签作为样本标签，不需要对样本多媒体数据进行标注。

在步骤S503中，将多个样本多媒体数据输入预设特征提取神经网络，进行特征提取处理，得到样本特征信息。

本说明书实施例中，预设特征提取神经网络可以为ResNet-50，可以将多个样本多媒体数据输入预设特征提取神经网络，进行特征提取处理，得到样本特征信息，该样本特征信息可以为特征向量。

在步骤S505中，将样本特征信息输入全连接层，进行分类处理，得到预测标签。

实际应用中，ResNet-50可以作为主干网，该主干网的输出可以作为全连接层的输入，从而通过全连接层进行分类处理，得到预测标签。

在步骤S507中，根据样本标签和预测标签，确定损失信息。

本说明书实施例中，可以根据样本标签和预测标签，确定损失信息。例如，可以将样本标签和预测标签的差异信息作为损失信息，本公开对此不作限定。

可选地，在基于交叉熵损失函数确定损失信息时，可以基于交叉熵损失函数和预测标签确定上述损失信息，传统的交叉熵损失函数CrossEntropyLoss在面向单标签分类任务时，可以如下面公式(1)：

Loss＝-ln(y_i)； (1)

其中，y_i可以是预测标签中第i个标签的概率值，该概率值可以是指全连接层的输出对应的softmax值，也就是说可以利用softmax函数对全连接层的输出作softmax处理，本公开对softmax函数不作限定。需要说明的是，这里的预测标签可以是标签集合[标签1，标签2，……，标签N]，N可以大于1，i的范围可以为[1，N]，N可以是分类标签的数量。

当面向多标签的分类任务时，可以把Cross Entropy Loss函数转换成下面公式(2)：

Loss＝-ln∑_i(y_i)，where t_i＝1； (2)

其中，y_i可以是预测标签中第i个标签的概率值；t_i可以是指样本标签中的第i个标签；该样本标签可以是标签集合[标签1，标签2，……，标签N]，N可以大于1，i的范围可以为[1，N]。

举例来说，当N为3、标签集合为[动物，人，蓝天]，一个样本多媒体数据对应的样本标签为动物和蓝天，那么该一个样本多媒体数据对应的样本标签可以表示为[1,0,1]。在这种情况下，公式(2)可以是计算i＝1和i＝3时的损失，即Loss＝-ln(y₁+y₃)。

在步骤S509中，根据损失信息，对预设特征提取神经网络进行训练，得到特征提取模型。

本说明书实施例中，可以根据损失信息，对预设特征提取神经网络进行训练，直至损失信息不再变化或变化在阈值范围内为止，得到特征提取模型。

通过充分利用用户公开的带有话题标签的多媒体数据对预设特征提取神经网络进行训练，得到特征提取模型，不需要对样本多媒体数据进行标注。使得该训练方式的覆盖面广、泛化能力强。

在步骤S403中，对特征信息进行分类处理，得到多个分类中心。

在一个示例中，可以利用聚类算法，例如K-means算法，对特征信息进行聚类处理，得到多个聚类中心，例如可以为128个聚类中心，本公开对此不作限定，可以根据实际需要中标签的量级或粒度选择聚类中心的数量。从而可以将多个聚类中心作为多个分类中心。

在步骤S405中，获取第一多媒体数据集中的待处理多媒体数据与每个分类中心的相似度信息；

在步骤S407中，根据第一多媒体数据集中的待处理多媒体数据与每个分类中心的相似度信息，获取每个分类中心对应的多媒体数据子集。

本说明书实施例中，可以根据第一多媒体数据集中的待处理多媒体数据的特征信息与每个分类中心的距离，确定第一多媒体数据集中的待处理多媒体数据与每个分类中心的相似度信息。例如，距离越小可以表征待处理数多媒体据与分类中心越相似，对应相似度信息可以越高。并可以根据第一多媒体数据集中的待处理多媒体数据与每个分类中心的相似度信息，获取每个分类中心对应的多媒体数据子集。例如，可以将与每个分类中心的相似度信息大于相似度阈值对应的待处理多媒体数据组成每个分类中心对应的多媒体数据子集，即一个分类中心对应的多媒体数据子集中的待处理多媒体数据与该一个分类中心的相似度信息均大于相似度阈值；或者可以对每个分类中心对应的相似度信息进行排序，例如从高到低排序，可以从高到低获取预设数量的待处理多媒体数据作为每个分类中心对应的多媒体数据子集。例如，该预设数量可以为100，本公开对此不作限定。

举例来说，第一多媒体数据集中的待处理多媒体数据可以为100万条，对于一个分类中心来说，可以获取该一个分类中心对应的相似度信息从高到低的排序，根据该排序获取100条待处理多媒体数据组成该一个分类中心对应的多媒体数据子集。

通过特征提取模型进行待处理多媒体数据的特征提取，并用于分类以确定每个分类中心对应的多媒体数据子集，使得待处理多媒体数据的分类处理更加高效和精确。

图6是根据一示例性实施例示出的根据每个分类中心对应的多媒体数据子集，确定每个分类中心对应的分类标签的方法流程图。如图6所示，在一种可能的实现方式中，该步骤S205可以包括以下步骤：

在步骤S601中，获取每个多媒体数据子集中待处理多媒体数据对应的特征信息；

在步骤S603中，当多媒体数据子集中待处理多媒体数据对应的特征信息满足预设条件时，根据该多媒体数据子集中待处理多媒体数据对应的特征信息，确定该多媒体数据子集对应分类中心的分类标签。

本说明书实施例中，可以获取每个多媒体数据子集中待处理多媒体数据对应的特征信息，在特征信息满足预设条件的情况下，可以根据该多媒体数据子集中待处理多媒体数据对应的特征信息，确定该多媒体数据子集对应分类中心的分类标签。其中，特征信息可以是指用于表征分类标签的信息；预设条件可以是指特征信息具有共同特征。在一个示例中，在特征信息具有共同特征的情况下，可以从多媒体数据子集中待处理多媒体数据对应的特征信息中抽象出共同特征，将该共同特征作为分类中心对应的分类标签。

在步骤S605中，当多媒体数据子集中待处理数据对应的特征信息不满足预设条件时，对该多媒体数据子集进行更新，得到目标多媒体数据子集。

本说明书实施例中，当多媒体数据子集中待处理多媒体数据对应的特征信息不满足预设条件时，即在多媒体数据子集中待处理多媒体数据对应的特征信息不具有共同特征的情况下，可以对该多媒体数据子集进行更新，得到对应的目标多媒体数据子集。例如，当特征信息中达到预设比例的特征信息具有共同特征时，例如预设比例为90％时，当有90％的特征信息具有共同特征时，可以提高距离阈值以重新进行分类处理，实现对该多媒体数据子集进行更新的目的，得到更新后的目标多媒体数据子集。或者当特征信息比较分散时，可以将比较分散的特征信息进行剔除以满足预设比例，从而得到对应的目标多媒体数据子集。

在步骤S607中，根据目标多媒体数据子集，确定该目标多媒体数据子集对应分类中心的分类标签。

本说明书实施例中，可以根据目标多媒体数据子集中的待处理数据的特征信息，确定该目标多媒体数据子集对应分类中心的分类标签。该步骤可以参见步骤S603，在此不再赘述。

通过真实多媒体数据的特征信息，确定每个分类中心对应的分类标签，实现依据真实多媒体数据的分布，确定分类标签的目的；并且可以对分类中心对应的多媒体数据子集进行更新处理，能够根据真实多媒体数据的特征信息分布进行适应性调整，从而可以保证得到表达清晰、覆盖全面的分类标签，为多标签训练数据的标注提供基础。

图7是根据一示例性实施例示出的根据目标多媒体数据与每个分类中心的相似度信息，从多个分类中心对应的分类标签中确定至少一个分类标签作为目标多媒体数据对应的目标标签的方法流程图。如图7所示，在一种可能的实现方式中，该步骤S209可以包括以下步骤：

在步骤S701中，获取相似度阈值。

本说明书实施例中，相似度阈值可以是预先设置的，例如可以为0.5，本公开对此不作限定。

在步骤S703中，获取目标多媒体数据与每个分类中心的相似度信息中大于相似度阈值的目标相似度信息；

在步骤S705中，将目标相似度信息对应的分类中心作为目标分类中心；

在步骤S707中，将目标分类中心对应的分类标签作为目标多媒体数据对应的目标标签。

本说明书实施例中，可以获取目标多媒体数据与每个分类中心的相似度信息中大于相似度阈值的目标相似度信息。在一个示例中，当目标多媒体数据与分类中心的相似度信息大于相似度阈值时，可以将相似度信息作为目标相似度信息；当目标多媒体数据与分类中心的相似度信息小于或等于相似度阈值时，可以将对应的目标相似度信息设置为0。

如表1所示，目标多媒体数据中的待处理多媒体数据A与每个分类中心的相似度信息中大于相似度阈值0.5的目标相似度信息包括乐器：0.94；美女：0.84；演唱：0.73；二次元服饰：0.67；从而可以确定目标相似度信息对应的分类中心作为目标分类中心，即0.94、0.84、0.73、0.67对应的分类中心作为目标分类中心；该目标分类中心对应的分类标签作为待处理数据A对应的目标标签，该目标标签可以包括乐器、美女、演唱和二次元服饰。作为一个示例，该目标标签可以表示为[0.94，0.84，0.73，0.67，0，0，……，0]。

可选地，可以将大于相似度阈值中的最大相似度信息对应的目标相似度信息设置为1。在这种情况下，上述目标标签可以表示为[1，0.84，0.73，0.67，0，0，……，0]。

通过设置相似度阈值，将相似度信息中大于相似度阈值对应的分类标签作为目标标签，可以实现多标签标注。

图8是根据一示例性实施例示出的一种多媒体数据标签识别方法的流程图。如图8所示，该多媒体数据标签识别方法可以包括：

在步骤S801中，获取待识别多媒体数据；

在步骤S803中，将待识别多媒体数据输入标签识别模型，进行内容标签识别处理，得到至少一个标签。

本说明书实施例中，可以获取待识别多媒体数据，其中，待识别多媒体数据可以是指需要进行标签识别的多媒体数据，该多媒体数据可以包括图像、视频等数据，视频可以包括短视频，本公开对此不作限定。这里的标签识别模型可以为上述训练得到的标签识别模型。并可以将待识别多媒体数据输入标签识别模型，进行内容标签识别处理，得到至少一个标签，例如两个标签。从而实现多媒体数据标签识别的目的。

可选地，可以基于待识别数据的标签，为用户进行多媒体数据推荐，例如可以基于标签为用户进行短视频推荐。

通过标签识别模型进行标签识别，可以提高标签识别的效率和准确性，还可以为推荐业务场景的精准推荐提供基础，并且能够适应多标签业务推荐场景的需求。

图9是根据一示例性实施例示出的一种多媒体数据处理装置框图。参照图9，该装置可以包括：

待处理多媒体数据集获取模块901，被配置为执行获取待处理多媒体数据集，述待处理多媒体数据集包括第一多媒体数据集和第二多媒体数据集；

分类中心和数据子集获取模块903，被配置为执行对第一多媒体数据集中的待处理多媒体数据进行分类处理，得到多个分类中心以及每个分类中心对应的多媒体数据子集；

分类标签确定模块905，被配置为执行根据每个分类中心对应的多媒体数据子集，确定每个分类中心对应的分类标签；

相似度信息获取模块907，被配置为执行获取第二多媒体数据集中的目标多媒体数据与每个分类中心的相似度信息，目标多媒体数据为第二多媒体数据集中的全量待处理多媒体数据或部分待处理多媒体数据；

目标标签确定模块909，被配置为执行根据目标多媒体数据与每个分类中心的相似度信息，从多个分类中心对应的分类标签中确定至少一个分类标签作为目标多媒体数据对应的目标标签。

在一种可能的实现方式中，分类中心和数据子集获取模块903可以包括：

特征信息提取单元，被配置为执行将第一多媒体数据集中的待处理多媒体数据输入特征提取模型，进行特征提取处理，得到第一多媒体数据集中的待处理多媒体数据对应的特征信息；

分类处理单元，被配置为执行对第一多媒体数据集中的待处理多媒体数据对应的特征信息进行分类处理，得到多个分类中心；

相似度信息获取单元，被配置为执行获取第一多媒体数据集中的待处理多媒体数据与每个分类中心的相似度信息；

数据子集获取单元，被配置为执行根据第一多媒体数据集中的待处理多媒体数据与每个分类中心的相似度信息，获取每个分类中心对应的多媒体数据子集。

在一种可能的实现方式中，分类标签确定模块905包括：

第一分类标签确定单元，被配置为执行当多媒体数据子集中待处理多媒体数据对应的特征信息满足预设条件时，根据多媒体数据子集中待处理多媒体数据对应的特征信息，确定多媒体数据子集对应分类中心的分类标签；

数据子集更新单元，被配置为执行当多媒体数据子集中待处理多媒体数据对应的特征信息不满足预设条件时，对多媒体数据子集进行更新，得到目标多媒体数据子集；

第二分类标签确定单元，被配置为执行根据目标多媒体数据子集，确定目标多媒体数据子集对应分类中心的分类标签。

在一种可能的实现方式中，目标标签确定模块909可以包括：

相似度阈值获取单元，被配置为执行获取相似度阈值；

目标相似度信息获取单元，被配置为执行获取目标多媒体数据与每个分类中心的相似度信息中大于相似度阈值的目标相似度信息；

目标分类中心确定单元，被配置为执行将目标相似度信息对应的分类中心作为目标分类中心；

目标标签确定单元，被配置为执行将目标分类中心对应的分类标签作为目标多媒体数据对应的目标标签。

在一种可能的实现方式中，多媒体数据处理装置还可以包括：

样本多媒体数据集获取模块，被配置为执行获取样本多媒体数据集，样本多媒体数据集包括多个样本多媒体数据和对应的样本标签；

样本特征信息获取模块，被配置为执行将多个样本多媒体数据输入预设特征提取神经网络，进行特征提取处理，得到样本特征信息；

预测标签获取模块，被配置为执行将样本特征信息输入全连接层，进行分类处理，得到预测标签；

损失信息确定模块，被配置为执行根据样本标签和预测标签，确定损失信息；

特征提取模型获取模块，被配置为执行根据损失信息，对预设特征提取神经网络进行训练，得到特征提取模型。

训练数据获取模块，被配置为执行将目标多媒体数据作为训练数据；

标签识别模型获取模块，被配置为执行根据训练数据以及训练数据对应的目标标签，对预设神经网络模型进行训练，得到标签识别模型。

图10是根据一示例性实施例示出的一种多媒体数据标签识别装置框图。参照图10，该装置可以包括：

待识别数据获取模块1001，被配置为执行获取待识别多媒体数据；

标签识别模块1003，被配置为执行将待识别多媒体数据输入标签识别模型，进行内容标签识别处理，得到至少一个标签；其中，标签识别模型为上述第三方面中的标签识别模型。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图11是根据一示例性实施例示出的一种用于多媒体数据标签识别的电子设备的框图，该电子设备可以是终端，其内部结构图可以如图11所示。该电子设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据标签识别的方法。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该电子设备的输入装置可以是显示屏上覆盖的触摸层，也可以是电子设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

图12是根据一示例性实施例示出的一种用于多媒体数据处理的电子设备的框图，该电子设备可以是服务器，其内部结构图可以如图12所示。该电子设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多媒体数据处理的方法。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在示例性实施例中，还提供了一种电子设备，包括：处理器；用于存储该处理器可执行指令的存储器；其中，该处理器被配置为执行该指令，以实现如本公开实施例中的多媒体数据处理方法和多媒体数据标签识别方法。

在示例性实施例中，还提供了一种计算机可读存储介质，当该计算机可读存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开实施例中的多媒体数据处理方法和多媒体数据标签识别方法。计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行本公开实施例中的多媒体数据处理的方法和多媒体数据标签识别方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种多媒体数据处理方法，其特征在于，包括：

2.根据权利要求1所述的多媒体数据处理方法，其特征在于，所述对所述第一多媒体数据集中的待处理多媒体数据进行分类处理，得到多个分类中心以及每个分类中心对应的多媒体数据子集步骤包括：

3.根据权利要求2所述的多媒体数据处理方法，其特征在于，所述根据每个分类中心对应的多媒体数据子集，确定每个分类中心对应的分类标签步骤包括：

4.根据权利要求1-3中任一项所述的多媒体数据处理方法，其特征在于，所述根据所述目标多媒体数据与每个分类中心的相似度信息，从所述多个分类中心对应的分类标签中确定至少一个分类标签作为所述目标多媒体数据对应的目标标签步骤包括：

获取相似度阈值；

将所述目标相似度信息对应的分类中心作为目标分类中心；

5.根据权利要求2所述的多媒体数据处理方法，其特征在于，所述多媒体数据处理方法还包括：

根据所述样本标签和所述预测标签，确定损失信息；

6.根据权利要求1所述的多媒体数据处理方法，其特征在于，在所述根据所述目标多媒体数据与每个分类中心的相似度信息，从所述多个分类中心对应的分类标签中确定至少一个分类标签作为所述目标多媒体数据对应的目标标签步骤之后，所述多媒体数据处理方法还包括：

将所述目标多媒体数据作为训练数据；

7.一种多媒体数据处理装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的多媒体数据处理方法。

9.一种计算机可读存储介质，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的多媒体数据处理方法。

10.一种计算机程序产品，包括计算机指令，其特征在于，所述计算机指令被处理器执行时实现权利要求1-6任一项所述的多媒体数据处理方法。