CN117540306B - 一种多媒体数据的标签分类方法、装置、设备及介质 - Google Patents

一种多媒体数据的标签分类方法、装置、设备及介质 Download PDF

Info

Publication number
CN117540306B
CN117540306B CN202410027564.8A CN202410027564A CN117540306B CN 117540306 B CN117540306 B CN 117540306B CN 202410027564 A CN202410027564 A CN 202410027564A CN 117540306 B CN117540306 B CN 117540306B
Authority
CN
China
Prior art keywords
tag
data
classified
feature
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410027564.8A
Other languages
English (en)
Other versions
CN117540306A (zh
Inventor
郝彦超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202410027564.8A priority Critical patent/CN117540306B/zh
Publication of CN117540306A publication Critical patent/CN117540306A/zh
Application granted granted Critical
Publication of CN117540306B publication Critical patent/CN117540306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种多媒体数据的标签分类方法、装置、设备及介质,用以解决现有技术中标签分类不准确的问题。该方法包括:将待分类的多媒体数据划分为多个子数据;分别针对所述多媒体数据和所述多个子数据进行属性特征提取,获得相应的属性特征;将所述多个子数据中的每个子数据和所述多媒体数据依次作为目标数据,针对每个目标数据,分别执行以下操作:基于目标数据的属性特征和各待分类标签各自的标签特征,分别确定所述各待分类标签各自在目标数据的属性特征中关联的特征元素集;根据各目标数据各自对应的特征元素集,确定所述多媒体数据针对所述各待分类标签的标签分类结果。

Description

一种多媒体数据的标签分类方法、装置、设备及介质
技术领域
本申请涉及计算机视觉技术领域,尤其涉及一种多媒体数据的标签分类方法、装置、设备及介质。
背景技术
目前,多标签分类是将多媒体数据输入到分类模型,然后由分类模型对多媒体数据进行特征提取,并基于获得的针对多个标签的一个综合特征图进行标签分类。在使用该方法时,分别对应多个相关性较弱的标签的特征混杂在一个综合特征图中。这样,会造成特征表示的模糊性,从而在基于综合特征图进行某个标签分类时,可能会影响标签分类结果的准确性。
此外,在实际处理过程中,多媒体数据的长宽变化多样,并且图像数据中的物体也可大可小。在进行多标签分类时,仅通过单尺度处理,提取的特征可能不完整或者不明显,因此也会造成分类结果不准确。
发明内容
本申请实施例提供了一种多媒体数据的标签分类方法、装置、设备及介质,用以解决现有技术中标签分类不准确的问题。
第一方面,本申请实施例提供了一种多媒体数据的标签分类方法,包括:
将待分类的多媒体数据划分为多个子数据;
分别针对所述多媒体数据和所述多个子数据进行属性特征提取,获得相应的属性特征;
将所述多个子数据中的每个子数据和所述多媒体数据依次作为目标数据,针对每个目标数据,分别执行以下操作:基于一个目标数据的属性特征和各待分类标签各自的标签特征,分别确定所述各待分类标签各自在一个目标数据的属性特征中关联的特征元素集;
根据各目标数据各自对应的特征元素集,确定所述多媒体数据针对所述各待分类标签的标签分类结果。
第二方面,本申请实施例提供了一种多媒体数据的标签分类装置,包括:
划分单元,用于将待分类的多媒体数据划分为多个子数据;
提取单元,用于分别针对所述多媒体数据和所述多个子数据进行属性特征提取,获得相应的属性特征;
确定单元,用于将所述多个子数据中的每个子数据和所述多媒体数据依次作为目标数据,针对每个目标数据,分别执行以下操作:基于目标数据的属性特征和各待分类标签各自的标签特征,分别确定所述各待分类标签各自在目标数据的属性特征中关联的特征元素集;根据各目标数据各自对应的特征元素集,确定所述多媒体数据针对所述各待分类标签的标签分类结果。
在一种可能的实现方式中,所述确定单元,在基于目标数据的属性特征和各待分类标签各自的标签特征,分别确定所述各待分类标签各自在目标数据的属性特征中关联的特征元素集时,具体用于:
针对各待分类标签中的每个待分类标签,分别执行以下操作:
基于所述待分类标签的标签特征,确定所述目标数据的属性特征中,与所述标签特征关联的目标特征位置集;所述目标特征位置集用于表示所述目标数据的属性特征中与所述标签特征关联的特征元素所处的特征位置集合;
所述提取单元,还用于根据所述目标特征位置集,从所述目标数据的属性特征中,将与所述待分类标签关联的特征元素提取到特征元素集中。
在一种可能的实现方式中,所述确定单元,在基于所述待分类标签的标签特征,确定所述目标数据的属性特征中,与所述标签特征关联的目标特征位置集时,具体用于:
将所述待分类标签的标签特征,与所述目标数据的属性特征进行卷积操作,获得相应的掩码矩阵;
基于所述标签特征对应的掩码矩阵,确定与所述标签特征相关联的目标特征位置集;其中,所述掩码矩阵包含的各矩阵元素与所述属性特征包含的各特征元素一一对应,且每个矩阵元素的取值,用于指示相应的特征元素所处的特征位置是否为目标特征位置。
在一种可能的实现方式中,所述确定单元,在基于所述待分类标签的标签特征,确定所述目标数据的属性特征中,与所述标签特征关联的目标特征位置集时,具体用于:
将所述目标数据的属性特征中每个特征位置对应的特征元素,与所述待分类标签的标签特征进行特征拼接,得到所述待分类标签各自对应的拼接特征集;
基于所述待分类标签对应的拼接特征集,确定所述标签特征对应的掩码矩阵;
基于所述标签特征对应的掩码矩阵,确定与所述标签特征相关联的目标特征位置集;其中,所述掩码矩阵包含的各矩阵元素与所述属性特征包含的各特征元素一一对应,且每个矩阵元素的取值,用于指示相应的特征元素所处的特征位置是否为目标特征位置。
在一种可能的实现方式中,所述提取单元,在根据所述目标特征位置集,从所述目标数据的属性特征中,将与所述待分类标签关联的特征元素提取到特征元素集中,具体用于:
将所述标签特征对应的掩码矩阵,与所述目标数据的属性特征进行点乘操作,得到所述目标数据的属性特征中,位于所述目标特征位置集中各目标特征位置上的特征元素;
将所述各目标特征位置上的特征元素,作为与所述待分类标签关联的特征元素并保存到特征元素集中。
在一种可能的实现方式中,所述确定单元,在根据各目标数据各自对应的特征元素集,确定所述多媒体数据针对所述各待分类标签的标签分类结果时,具体用于:
针对所述各目标数据,分别执行以下操作:基于一个目标数据对应的特征元素集,分别获得所述一个目标数据命中所述各待分类标签的标签概率,得到所述一个目标数据对应的标签概率集;
基于获得的各标签概率集,获得所述多媒体数据针对所述各待分类标签的标签分类结果。
在一种可能的实现方式中,当所述目标数据为子数据时,所述确定单元,在基于一个目标数据对应的特征元素集,分别获得所述一个目标数据命中所述各待分类标签的标签概率时,具体用于:
将一个子数据对应的特征元素集与所述多媒体数据对应的特征元素集进行融合,得到所述一个子数据对应的融合元素集;
基于所述一个子数据的融合元素集,分别确定所述一个子数据命中所述各待分类标签的标签概率。
在一种可能的实现方式中,所述标签分类结果为标签结果集;所述确定单元,在基于获得的各标签概率集,获得所述多媒体数据针对所述各待分类标签的标签分类结果时,具体用于:
针对每个待分类标签,执行以下操作:基于获得的各标签概率集,当确定一个待分类标签对应的标签概率中,存在大于第一设定概率阈值的标签概率时,将所述一个待分类标签保存在所述标签结果集中;
将所述标签结果集,作为所述多媒体数据针对所述各待分类标签的标签分类结果。
在一种可能的实现方式中,所述标签分类结果包括各待分类标签各自对应的目标概率,所述每个待分类标签对应的目标概率为:各目标数据针对同一待分类标签的最大标签概率。
在一种可能的实现方式中,所述标签分类结果为:所述每个待分类标签所对应的标签概率的集合,或者,所述标签分类结果为所述每个待分类标签对应的标签概率中,达到第二设定概率阈值的标签概率的集合。
在一种可能的实现方式中,所述划分单元,在将待分类的多媒体数据划分为多个子数据时,具体用于:
基于设定尺寸的滑动窗口,按照设定步长的滑动方式,将所述待分类的多媒体数据划分为多个子数据;或者,采用随机窗口切分方式,将所述待分类的多媒体数据划分为多个子数据。
第三方面,本申请实施例提供了一种电子设备,包括:存储器和处理器;
所述存储器,用于存储计算机指令;
所述处理器,用于获取存储在所述存储器中的计算机指令,并按照计算机指令以实现本申请实施例提供的多媒体数据的标签分类方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被处理器执行时,实现本申请实施例提供的多媒体数据的标签分类方法的步骤。
第五方面,本申请实施例提供一种计算机程序产品,其包括计算机指令,计算机指令存储在计算机可读存储介质中;当电子设备的处理器从计算机可读存储介质读取计算机指令时,处理器执行计算机指令,使得电子设备执行本申请实施例提供的多媒体数据的标签分类方法的步骤。
本申请有益效果如下:
本申请实施例中,将多媒体数据划分为多个子数据,并对多媒体数据和子数据作为目标数据,分别基于不同标签的标签向量确定特征元素,可以使得每个目标数据中包括的特征元素更专注一个待分类标签,不会包含多个待分类标签的特征元素。
其次,在确定标签分类结果时,将各个子数据的特征元素和多媒体数据的特征元素进行融合得到融合元素集,并基于融合元素集,分别确定子数据命中各待分类标签的标签概率。该步骤中,通过融合后的多尺度的特征元素,使得无论标签所对应的特征在多媒体数据中的尺寸大小如何变化,都能较好的提取到特征元素,有效提高提取到的特征的完整性。
另外,本申请中,是综合子数据和多媒体数据各自对应的标签概率,得到最终的标签分类结果。即无论标签特征在多媒体数据中的尺寸大小如何变化,由于综合考虑了子数据和多媒体数据各自对应的标签概率,因此可以准确的识别出标签所对应的各种尺寸的特征,进而提高标签分类结果的准确性。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种应用场景示意图;
图2为本申请实施例提供的一种多媒体数据的标签分类方法流程图;
图3为本申请实施例提供的一种多媒体数据的划分方式示意图;
图4为本申请实施例提供的另一种多媒体数据的划分方式示意图;
图5为本申请实施例提供的一种确定掩码矩阵的示意图;
图6为本申请实施例提供的一种掩码矩阵与属性特征间元素对应示意图;
图7为本申请实施例提供的一种掩码矩阵的示意图;
图8为本申请实施例提供的一种获得特征元素集的流程示意图;
图9为本申请实施例提供的各目标数据对应的标签概率集的示意图;
图10为本申请实施例提供的一种标签概率集的示意图;
图11为本申请实施例提供的一种标签分类结果的示意图;
图12为本申请实施例提供的另一种标签分类结果的示意图;
图13为本申请实施例提供的又一种标签分类结果的示意图;
图14为本申请实施例提供的通过融合特征确定标签概率的示意图;
图15为本申请实施例提供的一种确定融合元素的示意图;
图16为本申请实施例提供的另一种确定融合元素的示意图;
图17为本申请实施例提供的一种确定标签分类结果的框架示意图;
图18为本申请实施例提供的一种确定注意力特征的流程示意图;
图19为本申请实施例提供的一种多媒体数据的标签分类装置的示意图;
图20为本申请实施例提供的一种电子设备的示意图。
具体实施方式
为了使本申请的目的、技术方案及有益效果更加清楚明白,以下将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请部分实施例,并不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下文中所用的词语“示例性”的意思为“用作例子、实施例或说明性”。作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
文中的术语“第一”、“第二”仅用于描述目的,而不能理解为明示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征,在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。
计算机视觉技术(Computer Vision, CV)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解以及图像特征提取等。
本申请实施例提供的方案涉及计算机视觉技术的图像语义理解中的图像分类技术,具体通过如下实施例进行说明。
目前进行多标签分类的技术方案大多基于单尺度神经网络模型,该神经网络模型可以是卷积神经网络、循环神经网络、亦或者基于transformer的多头注意力网络等。即将一张给定的文本或图像输入到神经网络中,然后神经网络输出识别结果。在网络模型的训练过程中,往往是将每一个标签当做一个二分类任务来进行。在使用上述神经网络进行特征提取时,是将多媒体数据输入到分类模型,然后由分类模型对多媒体数据进行特征提取,并基于获得的针对多个标签的一个综合特征图进行标签分类。在使用该方法时,分别对应多个标签的特征混杂在一个综合特征图中,这样,会造成特征表示的模糊性,从而在基于综合特征图进行某个标签分类时,可能会影响标签分类结果的准确性。
在上述情况下,如果不同分类标签之间的相关性较弱时,则不同标签对应的特征之间的差异会比较大。进而,在基于综合特征图进行某个标签分类时,由于综合特征中还包含与该标签不相关的其他标签所对应的特征,因此会影响标签分类的准确性。
例如,多标签任务为判断一张图像中有没有出现人脸和植物。那么,当图像中同时包含人脸和植物时,如果只提取一个综合特征图来表示该图像时,提取特征时,不仅需要对人脸进行关注,也需要对植物进行关注。即,该综合特征图会同时包含人脸特征和植物特征。当使用该综合特征图分别进行人脸分类和植物分类时,由于人脸特征和植物特征之间的差异较大,因此在分别进行人脸分类和植物分类时,可能会造成分类结果不准确。
另外,现有多标签分类方案中,只对原始多媒体数据进行单尺度处理,即只对整个多媒体数据进行处理。然而在实际处理过程中,多媒体数据的长宽变化多样,并且图像数据中的物体也可大可小。仅通过单尺度处理,提取的特征可能不完整或者不明显,因此也会造成分类结果不准确。
针对上述问题,本申请实施例提供了一种多媒体数据的标签分类方法、装置、设备及存储介质,在获得待分类的多媒体数据后,首先将待分类的多媒体数据划分为多个子数据,并且针对多个子数据和多媒体数据分别进行特征提取,得到相应的属性特征。接着,可以根据待分类标签的标签向量确定多媒体数据和子数据中的特征元素集,并根据多媒体数据和子数据中的特征元素集来确定多媒体数据针对多个待分类标签的标签分类结果。本申请实施例中,将多媒体数据划分为多个子数据,并对多媒体数据和子数据作为目标数据,分别基于不同标签的标签向量确定特征元素,可以使得每个目标数据中包括的特征元素更专注一个待分类标签,不会包含多个待分类标签的特征元素。其次,在确定最终的标签分类结果时,考虑到多尺度,即考虑到子数据和多媒体数据,使得无论目标对象大小如何变化,均能提取到完整的目标对象的特征,进一步提高了标签分类结果的准确性。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
参考图1,图1为本申请实施例的应用场景示意图。该应用场景中包括客户端100和执行设备200。其中,一些场景中,执行设备200可以为电子设备,该电子设备可以为带有显示功能的显示设备。另一些场景中,执行设备可以为服务器,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
一些场景中,客户端100将待分类的多媒体数据传输到执行设备200中。执行设备200在接收到待分类的多媒体数据后,可以执行多媒体数据的标签分类方法。一些场景中,客户端100还可以向执行设备200发送多媒体数据的标签分类任务,执行设备200在接收到多媒体数据的标签分类任务后,根据标签分类任务对待分类的多媒体数据进行标签分类。
图1所示只是举例说明,实际上客户端的数量不受限制,在本申请实施例中不做具体限定。
基于上述应用场景,下面结合上述描述的应用场景,根据附图来描述本申请示例性实施方式提供的多媒体数据的标签分类方法,需要注意的是,上述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。
参考图2,图2示例性提供本申请实施例中一种多媒体数据的标签分类方法流程图,该方法中包括:
S201,将待分类的多媒体数据划分为多个子数据。
一些实施例中,待分类的多媒体数据可以是文本、图像、以及图文数据中的任一种数据形式,本申请对此不作具体限定。
一些场景中,在确定待分类的多媒体数据后,可以将待分类的多媒体数据划分为多个子数据。具体可以通过如下方式实现:
一种可能的实现方式中,可以基于设定尺寸的滑动窗口,按照设定步长的滑动方式,将待分类的多媒体数据划分为多个子数据。以多媒体数据为图像数据为例,图像数据的尺寸大小为64×64。假设滑动窗口的设定尺寸为3×3,设定步长为2,则将图像数据划分为多个子数据,如图3所示。
另一种可能的实现方式中,可以采用随机窗口切分方式,将待分类的多媒体数据划分为多个子数据。如图4所示,以多媒体数据为图像数据为例,可以采用随机窗口的切分方式,将待分类的多媒体数据划分为6个子数据。其中,不同的虚线框表示不同的随机窗口。
S202,分别针对多媒体数据和多个子数据进行属性特征提取,获得相应的属性特征。
一些实施例中,可以通过训练好的网络模型分别对多媒体数据和多个子数据进行属性特征提取,进而获得相应的属性特征。
一些场景中,可以将多媒体数据,以及通过滑动窗口划分得到的子数据,进行缩放后,输入到训练好的网络模型中进行特征提取。作为一种举例,以多媒体数据为原始图像为例,可以通过双三次插值算法(bicubic resize)实现原始图像和子图像的缩放,进而得到设定大小的图像数据,以输入到网络模型中。可以理解的是,还可以通过其他缩放方式进行缩放,本申请对此不作具体限定。
S203,将多个子数据中的每个子数据和多媒体数据依次作为目标数据,针对每个目标数据,分别执行以下操作:基于目标数据的属性特征和各待分类标签各自的标签特征,分别确定各待分类标签各自在目标数据的属性特征中关联的特征元素集。
一些实施例中,在基于目标数据的属性特征和各待分类标签各自的标签特征,分别确定各待分类标签各自在一个目标数据的属性特征中关联的特征元素集时,可以通过如下方式实现:
针对各待分类标签中的每个待分类标签,分别执行以下操作:基于待分类标签的标签特征,确定目标数据的属性特征中,与标签特征关联的一个目标特征位置集。其中,目标特征位置集用于表示目标数据的属性特征中与标签特征关联的特征元素所处的特征位置集合。进一步地,可以根据目标特征位置集,从目标数据的属性特征中,将与待分类标签关联的特征元素提取到特征元素集中。
具体地,在确定与标签特征关联的目标特征位置集时,可以将待分类标签的标签特征,与一个目标数据的属性特征进行卷积操作,获得相应的掩码矩阵。进而,可以基于标签特征对应的掩码矩阵,确定与标签特征相关联的目标特征位置集。其中,掩码矩阵包含的各矩阵元素与属性特征包含的各特征元素一一对应,且每个矩阵元素的取值,用于指示相应的特征元素所处的特征位置是否为目标特征位置。其中,目标特征位置用于指示属性特征中该位置的特征元素与标签特征相关。
作为一种举例,共有两个待分类标签,其对应的标签特征分别为标签特征1和标签特征2。假设共有多媒体数据以及3个子数据,则将多媒体数据以及3个子数据中的每个子数据,依次作为目标数据。进而,针对每个目标数据,将该目标数据的属性特征与标签特征1进行卷积操作,获得相应的掩码矩阵。同理,将该目标数据的属性特征与标签特征2进行卷积操作,获得相应的掩码矩阵,如图5所示,将该目标数据属性特征与标签特征1进行卷积操作,获得标签特征1对应的掩码矩阵1,以及将该目标数据属性特征与标签特征2进行卷积操作,获得标签特征2对应的掩码矩阵2。
示例性地,掩码矩阵中,矩阵元素与属性特征包含的特征元素是一一对应的。如图6所示,属性特征中的特征元素分布为64×64,则掩码矩阵中的矩阵元素分布也是64×64。其中,掩码矩阵中,每个矩阵元素的取值,用于指示相应的特征元素所处的特征位置是否为目标特征位置。例如,如图7所示,掩码矩阵中矩阵元素为0或者1。以矩阵元素(3,3)为例,该矩阵元素的取值为0,则可以认为属性特征中,相应的特征元素所处的特征位置,即属性特征中的特征位置(3,3)为目标特征位置,即特征位置(3,3)对应的特征元素与标签特征之间相关联。矩阵元素(61,3)为例,该矩阵元素的取值为0,则可以认为属性特征中,相应的特征元素所处的特征位置,即属性特征中的特征位置(61,3)不是目标特征位置,即特征位置(61,3)对应的特征元素与标签特征之间不相关。
具体地,在根据目标特征位置集,从目标数据的属性特征中,将与待分类标签关联的特征元素提取到特征元素集中时,可以将标签特征对应的掩码矩阵,与目标数据的属性特征进行点乘操作,得到目标数据的属性特征中,位于目标特征位置集中各目标特征位置上的特征元素;将各目标特征位置上的特征元素,作为与待分类标签关联的特征元素。
作为一种举例,以目标数据1为例,标签特征1对应的掩码矩阵为掩码矩阵1,标签特征2对应的掩码矩阵为掩码矩阵2。则可以将掩码矩阵1与目标数据1的属性特征进行点乘操作,得到掩码矩阵1中各目标特征位置上的特征元素,并作为与相应的标签特征1关联的特征元素,进而得到特征元素集1。同理,可以将掩码矩阵2与目标数据1的属性特征进行点乘操作,得到掩码矩阵2中各目标特征位置上的特征元素,并作为与相应的标签特征2关联的特征元素,进而得到特征元素集2。一些实施例中,在进行点乘操作后,还可以将点乘结果在空间域求和,以获得关联的特征元素集,如图8所示。
基于上述方式,通过将多媒体数据和子数据作为目标数据,并基于不同标签的标签向量确定特征元素,可以使得每个目标数据中包括的特征元素更专注一个待分类标签,不会包含多个待分类标签的特征元素,提高了特征的专注性。
S204,根据各目标数据各自对应的特征元素集,确定多媒体数据针对各待分类标签的标签分类结果。
其中,标签分类结果用于表示多媒体数据是否与各待分类标签相关。
一些实施例中,在确定多媒体数据针对各待分类标签的标签分类结果时,可以通过如下方式实现:针对各目标数据,分别执行以下操作:基于一个目标数据对应的特征元素集,分别获得一个目标数据命中各待分类标签的标签概率,得到一个目标数据对应的标签概率集。进一步地,可以基于获得的各目标数据各自对应的标签概率集,获得多媒体数据针对各待分类标签的标签分类结果。
作为一种举例,共有三个子数据以及多媒体数据作为目标数据,待分类标签共有2个,则基于一个目标数据,确定该目标数据针对两个待分类标签的标签概率,并保存在概率标签集中。其中,标签集中第一个概率值为该目标数据命中标签1的概率,第二个概率值为该目标数据命中标签2的概率。同理,按照上述方式获得各目标数据分别对应的标签概率集,如图9所示。进一步地,可以基于各目标数据各自对应的标签概率集,获得多媒体数据针对各待分类标签的标签分类结果。
一种可能的实现方式中,标签分类结果为标签结果集。基于获得的各标签概率集,获得多媒体数据针对各待分类标签的标签分类结果,具体可以通过如下方式实现:针对每个待分类标签,执行以下操作:基于获得的各标签概率集,当确定一个待分类标签对应的标签概率中,存在大于第一设定概率阈值的标签概率时,将一个待分类标签保存在标签结果集中;将标签结果集,作为多媒体数据针对各待分类标签的标签分类结果。
作为一种举例,多媒体数据和三个子数据分别对应一个标签概率集,每个标签概率集包括命中三个待分类标签的概率。概率标签集中,概率值对应的标签分别为标签1、标签2以及标签3,如图10所示。进一步地,针对标签1,其对应的标签概率分别为0.31、0.52、0.67、0.55,标签1对应的第一设定概率阈值为0.5,标签概率中存在大于第一设定概率阈值的标签概率,则将标签1保存在标签结果集中。同理,标签2对应的标签概率分别为0.70、0.67、0.68、0.77,标签3对应的标签概率分别为0.34、0.18、0.29、0.36。假设标签1-3对应的第一设定概率值均为0.5,则可以将标签2也保存在标签结果集中,即多媒体数据针对标签1、2、3的标签分类结果中只包含标签1和标签2,如图11所示。
一种可能的实现方式中,标签分类结果包括各待分类标签各自对应的目标概率,每个待分类标签对应的目标概率为:各目标数据针对同一待分类标签的最大标签概率。
接着上述举例,标签1对应的标签概率分别为0.31、0.52、0.67、0.55,标签2对应的标签概率分别为0.70、0.67、0.68、0.77,标签3对应的标签概率分别为0.34、0.18、0.29、0.36,则标签1对应的最大标签概率为0.67,标签2对应的最大标签概率为0.77,标签3对应的最大标签概率为0.36,则多媒体数据针对标签1、2、3的标签分类结果为{0.67,0.77,0.36}。
一些实施例中,标签分类结果为:每个待分类标签所对应的标签概率的集合,或者,标签分类结果为每个待分类标签对应的标签概率中,达到第二设定概率阈值的标签概率的集合。
例如,当标签分类结果为每个待分类标签所对应的标签概率的集合时,则上述举例的标签分类结果如图12所示。
示例的,标签1对应的标签概率分别为0.31、0.52、0.67、0.55,标签2对应的标签概率分别为0.70、0.67、0.68、0.77,标签3对应的标签概率分别为0.34、0.18、0.29、0.36。标签1-3对应的第二设定概率阈值均为0.5,当标签分类结果为每个待分类标签对应的标签概率中,达到第二设定概率阈值的标签概率的集合时,标签分类结果如图13所示。
一些场景中,在基于待分类标签的标签特征,确定目标数据的属性特征中,与待分类标签的标签特征关联的目标特征位置集时,还可以通过如下方式确定:将目标数据的属性特征中每个特征位置对应的特征元素,与待分类标签的标签特征进行特征拼接,得到待分类标签各自对应的拼接特征集。进一步地,可以基于待分类标签对应的拼接特征集,确定各标签特征各自对应的掩码矩阵。进而,基于标签特征对应的掩码矩阵,确定与标签特征相关联的目标特征位置集。其中,掩码矩阵包含的各矩阵元素与属性特征包含的各特征元素一一对应,且每个矩阵元素的取值,用于指示相应的特征元素所处的特征位置是否为目标特征位置。
作为一种举例,可以将属性特征中每个特征位置对应的特征元素分别与标签特征进行特征拼接,得到该标签对应的拼接特征集。进一步地,可以将拼接特征集输入到全连接网络中,确定该特征位置的注意力概率值,进而获得标签特征对应的掩码矩阵。
一些实施例中,当目标数据为子数据时,在基于一个目标数据对应的特征元素集,分别获得一个目标数据命中各待分类标签的标签概率时,还可以通过如下方式实现:首先,将一个子数据对应的特征元素集与多媒体数据对应的特征元素集进行融合,得到一个子数据对应的融合元素集。进一步地,可以基于一个子数据的融合元素集,分别确定一个子数据命中各待分类标签的标签概率,如图14所示。
一些场景中,在对子数据对应的特征元素集与多媒体数据对应的特征元素集进行融合时,可以采用求平均值的方式确定。作为一种举例,在对特征位置(0,0)的特征元素进行融合时,子数据中,该特征位置的特征元素分别为(0.35,0.60,0.37,0.62,0.41),多媒体数据中,该特征位置的特征元素分别为(0.45,0.56,0.47,0.54,0.61)。则基于求平均值的方式,确定特征位置(0,0)融合后的融合元素为(0.40,0.58,0.42,0.58,0.51),如图15所示。
另一些场景中,在对子数据对应的特征元素集与多媒体数据对应的特征元素集进行融合时,也可以使用求每个维度最大值的方式。接着上述举例,子数据中,特征位置(0,0)的特征元素分别为(0.35,0.60,0.37,0.62,0.41),多媒体数据中,该特征位置的特征元素分别为(0.45,0.56,0.47,0.54,0.61)。则基于求每个维度最大值的方式,确定特征位置(0,0)融合后的融合元素为(0.45,0.60,0.47,0.62,0.61),如图16所示。
又一些场景中,在对子数据对应的特征元素集与多媒体数据对应的特征元素集进行融合时,也可以将子数据对应的特征元素集与多媒体数据对应的特征元素集进行特征连接,并输入到全连接网络中,以获得多尺度的融合元素集。
基于上述方式,通过多尺度融合的方式,无论目标对象大小如何变化,均能提取到完整的目标对象的特征,进而可以提高标签分类结果的准确性。
本申请实施例中,多媒体数据可以为文本数据、图像数据、视频数据或者图文数据中的任意一种数据形式,本申请对此不作具体限定。
本申请实施例中,训练好的网络模型包括两个子网络,如文本子网络和图像子网络。其中,文本子网络可用于对文本数据进行属性特征提取,获得文本数据的属性特征。图像子网络用于对图像数据进行属性特征提取,得到图像数据的属性特征。
一些实施例中,当确定需要对多媒体数据进行待分类的标签后,可以确定文本子网络对应的待分类标签的标签特征,以及图像子网络对应的待分类标签的标签特征。进一步地,可以获取多媒体数据,并确定多媒体数据的数据类型后,可以将多媒体数据中的对应数据类型的数据输入到文本子网络和/或图像子网络。
基于上述方案,本申请中的网络模型可以对多模态数据进行处理,不局限于单一的文本数据形式或者图像数据形式,相较于仅能单一处理文本数据或图像数据的网络模型,本申请所提出的网络模型的数据处理能力更强。
作为一种举例,在确定待分类标签,并接收到多媒体数据后,先判断多媒体数据的数据类型。当确定多媒体数据的数据类型为文本数据类型时,将多媒体数据划分为多个文本子数据,并将文本数据和多个文本子数据输入文本子网络并进行特征属性特征提取,进而根据提取的属性特征确定文本数据针对各待分类标签的标签分类结果。
示例的,在确定待分类标签,并接收到多媒体数据后,先判断多媒体数据的数据类型。当确定多媒体数据的数据类型为图文数据类型时,将多媒体数据划分为文本数据和图像数据。针对文本数据,将文本数据划分为多个文本子数据,并将文本数据和多个文本子数据输入文本子网络并进行特征属性特征提取,进而根据提取的属性特征确定文本数据针对各待分类标签的文本标签结果。同理,针对图像数据,将图像数据划分为多个图像子数据,并将图像数据和多个图像子数据输入图像子网络并进行特征属性特征提取,进而根据提取的属性特征确定图像数据针对各待分类标签的图像标签结果。最后,根据文本标签结果和图像标签结果确定多媒体数据的标签分类结果。其中,针对文本数据的待分类标签和针对图像数据的待分类标签可以相同,也可以不同,本申请对此不作具体限定。
下面,以多媒体数据为图像数据,待分类标签为标签1和标签2为例,对本申请中的多媒体数据的标签分类方法进行详细说明,具体流程如下:
首先获得图像数据,并确定图像的图像尺寸。作为一种举例,获得的图像数据如图17所示。接着,可以采用滑动窗口的方式,从图像数据中截取子图像数据进行处理。其中,滑动窗口大小固定,窗口尺寸可以设置为图像数据的最小边长。作为一种举例,可以通过滑动窗口将图像数据划分为三个子图像数据,则分别将三个子图像数据,以及图像数据输入到训练好的网络中,以确定各个子图像数据以及图像数据分别针对标签1和标签2的概率值。其中,训练好的网络可以通过多尺度注意力特征提取网络实现。进而,根据每个标签分别对应的概率值,确定最终的标签分类结果,如图17所示。一些场景中,可以综合多个子图像数据和图像数据的分类结果,取每个标签的最大概率值作为最终的预测值,并根据最终的预测值确定图像数据的标签分类结果。
具体地,多尺度注意力特征提取网络的主干网络可以采用卷积神经网络、循环神经网络、亦或者基于transformer的多头注意力网络等,这里以卷积神经网络结构为例,对于一张输入图像数据,卷积神经网络输出一个三维的特征图。xy构成的空间对应空间域,z轴为特征维度。在获得输入图像数据的特征图后,可以将特征图与标签对应的特征向量进行卷积操作,获得对应标签的强响应区域,即注意力掩膜。如图18所示,高亮区域表示响应最为强烈,黑色区域表示没有响应。进一步地,可以将特征图与注意力掩膜点乘,并在空间域求和,从而获得对应标签所关注的特征,即标签特征。例如,待分类标签为人脸和猫,则标签对应的特征向量分别为人脸特征向量和猫特征向量。进一步地,将特征图与人脸特征向量进行卷积操作,得到人脸对应的注意力掩膜1。同理,将特征图与猫特征向量进行卷积操作,得到猫对应的注意力掩膜2。进而,通过特征图与注意力掩膜1进行点乘操作,并在空间域求和,得到人脸对应的注意力特征1,通过特征图与注意力掩膜2进行点乘操作,并在空间域求和,得到猫对应的注意力特征2,如图18所示。进而,分别通过注意力特征1和注意力特征2确定标签概率。
一些实施例中,在获得整个图像数据对应的注意力特征和子图像数据对应的注意力特征后,还可以将整个图像数据对应的注意力特征作为补充,通过求整个图像数据对应的注意力特征与子数据对应的注意力特征的平均值的方式,得到一个多尺度特征。
在平台进行多媒体数据传播时,多媒体数据可能存在标题低俗、标题黑产、标题党、着装暴露、惊悚、引人不适等问题。以多媒体数据为图像数据为例,可以将着装暴露、惊悚以及引人不适作为待分类标签,进而对图像数据进行标签分类,以确定图像数据是否存在着装暴露、惊悚以及引人不适的问题。当确定图像数据被判定为存在上述标签时,可以提醒审核人员进行二次审查,以降低图像数据从平台流露出去的风险。
基于相同的技术构思,参见图19所示,图19示例性地示出了本申请实施例提供的一种多媒体数据的标签分类装置1900。该装置1900包括:
划分单元1901,用于将待分类的多媒体数据划分为多个子数据;
提取单元1902,用于分别针对多媒体数据和多个子数据进行属性特征提取,获得相应的属性特征;
确定单元1903,用于将多个子数据中的每个子数据和多媒体数据依次作为目标数据,针对每个目标数据,分别执行以下操作:基于目标数据的属性特征和各待分类标签各自的标签特征,分别确定各待分类标签各自在目标数据的属性特征中关联的特征元素集;根据各目标数据各自对应的特征元素集,确定多媒体数据针对各待分类标签的标签分类结果。
在一种可能的实现方式中,确定单元1903,在基于目标数据的属性特征和各待分类标签各自的标签特征,分别确定各待分类标签各自在目标数据的属性特征中关联的特征元素集时,具体用于:
针对各待分类标签,分别执行以下操作:
基于所述待分类标签的标签特征,确定所述目标数据的属性特征中,与所述标签特征关联的目标特征位置集;所述目标特征位置集用于表示所述目标数据的属性特征中与所述标签特征关联的特征元素所处的特征位置集合;
提取单元1902,还用于根据所述目标特征位置集,从所述目标数据的属性特征中,将与所述待分类标签关联的特征元素提取到特征元素集中。
在一种可能的实现方式中,确定单元1903,在基于待分类标签的标签特征,确定目标数据的属性特征中,与标签特征关联的目标特征位置集时,具体用于:
将待分类标签的标签特征,与目标数据的属性特征进行卷积操作,获得相应的掩码矩阵;
基于标签特征对应的掩码矩阵,确定与标签特征相关联的目标特征位置集;其中,掩码矩阵包含的各矩阵元素与属性特征包含的各特征元素一一对应,且每个矩阵元素的取值,用于指示相应的特征元素所处的特征位置是否为目标特征位置。
在一种可能的实现方式中,确定单元1903,在基于待分类标签的标签特征,确定目标数据的属性特征中,与标签特征关联的目标特征位置集时,具体用于:
将目标数据的属性特征中每个特征位置对应的特征元素,与待分类标签的标签特征进行特征拼接,得到待分类标签各自对应的拼接特征集;
基于待分类标签各自对应的拼接特征集,确定标签特征对应的掩码矩阵;
基于标签特征对应的掩码矩阵,确定与标签特征相关联的目标特征位置集;其中,掩码矩阵包含的各矩阵元素与属性特征包含的各特征元素一一对应,且每个矩阵元素的取值,用于指示相应的特征元素所处的特征位置是否为目标特征位置。
在一种可能的实现方式中,提取单元1902,在根据目标特征位置集,从目标数据的属性特征中,将与待分类标签关联的特征元素提取到特征元素集中时,具体用于:
将标签特征对应的掩码矩阵,与目标数据的属性特征进行点乘操作,得到目标数据的属性特征中,位于目标特征位置集中各目标特征位置上的特征元素;
将各目标特征位置上的特征元素,作为与待分类标签关联的特征元素。
在一种可能的实现方式中,确定单元1903,在根据各目标数据各自对应的特征元素集,确定多媒体数据针对各待分类标签的标签分类结果时,具体用于:
针对各目标数据,分别执行以下操作:基于一个目标数据对应的特征元素集,分别获得一个目标数据命中各待分类标签的标签概率,得到一个目标数据对应的标签概率集;
基于获得的各标签概率集,获得多媒体数据针对各待分类标签的标签分类结果。
在一种可能的实现方式中,当目标数据为子数据时,确定单元1903,在基于一个目标数据对应的特征元素集,分别获得一个目标数据命中各待分类标签的标签概率时,具体用于:
将一个子数据对应的特征元素集与多媒体数据对应的特征元素集进行融合,得到一个子数据对应的融合元素集;
基于一个子数据的融合元素集,分别确定一个子数据命中各待分类标签的标签概率。
在一种可能的实现方式中,标签分类结果为标签结果集;确定单元1903,在基于获得的各标签概率集,获得多媒体数据针对各待分类标签的标签分类结果时,具体用于:
针对每个待分类标签,执行以下操作:基于获得的各标签概率集,当确定一个待分类标签对应的标签概率中,存在大于第一设定概率阈值的标签概率时,将一个待分类标签保存在标签结果集中;
将标签结果集,作为多媒体数据针对各待分类标签的标签分类结果。
在一种可能的实现方式中,标签分类结果包括各待分类标签各自对应的目标概率,每个待分类标签对应的目标概率为:各目标数据针对同一待分类标签的最大标签概率。
在一种可能的实现方式中,标签分类结果为:每个待分类标签所对应的标签概率的集合,或者,标签分类结果为每个待分类标签对应的标签概率中,达到第二设定概率阈值的标签概率的集合。
在一种可能的实现方式中,划分单元1901,在将待分类的多媒体数据划分为多个子数据时,具体用于:
基于设定尺寸的滑动窗口,按照设定步长的滑动方式,将待分类的多媒体数据划分为多个子数据;或者,采用随机窗口切分方式,将待分类的多媒体数据划分为多个子数据。
为了描述的方便,以上各部分按照功能划分为各单元(或模块)分别描述。当然,在实施本申请时可以把各单元(或模块)的功能在同一个或多个软件或硬件中实现。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
在介绍了本申请示例性实施方式的多媒体数据的标签分类方法和装置之后,接下来,介绍根据本申请的另一示例性实施方式的用于多媒体数据的标签分类的电子设备。
与本申请上述方法实施例基于同一发明构思,本申请实施例中还提供了一种电子设备,该电子设备可以是服务器。在该实施例中,电子设备的结构可以如图20所示,包括存储器2001,以及一个或多个处理器2002。
存储器2001,用于存储处理器2002执行的计算机程序。存储器2001可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器2001可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器2001也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者存储器2001是能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质,但不限于此。存储器2001可以是上述存储器的组合。
处理器2002,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器2002,用于调用存储器2001中存储的计算机程序时实现上述多媒体数据的标签分类方法。
本申请实施例中不限定上述存储器2001和处理器2002之间的具体连接介质。本申请实施例在图20中以存储器2001和处理器2002之间通过总线2003连接,总线2003在图20中以粗线描述,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线2003可以分为地址总线、数据总线、控制总线等。为便于描述,图20中仅用一条粗线描述,但并不描述仅有一根总线或一种类型的总线。
存储器2001中存储有计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于实现本申请实施例的多媒体数据的标签分类方法。处理器2002用于执行上述的多媒体数据的标签分类方法。
在一些可能的实施方式中,本申请提供的多媒体数据的标签分类方法的各个方面还可以实现为一种程序产品的形式,其包括计算机程序,当程序产品在电子设备上运行时,计算机程序用于使电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的多媒体数据的标签分类方法中的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括计算机程序,并可以在计算装置上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的计算机程序可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
应当注意,尽管在上文详细描述中提及了装置的若干单元或子单元,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之,上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。
此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (12)

1.一种多媒体数据的标签分类方法,其特征在于,包括:
将待分类的多媒体数据划分为多个子数据;
分别针对所述多媒体数据和所述多个子数据进行属性特征提取,获得相应的属性特征;
将所述多个子数据中的每个子数据和所述多媒体数据依次作为目标数据,针对每个目标数据,分别执行以下操作:基于所述目标数据的属性特征和各待分类标签各自的标签特征,分别确定所述各待分类标签各自在所述目标数据的属性特征中关联的特征元素集;
根据各目标数据各自对应的特征元素集,确定所述多媒体数据针对所述各待分类标签的标签分类结果;
根据各目标数据各自对应的特征元素集,确定所述多媒体数据针对所述各待分类标签的标签分类结果,包括:
针对所述各目标数据,分别执行以下操作:基于一个目标数据对应的特征元素集,分别获得所述一个目标数据命中所述各待分类标签的标签概率,得到所述一个目标数据对应的标签概率集;
基于获得的各标签概率集,获得所述多媒体数据针对所述各待分类标签的标签分类结果;
其中,当所述目标数据为子数据时,所述基于一个目标数据对应的特征元素集,分别获得所述一个目标数据命中所述各待分类标签的标签概率,包括:
将一个子数据对应的特征元素集与所述多媒体数据对应的特征元素集进行融合,得到所述一个子数据对应的融合元素集;
基于所述一个子数据的融合元素集,分别确定所述一个子数据命中所述各待分类标签的标签概率。
2.如权利要求1所述的方法,其特征在于,所述基于所述目标数据的属性特征和各待分类标签各自的标签特征,分别确定所述各待分类标签各自在一个目标数据的属性特征中关联的特征元素集,包括:
针对各待分类标签中的每个待分类标签,分别执行以下操作:
基于所述待分类标签的标签特征,确定所述目标数据的属性特征中,与所述标签特征关联的目标特征位置集;所述目标特征位置集用于表示所述目标数据的属性特征中与所述标签特征关联的特征元素所处的特征位置集合;
根据所述目标特征位置集,从所述目标数据的属性特征中,将与所述待分类标签关联的特征元素提取到特征元素集中。
3.如权利要求2所述的方法,其特征在于,所述基于所述待分类标签的标签特征,确定所述目标数据的属性特征中,与所述标签特征关联的目标特征位置集,包括:
将所述待分类标签的标签特征,与所述目标数据的属性特征进行卷积操作,获得相应的掩码矩阵;
基于所述标签特征的掩码矩阵,确定与所述标签特征相关联的目标特征位置集;其中,所述掩码矩阵包含的各矩阵元素与所述属性特征包含的各特征元素一一对应,且每个矩阵元素的取值,用于指示相应的特征元素所处的特征位置是否为目标特征位置。
4.如权利要求2所述的方法,其特征在于,所述基于所述待分类标签的标签特征,确定所述目标数据的属性特征中,与所述标签特征关联的目标特征位置集,包括:
将所述目标数据的属性特征中每个特征位置对应的特征元素,与所述待分类标签的标签特征进行特征拼接,得到所述待分类标签对应的拼接特征集;
基于所述待分类标签对应的拼接特征集,确定所述标签特征对应的掩码矩阵;
基于所述标签特征对应的掩码矩阵,确定与所述标签特征相关联的目标特征位置集;其中,所述掩码矩阵包含的各矩阵元素与所述属性特征包含的各特征元素一一对应,且每个矩阵元素的取值,用于指示相应的特征元素所处的特征位置是否为目标特征位置。
5.如权利要求3或4所述的方法,其特征在于,所述根据所述目标特征位置集,从所述目标数据的属性特征中,将与所述待分类标签关联的特征元素提取到特征元素集中,包括:
将所述标签特征对应的掩码矩阵,与所述目标数据的属性特征进行点乘操作,得到所述目标数据的属性特征中,位于所述目标特征位置集中各目标特征位置上的特征元素;
将所述各目标特征位置上的特征元素,作为与所述待分类标签关联的特征元素并保存到特征元素集中。
6.如权利要求1所述的方法,其特征在于,所述标签分类结果为标签结果集;
所述基于获得的各标签概率集,获得所述多媒体数据针对所述各待分类标签的标签分类结果,包括:
针对每个待分类标签,执行以下操作:基于获得的各标签概率集,当确定一个待分类标签对应的标签概率中,存在大于第一设定概率阈值的标签概率时,将所述一个待分类标签保存在所述标签结果集中;
将所述标签结果集,作为所述多媒体数据针对所述各待分类标签的标签分类结果。
7.如权利要求1所述的方法,其特征在于,所述标签分类结果包括各待分类标签各自对应的目标概率,每个待分类标签对应的目标概率为:各目标数据针对同一待分类标签的最大标签概率。
8.如权利要求1所述的方法,其特征在于,所述标签分类结果为:每个待分类标签所对应的标签概率的集合,或者,所述标签分类结果为每个待分类标签对应的标签概率中,达到第二设定概率阈值的标签概率的集合。
9.如权利要求1-4任一项所述的方法,其特征在于,所述将待分类的多媒体数据划分为多个子数据,包括:
基于设定尺寸的滑动窗口,按照设定步长的滑动方式,将所述待分类的多媒体数据划分为多个子数据;或者,
采用随机窗口切分方式,将所述待分类的多媒体数据划分为多个子数据。
10.一种多媒体数据的标签分类装置,其特征在于,包括:
划分单元,用于将待分类的多媒体数据划分为多个子数据;
提取单元,用于分别针对所述多媒体数据和所述多个子数据进行属性特征提取,获得相应的属性特征;
确定单元,用于将所述多个子数据中的每个字数据和所述多媒体数据依次作为目标数据,针对每个目标数据,分别执行以下操作:基于所述目标数据的属性特征和各待分类标签各自的标签特征,分别确定所述各待分类标签各自在所述目标数据的属性特征中关联的特征元素集;
根据各目标数据各自对应的特征元素集,确定所述多媒体数据针对所述各待分类标签的标签分类结果;
所述确定单元,在根据各目标数据各自对应的特征元素集,确定所述多媒体数据针对所述各待分类标签的标签分类结果时,具体用于:
针对所述各目标数据,分别执行以下操作:基于一个目标数据对应的特征元素集,分别获得所述一个目标数据命中所述各待分类标签的标签概率,得到所述一个目标数据对应的标签概率集;
基于获得的各标签概率集,获得所述多媒体数据针对所述各待分类标签的标签分类结果;
其中,当所述目标数据为子数据时,所述确定单元,在基于一个目标数据对应的特征元素集,分别获得所述一个目标数据命中所述各待分类标签的标签概率时,具体用于:
将一个子数据对应的特征元素集与所述多媒体数据对应的特征元素集进行融合,得到所述一个子数据对应的融合元素集;
基于所述一个子数据的融合元素集,分别确定所述一个子数据命中所述各待分类标签的标签概率。
11.一种电子设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储计算机指令;
所述处理器,用于获取存储在所述存储器中的计算机指令,并按照计算机指令执行权利要求1-9任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被处理器执行时,实现权利要求1-9任一项所述的方法。
CN202410027564.8A 2024-01-09 2024-01-09 一种多媒体数据的标签分类方法、装置、设备及介质 Active CN117540306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410027564.8A CN117540306B (zh) 2024-01-09 2024-01-09 一种多媒体数据的标签分类方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410027564.8A CN117540306B (zh) 2024-01-09 2024-01-09 一种多媒体数据的标签分类方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN117540306A CN117540306A (zh) 2024-02-09
CN117540306B true CN117540306B (zh) 2024-04-09

Family

ID=89794192

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410027564.8A Active CN117540306B (zh) 2024-01-09 2024-01-09 一种多媒体数据的标签分类方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN117540306B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177392A (zh) * 2019-12-31 2020-05-19 腾讯云计算(北京)有限责任公司 一种数据处理方法及装置
CN112749293A (zh) * 2020-06-05 2021-05-04 腾讯科技(北京)有限公司 一种图像分类方法、装置及存储介质
CN112766368A (zh) * 2021-01-18 2021-05-07 咪咕音乐有限公司 一种数据分类方法、设备和可读存储介质
CN112883731A (zh) * 2021-04-29 2021-06-01 腾讯科技(深圳)有限公司 内容分类方法和装置
CN115131604A (zh) * 2022-05-27 2022-09-30 腾讯科技(深圳)有限公司 一种多标签图像分类方法、装置、电子设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111177392A (zh) * 2019-12-31 2020-05-19 腾讯云计算(北京)有限责任公司 一种数据处理方法及装置
CN112749293A (zh) * 2020-06-05 2021-05-04 腾讯科技(北京)有限公司 一种图像分类方法、装置及存储介质
CN112766368A (zh) * 2021-01-18 2021-05-07 咪咕音乐有限公司 一种数据分类方法、设备和可读存储介质
CN112883731A (zh) * 2021-04-29 2021-06-01 腾讯科技(深圳)有限公司 内容分类方法和装置
CN115131604A (zh) * 2022-05-27 2022-09-30 腾讯科技(深圳)有限公司 一种多标签图像分类方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN117540306A (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
CN111898696B (zh) 伪标签及标签预测模型的生成方法、装置、介质及设备
CN108509915B (zh) 人脸识别模型的生成方法和装置
CN108229419B (zh) 用于聚类图像的方法和装置
CN111582409A (zh) 图像标签分类网络的训练方法、图像标签分类方法及设备
US20240177462A1 (en) Few-shot object detection method
CN114241505B (zh) 化学结构图像的提取方法、装置、存储介质及电子设备
CN115861462B (zh) 图像生成模型的训练方法、装置、电子设备及存储介质
CN113011387B (zh) 网络训练及人脸活体检测方法、装置、设备及存储介质
CN113159013B (zh) 基于机器学习的段落识别方法、装置、计算机设备和介质
CN112818995B (zh) 图像分类方法、装置、电子设备及存储介质
CN116994021A (zh) 图像检测方法、装置、计算机可读介质及电子设备
CN113569855A (zh) 一种舌象分割方法、设备及存储介质
CN113537187A (zh) 文本识别方法、装置、电子设备及可读存储介质
CN112183303A (zh) 变电设备图像分类方法、装置、计算机设备和介质
CN117540306B (zh) 一种多媒体数据的标签分类方法、装置、设备及介质
CN114863450B (zh) 图像处理方法、装置、电子设备及存储介质
CN113723515B (zh) 基于图像识别的摩尔纹识别方法、装置、设备及介质
CN112487943B (zh) 关键帧去重的方法、装置和电子设备
CN115115910A (zh) 图像处理模型的训练方法、使用方法、装置、设备及介质
CN115905605A (zh) 一种数据处理方法、设备以及计算机可读存储介质
CN113569809A (zh) 一种图像处理方法、设备及计算机可读存储介质
Gupta et al. Artificial Eye for the Visually Impaired
CN118116005A (zh) 自然语言处理方法及相关装置
CN116912418A (zh) 虚拟面部模型的生成方法、装置、电子设备及存储介质
CN117634422A (zh) 基于人工智能的字体生成方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant