CN116956128A

CN116956128A - 一种基于超图的多模态多标签分类方法及系统

Info

Publication number: CN116956128A
Application number: CN202310900636.0A
Authority: CN
Inventors: 范强; 严浩; 周晓磊; 张骁雄; 王芳潇; 陆斌; 华悦琳
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-10-27

Abstract

本发明公开了一种基于超图的多模态多标签分类方法及系统，分类方法步骤包括从原始数据中提取特征表示，并构建图像特征空间和文本特征空间，每一个所述原始数据包括文本和图像两种模态数据；基于图像特征空间，利用基于距离的方法来生成图像超图结构；基于文本特征空间，利用基于距离的方法来生成文本超图结构；将文本超图结构和图像超图结构利用关联矩阵M拼接起来形成最终的多模态超图关联矩阵H，得到多模态超图；对多模态超图进行卷积运算，得到更具表征性的特征表示，并将更具表征性的特征表示输入至全连接层实现标签预测。本发明利用超图卷积和多模态特征融合方法，实现多模态数据关系挖掘和特征识别，提高了多模态多标签分类的性能。

Description

一种基于超图的多模态多标签分类方法及系统

技术领域

本发明涉及多模态多标签分类技术领域，具体为一种基于超图的多模态多标签分类方法及系统。

背景技术

多模态多标签分类任务作为多模态研究领域中一项具有挑战性的任务，它要求综合利用不同模态的中的互补信息，实现多个标签或类别的预测。借助多模态数据信息丰富的优势，多模态多标签分类在社交媒体内容分析、情感分析、医学图像诊断等多个领域中具有广泛的应用前景。

相较于单模态多标签分类，多模态多标签分类任务需要对多源异构的数据进行处理和特征提取，同时需要对不同模态之间的特征进行融合应用，具有更大的复杂性。此外，如何利用不同模态数据之间的关联信息，以提高多标签分类方法的性能，也是亟待解决的问题之一。

现有技术中，多采用图卷积神经网络进行多标签分类，但GNN中的图结构主要关注数据对象之间的一对一关系，针对现实世界存在的非成对关系和高阶相关性却难以处理。

发明内容

本发明的目的在于提供一种基于超图的多模态多标签分类方法及系统，引入超图模型对多模态数据的高阶关联进行建模，利用超图卷积和多模态特征融合方法，实现多模态数据关系挖掘和特征识别，提高了多模态多标签分类的性能。

为了解决上述技术问题，本发明提供如下技术方案：一种基于超图的多模态多标签分类方法的步骤包括：

从原始数据中提取特征表示，并构建图像特征空间和文本特征空间，每一个所述原始数据包括文本和图像两种模态数据；

基于图像特征空间，利用基于距离的方法来生成图像超图结构；基于文本特征空间，利用基于距离的方法来生成文本超图结构；

将文本超图结构和图像超图结构利用关联矩阵拼接起来形成最终的多模态超图关联矩阵H，得到多模态超图；

对多模态超图进行卷积运算，得更具表征性的特征表示，并将更具表征性的特征表示输入至全连接层实现标签预测。

根据上述技术方案，利用视觉编辑器通过深度学习模型提取所述图像数据的特征表示；利用文本编码器通过循环神经网络或预训练语言模型提取所述文本数据的特征表示。

视觉编码器可采用预训练的VGG19网络模型，通过删除VGG19网络的最后一个全连接层来截断VGG19网络；且对原始图像进行了预处理操作，以便与VGG19网络的输入要求相匹配具体为：首先进行图片通道转换，将单通道和四通道图像统一转换为三通道，接着将图片尺寸缩放至224*224像素，最后对像素值进行归一化处理。

文本编码器可采用预训练模型Sentence-Bert。

根据上述技术方案，所述图像超图结构生成的步骤包括：

每一个图像数据的特征表示看做一个节点，分别以每个节点为质心，寻找在图像特征空间中的K个最近邻节点，然后构建一条超边来连接该质心节点和最其近邻节点，形成一条连接K+1个节点的超边；

所述文本超图结构生成的步骤包括：

每一个文本数据的特征表示看做一个节点，分别以每个节点为质心，寻找在文本特征空间中的K个最近邻节点，然后构建一条超边来连接该质心节点和最其近邻节点，形成一条连接K+1个节点的超边。

根据上述技术方案，为了对多模态数据进行分类，采用早期融合策略，将两种模态的特征直接连接在一起，形成一个整体的特征向量，所述多模态超图关联矩阵H表示为：

H＝H_img⊕H_text；

其中，H_img表示为图像超图结构的邻接矩阵，H_text表示为文本超图结构的邻接矩阵，⊕表示为关联矩阵M的拼接操作。

根据上述技术方案，通过考虑超边所连接的多个节点之间的关系，对特征进行精细化处理，对多模态超图进行卷积运算，所述多模态超图进行卷积公式为：

其中，X^(l+1)表示第l+1层的特征输出，X^(l)表示第l层的特征输入，σ表示非线性激活函数，θ^(l)表示第l层的学习参数，D_v表示顶点的度矩阵，D_e表示超边的度矩阵，W＝diag(w₁,w₂,...,w_n)表示n条超边的权重值，初始化为单位矩阵，H表示为多模态超图关联矩阵，H^T表示为模态超图关联矩阵的转置矩阵。

根据上述技术方案，将更具表征性的特征表示输入至所述全连接层，通过全连接层的Sigmoid激活函数，得到相应的概率值，并将概率值与概率阈值T进行比较，将概率值大于概率阈值T的标签作为预测的标签结果。

一种基于超图的多模态多标签分类系统包括：

特征提取模块，包括视觉编码器和文本编码器，用于从原始数据中提取特征表示，并构建图像特征空间和文本特征空间，每一个所述原始数据包括文本和图像两种模态数据；

超图构建模块，针对图像和文本两种模态的特征，分别构建单模态特征的超图，然后拼接所有模态对应的超图，形成多模态超图；

标签预测模块，包括两个超图卷积层和一个全连接层，通过两个超图卷积层完成多模态超图卷积运算，得更具表征性的特征表示，并通过全连接层来实现标签预测。超图卷积层能够捕获高阶特征关联信息，生成更具表征性的特征表示。

与现有技术相比，本发明所达到的有益效果是：本发明引入超图结构对多模态数据的关系进行建模，并利用多模态特征融合方法和超图卷积运算实现特征识别和高阶关联信息挖掘，提高了多模态多标签分类的性能，并在准确率、精度、海明损失上均有一定的提升。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明一种基于超图的多模态多标签分类方法的整体框架。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供技术方案，一种基于超图的多模态多标签分类方法，其步骤包括：

S1、从原始数据中提取特征表示，并构建图像特征空间和文本特征空间，每一个所述原始数据包括文本和图像两种模态数据，具体为：利用视觉编辑器通过深度学习模型提取所述图像数据的特征表示；利用文本编码器通过循环神经网络或预训练语言模型提取所述文本数据的特征表示。

S2、基于图像特征空间，利用基于距离的方法来生成图像超图结构；基于文本特征空间，利用基于距离的方法来生成文本超图结构；

其中，图像超图结构生成的步骤包括：每一个图像数据的特征表示看做一个节点，分别以每个节点为质心，寻找在图像特征空间中的K个最近邻节点，然后构建一条超边来连接该质心节点和最其近邻节点，形成一条连接K+1个节点的超边；

文本超图结构生成的步骤包括：每一个文本数据的特征表示看做一个节点，分别以每个节点为质心，寻找在文本特征空间中的K个最近邻节点，然后构建一条超边来连接该质心节点和最其近邻节点，形成一条连接K+1个节点的超边。

S3、将文本超图结构和图像超图结构利用关联矩阵拼接起来形成最终的多模态超图关联矩阵H，得到多模态超图；多模态超图关联矩阵H表示为：

H＝H_img⊕H_text；

S4、对多模态超图进行卷积运算，得更具表征性的特征表示，将更具表征性的特征表示输入至所述全连接层，通过全连接层的Sigmoid激活函数，得到相应的概率值，并将概率值与概率阈值T进行比较，将概率值大于概率阈值T的标签作为预测的标签结果。

其中，多模态超图进行卷积公式为：

还包括另一实施例，一种基于超图的多模态多标签分类系统，包括：

标签预测模块，包括两个超图卷积层和一个全连接层，通过两个超图卷积层完成多模态超图卷积运算，得更具表征性的特征表示，并通过全连接层来实现标签预测。

实施例1

数据集包括25959部电影作品及其情节、海报、类型和额外的元数据字段，元数据字段包括如年份、语言、导演等等,每个数据点含有文本和图像两种模态数据，具体内容分别为电影情节概要和电影海报图片。

对于原始的视觉信号，使用VGG-19预训练模型提取图像特征，特征向量的维度为4096。对于原始文本信号，采用Sentence Bert提取文本特征，获得384维的句向量表示。影视类型共有23种，包含‘Action’、‘Adventure’、‘Comedy’、‘Crime’、‘Drama’、‘Romance’、‘Documentary’、‘Mystery’等。采用多标签交叉验证MultilabelStratifiedKFold方法，划分数据集，在该数据集中，70％的数据用于训练，另外30％的数据用于测试。

将每部影视作品视为超图的节点，K取值为9，即每条超边连接10个节点，分别构建图像和文本模态特征下的超图结构H_img、H_text。由于影视作品含有相关元数据，可以引入导演信息，将同一导演执导的影视作品连接起来，形成导演信息的超图H_dir。通过连接三个超图的邻接矩阵，形成多模态超图H。⊕表示关联矩阵M的拼接操作，则H如下表示：

H＝H_img⊕H_text⊕H_dir；

将多模态超图H输入到标签预测模块的输入层，经过超图卷积层中的卷积运算，并通过全连接层实现标签预测。其中，0.001作为初始学习率，权重衰减值设为0.0005，概率阈值T设置为0.5。

对比例1

基于实施例1的数据集，将本发明一种基于超图的多模态多标签分类方法(Ours)分别与经典的一阶策略方法Binary Relevance(BR)、ML-KNN和高阶策略方法ClassifierChains(CC)通过准确率(Accuracy)、精度(Precision)、F1度量值(F1-measure)和HammingLoss海明损失4个评价指标进行比较，结果如表1所示。

表1 4种算法的评价指标结果

由上述实验结果可以看出，本专利提出的方法，在4种评价指标上，相比性能更优的CC方法，分别提升了0.139、0.154、0.169、0.012。

对比例2

为了验证超图卷积运算的有效性，本实施例进行了消融实验，将一种基于超图的多模态多标签分类方法与本发明去除了卷积运算的网络进行对比，其中Withoutconvolution表示不使用超图卷积运算的网络，实验结果如表2所示。

表2超图卷积的消融实验结果

表2的实验结果表明，在去除超图卷积运算后，准确率为36％、精度为57.8％、F1值为0.454，海明损失为0.092，相较于原网络，前三项指标分别下降了12.2％、11.89％、10.47％，海明损失上升了9.52％。因此，说明基于超图的卷积运算能够利用数据对象的复杂关系，从而优化特征表示提升多标签分类性能。基于消融实验的结果，验证了引入超图卷积运算的有效性。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于超图的多模态多标签分类方法，其特征在于，步骤包括：

将文本超图结构和图像超图结构利用关联矩阵M拼接起来形成最终的多模态超图关联矩阵H，得到多模态超图；

2.根据权利要求1所述的一种基于超图的多模态多标签分类方法，其特征在于，利用视觉编辑器通过深度学习模型提取所述图像数据的特征表示；利用文本编码器通过循环神经网络或预训练语言模型提取所述文本数据的特征表示。

3.根据权利要求1所述的一种基于超图的多模态多标签分类方法，其特征在于，所述图像超图结构生成的步骤包括：

所述文本超图结构生成的步骤包括：

4.根据权利要求1所述的一种基于超图的多模态多标签分类方法，其特征在于，所述多模态超图关联矩阵H表示为：

其中，H_img表示为图像超图结构的邻接矩阵，H_text表示为文本超图结构的邻接矩阵，⊕表示关联矩阵M的拼接操作。

5.根据权利要求1所述的一种基于超图的多模态多标签分类方法，其特征在于，所述多模态超图进行卷积公式为：

6.根据权利要求1所述的一种基于超图的多模态多标签分类方法，其特征在于，将更具表征性的特征表示输入至所述全连接层，通过全连接层的Sigmoid激活函数，得到相应的概率值，并将概率值与概率阈值T进行比较，将概率值大于概率阈值T的标签作为预测的标签结果。

7.一种基于超图的多模态多标签分类系统，其特征在于，包括：

特征提取模块，包括视觉编码器和文本编码器，用于从原始数据中提取特征表示；