CN116956128A - 一种基于超图的多模态多标签分类方法及系统 - Google Patents

一种基于超图的多模态多标签分类方法及系统 Download PDF

Info

Publication number
CN116956128A
CN116956128A CN202310900636.0A CN202310900636A CN116956128A CN 116956128 A CN116956128 A CN 116956128A CN 202310900636 A CN202310900636 A CN 202310900636A CN 116956128 A CN116956128 A CN 116956128A
Authority
CN
China
Prior art keywords
hypergraph
mode
text
image
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310900636.0A
Other languages
English (en)
Inventor
范强
严浩
周晓磊
张骁雄
王芳潇
陆斌
华悦琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202310900636.0A priority Critical patent/CN116956128A/zh
Publication of CN116956128A publication Critical patent/CN116956128A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于超图的多模态多标签分类方法及系统,分类方法步骤包括从原始数据中提取特征表示,并构建图像特征空间和文本特征空间,每一个所述原始数据包括文本和图像两种模态数据;基于图像特征空间,利用基于距离的方法来生成图像超图结构;基于文本特征空间,利用基于距离的方法来生成文本超图结构;将文本超图结构和图像超图结构利用关联矩阵M拼接起来形成最终的多模态超图关联矩阵H,得到多模态超图;对多模态超图进行卷积运算,得到更具表征性的特征表示,并将更具表征性的特征表示输入至全连接层实现标签预测。本发明利用超图卷积和多模态特征融合方法,实现多模态数据关系挖掘和特征识别,提高了多模态多标签分类的性能。

Description

一种基于超图的多模态多标签分类方法及系统
技术领域
本发明涉及多模态多标签分类技术领域,具体为一种基于超图的多模态多标签分类方法及系统。
背景技术
多模态多标签分类任务作为多模态研究领域中一项具有挑战性的任务,它要求综合利用不同模态的中的互补信息,实现多个标签或类别的预测。借助多模态数据信息丰富的优势,多模态多标签分类在社交媒体内容分析、情感分析、医学图像诊断等多个领域中具有广泛的应用前景。
相较于单模态多标签分类,多模态多标签分类任务需要对多源异构的数据进行处理和特征提取,同时需要对不同模态之间的特征进行融合应用,具有更大的复杂性。此外,如何利用不同模态数据之间的关联信息,以提高多标签分类方法的性能,也是亟待解决的问题之一。
现有技术中,多采用图卷积神经网络进行多标签分类,但GNN中的图结构主要关注数据对象之间的一对一关系,针对现实世界存在的非成对关系和高阶相关性却难以处理。
发明内容
本发明的目的在于提供一种基于超图的多模态多标签分类方法及系统,引入超图模型对多模态数据的高阶关联进行建模,利用超图卷积和多模态特征融合方法,实现多模态数据关系挖掘和特征识别,提高了多模态多标签分类的性能。
为了解决上述技术问题,本发明提供如下技术方案:一种基于超图的多模态多标签分类方法的步骤包括:
从原始数据中提取特征表示,并构建图像特征空间和文本特征空间,每一个所述原始数据包括文本和图像两种模态数据;
基于图像特征空间,利用基于距离的方法来生成图像超图结构;基于文本特征空间,利用基于距离的方法来生成文本超图结构;
将文本超图结构和图像超图结构利用关联矩阵拼接起来形成最终的多模态超图关联矩阵H,得到多模态超图;
对多模态超图进行卷积运算,得更具表征性的特征表示,并将更具表征性的特征表示输入至全连接层实现标签预测。
根据上述技术方案,利用视觉编辑器通过深度学习模型提取所述图像数据的特征表示;利用文本编码器通过循环神经网络或预训练语言模型提取所述文本数据的特征表示。
视觉编码器可采用预训练的VGG19网络模型,通过删除VGG19网络的最后一个全连接层来截断VGG19网络;且对原始图像进行了预处理操作,以便与VGG19网络的输入要求相匹配具体为:首先进行图片通道转换,将单通道和四通道图像统一转换为三通道,接着将图片尺寸缩放至224*224像素,最后对像素值进行归一化处理。
文本编码器可采用预训练模型Sentence-Bert。
根据上述技术方案,所述图像超图结构生成的步骤包括:
每一个图像数据的特征表示看做一个节点,分别以每个节点为质心,寻找在图像特征空间中的K个最近邻节点,然后构建一条超边来连接该质心节点和最其近邻节点,形成一条连接K+1个节点的超边;
所述文本超图结构生成的步骤包括:
每一个文本数据的特征表示看做一个节点,分别以每个节点为质心,寻找在文本特征空间中的K个最近邻节点,然后构建一条超边来连接该质心节点和最其近邻节点,形成一条连接K+1个节点的超边。
根据上述技术方案,为了对多模态数据进行分类,采用早期融合策略,将两种模态的特征直接连接在一起,形成一个整体的特征向量,所述多模态超图关联矩阵H表示为:
H=Himg⊕Htext
其中,Himg表示为图像超图结构的邻接矩阵,Htext表示为文本超图结构的邻接矩阵,⊕表示为关联矩阵M的拼接操作。
根据上述技术方案,通过考虑超边所连接的多个节点之间的关系,对特征进行精细化处理,对多模态超图进行卷积运算,所述多模态超图进行卷积公式为:
其中,X(l+1)表示第l+1层的特征输出,X(l)表示第l层的特征输入,σ表示非线性激活函数,θ(l)表示第l层的学习参数,Dv表示顶点的度矩阵,De表示超边的度矩阵,W=diag(w1,w2,...,wn)表示n条超边的权重值,初始化为单位矩阵,H表示为多模态超图关联矩阵,HT表示为模态超图关联矩阵的转置矩阵。
根据上述技术方案,将更具表征性的特征表示输入至所述全连接层,通过全连接层的Sigmoid激活函数,得到相应的概率值,并将概率值与概率阈值T进行比较,将概率值大于概率阈值T的标签作为预测的标签结果。
一种基于超图的多模态多标签分类系统包括:
特征提取模块,包括视觉编码器和文本编码器,用于从原始数据中提取特征表示,并构建图像特征空间和文本特征空间,每一个所述原始数据包括文本和图像两种模态数据;
超图构建模块,针对图像和文本两种模态的特征,分别构建单模态特征的超图,然后拼接所有模态对应的超图,形成多模态超图;
标签预测模块,包括两个超图卷积层和一个全连接层,通过两个超图卷积层完成多模态超图卷积运算,得更具表征性的特征表示,并通过全连接层来实现标签预测。超图卷积层能够捕获高阶特征关联信息,生成更具表征性的特征表示。
与现有技术相比,本发明所达到的有益效果是:本发明引入超图结构对多模态数据的关系进行建模,并利用多模态特征融合方法和超图卷积运算实现特征识别和高阶关联信息挖掘,提高了多模态多标签分类的性能,并在准确率、精度、海明损失上均有一定的提升。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明一种基于超图的多模态多标签分类方法的整体框架。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供技术方案,一种基于超图的多模态多标签分类方法,其步骤包括:
S1、从原始数据中提取特征表示,并构建图像特征空间和文本特征空间,每一个所述原始数据包括文本和图像两种模态数据,具体为:利用视觉编辑器通过深度学习模型提取所述图像数据的特征表示;利用文本编码器通过循环神经网络或预训练语言模型提取所述文本数据的特征表示。
S2、基于图像特征空间,利用基于距离的方法来生成图像超图结构;基于文本特征空间,利用基于距离的方法来生成文本超图结构;
其中,图像超图结构生成的步骤包括:每一个图像数据的特征表示看做一个节点,分别以每个节点为质心,寻找在图像特征空间中的K个最近邻节点,然后构建一条超边来连接该质心节点和最其近邻节点,形成一条连接K+1个节点的超边;
文本超图结构生成的步骤包括:每一个文本数据的特征表示看做一个节点,分别以每个节点为质心,寻找在文本特征空间中的K个最近邻节点,然后构建一条超边来连接该质心节点和最其近邻节点,形成一条连接K+1个节点的超边。
S3、将文本超图结构和图像超图结构利用关联矩阵拼接起来形成最终的多模态超图关联矩阵H,得到多模态超图;多模态超图关联矩阵H表示为:
H=Himg⊕Htext
其中,Himg表示为图像超图结构的邻接矩阵,Htext表示为文本超图结构的邻接矩阵,⊕表示为关联矩阵M的拼接操作。
S4、对多模态超图进行卷积运算,得更具表征性的特征表示,将更具表征性的特征表示输入至所述全连接层,通过全连接层的Sigmoid激活函数,得到相应的概率值,并将概率值与概率阈值T进行比较,将概率值大于概率阈值T的标签作为预测的标签结果。
其中,多模态超图进行卷积公式为:
其中,X(l+1)表示第l+1层的特征输出,X(l)表示第l层的特征输入,σ表示非线性激活函数,θ(l)表示第l层的学习参数,Dv表示顶点的度矩阵,De表示超边的度矩阵,W=diag(w1,w2,...,wn)表示n条超边的权重值,初始化为单位矩阵,H表示为多模态超图关联矩阵,HT表示为模态超图关联矩阵的转置矩阵。
还包括另一实施例,一种基于超图的多模态多标签分类系统,包括:
特征提取模块,包括视觉编码器和文本编码器,用于从原始数据中提取特征表示,并构建图像特征空间和文本特征空间,每一个所述原始数据包括文本和图像两种模态数据;
超图构建模块,针对图像和文本两种模态的特征,分别构建单模态特征的超图,然后拼接所有模态对应的超图,形成多模态超图;
标签预测模块,包括两个超图卷积层和一个全连接层,通过两个超图卷积层完成多模态超图卷积运算,得更具表征性的特征表示,并通过全连接层来实现标签预测。
实施例1
数据集包括25959部电影作品及其情节、海报、类型和额外的元数据字段,元数据字段包括如年份、语言、导演等等,每个数据点含有文本和图像两种模态数据,具体内容分别为电影情节概要和电影海报图片。
对于原始的视觉信号,使用VGG-19预训练模型提取图像特征,特征向量的维度为4096。对于原始文本信号,采用Sentence Bert提取文本特征,获得384维的句向量表示。影视类型共有23种,包含‘Action’、‘Adventure’、‘Comedy’、‘Crime’、‘Drama’、‘Romance’、‘Documentary’、‘Mystery’等。采用多标签交叉验证MultilabelStratifiedKFold方法,划分数据集,在该数据集中,70%的数据用于训练,另外30%的数据用于测试。
将每部影视作品视为超图的节点,K取值为9,即每条超边连接10个节点,分别构建图像和文本模态特征下的超图结构Himg、Htext。由于影视作品含有相关元数据,可以引入导演信息,将同一导演执导的影视作品连接起来,形成导演信息的超图Hdir。通过连接三个超图的邻接矩阵,形成多模态超图H。⊕表示关联矩阵M的拼接操作,则H如下表示:
H=Himg⊕Htext⊕Hdir
将多模态超图H输入到标签预测模块的输入层,经过超图卷积层中的卷积运算,并通过全连接层实现标签预测。其中,0.001作为初始学习率,权重衰减值设为0.0005,概率阈值T设置为0.5。
对比例1
基于实施例1的数据集,将本发明一种基于超图的多模态多标签分类方法(Ours)分别与经典的一阶策略方法Binary Relevance(BR)、ML-KNN和高阶策略方法ClassifierChains(CC)通过准确率(Accuracy)、精度(Precision)、F1度量值(F1-measure)和HammingLoss海明损失4个评价指标进行比较,结果如表1所示。
表1 4种算法的评价指标结果
由上述实验结果可以看出,本专利提出的方法,在4种评价指标上,相比性能更优的CC方法,分别提升了0.139、0.154、0.169、0.012。
对比例2
为了验证超图卷积运算的有效性,本实施例进行了消融实验,将一种基于超图的多模态多标签分类方法与本发明去除了卷积运算的网络进行对比,其中Withoutconvolution表示不使用超图卷积运算的网络,实验结果如表2所示。
表2超图卷积的消融实验结果
表2的实验结果表明,在去除超图卷积运算后,准确率为36%、精度为57.8%、F1值为0.454,海明损失为0.092,相较于原网络,前三项指标分别下降了12.2%、11.89%、10.47%,海明损失上升了9.52%。因此,说明基于超图的卷积运算能够利用数据对象的复杂关系,从而优化特征表示提升多标签分类性能。基于消融实验的结果,验证了引入超图卷积运算的有效性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于超图的多模态多标签分类方法,其特征在于,步骤包括:
从原始数据中提取特征表示,并构建图像特征空间和文本特征空间,每一个所述原始数据包括文本和图像两种模态数据;
基于图像特征空间,利用基于距离的方法来生成图像超图结构;基于文本特征空间,利用基于距离的方法来生成文本超图结构;
将文本超图结构和图像超图结构利用关联矩阵M拼接起来形成最终的多模态超图关联矩阵H,得到多模态超图;
对多模态超图进行卷积运算,得更具表征性的特征表示,并将更具表征性的特征表示输入至全连接层实现标签预测。
2.根据权利要求1所述的一种基于超图的多模态多标签分类方法,其特征在于,利用视觉编辑器通过深度学习模型提取所述图像数据的特征表示;利用文本编码器通过循环神经网络或预训练语言模型提取所述文本数据的特征表示。
3.根据权利要求1所述的一种基于超图的多模态多标签分类方法,其特征在于,所述图像超图结构生成的步骤包括:
每一个图像数据的特征表示看做一个节点,分别以每个节点为质心,寻找在图像特征空间中的K个最近邻节点,然后构建一条超边来连接该质心节点和最其近邻节点,形成一条连接K+1个节点的超边;
所述文本超图结构生成的步骤包括:
每一个文本数据的特征表示看做一个节点,分别以每个节点为质心,寻找在文本特征空间中的K个最近邻节点,然后构建一条超边来连接该质心节点和最其近邻节点,形成一条连接K+1个节点的超边。
4.根据权利要求1所述的一种基于超图的多模态多标签分类方法,其特征在于,所述多模态超图关联矩阵H表示为:
其中,Himg表示为图像超图结构的邻接矩阵,Htext表示为文本超图结构的邻接矩阵,⊕表示关联矩阵M的拼接操作。
5.根据权利要求1所述的一种基于超图的多模态多标签分类方法,其特征在于,所述多模态超图进行卷积公式为:
其中,X(l+1)表示第l+1层的特征输出,X(l)表示第l层的特征输入,σ表示非线性激活函数,θ(l)表示第l层的学习参数,Dv表示顶点的度矩阵,De表示超边的度矩阵,W=diag(w1,w2,...,wn)表示n条超边的权重值,初始化为单位矩阵,H表示为多模态超图关联矩阵,HT表示为模态超图关联矩阵的转置矩阵。
6.根据权利要求1所述的一种基于超图的多模态多标签分类方法,其特征在于,将更具表征性的特征表示输入至所述全连接层,通过全连接层的Sigmoid激活函数,得到相应的概率值,并将概率值与概率阈值T进行比较,将概率值大于概率阈值T的标签作为预测的标签结果。
7.一种基于超图的多模态多标签分类系统,其特征在于,包括:
特征提取模块,包括视觉编码器和文本编码器,用于从原始数据中提取特征表示;
超图构建模块,针对图像和文本两种模态的特征,分别构建单模态特征的超图,然后拼接所有模态对应的超图,形成多模态超图;
标签预测模块,包括两个超图卷积层和一个全连接层,通过两个超图卷积层完成多模态超图卷积运算,得更具表征性的特征表示,并通过全连接层来实现标签预测。
CN202310900636.0A 2023-07-19 2023-07-19 一种基于超图的多模态多标签分类方法及系统 Pending CN116956128A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310900636.0A CN116956128A (zh) 2023-07-19 2023-07-19 一种基于超图的多模态多标签分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310900636.0A CN116956128A (zh) 2023-07-19 2023-07-19 一种基于超图的多模态多标签分类方法及系统

Publications (1)

Publication Number Publication Date
CN116956128A true CN116956128A (zh) 2023-10-27

Family

ID=88452384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310900636.0A Pending CN116956128A (zh) 2023-07-19 2023-07-19 一种基于超图的多模态多标签分类方法及系统

Country Status (1)

Country Link
CN (1) CN116956128A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117892237A (zh) * 2024-03-15 2024-04-16 南京信息工程大学 一种基于超图神经网络的多模态对话情绪识别方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117892237A (zh) * 2024-03-15 2024-04-16 南京信息工程大学 一种基于超图神经网络的多模态对话情绪识别方法及系统
CN117892237B (zh) * 2024-03-15 2024-06-07 南京信息工程大学 一种基于超图神经网络的多模态对话情绪识别方法及系统

Similar Documents

Publication Publication Date Title
Ma et al. TS-LSTM and temporal-inception: Exploiting spatiotemporal dynamics for activity recognition
Arevalo et al. Gated multimodal networks
Parkhi et al. Deep face recognition
CN112241468A (zh) 一种基于多头目自注意力机制的跨模态视频检索方法、系统及存储介质
Sharma et al. A survey of methods, datasets and evaluation metrics for visual question answering
Dogan et al. A neural multi-sequence alignment technique (neumatch)
CN112651940A (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN111461175A (zh) 自注意与协同注意机制的标签推荐模型构建方法及装置
CN116956128A (zh) 一种基于超图的多模态多标签分类方法及系统
Liu et al. Attention guided deep audio-face fusion for efficient speaker naming
Yang et al. A multimedia semantic retrieval mobile system based on HCFGs
CN112926675A (zh) 视角和标签双重缺失下的深度不完整多视角多标签分类方法
Sreeja et al. A unified model for egocentric video summarization: an instance-based approach
Gao et al. Generalized pyramid co-attention with learnable aggregation net for video question answering
Saleem et al. Stateful human-centered visual captioning system to aid video surveillance
Kumar et al. Content based movie scene retrieval using spatio-temporal features
Wang et al. Listen, look, and find the one: Robust person search with multimodality index
Shaikh et al. MAiVAR-T: Multimodal Audio-image and Video Action Recognizer using Transformers
CN116257648A (zh) 基于噪声网络和图像预处理的图像检索防御方法及系统
CN113792167B (zh) 一种基于注意力机制和模态依赖的跨媒体交叉检索方法
CN115098646A (zh) 一种图文数据的多级关系分析与挖掘方法
CN114898429A (zh) 一种热红外-可见光跨模态人脸识别的方法
Gupta et al. Flu-Net: two-stream deep heterogeneous network to detect flu like symptoms from videos using grey wolf optimization algorithm
CN111143544B (zh) 一种基于神经网络的柱形图信息提取方法及装置
CN109857906B (zh) 基于查询的无监督深度学习的多视频摘要方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination