CN112966127A - 一种基于多层语义对齐的跨模态检索方法 - Google Patents
一种基于多层语义对齐的跨模态检索方法 Download PDFInfo
- Publication number
- CN112966127A CN112966127A CN202110374768.5A CN202110374768A CN112966127A CN 112966127 A CN112966127 A CN 112966127A CN 202110374768 A CN202110374768 A CN 202110374768A CN 112966127 A CN112966127 A CN 112966127A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- semantic
- similarity
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000007246 mechanism Effects 0.000 claims abstract description 32
- 239000013598 vector Substances 0.000 claims description 73
- 239000011159 matrix material Substances 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 8
- 230000004927 fusion Effects 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 4
- 238000013145 classification model Methods 0.000 claims description 3
- 230000008451 emotion Effects 0.000 claims description 3
- 230000002996 emotional effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 abstract 1
- 238000002474 experimental method Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 4
- 239000000126 substance Substances 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了一种基于多层语义对齐的跨模态检索方法,其利用自注意力机制获取显著细粒度区域,促进模态数据间实体和关系对齐,并提出基于语义一致的图像文本匹配策略,从已给文本数据集提取语义标签,通过多标签预测进行全局语义约束,以获得更精准跨模态关联。从而解决了跨模态数据语义鸿沟问题。
Description
技术领域
本发明涉及跨模态检索的技术领域,具体涉及一种基于多层语义对齐的跨模态检索方法。
背景技术
伴随着人工智能在各个领域的广泛应用,数据呈现形式越来越多样化,文本、图像、视频等多模态数据快速增长。不同模态数据呈现底层特征异构,高层语义相关的特点,如同一网页中的文本通过字典向量来表示,而图像则通过视觉特征表示,它们处于完全不同的特征空间,但却表示同一语义。而目前的检索方法通常是单一媒介,即查询和检索结果属于同一模态类型,检索内容单一,受限于查询条件约束。由于多模态数据的内容互相补充,用户借助跨模态检索引擎,提交任意一种模态查询数据获取语义相关其它数据,提高查询效率,改善用户体验。因此,对多模态数据交叉检索具有重要应用价值。
怎样在大量多模态数据中寻找所需数据是当前研究热点。主流的跨模态检索方法是构建不同模态数据共同语义空间,在该空间中,将图像和文本异构数据映射相同维度的语义特征,通过语义特征直接度量不同模态数据相似性。其中最常用的是典型相关分析算法(CCA),其将两组异构数据在公共空间进行相似性最大化。而后提出的深度对抗度量学习方法,将数据非线性映射共公子空间,使类内差异最小化,类间差异最大化,来捕获数据对的差异最小化;正交约束光谱回归方法,在图模型将多模态数据投影到潜在空间;基于任务和查询的子空间学习方法,通过高效迭代优化学习特定任务和类别子空间;基于深度监督方法学习公共的表示空间,直接度量每一种模态的样本实例,通过有监督方法学习不变特征向量;分层网络融合细粒度特征方法,利用层次网络学习互补上下文特征向量,自适应平衡模态内和模态间成对语义约束。
然而,上述提出的这些方法主要是从图像和文本全局特征建立关联,忽略图像细粒度区域和文本词之间关系,且图像特征高度依赖检测图像精度,不同区域互相影响。因此,如何挖掘多模态特征多层关联,构建有效的语义约束,是实现跨模态检索精度提升的关键问题。
发明内容
针对上述存在的问题,本发明旨在提供一种基于多层语义对齐的跨模态检索方法,了实现上述目的,本发明所采用的技术方案如下:
一种基于多层语义对齐的跨模态检索方法,其特征在于,包括以下步骤:
步骤1:获取不同模态的数据:文本、图像和视频;
步骤2:对收集到的不同模态数据进行特征提取,并将提取出的相应的文本、图像和视频特征向量,并映射到公共空间;
步骤3:将得到的文本、图像和视频特征向量通过自注意力机制为不同的特征向量分配自注意力权重,并通过注意力机制自适应地过滤掉无关或相关性较小区域;
步骤4:利用自注意力机制将实体对齐、关系对齐;
步骤5:利用全局特征匹配方法实现全局语义对齐;
步骤6:分别计算关系相似度、实体相似度和全局语义相似度;
步骤7:根据得到的关系相似度、实体相似度和全局语义相似度来计算图像和文本整体相似度,并根据整体相似度进行排序,选择排名前n个候选集的相似度作为最终的查询结果。
进一步地,步骤2的具体操作步骤包括:
li=Wv.fi+bv i∈[1,2......n] (1),
其中,Wv是转换矩阵,bv是偏置系数;
S23:提取文本特征:对于文本句子T,通过Bi-GRU网络学习文本上下文特征,将得到的文本语义特征通过one-hot编码,获得每一个词的词向量表示,并通过编码矩阵将词向量嵌入到公共空间,得到文本的语义向量特征表示,其计算公式为:
其中,ej表示单词向量,Wt为Bi-GRU单元参数;
S24:提取视频特征:对于一个视频语义信息VT,利用Bi-GRU网络提取视频中的文本语义信息,利用文本语义特征代替视频提取单词特征,将得到文本语义特征通过one-hot编码,获得每一个词的词向量表示,并通过编码矩阵将单词嵌入到公共空间,得到视频V的语义向量特征表示。
进一步地,步骤S3的具体操作步骤包括:
S32:对于输入的文本特征e={e1,e2,.....em},利用多层感知机进行计算,获得文本片段的自注意力权值Wt:
S33:对于输入的视频特征向量{v1,v2.....vm},利用多层感知机进行计算,获得到视频片段的自注意力权值Wv:
S34:特征向量经过自注意力计算,自适应地过滤掉权重较小的图像、文本和视频区域。
进一步地,步骤S4的具体操作步骤包括:
S43:根据S41和S42得到的注意力权重计算实体和关系对齐。
进一步地,步骤S43的具体操作步骤包括:
S431:基于句子间的连词和语法规则,判断两个句子间的递进、转折和总结三类关系;
S432:将句子间的三类关系作为先验知识,引入注意力网络,得到基于句法关系约束的句子层注意力机制,其计算公式为:
其中,N是文本数量,w是情感分类模型,xi是第i个文本的向量表示,yi是第i个文本的情感极性,βi,βj分别是句子层的注意力系数,Bij是句子i和句子j的相似度,λ1,λ3是超参数。
S433:将每个句子的句向量输入到基于句法关系约束的且具有注意力机制的BiLSTM网络,最终得到文档的向量表示。
进一步地,通过步骤6实现多层语义相似度融合,整体相似度的计算公式为:
本发明的有益效果是:
本发明在现有方法的基础上,提出一种多层对齐的跨模态检索方法,该方法能够挖掘模态细粒度特征,从而实现图像文本实体和关系对齐,并通过文本加权向量的多标签预测进行全局语义约束,弥补图像区域检测不精确,实现跨模态数据更好的关联。该方法通过与现有跨模态检索方法相比,其检索的精度有显著的提升,并实现从图像、文本的跨模态检索扩展到图像、文本和视频三种模态数据。
附图说明
图1为多层语义对齐的跨模态检索模型框架图;
图2为多层感知器结构图;
具体实施方式
为了使本领域的普通技术人员能更好的理解本发明的技术方案,下面结合附图和实施例对本发明的技术方案做进一步的描述。
本发明方法的实现主要依据于混合匹配和注意力机制等方法。其中,混合匹配方法是将图像划分为整体和部分图像区域,将文本划分部分句子和部分单词,挖掘图像与文本实体对齐;而注意力机制在序列学习任务上有巨大的提升作用,广泛用于自然语言处理的各项任务,利用注意力机制处理多模态数据,能够捕获文本和图像特征之间的依赖。
在上述现有方法的基础上,本发明的方法基于模态特征子空间映射和跨模态检索度量两个部分,具体又划分为跨模态特征学习、跨模态注意力机制、全局语义一致性构建和多层相似度融合四个方面,且多层语义对齐的跨模态检索模型的框架如附图1所示。
其中,跨模态特征学习用于抽取模态特征并将特征映射到公共空间,特征向量通过自注意机制计算图像和文本片段关联程度,自适应剔除关联度低区域并对图像区域和文本词实体和关系注意对齐。为避免图像区域检测不精确,抽取文本信息作为全局语义约束,增强跨模态数据关联。将得到的多层次语义进行相似度融合,得到整体相似度。
下面从上述四个层面进行阐述:
1、跨模态特征表示
对于图像特征提取,本发明利用Faster R-CNN算法来提取图像区域特征,并较大概率生成包含对象的候选区域,如“woman”或“bike”;
本发明中的Faster R-CNN通过ResNet-101网络实现,将每幅图像i输入Faster R-CNN,得到若干候选框,提取候选区域特征其表示一幅图像中的 n个不同的区域。对于I中候选区域i,fi表示通过ResNet-101对区域池化后的特征向量,为使不同模态数据映射到统一的空间,添加全连接层对fi进行变换,投影到1024维特征向量,因此,可将图像i表示为一组特征向量其中 li表示每个图像候选区域,计算如公式1所示:
li=Wv.fi+bv (1),
其中,Wv是转换矩阵,bv是偏置系数。
对于文本特征提取,利用Bi-GRU网络充分学习文本上下文特征,对文本句子 T,使用one-hot编码向量表示每一个词单词,通过编码矩阵将单词嵌入到与图像同维向量空间。{e1,e2.....em}表示句子中m个单词向量,通过双向GRU网络分别从e1读取单词到em并反向读取,且用以下公式递归更新GRU:
zt=σ(Wz.xt+Uz.ht-1) (2),
rt=σ(Wt.xt+Uz.Ht-1) (3),
从而可以看出,文本T完整表示由一组语义向量{t1,t2.....tm}表示文本句子中的m不同单词。
对于视频特征提取,其提取方法与文本提取方法相似,即:首先提取视频文本语义信息,利用文本特征代替视频提取单词特征,其次,利用Bi-GRU网络充分学习文本特征上下文,对于一个视频语义信息VT,使用one-hot编码向量表示每一个词单词,通过编码矩阵将单词嵌入与图像同维向量空间。因此,最后将视频V特征表示为一组语义向量{v1,v2.....vm}。
2、跨模态注意力机制
对于特征向量,存在无关或相关性较小的区域,造成实体对齐和相似性计算量较大。因此将得到的特征向量通过自注意力机制获得注意力权重α,权重越大,相关性越高。本发明在图像文本自注意力机制通过一个多层感知器(MLP)得到相关的权重,且多层感知器结构图如附图2所示。
以图片特征为例,其中Qi和Pi为注意力机制参数矩阵,Softmax函数在第二步执行,蓝色区域为中间结果,Wi是权值矩阵表示图像片段自注意力权值。通过注意力机制自适应过滤掉权值较小的区域。
对于输入的文本特征e={e1,e2,.....em},利用多层感知机进行计算,获得文本片段的自注意力权值Wt:
对于输入的视频特征向量{v1,v2.....vm},利用多层感知机进行计算,获得到视频片段的自注意力权值Wv:
上述的特征向量经过自注意力计算,即可自适应地过滤掉权重较小的图像、文本和视频区域。
利用实体关系对齐方法挖掘图像区域与文本词联系,图像区域成对组合,图像关系表示为其表示第p和q个区域关系。采用关系跨模态注意力,突出描述对应图像关系文本词,对于每个图像关系ri,根据与该图像区域语义相似性,计算每个词的注意力权重计算公式如下:
根据式(11)和式(12)得到的特征向量权重来计算实体和关系对齐,具体包括:
(1)基于句子间的连词和语法规则,判断两个句子间的递进、转折和总结三类关系;
(2)将句子间的三类关系作为先验知识,引入注意力网络,得到基于句法关系约束的句子层注意力机制,其计算公式为:
其中,N是文本数量,w是情感分类模型,xi是第i个文本的向量表示,yi是第i个文本的情感极性,βi,βj分别是句子层的注意力系数,Bij是句子i和句子j的相似度,λ1,λ3是超参数。
(3)将每个句子的句向量输入到基于句法关系约束的且具有注意力机制的BiLSTM网络,最终得到文档的向量表示。
3、全局语义一致性
现有跨模态数据集没有成对图像-文本标签,故需构建文本标签字典作为跨模态数据集的语义标签。通过选择句子中出现频率最高的500个词构建标签字典,包含对象、属性等词汇,为满足每个图像文本对至少包含一个语义标签,将图像对应 5条语句进行拼接作为一条语句,实现图像文本对分配一个或多个语义标签。
全局特征匹配方法与直接计算全局特征的特征相似度不同,其首先将图像区域特征和句子加权注意力向量生成全局特征,对于一个给定的图文对(I,T),且文本词的注意力权重为ai,i∈[1,m],文本全局加权注意力向量文本词的平均注意向量可表示为:
该计算式的目标是使AT全局注意向量在语义上与(I,T)的语义标签一致。
4、多层次相似度融合
基于上述的图像和文本的三种不同表示形式,利用全局、局部和关系三个层次实现语义对齐,计算跨模态相似度。其中全局语义对齐是通过加权特征向量与语义标签转换为多标签分类,使用两个全连接层和激活函数实现向量语义标签非线性映射(1024→500→512),对于图像-文本对(I,T),其文本真实语义标签为 Y={y1,y2......yC},C表示标签数量,其中yi=1表示图像文本存在标签i。
该方法构建了基于全局语义一致的多标签预测框架,在不增加人工成本的情况下,直接从可用的句子语料库中提取语义标签,利用加权向量进行来预测语义标签为实体和关系对齐得到的语义相似度提供全局语义约束。具体来说,由于句子中包含大量的独特词和各种概念,如对象、属性、数量、动作等,且频率不同,通过选择所有句子中出现频率最高的k个词来构建标签词典,为每个图像、文本对分配一个或多个语义标签,以表示其高级语义。这里,K是一个依赖于特定数据频率分布的整数。多标签预测方法是将(11)中的向量与语义标签相关联,通过使用两个完全连接的层和tanh激活函数,实现将全局特征的注意力向量到语义标签的非线性映射,进而实现语义标签预测。然而在建立的标签字典中,标签分布是不均衡的,在多标签预测过程中,进一步对每个标签采用了加权方案。其中,pc为标签概率权重值,是标签c的负样本和正样本的比例,目的是使出现频率较低的标签分配的权重高,频率较高的标签分配的权重较低,来有效地提高低频率标签的召回率。最后计算真实标签和预测标签余弦相似度,进行全局语义约束。其计算式为(15):
其中,是在图像区域和文本词中的第j个单词tj注意力权重。并根据相似度丢弃未对齐的图像区域,将语义相似度较小的区域进行过滤。在多个实体图像特征中选择K个最近邻,使K个最接近实体平均相似度大于不匹配的图像/文本对,目标函数如下:
除了全局和实体对齐外,还要挖掘图像组合特征和文本词关系对齐,对一个图像关系ri与句子tj之间关系相似度进行测量,计算相似度如下所示:
将图像I与文本T相似度多层级融合,利用全局、实体和关系互补信息,建模图像和文本相似性,促进跨媒体检索,得到跨模态数据整体相似度为,通过结合全局、实体和关系相似度计算,在候选集中选取相似度排名较前n个候选实例作为检索结果返回,其相似度计算公式如(18)所示
实施例:
1、实验方法
本实验在NVIDIA 1080Ti GPU工作站上运行,在Flickr30k和MSCOCO两个公用数据集进行实验,数据集中的每张图片对应五条关联句子,数据信息如表1所示。因数据集中只包含了图像和文本两种模态数据,故本方法验证了文本与图像的互检索。实验中对每一张图像提取36个区域、2048维度特征,通过全连接层进行数据降维至1024公共空间。针对每个句子,单词嵌入大小设置为300,长度不足的句子用零填充,使用Bi-GRU对句子单词进行编码,隐藏单元维数为1024。
表1 Flickr30k和MSCOCO数据集详情
本文采用R@K对方法进行评估。R@K表示K个检索结果中查询正确的百分比,其值越高表示检索性能越好,计算公式下:
其中N为实例个数,当Relk=1表示第k个返回结果与查询实例相关,当Relk=0 表示第k个返回结果与查询实例无相关,实验中k设置为1、5、10。本方法与DCCA、 SCAN、DVSA、RRF-Net、SCO、JGCAR、CASC在相同实验环境下的结果如表2 所示。
表2实验结果分析表
为验证本方法的查询效果,在Flickr30k数据集上的图像-文本互检索实例 (Q1-Q6)的实验结果如表3和表4所示(只列出相似度前5和前3的查询结果),其中红色标注的是错误查询结果。
表3本方法图像检索文本结果
表4本方法文本检索图像结果
对比发现,本方法相比上述方法检索准确率均有显著提升,优于现有的方法,验证方法合理性。一方面,基于全局特征匹配方法由于网络结构较浅提取模态特征粗糙,造成图像文本对齐精度不高且损耗函数设计较差,实体对齐较差。另一方面,现有的混合匹配方法只关注图像文本的整体和实体对齐,没有挖掘文本和图像区域间关系,且实体对齐高度依赖图像检测进准度,造成跨模态数据难以对齐。
2、实验结论
本发明方法从全局、实体和关系三个层次考虑图像与文本语义相似度,提高多模态数据关联性能。实验结果表明,该方法在Flickr30k和MSCOCO两个公开数据集上进行验证,证明本文算法较好地提升,优于现有方法。在未来中,通过融合知识图谱实现图图像文本关系补充,通过知识表示方式实现跨模态数据更好关联,提高检索准确度。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (6)
1.一种基于多层语义对齐的跨模态检索方法,其特征在于,包括以下步骤:
步骤1:获取不同模态的数据:文本、图像和视频;
步骤2:对收集到的不同模态数据进行特征提取,将提取出的相应的文本、图像和视频特征向量,并映射到公共空间;
步骤3:将得到的文本、图像和视频特征利用自注意力机制为特征向量分配自注意力权重,并根据注意力权重大小自适应地过滤掉无关或关联性较小的区域;
步骤4:利用自注意力机制加权后的特征向量实现不同模态间的实体对齐、关系对齐;
步骤5:利用文本的全局加权特征实现多标签预测,实现全局语义对齐;
步骤6:分别计算关系相似度、实体相似度和全局语义相似度;
步骤7:根据得到的关系相似度、实体相似度和全局语义相似度来计算图像和文本整体相似度,并根据整体相似度进行排序,选择排名前n个候选集实例作为最终的查询结果。
2.根据权利要求1所述的一种基于多层语义对齐的跨模态检索方法,其特征在于,步骤2的具体操作步骤包括:
li=Wv.fi+bv i∈[1,2......n] (1),
其中,Wv是转换矩阵,bv是偏置系数;
S23:提取文本特征:对于文本句子T,通过Bi-GRU网络学习文本上下文特征,将得到的文本语义特征通过one-hot编码,获得每一个词的词向量表示,并通过编码矩阵将词向量嵌入到公共空间,得到文本的语义向量特征表示,其计算公式为:
其中,ej表示单词向量,Wt为Bi-GRU单元参数;
S24:提取视频特征:对于一个视频语义信息VT,利用Bi-GRU网络提取视频中的文本语义信息,利用文本语义特征代替视频提取单词特征,将得到文本语义特征通过one-hot编码,获得每一个词的词向量表示,并通过编码矩阵将单词嵌入到公共空间,得到视频V的语义向量特征表示。
3.根据权利要求1所述的一种基于多层语义对齐的跨模态检索方法,其特征在于,步骤S3的具体操作步骤包括:
S32:对于输入的文本特征e={e1,e2,.....em},利用多层感知机进行计算,获得文本片段的自注意力权值Wt:
S33:对于输入的视频特征向量{v1,v2.....vm},利用多层感知机进行计算,获得到视频片段的自注意力权值Wv:
S34:特征向量经过自注意力计算,自适应地过滤掉权重较小的图像、文本和视频区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110374768.5A CN112966127B (zh) | 2021-04-07 | 2021-04-07 | 一种基于多层语义对齐的跨模态检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110374768.5A CN112966127B (zh) | 2021-04-07 | 2021-04-07 | 一种基于多层语义对齐的跨模态检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112966127A true CN112966127A (zh) | 2021-06-15 |
CN112966127B CN112966127B (zh) | 2022-05-20 |
Family
ID=76279785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110374768.5A Expired - Fee Related CN112966127B (zh) | 2021-04-07 | 2021-04-07 | 一种基于多层语义对齐的跨模态检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112966127B (zh) |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113204674A (zh) * | 2021-07-05 | 2021-08-03 | 杭州一知智能科技有限公司 | 基于局部-整体图推理网络的视频-段落检索方法及系统 |
CN113239237A (zh) * | 2021-07-13 | 2021-08-10 | 北京邮电大学 | 跨媒体大数据搜索方法及装置 |
CN113344036A (zh) * | 2021-07-19 | 2021-09-03 | 昆明理工大学 | 一种基于动态词嵌入的多模态Transformer的图像描述方法 |
CN113360683A (zh) * | 2021-06-30 | 2021-09-07 | 北京百度网讯科技有限公司 | 训练跨模态检索模型的方法以及跨模态检索方法和装置 |
CN113420154A (zh) * | 2021-08-25 | 2021-09-21 | 成都索贝数码科技股份有限公司 | 基于层次注意的分层多标签文本分类模型的构建方法 |
CN113434716A (zh) * | 2021-07-02 | 2021-09-24 | 泰康保险集团股份有限公司 | 一种跨模态信息检索方法和装置 |
CN113642332A (zh) * | 2021-08-11 | 2021-11-12 | 福州大学 | 一种融合多级语义信息的多模态讽刺识别系统方法 |
CN113657115A (zh) * | 2021-07-21 | 2021-11-16 | 内蒙古工业大学 | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 |
CN113837233A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 基于样本自适应语义引导的自注意力机制的图像描述方法 |
CN113971209A (zh) * | 2021-12-22 | 2022-01-25 | 松立控股集团股份有限公司 | 一种基于注意力机制增强的无监督跨模态检索方法 |
CN114218380A (zh) * | 2021-12-03 | 2022-03-22 | 淮阴工学院 | 基于多模态的冷链配载用户画像标签抽取方法及装置 |
CN114254158A (zh) * | 2022-02-25 | 2022-03-29 | 北京百度网讯科技有限公司 | 视频生成方法及其装置、神经网络的训练方法及其装置 |
CN114330279A (zh) * | 2021-12-29 | 2022-04-12 | 电子科技大学 | 一种跨模态语义连贯性恢复方法 |
CN114780777A (zh) * | 2022-04-06 | 2022-07-22 | 中国科学院上海高等研究院 | 基于语义增强的跨模态检索方法及装置、存储介质和终端 |
CN114896450A (zh) * | 2022-04-15 | 2022-08-12 | 中山大学 | 一种基于深度学习的视频时刻检索方法与系统 |
CN115033727A (zh) * | 2022-05-10 | 2022-09-09 | 中国科学技术大学 | 基于跨模态置信度感知的图像文本匹配方法 |
CN115359383A (zh) * | 2022-07-07 | 2022-11-18 | 北京百度网讯科技有限公司 | 跨模态特征提取、检索以及模型的训练方法、装置及介质 |
CN115661594A (zh) * | 2022-10-19 | 2023-01-31 | 海南港航控股有限公司 | 一种基于对齐和融合的图文多模态特征表示方法和系统 |
CN115730153A (zh) * | 2022-08-30 | 2023-03-03 | 郑州轻工业大学 | 一种基于情感关联和情感标签生成的多模态情感分析方法 |
CN116128438A (zh) * | 2022-12-27 | 2023-05-16 | 江苏巨楷科技发展有限公司 | 一种基于大数据记录信息的智慧社区管理系统 |
CN117556067A (zh) * | 2024-01-11 | 2024-02-13 | 腾讯科技(深圳)有限公司 | 数据检索方法、装置、计算机设备和存储介质 |
WO2024051350A1 (zh) * | 2022-09-07 | 2024-03-14 | 腾讯科技(深圳)有限公司 | 图像检索方法、装置、电子设备及存储介质 |
CN117851444A (zh) * | 2024-03-07 | 2024-04-09 | 北京谷器数据科技有限公司 | 一种基于语义理解下的高级搜索方法 |
CN114896450B (zh) * | 2022-04-15 | 2024-05-10 | 中山大学 | 一种基于深度学习的视频时刻检索方法与系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729513A (zh) * | 2017-10-25 | 2018-02-23 | 鲁东大学 | 基于语义对齐的离散监督跨模态哈希检索方法 |
CN109255047A (zh) * | 2018-07-18 | 2019-01-22 | 西安电子科技大学 | 基于互补语义对齐和对称检索的图像-文本互检索方法 |
CN110175266A (zh) * | 2019-05-28 | 2019-08-27 | 复旦大学 | 一种用于多段视频跨模态检索的方法 |
CN111461203A (zh) * | 2020-03-30 | 2020-07-28 | 北京百度网讯科技有限公司 | 跨模态处理方法、装置、电子设备和计算机存储介质 |
CN112000818A (zh) * | 2020-07-10 | 2020-11-27 | 中国科学院信息工程研究所 | 一种面向文本和图像的跨媒体检索方法及电子装置 |
-
2021
- 2021-04-07 CN CN202110374768.5A patent/CN112966127B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729513A (zh) * | 2017-10-25 | 2018-02-23 | 鲁东大学 | 基于语义对齐的离散监督跨模态哈希检索方法 |
CN109255047A (zh) * | 2018-07-18 | 2019-01-22 | 西安电子科技大学 | 基于互补语义对齐和对称检索的图像-文本互检索方法 |
CN110175266A (zh) * | 2019-05-28 | 2019-08-27 | 复旦大学 | 一种用于多段视频跨模态检索的方法 |
CN111461203A (zh) * | 2020-03-30 | 2020-07-28 | 北京百度网讯科技有限公司 | 跨模态处理方法、装置、电子设备和计算机存储介质 |
CN112000818A (zh) * | 2020-07-10 | 2020-11-27 | 中国科学院信息工程研究所 | 一种面向文本和图像的跨媒体检索方法及电子装置 |
Non-Patent Citations (1)
Title |
---|
丁洛、李逸凡、于成龙、刘洋、王轩、漆舒汉: "《基于多语义线索的跨模态视频检索算法》", 《北京航空航天大学学报》 * |
Cited By (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113360683A (zh) * | 2021-06-30 | 2021-09-07 | 北京百度网讯科技有限公司 | 训练跨模态检索模型的方法以及跨模态检索方法和装置 |
CN113360683B (zh) * | 2021-06-30 | 2024-04-19 | 北京百度网讯科技有限公司 | 训练跨模态检索模型的方法以及跨模态检索方法和装置 |
CN113434716A (zh) * | 2021-07-02 | 2021-09-24 | 泰康保险集团股份有限公司 | 一种跨模态信息检索方法和装置 |
CN113434716B (zh) * | 2021-07-02 | 2024-01-26 | 泰康保险集团股份有限公司 | 一种跨模态信息检索方法和装置 |
CN113204674A (zh) * | 2021-07-05 | 2021-08-03 | 杭州一知智能科技有限公司 | 基于局部-整体图推理网络的视频-段落检索方法及系统 |
CN113239237A (zh) * | 2021-07-13 | 2021-08-10 | 北京邮电大学 | 跨媒体大数据搜索方法及装置 |
CN113344036A (zh) * | 2021-07-19 | 2021-09-03 | 昆明理工大学 | 一种基于动态词嵌入的多模态Transformer的图像描述方法 |
CN113657115B (zh) * | 2021-07-21 | 2023-06-30 | 内蒙古工业大学 | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 |
CN113657115A (zh) * | 2021-07-21 | 2021-11-16 | 内蒙古工业大学 | 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法 |
CN113642332A (zh) * | 2021-08-11 | 2021-11-12 | 福州大学 | 一种融合多级语义信息的多模态讽刺识别系统方法 |
CN113642332B (zh) * | 2021-08-11 | 2023-11-14 | 福州大学 | 一种融合多级语义信息的多模态讽刺识别系统方法 |
CN113420154A (zh) * | 2021-08-25 | 2021-09-21 | 成都索贝数码科技股份有限公司 | 基于层次注意的分层多标签文本分类模型的构建方法 |
CN113420154B (zh) * | 2021-08-25 | 2021-12-10 | 成都索贝数码科技股份有限公司 | 基于层次注意的分层多标签文本分类模型的构建方法 |
CN113837233A (zh) * | 2021-08-30 | 2021-12-24 | 厦门大学 | 基于样本自适应语义引导的自注意力机制的图像描述方法 |
CN113837233B (zh) * | 2021-08-30 | 2023-11-17 | 厦门大学 | 基于样本自适应语义引导的自注意力机制的图像描述方法 |
CN114218380A (zh) * | 2021-12-03 | 2022-03-22 | 淮阴工学院 | 基于多模态的冷链配载用户画像标签抽取方法及装置 |
CN113971209B (zh) * | 2021-12-22 | 2022-04-19 | 松立控股集团股份有限公司 | 一种基于注意力机制增强的无监督跨模态检索方法 |
CN113971209A (zh) * | 2021-12-22 | 2022-01-25 | 松立控股集团股份有限公司 | 一种基于注意力机制增强的无监督跨模态检索方法 |
CN114330279B (zh) * | 2021-12-29 | 2023-04-18 | 电子科技大学 | 一种跨模态语义连贯性恢复方法 |
CN114330279A (zh) * | 2021-12-29 | 2022-04-12 | 电子科技大学 | 一种跨模态语义连贯性恢复方法 |
CN114254158A (zh) * | 2022-02-25 | 2022-03-29 | 北京百度网讯科技有限公司 | 视频生成方法及其装置、神经网络的训练方法及其装置 |
CN114780777B (zh) * | 2022-04-06 | 2022-12-20 | 中国科学院上海高等研究院 | 基于语义增强的跨模态检索方法及装置、存储介质和终端 |
CN114780777A (zh) * | 2022-04-06 | 2022-07-22 | 中国科学院上海高等研究院 | 基于语义增强的跨模态检索方法及装置、存储介质和终端 |
CN114896450A (zh) * | 2022-04-15 | 2022-08-12 | 中山大学 | 一种基于深度学习的视频时刻检索方法与系统 |
CN114896450B (zh) * | 2022-04-15 | 2024-05-10 | 中山大学 | 一种基于深度学习的视频时刻检索方法与系统 |
CN115033727A (zh) * | 2022-05-10 | 2022-09-09 | 中国科学技术大学 | 基于跨模态置信度感知的图像文本匹配方法 |
CN115359383A (zh) * | 2022-07-07 | 2022-11-18 | 北京百度网讯科技有限公司 | 跨模态特征提取、检索以及模型的训练方法、装置及介质 |
CN115359383B (zh) * | 2022-07-07 | 2023-07-25 | 北京百度网讯科技有限公司 | 跨模态特征提取、检索以及模型的训练方法、装置及介质 |
CN115730153B (zh) * | 2022-08-30 | 2023-05-26 | 郑州轻工业大学 | 一种基于情感关联和情感标签生成的多模态情感分析方法 |
CN115730153A (zh) * | 2022-08-30 | 2023-03-03 | 郑州轻工业大学 | 一种基于情感关联和情感标签生成的多模态情感分析方法 |
WO2024051350A1 (zh) * | 2022-09-07 | 2024-03-14 | 腾讯科技(深圳)有限公司 | 图像检索方法、装置、电子设备及存储介质 |
CN115661594B (zh) * | 2022-10-19 | 2023-08-18 | 海南港航控股有限公司 | 一种基于对齐和融合的图文多模态特征表示方法和系统 |
CN115661594A (zh) * | 2022-10-19 | 2023-01-31 | 海南港航控股有限公司 | 一种基于对齐和融合的图文多模态特征表示方法和系统 |
CN116128438A (zh) * | 2022-12-27 | 2023-05-16 | 江苏巨楷科技发展有限公司 | 一种基于大数据记录信息的智慧社区管理系统 |
CN117556067A (zh) * | 2024-01-11 | 2024-02-13 | 腾讯科技(深圳)有限公司 | 数据检索方法、装置、计算机设备和存储介质 |
CN117556067B (zh) * | 2024-01-11 | 2024-03-29 | 腾讯科技(深圳)有限公司 | 数据检索方法、装置、计算机设备和存储介质 |
CN117851444A (zh) * | 2024-03-07 | 2024-04-09 | 北京谷器数据科技有限公司 | 一种基于语义理解下的高级搜索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112966127B (zh) | 2022-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112966127B (zh) | 一种基于多层语义对齐的跨模态检索方法 | |
CN110059217B (zh) | 一种两级网络的图像文本跨媒体检索方法 | |
Liu et al. | Modelling interaction of sentence pair with coupled-lstms | |
CN113095415B (zh) | 一种基于多模态注意力机制的跨模态哈希方法及系统 | |
CN112417097B (zh) | 一种用于舆情解析的多模态数据特征提取与关联方法 | |
Sun et al. | Research progress of zero-shot learning | |
Gao et al. | Multi‐dimensional data modelling of video image action recognition and motion capture in deep learning framework | |
CN112800292B (zh) | 一种基于模态特定和共享特征学习的跨模态检索方法 | |
CN111324765A (zh) | 基于深度级联跨模态相关性的细粒度草图图像检索方法 | |
Chen et al. | New ideas and trends in deep multimodal content understanding: A review | |
CN114817673A (zh) | 一种基于模态关系学习的跨模态检索方法 | |
Li et al. | Multi-modal gated recurrent units for image description | |
CN111368176B (zh) | 基于监督语义耦合一致的跨模态哈希检索方法及系统 | |
CN113065587A (zh) | 一种基于超关系学习网络的场景图生成方法 | |
Menaga et al. | Deep learning: a recent computing platform for multimedia information retrieval | |
Zhao et al. | Generative label fused network for image–text matching | |
CN116737979A (zh) | 基于上下文引导多模态关联的图像文本检索方法及系统 | |
CN115827954A (zh) | 动态加权的跨模态融合网络检索方法、系统、电子设备 | |
Shen et al. | Clustering-driven deep adversarial hashing for scalable unsupervised cross-modal retrieval | |
Jin et al. | Deepwalk-aware graph convolutional networks | |
CN115221369A (zh) | 视觉问答的实现方法和基于视觉问答检验模型的方法 | |
Diallo et al. | Auto-attention mechanism for multi-view deep embedding clustering | |
Zhang et al. | Deep collaborative graph hashing for discriminative image retrieval | |
CN113239159B (zh) | 基于关系推理网络的视频和文本的跨模态检索方法 | |
Fu et al. | Robust representation learning for heterogeneous attributed networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220520 |