CN112966127A - 一种基于多层语义对齐的跨模态检索方法 - Google Patents

一种基于多层语义对齐的跨模态检索方法 Download PDF

Info

Publication number
CN112966127A
CN112966127A CN202110374768.5A CN202110374768A CN112966127A CN 112966127 A CN112966127 A CN 112966127A CN 202110374768 A CN202110374768 A CN 202110374768A CN 112966127 A CN112966127 A CN 112966127A
Authority
CN
China
Prior art keywords
text
image
semantic
similarity
attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110374768.5A
Other languages
English (en)
Other versions
CN112966127B (zh
Inventor
王海荣
杜锦丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North Minzu University
Original Assignee
North Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North Minzu University filed Critical North Minzu University
Priority to CN202110374768.5A priority Critical patent/CN112966127B/zh
Publication of CN112966127A publication Critical patent/CN112966127A/zh
Application granted granted Critical
Publication of CN112966127B publication Critical patent/CN112966127B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于多层语义对齐的跨模态检索方法,其利用自注意力机制获取显著细粒度区域,促进模态数据间实体和关系对齐,并提出基于语义一致的图像文本匹配策略,从已给文本数据集提取语义标签,通过多标签预测进行全局语义约束,以获得更精准跨模态关联。从而解决了跨模态数据语义鸿沟问题。

Description

一种基于多层语义对齐的跨模态检索方法
技术领域
本发明涉及跨模态检索的技术领域,具体涉及一种基于多层语义对齐的跨模态检索方法。
背景技术
伴随着人工智能在各个领域的广泛应用,数据呈现形式越来越多样化,文本、图像、视频等多模态数据快速增长。不同模态数据呈现底层特征异构,高层语义相关的特点,如同一网页中的文本通过字典向量来表示,而图像则通过视觉特征表示,它们处于完全不同的特征空间,但却表示同一语义。而目前的检索方法通常是单一媒介,即查询和检索结果属于同一模态类型,检索内容单一,受限于查询条件约束。由于多模态数据的内容互相补充,用户借助跨模态检索引擎,提交任意一种模态查询数据获取语义相关其它数据,提高查询效率,改善用户体验。因此,对多模态数据交叉检索具有重要应用价值。
怎样在大量多模态数据中寻找所需数据是当前研究热点。主流的跨模态检索方法是构建不同模态数据共同语义空间,在该空间中,将图像和文本异构数据映射相同维度的语义特征,通过语义特征直接度量不同模态数据相似性。其中最常用的是典型相关分析算法(CCA),其将两组异构数据在公共空间进行相似性最大化。而后提出的深度对抗度量学习方法,将数据非线性映射共公子空间,使类内差异最小化,类间差异最大化,来捕获数据对的差异最小化;正交约束光谱回归方法,在图模型将多模态数据投影到潜在空间;基于任务和查询的子空间学习方法,通过高效迭代优化学习特定任务和类别子空间;基于深度监督方法学习公共的表示空间,直接度量每一种模态的样本实例,通过有监督方法学习不变特征向量;分层网络融合细粒度特征方法,利用层次网络学习互补上下文特征向量,自适应平衡模态内和模态间成对语义约束。
然而,上述提出的这些方法主要是从图像和文本全局特征建立关联,忽略图像细粒度区域和文本词之间关系,且图像特征高度依赖检测图像精度,不同区域互相影响。因此,如何挖掘多模态特征多层关联,构建有效的语义约束,是实现跨模态检索精度提升的关键问题。
发明内容
针对上述存在的问题,本发明旨在提供一种基于多层语义对齐的跨模态检索方法,了实现上述目的,本发明所采用的技术方案如下:
一种基于多层语义对齐的跨模态检索方法,其特征在于,包括以下步骤:
步骤1:获取不同模态的数据:文本、图像和视频;
步骤2:对收集到的不同模态数据进行特征提取,并将提取出的相应的文本、图像和视频特征向量,并映射到公共空间;
步骤3:将得到的文本、图像和视频特征向量通过自注意力机制为不同的特征向量分配自注意力权重,并通过注意力机制自适应地过滤掉无关或相关性较小区域;
步骤4:利用自注意力机制将实体对齐、关系对齐;
步骤5:利用全局特征匹配方法实现全局语义对齐;
步骤6:分别计算关系相似度、实体相似度和全局语义相似度;
步骤7:根据得到的关系相似度、实体相似度和全局语义相似度来计算图像和文本整体相似度,并根据整体相似度进行排序,选择排名前n个候选集的相似度作为最终的查询结果。
进一步地,步骤2的具体操作步骤包括:
S21:将收集到的N对图像、文本、视频的跨模态数据表示为
Figure BDA0003009721990000021
S22:提取图像特征:将每幅图像i输入到Faster R-CNN,提取图像区域特征,得到一组图像i的特征向量
Figure BDA0003009721990000031
其中li表示每个候选图像区域,n为候选区域个数,其计算公式为:
li=Wv.fi+bv i∈[1,2......n] (1),
其中,Wv是转换矩阵,bv是偏置系数;
S23:提取文本特征:对于文本句子T,通过Bi-GRU网络学习文本上下文特征,将得到的文本语义特征通过one-hot编码,获得每一个词的词向量表示,并通过编码矩阵将词向量嵌入到公共空间,得到文本的语义向量特征表示,其计算公式为:
Figure BDA0003009721990000032
其中,ej表示单词向量,Wt为Bi-GRU单元参数;
S24:提取视频特征:对于一个视频语义信息VT,利用Bi-GRU网络提取视频中的文本语义信息,利用文本语义特征代替视频提取单词特征,将得到文本语义特征通过one-hot编码,获得每一个词的词向量表示,并通过编码矩阵将单词嵌入到公共空间,得到视频V的语义向量特征表示。
进一步地,步骤S3的具体操作步骤包括:
S31:对于输入的图像特征
Figure BDA0003009721990000033
利用多层感知机进行计算,获得图像片段的自注意力权值Wi
Figure BDA0003009721990000034
其中,Wi是权值矩阵,Qi和Pi为注意力机制参数矩阵,n为图像区域个数,
Figure BDA0003009721990000035
Figure BDA0003009721990000036
为偏置系数,通过softmax函数实现图像特征权重分配;
S32:对于输入的文本特征e={e1,e2,.....em},利用多层感知机进行计算,获得文本片段的自注意力权值Wt
Figure BDA0003009721990000041
其中,Wt是权值矩阵,Qt和Pt为注意力机制参数矩阵,m为文本词向量个数,
Figure BDA0003009721990000042
为偏置系数,通过softmax函数实现文本特征权重分配;
S33:对于输入的视频特征向量{v1,v2.....vm},利用多层感知机进行计算,获得到视频片段的自注意力权值Wv
Figure BDA0003009721990000043
其中,Wv是权值矩阵,Qv和Pv为注意力机制参数矩阵,m为视频向量个数,
Figure BDA0003009721990000044
为偏置系数,通过softmax函数实现视频特征权重分配;
S34:特征向量经过自注意力计算,自适应地过滤掉权重较小的图像、文本和视频区域。
进一步地,步骤S4的具体操作步骤包括:
S41:对于图像片段
Figure BDA0003009721990000045
根据与该图像区域语义相似性,计算每个单词的注意力权重
Figure BDA0003009721990000046
注意力权重的计算公式为:
Figure BDA0003009721990000047
其中
Figure BDA0003009721990000048
表示图像区域
Figure BDA0003009721990000049
和词向量tq语义相似性;
S42:将图像关系表示为
Figure BDA00030097219900000410
p,q={1,...,n},其表示第p和q个区域关系,对于每个图像关系ri,根据与该图像区域语义相似性,计算每个单词的注意力权重
Figure BDA00030097219900000411
Figure BDA00030097219900000412
其中
Figure BDA00030097219900000413
表示图像区域
Figure BDA00030097219900000414
和单词tq的语义相似性;
S43:根据S41和S42得到的注意力权重计算实体和关系对齐。
进一步地,步骤S43的具体操作步骤包括:
S431:基于句子间的连词和语法规则,判断两个句子间的递进、转折和总结三类关系;
S432:将句子间的三类关系作为先验知识,引入注意力网络,得到基于句法关系约束的句子层注意力机制,其计算公式为:
Figure BDA0003009721990000051
其中,N是文本数量,w是情感分类模型,xi是第i个文本的向量表示,yi是第i个文本的情感极性,βij分别是句子层的注意力系数,Bij是句子i和句子j的相似度,λ13是超参数。
S433:将每个句子的句向量输入到基于句法关系约束的且具有注意力机制的BiLSTM网络,最终得到文档的向量表示。
进一步地,通过步骤6实现多层语义相似度融合,整体相似度的计算公式为:
Figure BDA0003009721990000052
本发明的有益效果是:
本发明在现有方法的基础上,提出一种多层对齐的跨模态检索方法,该方法能够挖掘模态细粒度特征,从而实现图像文本实体和关系对齐,并通过文本加权向量的多标签预测进行全局语义约束,弥补图像区域检测不精确,实现跨模态数据更好的关联。该方法通过与现有跨模态检索方法相比,其检索的精度有显著的提升,并实现从图像、文本的跨模态检索扩展到图像、文本和视频三种模态数据。
附图说明
图1为多层语义对齐的跨模态检索模型框架图;
图2为多层感知器结构图;
具体实施方式
为了使本领域的普通技术人员能更好的理解本发明的技术方案,下面结合附图和实施例对本发明的技术方案做进一步的描述。
本发明方法的实现主要依据于混合匹配和注意力机制等方法。其中,混合匹配方法是将图像划分为整体和部分图像区域,将文本划分部分句子和部分单词,挖掘图像与文本实体对齐;而注意力机制在序列学习任务上有巨大的提升作用,广泛用于自然语言处理的各项任务,利用注意力机制处理多模态数据,能够捕获文本和图像特征之间的依赖。
在上述现有方法的基础上,本发明的方法基于模态特征子空间映射和跨模态检索度量两个部分,具体又划分为跨模态特征学习、跨模态注意力机制、全局语义一致性构建和多层相似度融合四个方面,且多层语义对齐的跨模态检索模型的框架如附图1所示。
其中,跨模态特征学习用于抽取模态特征并将特征映射到公共空间,特征向量通过自注意机制计算图像和文本片段关联程度,自适应剔除关联度低区域并对图像区域和文本词实体和关系注意对齐。为避免图像区域检测不精确,抽取文本信息作为全局语义约束,增强跨模态数据关联。将得到的多层次语义进行相似度融合,得到整体相似度。
下面从上述四个层面进行阐述:
1、跨模态特征表示
将跨模态数据表示为
Figure BDA0003009721990000061
其表示N对图像、文本,视频;为简化符号,分别将I、T和V表示为图像模态、文本和视频模态实例。
对于图像特征提取,本发明利用Faster R-CNN算法来提取图像区域特征,并较大概率生成包含对象的候选区域,如“woman”或“bike”;
本发明中的Faster R-CNN通过ResNet-101网络实现,将每幅图像i输入Faster R-CNN,得到若干候选框,提取候选区域特征
Figure BDA0003009721990000071
其表示一幅图像中的 n个不同的区域。对于I中候选区域i,fi表示通过ResNet-101对区域池化后的特征向量,为使不同模态数据映射到统一的空间,添加全连接层对fi进行变换,投影到1024维特征向量,因此,可将图像i表示为一组特征向量
Figure BDA0003009721990000072
其中 li表示每个图像候选区域,计算如公式1所示:
li=Wv.fi+bv (1),
其中,Wv是转换矩阵,bv是偏置系数。
对于文本特征提取,利用Bi-GRU网络充分学习文本上下文特征,对文本句子 T,使用one-hot编码向量表示每一个词单词,通过编码矩阵将单词嵌入到与图像同维向量空间。{e1,e2.....em}表示句子中m个单词向量,通过双向GRU网络分别从e1读取单词到em并反向读取,且用以下公式递归更新GRU:
zt=σ(Wz.xt+Uz.ht-1) (2),
rt=σ(Wt.xt+Uz.Ht-1) (3),
Figure BDA0003009721990000073
Figure BDA0003009721990000074
其中,zt和rt分别表示为更新门和复位门,
Figure BDA0003009721990000075
为候选激活单元,ht为隐性激活单元,Wz和Wt分别为Bi-GRU单元参数,σ为sigmod激活函数。最终得到文本词向量特征表示式为:
Figure BDA0003009721990000076
从而可以看出,文本T完整表示由一组语义向量{t1,t2.....tm}表示文本句子中的m不同单词。
对于视频特征提取,其提取方法与文本提取方法相似,即:首先提取视频文本语义信息,利用文本特征代替视频提取单词特征,其次,利用Bi-GRU网络充分学习文本特征上下文,对于一个视频语义信息VT,使用one-hot编码向量表示每一个词单词,通过编码矩阵将单词嵌入与图像同维向量空间。因此,最后将视频V特征表示为一组语义向量{v1,v2.....vm}。
2、跨模态注意力机制
对于特征向量,存在无关或相关性较小的区域,造成实体对齐和相似性计算量较大。因此将得到的特征向量通过自注意力机制获得注意力权重α,权重越大,相关性越高。本发明在图像文本自注意力机制通过一个多层感知器(MLP)得到相关的权重,且多层感知器结构图如附图2所示。
以图片特征为例,其中Qi和Pi为注意力机制参数矩阵,Softmax函数在第二步执行,蓝色区域为中间结果,Wi是权值矩阵表示图像片段自注意力权值。通过注意力机制自适应过滤掉权值较小的区域。
Figure BDA0003009721990000081
Figure BDA0003009721990000082
对于输入的文本特征e={e1,e2,.....em},利用多层感知机进行计算,获得文本片段的自注意力权值Wt
Figure BDA0003009721990000083
其中,Wt是权值矩阵,Qt和Pt为注意力机制参数矩阵,m为文本词向量个数,
Figure BDA0003009721990000084
为偏置系数,通过softmax函数实现文本特征权重分配;
对于输入的视频特征向量{v1,v2.....vm},利用多层感知机进行计算,获得到视频片段的自注意力权值Wv
Figure BDA0003009721990000085
其中,Wv是权值矩阵,Qv和Pv为注意力机制参数矩阵,m为视频向量个数,
Figure BDA0003009721990000091
为偏置系数,通过softmax函数实现视频特征权重分配;
上述的特征向量经过自注意力计算,即可自适应地过滤掉权重较小的图像、文本和视频区域。
此外,采用跨模态联合注意力机制,挖掘实体对齐突出文本词。对于图像片段
Figure BDA0003009721990000092
根据与该图像区域语义相似性,计算每个单词注意力权重
Figure BDA0003009721990000093
计算如公式 9:
Figure BDA0003009721990000094
其中,
Figure BDA0003009721990000095
表示图像区域
Figure BDA0003009721990000096
和词向量tq语义相似性,注意力权重越大表示关键词描述图像区域精度越高。
利用实体关系对齐方法挖掘图像区域与文本词联系,图像区域成对组合,图像关系表示为
Figure BDA0003009721990000097
其表示第p和q个区域关系。采用关系跨模态注意力,突出描述对应图像关系文本词,对于每个图像关系ri,根据与该图像区域语义相似性,计算每个词的注意力权重
Figure BDA0003009721990000098
计算公式如下:
Figure BDA0003009721990000099
其中,
Figure BDA00030097219900000910
表示图像区域
Figure BDA00030097219900000911
和单词tq的语义相似性,注意力权重越大关键词描述的图像组合区域的可能性越高,为跨模态关联学习提供互补信息。
根据式(11)和式(12)得到的特征向量权重来计算实体和关系对齐,具体包括:
(1)基于句子间的连词和语法规则,判断两个句子间的递进、转折和总结三类关系;
(2)将句子间的三类关系作为先验知识,引入注意力网络,得到基于句法关系约束的句子层注意力机制,其计算公式为:
Figure BDA0003009721990000101
其中,N是文本数量,w是情感分类模型,xi是第i个文本的向量表示,yi是第i个文本的情感极性,βij分别是句子层的注意力系数,Bij是句子i和句子j的相似度,λ13是超参数。
(3)将每个句子的句向量输入到基于句法关系约束的且具有注意力机制的BiLSTM网络,最终得到文档的向量表示。
3、全局语义一致性
现有跨模态数据集没有成对图像-文本标签,故需构建文本标签字典作为跨模态数据集的语义标签。通过选择句子中出现频率最高的500个词构建标签字典,包含对象、属性等词汇,为满足每个图像文本对至少包含一个语义标签,将图像对应 5条语句进行拼接作为一条语句,实现图像文本对分配一个或多个语义标签。
全局特征匹配方法与直接计算全局特征的特征相似度不同,其首先将图像区域特征和句子加权注意力向量生成全局特征,对于一个给定的图文对(I,T),且文本词的注意力权重为ai,i∈[1,m],文本全局加权注意力向量文本词的平均注意向量可表示为:
Figure BDA0003009721990000102
该计算式的目标是使AT全局注意向量在语义上与(I,T)的语义标签一致。
4、多层次相似度融合
基于上述的图像和文本的三种不同表示形式,利用全局、局部和关系三个层次实现语义对齐,计算跨模态相似度。其中全局语义对齐是通过加权特征向量与语义标签转换为多标签分类,使用两个全连接层和激活函数实现向量语义标签非线性映射(1024→500→512),对于图像-文本对(I,T),其文本真实语义标签为 Y={y1,y2......yC},C表示标签数量,其中yi=1表示图像文本存在标签i。
该方法构建了基于全局语义一致的多标签预测框架,在不增加人工成本的情况下,直接从可用的句子语料库中提取语义标签,利用加权向量进行来预测语义标签
Figure BDA0003009721990000111
为实体和关系对齐得到的语义相似度提供全局语义约束。具体来说,由于句子中包含大量的独特词和各种概念,如对象、属性、数量、动作等,且频率不同,通过选择所有句子中出现频率最高的k个词来构建标签词典,为每个图像、文本对分配一个或多个语义标签,以表示其高级语义。这里,K是一个依赖于特定数据频率分布的整数。多标签预测方法是将(11)中的向量与语义标签相关联,通过使用两个完全连接的层和tanh激活函数,实现将全局特征的注意力向量到语义标签的非线性映射,进而实现语义标签预测。然而在建立的标签字典中,标签分布是不均衡的,在多标签预测过程中,进一步对每个标签采用了加权方案。其中,pc为标签概率权重值,是标签c的负样本和正样本的比例,目的是使出现频率较低的标签分配的权重高,频率较高的标签分配的权重较低,来有效地提高低频率标签的召回率。最后计算真实标签和预测标签余弦相似度,进行全局语义约束。其计算式为(15):
Figure BDA0003009721990000112
得到预测目标
Figure BDA0003009721990000113
作为图像和文本样本上每个标签的二值分类任务,其损失函数为:
Figure BDA0003009721990000114
对于细粒度特征向量进行实体对齐,将通过自注意力机制自适应地过滤掉无关图像文本区域特征,根据学习到的实体注意权值来度量图像区域
Figure BDA0003009721990000115
和文本词{t1,t2.....tm}细粒度语义相似性,计算如公式如下:
Figure BDA0003009721990000121
其中,
Figure BDA0003009721990000122
是在图像区域
Figure BDA0003009721990000123
和文本词中的第j个单词tj注意力权重。并根据相似度丢弃未对齐的图像区域,将语义相似度较小的区域进行过滤。在多个实体图像特征中选择K个最近邻,使K个最接近实体平均相似度大于不匹配的图像/文本对,目标函数如下:
Figure BDA0003009721990000124
除了全局和实体对齐外,还要挖掘图像组合特征和文本词关系对齐,对一个图像关系ri与句子tj之间关系相似度进行测量,计算相似度如下所示:
Figure BDA0003009721990000125
其中,
Figure BDA0003009721990000126
是在图像区域
Figure BDA0003009721990000127
和文本的第j个单词tj注意力权重,根据计算关系相似度,选择K个最近邻,实现图像文本关系对齐,目标函数如下:
Figure BDA0003009721990000128
将图像I与文本T相似度多层级融合,利用全局、实体和关系互补信息,建模图像和文本相似性,促进跨媒体检索,得到跨模态数据整体相似度为,通过结合全局、实体和关系相似度计算,在候选集中选取相似度排名较前n个候选实例作为检索结果返回,其相似度计算公式如(18)所示
Figure BDA0003009721990000129
实施例:
1、实验方法
本实验在NVIDIA 1080Ti GPU工作站上运行,在Flickr30k和MSCOCO两个公用数据集进行实验,数据集中的每张图片对应五条关联句子,数据信息如表1所示。因数据集中只包含了图像和文本两种模态数据,故本方法验证了文本与图像的互检索。实验中对每一张图像提取36个区域、2048维度特征,通过全连接层进行数据降维至1024公共空间。针对每个句子,单词嵌入大小设置为300,长度不足的句子用零填充,使用Bi-GRU对句子单词进行编码,隐藏单元维数为1024。
表1 Flickr30k和MSCOCO数据集详情
Figure BDA0003009721990000131
本文采用R@K对方法进行评估。R@K表示K个检索结果中查询正确的百分比,其值越高表示检索性能越好,计算公式下:
Figure BDA0003009721990000132
其中N为实例个数,当Relk=1表示第k个返回结果与查询实例相关,当Relk=0 表示第k个返回结果与查询实例无相关,实验中k设置为1、5、10。本方法与DCCA、 SCAN、DVSA、RRF-Net、SCO、JGCAR、CASC在相同实验环境下的结果如表2 所示。
表2实验结果分析表
Figure BDA0003009721990000133
为验证本方法的查询效果,在Flickr30k数据集上的图像-文本互检索实例 (Q1-Q6)的实验结果如表3和表4所示(只列出相似度前5和前3的查询结果),其中红色标注的是错误查询结果。
表3本方法图像检索文本结果
Figure DEST_PATH_IMAGE001
表4本方法文本检索图像结果
Figure DEST_PATH_IMAGE002
对比发现,本方法相比上述方法检索准确率均有显著提升,优于现有的方法,验证方法合理性。一方面,基于全局特征匹配方法由于网络结构较浅提取模态特征粗糙,造成图像文本对齐精度不高且损耗函数设计较差,实体对齐较差。另一方面,现有的混合匹配方法只关注图像文本的整体和实体对齐,没有挖掘文本和图像区域间关系,且实体对齐高度依赖图像检测进准度,造成跨模态数据难以对齐。
2、实验结论
本发明方法从全局、实体和关系三个层次考虑图像与文本语义相似度,提高多模态数据关联性能。实验结果表明,该方法在Flickr30k和MSCOCO两个公开数据集上进行验证,证明本文算法较好地提升,优于现有方法。在未来中,通过融合知识图谱实现图图像文本关系补充,通过知识表示方式实现跨模态数据更好关联,提高检索准确度。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (6)

1.一种基于多层语义对齐的跨模态检索方法,其特征在于,包括以下步骤:
步骤1:获取不同模态的数据:文本、图像和视频;
步骤2:对收集到的不同模态数据进行特征提取,将提取出的相应的文本、图像和视频特征向量,并映射到公共空间;
步骤3:将得到的文本、图像和视频特征利用自注意力机制为特征向量分配自注意力权重,并根据注意力权重大小自适应地过滤掉无关或关联性较小的区域;
步骤4:利用自注意力机制加权后的特征向量实现不同模态间的实体对齐、关系对齐;
步骤5:利用文本的全局加权特征实现多标签预测,实现全局语义对齐;
步骤6:分别计算关系相似度、实体相似度和全局语义相似度;
步骤7:根据得到的关系相似度、实体相似度和全局语义相似度来计算图像和文本整体相似度,并根据整体相似度进行排序,选择排名前n个候选集实例作为最终的查询结果。
2.根据权利要求1所述的一种基于多层语义对齐的跨模态检索方法,其特征在于,步骤2的具体操作步骤包括:
S21:将收集到的N对图像、文本、视频的跨模态数据表示为
Figure FDA0003009721980000011
S22:提取图像特征:将每幅图像i输入到Faster R-CNN,提取图像区域特征,得到一组图像i的特征向量
Figure FDA0003009721980000012
其中li表示每个候选图像区域,n为候选区域个数,其计算公式为:
li=Wv.fi+bv i∈[1,2......n] (1),
其中,Wv是转换矩阵,bv是偏置系数;
S23:提取文本特征:对于文本句子T,通过Bi-GRU网络学习文本上下文特征,将得到的文本语义特征通过one-hot编码,获得每一个词的词向量表示,并通过编码矩阵将词向量嵌入到公共空间,得到文本的语义向量特征表示,其计算公式为:
Figure FDA0003009721980000021
其中,ej表示单词向量,Wt为Bi-GRU单元参数;
S24:提取视频特征:对于一个视频语义信息VT,利用Bi-GRU网络提取视频中的文本语义信息,利用文本语义特征代替视频提取单词特征,将得到文本语义特征通过one-hot编码,获得每一个词的词向量表示,并通过编码矩阵将单词嵌入到公共空间,得到视频V的语义向量特征表示。
3.根据权利要求1所述的一种基于多层语义对齐的跨模态检索方法,其特征在于,步骤S3的具体操作步骤包括:
S31:对于输入的图像特征
Figure FDA0003009721980000022
利用多层感知机进行计算,获得图像片段的自注意力权值Wi
Figure FDA0003009721980000023
其中,Wi是权值矩阵,Qi和Pi为注意力机制参数矩阵,n为图像区域个数,
Figure FDA0003009721980000024
为偏置系数,通过softmax函数实现图像特征权重分配;
S32:对于输入的文本特征e={e1,e2,.....em},利用多层感知机进行计算,获得文本片段的自注意力权值Wt
Figure FDA0003009721980000031
其中,Wt是权值矩阵,Qt和Pt为注意力机制参数矩阵,m为文本词向量个数,
Figure FDA0003009721980000032
为偏置系数,通过softmax函数实现文本特征权重分配;
S33:对于输入的视频特征向量{v1,v2.....vm},利用多层感知机进行计算,获得到视频片段的自注意力权值Wv
Figure FDA0003009721980000033
其中,Wv是权值矩阵,Qv和Pv为注意力机制参数矩阵,m为视频向量个数,
Figure FDA0003009721980000034
为偏置系数,通过softmax函数实现视频特征权重分配;
S34:特征向量经过自注意力计算,自适应地过滤掉权重较小的图像、文本和视频区域。
4.根据权利要求1所述的一种基于多层语义对齐的跨模态检索方法,其特征在于,步骤S4的具体步骤包括:
S41:对于图像片段
Figure FDA0003009721980000035
根据与该图像区域语义相似性,计算每个单词的注意力权重
Figure FDA0003009721980000036
注意力权重的计算公式为:
Figure FDA0003009721980000037
其中
Figure FDA0003009721980000038
表示图像区域
Figure FDA0003009721980000039
和词向量tq语义相似性;
S42:将图像关系表示为
Figure FDA0003009721980000041
其表示第p和q个区域关系,对于每个图像关系ri,根据与该图像区域语义相似性,计算每个单词的注意力权重
Figure FDA0003009721980000042
Figure FDA0003009721980000043
其中
Figure FDA0003009721980000044
表示图像区域
Figure FDA0003009721980000045
和单词tq的语义相似性;
S43:根据S41和S42得到的注意力权重计算实体和关系对齐。
5.根据权利要求4所述的一种基于多层语义对齐的跨模态检索方法,其特征在于,步骤S43的具体操作步骤包括:
S431:基于句子间的连词和语法规则,判断两个句子间的递进、转折和总结三类关系;
S432:将句子间的三类关系作为先验知识,引入注意力网络,得到基于句法关系约束的句子层注意力机制,其计算公式为:
Figure FDA0003009721980000046
其中,N是文本数量,w是情感分类模型,xi是第i个文本的向量表示,yi是第i个文本的情感极性,βij分别是句子层的注意力系数,Bij是句子i和句子j的相似度,λ13是超参数。
S433:将每个句子的句向量输入到基于句法关系约束的且具有注意力机制的BiLSTM网络,最终得到文档的向量表示。
6.根据权利要求1所述的一种基于多层语义对齐的跨模态检索方法,其特征在于,通过步骤6实现多层语义相似度融合,且整体相似度的计算公式为:
Figure FDA0003009721980000051
CN202110374768.5A 2021-04-07 2021-04-07 一种基于多层语义对齐的跨模态检索方法 Expired - Fee Related CN112966127B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110374768.5A CN112966127B (zh) 2021-04-07 2021-04-07 一种基于多层语义对齐的跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110374768.5A CN112966127B (zh) 2021-04-07 2021-04-07 一种基于多层语义对齐的跨模态检索方法

Publications (2)

Publication Number Publication Date
CN112966127A true CN112966127A (zh) 2021-06-15
CN112966127B CN112966127B (zh) 2022-05-20

Family

ID=76279785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110374768.5A Expired - Fee Related CN112966127B (zh) 2021-04-07 2021-04-07 一种基于多层语义对齐的跨模态检索方法

Country Status (1)

Country Link
CN (1) CN112966127B (zh)

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204674A (zh) * 2021-07-05 2021-08-03 杭州一知智能科技有限公司 基于局部-整体图推理网络的视频-段落检索方法及系统
CN113239237A (zh) * 2021-07-13 2021-08-10 北京邮电大学 跨媒体大数据搜索方法及装置
CN113344036A (zh) * 2021-07-19 2021-09-03 昆明理工大学 一种基于动态词嵌入的多模态Transformer的图像描述方法
CN113360683A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 训练跨模态检索模型的方法以及跨模态检索方法和装置
CN113420154A (zh) * 2021-08-25 2021-09-21 成都索贝数码科技股份有限公司 基于层次注意的分层多标签文本分类模型的构建方法
CN113434716A (zh) * 2021-07-02 2021-09-24 泰康保险集团股份有限公司 一种跨模态信息检索方法和装置
CN113642332A (zh) * 2021-08-11 2021-11-12 福州大学 一种融合多级语义信息的多模态讽刺识别系统方法
CN113657115A (zh) * 2021-07-21 2021-11-16 内蒙古工业大学 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN113837233A (zh) * 2021-08-30 2021-12-24 厦门大学 基于样本自适应语义引导的自注意力机制的图像描述方法
CN113971209A (zh) * 2021-12-22 2022-01-25 松立控股集团股份有限公司 一种基于注意力机制增强的无监督跨模态检索方法
CN114218380A (zh) * 2021-12-03 2022-03-22 淮阴工学院 基于多模态的冷链配载用户画像标签抽取方法及装置
CN114254158A (zh) * 2022-02-25 2022-03-29 北京百度网讯科技有限公司 视频生成方法及其装置、神经网络的训练方法及其装置
CN114330279A (zh) * 2021-12-29 2022-04-12 电子科技大学 一种跨模态语义连贯性恢复方法
CN114780777A (zh) * 2022-04-06 2022-07-22 中国科学院上海高等研究院 基于语义增强的跨模态检索方法及装置、存储介质和终端
CN114896450A (zh) * 2022-04-15 2022-08-12 中山大学 一种基于深度学习的视频时刻检索方法与系统
CN115033727A (zh) * 2022-05-10 2022-09-09 中国科学技术大学 基于跨模态置信度感知的图像文本匹配方法
CN115359383A (zh) * 2022-07-07 2022-11-18 北京百度网讯科技有限公司 跨模态特征提取、检索以及模型的训练方法、装置及介质
CN115661594A (zh) * 2022-10-19 2023-01-31 海南港航控股有限公司 一种基于对齐和融合的图文多模态特征表示方法和系统
CN115730153A (zh) * 2022-08-30 2023-03-03 郑州轻工业大学 一种基于情感关联和情感标签生成的多模态情感分析方法
CN116128438A (zh) * 2022-12-27 2023-05-16 江苏巨楷科技发展有限公司 一种基于大数据记录信息的智慧社区管理系统
CN117556067A (zh) * 2024-01-11 2024-02-13 腾讯科技(深圳)有限公司 数据检索方法、装置、计算机设备和存储介质
WO2024051350A1 (zh) * 2022-09-07 2024-03-14 腾讯科技(深圳)有限公司 图像检索方法、装置、电子设备及存储介质
CN117851444A (zh) * 2024-03-07 2024-04-09 北京谷器数据科技有限公司 一种基于语义理解下的高级搜索方法
CN114896450B (zh) * 2022-04-15 2024-05-10 中山大学 一种基于深度学习的视频时刻检索方法与系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729513A (zh) * 2017-10-25 2018-02-23 鲁东大学 基于语义对齐的离散监督跨模态哈希检索方法
CN109255047A (zh) * 2018-07-18 2019-01-22 西安电子科技大学 基于互补语义对齐和对称检索的图像-文本互检索方法
CN110175266A (zh) * 2019-05-28 2019-08-27 复旦大学 一种用于多段视频跨模态检索的方法
CN111461203A (zh) * 2020-03-30 2020-07-28 北京百度网讯科技有限公司 跨模态处理方法、装置、电子设备和计算机存储介质
CN112000818A (zh) * 2020-07-10 2020-11-27 中国科学院信息工程研究所 一种面向文本和图像的跨媒体检索方法及电子装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729513A (zh) * 2017-10-25 2018-02-23 鲁东大学 基于语义对齐的离散监督跨模态哈希检索方法
CN109255047A (zh) * 2018-07-18 2019-01-22 西安电子科技大学 基于互补语义对齐和对称检索的图像-文本互检索方法
CN110175266A (zh) * 2019-05-28 2019-08-27 复旦大学 一种用于多段视频跨模态检索的方法
CN111461203A (zh) * 2020-03-30 2020-07-28 北京百度网讯科技有限公司 跨模态处理方法、装置、电子设备和计算机存储介质
CN112000818A (zh) * 2020-07-10 2020-11-27 中国科学院信息工程研究所 一种面向文本和图像的跨媒体检索方法及电子装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
丁洛、李逸凡、于成龙、刘洋、王轩、漆舒汉: "《基于多语义线索的跨模态视频检索算法》", 《北京航空航天大学学报》 *

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360683A (zh) * 2021-06-30 2021-09-07 北京百度网讯科技有限公司 训练跨模态检索模型的方法以及跨模态检索方法和装置
CN113360683B (zh) * 2021-06-30 2024-04-19 北京百度网讯科技有限公司 训练跨模态检索模型的方法以及跨模态检索方法和装置
CN113434716A (zh) * 2021-07-02 2021-09-24 泰康保险集团股份有限公司 一种跨模态信息检索方法和装置
CN113434716B (zh) * 2021-07-02 2024-01-26 泰康保险集团股份有限公司 一种跨模态信息检索方法和装置
CN113204674A (zh) * 2021-07-05 2021-08-03 杭州一知智能科技有限公司 基于局部-整体图推理网络的视频-段落检索方法及系统
CN113239237A (zh) * 2021-07-13 2021-08-10 北京邮电大学 跨媒体大数据搜索方法及装置
CN113344036A (zh) * 2021-07-19 2021-09-03 昆明理工大学 一种基于动态词嵌入的多模态Transformer的图像描述方法
CN113657115B (zh) * 2021-07-21 2023-06-30 内蒙古工业大学 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN113657115A (zh) * 2021-07-21 2021-11-16 内蒙古工业大学 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN113642332A (zh) * 2021-08-11 2021-11-12 福州大学 一种融合多级语义信息的多模态讽刺识别系统方法
CN113642332B (zh) * 2021-08-11 2023-11-14 福州大学 一种融合多级语义信息的多模态讽刺识别系统方法
CN113420154A (zh) * 2021-08-25 2021-09-21 成都索贝数码科技股份有限公司 基于层次注意的分层多标签文本分类模型的构建方法
CN113420154B (zh) * 2021-08-25 2021-12-10 成都索贝数码科技股份有限公司 基于层次注意的分层多标签文本分类模型的构建方法
CN113837233A (zh) * 2021-08-30 2021-12-24 厦门大学 基于样本自适应语义引导的自注意力机制的图像描述方法
CN113837233B (zh) * 2021-08-30 2023-11-17 厦门大学 基于样本自适应语义引导的自注意力机制的图像描述方法
CN114218380A (zh) * 2021-12-03 2022-03-22 淮阴工学院 基于多模态的冷链配载用户画像标签抽取方法及装置
CN113971209B (zh) * 2021-12-22 2022-04-19 松立控股集团股份有限公司 一种基于注意力机制增强的无监督跨模态检索方法
CN113971209A (zh) * 2021-12-22 2022-01-25 松立控股集团股份有限公司 一种基于注意力机制增强的无监督跨模态检索方法
CN114330279B (zh) * 2021-12-29 2023-04-18 电子科技大学 一种跨模态语义连贯性恢复方法
CN114330279A (zh) * 2021-12-29 2022-04-12 电子科技大学 一种跨模态语义连贯性恢复方法
CN114254158A (zh) * 2022-02-25 2022-03-29 北京百度网讯科技有限公司 视频生成方法及其装置、神经网络的训练方法及其装置
CN114780777B (zh) * 2022-04-06 2022-12-20 中国科学院上海高等研究院 基于语义增强的跨模态检索方法及装置、存储介质和终端
CN114780777A (zh) * 2022-04-06 2022-07-22 中国科学院上海高等研究院 基于语义增强的跨模态检索方法及装置、存储介质和终端
CN114896450A (zh) * 2022-04-15 2022-08-12 中山大学 一种基于深度学习的视频时刻检索方法与系统
CN114896450B (zh) * 2022-04-15 2024-05-10 中山大学 一种基于深度学习的视频时刻检索方法与系统
CN115033727A (zh) * 2022-05-10 2022-09-09 中国科学技术大学 基于跨模态置信度感知的图像文本匹配方法
CN115359383A (zh) * 2022-07-07 2022-11-18 北京百度网讯科技有限公司 跨模态特征提取、检索以及模型的训练方法、装置及介质
CN115359383B (zh) * 2022-07-07 2023-07-25 北京百度网讯科技有限公司 跨模态特征提取、检索以及模型的训练方法、装置及介质
CN115730153B (zh) * 2022-08-30 2023-05-26 郑州轻工业大学 一种基于情感关联和情感标签生成的多模态情感分析方法
CN115730153A (zh) * 2022-08-30 2023-03-03 郑州轻工业大学 一种基于情感关联和情感标签生成的多模态情感分析方法
WO2024051350A1 (zh) * 2022-09-07 2024-03-14 腾讯科技(深圳)有限公司 图像检索方法、装置、电子设备及存储介质
CN115661594B (zh) * 2022-10-19 2023-08-18 海南港航控股有限公司 一种基于对齐和融合的图文多模态特征表示方法和系统
CN115661594A (zh) * 2022-10-19 2023-01-31 海南港航控股有限公司 一种基于对齐和融合的图文多模态特征表示方法和系统
CN116128438A (zh) * 2022-12-27 2023-05-16 江苏巨楷科技发展有限公司 一种基于大数据记录信息的智慧社区管理系统
CN117556067A (zh) * 2024-01-11 2024-02-13 腾讯科技(深圳)有限公司 数据检索方法、装置、计算机设备和存储介质
CN117556067B (zh) * 2024-01-11 2024-03-29 腾讯科技(深圳)有限公司 数据检索方法、装置、计算机设备和存储介质
CN117851444A (zh) * 2024-03-07 2024-04-09 北京谷器数据科技有限公司 一种基于语义理解下的高级搜索方法

Also Published As

Publication number Publication date
CN112966127B (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
CN112966127B (zh) 一种基于多层语义对齐的跨模态检索方法
CN110059217B (zh) 一种两级网络的图像文本跨媒体检索方法
Liu et al. Modelling interaction of sentence pair with coupled-lstms
CN113095415B (zh) 一种基于多模态注意力机制的跨模态哈希方法及系统
CN112417097B (zh) 一种用于舆情解析的多模态数据特征提取与关联方法
Sun et al. Research progress of zero-shot learning
Gao et al. Multi‐dimensional data modelling of video image action recognition and motion capture in deep learning framework
CN112800292B (zh) 一种基于模态特定和共享特征学习的跨模态检索方法
CN111324765A (zh) 基于深度级联跨模态相关性的细粒度草图图像检索方法
Chen et al. New ideas and trends in deep multimodal content understanding: A review
CN114817673A (zh) 一种基于模态关系学习的跨模态检索方法
Li et al. Multi-modal gated recurrent units for image description
CN111368176B (zh) 基于监督语义耦合一致的跨模态哈希检索方法及系统
CN113065587A (zh) 一种基于超关系学习网络的场景图生成方法
Menaga et al. Deep learning: a recent computing platform for multimedia information retrieval
Zhao et al. Generative label fused network for image–text matching
CN116737979A (zh) 基于上下文引导多模态关联的图像文本检索方法及系统
CN115827954A (zh) 动态加权的跨模态融合网络检索方法、系统、电子设备
Shen et al. Clustering-driven deep adversarial hashing for scalable unsupervised cross-modal retrieval
Jin et al. Deepwalk-aware graph convolutional networks
CN115221369A (zh) 视觉问答的实现方法和基于视觉问答检验模型的方法
Diallo et al. Auto-attention mechanism for multi-view deep embedding clustering
Zhang et al. Deep collaborative graph hashing for discriminative image retrieval
CN113239159B (zh) 基于关系推理网络的视频和文本的跨模态检索方法
Fu et al. Robust representation learning for heterogeneous attributed networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220520