CN114625910B - 基于负感知注意力框架的图像文本跨模态检索方法 - Google Patents

基于负感知注意力框架的图像文本跨模态检索方法 Download PDF

Info

Publication number
CN114625910B
CN114625910B CN202210516499.6A CN202210516499A CN114625910B CN 114625910 B CN114625910 B CN 114625910B CN 202210516499 A CN202210516499 A CN 202210516499A CN 114625910 B CN114625910 B CN 114625910B
Authority
CN
China
Prior art keywords
image
similarity
text
word
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210516499.6A
Other languages
English (en)
Other versions
CN114625910A (zh
Inventor
毛震东
张勇东
郭俊波
张坤
郭文歆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Konami Sports Club Co Ltd
Original Assignee
University of Science and Technology of China USTC
People Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC, People Co Ltd filed Critical University of Science and Technology of China USTC
Priority to CN202210516499.6A priority Critical patent/CN114625910B/zh
Publication of CN114625910A publication Critical patent/CN114625910A/zh
Application granted granted Critical
Publication of CN114625910B publication Critical patent/CN114625910B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/51Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Library & Information Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于负感知注意力框架的图像文本跨模态检索方法,与现有的仅关注匹配片段而削弱或消除不匹配片段作用效果的方法相比,同时关注了图像‑文本对中的匹配和不匹配片段,通过高效的迭代优化策略最大限度地挖掘负面的不匹配片段,生成更具区分性和鲁棒性的负面作用。并且,本发明提出的双分支匹配机制,能够显式地利用片段带来的正面作用和负面作用,精确地衡量出片段的相似度与不相似度,用以共同推断出图文之间的整体相似度,因此可以实现更准确的检索效果。

Description

基于负感知注意力框架的图像文本跨模态检索方法
技术领域
本发明涉及图像文本跨模态检索领域,具体涉及一种基于负感知注意力框架的图像文本跨模态检索方法。
背景技术
如今,来自于移动社交网络的多媒体数据呈爆炸式增长,进而涌现出大量对于不同类型数据处理和利用的需求。其中,图像和文本是人们日常生活中最普遍出现的两种截然不同的信息模态,如何使计算机理解并关联两种异构数据是近年来跨模态领域的研究热点和难点。图像-文本跨模态检索,即通过图像检索对应的文本(或通过文本检索对应的图像)是该领域最基础的任务之一,其通过衡量图像和文本之间的语义相似程度,致力于弥合视觉与语言两个模态之间的语义鸿沟,从而实现高准确率的图文检索方法,在工业应用以及学术研究上都有着重要的价值。
现有的图文检索方法通常有两种模式。1)全局模式:模型直接学习整个图像和全文本之间的语义关联,从而衡量图文相似度。但是这种模式无法进一步学习图像的局部区域与文本中的单词之间的交互,其检索精度的提升空间有限。2)局部模式:考虑更细粒度的图像区域和文本单词的语义关联,通过计算所有图像区域和文本单词组成的“区域-单词”对相似度来衡量整体的图文相似度。并且近年来,基于注意力机制的检索方法已经成为该模式的主流。然而,在现有局部模式方法中,图文相似度通常由高相似度的区域-单词对决定,而低相似度的区域-单词对则被削弱或忽略。虽然现有局部模式检索取得很好的效果,但它们都忽略了:低相似度的区域-单词对同样是证明图像文本不匹配的重要线索,例如文本中出现与图像无关的单词,则直接表明文本与图像不匹配。因此不匹配片段在图文检索中也存在关键作用。
一个图像和一个文本组成图像-文本对,图像中的一个区域和文本中的一个单词组成区域-单词对,也称为片段。如果区域和单词的相似度高于阈值,则该区域和单词称为匹配片段,否则称为不匹配片段。
对于一个图像和一个包含多个单词的文本,如果文本中任意一个单词可以在该图像中找到至少一个区域组成匹配片段,则该图像为该文本的匹配图像,该文本和该图像组成匹配的图像-文本对;如果该文本中任意一个单词与该图像中的所有区域都无法组成匹配片段,则该图像为该文本中的不匹配图像,该文本和该图像为不匹配的图像-文本对。
发明内容
为解决上述技术问题,本发明提供一种新颖的、对不匹配片段的负面作用感知的检索方法,称之为负感知注意力框架。
为解决上述技术问题,本发明采用如下技术方案:
一种基于负感知注意力框架的图像文本跨模态检索方法,其训练过程包括以下步骤:
步骤一:图像V和包含m个单词的文本U组成图像-文本对(U,V),通过预训练模型提 取图像V每个区域的特征向量
Figure 597228DEST_PATH_IMAGE001
、文本U每个单词的特征向量
Figure 59433DEST_PATH_IMAGE002
步骤二:一个区域和一个片段组成的区域-单词对称为片段,设置区分边界tk,相似度大于tk的片段视为匹配片段,相似度小于或者等于tk的片段视为不匹配片段;
步骤三:计算文本所有单词ui与图像V所有区域
Figure 626812DEST_PATH_IMAGE003
的相似度
Figure 596780DEST_PATH_IMAGE004
,i∈[1,m],j∈[1,n];计算各单词ui,i∈[1,m]与图像V所有区域
Figure 729952DEST_PATH_IMAGE003
的相似度与区分 边界tk的差值的最大值,作为各单词的匹配程度
Figure 831900DEST_PATH_IMAGE005
;对各单词 的匹配程度进行模态内传播,得到单词的模态内增强匹配程度
Figure 509744DEST_PATH_IMAGE006
;其中
Figure 722550DEST_PATH_IMAGE007
表示第i个和第
Figure 897180DEST_PATH_IMAGE008
个单词之间的语义关系,λ是比例因子;则图像-文本对(U,V)中第i个单词所带来的负面作 用
Figure 170029DEST_PATH_IMAGE009
;其中
Figure 305476DEST_PATH_IMAGE010
为掩码函数,当输入为负数时输出为1,否 则输出为0,
Figure 820508DEST_PATH_IMAGE011
表示点积运算;
步骤四:第i个单词在图像中的共享语义可以被聚合为图像相关语义特征
Figure 115223DEST_PATH_IMAGE012
;其中
Figure 558974DEST_PATH_IMAGE013
是单词 ui和区域vj的语义关联;
Figure 853820DEST_PATH_IMAGE014
为掩码函数,当输入为正数时输出与输入相等,否则 输出-∞;单词ui的特征相似度为
Figure 172544DEST_PATH_IMAGE015
;语义相关度权重加权的分数 相似度
Figure 462711DEST_PATH_IMAGE016
,j∈[1,n];图像-文本对(U,V)中 第i个单词所带来的正面作用
Figure 77363DEST_PATH_IMAGE017
步骤五:图像-文本对(U,V)的相似度
Figure 312035DEST_PATH_IMAGE018
具体地,步骤一中,通过预训练模型提取图像V每个区域的特征向量时,通过预训 练的Faster R-CNN检测出图像V的候选区域,对每个区域利用预训练的ResNet-101进行均 值池卷积特征提取并经过一个全连接层,得到每个区域的特征向量
Figure 935915DEST_PATH_IMAGE019
具体地,步骤一中,通过预训练模型提取文本U每个单词的特征向量时,每个单词 首先被表示为一个300维的GloVe向量,然后使用双向门控循环单元BiGRU对GloVe向量进行 处理,最终使用双向隐藏状态的平均值作为每个单词的特征向量
Figure 313544DEST_PATH_IMAGE020
具体地,步骤二中设置区分边界tk时,通过如下交替优化方法得到tk
对于一个匹配的图像-文本对,该文本中的单词ui,i∈[1,m],和该图像所有区域
Figure 99098DEST_PATH_IMAGE021
中相似度最高的区域组成匹配片段;
对于一个不匹配的图像-文本对,该文本中的单词ui,i∈[1,m]和该图像所有区域
Figure 696432DEST_PATH_IMAGE022
中相似度最高的区域组成不匹配片段;
则匹配片段的相似度
Figure 451899DEST_PATH_IMAGE023
,不匹配片段的相 似度
Figure 716658DEST_PATH_IMAGE024
;并构造如下集合:
Figure 171648DEST_PATH_IMAGE025
其中,其中
Figure 990699DEST_PATH_IMAGE026
Figure 815436DEST_PATH_IMAGE027
分别表示不匹配片段的相似度
Figure 669122DEST_PATH_IMAGE028
的集合和匹配片段的相似度
Figure 796478DEST_PATH_IMAGE029
的集合,
Figure 890378DEST_PATH_IMAGE026
Figure 253226DEST_PATH_IMAGE027
在训练过程中动态更新,k为更新的轮数;
基于构造出的集合
Figure 961419DEST_PATH_IMAGE026
Figure 259676DEST_PATH_IMAGE027
,分别建立匹配片段相似度s的概率密度函数
Figure 53320DEST_PATH_IMAGE030
和不匹配片段的相似度s的概率密度函数
Figure 219859DEST_PATH_IMAGE031
Figure 546673DEST_PATH_IMAGE032
其中,
Figure 281411DEST_PATH_IMAGE033
Figure 827930DEST_PATH_IMAGE034
分别是两种概率分布的均值和标准差;
当:
Figure 407947DEST_PATH_IMAGE035
优化问题
Figure 589267DEST_PATH_IMAGE036
具有最优解;即此时的 tk使得不匹配片段和匹配片段区分错误的概率最低,其中t是该优化问题的决策变量,α是 惩罚参数,
Figure 353961DEST_PATH_IMAGE037
本发明中,还可以通过人为选择的方式设置区分边界tk;通过对训练过程中匹配和不匹配片段语义相关程度的观察先验,可以人为地设置固定的区分边界,这种离线的固定值,虽然不影响利用匹配片段的正面作用和不匹配片段的负面作用实现跨模态检索,但无法实现本发明中交替优化方法自适应在线的动态调整,存在部分局限性。
与现有技术相比,本发明的有益技术效果是:
本发明首次显式地同时利用图像区域与文本单词中匹配片段的正面作用和不匹配片段的负面作用,从而联合衡量图像和文本的相似性。1)具体的,本发明提出了一种新颖的双分支的匹配模块,其包含两种不同的掩码注意力机制,一方面关注匹配片段的相似度,另一方面精确计算不匹配片段的不相似度,联合利用前者的正面作用和后者的负面作用进行图像和文本之间的跨模态检索;2)此外,本发明还提出一种全新的交替优化方法来显示的挖掘不匹配片段,首先通过建模匹配片段和不匹配片段的相似度分布,然后通过优化两个分布的最小错分概率求解最优的相似度区分阈值,从而尽可能的区分不匹配片段。通过本发明提出的方法,能够得到更全面、可解释的图文相似度衡量,实现更精确的图像-文本跨模态检索。
附图说明
图1为本发明基于负感知注意力框架的图文检索流程框图一;
图2为本发明基于负感知注意力框架的图文检索流程框图二;
图3为本发明匹配片段与不匹配片段相似度分布建模示意图。
具体实施方式
下面结合附图对本发明的一种优选实施方式作详细的说明。
如图1和图2所示,本发明提出一种基于负感知注意力框架的图像文本跨模态检索方法,基于负感知注意力框架包括:不匹配片段挖掘模块和正负双分支匹配模块。检索方法的训练过程如下:
1.基于预训练模型的图像与文本特征提取
1.1图像特征提取
Faster R-CNN是一个预训练的目标检测框架,具有很好的检测速度和检测精度。 本发明中,对于给定的图像V,选择Faster R-CNN检测出的前36个候选区域,利用预训练的 ResNet-101进行均值池卷积特征提取,最后经过一个全连接层,得到每个区域的特征向量
Figure 122196DEST_PATH_IMAGE019
,特征长度设置为1024。
1.2文本特征提取
给定一个包含m个单词的文本U,每个单词首先被表示为一个300维的GloVe向量, 然后使用双向门控循环单元BiGRU对这些向量进行处理,整合前后的上下文信息,最终使用 双向隐藏状态的平均值作为每个单词的特征向量
Figure 505904DEST_PATH_IMAGE020
,特征长度同样为1024。
2.不匹配片段挖掘模块
2.1区域-单词对的相似度建模。
在一个图像-文本对中包含大量的匹配和不匹配的片段,我们需要充分利用这两 种类型的信息来实现更精确的检索性能。在实际匹配的过程中,计算出区域-单词对的相似 度后,需要一个边界来决定它是匹配片段还是不匹配片段,现有的方法通常隐式地以固定 值0作为区分边界。为了更准确地区分匹配片段和不匹配片段,我们对两者的相似度进行采 样,然后显式地、自适应地建模两者的相似度分布,继而找到一个最优的区分边界,实现有 效的不匹配片段挖掘。考虑到缺乏关于片段级的区域-单词是否匹配的先验信息,并且图像 中含有大量背景区域,我们从文本的角度出发,设计了一种采样策略:对于一个匹配的图 像-文本对,该文本的单词一定可以在该文本匹配图像中找到至少一个匹配区域,我们视一 个文本的单词ui,i∈[1,m]和该文本匹配图像的所有区域
Figure 308775DEST_PATH_IMAGE021
中相似度最高的为匹配 片段,进而做出采样:
Figure 244370DEST_PATH_IMAGE023
另一方面,对于一个不匹配的图像-文本对,文本中的不匹配单词与图像中的所有 区域都不匹配,此时单词ui,i∈[1,m]和文本的不匹配图像的所有区域
Figure 732858DEST_PATH_IMAGE022
中,相似度 最高的区域可以代表不匹配片段的相似度上界,由此做出采样:
Figure 920257DEST_PATH_IMAGE024
并构造如下集合:
Figure 577635DEST_PATH_IMAGE025
其中
Figure 418552DEST_PATH_IMAGE026
Figure 161380DEST_PATH_IMAGE027
分别表示不匹配片段的相似度
Figure 385425DEST_PATH_IMAGE028
和匹配片段的相似度
Figure 756364DEST_PATH_IMAGE029
的集合, 它们会在训练过程中动态更新,k即为更新的轮数。基于构造出的两个集合,可以分别建立 匹配片段和不匹配片段的相似度s的概率密度函数:
Figure 909128DEST_PATH_IMAGE038
其中,
Figure 139252DEST_PATH_IMAGE033
Figure 402874DEST_PATH_IMAGE034
分别是两种概率分布的均值和标准差。
2.2交替优化更新策略
分别得到两个相似度分布建模后,可以用一个显式的边界tk在匹配片段和不匹配片段之间进行区分,如图3所示,相似度大于tk的区域-单词对被视为匹配片段,反之则为不匹配片段。其中,有两种区分错误的情况:将实际上不匹配的片段区分为匹配的(如图3中的αE1),或者将实际上匹配的片段误认为是不匹配的(如图3中的E2)。我们的目的是最大限度的挖掘出不匹配片段,需要找出一个最优的边界tk,使得区分错误的概率最低,保证识别的准确性,即解决如下优化问题:
Figure 893898DEST_PATH_IMAGE039
,s.t. t≥0,
其中t是该问题的决策变量,α是惩罚参数;该问题的最优解为:
Figure 716098DEST_PATH_IMAGE040
其中
Figure 167939DEST_PATH_IMAGE041
值得强调的是,在训练期间,首先从匹配片段和不匹配片段的相似度分布中学习到显式边界tk,随即tk被整合到注意力匹配过程中,用以调整两个相似度分布,使之更有区分度,这便形成一个交替的优化过程,最终可以最大限度的分离两个分布,使得不匹配片段产生更强的负面影响。
3.正负双分支匹配模块
在正负双分支匹配模块中,我们同时考虑图像-文本对之间的匹配片段和不匹配片段,通过使用正面和负面两种不同的注意力掩码,分别从两个分支精确衡量它们的积极和消极作用。我们首先计算所有区域-单词对之间的相似度:
Figure 359886DEST_PATH_IMAGE042
依然从文本的角度出发,计算一个文本的单词ui,i∈[1,m]和一个图像所有区域
Figure 846363DEST_PATH_IMAGE043
的相似度与区分边界tk的差值,其中的最大值体现了这个单词的匹配程度:
Figure 340929DEST_PATH_IMAGE044
考虑到单词在文本内的语义内关系,使语义相似的单词获得相同的匹配关系,进一步对每个单词的匹配程度进行一次模态内传播:
Figure 778601DEST_PATH_IMAGE045
其中
Figure 774239DEST_PATH_IMAGE046
表示第i个和第
Figure 849642DEST_PATH_IMAGE008
个单词之间的语义关系,λ是比例因子。
由此,可以衡量出一个图像-文本对(U,V)中第i个单词所带来的负面作用为:
Figure 515110DEST_PATH_IMAGE047
其中
Figure 66177DEST_PATH_IMAGE048
为掩码函数,当输入为负数时输出为1,否则为0,
Figure 740872DEST_PATH_IMAGE049
表示点积运 算。
另一方面,衡量图像-文本对的相似程度时,我们首先关注跨模态的共享语义,第i个单词在图像中相关的共享语义可以被聚合为:
Figure 434896DEST_PATH_IMAGE050
其中
Figure 130320DEST_PATH_IMAGE013
是单词ui和区域vj的语义关联,
Figure 44049DEST_PATH_IMAGE014
为掩码函数,当输入为正 数时输出与输入相等,否则输出-∞;这样使得不相关的图像区域
Figure 256856DEST_PATH_IMAGE051
的注意力 权重被削减至0。由此, 单词ui的特征相似度为
Figure 306852DEST_PATH_IMAGE052
。另外,区域与 单词间的相关度分数
Figure 704335DEST_PATH_IMAGE053
也反应了图文间的相似程度,得到由相关度权重加权的相似度
Figure 338316DEST_PATH_IMAGE054
,j∈[1,n]。因此,一个图像-文本对(U, V)中第i个单词所带来的正面作用为:
Figure 354814DEST_PATH_IMAGE055
最终,图像-文本对(U,V)的相似度由正面作用和负面作用共同决定:
Figure 118370DEST_PATH_IMAGE056
本发明中的图像文本跨模态检索方法的训练损失函数为双向三元组排序损失:
Figure 827700DEST_PATH_IMAGE057
其中
Figure 450443DEST_PATH_IMAGE058
是超参数边距;
Figure 503587DEST_PATH_IMAGE059
,其中p 表示与文本U不匹配的任意图像,q表示与图像V不匹配的任意文本,V’和U’表示对于一个图 像-文本对(U,V)而言最难以区分的不对齐样本。图像文本跨模态检索方法的训练优化过程 采用Adam作为优化器,学习率初始化为0.0005,边距参数
Figure 528175DEST_PATH_IMAGE058
设置为0.2,比例因子λ设置为 20,惩罚参数α初始化为2.0。
4.数据集使用Flickr30K和MS-COCO。Flickr30K中共含有31000张图片和155000个句子,一张图片与五个句子检索,数据集的划分情况为:1000张图片作为测试,1000张图片作为验证,29000张图片作为训练;MS-COCO包含有123287张图片和616435个句子,划分情况为:5000张图片作为测试,5000张图片作为验证,113287张图片作为训练。
本发明中的实验评估指标为Recall at K (R@K, K=1, 5, 10)和rSum,R@K表示在检索到的前K个结果中检索正确的结果所占的百分比,rSum表示所有R@K结果的总和,体现了整体的检索性能。大量实验结果表明,本发明提出的框架能够最大限度地挖掘出不匹配片段的负面作用,且通过联合利用不匹配片段负面作用和匹配片段正面作用的方式,能够明显有效地提升图像文本检索的精度,较好地体现了本发明在图文检索任务上的优势。
本发明的模型架构如图1和图2所示,对于一张图像和一个句子,首先进行特征提取(长度为1024的特征向量),然后计算图像区域和句子中单词的片段间相似度,并进行抽样和建模,利用匹配片段和不匹配片段的相似度分布学习出区分两者的最优边界tk,根据tk的区分结果分别从正面作用和负面作用两个分支进行匹配,最终将其合成为图像与句子的整体相似度,根据排序判断是否匹配。
本发明的匹配片段与不匹配片段相似度分布建模如图3所示,其中虚线表示不匹配片段的相似度分布,实线表示匹配片段的相似度分布。
将一个图像-文本对输入到网络中,利用本发明中的检索方法进行不匹配片段挖掘和双分支匹配,最后能够得出这对图像和文本的相似度。给定一个图像作为查询,本发明能够得到该图像与所有文本的相似度,排序靠前的文本即与图像匹配;同理,给定文本作为查询,本发明能够检索出与之对应的图像。
本发明能够应用于各类网络应用,如搜索引擎、智能推荐系统等,可以在图像和文本之间进行精确的检索,因而具有较强的应用价值。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立技术方案,说明书的这种叙述方式仅仅是为了清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (4)

1.一种基于负感知注意力框架的图像文本跨模态检索方法,其训练过程包括以下步骤:
步骤一:图像V和包含m个单词的文本U组成图像-文本对(U,V),通过预训练模型提取图 像V每个区域的特征向量
Figure 184397DEST_PATH_IMAGE001
、文本U每个单词的特征向量
Figure 224028DEST_PATH_IMAGE002
步骤二:一个区域和一个片段组成的区域-单词对称为片段,设置区分边界tk,相似度大于tk的片段视为匹配片段,相似度小于或者等于tk的片段视为不匹配片段;
步骤三:计算文本所有单词ui与图像V所有区域
Figure 934495DEST_PATH_IMAGE003
的相似度
Figure 553826DEST_PATH_IMAGE004
,i∈ [1,m],j∈[1,n];计算各单词ui,i∈[1,m]与图像V所有区域
Figure 869401DEST_PATH_IMAGE003
的相似度与区分边界 tk的差值的最大值,作为各单词的匹配程度
Figure 673409DEST_PATH_IMAGE005
;对各单词的匹 配程度进行模态内传播,得到单词的模态内增强匹配程度
Figure 746538DEST_PATH_IMAGE006
;其中
Figure 294194DEST_PATH_IMAGE007
表示第i个和第
Figure 933117DEST_PATH_IMAGE008
个单词之间的语义关系,λ是比例因子;则图像-文本对(U,V)中第i个单词所带来的负面作 用
Figure 48972DEST_PATH_IMAGE009
;其中
Figure 671714DEST_PATH_IMAGE010
为掩码函数,当输入为负数时输出为1,否 则输出为0,
Figure 288640DEST_PATH_IMAGE011
表示点积运算;
步骤四:第i个单词在图像中的共享语义可以被聚合为图像相关语义特征
Figure 313228DEST_PATH_IMAGE012
;其中
Figure 865564DEST_PATH_IMAGE013
是单词 ui和区域vj的语义关联;
Figure 506760DEST_PATH_IMAGE014
为掩码函数,当输入为正数时输出与输入相等,否则 输出-∞;单词ui的特征相似度为
Figure 271585DEST_PATH_IMAGE015
;语义相关度权重加权的分数 相似度
Figure 478576DEST_PATH_IMAGE016
,j∈[1,n];图像-文本对(U,V)中 第i个单词所带来的正面作用
Figure 936233DEST_PATH_IMAGE017
步骤五:图像-文本对(U,V)的相似度
Figure 533567DEST_PATH_IMAGE018
2.根据权利要求1所述的基于负感知注意力框架的图像文本跨模态检索方法,其特征 在于,步骤一中,通过预训练模型提取图像V每个区域的特征向量时,通过预训练的Faster R-CNN检测出图像V的候选区域,对每个区域利用预训练的ResNet-101进行均值池卷积特征 提取并经过一个全连接层,得到每个区域的特征向量
Figure 492296DEST_PATH_IMAGE001
3.根据权利要求1所述的基于负感知注意力框架的图像文本跨模态检索方法,其特征 在于,步骤一中,通过预训练模型提取文本U每个单词的特征向量时,每个单词首先被表示 为一个300维的GloVe向量,然后使用双向门控循环单元BiGRU对GloVe向量进行处理,最终 使用双向隐藏状态的平均值作为每个单词的特征向量
Figure 898001DEST_PATH_IMAGE002
4.根据权利要求1所述的基于负感知注意力框架的图像文本跨模态检索方法,其特征在于,步骤二中设置区分边界tk时,通过如下交替优化方法得到tk
对于一个匹配的图像-文本对,该文本中的单词ui,i∈[1,m],和该图像所有区域
Figure DEST_PATH_IMAGE019
中相似度最高的区域组成匹配片段;
对于一个不匹配的图像-文本对,该文本中的单词ui,i∈[1,m]和该图像所有区域
Figure 323297DEST_PATH_IMAGE020
中相似度最高的区域组成不匹配片段;
则匹配片段的相似度
Figure 80032DEST_PATH_IMAGE021
,不匹配片段的相似度
Figure 842451DEST_PATH_IMAGE022
;并构造如下集合:
Figure 368242DEST_PATH_IMAGE023
其中,其中
Figure 230018DEST_PATH_IMAGE024
Figure 864262DEST_PATH_IMAGE025
分别表示不匹配片段的相似度
Figure 774580DEST_PATH_IMAGE026
的集合和匹配片段的相似度
Figure 748353DEST_PATH_IMAGE027
的集合,
Figure 249872DEST_PATH_IMAGE024
Figure 512358DEST_PATH_IMAGE025
在训练过程中动态更新,k为更新的轮数;
基于构造出的集合
Figure 85421DEST_PATH_IMAGE024
Figure 320225DEST_PATH_IMAGE025
,分别建立匹配片段相似度s的概率密度函数
Figure 851700DEST_PATH_IMAGE028
和不 匹配片段的相似度s的概率密度函数
Figure 804744DEST_PATH_IMAGE029
Figure 650340DEST_PATH_IMAGE030
其中,
Figure 395442DEST_PATH_IMAGE031
Figure 35502DEST_PATH_IMAGE032
分别是两种概率分布的均值和标准差;
当:
Figure 499279DEST_PATH_IMAGE033
优化问题
Figure 945304DEST_PATH_IMAGE034
具有最优解;即此时的tk使 得不匹配片段和匹配片段区分错误的概率最低,其中t是该优化问题的决策变量,α是惩罚 参数,
Figure 482596DEST_PATH_IMAGE035
CN202210516499.6A 2022-05-13 2022-05-13 基于负感知注意力框架的图像文本跨模态检索方法 Active CN114625910B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210516499.6A CN114625910B (zh) 2022-05-13 2022-05-13 基于负感知注意力框架的图像文本跨模态检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210516499.6A CN114625910B (zh) 2022-05-13 2022-05-13 基于负感知注意力框架的图像文本跨模态检索方法

Publications (2)

Publication Number Publication Date
CN114625910A CN114625910A (zh) 2022-06-14
CN114625910B true CN114625910B (zh) 2022-08-19

Family

ID=81906951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210516499.6A Active CN114625910B (zh) 2022-05-13 2022-05-13 基于负感知注意力框架的图像文本跨模态检索方法

Country Status (1)

Country Link
CN (1) CN114625910B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784092A (zh) * 2021-01-28 2021-05-11 电子科技大学 一种混合融合模型的跨模态图像文本检索方法
CN112905827A (zh) * 2021-02-08 2021-06-04 中国科学技术大学 跨模态图文匹配的方法、装置及计算机可读存储介质
CN113239153A (zh) * 2021-05-26 2021-08-10 清华大学深圳国际研究生院 一种基于实例遮掩的文本与图像互检索方法
CN114297473A (zh) * 2021-11-25 2022-04-08 北京邮电大学 基于多级图文语义对齐模型的新闻事件搜索方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11657230B2 (en) * 2020-06-12 2023-05-23 Adobe Inc. Referring image segmentation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784092A (zh) * 2021-01-28 2021-05-11 电子科技大学 一种混合融合模型的跨模态图像文本检索方法
CN112905827A (zh) * 2021-02-08 2021-06-04 中国科学技术大学 跨模态图文匹配的方法、装置及计算机可读存储介质
CN113239153A (zh) * 2021-05-26 2021-08-10 清华大学深圳国际研究生院 一种基于实例遮掩的文本与图像互检索方法
CN114297473A (zh) * 2021-11-25 2022-04-08 北京邮电大学 基于多级图文语义对齐模型的新闻事件搜索方法及系统

Also Published As

Publication number Publication date
CN114625910A (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN111708873B (zh) 智能问答方法、装置、计算机设备和存储介质
CN110298037B (zh) 基于增强注意力机制的卷积神经网络匹配的文本识别方法
JP3882048B2 (ja) 質問応答システムおよび質問応答処理方法
WO2021139262A1 (zh) 文献主题词聚合方法、装置、计算机设备及可读存储介质
CN111324752B (zh) 基于图神经网络结构建模的图像与文本检索方法
CN111104511B (zh) 一种提取热点话题的方法、装置及存储介质
Wu et al. Webiq: Learning from the web to match deep-web query interfaces
US8788494B2 (en) Method, device and system for processing, browsing and searching an electronic documents
CN109325201A (zh) 实体关系数据的生成方法、装置、设备及存储介质
JP2009093649A (ja) オントロジー空間を規定するタームの推奨
CN112966091B (zh) 一种融合实体信息与热度的知识图谱推荐系统
US20120158716A1 (en) Image object retrieval based on aggregation of visual annotations
WO2018090468A1 (zh) 视频节目的搜索方法和装置
CN113761890B (zh) 一种基于bert上下文感知的多层级语义信息检索方法
CN113722478B (zh) 多维度特征融合相似事件计算方法、系统及电子设备
CN110110116A (zh) 一种整合深度卷积网络和语义分析的商标图像检索方法
Zhang et al. On-the-fly table generation
CN112307182A (zh) 一种基于问答系统的伪相关反馈的扩展查询方法
CN115033727B (zh) 基于跨模态置信度感知的图像文本匹配方法
CN110232185A (zh) 面向金融行业软件测试基于知识图谱语义相似度计算方法
CN115935194A (zh) 基于共识嵌入空间和相似度的视觉和文本跨模态匹配方法
CN106570196B (zh) 视频节目的搜索方法和装置
CN114004236B (zh) 融入事件实体知识的汉越跨语言新闻事件检索方法
CN111259156A (zh) 一种面向时间序列的热点聚类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant