CN112784092A - 一种混合融合模型的跨模态图像文本检索方法 - Google Patents

一种混合融合模型的跨模态图像文本检索方法 Download PDF

Info

Publication number
CN112784092A
CN112784092A CN202110118655.9A CN202110118655A CN112784092A CN 112784092 A CN112784092 A CN 112784092A CN 202110118655 A CN202110118655 A CN 202110118655A CN 112784092 A CN112784092 A CN 112784092A
Authority
CN
China
Prior art keywords
text
image
cross
fusion
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110118655.9A
Other languages
English (en)
Other versions
CN112784092B (zh
Inventor
徐行
王依凡
杨阳
邵杰
申恒涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110118655.9A priority Critical patent/CN112784092B/zh
Publication of CN112784092A publication Critical patent/CN112784092A/zh
Application granted granted Critical
Publication of CN112784092B publication Critical patent/CN112784092B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Abstract

本发明公开了一种混合融合模型的跨模态图像文本检索方法,在早期融合结构中,首先结合局部的视觉区域特征和文本的原始全局特征,以获得一个统一的跨模态融合表征,再以融合特征为输入,在随后的嵌入网络中增强局部视觉特征和语言信息之间的交互;与此同时,以传统的晚期融合结构为基础,将原始图像和句子特征分别输入到视觉和文本编码器中进行模态内特征增强,丰富各自模态的语义信息;最后,整个网络相似度是早期融合相似度和晚期融合相似度的加权线性组合,从而实现了早期融合在跨模态学习层面和晚期融合在模态内学习层面的互补,完成图像和文本模态之间的潜在对齐。

Description

一种混合融合模型的跨模态图像文本检索方法
技术领域
本发明属于跨模态检索技术领域,更为具体地讲,涉及一种混合融合模型的跨模态图像文本检索方法。
背景技术
跨模态检索是指用户通过输入任意模态的查询数据,检索出所有模态中的语义相关数据。随着移动互联网中文本、图像和视频等多模态数据的日益增多,跨越不同模态的检索成为信息检索的新趋势,实现快速准确的图像文本检索具有极大的应用价值与经济效益。
由于来自图像数据的计算机视觉特征和来自文本数据的语言特征天然存在数据分布和底层特征表示的“异构鸿沟”,如何度量图像和文本之间在高层语义上的相关性仍是一个挑战。目前方法的解决思路通常是对不同模态的数据进行融合,从而减少不同模态之间的表征差异,进一步在融合表征的基础上计算跨模态相似度,实现图像文本跨模态检索。其中根据融合策略在整个网络框架中实施的阶段,主要可以划分为两类方法:早期融合策略、晚期融合策略。
1)早期融合策略:早期融合策略主要简单的联合操作将图像和文本的原始特征合并在一起,随后基于融合表征通过一个统一的网络学习框架对融合向量进行嵌入学习,从而使候机的网络可以对跨模态融合表征进行适应和自动学习,进一步促进不同模态之间的信息交流。
2)晚期融合策略:传统的晚期融合策略对图像和文本特征分别设计独立的图像编码器和文本编码器,原始的视觉和文本特征通过注意力机制,图卷积和递归模型等操作增强各自模态的特征表示,促进模态内的关系学习和高层语义的挖掘,最后通过晚期融合对编码后的视觉和文本特征进行结合,生成图像-文本相似度。。
目前主流的跨模态检索方法采用晚期融合策略,对图像和文本数据运用较为复杂的网络设计分别进行嵌入编码,此类方法往往存在跨模态学习不充分的问题,同时计算成本较高。另一方面,现有的早期融合方法往往较为粗糙,只能在全局层面对图像文本数据进行融合,性能上表现较为一般。
发明内容
本发明的目的在于克服现有技术的不足,提供一种混合融合模型的跨模态图像文本检索方法,通过结合早期融合和晚期融合策略,实现早期融合在跨模态学习层面和晚期融合在模态内学习层面的互补,从而实现图像和文本模态之间的潜在对齐。
为实现上述发明目的,本发明一种混合融合模型的跨模态图像文本检索方法,其特征在于,包括以下步骤:
(1)、提取跨模态数据特征;
(1.1)、下载包含N组图像与其对应的描述性文本的跨模态图像文本对数据;
(1.2)、在每一组跨模态图像文本对数据中,利用基于区域的卷积神经网络FasterR-CNN提取图像区域特征集合V={vi},其中,vi表示第i个图像区域特征,i=1,2,…,k,k代表图像区域特征集合中元素个数;利用基于门控循环单元GRU提取文本单词特征集合T={tj},其中,tj表示第j个文本单词特征,j=1,2,…,l,l是文本单词个数;
(2)、训练混合融合模型;
(2.1)、将任意一组跨模态数据特征输入至混合融合模型;
(2.2)、计算跨模态数据特征的早期融合跨模态相似度;
(2.2.1)、对跨模态数据特征进行早期融合:拼接图像区域特征vi与平均池化后的文本单词特征
Figure BDA0002921232440000021
再归一化处理,得到跨模态融合特征vti
Figure BDA0002921232440000022
其中,
Figure BDA0002921232440000023
表示级联操作,BatchNorm(·)表示归一化处理;
(2.2.2)、在跨模态融合特征vti的基础上,采用多层感知机进行嵌入学习,从而生成跨模态融合特征
Figure BDA0002921232440000031
Figure BDA0002921232440000032
其中,Ws,Wh,bs,bh分别表示全连接线性层中的待训练参数,σ(·)表示tanh激活函数;
(2.2.3)、使用余弦相似度构建早期融合图像文本相似度;
将k个跨模态融合特征
Figure BDA0002921232440000033
进行平均池化,得到特征
Figure BDA0002921232440000034
将平均池化后的文本单词特征
Figure BDA0002921232440000035
记为
Figure BDA0002921232440000036
即:
Figure BDA0002921232440000037
采用余弦相似度计算特征
Figure BDA0002921232440000038
和特征
Figure BDA0002921232440000039
的早期融合跨模态相似度Searly
Figure BDA00029212324400000310
(2.3)、计算跨模态数据特征的晚期融合图像文本相似度;
通过不同的编码方式对每一组跨模态数据特征进行编码,然后对编码后的图像与文本特征采用晚期融合机制,生成晚期融合图像文本相似度Slate
(2.4)、构造图像文本检索中的综合跨模态相似度S;
通过一个可控权重参数γ将早期融合跨模态相似度Searly和晚期融合图像文本相似度Slate进行线性加权,得到综合跨模态相似度S;
S=γ·Searly+(1-γ)·Slate
(2.5)、根据综合跨模态相似度S构建三元组损失函数;
(2.5.1)、根据综合跨模态相似度S选出距离最近且不相关其他模态的样本,记为跨模态负样本对
Figure BDA00029212324400000311
Figure BDA00029212324400000312
而相关其他模态的样本记为跨模态正样本(vp,tp);
(2.5.2)、以拉近跨模态正样本(vp,tp)的距离,拉远跨模态负样本对
Figure BDA00029212324400000313
Figure BDA00029212324400000314
的距离为优化目标,构建三元组损失函数L;
Figure BDA00029212324400000315
其中,α是可调控的阈值,S(vp,tp),
Figure BDA00029212324400000316
Figure BDA00029212324400000317
分别表示正样本和负样本对的综合跨模态相似度;
(2.6)、利用随机梯度下降法对三元组损失函数L进行优化求解,记录下优化后的总损失函数值;
(2.7)、重复步骤(2.2)~(2.6),处理完N组跨模态图像文本对数据,得到N个损失函数值,完成N次训练,然后选出最小的一个损失函数值,并将该损失函数值对应的训练模型作为最终检测的混合融合模型;
(3)、跨模态的实时检索;
提取任意图像或文本的特征,并输入至步骤(2)得到的混合融合模型,从而检索出该图像最相关的文本实例或文本的最相关图像实例。
本发明的发明目的是这样实现的:
本发明一种混合融合模型的跨模态图像文本检索方法,在早期融合结构中,首先结合局部的视觉区域特征和文本的原始全局特征,以获得一个统一的跨模态融合表征,再以融合特征为输入,在随后的嵌入网络中增强局部视觉特征和语言信息之间的交互;与此同时,以传统的晚期融合结构为基础,将原始图像和句子特征分别输入到视觉和文本编码器中进行模态内特征增强,丰富各自模态的语义信息;最后,整个网络相似度是早期融合相似度和晚期融合相似度的加权线性组合,从而实现了早期融合在跨模态学习层面和晚期融合在模态内学习层面的互补,完成图像和文本模态之间的潜在对齐。
同时,本发明一种混合融合模型的跨模态图像文本检索方法还具有以下有益效果:
(1)、本发明设计一个混合融合结构的图像文本跨模态检索框架,同时结合了早期融合策略和晚期融合策略,使两者在跨模态的信息交互与模态内的关系挖掘进行互补,并在最终图像文本相似度度量上进行结合,从而可以更好提取与识别图像与文本在高层语义上的潜在相关性,解决跨模态检索中“异构鸿沟”的问题。
(2)、本发明中设计的早期融合模块,区别于以往早期融合策略中仅在全局特征上进行跨模态重构机制,在原始特征层面上对图像的区域特征和文本的全局特征进行早期融合,增强了视觉特征的表达能力。
(3)、本发明设计的早期融合模块,可以很方便容易地移植到现有的晚期融合模型框架中,在促进跨模态信息交流,提高图像文本检索准确度的同时,并不会带来庞大的计算量和时间成本,是一个通用的混合融合架构。
(4)、本发明设计的晚期融合模块采用模态内编码器进行特征加强,随后对不同融合机制的结果进行融合,经过整个网络训练后进行跨模态检索。
(5)、本发明设计的融合网络可以动态调节早期融合和晚期融合的比例,在图像文本相似度上进一步融合,可以进一步提高跨模态检索的准确度。
附图说明
图1是本发明一种混合融合模型的跨模态图像文本检索方法流程图;
图2是基于本发明的一种神经网络连接框架;
图3是早期融合计算跨模态相似度的具体流程图;
图4是晚期融合计算跨模态相似度的具体流程图;
图5是混合融合结构与单一的晚期融合结构在数据集MSCOCO上的检索对比图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明一种混合融合模型的跨模态图像文本检索方法流程图。
在本实施例中,如图1所示,本发明一种混合融合模型的跨模态图像文本检索方法,包括以下步骤:
S1、提取跨模态数据特征;
S1.1、下载包含N组图像与其对应的描述性文本的跨模态图像文本对数据;
S1.2、在每一组跨模态图像文本对数据中,利用基于区域的卷积神经网络FasterR-CNN提取图像区域特征集合V={vi},其中,vi表示第i个图像区域特征,i=1,2,…,k,k代表图像区域特征集合中元素个数,在本实施例中k取为36;利用基于门控循环单元GRU提取文本单词特征集合T={tj},其中,tj表示第j个文本单词特征,j=1,2,…,l,l是文本单词个数,在本实施例中l取为10;
S2、训练混合融合模型;
在本实施例中,混合融合模型的网络框架如图2所示。
S2.1、将任意一组跨模态数据特征输入至混合融合模型,按照图3所示,计算早期融合计算跨模态相似度;
S2.2、计算跨模态数据特征的早期融合跨模态相似度;
S2.2.1、对跨模态数据特征进行早期融合:拼接图像区域特征vi与平均池化后的文本单词特征
Figure BDA0002921232440000061
再归一化处理,得到跨模态融合特征vti
Figure BDA0002921232440000062
其中,
Figure BDA0002921232440000063
表示级联操作,BatchNorm(·)表示归一化处理;
S2.2.2、在跨模态融合特征vti的基础上,采用多层感知机进行嵌入学习,从而生成跨模态融合特征
Figure BDA0002921232440000064
Figure BDA0002921232440000065
其中,Ws,Wh,bs,bh分别表示全连接线性层中的待训练参数,σ(·)表示tanh激活函数;通过多层感知机的嵌入学习,可以有效促进图像和文本跨模态的信息交流,有助于模型对跨模态融合特征的适应;
S2.2.3、使用余弦相似度构建早期融合图像文本相似度;
将36个跨模态融合特征
Figure BDA0002921232440000066
进行平均池化,得到特征
Figure BDA0002921232440000067
将平均池化后的文本单词特征
Figure BDA0002921232440000068
记为
Figure BDA0002921232440000069
即:
Figure BDA00029212324400000610
采用余弦相似度计算特征
Figure BDA00029212324400000611
和特征
Figure BDA00029212324400000612
的早期融合跨模态相似度Searly
Figure BDA00029212324400000613
其中,||·||表示求二范数;
通过上述操作,将图像的局部区域特征和文本的全局句子特征联合起来,随后嵌入到统一的多层感知机中,可以有效利用图像区域的表达能力,同时后继的网络层可以对这种融合表征自适应,促进模态间的信息交互,有效实现跨模态的潜在对齐。
S2.3、计算跨模态数据特征的晚期融合图像文本相似度;
按照图4所示,计算晚期融合计算跨模态相似度:通过不同的编码方式对每一组跨模态数据特征进行编码,然后对编码后的图像与文本特征采用晚期融合机制,生成晚期融合图像文本相似度Slate
在本实施例中,采用交叉注意力、视觉语义推理、场景图和图结构四种不同的编码方式对跨模态数据特征进行编码,具体如下:
1)、采用交叉注意力编码:通过交叉注意力机制对局部的文本单词特征集合T={tj}进行加权,在加权过程中,每个文本单词特征tj通过对应的权重βj加权处理后再求所有加权后的文本单词特征的均值,得到全局特征t;然后将图像区域特征vi与全局特征t映射到同一嵌入空间,再通过余弦相似度计算局部-全局跨模态相关性R(vi,t);
在晚期融合中,通过指数和池化LSE或平均池化AVG的形式来聚合不同区域的局部-全局跨模态相关性,实现全局的图像与文本的晚期融合图像文本相似度的计算:
Figure BDA0002921232440000071
Figure BDA0002921232440000072
其中,
Figure BDA0002921232440000073
表示指数和池化形式下的晚期融合图像文本相似度,
Figure BDA0002921232440000074
表示指数和平均池化形式下的晚期融合图像文本相似度,λ2是可调控的参数,在本实施例中根据经验将λ2设为6;
2)、视觉语义推理编码:将图像区域特征集合V={vi}输入至图卷积网络,从而生成视觉增强表征V*={vi}*,然后通过基于门控循环网络的全局语义模块GRU进行多步视觉推理,得到视觉特征GRU(V*);最后将通过内积的计算方式将视觉特征GRU(V*)与文本单词特征集合T进行融合,得到晚期融合图像文本相似度Slate
Figure BDA0002921232440000075
其中,||·||表示求二范数;
3)、场景图编码:将图像区域特征集合V={vi}输入至场景图解析器中,生成图像场景图SG(V),其中图像场景图SG(V)的节点由k(本实施例中k=36)个图像区域特征vi和解析器所生成的Nr(本实施例中Nr=25)个图像关系特征vr构成;然后在场景图结构基础上,对36个图像区域特征节点vi,通过图卷积网络使用图像关系特征vr的信息更新自身节点,得到vi′;
通过文本解析器对文本单词特征集合T={tj}进行关系解析,生成Np(本实施例中Np=5)个主谓宾三元组(例如本实施例中“girl-blow-candle”为其中1个主谓宾三元组),再将其输入至双向门控循环网络Bi-GRU生成相应的5个文本关系特征tp
最终的晚期融合基于编码后的图像区域特征vi′,图像关系特征vr,文本单词特征tj和文本关系特征tp,分别计算对象级的相似度So和关系级Sr的相似度,然后求和得到晚期融合图像文本相似度Slate
Figure BDA0002921232440000081
4)、图结构编码:首先分别构建图像拓扑图GV和文本拓扑图GT,其中图像拓扑图GV的节点由k(本实施例中k=36)个图像区域特征vi构成,通过极坐标计算出拓扑图GV节点之间的边值;文本拓扑图GT的节点由l(本实施例中l=10)个文本单词特征tj构成,通过单词特征之间的余弦相似度计算出拓扑图GT节点之间的边值;
通过节点级匹配和结构级匹配融合跨模态节点,其中,前者节点级匹配将图像拓扑图GV和文本拓扑图GT的节点彼此之间通过内积进行结合更新自身节点,得到节点级匹配后的图像拓扑图GV节点
Figure BDA0002921232440000082
和文本拓扑图GT节点
Figure BDA0002921232440000083
后者结构级匹配分别在图像拓扑图GV和文本拓扑图GT内部,通过图卷积网络传播邻域特征进一步更新自身节点,将结构级匹配后的图像拓扑图GV中节点记为
Figure BDA0002921232440000084
文本拓扑图GT中节点记为
Figure BDA0002921232440000085
通过多层感知机MLP进行晚期融合,计算出最终的跨模态相似度Slate
Figure BDA0002921232440000086
其中,k和l分别表示图像拓扑图GV和文本拓扑图GT中节点的个数,在本实施例中分别设为36和10。
S2.4、构造图像文本检索中的综合跨模态相似度S;
通过一个可控权重参数γ将早期融合跨模态相似度Searly和晚期融合图像文本相似度Slate进行线性加权,得到综合跨模态相似度S;
S=γ·Searly+(1-γ)·Slate
其中在本实施例中γ根据经验设为0.2。
通过上述操作,可以动态调控综合跨模态相似度中早期融合跨模态相似度和晚期融合相似度的比例,可以根据不同编码方式灵活选择权重参数γ的大小。
S2.5、根据综合跨模态相似度S构建三元组损失函数;
S2.5.1、根据综合跨模态相似度S选出距离最近且不相关其他模态的样本,记为跨模态负样本对
Figure BDA0002921232440000091
Figure BDA0002921232440000092
而相关其他模态的样本记为跨模态正样本(vp,tp);
S2.5.2、以拉近跨模态正样本(vp,tp)的距离,拉远跨模态负样本对
Figure BDA0002921232440000093
Figure BDA0002921232440000094
的距离为优化目标,构建三元组损失函数L;
Figure BDA0002921232440000095
其中,α是可调控的阈值,在本实施例中设为0.2,S(vp,tp),
Figure BDA0002921232440000096
Figure BDA0002921232440000097
分别表示正样本和负样本对的综合跨模态相似度;
S2.6、利用随机梯度下降法对三元组损失函数L进行优化求解,记录下优化后的总损失函数值;
S2.7、重复步骤S2.2~S2.6,处理完N组跨模态图像文本对数据,得到N个损失函数值,完成N次训练,然后选出最小的一个损失函数值,并将该损失函数值对应的训练模型作为最终检测的混合融合模型;
S3、跨模态的实时检索;
提取任意图像或文本的特征,并输入至步骤S2得到的混合融合模型,从而检索出该图像最相关的文本实例或文本的最相关图像实例。
图5是混合融合结构与单一的晚期融合结构在数据集MSCOCO上的检索对比图。
在两个广泛使用的跨模态检索数据集MSCOCO和Flickr30K上测试本发明在图片-文字检索场景的效果。MSCOCO数据集总共包括123287张图像,每个图像由5个句子描述,其中训练集包括113287张图像,验证集和测试集分别包括5000张图像。Flickr30K数据集包含31783张图像,同样每张图像有5个描述性语句。数据集可划分为29000张训练图像,1000张验证图像和剩余的1000张测试图像。
本发明中采用召回率指标Recall@K(简称R@K)和RSum来评估我们的模型。在输入图像检索最相关文本(表1中示为“图像→文本”)和输入文本检索最相关图像(表1中示为“文本→图像”)两个子任务中,R@K具体指的是根据查询的数据,模型返回的相似度分数中前K个结果中有正确相关的跨模态实例所占的比例,其中K取值1,5,10;RSum指的是在两个子任务中所有R@1,R@5和R@10的总和。R@K和RSum数值越大,说明检索准确率越高,检索性能越好。该指标可以从整体上反映模型的检索性能,是信息检索系统常用的评价指标。
在四种不同晚期融合方案上加入本发明中提出的早期融合结果,测试比较结果如下表1所示:
Figure BDA0002921232440000101
表1
其中表1中“交叉注意力”,“视觉语义推理”,“图结构”和“场景图”分别表示仅采用步骤2.3中晚期融合模型的四种不同编码方式进行计算,以晚期融合相似度作为最终的相似度进行跨模态图像文本检索。表1中“交叉注意力+早期融合(本发明)”,“视觉语义推理+早期融合(本发明)”,“图结构+早期融合(本发明)”和“场景图+早期融合(本发明)”表示采用本发明所提出的混合融合模型,在相应不同编码的晚期融合模型上加入早期融合,以加权混合的早期融合相似度和晚期融合相似度作为最终的相似度进行跨模态图像文本检索。
表1中加粗的数字表示比原晚期融合模型指标有数值提高,可以看出,本发明在所有测试集上几乎所有指标上均优于原晚期融合模型。具体来看,与图结构编码晚期融合模型相比,在MSCOCO数据集和Flickr30K数据集上的文本检索(表1中示为“图像→文本”)上,采用混合融合模型(表1中示为“图结构+早期融合(本发明)”)分别将R@1提高了1.6%和1.5%。其中在特定的后期融合框架上,例如交叉注意力晚期融合模型和场景图晚期融合模型上,早期融合的加入对原模型有显著的改进,可以观察到在MSCOCO数据集的文本检索(表1中示为“图像→文本”)上,场景图模型的R@1增长了8.9%,交叉注意力模型的R@1增长了5.6%,这表明早期的融合策略对原本只关注独立的视觉和文本编码方式十分有效,从而可以补充模态之间的相互作用。综上所述本发明所提出的混合融合结构可以有效地在晚期融合模型的基础上进一步提升了跨模态检索的准确率。
如图5所示,在MSCOCO数据集上分别对视觉语义推理模型和混合融合模型(视觉语义推理模型+早期融合)进行可视化结果展示。图5中“视觉语义推理模型”表示仅采用步骤2.3中晚期融合模型的第二种视觉语义推理编码方式进行计算,以晚期融合相似度作为最终的相似度进行跨模态图像文本检索;图5中“视觉语义推理模型+早期融合”表示采用本发明所提出的混合融合模型,在视觉语义推理这一编码方式上加入早期融合,以加权混合的早期融合相似度和晚期融合相似度作为最终的相似度进行跨模态图像文本检索。
根据相似度值从大到小进行排序,图5分别展示了文本检索(查询为图像,输出相关文本)前三的句子结果和图像检索(查询为文本,输出相关图像)前五的结果。在文本检索中,正确相关的文本句子用灰色底色标记;在图像检索中,正确相关的图像用粗框进行标记。从图5可以看出,在文本检索中,原视觉语义推理晚期融合模型给出的前三个检索结果中,并未检索出真实正确相关的文本句子,而混合融合模型中给出的第一个检索结果即为真实正确相关的文本句子;在图像检索中,真实正确相关的图像在原视觉语义推理晚期融合模型中检索结果中仅排序第4,而混合融合模型中给出的最相关结果即为真实正确相关的文本句子。以上示例进一步直观地说明了混合融合模型在实际跨模态图像文本检索对检索性能的有效提升。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (2)

1.一种混合融合模型的跨模态图像文本检索方法,其特征在于,包括以下步骤:
(1)、提取跨模态数据特征;
(1.1)、下载包含N组图像与其对应的描述性文本的跨模态图像文本对数据;
(1.2)、在每一组跨模态图像文本对数据中,利用基于区域的卷积神经网络Faster R-CNN提取图像区域特征集合V={vi},其中,vi表示第i个图像区域特征,i=1,2,…,k,k代表图像区域特征集合中元素个数;利用基于门控循环单元GRU提取文本单词特征集合T={tj},其中,tj表示第j个文本单词特征,j=1,2,…,l,l是文本单词个数;
(2)、训练混合融合模型;
(2.1)、将任意一组跨模态数据特征输入至混合融合模型;
(2.2)、计算跨模态数据特征的早期融合跨模态相似度;
(2.2.1)、对跨模态数据特征进行早期融合:拼接图像区域特征vi与平均池化后的文本单词特征
Figure FDA0002921232430000011
再归一化处理,得到跨模态融合特征vti
Figure FDA0002921232430000012
其中,
Figure FDA0002921232430000013
表示级联操作,BatchNorm(·)表示归一化处理;
(2.2.2)、在跨模态融合特征vti的基础上,采用多层感知机进行嵌入学习,从而生成跨模态融合特征
Figure FDA0002921232430000014
Figure FDA0002921232430000015
其中,Ws,Wh,bs,bh分别表示全连接线性层中的待训练参数,σ(·)表示tanh激活函数;
(2.2.3)、使用余弦相似度构建早期融合图像文本相似度;
将k个跨模态融合特征
Figure FDA0002921232430000016
进行平均池化,得到特征
Figure FDA0002921232430000017
将平均池化后的文本单词特征
Figure FDA0002921232430000018
记为
Figure FDA0002921232430000019
即:
Figure FDA00029212324300000110
采用余弦相似度计算特征
Figure FDA0002921232430000021
和特征
Figure FDA0002921232430000022
的早期融合跨模态相似度Searly
Figure FDA0002921232430000023
(2.3)、计算跨模态数据特征的晚期融合图像文本相似度;
通过不同的编码方式对每一组跨模态数据特征进行编码,然后对编码后的图像与文本特征采用后期融合机制,生成后期融合图像文本相似度Slate
(2.4)、构造图像文本检索中的综合跨模态相似度S;
通过一个可控权重参数γ将早期融合跨模态相似度Searly和晚期融合图像文本相似度Slate进行线性加权,得到综合跨模态相似度S;
S=γ·Searly+(1-γ)·Slate
(2.5)、根据综合跨模态相似度S构建三元组损失函数;
(2.5.1)、根据综合跨模态相似度S选出距离最近且不相关其他模态的样本,记为跨模态负样本对
Figure FDA0002921232430000024
Figure FDA0002921232430000025
而相关其他模态的样本记为跨模态正样本(vp,tp);
(2.5.2)、以以拉近跨模态正样本(vp,tp)的距离,拉远跨模态负样本对
Figure FDA0002921232430000026
Figure FDA0002921232430000027
的距离为优化目标,构建三元组损失函数L;
Figure FDA0002921232430000028
其中,α是可调控的阈值,S(vp,tp),
Figure FDA0002921232430000029
Figure FDA00029212324300000210
分别表示正样本和负样本对的综合跨模态相似度;
(2.6)、利用随机梯度下降法对三元组损失函数L进行优化求解,记录下优化后的总损失函数值;
(2.7)、重复步骤(2.2)~(2.6),处理完N组跨模态图像文本对数据,得到N个损失函数值,完成N次训练,然后选出最小的一个损失函数值,并将该损失函数值对应的训练模型作为最终检测的混合融合模型;
(3)、跨模态的实时检索;
提取任意图像或文本的特征,并输入至步骤(3)得到的混合融合模型,从而检索出该图像最相关的文本实例或文本的最相关图像实例。
2.根据权利要求1所述的一种混合融合模型的跨模态图像文本检索方法,其特征在于,所述步骤(2.3)计算跨模态数据特征的晚期融合图像文本相似度的具体方法为:
采用交叉注意力、视觉语义推理、场景图和图结构四种不同的编码方式对跨模态数据特征进行编码,具体如下:
1)、采用交叉注意力编码:通过交叉注意力机制对局部的文本单词特征集合T={tj}进行加权,在加权过程中,每个文本单词特征tj通过对应的权重βj加权处理后再求所有加权后的文本单词特征的均值,得到全局特征t;然后将图像区域特征vi与全局特征t映射到同一嵌入空间,再通过余弦相似度计算局部-全局跨模态相关性R(vi,t);
在后期融合中,通过指数和池化LSE或平均池化AVG的形式来聚合不同区域的局部-全局跨模态相关性,实现全局的图像与文本的晚期融合图像文本相似度的计算:
Figure FDA0002921232430000031
Figure FDA0002921232430000032
其中,
Figure FDA0002921232430000033
表示指数和池化形式下的晚期融合图像文本相似度,
Figure FDA0002921232430000034
表示指数和平均池化形式下的晚期融合图像文本相似度,λ2是可调控的参数;
2)、视觉语义推理编码:将图像区域特征集合V={vi}输入至图卷积网络,从而生成视觉增强表征V*={vi}*,然后通过基于门控循环网络的全局语义模块GRU进行多步视觉推理,得到视觉特征GRU(V*);最后将通过内积的计算方式将视觉特征GRU(V*)与文本单词特征集合T进行融合,得到晚期融合图像文本相似度Slate
Figure FDA0002921232430000035
其中,||·||表示求二范数;
3)、场景图编码:将图像区域特征集合V={vi}输入至场景图解析器中,生成图像场景图SG(V),其中图像场景图SG(V)的节点由k个图像区域特征vi和解析器所生成的Nr个图像关系特征vr构成;然后在场景图结构基础上,对k个图像区域特征节点vi,通过图卷积网络使用图像关系特征vr的信息更新自身节点,得到v′i
通过文本解析器对文本单词特征集合T={tj}进行关系解析,生成Np个主谓宾三元组,再将其输入至双向门控循环网络Bi-GRU生成Np个文本关系特征tp
最终的后期融合基于编码后的图像区域特征v′i,图像关系特征vr,文本单词特征tj和文本关系特征tp,分别计算对象级的相似度So和关系级Sr的相似度,然后求和得到晚期融合图像文本相似度Slate
Figure FDA0002921232430000041
4)、图结构编码:首先分别构建图像拓扑图GV和文本拓扑图GT,其中图像拓扑图GV的节点由k个图像区域特征vi构成,通过极坐标计算出拓扑图GV节点之间的边值;文本拓扑图GT的节点由l个文本单词特征tj构成,通过单词特征之间的余弦相似度计算出拓扑图GT节点之间的边值;
通过节点级匹配和结构级匹配融合跨模态节点,其中,前者节点级匹配将图像拓扑图GV和文本拓扑图GT的节点彼此之间通过内积进行结合更新自身节点,得到节点级匹配后的图像拓扑图GV节点
Figure FDA0002921232430000042
和文本拓扑图GT节点
Figure FDA0002921232430000043
后者结构级匹配分别在图像拓扑图GV和文本拓扑图GT内部,通过图卷积网络传播邻域特征进一步更新自身节点,将结构级匹配后的图像拓扑图GV中节点记为
Figure FDA0002921232430000044
文本拓扑图GT中节点记为
Figure FDA0002921232430000045
通过多层感知机MLP进行后期融合,计算出最终的晚期融合图像文本相似度Slate
Figure FDA0002921232430000046
其中,k和l分别表示图像拓扑图GV和文本拓扑图GT中节点的个数。
CN202110118655.9A 2021-01-28 2021-01-28 一种混合融合模型的跨模态图像文本检索方法 Active CN112784092B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110118655.9A CN112784092B (zh) 2021-01-28 2021-01-28 一种混合融合模型的跨模态图像文本检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110118655.9A CN112784092B (zh) 2021-01-28 2021-01-28 一种混合融合模型的跨模态图像文本检索方法

Publications (2)

Publication Number Publication Date
CN112784092A true CN112784092A (zh) 2021-05-11
CN112784092B CN112784092B (zh) 2022-03-25

Family

ID=75759425

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110118655.9A Active CN112784092B (zh) 2021-01-28 2021-01-28 一种混合融合模型的跨模态图像文本检索方法

Country Status (1)

Country Link
CN (1) CN112784092B (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113220919A (zh) * 2021-05-17 2021-08-06 河海大学 一种大坝缺陷图像文本跨模态检索方法及模型
CN113239219A (zh) * 2021-05-12 2021-08-10 山东大学 一种基于多模态查询的图像检索方法、系统、介质及设备
CN113239153A (zh) * 2021-05-26 2021-08-10 清华大学深圳国际研究生院 一种基于实例遮掩的文本与图像互检索方法
CN113434716A (zh) * 2021-07-02 2021-09-24 泰康保险集团股份有限公司 一种跨模态信息检索方法和装置
CN113487629A (zh) * 2021-07-07 2021-10-08 电子科技大学 一种基于结构化场景和文本描述的图像属性编辑方法
CN113591474A (zh) * 2021-07-21 2021-11-02 西北工业大学 一种基于加权融合的Loc2vec模型的重复数据检测方法
CN113627482A (zh) * 2021-07-09 2021-11-09 南京邮电大学 一种基于音频—触觉信号融合的跨模态图像生成方法及装置
CN113657087A (zh) * 2021-08-25 2021-11-16 平安科技(深圳)有限公司 信息的匹配方法及装置
CN113792207A (zh) * 2021-09-29 2021-12-14 嘉兴学院 一种基于多层次特征表示对齐的跨模态检索方法
CN113806579A (zh) * 2021-09-17 2021-12-17 中国电信集团系统集成有限责任公司 文本图像检索方法和装置
CN114048340A (zh) * 2021-11-15 2022-02-15 电子科技大学 一种层级融合的组合查询图像检索方法
CN114298159A (zh) * 2021-12-06 2022-04-08 湖南工业大学 一种基于无标签样本下文本融合的图像相似性检测方法
CN114491029A (zh) * 2022-01-18 2022-05-13 四川大学 基于图神经网络的短文本相似度计算方法
CN114625910A (zh) * 2022-05-13 2022-06-14 中国科学技术大学 基于负感知注意力框架的图像文本跨模态检索方法
CN114708472A (zh) * 2022-06-06 2022-07-05 浙江大学 面向ai实训的多模态数据集标注方法、装置及电子设备
CN114841243A (zh) * 2022-04-02 2022-08-02 中国科学院上海高等研究院 跨模态检索模型训练方法、跨模态检索方法、设备及介质
CN114842105A (zh) * 2022-06-02 2022-08-02 北京大学 一种一体化的条件图像重绘方法及装置
CN114942984A (zh) * 2022-05-26 2022-08-26 北京百度网讯科技有限公司 视觉场景文本融合模型的预训练和图文检索方法及装置
CN115599942A (zh) * 2022-11-08 2023-01-13 重庆师范大学(Cn) 一种基于gcn的深度无监督跨模态检索方法
WO2023045605A1 (zh) * 2021-09-22 2023-03-30 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机设备及存储介质
CN117520589A (zh) * 2024-01-04 2024-02-06 中国矿业大学 一种局部特征与全局特征融合的跨模态遥感图文检索方法
CN117540023A (zh) * 2024-01-08 2024-02-09 南京信息工程大学 基于模态融合图卷积网络的图像联合文本情感分析方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190294692A1 (en) * 2018-03-23 2019-09-26 Home Depot Product Authority, Llc Ranking and presenting search engine results based on category-specific ranking models
CN111581470A (zh) * 2020-05-15 2020-08-25 上海乐言信息科技有限公司 用于对话系统情景匹配的多模态融合学习分析方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190294692A1 (en) * 2018-03-23 2019-09-26 Home Depot Product Authority, Llc Ranking and presenting search engine results based on category-specific ranking models
CN111581470A (zh) * 2020-05-15 2020-08-25 上海乐言信息科技有限公司 用于对话系统情景匹配的多模态融合学习分析方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BOKUN WANG等: "Adversarial Cross-Modal Retrieval", 《2017 ASSOCIATION FOR COMPUTING MACHINERY》 *
施俊等: "深度学习在医学影像中的应用综述", 《中国图象图形学报》 *

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239219A (zh) * 2021-05-12 2021-08-10 山东大学 一种基于多模态查询的图像检索方法、系统、介质及设备
CN113239219B (zh) * 2021-05-12 2022-05-20 山东大学 一种基于多模态查询的图像检索方法、系统、介质及设备
WO2022242388A1 (zh) * 2021-05-17 2022-11-24 河海大学 一种大坝缺陷图像文本跨模态检索方法及模型
CN113220919A (zh) * 2021-05-17 2021-08-06 河海大学 一种大坝缺陷图像文本跨模态检索方法及模型
CN113239153A (zh) * 2021-05-26 2021-08-10 清华大学深圳国际研究生院 一种基于实例遮掩的文本与图像互检索方法
CN113434716B (zh) * 2021-07-02 2024-01-26 泰康保险集团股份有限公司 一种跨模态信息检索方法和装置
CN113434716A (zh) * 2021-07-02 2021-09-24 泰康保险集团股份有限公司 一种跨模态信息检索方法和装置
CN113487629A (zh) * 2021-07-07 2021-10-08 电子科技大学 一种基于结构化场景和文本描述的图像属性编辑方法
CN113487629B (zh) * 2021-07-07 2023-04-07 电子科技大学 一种基于结构化场景和文本描述的图像属性编辑方法
CN113627482A (zh) * 2021-07-09 2021-11-09 南京邮电大学 一种基于音频—触觉信号融合的跨模态图像生成方法及装置
CN113627482B (zh) * 2021-07-09 2023-08-18 南京邮电大学 一种基于音频—触觉信号融合的跨模态图像生成方法及装置
CN113591474B (zh) * 2021-07-21 2024-04-05 西北工业大学 一种基于加权融合的Loc2vec模型的重复数据检测方法
CN113591474A (zh) * 2021-07-21 2021-11-02 西北工业大学 一种基于加权融合的Loc2vec模型的重复数据检测方法
CN113657087A (zh) * 2021-08-25 2021-11-16 平安科技(深圳)有限公司 信息的匹配方法及装置
CN113657087B (zh) * 2021-08-25 2023-12-15 平安科技(深圳)有限公司 信息的匹配方法及装置
CN113806579A (zh) * 2021-09-17 2021-12-17 中国电信集团系统集成有限责任公司 文本图像检索方法和装置
WO2023045605A1 (zh) * 2021-09-22 2023-03-30 腾讯科技(深圳)有限公司 数据处理方法、装置、计算机设备及存储介质
CN113792207B (zh) * 2021-09-29 2023-11-17 嘉兴学院 一种基于多层次特征表示对齐的跨模态检索方法
CN113792207A (zh) * 2021-09-29 2021-12-14 嘉兴学院 一种基于多层次特征表示对齐的跨模态检索方法
CN114048340B (zh) * 2021-11-15 2023-04-21 电子科技大学 一种层级融合的组合查询图像检索方法
CN114048340A (zh) * 2021-11-15 2022-02-15 电子科技大学 一种层级融合的组合查询图像检索方法
CN114298159B (zh) * 2021-12-06 2024-04-09 湖南工业大学 一种基于无标签样本下文本融合的图像相似性检测方法
CN114298159A (zh) * 2021-12-06 2022-04-08 湖南工业大学 一种基于无标签样本下文本融合的图像相似性检测方法
CN114491029A (zh) * 2022-01-18 2022-05-13 四川大学 基于图神经网络的短文本相似度计算方法
CN114841243A (zh) * 2022-04-02 2022-08-02 中国科学院上海高等研究院 跨模态检索模型训练方法、跨模态检索方法、设备及介质
CN114625910A (zh) * 2022-05-13 2022-06-14 中国科学技术大学 基于负感知注意力框架的图像文本跨模态检索方法
CN114625910B (zh) * 2022-05-13 2022-08-19 中国科学技术大学 基于负感知注意力框架的图像文本跨模态检索方法
CN114942984B (zh) * 2022-05-26 2023-11-21 北京百度网讯科技有限公司 视觉场景文本融合模型的预训练和图文检索方法及装置
CN114942984A (zh) * 2022-05-26 2022-08-26 北京百度网讯科技有限公司 视觉场景文本融合模型的预训练和图文检索方法及装置
CN114842105A (zh) * 2022-06-02 2022-08-02 北京大学 一种一体化的条件图像重绘方法及装置
CN114708472A (zh) * 2022-06-06 2022-07-05 浙江大学 面向ai实训的多模态数据集标注方法、装置及电子设备
CN114708472B (zh) * 2022-06-06 2022-09-09 浙江大学 面向ai实训的多模态数据集标注方法、装置及电子设备
CN115599942B (zh) * 2022-11-08 2023-12-12 重庆师范大学 一种基于gcn的深度无监督跨模态检索方法
CN115599942A (zh) * 2022-11-08 2023-01-13 重庆师范大学(Cn) 一种基于gcn的深度无监督跨模态检索方法
CN117520589A (zh) * 2024-01-04 2024-02-06 中国矿业大学 一种局部特征与全局特征融合的跨模态遥感图文检索方法
CN117520589B (zh) * 2024-01-04 2024-03-15 中国矿业大学 一种局部特征与全局特征融合的跨模态遥感图文检索方法
CN117540023A (zh) * 2024-01-08 2024-02-09 南京信息工程大学 基于模态融合图卷积网络的图像联合文本情感分析方法

Also Published As

Publication number Publication date
CN112784092B (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN112784092B (zh) 一种混合融合模型的跨模态图像文本检索方法
CN107516110B (zh) 一种基于集成卷积编码的医疗问答语义聚类方法
WO2023065545A1 (zh) 风险预测方法、装置、设备及存储介质
CN108399428B (zh) 一种基于迹比准则的三元组损失函数设计方法
CN111400591B (zh) 资讯信息推荐方法、装置、电子设备及存储介质
CN110674850A (zh) 一种基于注意力机制的图像描述生成方法
CN110490239B (zh) 图像质控网络的训练方法、质量分类方法、装置及设备
CN111061856A (zh) 一种基于知识感知的新闻推荐方法
Chen et al. Recursive context routing for object detection
CN114780831A (zh) 基于Transformer的序列推荐方法及系统
CN116049459B (zh) 跨模态互检索的方法、装置、服务器及存储介质
CN112257841A (zh) 图神经网络中的数据处理方法、装置、设备及存储介质
CN113987155B (zh) 一种融合知识图谱与大规模用户日志的会话式检索方法
CN114528898A (zh) 基于自然语言命令的场景图修改
CN114461907A (zh) 一种基于知识图谱的多元环境感知推荐方法及系统
CN115203550A (zh) 一种增强邻居关系的社交推荐方法及系统
CN116089645A (zh) 一种基于层次化风格的条件文本-电商图片检索方法和系统
CN114332519A (zh) 一种基于外部三元组和抽象关系的图像描述生成方法
CN113920379A (zh) 一种基于知识辅助的零样本图像分类方法
Dong et al. Refinement Co‐supervision network for real‐time semantic segmentation
CN113590976A (zh) 一种空间自适应图卷积网络的推荐方法
CN113408721A (zh) 神经网络结构搜索方法、装置、计算机设备和存储介质
CN117235264A (zh) 文本处理方法、装置、设备和计算机可读存储介质
WO2023240839A1 (zh) 机器翻译方法、装置、计算机设备和存储介质
CN110852066B (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant