CN113239153B - 一种基于实例遮掩的文本与图像互检索方法 - Google Patents
一种基于实例遮掩的文本与图像互检索方法 Download PDFInfo
- Publication number
- CN113239153B CN113239153B CN202110578944.7A CN202110578944A CN113239153B CN 113239153 B CN113239153 B CN 113239153B CN 202110578944 A CN202110578944 A CN 202110578944A CN 113239153 B CN113239153 B CN 113239153B
- Authority
- CN
- China
- Prior art keywords
- image
- text
- sequence
- initial
- masker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000000873 masking effect Effects 0.000 title claims abstract description 45
- 238000000034 method Methods 0.000 title claims abstract description 32
- 239000013598 vector Substances 0.000 claims abstract description 114
- 230000000007 visual effect Effects 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 9
- 238000012549 training Methods 0.000 claims description 15
- 238000010168 coupling process Methods 0.000 abstract description 6
- 238000005859 coupling reaction Methods 0.000 abstract description 6
- 230000008878 coupling Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 16
- 230000007246 mechanism Effects 0.000 description 9
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 241001421808 Theorema Species 0.000 description 1
- 206010047571 Visual impairment Diseases 0.000 description 1
- 239000004480 active ingredient Substances 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3347—Query execution using vector based model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/5866—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于实例遮掩的文本与图像互检索方法,包括:输入由文本与图像构成的样本对;将图像和文本分别进行预处理以形成初始的图像特征向量序列和初始的词向量序列,将初始的图像特征向量序列同时输入到图像编码器和图像遮掩器,图像遮掩器根据初始的图像特征向量序列构造遮掩的图像特征向量序列并输入到图像编码器,以将图像嵌入到视觉语义空间;将初始的词向量序列同时输入到文本编码器和文本遮掩器,文本遮掩器根据初始的词向量序列构造遮掩的词向量序列并输入到文本编码器,以将文本嵌入到视觉语义空间;在视觉语义空间中度量向量间的相似度,以返回与查询样本相似度从高到低的序列。本发明解决了尾部类别样本量不足和实例的类别耦合过紧的问题。
Description
技术领域
本发明涉及深度学习技术领域,尤其设计一种基于实例遮掩的文本与图像互检索方法。
背景技术
现有的文本与图像的互检索通常是根据样本之间的相似度来确定,例如,在搜索引擎中可以输入一句描述图像内容的文本,搜索引擎就能按语义符合的程度从高到低排列的图像返回给用户。
为了让神经网络模型提取到优质的图像视觉语义特征,现有方法一般均对图像进行实例检测,得到图中各个实例的包围框,再通过卷积神经网络(如Resnet101)将包围框内的部分映射成一个表示该实例的视觉语义的特征向量。因此,每一张图片都能用这种方法转化成一个实例特征向量序列,序列中特征向量的个数对应图中实例的个数。
Kuang-Huei Lee等人最先使用以上做法,提出了SCAN(Stacked CrossAttention,堆叠交叉注意力)。SCAN在上述基础上,用注意力机制刻画图中各个实例与文本中各个单词之间的注意力权重。具体而言,对某个图像实例来说,文本中各个单词的注意力权重越高则与该图像实例越相关。同样地,对某个单词来说,图像中各个实例的注意力权重越高则与该单词越相关。
SCAN提出后,学者们又陆续提出了BFAN(Bidirectional Focal AttentionNetwork,双向聚焦注意力网络),PFAN(Position Focused Attention Network,定位聚焦注意力网络),IMRAM(Iterative Matching with Recurrent Attention Memory,循环注意力记忆的迭代匹配)等工作,以改进注意力机制的应用方式。BFAN对跨模态的注意力机制作出了细化,使得模型更专注于重要的实例,忽略相关性小的实例。PFAN认为,实例出现在在图像中的相对位置与文本描述的语义非常相关,因此引入注意力机制对图像实例在图像中的相对位置进行建模。IMRAM将图像特征提取分解成两个模块,一个模块负责用注意力机制进行跨模态的语义对齐,另一个模块则负责推理全局的视觉语义。这两个模块循环交替地进行多步,从而推理出复杂且精细的全局语义。
另一种推理全局语义的思路是先将样本表示成图(Graph)结构,并让模型在图上进行推理的学习。VSRN(Visual Semantic Reasoning Network,视觉语义推理网络)将图像中的实例对象组织成一张完全图,并使用图卷积网络(GCN)提取特征,再应用门控(Gate)和记忆力(Memory)机制对图像的全局语义进行推理。DSRAN(Dual Semantic RelationshipAttention Network,对偶语义关系注意力网络)不仅将图像中的实例对象组织成图,也将图像全局特征以网格划分的形式组织成图,以共同进行复杂语义的推理。
申请人发现上述方法中都会受到实例组合的长尾分布问题的困扰,而且还会存在实例类别耦合过紧的问题。
以上背景技术内容的公开仅用于辅助理解本发明的构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。
发明内容
为解决长尾分布尾部类别样本量不足和实例的类别耦合过紧的问题,本发明提出一种基于实例遮掩的文本与图像互检索方法。
为了达到上述目的,本发明采用以下技术方案:
本发明公开了一种基于实例遮掩的文本与图像互检索方法,包括以下步骤:
输入由文本与图像构成的样本对;
将所述图像进行预处理形成包含至少一个图像实例的初始的图像特征向量序列,将初始的图像特征向量序列同时输入到图像编码器和图像遮掩器,所述图像遮掩器根据初始的图像特征向量序列构造遮掩的图像特征向量序列,并将遮掩的图像特征向量序列也输入到所述图像编码器,以将所述图像嵌入到所述视觉语义空间;
将所述文本进行预处理形成包含至少一个文本实例的初始的词向量序列,将初始的词向量序列同时输入到文本编码器和文本遮掩器,所述文本遮掩器根据初始的词向量序列构造遮掩的词向量序列,并将遮掩的词向量序列也输入到所述文本编码器,以将所述文本嵌入到视觉语义空间;
在所述视觉语义空间中度量图像特征向量序列中的图像特征向量与词向量序列中的词向量之间的相似度,以返回与查询样本相似度从高到低的序列。
优选地,所述图像遮掩器在构造遮掩的图像特征向量序列之后,还将被遮掩的图像实例的类标签转换到所述文本遮掩器。
优选地,所述的文本与图像互检索方法还包括:采用实例遮掩损失函数对输入到所述文本编码器的遮掩的词向量序列和输入到所述图像编码器的遮掩的图像特征向量序列进行训练;采用样本损失函数对输入到所述文本编码器的初始的词向量序列和输入到所述图像编码器的初始的图像特征向量序列进行训练。
优选地,所述实例遮掩损失函数lmak(x,c)为:
其中,β是一个表示边界大小的超参数,M是构造出的新样本的数量,x表示图像,c表示文本,vi表示第i个通过图像特征向量序列v构造出的样本,ei表示第i个通过词向量序列e构造出的样本,分别表示vi、ei的负样本,S表示相似度函数,[X]+表示max(0,X)。
优选地,所述样本损失函数lmh(x,c)为:
优选地,将所述图像进行预处理形成包含至少一个图像实例的初始的图像特征向量序列具体包括:将所述图像输入到一个经过预训练的图像实例检测器,采用Faster R-CNN检测所述图像中实例所在的区域,再使用ImageNet数据集预训练的ResNet101将边界框内的图像区域转换成图像特征向量序列,以形成包含至少一个图像实例的初始的图像特征向量序列。
优选地,将所述文本进行预处理形成包含至少一个文本实例的初始的词向量序列具体包括:将所述文本转换成一个编号序列,再通过词嵌入的方式将每个词表示成词向量,以形成包含至少一个文本实例的初始的词向量序列。
优选地,所述图像遮掩器根据初始的图像特征向量序列构造遮掩的图像特征向量序列具体包括:所述图像遮掩器将初始的图像特征向量序列中需要进行遮掩的图像实例对应的图像特征向量的值设置为0以构造形成遮掩的图像特征向量序列。
优选地,所述文本遮掩器根据初始的词向量序列构造遮掩的词向量序列具体包括:所述文本遮掩器将初始的词向量序列中需要进行遮掩的文本实例替换为辅助词以构造形成遮掩的词向量序列。
优选地,所述图像遮掩器针对初始的图像特征向量序列中的图像实例可以分别按照以下任意一种遮掩方式进行遮掩,所述文本遮掩器针对初始的词向量序列中的文本实例也可以分别按照以下任意一种遮掩方式进行遮掩:
(1)每次只对一个实例进行遮掩;
(2)每次对n个实例进行遮掩,1≤n≤N,N为序列中实例的数量;
(3)将序列中的每一个实例以一个固定概率独立地进行遮掩。
与现有技术相比,本发明的有益效果在于:本发明提出的基于实例遮掩的文本与图像互检索方法,通过对图像实例和文本实例进行遮掩,可以大幅增加处于长尾分布尾部的样本的数据量,而且通过实例遮掩可以拆解实例组合共现的关系,从而解决实例类别耦合过紧的问题。
进一步地,在文本遮掩器对文本实例进行遮掩时,采用替换为辅助词的方式进行遮掩,使得模型可以通过训练学习到该辅助词的词向量,有利于解耦文本中各个实例的关联特征。
附图说明
图1a至图1d表示MSCOCO数据集中实例类别的长尾分布问题;
图2表示图像与文本的实例遮掩过程示意图;
图3是本发明优选实施例的模型整体架构示意图。
具体实施方式
为了使本发明实施例所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
申请人发现在现有的方法中,无论是基于注意力机制还是图结构,由于都是用了图像的实例级语义特征,因此都会受到实例组合的长尾分布问题的困扰。
长尾分布问题如图1a~图1d所示,图1a表示MSCOCO的训练集80个类的样本分布中;图1b表示在以5为步长从图1a中均匀采样得到16个类的分布;图1c表示以图1b中出现的16个类组合成的二元组中的样本分布;图1d表示类别组合成三元组时的样本分布(样本量为0的组合已截去)。可以看出,随着组合类别的数量增加,不仅样本量急剧减少,整个分布也变得更为陡峭。这导致模型的训练往往集中在分布头部的特定实例组合中,而难以学习到处于分布中尾部实例的语义。样本中的实例还存在类别耦合过紧的问题。举例来说,假设训练集中,所有出现了“帽子”的图像中都出现了“人”,那么测试模型时,输入一张“带着帽子的熊”的图片,模型会因为图片中没有出现“人”从而识别不出“熊头上的帽子”。这说明“帽子”和“人”这两个类别的耦合过紧了。
如图2所示,展示了对图像和文本作实例遮掩的过程,中间的图像和文本是从数据集中取出的一对正样本,在这对样本中,实例通过颜色进行了标识,相同的颜色对应相同的实例。对图像样本和文本样本来说,它们均包含了3个实例(眼镜、人、猫)。每一次对正样本对作遮掩时,如果同时将图文两个模态中的同一实例遮掩掉,可以从上到下构造出3组平行的图文样本。需要注意的是,图2是一个展示的例子,只为说明通过实例遮掩构造出的两个模态的新样本的平行关系,具体如何对图像和文本进行遮掩,以及遮掩的策略将在下文中具体阐述。
(1)图像模态的遮掩:
对图像样本进行遮掩时,最显而易见的做法是直接将图像中实例部分对应的像素擦除(将归一化后的像素值置0)。为此,数据集的训练集必须提供实例的分割掩码(Segmentation mask);但是直接对像素进行像素级别的遮掩需要数据集有精确的分割掩码标签。
因此本发明优选实施例中先将图像标记化(由于图像里像素之间是连续的,因此要划出一个包围框,把框里的区域抠出来,这样一张图就变成图里各个框内实例表示的离散序列),即先将图像的每个实例对象检测出来,再各自通过CNN转化成向量。在自底向上的注意力机制中,用Faster R-CNN对每张图像中的实例进行检测,然后使用ResNet101将检测得到的k个边界框内的图像部分提取成D维的特征向量。这样,整张图像就可以表示成一个特征向量序列v={v1,...,vk},序列v中的每个分量vi均表示一个实例所在区域的特征向量。
这时,对图像中实例的遮掩可以在特征向量序列上进行。具体来说,当需要对图像中的某个实例进行遮掩时,只需要将这个实例对应的特征向量vi的值置为0即可。此时,向量序列被遮掩成 表示第i个实例被遮掩,vh表示第h个通过序列v构造出的样本。
(2)文本模态的遮掩:
对文本样本进行遮掩时,由于组成句子的单词已经是一个一个离散的标记的形式,因此可直接在单词上进行遮掩。
不同于图像这样的连续信号,自然语言文本中的单词是离散且有穷的。因此,本发明优选实施例中对单词进行遮掩时,在整个数据集的登录词表中增加一个辅助词“<mask>”,遮掩时并不将词向量置0,而是将需要被遮掩的词替换为“<mask>”;从而可以使得模型可以通过训练学习到“<mask>”的词向量,有利于解耦文本中各个实例的关联特征。此时,向量序列e被遮掩成 表示第i个单词被遮掩,eh表示第h个通过序列e构造出的样本。
(3)遮掩的策略
对样本(图像样本或文本样本)进行遮掩时,不同的遮掩策略能构造出的新样本的数量是不同的。本发明优选实施例中可以采用以下三种遮掩策略中的任意一种:
a、在图2展示的例子里,构造一对新的平行样本时,每次遮掩只对样本中的N个实例里的1个实例进行;因此,这样能构造出的新样本的数量为N。
c、还有一种策略是将样本中的每个实例以一个固定概率p独立地被遮掩掉。
如图3所示,展示了本发明优选实施例的基于实例遮掩的文本与图像互检索方法中所采用的完整的模型架构与方法流程。其中文本与图像互检索遵从以下3步所描述的框架:(1)将自然语言文本嵌入到视觉语义空间;(2)将图像嵌入到视觉语义空间;(3)在视觉语义空间中度量向量间的相似度,从而可以返回与查询样本相似度从高到低的序列。
模型的输入是一个图像与文本构成的二元组(x,c),其中x是归一化的RGB三通道图像,c是一个字符序列构成的自然语言文本;样本对输入模型后,将依照图像和文本的两个模态分别处理。
对于图像,首先将其输入一个经过预训练的图像实例检测器,采用Faster R-CNN检测图像中实例所在的区域,再使用ImageNet数据集预训练的ResNet101将边界框内的图像区域转换成特征向量,这样就得到了一组图像区域的特征v={v1,...,vk},其中每一个特征向量vi对应一个图像区域。
对于文本,首先将数据集中所有的登录词组织成一个词表,表内的每个词都有且仅有一个编号。通常可以将c转换成一个编号序列,再通过词嵌入的方式将每个词表示成词向量,这样c就被转换成了一个有序的词向量序列e={e1,...,em}。
这时,e和v都分别走向两个分支,一个是多模态视觉语义嵌入模型中的编码器,另一个则是本发明优选实施例提出的遮掩器。
文本编码器可以采用各类RNN(Recurrent Neural Network,循环神经网络)的变种,例如SCAN采用了GRU(Gated Recurrent Unit,门控循环单元),也可以在预训练参数的Transformer结构上做微调。
图像编码器也可以使用RNN处理图像实例标记序列,但需要注意的是,图像实例序列是顺序无关的,因此二者之间的统计学规律是截然不同。为了捕捉图像中实例与实例的关系,BFAN和PFAN采用注意力机制,而VSRN和DSRAN则采用了图模型,因此本发明优选实施例中,图像编码器还可以采用BFAN、PFAN、VSRN和DSRAN。
为了实现跨模态的平行遮掩,本发明提出了实例遮掩机制,在图3中以粗线框表示(数据流向以虚线表示)。Faster R-CNN将图像序列化后,将对序列中的实例按照不同策略进行遮掩。同时,每一个具体的图像实例遮掩方式都将被转换到文本实例遮掩器,从而使图像遮掩器和文本遮掩器得以构造出语义平行的特征序列。通过遮掩构造的特征序列将和原特征序列一同送入各自模态的编码器,从而被嵌入到一个表述多模态视觉语义的公共向量空间中,使得模型能解耦实例与实例之间的关联,尤其是当实例组合处在长尾分布尾部时。在该空间中,通过度量向量之间的距离,如余弦距离,即可判定不同样本之间语义的相似程度,进一步可以返回与查询样本相似度从高到低的序列。
经过实例遮掩后,每个小批量中的每一个样本都会构造出M个新样本(M取决于遮掩策略和样本内的实例个数)。对样本的实例遮掩可以看成原样本在视觉语义空间上作微小的扰动,该扰动在数量级上应比原样本在小批量中的另一个原样本之间的距离小,但遮掩不同实例带来的扰动应在同一数量级上。因此,对于新构造的遮掩样本,实例遮掩损失函数可表示为公式(1)。
其中,β是一个超参,表示边界大小。M是构造出的新样本数量,x表示图像,c表示文本,vi表示第i个通过图像特征向量序列v构造出的样本,ei表示第i个通过词向量序列e构造出的样本,分别表示vi、ei的负样本,S表示相似度函数,[X]+表示max(0,X)。计算实例遮掩损失时,先在内层的遮掩样本vh和eh上计算难样本的损失,再在外层求平均。
总损失函数可表示为公式(2)。
ltotal(x,c)=lmh(x,c)+μlmsk(x,c) (2)
其中样本损失函数的表达式为:
公式(2)中,μ是一个超参,负责调解两部分的比例。对于lmsk而言,理想的情况是实例遮掩对原样本在语义空间上作微小的扰动,该扰动对原嵌入向量带来的偏移量应小于同一小批量中与该嵌入向量相似度最高的样本的嵌入向量与原嵌入向量的差。因此在初期应由lmh主导训练,随训练轮数的增加而逐步增大lmsk所占比例。
损失函数的作用是计算模型的输出与监督标签之间的损失。具体地,在训练时带入训练样本,计算损失,再反向计算神经网络各个计算节点的梯度,再用梯度更新神经网络的参数。
在本发明一些实施例中,采用实例遮掩损失函数来训练遮掩后的样本,采用样本损失函数来训练原样本;在另一些实施例中,也可以直接采用总损失函数或者样本损失函数对所有样本(既包括原样本,也包括通过实例遮掩的构造的新样本)进行训练。
在本发明的另一些实施例中,对图像中实例进行遮掩时,也可以直接在原图上对像素进行遮掩,而不是对ResNet提取的实例特征进行遮掩。
本发明优选实施例的基于实例遮掩的文本与图像互检索方法中,提出了对图像和文本进行实例级遮掩构造平行的新样本的作法,能够让模型能解耦实例与实例之间的关联;而且提出了与构造出的新样本配套使用的实例遮掩损失函数。
本发明一方面可以增加处于长尾分布尾部的样本量,因为由二项式定理可知,对N个实例进行遮掩,最多可以将一个样本扩增成个样本,N是样本中实例的个数;另一方面可以解决实例类别的耦合过紧问题,因为实例遮掩会拆解实例组合共现的关系,例如,将“戴帽子的人”样本中的人遮掩掉,模型会学习到“帽子”这个单独的对象,而不像之前的模型会误认为“帽子”是“人”的一部分。
本发明优选实施例提出的基于实例遮掩的文本与图像互检索方法中是作用在样本上,而不是改造神经网络的结构或其排列组合;可以用在互联网搜索引擎,数据库的多模态检索引擎等需要文本与图像互检索的领域;还可以用在输入法中实时检索与输入语句语义相符的图片。
本发明的背景部分可以包含关于本发明的问题或环境的背景信息,而不是由其他人描述现有技术。因此,在背景技术部分中包含的内容并不是申请人对现有技术的承认。
以上内容是结合具体/优选的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,其还可以对这些已描述的实施方式做出若干替代或变型,而这些替代或变型方式都应当视为属于本发明的保护范围。在本说明书的描述中,参考术语“一种实施例”、“一些实施例”、“优选实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。尽管已经详细描述了本发明的实施例及其优点,但应当理解,在不脱离由所附权利要求限定的范围的情况下,可以在本文中进行各种改变、替换和变更。
Claims (10)
1.一种基于实例遮掩的文本与图像互检索方法,其特征在于,包括以下步骤:
输入由文本与图像构成的样本对;
将所述图像进行预处理形成包含至少一个图像实例的初始的图像特征向量序列,将初始的图像特征向量序列同时输入到图像编码器和图像遮掩器,所述图像遮掩器根据初始的图像特征向量序列构造遮掩的图像特征向量序列,并将遮掩的图像特征向量序列也输入到所述图像编码器,以将所述图像嵌入到视觉语义空间;
将所述文本进行预处理形成包含至少一个文本实例的初始的词向量序列,将初始的词向量序列同时输入到文本编码器和文本遮掩器,所述文本遮掩器根据初始的词向量序列构造遮掩的词向量序列,并将遮掩的词向量序列也输入到所述文本编码器,以将所述文本嵌入到所述视觉语义空间;
其中,每一个图像实例的遮掩方式都被转换到所述文本遮掩器,以使得所述图像遮掩器和所述文本遮掩器构造出语义平行的特征序列;并通过遮掩构造的特征序列将和原特征序列一同送入各自模态的编码器,以将所述图像和所述文本一同嵌入到所述视觉语义空间,使得所述图像和所述文本一同被嵌入到一个表述多模态视觉语义的公共向量空间中;
在所述视觉语义空间中度量图像特征向量序列中的图像特征向量与词向量序列中的词向量之间的相似度,以返回与查询样本相似度从高到低的序列。
2.根据权利要求1所述的文本与图像互检索方法,其特征在于,所述图像遮掩器在构造遮掩的图像特征向量序列之后,还将被遮掩的图像实例的类标签转换到所述文本遮掩器。
3.根据权利要求1所述的文本与图像互检索方法,其特征在于,还包括:采用实例遮掩损失函数对输入到所述文本编码器的遮掩的词向量序列和输入到所述图像编码器的遮掩的图像特征向量序列进行训练;采用样本损失函数对输入到所述文本编码器的初始的词向量序列和输入到所述图像编码器的初始的图像特征向量序列进行训练。
6.根据权利要求1所述的文本与图像互检索方法,其特征在于,将所述图像进行预处理形成包含至少一个图像实例的初始的图像特征向量序列具体包括:将所述图像输入到一个经过预训练的图像实例检测器,采用Faster R-CNN检测所述图像中实例所在的区域,再使用ImageNet数据集预训练的ResNet101将边界框内的图像区域转换成图像特征向量序列,以形成包含至少一个图像实例的初始的图像特征向量序列。
7.根据权利要求1所述的文本与图像互检索方法,其特征在于,将所述文本进行预处理形成包含至少一个文本实例的初始的词向量序列具体包括:将所述文本转换成一个编号序列,再通过词嵌入的方式将每个词表示成词向量,以形成包含至少一个文本实例的初始的词向量序列。
8.根据权利要求1至7任一项所述的文本与图像互检索方法,其特征在于,所述图像遮掩器根据初始的图像特征向量序列构造遮掩的图像特征向量序列具体包括:所述图像遮掩器将初始的图像特征向量序列中需要进行遮掩的图像实例对应的图像特征向量的值设置为0以构造形成遮掩的图像特征向量序列。
9.根据权利要求1至7任一项所述的文本与图像互检索方法,其特征在于,所述文本遮掩器根据初始的词向量序列构造遮掩的词向量序列具体包括:所述文本遮掩器将初始的词向量序列中需要进行遮掩的文本实例替换为辅助词以构造形成遮掩的词向量序列。
10.根据权利要求1至7任一项所述的文本与图像互检索方法,其特征在于,所述图像遮掩器针对初始的图像特征向量序列中的图像实例分别按照以下任意一种遮掩方式进行遮掩,所述文本遮掩器针对初始的词向量序列中的文本实例也分别按照以下任意一种遮掩方式进行遮掩:
(1)每次只对一个实例进行遮掩;
(2)每次对n个实例进行遮掩,1≤n≤N,N为序列中实例的数量;
(3)将序列中的每一个实例以一个固定概率独立地进行遮掩。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110578944.7A CN113239153B (zh) | 2021-05-26 | 2021-05-26 | 一种基于实例遮掩的文本与图像互检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110578944.7A CN113239153B (zh) | 2021-05-26 | 2021-05-26 | 一种基于实例遮掩的文本与图像互检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113239153A CN113239153A (zh) | 2021-08-10 |
CN113239153B true CN113239153B (zh) | 2022-11-29 |
Family
ID=77138933
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110578944.7A Active CN113239153B (zh) | 2021-05-26 | 2021-05-26 | 一种基于实例遮掩的文本与图像互检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113239153B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113780194A (zh) * | 2021-09-15 | 2021-12-10 | 北京京东尚科信息技术有限公司 | 多模态预训练方法和装置 |
CN114625910B (zh) * | 2022-05-13 | 2022-08-19 | 中国科学技术大学 | 基于负感知注意力框架的图像文本跨模态检索方法 |
CN115408551A (zh) * | 2022-06-30 | 2022-11-29 | 苏州浪潮智能科技有限公司 | 一种医疗图文数据互检方法、装置、设备及可读存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597918A (zh) * | 2020-12-25 | 2021-04-02 | 创新奇智(西安)科技有限公司 | 文本检测方法及装置、电子设备、存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5863400B2 (ja) * | 2011-11-07 | 2016-02-16 | 株式会社日立国際電気 | 類似画像検索システム |
GB201703602D0 (en) * | 2017-03-07 | 2017-04-19 | Selerio Ltd | Multi-Modal image search |
CN111461203A (zh) * | 2020-03-30 | 2020-07-28 | 北京百度网讯科技有限公司 | 跨模态处理方法、装置、电子设备和计算机存储介质 |
CN112784092B (zh) * | 2021-01-28 | 2022-03-25 | 电子科技大学 | 一种混合融合模型的跨模态图像文本检索方法 |
-
2021
- 2021-05-26 CN CN202110578944.7A patent/CN113239153B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112597918A (zh) * | 2020-12-25 | 2021-04-02 | 创新奇智(西安)科技有限公司 | 文本检测方法及装置、电子设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113239153A (zh) | 2021-08-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113239153B (zh) | 一种基于实例遮掩的文本与图像互检索方法 | |
Niu et al. | Hierarchical multimodal lstm for dense visual-semantic embedding | |
Karpathy et al. | Deep visual-semantic alignments for generating image descriptions | |
CN106250915B (zh) | 一种融合深度特征和语义邻域的自动图像标注方法 | |
Lucchi et al. | Are spatial and global constraints really necessary for segmentation? | |
CN109992686A (zh) | 基于多角度自注意力机制的图像-文本检索系统及方法 | |
CN108830287A (zh) | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 | |
CN112036276B (zh) | 一种人工智能视频问答方法 | |
CN110390363A (zh) | 一种图像描述方法 | |
CN105631479A (zh) | 基于非平衡学习的深度卷积网络图像标注方法及装置 | |
Sharma et al. | A survey of methods, datasets and evaluation metrics for visual question answering | |
CN109753567A (zh) | 一种结合标题与正文注意力机制的文本分类方法 | |
Wang et al. | Multiscale multiinteraction network for remote sensing image captioning | |
Liu et al. | Fact-based visual question answering via dual-process system | |
CN116187349A (zh) | 一种基于场景图关系信息增强的视觉问答方法 | |
CN112182275A (zh) | 一种基于多维度特征融合的商标近似检索系统和方法 | |
Rizkallah et al. | A polarity capturing sphere for word to vector representation | |
CN115223021A (zh) | 一种基于视觉问答的果树全生长期农事作业决策方法 | |
CN116434023A (zh) | 基于多模态交叉注意力网络的情感识别方法、系统及设备 | |
CN114662586A (zh) | 一种基于共注意的多模态融合机制检测虚假信息的方法 | |
CN113192030B (zh) | 一种遥感图像描述生成方法及系统 | |
Cheng et al. | Multi-attention fusion and fine-grained alignment for bidirectional image-sentence retrieval in remote sensing | |
CN112950414B (zh) | 一种基于解耦法律要素的法律文本表示方法 | |
Javanmardi et al. | Caps captioning: a modern image captioning approach based on improved capsule network | |
CN115862837A (zh) | 一种基于类型推理与语义约束的医学视觉问答方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |