CN110598018B - 一种基于协同注意力的草图图像检索方法 - Google Patents
一种基于协同注意力的草图图像检索方法 Download PDFInfo
- Publication number
- CN110598018B CN110598018B CN201910746351.XA CN201910746351A CN110598018B CN 110598018 B CN110598018 B CN 110598018B CN 201910746351 A CN201910746351 A CN 201910746351A CN 110598018 B CN110598018 B CN 110598018B
- Authority
- CN
- China
- Prior art keywords
- attention
- sketch
- natural image
- branch
- edge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/53—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于协同注意力的草图图像检索方法,包括:构建由自然图像分支、边缘图分支和草图分支构成的三分支网络,并进行预训练;构建三分支网络的注意力模块,自然图像分支和边缘图分支的注意力模块权重异构,边缘图分支和草图分支的注意力模块共享权重;学习两个不同数据域上的公共注意力掩膜捕获两个域之间的公共通道级依赖关系,聚焦学习来自两个不同域的公共信息特征,缩小查询数据域和检索数据域的差距;通过跨域公共注意力掩膜分别对自然图像和边缘图分支最后一个池化层输出特征图进行通道相应加权,输出对特征通道重要程度进行重校准后的自然图像特征图和边缘特征图;对三分支网络进行联合训练,获得草图和自然图像的跨域表示。
Description
技术领域
本发明涉及图像检索、计算机视觉技术领域,尤其涉及一种基于协同注意力的草图图像检索方法。
背景技术
随着互联网媒体图像数据的急剧增加,基于内容的图像检索技术已成为计算机视觉领域的热门话题。早期的基于文本的检索方式依赖人工标注、且具有歧义性,无法适用于大规模图像检索。近年来,随着触摸屏设备的普及,基于草图的图像检索(Sketch-basedImage Retrieval,SBIR)引起了广泛的关注,并取得了显著的性能。
近年来,卷积神经网络已广泛应用于诸如人脸识别,物体检测和图像检索等许多领域。与传统手工制作特征的方法相比,卷积神经网络可以自动聚合从底部卷积层学到的浅层特征。因此,目前基于草图的图像检索方法大多与深度学习方法相结合,许多基于卷积神经网络的SBIR框架被提出。Qi等人引入了一种新颖的孪生卷积神经网络,通过联合训练两个卷积神经网络来分别学习草图和边缘图的特征。同时,Triplet网络架构被广泛应用,Triplet网络包括草图分支,正自然图像分支和负自然图像分支,通过加入三元组排序损失保留输入三元组的相对相似性,即约束草图和自然图像正样本特征之间的距离小于草图和自然图像负样本特征之间的距离。Sangkloy等人通过预训练策略学习跨域映射,将自然图像和草图嵌入到同一高层语义空间中去,取得了卓越的检索性能。最近,深度哈希方法也被应用到基于草图的图像检索任务中去。Liu等人提出深度草图哈希方法(Deep SketchHashing,DSH),将卷积神经网络集成到哈希框架中以捕获跨域相似性并加速检索过程。Zhang等人提出了一种生成域迁移哈希(Generative Domain-migration Hashing,GDH)方法,该方法使用生成模型将草图域迁移到自然图像域,并在两个基于草图的图像检索数据集上取得优越性能。
注意力模型最近已成功应用于各种深度学习任务,例如:自然语言处理(NaturalLanguage Processing,NLP)、细粒度图像识别、视觉问题回答(Visual QuestionAnswering, VQA)等。在图像处理领域,广泛使用的注意力模型包括软注意模型(Soft-attention model) 和硬注意模型(Hard-attention model)。软注意模型通过学习得到注意力掩模,为图像的不同空间区域或不同通道分配不同权重。硬注意模型通过使用强化学习,为图像搜索潜在的判别区域。Hu等人提出了一种通道级注意力模型来重新校正不同通道的权重,有效地增强了特征的判别能力,获得了优越的分类性能。Li等人提出了一种同时结合了软注意力和硬注意力的模型用于行人重识别任务,其中软注意力通过学习图像中的重要像素以获得精细级信息匹配,硬注意力模型搜索潜在的判别区域。Song等人提出了一种空间软注意力模型用于细粒度级草图图像检索,以捕获更具辨别力的细粒度特征,通过学习得到Triplet网络的每个分支的注意力掩模,重新加权特征图的不同空间区域。
发明人在实现本发明的过程中,发现现有技术中至少存在以下缺点和不足:
首先,与充满色彩和纹理信息的目标自然图像相比,草图是具有高度标志性和抽象性的曲线的组合。因此,草图和自然图像属于两个异构数据域。如何将这两个异构数据域在高层语义空间中进行对齐仍然是SBIR中最具挑战性的问题。
其次,尽管上述注意机制已经获得了更强的特征学习能力,但是它们通常仅通过输入图像本身来学习辨别特征,即它们都属于自注意力模型。在基于草图的图像检索任务中涉及到两种不同的数据输入模态,我们更关心的是在不同数据输入模态上学习公共的跨域判别特征。因此,本发明提出了一种基于协同注意力的草图图像检索方法,捕获不同域之间的共同特征,进一步缩小跨域差距。
发明内容
为了捕捉草图和自然图像域之间的共同判别特征,提高基于草图的图像检索性能,本发明提出了一种基于协同注意力的草图图像检索方法,通过应用所提出的协同注意力机制,网络能够关注自然图像和边缘图的共同判别特征,并丢弃对检索任务不重要的信息,缩小草图域和自然图像域之间的域差距,从而实现自然图像和草图在高层语义空间中的对齐,详见下文描述:
一种基于协同注意力的草图图像检索方法,所述方法包括以下步骤:
构建由自然图像分支、边缘图分支和草图分支构成的三分支网络,并进行预训练;
构建三分支网络的注意力模块,自然图像分支和边缘图分支的注意力模块权重异构,边缘图分支的注意力模块和草图分支的注意力模块共享权重;
学习两个不同数据域上的公共注意力掩膜捕获两个域之间的公共通道级依赖关系,聚焦学习来自两个不同域的公共信息特征,缩小查询数据域和检索数据域的差距;
通过跨域公共注意力掩膜分别对自然图像和边缘图分支最后一个池化层输出特征图进行通道相应加权,最终输出对特征通道重要程度进行重校准后的自然图像特征图和边缘特征图;
对三分支网络进行联合训练,获得草图和自然图像的跨域表示。
所述学习两个不同数据域上的公共注意力掩膜捕获两个域之间的公共通道级依赖关系具体为:
其中,所述自然图像特征图和边缘特征图分别为:
本发明提供的技术方案的有益效果是:
1.本发明引入边缘分支作为沟通草图域和自然图像域之间的桥梁,相比自然图像,草图缺少颜色和纹理信息且具有高度抽象性,而边缘图是从自然图像中抽取出来的,和自然图像具有一一对应性,同时去除了诸如纹理和颜色的详细外观信息,和草图属于相同数据域;
2、本发明在自然图像和边缘图分支之间提出一个协同注意力模型,通过执行动态通道特征重新校准来捕获自然图像和对应边缘图的共同判别特征,以边缘图作为桥梁,有效缩小了草图域和自然图像域之间的域差距;
3、本发明能够有效地使得网络通过特征学习过程,将草图和自然图像映射到一个公共的语义空间中,实现草图和自然图像域在共同的高级语义空间中的充分对齐,从而有效地提高了检索性能。
附图说明
图1为一种基于协同注意力的草图图像检索方法的流程图;
图2为本方法和其他方法在Sketchy-Extension数据集上的检索平均准确率对比图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。
将边缘图作为沟通自然图像和草图的桥梁,借助自然图像及其边缘图的一一对应关系,捕获自然图像及其对应边缘图之间的共同判别特征。本发明实施例提出了一种基于协同注意力机制的草图图像检索方法,能够有效缩小域差距,促进草图域和自然图像域在高层公共语义空间域的对齐,从而进一步提高基于草图的图像检索性能,具体实现步骤如下:
本发明实施例提出了一种基于协同注意力的草图图像检索方法,在自然图像分支和边缘图分支之间设计一个协同注意力模块。给定最后一个池化层产生的特征映射,协同注意力模块旨在学习一个跨域公共注意力掩膜来重新调整自然图像和边缘特征图中每个通道的重要性,从而有效缩小域差距,促进草图域和自然图像域在高层公共语义空间域的对齐,进一步提高基于草图的图像检索性能。
整个流程分为五步:1)三分支网络预训练;2)三分支网络注意力模块搭建;3)协同注意力模块搭建,获得跨域公共注意力掩膜;4)利用跨域公共注意力掩膜重新加权自然图像及边缘图特征通道响应;5)三分支网络联合训练,具体实现步骤如下:
一、三分支网络预训练
整体网络由三个分支组成,分别是:自然图像分支、边缘图分支和草图分支(其中,该三个分支为本领域技术人员所公知,本发明实施例对此不做赘述)。在预训练阶段,单个分支都是独立训练的,即每个分支分别基于在ImageNet上预训练的VGG19模型进行微调。对于每个分支具体来说,首先去除VGG19最后一个全连接层,然后为了将不同域映射到同一个高层语义空间中去,新加入一个经过L2归一化后的嵌入层。嵌入层是一个全连接层,经过该全连接层得到的特征向量再通过L2归一化,即特征向量中的每个元素除以该向量的L2范数,得到输出特征。接着在嵌入层之后再加入一个全连接层,其维度和实验数据集类别相对应。
采用交叉熵损失,通过使用训练数据集中的相应源数据来对每个单分支进行预训练,即自然图像分支对应采用数据集中的自然图像数据进行预训练,边缘图分支对应采用从自然图像中提取的边缘图进行预训练,草图分支对应采用数据集中的草图数据进行预训练。预训练阶段旨在不学习共同嵌入的情况下,使得网络分别学习适合于识别自然图像、边缘图和草图的权重。
二、三分支网络注意力模块搭建
注意力模块采用基于通道的软注意机制,通过执行动态通道特征重新校准来分别捕获自然图像和边缘图的判别特征。由于自然图像和边缘图属于异构数据域,而边缘图和草图域属于同一数据域,因此自然图像分支和边缘图分支的注意力模块权重异构,而边缘图分支的注意力模块和草图分支的注意力模块完全共享权重。因此为了方便描述,下面省略草图分支注意力模块搭建过程。
每个注意力模块由全局平均池化层,两个全连接层,一个ReLU层和一个Sigmoid层组成。注意力模块的输入为每个分支最后一个池化层输出的特征图,用和表示自然图像分支和边缘图分支的注意模块的输入,其中h,w和c分别表示特征图的高度,宽度和通道数目。
基于和应用两个全连接层和一个ReLU(线性整流单元)来模拟特征图通道间的相互依赖性,并分别获得自然图像和边缘图的注意力特征图。再将得到的注意力特征图进行Sigmoid(双弯曲函数)操作,将每个通道上的值归一化为[0,1]。最终网络学习到的自然图像注意力掩膜MI∈R1×1×c和边缘图注意力掩膜ME∈R1×1×c分别表示为:
通过搭建各个分支的注意力模块,使得每个分支分别聚焦于提取各自输入域数据的判别特征,保留对检索有用的信息,抛弃对检索无用的冗余信息。
三、协同注意力模块搭建,获得跨域公共注意力掩膜
SBIR作为图像检索的子任务,其关键问题在于捕获两个不同域中的共同判别信息,并最终实现共同高级语义空间中两个不同域的对齐。因此,与上述直接使用所得注意力掩模来重新加权通道响应的大多数现有工作不同,本发明实施例所提出的协同注意力机制不仅考虑单个数据域的通道特征响应,还通过学习两个不同数据域上的公共注意力掩膜来捕获两个域之间的公共通道方式依赖性,聚焦学习来自两个不同域的公共信息特征,从而有效缩小查询数据域和检索数据域的差距,获得较好的检索性能。
具体操作如下:
四、利用跨域公共注意力掩膜重新加权自然图像及边缘图特征通道响应
五、三分支网络联合训练
将网络的三个分支整合起来进行联合训练,共同学习三个分支的权重,通过训练整个三分支网络获得查询数据(草图)和检索数据(自然图像)的跨域表示。公式中的整体损失函数包含交叉熵损失和对比损失。
1)交叉熵损失
为提取每个分支的判别特征,引入了三个分支的交叉熵损失Lcross-entropy(p,y)。其公式为:
其中,p=(p1,...pK)表示一个数据样本在K个类别上的离散概率分布,表示对应于每个类别的典型独热标签y=(y1,...yK),z=(z1,...zK)表示由最后一个完全连接层产生的特征向量。交叉熵损失的作用是强制网络提取每个分支的典型判别特征。
2)对比损失
在SBIR中,应该拉近来自相同类别的草图和自然图像,推远来自不同类别的草图和自然图像。因此,给定草图S和自然图像I及它们的对应相似标签lsim(假如草图和自然图像来自相同类lsim设置为1,假如草图和自然图像来自不同类lsim设置为0),对比损失可表示为:
其中,I+,I-分别表示正负自然图像,表示草图经过草图分支L2归一化层后的特征图,表示自然图像正样本经过图像分支L2归一化层后的特征图,表示自然图像负样本经过图像分支L2归一化层后的特征图,d(·)表示欧式距离,用于计算草图和自然图像的特征相似程度,m表示边距,实验中设置为0.3。对比损失有效地度量了草图与自然图像之间的跨域相似性。
最后,联合训练过程的整体损失函数融合了三个分支的交叉熵损失及对比损失,表示为:
其中,β表示各损失的权重比,在实验过程中β设置为10。
实施例2
图1给出了本发明的技术流程图,主要包括三分支网络预训练、三分支网络注意力模块搭建、协同注意力模块搭建,获得跨域公共注意力掩膜、利用跨域公共注意力掩膜重新加权自然图像及边缘图特征通道响应以及三分支网络联合训练五个部分。
图2给出了本方法和其他方法在Sketchy-Extension测试集上的检索平均准确率对比图。第一列为用Siamese CNN方法得到的检索平均准确率,第二列为用GN-Triplet方法得到的检索平均准确率,第三列为本方法得到的检索平均准确率。
从结果可以看出,本方法使得草图域和自然图像域在高维语义空间中实现充分对齐,因此获得了更好的检索性能。
本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种基于协同注意力的草图图像检索方法,其特征在于,所述方法包括以下步骤:
构建由自然图像分支、边缘图分支和草图分支构成的三分支网络,并进行预训练;
构建三分支网络的注意力模块,自然图像分支和边缘图分支的注意力模块权重异构,边缘图分支的注意力模块和草图分支的注意力模块共享权重;
学习两个不同数据域上的公共注意力掩膜捕获两个域之间的公共通道级依赖关系,聚焦学习来自两个不同域的公共信息特征,缩小查询数据域和检索数据域的差距;
通过跨域公共注意力掩膜分别对自然图像和边缘图分支最后一个池化层输出特征图进行通道相应加权,最终输出对特征通道重要程度进行重校准后的自然图像特征图和边缘特征图;
对三分支网络进行联合训练,获得草图和自然图像的跨域表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910746351.XA CN110598018B (zh) | 2019-08-13 | 2019-08-13 | 一种基于协同注意力的草图图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910746351.XA CN110598018B (zh) | 2019-08-13 | 2019-08-13 | 一种基于协同注意力的草图图像检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110598018A CN110598018A (zh) | 2019-12-20 |
CN110598018B true CN110598018B (zh) | 2022-11-15 |
Family
ID=68854126
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910746351.XA Active CN110598018B (zh) | 2019-08-13 | 2019-08-13 | 一种基于协同注意力的草图图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110598018B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488474B (zh) * | 2020-03-21 | 2022-03-18 | 复旦大学 | 基于增强注意力的细粒度手绘草图图像检索方法 |
CN111489305B (zh) * | 2020-03-31 | 2023-05-30 | 天津大学 | 基于强化学习的图像增强方法 |
CN111476867A (zh) * | 2020-04-07 | 2020-07-31 | 华中科技大学 | 一种基于变分自编码和生成对抗网络的手绘草图生成方法 |
CN113673635B (zh) * | 2020-05-15 | 2023-09-01 | 复旦大学 | 一种基于自监督学习任务的手绘草图理解深度学习方法 |
CN112330825A (zh) * | 2020-11-13 | 2021-02-05 | 天津大学 | 一种基于二维图像信息的三维模型检索方法 |
CN113886615B (zh) * | 2021-10-25 | 2024-06-04 | 重庆邮电大学 | 一种基于多粒度联想学习的手绘图像实时检索方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017168125A1 (en) * | 2016-03-31 | 2017-10-05 | Queen Mary University Of London | Sketch based search methods |
CN107679582A (zh) * | 2017-10-20 | 2018-02-09 | 深圳市唯特视科技有限公司 | 一种基于多模态分解模型进行可视问答的方法 |
CN108733749A (zh) * | 2018-04-08 | 2018-11-02 | 天津大学 | 一种基于草图的图像检索方法 |
US10248664B1 (en) * | 2018-07-02 | 2019-04-02 | Inception Institute Of Artificial Intelligence | Zero-shot sketch-based image retrieval techniques using neural networks for sketch-image recognition and retrieval |
-
2019
- 2019-08-13 CN CN201910746351.XA patent/CN110598018B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110598018A (zh) | 2019-12-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN110598018B (zh) | 一种基于协同注意力的草图图像检索方法 | |
CN110956185B (zh) | 一种图像显著目标的检测方法 | |
CN110334705B (zh) | 一种结合全局和局部信息的场景文本图像的语种识别方法 | |
CN106547880B (zh) | 一种融合地理区域知识的多维度地理场景识别方法 | |
CN111666851B (zh) | 一种基于多粒度标签的交叉域自适应行人重识别方法 | |
CN110555060B (zh) | 基于成对样本匹配的迁移学习方法 | |
CN110580302B (zh) | 一种基于半异构联合嵌入网络的草图图像检索方法 | |
CN111832511A (zh) | 一种增强样本数据的无监督行人重识别方法 | |
CN108427740B (zh) | 一种基于深度度量学习的图像情感分类与检索算法 | |
CN111582044A (zh) | 基于卷积神经网络和注意力模型的人脸识别方法 | |
CN111008639B (zh) | 一种基于注意力机制的车牌字符识别方法 | |
CN113177612B (zh) | 一种基于cnn少样本的农业病虫害图像识别方法 | |
CN111738303A (zh) | 一种基于层次学习的长尾分布图像识别方法 | |
CN113052017B (zh) | 一种基于多粒度特征表示和域自适应学习的无监督行人重识别方法 | |
CN116543269B (zh) | 基于自监督的跨域小样本细粒度图像识别方法及其模型 | |
CN111126464A (zh) | 一种基于无监督域对抗领域适应的图像分类方法 | |
CN114692741A (zh) | 基于域不变特征的泛化人脸伪造检测方法 | |
CN112766378A (zh) | 一种专注细粒度识别的跨域小样本图像分类模型方法 | |
CN116452862A (zh) | 基于领域泛化学习的图像分类方法 | |
Al-Amaren et al. | RHN: A residual holistic neural network for edge detection | |
CN116704611A (zh) | 一种基于运动特征混合和细粒度多阶段特征提取的跨视角步态识别方法 | |
CN114579794A (zh) | 特征一致性建议的多尺度融合地标图像检索方法及系统 | |
CN113779283A (zh) | 一种深度监督与特征融合的细粒度跨媒体检索方法 | |
CN112749734B (zh) | 一种基于可迁移注意力机制的领域自适应的目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |