CN111488474A - 基于增强注意力的细粒度手绘草图图像检索方法 - Google Patents

基于增强注意力的细粒度手绘草图图像检索方法 Download PDF

Info

Publication number
CN111488474A
CN111488474A CN202010204392.9A CN202010204392A CN111488474A CN 111488474 A CN111488474 A CN 111488474A CN 202010204392 A CN202010204392 A CN 202010204392A CN 111488474 A CN111488474 A CN 111488474A
Authority
CN
China
Prior art keywords
attention
sketch
image
features
grained
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010204392.9A
Other languages
English (en)
Other versions
CN111488474B (zh
Inventor
张玥杰
王燕飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN202010204392.9A priority Critical patent/CN111488474B/zh
Publication of CN111488474A publication Critical patent/CN111488474A/zh
Application granted granted Critical
Publication of CN111488474B publication Critical patent/CN111488474B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于跨媒体检索技术领域,具体为基于增强注意力的细粒度手绘草图图像检索方法。本发明提出一种深度细粒度手绘草图图像检索FG‑SBIR模型,使用不同的注意力机制来进一步关注草图和图像之间的细粒度细节。新模型不仅关注草图和图像两种模态之间的相关性信息,同时也关注单一模态内的区别性信息。本发明提出互损失方法,以增强传统的三元组损失,并提高模型在单一模态内部细粒度特征的辨别能力。对于给定查询草图,本发明可返回其在特定类别中具有细粒度实例级相似性的相关图像,满足细粒度手绘草图图像检索的实例级检索严格要求。

Description

基于增强注意力的细粒度手绘草图图像检索方法
技术领域
本发明属于跨媒体检索技术领域,具体涉及基于增强注意力的细粒度手绘草图图像检索方法。
背景技术
如今,移动设备无处不在,人们在屏幕上绘制草图变得越来越方便。特别是当搜索特定图像时,人们需要给出较长的文字描述,但实际上他们也可绘制一个包含细粒度视觉特征的草图来表达检索需求。因此,细粒度手绘草图图像检索(Fine-grained Sketch-based Image Retrieval,FG-SBIR)引起学者广泛的研究兴趣。近年来,虽然在该领域已经取得丰硕的研究成果,但其仍然面临许多挑战性问题,需要开展更深入的研究工作来获得更好的解决方案。这些挑战性问题包括,如何缩小来自不同模态的草图和图像之间的语义差异;如何在细粒度级别上建立草图和图像之间的对应关系等。与图像相比,草图较为抽象,其主要由线条轮廓组成。对于给定的一张查询草图,可能会检索出多幅图像在视觉上与其相似,然而实际上在这些图像中可能只有一幅与查询草图在细节方面更为接近,即细粒度的细节信息可有助于找到唯一正确的图像。
当前的FG-SBIR模型主要集中在如何缩小草图和图像之间的语义差异。现有的研究通常采用包含三个分支的深度神经网络框架,并使用三元组损失来迫使模型区分草图和图像之间的细微差别。但除DSSA模型引入空间注意力机制来处理这些细节,其他的大部分研究工作很少关注细粒度的细节信息。
综上,本发明提出一种新颖的FG-SBIR模型。通过使用不同的注意力机制,使得模型更加关注草图和图像的细粒度细节。本发明引入“残差通道注意力机制(ResidualChannel Attention)”和“局部自我空间注意力机制(Local Self-spatial Attention)”,以重点关注重要的特征并抑制不必要的特征。本发明还使用Transformer机制来建立草图和图像空间序列之间的关系。此外,由于三元组损失主要关注两个模态之间的距离关系,忽略单个模态内部之间的关系,因此,本发明特别提出互损失(Mutual Loss)来解决该问题。
发明内容
本发明解决的问题包括:现有手绘草图图像检索模型在手绘草图图像检索结果中检索出的图像准确率较低;检索出的图像与查询草图中目标对象不一致;缺乏对单一模态内部关系的研究。为此,本发明提供基于增强注意力的细粒度手绘草图图像检索方法。
本发明提供的基于增强注意力的细粒度手绘草图图像检索方法(FG-SBIR),包括:(1)在低层和高层同时引入改进的空间注意力机制和通道注意力机制,以克服其固有的缺陷并增强模型的鲁棒性;(2)使用Transformer机制来增强模型构造空间序列信息的能力;(3)提出互损失(Mutual Loss)以改善传统的三元组损失并增强单一模态内部的判别能力;
本发明所提出的方法目标集中在为草图与图像构建深度表示上,并学习跨越两个模态的深层关联。因此,对于给定的查询草图,模型可返回其在特定类别中具有细粒度实例级相似性的相关图像,满足FG-SBIR实例级检索的严格要求。本发明在目前可用于FG-SBIR领域研究的最大公开数据集——Sketchy上取得优异的性能表现。
本发明提供的基于增强注意力的细粒度手绘草图图像检索方法,具体步骤如下。
(1)通过在线采样,生成训练用三元组样本;
在生成用于训练的三元组样本时,本发明使用在线采样策略。在线采样策略的核心思想是,在最小批量(mini-batch)中生成三元组。假设有一个用于训练的最小批量(mini-batch)
Figure BDA0002420499600000021
其中包含n对草图si及其匹配图像
Figure BDA0002420499600000022
对于每个草图-图像对
Figure BDA0002420499600000023
选择K个图像作为其负样本图像
Figure BDA0002420499600000024
这些负样本图像来自当前最小批量(mini-batch)
Figure BDA0002420499600000025
中的其它草图-图像对,并与目标草图-图像对一起构成三元组。K的最大值为n-1,这意味着可将所有可能的三元组都考虑在内,这就是本发明中所采用的基本采样方法,难样本挖掘(hard-mining)。但对每个可能的三元组都进行采样不是必需的,也不是有效的。因此,除基本采样方法外,本发明还采用最难样本挖掘(hardest-mining)方法。最难样本挖掘可看作是在最小批量(mini-batch)中选择最困难的样本,其挖掘过程可以表述为:首先计算给定草图与所有候选图像
Figure BDA0002420499600000026
之间的距离,然后选取具有最小距离的图像,最终将在一个最小批量(mini-batch)中获得n个三元组。这种处理方法非常合理,因为当最困难的情况满足时,其他情况自然也会满足。
(2)建立残差通道注意力机制(Residual Channel Attention)
通道注意力机制可看作是为给定的特征图选择不同模式检测器的过程,每个通道都对应一个卷积滤波器,且该卷积滤波器被用作模式检测器。按照CBAM模型中的方法,基本通道注意力机制可用如下公式(1)来表示:
Figure BDA0002420499600000027
其中,F是输入的特征图;AvgPool和MaxPool分别是平均池化和最大池化;MLP是多层感知机;σ是激活函数;W0和W1是多层感知机不同层的权重;
Figure BDA0002420499600000028
Figure BDA0002420499600000029
分别是平均池化和最大池化操作输出的特征图。注意力掩码mc是通过通道注意力函数Mc,利用中间特征图
Figure BDA00024204996000000210
作为输入获得。输出特征Fatt_c是通过将注意力掩码mc与输入特征图进行相乘获得,如下述公式(2)所示:
Figure BDA0002420499600000031
但是,这种注意力机制使用平均池化和最大池化操作来压缩输入特征,这些操作方法会丢失细粒度的信息,却对细粒度的特征提取具有破坏性,最终使得网络失去提取细粒度特征的表达能力。为解决此问题,本发明进一步引入残差通道注意力机制,该注意力机制使用带有可学习参数的残差连接将输入特征图直接与注意力特征图进行连接。带有残差连接的注意力特征图可按下述公式(3)进行计算:
Figure BDA0002420499600000032
其中,δ是一个可学习的参数,在训练开始时会初始化为0。原始特征图和注意力特征图通过自学习自动组合。网络可以先学习原始特征,然后在学习过程中逐渐增加注意力特征的权重。
(3)建立局部自我空间注意力机制(Local Self-spatial Attention)
不同的草图或图像区域对检索性能具有不同影响,因此模型需要找到一种有效方法汇总来自这些区域的信息。本发明将自我空间注意力机制引入模型中,以对这些分散的空间区域之间的关系进行建模。本发明按照SAGAN模型中的方法来计算自我空间注意力:第一步将原始特征图
Figure BDA0002420499600000033
嵌入至不同的特征空间q、k和v中,通过将它们输入至不同的卷积层中来获得不同的特征图Q、K和V;第二步将这些新的特征图重新调整为
Figure BDA0002420499600000034
N=H×W;第三步,按下述公式(4)计算在自我注意空间的注意力图
Figure BDA0002420499600000035
中每个元素的值:
Figure BDA0002420499600000036
最后,将特征图V与Ms的转置和可学习的参数γ相乘,把结果重新调整为
Figure BDA0002420499600000037
然后将其与原始输入特征图相加,如下述公式(5)所示:
Figure BDA0002420499600000038
其中,γ初始化为0,与残差通道注意力中的δ作用相同。
前述的自我空间注意力机制在特征图上建立一个区域和其他所有区域之间的关系。但是,当在较大的空间(较低级别的特征图)中进行注意力计算时,希望更多地关注于当前区域与其邻近区域之间的关系,并可将当前区域与遥远区域的关系建模为更高层的注意力图。此外,自我空间注意力计算过程会消耗大量的计算资源。因此,本发明提出局部自我空间注意力机制,将整个大空间划分为小区域以进行注意力处理。值得一提的是,通过划分空间,可同时获得不同区域的注意力,从而可通过尺寸变换和共享注意力权重来实现并行加速,加快计算过程。如图2所示,局部自我空间注意力机制的计算过程包括:首先将特征图变换为
Figure BDA0002420499600000041
其中
Figure BDA0002420499600000042
N=n2,n为在空间分割中边的长度;其次,将自我空间注意力应用于特征图
Figure BDA0002420499600000043
其中N被视为批大小;最后,结果恢复为原始输入的特征图形状。
(4)通过空间序列(Transformer)按照空间顺序构造草图-图像的对应关系。
受到人们绘制草图方式的启发,本发明考虑按照空间顺序构造草图-图像的对应关系。如图3所示,这是一种新颖的方法,能够使草图和图像在空间序列上进行对齐。
Transformer在自然语言处理领域显示出优异性能。本发明将Transformer与CNN结合以对草图空间序列与图像空间序列之间的关系进行建模。在为自然语言建模时,Transformer的输入通常是一个单词嵌入序列。为适应这种输入要求,本发明将特征图视为
Figure BDA0002420499600000044
N=H×W的一个空间序列,其中N是空间序列的长度。本发明采用和BERT中的相同实现,使用双向多头注意力Transformer。如图4所示,对于给定的局部空间,其输入表示为相应局部空间特征和位置嵌入的总和。
(5)采用互损失(Mutual Loss)方法,控制单一模态内部两幅草图/图像之间的距离;
现有研究通常采用三元组损失Lt=max(0,m+D(sa,ip)-D(sa,in))和交叉熵损失
Figure BDA0002420499600000045
来优化FG-SBIR模型。但以上两种损失都未考虑到单一模态内部的关系。在训练过程中,两幅图像之间的距离并不固定,尤其对于语义相似的图像,两幅图像之间的距离可能会减小,从而导致检索精度下降。因此,本发明提出互损失(Mutual Loss)方法,通过限制两幅图像之间的距离来克服上面两个损失的缺点。互损失(Mutual Loss)方法可表示为下述公式(6):
Lm(xi,xj)=max(0,m-D(xi,xj)) (6)
其中,m是一个偏置量,用来控制单一模态内部两幅草图/图像之间的距离。
如图5所示,没有互损失(Mutual Loss)方法的训练过程可能会导致s2太接近
Figure BDA0002420499600000049
这会导致错误的检索结果,而互损失(Mutual Loss)方法可减轻这类问题。
由于模型包含两个经过对应模态训练的网络分支,因此总的损失函数可以定义为下述公式(7):
Figure BDA0002420499600000046
其中,
Figure BDA0002420499600000047
Figure BDA0002420499600000048
分别表示草图和图像模态,而α、λ和β表示损失权重。
进一步地,本发明提供的基于增强注意力的细粒度手绘草图图像检索方法,其操作流程为:
流程一、CNN网络训练:
采用ResNet网络作为网络骨架,加入残差通道注意力机制、局部自我空间注意力机制和空间序列(Transformer),整体模型如图1所示。采用在线采样策略,生成训练三元组样本,作为网络输入,使用公式(7)来训练搭建好的网络模型;
流程二、图像语义特征提取:
使用训练好的网络模型来提取每幅手绘草图和彩色图像视觉特征;采用带有注意力机制的ResNet网络作为图像语义提取器,最后一层的输出特征表示视觉全局特征;由此,对于输入的每幅图像,网络会输出其全局视觉特征表示;
对于输入的手绘草图和彩色图像分别利用相对应的模态网络分支来提取语义特征,即对于输入的查询草图,利用草图网络分支来提取草图的语义特征;对于检索数据库中的所有彩色图像,利用图像网络分支来提取图像的语义特征;
流程三、排序选择:
对于已提取到的手绘草图特征和彩色图像特征,直接利用特征之间的欧式距离来衡量查询草图与彩色图像之间的相似性;这是由于本发明所构建的模型是端到端的设计,在经过图像语义特征嵌入后,手绘草图特征和彩色图像特征在高维嵌入空间已完成距离映射,只需要简单计算它们之间的欧式距离就能反应出它们之间的相似度;然后按相似度大小排序。
本发明研究细粒度手绘草图图像检索FG-SBIR任务,并提出基于增强注意力的细粒度手绘草图图像检索方法。所提模型考虑到现有大多数模型都集中于缩小两个模态之间的语义差异,很少关注细粒度的细节等问题。为解决跨模态检索问题,本发明提出一种新颖的深度FG-SBIR模型,使用不同的注意力机制来进一步关注草图和图像的细粒度细节。新模型不仅关注草图和图像两种模态之间的相关性信息,而且也关注单一模态内的区别性信息。本发明提出互损失(Mutual Loss)方法来增强传统的三元组损失,提高模型在单一模态内部细粒度特征的辨别能力。对于给定查询草图,本发明可返回其在特定类别中具有细粒度实例级相似性的相关图像,满足FG-SBIR实例级检索的严格要求。通过在大规模公开数据集上进行测试验证,所构建模型可取得非常显著的效果。
附图说明
图1是本发明的框架图。
图2为局部自我空间注意力机制的示意。
图3为以相同颜色表示对应空间区域的示意。
图4为采用视觉表示的输入示意图。
图5为损失(Mutual Loss)示意图。
具体实施方式
下面详细介绍本发明的具体实现细节。
(一)图像语义特征提取
使用CNN来提取每幅手绘草图和彩色图像视觉特征。与传统特征提取方法相对比,CNN对于特征的学习和提取能力更加强大;采用带有注意力机制的ResNet网络作为图像语义提取器,最后一层的输出特征表示视觉全局特征。由此,对于每幅输入图像,网络会输出其全局视觉特征表示。
本发明中,对于输入的手绘草图和彩色图像分别利用相对应的模态网络分支来提取语义特征,即对于输入的查询草图,利用草图网络分支来提取草图的语义特征;对于检索数据库中的所有彩色图像,利用图像网络分支来提取图像的语义特征。
(二)排序选择
对于已提取到的手绘草图特征和彩色图像特征,本发明直接利用特征之间的欧式距离来衡量查询草图与彩色图像之间的相似性。因为本发明所构建的模型是端到端设计,在经过图像语义特征嵌入后,手绘草图特征和彩色图像特征在高维嵌入空间已完成距离映射,只需要简单计算它们之间的欧式距离就能反应出它们之间的相似度;然后按相似度大小排序。
本发明使用ResNet作为三个网络分支的基本骨架。每个分支都在ImageNet上进行预训练,然后在Sketchy上进行微调。值得注意的是,在本发明的三元组网络模型中,两个图像分支仍共享其权重。因此,模型分别具有一组草图模态和图像模态的权重。初始学习速率为1×10-5,最小批量大小为64。在训练阶段,除调整草图和图像的大小,没有其他额外的数据增强操作。Transformer的层数设置为2,损失权重设置为α=50,λ=1,β=20。
本发明虽然已以较佳实施例公开如上,但其并不是用来限定本发明,任何本领域技术人员在不脱离本发明的精神和范围内,都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改,因此,凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰,均属于本发明技术方案的保护范围。

Claims (2)

1.一种基于增强注意力的细粒度手绘草图图像检索方法,其特征在于,具体步骤为:
(1)通过在线采样,生成训练用三元组样本;
在生成用于训练的三元组样本时,使用在线采样策略,以实现在最小批量中生成三元组;包括:
(1.1)基本采样方法,即难样本挖掘方法;
假设有一个用于训练的最小批量
Figure FDA0002420499590000011
其中包含n对草图si及其匹配图像
Figure FDA0002420499590000012
对于每个草图-图像对
Figure FDA0002420499590000013
选择K个图像作为其负样本图像
Figure FDA0002420499590000014
这些负样本图像来自当前最小批量
Figure FDA0002420499590000015
中的其它草图-图像对,并与目标草图-图像对一起构成三元组;K的最大值为n-1,这意味着可将所有可能的三元组都考虑在内;
(1.2)最难样本挖掘方法;
最难样本挖掘看作是在最小批量中选择最困难的样本,其挖掘过程为:首先计算给定草图与所有候选图像
Figure FDA0002420499590000016
之间的距离,然后选取具有最小距离的图像,最终将在一个最小批量中获得n个三元组;
(2)建立残差通道注意力机制
通道注意力机制是为给定的特征图选择不同模式检测器的过程,每个通道都对应一个卷积滤波器,且该卷积滤波器被用作模式检测器;按照CBAM模型中的方法,基本通道注意力机制用如下公式(1)来表示:
Figure FDA0002420499590000017
其中,F是输入的特征图;AvgPool和MaxPool分别是平均池化和最大池化;MLP是多层感知机;σ是激活函数;W0和W1是多层感知机不同层的权重;
Figure FDA0002420499590000018
Figure FDA0002420499590000019
分别是平均池化和最大池化操作输出的特征图;注意力掩码mc是通过通道注意力函数Mc,利用中间特征图
Figure FDA00024204995900000110
作为输入获得;输出特征Fatt_c是通过将注意力掩码mc与输入特征图进行相乘获得,如下述公式(2)所示:
Figure FDA00024204995900000111
这种注意力机制使用平均池化和最大池化操作来压缩输入特征,这些操作方法会丢失细粒度的信息,对细粒度的特征提取具有破坏性,最终使得网络失去提取细粒度特征的表达能力;为解决此问题,进一步引入残差通道注意力机制,该残差通道注意力机制使用带有可学习参数的残差连接将输入特征图直接与注意力特征图进行连接;带有残差连接的注意力特征图按下述公式(3)进行计算:
Figure FDA00024204995900000112
其中,δ是一个可学习的参数,在训练开始时会初始化为0;原始特征图和注意力特征图通过自学习自动组合;网络可以先学习原始特征,然后在学习过程中逐渐增加注意力特征的权重;
(3)建立局部自我空间注意力机制
不同的草图或图像区域对检索性能具有不同影响,模型需要找到一种有效方法汇总来自这些区域的信息;为此,引入自我空间注意力机制,以对这些分散的空间区域之间的关系进行建模;按照SAGAN模型中的方法来计算自我空间注意力:
第一步将原始特征图
Figure FDA0002420499590000021
嵌入至不同的特征空间q、k和v中,通过将它们输入至不同的卷积层中来获得不同的特征图Q、K和V;
第二步将这些新的特征图重新调整为
Figure FDA0002420499590000022
N=H×W;
第三步,按下述公式(4)计算在自我注意空间的注意力图
Figure FDA0002420499590000023
中每个元素的值:
Figure FDA0002420499590000024
最后,将特征图V与Ms的转置和可学习的参数γ相乘,把结果重新调整为
Figure FDA0002420499590000025
然后将其与原始输入特征图相加,如下述公式(5)所示:
Figure FDA0002420499590000026
其中,γ初始化为0,与残差通道注意力中的δ作用相同;
前述的自我空间注意力机制在特征图上建立一个区域和其他所有区域之间的关系;
进一步采用局部自我空间注意力机制,将整个大空间划分为小区域以进行注意力处理;通过划分空间,可同时获得不同区域的注意力,从而可通过尺寸变换和共享注意力权重来实现并行加速,加快计算过程;局部自我空间注意力机制的计算过程包括:首先将特征图变换为
Figure FDA0002420499590000027
其中
Figure FDA0002420499590000028
N=n2,n为在空间分割中边的长度;其次,将自我空间注意力应用于特征图
Figure FDA0002420499590000029
其中N被视为批大小;最后,结果恢复为原始输入的特征图形状;
(4)通过空间序列(Transformer)按照空间顺序构造草图-图像的对应关系;
将Transformer与CNN结合以对草图空间序列与图像空间序列之间的关系进行建模;在为自然语言建模时,Transformer的输入通常是一个单词嵌入序列;为适应这种输入要求,将特征图视为
Figure FDA00024204995900000210
N=H×W的一个空间序列,其中N是空间序列的长度;采用和BERT中的相同实现方式,使用双向多头注意力Transformer;对于给定的局部空间,其输入表示为相应局部空间特征和位置嵌入的总和;
(5)采用互损失方法,控制单一模态内部两幅草图/图像之间的距离;
所述互损失方法,是采用通常的三元组损失Lt=max(0,m+D(sa,ip)-D(sa,in))和交叉熵损失
Figure FDA0002420499590000031
来优化FG-SBIR模型的基础上,进一步通过限制两幅图像之间的距离来克服上面两个损失的缺点,互损失方法表示为下述公式(6):
Lm(xi,xj)=max(0,m-D(xi,xj)) (6)
其中,m是一个偏置量,用来控制单一模态内部两幅草图/图像之间的距离;
由于模型包含两个经过对应模态训练的网络分支,因此总的损失函数定义为下述公式(7):
Figure FDA0002420499590000032
其中,
Figure FDA0002420499590000033
Figure FDA0002420499590000034
分别表示草图和图像模态,而α、λ和β表示损失权重。
2.根据权利要求1所述的基于增强注意力的细粒度手绘草图图像检索方法,其特征在于:
步骤一、CNN网络训练:
采用ResNet网络作为网络骨架,加入残差通道注意力机制、局部自我空间注意力机制和空间序列;采用在线采样策略,生成训练三元组样本,作为网络输入,使用公式(7)来训练搭建好的网络模型;
步骤二、图像语义特征提取:
使用CNN来提取每幅手绘草图和彩色图像视觉特征;采用带有注意力机制的ResNet网络作为图像语义提取器,最后一层的输出特征表示视觉全局特征;由此,对于输入的每幅图像,网络会输出其全局视觉特征表示;
对于输入的手绘草图和彩色图像分别利用相对应的模态网络分支来提取语义特征,即对于输入的查询草图,利用草图网络分支来提取草图的语义特征;对于检索数据库中的所有彩色图像,利用图像网络分支来提取图像的语义特征;
步骤三、排序选择:
对于已提取到的手绘草图特征和彩色图像特征,直接利用特征之间的欧式距离来衡量查询草图与彩色图像之间的相似性;这是由于所构建的模型是端到端的设计,在经过图像语义特征嵌入后,手绘草图特征和彩色图像特征在高维嵌入空间已完成距离映射,只需要简单计算它们之间的欧式距离就能反应出它们之间的相似度;然后按相似度大小排序。
CN202010204392.9A 2020-03-21 2020-03-21 基于增强注意力的细粒度手绘草图图像检索方法 Active CN111488474B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010204392.9A CN111488474B (zh) 2020-03-21 2020-03-21 基于增强注意力的细粒度手绘草图图像检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010204392.9A CN111488474B (zh) 2020-03-21 2020-03-21 基于增强注意力的细粒度手绘草图图像检索方法

Publications (2)

Publication Number Publication Date
CN111488474A true CN111488474A (zh) 2020-08-04
CN111488474B CN111488474B (zh) 2022-03-18

Family

ID=71791553

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010204392.9A Active CN111488474B (zh) 2020-03-21 2020-03-21 基于增强注意力的细粒度手绘草图图像检索方法

Country Status (1)

Country Link
CN (1) CN111488474B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984817A (zh) * 2020-08-10 2020-11-24 湖南大学 一种基于自注意力机制加权的细粒度图像检索方法
CN111985552A (zh) * 2020-08-17 2020-11-24 中国民航大学 复杂背景下机场道面细带状结构病害检测方法
CN112100429A (zh) * 2020-09-27 2020-12-18 安徽大学 一种足迹压力图像检索方法
CN112307939A (zh) * 2020-10-28 2021-02-02 上海交通大学 一种利用位置掩码注意力机制的视频帧增强方法
CN112580614A (zh) * 2021-02-25 2021-03-30 之江实验室 一种基于注意力机制的手绘草图识别方法
CN112801058A (zh) * 2021-04-06 2021-05-14 艾伯资讯(深圳)有限公司 Uml图片的识别方法及系统
CN112861691A (zh) * 2021-01-29 2021-05-28 中国科学技术大学 基于部位感知建模的遮挡场景下的行人重识别方法
CN113051417A (zh) * 2021-04-20 2021-06-29 南京理工大学 一种细粒度图像检索方法及系统
CN113343974A (zh) * 2021-07-06 2021-09-03 国网天津市电力公司 考虑模态间语义距离度量的多模态融合分类优化方法
CN113886615A (zh) * 2021-10-25 2022-01-04 重庆邮电大学 一种基于多粒度联想学习的手绘图像实时检索方法
CN114003698A (zh) * 2021-12-27 2022-02-01 成都晓多科技有限公司 一种文本检索方法、系统、设备及存储介质
CN114119977A (zh) * 2021-12-01 2022-03-01 昆明理工大学 一种基于图卷积的Transformer胃癌癌变区域图像分割方法
CN114647753A (zh) * 2022-05-23 2022-06-21 华中师范大学 一种多区域空间对齐的细粒度草图检索三维模型方法
CN115908855A (zh) * 2023-01-09 2023-04-04 昆明理工大学 一种基于CNN和Transformer的素描图像-可见光图像的检索方法
CN116310425A (zh) * 2023-05-24 2023-06-23 山东大学 一种细粒度图像检索方法、系统、设备及存储介质
CN113886615B (zh) * 2021-10-25 2024-06-04 重庆邮电大学 一种基于多粒度联想学习的手绘图像实时检索方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009286A (zh) * 2017-12-25 2018-05-08 合肥阿巴赛信息科技有限公司 一种基于深度学习的草图检索方法
CN108595636A (zh) * 2018-04-25 2018-09-28 复旦大学 基于深度跨模态相关性学习的手绘草图的图像检索方法
CN110598018A (zh) * 2019-08-13 2019-12-20 天津大学 一种基于协同注意力的草图图像检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108009286A (zh) * 2017-12-25 2018-05-08 合肥阿巴赛信息科技有限公司 一种基于深度学习的草图检索方法
CN108595636A (zh) * 2018-04-25 2018-09-28 复旦大学 基于深度跨模态相关性学习的手绘草图的图像检索方法
CN110598018A (zh) * 2019-08-13 2019-12-20 天津大学 一种基于协同注意力的草图图像检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FEI HUANG: "Sketch-based image retrieval with deep visual semantic descriptor", 《PATTERN RECOGNITION》 *
FEI HUANG: "TOWARDS SKETCH-BASED IMAGE RETRIEVAL WITH", 《PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA AND EXPO》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984817B (zh) * 2020-08-10 2022-06-17 湖南大学 一种基于自注意力机制加权的细粒度图像检索方法
CN111984817A (zh) * 2020-08-10 2020-11-24 湖南大学 一种基于自注意力机制加权的细粒度图像检索方法
CN111985552A (zh) * 2020-08-17 2020-11-24 中国民航大学 复杂背景下机场道面细带状结构病害检测方法
CN112100429A (zh) * 2020-09-27 2020-12-18 安徽大学 一种足迹压力图像检索方法
CN112100429B (zh) * 2020-09-27 2022-09-13 安徽大学 一种足迹压力图像检索方法
CN112307939A (zh) * 2020-10-28 2021-02-02 上海交通大学 一种利用位置掩码注意力机制的视频帧增强方法
CN112861691A (zh) * 2021-01-29 2021-05-28 中国科学技术大学 基于部位感知建模的遮挡场景下的行人重识别方法
CN112861691B (zh) * 2021-01-29 2022-09-09 中国科学技术大学 基于部位感知建模的遮挡场景下的行人重识别方法
CN112580614A (zh) * 2021-02-25 2021-03-30 之江实验室 一种基于注意力机制的手绘草图识别方法
CN112801058B (zh) * 2021-04-06 2021-06-29 艾伯资讯(深圳)有限公司 Uml图片的识别方法及系统
CN112801058A (zh) * 2021-04-06 2021-05-14 艾伯资讯(深圳)有限公司 Uml图片的识别方法及系统
CN113051417A (zh) * 2021-04-20 2021-06-29 南京理工大学 一种细粒度图像检索方法及系统
CN113343974A (zh) * 2021-07-06 2021-09-03 国网天津市电力公司 考虑模态间语义距离度量的多模态融合分类优化方法
CN113343974B (zh) * 2021-07-06 2022-10-11 国网天津市电力公司电力科学研究院 考虑模态间语义距离度量的多模态融合分类优化方法
CN113886615A (zh) * 2021-10-25 2022-01-04 重庆邮电大学 一种基于多粒度联想学习的手绘图像实时检索方法
CN113886615B (zh) * 2021-10-25 2024-06-04 重庆邮电大学 一种基于多粒度联想学习的手绘图像实时检索方法
CN114119977A (zh) * 2021-12-01 2022-03-01 昆明理工大学 一种基于图卷积的Transformer胃癌癌变区域图像分割方法
CN114003698B (zh) * 2021-12-27 2022-04-01 成都晓多科技有限公司 一种文本检索方法、系统、设备及存储介质
CN114003698A (zh) * 2021-12-27 2022-02-01 成都晓多科技有限公司 一种文本检索方法、系统、设备及存储介质
CN114647753A (zh) * 2022-05-23 2022-06-21 华中师范大学 一种多区域空间对齐的细粒度草图检索三维模型方法
CN115908855A (zh) * 2023-01-09 2023-04-04 昆明理工大学 一种基于CNN和Transformer的素描图像-可见光图像的检索方法
CN116310425A (zh) * 2023-05-24 2023-06-23 山东大学 一种细粒度图像检索方法、系统、设备及存储介质
CN116310425B (zh) * 2023-05-24 2023-09-26 山东大学 一种细粒度图像检索方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN111488474B (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
CN111488474B (zh) 基于增强注意力的细粒度手绘草图图像检索方法
CN112966127B (zh) 一种基于多层语义对齐的跨模态检索方法
CN111783419B (zh) 地址相似度计算方法、装置、设备和存储介质
CN111061856B (zh) 一种基于知识感知的新闻推荐方法
CN109934261B (zh) 一种知识驱动参数传播模型及其少样本学习方法
CN111259940B (zh) 一种基于空间注意力地图的目标检测方法
WO2020063092A1 (zh) 知识图谱的处理方法及装置
CN112115253B (zh) 基于多视角注意力机制的深度文本排序方法
CN115438215B (zh) 图文双向搜索及匹配模型训练方法、装置、设备及介质
KR20200075114A (ko) 이미지와 텍스트간 유사도 매칭 시스템 및 방법
CN111324765A (zh) 基于深度级联跨模态相关性的细粒度草图图像检索方法
CN115455171B (zh) 文本视频的互检索以及模型训练方法、装置、设备及介质
CN110580339B (zh) 一种医疗术语知识库完善的方法和装置
CN110781302A (zh) 文本中事件角色的处理方法、装置、设备及存储介质
CN112883199A (zh) 一种基于深度语义邻居和多元实体关联的协同消歧方法
CN114254093A (zh) 多空间知识增强的知识图谱问答方法及系统
CN116737979A (zh) 基于上下文引导多模态关联的图像文本检索方法及系统
CN115471885A (zh) 动作单元相关性学习方法、装置、电子设备及存储介质
CN115760279A (zh) 基于知识图谱和多头注意力的双目标跨域推荐方法及系统
CN115221369A (zh) 视觉问答的实现方法和基于视觉问答检验模型的方法
CN110569355A (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN114880427A (zh) 基于多层级注意力机制的模型、事件论元抽取方法及系统
CN105787045A (zh) 一种用于可视媒体语义索引的精度增强方法
CN111339258B (zh) 基于知识图谱的大学计算机基础习题推荐方法
CN113792167B (zh) 一种基于注意力机制和模态依赖的跨媒体交叉检索方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant