CN111914107B - 一种基于多通道注意力区域扩展的实例检索方法 - Google Patents

一种基于多通道注意力区域扩展的实例检索方法 Download PDF

Info

Publication number
CN111914107B
CN111914107B CN202010746717.6A CN202010746717A CN111914107B CN 111914107 B CN111914107 B CN 111914107B CN 202010746717 A CN202010746717 A CN 202010746717A CN 111914107 B CN111914107 B CN 111914107B
Authority
CN
China
Prior art keywords
network
image
attention area
retrieval
area expansion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010746717.6A
Other languages
English (en)
Other versions
CN111914107A (zh
Inventor
赵万磊
林界
王菡子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202010746717.6A priority Critical patent/CN111914107B/zh
Publication of CN111914107A publication Critical patent/CN111914107A/zh
Application granted granted Critical
Publication of CN111914107B publication Critical patent/CN111914107B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

一种基于多通道注意力区域扩展的实例检索方法,涉及图像检索技术领域。首先提出多通道注意力区域扩展模块,在网络训练中仅依赖图像类别标签,从多个通道进行注意力区域扩展操作,分别实现对图像中的多个实例进行相对完整的定位。根据定位进行特征提取的过程中,引入多分支联合训练,在提取特征时保留原信息,并进一步获得深层语义信息,增强特征的判别力。不同于已有的技术,只依赖图像类别标签训练卷积神经网络,基于类激活图和注意力区域扩展模块对图像中实例进行定位的同时,提取具有判别性的实例特征用于实例检索。可应用到电商网站的在线购物、视频媒体的智能化检索等现实场景。

Description

一种基于多通道注意力区域扩展的实例检索方法
技术领域
本发明涉及图像检索技术领域,尤其是涉及可应用到智能化的商品检索、视频编辑等领域的一种基于多通道注意力区域扩展的实例检索方法。
背景技术
图像检索分为基于文本和基于内容两种。随着大规模数字图像库的出现,基于文本的检索已经无法适应需求,基于内容的图像检索技术应运而生,区别于原有系统中对图像进行人工标注的做法,基于内容的检索技术自动提取每幅图像的视觉内容特征作为其索引,如色彩、纹理、形状等。视觉实例检索(以下简称“实例检索”)是基于内容的图像检索领域的一个子问题。实例检索的具体定义为:给定一张查询图像,利用矩形框标定出待查询的实例,该实例可以是一个物体、一个人物或一个建筑物等。然后要求从海量图像库中检索包含这一实例的图像,同时对于返回的图像需要利用矩形框标定出与查询实例相同的目标实例位置。实例检索在现实生活中具有极大的应用价值,被广泛应用于智能化商品检索、视频编辑等领域中,通过检索和定位特定实例来支持与该实例相关的任务,是当前图像数据处理领域通用且基本的技术。
在过去十年,实例检索技术一直被当作一个局部图像检索任务,其主要解决方法是从图像的显著性区域提取局部手工特征,结合特征编码方法进行实例表示。尽管这些方法已经取得了较好的成绩,但多个实例的特征都被合并嵌入到一个特征向量中,使得实例级别的特征难以获得。此外,图像的局部特征对于现实生活中常见的目标形变和平面外旋转表现并不稳定。随着深度学习的发展,在图像检索中,深度特征以其优异的性能逐渐取代了传统的手工特征。但这些特征大多是图像级别的,无法表示具体实例。近几年,实例检索中的定位问题逐渐获得研究学者关注,不少基于目标检测或实例分割的实例检索方法被提出,在检测区域或分割区域的基础上,进一步提取实例特征。然而,这类方法依赖矩形框或像素级别的强监督信息进行网络训练,使得检索无法向更大规模数据集进行拓展。
在现实场景中,实例检索的检索范围广,数据量大,含有矩形框或像素级别标注的训练数据集数量有限。相对而已,图像的类别标注成本较低。同时,对检索返回图片中的实例实现定位十分关键。因此,如何在仅依赖图像的类别标签进行网络训练的同时,实现实例的定位并提取具有判别性的实例特征,是本发明所关注解决的关键技术难题。
发明内容
本发明的目的在于针对现有技术存在的上述问题,提供可应用到电商网站的在线购物、视频媒体的智能化检索等现实场景的一种基于弱监督训练提取真正实例级别特征的实例检索技术。
本发明包括以下步骤:
1)设计一个实例检索模型,所述实例检索模型包括注意力区域扩展模块、多分支联合训练模块、前向传播深度网络;所述前向传播深度网络用于处理输入图像,生成对应类激活图并进行特征提取;所述注意力区域扩展模块作为独立模块嵌入卷积层,生成类激活图实现实例定位;所述多分支联合训练模块嵌入网络中间层,用于丰富中间层特征,提取具有判别性实例特征;实例检索模型将图片作为输入,输出图片中检测到的实例的定位信息及对应的特征,参与后续的检索部分;
2)图像预处理:对于给定的图像数据库,将数据库当中的每张图片都分别经过步骤1),提取图像中实例位置及其对应实例级别特征,保存后以备后续检索使用;
3)实例检索:对于每张查询图片,经过网络前向传播进行处理,用给定的查询实例的区域代替原始类激活图生成矩形区域,在对应区域进行实例级别特征提取;再将该实例特征与实例检索模型在数据库图片上所提取出的所有实例级特征进行相似度对比,每张数据库图片中对应的相似度最高的区域即为该图上实例检索的结果,该区域对应的相似度即为该图的相似度;数据库所有图片按照相似度从高到低依次排列,得到整个数据库上的实例检索的结果。
在步骤1)中,所述设计一个实例检索模型的具体方法为:
(1)采用深度学习技术中流行的残差网络(ResNet-50);该网络全连接层之前的全卷积结构作为本发明的卷积神经网络骨架;在第3个卷积组和第4个卷积组后嵌入注意力区域扩展模块,选择第3个卷积组输出与第4个卷积组输出共同参与联合训练;使用ImageNet数据集预训练的残差网络权重,利用Microsoft COCO 2014以及CUB-200-2011作为训练集,仅依靠图像类别标签作为监督信息微调网络;
(2)在网络的训练阶段,对于每张输入图像,首先经过一个添加了多通道注意力区域扩展模块的基准网络(ResNet-50,共包含4个卷积组)进行处理,在网络的第3和第4个卷积组后分别添加了一个多通道注意力区域扩展(Multi-Channel Attention AreaExpansion,MC-AAE)模块,对于这两个多通道注意力区域扩展模块的输出特征图,分别经过一个全局平均池化层和全连接层,两个分支并行联合训练,最后的输出损失进行组合后共同计算多分类损失,进行网络优化;随后,实例级别的特征提取在基于微调后的网络中进行;
(3)多通道注意力区域扩展模块在原始激活图的弱监督目标定位的基础上引入多通道,在弱监督目标定位的前后分别添加一个1×1的卷积层,用于对特征图进行降维和升维;对于弱监督目标定位前的卷积层从输入通道数降维到与训练数据集的目标类别数一致,对于弱监督目标定位后的卷积层从目标类别数升维到原始输入通道数;使输入的每个特征图都对应表示一个类别,每个特征图分别经过弱监督目标定位,从而激活不同的类别实例;
(4)考虑特征判别性问题,利用多分支联合训练的方式以丰富中间层的特征信息;多分支联合训练为将第3个卷积组的输出连接一个全局平均池化层和一个全连接层,与原始的网络输出共同送入损失层,参与损失函数的计算;损失函数的计算如下:
Figure GDA0003622757260000031
其中,α表示权重参数,可设为0.5;
Figure GDA0003622757260000032
Figure GDA0003622757260000033
分别表示第3个卷积组分支和第4个卷积组分支的损失函数,计算如下:
Figure GDA0003622757260000034
其中,x[i]convl表示第l个卷积组分支的第i个预测,y[i]表示正确的第i个标签,C表示类别总数,log表示对数函数,exp表示以自然常数e为底的指数函数;
(5)图像经过网络处理后,选择其中第3个卷积组的输出,利用CAM的方法生成类激活图,根据类激活图,利用OpenCV中查找轮廓的函数提取类激活图中高亮区域的最小外接矩形作为候选框;为了获得统一维度的实例特征,对每个候选框利用ROI(Region OfInterest)池化操作提取特征。
在本发明提出的模型中,一方面,网络训练仅依赖图像类别标签,结合多通道注意力区域扩展模块实现实例定位,保证实例级别特征提取的同时大大降低了标注成本,可拓展至大规模数据集;另一方面,特征提取过程引入多分支联合训练,为中间卷积层进一步引入语义信息,同时结合注意力机制,增强了实例级别特征的判别性,保证不同实例间特征的区分度。
本发明旨在使用注意力机制扩展模块解决实例的定位问题,促进实例检索任务中对于一张图片中多个实例区域的激活。同时结合多分支联合训练,丰富中间层特征。目前未见仅依靠弱监督信息进行网络训练,既实现实例定位又保证特征判别性的实例检索技术。本发明提出了一种简单有效的实例检索模型,在仅依赖图像类别这一弱监督信息训练的情况下,提出多通道注意力区域扩展模块来激活图片中多个实例区域,解决以往的技术在训练定位能力时依赖强监督标注信息,难以大规模拓展的问题。本发明首先提出多通道注意力区域扩展模块,在网络训练中仅依赖图像类别标签,从多个通道进行注意力区域扩展操作,分别实现对图像中的多个实例进行相对完整的定位。根据定位进行特征提取的过程中,本发明引入多分支联合训练,在提取特征时保留原信息,并进一步获得深层语义信息,增强特征的判别力。不同于已有的技术,本发明只依赖图像类别标签训练卷积神经网络,基于类激活图和注意力区域扩展模块对图像中实例进行定位的同时,提取具有判别性的实例特征用于实例检索。
附图说明
图1为本发明实施例的流程图。
图2为本发明实施例在6个样本图片中检测到的物体实例展示图。
具体实施方式
以下实施例将结合附图对本发明作进一步的说明。
本发明实施例包括以下步骤:
1)模型设计:本发明的模型如图1。在图1对原始的残差网络进行了改进,嵌入了多通道注意力区域扩展模块以及多分支联合训练模块。将数据库图片作为输入,在多通道注意力区域扩展模块处理后的类激活图上得到所有实例定位,从多分支联合训练卷积组上提取定位区域的实例特征。之后对查询实例提取区域性特征,在数据库特征中进行查询,检索相似的实例。本发明的模型包含一个前向传播深度网络处理输入图像,生成对应类激活图并进行特征提取,该部分为模型的大体框架;注意力区域扩展模块作为独立模块嵌入卷积层之后,生成类激活图实现实例定位;多分支联合训练模块嵌入网络中间层,用于丰富中间层特征,提取具有判别性实例特征。本发明的模型将图片作为输入,输出图片中检测到的实例的定位信息及对应的特征,参与后续的检索部分。
具体地,采用深度学习技术中流行的残差网络(ResNet-50)。该网络全连接层之前的全卷积结构作为本发明的卷积神经网络骨架。在第三个卷积组和第四个卷积组后嵌入注意力区域扩展模块,选择第三个卷积组输出与第四个卷积组输出共同参与联合训练。使用ImageNet数据集预训练的残差网络权重,利用Microsoft COCO 2014以及CUB-200-2011作为训练集,仅依靠图像类别标签作为监督信息微调网络。
在网络的训练阶段,对于每张输入图像,首先经过一个添加了多通道注意力区域扩展模块的基准网络(ResNet-50,共包含4个卷积组)进行处理,这里是在网络的第三和第四个卷积组后分别添加了一个多通道注意力区域扩展(Multi-Channel Attention AreaExpansion,MC-AAE)模块。接下来,对于这两个多通道注意力区域扩展模块的输出特征图,分别经过一个全局平均池化层和全连接层,两个分支并行联合训练,最后的输出损失进行组合后共同计算多分类损失,进行网络优化。随后,实例级别的特征提取在基于微调后的网络中进行。
本发明中提出的多通道注意力区域扩展模块是在基于激活图的弱监督目标定位技术的基础上进行改进的。弱监督目标定位是基于类激活图,采用对抗生成思想激活图像中尽量完整的目标区域。该方法在单一目标的图像中表现较好,但在面对多目标图像时其表现却差强人意。本发明中提出的多通道注意力区域扩展模块在原始弱监督目标定位的基础上引入多通道,不再对原始输入的特征图做平均池化,而是在弱监督目标定位的前后分别添加了一个1×1的卷积层。这两个卷积层的作用是对特征图进行降维和升维。将通道数与类别对应,一方面保证对各个类别实例的激活模式不同,另一方面,防止通道数过大导致弱监督目标定位分支过多带来的计算量激增问题。对于弱监督目标定位前的卷积层从输入通道数降维到与训练数据集的目标类别数一致,对于弱监督目标定位后的卷积层从目标类别数升维到原始输入通道数。经过这一操作,输入的每个特征图都对应表示一个类别,每个特征图分别经过弱监督目标定位,从而激活不同的类别实例。
本发明同时考虑了特征判别性问题,提出了利用多分支联合训练的方式以丰富中间层的特征信息。具体的训练结构如图1所示,多分支联合训练在图中体现为将第三个卷积组的输出连接一个全局平均池化层和一个全连接层,与原始的网络输出共同送入损失层,参与损失函数的计算。损失函数的计算如下:
Figure GDA0003622757260000051
其中,α表示权重参数,在本发明中设为0.5。
Figure GDA0003622757260000052
Figure GDA0003622757260000053
分别表示第三个卷积组分支和第四个卷积组分支的损失函数,它们的计算如下:
Figure GDA0003622757260000054
其中,在该计算公式中,x[i]convl表示第l个卷积组分支的第i个预测,y[i]表示正确的第i个标签,C表示类别总数,log表示对数函数,exp表示以自然常数e为底的指数函数。
在本发明中,图像经过网络处理后,选择其中第三个卷积组的输出,利用CAM的方法生成类激活图,根据类激活图,利用OpenCV中查找轮廓的函数提取类激活图中高亮区域的最小外接矩形作为候选框。最后,为了获得统一维度的实例特征,对每个候选框利用ROI(Region Of Interest)池化操作提取特征。
2)图像预处理:对于给定的图像数据库,将数据库当中的每张图片都分别经过本发明步骤1)处理,提取图像中实例位置及其对应实例级别特征,保存后以备后续检索使用。
3)实例检索:对于每张查询图片,经过网络前向传播进行处理,用给定的查询实例的区域代替原始类激活图生成矩形区域,在对应区域进行实例级别特征提取。再将该实例特征与本发明模型在数据库图片上所提取出的所有实例级特征进行相似度对比,每张数据库图片中对应的相似度最高的区域即为该图上实例检索的结果,该区域对应的相似度即为该图的相似度。数据库所有图片按照相似度从高到低依次排列,得到整个数据库上的实例检索的结果。
图2为本发明实施例在6个样本图片中检测到的物体实例展示。从图2中可以看到,本发明实施例通过步骤1)可以比较准确地定位视觉物体在图片中的位置。而且定位的物体包含了塑料瓶和熊这样的未知类别物体。利用获得的视觉物体定位,步骤1)可以进一步提取对视觉物体的特征表示来支持视觉物体检索。
在本发明提出的模型中,一方面,网络训练仅依赖图像类别标签,结合多通道注意力区域扩展模块实现实例定位,保证实例级别特征提取的同时大大降低了标注成本,可拓展至大规模数据集;另一方面,特征提取过程引入多分支联合训练,为中间卷积层进一步引入语义信息,同时结合注意力机制,增强了实例级别特征的判别性,保证不同实例间特征的区分度。
本发明提出了一种简单有效的实例检索模型,在仅依赖图像类别这一弱监督信息训练的情况下,提出多通道注意力区域扩展模块来激活图片中多个实例区域,解决以往的技术在训练定位能力时依赖强监督标注信息,难以大规模拓展的问题。
在实例检索中,本发明技术与现有技术R-MAC、CroW、CAM、BLCF、BLCF-SalGAN、RegionalAttention、DeepVision和FCIS+XD在Instance-160和INSTRE数据集上的检索评价指标mAP的比较对比如表1所示。
表1
Figure GDA0003622757260000061
Figure GDA0003622757260000071
本发明首先提出多通道注意力区域扩展模块,在网络训练中仅依赖图像类别标签,从多个通道进行注意力区域扩展操作,分别实现对图像中的多个实例进行相对完整的定位。根据定位进行特征提取的过程中,引入多分支联合训练,在提取特征时保留原信息,并进一步获得深层语义信息,增强特征的判别力。在所有的对比方法中,只有DeepVision和FCIS+XD方法能对所有检索到的实例进行定位,且它们均采用强监督的训练方式,意味着它们需要耗费大量的标注时间。在Instance-160数据集上,评价指标采用FCIS+XD的设置,包含了前10、前20、前50、前100和所有结果的检索结果评价对比。由表1可以看出,本发明的方法在Instance-160数据集下最终的mAP均排在前两名,且在两个数据集之间都表现出稳定的性能。INSTRE数据集中包含许多训练类别里没有的类别实例,本发明的方法在该数据集上对比其他能定位的方法所表现出的稳定性,主要是由于多通道注意力区域扩展模块对图像中显著性区域保留了敏感度。虽然BLCF-SalGAN在INSTRE数据集上性能更好,但其需要额外标注生成的显著图信息以及其不能定位实例的特性导致其在真实场景中并不实用。因此,本发明的模型获得了比其他能定位的技术更好的结果,并保证了实际场景的实用性。
R-MAC对应的方法为Giorgos Tolias等人提出的方法(Tolias G,Sicre R,JégouH.Particular object retrieval with integral max-pooling of CNN activations[J].arXiv preprint arXiv:1511.05879,2015.);CroW对应的方法为Yannis Kalantidis等人提出的方法(Kalantidis Y,Mellina C,Osindero S.Cross-dimensional weightingfor aggregated deep convolutional features[C]//European conference oncomputer vision.Springer,Cham,2016:685-701.);CAM对应的方法为Albert Jimenez等人提出的方法(Jimenez A,Alvarez J M,Giro-i-Nieto X.Class-weightedconvolutional features for visual instance search[J].arXiv preprint arXiv:1707.02581,2017.);BLCF及BLCF-SalGAN对应的方法为Eva Mohedano等人提出的词袋模型编码卷积特征方法以及用显著性图加权的词袋模型编码卷积特征的方法(Mohedano E,McGuinness K,Giró-i-Nieto X,et al.Saliency weighted convolutional featuresfor instance search[C]//2018 international conference on content-basedmultimedia indexing(CBMI).IEEE,2018:1-6.);RegionalAttention对应的方法为Jaeyoon Kim等人提出的方法(Kim J,Yoon S E.Regional Attention Based DeepFeature for Image Retrieval[C]//BMVC.2018:209.);DeepVision对应的方法为AmaiaSalvador等人提出的方法(Salvador A,Giró-i-Nieto X,Marqués F,et al.Faster r-cnnfeatures for instance search[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition workshops.2016:9-16.);FCIS+XD对应的方法为Zhan Yu等人提出的采用实例分割框架提取实例级特征用于实例检索的方法(Zhan Y,Zhao W L.Instance Search via Instance Level Segmentation and FeatureRepresentation[J].arXiv preprint arXiv:1806.03576,2018.)。

Claims (1)

1.一种基于多通道注意力区域扩展的实例检索方法,其特征在于包括以下步骤:
1)设计一个实例检索模型,所述实例检索模型包括注意力区域扩展模块、多分支联合训练模块、前向传播深度网络;所述前向传播深度网络用于处理输入图像,生成对应类激活图并进行特征提取;所述注意力区域扩展模块作为独立模块嵌入卷积层,生成类激活图实现实例定位;所述多分支联合训练模块嵌入网络中间层,用于丰富中间层特征,提取具有判别性实例特征;实例检索模型将图片作为输入,输出图片中检测到的实例的定位信息及对应的特征,参与后续的检索部分;
所述设计一个实例检索模型的具体方法为:
(1)采用深度学习技术中流行的残差网络;该网络全连接层之前的全卷积结构作为卷积神经网络骨架;在第3个卷积组和第4个卷积组后嵌入注意力区域扩展模块,选择第3个卷积组输出与第4个卷积组输出共同参与联合训练;使用ImageNet数据集预训练的残差网络权重,利用Microsoft COCO 2014以及CUB-200-2011作为训练集,仅依靠图像类别标签作为监督信息微调网络;
(2)在网络的训练阶段,对于每张输入图像,首先经过一个添加了多通道注意力区域扩展模块的基准网络进行处理,基准网络包含4个卷积组,在网络的第3和第4个卷积组后分别添加了一个多通道注意力区域扩展模块,对于这两个多通道注意力区域扩展模块的输出特征图,分别经过一个全局平均池化层和全连接层,两个分支并行联合训练,最后的输出损失进行组合后共同计算多分类损失,进行网络优化;随后,实例级别的特征提取在基于微调后的网络中进行;
(3)多通道注意力区域扩展模块在原始激活图的弱监督目标定位的基础上引入多通道,在弱监督目标定位的前后分别添加一个1×1的卷积层,用于对特征图进行降维和升维;对于弱监督目标定位前的卷积层从输入通道数降维到与训练数据集的目标类别数一致,对于弱监督目标定位后的卷积层从目标类别数升维到原始输入通道数;使输入的每个特征图都对应表示一个类别,每个特征图分别经过弱监督目标定位,从而激活不同的类别实例;
(4)考虑特征判别性问题,利用多分支联合训练的方式以丰富中间层的特征信息;多分支联合训练为将第3个卷积组的输出连接一个全局平均池化层和一个全连接层,与原始的网络输出共同送入损失层,参与损失函数的计算;损失函数的计算如下:
Figure FDA0003622757250000011
其中,α表示权重参数;
Figure FDA0003622757250000021
Figure FDA0003622757250000022
分别表示第3个卷积组分支和第4个卷积组分支的损失函数,计算如下:
Figure FDA0003622757250000023
其中,x[i]convl表示第l个卷积组分支的第i个预测,y[i]表示正确的第i个标签,C表示类别总数,log表示对数函数,exp表示以自然常数e为底的指数函数;
(5)图像经过网络处理后,选择其中第3个卷积组的输出,利用CAM的方法生成类激活图,根据类激活图,利用OpenCV中查找轮廓的函数提取类激活图中高亮区域的最小外接矩形作为候选框;为了获得统一维度的实例特征,对每个候选框利用ROI池化操作提取特征;
2)图像预处理:对于给定的图像数据库,将数据库当中的每张图片都分别经过步骤1),提取图像中实例位置及其对应实例级别特征,保存后以备后续检索使用;
3)实例检索:对于每张查询图片,经过网络前向传播进行处理,用给定的查询实例的区域代替原始类激活图生成矩形区域,在对应区域进行实例级别特征提取;再将该实例特征与实例检索模型在数据库图片上所提取出的所有实例级特征进行相似度对比,每张数据库图片中对应的相似度最高的区域即为该图上实例检索的结果,该区域对应的相似度即为该图的相似度;数据库所有图片按照相似度从高到低依次排列,得到整个数据库上的实例检索的结果。
CN202010746717.6A 2020-07-29 2020-07-29 一种基于多通道注意力区域扩展的实例检索方法 Active CN111914107B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010746717.6A CN111914107B (zh) 2020-07-29 2020-07-29 一种基于多通道注意力区域扩展的实例检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010746717.6A CN111914107B (zh) 2020-07-29 2020-07-29 一种基于多通道注意力区域扩展的实例检索方法

Publications (2)

Publication Number Publication Date
CN111914107A CN111914107A (zh) 2020-11-10
CN111914107B true CN111914107B (zh) 2022-06-14

Family

ID=73286694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010746717.6A Active CN111914107B (zh) 2020-07-29 2020-07-29 一种基于多通道注意力区域扩展的实例检索方法

Country Status (1)

Country Link
CN (1) CN111914107B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112257662A (zh) * 2020-11-12 2021-01-22 安徽大学 一种基于深度学习的压力足迹图像检索系统
CN112560999B (zh) * 2021-02-18 2021-06-04 成都睿沿科技有限公司 一种目标检测模型训练方法、装置、电子设备及存储介质
CN113821661B (zh) * 2021-08-30 2024-04-02 上海明略人工智能(集团)有限公司 图像检索方法、系统、存储介质及电子设备
CN113761239A (zh) * 2021-09-08 2021-12-07 武汉工程大学 基于海量地理位置信息的索引库建立及检索方法
CN114677677B (zh) * 2022-05-30 2022-08-19 南京友一智能科技有限公司 一种质子交换膜燃料电池气体扩散层材料比例预测方法
CN116071636B (zh) * 2023-03-30 2023-07-07 南京邮电大学 商品图像检索方法
CN117453944B (zh) * 2023-12-25 2024-04-09 厦门大学 一种多层级显著区域分解的无监督实例检索方法及系统
CN117725243B (zh) * 2024-02-07 2024-06-04 厦门大学 一种基于层级语义区域分解的类无关实例检索方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948425A (zh) * 2019-01-22 2019-06-28 中国矿业大学 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置
CN110111340A (zh) * 2019-04-28 2019-08-09 南开大学 基于多路割的弱监督实例分割方法
CN110414344A (zh) * 2019-06-25 2019-11-05 深圳大学 一种基于视频的人物分类方法、智能终端及存储介质
CN110956185A (zh) * 2019-11-21 2020-04-03 大连理工大学人工智能大连研究院 一种图像显著目标的检测方法
CN111178432A (zh) * 2019-12-30 2020-05-19 武汉科技大学 多分支神经网络模型的弱监督细粒度图像分类方法
CN111368815A (zh) * 2020-05-28 2020-07-03 之江实验室 一种基于多部件自注意力机制的行人重识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10902051B2 (en) * 2018-04-16 2021-01-26 Microsoft Technology Licensing, Llc Product identification in image with multiple products

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109948425A (zh) * 2019-01-22 2019-06-28 中国矿业大学 一种结构感知自注意和在线实例聚合匹配的行人搜索方法及装置
CN110111340A (zh) * 2019-04-28 2019-08-09 南开大学 基于多路割的弱监督实例分割方法
CN110414344A (zh) * 2019-06-25 2019-11-05 深圳大学 一种基于视频的人物分类方法、智能终端及存储介质
CN110956185A (zh) * 2019-11-21 2020-04-03 大连理工大学人工智能大连研究院 一种图像显著目标的检测方法
CN111178432A (zh) * 2019-12-30 2020-05-19 武汉科技大学 多分支神经网络模型的弱监督细粒度图像分类方法
CN111368815A (zh) * 2020-05-28 2020-07-03 之江实验室 一种基于多部件自注意力机制的行人重识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Deeply Activated Salient Region for Instance Search;Hui-Chu Xiao 等;《https://arxiv.org/pdf/2002.00185.pdf》;20200323;全文 *
面向区域表达的实例检索方法研究;郭慧俐;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20191215;I138-338 *

Also Published As

Publication number Publication date
CN111914107A (zh) 2020-11-10

Similar Documents

Publication Publication Date Title
CN111914107B (zh) 一种基于多通道注意力区域扩展的实例检索方法
CN111858954B (zh) 面向任务的文本生成图像网络模型
Li et al. Contextual bag-of-words for visual categorization
CN102508923B (zh) 基于自动分类和关键字标注的自动视频注释方法
CN108595636A (zh) 基于深度跨模态相关性学习的手绘草图的图像检索方法
CN102663015A (zh) 基于特征袋模型和监督学习的视频语义标注方法
CN108460114B (zh) 一种基于层次注意力模型的图像检索方法
CN110992217B (zh) 一种外观设计专利多视图特征表示、检索的方法及装置
CN111652273A (zh) 一种基于深度学习的rgb-d图像分类方法
Martinet et al. A relational vector space model using an advanced weighting scheme for image retrieval
CN113032613A (zh) 一种基于交互注意力卷积神经网络的三维模型检索方法
Al-Jubouri Content-based image retrieval: Survey
CN110287369B (zh) 一种基于语义的视频检索方法及系统
CN108717436B (zh) 一种基于显著性检测的商品目标快速检索方法
Rossetto et al. Query by semantic sketch
CN114077682B (zh) 一种图像检索智能识别匹配处理方法、系统和存储介质
Wang et al. A saliency detection based unsupervised commodity object retrieval scheme
Misra et al. Text extraction and recognition from image using neural network
Hsieh et al. Region-based image retrieval
CN111914110A (zh) 一种基于深度激活显著区域的实例检索方法
Bhanbhro et al. Symbol Detection in a Multi-class Dataset Based on Single Line Diagrams using Deep Learning Models
Li et al. Application of deep convolutional neural network under region proposal network in patent graphic recognition and retrieval
Zouaki et al. Indexing and content-based image retrieval
CN108959650A (zh) 基于共生surf特征的图像检索方法
Sumathi et al. A combined hierarchical model for automatic image annotation and retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant