CN111984817A - 一种基于自注意力机制加权的细粒度图像检索方法 - Google Patents
一种基于自注意力机制加权的细粒度图像检索方法 Download PDFInfo
- Publication number
- CN111984817A CN111984817A CN202010793691.0A CN202010793691A CN111984817A CN 111984817 A CN111984817 A CN 111984817A CN 202010793691 A CN202010793691 A CN 202010793691A CN 111984817 A CN111984817 A CN 111984817A
- Authority
- CN
- China
- Prior art keywords
- feature
- image
- fine
- local
- grained
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及图像检索和计算机视觉技术领域,一种基于视觉注意力机制加权的细粒度图像检索方法。本发明的方法包括:图像预处理,将图像的最长边长度设置500像素;特征提取,将图像输入卷积神经网络后,选择最后一个卷积层的特征输出;目标特征选择,先对局部激活图进行优化处理,再根据激活图结果选择局部特征向量,从而实现了更加精确的目标特征选择;特征加权聚合,评估每个特征的重要程度,使得加权后的细粒度局部特征在池化聚合时仍然能够得以体现,从而提升细粒度检索的精度;进行图像检索,计算查询图像与数据库图像的特性向量之间的余弦相似度。其图像特征提取及编码细节图如图1所示。该方法能够实现细粒度图像的检索,提高检索的准确度。
Description
技术领域
本发明涉及图像检索和计算机视觉技术领域。特别是涉及一种基于视觉注意力机制加权的细粒度图像检索方法。
背景技术
尽管图像检索已经取得了非常出色的表现,但从细粒度图像的级别来看,其仍然是一个具有挑战性的问题。与一般的图像检索任务相比,细粒度图像检索方法应该能够定位并表达子类别内细微的视觉差异。例如,给定一个查询图像包含一个基本类别的子类别,如鸟类的“黑脚信天翁”子类别,我们应该从数据库中返回与该查询处于同一子类别的图像,而不是简单返回任意一个鸟类的图像。
根据是否需要在新数据集中训练模型,可以将现有的基于深度学习的图像检索方法分为两组。第一组方法将细粒度图像检索定义为度量学习问题,它们尝试通过增加“局部检测”模块并设计特定的度量损失来训练神经网络,使其学习定位和表达图像中具有判别性的特征。但是,这些方法都依赖大量标注数据进行训练。当我们需要检索上万个细粒度类别时,就对这类方法提出了巨大的挑战。第二类方法——无监督方法则天然的可以避免上述问题。这类方法通常包括三个步骤:1、从预训练的卷积神经网络中提取图像的特征图;2、在特征图中选择目标对象特征;3、将目标特征聚合为最终的描述符。由于从预训练的卷积神经网络中提取的特征图是粗粒度的,因此,这类方法需要在筛选和聚合步骤中对处理细粒度局部特征提出更高的精度要求。
另外,由于视觉注意力机制具有突出显著目标区域的功能,因此,近年来在计算机视觉领域中提出了许多不同的注意力方法,并且取得了显着的效果。尽管一些基于学习的方法效果很好,但它们不适合融入无监督方法。因此,另一种分类方法更值得关注。这类方法也被称为自注意力机制。双线性合并方法对来自不同特征图中同一部分的两个局部特征执行外积运算,然后执行合并。非局部方法在语义分割任务中表现出色,后来被也用于细粒度的识别任务中。但是,这种方法的缺点是计算复杂度太高。
综上所述,现有细粒度图像检索方法仍然有以下几个问题需要解决:1、从图像的卷积特征图中筛选目标特征的方法不精确,包含了过多的背景噪声特征;2、目标特征聚合时细粒度特征不能很好表达,虽然结合当前的视觉注意力方法的可以提高表达效果,但是计算复杂度太高不具有实用性。
发明内容
本发明针对现有方法存在的目标特征选择不准确、视觉注意力方法计算耗时高等缺点,提出了一种有效的方法来创建用于细粒度图像检索的强大特征表示。该发明主要包括两个部分:1、双选模块,可以根据卷积神经网络输出的局部和全局激活图的值快速且准确地选择出目标特征;2、自注意力权重模块,可以增大细粒度特征的权重,用于最终描述符中的细粒度性特征表达。具体步骤如下:
(1)图像尺寸处理。本发明中输入图像最长边的长度限制为500像素。
(2)获得卷积神经网络的输出。将图像送入一个已经在ImageNet数据集上训练过的卷积神经网络,选取网络中最后一个卷积层的输出,可以得到的一个三维张量,其形状记为h×w×c。
(3)基于双选模块的目标特征选择。通常认为卷积神经网络输出的三维张量有两种概念:局部激活图集合和局部特征向量集合。本方法同时考虑了这两种概念,先对局部激活图进行优化处理,再根据激活图结果选择局部特征向量,从而实现了更加精确的目标特征选择。具体可以进一步分为以下三个步骤:
(3.1)局部激活图筛选。将输出的三维张量视为c个形状为h×w的局部激活图的激活,对每个局部激活图都进行噪声值抑制处理。
(3.2)全局激活图筛选。将处理过的局部激活图相加,得到的全局激活图。取全局激活图中所有值的均值作为阈值,全局激活图中每个激活值与阈值比较结果记为0或1。最后得到一个二值化掩膜。
(3.3)目标特征选择。此时将步骤(3.2)得到三维张量视为h×w个长度为c的局部特征向量,同时只保留二值化掩膜中值为1的位置对应的局部特征向量。将筛选出的m个目标特征集,记作形状为m×c的目标特征矩阵。
(4)基于自注意力权重的特征聚合。本发明提出了基于自注意力机制的加权方法,评估了每个特征的重要程度,使得加权后的细粒度局部特征在池化聚合时仍然能够得以体现,从而提升细粒度检索的精度。整个特征聚合步骤也可以进一步分为以下三个步骤:
(4.1)局部特征全局相关性分数。目标特征矩阵中一个特性向量与所有的m个特征向量进行内积运算,再将m个结果求和,即得到该特征向量的全局相关性分数。
(4.2)局部特征权重。所有特征向量的全局相关性分数统一进行softmax函数归一化处理,然后经过sigmoid函数最终每个特征的全局相关性得分转换为权重值。
(4.3)加权特征聚合。对加权后的特征矩阵分别进行平均值池化和最大值处理,可以得到两个特征向量。在将两个特征向量分别进行L2-norm处理后,进行串联,得到图像最终的特征向量表示。
(5)细粒度检索测试。计算查询图像特征与数据库图像特征之间的余弦相似度。
现有的细粒度检索方法相比,本发明的优点在于:
(1)本发明在特征选择阶段同时考虑局部激活图集合和局部特征向量集合两个概念,设计了无监督的双选模块。其在目标定位中的准确度完全优于其他无监督的方法,甚至可以与基于监督的方法准确度相竞争。而相比于监督方法,本发明没有对数据标注的依赖,更具有实用价值。
(2)本方法引入并改进自注意力机制,不仅降低了计算复杂度,而且加权后的特征聚合更好的保留了细粒度特征,从而提高细粒度检索精度。
附图说明
图1:图像检索流程图
图2:图像特征提取及编码细节图
具体实施方式
1、图像预处理
本发明没有对图像的分辨率做具体的要求,但是出于对检索效率的考虑,实施时将图像的最长边长度设置500像素的上限。当图像需要缩小时,将保持原始的长宽比。除此之外,利用ImageNet数据提供的数据,对图像的每个通道上像素值做零均值处理。
2、获取卷积神经网络输出
本发明是无监督方法,因此只使用在ImageNet数据集中预训练过的卷积神经网络。将图像输入网络后,选择最后一个卷积层的输出,可以得到一个形状为h×w×c的三维张量T。卷积网络输出的三维张量有两个被广泛应用的概念:(1)由(h×w)个长度为c的局部特征组成的特征图;(2)由c个形状为h×w局部激活图组成的集合。在后续处理中,本发明同时使用了着两种概念。
3、局部激活图优化处理
以第n个局部激活图An为例,详细介绍实施细节。由于局部激活图是处理是为了过滤掉其中的低激活噪声值,防止局部激活图求和后形成高激活值噪声,因此,阈值Tn不能设置的过高。这里设置为均值的二分之一:
然后,低于阈值的激活值被视为噪声并重置为0:
最终得到优化的局部激活图A′n。
对每个局部激活图做相同的处理之后,可以得到一个优化后的局部激活图集合A′={A′n}n=(1,2,…,c)。
4、全局激活图处理
首先把全部的局部激活图相加,得到全局激活图Ag:
接下来采用与局部激活图类似的处理策略。首先设置一个阈值Tg:
因为全局激活图中的噪声值较大,所有这里的阈值直接取均值。然后,阈值筛选步骤也和上面有些不同。除了要将低于阈值的激活值设置为0之外,还要将大于阈值的激活值设置为1:
阈值筛选后,所有的mi.j组成了一个二值化掩膜M,而mi.j的值表示特征图中对应位置(i,j)的局部特征向量是否为目标特征向量。
5、目标特征选择
因为我们知道图像中目标主体区域要比噪声部分的面积大,因此,我们首先使用泛洪算法(Flood Fill Algorithm)求出二值化掩膜中1的最大连通区域,然后将其余连通区域的值重置为0。通过以上步骤进一步去除噪声区域,此时可以使用精修后的二值化掩膜M′来选择目标特征:
F={fi,j|M′i,j=1},#96)
最后,将得到目标特征集合使用矩阵表示:
其中,m是目标特征的数量,c是特性向量的长度。
6、目标特征的全局相关性分数
以第i个目标特征为例,讲解其具体实施细节。将当前特征与m个特征进行内积运算,求得m个特征之间的相关性分数。然后将m个结果求和,即可得到当前特征的全局相关性分数si:
当每个特征都计算全局相关性分数后,组成了一个分数向量S=[s1,s2,…,sm]。
7、全局相关性分数转换为权重系数
首先使用softmax函数对分数向量进行归一化处理:
S′=softmax(S).#(9)
在对分数向量S′零均值处理之后,接着使用sigmoid函数来放大分数之间的细微差异,并最终得到权重向量W:
S′=S′-average(S′),#(10)
W=sigmoid(S′),#(11)
8、目标特征加权聚合
根据上一步得到权重向量,为每个特征进行加权处理,得到加权后的特征矩阵F′:
F′=[w1·f1,w2·f2,…,wm·fm,],#(12)
为了兼顾最终特征表示的鲁棒性和差异性,本发明对特征矩阵分别进行了均值池化和最大值池化,记作Pavg和Pmax:
Pmax=[max(x1),max(x2),…,max(xc)],#(14)
公式中的f′i和xj表示特征矩阵F’中的行向量和列向量。
Pavg和Pmax分别进行L2规范化处理后,我们将两个特征向量串联起来,最终结果即为图像的特征向量表示。
9、检索测试
进行图像检索时,查询图像与数据库图像的特性向量之间的相似度计算使用余弦相似性度量。将所有余弦相似度降序排序后,返回检索结果。
使用top1和top5的mAP指标对检索性能进行评价。其计算方法如下:
mAP=(AP1+AP2+AP3+…+APn)/n
其中,tk表示当前检索结果topk中正确的数量,APn表示第n个查询图片的AP。
Claims (5)
1.一种基于自注意力机制加权的细粒度图像检索方法,其特征在于实施步骤为:
(1)将图像输入卷积神经网络,获取卷积神经网络的输出特征层;
(2)将得到的特征层基于双选模块进行目标特征选择;
(3)经过选择的特征采用自注意力权重的方法进行特征聚合;
(4)通过计算特征向量的余弦相似度进行图像检索。
2.根据权利要求1所述的基于自注意力机制加权的细粒度图像检索方法,其特征在于本方法在图像预处理和特征提取阶段:
(1)基于对检索效率的考虑将图像的输入最大尺寸限制为500像素;
(2)使用ImageNet数据集训练得到的卷积神经网络模型提取数据特征,将网络模型最后一层的输出层作为输出特征。
3.根据权利要求1所述的基于自注意力机制加权的细粒度图像检索方法,其特征在于本方法的基于双选模块的目标特征选择:
(1)卷积神经网络输出的三维张量有两种概念:局部激活图集合和局部特征向量集合。本方法同时考虑了这两种概念,先对局部激活图进行优化理,再根据激活图结果选择局部特征向量,从而实现了更加精确的目标特征选择;
(2)局部激活图筛选。将输出的三维张量视为c个形状为h×w的局部激活图的激活,对每个局部激活图都进行噪声值抑制处理;
(3)全局激活图筛选。将处理过的局部激活图相加,得到的全局激活图。取全局激活图中所有值的均值作为阈值,全局激活图中每个激活值与阈值比较结果记为0或1。最后得到一个二值化掩膜;
(4)目标特征选择。此时将步骤(3.2)得到三维张量视为h×w个长度为c的局部特征向量,同时只保留二值化掩膜中值为1的位置对应的局部特征向量。将筛选出的m个目标特征集,记作形状为m×c的目标特征矩阵。
4.根据权利要求1所述的基于自注意力机制加权的细粒度图像检索方法,其特征在于本方法的基于自注意力权重的特征聚合,基于自注意力机制的加权方法,评估了每个特征的重要程度,使得加权后的细粒度局部特征在池化聚合时仍然能够得以体现,从而提升细粒度检索的精度。整个特征聚合步骤也可以进一步分为以下三个步骤;
(1)局部特征全局相关性分数。目标特征矩阵中一个特性向量与所有的m个特征向量进行内积运算,再将m个结果求和,即得到该特征向量的全局相关性分数;
(2)局部特征权重。所有特征向量的全局相关性分数统一进行softmax函数归一化处理,然后经过sigmoid函数最终每个特征的全局相关性得分转换为权重值;
(3)加权特征聚合。对加权后的特征矩阵分别进行平均值池化和最大值处理,可以得到两个特征向量。在将两个特征向量分别进行L2-norm处理后,进行串联,得到图像最终的特征向量表示。
5.根据权利要求1所述的基于自注意力机制加权的细粒度图像检索方法,其特征在于本方法的细粒度图像检索方法:
(1)基于以上的权利要求2、3、4的方法,构建每个图像类的图像特征库;
(1)进行图像检索时,将待检索的图像采用同样的过程提取特征,进而计算它与每个类别的特征之间的余弦相似度排序,得到检索的结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010793691.0A CN111984817B (zh) | 2020-08-10 | 2020-08-10 | 一种基于自注意力机制加权的细粒度图像检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010793691.0A CN111984817B (zh) | 2020-08-10 | 2020-08-10 | 一种基于自注意力机制加权的细粒度图像检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111984817A true CN111984817A (zh) | 2020-11-24 |
CN111984817B CN111984817B (zh) | 2022-06-17 |
Family
ID=73444602
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010793691.0A Active CN111984817B (zh) | 2020-08-10 | 2020-08-10 | 一种基于自注意力机制加权的细粒度图像检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111984817B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112559781A (zh) * | 2020-12-10 | 2021-03-26 | 西北大学 | 一种图像检索系统和方法 |
CN112990225A (zh) * | 2021-05-17 | 2021-06-18 | 深圳市维度数据科技股份有限公司 | 一种复杂环境下的图像目标识别方法及装置 |
CN113051417A (zh) * | 2021-04-20 | 2021-06-29 | 南京理工大学 | 一种细粒度图像检索方法及系统 |
CN113239217A (zh) * | 2021-06-04 | 2021-08-10 | 图灵深视(南京)科技有限公司 | 图像索引库构建方法及系统,图像检索方法及系统 |
CN113239219A (zh) * | 2021-05-12 | 2021-08-10 | 山东大学 | 一种基于多模态查询的图像检索方法、系统、介质及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101163241A (zh) * | 2007-09-06 | 2008-04-16 | 武汉大学 | 一种视频序列编解码体系结构 |
US20140122300A1 (en) * | 2010-09-21 | 2014-05-01 | Target Brands, Inc. | Retail Website User Interface |
CN109992686A (zh) * | 2019-02-24 | 2019-07-09 | 复旦大学 | 基于多角度自注意力机制的图像-文本检索系统及方法 |
CN111488474A (zh) * | 2020-03-21 | 2020-08-04 | 复旦大学 | 基于增强注意力的细粒度手绘草图图像检索方法 |
-
2020
- 2020-08-10 CN CN202010793691.0A patent/CN111984817B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101163241A (zh) * | 2007-09-06 | 2008-04-16 | 武汉大学 | 一种视频序列编解码体系结构 |
US20140122300A1 (en) * | 2010-09-21 | 2014-05-01 | Target Brands, Inc. | Retail Website User Interface |
CN109992686A (zh) * | 2019-02-24 | 2019-07-09 | 复旦大学 | 基于多角度自注意力机制的图像-文本检索系统及方法 |
CN111488474A (zh) * | 2020-03-21 | 2020-08-04 | 复旦大学 | 基于增强注意力的细粒度手绘草图图像检索方法 |
Non-Patent Citations (1)
Title |
---|
林阳等: "融合自注意力机制的跨模态食谱检索方法", 《计算机科学与探索》, 31 January 2020 (2020-01-31), pages 1471 - 1481 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112559781A (zh) * | 2020-12-10 | 2021-03-26 | 西北大学 | 一种图像检索系统和方法 |
CN112559781B (zh) * | 2020-12-10 | 2023-04-07 | 西北大学 | 一种图像检索系统和方法 |
CN113051417A (zh) * | 2021-04-20 | 2021-06-29 | 南京理工大学 | 一种细粒度图像检索方法及系统 |
CN113051417B (zh) * | 2021-04-20 | 2021-11-16 | 南京理工大学 | 一种细粒度图像检索方法及系统 |
CN113239219A (zh) * | 2021-05-12 | 2021-08-10 | 山东大学 | 一种基于多模态查询的图像检索方法、系统、介质及设备 |
CN113239219B (zh) * | 2021-05-12 | 2022-05-20 | 山东大学 | 一种基于多模态查询的图像检索方法、系统、介质及设备 |
CN112990225A (zh) * | 2021-05-17 | 2021-06-18 | 深圳市维度数据科技股份有限公司 | 一种复杂环境下的图像目标识别方法及装置 |
CN113239217A (zh) * | 2021-06-04 | 2021-08-10 | 图灵深视(南京)科技有限公司 | 图像索引库构建方法及系统,图像检索方法及系统 |
CN113239217B (zh) * | 2021-06-04 | 2024-02-06 | 图灵深视(南京)科技有限公司 | 图像索引库构建方法及系统,图像检索方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111984817B (zh) | 2022-06-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111984817B (zh) | 一种基于自注意力机制加权的细粒度图像检索方法 | |
CN110956185B (zh) | 一种图像显著目标的检测方法 | |
CN110163258B (zh) | 一种基于语义属性注意力重分配机制的零样本学习方法及系统 | |
CN111696101A (zh) | 一种基于SE-Inception的轻量级茄科病害识别方法 | |
CN113095442B (zh) | 基于半监督学习在多维度雷达数据下的冰雹识别方法 | |
CN109033978B (zh) | 一种基于纠错策略的cnn-svm混合模型手势识别方法 | |
CN111191583A (zh) | 基于卷积神经网络的空间目标识别系统及方法 | |
CN107169117B (zh) | 一种基于自动编码器和dtw的手绘图人体运动检索方法 | |
CN113486764B (zh) | 一种基于改进的YOLOv3的坑洼检测方法 | |
CN111680706A (zh) | 一种基于编码和解码结构的双通道输出轮廓检测方法 | |
CN113408605A (zh) | 基于小样本学习的高光谱图像半监督分类方法 | |
CN109165658B (zh) | 一种基于Faster-RCNN的强负样本水下目标检测方法 | |
CN111898621A (zh) | 一种轮廓形状识别方法 | |
CN114510594A (zh) | 一种基于自注意力机制的传统纹样子图检索方法 | |
CN113344077A (zh) | 一种基于卷积胶囊网络结构的抗噪茄科病害识别方法 | |
CN112434662A (zh) | 一种基于多尺度卷积神经网络的茶叶病斑自动识别算法 | |
CN111797705A (zh) | 一种基于人物关系建模的动作识别方法 | |
CN113032613B (zh) | 一种基于交互注意力卷积神经网络的三维模型检索方法 | |
CN116543250A (zh) | 一种基于类注意力传输的模型压缩方法 | |
Sadati et al. | An improved image classification based in feature extraction from convolutional neural network: application to flower classification | |
CN115810106A (zh) | 一种复杂环境下茶叶嫩梢品级精准识别方法 | |
CN113032612B (zh) | 一种多目标图像检索模型的构建方法及检索方法和装置 | |
CN113642655B (zh) | 基于支持向量机和卷积神经网络的小样本图像分类方法 | |
CN112818982B (zh) | 基于深度特征自相关性激活的农业害虫图像检测方法 | |
CN112633169B (zh) | 一种基于改进型LeNet-5网络的行人识别算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |