CN111914107B

CN111914107B - 一种基于多通道注意力区域扩展的实例检索方法

Info

Publication number: CN111914107B
Application number: CN202010746717.6A
Authority: CN
Inventors: 赵万磊; 林界; 王菡子
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2020-07-29
Filing date: 2020-07-29
Publication date: 2022-06-14
Anticipated expiration: 2040-07-29
Also published as: CN111914107A

Abstract

一种基于多通道注意力区域扩展的实例检索方法，涉及图像检索技术领域。首先提出多通道注意力区域扩展模块，在网络训练中仅依赖图像类别标签，从多个通道进行注意力区域扩展操作，分别实现对图像中的多个实例进行相对完整的定位。根据定位进行特征提取的过程中，引入多分支联合训练，在提取特征时保留原信息，并进一步获得深层语义信息，增强特征的判别力。不同于已有的技术，只依赖图像类别标签训练卷积神经网络，基于类激活图和注意力区域扩展模块对图像中实例进行定位的同时，提取具有判别性的实例特征用于实例检索。可应用到电商网站的在线购物、视频媒体的智能化检索等现实场景。

Description

一种基于多通道注意力区域扩展的实例检索方法

技术领域

本发明涉及图像检索技术领域，尤其是涉及可应用到智能化的商品检索、视频编辑等领域的一种基于多通道注意力区域扩展的实例检索方法。

背景技术

图像检索分为基于文本和基于内容两种。随着大规模数字图像库的出现，基于文本的检索已经无法适应需求，基于内容的图像检索技术应运而生，区别于原有系统中对图像进行人工标注的做法，基于内容的检索技术自动提取每幅图像的视觉内容特征作为其索引，如色彩、纹理、形状等。视觉实例检索(以下简称“实例检索”)是基于内容的图像检索领域的一个子问题。实例检索的具体定义为：给定一张查询图像，利用矩形框标定出待查询的实例，该实例可以是一个物体、一个人物或一个建筑物等。然后要求从海量图像库中检索包含这一实例的图像，同时对于返回的图像需要利用矩形框标定出与查询实例相同的目标实例位置。实例检索在现实生活中具有极大的应用价值，被广泛应用于智能化商品检索、视频编辑等领域中，通过检索和定位特定实例来支持与该实例相关的任务，是当前图像数据处理领域通用且基本的技术。

在过去十年，实例检索技术一直被当作一个局部图像检索任务，其主要解决方法是从图像的显著性区域提取局部手工特征，结合特征编码方法进行实例表示。尽管这些方法已经取得了较好的成绩，但多个实例的特征都被合并嵌入到一个特征向量中，使得实例级别的特征难以获得。此外，图像的局部特征对于现实生活中常见的目标形变和平面外旋转表现并不稳定。随着深度学习的发展，在图像检索中，深度特征以其优异的性能逐渐取代了传统的手工特征。但这些特征大多是图像级别的，无法表示具体实例。近几年，实例检索中的定位问题逐渐获得研究学者关注，不少基于目标检测或实例分割的实例检索方法被提出，在检测区域或分割区域的基础上，进一步提取实例特征。然而，这类方法依赖矩形框或像素级别的强监督信息进行网络训练，使得检索无法向更大规模数据集进行拓展。

在现实场景中，实例检索的检索范围广，数据量大，含有矩形框或像素级别标注的训练数据集数量有限。相对而已，图像的类别标注成本较低。同时，对检索返回图片中的实例实现定位十分关键。因此，如何在仅依赖图像的类别标签进行网络训练的同时，实现实例的定位并提取具有判别性的实例特征，是本发明所关注解决的关键技术难题。

发明内容

本发明的目的在于针对现有技术存在的上述问题，提供可应用到电商网站的在线购物、视频媒体的智能化检索等现实场景的一种基于弱监督训练提取真正实例级别特征的实例检索技术。

本发明包括以下步骤：

1)设计一个实例检索模型，所述实例检索模型包括注意力区域扩展模块、多分支联合训练模块、前向传播深度网络；所述前向传播深度网络用于处理输入图像，生成对应类激活图并进行特征提取；所述注意力区域扩展模块作为独立模块嵌入卷积层，生成类激活图实现实例定位；所述多分支联合训练模块嵌入网络中间层，用于丰富中间层特征，提取具有判别性实例特征；实例检索模型将图片作为输入，输出图片中检测到的实例的定位信息及对应的特征，参与后续的检索部分；

2)图像预处理：对于给定的图像数据库，将数据库当中的每张图片都分别经过步骤1)，提取图像中实例位置及其对应实例级别特征，保存后以备后续检索使用；

3)实例检索：对于每张查询图片，经过网络前向传播进行处理，用给定的查询实例的区域代替原始类激活图生成矩形区域，在对应区域进行实例级别特征提取；再将该实例特征与实例检索模型在数据库图片上所提取出的所有实例级特征进行相似度对比，每张数据库图片中对应的相似度最高的区域即为该图上实例检索的结果，该区域对应的相似度即为该图的相似度；数据库所有图片按照相似度从高到低依次排列，得到整个数据库上的实例检索的结果。

在步骤1)中，所述设计一个实例检索模型的具体方法为：

(1)采用深度学习技术中流行的残差网络(ResNet-50)；该网络全连接层之前的全卷积结构作为本发明的卷积神经网络骨架；在第3个卷积组和第4个卷积组后嵌入注意力区域扩展模块，选择第3个卷积组输出与第4个卷积组输出共同参与联合训练；使用ImageNet数据集预训练的残差网络权重，利用Microsoft COCO 2014以及CUB-200-2011作为训练集，仅依靠图像类别标签作为监督信息微调网络；

(2)在网络的训练阶段，对于每张输入图像，首先经过一个添加了多通道注意力区域扩展模块的基准网络(ResNet-50，共包含4个卷积组)进行处理，在网络的第3和第4个卷积组后分别添加了一个多通道注意力区域扩展(Multi-Channel Attention AreaExpansion，MC-AAE)模块，对于这两个多通道注意力区域扩展模块的输出特征图，分别经过一个全局平均池化层和全连接层，两个分支并行联合训练，最后的输出损失进行组合后共同计算多分类损失，进行网络优化；随后，实例级别的特征提取在基于微调后的网络中进行；

(3)多通道注意力区域扩展模块在原始激活图的弱监督目标定位的基础上引入多通道，在弱监督目标定位的前后分别添加一个1×1的卷积层，用于对特征图进行降维和升维；对于弱监督目标定位前的卷积层从输入通道数降维到与训练数据集的目标类别数一致，对于弱监督目标定位后的卷积层从目标类别数升维到原始输入通道数；使输入的每个特征图都对应表示一个类别，每个特征图分别经过弱监督目标定位，从而激活不同的类别实例；

(4)考虑特征判别性问题，利用多分支联合训练的方式以丰富中间层的特征信息；多分支联合训练为将第3个卷积组的输出连接一个全局平均池化层和一个全连接层，与原始的网络输出共同送入损失层，参与损失函数的计算；损失函数的计算如下：

其中，α表示权重参数，可设为0.5；

和

分别表示第3个卷积组分支和第4个卷积组分支的损失函数，计算如下：

其中，x[i]^convl表示第l个卷积组分支的第i个预测，y[i]表示正确的第i个标签，C表示类别总数，log表示对数函数，exp表示以自然常数e为底的指数函数；

(5)图像经过网络处理后，选择其中第3个卷积组的输出，利用CAM的方法生成类激活图，根据类激活图，利用OpenCV中查找轮廓的函数提取类激活图中高亮区域的最小外接矩形作为候选框；为了获得统一维度的实例特征，对每个候选框利用ROI(Region OfInterest)池化操作提取特征。

在本发明提出的模型中，一方面，网络训练仅依赖图像类别标签，结合多通道注意力区域扩展模块实现实例定位，保证实例级别特征提取的同时大大降低了标注成本，可拓展至大规模数据集；另一方面，特征提取过程引入多分支联合训练，为中间卷积层进一步引入语义信息，同时结合注意力机制，增强了实例级别特征的判别性，保证不同实例间特征的区分度。

本发明旨在使用注意力机制扩展模块解决实例的定位问题，促进实例检索任务中对于一张图片中多个实例区域的激活。同时结合多分支联合训练，丰富中间层特征。目前未见仅依靠弱监督信息进行网络训练，既实现实例定位又保证特征判别性的实例检索技术。本发明提出了一种简单有效的实例检索模型，在仅依赖图像类别这一弱监督信息训练的情况下，提出多通道注意力区域扩展模块来激活图片中多个实例区域，解决以往的技术在训练定位能力时依赖强监督标注信息，难以大规模拓展的问题。本发明首先提出多通道注意力区域扩展模块，在网络训练中仅依赖图像类别标签，从多个通道进行注意力区域扩展操作，分别实现对图像中的多个实例进行相对完整的定位。根据定位进行特征提取的过程中，本发明引入多分支联合训练，在提取特征时保留原信息，并进一步获得深层语义信息，增强特征的判别力。不同于已有的技术，本发明只依赖图像类别标签训练卷积神经网络，基于类激活图和注意力区域扩展模块对图像中实例进行定位的同时，提取具有判别性的实例特征用于实例检索。

附图说明

图1为本发明实施例的流程图。

图2为本发明实施例在6个样本图片中检测到的物体实例展示图。

具体实施方式

以下实施例将结合附图对本发明作进一步的说明。

本发明实施例包括以下步骤：

1)模型设计：本发明的模型如图1。在图1对原始的残差网络进行了改进，嵌入了多通道注意力区域扩展模块以及多分支联合训练模块。将数据库图片作为输入，在多通道注意力区域扩展模块处理后的类激活图上得到所有实例定位，从多分支联合训练卷积组上提取定位区域的实例特征。之后对查询实例提取区域性特征，在数据库特征中进行查询，检索相似的实例。本发明的模型包含一个前向传播深度网络处理输入图像，生成对应类激活图并进行特征提取，该部分为模型的大体框架；注意力区域扩展模块作为独立模块嵌入卷积层之后，生成类激活图实现实例定位；多分支联合训练模块嵌入网络中间层，用于丰富中间层特征，提取具有判别性实例特征。本发明的模型将图片作为输入，输出图片中检测到的实例的定位信息及对应的特征，参与后续的检索部分。

具体地，采用深度学习技术中流行的残差网络(ResNet-50)。该网络全连接层之前的全卷积结构作为本发明的卷积神经网络骨架。在第三个卷积组和第四个卷积组后嵌入注意力区域扩展模块，选择第三个卷积组输出与第四个卷积组输出共同参与联合训练。使用ImageNet数据集预训练的残差网络权重，利用Microsoft COCO 2014以及CUB-200-2011作为训练集，仅依靠图像类别标签作为监督信息微调网络。

在网络的训练阶段，对于每张输入图像，首先经过一个添加了多通道注意力区域扩展模块的基准网络(ResNet-50，共包含4个卷积组)进行处理，这里是在网络的第三和第四个卷积组后分别添加了一个多通道注意力区域扩展(Multi-Channel Attention AreaExpansion，MC-AAE)模块。接下来，对于这两个多通道注意力区域扩展模块的输出特征图，分别经过一个全局平均池化层和全连接层，两个分支并行联合训练，最后的输出损失进行组合后共同计算多分类损失，进行网络优化。随后，实例级别的特征提取在基于微调后的网络中进行。

本发明中提出的多通道注意力区域扩展模块是在基于激活图的弱监督目标定位技术的基础上进行改进的。弱监督目标定位是基于类激活图，采用对抗生成思想激活图像中尽量完整的目标区域。该方法在单一目标的图像中表现较好，但在面对多目标图像时其表现却差强人意。本发明中提出的多通道注意力区域扩展模块在原始弱监督目标定位的基础上引入多通道，不再对原始输入的特征图做平均池化，而是在弱监督目标定位的前后分别添加了一个1×1的卷积层。这两个卷积层的作用是对特征图进行降维和升维。将通道数与类别对应，一方面保证对各个类别实例的激活模式不同，另一方面，防止通道数过大导致弱监督目标定位分支过多带来的计算量激增问题。对于弱监督目标定位前的卷积层从输入通道数降维到与训练数据集的目标类别数一致，对于弱监督目标定位后的卷积层从目标类别数升维到原始输入通道数。经过这一操作，输入的每个特征图都对应表示一个类别，每个特征图分别经过弱监督目标定位，从而激活不同的类别实例。

本发明同时考虑了特征判别性问题，提出了利用多分支联合训练的方式以丰富中间层的特征信息。具体的训练结构如图1所示，多分支联合训练在图中体现为将第三个卷积组的输出连接一个全局平均池化层和一个全连接层，与原始的网络输出共同送入损失层，参与损失函数的计算。损失函数的计算如下：

其中，α表示权重参数，在本发明中设为0.5。

和

分别表示第三个卷积组分支和第四个卷积组分支的损失函数，它们的计算如下：

其中，在该计算公式中，x[i]^convl表示第l个卷积组分支的第i个预测，y[i]表示正确的第i个标签，C表示类别总数，log表示对数函数，exp表示以自然常数e为底的指数函数。

在本发明中，图像经过网络处理后，选择其中第三个卷积组的输出，利用CAM的方法生成类激活图，根据类激活图，利用OpenCV中查找轮廓的函数提取类激活图中高亮区域的最小外接矩形作为候选框。最后，为了获得统一维度的实例特征，对每个候选框利用ROI(Region Of Interest)池化操作提取特征。

2)图像预处理：对于给定的图像数据库，将数据库当中的每张图片都分别经过本发明步骤1)处理，提取图像中实例位置及其对应实例级别特征，保存后以备后续检索使用。

3)实例检索：对于每张查询图片，经过网络前向传播进行处理，用给定的查询实例的区域代替原始类激活图生成矩形区域，在对应区域进行实例级别特征提取。再将该实例特征与本发明模型在数据库图片上所提取出的所有实例级特征进行相似度对比，每张数据库图片中对应的相似度最高的区域即为该图上实例检索的结果，该区域对应的相似度即为该图的相似度。数据库所有图片按照相似度从高到低依次排列，得到整个数据库上的实例检索的结果。

图2为本发明实施例在6个样本图片中检测到的物体实例展示。从图2中可以看到，本发明实施例通过步骤1)可以比较准确地定位视觉物体在图片中的位置。而且定位的物体包含了塑料瓶和熊这样的未知类别物体。利用获得的视觉物体定位，步骤1)可以进一步提取对视觉物体的特征表示来支持视觉物体检索。

本发明提出了一种简单有效的实例检索模型，在仅依赖图像类别这一弱监督信息训练的情况下，提出多通道注意力区域扩展模块来激活图片中多个实例区域，解决以往的技术在训练定位能力时依赖强监督标注信息，难以大规模拓展的问题。

在实例检索中，本发明技术与现有技术R-MAC、CroW、CAM、BLCF、BLCF-SalGAN、RegionalAttention、DeepVision和FCIS+XD在Instance-160和INSTRE数据集上的检索评价指标mAP的比较对比如表1所示。

表1

本发明首先提出多通道注意力区域扩展模块，在网络训练中仅依赖图像类别标签，从多个通道进行注意力区域扩展操作，分别实现对图像中的多个实例进行相对完整的定位。根据定位进行特征提取的过程中，引入多分支联合训练，在提取特征时保留原信息，并进一步获得深层语义信息，增强特征的判别力。在所有的对比方法中，只有DeepVision和FCIS+XD方法能对所有检索到的实例进行定位，且它们均采用强监督的训练方式，意味着它们需要耗费大量的标注时间。在Instance-160数据集上，评价指标采用FCIS+XD的设置，包含了前10、前20、前50、前100和所有结果的检索结果评价对比。由表1可以看出，本发明的方法在Instance-160数据集下最终的mAP均排在前两名，且在两个数据集之间都表现出稳定的性能。INSTRE数据集中包含许多训练类别里没有的类别实例，本发明的方法在该数据集上对比其他能定位的方法所表现出的稳定性，主要是由于多通道注意力区域扩展模块对图像中显著性区域保留了敏感度。虽然BLCF-SalGAN在INSTRE数据集上性能更好，但其需要额外标注生成的显著图信息以及其不能定位实例的特性导致其在真实场景中并不实用。因此，本发明的模型获得了比其他能定位的技术更好的结果，并保证了实际场景的实用性。

R-MAC对应的方法为Giorgos Tolias等人提出的方法(Tolias G,Sicre R,JégouH.Particular object retrieval with integral max-pooling of CNN activations[J].arXiv preprint arXiv:1511.05879,2015.)；CroW对应的方法为Yannis Kalantidis等人提出的方法(Kalantidis Y,Mellina C,Osindero S.Cross-dimensional weightingfor aggregated deep convolutional features[C]//European conference oncomputer vision.Springer,Cham,2016:685-701.)；CAM对应的方法为Albert Jimenez等人提出的方法(Jimenez A,Alvarez J M,Giro-i-Nieto X.Class-weightedconvolutional features for visual instance search[J].arXiv preprint arXiv:1707.02581,2017.)；BLCF及BLCF-SalGAN对应的方法为Eva Mohedano等人提出的词袋模型编码卷积特征方法以及用显著性图加权的词袋模型编码卷积特征的方法(Mohedano E,McGuinness K,Giró-i-Nieto X,et al.Saliency weighted convolutional featuresfor instance search[C]//2018 international conference on content-basedmultimedia indexing(CBMI).IEEE,2018:1-6.)；RegionalAttention对应的方法为Jaeyoon Kim等人提出的方法(Kim J,Yoon S E.Regional Attention Based DeepFeature for Image Retrieval[C]//BMVC.2018:209.)；DeepVision对应的方法为AmaiaSalvador等人提出的方法(Salvador A,Giró-i-Nieto X,Marqués F,et al.Faster r-cnnfeatures for instance search[C]//Proceedings of the IEEE conference oncomputer vision and pattern recognition workshops.2016:9-16.)；FCIS+XD对应的方法为Zhan Yu等人提出的采用实例分割框架提取实例级特征用于实例检索的方法(Zhan Y,Zhao W L.Instance Search via Instance Level Segmentation and FeatureRepresentation[J].arXiv preprint arXiv:1806.03576,2018.)。

Claims

1.一种基于多通道注意力区域扩展的实例检索方法，其特征在于包括以下步骤：

所述设计一个实例检索模型的具体方法为：

(1)采用深度学习技术中流行的残差网络；该网络全连接层之前的全卷积结构作为卷积神经网络骨架；在第3个卷积组和第4个卷积组后嵌入注意力区域扩展模块，选择第3个卷积组输出与第4个卷积组输出共同参与联合训练；使用ImageNet数据集预训练的残差网络权重，利用Microsoft COCO 2014以及CUB-200-2011作为训练集，仅依靠图像类别标签作为监督信息微调网络；

(2)在网络的训练阶段，对于每张输入图像，首先经过一个添加了多通道注意力区域扩展模块的基准网络进行处理，基准网络包含4个卷积组，在网络的第3和第4个卷积组后分别添加了一个多通道注意力区域扩展模块，对于这两个多通道注意力区域扩展模块的输出特征图，分别经过一个全局平均池化层和全连接层，两个分支并行联合训练，最后的输出损失进行组合后共同计算多分类损失，进行网络优化；随后，实例级别的特征提取在基于微调后的网络中进行；

其中，α表示权重参数；

和

(5)图像经过网络处理后，选择其中第3个卷积组的输出，利用CAM的方法生成类激活图，根据类激活图，利用OpenCV中查找轮廓的函数提取类激活图中高亮区域的最小外接矩形作为候选框；为了获得统一维度的实例特征，对每个候选框利用ROI池化操作提取特征；