CN111126488B

CN111126488B - 一种基于双重注意力的图像识别方法

Info

Publication number: CN111126488B
Application number: CN201911349581.9A
Authority: CN
Inventors: 袁嘉杰
Original assignee: Vtron Group Co Ltd
Current assignee: Vtron Group Co Ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2023-08-18
Anticipated expiration: 2039-12-24
Also published as: CN111126488A

Abstract

本申请公开了一种基于双重注意力的图像识别方法，构建包括卷积层、空间注意力VLAD层、通道注意力VLAD层、混合误差函数和全连接层的双重注意力VLAD网络模型；将待识别图像输入到双重注意力VLAD网络模型中，使得双重注意力VLAD网络模型中的卷积层输出第一特征图；将第一特征图输入到空间注意力VLAD层和通道注意力VLAD层，分别得到第一VLAD特征向量和第二VLAD特征向量；将第一VLAD特征向量和第二VLAD特征向量进行特征融合后输入到全连接层，输出待识别图像的识别结果，解决了现有的神经网络图像识别中引入VLAD的网络模型容易受到低质量图像特征的干扰，使得网络模型的识别精度不高的技术问题。

Description

一种基于双重注意力的图像识别方法

技术领域

本申请涉及图像识别技术领域，尤其涉及一种基于双重注意力的图像识别方法。

背景技术

在图像识别研究领域中，为了获取更好的图像信息描述，达到更好的识别效果，主要从传统的图像处理方法和新型的神经网络图像识别技术两方面展开。

传统的人工设计特征提取方法对于特征有较强针对性，因此，许多特征提取和描述方法具有较好的识别效果，传统方法更多使用手工提取特征，例如Sift、BoW、FV和VLAD(Vector of Locally Aggregated Descriptors，局部特征聚合描述符)等，对图像局部信息具有更细致的刻画，计算量较少，但是，这些方法的不足之处在于对于特征提取具有较强的针对性，从而使模型缺乏了对数据的泛化能力，相对于神经网络的端到端的方法，传统方法由于提取的特征不能满足后续分类任务的要求，目前，在性能上无法与神经网络相比。

神经网络图像识别技术注重网络框架对图像信息的阅读能力与学习能力，在训练学习的过程中调整权重，达到减少图像信息损失的同时，获取更好的图像信息描述，达到更好的识别效果。现有的神经网络图像识别方法往往从网络的深度和宽度两方面进行改进，尽管这两种改进方法对整体网络有所改进，识别精度也有一定的提高，但是，也会使得计算量和训练量增加，时间消耗也会陡增，由于VLAD具有局部聚类描述图像信息的功能，并且计算量较小的特点，因此，现有技术中在神经网络中引入VLAD，用于自动计算特征聚类中心，计算残差，通过残差加权对图像信息构建聚合特征，但是该方法构建的聚类中心是随机设定的，且容易受到低质量图像特征的干扰，使得网络模型的识别精度不高。

发明内容

本申请提供了一种基于双重注意力的图像识别方法，用于解决现有的神经网络图像识别中引入VLAD的网络模型容易受到低质量图像特征的干扰，使得网络模型的识别精度不高的技术问题。

有鉴于此，本申请提供了一种基于双重注意力的图像识别方法，包括：

构建双重注意力VLAD网络模型，所述双重注意力VLAD网络模型包括卷积层、空间注意力VLAD层、通道注意力VLAD层、混合误差函数和全连接层；

将待识别图像输入到所述双重注意力VLAD网络模型中，使得所述双重注意力VLAD网络模型中的卷积层输出第一特征图，所述空间注意力VLAD层对所述第一特征图处理输出第一VLAD特征向量，所述通道注意力VLAD层对所述第一特征图处理输出第二VLAD特征向量，所述全连接层对所述第一VLAD特征向量和所述第二VLAD特征向量融合后的融合特征向量进行处理，输出所述待识别图像的识别结果。

优选地，所述空间注意力VLAD层对所述第一特征图处理输出第一VLAD特征向量，包括：

所述空间注意力VLAD层对输入的所述第一特征图特征分别进行第一卷积降维、第二卷积降维和第三卷积降维，分别得到第二特征图、第三特征图和第四特征图；

所述空间注意力VLAD层对所述第二特征图和所述第三特征图进行矩阵乘积后进行softmax操作，得到第一中间特征图；

所述空间注意力VLAD层将所述第一中间特征图中的响应值作为权重，对所述第四特征图进行加权融合，得到空间注意力特征图；

所述空间注意力VLAD层对所述空间注意力特征图进行卷积操作，得到若干个第一聚类中心权重矩阵，对所述第一聚类中心权重矩阵中的高质量第一聚类中心权重矩阵进行softmax处理，输出第一聚类中心权重，所述高质量第一聚类中心权重矩阵为每个所述第一聚类中心权重矩阵中各元素求和后的值按值的大小降序排序，排在前预置数量位的所述第一聚类中心权重矩阵；

所述空间注意力VLAD层基于所述第一中间特征图、所述第一聚类中心权重和第一VLAD聚类中心构建聚合特征，得到所述第一VLAD特征向量，所述第一VLAD聚类中心基于所述第一中间特征图通过kmeans聚类方法得到。

优选地，所述第一VLAD特征向量的计算公式为：

其中，I_i'(j)为第j个通道维度上的第一中间特征图上的第i个值，c_k(j)为第k个第一VLAD聚类中心上第j个通道维度上的值，W_k为第k个第一VLAD聚类中心的第一聚类中心权重。

优选地，所述通道注意力VLAD层对所述第一特征图处理输出第二VLAD特征向量，包括：

所述通道注意力VLAD层对输入的所述第一特征图做自身乘法后进行softamx处理，得到第二中间特征图；

所述通道注意力VLAD层将所述第二中间特征图中的响应值作为权重，对所述第一特征图进行加权融合，得到通道注意力特征图；

所述通道注意力VLAD层对所述通道注意力特征图进行卷积操作，得到若干个第二聚类中心权重矩阵，对所述第二聚类中心权重矩阵中的高质量第二聚类中心权重矩阵进行softmax处理，输出第二聚类中心权重，所述高质量第二聚类中心权重矩阵为每个所述第二聚类中心权重矩阵中各元素求和后的值按值的大小降序排序，排在前预置数量位的所述第二聚类中心权重矩阵；

所述通道注意力VLAD层基于所述第二中间特征图、所述第二聚类中心权重和第二VLAD聚类中心构建聚合特征，得到所述第二VLAD特征向量，所述第二VLAD聚类中心基于所述第二中间特征图通过kmeans聚类方法得到。

优选地，所述将待识别图像输入到所述双重注意力VLAD网络模型中，使得所述双重注意力VLAD网络模型中的卷积层输出第一特征图，之前还包括：

将获取的训练图像输入到所述双重注意力VLAD网络模型，对所述双重注意力VLAD网络模型进行训练；

当训练的迭代次数达到第一阈值时，得到训练好的所述双重注意力VLAD网络模型。

优选地，所述将获取的训练图像输入到所述双重注意力VLAD网络模型，对所述双重注意力VLAD网络模型进行训练，之前还包括：

对获取的测试图像进行特征提取，输出第一全局特征向量；

将所述第一全局特征向量输入到预置SVM分类器中，得到若干个误差；

将所述若干个误差中的最小误差作为约束加入到所述双重注意力VLAD网络模型的均方误差函数中，得到所述混合误差函数。

优选地，所述将所述第一全局特征向量输入到预置SVM分类器中，得到若干个误差，之前还包括：

对所述训练图像进行特征提取，输出第二全局特征向量；

将所述第二全局特征向量输入到若干个SVM分类器中，对每个所述SVM分类器进行训练；

计算每个所述SVM分类器对所述训练图像的识别率，当所述识别率达到第二阈值时，得到若干个训练好的所述SVM分类器，将若干个训练好的所述SVM分类器作为所述预置SVM分类器。

优选地，所述对所述训练图像进行特征提取，输出第二全局特征向量，包括：

基于dense SIFT算法对所述训练图像进行特征提取，输出dense sift特征；

基于detect SIFT算法对进行显著性处理后的所述训练图像进行特征提取，输出detect sift特征；

对所述dense sift特征和所述detect sift特征分别通过kmeans聚类方法训练聚类码本，再进行聚合残差计算，分别得到dense-VLAD特征和detect-VLAD特征；

对所述detect-VLAD特征进行softmax处理后与所述dense-VLAD特征通过点乘进行特征融合，输出所述第二全局特征向量。

优选地，所述误差的计算公式为：

其中，s＝Wx_i+b，W、b为优化的参数，x_i为第i个测试图像，s_j为s的第j个分量，s_yi为s的第y_i个标签值，E_i为误差。

优选地，所述混合误差函数为：

其中，y_m为标签值，y_gt-m为预测值，λ为学习因子。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请中提供了一种基于双重注意力的图像识别方法，包括：构建双重注意力VLAD网络模型，双重注意力VLAD网络模型包括卷积层、空间注意力VLAD层、通道注意力VLAD层、混合误差函数和全连接层；将待识别图像输入到双重注意力VLAD网络模型中，使得双重注意力VLAD网络模型中的卷积层输出第一特征图，空间注意力VLAD层对第一特征图处理输出第一VLAD特征向量，通道注意力VLAD层对第一特征图处理输出第二VLAD特征向量，全连接层对第一VLAD特征向量和第二VLAD特征向量融合后的融合特征向量进行处理，输出待识别图像的识别结果。

本申请中的基于双重注意力的图像识别方法，通过在原始的卷积神经网络模型基础上加入空间注意力VLAD层和通道注意力VLAD层，通过空间注意力VLAD层和通道注意力VLAD层可以同时在空间维度与通道维度上强化图像信息，降低低质量图像特征的干扰，使得网络模型在较少能耗下提取目标关键位置的信息，具有较好的映射表达能力；通过空间注意力VLAD层和通道注意力VLAD层对卷积层提取的特征图中高质量的图像特征进行强化，舍弃低质量的图像特征，降低低质量图像特征的干扰，从而增强网络模型对图像的识别能力，提高图像的识别精度，从而解决了现有的神经网络图像识别中引入VLAD的网络模型容易受到低质量图像特征的干扰，使得网络模型的识别精度不高的技术问题。

附图说明

图1为本申请实施例提供的一种基于双重注意力的图像识别方法的一个流程示意图；

图2为本申请实施例提供的一种基于双重注意力的图像识别方法的另一个流程示意图；

图3为本申请实施例提供的一种双重注意力VLAD网络模型结构示意图；

图4为本申请实施例提供的空间注意力VLAD层的处理过程示意图；

图5为本申请实施例提供的通道注意力VLAD层的处理过程示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于理解，请参阅图1，本申请提供的一种基于双重注意力的图像识别方法的一个实施例，包括：

步骤101、构建双重注意力VLAD网络模型。

需要说明的是，本申请实施例中的双重注意力VLAD网络模型包括卷积层、空间注意力VLAD层、通道注意力VLAD层、混合误差函数和全连接层，该双重注意力VLAD网络模型在卷积神经网络的基础上，增加了空间注意力VLAD层和通道注意力VLAD层，并采用混合误差函数作为损失函数。

步骤102、将待识别图像输入到双重注意力VLAD网络模型中，使得双重注意力VLAD网络模型中的卷积层输出第一特征图，空间注意力VLAD层对第一特征图处理输出第一VLAD特征向量，通道注意力VLAD层对第一特征图处理输出第二VLAD特征向量，全连接层对第一VLAD特征向量和第二VLAD特征向量融合后的融合特征向量进行处理，输出待识别图像的识别结果。

需要说明的是，本申请实施例通过注意力机制从通道维度和空间维度上，求出各维度上中间特征之间的相似度，空间注意力VLAD层旨在利用任意两点特征之间的关联，来互相增强各自特征的表达；而通道注意力VLAD层旨在让各个通道之间能产生全局的关联，获得更强的语义响应的特征，空间注意力VLAD层和通道注意力VLAD层在提取特征时，都会舍去低质量聚类中心权重，从而降低低质量特征对图像识别的干扰，提高识别率；空间注意力VLAD层和通道注意力VLAD层分别对第一特征图降序处理，分别得到第一VLAD特征向量和第二VLAD特征向量，将第一VLAD特征向量和第二VLAD特征向量融合后的融合特征向量输入到全连接层，在卷积神经网络中，全连接起到分类器的作用，通过双重注意力VLAD网络模型中的最后一个全连接层输出的结果，从而得到待识别图像的识别结果。

本申请实施例中的基于双重注意力的图像识别方法，通过在原始的卷积神经网络模型基础上加入空间注意力VLAD层和通道注意力VLAD层，通过空间注意力VLAD层和通道注意力VLAD层可以同时在空间维度与通道维度上强化图像信息，降低低质量图像特征的干扰，使得网络模型在较少能耗下提取目标关键位置的信息，具有较好的映射表达能力；通过空间注意力VLAD层和通道注意力VLAD层对卷积层提取的特征图中高质量的图像特征进行强化，舍弃低质量的图像特征，降低低质量图像特征的干扰，从而增强网络模型对图像的识别能力，提高图像的识别精度，从而解决了现有的神经网络图像识别中引入VLAD的网络模型容易受到低质量图像特征的干扰，使得网络模型的识别精度不高的技术问题。

为了便于理解，请参阅图2至图5，本申请提供的一种基于双重注意力的图像识别方法的另一个实施例，包括：

步骤201、构建双重注意力VLAD网络模型。

需要说明的是，可以参考图3，本申请实施例给出的一个双重注意力VLAD网络模型，双重注意力VLAD网络模型包括卷积层、空间注意力VLAD层、通道注意力VLAD层、混合误差函数和全连接层。为了提高图像识别率，本申请实施例优选在残差网络ResNet-50的基础上加入空间注意力VLAD层和通道注意力VLAD层，并且，在均方误差函数中加入全局特征匹配的误差，从而融合局部和全局特征，进一步提高图像识别的准确率。

步骤202、将获取的训练图像输入到双重注意力VLAD网络模型，对双重注意力VLAD网络模型进行训练。

需要说明的是，可以从图像识别数据库中获取训练图像，将获取的训练图像输入到构建的双重注意力VLAD网络模型，对其进行训练，优化双重注意力VLAD网络模型参数，在优化训练的过程中，使得双重注意力VLAD网络模型的混合误差函数的误差值不断减小，从而使得该模型的识别效果越来越好，其中，混合误差函数的误差值根据全连接层输出的预测值、训练图像的标签值以及非局部描述特征约束计算得到，混合误差函数为在原均方误差函数的基础上加入非局部描述特征约束，混合误差函数为：

式中，y_m为第m个训练图像的标签值，y_gt-m为第m个训练图像的预测值，λ为学习因子，λ可以根据不同训练数据集进行设置，M为训练图像的数量，E_i为非局部描述特征约束，E_i通过训练好的SVM分类器得到，因此，在对双重注意力VLAD网络模型进行训练之前，需要先对SVM分类器进行训练，具体过程为：

(1)对训练图像进行特征提取，输出第二全局特征向量。

需要说明的是，为了使图像描述特征既能包含足够多的图像内容，又可以突出感兴趣区域，首先，对训练图像采用dense SIFT算法进行特征提取，尽可能对原始训练图像提取更多更完整的sift特征信息，同时，对提取得到的dense sift特征通过kmeans聚类方法训练出聚类码本，再通过聚合残差计算，输出相应的dense-VLAD特征；其次，通过显著性处理原始训练图像，再对处理后的训练图像采用detect SIFT算法进行特征提取，获得感兴趣区域的sift特征点，即detect sift特征，同样的，通过kmeans聚类方法训练出聚类码本，再通过聚合残差计算，输出相应的detect-VLAD特征；最后，对detect-VLAD特征进行softmax处理，处理后与dense-VLAD特征进行点乘以对dense-VLAD特征和detect-VLAD特征进行融合，得到第二全局特征向量，其中，对图像进行显著性处理属于现有技术，在此不再对显著性处理图像的具体过程进行赘述。

本申请实施例中通过对原始训练图像进行显著性处理，以提取图像中有用信息区域，对经过显著性处理后的训练图像采用detect SIFT算法对有用信息区域提取sift特征，因为，图像本身存在冗余信息，通过detect SIFT算法有选择性地提取特征，可以减少冗余，为了防止该方法过于激烈，丢失太多信息，本申请实施例中还采用dense SIFT算法提取全局sift特征，得到dense-VLAD特征，将dense-VLAD特征与detect-VLAD特征进行融合，从而进行全局特征信息的补充；通过双码本的设置，并构成VLAD结合特征，在一定程度上减少了特征量化过程中冗余信息造成的误差，并且，采用dense SIFT算法进行特征提取可以将更多图像全局细节聚合到图像特征向量上，采用detect SIFT算法提取特征可以将图像感兴趣区域进行捕捉，最终通过融合，能够提取出既能包含足够多的图像内容，又可以突出感兴趣区域的图像全局描述特征。

(2)将第二全局特征向量输入到若干个SVM分类器中，对每个SVM分类器进行训练。

需要说明的是，SVM分类器的数量取决于训练图像集的类别数，也就是说，训练图像集有几个类别，就训练几个SVM分类器，每个类别训练一个SVM分类器。

(3)计算每个SVM分类器对训练图像的识别率，当识别率达到第二阈值时，得到若干个训练好的SVM分类器，将若干个训练好的SVM分类器作为预置SVM分类器。

需要说明的是，计算每个SVM分类器对训练图像的识别率属于现有技术，在此不再对识别率的计算具体过程进行赘述，其中，第二阈值可以根据训练情况具体设置。

(4)对获取的测试图像进行特征提取，输出第一全局特征向量。

需要说明的是，测试图像也可以从图像识别数据库中得到，对获取的测试图像进行特征提取的过程与对训练图像的特征提取过程一样，在此不再对具体的特征提取过程进行赘述。

(5)将第一全局特征向量输入到预置SVM分类器中，得到若干个误差。

需要说明的是，将提取的第一全局特征向量输入到预置SVM分类器中，也就是前述训练好的若干个SVM分类器中，得到若干个误差，其中，SVM分类器的误差函数为Hinge Loss函数，即：

式中，s＝Wx_i+b，W、b为在训练SVM分类器时优化的参数，x_i为第i个测试图像，s_j为s的第j个分量，s_yi为s的第y_i个标签值，E_i为误差。

(6)将若干个误差中的最小误差作为约束加入到双重注意力VLAD网络模型的均方误差函数中，得到混合误差函数。

需要说明的是，每个SVM分类器都能得到一个误差，将最小误差作为约束加入到均方误差函数中，得到混合误差函数C。

由于浅层网络更关注全局细节信息，深层网络更关注语义信息，深层的语义信息有助于图像识别，因此，现有的卷积神经网络中都是通过最后一个卷积层输出的特征图进行预测，但该方法仅仅关注了深层网络中最后一层的特征，忽略了其他层的特征，而全局细节信息可以在一定程度上提高识别准确率。因此，本申请实施例中对原始图像进行全局特征提取，并在双重注意力机制的基础上叠加全局特征匹配误差，即非局部描述特征约束，从而提高识别准确率。

步骤203、当训练的迭代次数达到第一阈值时，得到训练好的双重注意力VLAD网络模型。

需要说明的是，训练的迭代次数可以根据实际情况进行设置。

步骤204、将待识别图像输入到双重注意力VLAD网络模型中，使得双重注意力VLAD网络模型中的卷积层输出第一特征图，空间注意力VLAD层对第一特征图处理输出第一VLAD特征向量，通道注意力VLAD层对第一特征图处理输出第二VLAD特征向量，全连接层对第一VLAD特征向量和第二VLAD特征向量融合后的融合特征向量进行处理，输出待识别图像的识别结果。

需要说明的是，可以参考图4的空间注意力VLAD层，空间注意力VLAD层对输入的第一特征图特征A分别进行第一卷积降维、第二卷积降维和第三卷积降维，分别得到第二特征图B、第三特征图C和第四特征图D，其中，第一卷积降维、第二卷积降维和第三卷积降维为通过不同卷积核的方式对第一特征图特征A进行卷积降维操作，得到的第二特征图B、第三特征图C和第四特征图D的大小一样，不同的是特征图中的权重。

空间注意力VLAD层对第二特征图B和第三特征图C进行矩阵乘积后进行softmax操作，得到第一中间特征图，对第二特征图B和第三特征图C进行矩阵乘积前需要对第二特征图B和第三特征图C进行维度变换，使得第二特征图B为((HxW)xC')，第三特征图C为(C'x(HxW))，再通过矩阵乘积获得任意两点特征之间的关联强度矩阵(HxW)x(HxW)，对关联强度矩阵进行softmax操作，以进行归一化，越相似的两点特征之间，相应的第一中间特征图中的响应值越大。

空间注意力VLAD层将第一中间特征图中的响应值作为权重，对第四特征图D进行加权融合，得到空间注意力特征图，其中，空间注意力特征图可以表示为：

式中，B、C、D分别为第二特征图、第三特征图和第四特征图，α为学习因子，可以根据实际情况进行设置。

空间注意力VLAD层对空间注意力特征图进行卷积操作，得到N+M个第一聚类中心权重矩阵，对第一聚类中心权重矩阵中的第一高质量聚类中心权重矩阵进行softmax处理，输出第一聚类中心权重，其中，对空间注意力特征图进行卷积操作，其卷积操作的作用为保持空间注意力特征图的大小不变，空间注意力特征图本身对应的信息量越多，其特征图中的元素求和的值就越高，相应的卷积操作后输出的第一聚类中心权重矩阵中各元素求和的值也会越高，对输出的每个第一聚类中心权重矩阵中各元素求和后，根据求和后的值的大小进行降序排序，前N个较大的值对应的第一聚类中心权重为高质量第一聚类中心权重矩阵，其中，N的取值根据实际情况预先设置，剩余的M个为低质量第一聚类中心权重矩阵，将低质量第一聚类中心权重矩阵舍弃，使得低质量第一聚类中心权重不参与构建聚合特征，起到在空间维度上降低低质量信息干扰的作用，对高质量第一聚类中心权重进行softmax处理，输出第一聚类中心权重。

空间注意力VLAD层基于第一中间特征图、第一聚类中心权重和第一VLAD聚类中心构建聚合特征，得到第一VLAD特征向量，第一VLAD聚类中心基于第一中间特征图通过kmeans聚类方法得到，计算第一VLAD聚类中心与第一中间特征图中特征值的残差，残差进行均值化处理后进行残差加权，构建聚合特征，得到第一VLAD特征向量V'(j,k)，其中，第一VLAD特征向量的计算公式为：

式中，I_i'(j)为第j个通道维度上的第一中间特征图上的第i个值，c_k(j)为第k个第一VLAD聚类中心上第j个通道维度上的值，W_k为第k个第一VLAD聚类中心的第一聚类中心权重。

还可以参考图5的通道注意力VLAD层，通道注意力VLAD层对输入的第一特征图A做自身乘法后进行softamx处理，得到第二中间特征图，对第一特征图A做自身乘法前，需要对第一特征图A进行维度变换，对第一特征图A做自身乘法，获得任意两个通道的关联强度，通过softmax操作后，得到第二中间特征图。

通道注意力VLAD层将第二中间特征图中的响应值作为权重，对第一特征图进行加权融合，得到通道注意力特征图E'_j，通过通道间的第二中间特征图进行加权融合，使得各个通道之间能够产生全局关联，获得更强的语义响应特征，其中，通道注意力特征图E'_j可以表示为：

通道注意力VLAD层对通道注意力特征图进行卷积操作，得到N+M个第二聚类中心权重矩阵，对第二聚类中心权重矩阵中的高质量第二聚类中心权重矩阵进行softmax处理，输出第二聚类中心权重，对通道注意力特征图进行卷积操作，其卷积操作的作用为保持通道注意力特征图的大小不变，通道注意力特征图本身对应的信息量越多，其特征图中的元素求和的值就越高，相应的卷积操作后输出的第二聚类中心权重矩阵元素求和的值也会越高，对输出的每个第二聚类中心权重中的各元素求和后，根据求和后的值的大小进行降序排序，前N个较大的值对应的第二聚类中心权重矩阵为高质量第二聚类中心权重矩阵，其中，N的取值根据实际情况预先设置，剩余的M个为低质量第二聚类中心权重矩阵，将低质量第二聚类中心权重矩阵舍弃，使得低质量第二聚类中心权重不参与构建聚合特征，起到在通道维度上降低低质量信息干扰的作用，对高质量第二聚类中心权重矩阵进行softmax处理，输出第二聚类中心权重。

通道注意力VLAD层基于第二中间特征图、第二聚类中心权重和第二VLAD聚类中心构建聚合特征，得到第二VLAD特征向量，第二VLAD聚类中心基于第二中间特征图通过kmeans聚类方法得到，计算第二VLAD聚类中心与第二中间特征图中特征值的残差，残差进行均值化处理后进行残差加权，构建聚合特征，得到第二VLAD特征向量V”(j,k)，其中，第二VLAD特征向量的计算公式为：

式中，I_i”(j)为第j个通道维度上的第二中间特征图上的第i个值，c'_k(j)为第k个第二VLAD聚类中心上第j个通道维度上的值，W'_k为第k个第二VLAD聚类中心的第二聚类中心权重。

将第一VLAD特征向量和第二VLAD特征向量通过串联升维的方式进行融合，得到融合特征向量，将融合特征向量输入到全连接层，在卷积神经网络中，全连接起到分类器的作用，卷积神经网络中可以有多个全连接层，通过双重注意力VLAD网络模型中的最后一个全连接层输出的结果，从而得到待识别图像的识别结果。

本申请实施例中将传统的VLAD改进为神经网络中的结构层，使其能够后向传播，更新权重，调整训练参数；通过将低质量聚类中心权重舍弃，从而使得低质量聚类中心权重在构建聚合特征时不再参与贡献权重，相当于网络模型丢弃了一部分低质量信息，使得网络输出的图像特征更具有鉴别性，有助于提高图像识别率；本申请实施例的基于双重注意力的图像识别方法，可以对提取的特征图中高质量的图像特征进行强化，对低质量的图像特征进行舍得，从而增强网络模型对图像的识别能力；本申请实施例中提出的空间注意力VLAD层和通道注意力VLAD层，由于具有局部聚类描述信息的功能，计算量少的特点，可以嵌入到任意的卷积神经网络模型中，并且可以通过反向传播进行训练、学习，解决了传统方法手工提取特征的局限性；同时，在通道维度上和空间维度上强化图像信息，降低低质量图像信息的干扰，使得网络模型可以在较少的能耗下提取目标关键位置信息，具有较好的映射能力；并通过提取图像全局特征，对注意力特征进行约束，提高识别准确率。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以通过一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：Random Access Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种基于双重注意力的图像识别方法，其特征在于，包括：

将待识别图像输入到所述双重注意力VLAD网络模型中，使得所述双重注意力VLAD网络模型中的卷积层输出第一特征图，所述空间注意力VLAD层对所述第一特征图处理输出第一VLAD特征向量，所述通道注意力VLAD层对所述第一特征图处理输出第二VLAD特征向量，所述全连接层对所述第一VLAD特征向量和所述第二VLAD特征向量融合后的融合特征向量进行处理，输出所述待识别图像的识别结果；

所述空间注意力VLAD层对所述第一特征图处理输出第一VLAD特征向量的具体步骤为：

所述空间注意力VLAD层基于所述第一中间特征图、所述第一聚类中心权重和第一VLAD聚类中心构建聚合特征，得到所述第一VLAD特征向量，所述第一VLAD聚类中心基于所述第一中间特征图通过kmeans聚类方法得到；

将获取的训练图像输入到所述双重注意力VLAD网络模型，对所述双重注意力VLAD网络模型进行训练，之前还包括：

对获取的测试图像进行特征提取，输出第一全局特征向量；

2.根据权利要求1所述的基于双重注意力的图像识别方法，其特征在于，所述第一VLAD特征向量的计算公式为：

；

其中，为第j个通道维度上的第一中间特征图上的第i个值，/>为第k个第一VLAD聚类中心上第j个通道维度上的值，/>为第k个第一VLAD聚类中心的第一聚类中心权重，N为特征向量的通道总数。

3.根据权利要求1所述的基于双重注意力的图像识别方法，其特征在于，所述通道注意力VLAD层对所述第一特征图处理输出第二VLAD特征向量，包括：

4.根据权利要求1所述的基于双重注意力的图像识别方法，其特征在于，所述将待识别图像输入到所述双重注意力VLAD网络模型中，使得所述双重注意力VLAD网络模型中的卷积层输出第一特征图，之前还包括：

5.根据权利要求1所述的基于双重注意力的图像识别方法，其特征在于，所述将所述第一全局特征向量输入到预置SVM分类器中，得到若干个误差，之前还包括：

对所述训练图像进行特征提取，输出第二全局特征向量；

6.根据权利要求5所述的基于双重注意力的图像识别方法，其特征在于，所述对所述训练图像进行特征提取，输出第二全局特征向量，包括：

7.根据权利要求1所述的基于双重注意力的图像识别方法，其特征在于，所述误差的计算公式为：

；

其中，，/>为优化的参数，/>为第i个测试图像，/>为/>的第j个分量， />为误差，/>为/>的第/>个标签值。

8.根据权利要求7所述的基于双重注意力的图像识别方法，其特征在于，所述混合误差函数为：

；

其中，为标签值，/>为预测值，/>为学习因子，M为训练图像的数量，/>为误差。