CN111126453A

CN111126453A - 基于注意力机制和切割填充的细粒度图像分类方法及系统

Info

Publication number: CN111126453A
Application number: CN201911232112.9A
Authority: CN
Inventors: 李鸿健; 曾祥燕; 程卓; 段小林; 何明轩; 罗浩
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Shenzhen Hongyue Enterprise Management Consulting Co ltd
Priority date: 2019-12-05
Filing date: 2019-12-05
Publication date: 2020-05-08
Anticipated expiration: 2039-12-05
Also published as: CN111126453B

Abstract

本发明涉及深度学习领域和图像分类领域，具体为一种基于注意力机制和切割填充的细粒度图像分类方法，该方法包括：构建卷积神经网络模型；将原始图像输入卷积神经网络模型，结合注意力机制得到关注图像；将关注图像进行切割，得到子图像，对子图像进行填充，并进行下采样得到填充图像；将关注图像和填充图像输入卷积神经网络模型，并分别通过线性层和softmax分类器，得到对应类别的概率值；选取最大概率值，根据最大值判断分类结果；根据结果在原始图像上标记分类标签；本发明对原图像的关注图像进行分割，再进行填充处理，破坏了各部分之间的相关性，使网络更加关注局部特征，确保高层语义不会被破坏，极大地减少了参数的使用和训练时间。

Description

基于注意力机制和切割填充的细粒度图像分类方法及系统

技术领域

本发明涉及深度学习领域和图像分类领域，具体涉及一种基于注意力机制和切割填充的细粒度图像分类方法及系统。

背景技术

细粒度的图像分类是计算机视觉领域的重要任务，这项任务非常具有挑战性。细粒度的图像分类不同于通用的目标识别，由于粗略地观察细粒度的物体(如鸟类，汽车模型和飞机等)在视觉上是相似的，所以细粒度的图像分类非常依赖于物体的局部特征。通用的分类方法也同样适用于细粒度图像分类，因此如何更好的学习局部特征是细粒度图像分类的关键。

近几年来注意力机制在细粒度图像分类网络中被大量使用，例如循环注意力卷积神经网络(RACNN)和在对象关注模型(OPAM)中使用类激活映(CAM)等方法的出现。对于细粒度图像分类问题中，另一个需要注意的是要关注图像更高层的语义信息以及对目标局部特征的关注。因此zhou提出了破坏和构建学习(DCL)的方法，将目标切割成多个小目标，打乱空间结构进行训练。这种对图像进行分类的方法能破坏对象各部分之间的相关性，从而使网络更加关注局部特征。

但是这种方法破坏了对象的空间结构，使高层的语义信息造成一定的破坏，同时类激活映射的使用需要训练类别权重来获取额外的关注部分来抑制其他类别，造成了图像在进行分类过程中存在误差。

发明内容

为解决以上现有技术的问题，本发明设计了一种基于注意力机制和切割填充的细粒度图像分类方法，该方法的技术方案如下：

S1：构建卷积神经网络模型；

S2：将原始图像输入到卷积神经网络模型中，并结合改进的注意力机制得到关注图像；

S3：将关注图像进行切割，得到关注图像的子图像；再对子图像进行填充处理，得到填充子图像，将填充子图像进行拼接，得到填充图像；

S4：将关注图像和填充图像输入到卷积神经网络模型中，并分别通过线性层和softmax分类器，得到对应类别的概率值；

S5：选取最大概率值，根据最大概率值判断细粒度图像的分类结果；

S6：根据分类的结果在输入的原始图像上标记分类标签。

优选的，基于改进的注意力机制得到关注图的步骤包括：

S21：将原始图像输入卷积神经网络，并在最后一层卷积层的特征图按通道求和得到M(x,y)；

S22：对M(x,y)使用双线性插值上采样方法，得到与原始图像大小相同的显著图S(x,y)；

S23：设置一个α超参数，并根据显著图的最大值计算阈值θ；

S24：根据得到的阈值θ对显著图S(x,y)进行选取，得到掩码矩阵Mask(i,j)，并把掩码矩阵映射到原图像，得到关注部分；

S25：对关注部分进行双线性插值上采样方法，得到与原始图像大小相同的关注图像。

优选的，填充图像的获取包括：

S31：将关注图像切割成N*N个子图像I_sub；

S32：对每一个子图像进行0填充，得到填充后的子图像IP_n；

S33：根据原始图像空间位置将0填充后的子图像拼接成新图像；

S34：对新图像进行下采样，得到与原始图像大小相同的填充图像。

一种基于注意力机制和切割填充的细粒度图像分类分类系统，所述系统包括图像输入端、图像分类模块以及分类结果输出模块；

图像输入端用于将原始图像发送给图像分类模块；

所述图像分类模块用于对原始图像进行分类处理，其中图像分类模块包括：卷积神经网络模块、关注图获取模块、图像分割模块、图像0填充模块、子图像融合模块、图像分类判断模块；

所述卷积神经网络模块用于处理图像输入端发送的原始图像，并在最后一层卷积层的特征图按通道求和得到M(x,y)，将得到的M(x,y)发送给关注图获取模块；卷积神经网络模块还会处理关注图获取模块发送的关注图像和子图像融合模块发送的填充图像；处理过程包括：关注图像和填充图像输入到卷积层中，经过每一卷积层进行卷积计算，得到特征图，并将特征图发送给图像分类判断模块；

所述关注图获取模块用于处理最后一层卷积层求和的结果M(x,y)得到关注图像，获取关注图像的过程包括：将得到的M(x,y)进行双线性插值上采样，得到与原始图像大小相同的显著图S(x,y)，根据显著图S(x,y)确定阈值θ，根据阈值θ对显著图进行选取，并映射原图像得到关注部分，并将关注部分进行双线性插值上采样，得到关注图像，将关注图像发送给卷积神经网络模块和图像分割模块；

所述图像分割模块用于将关注图像分割成N*N个子图像I_sub，并将分割好的子图像发送给图像0填充模块；

所述图像0填充模块用于对每个子图像进行0填充，得到填充后的子图像集合是I_pad{IP_n|0≤n<N²}；

所述子图像融合模块用于对0填充处理的子图像进行组合拼接，得到新图像，并对新图像进行下采样，得到与原始图像大小相同的填充图像，并将填充图像发送给卷积神经网络模块；

所述图像分类判断模块包括将特征图分别通过线性层和softmax分类器，得到对应类别的概率值；将得到的概率值选取最大值，根据最大值判断细粒度图像的分类结果；将分类结果发送给分类结果输出模块；

所述分类结果输出模块用于输出原始图像的分类信息，根据分类的结果在输入的原始图像上标记分类标签。

本发明采用卷积神经网络对图像进行处理，不需要对目标的各部分打乱进行训练，极大地减少了参数的使用和训练时间；本发明通过改进注意力机制，即在对现在图进行映射时减少权重的使用，降低了计算的步骤和时间；本发明对关注图像进行了分割处理，并将分割后的子图像进行了0填充处理，破坏了目标各部分之间的相关性，从而使网络更加关注局部特征，确保高层语义不会被破坏。

附图说明

图1为本发明的方法流程图；

图2为本发明的具体方法流程示意图；

图3为本发明的方法训练结构图；

图4为本发明的方法的预测结构图；

图5为本发明的系统模块图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

一种基于注意力机制和切割填充的细粒度图像分类方法，如图1所示，所述方法步骤包括：

S1：构建卷积神经网络模型；

S6：根据分类的结果在输入的原始图像上标记分类标签；

其中，softmax表示归一化指数函数。

在对图像的细粒度识别时，由于一幅图像只包含一个类别的对象，因此不必抑制其他类别的位置，基于这个原理，本发明改进了注意力机制，即在采用注意力机制进行计算时不使用权重，根据最后一层卷积层的特征图求和得到关注部分，降低了计算过程，在单类别的图像中提高了定位准确率。

基于改进的注意力机制得到关注图的步骤包括：

S21：将原始图像输入卷积神经网络模型，并在最后一层卷积层的特征图按通道求和得到M(x,y)；

S23：设置一个α超参数，并根据显著图的最大值计算阈值θ；

其中，M(x,y)是最后一层卷积层的特征图按通道求和的二维矩阵，x表示二维矩阵的行，y表示二维矩阵的列；Mask(i,j)表示掩码矩阵，i表示掩码矩阵的行坐标，j表示掩码矩阵的列坐标。

所述得到填充图像的方法步骤包括：

S31：将关注图像切割成N*N个子图像；

S32：对每一个子图像进行0填充，得到填充后的子图像IP_n，填充后的子图像集合为I_pad{IP_n|0≤n<N²}；

S34：对新图像进行下采样，得到与原始图像大小相同的填充图像；

其中，IP_n表示第n个对子图像进行填充后的图像，n表示关注图像的子图像编号，N为一个常数，I_pad{·}表示填充后子图像的集合。

对关注图像进行分割和0填充，破坏了每一个小区域之间的关联性，在卷积网络训练的时候，更好的学习局部区域的特征，并让卷积神经网络模型更好的识别局部区域特征。

本发明的另一实施例，如图2所示，在该实施例中，输入待训练的图像到模型中，最后一层卷积层的特征图按通道求和，然后上采样得到显著图；根据注意力机制得到关注图像，将关注图像切割成N*N个子图像，并对每一个子图像进行大小为P的0填充得到填充图像；在获取关注图像和填充图像时，不需要训练。将得到的关注图像与填充图像一起输入到卷积神经网络模型中，计算损失函数，直至损失函数收敛，则训练好卷积神经网络模型，否则使用梯度下降算法更新各个参数继续输入到卷积神经网络模型中进行训练；当卷积神经网络模型训练好后，输入待测图像，依照待训练图像相同的方法获得关注图像，再将关注图像输入到训练好的模型中，并依次经过线性层、softmax分类器，根据分类器结果中的最大概率值得出最终分类结果。

其中，损失函数可采用交叉熵损失函数、铰链损失函数、指数损失函数等等。

如图3所示，将待训练图像输入卷积网络中，将最后一层卷积层的特征图按通道求和得到M(x,y)，并将M(x,y)上采样到原图像相同大小得到显著图S(x,y)；最后一层卷积层的特征图按通道求和公式为：

得到显著图的公式为：

S(x,y)＝g(M(x,y))

其中Z表示特征图的数量，F_z(x,y)表示第z张特征图，M(x,y)是最后一层卷积层的特征图按通道求和的值，g(·)是对M(x,y)采用双线性插值法，S(x,y)表示为显著图，x表示二维矩阵的行，y表示二维矩阵的列。

设置一个α超参数，根据显著图的最大值来求阈值θ，阈值θ的公式如为：

θ＝(1-α)·max(S(x,y))

其中，α表示注意率的超参数，max(S(x,y))表示显著图S(x,y)上的最大值。

利用求得的阈值θ对显著图S(x,y)进行选取，得到得到掩码矩阵Mask(i,j)，并把掩码矩阵映射到原图像，得到关注部分，并对其使用双线性插值上采样方法，得到与输入图像相同大小的关注图像；所述矩阵掩码的求取公式为：

将关注图像切割成N*N个子图像，关注图像切割公式为：

I_sub{IS_n|0≤n<N²}＝f_c(ψ(I),N)

其中，i表示掩码矩阵的行坐标，j表示掩码矩阵的列坐标，ψ(I)表示关注部分上采样后的关注图像，N为一个常数，f_c(·)表示一种切割方法，即对图像ψ(I)切割成N*N的子图像，I_sub表示为切割后子图像的集合，其中IS_n表示为第n个子图像。

对I_sub的每一个子图像进行大小为P的0填充，然后将填充后的图像根据原始空间位置拼接，并下采样到原图像相同大小；对子图像进行0填充的公式为：

IP_n＝f_p(IS_n,P)

图像拼接的公式为：

其中，f_p(·)表示为对子图像IS_n进行大小为P的0填充，I_pad{IP_n|0≤n<N²}表示为填充后子图像集合，IP_n表示第n个对子图像进行填充后的图像，f_s(·)表示为将所有填充后的子图像拼接成与原图像相同大小的新图像，取名为填充图像。

填充的大小P根据不同的神经卷积网络和数据集会得到不同的值。

根据上面得到的关注图像和填充图像一起输入到卷积神经网络中进行训练，计算损失函数，直至损失函数收敛，则训练好模型，否则使用梯度下降算法更新各个参数继续输入到模型中进行训练。

如图4所示，为本发明的预测过程，将待预测图像输入到卷积网络中，使用类似训练过程注意力机制的方法，得到关注图像，将关注图像输入到训练好的模型中，根据softmax分类器的输出最大概率值，判别出该预测图像所属种类。

一种基于注意力机制和切割填充的细粒度图像分类系统，如图5所示，所述系统包括图像输入端、图像分类模块以及分类结果输出模块；

图像输入端用于将原始图像发送给图像分类模块；

所述关注图获取模块用于处理最后一层卷积层求和的结果M(x,y)得到关注图像，获取关注图像的过程包括：将得到的M(x,y)进行双线性插值上采样，得到与原始图像大小相同的显著图S(x,y)，根据显著图S(x,y)确定阈值θ，根据阈值θ对显著图进行选取，得到关注部分，将关注部分进行双线性插值法上采样，得到关注图像，并将关注图像发送给卷积神经网络模块和图像分割模块；

所述分类结果输出模块用于输出原始图像的分类信息,根据分类的结果在输入的原始图像上标记分类标签。

系统的实施例可以参照方法的实施例。

以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于注意力机制和切割填充的细粒度图像分类方法，其特征在于，所述方法步骤包括：

S1：构建卷积神经网络模型；

S6：根据分类的结果在输入的原始图像上标记分类标签；

其中，softmax表示归一化指数函数。

2.根据权利要求1所述的一种基于注意力机制和切割填充的细粒度图像分类方法，其特征在于，基于改进的注意力机制得到关注图的步骤包括：

S21：将原始图像输入卷积神经网络模型，并在最后一层卷积层的特征图按通道求和得到M(x，y)；

S22：对M(x，y)使用双线性插值上采样方法，得到与原始图像大小相同的显著图S(x，y)；

S23：设置一个α超参数，并根据显著图的最大值计算阈值θ；

S24：根据得到的阈值θ对显著图S(x，y)进行选取，得到掩码矩阵Mask(i，j)，并把掩码矩阵映射到原始图像中，得到关注部分；

S25：对关注部分进行双线性插值上采样方法，得到与原始图像大小相同的关注图像；

其中，M(x，y)是最后一层卷积层的特征图按通道求和的二维矩阵，S(x，y)表示显著图，x表示二维矩阵的行，y表示二维矩阵的列；Mask(i，j)表示掩码矩阵，i表示掩码矩阵的行坐标，j表示掩码矩阵的列坐标。

3.根据权利要求2所述的一种基于注意力机制和切割填充的细粒度图像分类方法，其特征在于，最后一层卷积层的特征图求和公式为：

所述显著图公式为：

S(x，y)＝g(M(x，y))

所述阈值的设值公式为：

θ＝(1-α)·max(S(x，y))

所述掩码矩阵的求取公式为：

其中，Z表示特征图的数量，F_z(x，y)表示第z张特征图，g(·)是对M(x，y)采用双线性插值法，α表示注意率的超参数，max(S(x，y))表示显著图S(x，y)上的最大值。

4.根据权利要求1所述的一种基于注意力机制和切割填充的细粒度图像分类方法，其特征在于，所述填充图像的获取包括：

S31：将关注图像切割成N*N个子图像；

S32：对每一个子图像进行0填充，得到填充后的子图像IP_n；

其中，IP_n表示对第n个子图像进行填充后的图像，n表示关注图像的子图像编号，N为一个常数。

5.根据权利要求4所述的一种基于注意力机制和切割填充的细粒度图像分类方法，其特征在于，将关注图像分割为子图像的公式为：

I_sub{IS_n|0≤n＜N²}＝f_c(ψ(I)，N)

其中，ψ(I)表示关注部分上采样后得到的关注图像，f_c(·)表示一种切割方法，即对图像ψ(I)切割成N*N个子图像，I_sub表示为切割后子图像的集合，IS_n表示为第n个子图像，N²表示分割后子图像的个数。

6.根据权利要求4所述的一种基于注意力机制和切割填充的细粒度图像分类方法，其特征在于，获得填充图像的公式包括：

IP_n＝f_p(IS_n，P)IS_n∈I_sub

其中，f_p(·)表示为对子图像IS_n进行大小为P的0填充，I_sub表示为切割后子图像的集合，I_pad{IP_n|0≤n＜N²}表示为填充后子图像集合，f_s(·)表示为将所有填充后的子图像按照原空间位置拼接成与原图像相同大小的填充图像，ψ(I)表示关注部分上采样后得到的关注图像，

表示与原始图像大小相同的填充图，N²表示分割后子图像的个数。

7.一种基于注意力机制和切割填充的细粒度图像分类系统，其特征在于，所述系统包括图像输入端、图像分类模块以及分类结果输出模块；

图像输入端用于将原始图像发送给图像分类模块；

所述卷积神经网络模块用于处理图像输入端发送的原始图像，并在最后一层卷积层的特征图按通道求和得到M(x，y)，将得到的M(x，y)发送给关注图获取模块；卷积神经网络模块还会处理关注图获取模块发送的关注图像和子图像融合模块发送的填充图像；处理过程包括：关注图像和填充图像输入到卷积层中，经过每一卷积层进行卷积计算，得到特征图，并将特征图发送给图像分类判断模块；

所述关注图获取模块用于处理最后一层卷积层求和的结果M(x，y)得到关注图像，获取关注图像的过程包括：将得到的M(x，y)进行双线性插值上采样，得到与原始图像大小相同的显著图S(x，y)，根据显著图S(x，y)确定阈值θ，根据阈值θ对显著图进行选取，并映射原图像得到关注部分，将关注部分进行双线性插值上采样，得到关注图像，并将关注图像发送给卷积神经网络模块和图像分割模块；

所述图像分割模块用于将关注图像分割成N*N个子图像，并将分割好的子图像发送给图像0填充模块；

所述图像0填充模块用于对每个子图像进行0填充，得到填充后的子图像集合是I_pad{IP_n|0≤n＜N²}；

所述分类结果输出模块用于输出原始图像的分类信息，根据分类的结果在输入的原始图像上标记分类标签；

其中，M(x，y)是最后一层卷积层的特征图按通道求和的二维矩阵，x表示二维矩阵的行，少表示二维矩阵的列；S(x，y)表示显著图，N表示为一个常数，I_pad表示填充后的子图像集合，pad表示子图像集合下标，IP_n表示对第n个子图像进行填充后的图像，n表示关注图像的子图像编号，softmax表示归一化指数函数。

8.根据权利要求7所述的一种基于注意力机制和切割填充的细粒度图像分类系统，其特征在于，所述图像分割模块中用于分割图像的公式为：

I_sub{IS_n|0≤n＜N²}＝f_c(ψ(I)，N)

9.根据权利要求7所述的一种基于注意力机制和切割填充的细粒度图像分类系统，其特征在于，所述图像0填充模块中进行图像0填充的公式包括：

IP_n＝f_p(IS_n，P)IS_n∈I_sub

其中，f_p(·)表示为对子图像IS_n进行大小为P的0填充，I_pad{IP_n|0≤n＜N²}表示为填充后子图像集合，f_s(·)表示为将所有填充后的子图像按照原空间位置拼接成与原图像相同大小的填充图像，I_sub表示为切割后子图像的集合，ψ(I)表示关注部分上采样后得到的关注图像，