CN112052877A

CN112052877A - 一种基于级联增强网络的图片细粒度分类方法

Info

Publication number: CN112052877A
Application number: CN202010782565.5A
Authority: CN
Inventors: 吕岱霖; 戚武滕; 王亚奇; 王琳艳; 章一帆; 孙玲玲
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-08-06
Filing date: 2020-08-06
Publication date: 2020-12-08
Anticipated expiration: 2040-08-06
Also published as: CN112052877B

Abstract

本发明公开了一种基于级联增强网络的图片细粒度分类方法。主要包括构建级联了SEME‑ResNet50和SEME‑DenseNet169的Cascade‑SEMEnet网络结构、用自适应的直方图均衡化方法对原始数据进行预处理、在网络中添加MoEx、SE、和GAP模块来增强图像特征、改变网络对各通道的满意度以及使网络获得更大的感受野。然后利用了区域学习的训练方法，来减轻非目标特征对网络训练造成的影响。评估结果证明该方法也能够有效的修正非目标特征对网络造成的影响。最后使用Grad‑CAM可视化了网络的判断依据，定位出可能的目标特征区域，来验证网络有效性的。本发明能够避免神经网络在训练过程中学习错误的信息，加强神经网络分类的有效性。

Description

一种基于级联增强网络的图片细粒度分类方法

技术领域

本发明涉及深度学习、计算机视觉领域，是利用深度学习技术对图片特征区域进行检测和细粒度分类的技术。

背景技术

2010年以后，借助于深度学习的力量，计算机视觉技术得到了爆发增长和产业化。通过深度神经网络，各类视觉相关任务的识别精度都得到了大幅提升。在全球最权威的计算机视觉竞赛ILSVR(ImageNet Large Scale Visual Recognition Competition)上，千类物体识别Top-5错误率在2010年和2011年时分别为28.2％和25.8％，从2012年引入深度学习之后，后续4年分别为16.4％、11.7％、6.7％、3.7％，出现了显著突破。

计算机视觉技术的应用场景也快速扩展，除了在比较成熟的安防领域应用外，也有应用在金融领域的人脸识别身份验证、电商领域的商品拍照搜索、医疗领域的智能影像诊断、机器人/无人车上作为视觉输入系统等，包括许多有意思的场景：照片自动分类(图像识别+分类)、图像描述生成(图像识别+理解)等等。

计算机视觉是指利用计算机来模拟人的视觉，是人工智能中的“看”。从技术流程上来说，分为目标检测、目标识别、行为识别三个部分。根据识别的目标种类可以分为图像识别、物体识别、人脸识别、文字识别等。在智能机器人领域，计算机视觉可以对静态图片或动态视频中的物体进行特征提取、识别和分析，从而为后续的动作和行为提供关键的信息。

现有的图像分类网络通常采取多个卷积块串联的方法，通过残差学习增加网络的深度。但是由于卷积块不同的输出通道提取到的信息并不相同，网络很可能会混合过多的非目标的特征信息，以及，传统的数据增强方法只能单一的增强图像，起到的效果很局限。此外，传统的训练方式会受到非目标特征的干扰，造成较大的负面影响，这些问题都会使分类的结果准确度偏低。

发明内容

针对现有技术的不足，本发明提出了一种基于级联增强网络的图片细粒度分类方法，通过在网络中加入SE注意力结构和MoEx模块，使网络着重分析目标的重要特征，并引入区域学习的训练方法，消除训练过程中非目标特征造成的负面影响，提高分类准确度。

一种基于级联增强网络的图片细粒度分类方法，具体包括以下步骤：

步骤1、构建网络级联结构。

构建级联了子网络SEME-ResNet50和SEME-DenseNet169的Cascade-SEMEnet网络结构。

步骤2、处理与增强数据。

2.1、为解决因拍摄环境影响导致的图片中存在的一些噪声与不清晰的轮廓区域，对待训练的数据进行预处理，让图像中不同物体的分界线更清晰，并且减少数据的噪声对神经网络的影响。

2.2、利用MoEx结构提高网络的特征提取能力。MoEx结构存在于两个子网络的第一层卷积层，混合了一个实例的标准化特征与另一个实例的特征矩阵，在子网络推理过程中对图像特征进行增强。归一化函数为F，

为l层第i个输入x_i的特征，

经过归一化函数处理后，得到三个输出值：标准化特征

一阶矩μi，二阶矩σ_i：

向网络输入两个不同种类的样本x_A、x_B,归一化函数将l层的输入x_A的特征分解成三部分，即将

μ_A、σ_A，同样将x_B分成

μ_B、σ_B。MoEx结构将样本x_B的特征混合到样本x_A的特征中：

为样本x_A混合了样本x_B的特征之后的特征图。

为了激励神经网络关注样本x_B，MoEx结构修改损失函数来预测类标签y_A和y_B，设混合常数λ∈[0,1]。损失函数Loss(λ)为:

CE为交叉熵函数。

步骤3、提升网络结构。

3.1、在两个子网络的所有融合层之间添加Squeeze-Excitation(SE)结构，包括Squeeze和Excitation两个操作。首先在Squeeze操作中采用全局平均池化将一个通道上的空间特征编码为一个全局特征。Excitation操作为在Squeeze之后连接两个全连接层，然后采用ReLU激活第二个全连接层以恢复原始的维度，降低模型复杂度以及提升泛化能力。最后把SE模块的输出向量与输入的特征图向量相乘，改变网络对不同通道的注意程度。

3.2、在网络卷积层的最后一层加入GAP层，使输入图像的细节变得更加丰富、子网络拥有更大的感受野。

步骤4、利用改进后的SEME-ResNet50网络对图片进行初步分类，筛选出某一大类的图片。再利用改进后的SEME-DenseNet169网络对这一大类图片进行细粒度分类，以分类出小类图片。

步骤5、区域学习

使用预先分割好的、只含有目标区域的图像(Target Region，TR)和原图像叠加在一个批次中，来引导网络学习到正确的信息。设TR为X_T,原图像为X_O,这两个图像叠加输入网络后，网络输出为(O_T,O_O)＝F(X_T,X_O)，其中其中O_T,O_O分别是X_T，X_O的输出，则损失值可以表示为：Loss＝L_T+L_O＝CE(O_T,Label)+CE(O_O,Label)，其中L_T，L_O为O_T,O_O的损失值，Label为真实标签。

设输出图像O的形状为(N,C)，N为样本数，对于每个样本，都有C个类别。设类别i的输出数值为Ci，若Ci>0.5，则Ci＝1，否则Ci＝0，这样O就变为了一个由0、1组成的，大小为(N,C)的矩阵。规定O_T,O_O的差异D＝SUM(O_T＝＝O_O)/N*C。

(1)当训练过程中，SEME-DenseNet169网络的判断依据为X_T中的特征时，由于注意内容相同，D>0.7，由于Label相同，参数的反向梯度正常更新。

(2)当训练过程中，SEME-DenseNet169网络的判断依据为X_T之外的特征，且X_O分类错误时，Loss会因同时受到L_T和L_O的影响正常更新。

(3)当训练过程中，SEME-DenseNet169网络的判断依据为X_T之外的特征，且X_O分类正确时，D＜＜0.7，此时网络在反向梯度更新参数时，会更加注重提取X_T和X_O共有的区域的特征。

步骤6、使用Grad-CAM可视化输出结果。

Grad-CAM使用全局平均池化层来替代全连接层；在经过卷积神经网络后，将最后一层卷积层的输出进行全局平均池化，得到一个向量长度与特征图数量一致的向量。这个向量与3多个分类结果中正确的一类之间有着W1,W2,…,Wn的权重，这些权重代表着不同特征图的加权系数，通过计算流入CNN最后一层卷积层的梯度信息获得。最后将这些特征图按照加权系数相加，得到一个与特征图大小一致的热力图。然后采用插值的方法进行上采样，得到一个与原图一样大小的热力图。

作为优选，所述数据预处理的方式为限制对比度的直方图均衡化。

本发明具有以下有益效果：

1)级联一个对图像进行粗分类的SEME-ResNet50与一个用于细粒度分类的DenseNet169后组成Cascade-SEMEnet，用于对某一小类图片进行分类，使图片细粒度分类的准确率明显提升。

2)通过一种区域学习的方法，避免了神经网络训练过程中学习到错误的信息，加强了神经网络分类的有效性。

3)引入Grad-CAM可视化方法，用来逆推出网络在原图上的热力图，可视化神经网络的分类依据，帮助使用者更好的理解目标图片。

附图说明

图1为本发明的神经网络结构图；

图2为本发明直方图均衡化效果对比图；

图3为本发明MoEx结构示意图；

图4为本发明SE模块结构示意图；4(a)为Squeeze&Excitation结构图，4(b)为SE-ResNet块结构，4(c)为SE-DenseNet块结构；

图5为本发明GAP结构示意图；5(a)为GAP原理图，5(b)为增加GAP结构前网络的感受野区域，5(c)为增加GAP结构后的网络感受野区域；

图6为区域学习方法结构示意图；

图7(a)为CAM结构原理图，7(b)为CAM生成热力图的算法；

图8为Grad-CAM可视化效果图，8(a)、8(c)为原始图像，8(b)、8(d)为对应的热力图；

具体实施方式

下面结合附图和具体实施例对本发明作进一步的说明。

本实施例使用公共数据集Labeled Optical Coherence Tomography(OCT)andChest X-Ray Images for Classification中的胸片影像训练并细粒度分类出COVID-19患者胸片与提取病变信息。

本实施例的硬件环境是：CPU Intel(R)Xeon(R)CPU E5-2630 v4@2.20GHz，GPU是NVIDIA K80,运行环境是python3.6和pytorch0.4.1。

包括以下步骤：

步骤1、构建网络级联结构。

如图1所示，构建级联了两个子网络SEME-ResNet50、SEME-DenseNet169的Cascade-SEMEnet网络级联结构。

步骤2、数据预处理

利用限制对比度的直方图均衡化(CLAHE)对待训练数据进行预处理，以解决因拍摄环境影响导致的图片中存在的一些噪声与不清晰的轮廓区域，减少数据的噪声对神经网络的影响。如图2所示，数据经过预处理后，骨骼与骨骼、骨骼与器官组织的分界线变得更加分明，细节纹理也清晰可见。

步骤3、构建MoEx结构

如图3所示，在两个子网络的第一层卷积层中加入MoEx结构，用于混合一个实例的标准化特征与另一个实例的特征矩阵，在子网络推理过程中对图像特征进行增强。归一化函数为F，

为l层第i个输入x_i的特征，

经过归一化函数处理后，得到三个输出值：标准化特征

一阶矩μi，二阶矩σ_i：

向网络输入两个不同种类的样本x_A、x_B,F将l层的输入x_A的特征分解成三部分，即将

μ_A、σ_A，同样将x_B分成

μ_B、σ_B。MoEx结构将样本x_B的特征混合到样本x_A的特征中：

为样本x_A混合了样本x_B的特征之后的特征图。

CE为交叉熵函数。

步骤4、构建SE模块

如图4(a)所示，SE模块主要包括Squeeze和Excitation两个操作。在网络的每个融合层之后都加入SE模块，如图4(b)、(c)所示。首先在Squeeze操作中采用全局平均池化将一个通道上的空间特征编码为一个全局特征。Excitation操作为在Squeeze之后连接两个全连接层，然后采用ReLU激活第二个全连接层以恢复原始的维度，降低模型复杂度以及提升泛化能力。最后把SE模块的输出向量与输入的特征图向量相乘，改变网络对不同通道的注意程度。

步骤5、加入GAP结构

如图5所示，在网络的最后一层加入GAP结构。图片特征经过GAP结构之后，每个通道的尺寸都会变为1*1，使得classifier level的输入尺寸大幅减小，其参数数量也会保持稳定。同时，网络新形成的感受野大小也会随着输入图片尺寸的提升而提升。

步骤6、网络训练

如图6所示，使用U-net网络分割出肺部区域作为只含有目标区域的图像TR，与原图像叠加后输入网络进行训练。若网络在训练过程中使用肺部区域以外的非病变特征进行分类，仅仅保留肺部区域的图像必然会使网络产生一个错误的决策，增大loss，从而引导网络的注意力转变到肺部的病变特征区域。

步骤7、输出结果

利用改进后的SEME-ResNet50诊断出病毒性肺炎患者。接着利用改进后的SEME-DenseNet169进行病毒性肺炎细粒度分类，诊断出COVID-19患者。如图7、8所示，在胸片诊断中，Grad-CAM结构使网络在给出分类结果的同时给出分类的依据，让分类结果具有更高的可信度，在一定程度上可以帮助医生更好得理解胸片。

实验表明，本实施例的准确度接近94％，超过了此前Hu,M.等人的最好结果。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员，在不脱离本发明构思的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明保护范围内。

Claims

1.一种基于级联增强网络的图片细粒度分类方法，其特征在于：该方法具体包括以下步骤：

步骤1、构建网络级联结构；

构建级联了子网络SEME-ResNet50和SEME-DenseNet169的Cascade-SEMEnet网络结构；

步骤2、处理与增强数据；

2.1、对待训练的数据进行预处理，让图像中不同物体的分界线更清晰，并且减少数据的噪声对神经网络的影响；

2.2、利用MoEx结构提高网络的特征提取能力；MoEx结构存在于两个子网络的第一层卷积层，混合了一个实例的标准化特征与另一个实例的特征矩阵，在子网络推理过程中对图像特征进行增强；归一化函数为F，

为l层第i个输入x_i的特征，

经过归一化函数处理后，得到三个输出值：标准化特征

一阶矩μi，二阶矩σ_i：

μ_A、σ_A，同样将x_B分成

μ_B、σ_B；MoEx结构将样本x_B的特征混合到样本x_A的特征中：

为样本x_A混合了样本x_B的特征之后的特征图；

为了激励神经网络关注样本x_B，MoEx结构修改损失函数来预测类标签y_A和y_B，设混合常数λ∈[0,1]；损失函数Loss(λ)为:

CE为交叉熵函数；

步骤3、提升网络结构；

3.1、在两个子网络的所有融合层之间添加Squeeze-Excitation即SE结构，包括Squeeze和Excitation两个操作；把SE模块的输出向量与输入的特征图向量相乘，改变网络对不同通道的注意程度；

3.2、在网络卷积层的最后一层加入GAP层，使输入图像的细节变得更加丰富、子网络拥有更大的感受野；

步骤4、图片分类

利用改进后的SEME-ResNet50网络对图片进行初步分类，筛选出某一大类的图片；再利用改进后的SEME-DenseNet169网络对这一大类图片进行细粒度分类，以分类出小类图片；

步骤5、区域学习

使用预先分割好的、只含有目标区域的图像即Target Region，TR和原图像叠加在一个批次中，来引导网络学习到正确的信息；设TR为X_T,原图像为X_O,这两个图像叠加输入网络后，网络输出为(O_T,O_O)＝F(X_T,X_O)，其中其中O_T,O_O分别是X_T，X_O的输出，则损失值可以表示为：Loss＝L_T+L_O＝CE(O_T,Label)+CE(O_O,Label)，其中L_T，L_O为O_T,O_O的损失值，Label为真实标签；

设输出图像O的形状为(N,C)，N为样本数，对于每个样本，都有C个类别；设类别i的输出数值为Ci，若Ci>0.5，则Ci＝1，否则Ci＝0，这样O就变为了一个由0、1组成的，大小为(N,C)的矩阵；规定O_T,O_O的差异D＝SUM(O_T＝＝O_O)/N*C；

(1)当训练过程中，SEME-DenseNet169网络的判断依据为X_T中的特征时，由于注意内容相同，D>0.7，由于Label相同，参数的反向梯度正常更新；

(2)当训练过程中，SEME-DenseNet169网络的判断依据为X_T之外的特征，且X_O分类错误时，Loss会因同时受到L_T和L_O的影响正常更新；

(3)当训练过程中，SEME-DenseNet169网络的判断依据为X_T之外的特征，且X_O分类正确时，D＜＜0.7，此时网络在反向梯度更新参数时，会更加注重提取X_T和X_O共有的区域的特征；

步骤6、可视化输出结果

通过Grad-CAM得到特征图的加权系数；将这些特征图按照加权系数相加，得到一个与特征图大小一致的热力图；然后采用插值的方法进行上采样，得到一个与原图一样大小的热力图。

2.如权利要求1所述一种基于级联增强网络的图片细粒度分类方法，其特征在于：所述数据预处理的方法为限制对比度的直方图均衡化。

3.如权利要求1所述一种基于级联增强网络的图片细粒度分类方法，其特征在于：所述Squeeze操作为采用全局平均池化将一个通道上的空间特征编码为一个全局特征；Excitation操作为在Squeeze之后连接两个全连接层，然后采用ReLU激活第二个全连接层以恢复原始的维度，降低模型复杂度以及提升泛化能力。

4.如权利要求1所述一种基于级联增强网络的图片细粒度分类方法，其特征在于：所述Grad-CAM使用全局平均池化层来替代全连接层；在经过卷积神经网络后，将最后一层卷积层的输出进行全局平均池化，得到一个向量长度与特征图数量一致的向量；这个向量与多个分类结果中正确的一类之间有着W1,W2,…,Wn的权重，这些权重代表着不同特征图的加权系数，通过计算流入CNN最后一层卷积层的梯度信息获得。