CN111950525A

CN111950525A - 一种基于破坏重建学习与GoogLeNet的细粒度图像分类方法

Info

Publication number: CN111950525A
Application number: CN202010894444.XA
Authority: CN
Inventors: 黄捷; 高静; 王武; 柴琴琴; 蔡逢煌; 林琼斌; 张岳鑫; 张祯毅
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2020-11-17
Anticipated expiration: 2040-08-31
Also published as: CN111950525B

Abstract

本发明涉及一种基于破坏重建学习与GoogLeNet的Inception v4网络结构的细粒度图像分类方法，包括步骤：构建训练集，并对其中的图像进行预处理；对训练集中的每幅原始图像，将其划分为n*n个局部区域，再通过RCM处理得到对应原始图像的重组图像；分别构建由分类网络、判别网络以及区域对齐网络构成的重建破坏学习网络，并分别定义与分类网络、判别网络以及区域对齐网络对应的分类损失、对抗性损失以及区域对齐损失；以三个损失之和最小化为目标训练重建破坏学习网络；利用训练好的重建破坏学习网络中的分类网络对输入的图像进行分类。本发明在对细粒度图像的分类上取得了显著的效果。

Description

一种基于破坏重建学习与GoogLeNet的细粒度图像分类方法

技术领域

本发明涉及图像处理技术领域，特别是一种基于破坏重建学习与GoogLeNet的细粒度图像分类方法。

背景技术

相较于人脸识别等分类任务，视网膜图像的分类难度更大。主要的原因在于视网膜图像属于细粒度图像，即类别精度更加细致，类间差异更加细微。所以视网膜图像往往只能借助于微小的子区域的差异才能区分出其所属的类别。视网膜图像存在着遮挡、背景干扰等诸多不确定因素。因此，视网膜图像分类是一项具有挑战的研究任务。前人提取的模型有以下不足：第一，要正确的先验知识和大量的人力来设计模型视网膜与提取特征。第二，需要提取图像特征。第三，需要分析图像各种灰度信息、形状信息。第三，提取的特征不准确和图像存在噪声时，分层效果也并不鲁棒。

虽然传统机器学习算法在某些特定领域已给出不错的解决方案，但仍存在执行任务单一，处理过程复杂且模型能力有限等缺点。

发明内容

有鉴于此，本发明的目的是提出一种基于破坏重建学习与GoogLeNet的细粒度图像分类方法，在对细粒度图像的分类上取得了显著的效果。

本发明采用以下方案实现：一种基于破坏重建学习与GoogLeNet的细粒度图像分类方法，具体包括以下步骤：

构建训练集，并对其中的图像进行预处理；

对训练集中的每幅原始图像，将其划分为n*n个局部区域，再通过RCM处理得到对应原始图像的重组图像；

分别构建由分类网络、判别网络以及区域对齐网络构成的重建破坏学习网络，并分别定义与分类网络、判别网络以及区域对齐网络对应的分类损失、对抗性损失以及区域对齐损失；

以三个损失之和最小化为目标训练重建破坏学习网络；

利用训练好的重建破坏学习网络中的分类网络对输入的图像进行分类。

较佳的，上述图像为细粒度图像，例如视网膜图像。

进一步地，对其中的图像进行预处理具体为：标准化训练集中的数据，并对其进行数据增扩操作，并对训练集中的图像进行标注，标注其是否属于重组图像以及图象的类别。

进一步地，所述分类网络采用GoogLeNet的inception v4的结构。

进一步地，所述分类网络对应的分类损失为：

式中，l∈{0,1}，当l＝1时表示分类网络预测的类别与图像的实际类别一致，当l＝0时表示分类网络预测的类别与图像的实际类别不一致；C(I)表示原始图像I经过分类网络的结果，C(φ(I))表示重组图像φ(I)经过分类网络的结果，Γ表示训练集。

进一步地，所述判别网络对应的对抗性损失为：

其中，

式中，d∈{0,1}²，当d＝1时表示图像没有被重组过，当d＝0时表示图像被重组过；θ_adv表示判别网络中的可学习参数，

表示将图像i输入到分类网络后第m层的输出特征向量的提取特征，

是分类网络的从第1层到第m层的可学习参数。

进一步地，所述区域对齐网络对应的区域对齐损失为：

其中，

式中，N表示区域的边界坐标值，[i，j]表示区域的位置，M(p)_δ(i,j)表示将图像p输入区域对齐网络后得到的位置[i，j]的预测位置坐标，h(*)表示区域对齐网络，θ_loc表示区域对齐网络的可学习参数，

表示将图像p输入到分类网络后第n个卷积层的输出特征图。

进一步地，所述以三个损失之和最小化为目标表示为：

L＝αL_cls+βL_adv+γL_loc；

式中，α、β、γ分别为分类损失L_cls、对抗性损失L_adv、区域对齐损失L_loc对应的权重系数。

与现有技术相比，本发明有以下有益效果：本发明把经过一些简单的预处理的图像，通过破坏与重建学习，提取出分类的重要信息，理想地解决了细粒度图像的类间差别小的特点。该方法不需要对视网膜图像做很多的图像特征人为提取，了解图像的特点等工作，易于掌握实用性强。但是，其算法相较于GoogLeNet的分类参数没有很明显的增加，优化效果非常显著，具有普遍的适用性和优良的移植性。

附图说明

图1为本发明实施例的方法流程示意图。

图2为本发明实施例的分类网络结构示意图。

图3为本发明实施例的RCM原理示意图。

图4为本发明实施例的重构破坏学习网络示意图。

具体实施方式

下面结合附图及实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

如图1、图4所示，本实施例提供了一种基于破坏重建学习与GoogLeNet的细粒度图像分类方法，以视网膜图像的分类精度为设计对象。由于视网膜图像的类间差异细微这种特点，对视网膜的分类往往只能借助于微小的局部差异，所以不能直接用传统的深度学习算法从图像整体进行分类。并且视网膜图像之间存在着姿态、光照、遮挡等诸多不确定因素等特点，因此本实施例的方法具体包括以下步骤：

构建训练集，并对其中的图像进行预处理；

以三个损失之和最小化为目标训练重建破坏学习网络；

较佳的，上述图像为细粒度图像，例如视网膜图像。

在本实施例中，对其中的图像进行预处理具体为：标准化训练集中的数据，并对其进行数据增扩操作，并对训练集中的图像进行标注，标注其是否属于重组图像以及图象的类别。

具体的，本实施例采用初始数据归一化的算法将对任何尺度缩放和坐标原点的选择不变，预先清除了坐标变换的影响，将图像转换为标准形式，减小几何变换的影响，加快数据收敛。数据增扩通过随机拉伸、旋转等方式，产生一定数量的相似的图像，则可以对于那些样本比较少的图像向样本多的图像补齐。数据统一成为一定的大小512*512。之所以选择该尺寸是考虑到图像原始尺寸在3500×3000，如果原始输入尺寸过小会丢掉很多图像原始信息。

在本实施例中，所述对训练集中的每幅原始图像，将其划分为n*n个局部区域，再通过RCM处理得到对应原始图像的重组图像具体为：

先把输入的图像划分为n*n个局部区域，再通过RCM对其进行混洗。RCM是把n*n个局部区域在一定邻域之间进行交换，邻域的范围在以该局部区域为中心的边长为2k(k定义邻域范围的可调参数(1≤k＜N))的正方形内。该局部区域在行方向平移r服从r～U(-k,k)，那么，重新排序得到第j行区域的新排列

与j的关系可以表示为：

同时，在列方向的平移r服从r～U(-k,k)。重新排序得到第i行区域的新排列

与i的关系可以表示为：

其中，RCM的原理图如图3所示。

在本实施例中，所述分类网络采用GoogLeNet的inception v4的结构。GoogLeNet是为了增加网络的深度和宽度，从而提高CNN在更深的层次有更高的准确率。主要通过深度卷积网Inception从而提高CNN的性能。Inception v4结构去掉了作用微小的模块。Inception V4研究了Inception Module和Reduction Module的组合。Inception v4通过多次卷积和非线性变化，极大的提升了分类网络的准确度。通过把Inception模块和ResidualConnection模块结合，提高训练的收敛速度和精确度。如图2所示，展示了大尺寸的Inception v4网络结构。Stem使用了v3的并行结构、不对称卷积核结构、1*1的卷积核。Stem可以减小有用的信息损失，减小计算量，非线性。因为本发明系统提出的特征不会具有很大的厚度，采用GoogLeNet能够提升分类的预测准确度，同时减少参数量。

分类的对象是原始图像I和经过RCM的图像φ(I)。图像通过携带一个标签来判断他是否被破坏过与所属的类别，以便在分类的算法进行提取特征与分类判断。原图与经过RCM的图像φ(I)会分别接入GoogLeNet中。在GoogLeNet的第m层输出的特征向量提取特征

是分类网络的从第1层到第m层的可学习参数。

为后续的判别器提供评价标准。同时，在GoogLeNet中提取第n个卷积层的输出特征图

为后续区域对齐网络提供特征向量。在GoogLeNet会将输入图像映射到概率分布向量C(I,θ_cls)。其中，θ_cls是分类网络中的所有层的可学习参数。

在本实施例中，所述分类网络对应的分类损失为：

但是RCM不一定是完全有益的。破坏图像可能会引入一些噪声。从噪声中能够学习到的特征不是分类系统所需的。引入另一种对抗性损失L_adv，防止过拟合RCM引起的噪声模式进入特征空间。因此，以从分类网络中提取的特征作为判别标准，用判别器判断该图像是否被破坏过。系统是通过D(i)这个函数来判别图像是否被破坏过。对抗性损失把原始图像和重组后的图像作为2个域，以对抗损失和分类损失的方式工作。既要保持原始图像和被破坏的图像具有自己的独立性，又要使原始图像和被破坏的图像之间的特征提取出来相似。图像上的标签d∈{0,1}²，用来区分该图像有没有被破坏过，0则表示图像被破坏过，1则表示表示图像没有被破坏过。L_adv是利用区分原始图像和受损图图像的对抗性损失来抑制RCM引入的噪声模式。

在本实施例中，所述判别网络对应的对抗性损失为：

其中，

是分类网络的从第1层到第m层的可学习参数。

L_cls和L_adv共同促进“破坏”学习，使分类网络从局部区域学习到有益的特征。分类网络需要学习粗略的总体轮廓特征，但不能学习边缘型的噪声模式。因此，L_cls与L_adv增强了具有判别性的局部区域的特征提取，并且过滤掉了不相关的特征与破坏带来的噪声影响。

重构图像有助于分类系统对于图像的主要目标的定位，找到各个子区域的相关性，从而提高分类系统的准确度。使用区域对齐网络来对区域间的相关性进行计算，衡量图像中的不同区域的位置精度，提取出局部区域的相关性，从而更好地引导分类网络更加注重各个子区域的相关性，提高分类准确度。

将分类网络中的第n个卷积层的输出特征图

进行操作特征图经过1*1的卷积处理得到的只有两个通道的输出，再经过ReLU和平均池化，得到本层所需的2*N*N的特征图。区域对齐网络利用该二通道特征图求得预测行坐标与列坐标。M(p)每个空间位置点有两个值分别预测区域的横纵坐标，一共有N*N个子区域。对区域R_i,j预测位置为M_δ(i,j)(I,i,j)。区域对齐网络的输出可以写为M(p)_δ(i,j)。区域对齐网络对的输入为原始图像和被破坏的图像。因为图像I中位置(i，j)处的区域R_i,j与破坏图像中的区域R_σ(i,j)一致。这两个预测位置的真值都是(i，j)。区域对齐损失L_loc为预测坐标与原始坐标的L₁距离，由此可以计算出L_loc。

在本实施例中，所述区域对齐网络对应的区域对齐损失为：

其中，

表示将图像p输入到分类网络后第n个卷积层的输出特征图。

区域重建损失有助于定位图像中的主要目标，并且倾向于找到子区域之间的相关性。通过端到端的训练，区域重建损失可以帮助主干分类网络建立对目标的深层理解，并对结构信息进行建模，如目标的形状和目标各部分之间的语义相关性。

在本实施例中，分类损失、对抗性损失和区域对齐损失以端到端的方式进行训练。由此，网络可以利用重要的子区域和良好建模的目标子区域的相关性来进行精细识别。因此，所述以三个损失之和最小化为目标表示为：

L＝αL_cls+βL_adv+γL_loc；

由于本实施例的方法具有开放式的算法结构，并且能得到几乎正确视网膜图像的分类，因此本实施例可以解决新的细粒度图像分类问题(例如视网膜图像、鸟类图像，菜品图像等)不断扩充的问题。只要输入一定的数据集，这样就可以不断的满足用户可能随时提出的新的设计要求。

对本实施例的上述方法进行验证，其分类指标可以达到0.9以上，与Inception v4网络结构相比高出0.45。

以上所述，仅是本发明的较佳实施例而已，并非是对本发明作其它形式的限制，任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型，仍属于本发明技术方案的保护范围。

Claims

1.一种基于破坏重建学习与GoogLeNet的细粒度图像分类方法，其特征在于，包括以下步骤：

构建训练集，并对其中的图像进行预处理；

以三个损失之和最小化为目标训练重建破坏学习网络；

2.根据权利要求1所述的一种基于破坏重建学习与GoogLeNet的细粒度图像分类方法，其特征在于，对其中的图像进行预处理具体为：标准化训练集中的数据，并对其进行数据增扩操作，并对训练集中的图像进行标注，标注其是否属于重组图像以及图象的类别。

3.根据权利要求1所述的一种基于破坏重建学习与GoogLeNet的细粒度图像分类方法，其特征在于，所述分类网络采用GoogLeNet的inception v4的结构。

4.根据权利要求1所述的一种基于破坏重建学习与GoogLeNet的细粒度图像分类方法，其特征在于，所述分类网络对应的分类损失为：

5.根据权利要求1所述的一种基于破坏重建学习与GoogLeNet的细粒度图像分类方法，其特征在于，所述判别网络对应的对抗性损失为：

其中，

是分类网络的从第1层到第m层的可学习参数。

6.根据权利要求1所述的一种基于破坏重建学习与GoogLeNet的细粒度图像分类方法，其特征在于，所述区域对齐网络对应的区域对齐损失为：

其中，

表示将图像p输入到分类网络后第n个卷积层的输出特征图。

7.根据权利要求1所述的一种基于破坏重建学习与GoogLeNet的细粒度图像分类方法，其特征在于，所述以三个损失之和最小化为目标表示为：

L＝αL_cls+βL_adv+γL_loc；