CN111079795A

CN111079795A - 基于cnn的分片多尺度特征融合的图像分类方法

Info

Publication number: CN111079795A
Application number: CN201911150614.7A
Authority: CN
Inventors: 薛涛; 洪洋
Original assignee: Xian Polytechnic University
Current assignee: Zhongfu Software (Xi'an) Co.,Ltd.
Priority date: 2019-11-21
Filing date: 2019-11-21
Publication date: 2020-04-28
Anticipated expiration: 2039-11-21
Also published as: CN111079795B

Abstract

本发明公开了基于CNN的分片多尺度特征融合的图像分类方法，该方法按照以下步骤实施，首先获得已标注的图像训练集并进行预处理增强样本多样性，得到完整图像训练集；其次构建分片多尺度特征融合的特征提取卷积模块，卷积模块对完整图像训练集中的图像进行特征转换和特征提取，获取表示该图像样本的图像特征向量；将图像特征向量接入softmax分类器作为图像识别的输出；最后通过随机梯度下降法和反向传播算法训练获得的神经网络模型，损失函数收敛训练结束后即得到最终完成的模型。本发明的基于CNN的分片多尺度特征融合的图像分类方法，有效打破了不同网络优化范式间的壁垒，进一步提升网络模型对图像特征提取的性能，提高了模型精度。

Description

基于CNN的分片多尺度特征融合的图像分类方法

技术领域

本发明属于基于深度学习的计算机视觉技术领域，具体涉及一种基于CNN的分片多尺度特征融合的图像分类方法。

背景技术

随着CNN(卷积神经网络)在2012年的LSVRC图像分类大赛上的巨大成功，引发了CNN在计算机视觉任务上的研究热潮。传统的图像分类方法需要根据大量的先验知识进行手工的特征提取，这种方式不但费时而且提取的特征的效果并不理想。相对传统方法，CNN的最大魅力在于在足够算力的支持下，只要拥有充足的训练数据，CNN就能自动根据训练样本的分布学习出代表原始图像的最好的特征，因此“数据驱动”是区别于传统方法最显著的特征。

一方面，为了解决网络过深，参数太多难以优化的问题Inception系列方法利用多尺度融合的策略在增加网络宽度的同时精心设计每一层网络的结构，证明了通过利用特征多尺度融合的方法增加网络宽度能够有效提高网络性能。

另一方面，在探索深度网络中，在残差网络ResNet被提出之前，“梯度消失”一直是阻碍构建更深层网络的诟病，ResNet提出了跳层连接的“shortcut connection”，能够保证即使构建几百层网络，梯度也不会消失。残差网络到目前为止一直实现深度网络的主流范式。

除了网络的宽度与深度，ResNeXt引入了新的超参数“基数”，提出了分组卷积的方法，其基数就代表分组的个数。在这之前网络模型的容量主要是通过调节网络的宽度与深度实现的，ResNeXt表明“基数”也能起到调节网络模型的容量的作用，同时证明了通过增大“基数”比通过加深网络提高网络性能的方法更加有效。

但这几种优化范式都是在如网络宽度或网络深度等的单一维度中提出，对进一步提升网络整体性能，具有一定局限性。为了探索多优化范式融合的可能性，进一步解放CNN神经网络模型的潜能，本发明在网络深度上结合残差连接；在网络宽度上结合多尺度特征融合；在网络“基数”上结合分组卷积提出了一种新的特征转换策略，通过在分组卷积中引入多尺度特征融合的方法，来扩展网络宽度，增强模型的表达能力。

发明内容

本发明的目的是提供基于CNN的分片多尺度特征融合的图像分类方法，打破各网络优化范式间的壁垒，进一步提升网络模型对图像分类的性能。

本发明所采用的技术方案是，基于CNN的分片多尺度特征融合的图像分类方法，该方法按照以下步骤实施，

步骤1：下载公共图像分类训练集或使用自主标注图像训练样本标签的训练集；

步骤2：对步骤1准备好的图像训练集进行预处理，进一步扩充图像训练样本集，增加训练样本的多样性，得到完整图像训练集；

步骤3：使用多尺度特征融合的图像特征提取方法构建特征提取的卷积模块，卷积模块对步骤2完整图像训练集中的图像进行特征转换和特征提取，获取表示该图像样本的图像特征向量；

步骤4：使用步骤3得到的图像特征向量作为输入，构建softmax分类器；

步骤5：将步骤3扩充训练样本集中的图像均分为多个样本包，采用SGD随机梯度下降法和反向传播算法训练网络优化损失函数，逐层调整损失函数的权值，直到损失函数不再收敛，结束网络训练，得到神经网络模型；

步骤6：将步骤5得到训练完成的神经网络模型应用到没有标注的图像样本，将未标注的原始图像输入步骤3构建的特征提取的卷积模块，经前向传播获得图像特征向量，再通过softmax分类器得到图像分类结果，达到图像识别的目的。

本发明的特点还在于，

步骤2对图像训练集中图像进行预处理的方式如下：

①水平翻转：对原始图像样本进行镜面翻折；

②旋转：将原始图像样本进行顺时针或逆时针的旋转，选取90或180度的旋转角度保证图像样本的的尺度大小；

③缩放：对原始图像样本进行放大或缩小；

④裁剪：从原始图像样本中随机选取一部分，然后将选取的部分放大到原图像大小；

⑤添加噪声：在部分原始图像样本中添加噪声数据来消除高频特征；

对经过上述①-⑤步骤处理后的图像训练集中的图片进行随机选取叠加，添加到原始图像训练样本集中，得到完整图像训练集。

步骤3中构建特征提取的卷积模块具体为：

根据步骤2得到的完整图像训练集，首先将其编码转换为输入张量，然后构建特征提取的卷积模块对输入图像进行特征转换和提取，最后获得提取的特征向量作为下一步骤的分类器的输入；其特征转换的特征表达为：

C＝G×g (2)

其中F(x)、x、x_i及C分别代表特征输出、特征输入、输入分片和分片数。使用参数G表示转换中的异构数，也就是特征子转换函数的种类数，G控制着整个转换模块的复杂度与表达力的平衡。多个分片可以归为一组，参数g＝C/G，其中g就代表每组子转换函数的个数；除此之外，式(3)和式(4)分别表示组间子转换函数异构互不相同和组内子转换函数同构相同；最后加上特征输入x，其特征转换的特征表达为：

步骤3中构建特征提取的卷积模块的具体过程为：

步骤3.1：编码格式转换

将步骤2得到的完整图像训练集样本进行编码转换为输入张量，具体如下：

Batch RGB-Images→(batch，channel，height，width)

其中，batch代表一次输入的图像张数；channel代表RGB三通道取3；height是输入图像的高，同时width代表输入图像的宽；

步骤3.2：构建分片多尺度特征融合的特征提取子模块

构建三种不同尺度的特征转换层，包括1x1卷积、3x3卷积以及使用两个3x3卷积替代5x5卷积；设置G为3、g为11和10，同时采用C为32，使相对简单的特征提取子模块组内分片数取

即为

最后一个相对复杂的子转换模块组内分片数取

即

步骤3.3：特征提取子模块结构优化

使用两个1x3的卷积核替换1个3x3的卷积核、使用两个5x1的卷积核替换两个3x3的卷积核，在保证一定精度的同时，有效的降低了网络模型的参数量；

步骤3.4：构建完整特征提取模块

采用多个步骤3.2构建的特征提取子模块堆叠的方式构建特征提取模块，采取的堆叠策略为：将所有特征提取子模块分为若干组，组内各特征提取子模块采用相同的层参数包括特征图大小和个数，组间两倍下采样且特征图个数增倍；

最后在堆叠完成的特征提取模块的后面接入全局平均池化替换常用的全连接结构，输出最终的特征向量作为softmax分类器的输入。

步骤4构建分类器的过程为：

根据步骤3提取的图像特征向量构建softmax分类器，softmax分类器将输入的特征向量转化为关于类别的概率向量输出，每个概率分量对应一个训练对应的类别概率；

输入的特征向量用

表示：

参数m代表特征向量的维度大小，

权值矩阵w为：

其中参数n代表训练设置的类别数；

类别y_j对应的权值向量为：

类别向量

为：

类别y_j对应的softmax分类输出概率为：

softmax分类器最终输出为类别对应的概率向量：

在应用模型时，取最大的P_j对应的类别y_j作为最终判定的分类结果。

步骤5训练卷积神经网络的过程为：

步骤5.1：将步骤3完整图像训练集中的图像均分为多个样本包；

步骤5.2：设置损失函数为：

其中，t是训练数据集的样本包大小；

是每个训练样本对应的类标签如果属于类y_j则为1否则为0；

是每个训练样本对应的softmax分类器的类y_j的概率输出，同步骤4中的P_j；

步骤5.2：采用SGD随机梯度下降法更新权值，对给定的

对于j＝1，2，3，…，n，有如下的权值更新过程：

其中，Δw_j0为偏置更新，η是学习率，控制着学习的速度，经过多次迭代训练不断更新权值，损失函数逐渐收敛，最后停止权值更新，得到最终的网络模型。

本发明的基于CNN的分片多尺度特征融合的图像分类方法，首先获得已标注的图像训练集并进行预处理增强样本多样性，得到完整图像训练集；其次构建特征提取的卷积模块，卷积模块对完整图像训练集中的图像进行特征转换和特征提取，获取表示该图像样本的图像特征向量；将图像特征向量接入softmax分类器作为图像识别的输出；最后通过随机梯度下降法和反向传播算法训练获得的神经网络模型，损失函数收敛训练结束后即得到最终完成的模型。本发明的基于CNN的分片多尺度特征融合的图像分类方法，有效打破了不同网络优化范式间的壁垒，进一步提升网络模型对图像特征提取的性能，提高了模型精度。

附图说明

图1是本发明基于CNN的分片多尺度特征融合的图像分类方法的流程图；

图2是本发明的图像特征转换逻辑结构图；

图3(a)是本发明图1所示实施例中的特征提取的卷积模块的子转换模块，是分组卷积神经网络中的子转换模块，其中分组数C为32；

图3(b)是本发明构造的原始的子转换模块；

图3(c)是本发明构造的改进的子转换模块；

图4(a)、(b)是本发明构造的网络模型在cifar-10图像数据集上的损失训练变化的测试精度和损失值结果；

图4(c)、(d)是本发明构造的网络模型在cifar-100图像数据集上的损失训练变化的变化的测试精度和损失值结果；

图5(a)、(b)是本发明在两组不同设置参数下，不同方法的对比测试精度的变化结果；

图6是本发明cifar-10图像数据集的10个类别信息及每类随机10张图像信息。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明的基于CNN的分片多尺度特征融合的图像分类方法，具体流程如图1所示：以下以cifar-10与cifar-100公共图像数据集为实施例来说明本发明的方法。

步骤1：图像训练集的准备

在网上下载好cifar-10和cifar-100图像数据集。cifar-10数据集由10个类的60000张32x32彩色图像构成，图6是其10个类别的具体内容；每个类包含5000张训练图像和1000张测试图像。cifar-100数据集也总共包含60000张32x32彩色图像，不同的是cifar-100数据集包含100类，其中每类拥有500张训练图片和100张测试图片，表3显示了其类别信息包括20个超类和100个子类。

表3 cifar-100图像数据集的20个超类和100个子类信息

步骤2：图像训练集预处理

对图像训练集进行额外扩充，包含的操作如下：

2.1、水平翻转：对原始图像样本进行镜面翻折。

2.2、旋转：将原始图像样本进行顺时针或逆时针的旋转，选取90或180度的旋转角度保证图像样本的的尺度大小。

2.3、缩放：对原始图像样本进行放大或缩小。放大时，放大后的图像尺寸会大于原始尺寸，按照原始尺寸对放大后的图像进行裁切，缩小时，同理需要对处理后的图像进行放大到原始尺寸。

2.4、裁剪：从原始图像样本中随机选取一部分，然后将选取的部分放大到原图像大小。

2.5、添加噪声：在部分原始图像样本中添加噪声数据来消除高频特征。

步骤3：构建特征提取的卷积模块

如图2所示，根据步骤2得到的完整图像训练集，首先将其转换为此步骤的数据输入格式，然后构建特征提取的卷积模块对输入图像进行特征转换和提取，最后获得提取的特征向量作为下一步骤的分类器的输入。其特征转换的特征表达为：

C＝G×g (2)

k且j≠k (3)

其中F(x)、x、x_i及C分别代表特征输出、特征输入、输入分片和分片数。使用参数G表示转换中的异构数，也就是特征子转换函数的种类数，G控制着整个转换模块的复杂度与表达力的平衡。多个分片可以归为一组，参数g＝C/G，其中g就代表每组子转换函数的个数。除此之外，(3)和(4)分别表示组间子转换函数异构互不相同和组内子转换函数同构相同。最后加上特征输入x，分片多尺度特征转换最终可以表示为：

具体步骤为：

步骤3.1：编码格式转换

将步骤2得到的图像训练样本进行编码转换为输入张量，具体如下：

Batch RGB-Images→(batch，channel，height，width)

其中，batch代表一次输入的图像张数；channel代表RGB三通道取3；height是输入图像的高，同时width代表输入图像的宽。

3.2、构建分片多尺度特征融合的特征提取子模块：图3(a)是已有的分组卷积神经网络ResNeXt中的转换模块，其中C为32。图3(b)是本发明提出的转换模块、虚线框中的结构就代表一个子转换结构，本发明构建了三种不同尺度的特征转换层，包括1x1卷积、3x3卷积以及使用两个3x3卷积替代5x5卷积。在图3(b)中G为虚线框的个数即为3，g为11或10，为了充分地与ResNeXt转换模块进行对比，所以本发明同样采用C为32，由于C无法整除G，考虑减少参数量，使相对简单的子转换模块组内分片数取

即为

最后一个相对复杂的子转换模块组内分片数取

即为

在图3中，图3(b)相比图3(a)仅仅多使用了几组3x3的卷积，并没有增加额外的复杂度，而且图3(b)中1x1卷积的使用有几大作用：

①.作为多尺度转换的一部分，能为网络提供更小尺度的转换；

②.提供残差连接的功能；

③.平衡大尺度转换的参数量，在特征图深度相同的情况下，1x1卷积的参数量仅是3x3卷积的1/9。

3.3、子模块结构优化：考虑到随着网络的加深，即使每一个转换模块仅仅增加少量参数量，当层数越多特征图个数越多时，积累的参数数量就无法忽视。为了进一步提高模型性能，在不影响模型精度的前提下压缩模型参数，如图3(c)所示，本发明采用了一个新的等效结构，使用两个1x3的卷积核替换1个3x3的卷积核，以及使用两个5x1的卷积核替换两个3x3的卷积核。使用a结构的原始ResNeXt29的参数量约为5.7M，使用本发明图3(b)结构参数量约为6M，而使用图3(c)结构可使参数降为5M左右。

3.4、构建完整特征提取模块：本发明采用多个3.2的分片多尺度特征融合的特征提取子模块堆叠的方式构建特征提取模块，以简化网络模型的设计，采取的堆叠策略为：将所有特征提取子模块分为若干组，1.组内各转换模块采用相同的层参数包括特征图大小和个数，2.组间两倍下采样且特征图个数增倍。

表1是其实现的一个例子，其中IX-ResNet38是基于本发明提出的特征提取模块构建的网络模型结构，表1展示了已有的ResNeXt与本发明的IX-ResNet38结构设计对比，从中可以看出9个转换子模块平均分为3组，每组3个，组内层参数相同，而输出的特征层数由256增加到1024，同样输出特征图大小从32x32降为8x8。

表1 实施例中的特征提取的卷积模块的整体构造结构

最后在堆叠完成的特征提取模块的后面接入全局平均池化global averagepooling替换常用的全连接结构，输出最终的特征向量作为步骤4分类器的输入。

步骤4：构建分类器

根据步骤3提取的图像特征向量构建softmax分类器，softmax分类器将输入的特征向量转化为关于类别的概率向量输出，每个概率分量对应一个训练对应的类别概率。

输入的特征向量用

表示：

参数m代表特征向量的维度大小。

权值矩阵w为：

其中参数n代表训练设置的类别数。

类别y_j对应的权值向量为：

类别向量

为：

类别y_j对应的softmax分类输出概率为：

softmax分类器最终输出为类别对应的概率向量：

步骤5：训练卷积神经网络

通过步骤1到步骤4已经构建好了从输入到输出的整个网络模型，在此步骤需要根据提供的训练数据集对前步骤得到的网络模型进行训练调整网络模型的权值来优化loss，直到训练loss不再收敛，获得最终的权值得到训练完成的模型，图1中的过程“1→2→3→4→5”展示了训练过程。

5.1、设置损失函数，损失函数为：

其中t是训练数据集的batch大小；

是每个训练样本对应的类标签如果属于类y_j则为1否则为0；

是每个训练样本对应的softmax分类器的类y_j的概率输出，同步骤4中的P_j。

5.2、使用梯度下降法更新权值，对给定的

对于j＝1，2，3，…，n，有如下的权值更新过程：

其中，Δw_j0为偏置更新，η是学习率，控制着学习的速度，经过多次迭代训练不断更新权值，逐步是loss收敛，最后停止权值更新，得到最终的网络模型。

5.3、训练结果

图4(a)-4(d)展示了在数据集cifar-100与cifar-10上，IX-ResNet38与ResNeXt29的训练损失与测试精度随训练周期增加的变化结果，其中的IX-ResNet-c代表使用图3(c)转换模块的IX-ResNet38，同理IX-ResNet-b代表使用图3(b)转换模块的IX-ResNet38。可以发现本发明的IX-ResNet38最终训练结果的loss更小，除此之外，表2也显示的是在特定设置参数：“8-16”下，本发明方法在cifar-10与cifar-100数据集上的具体测试精度结果。

表2 “8-16”下，本发明方法在cifar-10与cifar-100数据集上的具体测试精度结果

图5(a)-图5(b)是在数据集cifar-100与cifar-10上，在不同设置参数的情况下，网络模型的训练精度变化情况，其中下标“16-8”代表转换模块初始分片数为16，每个分片的特征图个数为8，所有模型中分片数不变，而特征图个数每叠加一组转换模块就增加为原来的两倍，其他参数与图4相同。

首先观察第1组实验结果，可以发现当C＝{8，16，32，64}时，IX-ResNet38-b与IX-ResNet38-c的最终测试准确率都要高于ResNeX29，同样通过观察第2组的实验结果亦能发现在C＝{4，8，16，32}的情况下IX-ResNet38-b与IX-ResNet38-c的最终测试准确率也都高于ResNeX29，第1组与第2组的实验结果分析能够说明新的特征转化策略在多种情况下的准确率都要高于原始的转换策略，进一步论证了新特征转换策略的有效性。

步骤6：图像识别

将步骤5得到训练完成的网络模型应用到没有标注的图像样本，前向传播获得该图像估计的类标签，达到图像识别的目的，其步骤流程可参考图1中的“6→3→7”，模型应用时不再将输入样本进行反向传播过程，而是直接输入softmax分类器得到输出结果，判定该图像样本的类标签，最终完成图像识别任务。

取，获取表示该图像样本的图像特征向量；将图像特征向量接入softmax分类器作为图像识别的输出；最后通过随机梯度下降法和反向传播算法训练获得的神经网络模型，损失函数收敛训练结束后即得到最终完成的模型。本发明的基于CNN的分片多尺度特征融合的图像分类方法，有效打破了不同网络优化范式间的壁垒，进一步提升网络模型对图像特征提取的性能，提高了模型精度。