CN112906808A

CN112906808A - 基于卷积神经网络的图像分类方法、系统、装置及介质

Info

Publication number: CN112906808A
Application number: CN202110242711.XA
Authority: CN
Inventors: 潘文兵; 陈启买; 刘海; 贺超波
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2021-06-04

Abstract

本发明公开了一种基于卷积神经网络的图像分类方法、系统、装置及介质，该方法包括获取待分类图像；利用训练好的图像分类卷积神经网络模型对所述待分类图像进行分类；获取所述训练好的图像分类卷积神经网络模型输出的分类结果。本发明通过利用训练好的图像分类卷积神经网络模型对待分类图像进行分类，能够以较少的参数量达到较好的图像分类性能；图像分类卷积神经网络模型为轻量级网络模型，能够克服大量参数量和内存不足的问题。本发明可广泛应用于图像分类技术领域。

Description

基于卷积神经网络的图像分类方法、系统、装置及介质

技术领域

本发明涉及图像分类技术领域，尤其是一种基于卷积神经网络的图像分类方法、系统、装置及介质。

背景技术

近年来，随着深度学习的不断发展，深度学习模型在图像分类的任务上的应用，不断提高着图像分类的准确率。从LeNet-5的提出代表着深度学习的开始，到AlexNet取代传统图像分类方法在大规模的图像数据的分类处理上取得成功，使得卷积神经网络模型开始成为分类任务中的主流方法，往后不断涌现的，类似如，GoogleNet引入Inception模块，VGG小卷积核代替大卷积核，ResNet提出residual结构等，进一步提高了模型在分类任务上的准确率。然而，庞大的模型会带来大量参数，使其面临着内存不足的问题，理论上，含有更多隐含层和更复杂的网络结构的深层网络可以比浅层网络具有更强大的特征表达能力和学习能力，使得其可以提供更复杂的计算和统计效率，然而这样的模型势必会带来巨额参数量的问题，使得其在移动或者嵌入式设备上难以被应用；尽管现如今已经有类似如MobileNet等轻量型网络的出现，但这些网络都作为一个通用模型的存在，所使用的尺寸都非常大，依旧会带来更多参数量的问题。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种基于卷积神经网络的图像分类方法、系统、装置及介质。

本发明所采取的技术方案是：

一方面，本发明实施例包括一种基于卷积神经网络的图像分类方法，包括：

获取待分类图像；

利用训练好的图像分类卷积神经网络模型对所述待分类图像进行分类；

获取所述训练好的图像分类卷积神经网络模型输出的分类结果。

进一步地，所述方法还包括：

构建图像分类卷积神经网络模型，所述图像分类卷积神经网络模型包括四个卷积块、三个池化块、一个Inception模块、三个SE模块、一个全局平均池化层、一个全连接层和一个Softmax层；

对所述图像分类卷积神经网络模型进行训练；

对训练后的所述图像分类卷积神经网络模型进行测试，获取训练好的图像分类卷积神经网络模型。

进一步地，所述四个卷积块分别为第一卷积块、第二卷积块、第三卷积块和第四卷积块，所述三个池化块分别为第一池化块、第二池化块和第三池化块，所述三个SE模块分别为第一SE模块、第二SE模块和第三SE模块；

所述第一卷积块、第二卷积块、第一池化块、第一SE模块、第三卷积块、第四卷积块、第二池化块、第二SE模块、Inception模块、第三池化块、第三SE模块、全局平均池化层，全连接层和Softmax层依次连接。

进一步地，所述对所述图像分类卷积神经网络模型进行训练这一步骤，包括：

从Cifar10数据集中获取原始训练数据集，所述原始训练数据集为32*32的彩色图像；

对所述32*32的彩色图像进行扩充得到34*34的彩色图像后随机裁剪得到第一图像，所述第一图像的大小为32*32，

将所述第一图像水平180°随机翻转得到训练样本集；

计算原始训练数据集的均值和标准差，得到计算结果；

根据所述计算结果，对所述训练样本集进行标准化处理；

获取标准化处理后的训练样本集以对所述图像分类卷积神经网络模型进行训练。

进一步地，所述根据所述计算结果，对所述训练样本集进行标准化处理具体为：

将所述训练样本集中的每一个数据减去均值后除以标准差。

进一步地，所述对训练后的所述图像分类卷积神经网络模型进行测试这一步骤，包括：

构建测试数据集；

将所述测试数据集输入训练后的所述图像分类卷积神经网络模型；

获取训练后的所述图像分类卷积神经网络模型输出的测试分类结果；

将所述测试分类结果与标签进行对比得到图像被正确分类的概率值。

进一步地，所述卷积块将输入的待分类图像进行卷积操作并取反，取反得到的结果和卷积结果通过concat函数合并后一起作用于ELU激活函数，得到图像的正负特征信息；

所述池化块将输入分别进行最大值池化处理和均值池化处理，并将最大值池化处理结果和均值池化处理结果通过concat函数合并，再利用1x1卷积进行降维处理；

所述Inception模块通过并联不同尺寸卷积核，提升所述图像分类卷积神经网络模型的表达能力；

所述SE模块通过关注通道间的相关性，筛选出通道间注意力。

另一方面，本发明实施例还包括一种基于卷积神经网络的图像分类系统，包括：

第一获取模块，用于获取待分类图像；

分类模块，用于利用训练好的图像分类卷积神经网络模型对所述待分类图像进行分类；

第二获取模块，用于获取所述训练好的图像分类卷积神经网络模型输出的分类结果。

另一方面，本发明实施例还包括一种基于卷积神经网络的图像分类装置，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现所述的一种基于卷积神经网络的图像分类方法。

另一方面，本发明实施例还包括计算机可读存储介质，其上存储有处理器可执行的程序，所述处理器可执行的程序在被处理器执行时用于实现所述的一种基于卷积神经网络的图像分类方法。

本发明的有益效果是：

本发明通过利用训练好的图像分类卷积神经网络模型对待分类图像进行分类，能够以较少的参数量达到较好的图像分类性能；图像分类卷积神经网络模型为轻量级网络模型，能够克服大量参数量和内存不足的问题。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所述图像分类卷积神经网络模型的结构示意图；

图2为本发明实施例所述卷积块的结构示意图；

图3为本发明实施例所述池化块的结构示意图；

图4为本发明实施例所述Inception模块的结构示意图；

图5为本发明实施例所述SE模块的结构示意图；

图6为本发明实施例所述基于卷积神经网络的图像分类装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

在本发明的描述中，需要理解的是，涉及到方位描述，例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

在本发明的描述中，若干的含义是一个或者多个，多个的含义是两个以上，大于、小于、超过等理解为不包括本数，以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

本发明的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。

下面结合附图，对本申请实施例作进一步阐述。

本发明实施例包括一种基于卷积神经网络的图像分类方法，包括：

S1.获取待分类图像；

S2.利用训练好的图像分类卷积神经网络模型对所述待分类图像进行分类；

S3.获取所述训练好的图像分类卷积神经网络模型输出的分类结果。

可选地，在利用训练好的图像分类卷积神经网络模型对待分类图像进行分类之前，还需要先完成以下操作：

P1.构建图像分类卷积神经网络模型，所述图像分类卷积神经网络模型包括四个卷积块、三个池化块、一个Inception模块、三个SE模块、一个全局平均池化层、一个全连接层和一个Softmax层；

P2.对所述图像分类卷积神经网络模型进行训练；

P3.对训练后的所述图像分类卷积神经网络模型进行测试，获取训练好的图像分类卷积神经网络模型。

具体地，参照图1，所述四个卷积块分别为第一卷积块、第二卷积块、第三卷积块和第四卷积块，所述三个池化块分别为第一池化块、第二池化块和第三池化块，所述三个SE模块分别为第一SE模块、第二SE模块和第三SE模块；

参照图2，卷积块将输入进行卷积操作并取反，取反得到的结果和卷积结果通过concat函数合并输入到ELU激活函数，其中卷积操作均使用3x3的卷积核，pad＝1，四个卷积块中使用的filter分别为6、6、16、16。

本实施例中，传统的卷积层，一般后面接Relu激活函数(只取大于0的数据)，会将负特征信息丢弃，为了在有限的卷积层中获得更多的特征信息，将卷积的结果取反后和原卷积结果通过concat函数合并后一起作用于ELU激活函数，可以获得图像的正负特征信息；同时，原来的Lenet-5网络使用5x5卷积层，本实施例中使用两个3x3卷积层代替一个5x5卷积层，能够在保证具有相同感受野的同时，减少计算量和提升网络深度。

本实施例中，一共使用四个卷积块代替原Lenet-5中的两个卷积层，4个卷积块均使用3x3卷积核，pad都为1；其中，第一卷积块的卷积核个数为6，输入为(32，32，3)，输出为(32，32，12)；第二卷积块(位于第一卷积块后)的卷积核个数也为6，输入为(32，32，12)，输出为(32，32，12)；第三卷积块(在第一池化块后)的卷积核个数为16，输入为(16，16，12)，输出为(16，16，32)；第四卷积块(在第三卷积块后)的卷积核个数为16，输为(16，16，32)，输出为(16，16，32)。

参照图3，池化块将输入分别进行最大值池化和均值池化两种操作，将两个结果通过concat函数合并，然后再利用1x1卷积进行降维操作，其中池化操作均使用3x3池化核，stride＝2，三个池化块中的pad依次为1、1、0。

本实施例中，池化块的作用是为了减少模型的参数和减少噪声的干扰，最大池化可以让提取的特征具有平移不变性，均值池化则可以对微小的变化具有鲁棒性，因此，可以结合使用最大值池化和均值池化两种池化，再使用concat函数合并的方式，可以保持特征的位置信息，因为合并后维度增加了一倍，为了依旧不增加池化的参数，利用1x1卷积进行降维操作。

本实施例一共使用三个池化块，分别为第一池化块、第二池化块和第三池化块，三个池化块均使用3x3池化核，偏移量为2的重叠池化方法，其中pad依次为1、1、0，最后一个池化块选择pad为0可以进一步缩减参数量。第一池化块(在第二卷积块后)的输入为(32，32，12)，输出为(16，16，12)；第二池化块(在第四卷积块后)的输入为(16，16，32)，输出为(8，8，32)；第三池化块(在Inception模块后)的输入为(8，8，128)，输出为(3，3，128)。

参照图4，Inception模块分为四个分支，四个分支最终用concat函数合并，第一个分支为1x1卷积层，第二个分支为1x1卷积层依次接两个3x3卷积核，pad＝1的卷积层，第三个分支为1x1卷积层连接3x3卷积核，pad＝1的卷积层，第四个分支为3x3池化核，stride＝1，pad＝1的最大池化层连接1x1卷积层，其中每个卷积层后面都使用Relu激活函数。

本实施例中，Inception模块接在第二池化块之后，其输入为(8，8，32)，输出为(8，8，128)。Inception模块通过并联不同尺寸卷积核的，可提升网络表达能力。

参照图5，SE模块中的依次连接顺序为：全局平均池化层→全连接层→Relu激活函数→全连接层→Sigmoid激活函数，最后将整个过程得到的输出与过程前的输入作相乘操作得到的结果作为SE模块的输出。

本实施例中，SE模块主要为了学习通道之间的相关性，筛选出针对通道的注意力。具体地，一共使用三个SE模块，分别为第一SE模块、第二SE模块和第三SE模块；其中，第一SE模块(在第一池化块和第三卷积块之间)的输入为(16，16，12)，输出为(16，16，12)；第二SE模块(在第二池化块和Inception模块之间)的输入为(8，8，32)，输出为(8，8，32)；第三SE模块(在第三池化块和全局平均池化之间)的输入(8，8，128)，输出为(8，8，128)。

SE模块的输出最后再依次连接全局平均池化层、全连接层和Softmax分类层，其中，全连接层设定节点为10。

关于步骤P2，本实施例中，在构建得到图像分类卷积神经网络模型之后，需要对图像分类卷积神经网络模型进行训练和测试，其过程如下：

(1)将Cifar10数据作为训练数据集，在网络的输入层对输入图像进行随机裁剪、水平180°翻转操作；具体地，将32*32的输入图像的四周2个像素点(pad＝2)扩充图像得到34*34的图像后再随机裁剪成32*32大小，并将裁剪后的图像水平180°随机翻转(翻转或者不翻转)得到增强后的数据集；

(2)计算训练数据集的均值和标准差，将增强后的数据集中的每一数据减去均值后除以标准差的方式进行标准化处理；

(3)将标准化处理后的数据图像和标签输入作为输入数据输入到图像分类卷积神经网络模型中；

(4)设定批处理大小为128，初始学习率为0.01，并根据测试的准确率变化值动态变更学习率，一旦测试集loss值在20个迭代次数内没有变化，则学习率乘以0.1，直至学习率降为1e-6则整个训练结束，并采用动量为0.9的随机梯度下降法训练数据；

(5)保存当前训练好的图像分类卷积神经网络模型。

对训练好的图像分类卷积神经网络模型进行测试的过程如下：

每完成一次训练后，进行一次测试操作，根据测试数据集在测试模型中的结果与标签进行对比得到图像被正确分类的概率，即得到当前训练下图像分类卷积神经网络模型的分类准确率。

具体地，Cifar10作为训练数据，输入图像的尺寸为32x32x3，其中32为图片的长和宽，3为3维特征，因此图像分类卷积神经网络模型每层的输入和输出如表1所示：

表1图像分类卷积神经网络模型结构参数

层名(Layer)	操作和参数	本层的输出尺寸
			卷积块1	3x3卷积，pad＝1，filter＝6	32x32x12
卷积块2	3x3卷积，pad＝1，filter＝6	32x32x12
			池化块1	3x3最大和均值池化，pad＝1，1x1卷积降维	16x16x12
SE1	SE模块	16x16x12
			Add	池化块1和SE1两者结果相加	16x16x12
卷积块3	3x3卷积，pad＝1，filter＝16	16x16x32
			卷积块4	3x3卷积，pad＝1，filter＝16	16x16x32
池化块2	3x3最大和均值池化，pad＝1，1x1卷积降维	8x8x32
			SE2	SE模块	8x8x32
Add	池化块2和SE2两者结果相加	8x8x32
			Inception	Inception模块，每层filter＝32	8x8x128
池化块3	3x3最大和均值池化，pad＝0，1x1卷积降维	3x3x128
			SE3	SE模块	3x3x128
Add	池化块3和SE3两者结果相加	3x3x128
			全局平均池化	3x3全局平均池化	1x1x128
全连接层	节点为10	10

图1和表1中，卷积块1对应第一卷积块，卷积块2对应第二卷积块，卷积块3对应第三卷积块，卷积块4对应第四卷积块；池化块1对应第一池化块，池化块2对应第二池化块，池化块3对应第三池化块，SE1对应第一SE模块，SE2对应第二SE模块，SE3对应第三SE模块。

本实施例中，还通过将图像分类卷积神经网络模型与其他网络模型的性能进行对比，对比结果如表2所示，根据表2可知，尽管本发明所述的图像分类卷积神经网络模型在准确率上比其他模型稍低，但其在参数量只有11万的情况下，也可以达到一个较为理想的准确率。

表2图像分类卷积神经网络模型与其他网络模型的性能对比表

模型	参数量(M)	准确率
			Lenet-5	0.24	77.19％
VGG-19	547.991	91.40％
			ResNet-34	242.121	92.60％
MobileNet V2 1.0	2.133	89.50％
			ShuffleNet V2 1.0	1.205	88.40％
LeCNN	0.42	86.25％

本发明实施例所述一种基于卷积神经网络的图像分类方法具有以下技术效果：

本发明实施例通过利用训练好的图像分类卷积神经网络模型对待分类图像进行分类，能够以较少的参数量达到较好的图像分类性能；图像分类卷积神经网络模型为轻量级网络模型，能够克服大量参数量和内存不足的问题。

参照图6，本发明实施例还提供了一种基于卷积神经网络的图像分类装置200，具体包括：

至少一个处理器210；

至少一个存储器220，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器210执行，使得所述至少一个处理器210实现所述的基于卷积神经网络的图像分类方法。

其中，存储器220作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。存储器220可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器220可选包括相对于处理器210远程设置的远程存储器，这些远程存储器可以通过网络连接至处理器210。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

可以理解到，图6中示出的装置结构并不构成对装置200的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图6所示的装置200中，处理器210可以调取存储器220中储存的程序，并执行但不限于所述的基于卷积神经网络的图像分类方法中的步骤。

以上所描述的装置200实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现实施例的目的。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有处理器可执行的程序，所述处理器可执行的程序在被处理器执行时用于实现所述的基于卷积神经网络的图像分类方法。

本申请实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行所述的基于卷积神经网络的图像分类方法。

可以理解的是，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于卷积神经网络的图像分类方法，其特征在于，包括：

获取待分类图像；

2.根据权利要求1所述的一种基于卷积神经网络的图像分类方法，其特征在于，所述方法还包括：

对所述图像分类卷积神经网络模型进行训练；

3.根据权利要求2所述的一种基于卷积神经网络的图像分类方法，其特征在于，所述四个卷积块分别为第一卷积块、第二卷积块、第三卷积块和第四卷积块，所述三个池化块分别为第一池化块、第二池化块和第三池化块，所述三个SE模块分别为第一SE模块、第二SE模块和第三SE模块；

4.根据权利要求2所述的一种基于卷积神经网络的图像分类方法，其特征在于，所述对所述图像分类卷积神经网络模型进行训练这一步骤，包括：

将所述第一图像水平180°随机翻转得到训练样本集；

计算原始训练数据集的均值和标准差，得到计算结果；

根据所述计算结果，对所述训练样本集进行标准化处理；

5.根据权利要求4所述的一种基于卷积神经网络的图像分类方法，其特征在于，所述根据所述计算结果，对所述训练样本集进行标准化处理具体为：

将所述训练样本集中的每一个数据减去均值后除以标准差。

6.根据权利要求2所述的一种基于卷积神经网络的图像分类方法，其特征在于，所述对训练后的所述图像分类卷积神经网络模型进行测试这一步骤，包括：

构建测试数据集；

7.根据权利要求2所述的一种基于卷积神经网络的图像分类方法，其特征在于：

所述卷积块将输入的待分类图像进行卷积操作并取反，取反得到的结果和卷积结果通过concat函数合并后一起作用于ELU激活函数，得到图像的正负特征信息；

8.一种基于卷积神经网络的图像分类系统，其特征在于，包括：

第一获取模块，用于获取待分类图像；

9.一种基于卷积神经网络的图像分类装置，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-7任一项所述的方法。

10.计算机可读存储介质，其特征在于，其上存储有处理器可执行的程序，所述处理器可执行的程序在被处理器执行时用于实现如权利要求1-7任一项所述的方法。