CN114118369B

CN114118369B - 一种基于群智能优化的图像分类卷积神经网络设计方法

Info

Publication number: CN114118369B
Application number: CN202111401682.3A
Authority: CN
Inventors: 程吉祥; 王圳鹏; 李志丹; 吴丹; 何虹斌
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2024-07-09
Anticipated expiration: 2041-11-19
Also published as: CN114118369A

Abstract

本发明公开了一种基于群智能优化的图像分类卷积神经网络设计方法，首先对图像数据集进行数据增强和数据预处理，而后构建神经网络搜索空间；通过随机初始化粒子种群，使用特定的解码方案将粒子解码为候选卷积神经网络，并采用随机数据集对候选神经网络网络进行评估；选择出个体最优和全局最优个体更新种群，直到迭代完成，确定最优粒子个体再次作为候选网络，并引入不同的优化器和学习率生成下一代种群，避免网络陷入局部极小值。本发明在图像分类任务中获得的模型与经验设计模型和其他自动设计方法获得模型相比，分类准确率和模型大小具有较大的优势和竞争力。

Description

一种基于群智能优化的图像分类卷积神经网络设计方法

技术领域

本发明属于图像分类技术领域，具体涉及一种基于群智能优化的图像分类卷积神经网络设计方法。

背景技术

图像分类是计算机视觉领域中一类重要问题，受到学术界和工业界的广泛关注。卷积神经网络(Convolutional Neural Networks，CNN)具有权值共享、性能优、鲁棒性强等特点，在计算机视觉任务中具有显著优势。当前，大多现有网络是由专家根据过往经验及不断试错设计而来，其设计过程复杂且耗时。为解决卷积神经网络设计困难的问题，谷歌提出了自动化深度学习的概念，并已成为当前研究热点，受到广泛关注。

广义的演化计算是一类基于种群的元启发式优化方法，用于解决复杂的优化问题，其包括进化计算和群智能。文献1(Xie L,Yuille A.Genetic cnn[A].Proceedings ofthe IEEE international conference on computer vision[C].Venice,Italy：IEEE,2017.1379-1388.)使用固定长度的二进制字符串编码神经网络结构，通过标准遗传操作选择出更有竞争力的后代种群。文献2(Real E,Moore S,Selle A,et al.Large-scaleevolution of image classifiers[A].International Conference on MachineLearning[C].Sydney,Australia：PMLR,2017.2902-2911.)提出了一种大规模进化方法，该方法对于计算资源要求较高。文献3(Wang C,Xu C,Yao X,et al.Evolutionarygenerative adversarial networks[J].IEEE Transactions on EvolutionaryComputation,2019,23(6):921-934.)利用遗传算法和语法进化两种方式来搜索神经网络的结构、参数和学习规则。该方法编码方式简单灵活，但只在MNIST数据集上进行了实验。

当前，基于演化计算的模型架构搜索基本思想是将演化计算方法用于优化模型结构搜索而对演化计算本身并不做过多改进研究。上述方法均是将演化计算用于CNN设计，存在如下问题。第一，针对特定任务，最优的CNN深度是未知的，如何约束搜索空间，以实现可变长神经网络设计值得探讨。第二，评估单个个体性能十分耗时，如何在有限计算资源下加速评估过程是亟待解决的问题。第三，仅从单一任务并不能验证模型搜索方法的好坏，如何评估搜索方法性能值得进一步研究。

发明内容

为解决前述问题，本发明并提供了一种基于群智能优化的图像分类卷积神经网络设计方法，与传统人工设计模型和其他自动搜索方法获得模型相比，本发明方法在图像分类准确率和模型参数方面得到了提升。

本发明解决技术问题具体实现方案如下所示：

一种基于群智能优化的图像分类卷积神经网络设计方法，其特征在于，包括以下步骤：

S1：对输入图片数据集进行预处理，后将数据集划分为训练数据集和测试数据集，其中训练数据集划分为训练集和验证集；

S2：设计卷积神经网络搜索空间，并引入禁用层，采用可变长编码映射方法对卷积神经网络进行编码，当编码值属于禁用层范围时，该层在解码过程中被移除；

S3：随机创建候选卷积神经网络集作为初始种群，根据适应度值选择出当前种群中个体最优和全局最优个体，采用粒子群优化算法更新当前种群并持续迭代，迭代完成后得到性能最优的卷积神经网络模型；

S4：以S3中得到的卷积神经网络模型作为父代，引入不同类型的优化器和不同学习率构成多个组合优化器，以卷积神经网络和组合优化器的结合构成初始化种群并进行训练，在每一次训练中，选择出当前最优个体与组合优化器组合形成下一代种群，训练一定次数后，得到用于图像分类的最优卷积神经网络结构和相应的权值。

本发明的有益效果：

1)本发明提出一种基于群智能优化的图像分类卷积神经网络搜索方法用于解决现有搜索方法中固定深度搜索以及搜索耗时问题。本发明综合考虑卷积神经网络中卷积层、池化层、全连接层和激活函数等要素，实现了卷积神经网络可变规模搜索。

2)本发明设计一种搜索空间以最大限度的增加搜索参数的类别；同时提出粒子群可变长编码映射方法，解决候选网络编码冗余性问题；为有效评估候选网络性能，采用随机数据集评估方式，以降低CNN的评估时间，并提高训练的稳定性。

3)本发明在搜索出最优的卷积神经网络模型的基础上引入优化器。将不同的优化器与神经网络组合形成新的种群；利用粒子群优化算法选择出每一次进化后的最佳个体，利用最优的个体引导进化种群形成下一代种群，有效避免神经网络陷入局部极小值问题。

附图说明

图1为本发明流程框图；

图2为本发明神经网络搜索方法示意图；

图3为本发明神经网络与优化器组合搜索方式示意图。

具体实施方式

为使本发明的技术方案和技术优点更加清楚，下面结合附图和具体实施方案对本发明进一步说明。

如图1所示，一种基于群智能优化的图像分类卷积神经网络设计方法，包括以下步骤：

对分类图片通过随机水平翻转、随机旋转和随机裁剪的方式进行图像增强，后对这些输入图片进行归一化操作。

预处理完成后，将训练数据集划分为训练集和验证集，划分比例为8:2，事实上，只要保证训练集的比例大于70％即可，但是，在发明人的长期研究过程中发现，仅当训练集的比例为80％(即训练集和验证集的比例为8:2)时，最终训练出的效果更好，能够选出效果最好、泛化能力最强的模型。

S2：设计卷积神经网络搜索空间，并引入禁用层，实现了一种可变长编码映射方法对候选模型进行编码，当编码值属于禁用层范围时，该层在解码过程中被移除：

卷积神经网络搜索空间包括卷积层、池化层、全连接层和激活函数。搜索参数涵盖了基本卷积神经网络中大部分参数；由于粒子群优化算法的粒子长度在初始化之后是固定的，然而卷积神经网络针对不同任务时所需要的深度是不确定的，因此引入禁用层。禁用层为本发明引入的一种层类型，当编码值范围为禁用层时，该层在解码过程中被直接移除；实现卷积神经网络可变长度搜索；使用一种实数编码到二进制编码的可变长编码映射方法，利用该编码能够灵活便捷的编码CNN中各种参数。

卷积层重要参数包括卷积核大小、个数、步长和激活函数。在本实施例中，卷积核大小的搜索空间是{1，3，5，7}。卷积核个数搜索范围是{2ⁿ,n＝0，1…9}，步长搜索范围为{1，2}，激活函数搜索范围为{ReLU、sigmoid}；池化层的搜索参数为{Maxpool，Avgpool}；全连接层中重要的参数包括神经元个数、Dropout(D)、激活函数。神经元个数搜索范围{2ⁿ,n＝0，1…9}、Dropout(D)搜索范围{D(0.5)，D(0.25)}、激活函数搜索范围{ReLU，Sigmoid}；禁用层为本发明引入的一种层类型，当编码类型为禁用层时，该层被直接移除；最终能够实现卷积神经网络可变长度搜索。

在本实施例中，设置卷积层编码范围0.0～15.9、池化层编码范围16～30、全连接层编码范围31.0～38.9和禁用层范围39～46；将编码按照小数点拆分为整数和小数部分，整数部分转化为二进制形式，小数部分按照2ⁿ进行相应计算；卷积层中整数部分转化为二进制编码卷积核大小、步长和激活函数，小数部分编码卷积核个数。

以随机数1.6为例，首先将1.6按照小数点拆分为1和6，整数部分都解码为4为二进制数。1用二进制表示为0001，前两位00表示的卷积核的大小为1，第三位0表示步长为1，最后一位1表示激活函数为sigmoid。6用十进制解码为2⁶，表示卷积核的个数为2⁶即64。

池化层以17为例，转化为二进制形式bin(17-15)为0001，最高位为0表示最大池化，最高位为1表示平均池化。全连接层中以33.7为例，拆分出的整数部分(33-31)和小数部分7。整数部分转化为二进制形式bin(33-31)为0010，第一位为0表示Dropout(0.5)，第一位为1表示Dropout(0.75)。第二位为0表示ReLU，第二位为1表示Sigmoid。小数部分2⁷表示神经元个数，具体如表1所示。

表1 CNN层和禁用层的编码范围和解码示例

S3：随机创建候选卷积神经网络集作为初始种群，根据适应度值选择出当前种群中个体最优和全局最优个体，采用粒子群优化算法更新当前种群并持续迭代，迭代完成后得到性能最优的卷积神经网络模型，其方法原理如图2所示：

a、随机创建卷积神经网络个体：初始化一个长度为m的个体向量，最多具有n个全连接层数，所述个体向量中第一位表示一个卷积层，第m位表示分类层；第二位到(m-n)位的任意一位表示卷积层、池化层和禁用层任意一层；(m-n)位到(m-1)位的任意一位表示卷积层、池化层、全连接层和禁用层任意一层，且一旦出现全连接层，则之后的层均为全连接层；

在本步骤中，需要利用上述方法创建多个卷积神经网络个体以形成初始种群。

b、根据图像分类任务的评估方式将候选卷积神经网络训练固定次数后在验证集上的准确率作为候选个体的适应度值。在本实施例中，为了提高评估候选个体效率，采用训练数据集80％作为训练样本，并且只训练8次，使用梯度下降法优化卷积神经网络的权值，具体公式为：

式中为学习率，▽wJ(W,D_train)表示在J(W,D_train)上的梯度。

c、基于b中的适应度值选择出个体最优和全局最优个体，引入粒子群优化算法，对种群中个体进行更新的公式为：

v_ij(t+1)＝c₁(t)v_ij(t)+c₂(t)r₁(t)[P_lb(t)-x_ij(t)]+c₃(t)r₂(t)[P_gb(t)-x_ij(t)]

x_ij(t+1)＝x_ij(t)+v_ij(t+1)

式中，t为迭代的代数，v_ij是第i个粒子第j维的速度，x_ij是第i个粒子第j维的位置。c₁为惯性随机数；c₂为自身认知系数；c₃为社会学习系数。r₁,r₂分别为两个独立的随机数，P_lb和P_gb分别为个体最优，即到目前为止找到的最好位置和全局最优粒子，即当前种群到目前为止找到最优的位置。

在迭代过程中，由于引入了禁用层，因此卷积神经网络的深度是可变的，迭代完成后，选择出最优的个体(卷积神经网络)从头训练到收敛。在这过程中采用的损失函数公式如下：

式中y_i表示Softmax损失函数接收到的特征值，N表示一个批次的图片数量，n表示分类的类别。

S4：以S3中得到的卷积神经网络模型作为父代，引入不同类型的优化器和不同学习率进行训练，以卷积神经网络和优化器的结合构成初始化种群，在每一次训练中，选择出当前最优个体与优化器组合形成下一代种群，将卷积神经网络进行训练，得到用于图像分类的最优卷积神经网络结构和相应的权值，在本步骤中，训练次数可根据本领域技术人员的常规知识进行设置，在本实施例中，训练次数设置为36个epoch。

在本步骤中，可引入多个现有的优化器，同时结合多种不同的学习率进行训练并优化以生成新的种群，在该过程中，若引入A个优化器和B个学习率，那么，最终产生A*B个组合优化器。

在本实施例中，引入Stochastic gradient descent(SGD)、Adadelta和Adam三类优化器，并且引入三组不同的学习率构成9个具有不同学习率的组合优化器。将基于S3中最优的网络结构作为父代，与不同的组合优化器相结合生成新的种群；其方法原理如图3所示。

在训练过程中，将个体在验证集上每个epoch的准确率作为个体的适应度值，每个epoch后选择全局最优个体，与9个组合优化器组合形成下一代种群。

将卷积神经网络训练36个epoch，保留最优卷积神经网络结构和相应的权值，该卷积神经网络结构即为最优的、用于处理图片的结构。

为了进一步验证本发明的说法，下面采用具体的例子进行说明。

医学图像识别是目前在图像识别领域的重点，organmnist_sagittal数据集，它是基于肝脏肿瘤分割基准(LiTS)的三维计算机断层扫描(CT)图像，是Yang等人在2020年提出的医学图像数据集；

对于医学图像识别而言，曲线下面区域的面积(AreaUnderCurve，AUC)和准确率(Accuracy，ACC)为识别结果的两种衡量指标，AUC用于评估连续预测分数，AUC的取值在0.5到1之间，越接近1说明检测方法真实性越高；ACC评估给定阈值的离散预测标签，一般为测试集上的准确率。

本发明方法在organmnist_sagittal数据集上AUC指标为97％，ACC指标为75.4％。与人工设计网络ResNet-50和现有搜索算法模型auto-sklearn和Google AutoML Vision相比，本发明方法表现出最好的性能优势，具体如表2所示。

表2 organmnist_sagittal数据集在AUC和ACC指标上总体性能比较

方法	AUC	ACC
			ResNet-50(28)	0.968	0.746
auto-sklearn	0.855	0.601
			GoogleAutoMLVision	0.964	0.707
本发明方法	0.970	0.754

不仅仅是医学图像识别，图像识别在其他数据集中仍然具有重要意义。Fashion数据集包含10个类别(例如：T-shirt、包、短靴等)，共有50000张训练图片和10000张测试图片。

本发明方法在Fashion数据集上的搜索模型参数仅为0.8M，远小于其他模型参数。本发明方法的分类错误率为6.86％，与3C1P2F+Dropout、AlexNet和VGG16这三种方法相比时，分类准确率仅比VGG16略差。本发明方法训练次数为36次，是VGG16和3C1P2F+Dropout训练次数的五分之一。综合三方面指标可以得出本发明方法在Fashion数据集上的网络结构设计和网络模型大小方面取得了综合最优的结果，具体如表3所示。

表3 Fashion数据集上分类错误率比较

方法	错误率(％)	模型大小	训练次数
				3C1P2F+Dropout	7.40	7.14M	150
AlexNet	10.10	60M	—
				VGG16	6.50	26M	200
本发明方法	6.86	0.8M	36

以上实验结果表明，本发明方法在保证搜索空间足够大的情况下能在有限的时间内搜索出性能优越的神经网络模型，并且该模型在图像分类准确率和模型参数方面优于现有方法，在神经网络搜索领域中具有可行性和适用性。

Claims

1.一种基于群智能优化的图像分类卷积神经网络设计方法，其特征在于，包括以下步骤：

S2：设计卷积神经网络搜索空间，并引入禁用层，采用可变长编码映射方法对卷积神经网络进行编码，当编码值属于禁用层范围时，该层在解码过程中被移除；该步骤的具体操作为：

所述卷积神经网络搜索空间包括卷积层、池化层、全连接层和激活函数；

在搜索空间中引入禁用层；

采用可变长编码映射方法对卷积神经网络进行编码，所述可变长编码映射方法具体步骤如下：确定卷积层、池化层、全连接层和禁用层的编码范围；将编码拆分为整数部分和小数部分，其中，整数部分用二进制进行编码，小数部分用2ⁿ形式进行编码，式中n为小数部分的数值大小；

S3：随机创建候选卷积神经网络集作为初始种群，根据适应度值选择出当前种群中个体最优和全局最优个体，采用粒子群优化算法更新当前种群并持续迭代，迭代完成后得到性能最优的卷积神经网络模型；该步骤的具体操作为：

随机创建候选卷积神经网络个体：初始化一个长度为m的个体向量，最多具有n个全连接层数，所述个体向量中第一位表示一个卷积层，第m位表示分类层；第二位到(m-n)位的任意一位表示卷积层、池化层和禁用层任意一层；(m-n)位到(m-1)位的任意一位表示卷积层、池化层、全连接层和禁用层任意一层，且一旦出现全连接层，则之后的层均为全连接层；

根据图像分类任务的评估方式，将候选卷积神经网络在训练集训练固定次数后，将验证集上的准确率作为候选个体的适应度值；

基于适应度值选择出个体最优和全局最优个体，引入粒子群优化算法，对种群中个体进行更新，更新公式为；

x_ij(t+1)＝x_ij(t)+v_ij(t+1)

式中，t为迭代代数，v_ij是第i个粒子第j维的速度，x_ij是第i个粒子第j维的位置，

c₁为惯性随机数，c₂为自身认知系数，c₃为社会学习系数，r₁、r₂分别为两个独立的随机数，P_lb和P_gb分别为个体最优，即到目前为止找到的最好位置和全局最优粒子，即当前种群到目前为止找到最优的位置；

在迭代过程中，由于引入了禁用层卷积神经网络的深度是可变的，迭代完成后，选择出最优的个体训练直至收敛，在这过程中采用的损失函数具体公式如下：

式中y_i表示Softmax损失函数接收到的特征值，N表示一个批次的图片数量，n表示分类的类别；

S4：以S3中得到的卷积神经网络模型作为父代，引入不同类型的优化器和不同学习率构成多个组合优化器，以卷积神经网络和组合优化器的结合构成初始化种群并进行训练，在每一次训练中，选择出当前最优个体与组合优化器组合形成下一代种群，训练一定次数后，得到用于图像分类的最优卷积神经网络结构和相应的权值；该步骤的具体操作为：

引入Stochastic gradient descent、Adadelta和Adam 3个优化器与3个不同的学习率组合构成9个不同学习率的组合优化器，基于S3中最优的网络结构作为父代，与不同的组合优化器相结合生成新的种群；

在训练过程中，在训练集上训练个体，将验证集上每个epoch的准确率作为个体的适应度值，每个epoch后选择全局最优个体，与9个组合优化器组合形成下一代种群；

迭代完成后，保留最优卷积神经网络结构和相应的权值。

2.根据权利要求1所述的方法，其特征在于，步骤S1中，其具体操作为：

a)通过随机水平翻转、随机旋转和随机裁剪的方式对分类图片进行图像增强；

b)输入图片进行归一化操作；

c)预处理完成后，将数据集划分为训练数据集和测试数据集，其中训练集进一步划分为训练集和验证集，划分比例为8:2。