CN113052239A

CN113052239A - 基于梯度方向参数优化的神经网络的图像分类方法及系统

Info

Publication number: CN113052239A
Application number: CN202110320168.0A
Authority: CN
Inventors: 郑来波; 张�浩; 刘佩; 李莹; 王德强
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2021-03-25
Filing date: 2021-03-25
Publication date: 2021-06-29
Anticipated expiration: 2041-03-25
Also published as: CN113052239B

Abstract

本发明公开了基于梯度方向参数优化的神经网络的图像分类方法及系统，获取图像数据集，对图像数据集中的每一幅图像进行预处理；构建卷积神经网络，设置卷积神经网络的超参数和损失函数；将预处理后的图像和已知图像分类标签，作为卷积神经网络的输入值，开始对卷积神经网络进行训练；根据卷积神经网络的输出与图像标签，计算损失函数，然后进行误差反向传播；在误差反向传播的过程中，采用梯度方向参数优化的方式，实现卷积神经网络训练过程中参数的更新，满足结束条件后，结束迭代训练，得到训练好的卷积神经网络；基于训练好的卷积神经网络，对待分类图像进行分类，得到待分类图像的分类标签。本申请具有图像分类速度快，稳定性强的优点。

Description

基于梯度方向参数优化的神经网络的图像分类方法及系统

技术领域

本发明涉及图像处理技术领域，特别是涉及基于梯度方向参数优化的神经网络的图像分类方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

在深度学习中，多分类问题一直是热门的研究领域，多分类问题中最常见的就是图像分类问题。在处理深度学习中的某些图像分类问题时，神经网络模型是要求随时进行训练的。例如，在人脸识别门禁系统中，有新的人员录入门禁系统时，人脸识别神经网络模型就要不断训练新加入人员的人脸图片。因此，加快神经网络模型的训练速度是深度学习中非常重要的，其中，对现有的优化技术进行改进或提出新的优化技术是备受关注的研究课题。

最优化的方法多种多样：在目标函数是凸函数的情况下可以采用凸优化理论等手段，但是深度学习中的目标函数不具备凸性，一般在深度学习时使用目标函数的梯度信息，通过迭代的形式来解决最优化问题；在深度学习中，现有的常用优化方法包括梯度下降法以及牛顿法。其中，梯度下降方法是深度学习中最常用的优化方法，梯度下降方法只利用目标函数的一阶梯度信息，其有着严格的数学理论支撑，计算实现起来简单，是目前神经网络训练中最常用和最有效的优化方法。

基本梯度下降法根据的设定的学习率大小沿梯度方向一步步逐渐向最优点逼近。但这种基本梯度下降法的缺点是：学习率是超参数，其设置几乎没有什么理论可以作为依据，基本是靠实验获得经常使用的学习率经验值，如果学习率设置得较大，则容易使得算法不收敛；如果学习率设置得较小，则算法收敛速度很慢，甚至在到达最优点前就停止了，在实际深度学习训练中需要花大量的时间进行参数调优。研究者们提出了改进的梯度下降算法，主要分为两类。

一类算法致力于通过增加梯度更新的频率达到提高迭代速度的效果，具体做法是减少一次梯度下降所学习的样本数量，在学习了一个批次的样本后就计算梯度并进行一次迭代，有效减小样本之间造成的模型参数更新抵消问题。这类算法包括随机梯度下降法(SGD)和小批量随机梯度下降法(mini-batch SGD)。另一类算法则致力于改变梯度下降算法本身，通过加入动量或者动态调整学习率等超参数因素改变迭代算法的步长，从而提高算法的计算速度。

常见算法包含moumentum、NGA、AdaGrad、AdaDelta、RMSProp、Adam等。在深度学习的实际应用中，一般情况下带冲量的梯度下降法还是最主流的，不过对于优化中收敛不好的情况，自适应算法常能收到奇效。但是一种常见的情况是，在优化的后期，自适应算法尤其是AdaDelta和RMSProp常会出现梯度反复震荡的现象，效果不如带冲量的梯度下降法。

上述所有的梯度下降方法均基于当前位置的梯度计算下一个点的位置，而实际的损失函数是极其复杂的，因此下一个位置的可信度较低，优化路径需要走很大的弯路，计算效率较低。作为深度学习中的另一种优化方法的牛顿法，是梯度下降方法的发展，牛顿法是利用局部的一阶偏导和二阶偏导信息，去推测整个目标函数的形状，进而可以求得近似函数的全局最小值，然后将当前的最小值设定为近似函数的最小值。

牛顿法在二阶偏导的作用下，从函数的凸性出发，直接搜索怎样到达极值点，即在选择方向时，不仅考虑当前下降趋势是否够大，还会考虑走了一步之后，下降趋势是否会更大，这种计算方式考虑了梯度变化的趋势，因而收敛速度更快。但牛顿法对于需要优化的目标函数要求较高，要求Hessian矩阵正定，同时过于复杂的计算，使得在对神经网络的参数进行优化过程中计算量和储存量都较大，这就导致在真正地解决实际图像多分类问题中，牛顿法包括后来改进的拟牛顿法没有比梯度下降方法更加迅速和便捷。牛顿法理论上收敛速度快，但在图像多分类过程中不如梯度下降方法的主要原因是利用了更多的梯度信息，使实际计算的复杂度上升、运算量加大。

发明内容

为了解决现有技术的不足，本发明提供了基于梯度方向参数优化的神经网络的图像分类方法及系统；提高了神经网络的训练速度和神经网络训练的稳定性。

第一方面，本发明提供了基于梯度方向参数优化的神经网络的图像分类方法；

基于梯度方向参数优化的神经网络的图像分类方法，包括：

获取图像数据集，对图像数据集中的每一幅图像进行预处理；

构建卷积神经网络CNN，设置卷积神经网络CNN的超参数和损失函数；将预处理后的图像和已知图像分类标签，作为卷积神经网络CNN的输入值，开始对卷积神经网络CNN进行训练；根据卷积神经网络CNN的输出与图像标签，计算损失函数，然后进行误差反向传播；

在误差反向传播的过程中，采用梯度方向参数优化的方式，实现卷积神经网络CNN训练过程中参数的更新，满足结束条件后，结束迭代训练，得到训练好的卷积神经网络CNN；

基于训练好的卷积神经网络CNN，对待分类图像进行分类，得到待分类图像的分类标签。

第二方面，本发明提供了基于梯度方向参数优化的神经网络的图像分类系统；

基于梯度方向参数优化的神经网络的图像分类系统，包括：

预处理模块，其被配置为：获取图像数据集，对图像数据集中的每一幅图像进行预处理；

超参数设置模块，其被配置为：构建卷积神经网络CNN，设置卷积神经网络CNN的超参数和损失函数；将预处理后的图像和已知图像分类标签，作为卷积神经网络CNN的输入值，开始对卷积神经网络CNN进行训练；根据卷积神经网络CNN的输出与图像标签，计算损失函数，然后进行误差反向传播；

梯度方向参数优化模块，其被配置为：在误差反向传播的过程中，采用梯度方向参数优化的方式，实现卷积神经网络CNN训练过程中参数的更新，满足结束条件后，结束迭代训练，得到训练好的卷积神经网络CNN；

图像分类模块，其被配置为：基于训练好的卷积神经网络CNN，对待分类图像进行分类，得到待分类图像的分类标签。

第三方面，本发明还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述第一方面所述的方法。

第四方面，本发明还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果是：

相较于使用基于梯度的经典图像分类神经网络优化方法及系统(SGD、moumentum、NGA、Adagrad、dAdam、RMSProp、Adadelta等)，基于梯度方向的图像分类神经网络优化方法及系统的思想是只利用梯度的方向信息来构造优化方法及系统。

从原理上分析，基于梯度的经典图像分类神经网络优化方法及系统使用了梯度的方向与模值信息，在小批量迭代中，模值信息会导致迭代路径产生震荡，基于梯度方向的图像分类神经网络优化方法及系统放弃了模值信息，使运算更加直接，下降速度更快，不产生AmsGrad方法极容易不收敛的情况，基于梯度方向的图像分类神经网络优化方法及系统中初始步长是利用计算得到，不再需要进行大量的超参数试验择优。

在实际的图像分类神经网络训练中，基于梯度方向的图像分类神经网络优化方法及系统基本不产生迭代震荡现象，优化速度快，提高了神经网络模型训练过程的稳定性，表现出良好的优化性能，是一种可以实际应用且高效的优化方法及系统。将基于梯度方向的图像分类神经网络优化方法及系统应用到图像分类领域中，能更快得到能进行图像分类的模型，使图像分类在实用领域(如安防领域的人脸识别和智能视频分析、互联网领域基于内容的图像检索等)的应用能够更加广泛和便捷。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明提出的方法的实例流程图示；

图2是本发明的基于梯度方向的图像分类神经网络优化方法的理论图示。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

CNN：卷积神经网络。卷积神经网络(Convolutional Neural Networks)是包含卷积计算且具有深度结构的神经网络，也是深度学习的代表算法之一。它包括输入层、隐含层和输出层，且具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类。它每层的神经元是三位排列的，包括高度、宽度和深度，所以这要求卷积神经网络的输入是具有三个维度的数据。

Pytorch：pytorch是torch的python版本，是由Facebook开源的神经网络框架，专门针对GPU加速的深度神经网络编程。Torch是一个经典的对多维矩阵数据进行操作的张量库，在机器学习和其他数学密集型应用有广泛应用。

Torchvision：torchvision库是服务于pytorch深度学习框架的,用来生成图片，视频数据集，和一些流行的模型类和预训练模型，由流行的数据集(torchvision.datasets)、模型架构(torchvision.models)和用于计算机视觉的常见图像转换组成(torchvision.transforms)。

实施例一

本实施例提供了基于梯度方向参数优化的神经网络的图像分类方法；

基于梯度方向参数优化的神经网络的图像分类方法，包括：

S101：获取图像数据集，对图像数据集中的每一幅图像进行预处理；

S102：构建卷积神经网络CNN，设置卷积神经网络CNN的超参数和损失函数；将预处理后的图像和已知图像分类标签，作为卷积神经网络CNN的输入值，开始对卷积神经网络CNN进行训练；根据卷积神经网络CNN的输出与图像标签，计算损失函数，然后进行误差反向传播；

S103：在误差反向传播的过程中，采用梯度方向参数优化的方式，实现卷积神经网络CNN训练过程中参数的更新，满足结束条件后，结束迭代训练，得到训练好的卷积神经网络CNN；

S104：基于训练好的卷积神经网络CNN，对待分类图像进行分类，得到待分类图像的分类标签。

进一步地，所述方法S101：获取图像数据集，对图像数据集中的每一幅图像进行预处理；具体包括：

获取已知分类标签的图像数据集，将图像数据集按照比例划分为训练集和验证集；

对图像数据集中的每一幅图像进行格式转换处理、灰度化处理和尺寸归一化处理。

进一步地，所述S102：构建卷积神经网络CNN，设置卷积神经网络CNN的超参数和损失函数；将预处理后的图像和已知图像分类标签，作为卷积神经网络CNN的输入值，开始对卷积神经网络CNN进行训练；具体包括：

超参数，例如包括：初始步长、一次训练样本数、迭代次数；

损失函数，例如包括：交叉熵损失函数、对数似然损失函数、Hinge损失函数等。

所述卷积神经网络CNN，是基于pytorch框架下实现的。

进一步地，如图2所示，所述S103：在误差反向传播的过程中，采用梯度方向参数优化的方法，实现卷积神经网络CNN训练过程中参数的更新，满足结束条件后，结束迭代训练，得到训练好的卷积神经网络CNN；具体包括：

S1031：网络模型初始的参数向量设为x₀，计算卷积神经网络CNN的初始步长；

S1032：若首次执行，则根据初始参数向量x₀的初始梯度，计算得到当前梯度的方向信息；利用当前梯度的方向信息与初始步长，计算得到更新一次后的参数向量x₁；

若非首次执行，则根据上一次参数向量的梯度，计算得到梯度的方向信息；利用梯度的方向信息与更新步长，计算得到新的参数向量；

S1033：根据初始步长的大小，判断是否需要进行步长衰减：如果初始步长大于设定阈值，则进行步长衰减；否则不需要进行步长衰减；

如果需要进行步长衰减，则对初始步长α₀进行衰减，得到更新步长α₁；进入S1034；

如果不需要进行步长衰减，则一直使用初始步长α₀；进入S1034；

S1034：判断是否达到结束条件，如果是，则结束，卷积神经网络CNN的参数优化完成；如果否，就返回S1032。

示例性的，S1031：计算卷积神经网络CNN的初始步长；具体包括：

初始步长是超参数，设为α₀，其计算公式为：

其中，num是神经网络模型中参数的总个数，0.0014是一个经验值。

神经网络的权重初始化接近0的随机值较合理，网络模型初始的参数向量设为x₀。

示例性的，S1032：根据初始参数向量x₀的初始梯度，计算得到当前梯度的方向信息；计算梯度的方向信息具体包括：

其中，direction表示梯度方向，

是x₀的梯度，

是总的梯度模值。

示例性的，S1032：利用当前梯度的方向信息与初始步长，计算得到更新一次后的参数向量x₁；

其中，

是x₀的梯度，

是总的梯度模值，α₀是初始步长。

示例性的，所述S1032若非首次执行，则根据上一次参数向量的梯度，计算得到梯度的方向信息；利用梯度的方向信息与更新步长，计算得到新的参数向量；具体包括：

其中，根据当前参数向量x_t及梯度

总的梯度模值

衰减t次的新步长α_t计算获得下一参数向量x_t+1。

示例性的，所述S1033如果需要进行步长衰减，则对初始步长α₀进行衰减，得到更新步长α₁；具体包括：

α₁＝α₀×(1-β)；(4)

其中，β是步长衰减值；

示例性的，所述S1034：判断是否达到结束条件，如果是，则结束，卷积神经网络CNN的参数优化完成；如果否，就返回S1032；其中结束条件，包括：实际训练神经网络的次数、设定的损失函数值或者设定的测试数据集运算正确率。

使用梯度的方向信息和计算得出的步长的组合完成对模型参数的更新。

进一步地，所述方法的S103步骤之后，所述S104的步骤之前，还包括：

S103-4：进行对比试验。

进一步地，所述进行对比试验的具体步骤包括：

S103-41：选择训练集和测试集；搭建卷积神经网络CNN；

S103-42：设置好初始步长、超参数batchsize和超参数epoch；

S103-43：将训练集加载到卷积神经网络CNN中，设置卷积神经网络CNN的损失函数；

S103-44：开始卷积神经网络CNN的训练，完成前向传播和后向传播；

S103-45：采用梯度方向参数优化的方式，实现卷积神经网络CNN训练过程中参数的更新；

S103-46：满足结束条件后，结束迭代训练，将测试数据集输入到卷积神经网络CNN中，检测网络训练后的拟合能力。

示例性的，所述S103-41：选择训练集和测试集；搭建卷积神经网络CNN；具体包括：

选取实验所需的数据集为CIFAR-10数据集，该数据集是包含10个类别彩色图片的多分类数据集，每张图片大小为32×32，50000张训练图片、10000张测试图片共计60000张图片。神经网络选用自主设计的CNN网络，网络结构的编写选用python语言。

示例性的，所述S103-42：设置好初始步长、超参数batchsize和超参数epoch；具体包括：

计算得出初始步长α₀为0.34，设置batchsize为64，步长衰减为0.0003，epoch为20次等超参数。

示例性的，所述S103-43：将训练集加载到卷积神经网络CNN中，设置卷积神经网络CNN的损失函数；具体包括：

使用pytorch中的torchvision库中的dataloader函数即可加载CIFAR-10数据集，损失函数选择交叉熵函数。

示例性的，所述S103-44：开始卷积神经网络CNN的训练，完成前向传播和后向传播；具体包括：

将数据集中的训练集送入网络进行训练，先完成前向传播，然后进行后向传播，获得模型参数的梯度。

示例性的，所述S103-45：采用梯度方向参数优化的方式，实现卷积神经网络CNN训练过程中参数的更新；具体包括：

利用模型参数的梯度计算得到梯度的方向，使用本公开的基于梯度方向的图像分类神经网络优化方法进行模型参数的更新和步长的更新，不断进行迭代。

示例性的，所述S103-46：满足结束条件后，结束迭代训练，将测试数据集输入到卷积神经网络CNN中，检测网络训练后的拟合能力；具体包括：

迭代次数到达epoch次结束迭代，神经网络的训练完成，将数据集中的测试集输入到网络中，计算得到测试集的分类正确率，使用基于梯度方向的图像分类神经网络优化方法在以上超参数设置的条件下的分类正确率为64.404％，且分类正确率没有出现下降趋势。

分别使用Adam，RMSProp，动量法、SGD四种最常使用的梯度下降法，以相同的自主设计的CNN神经网络对CIFAR-10数据集进行训练，然后进行测试计算获得分类正确率，batchsize与epoch均不改变设置大小，其中：

Adam方法在学习率为0.001、beta1为0.9、beta2为0.999的条件下分类正确率为62.99％，且出现分类正确率出现下降趋势。

RMSProp方法在学习率为0.001、beta为0.9的条件下分类正确率为61.35％，且分类正确率出现下降趋势。

动量法在学习率为0.001、beta为0.9的条件下分类正确率为59.1％。

SGD法在学习率为0.001的条件下分类正确率为29.06％。

同时进行速度对比实验，在设定预期分类正确率为64％的情况下，基于梯度方向的图像分类神经网络优化方法达到预期分类正确率所用的时间比经典梯度下降方法中优化最快的方法到达预期分类正确率的时间要少30％到40％。

以上对比实验体现出，基于梯度方向的图像分类神经网络优化方法在多分类问题上收敛速度快，性能稳定，不容易产生过拟合现象，为深度学习提供了一种新的高效的优化方法。

结合图1所示，本实施例利用基于梯度方向的图像分类神经网络优化系统进行完整的训练，并与最常用的经典梯度下降方法中的Adam，RMSProp，动量法、SGD方法进行对比实验。

实施例二

本实施例提供了基于梯度方向参数优化的神经网络的图像分类系统；

基于梯度方向参数优化的神经网络的图像分类系统，包括：

此处需要说明的是，上述预处理模块、超参数设置模块、梯度方向参数优化模块和图像分类模块对应于实施例一中的步骤S101至S104，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例一所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

上述实施例中对各个实施例的描述各有侧重，某个实施例中没有详述的部分可以参见其他实施例的相关描述。

所提出的系统，可以通过其他的方式实现。例如以上所描述的系统实施例仅仅是示意性的，例如上述模块的划分，仅仅为一种逻辑功能划分，实际实现时，可以有另外的划分方式，例如多个模块可以结合或者可以集成到另外一个系统，或一些特征可以忽略，或不执行。

实施例三

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述实施例一所述的方法。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元及算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例四

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例一所述的方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。