CN112348118A

CN112348118A - 基于梯度维持的图像分类方法、存储介质及电子设备

Info

Publication number: CN112348118A
Application number: CN202011377685.3A
Authority: CN
Inventors: 何良华; 任强; 施小春; 李鹏飞; 罗涛
Original assignee: AVCON INFORMATION TECHNOLOGY CO LTD; Tongji University
Current assignee: AVCON INFORMATION TECHNOLOGY CO LTD; Tongji University
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-02-09

Abstract

本发明提供一种基于梯度维持的图像分类方法、存储介质及电子设备，所述基于梯度维持的图像分类方法包括：获取待训练的图像集；将所述图像集划分为训练集和测试集；利用所述训练集训练分类胶囊网络模型，且在训练过程中通过图像预测胶囊的路由梯度系数维持胶囊层叠加时的梯度稳定；将所述测试集输入所述分类胶囊网络模型中进行图像分类的性能测试。本发明在图像分类所用的胶囊网络模型中通过路由梯度系数维持梯度稳定。不仅在某种程度上抑制了梯度的消失，而且还可以适当的可以放大梯度并将梯度更平滑地扩展到模型前面的网络层，提高了胶囊网络模型的图像分类性能。

Description

基于梯度维持的图像分类方法、存储介质及电子设备

技术领域

本发明属于深度神经网络的技术领域，涉及一种图像分类方法，特别是涉及一种基于梯度维持的图像分类方法、存储介质及电子设备。

背景技术

深度学习是近几年人工智能领域研究的一个热点方向，面向不同任务的神经网络的提出，更是加速了这一领域的发展。传统的神经网络在训练的过程中，无法学习特征之间的空间关系。基于传统神经网络的这一缺点，提出了胶囊网络。胶囊网络的提出，解决传统的神经网络在训练模型的时候无法整体的考虑多个神经元之间特征的空间关系，从而造成了信息的丢失，同时胶囊网络也可以更好的模仿人类大脑的思维模式。

在许多的分类任务中，对目标作出判别的时候仅仅根据目标的特征，丢失了特征之间的位置关系。例如在人脸识别的时候，神经网络仅仅判断图像中有没有存在眼睛、鼻子、嘴巴等重要特征，但是特征之间的位置关系，胶囊网络模型是不关心的。胶囊网络中胶囊的存在可以将特征之间的位置关系编码到胶囊中，对任务的判别更加合理和准确。在现有技术中，胶囊网络模型的训练由动态路由算法实现，动态路由算法是Hinton提出的一种学习胶囊层之间参数的算法。在胶囊网络的训练过程中，通过动态路由算法可以学习相邻胶囊层之间对应胶囊的耦合系数，使得模型寻找到低层胶囊和高层胶囊的对应关系，因此胶囊网络得以正常工作。

在神经网络的研究进展中，一个提高网络模型性能很直接的方法就是使网络的层数加深。这样模型可以学习到更强的非线性变换的能力。但是基于动态路由算法的胶囊网络却无法简单的叠加多个胶囊层，因为动态路由算法中由于耦合系数的存在会对梯度起放缩的作用。当堆叠深层胶囊网络模型时，将会造成梯度消失现象，使得模型无法正常工作。

因此，如何提供一种基于梯度维持的图像分类方法、存储介质及电子设备，以解决现有技术无法在利用胶囊网络进行图像分类时，较大程度地维持梯度的稳定等缺陷，成为本领域技术人员亟待解决的技术问题。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种基于梯度维持的图像分类方法、存储介质及电子设备，用于解决现有技术无法在利用胶囊网络进行图像分类时，较大程度地维持梯度的稳定的问题。

为实现上述目的及其他相关目的，本发明一方面提供一种基于梯度维持的图像分类方法，所述基于梯度维持的图像分类方法包括：获取待训练的图像集；将所述图像集划分为训练集和测试集；利用所述训练集训练分类胶囊网络模型，且在训练过程中通过图像预测胶囊的路由梯度系数维持胶囊层叠加时的梯度稳定；其中，所述分类胶囊网络模型叠加多个所述图像预测胶囊的特征；将所述测试集输入所述分类胶囊网络模型中进行图像分类的性能测试。

于本发明的一实施例中，所述在训练过程中通过图像预测胶囊的路由梯度系数维持胶囊层叠加时的梯度稳定的步骤包括：将所述训练集进行特征提取，获取特征图，将所述特征图进行堆叠形成所述基本图像特征；对所有的所述基本图像特征进行仿射变换后得到第一图像预测胶囊；对所有的所述基本图像特征对应的第一图像预测胶囊叠加，得到第一胶囊中间量，并将所述第一胶囊中间量进行压缩处理，得到第一激活胶囊特征；通过所述路由梯度系数与所述第一胶囊中间量的乘积对第二次迭代所用的第二胶囊中间量作近似处理，以在维持梯度稳定的基础上在第二次迭代时形成组合图像特征。

于本发明的一实施例中，所述对所有的所述基本图像特征进行仿射变换后得到第一图像预测胶囊的步骤包括：将所述基本图像特征对应的矩阵定义为：

其中，i表示基本图像特征所在的层数，n表示第n个特征图，

表示第n个特征图上的第1个特征对应的损失函数值；确定仿射矩阵W_ij，其中，i表示基本图像特征所在的层数，j表示组合图像特征所在的层数；通过公式

对矩阵u_i进行仿射变换，得到所述第一图像预测胶囊

于本发明的一实施例中，所述对所有的所述基本图像特征对应的第一图像预测胶囊叠加，得到第一胶囊中间量，并将所述第一胶囊中间量进行压缩处理，得到第一激活胶囊特征的步骤包括：通过公式

对所述第一图像预测胶囊

叠加，得到所述第一胶囊中间量s_j；其中，i表示基本图像特征所在的层数，j表示组合图像特征所在的层数；利用激活函数对所述第一胶囊中间量s_j进行压缩，得到所述第一激活胶囊特征v_j。

于本发明的一实施例中，所述通过所述路由梯度系数与所述第一胶囊中间量的乘积对第二次迭代所用的第二胶囊中间量作近似处理的步骤包括：利用公式

对所述第一图像预测胶囊

进行更新，形成第二次迭代中的第二图像预测胶囊；对所述第二图像预测胶囊叠加得到所述第二胶囊中间量，并将所述第二胶囊中间量

近似处理为

其中，λ为所述路由梯度系数。

于本发明的一实施例中，所述在维持梯度稳定的基础上在第二次迭代时形成组合图像特征的步骤包括：利用所述激活函数对

进行压缩，得到所述组合图像特征。

于本发明的一实施例中，所述将所述测试集输入所述分类胶囊网络模型中进行图像分类的性能测试的步骤包括：将所述测试集输入所述分类胶囊网络模型进行分类测试，以获取相应的分类结果；调整所述路由梯度系数后，将所述待测试数据集再次输入所述分类胶囊网络模型进行分类测试；针对不同的所述测试集，比较不同的路由梯度系数所对应的分类结果，以确定所述分类胶囊网络模型性能最好的路由梯度系数。

于本发明的一实施例中，在将所述测试集输入所述分类胶囊网络模型进行分类测试之前，通过原始图像的尺寸调整、每个方向上以零填充进行像素的移动以及训练参数的调整中的一种或多种方式对所述待测试数据集进行预处理。

本发明另一方面提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的基于梯度维持的图像分类方法。

本发明最后一方面提供一种电子设备，包括：处理器及存储器；所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述电子设备执行所述的基于梯度维持的图像分类方法。

如上所述，本发明所述的基于梯度维持的图像分类方法、存储介质及电子设备，具有以下有益效果：

本发明中基于现有技术中耦合系数会造成梯度消失现象这一缺点，提出了可以维持梯度稳定的路由梯度系数。路由梯度系数作为超参数，替换现有路由方法中的耦合系数和迭代次数，不仅在某种程度上抑制了梯度的消失，而且还可以适当的放大梯度并将梯度更平滑地扩展到模型的前面的网络层，提高了模型的性能。由于防止了梯度的值过快地变小，使得模型在训练过程中可以更好的寻找到最优解。进一步，在图像分类任务中，相当于能找到更好的拟合图像分布的模型承诺书，提高模型的性能。

附图说明

图1显示为胶囊网络与传统神经网络的对比示意图。

图2显示为现有技术中胶囊网络动态路由迭代原理图。

图3显示为本发明的基于梯度维持的图像分类方法于一实施例中的原理流程图。

图4显示为本发明的基于梯度维持的图像分类方法于一实施例中的梯度稳定流程图。

图5显示为本发明的电子设备于一实施例中的结构连接示意图。

元件标号说明

5 电子设备

51 处理器

52 存储器

S31～S34 步骤

S331～S334 步骤

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

本发明所述的基于梯度维持的图像分类方法、存储介质及电子设备在图像分类所用的分类胶囊网络模型中通过路由梯度系数维持梯度稳定。不仅在某种程度上抑制了梯度的消失，而且还可以适当的可以放大梯度并将梯度更平滑地扩展到模型前面的网络层，提高了胶囊网络模型的图像分类性能。

以下将结合图1至图5详细阐述本实施例的一种基于梯度维持的图像分类方法、存储介质及电子设备的原理及实施方式，使本领域技术人员不需要创造性劳动即可理解本实施例的基于梯度维持的图像分类方法、存储介质及电子设备。

首先，分析现有技术中动态路由算法在堆叠多层胶囊层时，容易造成梯度消失的原因，进而，提出本发明所述的基于梯度维持的图像分类方法，由此通过路由梯度系数维持梯度稳定，进而使分类胶囊网络模型的工作性能更稳定，提高图像分类的准确率。

在现有的基于动态路由算法的胶囊网络中，仅仅有PrimaryCaps和DigitCaps两层胶囊层，第一层胶囊层是由经过卷积神经网络提取特征之后的特征图按照一定的规则堆叠形成的，而第二层的胶囊层则是使用动态路由算法，对PrimaryCaps层的胶囊进行迭代计算之后得到的。在两层胶囊层之间，有需要反向传播训练的仿射变换矩阵W_ij，和经过动态路由算法迭代计算得到的耦合系数c_ij。

请参阅图1，显示为胶囊网络与传统神经网络的对比示意图。如图1所示，神经元从其他神经元接收输入标量，然后将它们乘以标量权重和总和。然后将该总和传递到许多可能的非线性激活函数之一，该函数采用输入标量并根据该函数输出标量。标量将是神经元的输出，它将作为其他神经元的输入。由此，人工神经元可以通过3个步骤来描述：1.输入标量的标量加权；2.加权输入标量之和；3.标量到标量的非线性。胶囊神经元除了传统神经网络的三个步骤外，还有一个仿射变换过程，由此，胶囊神经元可以通过4个步骤来描述：1.输入向量的矩阵乘法(仿射变换)；2.输入向量的标量加权；3加权输入向量之和；4.向量对向量的非线性变换。

请参阅图2，显示为现有技术中胶囊网络动态路由迭代原理图。如图2所示，显示了基于动态路由算法的胶囊网络中PrimaryCaps层和DigitCaps层之间的前向数据流和后向梯度流。m＊是仿射变换矩阵W_ij中的参数，而x^*是与胶囊u_i中与m^*相关的、而且在特征图上

的特征x对应的loss值。实线箭头表示前向的数据流，虚线箭头表示后向的梯度流。PrimaryCaps层中的特征层为

(下标为第一个特征图)，如下面的等式中所定义：

将不同特征图上的特征堆叠(一组胶囊由8个特征图组成)并形成胶囊。并且所有胶囊i在第l层中，而胶囊j在第(l+1)层中。低层的胶囊u_i由特征图

(每个特征图上有36个特征)上的特征组成，

表示特征图上的特征点，n表示第n个特征图，1表示第n个特征图上的第一个特征点。特征图堆叠形成的低层胶囊u_i(下标i代表第i个低层胶囊，本发明中所述的i意义均相同)根据

进行定义。

通过仿射矩阵W_ij对低层胶囊

进行仿射变换，以将维度8的胶囊转换成维度16的胶囊，增加了胶囊的仿射变换能力。W_ij矩阵中的参数

表示矩阵中每个点的值，维度(8，16)，参数m的上下标表示在仿射矩阵中不同维度的序号。因此，u_i通过W_ij的仿射变换获得

(j代表第j个高层胶囊，本发明中所述的j意义都相同)：

其中，仿射矩阵W_ij为：

然后，计算

的加权和的值，其中，权值为耦合系数c_ij，得到高层胶囊v_j，如下面的等式中所述：

胶囊网络中分类正确类别的损失函数为L_j，L_j＝k·max(0，m⁺-||v_j||)²，其中，m⁺＝0.9，k＝0.5是用于在模长求导的过程中消去系数，由人为设定，为了求导后方便计算。

从损失函数L_j的等式可以得出，胶囊网络的损失与高层胶囊v_j的长度和v_j中的值有关。m是仿射变换矩阵W_ij中的参数，它是通过反向传播算法学习的。c_ij是耦合系数，它是通过动态路由的迭代计算得到的。当梯度流过相邻的胶囊层时，结果如下：

根据上面等式可以得到，m^*是仿射变换矩阵W_ij中的参数，而x^*是与胶囊u_i中与m^*相关的、而且在特征图上

的特征x对应的loss值。综上可知，反向传播中的梯度值将受到耦合系数c_ij的影响。因为动态路由算法获得的耦合系数c_ij大多接近0.1，甚至更小。所以当胶囊网络中堆叠了多个胶囊层时，c_ij的存在将使梯度值变小，这会影响对前层参数的学习，并使胶囊网络无法工作。

所以当耦合系数c_ij的值较小时，会对梯度起放缩的作用。在胶囊网络叠加多层胶囊层时，再根据链式法则，耦合系数c_ij对梯度的影响会成倍放大，造成模型前面的网络层发生梯度消失现象，使得网络模型无法正常工作。

请参阅图3，显示为本发明的基于梯度维持的图像分类方法于一实施例中的原理流程图。如图3所示，所述基于梯度维持的图像分类方法具体包括以下几个步骤：

S31，获取待训练的图像集。

S32，将所述图像集划分为训练集和测试集。

S33，利用所述训练集训练分类胶囊网络模型，且在训练过程中通过图像预测胶囊的路由梯度系数维持胶囊层叠加时的梯度稳定；其中，所述分类胶囊网络模型叠加多个所述图像预测胶囊的特征。

请参阅图4，显示为本发明的基于梯度维持的图像分类方法于一实施例中的梯度稳定流程图。如图4所示，S33包括：

S331，将所述训练集进行特征提取，获取特征图，将所述特征图进行堆叠形成所述基本图像特征。具体地，在训练过程中将通过卷积层提取抽象特征后的图像特征堆叠为胶囊形式。

S332，对所有的所述基本图像特征进行仿射变换后得到第一图像预测胶囊。

在本实施例中，低层胶囊对应为基本图像特征的胶囊，高层胶囊对应为组合图像特征的胶囊。例如，在基于人脸识别的图像分类应用中，低层胶囊对应单独的眼睛、鼻子、嘴巴等基本图像特征，对低层胶囊的基本图像特征进行求和后，形成人脸整体的五官特征，将五官特征作为组合图像特征，为高层胶囊。将所述基本图像特征对应的矩阵定义为：

其中，i表示低层胶囊所在的层数，n表示第n个特征图，

表示第n个特征图上的第1个特征对应的损失函数值。

确定仿射矩阵W_ij，其中，i表示低层胶囊所在的层数，j表示高层胶囊所在的层数。需要说明的是，本发明中低层与高层以及前一层与后一层为胶囊网络中的相对概念，即相邻的胶囊层，前一层胶囊作为低层胶囊，后一层胶囊作为高层胶囊。

通过公式

对矩阵u_i进行仿射变换，得到所述第一图像预测胶囊

S333，对所有的所述基本图像特征对应的第一图像预测胶囊叠加，得到第一胶囊中间量，并将所述第一胶囊中间量进行压缩处理，得到第一激活胶囊特征。

在本实施例中，通过公式

对所述第一图像预测胶囊

叠加，得到所述第一胶囊中间量s_j；其中，i表示基本图像特征所在的层数，j表示组合图像特征所在的层数。

利用激活函数对所述第一胶囊中间量s_j进行压缩，得到所述第一激活胶囊特征v_j。具体地，使用激活函数(squash)压缩s_j，v_j＝squash(s_j)，以获得激活后的高层胶囊v_j(与sj方向相同)，实现胶囊网络的正向训练过程。

S334，通过所述路由梯度系数与所述第一胶囊中间量的乘积对第二次迭代所用的第二胶囊中间量作近似处理，以在维持梯度稳定的基础上在第二次迭代时形成组合图像特征。

利用公式

对所述第一图像预测胶囊

进行更新，形成第二次迭代中的第二图像预测胶囊。

对所述第二图像预测胶囊叠加得到所述第二胶囊中间量，并将所述第二胶囊中间量

近似处理为

其中，λ为所述路由梯度系数。

利用所述激活函数对

进行压缩，得到所述组合图像特征，即激活后的高层胶囊。

具体地，将分类胶囊网络模型进行反复迭代过程如下(其中，上标的r为路由迭代次数)，第一胶囊中间量表示为：

因此，在第一次迭代之后，第一激活向量的输出如下：

由此，根据公式

第二次迭代的输入

被更新为：

当迭代参数r＝2时，第二胶囊中间量的输出为：

然后，通过激活函数对第二胶囊中间量s_j ^(r＝2)进行压缩处理，得到第二激活向量v_j ^(r＝2)：

在上面等式中引入了路由梯度系数，即超参数λ。λ代表的意义是将

进行放大，其值接近经过激活函数squash后的v_j ^(r＝2)。因此，在第二次迭代之后，动态路由算法的输出如下：

由此，如果迭代次数增加，则λ将更大，并最终得到高层胶囊v_j：

在上述通过路由梯度系数维持梯度稳定的过程中，通过引入了一个路由梯度系数(超参数λ)替换路由的耦合系数和迭代次数，由于超参数λ设定为正整数，与动态路由算法中的耦合系数c_ij相比(c_ij为接近于0.1的小数)，不仅在某种程度上抑制了梯度的消失，而且适当的λ(大于1)可以放大梯度并将梯度更平滑地扩展到模型前面的网络层。在深度学习模型中，模型能否更好的收敛，梯度的传播是极其重要的，因为模型的参数是根据梯度的值进行优化的。超参数λ防止了梯度的值过快地变小(由耦合系数c_ij的0.1扩展为正整数)，使得模型在训练过程中可以更好的寻找到最优解。在图像分类任务中，相当于能找到更好的拟合图像分布的模型承诺书，提高模型的性能。本发明主要对梯度系数进行了优化，进一步改善了模型的性能。因此，超参数λ在模型训练的过程可以充当路由梯度系数的作用。

S34，将所述测试集输入所述分类胶囊网络模型中进行图像分类的性能测试。

在本实施例中，S34包括：

(1)将所述测试集输入所述分类胶囊网络模型进行分类测试，以获取相应的分类结果。

进一步地，在将所述测试集输入所述分类胶囊网络模型进行分类测试之前，通过原始图像的尺寸调整、每个方向上以零填充进行像素的移动以及训练参数的调整中的一种或多种方式对所述待测试数据集进行预处理。

具体地，为了测试路由梯度系数对分类胶囊网络模型的图像分类效果，对图像数据集Fashion-MNIST和CIFAR10上进行了实验。

在本实验使用pytorch库进行实验开发。在训练过程中，本实验使用Adam优化器，其初始学习率为0.001，在每轮使用之后，其初始学习率降低了5％。该模型在GTX-1080Ti上进行了训练，每次实验训练了150轮的训练。所有实验进行了三次，并对结果取平均值。对于不同的数据集，本实验使用了不同的预处理方式。

对于数据集Fashion-MNIST，因为数据集的图像都是28×28的灰度图像，本实验使用了原始图像的尺寸大小，并在每个方向上以零填充向上移动最多2像素，不再使用其他的数据增强/变形。网络模型的结构和原始胶囊网络中的结构相同，将训练的batchsize设置为128。

对于数据集CIFAR10，本实验将其图像大小调整为32×32×3，并在每个方向上以零填充向上移动最多2像素，不再使用其他的数据增强/变形。网络模型的结构和原始胶囊网络中的结构相同，数据集的训练的batchsize设置为128。

对数据集Fashion-MNIST和CIFAR10进行实验，将Fashion-MNIST数据集上的分类结果和CIFAR10数据集上的分类结果分别进行列表管理，形成表1和表2。在胶囊层数不同和梯度系数λ值不同时的动态路由算法的分类结果如表1和表2所示。

表1 Fashion-MNIST数据集上的分类结果表

	λ＝1	λ＝2	λ＝3	λ＝4
					2层胶囊层	92.78	93.23	93.07	92.96
3层胶囊层	93.54	93.63	93.39	93.38
					4层胶囊层	93.61	93.71	93.57	93.41

表2 CIFAR10数据集上的分类结果表

	λ＝1	λ＝2	λ＝3	λ＝4
					2层胶囊层	78.24	77.97	78.41	78.34
3层胶囊层	78.41	78.01	78.66	78.44
					4层胶囊层	78.42	78.13	78.68	78.50

从表1和表2中可以得出，在数据集CIFAR10和Fashion-MNIST上，在不同数量的胶囊层和不同的路由梯度系数λ的值下获得了不同的性能。图像分类任务目的是为了更准确的识别图像的类别。基于表1和表2的实验结果可以得到，对于使用的图像分类数据集，使用值越大的超参数λ，模型取得了更高的准确率，即模型可以更准确的识别图像的类别。当其他配置参数相同时，模型的性能随胶囊层数的增加而提高。此外，模型的性能随着λ的改变而不同。当λ的值为2或3时，在数据集Fashion-MNIST上性能会更好。并且当λ的值等于1或3时，还可以在数据集CIFAR10上获得更好的性能。胶囊层之间的路由算法学习对象的仿射变换以及低层胶囊和高层胶囊的组合关系。因此，堆叠多个胶囊层可以提高模型性能，从而可以学习更强大的仿射变换功能以及与相邻层胶囊相对应的更复杂的组合。

(2)调整所述路由梯度系数后，将所述待测试数据集再次输入所述分类胶囊网络模型进行分类测试。

为了进一步在证实本发明所述的基于梯度维持的图像分类方法中，路由梯度系数可以较好维持梯度的传播，同时为了证明耦合系数c_ij的存在会造成梯度消失现象，使得模型无法正常工作。于是将路由梯度系数λ的值设为0.1甚至更小的值(耦合系数c_ij的值接近于0.1)，检测在路由梯度系数λ的值较小时(此时对模型的性能影响相当于动态路由算法中的耦合系数c_ij)，模型是否会无法工作。将CIFAR10数据集上较小的路由梯度系数λ的模型分类结果进行列表管理，形成表3。设置较小的路由梯度系数λ的模型分类结果如表3所示。

表3 CIFAR10数据集上较小路由梯度系数的分类结果表

	λ＝0.1	λ＝0.001	λ＝0.0001	λ＝0.00001
					2层胶囊层	77.24	69.25	10.58	10.42
3层胶囊层	10.23	10.01	10.22	10.12
					4层胶囊层	10.18	10.15	10.02	10.06

由表3可知，取路由梯度系数λ为较小的值时在数据集CIFAR10上获得了不同的模型性能。很明显，有两种情况导致胶囊网络无法正常工作：首先，当在两个胶囊层的模型中将λ的值设置为0.0001甚至更低时，胶囊网络将崩溃，这与现有技术中叠加多层产生的结果相同。其次，当λ的值在多个胶囊层(3层和4层)中设置为0.1或更小时，胶囊网络也无法正常工作。同样，当堆叠多个胶囊层时，使用动态路由算法的胶囊网络也有相同的情况。当λ的值设置为较小的数值时(此时模型耦合系数在梯度传播中的影响)，模型预测的结果趋于10％，无法正常工作，此时发生梯度消失现象。

通过表3的结果和表2的结果进行对比，可以得到不同数值的路由梯度系数λ对模型性能对影响。当可以得到不同数值的路由梯度系数λ设置为正整数时，模型会收敛的更好，对于图像分类的预测可以取得更高的准确率；同时当λ的值设置为较小的数值时，模型预测的结果趋近于10％，此时发生梯度消失现象模型无法正常工作。因此，表2和表3结果对比可以证明胶囊网络中的路由梯度系数的提出可以在一定程度上减缓梯度消失的影响，维持模型训练过程中梯度的稳定，进而提高模型的准确率，可以更准确的识别图像的类别。

(3)针对不同的所述测试集，比较不同的路由梯度系数所对应的分类结果，以确定所述分类胶囊网络模型性能最好的路由梯度系数。

本发明所述的基于梯度维持的图像分类方法的保护范围不限于本实施例列举的步骤执行顺序，凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述基于梯度维持的图像分类方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的计算机可读存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的计算机存储介质。

请参阅图5，显示为本发明的电子设备于一实施例中的结构连接示意图。如图5所示，本实施例提供一种电子设备5，电子设备5具体包括：处理器51和存储器52。

上述的处理器51可以是通用处理器，包括中央处理器(Central ProcessingUnit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Alication SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field Programmable GateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

上述存储器52用于存储计算机程序，可能包含随机存取存储器(Random AccessMemory，简称RAM)，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

综上所述，本发明所述基于梯度维持的图像分类方法、存储介质及电子设备基于现有技术中耦合系数会造成梯度消失现象这一缺点，提出了可以维持梯度稳定的路由梯度系数。路由梯度系数作为超参数，替换现有路由方法中的耦合系数和迭代次数，不仅在某种程度上抑制了梯度的消失，而且还可以适当的放大梯度并将梯度更平滑地扩展到模型的前面的网络层，提高了模型的性能。由于防止了梯度的值过快地变小，使得模型在训练过程中可以更好的寻找到最优解。进一步，在图像分类任务中，相当于能找到更好的拟合图像分布的模型承诺书，提高模型的性能。本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。