CN112348118A - 基于梯度维持的图像分类方法、存储介质及电子设备 - Google Patents

基于梯度维持的图像分类方法、存储介质及电子设备 Download PDF

Info

Publication number
CN112348118A
CN112348118A CN202011377685.3A CN202011377685A CN112348118A CN 112348118 A CN112348118 A CN 112348118A CN 202011377685 A CN202011377685 A CN 202011377685A CN 112348118 A CN112348118 A CN 112348118A
Authority
CN
China
Prior art keywords
capsule
image
gradient
classification
network model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011377685.3A
Other languages
English (en)
Inventor
何良华
任强
施小春
李鹏飞
罗涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AVCON INFORMATION TECHNOLOGY CO LTD
Tongji University
Original Assignee
AVCON INFORMATION TECHNOLOGY CO LTD
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AVCON INFORMATION TECHNOLOGY CO LTD, Tongji University filed Critical AVCON INFORMATION TECHNOLOGY CO LTD
Priority to CN202011377685.3A priority Critical patent/CN112348118A/zh
Publication of CN112348118A publication Critical patent/CN112348118A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种基于梯度维持的图像分类方法、存储介质及电子设备,所述基于梯度维持的图像分类方法包括:获取待训练的图像集;将所述图像集划分为训练集和测试集;利用所述训练集训练分类胶囊网络模型,且在训练过程中通过图像预测胶囊的路由梯度系数维持胶囊层叠加时的梯度稳定;将所述测试集输入所述分类胶囊网络模型中进行图像分类的性能测试。本发明在图像分类所用的胶囊网络模型中通过路由梯度系数维持梯度稳定。不仅在某种程度上抑制了梯度的消失,而且还可以适当的可以放大梯度并将梯度更平滑地扩展到模型前面的网络层,提高了胶囊网络模型的图像分类性能。

Description

基于梯度维持的图像分类方法、存储介质及电子设备
技术领域
本发明属于深度神经网络的技术领域,涉及一种图像分类方法,特别是涉及一种基于梯度维持的图像分类方法、存储介质及电子设备。
背景技术
深度学习是近几年人工智能领域研究的一个热点方向,面向不同任务的神经网络的提出,更是加速了这一领域的发展。传统的神经网络在训练的过程中,无法学习特征之间的空间关系。基于传统神经网络的这一缺点,提出了胶囊网络。胶囊网络的提出,解决传统的神经网络在训练模型的时候无法整体的考虑多个神经元之间特征的空间关系,从而造成了信息的丢失,同时胶囊网络也可以更好的模仿人类大脑的思维模式。
在许多的分类任务中,对目标作出判别的时候仅仅根据目标的特征,丢失了特征之间的位置关系。例如在人脸识别的时候,神经网络仅仅判断图像中有没有存在眼睛、鼻子、嘴巴等重要特征,但是特征之间的位置关系,胶囊网络模型是不关心的。胶囊网络中胶囊的存在可以将特征之间的位置关系编码到胶囊中,对任务的判别更加合理和准确。在现有技术中,胶囊网络模型的训练由动态路由算法实现,动态路由算法是Hinton提出的一种学习胶囊层之间参数的算法。在胶囊网络的训练过程中,通过动态路由算法可以学习相邻胶囊层之间对应胶囊的耦合系数,使得模型寻找到低层胶囊和高层胶囊的对应关系,因此胶囊网络得以正常工作。
在神经网络的研究进展中,一个提高网络模型性能很直接的方法就是使网络的层数加深。这样模型可以学习到更强的非线性变换的能力。但是基于动态路由算法的胶囊网络却无法简单的叠加多个胶囊层,因为动态路由算法中由于耦合系数的存在会对梯度起放缩的作用。当堆叠深层胶囊网络模型时,将会造成梯度消失现象,使得模型无法正常工作。
因此,如何提供一种基于梯度维持的图像分类方法、存储介质及电子设备,以解决现有技术无法在利用胶囊网络进行图像分类时,较大程度地维持梯度的稳定等缺陷,成为本领域技术人员亟待解决的技术问题。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于梯度维持的图像分类方法、存储介质及电子设备,用于解决现有技术无法在利用胶囊网络进行图像分类时,较大程度地维持梯度的稳定的问题。
为实现上述目的及其他相关目的,本发明一方面提供一种基于梯度维持的图像分类方法,所述基于梯度维持的图像分类方法包括:获取待训练的图像集;将所述图像集划分为训练集和测试集;利用所述训练集训练分类胶囊网络模型,且在训练过程中通过图像预测胶囊的路由梯度系数维持胶囊层叠加时的梯度稳定;其中,所述分类胶囊网络模型叠加多个所述图像预测胶囊的特征;将所述测试集输入所述分类胶囊网络模型中进行图像分类的性能测试。
于本发明的一实施例中,所述在训练过程中通过图像预测胶囊的路由梯度系数维持胶囊层叠加时的梯度稳定的步骤包括:将所述训练集进行特征提取,获取特征图,将所述特征图进行堆叠形成所述基本图像特征;对所有的所述基本图像特征进行仿射变换后得到第一图像预测胶囊;对所有的所述基本图像特征对应的第一图像预测胶囊叠加,得到第一胶囊中间量,并将所述第一胶囊中间量进行压缩处理,得到第一激活胶囊特征;通过所述路由梯度系数与所述第一胶囊中间量的乘积对第二次迭代所用的第二胶囊中间量作近似处理,以在维持梯度稳定的基础上在第二次迭代时形成组合图像特征。
于本发明的一实施例中,所述对所有的所述基本图像特征进行仿射变换后得到第一图像预测胶囊的步骤包括:将所述基本图像特征对应的矩阵定义为:
Figure BDA0002807565240000021
其中,i表示基本图像特征所在的层数,n表示第n个特征图,
Figure BDA0002807565240000022
表示第n个特征图上的第1个特征对应的损失函数值;确定仿射矩阵Wij,其中,i表示基本图像特征所在的层数,j表示组合图像特征所在的层数;通过公式
Figure BDA0002807565240000023
对矩阵ui进行仿射变换,得到所述第一图像预测胶囊
Figure BDA0002807565240000024
于本发明的一实施例中,所述对所有的所述基本图像特征对应的第一图像预测胶囊叠加,得到第一胶囊中间量,并将所述第一胶囊中间量进行压缩处理,得到第一激活胶囊特征的步骤包括:通过公式
Figure BDA0002807565240000025
对所述第一图像预测胶囊
Figure BDA0002807565240000026
叠加,得到所述第一胶囊中间量sj;其中,i表示基本图像特征所在的层数,j表示组合图像特征所在的层数;利用激活函数对所述第一胶囊中间量sj进行压缩,得到所述第一激活胶囊特征vj
于本发明的一实施例中,所述通过所述路由梯度系数与所述第一胶囊中间量的乘积对第二次迭代所用的第二胶囊中间量作近似处理的步骤包括:利用公式
Figure BDA0002807565240000027
对所述第一图像预测胶囊
Figure BDA0002807565240000028
进行更新,形成第二次迭代中的第二图像预测胶囊;对所述第二图像预测胶囊叠加得到所述第二胶囊中间量,并将所述第二胶囊中间量
Figure BDA0002807565240000029
近似处理为
Figure BDA00028075652400000210
其中,λ为所述路由梯度系数。
于本发明的一实施例中,所述在维持梯度稳定的基础上在第二次迭代时形成组合图像特征的步骤包括:利用所述激活函数对
Figure BDA0002807565240000031
进行压缩,得到所述组合图像特征。
于本发明的一实施例中,所述将所述测试集输入所述分类胶囊网络模型中进行图像分类的性能测试的步骤包括:将所述测试集输入所述分类胶囊网络模型进行分类测试,以获取相应的分类结果;调整所述路由梯度系数后,将所述待测试数据集再次输入所述分类胶囊网络模型进行分类测试;针对不同的所述测试集,比较不同的路由梯度系数所对应的分类结果,以确定所述分类胶囊网络模型性能最好的路由梯度系数。
于本发明的一实施例中,在将所述测试集输入所述分类胶囊网络模型进行分类测试之前,通过原始图像的尺寸调整、每个方向上以零填充进行像素的移动以及训练参数的调整中的一种或多种方式对所述待测试数据集进行预处理。
本发明另一方面提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的基于梯度维持的图像分类方法。
本发明最后一方面提供一种电子设备,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行所述的基于梯度维持的图像分类方法。
如上所述,本发明所述的基于梯度维持的图像分类方法、存储介质及电子设备,具有以下有益效果:
本发明中基于现有技术中耦合系数会造成梯度消失现象这一缺点,提出了可以维持梯度稳定的路由梯度系数。路由梯度系数作为超参数,替换现有路由方法中的耦合系数和迭代次数,不仅在某种程度上抑制了梯度的消失,而且还可以适当的放大梯度并将梯度更平滑地扩展到模型的前面的网络层,提高了模型的性能。由于防止了梯度的值过快地变小,使得模型在训练过程中可以更好的寻找到最优解。进一步,在图像分类任务中,相当于能找到更好的拟合图像分布的模型承诺书,提高模型的性能。
附图说明
图1显示为胶囊网络与传统神经网络的对比示意图。
图2显示为现有技术中胶囊网络动态路由迭代原理图。
图3显示为本发明的基于梯度维持的图像分类方法于一实施例中的原理流程图。
图4显示为本发明的基于梯度维持的图像分类方法于一实施例中的梯度稳定流程图。
图5显示为本发明的电子设备于一实施例中的结构连接示意图。
元件标号说明
5 电子设备
51 处理器
52 存储器
S31~S34 步骤
S331~S334 步骤
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明所述的基于梯度维持的图像分类方法、存储介质及电子设备在图像分类所用的分类胶囊网络模型中通过路由梯度系数维持梯度稳定。不仅在某种程度上抑制了梯度的消失,而且还可以适当的可以放大梯度并将梯度更平滑地扩展到模型前面的网络层,提高了胶囊网络模型的图像分类性能。
以下将结合图1至图5详细阐述本实施例的一种基于梯度维持的图像分类方法、存储介质及电子设备的原理及实施方式,使本领域技术人员不需要创造性劳动即可理解本实施例的基于梯度维持的图像分类方法、存储介质及电子设备。
首先,分析现有技术中动态路由算法在堆叠多层胶囊层时,容易造成梯度消失的原因,进而,提出本发明所述的基于梯度维持的图像分类方法,由此通过路由梯度系数维持梯度稳定,进而使分类胶囊网络模型的工作性能更稳定,提高图像分类的准确率。
在现有的基于动态路由算法的胶囊网络中,仅仅有PrimaryCaps和DigitCaps两层胶囊层,第一层胶囊层是由经过卷积神经网络提取特征之后的特征图按照一定的规则堆叠形成的,而第二层的胶囊层则是使用动态路由算法,对PrimaryCaps层的胶囊进行迭代计算之后得到的。在两层胶囊层之间,有需要反向传播训练的仿射变换矩阵Wij,和经过动态路由算法迭代计算得到的耦合系数cij
请参阅图1,显示为胶囊网络与传统神经网络的对比示意图。如图1所示,神经元从其他神经元接收输入标量,然后将它们乘以标量权重和总和。然后将该总和传递到许多可能的非线性激活函数之一,该函数采用输入标量并根据该函数输出标量。标量将是神经元的输出,它将作为其他神经元的输入。由此,人工神经元可以通过3个步骤来描述:1.输入标量的标量加权;2.加权输入标量之和;3.标量到标量的非线性。胶囊神经元除了传统神经网络的三个步骤外,还有一个仿射变换过程,由此,胶囊神经元可以通过4个步骤来描述:1.输入向量的矩阵乘法(仿射变换);2.输入向量的标量加权;3加权输入向量之和;4.向量对向量的非线性变换。
请参阅图2,显示为现有技术中胶囊网络动态路由迭代原理图。如图2所示,显示了基于动态路由算法的胶囊网络中PrimaryCaps层和DigitCaps层之间的前向数据流和后向梯度流。m*是仿射变换矩阵Wij中的参数,而x*是与胶囊ui中与m*相关的、而且在特征图上
Figure BDA0002807565240000051
Figure BDA0002807565240000052
的特征x对应的loss值。实线箭头表示前向的数据流,虚线箭头表示后向的梯度流。PrimaryCaps层中的特征层为
Figure BDA0002807565240000053
(下标为第一个特征图),如下面的等式中所定义:
Figure BDA0002807565240000054
将不同特征图上的特征堆叠(一组胶囊由8个特征图组成)并形成胶囊。并且所有胶囊i在第l层中,而胶囊j在第(l+1)层中。低层的胶囊ui由特征图
Figure BDA0002807565240000055
(每个特征图上有36个特征)上的特征组成,
Figure BDA0002807565240000056
表示特征图上的特征点,n表示第n个特征图,1表示第n个特征图上的第一个特征点。特征图堆叠形成的低层胶囊ui(下标i代表第i个低层胶囊,本发明中所述的i意义均相同)根据
Figure BDA0002807565240000057
进行定义。
通过仿射矩阵Wij对低层胶囊
Figure BDA0002807565240000058
进行仿射变换,以将维度8的胶囊转换成维度16的胶囊,增加了胶囊的仿射变换能力。Wij矩阵中的参数
Figure BDA0002807565240000059
表示矩阵中每个点的值,维度(8,16),参数m的上下标表示在仿射矩阵中不同维度的序号。因此,ui通过Wij的仿射变换获得
Figure BDA00028075652400000510
(j代表第j个高层胶囊,本发明中所述的j意义都相同):
Figure BDA00028075652400000511
其中,仿射矩阵Wij为:
Figure BDA00028075652400000512
然后,计算
Figure BDA00028075652400000513
的加权和的值,其中,权值为耦合系数cij,得到高层胶囊vj,如下面的等式中所述:
Figure BDA0002807565240000061
胶囊网络中分类正确类别的损失函数为Lj,Lj=k·max(0,m+-||vj||)2,其中,m+=0.9,k=0.5是用于在模长求导的过程中消去系数,由人为设定,为了求导后方便计算。
从损失函数Lj的等式可以得出,胶囊网络的损失与高层胶囊vj的长度和vj中的值有关。m是仿射变换矩阵Wij中的参数,它是通过反向传播算法学习的。cij是耦合系数,它是通过动态路由的迭代计算得到的。当梯度流过相邻的胶囊层时,结果如下:
Figure BDA0002807565240000062
根据上面等式可以得到,m*是仿射变换矩阵Wij中的参数,而x*是与胶囊ui中与m*相关的、而且在特征图上
Figure BDA0002807565240000063
的特征x对应的loss值。综上可知,反向传播中的梯度值将受到耦合系数cij的影响。因为动态路由算法获得的耦合系数cij大多接近0.1,甚至更小。所以当胶囊网络中堆叠了多个胶囊层时,cij的存在将使梯度值变小,这会影响对前层参数的学习,并使胶囊网络无法工作。
所以当耦合系数cij的值较小时,会对梯度起放缩的作用。在胶囊网络叠加多层胶囊层时,再根据链式法则,耦合系数cij对梯度的影响会成倍放大,造成模型前面的网络层发生梯度消失现象,使得网络模型无法正常工作。
请参阅图3,显示为本发明的基于梯度维持的图像分类方法于一实施例中的原理流程图。如图3所示,所述基于梯度维持的图像分类方法具体包括以下几个步骤:
S31,获取待训练的图像集。
S32,将所述图像集划分为训练集和测试集。
S33,利用所述训练集训练分类胶囊网络模型,且在训练过程中通过图像预测胶囊的路由梯度系数维持胶囊层叠加时的梯度稳定;其中,所述分类胶囊网络模型叠加多个所述图像预测胶囊的特征。
请参阅图4,显示为本发明的基于梯度维持的图像分类方法于一实施例中的梯度稳定流程图。如图4所示,S33包括:
S331,将所述训练集进行特征提取,获取特征图,将所述特征图进行堆叠形成所述基本图像特征。具体地,在训练过程中将通过卷积层提取抽象特征后的图像特征堆叠为胶囊形式。
S332,对所有的所述基本图像特征进行仿射变换后得到第一图像预测胶囊。
在本实施例中,低层胶囊对应为基本图像特征的胶囊,高层胶囊对应为组合图像特征的胶囊。例如,在基于人脸识别的图像分类应用中,低层胶囊对应单独的眼睛、鼻子、嘴巴等基本图像特征,对低层胶囊的基本图像特征进行求和后,形成人脸整体的五官特征,将五官特征作为组合图像特征,为高层胶囊。将所述基本图像特征对应的矩阵定义为:
Figure BDA0002807565240000071
Figure BDA0002807565240000072
其中,i表示低层胶囊所在的层数,n表示第n个特征图,
Figure BDA0002807565240000073
表示第n个特征图上的第1个特征对应的损失函数值。
确定仿射矩阵Wij,其中,i表示低层胶囊所在的层数,j表示高层胶囊所在的层数。需要说明的是,本发明中低层与高层以及前一层与后一层为胶囊网络中的相对概念,即相邻的胶囊层,前一层胶囊作为低层胶囊,后一层胶囊作为高层胶囊。
通过公式
Figure BDA0002807565240000074
对矩阵ui进行仿射变换,得到所述第一图像预测胶囊
Figure BDA0002807565240000075
S333,对所有的所述基本图像特征对应的第一图像预测胶囊叠加,得到第一胶囊中间量,并将所述第一胶囊中间量进行压缩处理,得到第一激活胶囊特征。
在本实施例中,通过公式
Figure BDA0002807565240000076
对所述第一图像预测胶囊
Figure BDA0002807565240000077
叠加,得到所述第一胶囊中间量sj;其中,i表示基本图像特征所在的层数,j表示组合图像特征所在的层数。
利用激活函数对所述第一胶囊中间量sj进行压缩,得到所述第一激活胶囊特征vj。具体地,使用激活函数(squash)压缩sj,vj=squash(sj),以获得激活后的高层胶囊vj(与sj方向相同),实现胶囊网络的正向训练过程。
S334,通过所述路由梯度系数与所述第一胶囊中间量的乘积对第二次迭代所用的第二胶囊中间量作近似处理,以在维持梯度稳定的基础上在第二次迭代时形成组合图像特征。
利用公式
Figure BDA0002807565240000078
对所述第一图像预测胶囊
Figure BDA0002807565240000079
进行更新,形成第二次迭代中的第二图像预测胶囊。
对所述第二图像预测胶囊叠加得到所述第二胶囊中间量,并将所述第二胶囊中间量
Figure BDA00028075652400000710
近似处理为
Figure BDA00028075652400000711
其中,λ为所述路由梯度系数。
利用所述激活函数对
Figure BDA00028075652400000712
进行压缩,得到所述组合图像特征,即激活后的高层胶囊。
具体地,将分类胶囊网络模型进行反复迭代过程如下(其中,上标的r为路由迭代次数),第一胶囊中间量表示为:
Figure BDA00028075652400000713
因此,在第一次迭代之后,第一激活向量的输出如下:
Figure BDA00028075652400000714
由此,根据公式
Figure BDA0002807565240000081
第二次迭代的输入
Figure BDA0002807565240000082
被更新为:
Figure BDA0002807565240000083
当迭代参数r=2时,第二胶囊中间量的输出为:
Figure BDA0002807565240000084
然后,通过激活函数对第二胶囊中间量sj (r=2)进行压缩处理,得到第二激活向量vj (r=2)
Figure BDA0002807565240000085
Figure BDA0002807565240000086
在上面等式中引入了路由梯度系数,即超参数λ。λ代表的意义是将
Figure BDA0002807565240000087
进行放大,其值接近经过激活函数squash后的vj (r=2)。因此,在第二次迭代之后,动态路由算法的输出如下:
Figure BDA0002807565240000088
由此,如果迭代次数增加,则λ将更大,并最终得到高层胶囊vj
Figure BDA0002807565240000089
在上述通过路由梯度系数维持梯度稳定的过程中,通过引入了一个路由梯度系数(超参数λ)替换路由的耦合系数和迭代次数,由于超参数λ设定为正整数,与动态路由算法中的耦合系数cij相比(cij为接近于0.1的小数),不仅在某种程度上抑制了梯度的消失,而且适当的λ(大于1)可以放大梯度并将梯度更平滑地扩展到模型前面的网络层。在深度学习模型中,模型能否更好的收敛,梯度的传播是极其重要的,因为模型的参数是根据梯度的值进行优化的。超参数λ防止了梯度的值过快地变小(由耦合系数cij的0.1扩展为正整数),使得模型在训练过程中可以更好的寻找到最优解。在图像分类任务中,相当于能找到更好的拟合图像分布的模型承诺书,提高模型的性能。本发明主要对梯度系数进行了优化,进一步改善了模型的性能。因此,超参数λ在模型训练的过程可以充当路由梯度系数的作用。
S34,将所述测试集输入所述分类胶囊网络模型中进行图像分类的性能测试。
在本实施例中,S34包括:
(1)将所述测试集输入所述分类胶囊网络模型进行分类测试,以获取相应的分类结果。
进一步地,在将所述测试集输入所述分类胶囊网络模型进行分类测试之前,通过原始图像的尺寸调整、每个方向上以零填充进行像素的移动以及训练参数的调整中的一种或多种方式对所述待测试数据集进行预处理。
具体地,为了测试路由梯度系数对分类胶囊网络模型的图像分类效果,对图像数据集Fashion-MNIST和CIFAR10上进行了实验。
在本实验使用pytorch库进行实验开发。在训练过程中,本实验使用Adam优化器,其初始学习率为0.001,在每轮使用之后,其初始学习率降低了5%。该模型在GTX-1080Ti上进行了训练,每次实验训练了150轮的训练。所有实验进行了三次,并对结果取平均值。对于不同的数据集,本实验使用了不同的预处理方式。
对于数据集Fashion-MNIST,因为数据集的图像都是28×28的灰度图像,本实验使用了原始图像的尺寸大小,并在每个方向上以零填充向上移动最多2像素,不再使用其他的数据增强/变形。网络模型的结构和原始胶囊网络中的结构相同,将训练的batchsize设置为128。
对于数据集CIFAR10,本实验将其图像大小调整为32×32×3,并在每个方向上以零填充向上移动最多2像素,不再使用其他的数据增强/变形。网络模型的结构和原始胶囊网络中的结构相同,数据集的训练的batchsize设置为128。
对数据集Fashion-MNIST和CIFAR10进行实验,将Fashion-MNIST数据集上的分类结果和CIFAR10数据集上的分类结果分别进行列表管理,形成表1和表2。在胶囊层数不同和梯度系数λ值不同时的动态路由算法的分类结果如表1和表2所示。
表1 Fashion-MNIST数据集上的分类结果表
λ=1 λ=2 λ=3 λ=4
2层胶囊层 92.78 93.23 93.07 92.96
3层胶囊层 93.54 93.63 93.39 93.38
4层胶囊层 93.61 93.71 93.57 93.41
表2 CIFAR10数据集上的分类结果表
λ=1 λ=2 λ=3 λ=4
2层胶囊层 78.24 77.97 78.41 78.34
3层胶囊层 78.41 78.01 78.66 78.44
4层胶囊层 78.42 78.13 78.68 78.50
从表1和表2中可以得出,在数据集CIFAR10和Fashion-MNIST上,在不同数量的胶囊层和不同的路由梯度系数λ的值下获得了不同的性能。图像分类任务目的是为了更准确的识别图像的类别。基于表1和表2的实验结果可以得到,对于使用的图像分类数据集,使用值越大的超参数λ,模型取得了更高的准确率,即模型可以更准确的识别图像的类别。当其他配置参数相同时,模型的性能随胶囊层数的增加而提高。此外,模型的性能随着λ的改变而不同。当λ的值为2或3时,在数据集Fashion-MNIST上性能会更好。并且当λ的值等于1或3时,还可以在数据集CIFAR10上获得更好的性能。胶囊层之间的路由算法学习对象的仿射变换以及低层胶囊和高层胶囊的组合关系。因此,堆叠多个胶囊层可以提高模型性能,从而可以学习更强大的仿射变换功能以及与相邻层胶囊相对应的更复杂的组合。
(2)调整所述路由梯度系数后,将所述待测试数据集再次输入所述分类胶囊网络模型进行分类测试。
为了进一步在证实本发明所述的基于梯度维持的图像分类方法中,路由梯度系数可以较好维持梯度的传播,同时为了证明耦合系数cij的存在会造成梯度消失现象,使得模型无法正常工作。于是将路由梯度系数λ的值设为0.1甚至更小的值(耦合系数cij的值接近于0.1),检测在路由梯度系数λ的值较小时(此时对模型的性能影响相当于动态路由算法中的耦合系数cij),模型是否会无法工作。将CIFAR10数据集上较小的路由梯度系数λ的模型分类结果进行列表管理,形成表3。设置较小的路由梯度系数λ的模型分类结果如表3所示。
表3 CIFAR10数据集上较小路由梯度系数的分类结果表
λ=0.1 λ=0.001 λ=0.0001 λ=0.00001
2层胶囊层 77.24 69.25 10.58 10.42
3层胶囊层 10.23 10.01 10.22 10.12
4层胶囊层 10.18 10.15 10.02 10.06
由表3可知,取路由梯度系数λ为较小的值时在数据集CIFAR10上获得了不同的模型性能。很明显,有两种情况导致胶囊网络无法正常工作:首先,当在两个胶囊层的模型中将λ的值设置为0.0001甚至更低时,胶囊网络将崩溃,这与现有技术中叠加多层产生的结果相同。其次,当λ的值在多个胶囊层(3层和4层)中设置为0.1或更小时,胶囊网络也无法正常工作。同样,当堆叠多个胶囊层时,使用动态路由算法的胶囊网络也有相同的情况。当λ的值设置为较小的数值时(此时模型耦合系数在梯度传播中的影响),模型预测的结果趋于10%,无法正常工作,此时发生梯度消失现象。
通过表3的结果和表2的结果进行对比,可以得到不同数值的路由梯度系数λ对模型性能对影响。当可以得到不同数值的路由梯度系数λ设置为正整数时,模型会收敛的更好,对于图像分类的预测可以取得更高的准确率;同时当λ的值设置为较小的数值时,模型预测的结果趋近于10%,此时发生梯度消失现象模型无法正常工作。因此,表2和表3结果对比可以证明胶囊网络中的路由梯度系数的提出可以在一定程度上减缓梯度消失的影响,维持模型训练过程中梯度的稳定,进而提高模型的准确率,可以更准确的识别图像的类别。
(3)针对不同的所述测试集,比较不同的路由梯度系数所对应的分类结果,以确定所述分类胶囊网络模型性能最好的路由梯度系数。
本发明所述的基于梯度维持的图像分类方法的保护范围不限于本实施例列举的步骤执行顺序,凡是根据本发明的原理所做的现有技术的步骤增减、步骤替换所实现的方案都包括在本发明的保护范围内。
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述基于梯度维持的图像分类方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的计算机可读存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的计算机存储介质。
请参阅图5,显示为本发明的电子设备于一实施例中的结构连接示意图。如图5所示,本实施例提供一种电子设备5,电子设备5具体包括:处理器51和存储器52。
上述的处理器51可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Alication SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field Programmable GateArray,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
上述存储器52用于存储计算机程序,可能包含随机存取存储器(Random AccessMemory,简称RAM),也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
综上所述,本发明所述基于梯度维持的图像分类方法、存储介质及电子设备基于现有技术中耦合系数会造成梯度消失现象这一缺点,提出了可以维持梯度稳定的路由梯度系数。路由梯度系数作为超参数,替换现有路由方法中的耦合系数和迭代次数,不仅在某种程度上抑制了梯度的消失,而且还可以适当的放大梯度并将梯度更平滑地扩展到模型的前面的网络层,提高了模型的性能。由于防止了梯度的值过快地变小,使得模型在训练过程中可以更好的寻找到最优解。进一步,在图像分类任务中,相当于能找到更好的拟合图像分布的模型承诺书,提高模型的性能。本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种基于梯度维持的图像分类方法,其特征在于,所述基于梯度维持的图像分类方法包括:
获取待训练的图像集;
将所述图像集划分为训练集和测试集;
利用所述训练集训练分类胶囊网络模型,且在训练过程中通过图像预测胶囊的路由梯度系数维持胶囊层叠加时的梯度稳定;其中,所述分类胶囊网络模型叠加多个所述图像预测胶囊的特征;
将所述测试集输入所述分类胶囊网络模型中进行图像分类的性能测试。
2.根据权利要求1所述的基于梯度维持的图像分类方法,其特征在于,所述在训练过程中通过图像预测胶囊的路由梯度系数维持胶囊层叠加时的梯度稳定的步骤包括:
将所述训练集进行特征提取,获取特征图,将所述特征图进行堆叠形成所述基本图像特征;
对所有的所述基本图像特征进行仿射变换后得到第一图像预测胶囊;
对所有的所述基本图像特征对应的第一图像预测胶囊叠加,得到第一胶囊中间量,并将所述第一胶囊中间量进行压缩处理,得到第一激活胶囊特征;
通过所述路由梯度系数与所述第一胶囊中间量的乘积对第二次迭代所用的第二胶囊中间量作近似处理,以在维持梯度稳定的基础上在第二次迭代时形成组合图像特征。
3.根据权利要求2所述的基于梯度维持的图像分类方法,其特征在于,所述对所有的所述基本图像特征进行仿射变换后得到第一图像预测胶囊的步骤包括:
将所述基本图像特征对应的矩阵定义为:
Figure FDA0002807565230000011
其中,i表示基本图像特征所在的层数,n表示第n个特征图,
Figure FDA0002807565230000012
表示第n个特征图上的第1个特征对应的损失函数值;
确定仿射矩阵Wij,其中,i表示基本图像特征所在的层数,j表示组合图像特征所在的层数;
通过公式
Figure FDA0002807565230000016
对矩阵ui进行仿射变换,得到所述第一图像预测胶囊
Figure FDA0002807565230000013
4.根据权利要求3所述的基于梯度维持的图像分类方法,其特征在于,所述对所有的所述基本图像特征对应的第一图像预测胶囊叠加,得到第一胶囊中间量,并将所述第一胶囊中间量进行压缩处理,得到第一激活胶囊特征的步骤包括:
通过公式
Figure FDA0002807565230000015
对所述第一图像预测胶囊
Figure FDA0002807565230000014
叠加,得到所述第一胶囊中间量sj;其中,i表示基本图像特征所在的层数,j表示组合图像特征所在的层数;
利用激活函数对所述第一胶囊中间量sj进行压缩,得到所述第一激活胶囊特征vj
5.根据权利要求4所述的基于梯度维持的图像分类方法,其特征在于,所述通过所述路由梯度系数与所述第一胶囊中间量的乘积对第二次迭代所用的第二胶囊中间量作近似处理的步骤包括:
利用公式
Figure FDA0002807565230000021
对所述第一图像预测胶囊
Figure FDA0002807565230000025
进行更新,形成第二次迭代中的第二图像预测胶囊;
对所述第二图像预测胶囊叠加得到所述第二胶囊中间量,并将所述第二胶囊中间量
Figure FDA0002807565230000022
近似处理为
Figure FDA0002807565230000023
其中,λ为所述路由梯度系数。
6.根据权利要求5所述的基于梯度维持的图像分类方法,其特征在于,所述在维持梯度稳定的基础上在第二次迭代时形成组合图像特征的步骤包括:
利用所述激活函数对
Figure FDA0002807565230000024
进行压缩,得到所述组合图像特征。
7.根据权利要求1所述的基于梯度维持的图像分类方法,其特征在于,所述将所述测试集输入所述分类胶囊网络模型中进行图像分类的性能测试的步骤包括:
将所述测试集输入所述分类胶囊网络模型进行分类测试,以获取相应的分类结果;
调整所述路由梯度系数后,将所述待测试数据集再次输入所述分类胶囊网络模型进行分类测试;
针对不同的所述测试集,比较不同的路由梯度系数所对应的分类结果,以确定所述分类胶囊网络模型性能最好的路由梯度系数。
8.根据权利要求7所述的基于梯度维持的图像分类方法,其特征在于,
在将所述测试集输入所述分类胶囊网络模型进行分类测试之前,通过原始图像的尺寸调整、每个方向上以零填充进行像素的移动以及训练参数的调整中的一种或多种方式对所述待测试数据集进行预处理。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8中任一项所述的基于梯度维持的图像分类方法。
10.一种电子设备,其特征在于,包括:处理器及存储器;
所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行如权利要求1至8中任一项所述的基于梯度维持的图像分类方法。
CN202011377685.3A 2020-11-30 2020-11-30 基于梯度维持的图像分类方法、存储介质及电子设备 Pending CN112348118A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011377685.3A CN112348118A (zh) 2020-11-30 2020-11-30 基于梯度维持的图像分类方法、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011377685.3A CN112348118A (zh) 2020-11-30 2020-11-30 基于梯度维持的图像分类方法、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN112348118A true CN112348118A (zh) 2021-02-09

Family

ID=74366220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011377685.3A Pending CN112348118A (zh) 2020-11-30 2020-11-30 基于梯度维持的图像分类方法、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN112348118A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642228A (zh) * 2021-07-05 2021-11-12 北京电子工程总体研究所 一种基于CapsNet的未知类型故障预测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110197125A (zh) * 2019-05-05 2019-09-03 上海资汇信息科技有限公司 无约束条件下的人脸识别方法
US20190303742A1 (en) * 2018-04-02 2019-10-03 Ca, Inc. Extension of the capsule network
CN110807327A (zh) * 2019-10-16 2020-02-18 大连理工大学 一种基于语境化胶囊网络的生物医学实体识别方法
CN111191660A (zh) * 2019-12-30 2020-05-22 浙江工业大学 一种基于多通道协同胶囊网络的直肠癌病理学图像分类方法
CN111401455A (zh) * 2020-03-20 2020-07-10 中国科学院空天信息创新研究院 一种基于Capsules-Unet模型的遥感图像深度学习分类方法和系统
US20200285934A1 (en) * 2017-10-27 2020-09-10 Google Llc Capsule neural networks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200285934A1 (en) * 2017-10-27 2020-09-10 Google Llc Capsule neural networks
US20190303742A1 (en) * 2018-04-02 2019-10-03 Ca, Inc. Extension of the capsule network
CN110197125A (zh) * 2019-05-05 2019-09-03 上海资汇信息科技有限公司 无约束条件下的人脸识别方法
CN110807327A (zh) * 2019-10-16 2020-02-18 大连理工大学 一种基于语境化胶囊网络的生物医学实体识别方法
CN111191660A (zh) * 2019-12-30 2020-05-22 浙江工业大学 一种基于多通道协同胶囊网络的直肠癌病理学图像分类方法
CN111401455A (zh) * 2020-03-20 2020-07-10 中国科学院空天信息创新研究院 一种基于Capsules-Unet模型的遥感图像深度学习分类方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
QIANG REN ET AL.: "Adaptive Routing Between Capsules", 《DEPARTMENT OF COMPUTER SCIENCE AND TECHNOLOGY》, 19 November 2019 (2019-11-19), pages 1 - 9 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642228A (zh) * 2021-07-05 2021-11-12 北京电子工程总体研究所 一种基于CapsNet的未知类型故障预测方法

Similar Documents

Publication Publication Date Title
US11461628B2 (en) Method for optimizing neural networks
CN112348119B (zh) 基于胶囊网络的图像分类方法、存储介质及电子设备
CN112949678B (zh) 深度学习模型对抗样本生成方法、系统、设备及存储介质
US11449754B1 (en) Neural network training method for memristor memory for memristor errors
CN112257794A (zh) 一种基于yolo的轻量级的目标检测方法
JP2019032808A (ja) 機械学習方法および装置
WO2022105108A1 (zh) 一种网络数据分类方法、装置、设备及可读存储介质
CN112288086A (zh) 一种神经网络的训练方法、装置以及计算机设备
CN109740734B (zh) 一种利用优化神经元空间排布的卷积神经网络的图像分类方法
Dozono et al. Convolutional self organizing map
CN112580728B (zh) 一种基于强化学习的动态链路预测模型鲁棒性增强方法
Wei et al. Deep unfolding with normalizing flow priors for inverse problems
CN109002794B (zh) 一种非线性非负矩阵分解人脸识别构建方法、系统及存储介质
CN110991621A (zh) 一种基于通道数搜索卷积神经网络的方法
CN111931801B (zh) 一种基于路径多样性与一致性的动态路由网络学习方法
CN115564983A (zh) 目标检测方法、装置、电子设备、存储介质及其应用
CN115860100A (zh) 一种神经网络模型训练方法、装置及计算设备
CN116188878A (zh) 基于神经网络结构微调的图像分类方法、装置和存储介质
CN114332538A (zh) 图像分类模型训练方法、图像分类方法、设备及存储介质
CN112348118A (zh) 基于梯度维持的图像分类方法、存储介质及电子设备
US11875263B2 (en) Method and apparatus for energy-aware deep neural network compression
CN111914904B (zh) 一种融合DarkNet与CapsuleNet模型的图像分类方法
CN113378866B (zh) 图像分类方法、系统、存储介质及电子设备
US20200372363A1 (en) Method of Training Artificial Neural Network Using Sparse Connectivity Learning
CN115292509A (zh) 基于多粒度注意力网络的图立方链接预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210209

WD01 Invention patent application deemed withdrawn after publication