CN110991563B

CN110991563B - 一种基于特征融合的胶囊网络随机路由方法

Info

Publication number: CN110991563B
Application number: CN201911333374.4A
Authority: CN
Inventors: 孙仁诚; 李淑静; 隋毅; 吴舜尧; 邵峰晶; 韩腾昊
Original assignee: Qingdao University
Current assignee: Qingdao University
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2023-04-18
Anticipated expiration: 2039-12-23
Also published as: CN110991563A

Abstract

本发明属于深度学习计算机视觉图像处理领域，涉及一种胶囊网络中新的基于特征融合的随机路由算法。该方法通过如下技术方案实现：先从原始特征输入图像中经过卷积操作提取到的各类特征信息中提取出不受空间变换影响的一般性特征；然后从不同的视角点出发，对于一般性特征U_S施加不同的观测动作，得到被观测对象经过视角变换的观测特征U_O_ij,再对其进行特征融合，路由参数的初始化，首先将L层胶囊i的一般性特征U_S_i的激活概率作为P_ij的先验参数，用来加速迭代过程；

其中，R_l是L层胶囊的集合，R_l+1是L+1层胶囊的集合，||U_S_i||是L层胶囊i的一般性特征U_S_i的激活概率。本发明使用更小的特征提取矩阵在一定程度上压缩了胶囊网络的参数规模。

Description

一种基于特征融合的胶囊网络随机路由方法

技术领域：

本发明属于深度学习计算机视觉图像处理领域，涉及一种胶囊网络中新的基于特征融合的随机路由方法，用于胶囊网络的性能调优和加速模型训练。

背景技术：

传统的卷积神经网络(CNN)在探索空间关系中有着明显的局限性，它在分类相同类型但不同角度的图像时的一般方法是训练多个神经元来处理不同的特征方向的特征，并用一个顶层的检测神经元检测分类结果；这种方法倾向于记住数据集，而不是概括解决方案；它需要大量的训练数据，去覆盖不同的变体同时还要避免过拟合；这也就导致CNN在处理将个别特征进行简单的移动，旋转或大小调整的对抗样本时显得非常脆弱。

不同于卷积神经网络，胶囊网络(CapsNet)定义了全新的胶囊结构来提升它对于空间变换的解释能力；空间变换中的同变性是指网络可以对发生空间变换的对象进行检测，比如旋转，平移等，而且网络本身能够理解对象发生的空间变换和空间位置关系；在胶囊网络中，一个胶囊能够捕捉到一系列特征的存在可能性及其变体情况，同时在协议路由中定义仿射变换矩阵来模拟空间变换；因此，胶囊网络不仅能检测到观测对象的特征，还能通过训练来让仿射变换矩阵学习该特征的空间位置信息，检测它的空间变化情况；这样也就能够让胶囊网络用较少的训练数据，更有效地推断出分类对象可能出现的空间变化，赋予它针对空间变换的同变性质；同变性可以很好地帮助胶囊网络“理解”分类对象所具有的空间变化信息，比如位置坐标，旋转角度等等，并且利用这些信息来区分观测空间中视角点的不同。

在胶囊网络中，实现空间变换同变性的主要方法是在协议路由中定义仿射变换矩阵来模拟，推断视角变换，之后根据施加了视角变换后特征的空间位置信息组合得到观测结果；CapsNet一方面利用仿射变换矩阵学习到一种最优的对于可能存在的视角变换均普遍适用的模拟，另一方面是按照特征之间的空间位置关系组合特征；这也让其具有针对输入数据空间变换的鲁棒性；但是这也导致了CapsNet需要定义足够大的仿射变换矩阵来模拟特征的视角点的变换情况，同时针对于出现的所有视角变换，即使是幅度较小的情况，CapsNet都会在仿射矩阵中模拟这种变换，这导致了CapsNet需要大量的训练耗费来寻找最合适的仿射变换矩阵；因此，本发明寻求设计提供一种基于特征融合的胶囊网络随机路由算法，用于胶囊网络的性能调优和加速模型训练；能够在保证观测特征空间位置信息不丢失的前提下，将协议路由算法操作的对象从单一的观测特征拓展到更为复杂的融合特征，丰富了特征组合方式，为协议路由引入一定程度上的空间变换不变性质，优化了寻找最优仿射变换矩阵的过程。

发明内容：

本发明的目的在于克服现有技术存在的上述缺陷，寻求设计提供一种基于特征融合的胶囊网络随机路由方法，将被观测对象的一般性特征与经过视角变换的观测特征进行融合，一般性特征指的是在空间变换中不发生变化的核心特征；在保证被观测对象特征空间位置信息不丢失的前提下，将动态路由算法操作的对象从单一的观测特征拓展到更为复杂的融合特征，同时建立了一种更加高效，丰富的特征组合方式。

为了实现上述目的，本发明涉及的一种基于特征融合的胶囊网络随机路由方法通过如下技术方案实现：

S1、一般性特征提取：

首先，从原始特征输入图像中经过卷积操作提取到的各类特征信息中提取出不受空间变换影响的一般性特征，一般性特征作为不随视角变化的被观测物体特征，是特征对空间变换不变性体现；在这里，使用1x1卷积来作为一般性特征的特征提取器，1x1卷积结构经过训练之后能够将特征的维度到从低维拓展到更高维，在这里就是将一般性特征从L层胶囊的维度提升到与观测特征一致；在这里的1x1卷积操作为卷积神经网络(CNN)中的池化操作，将原始特征中的核心特征提取出来，同时为模型增加了空间变换不变性，与池化操作不同的是，1x1卷积是由低维到高维的提取，激活函数Squashing的计算过程如下：

V_i＝Squashing(W_1×1*U_i+b_i)

其中V_i定义为胶囊的输出，W_1x1代表1x1的卷积核，b₁是偏置项；

然后，从不同的视角点出发，对于一般性特征U_S_i施加不同的观测动作，得到被观测对象经过视角变换的观测特征U_O_ij，在这里本发明同样定义一个仿射变换矩阵W_ij，它代表了施加在被观测对象上的视角变换情况；

其中，R_l是L层胶囊的集合，R_l+1是L+1层胶囊的集合，W_jj的大小为[H，W，D]，H为L层胶囊的个数，W是L+1层胶囊的个数，D是L+1层胶囊的维度；

S2、特征融合

经过步骤S1中的一般性特征提取之后，获得了一般性特征U_S_i，以及经过视角变换之后的观测特征U_O_ij；接下来需要将他们融合起来，作为协议路由的起点，之后经过协议路由的组合得到观测结果；显然的，不同的位置的一般性特征对最终的观测结果的影响程度必然是不同的；也就是说，协议路由所操作的融合特征对于一般性特征是有选择的，对获得最终的观测结果有利的特征是融合特征所需要的，需要保留甚至加强它对于融合特征的贡献，而对融合特征产生负影响的特征，需要减弱它对于融合特征的影响；最终，寻找到一种最优的组合方式对一般性特征和观测特征进行融合，最终获取观测结果；

在这里引入选择权重P_ij，用来衡量胶囊i的一般性特征U_S_i对融合特征U_C_ij的影响程度，i为任意L层胶囊，j为任意L+1层胶囊；将一般性特征U_S_i按照它的选择权重P_ij与观测特征U_O_ij进行融合，得到胶囊i对于胶囊j的融合特征U_C_ij；

其中D_ij是胶囊i的一般性特征U_S_i与融合特征U_C_ij之间的相关系数；它对于所有的L层胶囊i的选择权重P_ij和为1；

最终，将U_S_i按照选择权重P_ij和U_O_ij进行特征融合，得到融合特征U_C_ij，对融合特征U_C_ij按照特征之间的空间位置信息进行组合，在这里本发明保留了传统的胶囊网络中的贡献权重C_ij，用来衡量融合特征对L+1层胶囊j的输出，也就是观测结果V_j的贡献程度，这里的贡献程度也即是特征之间空间位置关系的体现；将融合特征U_O_ij按照各自的贡献特征C_ij进行线性组合，得到胶囊j的输入S_j，对S_j进行Squshing非线性激活得到最终的胶囊j输出V_j；

S3、路由参数的初始化

传统的CapsNet通常用均匀分布对路由参数进行初始化；与之不同，将前一层胶囊的激活概率作为先验参数加入协议路由过程；首先将L层胶囊i的一般性特征U_S_i的激活概率作为P_ij的先验参数，用来加速迭代过程；

其中，R_l是L层胶囊的集合，R_l+1是L+1层胶囊的集合，||U_S_i||是L层胶囊i的一般性特征U_S_i的激活概率；

本发明与现有技术相比，取得的有益效果如下：

第一，从特征信息上来看，本发明为胶囊网络拓展了处理的特征对象，将传统胶囊网络处理的单一观测特征拓展成了一般性特征与观测特征的融合特征；

第二，丰富了特征组合方式，不仅保留了贡献权重来调节观测特征的贡献，还引入了选择特征来衡量一般性特征对于分类结果的影响；

第三，使用更小的特征提取矩阵在一定程度上压缩了胶囊网络的参数规模，提升了其效率。

附图说明：

图1为本发明涉及的胶囊网络的结构与信息传递方式流程原理示意图。

具体实施方式：

下面通过实施例并结合附图对本发明进一步说明。

实施例1：

本实施例涉及的一种基于特征融合的胶囊网络随机路由方法通过如下技术方案实现：

S1、一般性特征提取：

然后，从不同的视角点出发，对于一般性特征U_S_i施加不同的观测动作，得到被观测对象经过视角变换的观测特征U_O_ij，在这里同样定义一个仿射变换矩阵W_ij，它代表了施加在被观测对象上的视角变换情况；

其中，R_l是L层胶囊的集合，R_l+1是L+1层胶囊的集合，W_ij的大小为[H，W，D]，H为L层胶囊的个数，W是L+1层胶囊的个数，D是L+1层胶囊的维度；

S2、特征融合

最终，将U_S_i按照选择权重P_ij和U_O_ij进行特征融合，得到融合特征U_C_ij，对融合特征U_C_ij按照特征之间的空间位置信息进行组合，在这里保留了传统的胶囊网络中的贡献权重C_ij，用来衡量融合特征对L+1层胶囊j的输出，也就是观测结果V_j的贡献程度，这里的贡献程度也即是特征之间空间位置关系的体现；将融合特征U_O_ij按照各自的贡献特征C_ij进行线性组合，得到胶囊j的输入S_j，对S_j进行Squshing非线性激活得到最终的胶囊j输出V_j；

S3、路由参数的初始化

其中，R_l是L层胶囊的集合，R_l+1是L+1层胶囊的集合，||U_S_i||是L层胶囊i的一般性特征U_S_i的激活概率。

实施例2：

为对实施例1中基于特征融合的胶囊网络随机路由方法进行验证，本实施例在Fashion-Mnist上进行测试，Fashion-Mnist是一个替代MNIST手写数字集的图像数据集，它涵盖了来自10种类别的共7万个不同商品的正面图片；Fashion-Mnist的大小、格式和训练集/测试集划分与原始的MNIST完全一致；使用60000/10000的训练测试数据划分，28x28的灰度图片；在训练过程中仅在各个方向上进行了2个像素的零填充，除此之外未对数据进行任何其他处理；

本实施例重点测试基于特征融合改进后的动态路由算法与传统的CapsNet随机路由算法在特征组合方式和针对输入数据在视角点变换上的鲁棒性方面的优劣比较；从丰富特征组合方式的角度上来说，本实施例将差异对比放在两种动态路由算法在一般测试集的精度表现上；而针对于输入数据鲁棒性讨论，将通过针对测试集数据进行数据提升操作，包括平移和旋转变换；最终对比两种动态路由算法在该测试集的精度表现，来衡量改进后的协议路由算法针对输入图像在视角点变换上的鲁棒性提升；

本实施例涉及的胶囊网络的主体结构包括有：标准的卷积层、卷积-胶囊层、胶囊层构成；

卷积层：神经元个数为256，卷积核大小为5x 5，步长为2，使用ReLU作为非线性激活函数；胶囊网络在这一层提取图片特征作为下一层Primary_Capsule的输入；

卷积-胶囊层：网络在这一层将上一个卷积层提取到的图片特征由特征图转化成32通道的8D胶囊，每一个胶囊包含8个卷积核大小为7x 7，步长为1的卷积神经元结构，这一层输出的每一个胶囊代表的是物体在各个位置上的部分特征；

胶囊层：由10个16D的高层胶囊构成，每一个16D的胶囊对应最终的一个分类结果，也代表观测物体的不同视角点；特征融合协议路由算法应用在卷积-胶囊和胶囊层之间；最终搭建的胶囊网络模型如图1所示：

本实施例对实施例1所述技术方案在Fashion-Mnist数据集上的精度进行验证；

本实施例设置了三种不同的特征融合CapsNet，即三种不同的协议路由算法，它们的区别在于特征融合方式：

无特征融合：采用现有的的协议路由的CapsNet，作为对比中的对照模型；

层级融合：按照特征融合路由方法建立的CapsNet；

同级融合：与层级融合不同的是，该路由方法中的特征融合方式改为将一般性特征与独有特征在同一层级上进行融合，贡献权重仅仅影响独有特征的特征贡献，即：

Feature_融合＝贡献权重*Feature_独有+选择权重*Feature_一般性

最终，三种不同的特征融合协议路由方法在一般测试集(无数据提升操作)上的平均实验精度如表2所示；最终基于层级特征融合的协议路由方法的CapsNet的最优精度达到了93.1％；而采用相同参数设置的对照模型的最优精度为93.2％；显然基于特征融合的协议路由方法在Fashion-Mnist数据集上的精度与传统的协议路由算法相比，在精度基本相同的前提下，参数数目大大减少；

表2三种不同的特征融合方法对应的CapsNet模型测试精度和参数数目对比；

特征融合方式	Routing	测试精度	参数数目
				无特征融合	3	93.2	5.3M
层级融合	3	92.9	3.4M
				同级融合	3	93.1	3.4M

对于输入数据空间变换的鲁棒性

为了体现改进后的动态路由方法对于输入数据的鲁棒性上的优势，在不对训练集进行数据提升的情况下，对测试集进行数据提升操作：平移，旋转；其中为了实现被观测对象的在各个方向上的平移操作，在测试集图像边缘填充两个0像素，然后将其随机分割成为28x28的测试集图像；经过上述操作，可以认为，CapsNet在未经数据提升的训练集上训练，之后直接在经过数据提升后的测试集上的测试精度可以体现CapsNet对于输入数据的空间变换的鲁棒性的优劣；最终，在该测试集上的三种不同的特征融合动态路由方法的平均测试精度如表3所示；

表3三种不同的特征融合方法在经过数据提升后的测试集上的测试精度；

由上表显然可以分析得到，在经过特殊数据提升处理的测试集上，对于图片的平移变化，特征融合路由方法比传统的协议路由算法鲁棒性表现要好，其中，使用层级融合方式的特征融合方法要比使用同级融合方式表现要好；对于图片的旋转变化，基于特征融合的路由算法与传统的协议路由方法相比，并没有明显提升；最终，针对于两种空间变化都存在的情况，特征融合方法的鲁棒性表现同样要优于传统的协议路由方法，只是程度不如单独的平移变换大；其他数据集测试结果

本实施例也在cifar-10数据集上进行了搭建了实验模型，所使用的胶囊网络与上述模型的区别仅在于将输入数据的尺寸放大到了32x 32，迭代次数增加到5，同时将输入通道数和重构通道数扩展为3通道，最终能达到的最优测试集精度为78.73％，同时使用对照模型在使用同样的设置下所能达到的最优精度是79.6％，即在使用过更少参数的前提下，使用基于特征融合的路由方法的CapsNet在CIFAR-10数据上的精度同样达到了使用传统随机路由方法的胶囊网络精度；但是距离主流的CNN在CIFAR-10上的表现还有一定的差距，一方面的原因是，并没有对该数据集专门调整CapsNet模型的结构和参数设置，另一方面认为是RGB通道图像本身所携带的信息量规模比灰度图像要大，导致特征的协议路由过程中受噪声的干扰也更大；

另外，本实施例还在完整的SVHN数据集上进行了实验，针对于该数据集，将模型的输入尺寸拓展到32x 32，输入通道数和反卷积重构层通道数拓展到为三通道，除此之外，对输入数据本身不进行其他处理，最终基于特征融合的协议路由方法在该数据集上所能达到的最优精度为90.47％，同样接近于传统的协议路由方法在该数据集上所能达到的测试精度。

Claims

1.一种基于特征融合的胶囊网络随机路由方法，其特征在于该方法通过如下技术方案实现：

S1、一般性特征提取:

首先，从原始特征输入图像中经过卷积操作提取到的各类特征信息中提取出不受空间变换影响的一般性特征，一般性特征作为不随视角变化的被观测物体特征，是特征对空间变换不变性体现；在这里，使用1x1卷积来作为一般性特征的特征提取器，1x1卷积结构经过训练之后能够将特征的维度到从低维拓展到更高维，在这里就是将一般性特征从L层胶囊的维度提升到与观测特征一致；在这里的1x1卷积操作为卷积神经网络中的池化操作，将原始特征中的核心特征提取出来，同时为模型增加了空间变换不变性，与池化操作不同的是，1x1卷积是由低维到高维的提取，激活函数Squashing的计算过程如下：

V_i＝Squashing(W_1×1*U_i+b_i)其中V_i定义为胶囊的输出，W_1x1代表1x 1的卷积核，b₁是偏置项；

然后，从不同的视角点出发，对于一般性特征U_S_i施加不同的观测动作，得到被观测对象经过视角变换的观测特征U_O_ij,在这里同样定义一个仿射变换矩阵W_ij，它代表了施加在被观测对象上的视角变换情况；

U_O_ij＝U_S_i*W_ij

其中，R_l是L层胶囊的集合，R_l+1是L+1层胶囊的集合，W_ij的大小为[H,W,D],H为L层胶囊的个数，W是L+1层胶囊的个数，D是L+1层胶囊的维度；

S2、特征融合

U_C_ij＝U_O_ij+P_ij*U_S_i，

B_ij＝U_C_ij*V_j，S_j＝∑_iC_ij*U-C_ij，V_j＝Squshing(S_j)

S3、路由参数的初始化

P_ij＝||U-S_i||