CN110009097A

CN110009097A - 胶囊残差神经网络、胶囊残差神经网络的图像分类方法

Info

Publication number: CN110009097A
Application number: CN201910309297.2A
Authority: CN
Inventors: 匡平; 李凡; 何明耘; 王豪爽; 李小芳
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2019-04-17
Filing date: 2019-04-17
Publication date: 2019-07-12
Anticipated expiration: 2039-04-17
Also published as: CN110009097B

Abstract

本发明公开了一种胶囊残差神经网络和基于胶囊残差神经网络的图像分类方法，属于图像处理技术领域，胶囊残差神经网络包括CNN前端和胶囊残差神经网络后端；CNN前端包括第一残差网络和第二残差网络，第一残差网络包括若干基本识别模块和快捷方式的标识块；第二残差网络包括若干基本识别模块；基本识别模块和快捷方式的标识块包括若干卷积层和批标准化层；胶囊残差神经网络后端包括第一胶囊层和第二胶囊层，第一胶囊层输出数据信息到第二胶囊层。本发明能够解决现有技术中卷积神经网络出现的梯度消失问题且不会引入大量参数增加计算难度，进一步提高图像分类精度。

Description

胶囊残差神经网络、胶囊残差神经网络的图像分类方法

技术领域

本发明涉及图像处理技术领域，尤其涉及一种胶囊残差神经网络和基于胶囊残差神经网络的图像分类方法。

背景技术

卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现。

而传统的卷积神经网络只能检测图像的重要特征，很难关注组件之间的方向关系和相对空间关系，从而丢失了一些重要信息。那么，如何正确地分类和识别物体、保持物体的各个部分之间详细的分层姿势信息(例如精确的位置、大小和方向等)，成为现今解决各种图像的多重分类的一个关键问题。

胶囊神经网络显示了一种新的有前景的网络结构。然而，缺点是它在多类别任务中，如CIFAR-100数据集，胶囊网络不能实现达到高精度的效果。近年来，另外一种网络-残差神经网络已被广泛用于图像分类中，而传统的卷积神经网络架构CNN会遇到梯度消失问题。因此，一种用于图像分类的可以解决梯度消失的胶囊残差神经网络的发明就显得很有必要。

发明内容

本发明的目的在于克服现有神经网络中出现的梯度消失、图像分类精度不高的问题，提供一种胶囊残差神经网络和基于胶囊残差神经网络的图像分类方法

本发明的目的是通过以下技术方案来实现的：一种胶囊残差神经网络，包括：CNN前端和胶囊残差神经网络后端，所述CNN前端输出数据信息至所述胶囊残差神经网络后端；

具体地，所述CNN前端包括第一残差网络和第二残差网络，所述第一残差网络输出数据信息至所述第二残差网络；所述第一残差网络包括若干基本识别模块和快捷方式的标识块，所述第二残差网络包括若干基本识别模块；所述基本识别模块包括若干卷积层和批标准化层，所述基本识别模块接收到的数据信息经第一卷积层、第一批标准化层、第二卷积层输入到第二批标准化层；所述快捷方式的标识块包括若干卷积层和批标准化层；所述快捷方式的标识块接收到的数据信息输出至两部分，其中一部分经第三卷积层、第三批标准化层、第四卷积层输入到第四批标准化层，另一部分经第五卷积层输入到第五批标准化层。

具体地，所述胶囊残差神经网络后端包括第一胶囊层和第二胶囊层，所述第一胶囊层输出数据信息到所述第二胶囊层。

具体地，所述胶囊残差神经网络还包括解码器，所述解码器包括若干反卷积层；所述解码器接收所述胶囊残差神经网络后端输出的数据信息。

具体地，所述胶囊残差神经网络后端的第一胶囊层经第六卷积层接收CNN前端输出的数据信息。

具体地，所述基本识别模块和快捷方式的标识块还包括添加层；所述基本识别模块的第一添加层接收第二批标准化层输出的数据信息；所述快捷方式的标识块的第二添加层接收第四批标准化层和第五批标准化层输出的数据信息。

具体地，所述胶囊残差神经网络后端的第一胶囊层包括若干组神经元组成的胶囊，用于接收CNN前端输出的特征图像生成图像特征组合；第二胶囊层包括若干组神经元组成的胶囊，用于检测图像特征组合的姿态参数估计该图像属于每个类别的概率。

具体地，所述解码器还包括全连接层，所述全连接层接收胶囊残差神经网络后端的第二胶囊层输出的数据信息，全连接层用于连接第二胶囊层与Reshape层的每一个神经元，实现图像特征的非线性组合。

具体地，所述解码器还包括Reshape层，所述Reshape层接收全连接层输出的一维图像数据并将该一维图像数据重塑为二维图像。

本发明还包括一种基于胶囊残差神经网络的图像分类方法，方法包括以下步骤：

S01：CNN前端的第一残差网络与第二残差网络对输入的图像进行训练，学习不同层之间的图像残差信息，将输入的图像转换为特征图像输出至胶囊残差神经网络后端；

S02：胶囊残差神经网络后端的第一胶囊层接收CNN前端输出的特征图像信息生成图像特征组合转换为一组胶囊输出至第二胶囊层，所述第二胶囊层检测图像特征组合的姿态参数估计该图像属于每个类别的概率。

进一步地，基于上述胶囊残差神经网络的图像分类方法的相同发明构思，本发明还包括一种存储介质，其上存储有计算机指令，计算机指令运行时执行胶囊残差神经网络的图像分类方法的步骤。

进一步地，基于上述胶囊残差神经网络的图像分类方法的相同发明构思，本发明还包括一种终端，包括存储器和处理器，存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行胶囊残差神经网络的图像分类方法的步骤。

与现有技术相比，本发明有益效果是：

本发明胶囊残差神经网络采用残差神经网络与胶囊神经网络相结合的架构，能够解决现有技术中卷积神经网络出现的梯度消失问题且不会引入大量参数增加计算难度，进一步提高图像分类的精度。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的说明，此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，在这些附图中使用相同的参考标号来表示相同或相似的部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。图中：

图1为胶囊残差神经网络基本架构示意图；

图2是数据集的重建结果示意图。

具体实施方式

下面结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，属于“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方向或位置关系为基于附图所述的方向或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，属于“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，属于“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

如图1所示，在实施例1中，一种胶囊残差神经网络，包括CNN前端和胶囊残差神经网络后端，CNN前端输出的数据信息经9*9的第六卷积层输出至胶囊残差神经网络后端。

进一步地，CNN前端包括第一残差网络和第二残差网络，第一残差网络包括若干基本识别模块和快捷方式的标识块。第二残差网络包括若干基本识别模块；基本识别模块包括若干卷积层和批标准化层，快捷方式的标识块包括若干卷积层和批标准化层。其中，CNN前端包括两个第一残差网络和一个第二残差网络，所述第一残差网络A输出的数据信息经第一残差网络B输入到第二残差网络。

进一步地，第一残差网络A包括两个基本识别模块和一个快捷方式的标识块，第一基本识别模块输出的数据信息经第二基本识别模块、第三基本识别模块输入至第一快捷方式的标识块，第一残差网络B的组成与连接方式与第一残差网络A相同，在此不再赘述。

更进一步地，第二残差网络中第七基本标识块接收到的数据信息经第八基本标识块、第九基本标识块、第十基本标识块输出至十一基本标识块。

进一步地，基本标识块输入和输出的图像尺寸相同，快捷方式的标识块可以调整图像的尺寸，完成添加功能。

进一步地，基本识别模块接收到的数据信息经第一卷积层、第一批标准化层、第二卷积层输入到第二批标准化层。

进一步地，快捷方式的标识块接收到的数据信息输出至两部分，其中一部分经第三卷积层、第三批标准化层、第四卷积层输入到第四批标准化层，另一部分经第五卷积层输入到第五批标准化层，即第五卷积层、第五批标准化层将输入第三卷积层的数据信息直接输出至第四批标准化层，实现了快捷方式的标识块输入与输出的直连，进而在第四批标准化层实现了输入图像的残差学习。

进一步地，基本识别模块和快捷方式的标识块还包括添加层，添加层定义了一添加层函数，可以很容易的添加神经网络层。基本识别模块的第一添加层接收第二批标准化层输出的数据信息；快捷方式的标识块的第二添加层接收第四批标准化层和第五批标准化层输出的数据信息。

进一步地，胶囊残差神经网络后端包括第一胶囊层和第二胶囊层，第一胶囊层输出数据信息到第二胶囊层。

进一步地，胶囊残差神经网络后端的第一胶囊层包括若干组神经元组成的胶囊，用于接收CNN前端输出的特征图像生成图像特征组合；第二胶囊层包括若干组神经元组成的胶囊，用于检测图像特征组合的姿态参数估计该图像属于每个类别的概率。

进一步地，第二胶囊层将图像属于每个类别的概率信息经标签输出层输出。

作为一选项，本胶囊残差神经网络还包括解码器，解码器包括若干反卷积层，即第一反卷积层、第二反卷积层、第三反卷积层和第四反卷积层。解码器接收胶囊残差神经网络后端输出的数据信息并尝试使用自定义损失函数重建原始图像。

进一步地，解码器还包括全连接层和Reshape层，全连接层接收胶囊残差神经网络后端的第二胶囊层输出的图像数据信息并输出至Reshape层。进一步地，全连接层用于连接第二胶囊层与Reshape层的每一个神经元，实现图像特征的非线性组合，且全连接层输出的图像是一维图像，Reshape层将该一维图像重塑为二维4x4x32图像。

实施例2

本实施例与实施例1具有相同的发明构思，在实施例1的基础上提供了一种基于胶囊残差神经网络的图像分类方法，方法包括以下步骤：

进一步地，步骤S01的具体原理如下：

残差网络层的输入输出关系可以表述如下：

y_l＝h(x_l)+F(x_l,W_l) (1)

x_l+1＝f(Y_l) (2)

在公式(1)、(2)中，x、y表示第一残差网络A的输入和输出。F(x_l，W_l)表示残差函数，W_l是第第一残差网络A的卷积核的权重。h(x)是将原始图像输入特征发送到输出的函数。f(x)表示激活函数，在我们的方法中选择ReLU函数，该函数表示为：f(x)＝ReLU(x)＝max(0,x)。

进一步地有：

F(x_l,W_li)＝σ[f(C(y_l1,W_l2))]＝σ[f(C(σ[f(C(x,W_l1))],W_l2))] (3)

在式(3)中，公式的F(x)表示残差函数，σ(x)表示批标准化函数，c(x,W_li)表示第i个卷积函数，其中W_li是第一残差网络A中的权重矩阵；

进一步地，基本标识块的h(x)表示识别映射，h(x)＝x；快捷方式的标识块的h(x)代表卷积函数，可以调整图像的尺寸，公式表示为：

h(x)＝σ[f(C(x,W_io))] (4)

在式(4)中，公式的W_io表示改变输入向量维度的权重矩阵。假设h(x)＝x，则第一残差网络A的x_l的输入可以表示为：

在式(5)中，F(x)表示残差函数，经第一残差网络A、第一残差网络B、第二残差网络将输入图像转换为抽象的具有原始图像特征的图像输出至胶囊神经后端。

进一步地，步骤S02的具体原理如下：

第一胶囊层(x)称为子胶囊层，第二层是父胶囊层(y)。它们之间的路由方法可以表示为：

在式(6)中，x_i表示子胶囊层中的第i个胶囊，y_j是父胶囊层的第j个胶囊。w_ij表示两个胶囊层之间的姿势变换矩阵。u_ij是x_i根据y_j姿势变换的向量，p_ij表示通过动态路由的多次迭代获得的x_i和y_j之间的耦合系数。其中，动态路由的主要思想是根据从每个u_i到均值中心的距离来调整系数，它越接近中心，所获得的系数(p_ij)越高。

由于父胶囊层中每个胶囊的长度表示它属于每个类别的概率，需要通过线性函数将父胶囊层中的胶囊长度减小到0-1，可以表示为：

在式(7)中，公式的表示输入属于第j类的概率。

作为一选项，本方法还包括以下步骤：

S03：解码器接收第二胶囊层输出的图像信息并自定义函数进行原始图像的重建，自定义函数由MSE损失和重建损失共同构成：

Loss＝MSE+α*Reconstuction_Loss (8)

在式(8)中，MSE表示测量胶囊的准确度，重建损失表示输出图片和原始图片的差别，α设为0.005。

为进一步地说明本发明方法的有益效果，使用CC数据集和CIFAR-100数据集进行图像分类及原始图像重建的实验。

在我们的实验中，使用CC数据集和CIFAR-100数据集。CC数据集包含了100个类别的汉字，每个字符有400张大小不一的单通道图像，数据集包括大量不同朝代的中国书法字体，甚至像象形文字这样的古代汉字，这些中国字体很难被识别。CIFAR-100数据集有100个类别，包含了60000张32*32像素的三通道图像。

为了适应网络的输入结构，我们将CC数据集图像的大小统一调整为64*64，仅有一个通道。对于CIFAR-100数据集，我们输入原始图像，即32*32像素的三通道图像。其中，CC数据集被分为训练集、验证集和测试集，分别有31500、3500和5000张图像。CIFAR-100数据集被分为训练集和测试集，分别有50000、10000张图像。

实验在GTX 1080Ti的PC上进行训练，首先对数据集进行数据增强。对于每个图像，将高斯分布因子N(0.0,0.1)添加到每个像素，然后将整个图像乘以均匀分布因子U(0.85,1.15)，最后加上偏差高斯分布因子N(0.0,0.2)

训练时，选择Adam作为优化器，基本学习率为0.001，每个epoch的学习率都下降10％。将batch size设置为8。

第一胶囊层层数设置为16，每层具有16个维度。我们在50-100个epoch之间训练我们的模型，每个时期花费大概20分钟，Top-1测试精度达到了93.16％。

测试时，为了进行比较，我们在原始胶囊网络中测试了相同的数据集。结果表明，原始胶囊网络仅在MINST-10数据集中表现良好。

实验结果表明，CC数据集重建在一定程度上呈现出鲜明的特征和清晰的结构，表明我们的模型具有捕获书法词的主要特征的能力。CC数据集中，我们使用原始的胶囊网络和添加了两个卷积层的胶囊网络作为测试的基准，与本技术方案进行对比，卷积层中卷积核大小设置为6，步幅设置为2，测试后的模型准确率如表1所示。

表1 CC数据集测试准确率对比表

模型	Top-1准确率	Top-5准确率
			原始胶囊网络	63.75％	77.1％
带有两层卷积层的胶囊网络	73.96％	85.9％
			本技术方案	93.16％	98.14％

对于CIFAR-100数据集，由于硬件条件的限制，我们将模型的第一胶囊层的步长从1调整到2，其他参数保持不变。CIFAR-100数据集中，我们仍然使用原始的胶囊网络和添加了两个卷积层的胶囊网络作为测试的基准，与本技术方案进行对比，卷积层中卷积核大小设置为6，步幅设置为2，本实验中对于CIFAR-100数据集的原始图像进行重建结果如图2所示，本技术方案对CIFAR-100数据集的原始图像的重建精度较高的，几乎还原了原始图像，进一步地，测试后的模型准确率如表2所示。

表2 CIFAR-100数据集测试准确率对比表

模型	Top-1准确率	Top-5准确率
			原始胶囊网络	19.19％	37.64％
带有两层卷积层的胶囊网络	13.97％	29.55％
			本技术方案	52.64％	---

本发明不仅达到了在多分类数据集CC数据集和CIFAR-100数据集上显著的性能提升效果，还分析了当前的胶囊神经网络，结合残差神经网络解决了现有神经网络中出现的梯度消失问题，提出了一种新型网络架构-胶囊残差神经网络，来达到对图像分类精度的提升。

实施例3

本实施例提供了一种存储介质，与实施例2具有相同的发明构思，其上存储有计算机指令，所述计算机指令运行时执行实施例2中基于胶囊残差神经网络的图像分类方法的步骤。

基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random AccessMemory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

实施例4

本实施例还提供一种终端，与实施例2具有相同的发明构思，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，所述处理器运行所述计算机指令时执行实施例2中基于胶囊残差神经网络的图像分类方法的步骤。处理器可以是单核或者多核中央处理单元或者特定的集成电路，或者配置成实施本发明的一个或者多个集成电路。

在本发明提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

以上具体实施方式是对本发明的详细说明，不能认定本发明的具体实施方式只局限于这些说明，对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演和替代，都应当视为属于本发明的保护范围。

Claims

1.一种胶囊残差神经网络，其特征在于：所述胶囊残差神经网络包括CNN前端和胶囊残差神经网络后端，所述CNN前端输出数据信息至所述胶囊残差神经网络后端；

所述CNN前端包括第一残差网络和第二残差网络，所述第一残差网络输出数据信息至所述第二残差网络；所述第一残差网络包括若干基本识别模块和快捷方式的标识块，所述第二残差网络包括若干基本识别模块；所述基本识别模块包括若干卷积层和批标准化层，所述基本识别模块接收到的数据信息经第一卷积层、第一批标准化层、第二卷积层输入到第二批标准化层；所述快捷方式的标识块包括若干卷积层和批标准化层；所述快捷方式的标识块接收到的数据信息输出至两部分，其中一部分经第三卷积层、第三批标准化层、第四卷积层输入到第四批标准化层，另一部分经第五卷积层输入到第五批标准化层；

所述胶囊残差神经网络后端包括第一胶囊层和第二胶囊层，所述第一胶囊层输出数据信息到所述第二胶囊层。

2.根据权利要求1所述的一种胶囊残差神经网络，其特征在于：所述胶囊残差神经网络还包括解码器，所述解码器包括若干反卷积层；所述解码器接收所述胶囊残差神经网络后端输出的数据信息。

3.根据权利要求1所述的一种胶囊残差神经网络，其特征在于：所述胶囊残差神经网络后端的第一胶囊层经第六卷积层接收CNN前端输出的数据信息。

4.根据权利要求1所述的一种胶囊残差神经网络，其特征在于：所述基本识别模块和快捷方式的标识块还包括添加层；所述基本识别模块的第一添加层接收第二批标准化层输出的数据信息；所述快捷方式的标识块的第二添加层接收第四批标准化层和第五批标准化层输出的数据信息。

5.根据权利要求1所述的一种胶囊残差神经网络，其特征在于：所述胶囊残差神经网络后端的第一胶囊层包括若干组神经元组成的胶囊，用于接收CNN前端输出的特征图像生成图像特征组合；

第二胶囊层包括若干组神经元组成的胶囊，用于检测图像特征组合的姿态参数估计该图像属于每个类别的概率。

6.根据权利要求1所述的一种胶囊残差神经网络，其特征在于：所述解码器还包括全连接层，所述全连接层接收胶囊残差神经网络后端的第二胶囊层输出的数据信息。

7.根据权利要求1所述的一种胶囊残差神经网络，其特征在于：所述解码器还包括Reshape层，所述Reshape层接收全连接层输出的一维图像数据并将该一维图像数据重塑为二维图像。

8.采用权利要求1-7所述的胶囊残差神经网络的图像分类方法，其特征在于：所述方法包括以下步骤：

CNN前端的第一残差网络与第二残差网络对输入的图像进行训练，学习不同层之间的图像残差信息，将输入的图像转换为特征图像输出至胶囊残差神经网络后端；

胶囊残差神经网络后端的第一胶囊层接收CNN前端输出的特征图像信息生成图像特征组合转换为一组胶囊输出至第二胶囊层，所述第二胶囊层检测图像特征组合的姿态参数估计该图像属于每个类别的概率。

9.一种存储介质，其上存储有计算机指令，其特征在于：所述计算机指令运行时执行权利要求9所述的胶囊残差神经网络的图像分类方法的步骤。

10.一种终端，包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的计算机指令，其特征在于，所述处理器运行所述计算机指令时执行权利要求9所述的胶囊残差神经网络的图像分类方法的步骤的步骤。