CN114463548A

CN114463548A - 一种基于视觉特征与胶囊网络的图像分类方法

Info

Publication number: CN114463548A
Application number: CN202111663756.0A
Authority: CN
Inventors: 罗丹; 鲍海宁
Original assignee: Chengdu College of University of Electronic Science and Technology of China
Current assignee: Chengdu College of University of Electronic Science and Technology of China
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-05-10

Abstract

本发明涉及一种基于视觉特征与胶囊网络的图像分类方法，属于计算机图像处理领域。本方法将图像灰度进行压缩，采用共生矩阵和分形维数对视觉特征进行提取，采用胶囊网络中神经元的输出来表达图像中所包含的各种属性信息。通过动态路由算法表示胶囊与子胶囊间的关系，在训练和测试中对动态路由不断进行计算得出胶囊网络的输出。将图像大数据分类算法部署到云计算节点上，采用批量更新的数据模型，将图像的训练集划分为众多数据块进行并行训练，利用训练样本向前、后传播得出权值梯度，并采用计算出所有训练样本权值梯度的平均值，同时对样本权值进行更新。对比现有技术，本方法在图像分类准确率和效率均有明显提高，表现出显著性能优势。

Description

一种基于视觉特征与胶囊网络的图像分类方法

技术领域

本发明涉及一种图像分类方法，具体涉及一种基于视觉特征与胶囊网络(CapsNet)的图像分类方法，属于计算机图像处理领域。

背景技术

随着信息技术的快速发展，每天都有数以万计的图像产生。特别是随着移动云时代的不断发展，图像分类越来越引起人们的重视。如何从中海量数据中挖掘出重要的图像信息，是当前研究的热点问题之一。

为了对图像数据信息进行提取，需要采用多种技术，如数据库、数据挖掘等。但是，随着数据种类的增多、数据结构的多元化，一般的数据挖掘技术已经满足不了特殊的应用需求，需要新的方法对大量数据的存储以及处理分析等问题进行解决，这便诞生了“大数据”。

在大数据时代，图像的分类不再基于经验，而是通过海量数据的比较分析，利用图像大数据的处理平台以及算法来实现。例如，有研究人员提出模糊聚类的胶囊网络思想，为了对同一胶囊层特征进行区分，引入信息熵对激活值度量，将不同胶囊层特征采样为同一尺度，并进行独立训练，该方法能够提升图像特征的表达能力，但在，当图像较为复杂时，会显著加剧网络负担。还有一些研究人员提出基于大数据分析技术的激光图像分类与识别方法，通过对图像粗糙度、纹理特征等的确定构建特征数据场，结合Spark向量机算法建立图像分类器，该方法的图像分类与识别准确度有所提高，但其泛性较差。此外，也有研究人员采用在线极端学习理论，建立隐层输出矩阵，为了减少矩阵累乘计算，依据MapReduce计算框架对矩阵进行分割，并在不同工作点上对分割矩阵进行计算，得出分类器，该方法虽然能对图像大数据进行准确的分类，但其识别速度较慢，不适用于海量图像数据的处理场合。

发明内容

本发明的目的是针对现有技术存在的不足和缺陷，为了有效解决大量图像数据的计算复杂度过高，以及灰度颜色直方图中没有对图像位置等技术问题，创造性地提出了一种基于视觉特征与胶囊网络的图像分类方法。本方法根据图像特征信息的不同，对视觉数据的低层特征进行提取，并通过胶囊结构表达图像特征信息，对Map和Reduce函数进行设计，完成对图像大数据的分类。

本方法的创新点在于：将图像灰度进行压缩，并采用共生矩阵和分形维数对视觉特征进行提取，采用胶囊网络中神经元的输出来表达图像中所包含的各种属性信息。为了更新胶囊网络的耦合系数，通过动态路由算法表示胶囊与子胶囊间的关系，在训练和测试中对动态路由不断进行计算得出胶囊网络的输出。将图像大数据分类算法部署到云计算节点上，采用批量更新的数据模型，将图像的训练集划分为众多数据块进行并行训练，利用训练样本向前、后传播得出权值梯度，并采用计算出所有训练样本权值梯度的平均值，同时对样本权值进行更新。

有益效果

本发明方法可以有效地防止图像过拟合现象发生，对比现有技术，图像分类的准确率和效率均有明显提高，在图像分类方面表现出显著的性能优势。

附图说明

图1为本发明方法的流程图。

图2为重构误差示意图。

具体实施方式

下面将结合附图对本发明方法作进一步详细说明。

如图1所示，一种基于视觉特征与胶囊网络的图像分类方法，包括以下步骤：

步骤1：将图像灰度进行压缩，采用共生矩阵对视觉特征进行提取。

具体地，设图像灰度级为A，共生矩阵B的大小为A×A，B(m,n)表示灰度值为m和n在图像中同时出现的概率，两个像素点的相对距离与角度分别为D和φ。

为了降低大量数据造成的计算量问题，将图像的灰度压缩到0-255之间。然后，利用共生矩阵对视觉特征进行提取。

步骤2：使用分形维数，描述图像纹理特征的自相似程度。

具体地，用N个边长为L的小块对图像进行填充，分形维数的元素值表示为

当小块的边长无限趋于0时，通过分形维数的计算得出自相似性结果，并对结果拟合得出相应谱描述。

设二维图像的点集为F，F∈R²，其中R表示实数集，则R²表示坐标平面。采用边长为

的小块对图像进行填充，则相应的分形维度Dime(F_L)用式1表示为：

其中，E表示对N取不同值时覆盖点集F的数量描述。

通过对不同边长的小块进行拟合，求出最终的维度。设对于任意的XX都存在一个映射函数

其中，K(i)表示以i为中心、以r为半径的球体；g(i)表示Holder指数，用来反映分形谱测度H的图像局部幂律关系，g(i)用图像局部密度函数的估计进行表示：

步骤3：确定胶囊网络的输入。

胶囊网络中的一个胶囊包含一组神经元，神经元的输出反映图像中所包含的各种属性信息。胶囊网络通过胶囊结构表达图像特征信息，胶囊的输入通过各层预测矢量加权总和来表示，如式3：

其中，C_{input_v}表示胶囊的输入，w表示胶囊网络中的任意一个胶囊，v表示下一个胶囊网络的任意一个胶囊，l_wv表示耦合系数，

表示各层的预测矢量。

为了更新胶囊网络的耦合系数，采用动态路由算法表示胶囊与子胶囊间的关系。在动态路由计算过程中，每个数据节点的耦合系数均为0，在训练和测试操作中，都要对动态路由进行重新计算得出胶囊网络的输出。

步骤4：输出胶囊网络。

胶囊网络将图像转换为像素点矩阵作为输入，实体存在的概率用胶囊输出向量的长度表示。用损失函数将输出向量中短向量限制为0或趋近于0的长度，将长向量限制为小于1的长度，如式4：

其中，C_{output_v}表示胶囊网络的输出。

初级胶囊的输出表示最后输出的数字胶囊，每个胶囊都有多维空间，每一维都表示图像的属性(包括形变、纹理、色调等)。胶囊网络损失函数包括间隔损失和重构损失两部分。

其中，间隔损失是一种指示函数，表示胶囊网络预测输入图像的某类概率。

重构损失是一种数字胶囊层对输入矩阵编码的优化过程，将数字胶囊层输出的废弃胶囊初始化为0，并将图像的输入与输出向量进行平法差求和，得出重构损失。

步骤5：设计Map函数和Reduce函数。

将图像大数据分类部署到云计算节点上，且Hadoop平台(一种分布式系统基础架构)中所涉及的调度、容错处理均由Map、Reduce完成，在Hadoop平台环境下，若要实现图像大数据的分类，关键是对Map函数和Reduce函数进行设计。

具体地，Map函数如下：

首先，计算出所有图像训练集样本点Y_i与存储图像数据集CondenseSet各个样例之间的距离，并计算出最近距离minDis与其对应的最近样本minIns。

然后，判断最近样本minIns与Y_i的类别是否一致，若不一致，将Y_i加入到存储图像数据集CondenseSet中，输出压缩的图像样本。在Map函数中，＜a₁,c₁＞表示＜起始偏移量,训练样本＞，＜a₂,c₂＞表示＜压缩样本,NullWritable＞，NullWritable是一个不可变的单实例类型，表示不需要使用键或值时。

Reduce函数如下：

首先，计算出所有图像压缩后得到的样本点。然后，将所有压缩样本点进行输出。在Reduce函数中，＜a₂,c₂＞表示＜压缩样本,NullWritable＞，＜a₃,c₃＞表示＜压缩样本,NullWritable＞。

步骤6：训练胶囊网络。

首先，采用批量更新的数据模型，将图像的训练集划分为众多数据块，并在Map函数上对不同的数据块进行并行训练，每个训练样本经过前、后传播后均得出一个权值梯度。然后，采用Reduce函数计算出所有训练样本权值梯度的平均值，并对权值进行更新。

其中，Map函数和Reduce函数之间需要传输每两组样本之间的权值和偏置。一个胶囊网络中包含各个核参数、偏置参数和连接权值，这些都需要封装起来进行传输，以减小图像数据的碎片化。

步骤7：将图像数据集和训练后的胶囊网络输入Hadoop平台中，进行图像分类。

实验结果与分析

为了验证本方法对图像大数据分类的准确性与有效性，选择ImageNet数据库在Hadoop平台上进行训练。ImageNet数据库包含2万多种图像类型，共有1400多万幅图片。为了方便，图片直接存入到Hadoop平台，将所有图片进行预处理，文件中的每一行代表一幅图片。

在ImageNet数据库上对基于视觉特征与胶囊网络预测出来的图像与真实图像的像素点进行平方差求和处理，为了更直观的验证本方法的性能，把预测结果解码成图像，重构误差结果如图2所示。

从图2中可以看出，训练初重构误差较大为0.232％，在前500次迭代训练过程中，模型不断地进行拟合，学习图像的特征并进行参数更新，重构图像与真实图像的误差不断降低，模型优化效果非常明显。在后期的迭代训练中误差趋于稳定为0.023％左右，模型的拟合效果处于最佳状态。通过重构误差的分析结果，有利于观察胶囊网络的拟合情况，可以有效地防止图像过拟合、提高图像的分类精度。

为了进一步对视觉特征与胶囊网络模型性能进行评价，对图像采取5轮实验，结合Map和Reduce过程对输出结果进行算数平均值的求取，并将本方法与原始方法进行准确率与图像分类效率的对比，对比结果分别如表1和表2所示。

表1两种方法的准确率对比

表2两种方法的分类效率对比

从表1和表2中可以看出，基于视觉特征与胶囊网络的图像大数据分类方法，在准确率与图像分类效率上明显优于原始方法，具体有以下原因：原始并行模型中的权值更新较慢，需要大量的训练轮数才能达到较好的图像分类结果，并且在分类过程中产生大量的中间变量，远远超过原始数据集的大小，影响了图像的训练效率。而基于视觉特征与胶囊网络的图像分类模型将数据分配在不同节点下，不仅可以保证权值在内部进行更新，还可以独立运行，节省了大量运行时间。其次，原始并行模型只生成一个分类器，过拟合几率随着迭代次数的增加不断增加。而基于视觉特征与胶囊网络的图像大数据分类模型在每个节点处均生成一个分类器，使图像的分类结果更加准确。

在图片大数据环境下，针对原始算法的不足，本方法可以使图像大数据分类结果更加准确，当样例个数为110万个时，采用本方法的图像分类准确率可达到88.2％，分类时间仅为793.6s，较现有方法，具有显著的性能提升。

Claims

1.一种基于视觉特征与胶囊网络的图像分类方法，其特征在于，包括以下步骤：

步骤1：将图像灰度进行压缩，将图像的灰度压缩到0-255之间，并采用共生矩阵对视觉特征进行提取；

步骤2：使用分形维数，描述图像纹理特征的自相似程度；

用N个边长为L的小块对图像进行填充，分形维数的元素值表示为

当小块的边长无限趋于0时，通过分形维数的计算得出自相似性结果，并对结果拟合得出相应谱描述；

设二维图像的点集为F，F∈R²，其中R表示实数集，则R²表示坐标平面；采用边长为

其中，E表示对N取不同值时覆盖点集F的数量描述；

通过对不同边长的小块进行拟合，求出最终的维度：设对于任意的XX都存在一个映射函数

步骤3：确定胶囊网络的输入；

胶囊网络中的一个胶囊包含一组神经元，神经元的输出反映图像中所包含的各种属性信息；胶囊网络通过胶囊结构表达图像特征信息，胶囊的输入通过各层预测矢量加权总和来表示，如式3：

表示各层的预测矢量；

采用动态路由算法表示胶囊与子胶囊间的关系；在动态路由计算过程中，每个数据节点的耦合系数均为0，在训练和测试操作中，都要对动态路由进行重新计算得出胶囊网络的输出；

步骤4：输出胶囊网络；

胶囊网络将图像转换为像素点矩阵作为输入，实体存在的概率用胶囊输出向量的长度表示；用损失函数将输出向量中短向量限制为0或趋近于0的长度，将长向量限制为小于1的长度，如式4：

其中，C_{output_v}表示胶囊网络的输出；

初级胶囊的输出表示最后输出的数字胶囊，每个胶囊都有多维空间，每一维都表示图像的属性；胶囊网络损失函数包括间隔损失和重构损失两部分；其中，间隔损失是一种指示函数，表示胶囊网络预测输入图像的某类概率；重构损失是一种数字胶囊层对输入矩阵编码的优化过程，将数字胶囊层输出的废弃胶囊初始化为0，并将图像的输入与输出向量进行平法差求和，得出重构损失；

步骤5：设计Map函数和Reduce函数；

其中，Map函数如下：

首先，计算出所有图像训练集样本点Y_i与存储图像数据集CondenseSet各个样例之间的距离，并计算出最近距离minDis与其对应的最近样本minIns；

然后，判断最近样本minIns与Y_i的类别是否一致，若不一致，将Y_i加入到存储图像数据集CondenseSet中，输出压缩的图像样本；在Map函数中，＜a₁,c₁＞表示＜起始偏移量,训练样本＞，＜a₂,c₂＞表示＜压缩样本,NullWritable＞，NullWritable是一个不可变的单实例类型，表示不需要使用键或值时；

Reduce函数如下：

首先，计算出所有图像压缩后得到的样本点；然后，将所有压缩样本点进行输出；在Reduce函数中，＜a₂,c₂＞表示＜压缩样本,NullWritable＞，＜a₃,c₃＞表示＜压缩样本,NullWritable＞；

步骤6：训练胶囊网络；

2.如权利要求1所述的一种基于视觉特征与胶囊网络的图像分类方法，其特征在于，步骤6实现方法为：

首先，采用批量更新的数据模型，将图像的训练集划分为众多数据块，并在Map函数上对不同的数据块进行并行训练，每个训练样本经过前、后传播后均得出一个权值梯度；然后，采用Reduce函数计算出所有训练样本权值梯度的平均值，并对权值进行更新；

其中，Map函数和Reduce函数之间需要传输每两组样本之间的权值和偏置；一个胶囊网络中包含各个核参数、偏置参数和连接权值，这些都需要封装起来进行传输，以减小图像数据的碎片化。