CN109800817A

CN109800817A - 基于融合语义神经网络的图像分类方法

Info

Publication number: CN109800817A
Application number: CN201910072477.3A
Authority: CN
Inventors: 石光明; 冯依好; 张中强; 刘丹华; 高大化; 谢雪梅; 马欣睿; 王晓甜
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2019-05-24
Anticipated expiration: 2039-01-25
Also published as: CN109800817B

Abstract

本发明公开了一种基于融合语义神经网络的图像分类方法，通过在神经网络中融入语义知识，克服了现有技术中神经网络依赖大量样本训练、网络结构复杂、模型层数多的问题。本发明实现的步骤是：(1)输入待分类的彩色图像；(2)获得训练样本集和测试样本集；(3)构建胶囊网络；(4)获取训练样本集和测试样本集彩色图像的语义分类预测结果；(5)训练胶囊网络；(6)对测试样本集进行分类。本发明具有在少量训练样本上分类准确率更高、网络结构简单的优点，可用于自然图像的分类。

Description

基于融合语义神经网络的图像分类方法

技术领域

本发明属于图像处理技术领域，更进一步涉及图像分类技术领域中的一种基于融合语义神经网络的图像分类方法。本发明可用于对不同种类的自然图像进行分类。

背景技术

自然图像是指通过相机等拍摄设备对自然场景进行拍摄得到的图片，或摄像机对自然场景进行拍摄记录的视频中截取获得的图像，对自然场景下获取的图像进行分类是指对获取的图像进行图像处理，依据处理获取的图像信息进行类别判定，包括光学字符识别领域的手写体数字分类和交通领域的交通标志类别的分类等。

Alex Krizhevsky等人在其发表的论文“ImageNet Classification with DeepConvolutional Neural Networks”(Neural Information Processing SystemsConference,2012)中提出一种基于深度卷积神经网络对车、建筑和水果等10000类不同类别的图像进行分类的方法。该深度卷积神经网络由5个卷积层和3个全连接层构成，多层卷积网络从图像中提取出具有更高级别的特征，更高级别的特征是以加权的形式将较低级的特征组合在一起，即前一层的激活与下一层神经元的权重相乘并相加，然后传递到激励函数中，最后将更高级别的特征输入分类器进行预测当前像素的类别。该方法通过构建多层卷积网络从中提取更高级别的特征，进而获得更好的分类结果。但是，该方法仍然存在的不足之处是，该深度卷积网络的内部数据表示之间没有考虑到简单和复杂对象之间的重要空间层级关系，从而导致该方法在图像分类时主要是依赖大量的数据训练，倾向于记忆数据集，需要大量的数据来覆盖不同的变体。

国网浙江省电力有限公司在其申请的专利文献“基于卷积神经网络的图像分类方法”(专利申请号：CN 201810438711.5，申请公布号：CN 108596274A)中公开了一种基于改进的卷积神经网络的动物图像和手势图像分类方法。该方法的具体步骤是：建立训练集，使用训练集对卷积神经网络进行训练，通过训练后的卷积神经网络来提取样本图像的特征，将特征输入到广义卷积网络进行处理，根据处理结果完成对样本的分类，其中广义卷积层网络部分由输入层、模式层、总和层和输出层组成。通过卷积网络提取图像特征的同时，利用广义回归神经网络的函数来增强卷积神经网络的分类和处理能力。但是，该方法仍然存在的不足之处是，模型层数较多，结构复杂，训练效率低，计算能耗高。

除此上述列举的卷积神经网络分类方法之外，目前基于深度卷积网络的分类方法都与上述两个方法类似，但是他们都有一个共性，通过学习大量训练样本完成的，属于完全是数据驱动的，该类方法都需要大量的训练样本才可以训练一个较好的分类模型。

发明内容

本发明的目的在于针对上述现有技术的不足，提出了一种基于融合语义的神经网络的图像分类方法。

实现本发明目的的思路是，目前的神经网络模型都具有高能耗，需要大量训练样本和人工注释训练集的缺点，受到人类在习得概念的时候只需要少数几个例子的启发，这种机制主要是人在学习的时候依据了很多以前习得的先验知识，这些先验知识可以简化神经网络的学习，本发明提出在神经网络的学习过程中，添加图像的先验知识，以简化神经网络的学习过程，本发明将模拟人利用先验这种机制，构建一个图像分类模型。

这些先验信息主要包括两个部分，其一是依据视觉获得的图像中对象的一些底层特征，如形状、颜色等，这些底层特征作为对象的基本组成元素，其二是依据视觉获取的图像中组成对象的基本组成元素之间的空间关系，形如形状之间在位置上分布的上下左右关系，相交关系等。将图像中包含的基本组成元素和元素之间的空间关系用多叉树进行描述，其中多叉树的叶子节点表示基本组成元素，连接叶子节点的树枝表示不同基本元素之间的空间关系，不同的基本元素按照各自不同的方位关系组合形成多种高一级的语义，对应多叉树中多个父节点，高一级的语义按照不同的组合形式以及不同的空间关系形成更高一级的语义，对应多叉树中父节点的父节点。这种先验信息的树状描述具有极强的描述能力以及泛化性能。

为实现上述目的，本发明的具体步骤如下：

(1)输入待分类的图像：

(1a)输入与待分类类别总数相等的图像，其中每一类的图像数量不少于200张；

(1b)输入每张待分类图像对应的类别标签；

(2)获得训练样本集和测试样本集：

在待分类图像中随机选取P％的图像以及对应的类别标签，组成训练样本集，其中，P的取值范围为(30,100)中任意整数，将剩余的图像和对应的类别标签，组成测试样本集；

(3)构建胶囊网络：

(3a)搭建一个四层的胶囊网络，其结构依次为：普通卷积层、初级胶囊层、分类胶囊层、输出层；

(3b)设置胶囊网络中各层的参数：将普通卷积层的特征映射图设置为F₁个，其中F₁取值范围为(1,512)中的任意整数，将卷积核大小设置为K₁×K₁像素，其中K₁的取值范围为(1,10)中任意整数，步长设置为P₁像素，其中P₁取值范围为(1,10)中任意整数；将初级胶囊层的特征映射图设置为F₂个，其中F₂取值范围为(1,512)中的任意整数，将卷积核大小设置为K₂×K₂像素，其中K₂的取值范围为(1,10)中任意整数，步长设置为P₂像素，P₂取值范围为(1,10)中任意整数；将分类胶囊层的特征映射图的个数设置为与待分类图像的类别总数相同，其特征映射图维度设置为D维；其中D的取值范围为(1,128)中任意整数；

(4)获取训练样本集和测试样本集图像的语义分类预测结果：

(4a)利用类别信息提取方法，提取训练样本集和测试样本集每张图像中的基本元素信息，该基本元素信息包括颜色类别和形状类别信息和形状在图像中的位置坐标；

(4b)使用语义分类方法，获得训练样本集和测试样本集中的每张图像语义的分类预测值；

(5)训练胶囊网络：

(5a)将训练样本集每张图像输入到胶囊网络中，经过普通卷积层和初级胶囊层后，得到每个训练样本的高级特征，将高级特征输入胶囊网络分类胶囊层中，得到胶囊网络对训练样本集中每张图像的分类预测值；

(5b)利用融合公式，根据每张训练样本图像的语义分类预测值和胶囊网络对该张训练样本图像的分类预测值，计算训练样本集中每张图像的综合分类预测值；

(5c)利用损失函数公式，计算训练样本集中每张图像的综合分类预测值与训练样本实际类别标签的损失值，将每张图像的损失值，按照极小化误差的方法反向传播调整胶囊网络的普通卷积层和初级胶囊层的卷积核参数，直到训练样本集所有图像的损失值都对胶囊网络的普通卷积层和初级胶囊层的卷积核参数进行了调整；

(5d)重复执行步骤(5a)、步骤(5b)、步骤(5c)10万次，得到训练好的胶囊网络；

(6)对测试样本集进行分类：

将测试样本集输入到训练好的胶囊网络中，得到最终测试样本集图像的分类结果。

本发明与现有的技术相比具有以下优点：

第一，由于本发明在训练胶囊网络中，利用融合公式，根据每张训练样本图像的语义分类预测值和胶囊网络对该张训练样本图像的分类预测值，计算训练样本集中每张图像的综合分类预测值；克服了现有技术的依赖大量的数据训练问题，使得本发明简化了神经网络学习过程，提高了图像分类的效率。

第二，由于本发明获取训练样本集和测试样本集图像的语义分类预测结果，克服了现有技术中深度卷积网络结构复杂，训练耗时长的问题，使得本发明具有模型简单、分类速度快的优点。

第三，由于本发明构建胶囊网络，克服了现有技术的内部数据表示中没有考虑到简单和复杂目标的重要空间层级关系，存在丢失细节信息的问题，使得本发明具有较好的图像分类性能。

第四，由于本发明使用了类别信息提取方法，通过使用构成对象的基本元素信息和基本元素之间的方位关系作为特征，克服了现有技术中图像提取特征通用性不强的问题，使得本发明的图像分类方法具有更广泛的通用性。

第五，由于本发明使用语义分类方法，通过使用人的先验知识，克服了现有技术提取特征抽象，可解释性差的问题，使得本发明图像分类方法增加了对图像特征的可解释性。

附图说明

图1是本发明的流程图；

图2是本发明图像分类方法模型结构示意图。

具体实施方式

下面结合附图对本发明做进一步的描述。

参照附图1，本发明的实现的具体步骤做进一步的描述。

步骤1,输入待分类的图像。

输入与待分类类别总数相等的图像，其中每一类的图像数量不少于200张。

输入每张待分类图像对应的类别标签。

步骤2,获得训练样本集和测试样本集。

在待分类图像中随机选取85％的图像以及对应的类别标签，组成训练样本集，将剩余的图像和对应的类别标签，组成测试样本集。

步骤3,构建胶囊网络。

搭建一个四层的胶囊网络，其结构依次为：普通卷积层、初级胶囊层、分类胶囊层、输出层。

设置胶囊网络中各层的参数：将普通卷积层的特征映射图设置为32个，卷积核大小为9×9像素，步长为1个像素；将初级胶囊层的特征映射图设置为4个，卷积核大小为5×5个像素，步长为1个像素；将分类胶囊层的特征映射图的个数设置为与待分类图像的类别总数相同，其特征映射图维度设置为32维。

步骤4,获取训练样本集和测试样本集图像的语义分类预测结果。

利用类别信息提取方法，提取训练样本集和测试样本集每张图像中的基本元素信息，该基本元素信息包括颜色类别和形状类别信息。

所述类别信息提取方法的步骤如下：

第1步，将训练样本和测试样本集中的每一张图像变换到由色调H、饱和度S、亮度V组成的HSV模型中，对训练样本集和测试样本集的每一张图像的亮度V进行直方图均衡化，所述的HSV模型是根据人类对于色泽、明暗和色调的直观感觉来定义的颜色模型。

第2步，基于设定的颜色阈值，对直方图均衡化后获得的训练样本集和测试样本集中的每一张图像进行二值化掩膜处理，得到每一张图像的多张颜色信息图，每一种颜色的色调H、饱和度S、亮度V的取值有一个范围，所述的颜色阈值来自统计训练样本集和测试样本集图像中红色、蓝色、橙色、黑色和白色在HSV模型中色调H、饱和度S、亮度V的最大值和最小值，所述的多张颜色信息图至少包括红色信息图、蓝色信息图、橙色信息图、黑色信息图、白色信息图。

第3步，通过视觉库中的生成函数分别生成的至少包含直线、弧线、四边形、多边形、三角形、倒三角形和圆形的7张形状图像，对生成的每一张形状图像平移旋转操作1000次，并记录每一个形状图在图像中的位置坐标。

第4步，将平移旋转操作后的7类形状图像共计7000张形状图像，组成形状库。

第5步，按照下式，计算每张图像中的每张颜色信息图与形状库中每张图像的相似度：

其中，R_ij表示第i张图像中的第c张颜色信息图与形状库中的第j张形状图像的相似度，i＝1,2,3…n，n表示训练样本和测试样本集图像的总和，c＝1,2,3…m，m表示颜色信息图的总数，取值为5，j＝1,2,3…t，t表示形状库中形状图像的总和，取值为7000，e表示每个图像素点的总数，取值为图像横向像素点总数和纵向的像素点总数的乘积，所有的图像、颜色信息图和形状图像的像素点总数相等，I_c(w₁)表示第c张颜色信息图像中的第w₁个像素点的值，w₁＝1,2，…e，T_j(w₂)表示第j张形状图像中第w₂个像素点的值，w₂＝1,2，…e，||·||²表示2范数操作。

第6步，从每张图像的所有相似度中找出大于S的相似度集合，S取值大小为0.7之间的自然数，将这些相似度对应的颜色信息图的颜色，作为该张图像的颜色类别，将这些相似度对应的形状图像的形状类别，作为该图像的形状类别，并依据形状图记录下形状在图像中的位置坐标信息。

第7步，重复第6步，直到得到所有图像的颜色和形状的类别信息和形状的位置坐标信息。

所述语义分类方法的步骤如下：

第1步，对每张图像，依据其提取的颜色和形状类别信息，定义基元属性向量，其中，基元属性向量中的第一维度表示该张图像中红色的编码信息，该编码信息为1表示该张图像中的红色，为0表示无编码信息；语义向量的其余维度依次表示该张图像中蓝色、橙色、黑色、白色、直线、弧线、四边形、多边形、三角形、倒三角形和圆形编码信息，基元属性向量的维度值为1表示该维度对应的编码信息，若为0表示无编码信息。

第2步，依据记录的形状图中每个形状在图像中的位置坐标值，使用计算机视觉库中函数，获取其最小外接矩形，根据矩形的四个点的坐标分析形状之间有无包含和相交关系，对矩形四个点的坐标值求和并平均，求得中心坐标值，根据中心坐标分析形状之间的上下左右关系，将这些关系用方位关系向量来表示；方位关系向量第一维度表示该张图像中检测的两个形状之间的包含编码信息，该编码为1表示该张图像中两个形状存在包含关系，编码为0表示两个形状间无包含关系，方位关系向量第二维度表示该张图像中检测的两个形状之间交叉的编码信息，该编码为1表示该张图像中两个形状存在交叉关系，编码为0表示形状间无交叉关系，方位关系向量第三维度表示该张图像中检测的两个形状上下关系的编码信息，该编码为1表示该张图像中第一个形状存在第二个形状的上方，编码为0表示形状间无关系，方位关系向量第四维度表示该张图像中检测的两个形状上下关系，该编码为1表示该张图像中第一个形状存在第二个形状的下方，编码为0表示形状间无关系，图像中的基元属性向量和方位关系向量共同形成语义向量。

第3步，对训练样本集中的每一类图像，依据人眼对该类图像的颜色类别和形状类别视觉感知，定义一个语义参考向量，其中，语义参考向量的第一维度表示视觉有无接收到红色的编码信息，该编码信息为1表示视觉上接收到红色信息，为0表示没有接收到红色信息；语义参考向量的接下来维度依次表示视觉上有无接收到蓝色、橙色、黑色、白色、直线、弧线、四边形、多边形、三角形、倒三角形和圆形的编码信息，语义参考向量的维度值为1表示该维度对应的编码信息，若为0表示无编码信息，语义参考向量的接下来的维度表示视觉上接收到形状之间的方位关系编码信息。

第4步，将每张图像的语义向量与每类语义参考向量依次进行内积和归一化处理，将内积和归一化的结果作为该张图像语义分类的预测值；

第5步，重复第1、2、3、4步，直到得到所有图像的语义分类预测值。

步骤5,训练胶囊网络。

将训练样本集每张图像输入到胶囊网络中，经过普通卷积层和初级胶囊层后，得到每个训练样本的高级特征，将高级特征输入胶囊网络分类胶囊层中，得到胶囊网络对训练样本集中每张图像的分类预测值。

利用融合公式，根据每张训练样本图像的语义分类预测值和胶囊网络对该张训练样本图像的分类预测值，计算训练样本集中每张图像的综合分类预测值。

所述融合公式如下：

r_l＝αs_l+βp_l

其中，r_l表示训练样本集中第l张图像的综合分类预测值，l＝1,2…N,N表示训练样本集图像的总数,α表示语义分类预测值的融合系数，取值为0.8，s_l表示训练样本集中第l张图像语义分类预测值，β表示胶囊网络分类预测值的融合系数，取值为0.2，p_l表示胶囊网络对训练样本集中第l张图像的分类预测值。利用损失函数公式，计算训练样本集中每张图像的综合分类预测值与训练样本实际类别标签的损失值，将每张图像的损失值，按照极小化误差的方法反向传播调整胶囊网络的普通卷积层和初级胶囊层的卷积核参数，直到训练样本集所有图像的损失值都对胶囊网络的普通卷积层和初级胶囊层的卷积核参数进行了调整。

所述损失函数的公式如下：

L_hk＝T_hkmax(0,0.9-r_hk)²+λ(1-T_hk)max(0,r_hk-0.1)²

其中，L_hk为训练样本集中第h张图像预测为第k类图像的损失值，k＝1,2…M，M为训练样本集图像总的类别数，h＝1,2…N，N为训练样本集图像的总数，T_hk为训练样本集中第h张图像的实际类别，训练样本集中第h张图像是第k类图像则T_hk取值为1，不是第k类则T_hk取值为0，r_hk该张训练样本图像综合预测值中预测为k类图像的值，第λ为调节系数，取值为0.5。

重复执行步骤5，10万次，得到训练好的胶囊网络。

步骤6,对测试样本集进行分类。

将测试样本集输入到训练好的胶囊网络中，得到最终分类结果。

参照本发明的图像分类方法模型结构示意图的附图2，对本发明图像分类方法进行进一步的说明。

本发明的图像分类结果主要融合两个分类预测值得到，其中一个分类预测值是使用语义分类方法获取语义分类预测值，另一个分类预测值是由普通卷积层、初级胶囊层、分类胶囊层和输出层组成的4层网络输出的图像预测值。对两个预测值使用步骤5中的融合公式进行计算得到图像分类预测结果。

下面结合仿真实验对本发明的效果做进一步说明。

1.仿真实验条件：

本发明的仿真实验的硬件平台为：Inter Xeon E5-2678M CPU@2.50GHz、128GBRAM。本发明的仿真实验的软件使用tensorflow。

2.仿真内容：

本发明的仿真实验是采用本发明和现有技术胶囊网络方法分别对德国交通标志图像集进行分类。其中，训练集由34799张图像和对应的类别标签组成，测试集由12630张图像和对应的类别标签组成。共计43类交通标志。

本发明用到的现有技术对比分类方法为Sara Sabour等人在“Dynamic RoutingBetween Capsules,Neural Information Processing Systems 2017”中提出的图像分类方法，简称原胶囊网络分类方法。

为了验证本发明的高效性和良好的分类性能，采用以下三个现有指标来评价本发明仿真实验的结果：第一个评价指标是训练本发明的网络和原胶囊网络使用的训练数据集图像总数，训练数据集图像总数越少，表示方法使用的资源越少，说明方法越高效，第二个评价指标是分类准确率，表示正确分类的样本占分类后所有样本的比例，该值越大，说明分类效果越好，对每张图像来说，正确分类是指模型预测类别与图像标签相同。第三个评价指标是本发明的网络和原胶囊网络卷积核个数，表示方法的模型的参数量情况，该值越小，说明方法计算量越小、方法分类高效更高。

表1不同训练样本图像总数下本方法与原胶囊网络方法分类准确率对比表

训练数据集图像总数	本发明方法分类准确率	原胶囊网络方法分类准确率
			34799张	96.68％	96.43％
27839张	96.17％	90.52％
			20879张	95.56％	88.25％

表1为本发明方法与原胶囊网络分别在不同大小训练数据集上训练后，对测试集分类准确率的比较情况，由表1可以看出，本发明的在融合语义分类结果的情况下，能够在减少的训练集图像总数的情况下，获得较高的分类准确率，从表1可以看到原胶囊网络在减少训练集图像总数的情况下，分类准确率下降明显，而本发明提出的方法分类效果相对来说可以保持稳定和较高的分类准确率。

表2本发明与原胶囊网络分类方法卷积核个数对比表

方法	本发明方法	原胶囊网络分类方法
			卷积核个数	32+4×8＝64个	256+32×8＝512个

表2为本发明方法与原胶囊网络的卷积核个数对比情况，可以看到本发明方法卷积核个数远小于原胶囊网络，说明本发明的方法具有网络模型简单，参数少，网络复杂度低的优点。

综上所述：本发明采用融合语义神经网络的图像分类方法，可以有效的简化网络学习过程，克服现有神经网络需要依赖大量样本的问题，提高数据的利用率，获得更稳定的较高分类准确率，同时，由于融合了语义知识，可以减少原有的神经网络结构的复杂度。

Claims

1.一种基于融合语义神经网络的图像分类方法，其特征在于，搭建融合语义的胶囊网络，通过图像处理获取得到的语义信息，并依据语义信息获取语义分类预测值，在胶囊网络中添加语义信息使得胶囊网络提取待分类图像中的更加有效的高级特征，通过提取的高级特征形成胶囊网络分类预测值，融合语义分类预测值和胶囊网络分类预测值对自然图像进行分类，该方法的具体步骤包括如下：

(1)输入待分类的图像：

(1b)输入每张待分类图像对应的类别标签；

(2)获得训练样本集和测试样本集：

(3)构建胶囊网络：

(4)获取训练样本集和测试样本集图像的语义分类预测结果：

(5)训练胶囊网络：

(6)对测试样本集进行分类：

2.根据权利要求1所述的基于融合语义神经网络的图像分类方法，其特征在于，步骤(4a)中所述类别信息提取方法的步骤如下：

第一步，将训练样本和测试样本集中的每一张图像变换到由色调H、饱和度S、亮度V组成的HSV模型中，对训练样本集和测试样本集的每一张图像的亮度V进行直方图均衡化，所述的HSV模型是根据人类对于色泽、明暗和色调的直观感觉来定义的颜色模型；

第二步，基于设定的颜色阈值，对直方图均衡化后获得的训练样本集和测试样本集中的每一张图像进行二值化掩膜处理，得到每一张图像的多张颜色信息图，每一种颜色的色调H、饱和度S、亮度V的取值有一个范围，所述的颜色阈值来自统计训练样本集和测试样本集图像中红色、蓝色、橙色、黑色和白色在HSV模型中色调H、饱和度S、亮度V的最大值和最小值，所述的多张颜色信息图至少包括红色信息图、蓝色信息图、橙色信息图、黑色信息图、白色信息图；

第三步，通过视觉库中的生成函数分别生成的至少包含直线、弧线、四边形、多边形、三角形、倒三角形和圆形的7张形状图像，对生成的每一张形状图像平移旋转操作1000次，并记录每一个形状图在图像中的位置坐标；

第四步，将平移旋转操作后的7类形状图像共计7000张形状图像，组成形状库；

第五步，按照下式，计算每张图像中的每张颜色信息图与形状库中每张图像的相似度：

其中，R_ij表示第i张图像中的第c张颜色信息图与形状库中的第j张形状图像的相似度，i＝1,2,3…n，n表示训练样本和测试样本集图像的总和，c＝1,2,3…m，m表示颜色信息图的总数，取值为5，j＝1,2,3…t，t表示形状库中形状图像的总和，取值为3000，e表示每个图像素点的总数，取值为图像横向像素点总数和纵向的像素点总数的乘积，所有的图像、颜色信息图和形状图像的像素点总数相等，I_c(w₁)表示第c张颜色信息图像中的第w₁个像素点的值，w₁＝1,2，…e，T_j(w₂)表示第j张形状图像中第w₂个像素点的值，w₂＝1,2，e，||·||²表示2范数操作；

第六步，从每张图像的所有相似度中找出大于S的相似度集合，S取值大小为(0.1,1)之间的自然数，将这些相似度对应的颜色信息图的颜色，作为该张图像的颜色类别，将这些相似度对应的形状图像的形状类别，作为该图像的形状类别，并依据形状图记录下形状在图像中的位置坐标信息；

第七步，重复第六步，直到得到所有图像的颜色和形状的类别信息和形状的位置坐标信息。

3.根据权利要求1所述的基于融合语义神经网络的图像分类方法，其特征在于，步骤(4b)中所述语义分类方法的步骤如下：

第一步，对每张图像，依据其提取的颜色和形状类别信息，定义基元属性向量(语义向量包括基元属向量和方位关系向量)，其中，基元属性向量中的第一维度表示该张图像中红色的编码信息，该编码信息为1表示该张图像中的红色，为0表示无编码信息；语义向量的其余维度依次表示该张图像中蓝色、橙色、黑色、白色、直线、弧线、四边形、多边形、三角形、倒三角形和圆形编码信息，基元属性向量的维度值为1表示该维度对应的编码信息，若为0表示无编码信息；

第二步，依据记录的形状图中每个形状在图像中的位置坐标值，使用计算机视觉库中函数，获取其最小外接矩形，根据矩形的四个点的坐标分析形状之间有无包含和相交关系，对矩形四个点的坐标值求和并平均，求得中心坐标值，根据中心坐标分析形状之间的上下左右关系，将这些关系用方位关系向量来表示；方位关系向量第一维度表示该张图像中检测的两个形状之间的包含编码信息，该编码为1表示该张图像中两个形状存在包含关系，编码为0表示两个形状间无包含关系，方位关系向量第二维度表示该张图像中检测的两个形状之间交叉的编码信息，该编码为1表示该张图像中两个形状存在交叉关系，编码为0表示形状间无交叉关系，方位关系向量第三维度表示该张图像中检测的两个形状上下关系的编码信息，该编码为1表示该张图像中第一个形状存在第二个形状的上方，编码为0表示形状间无关系，方位关系向量第四维度表示该张图像中检测的两个形状上下关系，该编码为1表示该张图像中第一个形状存在第二个形状的下方，编码为0表示形状间无关系，图像中的基元属性向量和方位关系向量共同形成语义向量；

第三步，对训练样本集中的每一类图像，依据人眼对该类图像的颜色类别和形状类别视觉感知，定义一个语义参考向量，其中，语义参考向量的第一维度表示视觉有无接收到红色的编码信息，该编码信息为1表示视觉上接收到红色信息，为0表示没有接收到红色信息；语义参考向量的接下来维度依次表示视觉上有无接收到蓝色、橙色、黑色、白色、直线、弧线、四边形、多边形、三角形、倒三角形和圆形的编码信息，语义参考向量的维度值为1表示该维度对应的编码信息，若为0表示无编码信息，语义参考向量的接下来的维度表示视觉上接收到形状之间的方位关系编码信息；

第四步，将每张图像的语义向量与每类语义参考向量依次进行内积和归一化处理，将内积和归一化的结果作为该张图像语义分类的预测值；

第五步，重复第一、二、三、四步，直到得到所有图像的语义分类预测值。

4.根据权利要求1所述的基于融合语义神经网络的图像分类方法，其特征在于，步骤(5b)中所述融合公式如下：

r_l＝αs_l+βp_l

其中，r_l表示训练样本集中第l张图像的综合分类预测值，l＝1,2…N,N表示训练样本集图像的总数,α表示语义分类预测值的融合系数，取值为(0,1)之间的任意小数，s_l表示训练样本集中第l张图像语义分类预测值，β表示胶囊网络分类预测值的融合系数，取值为(0,1)之间任意小数，p_l表示胶囊网络对训练样本集中第l张图像的分类预测值。

5.根据权利要求1所述的基于融合语义神经网络的图像分类方法，其特征在于，步骤(5c)中所述损失函数公式如下：

L_hk＝T_hkmax(0,0.9-r_hk)²+λ(1-T_hk)max(0,r_hk-0.1)²

其中，L_hk为训练样本集中第h张图像预测为第k类图像的损失值，k＝1,2…M，M为训练样本集图像总的类别数，h＝1,2…N，N为训练样本集图像的总数，T_hk为训练样本集中第h张图像的实际类别，训练样本集中第h张图像是第k类图像则T_hk取值为1，不是第k类则T_hk取值为0，r_hk该张训练样本图像综合预测值中预测为k类图像的值，第λ为调节系数，取值为(0,1)之间任意小数。