CN109635932A

CN109635932A - 一种部分连接多层感知器的图形化设计与实现方法

Info

Publication number: CN109635932A
Application number: CN201811538198.3A
Authority: CN
Inventors: 李玉鑑; 沈浩; 张婷; 刘兆英; 李冬冬; 单传辉
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2018-12-16
Filing date: 2018-12-16
Publication date: 2019-04-16

Abstract

本发明公开了一种部分连接多层感知器的图形化设计与实现方法，选择需要训练的数据集，对数据集数据预处理符合网络训练的需要；根据用户画出的网络图形生成对应的数据结构，并检查网络的连接方式是否合法；对网络图结构拓扑排序，根据线性序列执行网络的前向计算，计算出神经元上的输出值x；根据拓扑排序得到的线性序列反向执行网络的反向计算，计算出神经元上的误差值δ；遍历网络中的有向边，计算梯度更新有向边上的权重值w；本发明可以用来训练部分连接的多层感知器，并且通过图形化方法生成网络，无需通过编程生成网络。

Description

一种部分连接多层感知器的图形化设计与实现方法

技术领域

本发明涉及一种部分连接多层感知器的图形化设计以及实现方法，属于模式识别领域。本发明可以用来训练各种连接比例的多层感知器，并且通过图形化方法生成人工神经网络而不是传统的编程实现。

背景技术

作为一种实现人工智能的技术，人工神经网络已经在图像识别、语音识别、自然语言处理等多个领域取得了突破性的成果，而且受到了非常高的关注。多层感知器曾是相当流行的机器学习算法，拥有广泛的应用场景。近年，由于深度学习的成功，多层感知器又重新得到了关注。

多层感知器是一种由有多层节点的有向图构成的前馈神经网络，其中每一个非输入节点都是具有非线性激活函数的神经元，每一层与下一层是全连接的。多层感知器的一个优点是它可以被训练。训练多层感知器的过程其实就是数学上的最优化，目标是找到一组最佳的权重来最大限度的减少预测值与实际值的误差。

给定一个训练样本用(x,y)表示，首先计算每个神经元上的激活值，直到最后一层。在最后一层计算完毕后，计算得到实际值与预测值的误差。再根据得到的误差反向计算每一个层上的每一个神经元上的误差δ值，该值可以理解为该神经元对于总误差的分担值，误差的计算过程是从最后一层推进的。最后是更新参数，目标是使误差变小。

使用·来表示元素积(Hadamardproduct),多层感知器算法的矩阵表示形式如下所示：

1.执行前向计算过程，计算第二层一直到最后一层的激活值，这里上标n表示在多层感知器的第n层，n_l表示多层感知器的最后一层即输出层。

2.先求出最后一层的误差值，y表示样本的标签值，z表示上一层数据作为输入经过加权求和之后的值，a表示z经过激活函数激活之后的值，即表示样本经过多层感知器计算之后的预测值，f'(z)表示f(z)的导数：

3.倒序求从倒数第二层到第二层的误差值，W表示多层感知器相邻两层之间的参数，W和b实际就是整个网络所训练的参数：

δ^l＝((W^l)^Tδ^l+1)·f'(z^l)

4.计算梯度，ΔW和Δb表示网络训练参数的梯度，在每一次反向传播过程中都以此参数来更新网络：

5.更新多层感知器中权重，η为网络中的学习率，数值范围一般控制在0＜η≤1，主要用于控制网络参数训练更新的步长：

W^l＝W^l-ηΔW^l

b^l＝b^l-ηΔb^l

发明内容

部分连接多层感知器的图形化设计与实现方法，是利用图形生成的方式来构建一个用户需要的前馈神经网络，网络的要求形式是多层感知器的图结构，一种基于部分连接多层感知器的计算模式识别方法，其特征在于以下步骤：

步骤1：选择训练集，在面板界面选择一种数据集作为神经网络的数据集，可选的数据集大部分都是UCI公开的数据集，本发明自带了Iris、Sonar、Diabetes、 Blood等数据集以供部分连接多层感知器模型训练使用；以Iris数据集为例，数据集包含150个数据样本，分为3类，每类50个数据，每个数据包含4个属性以及1个标签值，可通过花萼长度、花萼宽度、花瓣长度和花瓣宽带4个属性预测鸢尾花卉属于三个种类中的哪一类；

步骤1.1：为了加快训练的收敛速度，对每一个特征做归一化；根据选择的样本，可以选择批梯度下降、随机梯度下降和mini-batch梯度下降，因为可选的都不是大型的数据，故默认采用随机梯度下降，每次只处理一个样本；为了避免样本顺序固定对训练产生影响，在训练样本之前随机打乱数据集内样本的顺序；

步骤1.2：将预处理后样本中的特征值放入数组X中，对应的标签值依次存放另一个数组Y中；针对分类任务，为了让标签值与预测值之间的误差距离计算更加合理，需额外将标签值转成one-hot编码形式；如果是回归任务，不对标签值做处理；

步骤2：构造网络结构，在画板界面中画出符合用户需求的部分连接多层感知器的神经网络结构；

步骤2.1：在画图界面按钮区域选择“多层感知器层数”按钮，则出现输入多层感知器层数按钮，输入层数；然后程序会根据整个画图界面的宽度进行均匀分配每层的间距，并根据画图界面的高度合理给出画图界面的初始布局分布；部分连接多层感知器的每一层用一个胶囊表示，在胶囊结构中计算并保存一些向量信息(比如输出值、误差项等)，以及与这个胶囊相关的连接信息；

步骤2.2：设置各层胶囊中神经元个数，点击胶囊则会弹出界面要求输入对应胶囊内部的神经元个数；

步骤2.3：设置各层胶囊的激活函数，胶囊默认不带激活函数；作为输入的胶囊不做激活处理，中间隐藏层的胶囊可以使用relu、sigmoid、tanh等激活函数，输出层胶囊的激活函数如果是分类任务一般会设定为softmax函数，如果是回归任务则不选择激活函数；

步骤2.4：部分连接多层感知器的层数和每层胶囊中神经元个数确定之后，点击“部分连接”按钮，则相邻两层胶囊之间形成部分连接；在界面中产生部分连接多层感知器各层之间的连接，可以显示数据流计算的顺序并通过点击有向边图形设定部分连接的属性；部分连接的方式可以是两层神经元之间随机连接，也可以选择一些系统提供的特定的规则连接；随机部分连接根据有向边上设定的连接概率p，对应生成一个mask矩阵，该mask矩阵服从概率为p的Bernoulli分布，该矩阵中只有0和1两个元素，0代表断开两个节点之间的连接，1表示保持原来的连接；

步骤2.5：确定形成的网络图中胶囊的计算顺序，主要是根据生成部分连接多层感知器图形过程中产生的依赖关系列表，利用拓扑排序确定计算顺序；

步骤3：执行部分连接多层感知器的计算，完成对数据集的训练和测试；

步骤3.1：执行前向计算；与全连接形式的多层感知器计算方式不同的是在运算中要利用到与权重相同形状的mask矩阵，通过mask矩阵来控制两层网络之间节点的连接状态；W和b表示部分连接多层感知器中相邻两层之间的权重及偏置，两者都是部分连接多层感知器需要训练的参数；z表示上一层的输出值作为当前层的输入数据经过加权求和的结果，a表示z经过激活函数计算之后的激活值，上标表示在部分连接多层感知器中元素所在的层，全连接的多层感知器的前向计算如下：

z^l+1＝W^la^l+b^l，a^l+1＝f(z^l+1)

而部分连接的多层感知器需要先将权值矩阵与对应的mask矩阵做对应元素相乘(Hadamard积)；部分连接多层感知器的mask矩阵与dropconnect方法中使用的mask矩阵不同的地方在于部分连接多层感知器中生成的mask矩阵在训练和测试中都是相同的，而dropconnect中mask矩阵在训练阶段中每训练一个batch 的数据都要再随机生成一次mask矩阵，并且在测试阶段不再使用mask矩阵，相应的还要对网络中的参数做缩放处理，而部分连接多层感知器在测试阶段不需要做参数的缩放处理；这里mask矩阵用M表示，Hadamard积用·表示，部分连接多层感知器的前向计算如下所示，上标表示这些参数在部分连接多层感知器的第几层：

z^l+1＝(M^l·W^l)a^l+b^l,a^l+1＝f(z^l+1)

步骤3.2：执行反向计算；找到网络中的输出胶囊，即计算图中最后一个胶囊，利用输出的预测值与对应标签的真实值，先求出最后一层的误差值，最后一层用n_l表示，y表示数据样本的真实值，实际表示的是网络对样本的预测值，计算δ的过程其实就是将最后的总误差分摊到网络中每一个节点上，采用平方误差作为损失函数的部分连接多层感知器的最后一层的反向计算公式如下：

接着从倒数第二层按倒序一直计算到第二层，W和b表示部分连接感知器相邻两层之间的参数，W和b实际就是整个网络所需要训练的参数，计算公式为：

δ^l＝((W^l)^Tδ^l+1)·f'(z^l)

步骤3.3：计算梯度，ΔW和Δb表示网络训练参数的梯度，在每一次反向传播过程中都以此参数为依据来更新网络，梯度的计算与多层感知器一样：

步骤3.4：更新参数值，这里需要再次利用上之前生成的mask矩阵，更新的计算公式如下所示，η为网络的学习率，学习率一般0＜η≤1，用于控制网络训练参数更新的步长：

W^l＝W^l-η(M^l·ΔW^l)

b^l＝b^l-ηΔb^l

步骤3.5：完成部分连接多层感知器的训练后，在测试集上衡量网络的泛化能力，在测试集上的计算过程与训练过程中的前向计算一致，最后输出训练好的网络在测试集上的正确率。

与现有的深度学习框架相比较，本发明具有如下效果：

1)搭建神经网络模型不再需要从原始的编程开始，而是通过在界面上图形化的形式构造需要的神经网络；

2)多层感知器的层与层之间实现了部分连接，可以有效的剔除全连接多层感知器中冗余的一些参数。

附图说明

图1为本发明用胶囊构建的部分连接多层感知器在画图界面的效果图。

图2为本发明实施的流程图。

具体实施方式

下面对本发明进行解释和阐述并比较各种连接比例与全连接形式的多层感知器在不同数据集上的分类效果。

本发明可采用图形化表示部分连接的多层感知器，在短时间内形成一个人工神经网络，可用于在模式识别的教学和实验中直观地展示神经网络的分类效果，具体的实施方案为：

步骤1：采用的一个训练集是从互联网上下载UCI数据集中的diabetes数据集，该数据集张总共有768个数据，特征有怀孕次数，血糖，血压，皮脂厚度，胰岛素，BMI身体质量指数，糖尿病遗传函数，年龄，结果。其中结果是要预测的特征，包含两种类别的样本，0代表未患有糖尿病，1代表患有糖尿病。在 768个数据点中，500个被标记为0，268个被标记为1。在选定该数据集做实验时，本图形化系统在选定该数据集时自动将表示标签值的0、1转成one-hot形式。对于训练集和测试集的划分采用7：3的比例。

步骤2：利用前端界面提供的图形按钮，形成包含一个输入层、一个隐藏层和一个输出层的多层感知器的人工神经网络结构。首先需要点击前端界面中不同部分的胶囊图形，在弹窗中设置该胶囊表示的这一层网络中神经元的个数，以及这一层中各神经元所采用的激活函数。

步骤2.1：在本次实施中，由于训练数据集有八个训练特征，故设置输入胶囊的神经元个数应与特征数量相一致，设置为8，对输入胶囊不采用激活函数。

步骤2.2：设置中间隐藏层的胶囊的神经元个数为100，激活函数通过下拉框选择为relu函数。

步骤2.3：由于将标签转换成了one-hot表现形式并且是二分类问题，故在最后的输出胶囊中设置神经元的个数为2，激活函数设为softmax函数。

步骤2.4：点击有向边图形设置相邻两层之间部分连接的比例。

步骤3：在画板的边栏设置网络训练的一些超参数。设置学习率为0.001，任务设置为分类，训练方法为随机梯度下降，点击训练按钮开始网络的训练。训练结束时显示训练每一轮对应的正确率和损失曲线图，将测试集的正确率打印显示。

本发明按实施例比较了6种随机连接比例，并将各层之间的连接比例设置为同一种，分别是0.5、0.6、0.7、0.8、0.9以及为1的全连接。为了使实验结果具有可比性，对训练集和测试集的数据采用相同的切分。对该数据集采用同一种划分的测试正确率如表1所示：

表1部分连接多层感知器对UCI Diabetes的分类性能

连接比例	0.5	0.6	0.7	0.8	0.9	1.0
							测试正确率	74.63％	74.85％	74.98％	74.89％	75.06％	74.68％

而对于处理小型数据集的小型多层感知器上采用部分连接的方式也能超过全连接的效果。采用上述实施方式的实施步骤对UCI中的Iris数据集分类，由于数据集的不同对网络结构进行调整，输入层的节点数为4，中间隐藏层的节点数为50，输出层的节点数为3，其他参数与实施方式中保持一样，在测试集上的分类效果如表2所示：

表2部分连接多层感知器对UCIIris的分类性能

连接比例	0.5	0.6	0.7	0.8	0.9	1.0
							测试正确率	94.67％	95.78％	94.67％	94.44％	93.78％	92.89％

Claims

1.一种部分连接多层感知器的图形化设计与实现方法，其特征在于，该方法包括如下步骤：

步骤1：选择训练集，在面板界面选择一种数据集作为神经网络的数据集，可选的数据集大部分都是UCI公开的数据集，本发明自带了Iris、Sonar、Diabetes、Blood等数据集以供部分连接多层感知器模型训练使用；以Iris数据集为例，数据集包含150个数据样本，分为3类，每类50个数据，每个数据包含4个属性以及1个标签值，可通过花萼长度、花萼宽度、花瓣长度和花瓣宽带4个属性预测鸢尾花卉属于三个种类中的哪一类；

z^l+1＝W^la^l+b^l，a^l+1＝f(z^l+1)

而部分连接的多层感知器需要先将权值矩阵与对应的mask矩阵做对应元素相乘(Hadamard积)；部分连接多层感知器的mask矩阵与dropconnect方法中使用的mask矩阵不同的地方在于部分连接多层感知器中生成的mask矩阵在训练和测试中都是相同的，而dropconnect中mask矩阵在训练阶段中每训练一个batch的数据都要再随机生成一次mask矩阵，并且在测试阶段不再使用mask矩阵，相应的还要对网络中的参数做缩放处理，而部分连接多层感知器在测试阶段不需要做参数的缩放处理；这里mask矩阵用M表示，Hadamard积用·表示，部分连接多层感知器的前向计算如下所示，上标表示这些参数在部分连接多层感知器的第几层：

z^l+1＝(M^l·W^l)a^l+b^l,a^l+1＝f(z^l+1)

δ^l＝((W^l)^Tδ^l+1)·f'(z^l)

W^l＝W^l-η(M^l·ΔW^l)

b^l＝b^l-ηΔb^l