CN109522914A

CN109522914A - 一种基于图像的模型融合的神经网络结构训练方法

Info

Publication number: CN109522914A
Application number: CN201710845881.0A
Authority: CN
Inventors: 张伟; 刘英丽; 黄昊; 王康; 何旭; 高升
Original assignee: Shenyang Institute of Automation of CAS
Current assignee: Shenyang Institute of Automation of CAS
Priority date: 2017-09-19
Filing date: 2017-09-19
Publication date: 2019-03-26

Abstract

本发明涉及一种改进的模型融合的神经网络结构训练方法，采集图像，形成数据集，根据图像特征确定原始神经网络结构；将数据集划分为若干个子集，并且改变原始神经网络结构，得到若干个模型，使得到的模型个数与子集个数相同；采用划分后的子集分别训练对应的模型，得到每个模型的表现值；计算每个模型的表现系数，并根据表现系数输出数据集训练结果。本发明提供了简化训练神经网络难度的新思路，综合加入物理学动量的设计方法的优势，可大幅减小训练时间，加速目标函数收敛速度，更容易获得目标函数全局最优解。同时提高泛化性能。

Description

一种基于图像的模型融合的神经网络结构训练方法

技术领域

本发明涉及一种深度学习中优化算法领域，具体地说是一种基于图像的模型融合的神经网络结构训练方法。

背景技术

深度学习如今广泛应用与许多领域，比如机器视觉，人脸识别，语音识别，机器翻译等，达到了不错的应用效果。但是尽管我们使用这些算法训练的模型经历了变革，即简化了极深架构的训练。但是人们普遍认为深度网络是难以训练的。这是由于超参数较多，结构复杂等因素形成的。由于我们的活动越来越多发生在计算机上，我们做什么也越来越多地被记录。由于我们的计算机越来越多地联网在一起，这些记录变得更容易集中管理，并更容易将它们整理成适于机器学习应用的数据集。“大数据”时代最重要的新进展是，现在我们有了这些算法得以成功训练所需的资源。大的数据集和能够训练更深网络的技术，深度学习的普及性和实用性都有了极大的发展，使机器学习更加容易。

因此为了更加容易训练深度学习的模型，我充分利用数据，将数据分成K个不同的子集我们就可以训练K个不同的模型，每个数据集的差异导致了训练模型之间的差异，增加我们再测试集上的泛化性能，减少测试误差。在每个模型的目标函数的优化中采用动量的随机梯度方法，随机梯度下降虽然仍然比较受欢迎，但是有时学习过程会比较慢。我们采用动量的随机梯度下降，动量方法旨在加速学习，特别是处理高曲率、小但一致的梯度，或是带噪声的梯度。动量算法积累了之前梯度指数级衰减的移动平均，并且继续沿该方向移动。动量算法引入ν充当速度角色，代表移动的方向和速率。速度被设为负梯度的指数衰减平均。在动量学习算法中，我们假设是单位质量，因此速度向量v也可以看作是粒子的动量。超参数α∈[0,1)决定了之前梯度的贡献衰减得更新，规则如下：

速度v累积了梯度元素相对于∈，α越大，之前梯度对现在方向的影响也越大。

如图2所示是动量随机梯度下降的效果图。

横跨轮廓的圆点路径表示动量学习规则所遵循的路径，它使该函数最小化。我们在该路径的每个步骤画一个箭头，表示梯度下降将在该点采取的步骤。我们可以看到，一个二次目标函数看起来像一个长而窄的山谷或具有陡峭边的峡谷。动量正确地纵向穿过峡谷，而普通的梯度步骤则会浪费时间在峡谷的窄轴上来回移动。

发明内容

针对现有技术的不足，本发明提供一种基于图像的模型融合的神经网络结构训练方法，充分利用数据，且能确定提高泛化性能减少测试误差。

本发明为实现上述目的所采用的技术方案是：

一种改进的模型融合的神经网络结构训练方法，包括以下步骤：

步骤1：采集图像，形成数据集，根据图像特征确定原始神经网络结构；

步骤2：将数据集划分为若干个子集，并且改变原始神经网络结构，得到若干个模型，使得到的模型个数与子集个数相同；

步骤3：采用划分后的子集分别训练对应的模型，得到每个模型的表现值；

步骤4：计算每个模型的表现系数，并根据表现系数输出数据集训练结果。

所述图像特征包括：图像的长度、宽度和格式。

所述改变原始神经网络结构包括改变原始神经网络结构中的隐藏单元数目、层数、卷积层的滤波器的大小以及激励函数的形式。

所述表现值为测试集的泛化能力，即，每个模型在测试集上的误差与训练集上的误差的近似程度。

所述表现系数为：

其中，G_j是第j个模型的泛化能力，G是测试集的泛化能力，weight_j是第j个模型的表现系数。

所述根据表现系数输出数据集训练结果包括以下过程：

其中，p是数据集训练结果，P_i是第i个模型的训练结果，weight_i是第i个模型的表现系数。

本发明具有以下有益效果及优点：

本发明提供了简化训练神经网络难度的新思路，综合加入物理学动量的设计方法的优势，可大幅减小训练时间，加速目标函数收敛速度，更容易获得目标函数全局最优解，同时提高泛化性能。

附图说明

图1是本发明的方法流程图；

图2是本发明的动量随机梯度下降效果图。

具体实施方式

下面结合附图及实施例对本发明做进一步的详细说明。

如图1所示为本发明的方法流程图。

确定原始神经网络的结构，包括神经网络的层数，隐藏层的数目，激活函数的选择。对数据集进行处理，将数据集采样分为K个子集，每个子集可以用不同的数据处理方式，比如图像的灰度化，归一化，旋转变换等方法。改变原始神经网络结构，隐藏单元数目，层数，数据子集处理方式等，形成K个模型。采用K个子集训练不同的K个模型，每个模型都可以有不同的算法和目标函数训练不同的模型。每个模型根据最后的表现给与一个表现系数，其中G_j是第j个模型表现，让所用的模型共同表决测试样例的输出。

将K个子集分别训练K个模型，具体来说，涉及构造k个不同的数据集。每个数据集从原始数据集中重复采样构成，和原始数据集具有相同数量的样例。这意味着，每个数据集以高概率缺少一些来自原始数据集的例子，还包含若干重复的例子(如果所的训练集与原始数据集大小相同，那所得数据集中大概有原始数据集2/3的实例)。模型j在数据集j上训练，每个数据集的差异导致了训练模型之间的差异。

将数据集分成不同的部分然后每一个部分去训练自己的模型，最终的结果综合各个模型的表现。每个模型采用动量随机梯度下降，该方法引入牛顿运动定律，负梯度是移动参数空间中粒子的力。动量在物理学上定义为质量乘以速度。在动量学习算法中，我们假设是单位质量，因此速度向量v也可以看作是粒子的动量。

实施例：

(1)以手写数字识别数字集为例，tensorflow的封装让使用MNIST数据集更加方便，它包含60000张图片作为训练集，10000张图片作为测试集，每张图片代表了0～9的一个数字，图片大小28*28，且图片出现在正中间。我们将手写数字的训练集分为6个10000张图片的训练集，每个模型这里选用ReLU(Rectified Linear Units)作为网络的激活函数，ReLU具有计算速度快，准确率高等优点，函数形式f(x)＝max(0,x)。网络的输入是经过预处理生成的84*84*4的图像；第一个隐藏层由32个8*8的卷积核组成，步长为4，并使用ReLu做非线性变换，经过卷积核的变换后该层有20*20*32个节点第二个隐藏层包含48个4*4的卷积核，步长为2，同样使用ReLu函数做非线性变换，经过卷积核的变换后该层有9*9*48个节点。最后一个隐藏层包含512个与上一层进行全连接ReLU单元。输出层单元是与上一层的全连接的线性函数，每一个输出对应一个可能的动作。其他的模型也可以用不同卷积步长不同有(4，2)改为(2，2)；将mini-batch的采样大小48改为16；改变输入图像的预处理方法；全连接层的层数或者节点数量不同，将全连接层节点由512改为256。每个训练集训练一种模型，总共6种模型。

(2)对每一个模型使用动量的随机梯度下降(SGD)优化目标函数，

Require:学习率∈，动量参数α

Require:初始参数θ，初始速度v

while没有达到停止准则do

从训练集中采包含m个样本{xⁱ,…x^m}的小批量，对应目标为yⁱ。

计算梯度估计：

计算速度更新：v←αv-∈g

应用更新：θ←θ+v

end while

在实践中，α的一般取值为0.5，0.9和0.99。和学习率一样，α也会随着时间不断调整。一般初始值是一个较小的值，随后会慢慢变大。随着时间推移调整α没有收缩∈重要。

(3)每个模型通过它们在手写数字识别正确率的多少给与他们不同的模型系数，模型融合是通过结合几个模型降低泛化误差的技术，主要想法是分别训练几个不同的模型，然后让所有模型表决测试样例的输出。采用这种策略的技术奏效的原因是不同的模型通常不会在测试集上产生完全相同的误差。

假设我们有k个模型。假设每个模型在每个例子上的误差是∈_i，这个误差服从零均值方差为且协方差为E[∈ⁱ∈^j]＝c的多维正态分布。通过所有集成模型的平均预测所得误差是集成预测器平方误差的期望是

在误差完全相关即c＝v的情况下，均方误差减少到v，所以模型融合没有任何帮助。在错误完全不相关即c＝0的情况下，该集成平方误差的期望仅为这意味着平方误差的期望会随着集成规模增大而线性减小。换言之，集成平均至少与它的任何成员表现得一样好，并且如果成员的误差是独立的，集成将显著地比其成员表现得更好。

(4)最终在测试集上的表现通过6个不同的模型共同决定。

综上所述，神经网络的解能够达到足够多的变化意味着他们可以从融合不同的模型中受益(即使所有模型都在同一数据集上训练)。神经网络中随机初始化的差异、小批量的随机选择、超参数的差异或不同输出的非确定性实现往往足以使得集成中的不同成员具有部分独立的误差。是一个减少泛化误差的非常强大可靠的方法。因为任何机器学习算法都可以从中大幅获益(以增加计算和存储为代价)。

Claims

1.一种改进的模型融合的神经网络结构训练方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的改进的模型融合的神经网络结构训练方法，其特征在于：所述图像特征包括：图像的长度、宽度和格式。

3.根据权利要求1所述的改进的模型融合的神经网络结构训练方法，其特征在于：所述改变原始神经网络结构包括改变原始神经网络结构中的隐藏单元数目、层数、卷积层的滤波器的大小以及激励函数的形式。

4.根据权利要求1所述的改进的模型融合的神经网络结构训练方法，其特征在于：所述表现值为测试集的泛化能力，即，每个模型在测试集上的误差与训练集上的误差的近似程度。

5.根据权利要求1所述的改进的模型融合的神经网络结构训练方法，其特征在于：所述表现系数为：

6.根据权利要求1所述的改进的模型融合的神经网络结构训练方法，其特征在于：所述根据表现系数输出数据集训练结果包括以下过程：