CN107609634A

CN107609634A - 一种基于增强极速学习的卷积神经网络训练方法

Info

Publication number: CN107609634A
Application number: CN201710717240.7A
Authority: CN
Inventors: 郑丽颖; 沈柳笛; 张文武; 初妍
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2017-08-21
Filing date: 2017-08-21
Publication date: 2018-01-19

Abstract

本发明公开了一种基于增强极速学习的卷积神经网络训练方法，属于人工神经网络领域。其特征在于：构建传统的卷积神经网络，以三层感知机作为全连接层；利用传统的训练算法预训练卷积神经网络模型；当网络的损失函数小于预先设定好的阈值时，停止预训练；将所有样本输入预训练好的卷积神经网络模型，记录误分类的样本；保持预训练的模型结构和参数不变，根据误分类样本和极速学习算法微调全连接层的隐层与输出层之间的连接权值。本发明克服了传统CNN存在的问题，具有学习速度快、网络泛化能力强的特点。

Description

一种基于增强极速学习的卷积神经网络训练方法

技术领域

本发明涉及一种基于增强极速学习的卷积神经网络训练方法，属于人工神经网络领域。

背景技术

卷积神经网络是近年发展起来，并引起广泛重视的一种高效识别方法。20世纪60年代，Hubel和Wiesel在研究猫脑皮层中用于局部敏感和方向选择的神经元时发现其独特的网络结构可以有效地降低反馈神经网络的复杂性，继而提出了卷积神经网络(Convolutional Neural Networks-简称CNN)。现在，CNN已经成为众多科学领域的研究热点之一，特别是在模式分类领域，由于该网络避免了对图像的复杂前期预处理，可以直接输入原始图像，因而得到了更为广泛的应用。K.Fukushima在1980年提出的新识别机是卷积神经网络的第一个实现网络。随后，更多的科研工作者对该网络进行了改进。其中，具有代表性的研究成果是Alexander和Taylor提出的“改进认知机”，该方法综合了各种改进方法的优点并避免了耗时的误差反向传播。

一般地，CNN的基本结构包括两层，其一为特征提取层，每个神经元的输入与前一层的局部接受域相连，并提取该局部的特征。一旦该局部特征被提取后，它与其它特征间的位置关系也随之确定下来；其二是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射是一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数。卷积神经网络中的每一个卷积层都紧跟着一个用来求局部平均与二次提取的计算层，这种特有的两次特征提取结构减小了特征分辨率。

CNN主要用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习，所以在使用CNN时，避免了显示的特征抽取，而隐式地从训练数据中进行学习；再者由于同一特征映射面上的神经元权值相同，所以网络可以并行学习，这也是卷积网络相对于神经元彼此相连网络的一大优势。卷积神经网络以其局部权值共享的特殊结构在语音识别和图像处理方面有着独特的优越性，其布局更接近于实际的生物神经网络，权值共享降低了网络的复杂性，特别是多维输入向量的图像可以直接输入网络这一特点避免了特征提取和分类过程中数据重建的复杂度。

发明内容

本发明提出一种基于增强极速学习的卷积神经网络训练方法，目的是克服传统CNN存在的问题，具有学习速度快、网络泛化能力强的特点。

本发明的目的是这样实现的：

一种基于增强极速学习的卷积神经网络训练方法，其特征在于，包含以下步骤：

步骤一构建传统的卷积神经网络，以三层感知机作为全连接层；其中，全连接层的输入层为第C_M卷积层提取的特征，隐层的激活函数为连续可微函数，输出层的激活函数为线性函数。

步骤二利用传统的训练算法和全部训练样本训练卷积神经网络模型。

步骤三设th为损失函数阈值，当网络的损失函数小于th时，停止训练，得到预训练的网络模型。

步骤四将所有样本输入预训练好的卷积神经网络模型，判断每个样本的预分类结果；将误分类的样本放入集合S。

步骤五将合集S中的样本依次输入预训练的卷积神经网络模型，得到卷积层C_M的输出，并构建矩阵inELM：

inELM＝[OutC_M(X₁)OutC_M(X₂)…OutC_M(X_N)]

其中，X_i表示集合S中的第i个样本，i＝1,2,…N，N表示集合S中的样本个数，OutC_M(X_i)表示样本X_i对应的C_M层输出。

步骤六将矩阵inELM作为MLP的输入，并相应的MLP隐层输出为hELM。

步骤七更新MLP隐层与输出层之间的连接权矩阵：

β_new＝β+hELM⁺T

其中，β为预训练的MLP隐层与输出层之间的连接权值矩阵，β_new为更新之后的隐层与输出层之间的连接权值矩阵，hELM⁺为hELM的广义逆矩阵，T为集合S中的样本对应的期望输出。

步骤八用β_new替代MLP中隐层与输出层之间的连接权值矩阵β，保持预训练的卷积神经网络其他参数和网络结构不变，得到训练好的卷积神经网络模型。

本发明的有益效果是：

1)网络训练速度快；

2)泛化能力强。

附图说明

图1为本发明中所述传统卷积神经网络结构图。

具体实施方式

下面结合附图对本发明进行详细描述：

设th为损失函数阈值，本发明所提出的卷积神经网络训练方法如下：

步骤1：构建传统的卷积神经网络，以三层感知机作为全连接层，如图1所示。其中，全连接层的输入层为第C_M卷积层提取的特征，隐层的激活函数为连续可微函数(例如Sigmoid函数)，输出层的激活函数为线性函数。

步骤2：利用传统的训练算法(例如误差反传算法)和全部训练样本训练卷积神经网络模型。

步骤3：当网络的损失函数小于th时，停止训练，得到预训练的网络模型。

步骤4：将所有样本输入预训练好的卷积神经网络模型，判断每个样本的预分类结果；将误分类的样本放入集合S。

步骤5：令MLP表示预训练的卷积神经网络全连接层(即卷积神经网络中的三层感知机)，保持MLP网络结构和所有参数不变，利用误分类样本和极速学习方法调整MLP隐层与输出层之间的连接权矩阵，具体方法如下：

步骤5.1：将合集S中的样本依次输入预训练的卷积神经网络模型，得到卷积层C_M的输出，并利用公式(1)构建矩阵inELM：

inELM＝[OutC_M(X₁)OutC_M(X₂)…OutC_M(X_N)] (1)

其中，X_i，表示集合S中的第i个样本，i＝1,2,…N，N表示集合S中的样本个数，OutC_M(X_i)表示样本X_i对应的C_M层输出。

步骤5.2：将矩阵inELM作为MLP的输入，并相应的MLP隐层输出为hELM。

步骤5.3：利用公式(2)更新MLP隐层与输出层之间的连接权矩阵：

β_new＝β+hELM⁺T (2)

步骤6：用β_new替代MLP中隐层与输出层之间的连接权值矩阵β，保持预训练的卷积神经网络其他参数和网络结构不变，得到训练好的卷积神经网络模型。

Claims

1.一种基于增强极速学习的卷积神经网络训练方法，其特征在于，包含以下步骤：

步骤一构建传统的卷积神经网络，以三层感知机作为全连接层；其中，全连接层的输入层为第C_M卷积层提取的特征，隐层的激活函数为连续可微函数，输出层的激活函数为线性函数；

步骤二利用传统的训练算法和全部训练样本训练卷积神经网络模型；

步骤三设th为损失函数阈值，当网络的损失函数小于th时，停止训练，得到预训练的网络模型；

步骤四将所有样本输入预训练好的卷积神经网络模型，判断每个样本的预分类结果；将误分类的样本放入集合S；

inELM＝[OutC_M(X₁) OutC_M(X₂) … OutC_M(X_N)]

其中，X_i表示集合S中的第i个样本，i＝1,2,…N，N表示集合S中的样本个数，OutC_M(X_i)表示样本X_i对应的C_M层输出；

步骤六将矩阵inELM作为MLP的输入，并相应的MLP隐层输出为hELM；

步骤七更新MLP隐层与输出层之间的连接权矩阵：

β_new＝β+hELM⁺T

其中，β为预训练的MLP隐层与输出层之间的连接权值矩阵，β_new为更新之后的隐层与输出层之间的连接权值矩阵，hELM⁺为hELM的广义逆矩阵，T为集合S中的样本对应的期望输出；