CN107704917A

CN107704917A - 一种有效训练深度卷积神经网络的方法

Info

Publication number: CN107704917A
Application number: CN201710732378.4A
Authority: CN
Inventors: 郝群; 蒋阳; 曹杰; 闫雷; 高泽东
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2017-08-24
Filing date: 2017-08-24
Publication date: 2018-02-16

Abstract

本发明公开的一种有效训练深度卷积神经网络的方法，属于深度学习领域。本发明包括如下步骤：步骤一：针对线性修正单元ReLU的缺点进行改进，提出自适应可延伸的线性修正单元EReLU；步骤二：初始化步骤一中的参数t，使深度卷积神经网络模型成为线性结构的初始形态，通过参数t自我学习，实现从线性到非线性的训练深度卷积神经网络方法；还包括步骤三：根据深度学习相关领域工程实际对象，利用步骤一、二实现一种有效训练深度卷积神经网络的方法，对相应深度学习相关领域工程实际对象选用的卷积神经网络进行训练，得到深度学习相关领域工程实际对象的深度卷积神经网络。本发明能有效提高深度卷积神经网络的收敛速度，提高模型的泛化能力。

Description

一种有效训练深度卷积神经网络的方法

技术领域

本发明属于深度学习领域，涉及一种训练卷积神经网络的方法，特别是涉及一种训练深度卷积神经网络加速收敛和提高泛化能力的方法。

背景技术

卷积神经网络是深度学习的一种，它通过组合低层特征形成更加抽象的高层，从而发现数据的分布式特征表示。近年来，在图像识别等计算机视觉领域的研究和应用中，卷积神经网络较为流行，相比于传统算法，其识别率在图像分类任务上已取得了优异的表现。卷积神经网络训练的本质是在样本上是最小化网络输出损失函数的过程，即利用随机梯度下降算法沿网络连接反向传递损失函数的梯度，不断迭代更新网络权重使得损失函数最小，从而拟合出一个从输入到输出的非线性映射函数。

训练深度卷积网络较为困难。理论上三层神经网络宽度上神经元的个数足够多，就可以通过训练将其损失函数无限逼近于零，但实际训练中将引起严重的过拟合。相对而言，增加网络深度比增加网络宽度可以带来更好的泛化效果，且网络越深越好。然而网络深度的增加使得模型收敛困难，即训练深度网络时，由于激活函数的非线性性质，网络收敛速度较慢，甚至无法收敛。

为保障模型收敛，现有的深度卷积网络主要采用非饱和非线性激活函数ReLU、严格的网络权值初始化、精细调节的学习效率，并对每层信号进行BN(批量规范化)处理形成“卷基层+BN+ReLU”卷积单元，这在一定深度内取得了不错的效果，然而随着深度进一步增加，模型收敛速度显著变慢，训练困难问题并没有得到有效解决。综上所述，有效训练深度卷积神经网络是目前亟待解决的问题。

发明内容

本发明公开的一种有效训练深度卷积神经网络的方法要解决的问题是：提供一种有效训练深度卷积神经网络的方法，能有效提高深度卷积神经网络的收敛速度，提高模型的泛化能力。本发明适应于在深度学习相关领域工程实际应用。

本发明目的通过下述技术方案实现。

本发明公开的一种有效训练深度卷积神经网络的方法，对深度卷积神经网络中激活函数建立可训练的模型，使深度卷积神经网络成为线性初始状态，并在训练中逐步引入非线性变化最终达到收敛，在提高收敛速度的同时提高深度卷积神经网络模型的泛化能力。

本发明公开的一种有效训练深度卷积神经网络的方法，包括如下步骤：

步骤一：针对线性修正单元ReLU的缺点进行改进，提出自适应可延伸的线性修正单元Extensible ReLU(EReLU)。

线性修正单元ReLU的表达式为：

通过引入参数t，使线性修正单元ReLU公式(1)改进为自适应可延伸的线性修正单元EReLU公式(2)。

公式(2)写为y＝max(0,x-t)+t，当参数t＝0时，自适应可延伸的线性修正单元EReLU退化为线性修正单元ReLU。其中，参数t可正可负且采用权值共享策略，参数t数量与卷积核数量一致。参数t能够在训练过程中依靠链式法则完成自我学习。定义t_i为神经网络中的任意一激活层中某个自适应可延伸的线性修正单元EReLU的参数，则

其中为ε损失函数，为从更深层的网络传来的梯度，为对该层所有神经元激活函数的加和，f(·)为自适应可延伸的线性修正单元EReLU，则由公式(2)得梯度为：

引入动量μ来更新参数t_i：

引入参数t的数量与卷积核数量相同，避免引起过拟合。

所述的线性修正单元ReLU包括如下缺点：(1)由于线性修正单元ReLU屏蔽信号的负值区域，导致深度卷积神经网络模型在训练中存在死亡梯度，造成有效信号丢失，降低深度卷积神经网络模型表达能力；(2)由于线性修正单元ReLU屏蔽信号的负值区域，导致深度卷积神经网络模型每层权值期望随着训练进行出现偏移，降低网络收敛速度。

步骤二：初始化步骤一中的参数t，使深度卷积神经网络模型成为线性结构的初始形态，通过参数t自我学习，实现从线性到非线性的训练深度卷积神经网络方法。

将网络权值赋值为期望为0、方差为的正态分布，将步骤一得到的自适应可延伸的线性修正单元EReLU中参数t赋值为小于-1的实数，所述的参数t的实数优选-1。其中k为卷积核尺寸，n为卷基层输出通道数。

“卷基层+BN+EReLU”单元组成的深度卷积神经网络中，第l层卷基层输出为y_l＝w_lx_l+b_l，其中：w_l为第l层卷基层的权值，x_l为第l层卷基层的输入，b_l为第l层卷基层的偏置，y_l为第l层卷基层的输出。输入信号期望为E(x_l)＝E(BN(f(y_l-1)))＝0，其中E(·)为期望，BN(·)为批量规范化，方差Var(x_l)＝1。使卷基层权值期望E(x_l)为0，则第l层卷基层输出信号方差为Var(y_l)＝n_lVar(w_l)，其中n_l＝k²c_l，k为卷积核尺寸，c_l为第l层卷基层输出通道数，自适应可延伸的线性修正单元EReLU使得深度卷积神经网络模型能够规避链式递推，从而对于权值初始化具有更强的鲁棒性。此时卷基层输出信号方差为1，将步骤一得到的自适应可延伸的线性修正单元EReLU中参数t初始化为小于-1的实数即得到线性结构的网络初始形态。在训练中通过参数t自我学习，使参数t逐步向0逼近，从而实现从线性到非线性的训练深度卷积神经网络方法，能有效提高深度卷积神经网络的收敛速度，提高模型的泛化能力。

还包括步骤三：根据深度学习相关领域工程实际对象，利用步骤一、二实现一种有效训练深度卷积神经网络的方法，对相应深度学习相关领域工程实际对象选用的卷积神经网络进行训练，得到深度学习相关领域工程实际对象的深度卷积神经网络。

所述的根据深度学习相关领域工程实际对象包括语音识别、图像识别、类语音信号识别或类图像信号识别。

所述的类语音信号识别指输入信号可量化为向量的信号；类图像信号识别指输入信号可量化为矩阵的信号。

当深度学习相关领域工程实际对象为图像识别时，利用利用步骤一、二实现一种有效训练深度卷积神经网络的方法，对应用图像识别技术的相关工程领域模型选用的卷积神经网络进行训练，得到图像识别技术的深度卷积神经网络模型，能够提高模型在训练中的收敛速度，以及训练完成后模型的泛化能力。将得到应用图像识别技术的深度卷积神经网络模型拓展应用于自动驾驶、安防、需要图像识别的领域。

作为优选，为保证信号传递通畅，步骤二中选取n_lVar(w_l)＝1作为深度卷积神经网络权值初始化。

有益效果：

1、本发明公开的一种有效训练深度卷积神经网络的方法，采用从线性结构开始训练网络，逐步引入非线性变化最终达到收敛，使深度卷积网络易于收敛，显著提高深度卷积神经网络收敛速度。

2、本发明公开的本发明公开的一种有效训练深度卷积神经网络的方法，通过在线性训练开始中引入非线性变换的方法，在提高收敛速度的同时提高深度卷积神经网络的泛化能力。

3、本发明公开的本发明公开的一种有效训练深度卷积神经网络的方法，由于其快速的收敛速度和较高的泛化能力，能促进深度学习相关领域的应用的发展，如语音识别和图像识别技术所应用的行业等。

附图说明

图1为本发明方法的流程图；

图2为改进前后的激活函数；图2.1为线性修正单元ReLU函数，图2.2为自适应可延伸的线性修正单元EReLU函数；

图3为改进前后的卷积单元；图3.1为改进前卷积单元，图3.2为改进后卷积单元；

图4为深度卷积神经网络典型结构；图4为典型卷积网络结构，*6、*10、*14,、*18表示6、10、14、18个卷积单元堆叠，对应20层、32层、44层、56层网络；

图5.1为本发明公开方法与传统方法训练56卷积神经网络时收敛速度对比，图5.2为本发明公开方法与传统方法训练图4中4种网络结构的实验结果对比。

具体实施方式

为了更好的说明本发明的目的和优点，下面结合附图和实例对发明内容在图像识别技术上做进一步说明。

实施例1：

本实施例采用“卷基层+BN+ReLU”单元，如图3.1所示，和“卷基层+BN+EReLU”单元，如图3.2所示，分别搭建20层、32层、44层、56层网络，搭建的网络模型如图4所示。训练和验证所用的数据集为扩充后的Cifar-10数据集，Cifar-10是由Alex Krizhevsky、IlyaSutskever收集的一个用于普适物体识别的数据集，由50000个训练样本和10000个验证样本组成，总共包含10类物体，每个样本为32*32尺寸的彩色RGB图像。扩充方法为：将Cifar-10中图片以50％的概率随机取镜像，同时将图片以50％的概率随机平移4个像素并在平移方向的对称位置补零，以保证图片尺寸不变。

基于上述网络结构和数据集，对本实施例公开的方法与传统方法进行实验对比，两种方法均采用3*3卷积核，卷积核个数依次采用16、32、64，每增加一次卷积核数量，使用一次2*2最大降采样，对应的输出特征图尺寸分别为32、16、8，最后采用全局平均降采样并以全连接形式接Softmax层。学习效率初始值设置为0.01，并在训练样本上识别率不再提升时将学习效率除以10继续训练，此操作一共进行3次。权值衰减和动量分别使用0.0001和0.9。为尽量减少随机因素对实验结果的影响，不使用Dropout。

实施流程如图1所示，训练结果如图5所示。如图5.1所示，本实施例公开的方法使56层卷积网络收敛速度显著提升。如图5.2所示，本实施例公开的训练方法提高了深度卷积网络的泛化能力。

本实施例公开的一种训练深度卷积神经网络的方法，包括如下步骤：

线性修正单元ReLU的表达式为：

引入动量μ来更新参数t_i：

引入参数t的数量与卷积核数量相同，避免引起过拟合。

以上所述的具体描述，对发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种有效训练深度卷积神经网络的方法，其特征在于：包括如下步骤，

步骤一：针对线性修正单元ReLU的缺点进行改进，提出自适应可延伸的线性修正单元Extensible ReLU(EReLU)；

线性修正单元ReLU的表达式为：

<mrow> <mi>y</mi> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mn>0</mn> </mtd> <mtd> <mrow> <mi>x</mi> <mo><</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mi>x</mi> </mtd> <mtd> <mrow> <mi>x</mi> <mo>&GreaterEqual;</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

通过引入参数t，使线性修正单元ReLU公式(1)改进为自适应可延伸的线性修正单元EReLU公式(2)；

<mrow> <mi>y</mi> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mi>t</mi> </mtd> <mtd> <mrow> <mi>x</mi> <mo><</mo> <mi>t</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mi>x</mi> </mtd> <mtd> <mrow> <mi>x</mi> <mo>&GreaterEqual;</mo> <mi>t</mi> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

公式(2)写为y＝max(0_,x-t)+t，当参数t＝0时，自适应可延伸的线性修正单元EReLU退化为线性修正单元ReLU；其中，参数t可正可负且采用权值共享策略，参数t数量与卷积核数量一致；参数t能够在训练过程中依靠链式法则完成自我学习；定义t_i为神经网络中的任意一激活层中某个自适应可延伸的线性修正单元EReLU的参数，则

<mrow> <mfrac> <mrow> <mo>&part;</mo> <mi>&epsiv;</mi> </mrow> <mrow> <mo>&part;</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> </mrow> </mfrac> <mo>=</mo> <munder> <mo>&Sigma;</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> </munder> <mfrac> <mrow> <mo>&part;</mo> <mi>&epsiv;</mi> </mrow> <mrow> <mo>&part;</mo> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mfrac> <mrow> <mo>&part;</mo> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mfrac> <mrow> <mo>&part;</mo> <mi>f</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mo>&part;</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> </mrow> </mfrac> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo><</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>&GreaterEqual;</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

引入动量μ来更新参数t_i：

<mrow> <msub> <mi>&Delta;t</mi> <mi>i</mi> </msub> <mo>=</mo> <msub> <mi>&mu;&Delta;t</mi> <mi>i</mi> </msub> <mo>+</mo> <mi>&eta;</mi> <mfrac> <mrow> <mo>&part;</mo> <mi>&epsiv;</mi> </mrow> <mrow> <mo>&part;</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

引入参数t的数量与卷积核数量相同，避免引起过拟合；

步骤二：初始化步骤一中的参数t，使深度卷积神经网络模型成为线性结构的初始形态，通过参数t自我学习，实现从线性到非线性的训练深度卷积神经网络方法；

将网络权值赋值为期望为0、方差为的正态分布，将步骤一得到的自适应可延伸的线性修正单元EReLU中参数t赋值为小于-1的实数，所述的参数t的实数优选-1；其中k为卷积核尺寸，n为卷基层输出通道数；

“卷基层+BN+EReLU”单元组成的深度卷积神经网络中，第l层卷基层输出为y_l＝w_lx_l+b_l，其中：w_l为第l层卷基层的权值，x_l为第l层卷基层的输入，b_l为第l层卷基层的偏置，y_l为第l层卷基层的输出；输入信号期望为E(x_l)＝E(BN(f(y_l-1)))＝0，其中E(·)为期望，BN(·)为批量规范化，方差Var(x_l)＝1；使卷基层权值期望E(x_l)为0，则第l层卷基层输出信号方差为Var(y_l)＝n_lVar(w_l)，其中n_l＝k²c_l，k为卷积核尺寸，c_l为第l层卷基层输出通道数，自适应可延伸的线性修正单元EReLU使得深度卷积神经网络模型能够规避链式递推，从而对于权值初始化具有更强的鲁棒性；此时卷基层输出信号方差为1，将步骤一得到的自适应可延伸的线性修正单元EReLU中参数t初始化为小于-1的实数即得到线性结构的网络初始形态；在训练中通过参数t自我学习，使参数t逐步向0逼近，从而实现从线性到非线性的训练深度卷积神经网络方法，能有效提高深度卷积神经网络的收敛速度，提高模型的泛化能力。

2.如权利要求1所述的一种有效训练深度卷积神经网络的方法，其特征在于：为保证信号传递通畅，步骤二中选取n_lVar(w_l)＝1作为深度卷积神经网络权值初始化。

3.如权利要求1或2所述的一种有效训练深度卷积神经网络的方法，其特征在于：还包括步骤三：根据深度学习相关领域工程实际对象，利用步骤一、二实现一种有效训练深度卷积神经网络的方法，对相应深度学习相关领域工程实际对象选用的卷积神经网络进行训练，得到深度学习相关领域工程实际对象的深度卷积神经网络。

4.如权利要求3所述的一种有效训练深度卷积神经网络的方法，其特征在于：所述的根据深度学习相关领域工程实际对象包括语音识别、图像识别、类语音信号识别或类图像信号识别。

5.如权利要求4所述的一种有效训练深度卷积神经网络的方法，其特征在于：所述的类语音信号识别指输入信号可量化为向量的信号；类图像信号识别指输入信号可量化为矩阵的信号。

6.如权利要求4所述的一种有效训练深度卷积神经网络的方法，其特征在于：当深度学习相关领域工程实际对象为图像识别时，利用利用步骤一、二实现一种有效训练深度卷积神经网络的方法，对应用图像识别技术的相关工程领域模型选用的卷积神经网络进行训练，得到图像识别技术的深度卷积神经网络模型，能够提高模型在训练中的收敛速度，以及训练完成后模型的泛化能力；将得到应用图像识别技术的深度卷积神经网络模型拓展应用于自动驾驶、安防、需要图像识别的领域。