CN111461229B

CN111461229B - 一种基于目标传递和线搜索的深层神经网络优化及图像分类方法

Info

Publication number: CN111461229B
Application number: CN202010252752.2A
Authority: CN
Inventors: 刘波; 王铎
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-04-01
Filing date: 2020-04-01
Publication date: 2023-10-31
Anticipated expiration: 2040-04-01
Also published as: CN111461229A

Abstract

本发明提供了一种基于目标传递和线搜索的深层神经网络优化方法，并在此基础上完成图像和多维数据分类，用于解决人工神经网络在训练过程中需要频繁手动调参的问题，涉及机器学习及人工智能以及计算机视觉技术。该方法能够在训练过程中通过分析基于ReLU激活函数构造的每一层网络的数学性质从而自动计算出对于本层网络的最优学习率，最终能够使神经网络在不依赖人工调参的情况下完成自适应训练任务。相比于反向传播算法，本方法能够更快完成训练任务，并获取不弱于反向传播算法的精度表现。

Description

一种基于目标传递和线搜索的深层神经网络优化及图像分类方法

技术领域

本发明涉及机器学习及人工智能以及计算机视觉技术，具体是一种对于分类神经网络的自适应训练方法，以及在此基础上进行的图像以及多维数据分类方法。

背景技术

借助神经科学的发展，计算机科学家通过构造神经元，模拟生物神经结构组建人工神经网络在一些智能任务如计算机视觉、自然语言处理等诸多领域中取得了优秀的表现。通过对神经多层结构的加深理解，计算机科学家已经认识到深层对于神经网络的重要性，即随着神经网络层数的增加，从数据中提取的特征会越来越高级，最终使模型精度越来越好。但是对于神经元的赋值过程，由于目前对于脑神经的认识仍略显不足，人们仍未找到比较令人信服的参数调节方式。随着网络层数的加深，多层嵌套的网络结构以及非线性激活函数使得最终的损失函数高度非突，这也导致了神经网络的训练困难。为解决此问题，计算机科学家采用反向传播算法(BP算法)，通过梯度下降以链式法则形式将误差逐层传递回每一层网络。但是这种方法依赖诸多训练超参数，如学习率、批大小以及权值衰减等参数，这导在致训练神经网络时依赖经验以及调试困难。同时，采用反向传播算法在训练网络时也可能导致梯度爆炸或梯度消失现象的出现，即如果某一层网络由于自身状态以及激活函数性质无法稳定传递梯度信息，这将导致该层之前的网络训练失败。另外，这种方法缺乏生物合理性，目前脑科学家已经通过突触的结构验证了正向传播的存在，但是对于反向传播的方式，目前仍未发现相应的细胞结构予以证实。因此，寻找一种能够自适应学习超参数，且不依赖于反向传播算法的神经网络优化方法对于提升网络训练效率十分重要。

发明内容

为改善上述优化问题，本发明提出了一种基于目标传递和线搜索的深层神经网络优化方法以及在此基础上的图像和多维数据分类方法，本优化方法不依赖于反向传播算法，从而避免了由于梯度依赖所造成的训练失败的出现。同时，本优化方法通过分析网络每一层的状态，能够计算出该层最优的学习率，从而使得训练神经网络避免经验依赖并提高训练效率。

网络优化方法包括：

(1)准备训练数据集{X，Y}，其中X为固定数量N的图片或多维数据，Y为此图片所对应的类别标签；若输入数据X为图像，其应具有相同尺寸；若输入数据X为多维数据，每一条数据的维度应相同；对于标签Y应为一单值标签，代表属于该条数据的正确类别；

(2)构造M层隐藏层神经网络模型，模型包括M层隐藏层fc、M-1层辅助层h、M-2层近似逆映射层g，其中，从第二层到第M层的所有隐藏层，每一个隐藏层配有一相同结构的辅助层h用于传递每层目标值的误差，同时对每相邻两层辅助层h之间设有一近似逆映射层g，用于计算辅助层的输出值，

所述隐藏层中，每一层隐藏层由若干神经元构成，其中每一层隐藏层的神经元个数可不同，但每一层隐藏层的激活函数需为ReLU函数，

即：其中x为该隐藏层的输出值；

其中，fc_m表示第m层隐藏层，W_m代表第m层隐藏层的神经元，m＝1，...，M；h_m-1表示第m层隐藏层对应的辅助层；

g_m-2代表辅助层h_m-2与辅助层h_m-1之间设置的近似逆映射层，V_m-2代表对应神经元；其中神经元V_m-2的个数与神经元W_m-1个数相同；

(3)初始化神经网络模型，

所述初始化包括隐藏层神经元W的初始化和近似逆映射层神经元V的初始化，其中所有M个神经元W以及所有M-2个神经元V初始化方法为随机初始化；其中，所有M-2个近似逆映射层g的初始化具体包括：构造并初始化所有M-2个近似逆映射层g，每一层g的构造方法相同，对于近似逆映射层g_m-2的构造方法为近似逆映射层g_m-2的神经元个数与第m-1个隐藏层fc_m神经元个数相同，所有M-2个近似逆映射层g的神经元V的值由随机初始化获得；

(4)训练神经网络模型，所述的网络训练通过迭代更新所有隐藏层的神经元W和近似逆映射层的神经元V完成。

进一步的，近似逆映射层神经元V的更新过程如下，

1)对标签数据Y进行One-Hot编码，具体操作为对于每一标签值y_i，构造一长度为标签种类数n的向量l，将此向量第y_i分量值设为1，其余分量值设为0，所得向量l即为标签数据Y的One-Hot编码向量；

2)构造分类损失函数其中p(i)为第i个样本的标签数据One-Hot编码，q(i)为第i个样本的神经网络输出向量；

3)更新，具体分为两个阶段，第一阶段包括第M层隐藏层神经元W_M的更新，第M-1层辅助层h_M-1的输出值更新，

其中，所述第M层隐藏层神经元W_M的更新方法具体为：将训练数据集X输入神经网络并完成一次前馈传播，根据分类损失函数L_total计算本次前馈传播的分类损失，并利用采用梯度下降法更新第M层隐藏层神经元W_M；

所述第M-1层辅助层h_M-1的输出值的更新方法具体为：根据本次前馈传播的损失函数L_total对第M-1层隐藏层fc_M-1的输出值H_M-1求梯度/>并令第M-1层辅助层h_M-1的输出值为/>

第二阶段包括前M-2层辅助层的输出值更新，以及利用更新后的辅助层输出值完成近似逆映射层神经元V的更新，

其中，第m层辅助层的输出值的更新方法如下：

其中，利用更新后的第m层辅助层输出值完成第m层近似逆映射层g_m对应神经元V_m的更新，具体方式如下：

其中ε～N(0，σ)，为第m层隐藏层输出值H_m引入高斯噪声后的值，f_m+1表示第m+1层对应ReLU函数。

进一步的，对于每一次迭代循环，神经元W_m进行自适应学习率有两种更新方式，其中Online方法如下：

1)对前M-1层隐藏层逐层构造损失函数，其中第m层隐藏层的逐层损失函数如下：

其中H₀视为输入数据，

2)对于第1层至第M-1层隐藏层，由如下方法计算每一层隐藏层的Pos集用于寻找最优学习率，

Pos_m；j，k＝{H_m-1；j，k|W_m；jH_m-1；k＞0}

其中H_m-1代表第m-1层隐藏层输出值矩阵，H_m-1；j，k代表该矩阵第j行第k列的数值；W_m；j代表第m层隐含层神经元的第j个行向量，H_m-1；k为第m-1层隐藏层输出值矩阵的第k个列向量，Pos_m；j，k代表满足第m层隐藏层神经元的第j个行向量与第m-1层隐藏层输出值矩阵的第k个列向量内积大于0的所有第m-1层隐藏层输出值矩阵的分量；

3)使用如下方法逐层计算由第1层至第M-1层的可能最优学习率

其中为第m层隐藏层可能的最优学习率，/>为第m层辅助层输出值，W_m；j为第m层隐含层神经元的第j个行向量，H_m-1；k为第m-1层隐藏层输出值矩阵的第k个列向量，W_m；j′为第m层隐含层神经元的第j个行向量的梯度值；

4)根据逐层损失函数L_layer计算第1层至第M-1层隐藏层神经元梯度并利用可能最优学习率计算神经元预更新值/>其中，第m层隐藏层神经元预更新值/>计算公式如下：

利用神经元预更新值计算第m层隐藏层神经元预更新后的/>集，

其中H_m-1代表第m-1层隐藏层输出值矩阵，H_m-1；j，k代表该矩阵第j行第k列的数值；代表第m层隐含层神经元预更新值的第j个行向量，H_m-1；k为第m-1层隐藏层输出值矩阵的第k个列向量，/>代表满足第m层隐含层神经元预更新值的第j个行向量与第m-1层隐藏层输出值矩阵的第k个列向量内积大于0的所有第m-1层隐藏层输出值矩阵的分量；

5)若Pos集与预更新后的集一致，则接受此可能最优学习率为最优学习率，接受此神经元预更新，即：/>

若Pos集与预更新后的不一致时，不接受可能最优学习率以及神经元预更新，使用如下方法重新计算最优学习率：

其中为第m层隐藏层可能最优学习率，j为神经元下标，k为隐藏层列下标，W_m；j为第m层隐含层神经元的第j个行向量，H_m-1；k为第m-1层隐藏层输出值矩阵的第k个列向量，W_m；j′为第m层隐含层神经元的第j个行向量的梯度值；

根据逐层损失函数L_layer计算第1层至第M-1层隐藏层神经元梯度并使用最优学习率完成神经元更新，其中，第m层隐藏层神经元更新值计算公式如下：/>

进一步的，对于每一次迭代循环，神经元W_m进行自适应学习率有两种更新方式，其中线搜索更新方法如下：

a)初始化学习率ρ，默认为1；

b)由第1层至第M-1层隐藏层构造逐层损失函数，其中，第m层隐藏层的损失函数如下：

c)学习率ρ减半，依据当前损失函数分别计算前M-1层隐藏层神经元的梯度并使用当前学习率ρ分别计算前M-1层隐藏层神经元的预更新值，其中第m层隐藏层神经元的预更新值计算公式如下，

d)利用预更新神经元计算逐层损失函数，其中，第m层隐藏层的损失函数具体如下：

e)若每第m层隐藏层的返回4.2直至Loss_after≤Loss_before，接受此时的神经元的预更新值，其中，第m层隐藏层神经元最终的更新值为/>

基于上述构建及训练方法，完成对神经网络的训练，即可对未知数据执行预测分类任务，具体包括将待分类数据输入训练完成的神经网络，经由所有隐藏层H₁至H_m执行前馈传播得到网络输出，对网络输出执行softmax操作后取最大值对应的类别即为本网络预测该数据的分类结果。

有益效果

本发明可以通过基于目标传递和线搜索的深层神经网络优化方法自适应完成深度神经网络的训练工作，同时能够避免梯度爆炸或梯度消失现象的出现。这使得在训练神经网络时不再需要人工手动尝试合适的最有学习率也能获得较好的分类效果。

附图说明

图1为本发明实施例网络结构图。

图2为本发明所述网络训练方法流程图。

图3为UCISoybean数据集于本发明实施例分类精度曲线图

图4为UCISoybean数据集于本发明实施例分类损失曲线图

图5为MNIST数据集于本发明实施例分类精度曲线图

图6为MNIST数据集于本发明实施例分类损失曲线图其中sgd为传统梯度下降方法结果，online为本发明采用online更新方法结果，dtp为Different Target Propagation方法结果，line search为本发明采用线搜索更新方法结果。

具体实施方式

下面结合附图和实施例对本发明的方法作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了实施方式和具体操作过程，但本发明的保护范围不限于下述的实施例。

参见图1，本发明实施例1使用online更新方式训练网络，包括以下步骤：

1.准备UCISoybean数据集以及MNIST数据集作为本实施例训练集，分别对此二训练集构造输入数据X以及标签信息Y。对于UCISoybean数据集，其拥有47个样本，其中每个样本维度为35维，对于此数据集随机抽取35个样本用于训练，剩余12个样本用于测试。对于MNIST数据集，其拥有70000个样本，每个样本为一28*28图片，将此数据集前60000个样本用于训练，最后10000个样本用于测试。

如图1构造3隐含层的神经网络，其中fc1为第一隐藏层，其对应神经元为W₁具有100个神经元，relu为激活函数层，H1为第一隐藏层输出结果；fc2为第二隐含层，具有50个神经元W₂，H2为第二隐含层输出结果，h1为第二隐藏层fc2的辅助层，为辅助层h1的输出结果；fc3为第三隐含层，具有10个神经元W₃，h2为第三隐藏层fc3的辅助层，/>为辅助层h2的输出结果；g1为辅助层h₂与辅助层h₁之间设置的近似逆映射层，具有100个神经元V1；loss为交叉熵函数/>通过标签信息p(i)以及softmax操作后的第三隐含层输出值q(i)以交叉熵计算获得。

2.随机初始化模型。

3.将样本标签Y转换成One-hot编码形式，并与输入数据X组成样本-标签对，输入模型。

4.开始训练模型，设置迭代次数为300次，其中每次作如下4-6操作：

通过前馈传播，计算Loss，并计算H2梯度令/>计算W₃梯度/>使用梯度下降法更新/>

5.设置训练g1，构造近似逆映射损失函数

其中为H₁引入高斯噪声后结果，即/>ε～N(0，1)。令L_g1对V求梯度/>更新/>即可完成训练g1。

6.构造逐层损失以及/>使用online方法获取最优学习率/>及/>分别对第一层隐藏层及第二层隐藏层使用/>及/>更新神经元：

至此完成一次循环迭代，若迭代次数小于300次，则继续迭代，否则退出，完成任务。

7.使用测试数据进行前馈传播，用于平价训练成果优劣。

参见图1，本发明实施例2使用线搜索更新方式训练网络，包括以下步骤：

1.准备UCISoybean数据集作为本实施例训练集，分别对此二训练集构造输入数据X以及标签信息Y。对于UCISoybean数据集，其拥有47个样本，其中每个样本维度为35维，对于此数据集随机抽取35个样本用于训练，剩余12个样本用于测试。

如图1构造3隐含层的神经网络，其中fc1为第一隐藏层，其对应神经元为W₁具有100个神经元，relu为激活函数层，H1为第一隐藏层输出结果；fc2为第二隐含层，具有50个神经元W₂，H2为第二隐含层输出结果，h1为第二隐藏层fc2的辅助层，为辅助层h1的输出结果；fc3为第三隐含层，具有10个神经元W₃，h2为第三隐藏层fc3的辅助层，/>为辅助层h2的输出结果；g1为辅助层h₂与辅助层h₁之间设置的近似逆映射层，具有100个神经元V₁；loss为交叉熵函数/>通过标签信息p(i)以及softmax操作后的第三隐含层输出值q(i)以交叉熵计算获得。

2.随机初始化模型。

4.开始训练模型，设置迭代次数为300次，其中每次作如下4-6操作：通过前馈传播，计算Loss，并计算H2梯度令/>计算W₃梯度/>使用梯度下降法更新

5.设置训练g1，构造近似逆映射损失函数

6.构造逐层损失以及/>使用线搜索方法对可能的最优学习率进行试探，当逐层损失缩小时，接受最优学习率/>及/>分别对第一层隐藏层及第二层隐藏层使用/>及/>更新神经元：

7.使用测试数据进行前馈传播，用于平价训练成果优劣。

本发明对于实施例1及实施例2的精度结果如表1及表2所示：

	DTP	online	线搜索	SGD
					训练	97％	100％	100％	100％
测试	75％	100％	100％	100％

表1UCISoybean数据集精度对比

表2MNIST数据集精度对比

Claims

1.一种基于目标传递和在线搜索的深层神经网络优化方法，其特征在于包括：

步骤(1)准备训练数据集{X,Y}，其中X为固定数量N的图片，Y为此图片所对应的类别标签；

步骤(2)构造M层隐藏层神经网络模型，模型包括M层隐藏层fc、M-1层辅助层h、M-2层近似逆映射层g，其中，从第二层到第M层的所有隐藏层，每一个隐藏层配有一相同结构的辅助层h用于传递每层目标值的误差，同时对每相邻两层辅助层h之间设有一近似逆映射层g，用于计算辅助层的输出值，

所述隐藏层中，每一层隐藏层由若干神经元构成，其中每一层隐藏层的神经元个数不同，但每一层隐藏层的激活函数为ReLU函数，

用fc_m表示第m层隐藏层，W_m代表第m层隐藏层的神经元，m＝1，...，M；

h_m-1表示第m层隐藏层对应的辅助层；

g_m-2代表辅助层h_m-2与辅助层h_m-1之间设置的近似逆映射层，V_m-2代表近似逆映射层g_m-2对应的神经元；其中神经元V_m-2的个数与神经元W_m-1个数相同；

步骤(3)初始化神经网络模型，

所述初始化包括隐藏层神经元W的初始化和近似逆映射层神经元V的初始化，其中所有M个神经元W以及所有M-2个神经元V初始化方法为随机初始化；其中，所有M-2个近似逆映射层g的初始化具体包括：构造并初始化所有M-2个近似逆映射层g，每一层g的构造方法相同，对于近似逆映射层g_m-2的构造方法为近似逆映射层g_m-2的神经元个数与第m-1个隐藏层fc_m-1神经元个数相同，所有M-2个近似逆映射层g的神经元V的值由随机初始化获得；

步骤(4)训练神经网络模型，所述的网络训练通过迭代更新所有隐藏层的神经元W和近似逆映射层的神经元V完成；

步骤(4)中，对于每一次迭代循环，近似逆映射层神经元V的更新过程如下，

对标签数据Y进行One-Hot编码，具体操作为对于每一标签值y_i，构造一长度为标签种类数n的向量l，将此向量第y_i分量值设为1，其余分量值设为0，所得向量l即为标签数据Y的One-Hot编码向量；

构造分类损失函数其中p(i)为第i个样本的标签数据One-Hot编码，q(i)为第i个样本的神经网络输出向量；

更新，具体分为两个阶段，第一阶段包括第M层隐藏层神经元W_M的更新，第M-1层辅助层h_M-1的输出值更新，

具体的，第m层辅助层的输出值的更新方法如下：

利用更新后的第m层辅助层输出值完成第m层近似逆映射层g_m对应神经元V_m的更新；

步骤(5)将待分类图片输入训练完成的神经网络，经由所有隐藏层H₁至H_m执行前馈传播得到网络输出，对网络输出执行softmax操作后取最大值对应的类别即为本网络预测该图片的分类结果。

2.根据权利要求1所述的一种基于目标传递和在线搜索的深层神经网络优化方法，其特征在于：步骤(4)中，对于每一次迭代循环，神经元W_m进行自适应学习率有两种更新方式，其中Online方法如下：

对前M-1层隐藏层逐层构造损失函数，

对于第1层至第M-1层隐藏层，由如下方法计算每一层隐藏层的Pos集用于寻找最优学习率，

Pos_m；j，k＝{H_m-1；j，k|W_m；jH_m-1；k＞0}

使用如下方法逐层计算由第1层至第M-1层的候选最优学习率

其中为第m层隐藏层候选最优学习率，/>为第m层辅助层输出值，W_m；j为第m层隐含层神经元的第j个行向量，H_m-1；k为第m-1层隐藏层输出值矩阵的第k个列向量，W_m；j′为第m层隐含层神经元的第j个行向量的梯度值；

根据逐层损失函数L_layer计算第1层至第M-1层隐藏层神经元梯度并利用候选最优学习率计算神经元预更新值/>其中，第m层隐藏层神经元预更新值/>计算公式如下：

其中H_m-1代表第m-1层隐藏层输出值矩阵，H_m-1；j，k代表该矩阵第j行第k列的数值；代表第m层隐含层神经元预更新值的第j个行向量，H_m-1；k为第m-1层隐藏层输出值矩阵的第k个列向量，/>代表满足第m层隐含层神经元预更新值的第j个行向量与第m-1层隐藏层输出值矩阵的第k个列向量内积大于0的所有第m-1层隐藏层输出值矩阵的分量；若Pos集与预更新后的/>集一致，则接受此候选最优学习率为最优学习率，接受此神经元预更新：

若Pos集与预更新后的不一致时，不接受候选最优学习率以及神经元预更新，使用如下方法重新计算最优学习率：

其中为第m层隐藏层候选最优学习率，j为神经元下标，k为隐藏层列下标，W_m；j为第m层隐含层神经元的第j个行向量，H_m-1；k为第m-1层隐藏层输出值矩阵的第k个列向量，W_m；j′为第m层隐含层神经元的第j个行向量的梯度值；

3.根据权利要求1所述的一种基于目标传递和在线搜索的深层神经网络优化方法，其特征在于：步骤(4)中，对于每一次迭代循环，神经元W_m进行自适应学习率有两种更新方式，其中线搜索更新方法如下：

初始化学习率ρ；

由第1层至第M-1层隐藏层构造逐层损失函数，其中，第m层隐藏层的损失函数如下：

学习率ρ减半，依据当前损失函数分别计算前M-1层隐藏层神经元的梯度并使用当前学习率ρ分别计算前M-1层隐藏层神经元的预更新值，其中第m层隐藏层神经元的预更新值计算公式如下，

利用预更新神经元计算逐层损失函数，其中，第m层隐藏层的损失函数具体如下：

若第m层隐藏层的学习率ρ减半，重新计算前M-1层隐藏层神经元的预更新值，直至/>接受此时的神经元的预更新值，其中，第m层隐藏层神经元最终的更新值为/>