CN108985457B

CN108985457B - 一种受优化算法启发的深度神经网络结构设计方法

Info

Publication number: CN108985457B
Application number: CN201810958553.6A
Authority: CN
Inventors: 林宙辰; 李欢; 杨一博
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2018-08-22
Filing date: 2018-08-22
Publication date: 2021-11-19
Anticipated expiration: 2038-08-22
Also published as: CN108985457A

Abstract

本发明公布了一种受优化算法启发的深度神经网络结构设计方法，对于所有层共享相同的线性和非线性变换的经典前馈网络结构，将该前馈网络中的前向过程等价于使用梯度下降法最小化某个函数F(x)的迭代过程；进一步采用收敛速度更快的重球法和Nesterov加速算法最小化该函数F(x)，由此得到新的性能更好的网络结构；可应用于人工智能、计算机视觉等应用领域。采用本发明技术方案，从优化算法出发设计神经网络结构，能够改进传统的依靠经验、实验尝试搜索的设计方式，得到更高效的神经网络结构，从而节省大量的时间与计算资源。

Description

一种受优化算法启发的深度神经网络结构设计方法

技术领域

本发明涉及深度神经网络结构设计技术领域，尤其涉及一种受优化算法启发的深度神经网络结构设计方法。

背景技术

随着近年来图像处理器(GPU)计算能力的飞速发展，以及人们能获得的数据量越来越大，深度神经网络在计算机视觉、图像处理和自然语言处理等领域获得了广泛应用。自从2012年深度神经网络在ImageNet分类任务上取得了突破性进展之后，研究者提出了多种不同网络，并且其结构不局限于经典的前馈神经网络结构。在前馈网络结构中，每个神经元只和其后的神经元相连。典型的例子包括文献[1](He,K.,Zhang,X.,Ren,S.,and Sun,J.Deep residual learning for image recognition.In CVPR,2015)记载的ResNet和文献[2](Huang,G.,Liu,Z.,van der Maaten,L.,and Weinberger,K.Q.Densely connectedconvolutional networks.In CVPR,2017)记载的DenseNet，其中前者在传统的前馈网络结构上增加了旁支，后者允许每个神经元和它之后的所有神经元相连。

基于卷积神经网络的深度模型在一系列领域取得了广泛的应用，比如自动驾驶、人脸识别、图像识别、检测等等。尽管目前广泛采用的一系列网络结构在性能上相比传统方法具有很大的优势，但是这一系列的网络结构在设计上缺乏准则，更多的是依靠经验摸索与不断的实验调试来确定最终的网络结构。所以研究者在设计新网络结构时具有一定的盲目性，缺乏指导性。

已有的网络结构设计工作主要是基于搜索的启发式方法。在网络结构设计的早期阶段，文献[3](Schaffer,J.D.,Whitley,D.,and Eshelman,L.J.Combinations ofgenetic algorithms and neural networks:A survey of the state of the art.InInternational Workshop on Combinations of Genetic Algorithms and NeuralNetworks,1992.)、文献[4](Lam,H.K.,Leung,F.H.F.,and Tam,P.K.S.Tuning of thestructure and parameters of a neural network using an improved geneticalgorithm.IEEE Trans.on Neural Networks,14:79–88,2003.)均记载了使用遗传算法寻找最优的网络结构和连接权重，但是通常情况下，文献[5](Verbancsics,P.and Harguess,J.Generative neuroevolution for deep learning.In arxiv:1312.5355,2013)指出，使用遗传算法设计出的网络结构要比手工设计的网络结构效果更差。文献[6](Domhan,T.,Springenberg,J.T.,and Hutter,F.Speeding up automatic hyperparameteroptimization of deep neural networks by extrapolation of learning curves.InIJCAI,2015)使用贝叶斯策略搜索网络结构。文献[7](Kwok,T.and Yeung,D.Constructivealgorithms for structure learning feedforward nerual networks for regressionproblems.IEEE Trans.on Neural Networks,8(3):630–645,1997.)、文献[8](Ma,L.andKhorasani,K.A new strategy for adaptively constructing multiplayerfeedforward neural networks.Neurocomputing,51:361–385,2003)、文献[9](Cortes,C.,Gonzalvo,X.,Kuznetsov,V.,Mohri,M.,and Yang,S.AdaNet:Adaptive structurelearning of artificial neural networks.In ICML,2017.)使用自适应策略来搜索网络结构，具体做法为从一个相对较小的网络结构基于某种原则一层一层地加深网络，相应的原则包括平衡模型复杂度和经验损失最小。文献[10](Baker,B.,Gupta,O.,Naik,N.,andRaskar,R.Designing neural network architectures using reinforcemenlearning.In arxiv:1611.02167,2016)、文献[11](Zoph,B.and Le,Q.V.Neuralarchitecutre search with reinforcement learning.In CoRR,2016)使用强化学习来搜索网络结构。所有上述策略都是基于搜索的启发式策略，即在特定的搜索空间中搜索一个尽可能好的网络结构。因此，基于搜索的方法需要在巨大的搜索空间中搜索出最优策略，当搜索空间巨大且计算能力有限时，现有的基于搜索的方法无法设计出有效的网络结构。

发明内容

为了克服上述现有技术的不足，本发明提供一种受优化算法启发的深度神经网络结构的设计方法，以得到新的性能更好的网络结构。

本发明的技术方案是：

一种受优化算法启发的深度神经网络结构设计方法，对于所有层共享相同的线性和非线性变换的经典前馈网络结构，将该前馈网络中的前向过程等价于使用梯度下降法最小化某个函数F(x)的迭代过程；进一步采用收敛速度更快的重球法(Heavy Ball method)和Nesterov加速算法(Accelerated Gradient method)最小化该函数F(x)，由此得到新的性能更好的网络结构。具体包括如下步骤：

1)在所有层共享相同的线性变换的前馈神经网络中，第k层的输出x_k和第k+1层的输出x_k+1的关系表示为式1：

x_k+1＝φ(Wx_k) (式1)其中，φ是激活函数，例如Sigmoid或ReLU；W是线性变换；x_k为第k层的输出，x_k+1为第k+1层的输出。

2)针对不同的激活函数φ，找到具体的函数F(x)，使得式1等价于式2：

其中▽F(x)表示F(x)的梯度。在优化理论中，式2表示使用梯度下降法对函数F(x)最小化，即使得前馈神经网络中的前向过程等价于使用梯度下降法最小化某个函数F(x)。

3)采用重球法或Nesterov加速算法最小化该函数F(x)，得到相应深度神经网络的结构。分别执行如下操作：

3A)使用重球法最小化函数F(x)：

3A1)在第k次迭代，迭代公式表示为式3：

其中，β为待定常数；

3A2)式3等价于式4所示的前向过程：

x_k+1＝φ(Wx_k)+β(x_k-x_k-1) (式4)

3A3)得到相应深度神经网络的结构，本发明称为HB-Net(Heavy Ball Network，重球算法网络)；

3B)采用Nesterov加速算法最小化函数F(x)：

3B1)在第k次迭代，迭代公式表示为式5：

其中

3B2)式5等价于式6所示前向过程：

3B3)得到相应神经网络的结构，本发明称为AGD-Net(Accelerated GradientDescent Network-加速算法网络)。

本发明所提出的受优化算法启发的深度神经网络结构设计，可以应用于人工智能、计算机视觉技术(如人脸识别)等应用中。通过采用本发明方法，可以更高效地设计深度神经网络的结构，从而节省大量的时间与计算资源，并且能够取得同等的表现水平。

与现有技术相比，本发明取得的技术效果为：

本发明提供一种受优化算法启发的深度神经网络结构设计方法，对于所有层共享相同的线性和非线性变换的前馈网络结构，在该前馈网络中的前向过程中，采用重球法和Nesterov加速算法，对函数F(x)进行最小化，由此得到新的性能更好的网络结构，在测试神经网络的标准数据集CIFAR和ImageNet上，本发明提出的网络结构比经典的ResNet和DenseNet结构需要更少的层数以达到相同的拟合误差，或具有更低的分类错误率。因此，采用本发明技术方案，从优化算法出发设计神经网络结构，能够改进传统的依靠经验、实验尝试搜索的设计方式，得到更高效的神经网络结构，从而节省大量的时间与计算资源。

附图说明

图1为采用本发明方法得到的深度神经网络的结构，

其中，(a)为HB-Net网络结构；(b)为AGD-Net网络结构；T表示在一个神经元内部的线性及非线性操作；+表示线性求和。

图2是本发明网络结构设计方法的流程框图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明可以应用于任何使用深度神经网络的场合，比如图像分类、物体检测、文字识别等等，但这里仅举一个实施例，即将本发明应用于人脸识别问题。人脸识别系统主要包含四个组成部分，分别为人脸图像采集及检测、人脸图像预处理、人脸图像特征提取和构建分类器对人脸特征进行识别。深度卷积神经网络同时包含特征提取和特征识别过程，并且性能优于基于特征脸、支持向量机、线段Hausdorff距离等其他人脸识别方法。

本实施例具体包括如下步骤：

步骤1，采集人脸数据；

通过摄像镜头来采集人脸的静态图像和动态图像，一般要包含不同位置、不同相貌与表情等，从而增大数据集的多样性，使得训练所得模型具有较好的泛化能力。

步骤2，建立人脸识别问题的目标函数，所述目标函数对应神经网络的损失函数；

在具体实现中，一般多采用交叉熵作为损失函数，根据问题特点，也可以采用其他目标函数。由于人脸识别问题中，数据的分布一般呈现类间方差较小的特点，所以也可以选用Center-loss，L-softmax等建立损失函数F(x)，从而最大化类间方差，最小化类内方差。

步骤3，选择用于识别的深度神经网络，通过本发明方法得到深度神经网络HB-Net或AGD-Net；通过HB-Net或AGD-Net实现人脸特征提取和特征识别；

在本发明的实施例中，可选择任何一个优化算法，根据其迭代步骤设计相应的深度神经网络，比如选择重球法或Nesterov加速算法，通过本发明的网络结构设计方法，得到对应的深度神经网络(即HB-Net或AGD-Net)。

针对选择用于识别的深度神经网络，即所有层共享相同的线性和非线性变换的经典前馈网络结构，将该前馈网络中的前向过程等价于使用梯度下降法最小化步骤二中建立的目标函数F(x)；采用收敛速度更快的重球法(Heavy Ball method)和Nesterov加速算法(Accelerated Gradient method)最小化该函数F(x)，由此得到新的性能更好的网络结构；具体包括如下步骤：

x_k+1＝φ(Wx_k) (式1)

其中，φ是激活函数，例如Sigmoid或ReLU；W是线性变换；x_k为第k层的输出，x_k+1为第k+1层的输出。

2)针对不同的激活函数φ，找到具体的函数F(x)，使得式7等价于式2：

在优化理论中，式2表示使用梯度下降法对函数F(x)最小化，即使得前馈神经网络中的前向过程等价于使用梯度下降法最小化某个函数F(x)。

3A)使用重球法最小化函数F(x)：

3A1)在第k次迭代，迭代公式表示为式3：

其中，β为待定常数；

3A2)式3等价于式4所示的前向过程：

x_k+1＝φ(Wx_k)+β(x_k-x_k-1) (式4)

3B)采用Nesterov加速算法最小化函数F(x)：

3B1)在第k次迭代，迭代公式表示为式5：

其中，

3B2)式5等价于式6所示前向过程：

4)得到网络结构后，需确定网络结构的细节。由于人脸数据集一般情况下样本数量较小，为了避免过拟合，采用网络规模较小的结构。在本实施例中，可将网络总层数设置为50层左右，最终的特征长度为1000维左右。如果用于训练的人脸数据的尺寸较大，也可以在网络中引入多个HB-Net或AGD-Net的基础结构，从而在最终特征中融合不同尺度上提取的信息。

步骤4：对输入数据做预处理；

由于系统获取的原始图像受到各种因素的限制和干扰，一般不能直接使用，需要先对人脸图像数据进行预处理，从而获得稳定的识别性能。在本实施例中，可以选用的预处理方案包括对人脸图像的光线补偿、灰度转换、直方图均衡化、几何校正等操作。除此之外，还要对输入数据进行归一化。

步骤5：确定网络训练的超参数；

在训练之前，要确定网络训练的超参数，包括batchsize，学习率、迭代次数等。在人脸识别的问题中，可以选用batchsize为64，学习率为0.1，迭代1000-2000次。

步骤6；进行网络训练；

得到网络结构后，可利用用于训练的人脸图像数据对该网络进行训练，直至损失函数的值趋近于收敛时停止训练；

在本发明的实施例中，完成以上步骤，训练好的深度神经网络即可以用来做人脸识别，判断输入人脸图像的标签。

针对上述采样本发明方法设计得到的网络结构，式4和式6表示的网络结构由优化算法等价衍化而来。在工程实践中直接应用式4和式6表示的网络结构的效果可能不理想。为了能够更好地应用于工程实践，我们定义如下元操作以拓展式4和式6表示的网络结构。

(一)松弛φ和W

在式4和式6表示的HB-Net和AGD-Net网络结构中，我们使用全连接的线性变换Wx和激活函数φ。在工程应用中，我们允许将Wx松弛为卷积操作W*x，并且允许不同的层具有不同的权重W。同样地，我们允许将φ松弛为pooling和Batch normalization(BN)操作，并且允许φ为激活函数、pooling、BN、卷积和全连接线性变换的复合操作。在该元操作下，网络结构(式1所示网络结构)涵盖了众多经典网络结构，如LeNet和VGG。在下述描述中，我们使用T(x)替换φ(Wx)。

(二)自适应参数

在网络结构(式6)中，参数h_k，j由优化算法确定。在工程实践中，我们保持网络(式4)和(式6)的结构，但允许其中的系数β和h_k，j自由设置，并且允许其在训练过程中由学习得到。在该元操作下，网络结构(式4)和(式6)变为如下公式：

x_k+1＝T(x_k)+β₁x_k+β₂x_k-1， (式7)

其中β₁，β₂，α_k+1,j，β_k+1,j为待定系数。

经典网络结构RreNet和DenseNet分别是网络结构(式7和式8)的特例。

(三)块结构

当使用下采样(down-sampling)时，不同的x_k具有不同的维度，因此，式7和式8无法实现加法操作。我们将网络分为多个前向连接的块，在每个块内使用式7和式8的结构。

以下给出HB-Net和AGD-Net的一种具体实现方式。

(一)HB-Net

在HB-Net中，我们令式7中β₁＝1，β₂＝-1。T(x)层网络的复合，其中第一层网络是卷积，BN和ReLU的复合，第二层网络是卷积和BN的复合。在每个块的第一层我们使用步调为2的下采样。

(二)AGD-Net

在AGD-Net中，我们设置参数如下：

其中β＝0.1，α_k+1,j在训练过程中学习得到，h_k+1,j的设置与式6优化迭代中的相同。T(x)为BN、ReLU和卷积的复合。

下述实验用于验证HB-Net和AGD-Net的有效性。我们在数据集CIFAR10、CIFAR100和ImageNet上做测试。其中CIFAR10和CIFAR100包含60000张32×32的彩色图片，在CIFAR10中，这些图片分属10类，在CIFAR100中则分属100类。我们使用50000张图片作为训练数据，10000张图片作为测试数据。我们对每张图片做归一化：减去均值并处以标准差。ImageNet包含1200000张训练图片，50000张验证图片和100000张测试图片。这些图片分属1000个类。我们将每张图片归一化为[0,1]。

我们使用文献[2]中的策略训练HB‐Net和AGD‐Net。具体地，我们使用随机梯度下降法(SGD)训练网络，设置Nesterov冲量为0.9，权重衰减为10^-4。我们使用文献[1]中的初始化方法，并且使用Xavier[]初始化全连接层。对于CIFAR，我们训练300次循环，使用样本批量大小为64。初始学习率设为0.1，并在第150次迭代和225次迭代分别将学习率除以10。对于ImageNet，我们训练100次迭代，使用样本批量大小为256。在第30、60和90次迭代时减小学习率。我们使用4个GPU。

表1列举了在CIFAR上的实验结果，其中前两列为HB‐Net和ResNet的误差率对比结果，后两列为AGD‐Net和DenseNet的对比结果。对于ResNet，n＝9和n＝18分别对应于56层和110层网络。“+”表示标准的数据扩充，“*”表示DenseNet的结果由文献[2]报道，其余结果均由我们自行实现。可以看到当网络规模变大时，HB‐Net的优势较ResNet更加明显，AGD‐Net的优势较DenseNet更加明显。表2列举了在ImageNet上的实验结果，可以看到HB‐Net和AGD‐Net相应地比ResNet和DenseNet具有更低的误差率。

表1：HB‐Net、AGD‐Net和ResNet、DenseNet在CIFAR数据集上的性能比较

表2：HB‐Net、AGD‐Net和ResNet、DenseNet在ImageNet数据集上的性能比较

本发明提出了受优化算法启发的网络结构设计框架。本发明指出在标准的前馈网络结构中，前向过程等价于使用梯度下降法最小化某个函数F(x)。将梯度下降法替换为收敛速度更快的重球法和Nesterov加速算法，我们得到相应的新的网络结构HB-Net和AGD-Net，实验结果显示受优化算法启发得到的新的网络结构要优于经典的ResNet和DenseNet网络。由此表明，收敛更加快速的优化算法有助于设计更好的网络结构。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种用于计算机视觉处理的受优化算法启发的深度神经网络结构设计方法，将所述受优化算法启发的深度神经网络结构设计方法用于人脸识别，高效地设计深度神经网络的结构；对于所有层共享相同的线性和非线性变换的经典前馈网络结构，将该前馈网络中的前向过程等价于使用梯度下降法最小化某个函数F(x)的迭代过程；进一步采用收敛速度更快的重球法和Nesterov加速算法最小化该函数F(x)，由此得到新的性能更好的网络结构；包括如下步骤：

x_k+1＝φ(Wx_k) (式1)

其中，φ是激活函数；W是线性变换；x为网络输出；x_k为第k层的输出，x_k+1为第k+1层的输出；

2)针对不同的激活函数φ，找到具体的函数F(x)，使用梯度下降法对函数F(x)最小化，使得式1等价于式2：