CN108229657A

CN108229657A - 一种基于演化算法的深度神经网络训练与优化算法

Info

Publication number: CN108229657A
Application number: CN201711426103.4A
Authority: CN
Inventors: 谢玮宜; 程国华; 季红丽
Original assignee: HANGZHOU JIANPEI TECHNOLOGY Co Ltd
Current assignee: HANGZHOU JIANPEI TECHNOLOGY Co Ltd
Priority date: 2017-12-25
Filing date: 2017-12-25
Publication date: 2018-06-29

Abstract

本发明公开了一种基于演化算法的深度神经网络训练与优化算法。步骤包括：步骤1，训练样本准备，即准备神经网络训练所需的样本数据；步骤2，神经网络结构编码，通过设定初始网络结构和网络结构复杂度变化的范围，通过迭代将待搜索的所有可能的网络结构和参数写入网络结构编码表；步骤3，利用超粒子群算法对网络结构编码表中的项利用同时改变种群中超粒子的位置和空间，来搜索最优的神经网络结构编码。实验证明最优编码代表的神经网络结构和参数比人工通过经验设计和训练的神经网络结构和参数在CT图像肺间质性疾病分类问题上有更好的精确度。

Description

一种基于演化算法的深度神经网络训练与优化算法

技术领域

本发明属于深度神经网络和演化算法研究领域，其中神经网络部分涉及深度神经网络的设计，超参数调优，训练与演化。演化算法部分设计粒子群寻优算法。

背景技术

深度神经网络

深度神经网络(Deep Neural Networks)[1]随着近年来研究的深入，解决了很多实际应用中的模式识别问题。原因是理论上神经网络可通过设计适合的网络结构来近似任意实数域的映射关系[2]，而模式识别问题本质上都可描述为数据间的映射关系。解决复杂模式识别问题需要复杂的网络结构和在大量有效的训练样本上对网络进行充分的训练。现行的深度神经网络的设计和参数优化方法(图1)需要设计人员具备大量的先验知识和实际经验，经常需要通过不断的假设和实验迭代的方式来找出适合给定问题的网络结构。所以，复杂网络结构的设计需要花费研究人员大量时间的进行实验与调整，以及足够的经验积累。其次，训练结构复杂的深度神经网络现行常采用的基于随机梯度下降(Stochastic Gradient Descent)[14]的反向传播算法(Back Propagation)，由于其本身的理论缺陷常受制于梯度消失(Vanishing Gradient)[7]和梯度爆炸(ExplodedGradient)[8]问题，网络的训练结果往往随着深度的提高达不到实际使用需要。

演化算法

演化算法(Evolutionary Algorithms)[4]的产生的灵感借鉴了大自然中生物的进化操作，常常可用作寻找某一特定问题的最优解即寻优。演化算法中的粒子群算法(Particle Swarm Optimization)[5]本质上是一种基于种群理论的寻优算法，设计思路模拟鸟群的觅食行为，种群个体通过自身移动寻找目标并在移动过程中传递自身与目标距离给个体其他成员。粒子群算法的符号定义如下：

粒子群寻优算法利用迭代使每个粒子有规律的搜索空间中移动来寻找对应给定问题最好的空间位置。对于优化目标函数min f(x),x∈R^N，寻优开始前需要给定S，N,V_min,V_max，f(x)，最大迭代次数T和停止条件，寻优算法如下：

gbest(t)＝min(y₁(t),y₂(t),...,y_S(t)) (3)

惰性因子w在实际使用中一般初始为0。并9随着迭代的进行逐步降低至0.1，越接近目标，搜索越慢越精细。文献[6]指出粒子群算法比其他常用的演化算法(例如遗传算法)具有更好的收敛效率。

发明内容

基于本发明目的，提出了一种基于演化算法的深度神经网络训练和优化方法。该方法能够自动设计符合应用特点的神经网络结构并进行优化训练，提供了找寻给定问题最优神经网络的统一方法，降低了网络设计的人工成本。方法本质上将现行的设计神经网络环节中存在的人工经验穷举环节变成由演化算法在演化过程中寻找最优的网络结构。且演化算法在演化过程中可同时进行网络参数的训练，已有文献实验证明[3]基于演化算法的神经网络训练具有比反向传播算法训练(Back Propagation)更可能收敛到全局最优解并且具有更好的应用适应性。

本发明技术方案为：

任意神经网络模型ANN可以看作：ANN＝{L₁,L₂,…,L_N}，其中L_a代表神经网络模型中的某一特定层a∈{0,1,...N},N为该神经网络的层数。L_a层的第i个神经元用来表示，为L_a所包含的神经元个数。每个神经元的激活函数用其在激活函数表中的编号表示，发明中采用的激活函数表见表1,表示L_a层第i个神经元在表1中的编号。神经网络的层按由低到高(从输入层到输出层)的训练进行排列。神经网络模型L_a层第i个神经元和L_b层第j个之间的连接可描述为: 其所负载的权重记做

conn(a,b)＝1if a,b connected

conn(a,b)＝0if a,b not connected

网络中神经元之间连接数总和与网络中每层神经元个数乘积的比值(3)定义神经网络结构ANN的复杂度Complex(ANN)：

全连接神经网络模型的复杂度为1。双目操作符定义为连接操作符，给定N维向量 a,b,a＝{a₁,a₂,…,a_N},b＝{b₁,b₂,…,b_N},连接后为维度2N的向量。单目操作符X为累计连接操作符，表示将N个标量或者向量连接，X ＝{x₁,x₂,…,x_N}，如果x_i为向量，x_i＝{x_i1,x_i2,…,x_id},d为x_i的维度。

发明提出的基于演化算法的深度神经网络设计，训练和优化方法分为编码和演化两个步骤，先编码后演化。

表1激活函数表

1)训练样本准备

样本库采用X＝{xi,yi}，i＝0,1,...N的形式，N代表样本库的大小，xi对应输入数据，yi对应于输出结果，x_i∈R^d,d为任意输入数据xi的维度，所有的输入样本x 数据维度必须相同，所有输出结果y的维度也必须相同。两类分类问题为例，yi∈{-1,+1}。假设样本库存在输入输出数据间的映射关系K(x)＝y，训练样本的用途是帮助神经网络通过结构的设计，参数的学习及优化，使神经网络能够构建映射θ代表神经网络的结构以及参数。

2)神经网络模型编码

发明提出利用神经网络模型编码表形式统一描述多个神经网络模型，发明中表述的神经网络模型包含神经网络的层级结构和神经网络的待训练参数(神经元连接权重，激活函数等)。神经网络模型编码表中每一项代表一种神经网络模型，即网络结构和待训练参数。编码步骤每次迭代生成一种特定的网络模型编码，采用全连接神经网络作为迭代初始状态网络模型编码，其复杂度为1，迭代分别以网络复杂度增加和网络复杂度降低的方向独立进行，迭代的停止依赖设定的网络复杂度浮动范围Kmin,Kmax。对于任意迭代t,Kmin< Complex(ANNt)<Kmax。Complex(ANN_t0)＝1。迭代的过程定义如下：

初始状态t₀全连接网络模型ANN_t0＝{L₁,L₂,…,L_N},L₁为输入层，L_N为输出层，Complex(ANN_t0)＝1。按照(4)编码ANN_t0，并将其插入编码表，t＝1开始复杂度增加迭代：

当Complex(ANNt)<Kmax，循环：

i.随机选取任意不相邻的两个层L_a,L_b,须满足b–a>1。从L_a,L_b任意选择两个不相连的神经元i,j，建立从到的一条连接，

ii.按照(4)编码ANNt，将编码按照顺序插入编码表。

iii.计算Complex(ANN)t。

iv.t＝t+1。

重置网络模型到初始状态，ANN_t＝ANNt₀，开始降低复杂度迭代：

设置当Complex(ANN)t>Kmin，循环：

i.随机选择两个隐藏层L_a,L_b的任意相连的两个神经元删除之间连接，删除后如果删除后，该神经元没有与向后任意层的神经元相连，则删除该神经元。

ii.按照(4)编码ANNt，将编码按照顺序插入编码表。

iii.计算Complex(ANN)t。

iv.t＝t+1。

对于任意一次迭代生成的网络模型ANN_t的编码过程：

是L_i层第j个神经元的编码，Code(L_a)是第L_a层的编码，Code(ANN_t)是在t次迭代时，网络模型ANN_t的编码。

以图2所示的3-2-3的全连接神经网络为例，正向迭代两次和反向迭代两次共四次编码迭代后得到的神经网络模型编码依次为：

其中Code(ANN₁)，Code(ANN₂)为两次复杂度增加迭代结果，Code(ANN₃)，Code(ANN₄)为两次复杂度降低迭代结果。Code(ANN₀)为初始化全连接拓扑模型。编码表如下所示：

表2图2所示3-2-3神经网络编码步骤迭代5次生成的编码表

1)演化

用于同时寻找最优的神经网络模型，本发明提出超粒子群(Super Particle SwarmOptimization)寻优算法，对比基础粒子群的单一N维空间寻优，超粒子群可以在多个不同维度的搜索空间中同时进行寻优。尤其是在对问题的维度估计不足的情况下，超粒子群则更有利于找寻到最优解。基础粒子群算法粒子L_a在搜索空间R_basic(R_basic＝R^N，基础粒子搜索空间)中是一维定长向量超粒子群算法的搜索空间R_super(超粒子搜索空间)可以看作是多个基础粒子群搜索空间的融合R_super＝{R^N1，R^N2,…,R^Nd}，其中d表示超粒子空间的数目即跨空间搜索的跨度范围。每个粒子的位置和速度在超粒子空间中表现为多维向量组(图3)，组内向量的维度可以不同，超粒子群算法在迭代中有规律的改变粒子在基础粒子搜索空间的移动和跨空间的移动来找到适合给定问题的超粒子空间最优位置。对于优化神经网络拓扑结构而言，超粒子群的每一个基础搜索空间用于搜索神经网络的最优参数(训练及优化)，跨空间搜索用于搜索最优的神经网络模型(设计及演化)。在神经网络问题中表示粒子位置的向量组实际负载由编码步骤得出神经网络编码表S＝{Code(ANN₀), Code(ANN₁),Code(ANN₂),…,Code(ANN_Tcoding)},Tcoding为编码步骤总共迭代的次数,向量组的任意一个向量负载一个神经网络编码。

演化步骤采用超粒子群算法迭代式寻找最优的神经网络模型，用于描述演化步骤的符号定义如下：

基于超粒子群的神经网络演化的评价函数定义为f，优化目标：

其中(x_i,y_i)为训练样本点，K代表神经网络构建的非线性映射。神经网络在输入x_i时的输出表示为K(x_i,θ)。此时的评价函数f定义结构化风险LOSS，即经验风险(或者偏差)与置信风险||θ||²(未知参数的方差的二次范式|θ|²)的加权和，权值 ξ用来控制模型的经验损失和泛化能力[9]。优化目标为结构风险最小。

寻优开始前需要给定S，V_min，V_max，D_min,D_max，X_min,X_max最大迭代次数T和停止条件。D_min,D_max由编码过程决定，D_min为神经网络编码中复杂度最低的编码向量的维度，D_max为神经

网络编码中复杂度最高的编码向量的维度。基于超粒子群的神经网络演化算法如下：定义C[X,(X_min,X_max)]为截断操作符(6)，用于防止粒子在寻优过程中位置和速率超过预定范围。

对基础粒子群算法相比，超粒子群在更新粒子位置基础上还需要在每次迭代更新粒子的空间。超粒子位置的更新依靠粒子在当前空间的速度向量跨空间的更新依靠粒子跨空间移动的速度向量vd_a(t)。的更新同基础粒子群算法，需要给定约束条件 V_min,V_max，即的每一个分量i都比要满足在更新速度后，通过(7)更新粒子在空间d_a(t)的位置更新时，超粒子群引入了粒子位置的截断条件(8)，每个粒子在当前空间的位置的每个分量i需要满足

超粒子群惰性因子δ^d(t)(t)的变化规律和粒子所在搜索空间相关，随着迭代t的变化规律如下：

|||X|||²表示向量X的方差

粒子L_a在搜索过程中会在T_a个迭代周期后返回到d(t)搜索空间，δ^d(t)(t)的更新随着迭代减少，减少的幅度用上一次粒子在d(t)搜索空间所有参数的方差来控制。加速系数c1,c2在神经网络演化问题中取值为0.5,0.5,每次迭代中粒子的随机动量r₁(t),r₂(t)满足均匀分布 U(0，1)。vd_a(t)的更新使用(12)，跨空间移动速度由上一次的速度，加速系数c1,c2和随机动量r₁(t),r₂(t)共同决定，由于空间维度的本质是整数索引号，采用floor操作符对浮点数进行取整：

对于神经网络演化问题，本发明采用编码步骤产生的编码表对每一个粒子进行设定，如果编码过程进行了n次迭代，超粒子群中每个粒子向量组可表示为:粒子在时间t搜索空间R^d(t)的位置对应第j次编码步骤迭代生成的神经网络模型编码Code(ANN_j)，Code(ANN_j)编码向量的维度等于d_a(t),即粒子在时间t所在的搜索空间。的第i个分量表示神经网络模型编码 Code(ANN_j)中的权重w或者激活函数表编号Op，通过超粒子群求解过程，粒子通过搜索空间内和搜索空间之间的移动最终找到最优的Code(ANN_optimal)。粒子在移动过程中对激活函数表编号的更新不同于权重的更新，因为激活函数表编号为1到6的整数，所以在(11)中诊断激活函数表编号的粒子位置分量利用了floor操作符对浮点数进行下取整，并且利用mod(6)操作符对位置分量以6(6位激活函数表中激活函数的个数)为模取余数。

与现有方法相比较:本发明提出的方法能够自动设计符合应用特点的神经网络结构并进行优化训练，提供了找寻给定问题最优神经网络的统一方法，降低了网络设计的人工成本。方法本质上将现行的设计神经网络环节中存在的人工经验穷举环节变成由演化算法在演化过程中寻找最优的网络结构。且演化算法在演化过程中可同时进行网络参数的训练，已有文献实验证明[3]基于演化算法的神经网络训练具有比反向传播算法训练(Back Propagation)更可能收敛到全局最优解并且具有更好的应用适应性。

附图说明

图1是现行深度神经网络设计流程。

图2是用于初始化的全连接神经网络原型,其中，3-2-3全连接神经网络，虚线表示跨层连接。

图3是超粒子群搜索空间模型。其中，所述超粒子群(左)和基础粒子群(右)粒子的位置和速度在其搜索空间中的表示，超粒子群中粒子La在时间t的位置为多维向量组形式(X0a(t),X1a(t),X2a(t)),分别表示第0个搜索空间R6，第1个搜索空间R8，第2个搜索空间R10的粒子的当前位置，La在时间t的速度多维向量组(V0a(t),V 1a(t),V 2a(t))分别表示第0个搜索空间R6，第1个搜索空间R8，第2个搜索空间R10的粒子的当前速度。

图4是平均池化法重采样算法示例。其中，所述重采样将8*8分辨率的图像重采样到，平均池化(average pooling)尺寸2*2(竖直和水平方向尺寸减半)，裁切(crop)变长 1*1(竖直方向和水平方向裁切的维度)，将4*4的图像裁切成2*2。

图5是发明提出的基于演化算法的神经网络训练和优化方法整体流程图。

具体实施方式

将发明方法具体实施应用于解决CT(Computed Tomography)[12]检查中肺间质性病变分类问题[10]。该问题需要将CT检查序列中每一张切片中存在的间质性肺疾分类为：气肿型，结节型，蜂窝型，磨玻璃型和实变型。实施的目标是利用发明的神经网络设计，训练优化方法找到最优的肺间质性病变分类神经网络模型和其参数。实施采用下列步骤依次进行：

1)原始数据收集和标注

收集1000例肺间质性疾病的CT检查，1000例检查采用统一的设备Siemens CT和图像采样参数(分辨率512×512，12位位图，正常剂量CT)，由三名医师P1,P2,P3采用专用的放射科专用阅片显示器进行人工标注，P1，P2，P3均为具有15年以上临床阅片经验的胸科医师，对肺间质性病变有较好的临床经验和理论积累。标注方法如下：

a)P1,P2分别独立对1000例CT检查进行阅片，找出其中包含肺间质性疾病CT切片，并记录该切片中包含的间质性病变的类型，利用数字形式记录：0-气肿型，1-结节型，2- 蜂窝型，3-磨玻璃，4-实变型，5-网格型，如果同一个切片图像中包含多余一种间质性病变类型病灶则丢弃该切片。P1，P2分别生成切片图像编号与疾病类型的对照表T1,T2。

b)参照对照表，将T1,T2两份对照表中图像编号相同，并且P1,P2标注的疾病类型相同的图像编号和疾病类型对照关系列出，生成新的图像编号与疾病类型对照表T3。

c)P3对T3表进行复查，将其中自己认为T3种存在的误诊项从T3种删除，生成T4表。T4表将最终以图像编号和标注的形式记录3名医师标注的肺间质性病变。T4最终包含的CT检查切片共计16295个，其中气肿型2576张图像，蜂窝型2178张图像，磨玻璃2045张图像，实变型3712张图像，网格型2898张图像，结节型2886张图像。

2)归一化操作

a)尺寸归一化：将16295个512×512的输入图像重采样到224×224分辨率，重采样利用2×2的平均池化(Average Pooling)操作和24×24的裁切(Cropping)操作，方法见图4。

b)像素归一化，计算16295个224×224的图像的每一维度的均值和标准差，然后将图像像素减去其所在维度的均值并除以所在维度的标准差。

3)图像特征提取

采用VGG16[11]所述的深度卷积神经网络的卷积层作为特征提取网络，对16295个512×512的输入图像进行特征提取，提取后生成的特征集为16295个25088(7×7×512)维的特征向量。利用PCA[13]主成分分析方法，将25088维向量进行降维，仅提取按照特征值排序后从大到小前128维主成分，将为后特征集为16295个128维的特征向量。

4)样本库建立

从16295个样本中随机取出11500个作为训练样本集TR，3295个作为测试样本集TE， 1500个作为验证样本集VAL。训练样本，验证样本和测试样本中各个类别样本数目的标准差小于5。

5)网络编码

利用[128-32-16-6]全连接网络作为编码步骤的初始网络结构：ANN_t0＝128-32-16-6，其中128表示128个输入层神经元，该网络包含两个隐藏层，每层分别包含32,16个神经元，最终输出层包含6个神经元，对应六种肺间质性病变的类型(0,1,2,3,4,5)。不改变输入层到任意其他层的连接，将从隐藏层开始的网络作为子网开始编码迭代，设定复杂度变化范围K_min＝0.959，K_max＝1.031：

a)复杂度增加迭代：迭代共计100次，最大复杂度为1.03。

b)复杂度减少迭代：迭代共计100次，最小复杂度为0.96。

网络编号后生成的编码表中共包含201个神经网络模型编码，其中复杂度最大的网络模型ComplexMax包含32+16＝48个隐藏层神经元，4804(128×32+32×16+16×6+100)个连接权重，共计48+4804＝4852个待训练优化参数。复杂度最低的网络结构ComplexMin包含 42个隐藏层神经元，有6个第一隐藏层的神经元在复杂度减少迭代中被删除，共包含42个激活函数需要优化，加4604(128×26+26×16+16×6-4)个连接权重共4646个参数需要优化。

6)超粒子群演化

设定优化目标函数为：minθ代表神经网络参数。针对编码步骤产生的复杂度最大的网络ComplexMax,θ为4852维向量，中包含了隐藏层神经元的激活函数编号和神经元之间连接的权重。K(x_i,θ)代表了输入测试样本x_i，神经网络在θ作为参数时的网络前传输出结果。ξ＝e^10-4。设定种群大小S为50000，V_min＝-2.0， V_max＝5.0，D_min＝0，D_max＝201，X_min＝-20.0，X_max＝20.0，最大迭代次数T＝200000。种群中每个粒子搜索空间的排序按照编码步骤产生的网络编码顺序进行，例如例子L_a在第0个搜索空间R⁴⁸⁵²任意迭代周期的位置向量和速度向量都为Code(ANN_t0)编码所表示的[128-32- 16-6]的全连接神经网络所需要优化的参数向量的维度4852维，因为该全连接神经网络共有 48(32+16)个隐藏层神经元和128×32+32×16+16×6＝4704个连接权重。

a)初始化种群中每个粒子在201个搜索空间中每个空间的粒子的初始位置和速度(满足均值0，方差1的正态分布)。

b)开始演化迭代，每次迭代计算目标函数值：利用11500个训练样本集TR，计算当前粒子位置所代表的神经网络模型在验证集上预测的结构化风险损失，即{x_i,y_i}为TR中第i个训练样本，同时计算验证集VAL中1500个样本的结构化风险LOSS_val，如果LOSS_tr在50个最近迭代中标准差小与0.2，并且VAL_tr在最近5次迭代变化量均大于0，迭代停止。或者迭代已经达到最大迭代次数200000，迭代停止。迭代停止条件为(13)，其采用了提早停止训练(Early Stopping)[15]的方法来避免过拟合的发生。

迭代停止时的全局最好粒子位置作为神经网络的最优结构和权重。

c)分类预测：利用softmax函数将神经网络的输出层神经元的激活值转换成每个类别预测的置信度。softmax函数可以将任意取值的实数映射到0-1区间，定义如下：

当前实例下，softmax函数的输入为6维向量，每一个分量取值实数域，该向量代表最优神经网络在给定输入样本下的输出，通过softmax函数，转换后的输出为6维向量，每一个分量取值(0,1)。最终样本的分类预测为softmax输出取值最大的分量所对应的相比标记类别(MaxVoting)。

实际效果

通过对比发明提出的方法得出的最优神经网络模型和人工通过经验设计训练的神经网络模型在肺间质性病变图像分类问题中精确度差别，证明发明的方法能够针对给定问题更为优化的解决方案。首先定义对比实验所用于评估分类精确度的指标，对6类疾病中任意类别 c，分别计算预测分类结果的TP_c，TN_c，FP_c，FN_c：:

TP_c＝预测结果中判为c实际为c的个数,TN_c＝预测结果中判为非c实际非c类的个数

FP_c＝预测结果中判为c实际非c的个数,TN_c＝预测结果中判为非c实际为c类的个数

计算每个类别的综合预测分类精确度fscore：

对比实验采用实施例中所述的原始数据收集，标注，归一化和特征提取方法生成肺间质性疾病图像特征集，特征集为16295个128维的特征向量。在特征集基础上，对比实验如下：

1)样本库建立

2)模型训练

a)利用11500个训练样本的训练结构为[128-32-16-6]的全连接网络，其中128为输入向量维度，输入层包含128个神经元，两个隐藏层分别由32，16个神经元，输出层为6个神经元。利用11500个128维的间质性肺疾病图像特征，训练FCN，训练方法为反向传播算法(Back Propagation)，优化算法采用随机梯度下降法(Stochastic Gradient Descent)[14]，并且采用批量训练的minibatch方法[14]来提高优化效率。优化目标为(5) 所定义的结构化风险最小。优化的停止条件利用验证集VAL采用(13)中定义，其中最大迭代次数T＝10000。训练优化停止时所得到的网络记作FCN。

b)利用11500个训练样本和验证集VAL基于发明所提出的方法设计并训练神经网络，编码步骤初始状态神经网络结构为[128-32-16-6]的全连接网络，其中128为输入向量维度，输入层包含128个神经元，两个隐藏层分别由32，16个神经元，输出层为6个神经元，编码步骤迭代复杂度范围K_min＝0.959，K_max＝1.031。演化步骤种群S＝50000，V_min＝-2.0，V_max＝5.0，D_min＝0，D_max＝201，X_min＝-20.0，X_max＝20.0，最大迭代次数T＝10000。演化目标为(5) 所定义的结构化风险最小。优化的停止条件利用验证集VAL采用(13)中定义。演化结果最优的神经网络记作Code(CNN_optimal)。

最终的网络输出借助softmax函数映射到置信空间，最终分类结果为置信最大值所对应的类别。

3)性能评估

共进行五次独立的对比实验，将样本库建立(1)和模型训练(2)，按顺序循环执行5次。第i次实验发明所提出的方法生成的模型记作Code(CNN_optimal)_i，人工设计并训练的模型记作 FCN_i，i＝0,1,…5。记录每一次生成的Code(CNN_optimal)_i和FCN_i在测试集TE上每种疾病的精确度fscore。然后统计五次实验每种疾病两个模型的精确度的平均值和标准差。

表3在间质性肺疾病征象分类任务中的发明方法生成的网络和人工设计的全连接网络测试结果对比，结果形式为fscore均值±标准差的形式。

实验结果显示，在6类疾病的分类问题中，分类精确度(fscore)均超过原始的人工设计和用传统反向传播算法训练的FCN网络模型的测试结果，并且每次实验的差异性较小，证实发明系统能够更好的找到适合具体应用的网络模型。实验中神经网络演化的平均耗时同人工设计相比较表4，更加具有统一性和一致性。

模型	设计时间(小时)	训练时间(小时)
			发明方法	0	25±1.2
FCN	48-960(经验强相关)	72±2.4

表4人工和发明方法设计和训练神经网络的时间成本对比，人工设计一般对网络设计人员有较高要求，经验不足的人员在设计网络时往往需要花费大量时间去反复测试，而发明提出的方法提供统一的神经网络设计和训练框架，更适用于各类科研人员快速找寻问题的最优解决方案。

参考文献：

[1]Schmidhuber J,rgen.Deep learning in neural networks[M].ElsevierScience Ltd.2015.

[2]Hornik,Kurt,Maxwell Stinchcombe,and Halbert White."Multilayerfeedforward networks are universal approximators."Neural networks 2.5(1989):359-366.

[3]Sexton R S,Gupta J N D.Comparative evaluation of genetic algorithm andbackpropagation for training neural networks[J].Information Sciences,2000,129(1–4):45-59.

[4]Back,Thomas.Evolutionary algorithms in theory and practice:evolutionstrategies,evolutionary programming,genetic algorithms.Oxford universitypress,1996.

[5]Kennedy,James."Particle swarm optimization."Encyclopedia of machinelearning.Springer US,2011.760-766.

[6]Eberhart,Russell C.,and Yuhui Shi."Comparison between geneticalgorithms and particle swarm optimization."International Conference onEvolutionary Programming.Springer Berlin Heidelberg,1998.

[7]Hochreiter S.Recurrent Neural Net Learning and Vanishing Gradient[J].1998.

[8]Pascanu R,Mikolov T,Bengio Y.Understanding the exploding gradientproblem[J].Arxiv Preprint Arxiv,2012.

[9]Vapnik V N.The nature of statistical learning theory[M]//The nature ofstatistical learning theory/.Springer,2000:988-999.

[10]Xu Y,Beek E J R V,Flaherty K,et al.Whole Lung 3D TextureClassification of Interstitial Lung Diseases in MDCT Images[C]//RadiologicalSociety of North America 2007 Scientific Assembly and Meeting.2007.

[11]Simonyan K,Zisserman A.Very Deep Convolutional Networks for Large-Scale Image Recognition[J].Computer Science,2014.

[12]K.Nieman,A.Coenen,M.Dijkshoorn,5-Computed tomography,Editor(s): KoenNieman,Oliver Gaemperli,Patrizio Lancellotti,Sven Plein,In WoodheadPublishing Series in Biomaterials,In Advanced Cardiac Imaging,WoodheadPublishing,2015,Pages 97-125,ISBN 9781782422822, https://doi.org/10.1016/B978-1-78242-282-2.00005-6.

[13]Tipping M E,Bishop C M.Probabilistic Principal Component Analysis[J].Journal of the Royal Statistical Society,2010,61(3):611-622.

[14]Ketkar N.Stochastic Gradient Descent[J].Optimization,2014.

[15]Raudys S,Cibas T.Regularization by early stopping in single layerperceptron training[C]//International Conference on Artificial NeuralNetworks. Springer-Verlag,1996:77-82. 。

Claims

1.一种基于演化算法的深度神经网络训练与优化算法，其特征在于，包括：

1）编码：根据给定问题设定初始化全连接神经网络，并在预先设定模型复杂度的范围内进行复杂度增加迭代编码和复杂度降低迭代编码，得到神经网络的模型编码表；

2）演化：设定种群大小和粒子在空间内和空间之间的移动范围，和移动速度变化范围，利用超粒子群算法在模型编码表对应的超搜索空间找寻适合给定问题的最优神经网络模型编码。

2.根据权利要求1所述的方法，其特征在于，步骤1）所述的根据具体应用设定全连接神经网络作为编码迭代步骤初始化神经网络；所述的复杂度增加迭代是利用从输入层到输出层神经元每次迭代隔层增加一条连接并计算增加连接后的神经网络模型复杂度，当复杂度大于既定复杂度最大值时停止迭代；所述的复杂度减少迭代是从隐藏层开始，减少从最低隐藏层到输出层每个神经元到较高层神经元的连接，当神经元没有向高层的连接时在网络模型中删除该神经元。

3.根据权利要求1所述的方法，其特征在于，步骤2）所述的超粒子群演化算法。