CN108229657A - 一种基于演化算法的深度神经网络训练与优化算法 - Google Patents

一种基于演化算法的深度神经网络训练与优化算法 Download PDF

Info

Publication number
CN108229657A
CN108229657A CN201711426103.4A CN201711426103A CN108229657A CN 108229657 A CN108229657 A CN 108229657A CN 201711426103 A CN201711426103 A CN 201711426103A CN 108229657 A CN108229657 A CN 108229657A
Authority
CN
China
Prior art keywords
neural network
iteration
network structure
complexity
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711426103.4A
Other languages
English (en)
Inventor
谢玮宜
程国华
季红丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HANGZHOU JIANPEI TECHNOLOGY Co Ltd
Original Assignee
HANGZHOU JIANPEI TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HANGZHOU JIANPEI TECHNOLOGY Co Ltd filed Critical HANGZHOU JIANPEI TECHNOLOGY Co Ltd
Priority to CN201711426103.4A priority Critical patent/CN108229657A/zh
Publication of CN108229657A publication Critical patent/CN108229657A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/03Recognition of patterns in medical or anatomical images

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于演化算法的深度神经网络训练与优化算法。步骤包括:步骤1,训练样本准备,即准备神经网络训练所需的样本数据;步骤2,神经网络结构编码,通过设定初始网络结构和网络结构复杂度变化的范围,通过迭代将待搜索的所有可能的网络结构和参数写入网络结构编码表;步骤3,利用超粒子群算法对网络结构编码表中的项利用同时改变种群中超粒子的位置和空间,来搜索最优的神经网络结构编码。实验证明最优编码代表的神经网络结构和参数比人工通过经验设计和训练的神经网络结构和参数在CT图像肺间质性疾病分类问题上有更好的精确度。

Description

一种基于演化算法的深度神经网络训练与优化算法
技术领域
本发明属于深度神经网络和演化算法研究领域,其中神经网络部分涉及深度神经网 络的设计,超参数调优,训练与演化。演化算法部分设计粒子群寻优算法。
背景技术
深度神经网络
深度神经网络(Deep Neural Networks)[1]随着近年来研究的深入,解决了很多实际 应用中的模式识别问题。原因是理论上神经网络可通过设计适合的网络结构来近似任意实数 域的映射关系[2],而模式识别问题本质上都可描述为数据间的映射关系。解决复杂模式识 别问题需要复杂的网络结构和在大量有效的训练样本上对网络进行充分的训练。现行的深度 神经网络的设计和参数优化方法(图1)需要设计人员具备大量的先验知识和实际经验,经 常需要通过不断的假设和实验迭代的方式来找出适合给定问题的网络结构。所以,复杂网络 结构的设计需要花费研究人员大量时间的进行实验与调整,以及足够的经验积累。其次,训 练结构复杂的深度神经网络现行常采用的基于随机梯度下降(Stochastic Gradient Descent)[14]的反向传播算法(Back Propagation),由于其本身的理论缺陷常受制于梯度消 失(Vanishing Gradient)[7]和梯度爆炸(ExplodedGradient)[8]问题,网络的训练结果 往往随着深度的提高达不到实际使用需要。
演化算法
演化算法(Evolutionary Algorithms)[4]的产生的灵感借鉴了大自然中生物的进化 操作,常常可用作寻找某一特定问题的最优解即寻优。演化算法中的粒子群算法(Particle Swarm Optimization)[5]本质上是一种基于种群理论的寻优算法,设计思路模拟鸟群的觅食 行为,种群个体通过自身移动寻找目标并在移动过程中传递自身与目标距离给个体其他成员。 粒子群算法的符号定义如下:
粒子群寻优算法利用迭代使每个粒子有规律的搜索空间中移动来寻找对应给定问题 最好的空间位置。对于优化目标函数min f(x),x∈RN,寻优开始前需要给定S,N,Vmin,Vmax,f(x),最大迭代次数T和停止条件,寻优算法如下:
gbest(t)=min(y1(t),y2(t),...,yS(t)) (3)
惰性因子w在实际使用中一般初始为0。并9随着迭代的进行逐步降低至0.1,越接近目标,搜索越慢越精细。文献[6]指出粒子群算法比其他常用的演化算法(例如遗传算法)具有更好的收敛效率。
发明内容
基于本发明目的,提出了一种基于演化算法的深度神经网络训练和优化方法。该方 法能够自动设计符合应用特点的神经网络结构并进行优化训练,提供了找寻给定问题最优神 经网络的统一方法,降低了网络设计的人工成本。方法本质上将现行的设计神经网络环节中 存在的人工经验穷举环节变成由演化算法在演化过程中寻找最优的网络结构。且演化算法在 演化过程中可同时进行网络参数的训练,已有文献实验证明[3]基于演化算法的神经网络训 练具有比反向传播算法训练(Back Propagation)更可能收敛到全局最优解并且具有更好的应 用适应性。
本发明技术方案为:
任意神经网络模型ANN可以看作:ANN={L1,L2,…,LN},其中La代表神经网络 模型中的某一特定层a∈{0,1,...N},N为该神经网络的层数。La层的第i个神经元用 来表示, 为La所包含的神经元个数。每个神经元的激活函数用 其在激活函数表中的编号表示,发明中采用的激活函数表见表1,表示La层第i个神经 元在表1中的编号。神经网络的层按由低到高(从输入层到输出层)的训练进行排列。神 经网络模型La层第i个神经元和Lb层第j个之间的连接可描述为: 其所负载的权重记做
conn(a,b)=1if a,b connected
conn(a,b)=0if a,b not connected
网络中神经元之间连接数总和与网络中每层神经元个数乘积的比值(3)定义神经网络 结构ANN的复杂度Complex(ANN):
全连接神经网络模型的复杂度为1。双目操作符定义为连接操作符,给定N维向量 a,b,a={a1,a2,…,aN},b={b1,b2,…,bN},连接后为维度2N的向量。单目操作符X为累计连接操作符,表示将N个标量或者向量连接,X ={x1,x2,…,xN},如果xi为向量,xi={xi1,xi2,…,xid},d为xi的维度。
发明提出的基于演化算法的深度神经网络设计,训练和优化方法分为编码和演化两 个步骤,先编码后演化。
表1激活函数表
1)训练样本准备
样本库采用X={xi,yi},i=0,1,...N的形式,N代表样本库的大小,xi对应输 入数据,yi对应于输出结果,xi∈Rd,d为任意输入数据xi的维度,所有的输入样本x 数据维度必须相同,所有输出结果y的维度也必须相同。两类分类问题为例,yi∈{-1,+1}。 假设样本库存在输入输出数据间的映射关系K(x)=y,训练样本的用途是帮助神经网络通 过结构的设计,参数的学习及优化,使神经网络能够构建映射θ代表神经网 络的结构以及参数。
2)神经网络模型编码
发明提出利用神经网络模型编码表形式统一描述多个神经网络模型,发明中表述的神 经网络模型包含神经网络的层级结构和神经网络的待训练参数(神经元连接权重,激活函数 等)。神经网络模型编码表中每一项代表一种神经网络模型,即网络结构和待训练参数。编 码步骤每次迭代生成一种特定的网络模型编码,采用全连接神经网络作为迭代初始状态网络 模型编码,其复杂度为1,迭代分别以网络复杂度增加和网络复杂度降低的方向独立进行, 迭代的停止依赖设定的网络复杂度浮动范围Kmin,Kmax。对于任意迭代t,Kmin< Complex(ANNt)<Kmax。Complex(ANNt0)=1。迭代的过程定义如下:
初始状态t0全连接网络模型ANNt0={L1,L2,…,LN},L1为输入层,LN为输出层,Complex(ANNt0)=1。按照(4)编码ANNt0,并将其插入编码表,t=1开始复杂度增加迭代:
当Complex(ANNt)<Kmax,循环:
i.随机选取任意不相邻的两个层La,Lb,须满足b–a>1。从La,Lb任意选 择两个不相连的神经元i,j,建立从的一条连接,
ii.按照(4)编码ANNt,将编码按照顺序插入编码表。
iii.计算Complex(ANN)t。
iv.t=t+1。
重置网络模型到初始状态,ANNt=ANNt0,开始降低复杂度迭代:
设置当Complex(ANN)t>Kmin,循环:
i.随机选择两个隐藏层La,Lb的任意相连的两个神经元删除之间连接,删除后如果删除后,该 神经元没有与向后任意层的神经元相连,则删除该神经元。
ii.按照(4)编码ANNt,将编码按照顺序插入编码表。
iii.计算Complex(ANN)t。
iv.t=t+1。
对于任意一次迭代生成的网络模型ANNt的编码过程:
是Li层第j个神经元的编码,Code(La)是第La层的编码,Code(ANNt)是在t次迭代时,网络模型ANNt的编码。
以图2所示的3-2-3的全连接神经网络为例,正向迭代两次和反向迭代两次共四次编 码迭代后得到的神经网络模型编码依次为:
其中Code(ANN1),Code(ANN2)为两次复杂度增加迭代结果,Code(ANN3),Code(ANN4)为两 次复杂度降低迭代结果。Code(ANN0)为初始化全连接拓扑模型。编码表如下所示:
表2图2所示3-2-3神经网络编码步骤迭代5次生成的编码表
1)演化
用于同时寻找最优的神经网络模型,本发明提出超粒子群(Super Particle SwarmOptimization)寻优算法,对比基础粒子群的单一N维空间寻优,超粒子群可以在多个不同维度的搜索空间中同时进行寻优。尤其是在对问题的维度估计不足的情况下,超粒子群则更 有利于找寻到最优解。基础粒子群算法粒子La在搜索空间Rbasic(Rbasic=RN,基础粒子搜索 空间)中是一维定长向量超粒子群算法的搜索空间Rsuper(超粒子搜 索空间)可以看作是多个基础粒子群搜索空间的融合Rsuper={RN1,RN2,…,RNd},其中d表 示超粒子空间的数目即跨空间搜索的跨度范围。每个粒子的位置和速度在超粒子空间中表现 为多维向量组(图3),组内向量的维度可以不同,超粒子群算法在迭代中有规律的改变粒子 在基础粒子搜索空间的移动和跨空间的移动来找到适合给定问题的超粒子空间最优位置。对 于优化神经网络拓扑结构而言,超粒子群的每一个基础搜索空间用于搜索神经网络的最优参 数(训练及优化),跨空间搜索用于搜索最优的神经网络模型(设计及演化)。在神经网络 问题中表示粒子位置的向量组实际负载由编码步骤得出神经网络编码表S={Code(ANN0), Code(ANN1),Code(ANN2),…,Code(ANNTcoding)},Tcoding为编码步骤总共迭代的次数,向量 组的任意一个向量负载一个神经网络编码。
演化步骤采用超粒子群算法迭代式寻找最优的神经网络模型,用于描述演化步骤的符 号定义如下:
基于超粒子群的神经网络演化的评价函数定义为f,优化目标:
其中(xi,yi)为训练样本点,K代表神经网络构建的非线性映射。神经网络在输入xi时的输 出表示为K(xi,θ)。此时的评价函数f定义结构化风险LOSS,即经验风险(或者偏差)与置信风险||θ||2(未知参数的方差的二次范式|θ|2)的加权和,权值 ξ用来控制模型的经验损失和泛化能力[9]。优化目标为结构风险最小。
寻优开始前需要给定S,Vmin,Vmax,Dmin,Dmax,Xmin,Xmax最大迭代次数T和停止条件。Dmin,Dmax由编码过程决定,Dmin为神经网络编码中复杂度最低的编码向量的维度,Dmax为神经
网络编码中复杂度最高的编码向量的维度。基于超粒子群的神经网络演化算法如下: 定义C[X,(Xmin,Xmax)]为截断操作符(6),用于防止粒子在寻优过程中位置和速率超过预定 范围。
对基础粒子群算法相比,超粒子群在更新粒子位置基础上还需要在每次迭代更新粒子 的空间。超粒子位置的更新依靠粒子在当前空间的速度向量跨空间的更新依靠 粒子跨空间移动的速度向量vda(t)。的更新同基础粒子群算法,需要给定约束条件 Vmin,Vmax,即的每一个分量i都比要满足在更新速度 后,通过(7)更新粒子在空间da(t)的位置更新时,超粒子群引入了粒子位置的截断条件(8),每个粒子在当前空间的位置的每个分量i需要满足
超粒子群惰性因子δd(t)(t)的变化规律和粒子所在搜索空间相关,随着迭代t的变化规律如 下:
|||X|||2表示向量X的方差
粒子La在搜索过程中会在Ta个迭代周期后返回到d(t)搜索空间,δd(t)(t)的更新随着迭代减 少,减少的幅度用上一次粒子在d(t)搜索空间所有参数的方差来控制。加速系数c1,c2在 神经网络演化问题中取值为0.5,0.5,每次迭代中粒子的随机动量r1(t),r2(t)满足均匀分布 U(0,1)。vda(t)的更新使用(12),跨空间移动速度由上一次的速度,加速系数c1,c2和随 机动量r1(t),r2(t)共同决定,由于空间维度的本质是整数索引号,采用floor操作符对浮点 数进行取整:
对于神经网络演化问题,本发明采用编码步骤产生的编码表对每一个粒子进行设定, 如果编码过程进行了n次迭代,超粒子群中每个粒子向量组可表示为:粒子在时间t搜索空间Rd(t)的位置对应第j次编码步骤迭代生成的神经网络模型编码Code(ANNj),Code(ANNj)编码向量的维度等于da(t),即粒子在时间t所在的搜索空间。的第i个分量表示神经网络模型编码 Code(ANNj)中的权重w或者激活函数表编号Op,通过超粒子群求解过程,粒子通过搜索空间 内和搜索空间之间的移动最终找到最优的Code(ANNoptimal)。粒子在移动过程中对激活函数表编号的更新不同于权重的更新,因为激活函数表编号为1到6的整数,所以在(11)中诊断 激活函数表编号的粒子位置分量利用了floor操作符对浮点数进行下取整,并且利用mod(6)操作符对位置分量以6(6位激活函数表中激活函数的个数)为模取余数。
与现有方法相比较:本发明提出的方法能够自动设计符合应用特点的神经网络结构并 进行优化训练,提供了找寻给定问题最优神经网络的统一方法,降低了网络设计的人工成本。 方法本质上将现行的设计神经网络环节中存在的人工经验穷举环节变成由演化算法在演化过 程中寻找最优的网络结构。且演化算法在演化过程中可同时进行网络参数的训练,已有文献 实验证明[3]基于演化算法的神经网络训练具有比反向传播算法训练(Back Propagation)更 可能收敛到全局最优解并且具有更好的应用适应性。
附图说明
图1是现行深度神经网络设计流程。
图2是用于初始化的全连接神经网络原型,其中,3-2-3全连接神经网络,虚线表示跨 层连接。
图3是超粒子群搜索空间模型。其中,所述超粒子群(左)和基础粒子群(右)粒子的位置和速度在其搜索空间中的表示,超粒子群中粒子La在时间t的位置为多维向量组形式(X0a(t),X1a(t),X2a(t)),分别表示第0个搜索空间R6,第1个搜索空间R8,第2个 搜索空间R10的粒子的当前位置,La在时间t的速度多维向量组(V0a(t),V 1a(t),V 2a(t))分别表示第0个搜索空间R6,第1个搜索空间R8,第2个搜索空间R10的粒子的当 前速度。
图4是平均池化法重采样算法示例。其中,所述重采样将8*8分辨率的图像重采样到,平均池化(average pooling)尺寸2*2(竖直和水平方向尺寸减半),裁切(crop)变长 1*1(竖直方向和水平方向裁切的维度),将4*4的图像裁切成2*2。
图5是发明提出的基于演化算法的神经网络训练和优化方法整体流程图。
具体实施方式
将发明方法具体实施应用于解决CT(Computed Tomography)[12]检查中肺间质性病变 分类问题[10]。该问题需要将CT检查序列中每一张切片中存在的间质性肺疾分类为:气肿 型,结节型,蜂窝型,磨玻璃型和实变型。实施的目标是利用发明的神经网络设计,训练优 化方法找到最优的肺间质性病变分类神经网络模型和其参数。实施采用下列步骤依次进行:
1)原始数据收集和标注
收集1000例肺间质性疾病的CT检查,1000例检查采用统一的设备Siemens CT和图像采样参数(分辨率512×512,12位位图,正常剂量CT),由三名医师P1,P2,P3采用专用的放射科专用阅片显示器进行人工标注,P1,P2,P3均为具有15年以上临床阅片经验的胸科医师,对肺间质性病变有较好的临床经验和理论积累。标注方法如下:
a)P1,P2分别独立对1000例CT检查进行阅片,找出其中包含肺间质性疾病CT切片,并记录该切片中包含的间质性病变的类型,利用数字形式记录:0-气肿型,1-结节型,2- 蜂窝型,3-磨玻璃,4-实变型,5-网格型,如果同一个切片图像中包含多余一种间质性病 变类型病灶则丢弃该切片。P1,P2分别生成切片图像编号与疾病类型的对照表T1,T2。
b)参照对照表,将T1,T2两份对照表中图像编号相同,并且P1,P2标注的疾病类型相同的图像编号和疾病类型对照关系列出,生成新的图像编号与疾病类型对照表T3。
c)P3对T3表进行复查,将其中自己认为T3种存在的误诊项从T3种删除,生成T4表。T4表将最终以图像编号和标注的形式记录3名医师标注的肺间质性病变。T4最终包含的CT检查切片共计16295个,其中气肿型2576张图像,蜂窝型2178张图像,磨玻璃2045张图 像,实变型3712张图像,网格型2898张图像,结节型2886张图像。
2)归一化操作
a)尺寸归一化:将16295个512×512的输入图像重采样到224×224分辨率,重采样利用2×2的平均池化(Average Pooling)操作和24×24的裁切(Cropping)操作,方法见图4。
b)像素归一化,计算16295个224×224的图像的每一维度的均值和标准差,然后将图 像像素减去其所在维度的均值并除以所在维度的标准差。
3)图像特征提取
采用VGG16[11]所述的深度卷积神经网络的卷积层作为特征提取网络,对16295个512×512的输入图像进行特征提取,提取后生成的特征集为16295个25088(7×7×512)维的 特征向量。利用PCA[13]主成分分析方法,将25088维向量进行降维,仅提取按照特征值排序后从大到小前128维主成分,将为后特征集为16295个128维的特征向量。
4)样本库建立
从16295个样本中随机取出11500个作为训练样本集TR,3295个作为测试样本集TE, 1500个作为验证样本集VAL。训练样本,验证样本和测试样本中各个类别样本数目的标准差 小于5。
5)网络编码
利用[128-32-16-6]全连接网络作为编码步骤的初始网络结构:ANNt0=128-32-16-6, 其中128表示128个输入层神经元,该网络包含两个隐藏层,每层分别包含32,16个神经 元,最终输出层包含6个神经元,对应六种肺间质性病变的类型(0,1,2,3,4,5)。不改 变输入层到任意其他层的连接,将从隐藏层开始的网络作为子网开始编码迭代,设定复杂度变化范围Kmin=0.959,Kmax=1.031:
a)复杂度增加迭代:迭代共计100次,最大复杂度为1.03。
b)复杂度减少迭代:迭代共计100次,最小复杂度为0.96。
网络编号后生成的编码表中共包含201个神经网络模型编码,其中复杂度最大的网络 模型ComplexMax包含32+16=48个隐藏层神经元,4804(128×32+32×16+16×6+100)个连 接权重,共计48+4804=4852个待训练优化参数。复杂度最低的网络结构ComplexMin包含 42个隐藏层神经元,有6个第一隐藏层的神经元在复杂度减少迭代中被删除,共包含42个 激活函数需要优化,加4604(128×26+26×16+16×6-4)个连接权重共4646个参数需要优 化。
6)超粒子群演化
设定优化目标函数为:minθ代表神经网络参数。针对编码步骤产生的复杂度最大的网络ComplexMax,θ为4852维向量,中包含了隐藏 层神经元的激活函数编号和神经元之间连接的权重。K(xi,θ)代表了输入测试样本xi,神经 网络在θ作为参数时的网络前传输出结果。ξ=e10-4。设定种群大小S为50000,Vmin=-2.0, Vmax=5.0,Dmin=0,Dmax=201,Xmin=-20.0,Xmax=20.0,最大迭代次数T=200000。种群中每个粒子搜索空间的排序按照编码步骤产生的网络编码顺序进行,例如例子La在第0个搜索空间R4852任意迭代周期的位置向量和速度向量都为Code(ANNt0)编码所表示的[128-32- 16-6]的全连接神经网络所需要优化的参数向量的维度4852维,因为该全连接神经网络共有 48(32+16)个隐藏层神经元和128×32+32×16+16×6=4704个连接权重。
a)初始化种群中每个粒子在201个搜索空间中每个空间的粒子的初始位置和速度(满 足均值0,方差1的正态分布)。
b)开始演化迭代,每次迭代计算目标函数值:利用11500个训练样本集TR,计算当前 粒子位置所代表的神经网络模型在验证集上预测的结构化风险损失,即{xi,yi}为TR中第i个训练样本,同时计算验证集VAL中1500个样本的结构化风险LOSSval,如果LOSStr在50个最近迭代中标准差小与0.2, 并且VALtr在最近5次迭代变化量均大于0,迭代停止。或者迭代已经达到最大迭代次数200000,迭代停止。迭代停止条件为(13),其采用了提早停止训练(Early Stopping)[15]的方法来避免过拟合的发生。
迭代停止时的全局最好粒子位置作为神经网络的最优结构和权重。
c)分类预测:利用softmax函数将神经网络的输出层神经元的激活值转换成每个类别 预测的置信度。softmax函数可以将任意取值的实数映射到0-1区间,定义如下:
当前实例下,softmax函数的输入为6维向量,每一个分量取值实数域,该向量代表最优神经网络在给定输入样本下的输出,通过softmax函数,转换后的输出为6维向量,每一个分量取值(0,1)。最终样本的分类预测为softmax输出取值最大的分量所对应的相比标记类别(MaxVoting)。
实际效果
通过对比发明提出的方法得出的最优神经网络模型和人工通过经验设计训练的神经网 络模型在肺间质性病变图像分类问题中精确度差别,证明发明的方法能够针对给定问题更为 优化的解决方案。首先定义对比实验所用于评估分类精确度的指标,对6类疾病中任意类别 c,分别计算预测分类结果的TPc,TNc,FPc,FNc::
TPc=预测结果中判为c实际为c的个数,TNc=预测结果中判为非c实际非c类的个数
FPc=预测结果中判为c实际非c的个数,TNc=预测结果中判为非c实际为c类的个数
计算每个类别的综合预测分类精确度fscore:
对比实验采用实施例中所述的原始数据收集,标注,归一化和特征提取方法生成肺间 质性疾病图像特征集,特征集为16295个128维的特征向量。在特征集基础上,对比实验如 下:
1)样本库建立
从16295个样本中随机取出11500个作为训练样本集TR,3295个作为测试样本集TE, 1500个作为验证样本集VAL。训练样本,验证样本和测试样本中各个类别样本数目的标准差 小于5。
2)模型训练
a)利用11500个训练样本的训练结构为[128-32-16-6]的全连接网络,其中128为输 入向量维度,输入层包含128个神经元,两个隐藏层分别由32,16个神经元,输出层为6个神经元。利用11500个128维的间质性肺疾病图像特征,训练FCN,训练方法为反向传播 算法(Back Propagation),优化算法采用随机梯度下降法(Stochastic Gradient Descent)[14],并且采用批量训练的minibatch方法[14]来提高优化效率。优化目标为(5) 所定义的结构化风险最小。优化的停止条件利用验证集VAL采用(13)中定义,其中最大迭代 次数T=10000。训练优化停止时所得到的网络记作FCN。
b)利用11500个训练样本和验证集VAL基于发明所提出的方法设计并训练神经网络, 编码步骤初始状态神经网络结构为[128-32-16-6]的全连接网络,其中128为输入向量维度, 输入层包含128个神经元,两个隐藏层分别由32,16个神经元,输出层为6个神经元,编 码步骤迭代复杂度范围Kmin=0.959,Kmax=1.031。演化步骤种群S=50000,Vmin=-2.0,Vmax=5.0,Dmin=0,Dmax=201,Xmin=-20.0,Xmax=20.0,最大迭代次数T=10000。演化目标为(5) 所定义的结构化风险最小。优化的停止条件利用验证集VAL采用(13)中定义。演化结果最优 的神经网络记作Code(CNNoptimal)。
最终的网络输出借助softmax函数映射到置信空间,最终分类结果为置信最大值所对 应的类别。
3)性能评估
共进行五次独立的对比实验,将样本库建立(1)和模型训练(2),按顺序循环执行5次。 第i次实验发明所提出的方法生成的模型记作Code(CNNoptimal)i,人工设计并训练的模型记作 FCNi,i=0,1,…5。记录每一次生成的Code(CNNoptimal)i和FCNi在测试集TE上每种疾病的精确 度fscore。然后统计五次实验每种疾病两个模型的精确度的平均值和标准差。
表3在间质性肺疾病征象分类任务中的发明方法生成的网络和人工设计的全连接网络测试结果对比,结果形式为fscore均值±标准差的形式。
实验结果显示,在6类疾病的分类问题中,分类精确度(fscore)均超过原始的人工 设计和用传统反向传播算法训练的FCN网络模型的测试结果,并且每次实验的差异性较小, 证实发明系统能够更好的找到适合具体应用的网络模型。实验中神经网络演化的平均耗时 同 人工设计相比较表4,更加具有统一性和一致性。
模型 设计时间(小时) 训练时间(小时)
发明方法 0 25±1.2
FCN 48-960(经验强相关) 72±2.4
表4人工和发明方法设计和训练神经网络的时间成本对比,人工设计一般对网络设计人员有较高要求,经验不足的人员在设计网络时往往需要花费大量时间去反复测试,而发明 提出的方法提供统一的神经网络设计和训练框架,更适用于各类科研人员快速找寻问题的最 优解决方案。
参考文献:
[1]Schmidhuber J,rgen.Deep learning in neural networks[M].ElsevierScience Ltd.2015.
[2]Hornik,Kurt,Maxwell Stinchcombe,and Halbert White."Multilayerfeedforward networks are universal approximators."Neural networks 2.5(1989):359-366.
[3]Sexton R S,Gupta J N D.Comparative evaluation of genetic algorithm andbackpropagation for training neural networks[J].Information Sciences,2000,129(1–4):45-59.
[4]Back,Thomas.Evolutionary algorithms in theory and practice:evolutionstrategies,evolutionary programming,genetic algorithms.Oxford universitypress,1996.
[5]Kennedy,James."Particle swarm optimization."Encyclopedia of machinelearning.Springer US,2011.760-766.
[6]Eberhart,Russell C.,and Yuhui Shi."Comparison between geneticalgorithms and particle swarm optimization."International Conference onEvolutionary Programming.Springer Berlin Heidelberg,1998.
[7]Hochreiter S.Recurrent Neural Net Learning and Vanishing Gradient[J].1998.
[8]Pascanu R,Mikolov T,Bengio Y.Understanding the exploding gradientproblem[J].Arxiv Preprint Arxiv,2012.
[9]Vapnik V N.The nature of statistical learning theory[M]//The nature ofstatistical learning theory/.Springer,2000:988-999.
[10]Xu Y,Beek E J R V,Flaherty K,et al.Whole Lung 3D TextureClassification of Interstitial Lung Diseases in MDCT Images[C]//RadiologicalSociety of North America 2007 Scientific Assembly and Meeting.2007.
[11]Simonyan K,Zisserman A.Very Deep Convolutional Networks for Large-Scale Image Recognition[J].Computer Science,2014.
[12]K.Nieman,A.Coenen,M.Dijkshoorn,5-Computed tomography,Editor(s): KoenNieman,Oliver Gaemperli,Patrizio Lancellotti,Sven Plein,In WoodheadPublishing Series in Biomaterials,In Advanced Cardiac Imaging,WoodheadPublishing,2015,Pages 97-125,ISBN 9781782422822, https://doi.org/10.1016/B978-1-78242-282-2.00005-6.
[13]Tipping M E,Bishop C M.Probabilistic Principal Component Analysis[J].Journal of the Royal Statistical Society,2010,61(3):611-622.
[14]Ketkar N.Stochastic Gradient Descent[J].Optimization,2014.
[15]Raudys S,Cibas T.Regularization by early stopping in single layerperceptron training[C]//International Conference on Artificial NeuralNetworks. Springer-Verlag,1996:77-82. 。

Claims (3)

1.一种基于演化算法的深度神经网络训练与优化算法,其特征在于,包括:
1)编码:根据给定问题设定初始化全连接神经网络,并在预先设定模型复杂度的范围内进行复杂度增加迭代编码和复杂度降低迭代编码,得到神经网络的模型编码表;
2)演化:设定种群大小和粒子在空间内和空间之间的移动范围,和移动速度变化范围,利用超粒子群算法在模型编码表对应的超搜索空间找寻适合给定问题的最优神经网络模型编码。
2.根据权利要求1所述的方法,其特征在于,步骤1)所述的根据具体应用设定全连接神经网络作为编码迭代步骤初始化神经网络; 所述的复杂度增加迭代是利用从输入层到输出层神经元每次迭代隔层增加一条连接并计算增加连接后的神经网络模型复杂度, 当复杂度大于既定复杂度最大值时停止迭代;所述的复杂度减少迭代是从隐藏层开始,减少从最低隐藏层到输出层每个神经元到较高层神经元的连接,当神经元没有向高层的连接时在网络模型中删除该神经元。
3.根据权利要求1所述的方法,其特征在于,步骤2)所述的超粒子群演化算法。
CN201711426103.4A 2017-12-25 2017-12-25 一种基于演化算法的深度神经网络训练与优化算法 Pending CN108229657A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711426103.4A CN108229657A (zh) 2017-12-25 2017-12-25 一种基于演化算法的深度神经网络训练与优化算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711426103.4A CN108229657A (zh) 2017-12-25 2017-12-25 一种基于演化算法的深度神经网络训练与优化算法

Publications (1)

Publication Number Publication Date
CN108229657A true CN108229657A (zh) 2018-06-29

Family

ID=62648832

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711426103.4A Pending CN108229657A (zh) 2017-12-25 2017-12-25 一种基于演化算法的深度神经网络训练与优化算法

Country Status (1)

Country Link
CN (1) CN108229657A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109239102A (zh) * 2018-08-21 2019-01-18 南京理工大学 一种基于cnn的柔性电路板外观缺陷检测方法
CN109544511A (zh) * 2018-10-25 2019-03-29 广州大学 基于粒子群算法优化的卷积神经网络对肺结节识别的方法
CN109948795A (zh) * 2019-03-11 2019-06-28 驭势科技(北京)有限公司 一种确定网络结构精度和延时优化点的方法和装置
CN110046713A (zh) * 2019-04-19 2019-07-23 井冈山大学 基于多目标粒子群优化的鲁棒性排序学习方法及其应用
CN110265147A (zh) * 2019-05-05 2019-09-20 深圳大学 神经网络及其训练方法、预测方法、设备及存储介质
CN110414426A (zh) * 2019-07-26 2019-11-05 西安电子科技大学 一种基于pc-irnn的行人步态分类方法
CN110490320A (zh) * 2019-07-30 2019-11-22 西北工业大学 基于预测机制和遗传算法融合的深度神经网络结构优化方法
CN110555514A (zh) * 2019-08-20 2019-12-10 北京迈格威科技有限公司 神经网络模型搜索方法、图像识别方法和装置
CN110633797A (zh) * 2019-09-11 2019-12-31 北京百度网讯科技有限公司 网络模型结构的搜索方法、装置以及电子设备
CN110781999A (zh) * 2019-10-29 2020-02-11 北京小米移动软件有限公司 种群生成方法、神经网络架构的选择方法及装置
CN111105029A (zh) * 2018-10-29 2020-05-05 北京地平线机器人技术研发有限公司 神经网络的生成方法、生成装置和电子设备
CN111340176A (zh) * 2018-12-19 2020-06-26 富泰华工业(深圳)有限公司 神经网络的训练方法、装置及计算机存储介质
CN111507128A (zh) * 2019-01-30 2020-08-07 北京沃东天骏信息技术有限公司 人脸识别方法、装置、电子设备及可读介质
CN111666719A (zh) * 2020-06-08 2020-09-15 南华大学 γ辐射多层屏蔽累积因子计算方法、装置、设备及介质
CN111667004A (zh) * 2020-06-05 2020-09-15 北京百度网讯科技有限公司 数据生成方法、装置、设备以及存储介质
CN111684472A (zh) * 2019-05-31 2020-09-18 深圳市大疆创新科技有限公司 网络结构搜索的方法及装置、计算机存储介质和计算机程序产品
CN111898689A (zh) * 2020-08-05 2020-11-06 中南大学 一种基于神经网络架构搜索的图像分类方法
WO2021057926A1 (zh) * 2019-09-25 2021-04-01 杭州海康威视数字技术股份有限公司 一种神经网络模型训练方法及装置
CN112633591A (zh) * 2020-12-30 2021-04-09 成都艾特能电气科技有限责任公司 一种基于深度强化学习的空间搜索方法及设备
CN114926698A (zh) * 2022-07-19 2022-08-19 深圳市南方硅谷半导体股份有限公司 基于演化博弈论的神经网络架构搜索的图像分类方法

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109239102A (zh) * 2018-08-21 2019-01-18 南京理工大学 一种基于cnn的柔性电路板外观缺陷检测方法
CN109239102B (zh) * 2018-08-21 2021-04-09 南京理工大学 一种基于cnn的柔性电路板外观缺陷检测方法
CN109544511A (zh) * 2018-10-25 2019-03-29 广州大学 基于粒子群算法优化的卷积神经网络对肺结节识别的方法
CN109544511B (zh) * 2018-10-25 2022-01-04 广州大学 基于粒子群算法优化的卷积神经网络对肺结节识别的方法
CN111105029A (zh) * 2018-10-29 2020-05-05 北京地平线机器人技术研发有限公司 神经网络的生成方法、生成装置和电子设备
CN111105029B (zh) * 2018-10-29 2024-04-16 北京地平线机器人技术研发有限公司 神经网络的生成方法、生成装置和电子设备
CN111340176A (zh) * 2018-12-19 2020-06-26 富泰华工业(深圳)有限公司 神经网络的训练方法、装置及计算机存储介质
CN111507128A (zh) * 2019-01-30 2020-08-07 北京沃东天骏信息技术有限公司 人脸识别方法、装置、电子设备及可读介质
CN109948795A (zh) * 2019-03-11 2019-06-28 驭势科技(北京)有限公司 一种确定网络结构精度和延时优化点的方法和装置
CN109948795B (zh) * 2019-03-11 2021-12-14 驭势科技(北京)有限公司 一种确定网络结构精度和延时优化点的方法和装置
CN110046713B (zh) * 2019-04-19 2023-05-12 井冈山大学 基于多目标粒子群优化的鲁棒性排序学习方法及其应用
CN110046713A (zh) * 2019-04-19 2019-07-23 井冈山大学 基于多目标粒子群优化的鲁棒性排序学习方法及其应用
CN110265147A (zh) * 2019-05-05 2019-09-20 深圳大学 神经网络及其训练方法、预测方法、设备及存储介质
CN111684472A (zh) * 2019-05-31 2020-09-18 深圳市大疆创新科技有限公司 网络结构搜索的方法及装置、计算机存储介质和计算机程序产品
CN110414426B (zh) * 2019-07-26 2023-05-30 西安电子科技大学 一种基于pc-irnn的行人步态分类方法
CN110414426A (zh) * 2019-07-26 2019-11-05 西安电子科技大学 一种基于pc-irnn的行人步态分类方法
CN110490320B (zh) * 2019-07-30 2022-08-23 西北工业大学 基于预测机制和遗传算法融合的深度神经网络结构优化方法
CN110490320A (zh) * 2019-07-30 2019-11-22 西北工业大学 基于预测机制和遗传算法融合的深度神经网络结构优化方法
CN110555514A (zh) * 2019-08-20 2019-12-10 北京迈格威科技有限公司 神经网络模型搜索方法、图像识别方法和装置
CN110555514B (zh) * 2019-08-20 2022-07-12 北京迈格威科技有限公司 神经网络模型搜索方法、图像识别方法和装置
CN110633797B (zh) * 2019-09-11 2022-12-02 北京百度网讯科技有限公司 网络模型结构的搜索方法、装置以及电子设备
CN110633797A (zh) * 2019-09-11 2019-12-31 北京百度网讯科技有限公司 网络模型结构的搜索方法、装置以及电子设备
WO2021057926A1 (zh) * 2019-09-25 2021-04-01 杭州海康威视数字技术股份有限公司 一种神经网络模型训练方法及装置
CN110781999A (zh) * 2019-10-29 2020-02-11 北京小米移动软件有限公司 种群生成方法、神经网络架构的选择方法及装置
CN110781999B (zh) * 2019-10-29 2022-10-11 北京小米移动软件有限公司 神经网络架构的选择方法及装置
CN111667004B (zh) * 2020-06-05 2024-05-31 孝感市思创信息科技有限公司 数据生成方法、装置、设备以及存储介质
CN111667004A (zh) * 2020-06-05 2020-09-15 北京百度网讯科技有限公司 数据生成方法、装置、设备以及存储介质
CN111666719B (zh) * 2020-06-08 2022-02-08 南华大学 γ辐射多层屏蔽累积因子计算方法、装置、设备及介质
CN111666719A (zh) * 2020-06-08 2020-09-15 南华大学 γ辐射多层屏蔽累积因子计算方法、装置、设备及介质
CN111898689A (zh) * 2020-08-05 2020-11-06 中南大学 一种基于神经网络架构搜索的图像分类方法
CN111898689B (zh) * 2020-08-05 2023-09-26 中南大学 一种基于神经网络架构搜索的图像分类方法
CN112633591A (zh) * 2020-12-30 2021-04-09 成都艾特能电气科技有限责任公司 一种基于深度强化学习的空间搜索方法及设备
CN112633591B (zh) * 2020-12-30 2024-06-28 成都艾特能电气科技有限责任公司 一种基于深度强化学习的空间搜索方法及设备
CN114926698A (zh) * 2022-07-19 2022-08-19 深圳市南方硅谷半导体股份有限公司 基于演化博弈论的神经网络架构搜索的图像分类方法

Similar Documents

Publication Publication Date Title
CN108229657A (zh) 一种基于演化算法的深度神经网络训练与优化算法
Goldanloo et al. A hybrid OBL-based firefly algorithm with symbiotic organisms search algorithm for solving continuous optimization problems
Abiyev et al. Deep convolutional neural networks for chest diseases detection
Guo et al. RETRACTED: Novel computer‐aided lung cancer detection based on convolutional neural network‐based and feature‐based classifiers using metaheuristics
CN111127385B (zh) 基于生成式对抗网络的医学信息跨模态哈希编码学习方法
Ma et al. Facial expression recognition using constructive feedforward neural networks
Özbılge et al. Tomato disease recognition using a compact convolutional neural network
Sudha et al. Classification of brain tumor grades using neural network
Wang et al. Optical pressure sensors based plantar image segmenting using an improved fully convolutional network
Al-Daoud et al. Cancer diagnosis using modified fuzzy network
ElSoud et al. Computational intelligence optimization algorithm based on meta-heuristic social-spider: case study on CT liver tumor diagnosis
Tasdemir et al. ANN approach for estimation of cow weight depending on photogrammetric body dimensions
Patil et al. Improved region growing segmentation for breast cancer detection: progression of optimized fuzzy classifier
Pillai et al. Brain tumor classification using VGG 16, ResNet50, and inception V3 transfer learning models
KHRISSI et al. Simple and efficient clustering approach based on cuckoo search algorithm
CN108062779A (zh) 一种用于胸部断层扫描放射影像的无损压缩方法
Muthukannan et al. A GA_FFNN algorithm applied for classification in diseased plant leaf system
Lu et al. A fruit sensing and classification system by fractional fourier entropy and improved hybrid genetic algorithm
CN115731137B (zh) 一种基于A-EdgeConv的室外大场景点云分割方法
Louati et al. Design and compression study for convolutional neural networks based on evolutionary optimization for thoracic X-Ray image classification
Meenakshi et al. An efficient model for predicting brain tumor using deep learning techniques
Geetha et al. New particle swarm optimization for feature selection and classification of microcalcifications in mammograms
Valarmathi et al. An improved neural network for mammogram classification using genetic optimization
Hassanien et al. Enhanced rough sets rule reduction algorithm for classification digital mammography
Karnan et al. Ant colony optimization for feature selection and classification of microcalcifications in digital mammograms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180629

WD01 Invention patent application deemed withdrawn after publication