CN116596056A - 基于混合变异策略遗传算法的深度光学神经网络训练方法及系统 - Google Patents
基于混合变异策略遗传算法的深度光学神经网络训练方法及系统 Download PDFInfo
- Publication number
- CN116596056A CN116596056A CN202310591505.9A CN202310591505A CN116596056A CN 116596056 A CN116596056 A CN 116596056A CN 202310591505 A CN202310591505 A CN 202310591505A CN 116596056 A CN116596056 A CN 116596056A
- Authority
- CN
- China
- Prior art keywords
- mutation
- donn
- strategy
- individuals
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000035772 mutation Effects 0.000 title claims abstract description 109
- 230000003287 optical effect Effects 0.000 title claims abstract description 61
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 47
- 238000012549 training Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 37
- 230000002068 genetic effect Effects 0.000 title claims abstract description 31
- 230000014759 maintenance of location Effects 0.000 claims abstract description 19
- 238000011156 evaluation Methods 0.000 claims abstract description 13
- 230000008569 process Effects 0.000 claims abstract description 12
- 230000004913 activation Effects 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 28
- 239000012071 phase Substances 0.000 claims description 19
- 239000012190 activator Substances 0.000 claims description 9
- 238000012360 testing method Methods 0.000 claims description 9
- 238000000354 decomposition reaction Methods 0.000 claims description 5
- 230000008859 change Effects 0.000 claims description 3
- 239000008384 inner phase Substances 0.000 claims description 3
- 239000008385 outer phase Substances 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 230000003068 static effect Effects 0.000 claims description 3
- 238000012546 transfer Methods 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 14
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000005693 optoelectronics Effects 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/086—Learning methods using evolutionary algorithms, e.g. genetic algorithms or genetic programming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/06—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
- G06N3/067—Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using optical means
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Physiology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Neurology (AREA)
- Probability & Statistics with Applications (AREA)
- Optical Communication System (AREA)
Abstract
本发明公开了基于混合变异策略遗传算法的深度光学神经网络训练方法及系统,方法如下:S1.将基于MZIs的线性运算层、基于EOA的非线性激活层、基于mask的Dropmask顺序堆叠,以搭建N层深度DONN;S2.对具有不同特征种类的数据集进行预处理,以符合DONN的数据输入尺寸;S3.均匀初始化DONN种群,将真实值与预测值之间的MSE和Accuracy相结合作为个体的适应度评价函数;S4.将指数排序选择ERS和均匀交叉UC作为训练过程的选择算子和交叉算子,采用混合变异策略,将单点变异SM、均匀变异UM、高斯变异GM三种算子按动态博弈概率分配不同个体进行变异;S5.采用双精英保留策略,将MSE和Accuracy表现最优的两个个体保留到下一代,经过迭代进化,直到满足终止条件,得到具有全局最优网络参数的DONN个体。
Description
技术领域
本发明涉及光子学设计领域和人工智能技术领域,尤其涉及一种基于混合变异策略遗传算法的深度光学神经网络的有效训练方法及系统。
背景技术
随着人工智能(Artificial Intelligence,AI)的快速发展,人工神经网络(Artificial Neural Network,ANN)在很多领域得到了广泛应用,对于图像分类、自然语言处理、无人驾驶、机器人等学习任务均有出色表现。然而传统的电子芯片已经无法满足信息化社会日益增长的大规模数据处理要求,达到“冯诺依曼瓶颈”。由于光信号处理具有高并行性、低功耗、低时延等优良特性,研究者们将目光聚集到深度光学神经网络(DeepOptical Neural Network,DONN),DONN的出现使得解决这一问题成为可能。
对于DONN来说,网络训练算法决定了DONN的性能优劣,因此研发一种行之有效的网络训练算法是当前亟待解决的问题。传统的遗传算法(Genetic Algorithm,GA)是一种无梯度的进化算法,是研究者通过模拟自然界中生物遗传进化机理而建立的一种算法模型。GA将生物看作个体(individual),个体对环境的适应能力作为适应度(fitness),有限数量的个体组成种群(population),对种群中个体的基因(gene)进行选择(selection)、交叉(crossover)、变异(mutation)操作,生成新的种群。但是传统GA存在的问题是:搜索速度较慢,容易过早收敛即“早熟”,从而陷入局部最优,导致最终得到的DONN的性能无法达到最佳。
发明内容
针对现有技术深度光学神经网络训练算法存在低效的问题,本发明提供了一种基于混合变异策略遗传算法的深度光学神经网络训练方法及系统。
本发明在现有技术基础上,采用混合变异策略遗传算法(Mixed MutationStrategy Genetic Algorithm,MSGA)均匀初始化DONN种群,将真实值与预测值之间的均方误差(MSE)和分类准确率(Accuracy)相结合作为个体的适应度评价函数,将指数排序选择(ERS)和均匀交叉(UC)作为训练过程的选择算子和交叉算子,将单点变异(SM)、均匀变异(UM)、高斯变异(GM)三种变异算子按动态博弈概率分配不同个体进行变异,同时采用双精英保留策略生成下一代网络种群,不断迭代进化,直到找到最优的DONN个体。MSGA增强了原GA的寻优能力,使最终得到的DONN个体的鲁棒性和泛化能力更强,性能更佳。
为了实现以上目的,本发明采用以下技术方案:
基于混合变异策略遗传算法的深度光学神经网络训练方法,包括如下步骤:
S1.将基于级联的马赫曾德尔干涉仪(MZIs)的线性运算层、基于电光激活器(EOA)的非线性激活层、基于掩码mask的输出层(Dropmask)顺序堆叠,从而搭建N层深度光学神经网络(DONN);
S2.对具有不同特征种类的数据集进行预处理,以符合DONN的数据输入尺寸;
S3.均匀初始化DONN种群,将真实值与预测值之间的均方误差(MSE)和分类准确率(Accuracy)相结合作为个体的适应度评价函数;
S4.将指数排序选择(ERS)和均匀交叉(UC)作为训练过程的选择算子和交叉算子,采用混合变异策略,将单点变异(SM)、均匀变异(UM)、高斯变异(GM)三种算子按动态博弈概率分配不同个体进行变异;
S5.采用双精英保留策略,将MSE和Accuracy表现最优的两个个体保留到下一代,经过多次迭代进化,直到满足终止条件,得到具有全局最优网络参数的DONN个体。
进一步地,步骤S1中,级联马赫曾德尔干涉仪(Mach–Zehnder interferometers,MZIs)可以实现大规模光学矩阵运算,电光激活器(Electro-optic activator,EOA)可以实现非线性激活函数功能,Dropmask层去掉多余神经元以符合网络输出。一个MZI由前后两个3dB定向耦合器以及两个可调移相器构成,内移相器控制输出分光比,外移相器控制差分输出相位。由奇异值分解原理(Singular Value Decomposition,SVD)可知,任意一个实矩阵可以分为两个酉矩阵和一个对角阵的乘积,即
R=IΣJ*
其中,R是实值矩阵,I是m×m的酉矩阵,Σ是m×n的对角阵,J*是n×n酉矩阵J的复共轭。其中,酉矩阵I和J*可由MZI中的耦合器和移相器实现,对角阵Σ可由光衰减器实现,通过配置级联的MZIs网络,从而实现大规模的光学矩阵运算。EOA将光输入功率的一小部分转化为电压,对原始光信号的其余部分进行幅度-相位调制。假设光输入信号为c,产生的非线性光电激活函数为f(c),具体表达式为:
其中,α是光电探测器的分接功率比,是光电探测器的响应度,G是跨阻放大器的增益,H是传输函数,Vb是静态偏置电压,Vπ是调制器相位变化π所需的电压。
进一步地,步骤S2中,数据预处理包括数据清洗,即查看数据集中是否有缺失值;数据增强,即对数据集添加高斯噪声使神经网络的泛化能力更强;数据划分,即将数据集分成训练集和测试集,以符合DONN的数据输入尺寸。
进一步地,步骤S3中,均匀初始化DONN种群,使得每个网络个体的参数均匀分布在解空间中。此外,将真实值与预测值之间的均方误差(MSE)和分类准确率(Accuracy)相结合作为个体的适应度评价函数,具体表达式为:
其中,表示真实值和预测值之间的均方误差,n表示测试集的样本数量,Yi和/>分别代表第i个样本的真实值和预测值,Accuracy代表DONN的分类准确率,q代表加权平均因子,通常取0.5。
进一步地,步骤S4中,将指数排序选择(ERS)和均匀交叉(UC)作为训练过程的选择算子和交叉算子,采用混合变异策略,将单点变异(SM)、均匀变异(UM)、高斯变异(GM)三种算子按动态博弈概率分配不同个体进行变异。混合变异策略是指三种不同的变异算子具有动态博弈概率分布 其中,r指的是第r次迭代,i指的是本次迭代中第i个网络个体;
如果网络个体通过变异算子Q产生后代,并且后代被选择进入到下一次迭代进化,则各算子的概率分布按下式迭代更新:
如果网络个体通过变异算子Q产生后代,并且后代未被选择进入到下一次迭代进化,则各算子的概率分布按下式迭代更新:
其中,Q代表当前变异算子,Q’代表其他变异算子,η∈(0,1)是控制混合变异策略概率分布的一个系数,这里等于1/3,且概率分布满足 β代表变异算子的数量。
进一步地,步骤S5中,采用双精英保留策略,将MSE和Accuracy表现最棒的两个个体保留到下一代,防止当前最优个体丢失,避免算法无法找到全局最优解。
进一步地,步骤S5中,终止条件是网络迭代2000次,最终得到具有全局最优网络参数的DONN个体。
进一步地,所述的混合变异策略遗传算法具体如下:均匀初始化DONN种群,种群包含50个个体,将测试集输入到每个DONN中,进行适应度评估;根据得到的适应度值进行指数排序选择,得到选择后的种群;提取种群中每个个体的权重和超参数进行二进制编码,为减少精度损失,可以采用20bit二进制编码;采用均匀交叉算子,交叉概率为0.8;采用混合变异策略,变异概率为0.1;得到新一代网络参数,将其解码后采用双精英保留策略复制生成下一代种群,不断迭代,直到满足终止条件,得到具有全局最优网络参数的DONN个体。
本发明还公开了一种基于上述深度光学神经网络训练方法的系统,其包括如下模块:
深度光学神经网络搭建模块:将基于级联马赫曾德尔干涉仪MZIs的线性运算层、基于电光激活器EOA的非线性激活层、基于掩码mask的输出层Dropmask顺序堆叠,从而搭建N层深度光学神经网络DONN;
预处理模块:对具有不同特征种类的数据集进行预处理,以符合DONN的数据输入尺寸;
DONN种群初始化模块:均匀初始化DONN种群,将真实值与预测值之间的均方误差MSE和分类准确率Accuracy相结合作为个体的适应度评价函数;
混合变异策略模块:将指数排序选择ERS和均匀交叉UC作为训练过程的选择算子和交叉算子,采用混合变异策略,将单点变异SM、均匀变异UM、高斯变异GM三种算子按动态博弈概率分配不同个体进行变异;
双精英保留策略模块:采用双精英保留策略,将MSE和Accuracy表现最优的两个个体保留到下一代,经过迭代进化,直到满足终止条件,得到具有全局最优网络参数的DONN个体。
与现有技术相比,本发明具有如下的有益效果:
1、本发明采用光信号作为信息传播的载体,具有高并行、抗干扰、低延迟、低功耗等特性。因此,由基本的光电子器件包括MZIs和EOA等搭建的N层深度光学神经网络(DONN)相比传统的人工神经网络更加高效且低耗,可以广泛应用于图像分类、自然语言处理、无人驾驶、机器人等学习任务中。
2、混合变异策略遗传算法MSGA具有良好的全局搜索能力,可以快速在解空间内找到全部解,相比于传统遗传算法,MSGA不易陷入局部最优,且具有概率随机性,增强了算法的寻优能力,使最终得到的DONN个体的鲁棒性和泛化能力更强,性能更佳。
附图说明
图1是本发明优选实施例提供的基于混合变异策略遗传算法的深度光学神经网络训练方法流程图;
图2是本发明优选实施例提供的基于混合变异策略遗传算法的深度光学神经网络训练方法的网络框架结构图;
图3是本发明优选实施例提供的混合变异策略遗传算法的流程图;
图4是本发明优选实施例提供的DONN执行Iris分类任务的结果图;
图5是本发明优选实施例提供的DONN执行Seeds分类任务的结果图;
图6是本发明优选实施例提供的DONN执行Wine分类任务的结果图;
图7是本发明优选实施例提供的基于混合变异策略遗传算法的深度光学神经网络训练系统框图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
本发明的目的是针对现有深度光学神经网络训练算法的低效,提供了基于混合变异策略遗传算法的深度光学神经网络的有效训练方法及系统。
如图1所示,本实施例提供了一种基于混合变异策略遗传算法的光学神经网络的有效训练方法,其包括如下步骤:
S1.将基于级联的马赫曾德尔干涉仪(MZIs)的线性运算层、基于电光激活器(EOA)的非线性激活层、基于掩码mask的输出层(Dropmask)顺序堆叠,从而搭建N层深度光学神经网络(DONN)。
具体的,在步骤S1中,级联马赫曾德尔干涉仪(Mach–Zehnder interferometers,MZIs)可以实现大规模光学矩阵运算,电光激活器(Electro-optic activator,EOA)可以实现非线性激活函数功能,Dropmask层去掉多余神经元以符合网络输出。一个MZI由前后两个3dB定向耦合器以及两个可调移相器构成,内移相器控制输出分光比,外移相器控制差分输出相位。由奇异值分解原理(Singular Value Decomposition,SVD)可知,任意一个实矩阵可以分为两个酉矩阵和一个对角阵的乘积,即
R=IΣJ*
其中,R是实值矩阵,I是m×m的酉矩阵,Σ是m×n的对角阵,J*是n×n酉矩阵J的复共轭。其中,酉矩阵I和J*可由MZI中的耦合器和移相器实现,对角阵Σ可由光衰减器实现,通过配置级联的MZIs网络,从而实现大规模的光学矩阵运算。EOA将光输入功率的一小部分转化为电压,对原始光信号的其余部分进行幅度-相位调制。假设光输入信号为c,产生的非线性光电激活函数为f(c),具体表达式为:
其中,α是光电探测器的分接功率比,是光电探测器的响应度,G是跨阻放大器的增益,H是传输函数,Vb是静态偏置电压,Vπ是调制器相位变化π所需的电压。
S2.对具有不同特征种类的数据集进行预处理,以符合DONN的数据输入尺寸。
具体的,在本步骤S2中,数据预处理包括数据清洗,即查看数据集中是否有缺失值;数据增强,即对数据集添加高斯噪声使神经网络的泛化能力更强;数据划分,即将数据集分成训练集和测试集,以符合DONN的数据输入尺寸。
S3.均匀初始化DONN种群,将真实值与预测值之间的均方误差(MSE)和分类准确率(Accuracy)相结合作为个体的适应度评价函数。本步骤中,均匀初始化DONN种群,使得每个网络个体的参数均匀分布在解空间中,加快网络的寻优速度。此外,将真实值与预测值之间的均方误差(MSE)和分类准确率(Accuracy)相结合作为个体的适应度评价函数,使得评价标准更具说服力,更能反映DONN的整体性能。具体表达式为:
其中,表示真实值和预测值之间的均方误差,n表示测试集的样本数量,Yi和/>分别代表第i个样本的真实值和预测值,Accuracy代表DONN的分类准确率,q代表加权平均因子,通常取0.5。
S4.将指数排序选择(ERS)和均匀交叉(UC)作为训练过程的选择算子和交叉算子,采用混合变异策略,将单点变异(SM)、均匀变异(UM)、高斯变异(GM)三种算子按动态博弈概率分配不同个体进行变异;本步骤中,将指数排序选择(ERS)和均匀交叉(UC)作为训练过程的选择算子和交叉算子,可以增加种群的多样性,加快网络的收敛速度。采用混合变异策略,将单点变异(SM)、均匀变异(UM)、高斯变异(GM)三种算子按动态博弈概率分配不同个体进行变异,可以增强算法的寻优能力。
S5.采用双精英保留策略,将MSE和Accuracy表现最棒的两个个体保留到下一代,经过多次迭代进化,直到满足终止条件,得到具有全局最优网络参数的DONN个体。本步骤中,采用双精英保留策略,将MSE和Accuracy表现最棒的两个个体保留到下一代,防止当前最优个体丢失,避免算法无法找到全局最优解。终止条件是网络迭代2000次,最终得到具有全局最优网络参数的DONN个体。
如图2所示为一种优选DONN框架结构图。MZIs、EOA分别完成矩阵线性运算和非线性激活运算,可以看作DONN中的一个Layer,整个网络包含N层MZIs+EOA,MZIs中的相位参数个数和输入数据的特征有关,n个输入特征就有n2个相位参数;EOA中的超参数有3个,分别是光电探测器分接功率α、相位增益g和偏置相位θ;最后一层Dropmask用来去掉多余神经元,使得输出符合数据集的分类。
在本实施例中,用于分类任务的数据集如表1所示,分别为Iris(鸢尾花)、Seeds(小麦种子)、Wine(葡萄酒)。Iris有150个样本,每个样本包含了4个特征,分为三类;Seeds有210个样本,每个样本包含了7个特征,分为三类;Wine有178个样本,每个样本包含13个特征,分为三类。
表1是实施例一提供的数据集说明表。
表1
如图3所示为混合变异策略遗传算法的流程图,具体步骤如下:均匀初始化DONN种群,本实施例中,种群包含50个个体,将测试集输入到每个DONN中,进行适应度评估;根据得到的适应度值进行指数排序选择,得到选择后的种群;提取种群中每个个体的权重和超参数进行二进制编码,为减少精度损失,本实施例中采用20bit二进制编码;采用均匀交叉算子,交叉概率为0.8;采用混合变异策略,变异概率为0.1;得到新一代网络参数,将其解码后采用双精英保留策略复制生成下一代种群,不断迭代,直到满足终止条件,得到具有全局最优网络参数的DONN个体。
步骤S4中,混合变异策略是指三种不同的变异算子具有动态博弈概率分布其中,r指的是第r次迭代、i指的是本次迭代中第i个网络个体。
如果网络个体通过变异算子Q产生后代,并且后代被选择进入到下一次迭代进化,则各算子的概率分布按照下式迭代更新:
如果网络个体通过变异算子Q产生后代,并且后代未被选择进入到下一次迭代进化,则各算子的概率分布按照下式迭代更新:
其中Q代表当前变异算子,Q’代表其他变异算子,η∈(0,1)是控制混合变异策略概率分布的一个系数,这里等于1/3,且概率分布满足 β代表变异算子的数量。
步骤S5中,双精英保留策略的目的是将MSE和Accuracy表现最棒的两个个体保留到下一代,并将它们继续用于下一代的进化过程中。具体来说,当下一代中的最优个体比上一代中的最优个体差时,会从上一代中选择一部分表现较好的个体,即Accuracy高、MSE低的个体,用来替换下一代中表现较差的个体。这样可以保证下一代中至少有一些优秀的个体,避免出现全局最优解被淘汰的情况。本实施例中,终止条件是网络迭代2000次,最终得到具有全局最优网络参数的DONN个体。
与现有技术相比,本实施例具有如下的有益效果:
1、采用光信号作为信息传播的载体,具有高并行、抗干扰、低延迟、低功耗等特性。因此由基本的光电子器件包括MZIs和EOA等搭建的N层深度光学神经网络(DONN)相比传统的人工神经网络更加高效且低耗,未来可以广泛应用在图像分类、自然语言处理、无人驾驶、机器人等学习任务中。
2、MSGA具有良好的全局搜索能力,可以快速在解空间内找到全部解,相比于传统遗传算法,MSGA不易陷入局部最优,且具有概率随机性,增强了算法的寻优能力,使最终得到的DONN个体的鲁棒性和泛化能力更强,性能更佳。
本发明优选实施例基于混合变异策略遗传算法的深度光学神经网络的有效训练方法简述步骤如下:S1.将基于级联的马赫曾德尔干涉仪(MZIs)的线性运算层、基于电光激活器(EOA)的非线性激活层、基于掩码mask的输出层(Dropmask)顺序堆叠,从而搭建N层深度光学神经网络(DONN);S2.对具有不同特征种类的数据集进行预处理,以符合DONN的数据输入尺寸;S3.均匀初始化DONN种群,将真实值与预测值之间的均方误差(MSE)和分类准确率(Accuracy)相结合作为个体的适应度评价函数;S4.将指数排序选择(ERS)和均匀交叉(UC)作为训练过程的选择算子和交叉算子,采用混合变异策略,将单点变异(SM)、均匀变异(UM)、高斯变异(GM)三种变异算子按动态博弈概率分配不同个体进行变异;S5.采用双精英保留策略,将MSE和Accuracy表现最棒的两个个体保留到下一代,经过多次迭代进化,直到满足终止条件,得到具有全局最优网络参数的DONN个体。
如图7所示,本实施例公开了一种基于上述深度光学神经网络训练方法的系统,其包括如下模块:
深度光学神经网络搭建模块:将基于级联马赫曾德尔干涉仪MZIs的线性运算层、基于电光激活器EOA的非线性激活层、基于掩码mask的输出层Dropmask顺序堆叠,从而搭建N层深度光学神经网络DONN;
预处理模块:对具有不同特征种类的数据集进行预处理,以符合DONN的数据输入尺寸;
DONN种群初始化模块:均匀初始化DONN种群,将真实值与预测值之间的均方误差MSE和分类准确率Accuracy相结合作为个体的适应度评价函数;
混合变异策略模块:将指数排序选择ERS和均匀交叉UC作为训练过程的选择算子和交叉算子,采用混合变异策略,将单点变异SM、均匀变异UM、高斯变异GM三种算子按动态博弈概率分配不同个体进行变异;
双精英保留策略模块:采用双精英保留策略,将MSE和Accuracy表现最优的两个个体保留到下一代,经过迭代进化,直到满足终止条件,得到具有全局最优网络参数的DONN个体。
本实施例其他内容可参考上述深度光学神经网络训练方法实施例。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (9)
1.基于混合变异策略遗传算法的深度光学神经网络训练方法,其特征在于,包括如下步骤:
S1.将基于级联马赫曾德尔干涉仪MZIs的线性运算层、基于电光激活器EOA的非线性激活层、基于掩码mask的输出层Dropmask顺序堆叠,从而搭建N层深度光学神经网络DONN;
S2.对具有不同特征种类的数据集进行预处理,以符合DONN的数据输入尺寸;
S3.均匀初始化DONN种群,将真实值与预测值之间的均方误差MSE和分类准确率Accuracy相结合作为个体的适应度评价函数;
S4.将指数排序选择ERS和均匀交叉UC作为训练过程的选择算子和交叉算子,采用混合变异策略,将单点变异SM、均匀变异UM、高斯变异GM三种算子按动态博弈概率分配不同个体进行变异;
S5.采用双精英保留策略,将MSE和Accuracy表现最优的两个个体保留到下一代,经过迭代进化,直到满足终止条件,得到具有全局最优网络参数的DONN个体。
2.根据权利要求1所述的基于混合变异策略遗传算法的深度光学神经网络训练方法,其特征在于,步骤S1中,一个马赫曾德尔干涉仪MZI由前后两个3dB定向耦合器以及两个可调移相器构成,内移相器控制输出分光比,外移相器控制差分输出相位;由奇异值分解原理得知,任意一个实矩阵能分为两个酉矩阵和一个对角阵的乘积,即
R=IΣJ*
其中,R是实值矩阵,I是m×m的酉矩阵,Σ是m×n的对角阵,J*是n×n酉矩阵J的复共轭;其中,酉矩阵I和J*由MZI中的耦合器和移相器实现,对角阵Σ由光衰减器实现,通过配置级联的MZIs网络,从而实现大规模的光学矩阵运算;EOA将光输入功率的一小部分转化为电压,对原始光信号的其余部分进行幅度-相位调制;假设光输入信号为c,产生的非线性光电激活函数为f(c),具体表达式为:
其中,α是光电探测器的分接功率比,是光电探测器的响应度,G是跨阻放大器的增益,H是传输函数,Vb是静态偏置电压,Vπ是调制器相位变化π所需的电压。
3.根据权利要求1所述的基于混合变异策略遗传算法的深度光学神经网络训练方法,其特征在于,步骤S2中,数据预处理包括:
数据清洗,即查看数据集中是否有缺失值;
数据增强,即对数据集添加高斯噪声使神经网络的泛化能力更强;
数据划分,即将数据集分成训练集和测试集,以符合DONN的数据输入尺寸。
4.根据权利要求1-3任一项所述的基于混合变异策略遗传算法的深度光学神经网络的有效训练方法,其特征在于,步骤S3中,将真实值与预测值之间的均方误差MSE和分类准确率Accuracy相结合作为个体的适应度评价函数,具体表达式为:
其中,表示真实值和预测值之间的均方误差,n表示测试集的样本数量,Yi和/>分别代表第i个样本的真实值和预测值,Accuracy代表DONN的分类准确率,q代表加权平均因子,取0.5。
5.根据权利要求4所述的基于混合变异策略遗传算法的深度光学神经网络的有效训练方法,其特征在于,步骤S4中,混合变异策略是指三种不同的变异算子具有动态博弈概率分布其中,r指的是第r次迭代,i指的是本次迭代中第i个网络个体;
如果网络个体通过变异算子Q产生后代,并且后代被选择进入到下一次迭代进化,则各算子的概率分布按下式迭代更新:
如果网络个体通过变异算子Q产生后代,并且后代未被选择进入到下一次迭代进化,则各算子的概率分布按下式迭代更新:
其中,Q代表当前变异算子,Q’代表其他变异算子,η∈(0,1)是控制混合变异策略概率分布的一个系数,等于1/3,且概率分布满足 β代表变异算子的数量。
6.根据权利要求5所述的基于混合变异策略遗传算法的深度光学神经网络训练方法,其特征在于,步骤S5中,双精英保留策略具体是:当下一代中的最优个体比上一代中的最优个体差时,会从上一代中选择一部分表现较好的个体,用来替换下一代中表现较差的个体。
7.根据权利要求6所述的基于混合变异策略遗传算法的深度光学神经网络训练方法,其特征在于,步骤S5中,终止条件是网络迭代2000次,最终得到具有全局最优网络参数的DONN个体。
8.根据权利要求1-3任一项所述的基于混合变异策略遗传算法的深度光学神经网络训练方法,其特征在于,所述的混合变异策略遗传算法具体如下:均匀初始化DONN种群,种群包含50个个体,将测试集输入到每个DONN中,进行适应度评估;根据得到的适应度值进行指数排序选择,得到选择后的种群;提取种群中每个个体的权重和超参数进行二进制编码;采用均匀交叉算子,交叉概率为0.8;采用混合变异策略,变异概率为0.1;得到新一代网络参数,将其解码后采用双精英保留策略复制生成下一代种群,不断迭代,直到满足终止条件,得到具有全局最优网络参数的DONN个体。
9.一种基于权利要求1-8任一项所述深度光学神经网络训练方法的系统,其特征在于,包括如下模块:
深度光学神经网络搭建模块:将基于级联马赫曾德尔干涉仪MZIs的线性运算层、基于电光激活器EOA的非线性激活层、基于掩码mask的输出层Dropmask顺序堆叠,从而搭建N层深度光学神经网络DONN;
预处理模块:对具有不同特征种类的数据集进行预处理,以符合DONN的数据输入尺寸;
DONN种群初始化模块:均匀初始化DONN种群,将真实值与预测值之间的均方误差MSE和分类准确率Accuracy相结合作为个体的适应度评价函数;
混合变异策略模块:将指数排序选择ERS和均匀交叉UC作为训练过程的选择算子和交叉算子,采用混合变异策略,将单点变异SM、均匀变异UM、高斯变异GM三种算子按动态博弈概率分配不同个体进行变异;
双精英保留策略模块:采用双精英保留策略,将MSE和Accuracy表现最优的两个个体保留到下一代,经过迭代进化,直到满足终止条件,得到具有全局最优网络参数的DONN个体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310591505.9A CN116596056A (zh) | 2023-05-24 | 2023-05-24 | 基于混合变异策略遗传算法的深度光学神经网络训练方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310591505.9A CN116596056A (zh) | 2023-05-24 | 2023-05-24 | 基于混合变异策略遗传算法的深度光学神经网络训练方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116596056A true CN116596056A (zh) | 2023-08-15 |
Family
ID=87600471
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310591505.9A Pending CN116596056A (zh) | 2023-05-24 | 2023-05-24 | 基于混合变异策略遗传算法的深度光学神经网络训练方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116596056A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117313815A (zh) * | 2023-09-19 | 2023-12-29 | 重庆邮电大学 | 一种优化MZI的ONNs相位配置的渐进式训练方法 |
CN118244555A (zh) * | 2024-05-27 | 2024-06-25 | 武汉大学 | 全光非线性激活器、其实现方法、网络结构及计算芯片 |
-
2023
- 2023-05-24 CN CN202310591505.9A patent/CN116596056A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117313815A (zh) * | 2023-09-19 | 2023-12-29 | 重庆邮电大学 | 一种优化MZI的ONNs相位配置的渐进式训练方法 |
CN118244555A (zh) * | 2024-05-27 | 2024-06-25 | 武汉大学 | 全光非线性激活器、其实现方法、网络结构及计算芯片 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
De Marinis et al. | Photonic neural networks: A survey | |
CN116596056A (zh) | 基于混合变异策略遗传算法的深度光学神经网络训练方法及系统 | |
Nevin et al. | Machine learning for optical fiber communication systems: An introduction and overview | |
CN111898316A (zh) | 一种超表面结构设计模型的构建方法及其应用 | |
Leroux et al. | Training binary neural networks with knowledge transfer | |
Yang et al. | An improved genetic algorithm and its application in neural network adversarial attack | |
CN113705774B (zh) | 光学电路搭建方法、光学电路、光信号处理方法及装置 | |
CN115577283A (zh) | 一种实体分类方法、装置、电子设备及存储介质 | |
Sarantoglou et al. | Bayesian photonic accelerators for energy efficient and noise robust neural processing | |
Gautam et al. | OptiDistillNet: Learning nonlinear pulse propagation using the student-teacher model | |
Tanghatari et al. | Federated learning by employing knowledge distillation on edge devices with limited hardware resources | |
JP2023550921A (ja) | ニューラル・ネットワークにおける重みに基づく調節 | |
CN113849313A (zh) | 一种节能的云-边弹性光网络中计算任务链部署方法 | |
Rakka et al. | A Review of State-of-the-Art Mixed-Precision Neural Network Frameworks | |
CN113656480B (zh) | 一种异构数据源的数据集成方法和系统 | |
Guo et al. | Multi-objective combinatorial generative adversarial optimization and its application in crowdsensing | |
Chai et al. | Correlation analysis-based neural network self-organizing genetic evolutionary algorithm | |
Remya | An adaptive neuro-fuzzy inference system to monitor and manage the soil quality to improve sustainable farming in agriculture | |
CN113592084B (zh) | 基于反向优化超结构卷积核的片上光子神经网络 | |
CN116091776A (zh) | 一种基于领域增量学习的语义分割方法 | |
CN116842988A (zh) | 基于萤火虫算法的深度光学神经网络训练方法及系统 | |
Pei et al. | Joint device architecture algorithm codesign of the photonic neural processing unit | |
CN116663516B (zh) | 表格机器学习模型训练方法、装置、电子设备及存储介质 | |
Yang et al. | Virtual network function placement based on differentiated weight graph convolutional neural network and maximal weight matching | |
Shao et al. | Robust training of optical neural network with practical errors using genetic algorithm: A case study in silicon-on-insulator-based photonic integrated chips |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |