CN116911349A - 光学纳米天线结构预测网络训练方法、预测方法及装置 - Google Patents

光学纳米天线结构预测网络训练方法、预测方法及装置 Download PDF

Info

Publication number
CN116911349A
CN116911349A CN202311175592.6A CN202311175592A CN116911349A CN 116911349 A CN116911349 A CN 116911349A CN 202311175592 A CN202311175592 A CN 202311175592A CN 116911349 A CN116911349 A CN 116911349A
Authority
CN
China
Prior art keywords
neural network
reverse
training
prediction
reverse neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311175592.6A
Other languages
English (en)
Other versions
CN116911349B (zh
Inventor
郭健平
袁小艮
魏正军
张国东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University
Original Assignee
South China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University filed Critical South China Normal University
Priority to CN202311175592.6A priority Critical patent/CN116911349B/zh
Publication of CN116911349A publication Critical patent/CN116911349A/zh
Application granted granted Critical
Publication of CN116911349B publication Critical patent/CN116911349B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Optical Communication System (AREA)

Abstract

本发明涉及一种光学纳米天线结构预测网络训练方法、预测方法及装置。其中,光学纳米天线结构预测方法包括以下步骤:将期望光学响应分别输入m个训练好的逆向神经网络进行结构参数的预测,得到m组不同的目标结构参数组;对所有目标结构参数组进行聚类处理,得到多个不同分类的目标结构参数组集合;针对每一所述目标结构参数组集合,对其中的所述目标结构参数组进行平均处理,得到最终的目标结构参数组。本发明的一种光学纳米天线结构预测方法能够根据一种期望光学响应得到多种结构参数组,以满足结构参数设计多样性的需求。

Description

光学纳米天线结构预测网络训练方法、预测方法及装置
技术领域
本发明涉及光学天线技术领域,尤其是涉及一种光学纳米天线结构预测网络训练方法、预测方法及装置。
背景技术
光学纳米天线是一种可以将光场和电子场进行相互转换的器件,其工作原理基于电磁场与电子的相互作用。其中,一种领结状的基于介质纳米结构的光学天线(BowtieOptical NanoAntenna,BONA),其工作原理基于电磁场的局域化效应,通常由一个纳米立方体和一个领结结构组成。当入射光与纳米立方体相交时,电磁场在其表面上被局限,形成表面等离子体极化激发(Surface Plasmon Polariton,SPP)。这种激发可以沿着领结的表面传播,并在另一端被反射回来。通过控制领结的几何形状和尺寸,可以调节SPP的共振频率和强度。当SPP共振频率与外部光场的频率匹配时,SPP的局域化效应将被最大化,从而实现高效的光场增强效果。关于光学纳米天线的设计并不局限于领结状纳米光学天线,在过去的十年中,已经报道了几种介电纳米天线结构,包括微球、纳米球、Yagi-Uda纳米天线、核-壳纳米天线、二聚体、蝴蝶结纳米天线、纳米圆盘和纳米棒。
在纳米光子学器件的设计中,常常需要考虑器件结构参数组与光学响应之间的复杂映射关系。在一些如BONA的纳米光子学器件的设计中,由于其特殊的结构和光学特性,对于同一种期望的光学响应,可以有多种完全不同的结构参数组的设计。传统的试错式设计方法通过多次调试结构参数以达到期望的光学响应,这种方法往往效率低下且无法探索所有可能的结构参数组合。近年来应用机器学习技术辅助设计的研究逐渐流行,可以通过神经网络根据期望的光学响应来预测所需要的结构参数组。利用机器学习神经网络的方法可以显著加快光学纳米天线的设计过程。相比于传统的试错方法,我们可以通过高效的模型训练和验证来快速探索设计空间,从而减少实验成本和时间。这将帮助科研人员更快地获得具有优秀性能的纳米天线,推动纳米光学领域的发展。
传统的纳米天线设计方法受限于人工经验和直觉,往往无法充分探索和利用多样的设计空间。而机器学习神经网络的方法可以帮助我们以更全面、全局的视角来设计光学纳米天线。通过对大规模数据集的学习,机器学习模型可以发现设计空间中的隐藏规律和关联性,从而探索出更多有潜力的优秀设计方案。
通过对大规模数据集的训练和模型解释,我们可以深入理解纳米光学现象和光学纳米天线的工作原理。机器学习模型可以帮助我们发现设计参数和性能之间的关联,并提供对天线性能的解释和解读。这将有助于揭示纳米尺度下的光学效应和调控机制,为进一步的科学研究提供新的视角和理论指导。
然而,传统神经网络模型仅能够处理一对一映射关系,也就是说,对于一种期望光学响应,仅能得到一种结构参数组合,无法满足结构参数设计多样性的需求。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种光学纳米天线结构预测网络训练方法、预测方法及装置,能够根据一种期望光学响应得到多种结构参数组合,以满足结构参数设计多样性的需求。
本发明是通过以下技术方案实现的:
一种光学纳米天线结构预测网络训练方法,所述光学纳米天线结构预测网络包括m个逆向神经网络,用于对一期望光学响应分别进行结构参数的预测,得到m个不同的目标结构参数组,所述训练方法包括步骤:
获取m个待训练的逆向神经网络和m个对应的随机训练集,所述随机训练集包括训练光学响应和训练结构参数组;
针对每一所述随机训练集,将其中的所述训练光学响应输入对应逆向神经网络进行结构参数的预测,输出对应的预测结构参数组;
根据所述预测结构参数组和对应的所述训练结构参数组计算逆向损失;
根据所述逆向损失对对应的所述逆向神经网络进行网络参数更新,使所述逆向神经网络达到收敛;
针对每一所述逆向神经网络,检测当前是否达到理想收敛状态,确定达到理想收敛状态的所述逆向神经网络为训练好的逆向神经网络;
对于未达到理想收敛状态的所述逆向神经网络,将所述预测结构参数组输入训练好的前向神经网络进行光学响应的预测,输出对应的预测光学响应;
根据所述预测光学响应和对应的所述训练光学响应计算前向损失;
根据所述前向损失对对应的所述逆向神经网络进行网络参数更新,使所述逆向神经网络达到收敛,确定当前逆向神经网络为训练好的逆向神经网络。
相对于现有技术,本发明的光学纳米天线结构预测网络训练方法通过多个逆向神经网络分别根据独立的随机训练集学习结构参数组与光学响应之间的一对一的映射关系,通过多个逆向神经网络共同预测,对相同的期望光学响应能够得到多个目标结构参数组,实现了一对多的映射。
基于同一发明构思,本发明还提供一种光学纳米天线结构预测方法,包括步骤:
将期望光学响应分别输入m个训练好的逆向神经网络进行结构参数的预测,得到m组不同的目标结构参数组;
对所有目标结构参数组进行聚类处理,得到多个不同分类的目标结构参数组集合;
针对每一所述目标结构参数组集合,对其中的所述目标结构参数组进行平均处理,得到最终的目标结构参数组;
其中,所述逆向神经网络通过如下步骤进行训练:
获取m个待训练的逆向神经网络和m个对应的随机训练集,所述随机训练集包括训练光学响应和训练结构参数组;
针对每一所述随机训练集,将其中的所述训练光学响应输入对应逆向神经网络进行结构参数的预测,输出对应的预测结构参数组;
根据所述预测结构参数组和对应的所述训练结构参数组计算逆向损失;
根据所述逆向损失对对应的所述逆向神经网络进行网络参数更新,使所述逆向神经网络达到收敛;
针对每一所述逆向神经网络,检测当前是否达到理想收敛状态,确定达到理想收敛状态的所述逆向神经网络为训练好的逆向神经网络;
对于未达到理想收敛状态的所述逆向神经网络,将所述预测结构参数组输入训练好的前向神经网络进行光学响应的预测,输出对应的预测光学响应;
根据所述预测光学响应和对应的所述训练光学响应计算前向损失;
根据所述前向损失对对应的所述逆向神经网络进行网络参数更新,使所述逆向神经网络达到收敛,确定当前逆向神经网络为训练好的逆向神经网络。
进一步地,对于未达到理想收敛状态的所述逆向神经网络,将所述预测结构参数组输入训练好的前向神经网络进行光学响应的预测,输出对应的预测光学响应,还包括步骤:
对于未达到理想收敛状态的逆向神经网络,获取对应数量个新的随机训练集,通过所述新的随机训练集对未达到理想收敛状态的所述逆向神经网络再次进行训练;
对于仍未达到理想收敛状态的所述逆向神经网络,将所述预测结构参数组输入训练好的前向神经网络进行光学响应的预测,输出对应的预测光学响应。
进一步地,针对每一所述逆向神经网络,检测当前是否达到理想收敛状态,包括步骤:
确定所有所述逆向神经网络对应的所有所述逆向损失中的最小值为最低逆向损失;
针对每一所述逆向神经网络,若该逆向神经网络当前的逆向损失与所述最低逆向损失的差值小于损失差阈值,则该逆向神经网络达到理想收敛状态,否则该逆向神经网络未达到理想收敛状态;
和/或包括步骤:
获取包括测试光学响应和测试结构参数组的测试集,并将所述测试光学响应分别输入每一所述逆向神经网络进行结构参数的预测,输出对应的预测结构参数组;
根据所述预测结构参数组和对应的所述测试结构参数组计算测试误差;
若所述测试误差与对应逆向神经网络当前的逆向损失的差值小于误差阈值,则该逆向神经网络达到理想收敛状态,否则该逆向神经网络未达到理想收敛状态。
进一步地,获取m个对应的随机训练集,包括步骤:
随机生成结构参数组,并求解得到相应的光学响应,得到总数据集;
抽取所述总数据集中设定比例的数据作为总训练集,其余作为所述测试集;
从所述总训练集进行m次自主随机采样,每次随机采样抽取所述总训练集sp%的数据作为随机训练集;其中,sp%指设定的所述随机训练集的数量占所述总训练集的数量的比例。
进一步地,若所述总训练集中具有相同光学响应的结构参数组的数量大于设定阈值,则减小sp值并提高逆向神经网络个数m;若总训练集中具有相同光学响应的结构参数组的数量小于设定阈值,则增大sp值并减少逆向神经网络个数m。
进一步地,所述逆向神经网络为全连接神经网络,依序包括若干线性层、批量归一化层、激活函数层、dropout层和sigmod层;
和/或所述前向神经网络为全连接神经网络,依序包括若干线性层、批量归一化层、激活函数层和dropout层。
基于同一发明构思,本发明还提供一种光学纳米天线结构预测装置,包括:
初步预测模块,用于将期望光学响应分别输入m个训练好的逆向神经网络进行结构参数的预测,得到m个不同的目标结构参数组;
聚类模块,用于对所有目标结构参数组进行聚类处理,得到多个不同分类的目标结构参数组集合;
平均模块,用于针对每一目标结构参数组集合,对其中的目标结构参数组进行平均处理,得到最终的目标结构参数组;
其中,所述逆向神经网络通过一训练装置进行训练,所述训练装置包括:
数据集获取模块,用于获取m个待训练的逆向神经网络和m个对应的随机训练集,所述随机训练集包括训练光学响应和训练结构参数组;
逆向预测模块,用于针对每一所述随机训练集,将其中的所述训练光学响应输入对应逆向神经网络进行结构参数的预测,输出对应的预测结构参数组;
逆向损失计算模块,用于根据所述预测结构参数组和对应的所述训练结构参数组计算逆向损失;
逆向网络更新模块,用于根据所述逆向损失对对应的所述逆向神经网络进行网络参数更新,使所述逆向神经网络达到收敛;
收敛检测模块,用于针对每一所述逆向神经网络,检测当前是否达到理想收敛状态,确定达到理想收敛状态的所述逆向神经网络为训练好的逆向神经网络;
前向预测模块,用于对于未达到理想收敛状态的所述逆向神经网络,将所述预测结构参数组输入训练好的前向神经网络进行光学响应的预测,输出对应的预测光学响应;
前向损失计算模块,用于根据所述预测光学响应和对应的所述训练光学响应计算前向损失;
前向网络更新模块,用于根据所述前向损失对对应的所述逆向神经网络进行网络参数更新,使所述逆向神经网络达到收敛,确定当前逆向神经网络为训练好的逆向神经网络。
进一步地,还包括重训练模块;所述重训练模块用于对于未达到理想收敛状态的逆向神经网络,获取对应数量个新的随机训练集,通过所述新的随机训练集对未达到理想收敛状态的所述逆向神经网络再次进行训练;对于仍未达到理想收敛状态的所述逆向神经网络,将所述预测结构参数组输入训练好的前向神经网络进行光学响应的预测,输出对应的预测光学响应。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为实施例的一种光学纳米天线结构预测方法的流程示意图;
图2为实施例的光学纳米天线结构预测装置的结构示意图;
图3为一种领结状光学纳米天线的结构示意图;
图4为实施例的一种光学纳米天线结构预测网络训练方法的流程示意图;
图5为实施例的光学纳米天线结构预测网络的训练装置的结构示意图;
图6为实施例中收敛检测模块25的结构示意图;
图7为十个逆向神经网络在训练过程中的逆向损失曲线图;
图8为训练好的十个逆向神经网络输出的目标结构参数组及聚类结果示意图;
图9为将图8所示的目标结构参数组进行仿真所得到的光学响应示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
本发明针对领结状的光学纳米天线结构的设计多样性的需求,通过构建神经网络群来实现根据一个期望输入映射得到多个不同的输出,以预测得到多种不同的结构参数的设计组合。此外,在训练神经网络群时,由于用于训练的数据集中存在相同光学响应对应多种光学纳米天线的结构参数组的一对多特点,导致神经网络难以收敛到理想状态,预测能力差。由此本申请进一步提供一种领结状的光学纳米天线结构预测网络训练方法,以提高预测网络的预测能力。具体通过以下实施例进行详细说明。
请同时参阅图1和图2,其中图1为本实施例的一种领结状的光学纳米天线结构预测方法的流程示意图,图2为本实施例的用于执行光学纳米天线结构预测方法的光学纳米天线结构预测装置的结构示意图。该光学纳米天线结构预测装置包括初步预测模块11、聚类模块12和平均模块13,其中,初步预测模块11用于执行步骤A1:将期望光学响应输入训练好的纳米天线结构预测网络进行结构参数的预测,得到m个目标结构参数组。
其中,期望光学响应为期望得到的光学纳米天线结构在接受光照时能够发出的信号函数。
纳米天线结构预测网络中包括m个逆向神经网络,逆向神经网络用于构建光学响应与光学纳米天线的结构参数组之间的映射关系,逆向神经网络的输入为光学响应,输出为结构参数组。
结构参数组中包括至少一个结构参数,结构参数为光学纳米天线的结构特征的属性值。请参阅图3,其为一种领结状光学纳米天线的结构示意图,该领结状光学纳米天线包括玻璃衬底与搭载在衬底上的两个对称金三棱柱。对于领结状光学纳米天线,其结构参数组包括多个结构参数,分别为两组对称分布的三棱柱底面三角形的高H、底W和两个三角形顶点之间的距离G。光学响应即对应结构参数组下的光学纳米天线在接受平面光时所产生信号函数。
根据不同数据集的复杂程度,逆向神经网络可以是全连接神经网络、卷积神经网络、残差神经网络等神经网络。为了较高的简并性与高效性,本实施例优选全连接神经网络为逆向神经网络,网络结构依序包括若干线性层、批量归一化层(BatchNorm1d)、激活函数层和dropout层。
优选的,为了能够与线性归一化后的结构参数组互相对应,提高网络的预测准确度,每个逆向神经网络的dropout层后还包括sigmod层,以保证逆向神经网络能够输出0-1内的预测结构参数组。
在具体实施中,可利用pytorch神经网络框架对逆向神经网络进行搭建。
逆向神经网络直接输出的目标结构参数组可以作为光学纳米天线结构的预测结果,而为了得到更具简并性和精确性的预测结果,则进一步通过聚类模块12和平均模块13对逆向神经网络直接输出的目标结构参数组进行处理。
聚类模块12用于执行步骤A2:对所有目标结构参数组进行聚类处理,得到多个不同分类的目标结构参数组集合。
其中,对所有目标结构参数组进行聚类处理,即按各个目标结构参数组之间的相似度进行分类。在一具体实施中,可以通过K-Means聚类方法对所有目标结构参数组进行聚类处理,具体包括如下步骤:
A21:随机初始化K个聚类中心;
其中K是聚类的簇数,即分类结果的类别数,通常需要对目标结构参数组通过人为观察来确定类别数。
A22:计算每个目标结构参数组到每一聚类中心的距离,并将其划分到距离最近的聚类中心所在的簇;
其中,因为每个目标结构参数组向量内具有多个结构参数元素,聚类时需要考虑到目标结构参数组内的所有元素,而不是仅仅只考虑一个元素或向量的平均值,所以在计算每个目标结构参数组到K个聚类中心的距离的时候,可以采用欧氏距离或曼哈顿距离,采用欧式距离计算两个目标结构参数组的相似度的表达式为:,其中,a,b分别为两个目标结构参数组的向量表示,/>,/>
A23:对于每个簇,计算其中所有目标结构参数组的平均值,通过该平均值更新该簇的聚类中心;
A24:重复步骤A22和A23,直到每个簇内的目标结构参数组之间的平均距离的变化低于一阈值,或者达到了最大迭代次数,则每个簇内的目标结构参数组为一个分类的目标结构参数组集合。
平均模块13用于执行步骤A3:针对每一目标结构参数类别组集合,对其中的目标结构参数组进行平均处理,得到最终的目标结构参数组。
进一步,本发明还提供一种对上述预测方法实施例中的纳米天线结构预测网络的训练方法及装置。请同时参阅图4和图5,其中图4为本实施例的一种光学纳米天线结构预测网络训练方法的流程示意图;图5为本实施例的用于执行光学纳米天线结构预测网络训练方法的光学纳米天线结构预测网络的训练装置的结构示意图。该光学纳米天线结构预测网络的训练装置包括数据集获取模块21、逆向预测模块22、逆向损失计算模块23、逆向网络更新模块24、收敛检测模块25、前向预测模块26、前向损失计算模块27和前向网络更新模块28。
数据集获取模块21用于执行步骤B1:获取m个待训练的逆向神经网络和m个对应的随机训练集。
其中,随机训练集的数量与逆向神经网络的数量相同,并与逆向神经网络一一对应,对各个逆向神经网络通过独立的随机训练集进行训练。每一随机训练集中包括光学纳米天线的结构参数组和相应的光学响应,其中,光学纳米天线的结构参数组可根据需求在一定范围内随机生成。以图3所示的领结状光学纳米天线为例,设置底W的取值范围为100nm-300nm,高H的取值范围为50nm-300nm,顶点距离的取值范围为G0-60nm;按照高H和底W每10nm取一个值,顶点距离G每5nm取一个值,遍历所有可能的参数组合,生成26*21*12=6552组随机数据。
根据随机生成的结构参数组,通过时域有限元差分法求解得到相应的光学响应,具体可利用结构参数组下的BONA对输入波长为500-1000(nm)的平面光产生相应的光学响应。以下以图3所示的领结状光学纳米天线为例,对获取结构参数组对应的光学响应进行说明:将仿真光源设置为平面波,由领结状光学纳米天线的底部垂直入射至领结结构,光源频率设置在500nm-1000nm之间,仿真区间边界条件分别为x方向为Anti-Symmetric,y方向为Symmetric,z方向为PML。在光源经过结构单元后设出的一段距离内设置透射率监视器以此获得500nm-1000nm之间的透射率分布,并映射为201个点输出,其他区域保留为空气。
为了提高训练集的获取速度,可以首先随机生成一总数据集,抽取总数据集/>中设定比例(如80%)的数据作为总训练集/>,其余数据作为测试集/>,再从总训练集/>进行m次自主随机采样,每次随机抽取总训练集/>的sp%作为随机训练集/>。为便于区分,下文通过“训练结构参数组”和“训练光学响应”来特指随机训练集中的结构参数组和光学响应,通过“测试结构参数组”和“测试光学响应”来特指测试集中的结构参数组和光学响应。
可选的,采用数据加载器(DataLoader)进行自主随机采样。
sp可以作为网络训练过程中的超参数,根据不同的应用场景以及数据而选择合适的sp值。在一个实施例中,根据总训练集中具有相同光学响应的结构参数组的数量,若总训练集/>中具有相同光学响应的结构参数组的数量大于设定阈值,则需要采用较小的sp值并提高逆向神经网络个数m,以增强网络的收敛可能;同理若总训练集/>中具有相同光学响应的结构参数组的数量小于设定阈值,则可以适当增大sp值并减少逆向神经网络个数m以增强网络的预测和泛化能力。在一具体实施中,将sp设置为30,m设置为10。
进一步,为了增大样本独立性与样本间间距,使得网络能够更好的学习到其中的信息,在一优选实施例中,对随机训练集中的结构参数组进行线性归一化操作。针对结构参数组的线性归一化表达式为:
其中,为总数据集/>中的结构参数组部分。
逆向预测模块22用于执行步骤B2:针对每一随机训练集,将其中的训练光学响应输入对应逆向神经网络进行结构参数的预测,输出对应的预测结构参数组。
其中,为便于区分,将逆向神经网络根据训练光学响应输出的结构参数组称为“预测结构参数组”。
逆向损失计算模块23用于执行步骤B3:根据预测结构参数组和对应的训练结构参数组计算逆向损失。
其中,预测结构参数组对应的训练结构参数组,即该预测结构参数组对应的训练光学响应在随机训练集中所对应的结构参数组。
逆向损失与预测结构参数组和对应的训练结构参数组间的误差相关,在本实施例中,采用预测结构参数组和对应的训练结构参数组间的均方误差(MSE)作为逆向损失。
逆向网络更新模块24用于执行步骤B4:根据逆向损失对对应的逆向神经网络进行网络参数更新,使逆向神经网络达到收敛。
其中,可通过反向传播算法根据逆向损失对对应的逆向神经网络进行网络参数更新。当逆向损失不再下降时,即逆向神经网络达到收敛。优选的,当逆向损失不再下降时,则降低学习率,当再次训练多轮后逆向损失仍没有下降,则逆向神经网络达到收敛。具体可是再训练100轮后逆向损失没有下降,则将学习率降低10%。
收敛检测模块25用于执行步骤B5:针对每一逆向神经网络,检测当前是否达到理想收敛状态,确定达到理想收敛状态的逆向神经网络为训练好的逆向神经网络。
其中,神经网络的理想收敛状态是指,神经网络在达到收敛时,其预测性能达到预先设定的要求,对于神经网络的预测性能可以通过损失值、预测准确率等进行评估。
请参阅图6,其为一实施例中收敛检测模块25的结构示意图,收敛检测模块25包括最低损失确定子模块251和第一判断子模块252,其中,最低损失确定子模块251用于执行步骤B51:确定所有逆向神经网络对应的所有逆向损失中的最小值为最低逆向损失;
第一判断子模块252用于执行步骤B52:针对每一逆向神经网络,若该逆向神经网络当前的逆向损失与最低逆向损失的差值小于预先设定的损失差阈值,则该逆向神经网络达到理想收敛状态,否则该逆向神经网络未达到理想收敛状态。
进一步,收敛检测模块25还包括测试子模块253、测试误差计算子模块254和第二判断子模块255,其中,测试子模块253用于执行步骤B53:获取测试集,并将其中的测试光学响应分别输入每一逆向神经网络进行结构参数的预测,输出对应的预测结构参数组。
测试误差计算子模块254用于执行步骤B54:根据预测结构参数组和对应的测试结构参数组计算测试误差。其中,测试误差可采用为预测结构参数组和对应的测试结构参数组的均方误差。
第二判断子模块255用于执行步骤B55:若测试误差与对应逆向神经网络当前的逆向损失的差值小于预先设定的误差阈值,则该逆向神经网络达到理想收敛状态,否则该逆向神经网络未达到理想收敛状态。
前向预测模块26用于执行步骤B6:对于未达到理想收敛状态的逆向神经网络,将预测结构参数组输入训练好的前向神经网络进行光学响应的预测,输出对应的预测光学响应。
其中,前向神经网络用于构建光学响应与光学纳米天线的结构参数组之间的映射关系,前向神经网络的输入为结构参数组,输出为光学响应。前向神经网络可以是由多组线性层、批量归一化层、激活函数层、dropout层依序组成的深度全连接神经网络,具有较好的预测准确性以及泛化能力。在具体实施中,通过pytorch深度学习框架搭建前向神经网络。在对前向神经网络进行训练时,采用各随机训练集所抽取的总训练集进行训练。
前向损失计算模块27用于执行步骤B7:根据预测光学响应和对应的训练光学响应计算前向损失。
其中,前向损失与预测光学响应和对应的训练光学响应间的误差相关,在本实施例中,采用预测光学响应和对应的训练光学响应间的均方误差(MSE)作为前向损失。
前向网络更新模块28用于执行步骤B8:根据前向损失对对应的逆向神经网络进行网络参数更新,使逆向神经网络达到收敛,确定当前逆向神经网络为训练好的逆向神经网络。
其中,可通过反向传播算法根据前向损失对对应的逆向神经网络进行网络参数更新。当前向损失不再下降时,即逆向神经网络达到收敛。
在一优选实施例中,本发明的光学纳米天线结构预测网络的训练装置还包括重训练模块29,该重训练模块29用于执行步骤B9:对于未达到理想收敛状态的逆向神经网络,获取对应数量个新的随机训练集,再次执行上述步骤B2-B5,通过新的随机训练集对未达到理想收敛状态的逆向神经网络再次进行训练,对于仍未达到理想收敛状态的逆向神经网络,执行上述步骤B6-B8。
请参阅图7、图8和图9,其中图7为十个逆向神经网络在训练过程中的逆向损失曲线图;图8为通过上述实施例的训练方法训练好的十个逆向神经网络输出的目标结构参数组及聚类结果示意图;图9为将图8所示的目标结构参数组进行仿真所得到的光学响应示意图。可见,通过上述实施例的训练方法对逆向神经网络进行训练,其逆向损失能够正常下降,说明逆向神经网络克服了一对多映射关系的问题,能够正常收敛。同时,十个逆向神经网络能够得到十个不同的目标结构参数组,且聚类后的每个目标结构参数组的光学响应与期望光学响应的相似度高。
由此,相对于现有技术,本发明的光学纳米天线结构预测网络训练方法通过多个逆向神经网络分别根据独立的随机训练集学习结构参数组与光学响应之间的一对一的映射关系,通过多个逆向神经网络共同预测,对相同的期望光学响应能够得到多个目标结构参数组,实现了一对多的映射。同时,通过串联前向神经网络来帮助逆向神经网络进行收敛,保证了每个逆向神经网络的可收敛性,能够提高预测网络的预测能力和泛化能力。
基于同一发明构思,本申请还提供一种电子设备,可以是服务器、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)等终端设备。该设备包括一个或多个处理器和存储器,其中处理器用于执行程序实现方法实施例的光学纳米天线结构预测网络训练方法和/或光学纳米天线结构预测方法;存储器用于存储可由所述处理器执行的计算机程序。
基于同一发明构思,本申请还提供一种计算机可读存储介质,与前述光学纳米天线结构预测网络训练方法和/或光学纳米天线结构预测方法的实施例相对应,所述计算机可读存储介质其上存储有计算机程序,该程序被处理器执行时实现上述任一实施例所记载的光学纳米天线结构预测网络训练方法和/或结构预测方法的步骤。
本申请可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可用存储介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,则本发明也意图包含这些改动和变形。

Claims (10)

1.一种光学纳米天线结构预测网络训练方法,其特征在于,所述光学纳米天线结构预测网络包括m个逆向神经网络,用于对一期望光学响应分别进行结构参数的预测,得到m个不同的目标结构参数组,所述训练方法包括步骤:
获取m个待训练的逆向神经网络和m个对应的随机训练集,所述随机训练集包括训练光学响应和训练结构参数组;
针对每一所述随机训练集,将其中的所述训练光学响应输入对应逆向神经网络进行结构参数的预测,输出对应的预测结构参数组;
根据所述预测结构参数组和对应的所述训练结构参数组计算逆向损失;
根据所述逆向损失对对应的所述逆向神经网络进行网络参数更新,使所述逆向神经网络达到收敛;
针对每一所述逆向神经网络,检测当前是否达到理想收敛状态,确定达到理想收敛状态的所述逆向神经网络为训练好的逆向神经网络;
对于未达到理想收敛状态的所述逆向神经网络,将所述预测结构参数组输入训练好的前向神经网络进行光学响应的预测,输出对应的预测光学响应;
根据所述预测光学响应和对应的所述训练光学响应计算前向损失;
根据所述前向损失对对应的所述逆向神经网络进行网络参数更新,使所述逆向神经网络达到收敛,确定当前逆向神经网络为训练好的逆向神经网络。
2.一种光学纳米天线结构预测方法,其特征在于,包括步骤:
将期望光学响应分别输入m个训练好的逆向神经网络进行结构参数的预测,得到m组不同的目标结构参数组;
对所有目标结构参数组进行聚类处理,得到多个不同分类的目标结构参数组集合;
针对每一所述目标结构参数组集合,对其中的所述目标结构参数组进行平均处理,得到最终的目标结构参数组;
其中,所述逆向神经网络通过如下步骤进行训练:
获取m个待训练的逆向神经网络和m个对应的随机训练集,所述随机训练集包括训练光学响应和训练结构参数组;
针对每一所述随机训练集,将其中的所述训练光学响应输入对应逆向神经网络进行结构参数的预测,输出对应的预测结构参数组;
根据所述预测结构参数组和对应的所述训练结构参数组计算逆向损失;
根据所述逆向损失对对应的所述逆向神经网络进行网络参数更新,使所述逆向神经网络达到收敛;
针对每一所述逆向神经网络,检测当前是否达到理想收敛状态,确定达到理想收敛状态的所述逆向神经网络为训练好的逆向神经网络;
对于未达到理想收敛状态的所述逆向神经网络,将所述预测结构参数组输入训练好的前向神经网络进行光学响应的预测,输出对应的预测光学响应;
根据所述预测光学响应和对应的所述训练光学响应计算前向损失;
根据所述前向损失对对应的所述逆向神经网络进行网络参数更新,使所述逆向神经网络达到收敛,确定当前逆向神经网络为训练好的逆向神经网络。
3.根据权利要求2所述的光学纳米天线结构预测方法,其特征在于,对于未达到理想收敛状态的所述逆向神经网络,将所述预测结构参数组输入训练好的前向神经网络进行光学响应的预测,输出对应的预测光学响应,还包括步骤:
对于未达到理想收敛状态的逆向神经网络,获取对应数量个新的随机训练集,通过所述新的随机训练集对未达到理想收敛状态的所述逆向神经网络再次进行训练;
对于仍未达到理想收敛状态的所述逆向神经网络,将所述预测结构参数组输入训练好的前向神经网络进行光学响应的预测,输出对应的预测光学响应。
4.根据权利要求2或3所述的光学纳米天线结构预测方法,其特征在于,针对每一所述逆向神经网络,检测当前是否达到理想收敛状态,包括步骤:
确定所有所述逆向神经网络对应的所有所述逆向损失中的最小值为最低逆向损失;
针对每一所述逆向神经网络,若该逆向神经网络当前的逆向损失与所述最低逆向损失的差值小于损失差阈值,则该逆向神经网络达到理想收敛状态,否则该逆向神经网络未达到理想收敛状态;
和/或包括步骤:
获取包括测试光学响应和测试结构参数组的测试集,并将所述测试光学响应分别输入每一所述逆向神经网络进行结构参数的预测,输出对应的预测结构参数组;
根据所述预测结构参数组和对应的所述测试结构参数组计算测试误差;
若所述测试误差与对应逆向神经网络当前的逆向损失的差值小于误差阈值,则该逆向神经网络达到理想收敛状态,否则该逆向神经网络未达到理想收敛状态。
5.根据权利要求4所述的光学纳米天线结构预测方法,其特征在于,获取m个对应的随机训练集,包括步骤:
随机生成结构参数组,并求解得到相应的光学响应,得到总数据集;
抽取所述总数据集中设定比例的数据作为总训练集,其余作为所述测试集;
从所述总训练集进行m次自主随机采样,每次随机采样抽取所述总训练集sp%的数据作为随机训练集;其中,sp%指设定的所述随机训练集的数量占所述总训练集的数量的比例。
6.根据权利要求5所述的光学纳米天线结构预测方法,其特征在于:若所述总训练集中具有相同光学响应的结构参数组的数量大于设定阈值,则减小sp值并提高逆向神经网络个数m;若总训练集中具有相同光学响应的结构参数组的数量小于设定阈值,则增大sp值并减少逆向神经网络个数m。
7.根据权利要求2所述的光学纳米天线结构预测方法,其特征在于:所述逆向神经网络为全连接神经网络,依序包括若干线性层、批量归一化层、激活函数层、dropout层和sigmod层;
和/或所述前向神经网络为全连接神经网络,依序包括若干线性层、批量归一化层、激活函数层和dropout层。
8.一种光学纳米天线结构预测装置,其特征在于,包括:
初步预测模块,用于将期望光学响应分别输入m个训练好的逆向神经网络进行结构参数的预测,得到m个不同的目标结构参数组;
聚类模块,用于对所有目标结构参数组进行聚类处理,得到多个不同分类的目标结构参数组集合;
平均模块,用于针对每一目标结构参数组集合,对其中的目标结构参数组进行平均处理,得到最终的目标结构参数组;
其中,所述逆向神经网络通过一训练装置进行训练,所述训练装置包括:
数据集获取模块,用于获取m个待训练的逆向神经网络和m个对应的随机训练集,所述随机训练集包括训练光学响应和训练结构参数组;
逆向预测模块,用于针对每一所述随机训练集,将其中的所述训练光学响应输入对应逆向神经网络进行结构参数的预测,输出对应的预测结构参数组;
逆向损失计算模块,用于根据所述预测结构参数组和对应的所述训练结构参数组计算逆向损失;
逆向网络更新模块,用于根据所述逆向损失对对应的所述逆向神经网络进行网络参数更新,使所述逆向神经网络达到收敛;
收敛检测模块,用于针对每一所述逆向神经网络,检测当前是否达到理想收敛状态,确定达到理想收敛状态的所述逆向神经网络为训练好的逆向神经网络;
前向预测模块,用于对于未达到理想收敛状态的所述逆向神经网络,将所述预测结构参数组输入训练好的前向神经网络进行光学响应的预测,输出对应的预测光学响应;
前向损失计算模块,用于根据所述预测光学响应和对应的所述训练光学响应计算前向损失;
前向网络更新模块,用于根据所述前向损失对对应的所述逆向神经网络进行网络参数更新,使所述逆向神经网络达到收敛,确定当前逆向神经网络为训练好的逆向神经网络。
9.根据权利要求8所述的光学纳米天线结构预测装置,其特征在于:还包括重训练模块;所述重训练模块用于对于未达到理想收敛状态的逆向神经网络,获取对应数量个新的随机训练集,通过所述新的随机训练集对未达到理想收敛状态的所述逆向神经网络再次进行训练;对于仍未达到理想收敛状态的所述逆向神经网络,将所述预测结构参数组输入训练好的前向神经网络进行光学响应的预测,输出对应的预测光学响应。
10.一种电子设备,包括:
处理器;
存储器,用于存储由所述处理器执行的计算机程序;
其中,所述处理器执行所述计算机程序时实现权利要求2-7所述的任一种光学纳米天线结构预测方法。
CN202311175592.6A 2023-09-13 2023-09-13 光学纳米天线结构预测网络训练方法、预测方法及装置 Active CN116911349B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311175592.6A CN116911349B (zh) 2023-09-13 2023-09-13 光学纳米天线结构预测网络训练方法、预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311175592.6A CN116911349B (zh) 2023-09-13 2023-09-13 光学纳米天线结构预测网络训练方法、预测方法及装置

Publications (2)

Publication Number Publication Date
CN116911349A true CN116911349A (zh) 2023-10-20
CN116911349B CN116911349B (zh) 2024-01-09

Family

ID=88356908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311175592.6A Active CN116911349B (zh) 2023-09-13 2023-09-13 光学纳米天线结构预测网络训练方法、预测方法及装置

Country Status (1)

Country Link
CN (1) CN116911349B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114274457A (zh) * 2021-12-20 2022-04-05 北京工业大学 基于Kriging-GA的注塑模具浇注系统结构参数决策方法
CN114329900A (zh) * 2021-11-30 2022-04-12 浪潮电子信息产业股份有限公司 一种基于神经网络的器件参数获取方法、系统及相关组件
CN115329655A (zh) * 2022-06-13 2022-11-11 桂林电子科技大学 基于先验知识神经网络的透镜天线多目标优化方法
CN116300075A (zh) * 2023-05-23 2023-06-23 华南师范大学 基于多头串联神经网络的层状纳米光子学器件设计方法
CN116306849A (zh) * 2023-03-20 2023-06-23 浙江大学 逆向神经网络模型的训练、光学处理器的确定方法及装置
CN116484522A (zh) * 2023-04-13 2023-07-25 大连理工大学 一种基于级联网络的天线罩电性能补偿加工量确定方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114329900A (zh) * 2021-11-30 2022-04-12 浪潮电子信息产业股份有限公司 一种基于神经网络的器件参数获取方法、系统及相关组件
CN114274457A (zh) * 2021-12-20 2022-04-05 北京工业大学 基于Kriging-GA的注塑模具浇注系统结构参数决策方法
CN115329655A (zh) * 2022-06-13 2022-11-11 桂林电子科技大学 基于先验知识神经网络的透镜天线多目标优化方法
CN116306849A (zh) * 2023-03-20 2023-06-23 浙江大学 逆向神经网络模型的训练、光学处理器的确定方法及装置
CN116484522A (zh) * 2023-04-13 2023-07-25 大连理工大学 一种基于级联网络的天线罩电性能补偿加工量确定方法
CN116300075A (zh) * 2023-05-23 2023-06-23 华南师范大学 基于多头串联神经网络的层状纳米光子学器件设计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭健平: "一种新型表面等离子体电光开关", 第十五届全国量子光学学术报告会, pages 86 *

Also Published As

Publication number Publication date
CN116911349B (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
Kiranyaz et al. Multidimensional particle swarm optimization for machine learning and pattern recognition
Gao et al. Less is more: Efficient 3-D object retrieval with query view selection
Zhang et al. Pointwise geometric and semantic learning network on 3D point clouds
Nie et al. DAN: Deep-attention network for 3D shape recognition
WO2020014490A1 (en) Systems and methods for generative models for design
CN115661550A (zh) 基于生成对抗网络的图数据类别不平衡分类方法及装置
Kakillioglu et al. 3D capsule networks for object classification with weight pruning
Song et al. Multiobjective optimization-based hyperspectral band selection for target detection
Peng et al. Virtual samples and sparse representation‐based classification algorithm for face recognition
Melzer et al. Exploring characteristics of neural network architecture computation for enabling SAR ATR
Ding et al. Research on fingerprint classification based on twin support vector machine
CN116911349B (zh) 光学纳米天线结构预测网络训练方法、预测方法及装置
Aparna et al. Comprehensive study and analysis of partitional data clustering techniques
CN116524282A (zh) 一种基于特征向量的离散相似度匹配分类方法
Jafar et al. Comparative Performance Evaluation of State-of-the-Art Hyperparameter Optimization Frameworks
Fan et al. Cumulative dual-branch network framework for long-tailed multi-class classification
Sun et al. DRL: Dynamic rebalance learning for adversarial robustness of UAV with long-tailed distribution
Prasad et al. Analysis on content based image retrieval using image enhancement and deep learning convolutional neural networks
Wang et al. A quantum search algorithm of two-dimensional convex hull
Zhang et al. Fuzzy cost-based feature selection using interval multi-objective particle swarm optimization algorithm
Qian et al. Hybrid neural network model for large-scale heterogeneous classification tasks in few-shot learning
Matveev et al. Geometric attention for prediction of differential properties in 3d point clouds
Qin et al. A distributed ensemble of relevance vector machines for large-scale data sets on Spark
Li et al. A Novel Paradigm for Neural Computation: X-Net with Learnable Neurons and Adaptable Structure
Kim et al. Revisiting architecture-aware knowledge distillation: Smaller models and faster search

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant