CN114676635B

CN114676635B - 一种基于强化学习的光学谐振腔反向设计和优化的方法

Info

Publication number: CN114676635B
Application number: CN202210334966.3A
Authority: CN
Inventors: 张昭宇; 李任杰
Original assignee: Chinese University of Hong Kong Shenzhen
Current assignee: Chinese University of Hong Kong Shenzhen
Priority date: 2022-03-31
Filing date: 2022-03-31
Publication date: 2022-11-11
Anticipated expiration: 2042-03-31
Also published as: CN114676635A

Abstract

本发明公开了一种基于强化学习的光学谐振腔反向设计和优化的方法。本发明运用强化学习算法，使得智能体神经网络可以自主地决策和采取行动来快速优化光学谐振腔某个或多个性能参数，从而得到目标结构参数的反向设计，并且无需预先采集大量的训练数据。本发明解决了现有技术中基于机器学习模型设计光学器件的两个关键问题：1.现有的机器学习方法需要提前采集大量的训练数据对机器学习模型进行训练，因此难以快速、高效地完成光学设计任务。2.现有的机器学习方法无法自主地对光学器件进行优化和反向设计，需要人为介入借助优化算法来优化和反向设计。

Description

一种基于强化学习的光学谐振腔反向设计和优化的方法

技术领域

本发明涉及光电子技术领域，尤其涉及的是一种基于强化学习的光学谐振腔反向设计和优化的方法。

背景技术

当光在增益介质中被放大时，就会出现光学谐振腔，例如激光光学镜。谐振腔通常通过使用高反射电介质镜或单片晶格形成，该单片晶格利用全内反射来防止光逃逸并将光子有效地束缚在其结构内部。光子晶体微腔的出现为纳米光子和光电器件领域的新颖设计带来了许多令人兴奋的机会，因此近些年光子晶体成为了纳米光子学界的一个主要研究方向。光子晶体特殊的光学特性通常源于它能够以最小的能量损失完全控制光在材料中的传播，同时由于其周期性孔洞排列和PC板与周围空气或包层之间的折射率对比度，使得结构内部的光子分别通过布拉格反射和全内反射，在平面内和垂直方向被完全束缚在此类纳米腔中。光子晶体纳米腔(Photonic Crystal Nanocavities)通过在PC板的周期性晶格结构中人工引入缺陷来实现，例如L3腔体(中间缺少三个线性孔)、L5腔体(缺少五个线性孔)和H0腔体(被位移的中心孔)。光子晶体微腔作为一种谐振腔的结构被广泛地应用于纳米级激光器、LED、光纤到波导转换、马赫-曾德尔(Mach-Zehnder)开关和太阳能电池等现代光电器件领域。

基于光子晶体的光电器件，例如光子晶体纳米腔激光器，通常要求有高的品质因数(Quality factor，简称Q factor)来实现其超高性能。在此类器件设计过程中，技术人员需要花费大量的时间和资源来搜索有高Q factor的最优结构设计，因此光子晶体结构的优化一直困扰学界、业界科研人员的一个难题。

21世纪是一个被人工智能(以下简称AI)和大数据统治的时代，所有的行业和人们的衣食住行似乎都离不开AI的触角。从自动驾驶到智慧医疗，从金融科技到云计算和物联网，AI正在从根本上改变着这个社会。AI的一个重要支柱是机器学习(machine learning)。鉴于其在计算机科学和工程相关领域(包括计算机视觉、自然语言处理、语音识别和运筹学)的卓越成就，机器学习已经吸引了材料科学、化学、激光物理、粒子物理、量子力学、计算成像和显微镜等其他学科研究人员的日益关注，展示了绕过传统优化方法缺点的强大潜力，并在上述领域创造了前所未有的机会。机器学习的独特优势在于其数据驱动的方法论，因为它允许模型从大量数据中自动发现有用的信息和规律，这与物理或基于规则的方法形成鲜明对比。具体来讲，机器学习模型可以把诸如光子晶体、超材料、等离子体纳米结构和集成硅光器件的高维度设计参数(如几何参数、材料、拓扑和空间排列)映射(或反映射)到其光学特性(如偏振、相位、波长、功率和Q factor)，实现正向预测和反向设计(即优化)。在过去几年中(2018-现在)，机器学习已经成为光电器件设计领域的一种全新方法，把它在高维度参数空间和复杂设计问题情景下的潜力展现地淋漓尽致。

然而现有的基于机器学习模型的光电器件设计方法需要提前采集大量的训练数据对机器学习模型进行训练，因此难以快速完成光电设计任务。同时，现有的机器学习方法无法自主地对光学器件进行优化和反向设计，需要人为介入借助优化算法来优化和反向设计。

因此，现有技术急需改进和发展。

发明内容

本发明要解决的技术问题在于，针对现有技术的上述缺陷，提供一种基于强化学习的光学谐振腔反向设计和优化的方法，本发明旨在解决现有技术中基于机器学习模型设计光学器件的两个关键问题：1.现有的机器学习方法需要提前采集大量的训练数据对机器学习模型进行训练，因此难以快速地完成光学设计任务。2.现有的机器学习方法无法自主地对光学器件进行优化和反向设计，需要人为介入借助优化算法来优化和反向设计。

本发明解决问题所采用的技术方案如下：

第一方面，本发明实施例提供一种基于强化学习的光学谐振腔反向设计和优化的方法，其中，所述方法包括：

获取光学谐振腔对应的结构信息，将所述结构信息输入智能体神经网络得到目标动作数据、在仿真环境中更新所述结构信息以及计算奖励值，根据所述目标动作数据、更新后的所述结构信息以及所述奖励值的组合对所述智能体神经网络进行训练；

将更新后的所述结构信息作为所述结构信息，继续执行将所述结构信息输入所述智能体神经网络得到所述目标动作数据、在所述仿真环境中更新所述结构信息以及计算出所述奖励值，根据所述目标动作数据、更新后的所述结构信息以及所述奖励值的组合对所述智能体神经网络进行训练的步骤，直至所述奖励值达到预设目标奖励值时停止对所述智能体神经网络进行训练，将最后一次得到的更新后的所述结构信息作为对所述光学谐振腔求解到的优化结构信息；

其中，所述将所述结构信息输入智能体神经网络得到目标动作数据、在仿真环境中更新所述结构信息以及计算出奖励值，包括：

将所述结构信息输入所述智能体神经网络，获取所述智能体神经网络基于所述结构信息输出的所述目标动作数据；

在所述仿真环境下，根据所述目标动作数据获取更新后的所述结构信息，其中，更新后的所述结构信息用于反映所述光学谐振腔响应于所述目标动作数据的结构变化情况；

根据更新后的所述结构信息确定所述奖励值，其中，所述奖励值用于反映所述光学谐振腔响应于更新后的所述结构信息的性能变化情况。

在一种实施方式中，所述将所述结构信息输入所述智能体神经网络，获取所述智能体神经网络基于所述结构信息输出的所述目标动作数据，包括：

将所述结构信息输入所述智能体神经网络中的动作选择函数，通过所述动作选择函数确定动作选择模式；

当所述动作选择模式为探索模式时，获取预先构建的若干动作数据，从若干所述动作数据中随机确定所述目标动作数据；

当所述动作选择模式为利用模式时，将所述结构信息输入所述智能体神经网络中的策略神经网络，获取所述策略神经网络基于所述结构信息输出的所述目标动作数据。

在一种实施方式中，所述将所述结构信息输入所述智能体神经网络中的策略神经网络，获取所述策略神经网络基于所述结构信息输出的所述目标动作数据，包括：

将所述结构信息输入所述策略神经网络，通过所述策略神经网络基于所述结构信息确定若干所述动作数据分别对应的Q函数值，其中，所述Q函数值用于反映每一所述动作数据对应的所述奖励值的高低；

通过所述策略神经网络输出所述Q函数值最高的所述动作数据，得到所述目标动作数据。

在一种实施方式中，所述根据更新后的所述结构信息确定所述奖励值，包括：

根据更新后的所述结构信息，在所述仿真环境中计算并确定所述光学谐振腔对应的性能参数；

根据所述性能参数确定所述奖励值。

在一种实施方式中，所述根据所述目标动作数据、更新后的所述结构信息以及所述奖励值的组合对所述智能体神经网络进行训练，包括：

根据所述目标动作数据、更新后的所述结构信息以及所述奖励值的组合，生成经验序列；

将所述经验序列放入预先构建的经验回放池，其中，所述经验回放池中包含若干历史经验序列；

从所述经验回放池中随机选择若干目标经验序列，根据若干所述目标经验序列对所述智能体神经网络进行训练。

在一种实施方式中，所述根据若干所述目标经验序列对所述智能体神经网络进行训练，包括：

根据若干所述目标经验序列和所述智能体神经网络对应的Smooth L1损失函数，确定所述智能体神经网络对应的损失函数值；

根据所述损失函数值和RMSProp优化器对所述智能体神经网络的网络参数进行优化，以实现对所述智能体神经网络进行训练。

在一种实施方式中，所述方法还包括：

根据所述目标动作数据，确定所述光学谐振腔在若干方向上的累积变化量；

获取所述光学谐振腔对应的结构尺寸信息，根据所述结构尺寸信息确定若干所述方向分别对应的变化范围；

当任意一个所述累积变化量超出对应的所述变化范围时，将所述目标动作数据作为无效信息，终止程序运行，进入下一轮优化。

第二方面，本发明实施例还提供一种光学谐振腔，其中，所述光学谐振腔采用如上述任一所述的基于强化学习的光学谐振腔反向设计和优化的方法生成。

第三方面，本发明实施例还提供一种光学谐振腔微腔激光器，其中，所述光学谐振腔微腔激光器包含如上述所述的光学谐振腔。

第四方面，本发明实施例还提供一种计算机可读存储介质，其上存储有多条指令，其中，所述指令适用于由处理器加载并执行，以实现上述任一所述的基于强化学习的光学谐振腔反向设计和优化的方法的步骤。

本发明的有益效果：本发明实施例通过运用强化学习，使得智能体神经网络可以自主地采取行动来实现累积回报的最大化，平衡了现有知识和未知领域，无需预先采集大量的训练数据，因此有潜能探索光电设计任务中的更多光学特性和更大的参数空间，可以更快地实现光学谐振腔的最优化和反向设计，以设计出具有超高性能因数的光芯片。本发明解决了现有技术中基于机器学习模型设计光学器件的两个关键问题：1.现有的机器学习方法需要提前采集大量的训练数据对机器学习模型进行训练，因此难以快速地完成光学设计任务。2.现有的机器学习方法无法自主地对光学器件进行优化和反向设计，需要人为介入借助优化算法来优化和反向设计。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种基于强化学习的光学谐振腔反向设计和优化的方法的流程示意图。

图2是本发明实施例提供的DQN强化学习算法的伪代码。

图3是本发明实施例提供的L3光子晶体纳米腔俯视图。

图4是本发明实施例提供的FDTD计算的L3光子晶体纳米腔的基模电场图。

图5是本发明实施例提供的改变L3光子晶体纳米腔中间三行孔洞的坐标和半径前后对比图。

图6是本发明实施例提供的策略神经网络的结构图。

图7是本发明实施例提供的ε-greedy随机采样法的示意图。

图8是本发明实施例提供的DQN强化学习算法中一个计算循环的流程示意图。

图9是本发明实施例提供的L3光子晶体纳米腔训练成果展示图。

图10是本发明实施例提供的nanobeam光子晶体纳米腔在FDTD里设计的结构俯视图。

图11是本发明实施例提供的FDTD计算的nanobeam光子晶体纳米腔的基模电场图。

图12是本发明实施例提供的nanobeam光子晶体纳米腔的tapered区域、mirror区域示意图。

图13是本发明实施例提供的改变nanobeam光子晶体纳米腔孔洞的坐标和半径前后对比图。

图14是本发明实施例提供的nanobeam光子晶体纳米腔训练成果展示图。

图15是本发明实施例提供的终端的原理框图。

具体实施方式

本发明公开了一种基于强化学习的光学谐振腔反向设计和优化的方法，为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

当光在增益介质中被放大时，就会出现光学谐振腔，例如激光光学镜。谐振腔通常通过使用高反射电介质镜或单片晶格形成，该单片晶格利用全内反射来防止光逃逸并将光子有效地束缚在其结构内部。光子晶体微腔的出现为纳米光子和光电器件领域的新颖设计带来了许多令人兴奋的机会，因此近些年光子晶体成为了纳米光子学界的一个主要研究方向。光子晶体特殊的光学特性通常源于它能够以最小的能量损失完全控制光在材料中的传播，同时由于其周期性孔洞排列和PC板与周围空气或包层之间的折射率对比度，使得结构内部的光子分别通过布拉格反射和全内反射，在平面内和垂直方向被完全束缚在此类纳米腔中。光子晶体纳米腔(Photonic Crystal Nanocavities)通过在PC板的周期性晶格结构中人工引入缺陷来实现，例如L3腔体(中间缺少三个线性孔)、L5腔体(缺少五个线性孔)和H0腔体(被位移的中心孔)。光子晶体微腔作为一种常见的谐振腔结构，被广泛地应用于纳米级激光器、LED、光纤到波导转换、马赫-曾德尔(Mach-Zehnder)开关和太阳能电池等现代光电器件领域。

然而现有的基于机器学习模型的光电器件设计方法需要提前采集大量的训练数据对机器学习模型进行训练，因此难以快速完成光电设计任务。除此之外，现有的机器学习方法无法自主地对光学器件进行优化和反向设计，需要人为介入借助优化算法来优化和反向设计。

针对现有技术的上述缺陷，本发明提供一种基于强化学习的光学谐振腔反向设计和优化的方法，所述方法包括：获取光学谐振腔对应的结构信息，将所述结构信息输入智能体神经网络得到目标动作数据、在仿真环境中更新所述结构信息以及计算出奖励值，根据所述目标动作数据、更新后的所述结构信息以及所述奖励值的组合对所述智能体神经网络进行训练；将更新后的所述结构信息作为所述结构信息，继续执行将所述结构信息输入所述智能体神经网络得到所述目标动作数据、在所述仿真环境中更新所述结构信息以及计算出所述奖励值，根据所述目标动作数据、更新后的所述结构信息以及所述奖励值的组合对所述智能体神经网络进行训练的步骤，直至所述奖励值达到预设目标奖励值时停止对所述智能体神经网络进行训练，将最后一次得到的更新后的所述结构信息作为对所述光学谐振腔求解到的优化结构信息；其中，所述将所述结构信息输入智能体神经网络得到目标动作数据、在仿真环境中更新所述结构信息以及计算出奖励值，包括：将所述结构信息输入所述智能体神经网络，获取所述智能体神经网络基于所述结构信息输出的所述目标动作数据；在所述仿真环境下，根据所述目标动作数据获取更新后的所述结构信息，其中，更新后的所述结构信息用于反映所述光学谐振腔响应于所述目标动作数据的结构变化情况；根据更新后的所述结构信息确定所述奖励值，其中，所述奖励值用于反映所述光学谐振腔响应于更新后的所述结构信息的性能变化情况。本发明通过运用强化学习，使得智能体神经网络可以自主地采取行动来实现累积回报的最大化，平衡了现有知识和未知领域，无需预先采集大量的训练数据，因此有潜能探索光电设计任务中的更多光学特性和更大的参数空间，可以更快地实现光学谐振腔的最优化和反向设计，以设计出具有超高性能因数的光芯片。本发明解决了现有技术中基于机器学习模型设计光学器件的两个关键问题：1.现有的机器学习方法需要提前采集大量的训练数据对机器学习模型进行训练，因此难以快速地完成光学设计任务。2.现有的机器学习方法无法自主地对光学器件进行优化和反向设计，需要人为介入借助优化算法来优化和反向设计。

如图1所示，所述方法包括如下步骤：

步骤S100、获取光学谐振腔对应的结构信息，将所述结构信息输入智能神经网络得到目标动作数据、在仿真环境中更新所述结构信息以及计算出奖励值，根据所述目标动作数据、更新后的所述结构信息以及所述奖励值的组合对所述智能体神经网络进行训练。

简单来说，为了快速确定光学谐振腔的最优结构参数，本实施例采用强化学习方式替代传统的机器学习方法，从而避免了需要提前采集大量训练数据来训练模型的情况。具体地，本实施例首先需要获取待优化的光学谐振腔当前的结构信息，然后将结构信息输入到智能体神经网络，以获取光学谐振腔被执行特定动作后的更新结构信息和通过在特定状态下执行特定动作所获得的奖励值，同时通过奖励值来学习信息和更新智能体神经网络对应的网络参数。

其中，如图8所示，所述将所述结构信息输入智能体神经网络得到目标动作数据、在仿真环境中更新所述结构信息以及计算出奖励值，具体包括如下步骤：

步骤S101、将所述结构信息输入所述智能体神经网络，获取所述智能体神经网络基于所述结构信息输出的所述目标动作数据；

步骤S102、在所述仿真环境下，根据所述目标动作数据获取更新后的所述结构信息，其中，更新后的所述结构信息用于反映所述光学谐振腔响应于所述目标动作数据的结构变化情况；

步骤S103、根据更新后的所述结构信息确定所述奖励值，其中，所述奖励值用于反映所述光学谐振腔响应于更新后的所述结构信息的性能变化情况。

简单来说，图8描述了强化学习设置中一个片段的主要步骤，其中，一个片段即为智能体神经网络与环境交互的一次完整过程。具体地，目标动作数据通常对应于光学谐振腔结构参数的变化(例如半径，宽度，材料等)，需要强调的是，目标动作数据是在环境中定义、并在物理结构限制的约束下进行选择的。此外，环境是智能体神经网络探索和学习的参数空间，也是智能体神经网络所生存的世界。当智能体神经网络做一个动作后，环境会相应地过渡到新的状态并且计算奖励值。因此，奖励值可以看做智能体神经网络在特定状态下采取特定动作所收到的来自环境的反馈，通过奖励值可以评估智能体神经网络在给定状态下所采取动作好坏，从而对智能体神经网络的网络参数进行更新。举例来说，奖励可以是光学谐振腔的Q factor，那么Q factor越高，对应的奖励就越高。

如图1所示，所述方法还包括：

步骤S200、将更新后的所述结构信息作为所述结构信息，继续执行将所述结构信息输入所述智能体神经网络得到所述目标动作数据、在所述仿真环境中更新所述结构信息以及计算出所述奖励值，根据所述目标动作数据、更新后的所述结构信息以及所述奖励值的组合对所述智能体神经网络进行训练的步骤，直至所述奖励值达到预设目标奖励值时停止对所述智能体神经网络进行训练，将最后一次得到的更新后的所述结构信息作为对所述光学谐振腔求解到的优化结构信息。

具体地，为了得到光学谐振腔的最优结构参数，本实施例需要不断地、重复将最新得到的光学谐振腔的结构信息输入智能体神经网络中，通过智能体神经网络输出的动作数据不断地调整光学谐振腔的结构参数，同时根据光学谐振腔最新的结构信息计算奖励值并对智能体神经网络的网络参数进行更新，使得智能体神经网络输出的目标动作数据能够获得环境最大的奖励。当智能体神经网络得到的奖励值达到预设目标奖励值时，表示智能体神经网络最后一次输出的目标动作数据已经足够准确，则此时停止强化学习，并将光学谐振腔响应于最后一次目标动作数据更新得到的结构信息作为对所述光学谐振腔求解到的优化结构信息。

举例说明：在实际应用中，先根据目标动作数据，获取光学谐振腔基于该目标动作数据所产生的对应奖励值。然后，根据预先设定的光学谐振腔设计方案确定目标达到的最佳品质因数Q-factor和该Q-factor对应的最佳奖励值。当计算出的奖励值达到或超过该最佳奖励值时，视为成功地满足了优化和反向设计目标，保存对应的结构和奖励值，并且终止程序运行。

在一种实现方式中，所述步骤S101具体包括如下步骤：

步骤S1011、将所述结构信息输入所述智能体神经网络中的动作选择函数，通过所述动作选择函数确定动作选择模式；

步骤S1012、当所述动作选择模式为探索模式时，获取预先构建的若干动作数据，从若干所述动作数据中随机确定所述目标动作数据；

步骤S1013、当所述动作选择模式为利用模式时，将所述结构信息输入所述智能体神经网络中的策略神经网络，获取所述策略神经网络基于所述结构信息输出的所述目标动作数据。

简单来说，本实施例中的智能体神经网络包含有动作选择函数，它可以帮助智能体神经网络来选择当前所要输出的目标动作数据。具体地，动作选择函数主要包括两种模式，一种是探索模式，另一种是利用模式。其中，探索模式表示智能体神经网络将随机选择目标动作数据，利用模式表示智能体神经网络将遵循策略神经网络推荐的最优动作输出目标动作数据。

在一种实现方式中，探索模式和利用模式的选择过程通过ε-greedy采样法实现。如图7所示，ε-greedy采样法中的ε随着迭代次数指数下降，初始值为0.9，终止值为0.05。换言之。每一步中智能体神经网络有ε的概率去做随机的动作选择(探索模式)和1-ε的概率去选择策略神经网络推荐的最优动作(利用模式)。本实施例通过ε-greedy采样法，可以加入随机选择的可能性，从而避免智能体神经网络在训练不佳的策略神经网络所预测的错误动作选择中无限循环下去，进而给予策略神经网络一个改变、更正训练方向的机会。

在一种实现方式中，所述步骤S1013具体包括如下步骤：

步骤S10131、将所述结构信息输入所述策略神经网络，通过所述策略神经网络基于所述结构信息确定若干所述动作数据分别对应的Q函数值，其中，所述Q函数值用于反映每一所述动作数据对应的所述奖励值的高低；

步骤S10132、通过所述策略神经网络输出所述Q函数值最高的所述动作数据，得到所述目标动作数据。

具体地，当智能体神经网络为利用模式时，智能体神经网络将通过策略神经网络来做最佳动作的决策。其中，策略神经网络的输入是光学谐振腔当前的结构信息，它基于输入的结构信息计算出预先设定的每一种动作数据分别对应的Q函数值，然后将Q函数值最大的动作数据确定为目标动作数据。

在一种实现方式中，如图6所示，所述策略神经网络为四层的全连接层神经网络，包括输入层、第一隐藏层(50个神经元)、第二隐藏层(50个神经元)以及输出层。所述策略神经网络的输入信息为结构信息，所述策略神经网络的输出信息为每一种动作数据的Q函数值。

举例说明，输入策略神经网络的状态为：[-40.0,35.0,22.5]nm,这个数据经过两层隐藏层计算以后，转化为输出：[19.9109630585,20.7036628723,20.6813411713,19.8620853424,33.6956939697,20.6523151398]，其中6个数字代表6种动作对应的Q函数值。由于第5个数字33.6956939697是最大的，因此第5个动作数据是目标动作数据。

在一种实现方式中，所述智能体神经网络还包括目标网络，其中，所述目标网络并非一直更新，而是被冻结一端时间后定期更新。具体地，所述目标网络每隔一定的步数用策略神经网络学习到的最新参数副本更新，所述智能体神经网络通过所述目标神经网络和所述策略神经网络一起来预测预先设定的每一动作数据分别对应的Q函数值。这种方式有助于防止失控偏差或高估的值统治系统的参数，从而防止估计的Q值发散。

在一种实现方式中，所述根据更新后的所述结构信息确定所述奖励值具体包括如下步骤：

步骤S1031、根据更新后的所述结构信息，在所述仿真环境中计算并确定所述光学谐振腔对应的性能参数；

步骤S1032、根据所述性能参数确定所述奖励值。

具体地，为了计算奖励值，以评估智能体神经网络输出的目标动作数据的好坏，本实施例首先需要基于光学谐振腔的更新结构信息来确定光学谐振腔当前的性能参数(例如品质因子、模式体积)。再基于光学谐振腔的性能参数来确定智能体神经网络当前的奖励值。可以理解的是，光学谐振腔的性能参数可以反映光学谐振腔当前的性能，进而确定奖励值的高低。

在一种实现方式中，所述根据所述目标动作数据、更新后的所述结构信息以及所述奖励值的组合对所述智能体神经网络进行训练，包括：

步骤S1033、根据所述目标动作数据、更新后的所述结构信息以及所述奖励值的组合，生成经验序列；

步骤S1034、将所述经验序列放入预先构建的经验回放池，其中，所述经验回放池中包含若干历史经验序列；

步骤S1035、从所述经验回放池中随机选择若干目标经验序列，根据若干所述目标经验序列对所述智能体神经网络进行训练。

具体地，为了打破经验数据之间的关联性，本实施例预先设置了一个经验回放池，每一次获取到新的奖励值，便将该奖励值与其对应的结构信息、动作数据、更新后的结构信息作为一个经验序列，存储进经验回放池中。当经验回放池的存储空间饱和以后，最老的数据会被释放出，从而腾出空间给新的数据。然后，本实施例会从经验回放池中选择几组目标经验序列对智能体神经网络进行训练。换言之，本实施例并不是使用最新的经验序列对智能体神经网络进行训练，而是使用经验回放池中存储的多组经验序列来对智能体神经网络进行训练，因此可以降低经验数据之间的相关性并增强训练的稳定性。

在一种实现方式中，所述步骤S1035具体包括如下步骤：

步骤S10351、根据若干所述目标经验序列和所述智能体神经网络对应的SmoothL1损失函数，确定所述智能体神经网络对应的损失函数值；

步骤S10352、根据所述损失函数值和RMSProp优化器对所述智能体神经网络的网络参数进行优化，以实现对所述智能体神经网络进行训练。

具体地，为了使智能体神经网络的损失函数更加平滑，本实施例中采用的是Smooth L1损失函数。此外，为了克服rprop算法的权重大幅变化，以及Adagrad算法的learning rate快速、单调式下降的问题，本实施例在训练智能体神经网络时使用RMSProp优化器，以实现对智能体神经网络的损失函数进行梯度下降来最小化损失。

在一种实现方式中，本实施例中对智能体神经网络进行训练需要调用的Pytorch组件和函数如下所示：

import torch

import torch.nn as nn

import torch.optim as optim

import torch.nn.functional as F

另外，Smooth L1损失函数的定义如下所示：

其中，δ代表神经网络预测的Q函数和期望Q函数的差，B代表训练的batch size，L代表损失值。δ的表达式为：

δ＝Q(s,a)-(r+γmaxQ(s′,a))

其中，Q(s,a)代表神经网络预测的Q函数，s代表状态，a代表动作，r代表奖励，γ＝0.999(折扣因子)，max代表最大值，s’代表下一步的状态。

在一种实现方式中，所述RMSProp优化器的算法流程如下；

optimizer.zero_grad()

loss.backward()

for param in policy_net.parameters():

param.grad.data.clamp_(-1,1)

optimizer.step()

在一种实现方式中，所述方法还包括如下步骤：

步骤S10、根据所述目标动作数据，确定所述光学谐振腔在若干方向上的累积变化量；

步骤S20、获取所述光学谐振腔对应的结构尺寸信息，根据所述结构尺寸信息确定若干所述方向分别对应的变化范围；

步骤S30、当任意一个所述累积变化量超出对应的所述变化范围时，将所述目标动作数据作为无效信息，终止程序运行，进入下一轮优化。

简单来说，由于光学谐振腔的尺寸有限，因此智能体神经网络输出的目标动作数据会受到光学谐振腔的尺寸的约束。具体地，本实施例在得到智能体神经网络输出的目标动作数据以后，需要先基于该目标动作数据确定光学谐振腔在各个方向上的累计变化量，然后根据光学谐振腔的结构尺寸信息确定各个方向上的变化范围。针对每一个方向，若该方向上的累计变化量超过其对应的变化范围，则说明当前的目标动作数据与光学谐振腔当前的尺寸要求不符，因此判定当前的目标动作数据无效，并立即终止程序运行，然后进入下一轮优化。

为了更清楚地说明本发明的技术方案，本实施例提供本发明对应的强化学习算法：DQN算法。并且为了说明本发明技术方案的技术效果，发明人基于该DQN算法做了以下两个实验过程：

1、DQN算法的伪代码如图2所示：

其中，第二行中D表示经验回放池(容量N＝10000)。第三、四行里，θ和θ-分别代表策略神经网络和目标神经网络的参数。第五行里，M代表一共运行的片段(episode)数量(M＝300)。第七行里，T代表每个episode运行的最大迭代步数(T＝500)。第8行里，ε代表着ε-greedy随机采样法：每一步时，智能体神经网络有ε的概率去做随机的动作选择(探索模式)或1-ε的概率去选择策略网络(也就是Q函数)推荐的最优动作(利用模式)。本实施例中使用的ε初始值为0.9，终止值为0.05，其数值随着迭代步数呈指数式下降(如图7所示)。第十三行里，minibatch的大小是128，代表从经验回放池里采样128组数据。第十五行里，γ＝0.999(折扣因子)。第十六行的(yj-Q(φj，aj；Θ))²代表了训练神经网络用到的损失函数。第十八行里，C代表每隔多少步更新一次目标网络(C＝5000)。

2、实验1：将L3光子晶体纳米腔作为优化和反向设计的对象：

1)如图3、4所示，在LumericalFDTD仿真软件里设计初始的L3结构，然后运行FDTD并确保获得基模。初始结构的仿真结果为：基模下的Q factor＝4.24*10⁵。本实施例的目标优化Q factor至一千万(1*10⁷)以上.

2)在Python编程语言环境中搭建Python和FDTD的实时接口，从而可以直接从Python环境中控制FDTD的仿真运行和调参过程，为了后续强化学习环境的搭建作准备。

3)使用gym库，在Python中搭建了基于2)中接口的强化学习训练环境，即相当于搭建了一个可以实时调用FDTD程序的Class。在这个Class中，强化学习环境接收一个动作，然后求解并输出下一步的状态和奖励以及本次片段是否终止的布尔值。

其中，各个环境变量具体如下：

(1)状态：L3孔洞空间形态(即(x,y)坐标和半径r)的累积变化量。坐标的最大允许变化量为正负100纳米，半径为正负50纳米，超出这个范围视作本片段终止。一共3个状态(netchange＝累积变化量，state＝状态，min＝最小值，max＝最大值)：

(2)动作：改变孔洞的坐标和半径(注：为了保持结构对称性，只改变第一象限的孔洞即可，其余象限按照镜像原则改变；出于计算效率的考虑，如图5所示，仅改变中间3－5行的孔洞)。一共设定了6种动作，分别为增加和降低坐标和半径(action＝动作，increase＝增加，decrease＝降低)：

Index	Action
		0	increasexby0.5nm
1	decreasexby0.5nm
		2	increaseyby0.5nm
3	decreaseyby0.5nm
		4	increaserby0.25nm
5	decreaserby0.25nm

(3)奖励：奖励与Q factor的大小成正相关，即每一步的Q factor越大，其对应的奖励就越大。具体奖励值由下方公式计算：

奖励＝(100-(1*10⁷-Q)*10^-5)

其中，1*10⁷代表优化和反向设计的目标Q factor值，Q代表Q factor。

(4)终止条件：每一步迭代做一次终止判断，并输出一个布尔值代表是否终止片段。如果以下任一条件满足，则终止本次片段：

A.Episode length is more than 500(片段步数超过500)

B.x坐标的累积变化量超出±100nm

C.y坐标的累积变化量超出±100nm

D.半径r的累积变化量超出±50nm.

E.Solved requirement(找到最优解条件)：当奖励值≥75(也就是Q factor≥7.5E+6)时，判定为找到最优解。

4)使用Pytorch库和3)中搭建的环境，在Python中编写了基于DQN的强化学习代码。代码主要分为以下几个部分：(1)定义经验回放函数(存储和采样状态-动作对)，(2)定义策略神经网络，(3)定义动作选择函数，(4)定义训练神经网络的函数。

5)优化和反向设计结果：如图9所示，图左为奖励收敛曲线，图右为损失函数曲线。可见，训练DQN模型24小时后，奖励达到了收敛。在训练的第6个小时，L3的Q factor从40万增加到了较高的165万(即一个数量级的增加)。此优化速度远远超过任何经验丰富的科研人员手动优化的速度，充分体现了本发明设计的强化学习算法超强的智能化水准。优化到的最高Q factor所对应的结构信息也是反向设计任务所要求解的结构信息。

3.实验2：以nanobeam光子晶体纳米腔为优化和反向设计对象的第二个实施例：

1)如图10、11所示，在FDTD仿真软件里设计初始的nanobeam结构，然后运行FDTD并确保获得基模。初始结构的仿真结果为：基模下的Q factor＝5.2*10⁴。本实施例的目标优化Q factor至五千万(5*10⁷)以上。

2)创建gym环境，各个环境变量的定义具体如下：

(1)状态:nanobeam孔洞空间形态(即x坐标和半长轴r2、半短轴r)的累积变化量以及腔体缺陷的数量。坐标的最大允许变化量为正负30或50纳米，半径为正负20纳米，腔体缺陷为[1，3，5]这三个数字。超出这个范围视作本片段终止。如图12所示，x1-x4分别代表内侧4个tapered洞的坐标，xm代表外侧9个mirror洞的坐标，cavity(简写为cav)代表腔体缺陷，r代表半短轴，r2代表半长轴。一共设定了8个状态：

(2)动作：改变孔洞的坐标和半径(注：为了保持结构对称性，如图13所示，只改变右侧的孔洞即可，左侧按照镜像原则改变)。一共设定了16种动作，分别为增加和降低坐标、半径和缺陷数量：

(3)奖励：奖励与Q factor的大小成正相关，也就是每一步的Q factor越大，其对应的奖励就越大。具体奖励值由下方公式计算：

奖励＝(500-(5*10⁷-Q)*10^-5)

其中，5*10⁷代表优化和反向设计的目标Q factor值。

A.Episode length is more than 500(片段步数超过500),

B.x1到x4的累积变化量超出±30nm,

C.半短轴r的累积变化量超出±30nm,

D.半长轴r2的累积变化量超出±20nm.

E.xm的累积变化量超出±50nm.

F.Solved requirement(找到最优解条件)：

当奖励值≥500(i.e.,Q factor≥5E+7)找到最优解。

(5)在Python中编写基于DQN的强化学习代码，并定义策略神经网络(四层的全连接层神经网络)：神经网络的输入为状态，输出为Q函数(即动作价值函数),中间有两层隐藏层(各120和80个神经元)。智能体神经网络通过这个策略神经网络来做最佳动作的决策。

(6)开始训练强化学习DQN模型，然后优化和反向设计的结果为：如图14所示，图左为奖励收敛曲线，图右为损失函数曲线。训练DQN模型58小时后，奖励达到了收敛。在训练的第24个小时，nanobeam的Q factor增加到了超高的5588万(即三个数量级的增加),超过了文献中同类设计的最高Q。此优化速度远远超过任何经验丰富的科研人员手动优化的速度，充分体现了本发明设计的强化学习算法超高的智能化水准。优化到的最高Q factor所对应的结构信息也是反向设计任务所要求解的结构信息。

基于上述实施例，本发明还提供了一种光学谐振腔，其中，所述光学谐振腔采用如上述任一所述的一种基于强化学习的光学谐振腔反向设计和优化的方法生成。

基于上述实施例，本发明还提供了一种光学谐振腔微腔激光器，其中，所述光学谐振腔微腔激光器包含如上述所述的光学谐振腔。

基于上述实施例，本发明还提供了一种终端，其原理框图可以如图15所示。该终端包括通过系统总线连接的处理器、存储器、网络接口、显示屏。其中，该终端的处理器用于提供计算和控制能力。该终端的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该终端的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于强化学习的光学谐振腔反向设计和优化的方法。该终端的显示屏可以是液晶显示屏或者电子墨水显示屏。

本领域技术人员可以理解，图15中示出的原理框图，仅仅是与本发明方案相关的部分结构的框图，并不构成对本发明方案所应用于其上的终端的限定，具体的终端可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一种实现方式中，所述终端的存储器中存储有一个或者一个以上的程序，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行基于强化学习的光学谐振腔反向设计和优化的方法的指令。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

综上所述，本发明公开了一种基于强化学习的光学谐振腔反向设计和优化的方法，所述方法包括：获取光学谐振腔对应的结构信息，将所述结构信息输入智能体神经网络得到目标动作数据、在仿真环境中更新所述结构信息以及计算出奖励值，根据所述目标动作数据、更新后的所述结构信息以及所述奖励值的组合对所述智能体神经网络进行训练；将更新后的所述结构信息作为所述结构信息，继续执行将所述结构信息输入所述智能体神经网络得到所述目标动作数据、在所述仿真环境中更新所述结构信息以及计算出所述奖励值，根据所述目标动作数据、更新后的所述结构信息以及所述奖励值的组合对所述智能体神经网络进行训练的步骤，直至所述奖励值达到预设目标奖励值时停止对所述智能体神经网络进行训练，将最后一次得到的更新后的所述结构信息作为对所述光学谐振腔求解到的优化结构信息；其中，所述将所述结构信息输入智能体神经网络得到目标动作数据、在仿真环境中更新所述结构信息以及计算出奖励值，包括：将所述结构信息输入所述智能体神经网络，获取所述智能体神经网络基于所述结构信息输出的所述目标动作数据；在所述仿真环境下，根据所述目标动作数据获取更新后的所述结构信息，其中，更新后的所述结构信息用于反映所述光学谐振腔响应于所述目标动作数据的结构变化情况；根据更新后的所述结构信息确定所述奖励值，其中，所述奖励值用于反映所述光学谐振腔响应于更新后的所述结构信息的性能变化情况。本发明通过运用强化学习，使得智能体神经网络可以自主地采取行动来实现累积回报的最大化，平衡了现有知识和未知领域，无需预先采集大量的训练数据，因此有潜能探索光电设计任务中的更多光学特性和更大的参数空间，可以更快地实现光学谐振腔的最优化和反向设计，以设计出具有超高性能因数的光芯片。本发明解决了现有技术中基于机器学习模型设计光学器件的两个关键问题：1.现有的机器学习方法需要提前采集大量的训练数据对机器学习模型进行训练，因此难以快速地完成光学设计任务。2.现有的机器学习方法无法自主地对光学器件进行优化和反向设计，需要人为介入借助优化算法来优化和反向设计。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于强化学习的光学谐振腔反向设计和优化的方法，其特征在于，所述方法包括：

获取光学谐振腔对应的结构信息，将所述结构信息输入智能体神经网络得到目标动作数据、在仿真环境中更新所述结构信息以及计算出奖励值，根据所述目标动作数据、更新后的所述结构信息以及所述奖励值的组合对所述智能体神经网络进行训练；

根据更新后的所述结构信息确定所述奖励值，其中，所述奖励值用于反映所述光学谐振腔响应于更新后的所述结构信息的性能变化情况；

所述将所述结构信息输入所述智能体神经网络，获取所述智能体神经网络基于所述结构信息输出的所述目标动作数据，包括：

2.根据权利要求1所述的基于强化学习的光学谐振腔反向设计和优化的方法，其特征在于，所述将所述结构信息输入所述智能体神经网络中的策略神经网络，获取所述策略神经网络基于所述结构信息输出的所述目标动作数据，包括：

3.根据权利要求1所述的基于强化学习的光学谐振腔反向设计和优化的方法，其特征在于，所述根据更新后的所述结构信息确定所述奖励值，包括：

根据所述性能参数确定所述奖励值。

4.根据权利要求1所述的基于强化学习的光学谐振腔反向设计和优化的方法，其特征在于，所述根据所述目标动作数据、更新后的所述结构信息以及所述奖励值的组合对所述智能体神经网络进行训练，包括：

5.根据权利要求4所述的基于强化学习的光学谐振腔反向设计和优化的方法，其特征在于，所述根据若干所述目标经验序列对所述智能体神经网络进行训练，包括：

6.根据权利要求1所述的基于强化学习的光学谐振腔反向设计和优化的方法，其特征在于，所述方法还包括：

7.一种光学谐振腔，其特征在于，所述光学谐振腔采用如权利要求1-6任一所述的基于强化学习的光学谐振腔反向设计和优化的方法生成。

8.一种光学谐振腔微腔激光器，其特征在于，所述光学谐振腔微腔激光器包含如权利要求7所述的光学谐振腔。

9.一种计算机可读存储介质，其上存储有多条指令，其特征在于，所述指令适用于由处理器加载并执行，以实现上述权利要求1-6任一所述的基于强化学习的光学谐振腔反向设计和优化的方法的步骤。