CN117150888A

CN117150888A - 基于机器学习的光谱仪结构设计方法、电子设备、介质

Info

Publication number: CN117150888A
Application number: CN202311002478.3A
Authority: CN
Inventors: 吴波; 王翊亘; 周国富
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2023-08-09
Filing date: 2023-08-09
Publication date: 2023-12-01

Abstract

本申请提出一种基于机器学习的光谱仪结构设计方法、电子设备和存储介质，方法包括：获取光谱仪中每个光学元部件的初始参数；根据预设步进参数和初始参数得到多个具有不同结构特征的初始光谱仪结构；对初始光谱仪结构进行仿真，得到每个初始光谱仪结构所对应的初始性能参数，并根据所有初始光谱仪结构的结构特征和初始性能参数构建原始数据集；将原始数据集中的结构特征输入预设的第一动作神经网络，得到对应的目标动作；根据目标动作的第一奖励值确定目标结构特征；根据目标结构特征确定光谱仪的目标结构。通过本申请提出的方法可以快速设计出光谱仪的全局最优结构，有效减少设计人员投入的时间和精力，提高光谱仪结构设计的效率。

Description

基于机器学习的光谱仪结构设计方法、电子设备、介质

技术领域

本申请涉及光学结构设计技术领域，特别涉及一种基于机器学习的光谱仪结构设计方法、电子设备和计算机可读存储介质。

背景技术

光谱仪器是一种应用光学技术、计算机技术以及电子技术对各种物质及其内部结构等进行详细分析和测量的仪器设备，其被广泛应用于环境测量、化学成分分析、工业控制、食品质量检测、材料结构分析等领域。但是，光谱仪的结构非常复杂，同时，在不同的环境中，光谱仪的性能还会由于环境的温湿度等因素而变化，在传统的光谱仪结构设计的过程中，往往需要相关专业人员的设计出光谱仪的初始光谱仪结构再根据仿真结果进行微调，而设计光谱仪的初始光谱仪结构会耗费相关专业人员的大量精力和时间，同时，由于后续优化光谱仪的结构时也是在初始光谱仪结构基础上进行微调，最后所设计出来的光谱仪的性能很大程度上取决于初始光谱仪结构的选取，往往很难得到全局最优结构，综上所述，现有的光谱仪结构设计方法，不仅需要耗费相关专业人员的大量精力和时间，且最终设计出来的光谱仪的性能很大程度上也取决于相关专业人员所设计的初始光谱仪结构，往往难以设计出全局最优结构。

发明内容

为解决上述问题，本申请实施例提出一种基于机器学习的光谱仪结构设计方法、电子设备、介质，通过设置合适的步进角度和步进长度来演化光谱仪中各个光学元部件的尺寸、位置、倾斜角度，从而得到多个具有不同结构特征的初始光谱仪结构，再通过第一动作神经网络对每个初始光谱仪结构进行优化，从而设计出全局最优的光谱仪结构，有效节省了相关专业人员设计光谱仪结构时所耗费的时间。

本申请第一方面实施例提出一种基于机器学习的光谱仪结构设计方法，所述方法包括：

获取光谱仪中每个光学元部件的初始参数；

根据预设步进参数和所述初始参数得到多个具有不同结构特征的初始光谱仪结构；

对所述初始光谱仪结构进行仿真，得到每个所述初始光谱仪结构所对应的初始性能参数，并根据所有所述初始光谱仪结构的结构特征和所述初始性能参数构建原始数据集；

将所述原始数据集中的所述结构特征输入预设的第一动作神经网络，得到对应的目标动作；

根据所述目标动作的第一奖励值确定目标结构特征，其中，所述第一奖励值用于表征执行所述目标动作后的光谱仪的性能参数与对应的所述初始性能参数之间的性能参数变化情况；

根据所述目标结构特征确定所述光谱仪的目标结构。

在一些实施例中，在所述将所述原始数据集中的所述结构特征输入预设的第一动作神经网络，得到对应的目标动作之后，还包括：

执行所述目标动作以更新所述结构特征；

根据执行所述目标动作后的所述结构特征进行光学仿真，得到第一性能参数；

根据所述第一性能参数和所述初始性能参数确定所述目标动作的所述第一奖励值。

在一些实施例中，在根据所述第一性能参数和所述初始性能参数确定所述目标动作的所述第一奖励值之后，还包括：

在预设目标动作网络中根据所述目标动作和执行所述目标动作前的所述结构特征预测所述目标动作的期望奖励值，其中，所述目标动作神经网络的参数根据所述第一动作神经网络的参数确定；

根据所述期望奖励值和所述第一奖励值更新所述第一动作神经网络的参数。

在一些实施例中，在所述根据所述目标结构特征确定所述光谱仪的目标结构之后，还包括：

根据所述目标结构对光谱仪进行仿真，得到所述光谱仪的FFT-MTF曲线；

根据所述FFT-MTF曲线验证对应于所述目标结构的光谱仪的目标性能参数。

在一些实施例中，所述结构特征包括所述光谱仪中每个所述光学元部件的倾斜角度、尺寸参数、位置参数、曲率半径中的至少一个，在将所述原始数据集中的所述结构特征输入预设的第一动作神经网络，得到对应的目标动作之前，还包括：

对所述原始数据集中的每个所述光学元部件的倾斜角度、曲率半径、位置参数、尺寸参数进行Z-score标准化处理，以将每个所述光学元部件的倾斜角度、位置参数、曲率半径、尺寸参数统一至同一量纲范围。

在一些实施例中，在所述将所述原始数据集中的所述结构特征输入预设的第一动作神经网络，得到对应的目标动作之前，还包括：

对每个所述初始光谱仪结构进行光线追踪处理，得到每个所述初始光谱仪结构的光线追踪结果；

根据所述光线追踪结果从所述原始数据集中去除主光线与至少一个所述光学元部件未交互的所述初始光谱仪结构所对应的所述结构特征。

在一些实施例中，所述方法还包括：

响应于每个所述目标动作，将执行所述目标动作前的所述结构特征、所述目标动作、执行所述目标动作后的所述结构特征和所述目标动作的第一奖励值构成回放经验，并将所述回放经验加入经验回放池；

从所述经验回放池中抽取所述回放经验训练所述第一动作神经网络。

在一些实施例中，所述预设步进参数包括预设步进长度和预设步进角度中的至少一个，所述预设步进长度是0.1毫米，所述预设步进角度是0.1度。

一种电子设备，所述电子设备包括存储介质、处理器、存储在所述存储介质上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储介质之间的连接通信的数据总线，所述程序被所述处理器运行时实现如第一方面实施例中任一项所述的基于机器学习的光谱仪结构设计方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器运行，以实现如第一方面实施例中任一项所述的基于机器学习的光谱仪结构设计方法。

本申请实施例提出一种基于机器学习的光谱仪结构设计方法、电子设备和存储介质，方法包括：获取光谱仪中每个光学元部件的初始参数；根据预设步进参数和所述初始参数得到多个具有不同结构特征的初始光谱仪结构；对所述初始光谱仪结构进行仿真，得到每个所述初始光谱仪结构所对应的初始性能参数，并根据所有所述初始光谱仪结构的结构特征和所述初始性能参数构建原始数据集；将所述原始数据集中的所述结构特征输入预设的第一动作神经网络，得到对应的目标动作；根据所述目标动作的第一奖励值确定目标结构特征，其中，所述第一奖励值用于表征执行所述目标动作后的光谱仪的性能参数与对应的所述初始性能参数之间的性能参数变化情况；根据所述目标结构特征确定所述光谱仪的目标结构。本申请通过设置预设步进参数演化光谱仪中每个光学元部件的初始参数，得到多个具有不同结构特征的初始光谱仪结构，再对每个初始光谱仪结构进行仿真，得到其初始性能参数，将每个初始光谱仪结构输入预设的第一动作神经网络，得到对应的目标动作，基于目标动作优化每个初始光谱仪结构，并计算出每个第一目标动作的第一奖励值，根据第一奖励值确定最优的目标结构特征，以此作为光谱仪的目标结构，有效节省了相关专业人员设计光谱仪结构所需的精力和时间，能快速设计出光谱仪的全局最优结构。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

图1是本申请一个实施例提供的基于机器学习的结构光谱仪设计方法的流程图；

图2是本申请另一个实施例提供的图1中步骤S104之后的步骤流程图；

图3是本申请另一个实施例提供的图1中步骤S104之前的步骤流程图；

图4是本申请另一个实施例提供的图1中步骤S104之前的步骤流程图；

图5是本申请另一个实施例提供的步骤流程图；

图6是本申请另一个实施例提供的图2中步骤S203之后的步骤流程图；

图7是本申请一个实施例提供的电子设备的结构示意图；

附图用来提供对本申请技术方案的进一步理解，并且构成说明书的一部分，与本申请的实施例一起用于解释本申请的技术方案，并不构成对本申请技术方案的限制。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序运行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本公开的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而没有特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。

本申请实施例的描述中，除非另有明确的限定，设置、安装、连接等词语应做广义理解，所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本申请实施例中的具体含义。

参照图1，本实施例提出的一种基于机器学习的光谱仪结构设计方法，包括但不限于如下步骤S101至步骤S106：

步骤S101，获取光谱仪中每个光学元部件的初始参数；

步骤S102，根据预设步进参数和初始参数得到多个具有不同结构特征的初始光谱仪结构；

步骤S103，对初始光谱仪结构进行仿真，得到每个初始光谱仪结构所对应的初始性能参数，并根据所有初始光谱仪结构的结构特征和初始性能参数构建原始数据集；

步骤S104，将原始数据集中的结构特征输入预设的第一动作神经网络，得到对应的目标动作；

步骤S105，根据目标动作的第一奖励值确定目标结构特征，其中，第一奖励值用于表征执行目标动作后的光谱仪的性能参数与对应的初始性能参数之间的性能参数变化情况；

步骤S106，根据目标结构特征确定光谱仪的目标结构。

在一些实施例的步骤S101中，光谱仪可是Czerny-Turner光谱仪，光谱仪的光学元部件可以包括但不限于入射狭缝、准直镜、光栅、聚焦镜、CCD探测器，每个光学元部件的初始参数包括每个元部件的初始尺寸、初始倾斜角度、初始位置参数、初始曲率半径中的至少一个，其中，初始尺寸表示每个光学元部件的长度、宽度和厚度，初始倾斜角度用于表征每个光学元部件与预设的基准平面之间的夹角，初始位置参数用于表示每个光学元部件的几何中心在预设空间坐标系中的坐标，初始曲率半径表示准直镜、聚焦镜等曲面光学设备的曲率半径。在一些实施例中，预设空间坐标系可以是光学仿真软件预设的xyz坐标系。具体的，初始参数可以是由光谱仪结构设计人员输入的。

在一些实施例的步骤S102中，预设步进参数包括预设步进角度和预设步进长度中的至少一个，预设步进角度表示演化光谱仪结构的过程中，每个光学元部件倾斜角度的单位变化量，预设步进长度表示演化光谱仪结构的过程中，每个光学元部件的位置参数的单位变化量，在一些实施例中，预设步进角度可以是0.1度，预设步进长度可以是0.1毫米，可以理解的是，入射光线经由入射狭缝射入光谱仪后，会先后经过准直镜、光栅、聚焦镜等光学元部件反射后落在CCD探测器上，其中，准直镜用于将入射的光线调整为平行光束，而准直镜的位置和倾斜角度会影响入射光束的平行度，准直镜的位置和倾斜角度不正确会导致平行光束在光栅上的偏移，从而影响光谱的分辨率和定量分析的精确度；光栅用于将准直镜调整后的光束分散成不同波长的光谱线，光栅的位置和倾斜角度会影响光栅的入射角和出射角，进而影响到光谱的分散效果和分辨率，光栅的位置不正确，则会导致分散后的光谱线变宽甚至重叠，导致光谱分辨率和信噪比降低；聚焦镜用于将光栅分散的光谱线聚焦到CCD探测器，而聚焦镜的位置则会影响光谱线的焦点位置和形状，聚焦镜的位置不准确则会导致光谱线聚焦不准确，基于此，在本实施例中，通过设置预设步进参数不断演化光谱仪中每个光学元部件的位置参数和倾斜角度，使每个光学元部件的位置在给定的光谱仪内部空间中旋转和移动，以0.1度作为预设步进角度，使每个光学元部件的倾斜角度从0°不断旋转至180°，以0.1毫米作为预设步进长度，使每个光学元部件可以以0.1毫米为单位移动至给定空间中任意一个位置，由此得到每个光学元部件分别处于不同位置，倾斜不同角度的所有可能的初始光谱仪结构，同时还可以通过设定给定空间的大小，限制光谱仪的最大尺寸，减小光谱仪的体积。

在一些实施例的步骤S103中，通过对每个初始光谱仪结构进行光学仿真，可以的到每个光谱仪结构的初始性能参数；具体的，可以使用Ansys Zemax OpticStudio2022R2.02 Premium对每个初始光谱仪结构进行仿真，输出每个初始光谱仪结构的FFT-MTF曲线(Fast Fourier Transform of Modulation Transfer Function，调制传递函数的快速傅里叶变换)作为对应的初始性能参数，MTF曲线描述了光学系统在不同空间频率下对图像细节的传输能力，即光谱仪的空间频率响应，MTF曲线的峰值位置对应于光谱仪的最高分辨率，对MTF曲线进行FFT变换后，可以得到光谱仪在频率域下的图像细节的传输能力，FFT-MTF可以反映光谱仪的空间频率响应特性，如光谱仪的频谱分布，频率峰值等，以此可以有效评估光谱仪的性能并分析光谱仪结构优化方向，此时，建立每个初始光谱仪结构的结构特征与初始性能参数之间的映射，即可构建出完整的原始数据集，从而在经过后续优化后可以构建出光谱仪的全局最优结构。

在一些实施例的步骤S104中，第一动作神经网络是一个基于深度Q学习方法训练的策略网络，会根据输入的状态信息生成多个可执行的动作，并分别预测出执行每个动作后的结构特征，以此估算每个动作的Q值，并输出Q值最高的动作作为目标动作，具体的，在本实施示例中，将初始光谱仪结构的结构特征编码为状态信息，将该状态信息作为第一动作神经网络的输入，得到第一动作神经网络输出的目标动作。

在一些实施例的步骤S105中，第一动作神经网络可以与环境交互，计算出目标动作的第一奖励值，具体的，可以通过与仿真环境交互，计算出第一奖励值，可以理解的是，第一奖励值反映了执行目标动作优化结构特征后的光谱仪的性能参数与对应的初始光谱仪结构的初始性能参数之间的差值，参照图2，在一些实施例中，步骤S104之后还包括但不限于步骤S201至步骤S203。

步骤S201，执行目标动作以更新结构特征；

步骤S202，根据执行目标动作后的结构特征进行光学仿真，得到第一性能参数；

步骤S203，根据第一性能参数和初始性能参数确定目标动作的第一奖励值。

在一些实施例的步骤S201中，目标动作是指对光谱仪的结构特征进行更新的动作，比如将其中的某个光学元部件的位置参数修改为特定值或者将某个光学元部件的倾斜角度修改为特定值，从而得到更新后的结构特征。

在一些实施例的步骤S202中，根据更新后的结构特征在Ansys ZemaxOpticStudio2022 R2.02 Premium中进行光学仿真，得到更新后的结构特征所对应的光谱仪的FFT-MTF曲线作为其第一性能参数，基于第一性能参数可以评估更新后的结构特征所对应的光谱仪的空间频率响应特性。

在一些实施例的步骤S203中，基于第一性能参数可以得到更新后的结构特征所对应的光谱仪的空间频率响应特性，根据第一性能参数与初始性能参数可以计算出该目标动作前后光谱仪的实际性能变化情况，以此作为该目标动作的第一奖励值。

在第一奖励值未满足预设条件的情况下，将更新后的光谱仪的结构特征作为新的状态信息，再次输入第一动作神经网络中，使第一动作神经网络根据输入的新的状态信息输出新的目标动作，以此得到再次更新的结构特征，并更新第一奖励值直至第一奖励值满足预设条件，可以理解的是，由于第一奖励值反映的是更新后的结构特征对应的光谱仪性能参数与初始性能参数之间的差值，当第一奖励值不再发生变化后，即说明当前光谱仪的性能参数已优化到最优情况，即可将当前的结构特征视为光谱仪的最优结构特征，将此时的结构特征作为目标结构特征，即可得到光谱仪的全局最优结构。

在一些实施例中，得到光谱仪的全局最优结构后，还可以根据全局最优结构进行仿真，得到光谱仪的FFT-MTF曲线，以此验证光谱仪的目标性能参数。

在本申请实施例中，通过获取光谱仪中每个光学元部件的初始参数以得到每个光学元部件的尺寸、曲率半径等，再通过预设的步进角度和步进长度来演化光谱仪的具体结构，使每个光学元部件在给定的范围内旋转和位移，从而得到所有可能的初始光谱仪结构，再通过第一动作神经网络给出每个初始光谱仪结构的优化动作，并计算出每个优化动作的第一奖励值，并根据该第一奖励值确定目标结构特征，得到全局最优的光谱仪结构，由此，设计人员仅需设定好光谱仪中每个光学元部件的尺寸、曲率半径等信息，即可自动设计出全局最优的光谱仪结构，大大节省了设计人员的时间和精力，同时降低光谱仪结构设计过程中对选定的初始结构的依赖性，能更准确地构建出全局最优的光谱仪结构。

参照图3，在一些实施例中，步骤S104之前还包括但不限于步骤S301至步骤S302：

步骤S301，对每个初始光谱仪结构进行光线追踪处理，得到每个初始光谱仪结构的光线追踪结果；

步骤S302，根据光线追踪结果从原始数据集中去除主光线与至少一个光学元部件未交互的初始光谱仪结构所对应的结构特征。

在一些实施例的步骤S301中，可以基于OptiX框架进行对每个初始光谱仪结构进行光线追踪处理，具体的，根据初始光谱仪结构定义渲染场景，将光谱仪中的每个光学元部件编码成几何体并使用acceleration structure存储，在入射狭缝处生成入射光线，之后将入射光线与渲染场景中的几何体，即光谱仪中的每个光学元部件进行求交操作，得到与光线相交的物体，从而判断入射光线从入射狭缝射入后是否与光谱仪中的每个光学元部件交互。

可以理解的是，入射光线从狭缝射入Czerny-Turner光谱仪内部后，需要依次经过准直镜还原为平行光束，经由光栅分散成光谱线，再经由聚焦镜将光谱线聚焦后反射至CCD探测器上，当光线从入射狭缝射入光谱仪后，若未依次经过每个光学元部件，则无法分析出对应的光谱，即可视为该初始光谱仪结构不可用，而在步骤S102中，会基于预设步进参数构建出每个光学元部件分别处于给定空间中的任意位置以及倾斜任意角度的光谱仪结构，其中会包含大量不可用的初始光谱仪结构，对这些不可用的初始光谱仪结构进行优化也难以得到光谱仪的全局最优结构，同时还会浪费大量的时间和算力，基于此，在本实施例中，基于光线追踪结果将入射的主光线与至少一个光学元部件未交互的初始光谱仪结构从原始数据集中去除，从而降低设计光谱仪结构所需的时间，提高设计效率。

参照图4，在一些实施例中，由于原始数据集中每个初始光谱仪结构中的光学元部件分别处于给定空间中不同位置，或倾斜不同角度，即对于每个初始光谱仪结构，其具有每个光学元部件的位置参数以及每个光学元部件的倾斜角度两种维度的结构特征，为避免第一动作神经网络通过预设策略输出目标动作时过度关注其中某一个维度的结构特征而忽略了另一个维度的结构特征，步骤S104之前还包括但不限于如下步骤401。

步骤S401，对原始数据集中的每个光学元部件的倾斜角度、位置参数进行Z-score标准化处理，以将每个光学元部件的倾斜角度、位置参数统一至同一量纲范围。

具体的，可以参照如下公式分别对光学元部件的倾斜角度以及位置参数进行Z-score标准化处理：

式中，x_i表示第i个原始特征值，μ是对应的所有原始特征值的均值，σ表示原始特征值标准差，z_i表示标准化处理后的第i个特征值。Z-score可以在保留特征值分布的前提下，将特征值缩放到一个均值为0，标准差为1的标准正态分布中，由此将光学元部件的倾斜角度、位置参数两个维度的结构特征统一到同一量纲范围，避免第一动作神经网络过度关注其中的某个维度的结构特征而忽视其它维度的结构特征。

在一些实施例中，参照图5，在一些实施例中，基于机器学习的光谱仪结构设计方法还包括但不限于如下步骤S501至步骤S502。

步骤S501，响应于每个目标动作，将执行目标动作前的结构特征、目标动作、执行目标动作后的结构特征和目标动作的第一奖励值构成回放经验，并将回放经验加入经验回放池；

步骤S502，从经验回放池中抽取回放经验训练第一动作神经网络。

在一些实施例的步骤S601中，在每次生成目标动作并计算出目标动作的第一奖励值后，构建出对应的回放经验e_t＝(x_t,u_t,r_t,x_t+1)，其中x_t表示当前状态，即执行第t个目标动作前的结构特征，x_t+1表示下一个状态，即执行第t个目标动作后的结构特征，u_t表示第t目标动作，r_t表示第t个目标动作的第一奖励值。

在一些实施例的步骤S602中，将经验回放池中的回放经验作为训练样本，以此训练第一动作神经网络，具体的，可以通过随机梯度下降算法训练第一动作神经网络，不断更新第一动作神经网络的权重。

在一些实施例中，参照图6，步骤S203之后还包括但不限于步骤S601至步骤S602：

步骤S601，在预设目标动作网络中根据目标动作和执行目标动作前的结构特征预测目标动作的期望奖励值，其中，目标动作神经网络的参数根据第一动作神经网络的参数确定；

步骤S602，根据期望奖励值和第一奖励值更新第一动作神经网络的参数。

在一些实施例的步骤S601中，预设目标动作网络是一个网络结构和第一动作神经网络完全相同，但权重不在训练过程中实时更新的策略网络，具体的，每经过一段时间，会将第一动作神经网络的权重赋值到预设目标动作网络中，由此，便将目标动作网络的参数固定下来，再通过预设目标动作网络来计算每个目标动作的期望奖励值，即Q值时，可以降低Q值的方差，提高训练过程的稳定性。

在一些实施例中，第一动作神经网络会根据输入的状态信息，即光谱仪的结构特征生成多个可执行的动作，再通过一个动作价值函数计算每个动作的Q值并输出Q值最高的动作，由此在训练第一动作神经网络的过程中，需要不断优化动作价值函数Q(s，a)，Q(s，a)表示在状态s下采取动作a所获得的奖励，Q(s，a)可以表示为：

Q(s,a)＝E[r+γmaxQ(s^′,a^′)]，

其中，r表示在状态s下采取动作a所获得即时奖励，即第一奖励值，s^′和a^′分别表示根据当前状态和动作得到的下一个状态和动作，Q(s^′,a^′)表示在下一个状态s^′下采取动作a^′所获得的期望奖励值，γ表示折扣因子，E表示对未来奖励的期望值，结合贝尔曼方程可以得到

其中，Q(s,a)表示更新前的动作价值函数，Q(s₁a)表示更新后的动作价值函数，a是预设的学习率，用于控制每次更新的步长，通过上式不断优化第一动作神经网络的动作价值函数，使其不断逼近最优动作价值函数。在一些可行的实施例中，动作价值函数可以用Q(s，a|θ)来表示，其中θ表示第一动作神经网络的权重，此时，动作价值函数可以表示为：

式中，y_t表示第t个动作a_t的目标Q值，r_t表示第t个动作的第一奖励值，γ是预设的折扣因子，s_t+1表示下一个状态，即执行目标动作a_t后的结构特征，θ表示第一动作神经网络的权重，训练过程中可以使用均方误差作为第一动作神经网络的损失函数，具体的，参照下式：

其中L(θ)表示损失函数值，θ表示第一动作神经网络的权重，E表示期望值，r_t表示第t个目标动作的第一奖励值，γ表示预设折扣因子，s_t+1表示下一个状态，即执行目标动作a_t后的结构特征，s_t表示当前状态，即执行目标动作a_t前的结构特征。均方误差可以衡量第一动作神经网络的预测结果和真实结果之前的误差，该值越小，则表示第一动作神经网络的预测效果越好。

参照图7，本申请实施例还提出一种电子设备700，包括：

至少一个处理器，以及，

与至少一个处理器通信连接的存储介质；其中，

存储介质存储有指令，指令被至少一个处理器执行，以使至少一个处理器执行指令时实现如本申请实施例中任一项的方法。

下面结合图7对电子设备700的硬件结构进行详细说明。该计算机设备包括：处理器710、存储器720、输入、输出接口730、通信接口740和总线750。

处理器710，可以采用通用的中央处理器(Central Processing Unit，CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本公开实施例所提供的技术方案；

存储器720，可以采用只读存储介质(Read Only Memory，ROM)、静态存储设备、动态存储设备或者随机存取存储介质(Random Access Memory，RAM)等形式实现。存储器720可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器720中，并由处理器710来调用执行本公开实施例的基于机器学习的光谱仪结构设计方法；

输入、输出接口730，用于实现信息输入及输出；

通信接口740，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线750，在设备的各个组件(例如处理器710、存储器720、输入、输出接口730和通信接口740)之间传输信息；

其中处理器710、存储器720、输入、输出接口730和通信接口740通过总线750实现彼此之间在设备内部的通信连接。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作、步骤，也不是必须按所描述的顺序运行。例如，有的操作、步骤还可以分解，而有的操作、步骤可以合并或部分合并，因此实际运行的顺序有可能根据实际情况改变。

本申请实施例还提供一种存储介质，该存储介质是计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令用于使计算机执行本申请实施例的基于机器学习的光谱仪结构设计方法。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、设备中的功能模块、单元可以被实施为软件、固件、硬件及其适当的组合。

本申请的说明书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和、或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和、或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“、”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上参照附图说明了本申请实施例的优选实施例，并非因此局限本申请实施例的权利范围。本领域技术人员不脱离本申请实施例的范围和实质内所作的任何修改、等同替换和改进，均应在本申请实施例的权利范围之内。

Claims

1.一种基于机器学习的光谱仪结构设计方法，所述方法包括：

获取光谱仪中每个光学元部件的初始参数；

根据所述目标结构特征确定所述光谱仪的目标结构。

2.根据权利要求1所述的方法，其特征在于，在所述将所述原始数据集中的所述结构特征输入预设的第一动作神经网络，得到对应的目标动作之后，包括：

执行所述目标动作以更新所述结构特征；

3.根据权利要求2所述的方法，其特征在于，在根据所述第一性能参数和所述初始性能参数确定所述目标动作的所述第一奖励值之后，还包括：

4.根据权利要求1所述的方法，其特征在于，在所述根据所述目标结构特征确定所述光谱仪的目标结构之后，还包括：

5.根据权利要求1所述的方法，其特征在于，所述结构特征包括所述光谱仪中每个所述光学元部件的倾斜角度、位置参数中的至少一个，在将所述原始数据集中的所述结构特征输入预设的第一动作神经网络，得到对应的目标动作之前，还包括：

对所述原始数据集中的每个所述光学元部件的倾斜角度、位置参数进行Z-score标准化处理，以将每个所述光学元部件的倾斜角度、位置参数统一至同一量纲范围。

6.根据权利要求1所述的方法，其特征在于，在所述将所述原始数据集中的所述结构特征输入预设的第一动作神经网络，得到对应的目标动作之前，还包括：

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.根据权利要求1所述的方法，其特征在于，所述预设步进参数包括预设步进长度和预设步进角度中的至少一个，所述预设步进长度是0.1毫米，所述预设步进角度是0.1度。

9.一种电子设备，其特征在于，所述电子设备包括存储介质、处理器、存储在所述存储介质上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储介质之间的连接通信的数据总线，所述程序被所述处理器运行时实现如权利要求1至8中任一项所述的基于机器学习的光谱仪结构设计方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器运行，以实现如权利要求1至8中任一项所述的基于机器学习的光谱仪结构设计方法。