CN117057255B

CN117057255B - 一种用于数字孪生模型在线同步的预训练模型获取方法

Info

Publication number: CN117057255B
Application number: CN202311307445.XA
Authority: CN
Inventors: 肖云龙; 刘浩; 景应刚; 程敏敏
Original assignee: Research Institute of Nuclear Power Operation; China Nuclear Power Operation Technology Corp Ltd
Current assignee: Research Institute of Nuclear Power Operation; China Nuclear Power Operation Technology Corp Ltd
Priority date: 2023-10-10
Filing date: 2023-10-10
Publication date: 2024-01-02
Anticipated expiration: 2043-10-10
Also published as: CN117057255A

Abstract

一种用于数字孪生模型在线同步的预训练模型获取方法，包括：构建并初始化数字孪生模型与强化学习网络模型，数字孪生模型包括数字孪生模型本体以及差分进化算法，强化学习网络模型的状态包括迭代百分比、种群多样性和个体停滞变化的持续时间，强化学习网络模型的动作包括控制差分进化算法的伸缩因子F与交叉概率CR，以数字孪生模型本体作为待优化对象分批次进行训练，直至数字孪生模型本体的损失函数不再下降，获取此时优化该数字孪生模型的自适应差分进化算法的动作网络，该动作网络能够根据在线同步过程中不同的迭代状态提供差分进化算法的最优超参数组合，实现数字孪生模型与机组快速、高效的状态同步。

Description

一种用于数字孪生模型在线同步的预训练模型获取方法

技术领域

本发明属于核电厂安全运行技术领域，具体涉及一种用于核电数字孪生模型自动同步中的差分进化算法超参数优化的预训练模型获取方法以及基于预训练模型的数字孪生模型自动同步方法。

背景技术

从核电站运行角度看，核电站是由堆芯、一回路、二回路以及三回路组成，忽略各个回路之间的输入输出，整个核电厂的输入参数主要包含设备状态、堆芯的棒位、硼浓度、氙毒、海水温度、海水流量，输出则是电功率以及各类传感器的测量值，输入输出关系明确，并且几乎都可以从机组数据中获取，同时由于机组绝大多数情况下都处于满功率运行状态，样本多并且输入数据的变化范围能够确定，因此基于这些数据，核电数字孪生模型的开发具有非常大的可行性。

在机组实际运行过程中，由于设备特性会随时间变化，例如蒸汽系统汽轮机级组的管道随着其内部结垢和阻塞，表征汽轮机流通能力的导纳系数会发生改变，导致数字孪生模型很难实现与实际机组的同步，在人工调试的过程中，工程师们只能从单个节点出发进行调试，无法从全局考虑各个节点对整个系统的影响，没有根据实际机组运行情况进行调整的能力，而且也缺乏高精度的自动化同步计算程序，因此长时间运行后蒸汽系统数字孪生系统与实际机组的数据偏差会越来越大，研究自动化同步调整方案意义重大。

目前，已使用差分进化算法进行数字孪生模型在同步过程的超参数调节，但是差分进化算法作为智能优化算法中的一种，在进行超参数调节时很依赖具体的优化问题，故即使使用差分进化算法进行数字孪生模型的参数调整，还是需要人工反复调试才能找到较优的参数组合，因此，如何实现智能优化算法尤其是差分进化算法在核电蒸汽系统数字孪生模型中的超参数自适应调节，以改善核电蒸汽系统数字孪生模型与实际机组偏差逐渐增大的情形，提高核电蒸汽系统数字孪生模型与实际机组的自动化同步能力是亟需解决的问题。

发明内容

本发明的目的是提供一种用于数字孪生模型在线同步的预训练模型获取方法，其构建强化学习网络并通过离线训练获取用于指定数字孪生系统同步时的动作网络，以用于后续数字孪生系统同步时的超参数自适应调节。

为实现上述目的，本发明提供了一种用于数字孪生模型在线同步的预训练模型获取方法，包括如下步骤：

S1构建并初始化数字孪生模型与强化学习网络模型，其中，所述数字孪生模型包括数字孪生模型本体以及用于优化所述数字孪生模型本体的差分进化算法，所述强化学习网络模型用于基于所述数字孪生模型进行离线训练以获取所述数字孪生模型对应的预训练模型；

所述强化学习网络模型包括动作-值网络与目标动作-值网络，所述动作-值网络包括动作网络和估值网络，所述动作网络接受状态S_t作为输入并输出动作a_t，所述估值网络接受所述状态S_t和所述动作a_t作为输入并输出对应动作的估值，其中，基于差分进化算法迭代过程中生成的状态变量统计获取所述状态S_t，所述状态S_t包括迭代百分比、种群多样性和个体停滞变化的持续时间，所述动作a_t为二维，包括动作值a₀与动作值a₁，所述动作值a₀和所述动作值a₁分别用于控制所述差分进化算法的伸缩因子F与交叉概率CR，且所述动作值a₀与所述动作值a₁介于-1~1之间；所述动作a_t包括a₀和a₁，所述a₀和a₁分别用于控制所述差分进化算法的伸缩因子F与交叉概率CR；所述目标动作-值网络包括目标动作网络与目标估值网络，所述目标动作网络、所述目标估值网络分别与所述动作网络、估值网络相同设置，所述目标动作-值网络用于生成目标值，并基于所述动作-值网络降低所述目标值的估计误差；

S2获取待优化参数，以所述数字孪生模型本体作为待优化对象，将待优化参数划分为多个批次进行训练，每批次训练包括如下步骤：

S21将本批次的待优化参数输入至数字孪生模型本体中，并经由差分进化算法进行数字孪生模型本体的优化，所述待优化参数为从对所述数字孪生系统计算结果有重要影响的标定参数中选取；

S22收集数字孪生模型优化过程中所生成的四元组（S_t，a_t，r_t，S_t+1）作为所述强化学习网络模型的经验回放数据，其中，S_t为状态，S_t+1为下一时间的状态，a_t为动作，r_t为奖励，由所述数字孪生模型本体根据本次的迭代损失生成；

S23从所述经验回放数据中随机选出四元组作为所述强化学习网络模型的训练数据，并通过小批量梯度下降的方式更新所述估值网络的权重参数，通过小批量梯度上升的方式更新所述动作网络的权重参数；

S3对每批次的所述待优化参数执行上述S2，直至所述数字孪生模型本体的损失函数不再下降，获取此时优化该数字孪生模型的自适应差分进化算法的动作网络作为所述数字孪生模型的预训练模型。

优选的，所述S23中，所述通过小批量梯度下降的方式更新所述估值网络的权重参数，通过小批量梯度上升的方式更新所述动作网络的权重参数，包括：

S231将随机选取四元组中的当前时间状态S_t作为所述动作网络的输入，所述动作网络对应生成动作a_t，将当前生成动作a_t反馈至所述差分进化算法中，由所述差分进化算法基于所述动作a_t进行迭代，获取所述数字孪生模型的下一轮伸缩因子F与交叉概率CR；

S232将下一轮伸缩因子F与交叉概率CR反馈至数字孪生模型本体进行数字孪生模型本体的优化，所述数字孪生模型本体根据本次的迭代损失生成奖励r_t并反馈至所述动作-值网络，其中，若迭代损失降低，则奖励值加一，否则减一；

S233基于奖励值与所述目标值计算反馈信号，基于所述反馈信号通过小批量梯度下降的方式更新所述估值网络的权重参数、通过小批量梯度上升的方式更新所述动作网络的权重参数；

S234所述目标动作-值网络使用软更新的方式更新目标动作网络与目标估值网络的权重，在每次更新时，通过将S233中更新后所述动作-值网络的部分权重与更新前的所述目标动作-值网络的权重进行融合，以更新所述目标动作-值网络的权重。

优选的，所述S1中，经由如下公式统计所述差分进化算法在迭代过程中生成的状态变量以获取所述迭代百分比、所述种群多样性/>以及所述个体停滞变化的持续时间/>：

；

为当前迭代数；/>为最大迭代数；N表示粒子种群数；D表示粒子的维度；/>表示迭代过程为t时第i粒子的第j维的值；/>表示迭代过程为t时所有粒子在第j维的平均值；/>为最近一次全局最优更新时的迭代记录值。

优选的，所述S1中，所述动作网络与所述目标动作网络分别包括用于状态转换的第一输入层、用于数据计算的第一中间层以及用于动作转换的第一输出层，所述第一输入层将迭代百分比、种群多样性和个体停滞变化的持续时间的结果分别映射到-1到1之间，所述第一中间层设置为3层，所述第一输出层用于经过线性变换将伸缩因子F与交叉概率CR映射到预设的区间。

优选的，经由如下公式进行所述输入层的状态转换：，其中f的取值为0，1，2。

优选的，所述线性变换用于将所述伸缩因子F变换至（m，n）的区间范围内以及用于将所述交叉概率CR变换到（x，y）的区间范围内，其中，m，n，x，y均为预设值；；

。

优选的，所述S1中，所述估值网络与所述目标估值网络分别包括用于第二输入层与第三输入层、第二中间计算层以及第二输出层，其中第二输入层处理所述状态，第三输入层用于处理所述动作、第二中间计算层设置为5层，用于数据计算，所述第二输出层的输出用于评估所述伸缩因子F与交叉概率CR的价值。

为实现上述目的，本发明还提供一种基于动作网络的数字孪生模型的在线同步方法，基于所述用于差分进化算法超参数自动优化的预训练模型获取方法离线训练，获取数字孪生模型对应的动作网络；

为所述数字孪生模型加载所述动作网络，实时获取待优化参数输入至所述数字孪生模型中，经由所述动作网络自适应更新差分进化算法的伸缩因子F和交叉概率CR，获取最优的运行参数组合；

基于所述最优运行参数组合进行所述数字孪生模型在线同步。

为实现上述目的，本发明还提供一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

为实现上述目的，本发明还提供计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述用于数字孪生模型在线同步的预训练模型获取方法的步骤。

本发明所示的一种用于数字孪生模型在线同步的预训练模型获取方法，通过在原有的数字孪生本体与差分进化算法的基础上，增设强化学习网络模型，然后以数字孪生模型本体作为待优化对象，以差分进化算法的迭代状过程的状态量、伸缩因子F与交叉概率CR分别作为强化学习网络模型的状态和动作，通过离线训练生成匹配该数字孪生模型的动作网络作为预训练模型；然后在数字孪生模型的在线同步过程中，为数字孪生模型加载对应的动作网络，从而实现根据在线优化过程中的各种状态，通过动作自适应更新差分进化算法的超参数，对目标进行快速优化，其将固定的差分策略替换为能够从进行自适应选择的参数生成方法，提升了算法跳出局部最优的能力，解决了现有技术中数字孪生模型在同步过程或者容易陷入局部最优解以及收敛速度慢的技术问题，可有效提高超参数调优的智能化和自动化水平，同时改善核电蒸汽系统数字孪生模型与实际机组偏差逐渐增大的问题，提高核电蒸汽系统数字孪生模型与实际机组的自动化同步能力。

附图说明

图1为本发明一种用于数字孪生模型在线同步的预训练模型获取方法一实施例工作原理示意图；

图2为图1所示实施例中动作网络的工作原理示意图；

图3为图1所示实施例中强化学习网络模型的工作原理示意图；

图4为本发明一种基于动作网络的数字孪生模型的在线同步方法一实施例的工作流程示意图；

图5为一实施例的设备硬件结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面将结合本发明实施例中的附图，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

如图1所示，本发明公开了一种用于数字孪生模型在线同步的预训练模型获取方法，包括如下步骤：

S1、构建并初始化数字孪生模型与强化学习网络模型，其中，所述数字孪生模型包括数字孪生模型本体以及用于优化所述数字孪生模型本体的差分进化算法，所述强化学习网络模型用于基于所述数字孪生模型进行离线训练以获取所述数字孪生模型对应的预训练模型；

本发明所示的一种用于数字孪生模型在线同步的预训练模型获取方法，采用自适应差分进化算法对核电蒸汽系统数字孪生模型与实际机组进行自动化同步，自适应过程能够减小算法对超参数的依赖，同时根据实际机组运行情况进行自动调整，提高数字孪生模型与实际机组长时间的同步能力。具体而言，首先，通过在原有的数字孪生模型本体与差分进化算法基础之上，基于深度确定性策略梯度算法设计强化学习网络模型，并对应设计强化学习网络模型状态与动作，其中，基于差分进化算法在迭代过程中生成的状态变量统计获取强化学习网络模型的状态，包括：迭代百分比、种群多样性和个体停滞变化的持续时间，强化学习网络模型的动作设置为控制差分进化算法的伸缩因子F与交叉概率CR的动作a_t；然后，以数字孪生模型本体作为待优化对象，以基于差分进化算法生成的迭代百分比、种群多样性、个体停滞变化和a_t分别作为强化学习网络模型的状态和动作，通过离线训练生成匹配该数字孪生模型的动作网络作为预训练模型，最后，在数字孪生模型在线同步时，通过在原有的差分进化算法中引入训练好的动作网络来动态调节算法的收敛速度，应用动作网络求解超参数的优化问题，减少同步过程中的人工参与，提高了超参数调优的智能化和自动化水平。

关于强化学习网络模型的状态S_t，作为一优选方案，本实施例中，经由如下公式统计差分进化算法在迭代过程中生成的状态变量以获取所述强化学习网络模型的状态S_t，包括的迭代百分比、种群多样性/>和个体停滞变化的持续时间：

；

其中，为当前迭代数；/>为最大迭代数；N表示粒子种群数；D表示粒子的维度；

表示迭代过程为t时第i粒子的第j维的值；

表示迭代过程为t时所有粒子在第j维的平均值；

为最近一次全局最优更新时的迭代记录值。

关于强化学习网络模型的结构，如前所述，强化学习网络模型包括用于产生预测值的动作-值网络以及用于产生标签的目标动作-值网络，其中，动作网络是深度确定性策略梯度算法中的策略网络，它接受状态作为输入，并输出动作；估值网络是深度确定性策略梯度算法中的值函数网络，它通过接受状态和动作作为输入，输出对应动作的估值，目标动作-值网络整体是为了提供一个稳定的目标估计，初始化过程中，目标动作网络与目标估值网络各自权重值分别从其对应的动作网络和估值网络中获取，在每次更新时，使用软更新的方式更新目标动作网络与目标估值网络的权重值，即将一部分更新后动作-值网络权重与更新前的目标动作-值网络重进行融合，来更新目标动作-值网络的权重值。

作为一优选方案，如下表1所示，本实施例中，所述动作网络与所述目标动作网络分别包括用于状态转换的第一输入层、用于数据计算的第一中间层以及用于动作转换的第一输出层，所述第一输入层将迭代百分比、种群多样性和个体停滞变化的持续时间的结果映射到-1到1之间，所述第一中间层设置为3层，第一输出层经过线性变换将伸缩因子F与交叉概率CR映射到合理的预设的区间。

表1：

如下表2所示，所述估值网络与所述目标估值网络分别包括用于第二输入层与第三输入层、第二中间计算层以及第二输出层，其中第二输入层处理所述状态，第三输入层用于处理所述动作、第二中间计算层设置为5层，用于数据计算，所述第二输出层的输出用于评估所述伸缩因子F与交叉概率CR的价值。

表2：

如图2所示，本实施例中，第一输入层将状态S_t的结果映射到-1到1之间，是为了解决状态之间差异较大的问题，本实施例中，采样如下转换方式实现状态：

；

其中，x为状态，f的取值为0，1，2，此外，还可根据经验将f的取值设置为其他整数。

当f的取值为0，1，2时，一个x最终会产生三个新的参数，假设 ,, />，则新生成的参数如下：

，

；

a0、a1是动作网络的动作值，其范围都在-1~1之间，经过线性变换分别映射到F和CR的区间里，两个值的范围均在-1~1之间，其中，线性变换的主要目的是同步F与a0、CR与a1在各自区间对应的值，本实施例中，为了实现在不改变整个网络的特征学习，使得动作可直接应用于差分网络的两个超参数的设计中设计输出层，通过线性变换方式将动作映射到合理的区间，故将伸缩因子F变换在m到n区间，交叉概率CR变换在x到y之间，线性变换公式如下：；

；

例如当F的设置区间在0.4到0.9之间，CR的设置区间在0.1到1之间时，可取如下公式以通过线性变换将动作映射到所设置的区间中；

；

上述数字孪生模型以及强化学习网络设置完毕后，则以核电蒸汽系统数字孪生模型作为待优化对象进行强化学习网络的离线训练，从而获取最合适该数字孪生模型的动作网络以用于后续的在线同步。

考虑到蒸汽系统数字孪生模型是复杂的多耦合系统，本实施例中，对于数字孪生模型本体，根据用户经验对核电蒸汽系统数字孪生模型进行分析，选择对数字孪生系统计算结果有重要影响的标定参数作为数字孪生模型本体的待优化参数，例如各部分管路的管网阻力与组效率等参数；同时，选定需要重点关注的流量、压力、温度、功率等作为数字孪生模型本体的目标参数，并根据取值范围和重要程度确定权重，将上述待优化参数分批次输入至数字孪生模型以及强化学习网络模型中进行训练，每次训练分别包括如下步骤：

S21将本批次的待优化参数输入至数字孪生模型本体中，并经由差分进化算法进行数字孪生模型本体的优化；

S22收集数字孪生模型优化过程中所生成的四元组（S_t，a_t，r_t，S_t+1）作为所述强化学习网络模型的经验回放数据，其中，S_t为当前时间的状态，即包括迭代百分比、种群多样性和个体停滞变化的持续时间，S_t+1为下一时间的状态，包括下一时间迭代百分比、下一时间种群多样性和下一时间个体停滞变化的持续时间，a_t为动作，r_t为奖励，由所述数字孪生模型本体根据本次的迭代损失生成；

S23从所述经验回放数据中随机选出四元组作为所述强化学习网络模型的训练数据，并通过小批量梯度下降的方式更新所述动作网络的权重参数，通过小批量梯度上升的方式更新所述估值网络的权重参数，如图3所示，包括：

本实施例中，在训练过程中，采用Adam优化器，学习率（Learning rate）设置0.0001，每批次（Batch size）设置200个样本，每批次训练过程中，动作网络根据当前状态生成超参数组合，估值网络评估当前生成的超参数组合，根据评估指标的反馈不断地更新超参数组合值，直至所述数字孪生模型本体的损失函数不再下降，获取此时优化该数字孪生模型的自适应差分进化算法的动作网络作为所述数字孪生模型的预训练模型。

如图4所示，本发明还提供了一种基于动作网络的数字孪生模型的在线同步方法，包括：

S1基于实施例一中所示的用于数字孪生模型在线同步的预训练模型获取方法，获取指定的数字孪生模型的动作网络；

S2为所述数字孪生模型加载对应的动作网络，实时获取待优化参数输入至所述数字孪生模型中，经由所述动作网络自适应更新差分进化算法的伸缩因子F和交叉概率CR，获取最优的运行参数组合；

S3基于所述最优运行参数组合进行所述数字孪生模型在线同步。

本发明所示的一种基于动作网络的数字孪生模型的在线同步方法，首先，通过上述实施例一所示的方法，对于不同的数字孪生模型分别预训练出对应的动作网络作为预训练模型；数字孪生模型在线同步时，为该数字孪生模型加载对应的预训练模型即动作网络，然后以孪生模型作为待优化对象，根据当前种群优化过程中的状态，通过加载动作网络在线更新差分进化算法的超参数（伸缩因子F和交叉概率CR），最终获取最优运行参数组合，实现核电蒸汽系统数字孪生模型快速、高精度的自动化同步。

本发明还提供一种计算机设备，如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器（包括独立的服务器，或者多个服务器所组成的服务器集群）等。本实施例的计算机设备20至少包括但不限于：可通过系统总线相互通信连接的存储器21、处理器22，如图5所示。需要指出的是，图5仅示出了具有组件21-22的计算机设备20，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器21（即可读存储介质）包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备20的内部存储单元，例如该计算机设备20的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备20的外部存储设备，例如该计算机设备20上配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。当然，存储器21还可以既包括计算机设备20的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备20的操作系统和各类应用软件，例如实施例一的方法的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器或其他数据处理芯片。该处理器22通常用于控制计算机设备20的总体操作。本实施例中，处理器22用于运行存储器21中存储的程序代码或者处理数据，以实现实施例一的方法。

本发明还提供一种计算机可读存储介质，如闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于计算机程序，被处理器执行时实现实施例一的方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于动作网络的数字孪生模型的在线同步方法，其特征在于：包括：

对于不同的数字孪生模型分别预训练出对应的动作网络作为预训练模型，包括：

S1构建并初始化数字孪生模型与强化学习网络模型，其中，所述数字孪生模型包括数字孪生模型本体以及用于优化所述数字孪生模型本体的差分进化算法，所述强化学习网络模型用于基于所述数字孪生模型进行离线训练以获取所述数字孪生模型对应的预训练模型，其中，所述数字孪生模型本体为核电蒸汽系统数字孪生模型，所述预训练模型为所述数字孪生模型对应的动作网络；

所述强化学习网络模型包括动作-值网络与目标动作-值网络，所述动作-值网络包括动作网络和估值网络，所述动作网络接受状态S_t作为输入并输出动作a_t，所述估值网络接受所述状态S_t和所述动作a_t作为输入并输出对应动作的估值，其中，基于所述差分进化算法优化所述数字孪生模型本体的迭代过程中生成的状态变量统计获取所述状态S_t，所述状态S_t包括迭代百分比、种群多样性和个体停滞变化的持续时间，所述动作a_t为二维，包括动作值a₀与动作值a₁，所述动作值a₀和所述动作值a₁分别用于控制所述差分进化算法的伸缩因子F与交叉概率CR，且所述动作值a₀与所述动作值a₁介于-1~1之间；所述目标动作-值网络包括目标动作网络与目标估值网络，所述目标动作网络、所述目标估值网络分别与所述动作网络、估值网络相同设置，所述目标动作-值网络用于生成目标值，并基于所述动作-值网络降低所述目标值的估计误差；

S2获取待优化参数，以所述数字孪生模型本体作为待优化对象，将待优化参数划分为多个批次进行训练，其中，所述待优化参数从对所述数字孪生系统计算结果有重要影响的标定参数中选取，所述待优化参数包括部分管路的管网阻力与组效率，每批次训练包括如下步骤：

S21将本批次的待优化参数输入至数字孪生模型本体中，并经由差分进化算法进行数字孪生模型本体的优化，

S22收集数字孪生模型优化过程中生成的四元组（S_t，a_t，r_t，S_t+1）作为所述强化学习网络模型的经验回放数据，其中，S_t为状态，S_t+1为下一时间的状态，a_t为动作，r_t为奖励，由所述数字孪生模型本体根据本次的迭代损失生成；

S3对每批次的所述待优化参数执行上述S2，直至所述数字孪生模型本体的损失函数不再下降，获取此时优化该数字孪生模型的自适应差分进化算法的动作网络作为所述数字孪生模型的预训练模型；

2.根据权利要求1所述的一种基于动作网络的数字孪生模型的在线同步方法，其特征在于，所述S23中，所述通过小批量梯度下降的方式更新所述估值网络的权重参数，通过小批量梯度上升的方式更新所述动作网络的权重参数，包括：

3.根据权利要求1所述的一种基于动作网络的数字孪生模型的在线同步方法，其特征在于，所述S1中，经由如下公式统计所述差分进化算法在迭代过程中生成的状态变量以获取所述迭代百分比、所述种群多样性/>以及所述个体停滞变化的持续时间/>：

；

为当前迭代数；/>为最大迭代数；N表示粒子种群数；D表示粒子的维度；表示迭代过程为t时第i粒子的第j维的值；/>表示迭代过程为t时所有粒子在第j维的平均值；/>为最近一次全局最优更新时的迭代记录值。

4.根据权利要求1所述的一种基于动作网络的数字孪生模型的在线同步方法，其特征在于，所述S1中，所述动作网络与所述目标动作网络分别包括用于状态转换的第一输入层、用于数据计算的第一中间层以及用于动作转换的第一输出层，所述第一输入层将迭代百分比、种群多样性和个体停滞变化的持续时间的结果分别映射到-1到1之间，所述第一中间层设置为3层，所述第一输出层用于经过线性变换将伸缩因子F与交叉概率CR映射到预设的区间。

5.根据权利要求4所述的一种基于动作网络的数字孪生模型的在线同步方法，其特征在于，经由如下公式进行所述输入层的状态转换：，其中f的取值为0，1，2。

6.根据权利要求4所述的一种基于动作网络的数字孪生模型的在线同步方法，其特征在于，所述线性变换用于将所述伸缩因子F变换至（m，n）的区间范围内以及用于将所述交叉概率CR变换到（x，y）的区间范围内，其中，m，n，x，y均为预设值，；

。

7.根据权利要求1所述的一种基于动作网络的数字孪生模型的在线同步方法，其特征在于，所述S1中，所述估值网络与所述目标估值网络分别包括用于第二输入层与第三输入层、第二中间计算层以及第二输出层，其中第二输入层处理所述状态，第三输入层用于处理所述动作、第二中间计算层设置为5层，用于数据计算，所述第二输出层的输出用于评估所述伸缩因子F与交叉概率CR的价值。

8.一种计算机设备，其特征在于：包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。