CN116757095B

CN116757095B - 一种基于云边端协同的电力系统运行方法、装置及介质

Info

Publication number: CN116757095B
Application number: CN202311014964.7A
Authority: CN
Inventors: 李颖毅; 朱雷鹤; 洪建光; 翁格平; 马丽军; 李琪; 任娇蓉; 郑瑞云; 蔡振华; 杨建立; 杨强; 何中杰
Original assignee: Zhejiang Siji Technology Service Co ltd; Ningbo Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Zhejiang Siji Technology Service Co ltd; Ningbo Power Supply Co of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2023-08-14
Filing date: 2023-08-14
Publication date: 2023-11-07
Anticipated expiration: 2043-08-14
Also published as: CN116757095A

Abstract

本发明提供了一种基于云边端协同的电力系统运行方法、装置及介质，涉及电力系统技术领域，方法包括：获取目标电力系统的当前运行数据；采用云端下发的训练好的智能体对所述当前运行数据进行处理，确定当前时刻的当前控制策略；其中，所述训练好的智能体采用与孪生仿真体交互得到的经验数据通过SAC算法训练得到，所述孪生仿真体是通过对现有电力系统中电网设备的实际原型状态数据在状态空间中进行数字孪生仿真得到的；根据所述当前控制策略控制终端动作。本发明将通过SAC算法训练得到的智能体应用到目标电力系统生成控制策略，无需针对目标电力系统单独训练模型，减轻了模型训练的工作量，并且提高了电力系统上线运行的效率。

Description

一种基于云边端协同的电力系统运行方法、装置及介质

技术领域

本发明涉及电力系统技术领域，具体而言，涉及一种基于云边端协同的电力系统运行方法、装置及介质。

背景技术

随着云计算和边缘计算技术的不断发展，云边端协同技术在电力系统中的应用越来越广泛。通过在云端和边缘端部署计算平台，能够有效提升电力系统的数据处理能力和系统安全性能。

为了实现云边端协同系统中资源的协同调度，目前常通过机器学习模型来实现电力系统分层自治运行。但是，由于不同的电力系统之间差异性较大，目前常针对不同的电力系统分别训练机器学习模型，工作量较大，导致电力系统上线运行的效率较低。

发明内容

本发明解决的问题是如何降低模型的训练工作量，提高电力系统上线运行的效率。

为解决上述问题，本发明提供一种基于云边端协同的电力系统运行方法、装置及介质。

第一方面，本发明提供了一种基于云边端协同的电力系统运行方法，基于云边端协同系统，所述云边端协同系统包括云端、边缘端和终端；所述电力系统运行方法包括：

获取目标电力系统的当前运行数据；

采用所述云端下发的训练好的智能体对所述当前运行数据进行处理，确定当前时刻的当前控制策略；其中，所述训练好的智能体采用与孪生仿真体交互得到的经验数据通过SAC算法训练得到，所述孪生仿真体是通过对现有电力系统中电网设备的实际原型状态数据在状态空间中进行数字孪生仿真得到的；

根据所述当前控制策略控制所述终端动作。

可选地，所述采用所述云端下发的训练好的智能体对所述当前运行数据进行处理之前，还包括：

获取所述孪生仿真体的第一运行数据；

将所述第一运行数据输入中间智能体，确定下一时刻的第一控制策略；

通过所述孪生仿真体对所述第一控制策略进行仿真计算，确定所述孪生仿真体执行后的第二运行数据；

根据所述第二运行数据确定所述第一控制策略的奖励值，将所述第一运行数据、所述第一控制策略、所述第二运行数据和所述奖励值作为一个所述经验数据，存入经验回放池；

从所述经验回放池中提取所述经验数据，采用所述SAC算法训练所述中间智能体，循环迭代训练所述中间智能体，直至满足预设收敛规则，获得所述训练好的智能体。

可选地，所述从所述经验回放池中提取所述经验数据，采用所述SAC算法训练所述中间智能体包括：

获取所述孪生仿真体的先验知识、所述经验数据中的同策略数据和异策略数据；

根据所述先验知识和所述同策略数据确定所述孪生仿真体的特征向量；

根据所述特征向量和所述异策略数据采用所述SAC算法训练所述中间智能体。

可选地，所述根据所述先验知识和所述同策略数据确定所述孪生仿真体的特征向量包括：

通过采样器对所述同策略数据进行采样，得到多个上下文数据；

将先验知识分别与各个所述上下文数据相结合，通过编码器确定所述孪生仿真体的所述特征向量。

可选地，所述通过编码器确定所述孪生仿真体的所述特征向量包括：

对输入的所述先验知识和所述上下文数据的组合进行编码，得到各个所述组合的编码结果；

将各个所述组合对应的所述编码结果输入预设的神经网络，以确定各个所述编码结果的均值和方差，每个所述编码结果对应的所述均值和方差形成一个高斯分布；

根据所有所述编码结果的所述高斯分布确定所述特征向量。

可选地，所述从所述经验回放池中提取所述经验数据，采用所述SAC算法训练所述中间智能体还包括：根据电网潮流信息生成所述状态空间，所述电网潮流信息包括线路功率、母线电压、输出功率和电网负荷中的至少一者。

可选地，所述奖励值包括所述中间智能体的收敛能力值和安全约束值。

第二方面，本发明提供的一种基于云边端协同的电力系统运行装置，其特征在于，基于云边端协同系统，所述云边端协同系统包括云端、边缘端和终端；所述电力系统运行装置包括：

获取模块，用于获取目标电力系统的当前运行数据；

处理模块，用于采用所述云端下发的训练好的智能体对所述当前运行数据进行处理，确定当前时刻的当前控制策略；其中，所述训练好的智能体采用与孪生仿真体交互得到的经验数据通过SAC算法训练得到，所述孪生仿真体是通过对现有电力系统中电网设备的实际原型状态数据在状态空间中进行数字孪生仿真得到的；

控制模块，用于根据所述当前控制策略控制所述终端动作。

第三方面，本发明提供的一种基于云边端协同的电力系统运行装置，包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如第一方面所述的基于云边端协同的电力系统运行方法。

第四方面，本发明提供的一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如第一方面所述的基于云边端协同的电力系统运行方法。

本发明的基于云边端协同的电力系统运行方法、装置及介质的有益效果是：获取目标电力系统的当前运行数据，当前运行数据可包括当前时刻电力系统的母线电压和线路功率等数据。将当前运行数据输入训练好的智能体，输出当前时刻的当前控制策略。根据当前控制策略控制终端动作，实现电力系统运行。可预先在云端对智能体进行训练，具体可根据与孪生仿真体交互的经验数据采用SAC算法进行训练，孪生仿真体表示对现有电力系统中电力设备、拓扑结构和状态数据进行仿真得到的数字模型，由于SAC算法训练得到的智能体适用于任务之间的迁移和快速适用，现有电力系统可不同于目标电力系统，可预先针对拓扑结构清楚、样本数据丰富的现有电力系统建立孪生仿真体，然后利用该孪生仿真体进行智能体训练，将训练好的智能体迁移到目标电力系统中，仅需目标电力系统中的少量样本数据，就可使训练好的智能体快速适应目标电力系统。本发明的技术方案通过SAC算法和孪生仿真体预先训练智能体，仅需少量样本数据就可将训练好的智能体迁移到多个不同的目标电力系统中，实现目标电力系统的运行控制，相较于现有技术针对多个目标电力系统分别单独训练机器学习模型，有效降低了工作量，提高了电力系统上线运行的效率。

附图说明

图1为本发明实施例的一种基于云边端协同的电力系统运行方法的流程示意图；

图2为本发明实施例的一种云边端协同系统的交互过程示意图；

图3为本发明实施例的一种基于云边端协同的电力系统运行装置的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施例做详细的说明。虽然附图中显示了本发明的某些实施例，然而应当理解的是，本发明可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本发明。应当理解的是，本发明的附图及实施例仅用于示例性作用，并非用于限制本发明的保护范围。

应当理解，本发明的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本发明的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”；术语“可选地”表示“可选的实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本发明中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本发明实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

如图1和图2所示，本发明提供的一种基于云边端协同的电力系统运行方法，基于云边端协同系统，所述云边端协同系统包括云端、边缘端和终端，可应用于边缘端；所述电力系统运行方法包括：

S100，获取目标电力系统的当前运行数据。

具体地，当前运行数据表示当前时刻的运行数据，运行数据可包括母线电压、线路功率和终端状态等。目标电力系统为所要控制的电力系统。

S200，采用所述云端下发的训练好的智能体对所述当前运行数据进行处理，确定当前时刻的当前控制策略；其中，所述训练好的智能体采用与孪生仿真体交互得到的经验数据通过SAC（Soft Actor-Critic，柔性致动-评价）算法训练得到，所述孪生仿真体是通过对所述电力系统中电网设备的实际原型状态数据在状态空间中进行数字孪生仿真得到的。

具体地，可预先在云端训练智能体，具体可通过强化学习中的SAC算法训练智能体。云端训练好智能体后，下发给边缘端。另外，可对电力系统中实际的变电站、线路、主变、母线、配变、机组、开关、闸刀等电网设备，通过接入电网的实际原型状态数据，在状态空间中进行数字孪生仿真，构建与实际电力系统一样的孪生仿真体。孪生仿真体与实际电力系统具备一样的稳态和暂态特性，可支持潮流计算、预想故障分析等稳态计算，以及暂态电压稳定、频率稳定和功角稳定等计算分析。现有电力系统为已知拓扑结构和实际原型状态数据的电力系统，可不同于目标电力系统。

可基于电力系统模型、量测数据，采用状态估计和参数辨识功能，进行孪生仿真体动态校准，并进行潮流计算、预想故障计算、短路计算、暂态计算等仿真计算，给出电压质量、设备运行、经济性和稳定性的四个维度的电网运行指标数据。

S300，根据所述当前控制策略控制所述终端动作。

具体地，终端可包括电力系统中的各种断路器、开关和继电器等设备。

本实施例中，获取目标电力系统的当前运行数据，当前运行数据可包括当前时刻电力系统的母线电压和线路功率等数据。将当前运行数据输入训练好的智能体，输出当前时刻的当前控制策略。根据当前控制策略控制终端动作，实现电力系统运行。可预先在云端对智能体进行训练，具体可根据与孪生仿真体交互的经验数据采用SAC算法进行训练，孪生仿真体表示对现有电力系统中电力设备、拓扑结构和状态数据进行仿真得到的数字模型，由于SAC算法训练得到的智能体适用于任务之间的迁移和快速适用，现有电力系统可不同于目标电力系统，可预先针对拓扑结构清楚、样本数据丰富的现有电力系统建立孪生仿真体，然后利用该孪生仿真体进行智能体训练，将训练好的智能体迁移到目标电力系统中，仅需目标电力系统中的少量样本数据，就可使训练好的智能体快速适应目标电力系统。本发明的技术方案通过SAC算法和孪生仿真体预先训练智能体，仅需少量样本数据就可将训练好的智能体迁移到多个不同的目标电力系统中，实现目标电力系统的运行控制，相较于现有技术针对多个目标电力系统分别单独训练机器学习模型，有效降低了工作量，提高了电力系统上线运行的效率。

可选地，如图2所示，所述采用所述云端下发的训练好的智能体对所述当前运行数据进行处理之前，还包括：

获取所述孪生仿真体的第一运行数据；

需要说明的是，由于SAC算法训练得到的智能体适用于任务之间的迁移和快速适应，可不必对实际要应用的电力系统建立孪生仿真体，而通过其它电力系统对应的孪生仿真体训练智能体，再将训练好的智能体应用于实际要应用的电力系统。为了提高训练好的智能体的性能，可通过多个孪生仿真体进行智能体训练。

具体地，孪生仿真体用以进行仿真计算的模型量测数据以及仿真计算后的运行数据传递给智能体进行训练，智能体训练过程中给出控制策略；孪生仿真体基于模型量测数据，叠加控制策略再次进行仿真计算，并将控制策略在孪生仿真体中执行后的运行数据传递给智能体进行训练，循环迭代。孪生仿真体可存储在云端，可预先在云端进行智能体训练，并将训练好的智能体下发给边缘端。

预设收敛规则可包括中间智能体得到回报的期望的总折扣奖励最大化，或动作的长期价值估计最大化。

中间智能体π生成的第一控制策略得到回报的期望可利用状态-动作值函数来确定：

，

其中，表示中间智能体π在状态s下生成动作/>得到的回报的期望，动作可看作第一控制策略，/>表示对[*]求期望，t表示孪生仿真体执行动作前的时刻，t’表示孪生仿真体执行动作后的时刻，/>表示折扣因子，其取值区间为[0,1]，/>表示t’时刻的奖励值，/>表示t时刻的状态，此处等于状态s，/>表示t时刻的动作，此处等于第一控制策略/>。

若中间智能体π达到最优，即得到训练好的智能体，根据贝尔曼方差对应的最优价值可以定义为迭代的形式：

，

其中，可以看作是状态s下对动作/>的长期价值估计，s表示t时刻的状态，/>表示t时刻的动作，/>表示对[*]中的/>取期望，/>表示t’时刻的状态，/>表示/>从状态空间/>中采样，/>表示状态s下动作/>的奖励值，/>表示折扣因子，/>表示t’时刻的动作，/>表示状态/>下对动作/>的长期价值估计。

本可选的实施例中，基于强化学习中的SAC算法，通过与孪生仿真体的交互训练智能体，训练好的智能体适于任务之间的迁移和快速适应，能够在少样本的情况下快速适用于现实中的目标电力系统，无需对每个目标电力系统分别建立孪生仿真体和训练模型，降低了工作量，提高了目标电力系统上线运行的效率。

获取所述孪生仿真体的先验知识、所述经验数据中的同策略数据和异策略数据。

具体地，先验知识可包括孪生仿真体的电网拓扑结构、暂态特性数据和稳态特性数据等，同策略数据表示当前时刻的中间智能体对应的经验数据，异策略数据表示历史时刻的中间智能体对应的经验数据。

根据所述先验知识和所述同策略数据确定所述孪生仿真体的特征向量。

具体地，可将孪生仿真体的先验知识与同策略数据编码为该孪生仿真体的特征向量，该特征向量作为该孪生仿真体的个性化表示，可以用于区分各个电力系统，从而针对不同的电力系统给出对应的控制策略。

本可选的实施例中，采用与孪生仿真体交互产生的经验数据训练中间智能体，使得中间智能体学习孪生仿真体的特征信息，进而使得训练好的智能体能够针对不同的电力系统生成相对应的控制策略，有利于训练好的智能体迁移到实际要应用的目标电力系统中，能够提高训练好的智能体适应目标电力系统的效率，进而提高电力系统上线运行的效率。

具体地，上下文数据表示与孪生仿真体交互时当前时刻和相近时刻产生的经验数据。通过编码器对先验知识和上下文数据的组合进行编码，以表示孪生仿真体的特征，能够区分不同的孪生仿真体。

根据所有所述编码结果的所述高斯分布确定所述特征向量。

具体地，一个组合包括一个先验知识和一个上下文数据，编码器可表示为，Z表示编码器/>的输出，即特征向量，/>表示上下文数据，/>表示先验知识，编码器/>的参数可通过最小化目标函数确定，目标函数包括：

，

其中，为似然项，也被称为贝尔曼损失，表示与任务相关的目标函数，表示正则化项，也称为信息瓶颈，/>表示任务，/>表示对[*]中的/>取期望，表示对[*]中的Z取期望，/>表示Z从/>中采样，/>表示折扣因子，表示/>与/>之间的KL散度。

编码器可表示为：

，

其中，表示编码器，N表示上下文数据的数量，符号/>表示正比于，/>表示高斯分布，可设计为高斯因子/>，/>表示/>中的一个上下文数据，将其输入神经网络/>，输出均值/>和方差/>，高斯分布可表示上下文数据的数据分布。

采用SAC算法训练中间智能体，可从经验回放池中获取异策略数据，计算策略网络（智能体）和两个Q网络，并通过时序差分法更新Q网络，使用较小的Q值更新V网络，根据V值通过梯度上升更新策略网络，最后使用Polyak平均更新目标V网络。通过最小化损失函数以确定最优的Q网络、V网络、策略网络和编码器，SAC算法的具体训练过程为现有技术，在此不再赘述。

具体地，收敛能力值表示对中间智能体的收敛能力进行量化的数值，可表示控制目标。安全约束值表示对中间智能体的安全约束进行量化的数值。

如图3所示，本发明实施例提供的一种基于云边端协同的电力系统运行装置，基于云边端协同系统，所述云边端协同系统包括云端、边缘端和终端；所述电力系统运行装置包括：

获取模块，用于获取电力系统的当前运行数据；

处理模块，用于采用所述云端下发的训练好的智能体对所述当前运行数据进行处理，确定当前时刻的当前控制策略；其中，所述训练好的智能体采用与孪生仿真体交互得到的经验数据通过SAC算法训练得到，所述孪生仿真体是通过对所述电力系统中电网设备的实际原型状态数据在状态空间中进行数字孪生仿真得到的；

控制模块，用于根据所述当前控制策略控制所述终端动作。

本实施例的基于云边端协同的电力系统运行装置用于实现如上所述的基于云边端协同的电力系统运行方法，其相对于现有技术的优势与上述基于云边端协同的电力系统运行方法现对于现有技术的优势相同，在此不再赘述。

可选地，所述电力系统运行控制装置还包括训练模块，所述训练模块用于：获取所述孪生仿真体的第一运行数据；将所述第一运行数据输入中间智能体，确定下一时刻的第一控制策略；通过所述孪生仿真体对所述第一控制策略进行仿真计算，确定所述孪生仿真体执行后的第二运行数据；根据所述第二运行数据确定所述第一控制策略的奖励值，将所述第一运行数据、所述第一控制策略、所述第二运行数据和所述奖励值作为一个所述经验数据，存入经验回放池；从所述经验回放池中提取所述经验数据，采用所述SAC算法训练所述中间智能体，循环迭代训练所述中间智能体，直至满足预设收敛规则，获得所述训练好的智能体。

可选地，所述训练模块具体用于：获取所述孪生仿真体的先验知识、所述经验数据中的同策略数据和异策略数据；根据所述先验知识和所述同策略数据确定所述孪生仿真体的特征向量；根据所述特征向量和所述异策略数据采用所述SAC算法训练所述中间智能体。

可选地，所述训练模块具体还用于：通过采样器对所述同策略数据进行采样，得到多个上下文数据；将先验知识分别与各个所述上下文数据相结合，通过编码器确定所述孪生仿真体的所述特征向量。

可选地，所述训练模块具体还用于：对输入的所述先验知识和所述上下文数据的组合进行编码，得到各个所述组合的编码结果；将各个所述组合对应的所述编码结果输入预设的神经网络，以确定各个所述编码结果的均值和方差，每个所述编码结果对应的所述均值和方差形成一个高斯分布；根据所有所述编码结果的所述高斯分布确定所述特征向量。

可选地，还包括建立模块，所述建立模块用于：根据电网潮流信息生成所述状态空间，所述电网潮流信息包括线路功率、母线电压、输出功率和电网负荷中的至少一者。

本发明另一实施例提供的一种基于云边端协同的电力系统运行装置，包括存储器和处理器；所述存储器，用于存储计算机程序；所述处理器，用于当执行所述计算机程序时，实现如上所述的基于云边端协同的电力系统运行方法。

本发明又一实施例提供的一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如上所述的基于云边端协同的电力系统运行方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。在本申请中，所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

虽然本发明披露如上，但本发明的保护范围并非仅限于此。本领域技术人员在不脱离本发明的精神和范围的前提下，可进行各种变更与修改，这些变更与修改均将落入本发明的保护范围。

Claims

1.一种基于云边端协同的电力系统运行方法，其特征在于，基于云边端协同系统，所述云边端协同系统包括云端、边缘端和终端；所述电力系统运行方法包括：

获取目标电力系统的当前运行数据；

根据所述当前控制策略控制所述终端动作；

所述采用所述云端下发的训练好的智能体对所述当前运行数据进行处理之前，还包括：获取所述孪生仿真体的第一运行数据；将所述第一运行数据输入中间智能体，确定下一时刻的第一控制策略；通过所述孪生仿真体对所述第一控制策略进行仿真计算，确定所述孪生仿真体执行后的第二运行数据；根据所述第二运行数据确定所述第一控制策略的奖励值，将所述第一运行数据、所述第一控制策略、所述第二运行数据和所述奖励值作为一个所述经验数据，存入经验回放池；从所述经验回放池中提取所述经验数据，采用所述SAC算法训练所述中间智能体，循环迭代训练所述中间智能体，直至满足预设收敛规则，获得所述训练好的智能体；

所述从所述经验回放池中提取所述经验数据，采用所述SAC算法训练所述中间智能体包括：获取所述孪生仿真体的先验知识、所述经验数据中的同策略数据和异策略数据；根据所述先验知识和所述同策略数据确定所述孪生仿真体的特征向量；根据所述特征向量和所述异策略数据采用所述SAC算法训练所述中间智能体。

2.根据权利要求1所述的基于云边端协同的电力系统运行方法，其特征在于，所述根据所述先验知识和所述同策略数据确定所述孪生仿真体的特征向量包括：

3.根据权利要求2所述的基于云边端协同的电力系统运行方法，其特征在于，所述通过编码器确定所述孪生仿真体的所述特征向量包括：

根据所有所述编码结果的所述高斯分布确定所述特征向量。

4.根据权利要求1至3任一项所述的基于云边端协同的电力系统运行方法，其特征在于，所述从所述经验回放池中提取所述经验数据，采用所述SAC算法训练所述中间智能体还包括：根据电网潮流信息生成所述状态空间，所述电网潮流信息包括线路功率、母线电压、输出功率和电网负荷中的至少一者。

5.根据权利要求1至3任一项所述的基于云边端协同的电力系统运行方法，其特征在于，所述奖励值包括所述中间智能体的收敛能力值和安全约束值。

6.一种基于云边端协同的电力系统运行装置，其特征在于，基于云边端协同系统，所述云边端协同系统包括云端、边缘端和终端；所述电力系统运行装置包括：

获取模块，用于获取目标电力系统的当前运行数据；

控制模块，用于根据所述当前控制策略控制所述终端动作；

所述电力系统运行控制装置还包括训练模块，所述训练模块用于：获取所述孪生仿真体的第一运行数据；将所述第一运行数据输入中间智能体，确定下一时刻的第一控制策略；通过所述孪生仿真体对所述第一控制策略进行仿真计算，确定所述孪生仿真体执行后的第二运行数据；根据所述第二运行数据确定所述第一控制策略的奖励值，将所述第一运行数据、所述第一控制策略、所述第二运行数据和所述奖励值作为一个所述经验数据，存入经验回放池；从所述经验回放池中提取所述经验数据，采用所述SAC算法训练所述中间智能体，循环迭代训练所述中间智能体，直至满足预设收敛规则，获得所述训练好的智能体；

所述训练模块具体用于：获取所述孪生仿真体的先验知识、所述经验数据中的同策略数据和异策略数据；根据所述先验知识和所述同策略数据确定所述孪生仿真体的特征向量；根据所述特征向量和所述异策略数据采用所述SAC算法训练所述中间智能体。

7.一种基于云边端协同的电力系统运行装置，其特征在于，包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如权利要求1至5任一项所述的基于云边端协同的电力系统运行方法。

8.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1至5任一项所述的基于云边端协同的电力系统运行方法。