CN113837654A

CN113837654A - 一种面向多目标的智能电网分层调度方法

Info

Publication number: CN113837654A
Application number: CN202111195681.8A
Authority: CN
Inventors: 杨楠; 李蕾; 黄宇鹏; 卫泽晨; 李昕航; 肖孟豪; 张风彬; 王哲; 俞灵; 齐晓琳; 韩昳; 邱成建; 刘幸蔚; 宋旭日; 张琳; 罗雅迪; 李章文; 於益军; 李劲松
Original assignee: Beijing University of Posts and Telecommunications; China Electric Power Research Institute Co Ltd CEPRI
Current assignee: Beijing University of Posts and Telecommunications; China Electric Power Research Institute Co Ltd CEPRI
Priority date: 2021-10-14
Filing date: 2021-10-14
Publication date: 2021-12-24
Anticipated expiration: 2041-10-14
Also published as: CN113837654B

Abstract

本发明是一种面向多目标的智能电网分层调度方法，涉及电网控制及人工智能技术。本发明方法包括：构建多目标电网运行评估模型，对电网运行状态从安全、经济和环保性三方面评估；建立双层调度结构，下层决策层对调度策略在局部进行优化，上层优化层对调度策略在全局进行优化；决策层对电网中每个机组建立一个智能体，智能体输出为机组的有功功率输出调整值；优化层包含三个多层感知器，分别用于评估电网的安全、经济和环保性；双层调度结构优化调度策略后，还使用拓扑分析法调整优化动作，避免在电网调度中出现孤岛。本发明实现在安全、经济、环保三个维度对电网运行状态进行量化评估，获取的调度策略更加有效，且适用于大规模电网的实时调度。

Description

一种面向多目标的智能电网分层调度方法

技术领域

本发明属于电网控制与人工智能交叉领域，具体涉及一种面向多目标的智能电网分层调度方法。

背景技术

智能调度作为智能电网的核心，往往需要在考虑复杂的安全约束的基础上，实现经济效益最大化。同时，可再生能源使用率提升，从而导致调度难度进一步加大。

电网调度中的多目标优化研究受到了学术界和工业界的广泛关注。针对电网安全约束经济调度(Security-constrained Economic Dispatching,SCED)问题，参考文献[1]提出了一种基于深度学习的主动约束识别的智能预选方法。为了解决SCED算法计算成本高的问题，参考文献 [2]提出了一种基于深度神经网络的优化策略。然而，他们都没有考虑到新能源对电网的影响。为了使系统运行成本最小化和可再生能源消耗最大化，参考文献[3]将调度问题建模为多步马尔可夫决策过程，不考虑电网运行的复杂约束和规则。参考文献[4]建立了多目标粒子群优化算法，引入小概率逃逸机制，克服了清洁能源的间歇性和波动性，保证了电力系统的安全运行，但由于算法复杂度高，不能应用于大规模电网的实时调度。

由于多智能体和分布式系统的灵活性和扩展性较强，研究人员也将其广泛应用于大规模电网调度。在参考文献[5]中，提出了一种基于深度强化学习的数据驱动多智能体框架，以克服与精确系统模型相关的计算复杂度高和扩展性差的问题。针对动态经济调度问题，在参考文献[6]中提出了一种分布式强化学习优化算法。在参考文献[7]提出了一种分层多智能体深度确定性策略梯度(Hierarchical Multi-agent Deep DeterministicPolicy Gradient,HMA-DDPG)算法来辅助自动增益控制(Automatic Generation Control,AGC)调度。为了减少智能体对全局信息的依赖，参考文献[8]提出了一种基于分布式Q学习的优化算法来实现经济调度。

目前的智能电网调度方法存在以下不足：首先，没有同时考虑安全约束、经济和环境保护多目标调度，电网的安全运行是根本，而经济和环保是电力市场环境和可持续发展的必然要求。此外，多智能体之间的关系不够紧密，对多智能体框架缺乏全局评估。

参考文献：

[1]Y.Yang,Z.Yang,J.Yu,K.Xie and L.Jin,"Fast Economic Dispatch inSmart Grids Using Deep Learning:An Active Constraint Screening Approach,"IEEEInternet of Things Journal,vol.7, no.11,pp.11030-11040,Nov.2020.

[2]J.Yan et al.,"Frequency-Domain Decomposition and Deep LearningBased Solar PV Power Ultra-Short-Term Forecasting Model,"IEEE Transactions onIndustry Applications,doi: 10.1109/TIA.2021.3073652.

[3]L.Tie et al.,"Joint Optimization Dispatching for Hybrid PowerSystem Based on Deep Reinforcement Learning,"2019IEEE 8th InternationalConference on Advanced Power System Automation and Protection(APAP),2019,pp.1289-1293.

[4]D.Xia,J.Han,L.Zhang,X.Zhang,J.Xu and Z.Wang,"Research on flexiblepower multi- objective optimization plan method oriented to grid-connectedintermittent energy,"2017IEEE Conference on Energy Internet and Energy SystemIntegration(EI2),2017,pp.1-4.

[5]M.Kamruzzaman,J.Duan,D.Shi and M.Benidris,"A Deep ReinforcementLearning-based Multi-Agent Framework to Enhance Power System Resilience usingShunt Resources,"IEEE Transactions on Power Systems,doi:10.1109/TPWRS.2021.3078446.

[6]P.Dai,W.Yu,G.Wen and S.Baldi,"Distributed Reinforcement LearningAlgorithm for Dynamic Economic Dispatch With Unknown Generation CostFunctions,"IEEE Transactions on Industrial Informatics,vol.16,no.4,pp.2258-2267,April 2020.

[7]J.Li,T.Yu,H.Zhu,F.Li,D.Lin and Z.Li,"Multi-Agent DeepReinforcement Learning for Sectional AGC Dispatch,"IEEE Access,vol.8,pp.158067-158081,2020.

[8]F.Li,J.Qin and W.X.Zheng,"Distributed Q-Learning-Based OnlineOptimization Algorithm for Unit Commitment and Dispatch in Smart Grid,"IEEETransactions on Cybernetics, vol.50,no.9,pp.4146-4156,Sept.2020.

发明内容

本发明针对目前智能电网调度方法存在的不足，提出了一种面向多目标的智能电网分层调度方法，基于深度确定性策略梯度算法(Deep Deterministic Policy Gradient,DDPG)，采用分层架构以及多智能的设计，通过决策层中多智能体间的合作、博弈以及优化层网络的全局评估，实现局部和全局电网的安全性、经济性和环保性保障。

本发明的一种面向多目标的智能电网分层调度方法，包括如下步骤：

步骤一、构建多目标电网运行评估模型，从安全、经济、环保三个维度对电网运行状态评估；

步骤二、建立双层调度结构，包括下层决策层和上层优化层，通过决策层对调度策略在局部进行优化，通过优化层对调度策略在全局进行优化；

步骤三、获取电网中所有机组周围电网的状态，利用双层调度结构对调度策略进行优化，计算全局评价结果与局部评价结果的综合得分反馈给智能体，智能体调整动作，并重新计算综合得分，选取综合得分最高的动作作为优化动作；使用拓扑分析法调整优化动作，避免在电网调度中出现孤岛，并作为最终动作输出。

所述步骤一中，多目标电网运行评估模型，在安全维度，选取机组无功功率、机组电压越限值和支路电流越限值进行安全性得分计算；在经济维度，对每个机组的运行费用及启停费用进行计算，经济性得分与费用支出呈反比；在环保维度，获取所有机组有功功率输出，求得新能源占比，作为环保性得分。

所述步骤二中，决策层采用多智能体结构，电网中每个机组对应一个智能体，各智能体对机组及其周围的局部电网进行观测，输出动作为机组的有功功率输出调整值，计算动作的奖励并反馈给智能体；所计算的智能体动作的奖励为局部评价结果。

所述步骤二中，优化层包含三个多层感知器，分别计算电网在所述模型中的安全性得分、经济性得分和环保性得分，将三个得分按预设的权重平均，作为全局评价结果，对动作进行优化。设N为电网中所有机组数量，M为电网中所有支路数量；计算安全性得分的多层感知器的输入是2N+M维向量，由N个智能体的动作奖励、M条支路的电流值和N台机组的电压值组成；计算、经济性得分和环保性得分的两个多层感知器的输入均为2N维向量，由N 个智能体的动作奖励和N台机组的电压值组成。

相对于现有技术，本发明的优点与积极效果在于：(1)本发明方法提出了一种多目标电网运行评估模型，对电网运行的安全性、经济性和环保性进行量化，从而实现客观评价电网调度效果的目的。(2)本发明设计了分层多目标智能电网调度方法来实现智能电网的多目标调度，采用了双层框架和多智能体结构，使调度策略更加有效，加强智能体之间的合作博弈关系，加快收敛速度，进而适用于大规模电网的实时调度。(3)本发明方法为了避免因电流过大造成支路断开而引起孤岛的问题，采用了拓扑分析方法进行决策优化，以保证电网的安全性。

附图说明

图1是本发明实施例面向多目标的智能电网分层调度方法的流程示意图；

图2是本发明实施例面向多目标的智能电网分层调度方法的实现架构图。

具体实施方式

下面将结合附图和实施例对本发明作进一步的详细说明。

本发明首先构建了一个多目标电网运行评估模型，在安全、经济、环保三个维度对电网运行状态进行量化评估，从而评价电网调度策略的效果；在此基础上，本发明实现了一种面向多目标的智能电网分层调度方法，在实现电网安全调度的同时，实现经济效益以及新能源使用率最大化。

本发明构建的多目标电网运行评估模型，主要从安全、经济、环保三个维度对电网运行状态评估。在安全性方面，本发明模型选取了机组无功功率和电压越限值、支路电流越限值三个指标进行量化，分别加权后，得到安全性得分；在经济方面，本发明模型对每个机组的运行费用及启停费用进行计算，而经济性得分则与费用支出呈反比；在环保性上，本发明模型获取所有机组有功功率输出，求得新能源占比，即为环保性得分。使用本发明构建的模型可以实时评估电网运行状态，从而评价调度决策的效果。

(1)安全目标：安全是电网调度的基本目标，本发明选取机组无功功率越限值、机组电压越限值和支路电流越限值进行安全性评估，具体安全性得分score_sec的计算如下：

其中，

代表t时刻机组i无功功率越限值，

代表t时刻机组i电压越限值，

代表 t时刻支路j电流越限值；W_q、W_v和W_b分别为机组无功功率越限值、电压越限值和支路电流越限值的权重系数。N_G为电网的机组总数；N_B为电网的支路总数。N_step为智能体每回合中的步数，步数即时间步数。

对机组无功功率越限值计算评估的公式如下：

其中，

为t时刻机组i是否运行的状态值，为0-1二元变量，取值为1时代表运行，取值为0代表未运行；

为机组i在t时刻的无功功率；

和

为机组i的无功功率最大值和最小值。

对机组电压越限值计算评估的公式如下：

其中，

为机组i在t时刻的电压；

和

为机组i电压的最大值和最小值。

对支路电流越限值计算评估的公式如下：

其中，

代表支路j在t时刻的电流值，T_j代表支路j的热极限。

(2)经济目标：经济性是电力系统运行的重要指标，目标是使电力系统的成本最小化，总成本包括机组的运行成本和启动-停止成本。经济性得分score_eco与成本cost呈负相关，具体计算公式如下：

其中，

和

分别代表机组i的运行费用和启停费用。

机组运行费用是机组有功功率的二次函数，

具体计算如下：

其中，

为机组i在t时刻的有功功率；而a_i、b_i和c_i分别为二次项、一次项和常数项系数。

机组i在t时刻的启停费用

为固定值，如下：

其中，

为机组i的启动费用。

(3)环保目标：环境目标是使电力系统尽可能多地使用可再生能源，因此本发明模型将可再生能源利用率作为环保性评分score_env，计算如下：

其中，N_R为新能源机组的数量；

为机组i的最大功率。

本发明的面向多目标的智能电网分层调度方法，采用双层架构，分为下层决策层以及上层优化层，对调度决策分别在局部和全局进行优化。决策层采用多智能体结构，每个智能体基于DDPG算法观察电网的局部状态，通过Actor网络给出各机组的有功调整值，并通过 Critic网络计算各动作的局部评价。优化层包含三个多层感知器(Multi-layerPerceptron，MLP)，用于评估安全、经济和环境因素，按照本发明提供的评估模型计算安全性得分、经济得分和环保性得分，将三个评分结果按一定权重加权求和，作为全局评价结果，对动作进行优化。

(一)下面说明决策层的实现。

(1)状态空间：决策层中各智能体对机组及其周围的局部电网进行观测。本发明实施例中，每个机组对应一个智能体。本发明选取12个观测值作为智能体的输入，来表征局部电网的运行状态。状态空间定义为：

其中，

代表机组i在t时刻的运行状态；智能电网建模为图，总线抽象为图中的节点， N′_L为与机组i在同一节点的负载个数；N_L为电网中所有负载的个数；

为t时刻负载j的有功功率，

为t时刻负载j的无功功率；最后两行代表与机组i相连的两条负载率最高的支路参数，rho、P_or和a_or分别代表支路的负载率、有功功率以及电流值，下角标1和2分别标记两条支路。

(2)动作空间：本发明中各智能体的输出动作即为机组的有功功率输出调整值。对于智能体i来说，在t时刻其动作空间为

adj_max为机组有功功率输出的调整值。

(3)奖励函数：电网运行仿真器会基于电网运行状态，结合多目标电网运行评估模型，计算得到局部奖励，并反馈给相应的智能体。首先，根据多目标电网运行评估模型中安全性得分的计算方法，利用该机组以及其所连支路的参数，得到局部安全性得分。同时，为了保证机组的发电量满足负荷需求，在奖励函数中增加了输出奖励，其公式为：

其中，Output-reward_i为智能体i的输出奖励。W_r是新能源机组有功功率占比，W_t是火电机组有功功率占比。N_T为火电机组的数量，N_R为新能源电机组的数量。

在奖励函数中，设置局部安全性得分占0.6，输出奖励占0.4，对智能体的安全性得分和输出奖励进行加权求和，得到智能体动作的奖励值。

(二)下面说明优化层的实现。

优化层中有三个网络，分别基于MLP对整个电网的安全性、经济性和环保性进行评估。安全性评估网络的输入是2N+M维向量，由N个智能体中Critic网络输出、M条支路的电流值和N台机组的电压值组成。此处，N为电网中所有机组数量，对应N_G；M对应N_B。经济评价网络和环境评价网络的输入是2N维向量，由N个智能体中Critic网络输出和N台机组的电压值组成。

这些网络以多目标电网运行评估模型计算的结果为标签，采用有监督学习的方式进行训练。全局评价综合了三个网络的评价结果，本发明实施例中，安全评价占0.6，经济评价和环境评价均占0.2。

本发明的电网分层多智能体多目标调度方法，结合下面实施例，对目标智能电网在电网运行仿真器中建模仿真，然后如图1所示，基于本发明提出的多目标电网运行评估模型和双层调度结构，实现的一个流程步骤如下：

步骤1：初始化决策层中智能体以及优化层中三个评估网络；

步骤2：获取电网中所有机组周围电网的状态；

步骤3：将局部电网观测量输入对应的智能体，获取每台机组的动作及其所对应的局部评价得分；局部评价得分即智能体动作的奖励值；

步骤4：获取电网的全局观测量；全局观测量是指优化层的输入中需要的全局电网的参数，即所有支路电流和所有机组电压；

步骤5：将全局观测量与局部得分输入优化层中的安全、经济、环保评估网络，得到安全、经济和环保得分；

步骤6：将安全、经济和环保得分加权求和得到全局得分，并将全局得分与局部得分进行综合，将二者加权求和回传至智能体，对动作进行调整，选取综合得分最高的动作作为优化动作；

步骤7：使用拓扑分析法调整优化动作，避免在电网调度中出现孤岛，并作为最终动作；

在电网调度中，一旦因断线造成孤岛，电网运行环境就会崩溃。为了避免这一问题，本发明采用了拓扑分析方法调整优化动作。当动作下发至电网仿真环境前，会进行预演。在预演中，当因支路i电流过大导致断路从而造成孤岛时，采用广度优先算法搜索离该支路最近的两台发电机组，调整其有功输出减少10％。

步骤8：将最终动作下发至电网运行仿真器，基于多目标电网运行评估模型得到仿真器反馈的局部得分以及全局安全、经济和环保得分，并更新电网状态；

步骤9：将观测量、动作以及反馈数据存入经验池，并在经验池中抽取部分数据更新智能体以及评估网络；观测量是指观测的电网中机组周围电网的状态，动作是指机组的有功功率输出调整值，反馈数据是指由电网运行仿真器反馈的局部得分以及全局安全、经济和环保得分；

步骤10：重复步骤2～步骤9，训练智能体以及评估网络。

实施例：

本发明实施例中利用基于IEEE118总线系统的电网运行仿真器对本发明方法进行测试和评估，如图2所示。对电网的仿真参数设置如表1和表2所示。机组一共53个，标记为U1～U53。

表1电网仿真参数

参数名称	值
		新能源机组台数	18
火电机组台数	35
		支路条数	117
负载数	91
		W<sub>q</sub>	20
W<sub>v</sub>	20
		W<sub>b</sub>	10
adj<sub>max</sub>	10
		W_r	0.3
W_t	0.7

表2电网中机组参数

本发明采用人工神经网络拟合Actor、Critic以及全局评估函数。对于决策层中每个智能体的Actor网络而言，输入的形式是大小为(12,1)的向量。每个Actor和Critic网络都包含三层网络。其中，对于Actor网络，为了拟合动作的取值范围，采用tanh函数作为最后一层的激活函数。在优化层，安全性、经济性和环保性评估网络输入的向量为(283,1)、(106,1)和(106,1)。表3列出了网络中完整的超参数。

表3本发明决策层和优化层的网络参数设置表

上表中，输入(12,1)代表输入为12*1的向量，全连接层(12,7)代表全连接层参数，即(前神经元个数，后神经元个数)。

如图2所示，进行多智能体Q学习。输入状态S_t和智能体的动作a_t、奖励r_t分别对应上述智能体的状态空间、动作空间和奖励函数中的记载。每个智能体的在线网络和目标网络的结构相同，在线网络依据策略梯度更新Actor网络，根据Q函数计算损失函数L，γ为折扣因子，E表示对每个样本求均值，r代表的是仿真器返回的奖励值。

为了验证本发明面向多目标的智能电网分层调度方法的有效性，对本发明方法中三个模块——决策层、优化层和拓扑分析法，依次累加测试调度效果。实验结果如表4前三行所示，通过安全评分、一天平均成本、新能源消纳，来评价方法的有效性。决策层有53个智能体来调整53台机组的有功输出。在此基础上增加优化层，可以优化整个电网的安全、经济和环境目标。最后，增加了拓扑分析方法，避免了孤岛问题。仿真结果表明，添加优化层后，安全评分提高了13.51％，可再生能源消耗提高了40.38％，成本降低了0.35％。向多目标的智能电网分层调度方法的安全性评分比未采用拓扑分析方法的高13.05％，成本和可再生能源消耗差异不显著。

表4

将本发明面向多目标的智能电网分层调度方法与分布式比例控制(参考文献[9])和二分法(参考文献[10])进行比较，评价不同调度方法的安全性能、成本和新能源消纳。本发明将比例控制和二分法的收敛误差设为10^-3、10^-5、10^-7，进行了六组对比实验。

参考文献[9]S.Yang,S.Tan and J.Xu,"Consensus Based Approach forEconomic Dispatch Problem in a Smart Grid,"IEEE Transactions on PowerSystems,vol.28,no.4,pp.4416-4426,Nov. 2013.

参考文献[10]H.Xing,Y.Mou,M.Fu and Z.Lin,"Distributed Bisection Methodfor Economic Power Dispatch in Smart Grid,"IEEE Transactions on PowerSystems,vol.30,no.6,pp.3024-3035, Nov.2015.

仿真结果如表4所示，本发明面向多目标的智能电网分层调度方法具有最好的全局评价结果。面向多目标的智能电网分层调度方法的安全评分平均比其他两种调度方法高13.53％。调度成本比分布式二分法和比例控制分别低2.81％和0.79％。此外，对于可再生能源消纳，面向多目标的智能电网分层调度方法比其他两种方法平均高70.48％。

除说明书所述的技术特征外，均为本专业技术人员的已知技术。本发明省略了对公知组件和公知技术的描述，以避免赘述和不必要地限制本发明。

上述实施例中所描述的实施方式也并不代表与本申请相一致的所有实施方式，在本发明技术方案的基础上，本领域技术人员不需要付出创造性的劳动即可做出的各种修改或变形仍在本发明的保护范围内。

Claims

1.一种面向多目标的智能电网分层调度方法，其特征在于，包括如下步骤：

所述模型，在安全维度，选取机组无功功率、机组电压越限值和支路电流越限值进行安全性得分计算；在经济维度，对每个机组的运行费用及启停费用进行计算，经济性得分与费用支出呈反比；在环保维度，获取所有机组有功功率输出，求得新能源占比，作为环保性得分；

所述决策层采用多智能体结构，电网中每个机组对应一个智能体，各智能体对机组及其周围的局部电网进行观测，输出动作为机组的有功功率输出调整值，计算动作的奖励并反馈给智能体；所计算的智能体动作的奖励为局部评价结果；

所述优化层包含三个多层感知器，分别计算电网在所述模型中的安全性得分、经济性得分和环保性得分，将三个得分按预设的权重平均，作为全局评价结果，对动作进行优化；设N为电网中所有机组数量，M为电网中所有支路数量；计算安全性得分的多层感知器的输入是2N+M维向量，由N个智能体的动作奖励、M条支路的电流值和N台机组的电压值组成；计算、经济性得分和环保性得分的两个多层感知器的输入均为2N维向量，由N个智能体的动作奖励和N台机组的电压值组成；

2.根据权利要求1所述的方法，其特征在于，所述的步骤一中，多目标电网运行评估模型，根据下式计算安全性得分score_sec，如下：

其中，N_G为电网的机组总数；N_B为电网的支路总数；

代表t时刻机组i无功功率越限值，

代表t时刻机组i电压越限值，

代表t时刻支路j电流越限值；W_q、W_v和W_b分别为机组无功功率越限值、电压越限值和支路电流越限值的权重系数；N_step为时间步数；

对机组无功功率越限值如下计算：

其中，

为机组i在t时刻的无功功率；

和

分别为机组i的无功功率最大值和最小值；

为t时刻机组i是否运行的状态值，取值为1时代表运行，取值为0代表未运行；

对机组电压越限值如下计算：

其中，

为机组i在t时刻的电压；

和

为机组i电压的最大值和最小值；

对支路电流越限值如下计算：

其中，

代表支路j在t时刻的电流值，T_j代表支路j的热极限。

3.根据权利要求1所述的方法，其特征在于，所述的步骤一中，多目标电网运行评估模型，根据下式计算经济性得分score_eco，如下：

其中，N_G为电网的机组总数；

为t时刻机组i的运行费用；

为t时刻机组i的启停费用；N_step为时间步数；

机组运行费用是机组有功功率的二次函数，如下计算：

其中，

为机组i在t时刻的有功功率；

为t时刻机组i是否运行的状态值，取值为1时代表运行，取值为0代表未运行；a_i、b_i和c_i分别为二次函数的二次项、一次项和常数项系数；

机组启停费用为固定值，如下计算：

其中，

为机组i的启动费用。

4.根据权利要求1所述的方法，其特征在于，所述的步骤一中，多目标电网运行评估模型，根据下式计算环保性得分score_env，如下：

其中，N_R为新能源机组的数量；

为机组i的最大功率；N_step为时间步数。

5.根据权利要求1所述的方法，其特征在于，所述的步骤二中，决策层的实现包括：

(1)智能体的输入为局部电网的运行状态，状态空间表征为：

其中，

代表机组i在t时刻的运行状态；N′_L为电网中与机组i在同一总线的负载个数；

为机组i在t时刻的有功功率；

为机组i在t时刻的无功功率；

为机组i在t时刻的电压；N_L为电网中所有负载的个数；

为t时刻负载j的有功功率，

为t时刻负载j的无功功率；最后两行代表与机组i相连的两条负载率最高的支路参数，rho、P_or和a_or分别代表支路的负载率、有功功率以及电流值，下角标1和2分别标记两条支路；

(2)智能体的输出动作为机组的有功功率输出调整值；智能体i在t时刻的动作空间表示为

adj_max为调整值；

(3)设计奖励函数：首先，根据多目标电网运行评估模型计算智能体对应的机组及其周围的局部电网的安全性得分；同时，为了保证机组的发电量满足负荷需求，在奖励函数中增加了输出奖励如下：

其中，Output_reward_i为智能体i的输出奖励；W_r是新能源机组有功功率占比，W_t是火电机组有功功率占比；N_T为火电机组的数量，N_R为新能源电机组的数量；

对智能体的安全性得分和输出奖励进行加权求和得到动作的奖励；其中，智能体的安全性得分占0.6，输出奖励占0.4。

6.根据权利要求1所述的方法，其特征在于，所述的步骤二中，在优化层，设置安全性得分的权重为0.6，设置经济性得分和环保性得分的权重均为0.2。

7.根据权利要求1所述的方法，其特征在于，所述的方法在训练智能体以及多层感知器时，将待研究智能网络在电网运行仿真器中进行仿真，执行步骤三，将最终动作下发至电网运行仿真器，电网运行仿真器基于多目标电网运行评估模型反馈局部评价结果以及全局的安全性得分、经济性得分和环保性得分，并更新电网状态；将电网状态观测量、智能体动作以及电网运行仿真器反馈的数据存入经验池，在经验池中抽取数据更新智能体以及多层感知器。