CN112186743A

CN112186743A - 一种基于深度强化学习的动态电力系统经济调度方法

Info

Publication number: CN112186743A
Application number: CN202010972420.1A
Authority: CN
Inventors: 张沛; 吕晓茜; 宋秉睿; 李家腾; 孟祥飞
Original assignee: Beijing Jiaotong University
Current assignee: Beijing Jiaotong University
Priority date: 2020-09-16
Filing date: 2020-09-16
Publication date: 2021-01-05
Anticipated expiration: 2040-09-16
Also published as: CN112186743B

Abstract

本发明提供了一种基于深度强化学习的动态电力系统经济调度方法，将动态经济调度转化为多阶段序贯决策模型，本发明将进行动作决策的调度中心作为决策主体，实际电力系统作为环境，通过对强化学习中动作、状态、奖励等元素的设计，将电力系统的经济调度模型转化为典型的多阶段序贯决策模型。该模型避免了对日益复杂的电力系统进行建模，且不要求精确的火电机组出力成本函数，通过智能体与环境的不断交互，更新策略，自适应负荷与新能源出力的不确定性，实现任意场景下的电力系统动态经济调度。

Description

一种基于深度强化学习的动态电力系统经济调度方法

技术领域

本发明属于电力系统领域，涉及一种基于深度强化学习的动态电力系统经济调度方法。

背景技术

随着电力改革的深化，电能的生产与消费将由时刻改变的市场需求决定，负荷波动的不确定性增强，更加难以准确预测。新能源出力具有波动性、间歇性及随机性等特点，它们的大规模并网给电网运行增加了多种不确定因素。负荷与新能源出力的不确定性给电力系统的安全性和可靠性带来了更严峻的问题，也给电网经济调度带来了巨大挑战。

经济调度是电力系统中的一个经典优化问题，它以降低全系统的发电燃料成本为目标，在满足基本运行约束和系统功率平衡的前提下，通过合理调整不同类型机组的有功出力，确定最优的调度方案。

工业界实际中采用的方式为确定性经济调度，即将负荷预测值、新能源出力预测值视作准确值，进而通过调整传统机组出力实现经济成本最优。然而，随着电网中不确定性因素的增多，传统的确定性经济调度已经不能满足现阶段电力系统调度的需要。近年来，考虑电力系统不确定性因素的不确定性经济调度逐渐成为热点问题。目前常用的不确定性优化建模的方法主要包括随机规划法和鲁棒优化法。

随机规划认为电力系统中不确定量的变化规律遵循一定的概率分布，主要包括场景分析法和机会约束规划。场景分析法是依据新能源的概率分布模型，将其抽样生成大量场景，再分别求解不同场景，最后将各个场景下的方案加权平均，从而得到最终决策方案。机会约束规划则是将包含随机变量的约束条件转化为满足一定置信水平的机会约束的形式，即它并不要求所得结果百分之百满足约束条件，只要在一定置信水平上使约束条件成立即可。虽然场景法可以缓解不确定因素带来的影响，但它不一定能囊括所有场景，且多场景的生成与决策必然带来计算量巨大的问题，同时也难以准确量化加权所得决策方案的风险性。而机会约束规划同样具有依赖于新能源概率模型，计算量大的缺点。

鲁棒优化算法不依赖于随机变量的概率分布信息，计算量相对较小，近年来在计及不确定性的电力系统经济调度问题中得到了广泛应用。鲁棒优化在模型刚建立时就计及了不确定性，即采用集合的形式来表征随机变量的不确定性。同时，根据集合中的极限场景建立鲁棒优化模型，如果所得决策方案能够适应最差的情况，那它也一定可以满足其他所有情况的要求。鲁棒优化问题中不确定集的选择至关重要，这将很大程度上影响到模型的求解效率与决策的保守程度。鲁棒优化虽然不依赖于不确定参数的概率分布，易于刻画，但其保守度的设置也是值得研究的问题。

发明内容

本发明的目的是：在已有的算法无法在电网中存在负荷预测与新能源出力预测不确定性时，快速准确提供调度方案。

一种基于深度强化学习的动态电力系统经济调度方法，其特征在于：

系统调度周期内的经济成本可表示为：

其中，a_i，b_i，c_i为传统火电机组i的成本系数；P_g,i为传统火力发电机i的有功出力；T为调度周期，为24小时；G为系统中的传统火力发电机数量；

根据上述模型，将一天24小时的经济调度分为24个决策周期的马尔可夫过程，在每个决策阶段中，通过观察状态，做出动作决策，并将动作应用于实际电力系统环境中，再得到从环境反馈的奖惩信息与新的状态，重复这一过程，直到整个调度周期结束，决策过程的主要变量包括：

1)状态s_t：第t个决策阶段的状态s_t由t+1时刻的负荷和新能源预测信息及t时刻电网的实时信息组成：

s_t＝{P′_load,t+1,P′_wind,t+1,P′_pv,t+1,P_g,t,P_wind,t,P_pv,t,P_line,t,Q_line,t,V_t} (8)

其中，P′_load,t+1，P′_wind,t+1，P′_pv,t+1分别为t+1时刻的负荷预测值、风电预测值、光伏预测值；P_g,t为传统火力发电机在t时刻的实际出力值；P_wind,t和P_pv,t分别为t时刻的风电实际出力值、光伏实际出力值；P_line,t和Q_line,t分别为t时刻线路传输有功及无功功率；V_t为t时刻节点电压幅值；

2)动作a_t

第t个决策阶段的动作a_t定义为：

其中，

为非平衡节点传统火电机组出力动作值；

为风电出力动作值；

为光伏出力动作值；

依据状态观测值s_t给出动作a_t后，需将动作应用到实际电力系统中，受限于传统火电机组相邻时刻爬坡约束，各传统火电机组下一调度时段t+1实际出力状态P_g,i,t+1为：

受限于新能源实际最大可发功率，新能源下一时调度时段t+1的出力值为：

其中，

和

分别为t+1时刻风电与光伏的最大可发功率；

3)奖励reward

当动作a_t应用在环境中后，需根据环境的变化反馈即时奖励，供学习动作的好坏，t时刻的即时奖励由机组出力成本与惩罚函数组成：

r_t＝-(r_cost,t+r_penal,t) (13)

其中，r_cost,t为系统经济成本；r_penal,t为违反约束时的惩罚。

为实现新能源的优先消纳，系统经济成本中只计入传统火电机组出力成本，不计新能源出力成本：

惩罚函数考虑电力系统运行安全约束：

其中，k₁、k₂与k₃均为惩罚系数；

4)策略π

策略为状态到动作的映射，指的是给定状态时，动作集上的一个分布，也即在每个状态s指定一个动作概率；

5)流程

在最开始系统处于某种初始状态s₀下，系统根据策略π对电网下达动作指令a₀，确定下一阶段发电机有功出力值、风光出力，将动作指令与环境交互，环境状态发生改变，并反馈回给调度中心系统作为下一决策阶段的状态s₁，计算奖励r₀，循环进行这一过程直至最后一个决策阶段；

将上述马尔可夫过程的模型采用深度强化学习算法求解，得到最优的经济调度决策。

进一步的，所述深度强化学习算法为近端策略优化算法，近端策略优化算法中包含包括动作网络和评价网络，动作网络的输入为观测状态s_t，输出为动作的正态分布均值与标准差，也即策略分布π_θ(a_t|s_t)，进而采样得到动作a_t，动作网络的优化目标函数：

其中，r_t(θ)为新旧策略中动作a_t的概率之比；Q(s_t,a_t)为状态-动作值函数，表示在状态s_t下，执行动作a_t的价值；V(s_t)为状态值函数，表示状态s_t的价值，也可表示在状态s_t，执行所有动作的平均价值；γ为折扣因子，范围为[0,1]，当其为0时，说明智能体只看重当前即时奖励，当其趋近于1时，说明智能体看重长期奖励；

为优势函数，表示当前动作与平均动作相比的优势；ε为超参数，一般设置为0.2；

L^CLIP(θ)为最大化目标函数，当优势函数大于0时，更新策略使得此动作被选中的概率增加；当优势函数小于0时，更新策略使得此动作被选中的概率减少；

评价网络的输入为观测状态s_t，输出为该状态的价值函数V(s_t)；

评价网络的损失函数：

L(θ)＝E[(δ)²]＝E[(y-V(s_t))²] (19)

y＝r_t+γV(s_t+1) (20)

其中，δ为TD误差，评价网络通过最小化TD误差更新网络参数。y为折扣累计奖励。

进一步的，将马尔可夫过程的模型采用深度确定性策略梯度算法求解，得到最优的经济调度决策。

进一步的，所述近端策略优化算法的动态经济调度流程包括如下步骤：

步骤1：神经网络权重与偏置初始化；actor神经网络学习率θ_actor、critic神经网络学习率θ_critic、奖励折扣因子γ、超参数ε等参数初始化，环境初始化，训练天数置0；

步骤2：动态经济调度从该日0h开始，循环每一时刻直至该日23h；

步骤3：从环境中读取该日0h的初始观测值，包括：下一时刻的负荷预测值，下一时刻的新能源出力预测值，当前时刻的实时线路有功、线路无功、节点电压幅值；

步骤4：将状态观测值s_t输入至actor神经网络，神经网络输出对应的策略π_θ(a_t|s_t)，也即动作分布。对该分布采样得到动作a_t；

步骤5：将动作a_t经公式(10)-(12)转化为t+1时刻的调度方案；将该调度方案应用在t+1时刻的实时电力系统中，动作与环境交互后环境更新，得到t+1时刻的状态观测值s_t+1，根据公式(13)-(15)计算即时奖励r_t；

步骤6：存储s_t、a_t、r_t；更新状态观测值s_t＝s_t+1；

步骤7：更新时间t＝t+1。循环步骤3至步骤6，直到该日的动态经济调度结束；

步骤8：将状态观测值s_t+1输入至critic神经网络中，神经网络输出对应的状态值函数V(s_t)。根据步骤6存储的该日每个时刻的即时奖励，根据公式Q(s_t,a_t)＝r_t+γr_t+1+…+γ^T-t+1r_T-1+γ^T-tV(s_T)，计算每个时刻对应的累计折扣奖励；

步骤9：存储该日每个时刻的状态s_t、动作a_t、折扣奖励Q(s_t,a_t)，形成一个batch的数据，并以此batch的数据更新actor和critic神经网络；更新步骤：

①计算优势函数

将batch内的状态s_t输入至critic神经网络，神经网络输出该batch的V(s_t)；根据公式(18)以及batch的Q(s_t,a_t)，计算batch内每个状态的优势函数

②更新actor神经网络。根据公式(16)，以及批数据状态s_t、动作a_t、优势函数

计算目标函数L^CLIP(θ)。神经网络需最小化损失函数，因此将目标函数取负作为损失函数，反向传递更新actor神经网络的参数；

③更新critic神经网络。根据公式(19)，以及批数据状态s_t、折扣奖励Q(s_t,a_t)计算损失函数L(θ)，并反向传递更新critic神经网络参数；

步骤10：训练天数加一，再循环步骤2至步骤9，直到训练天数达到训练总天数，停止训练；

步骤11：保存actor与critic神经网络模型，并进行测试，保存测试数据。

进一步的，对于式(1)中的参数的约束如下：

由潮流方程表示的等式约束：

其中，P_l,i和Q_l,i分别为节点i的有功负荷和无功负荷；P_g,i和Q_g,i分别为节点i的有功出力和无功出力；U_i和U_j分别为节点i，j的电压幅值；θ_ij为节点i，j的电压相角差；G_ij和B_ij分别为支路i-j的电导和电纳；

传统火电机组出力约束：

P_g,i,min≤P_g,i≤P_g,i,max,i＝1,2,…G (3)

其中，P_g,i,min和P_g,i,max分别为传统火电机组i的最大出力与最小出力；

新能源出力约束：

其中，P_wind和P_pv分别为风电与光伏的实发功率；P_wind,max和P_pv,max分别为风电与光伏的最大可发功率；

爬坡约束：

传统火电机组出力需满足相邻时刻的爬坡约束：

其中，P_g,i,t和P_g,i,t-1分别为传统火电机组i在t与t-1时刻的机组出力；P_{i,ramp_up}和P_{i,ramp_down}分别为传统火电机组i的最大上爬坡功率与最大下爬坡功率；

线路容量约束：

为使得调度方案满足电力系统安全运行约束，线路传输功率需小于等于线路传输容量极限：

|T_l|≤T_l,max,l＝1,2,…L (6)

其中，T_l为线路l的传输视在功率；T_l,max为线路l的传输容量极限；

节点电压约束：

为使得调度方案满足电力系统安全运行约束，节点电压需在安全范围：

V_n,min≤V_n≤V_n,max,n＝1,2,…N (7)

其中，V_n为节点n的电压幅值；V_n,min和V_n,max分别为节点n电压下限与上限。

本发明相较于现有技术，其有益效果为：

(1)本发明将动态经济调度转化为多阶段序贯决策模型。本发明将进行动作决策的调度中心作为决策主体，实际电力系统作为环境，通过对强化学习中动作、状态、奖励等元素的设计，将电力系统的经济调度模型转化为典型的多阶段序贯决策模型。该模型避免了对日益复杂的电力系统进行建模，且不要求精确的火电机组出力成本函数，通过智能体与环境的不断交互，更新策略，自适应负荷与新能源出力的不确定性，实现任意场景下的电力系统动态经济调度。

(2)本发明利用近端策略优化算法，可求解电力系统这类状态空间与动作空间连续的问题，避免离散化带来的误差。PPO算法将探索与利用集成在算法中，使得智能体不断探索新动作，避免陷入局部最优点。PPO算法更新神经网络时，利用clip机制避免了新策略与旧策略产生过大的差距，降低了超参数(学习率)选择的复杂性。

附图说明

为了更清楚地说明本发明的技术方案，下面对实施例描述中所需的附图作简单介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，这些附图直接得到的技术方案也应属于本发明的保护范围。

图1为经济调度序贯决策模型；

图2为基于PPO算法的动态经济调度流程图。

具体实施方式

本发明提出一种基于深度强化学习的动态经济调度方法。经济调度模型是以机组出力成本最小化为目标，综合考虑机组出力约束，机组爬坡约束，线路潮流约束，节点电压约束的非线性规划问题。本发明将进行动作决策的调度中心作为决策主体，实际电力系统作为环境，通过对强化学习中动作、状态、奖励等元素的设计，将电力系统的经济调度模型转化为典型的多步决策问题，并采用近端策略优化算法求解。

1.经济调度物理模型

经济调度实质上是包含目标函数与约束条件的非线性规划问题。

(1)经济调度目标函数

经济调度以调度周期内机组出力成本的最小化为目标函数。火电机组出力成本用二次函数表示，新能源出力成本不计。当总负荷一定时，系统调度周期内的经济成本可表示为：

其中，a_i，b_i，c_i为传统火电机组i的成本系数；P_g,i为传统火力发电机i的有功出力；T为调度周期，本发明中为一天24小时；G为系统中的传统火力发电机数量。

(2)经济调度约束

1)由潮流方程表示的等式约束

其中，P_l,i和Q_l,i分别为节点i的有功负荷和无功负荷；P_g,i和Q_g,i分别为节点i的有功出力和无功出力；U_i和U_j分别为节点i，j的电压幅值；θ_ij为节点i，j的电压相角差；G_ij和B_ij分别为支路i-j的电导和电纳。

2)出力约束

传统火电机组出力约束如(3)所示：

P_g,i,min≤P_g,i≤P_g,i,max,i＝1,2,…G (3)

其中，P_g,i,min和P_g,i,max分别为传统火电机组i的最大出力与最小出力。

新能源出力约束如(4)所示：

其中，P_wind和P_pv分别为风电与光伏的实发功率；P_wind,max和P_pv,max分别为风电与光伏的最大可发功率。

3)爬坡约束

传统火电机组出力需满足相邻时刻的爬坡约束，如(5)所示。

其中，P_g,i,t和P_g,i,t-1分别为传统火电机组i在t与t-1时刻的机组出力；P_{i,ramp_up}和P_{i,ramp_down}分别为传统火电机组i的最大上爬坡功率与最大下爬坡功率。

4)线路容量约束

为使得调度方案满足电力系统安全运行约束，线路传输功率需小于等于线路传输容量极限，如(6)所示。

|T_l|≤T_l,max,l＝1,2,…L (6)

其中，T_l为线路l的传输视在功率；T_l,max为线路l的传输容量极限。

5)节点电压约束

为使得调度方案满足电力系统安全运行约束，节点电压需在安全范围，如(7)所示。

V_n,min≤V_n≤V_n,max,n＝1,2,…N (7)

2.马尔科夫决策过程

如果将进行动作决策的调度中心作为决策主体，实际电力系统作为环境，那么电力系统的经济调度模型可以转化为典型的多步决策问题。结合经济调度问题，将一天的经济调度分为24个决策周期的马尔可夫过程，每一天为一个决策周期。在每个决策阶段中，强化学习的智能体通过观察状态，做出动作决策，并将动作应用于实际电力系统环境中，得到从环境反馈的奖惩信息与新的状态。重复这一过程，直到整个调度周期结束。决策过程的主要变量定义如下。

(1)状态s_t：第t个决策阶段的状态s_t由t+1时刻的负荷和新能源预测信息及t时刻电网的实时信息组成：

其中，P′_load,t+1，P′_wind,t+1，P′_pv,t+1分别为t+1时刻的负荷预测值、风电预测值、光伏预测值；P_g,t为传统火力发电机在t时刻的实际出力值；P_wind,t和P_pv,t分别为t时刻的风电实际出力值、光伏实际出力值；P_line,t和Q_line,t分别为t时刻线路传输有功及无功功率；V_t为t时刻节点电压幅值。

(2)动作a_t

第t个决策阶段的动作a_t定义为：

其中，

为非平衡节点传统火电机组出力动作值；

为风电出力动作值；

为光伏出力动作值。

在智能体依据状态观测值s_t给出动作a_t后，需将动作应用到实际电力系统中。受限于传统火电机组相邻时刻爬坡约束，各传统火电机组下一调度时段t+1实际出力状态P_g,i,t+1为：

其中，

和

分别为t+1时刻风电与光伏的最大可发功率。

(3)奖励reward

当动作a_t应用在环境中后，需根据环境的变化反馈即时奖励，供智能体学习动作的好坏。奖励函数的正确设计是强化学习算法高效运作的必要条件。t时刻的即时奖励由机组出力成本与惩罚函数组成，如(13)所示。强化学习目标为长期奖励的最大化，而经济调度的目标为调度周期内经济成本的最小化，因此需加负号。

r_t＝-(r_cost,t+r_penal,t) (13)

为实现新能源的优先消纳，系统经济成本中只计入传统火电机组出力成本，不计新能源出力成本，如(14)所示。

考虑到电力系统运行安全约束，需设置惩罚函数，如(15)所示。

其中，k₁、k₂与k₃均为惩罚系数。通过上述动作、状态、奖励的设计，本发明将经济调度模型转化为强化学习模型。通过求解这一序贯决策问题，便可求解动态经济调度问题。

(4)策略π

强化学习的目标是给定一个马尔科夫决策过程，寻找最优策略。策略为状态到动作的映射，指的是给定状态时，动作集上的一个分布，也即在每个状态s指定一个动作概率。

(5)流程

假设在最开始系统处于某种初始状态s₀下，调度系统根据策略π对电网下达动作指令a₀，确定下一阶段发电机有功出力值、风光出力。将动作指令与环境交互，环境状态发生改变，并反馈回给调度中心系统作为下一决策阶段的状态s₁，计算奖励r₀。循环进行这一过程直至最后一个决策阶段。

3.近端策略优化算法

强化学习强调充分利用系统环境信息，基于环境信息分析采取行动，以求达到预期利益。目前，主要有值函数算法与策略优化算法。与基于值函数的深度强化学习算法相比，基于Actor-Critic框架的策略优化算法效率更高、求解速度更快。因此，目前深度强化学习算法一般是基于Actor-Critic框架。对于连续动作空间的任务，基于近端策略优化算法(Proximal Policy Optimization,PPO)可获得良好的决策效果。

PPO算法中包含包括动作网络(Actor)和评价网络(Critic)。动作网络的输入为观测状态s_t，输出为动作的正态分布均值与标准差，也即策略分布π_θ(a_t|s_t)，进而采样得到动作a_t。动作网络的优化目标函数如(16)所示。

为优势函数，表示当前动作与平均动作相比的优势；ε为超参数，一般设置为0.2。

最大化目标函数L^CLIP(θ)旨在：当优势函数大于0(该动作的价值大于所有动作的平均价值)时，更新策略使得此动作被选中的概率增加；当优势函数小于0(该动作的价值小于所有动作的平均价值)时，更新策略使得此动作被选中的概率减少。

评价网络的输入为观测状态s_t，输出为该状态的价值函数V(s_t)。为评价网络的损失函数如(19)所示。

L(θ)＝E[(δ)²]＝E[(y-V(s_t))²] (19)

y＝r_t+γV(s_t+1) (20)

其中，δ为TD误差；y为折扣累计奖励。评价网络通过最小化TD误差更新网络参数。

4.基于PPO算法的动态经济调度流程

基于上述分析，本发明将动态经济调度模型转化为序贯决策模型，并采用PPO深度强化学习算法求解。基于PPO算法的动态经济调度流程如图2所示。具体流程说明如下：

步骤1：神经网络权重与偏置初始化；actor神经网络学习率θ_actor；critic神经网络学习率θ_critic；奖励折扣因子γ；超参数ε等参数初始化。环境初始化。训练天数置0。

步骤2：动态经济调度从0h开始，循环每一时刻直至23h。

步骤3：从环境中读取0h的初始观测值(包括下一时刻的负荷预测值，下一时刻的新能源出力预测值，当前时刻的实时线路有功、线路无功、节点电压幅值)。

步骤4：将状态观测值s_t输入至actor神经网络，神经网络输出对应的策略π_θ(a_t|s_t)，也即动作分布。对该分布采样得到动作a_t。

步骤5：将动作a_t经公式(10)-(12)转化为t+1时刻的调度方案(传统火电机组出力与新能源出力)。将该调度方案应用在t+1时刻的实时电力系统中，动作与环境交互后环境更新，得到t+1时刻的状态观测值s_t+1，根据公式(13)-(15)计算即时奖励r_t。

步骤6：存储s_t、a_t、r_t；更新状态观测值s_t＝s_t+1。

步骤7：更新时间t＝t+1。循环步骤3至步骤6，直到该日的动态经济调度结束。

步骤8：将状态观测值s_t+1输入至critic神经网络中，神经网络输出对应的状态值函数V(s_t)。根据步骤6存储的该日每个时刻的即时奖励，根据公式Q(s_t,a_t)＝r_t+γr_t+1+…+γ^T-t+1r_T-1+γ^T-tV(s_T)，计算每个时刻对应的累计折扣奖励。

步骤9：将存储的该日每时的状态s_t、动作a_t、折扣奖励Q(s_t,a_t)形成一个batch的数据(batchsize为24)，更新actor和critic神经网络。

更新步骤：①计算优势函数

③更新critic神经网络。根据公式(19)，以及批数据状态s_t、折扣奖励Q(s_t,a_t)计算损失函数L(θ)，并反向传递更新critic神经网络参数。

步骤10：训练天数加一。循环步骤2至步骤9，直到训练天数达到训练总天数，停止训练。

步骤11：保存actor与critic神经网络模型，并进行测试。保存测试数据。

Claims

1.一种基于深度强化学习的动态电力系统经济调度方法，其特征在于：

系统调度周期内的经济成本可表示为：

根据上述模型，将一天24小时的经济调度分为24个决策周期的马尔可夫过程，在每个决策阶段中，通过观察状态，做出动作决策，并将动作应用于实际电力系统环境中，再得到从环境反馈的奖惩信息与新的状态，重复这一过程，直到整个调度周期结束，决策过程的变量包括：

2)动作a_t

第t个决策阶段的动作a_t定义为：

其中，

为非平衡节点传统火电机组出力动作值；

为风电出力动作值；

为光伏出力动作值；

其中，

和

分别为t+1时刻风电与光伏的最大可发功率；

3)奖励reward

r_t＝-(r_cost,t+r_penal,t) (13)

惩罚函数考虑电力系统运行安全约束：

其中，k₁、k₂与k₃均为惩罚系数；

4)策略π

5)流程

2.如权利要求1所述的一种基于深度强化学习的动态电力系统经济调度方法，其特征在于，将马尔可夫过程的模型采用近端策略优化算法求解，得到最优的经济调度决策。

3.如权利要求1所述的一种基于深度强化学习的动态电力系统经济调度方法，其特征在于，将马尔可夫过程的模型采用深度确定性策略梯度算法求解，得到最优的经济调度决策。

4.如权利要求2所述的一种基于深度强化学习的动态电力系统经济调度方法，其特征在于，所述近端策略优化算法的动态经济调度流程包括如下步骤：

步骤1：神经网络权重与偏置初始化；设置actor神经网络学习率θ_actor、critic神经网络学习率θ_critic、奖励折扣因子γ、超参数ε等参数；环境初始化；训练天数置0；

步骤3：从环境中读取0h的初始观测值，包括：下一时刻的负荷预测值，下一时刻的新能源出力预测值，当前时刻的实时线路有功、线路无功、节点电压幅值；

步骤6：存储s_t、a_t、r_t；更新状态观测值s_t＝s_t+1；

步骤7：更新时间t＝t+1，循环步骤3至步骤6，直到该日的动态经济调度结束；

步骤8：将状态观测值s_t+1输入至critic神经网络中，神经网络输出对应的状态值函数V(s_t)；根据步骤6存储的该日每个时刻的即时奖励，根据公式Q(s_t,a_t)＝r_t+γr_t+1+…+γ^T-t+ ¹r_T-1+γ^T-tV(s_T)，计算每个时刻对应的累计折扣奖励Q(s_t,a_t)；

步骤9：存储该日每个时刻的状态s_t、动作a_t、折扣奖励Q(s_t,a_t)，形成一个batch的数据，并以此batch的数据更新actor和critic神经网络；更新步骤包括：

①计算优势函数