CN112186743B - 一种基于深度强化学习的动态电力系统经济调度方法 - Google Patents

一种基于深度强化学习的动态电力系统经济调度方法 Download PDF

Info

Publication number
CN112186743B
CN112186743B CN202010972420.1A CN202010972420A CN112186743B CN 112186743 B CN112186743 B CN 112186743B CN 202010972420 A CN202010972420 A CN 202010972420A CN 112186743 B CN112186743 B CN 112186743B
Authority
CN
China
Prior art keywords
power
output
action
state
wind
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010972420.1A
Other languages
English (en)
Other versions
CN112186743A (zh
Inventor
张沛
吕晓茜
宋秉睿
李家腾
孟祥飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN202010972420.1A priority Critical patent/CN112186743B/zh
Publication of CN112186743A publication Critical patent/CN112186743A/zh
Application granted granted Critical
Publication of CN112186743B publication Critical patent/CN112186743B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/008Circuit arrangements for ac mains or ac distribution networks involving trading of energy or energy transmission rights
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/46Controlling of the sharing of output between the generators, converters, or transformers
    • H02J3/466Scheduling the operation of the generators, e.g. connecting or disconnecting generators to meet a given demand
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/10Power transmission or distribution systems management focussing at grid-level, e.g. load flow analysis, node profile computation, meshed network optimisation, active network management or spinning reserve management
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]

Abstract

本发明提供了一种基于深度强化学习的动态电力系统经济调度方法,将动态经济调度转化为多阶段序贯决策模型,本发明将进行动作决策的调度中心作为决策主体,实际电力系统作为环境,通过对强化学习中动作、状态、奖励等元素的设计,将电力系统的经济调度模型转化为典型的多阶段序贯决策模型。该模型避免了对日益复杂的电力系统进行建模,且不要求精确的火电机组出力成本函数,通过智能体与环境的不断交互,更新策略,自适应负荷与新能源出力的不确定性,实现任意场景下的电力系统动态经济调度。

Description

一种基于深度强化学习的动态电力系统经济调度方法
技术领域
本发明属于电力系统领域,涉及一种基于深度强化学习的动态电力系统经济调度方法。
背景技术
随着电力改革的深化,电能的生产与消费将由时刻改变的市场需求决定,负荷波动的不确定性增强,更加难以准确预测。新能源出力具有波动性、间歇性及随机性等特点,它们的大规模并网给电网运行增加了多种不确定因素。负荷与新能源出力的不确定性给电力系统的安全性和可靠性带来了更严峻的问题,也给电网经济调度带来了巨大挑战。
经济调度是电力系统中的一个经典优化问题,它以降低全系统的发电燃料成本为目标,在满足基本运行约束和系统功率平衡的前提下,通过合理调整不同类型机组的有功出力,确定最优的调度方案。
工业界实际中采用的方式为确定性经济调度,即将负荷预测值、新能源出力预测值视作准确值,进而通过调整传统机组出力实现经济成本最优。然而,随着电网中不确定性因素的增多,传统的确定性经济调度已经不能满足现阶段电力系统调度的需要。近年来,考虑电力系统不确定性因素的不确定性经济调度逐渐成为热点问题。目前常用的不确定性优化建模的方法主要包括随机规划法和鲁棒优化法。
随机规划认为电力系统中不确定量的变化规律遵循一定的概率分布,主要包括场景分析法和机会约束规划。场景分析法是依据新能源的概率分布模型,将其抽样生成大量场景,再分别求解不同场景,最后将各个场景下的方案加权平均,从而得到最终决策方案。机会约束规划则是将包含随机变量的约束条件转化为满足一定置信水平的机会约束的形式,即它并不要求所得结果百分之百满足约束条件,只要在一定置信水平上使约束条件成立即可。虽然场景法可以缓解不确定因素带来的影响,但它不一定能囊括所有场景,且多场景的生成与决策必然带来计算量巨大的问题,同时也难以准确量化加权所得决策方案的风险性。而机会约束规划同样具有依赖于新能源概率模型,计算量大的缺点。
鲁棒优化算法不依赖于随机变量的概率分布信息,计算量相对较小,近年来在计及不确定性的电力系统经济调度问题中得到了广泛应用。鲁棒优化在模型刚建立时就计及了不确定性,即采用集合的形式来表征随机变量的不确定性。同时,根据集合中的极限场景建立鲁棒优化模型,如果所得决策方案能够适应最差的情况,那它也一定可以满足其他所有情况的要求。鲁棒优化问题中不确定集的选择至关重要,这将很大程度上影响到模型的求解效率与决策的保守程度。鲁棒优化虽然不依赖于不确定参数的概率分布,易于刻画,但其保守度的设置也是值得研究的问题。
发明内容
本发明的目的是:在已有的算法无法在电网中存在负荷预测与新能源出力预测不确定性时,快速准确提供调度方案。
一种基于深度强化学习的动态电力系统经济调度方法,其特征在于:
系统调度周期内的经济成本可表示为:
Figure BDA0002684569310000031
其中,ai,bi,ci为传统火电机组i的成本系数;Pg,i为传统火力发电机i的有功出力;T为调度周期,为24小时;G为系统中的传统火力发电机数量;
根据上述模型,将一天24小时的经济调度分为24个决策周期的马尔可夫过程,在每个决策阶段中,通过观察状态,做出动作决策,并将动作应用于实际电力系统环境中,再得到从环境反馈的奖惩信息与新的状态,重复这一过程,直到整个调度周期结束,决策过程的主要变量包括:
1)状态st:第t个决策阶段的状态st由t+1时刻的负荷和新能源预测信息及t时刻电网的实时信息组成:
st={P′load,t+1,P′wind,t+1,P′pv,t+1,Pg,t,Pwind,t,Ppv,t,Pline,t,Qline,t,Vt} (8)
其中,P′load,t+1,P′wind,t+1,P′pv,t+1分别为t+1时刻的负荷预测值、风电预测值、光伏预测值;Pg,t为传统火力发电机在t时刻的实际出力值;Pwind,t和Ppv,t分别为t时刻的风电实际出力值、光伏实际出力值;Pline,t和Qline,t分别为t时刻线路传输有功及无功功率;Vt为t时刻节点电压幅值;
2)动作at
第t个决策阶段的动作at定义为:
Figure BDA0002684569310000041
其中,
Figure BDA0002684569310000042
为非平衡节点传统火电机组出力动作值;
Figure BDA0002684569310000043
为风电出力动作值;
Figure BDA0002684569310000044
为光伏出力动作值;
依据状态观测值st给出动作at后,需将动作应用到实际电力系统中,受限于传统火电机组相邻时刻爬坡约束,各传统火电机组下一调度时段t+1实际出力状态Pg,i,t+1为:
Figure BDA0002684569310000045
受限于新能源实际最大可发功率,新能源下一时调度时段t+1的出力值为:
Figure BDA0002684569310000046
Figure BDA0002684569310000047
其中,
Figure BDA0002684569310000048
Figure BDA0002684569310000049
分别为t+1时刻风电与光伏的最大可发功率;
3)奖励reward
当动作at应用在环境中后,需根据环境的变化反馈即时奖励,供学习动作的好坏,t时刻的即时奖励由机组出力成本与惩罚函数组成:
rt=-(rcost,t+rpenal,t) (13)
其中,rcost,t为系统经济成本;rpenal,t为违反约束时的惩罚。
为实现新能源的优先消纳,系统经济成本中只计入传统火电机组出力成本,不计新能源出力成本:
Figure BDA0002684569310000051
惩罚函数考虑电力系统运行安全约束:
Figure BDA0002684569310000052
其中,k1、k2与k3均为惩罚系数;
4)策略π
策略为状态到动作的映射,指的是给定状态时,动作集上的一个分布,也即在每个状态s指定一个动作概率;
5)流程
在最开始系统处于某种初始状态s0下,系统根据策略π对电网下达动作指令a0,确定下一阶段发电机有功出力值、风光出力,将动作指令与环境交互,环境状态发生改变,并反馈回给调度中心系统作为下一决策阶段的状态s1,计算奖励r0,循环进行这一过程直至最后一个决策阶段;
将上述马尔可夫过程的模型采用深度强化学习算法求解,得到最优的经济调度决策。
进一步的,所述深度强化学习算法为近端策略优化算法,近端策略优化算法中包含包括动作网络和评价网络,动作网络的输入为观测状态st,输出为动作的正态分布均值与标准差,也即策略分布πθ(at|st),进而采样得到动作at,动作网络的优化目标函数:
Figure BDA0002684569310000061
Figure BDA0002684569310000062
Figure BDA0002684569310000063
其中,rt(θ)为新旧策略中动作at的概率之比;Q(st,at)为状态-动作值函数,表示在状态st下,执行动作at的价值;V(st)为状态值函数,表示状态st的价值,也可表示在状态st,执行所有动作的平均价值;γ为折扣因子,范围为[0,1],当其为0时,说明智能体只看重当前即时奖励,当其趋近于1时,说明智能体看重长期奖励;
Figure BDA0002684569310000064
为优势函数,表示当前动作与平均动作相比的优势;ε为超参数,一般设置为0.2;
LCLIP(θ)为最大化目标函数,当优势函数大于0时,更新策略使得此动作被选中的概率增加;当优势函数小于0时,更新策略使得此动作被选中的概率减少;
评价网络的输入为观测状态st,输出为该状态的价值函数V(st);
评价网络的损失函数:
L(θ)=E[(δ)2]=E[(y-V(st))2] (19)
y=rt+γV(st+1) (20)
其中,δ为TD误差,评价网络通过最小化TD误差更新网络参数。y为折扣累计奖励。
进一步的,将马尔可夫过程的模型采用深度确定性策略梯度算法求解,得到最优的经济调度决策。
进一步的,所述近端策略优化算法的动态经济调度流程包括如下步骤:
步骤1:神经网络权重与偏置初始化;actor神经网络学习率θactor、critic神经网络学习率θcritic、奖励折扣因子γ、超参数ε等参数初始化,环境初始化,训练天数置0;
步骤2:动态经济调度从该日0h开始,循环每一时刻直至该日23h;
步骤3:从环境中读取该日0h的初始观测值,包括:下一时刻的负荷预测值,下一时刻的新能源出力预测值,当前时刻的实时线路有功、线路无功、节点电压幅值;
步骤4:将状态观测值st输入至actor神经网络,神经网络输出对应的策略πθ(at|st),也即动作分布。对该分布采样得到动作at
步骤5:将动作at经公式(10)-(12)转化为t+1时刻的调度方案;将该调度方案应用在t+1时刻的实时电力系统中,动作与环境交互后环境更新,得到t+1时刻的状态观测值st+1,根据公式(13)-(15)计算即时奖励rt
步骤6:存储st、at、rt;更新状态观测值st=st+1
步骤7:更新时间t=t+1。循环步骤3至步骤6,直到该日的动态经济调度结束;
步骤8:将状态观测值st+1输入至critic神经网络中,神经网络输出对应的状态值函数V(st)。根据步骤6存储的该日每个时刻的即时奖励,根据公式Q(st,at)=rt+γrt+1+…+γT-t+1rT-1T-tV(sT),计算每个时刻对应的累计折扣奖励;
步骤9:存储该日每个时刻的状态st、动作at、折扣奖励Q(st,at),形成一个batch的数据,并以此batch的数据更新actor和critic神经网络;更新步骤:
①计算优势函数
Figure BDA0002684569310000081
将batch内的状态st输入至critic神经网络,神经网络输出该batch的V(st);根据公式(18)以及batch的Q(st,at),计算batch内每个状态的优势函数
Figure BDA0002684569310000082
②更新actor神经网络。根据公式(16),以及批数据状态st、动作at、优势函数
Figure BDA0002684569310000083
计算目标函数LCLIP(θ)。神经网络需最小化损失函数,因此将目标函数取负作为损失函数,反向传递更新actor神经网络的参数;
③更新critic神经网络。根据公式(19),以及批数据状态st、折扣奖励Q(st,at)计算损失函数L(θ),并反向传递更新critic神经网络参数;
步骤10:训练天数加一,再循环步骤2至步骤9,直到训练天数达到训练总天数,停止训练;
步骤11:保存actor与critic神经网络模型,并进行测试,保存测试数据。
进一步的,对于式(1)中的参数的约束如下:
由潮流方程表示的等式约束:
Figure BDA0002684569310000084
其中,Pl,i和Ql,i分别为节点i的有功负荷和无功负荷;Pg,i和Qg,i分别为节点i的有功出力和无功出力;Ui和Uj分别为节点i,j的电压幅值;θij为节点i,j的电压相角差;Gij和Bij分别为支路i-j的电导和电纳;
传统火电机组出力约束:
Pg,i,min≤Pg,i≤Pg,i,max,i=1,2,…G (3)
其中,Pg,i,min和Pg,i,max分别为传统火电机组i的最大出力与最小出力;
新能源出力约束:
Figure BDA0002684569310000091
其中,Pwind和Ppv分别为风电与光伏的实发功率;Pwind,max和Ppv,max分别为风电与光伏的最大可发功率;
爬坡约束:
传统火电机组出力需满足相邻时刻的爬坡约束:
Figure BDA0002684569310000092
其中,Pg,i,t和Pg,i,t-1分别为传统火电机组i在t与t-1时刻的机组出力;Pi,ramp_up和Pi,ramp_down分别为传统火电机组i的最大上爬坡功率与最大下爬坡功率;
线路容量约束:
为使得调度方案满足电力系统安全运行约束,线路传输功率需小于等于线路传输容量极限:
|Tl|≤Tl,max,l=1,2,…L (6)
其中,Tl为线路l的传输视在功率;Tl,max为线路l的传输容量极限;
节点电压约束:
为使得调度方案满足电力系统安全运行约束,节点电压需在安全范围:
Vn,min≤Vn≤Vn,max,n=1,2,…N (7)
其中,Vn为节点n的电压幅值;Vn,min和Vn,max分别为节点n电压下限与上限。
本发明相较于现有技术,其有益效果为:
(1)本发明将动态经济调度转化为多阶段序贯决策模型。本发明将进行动作决策的调度中心作为决策主体,实际电力系统作为环境,通过对强化学习中动作、状态、奖励等元素的设计,将电力系统的经济调度模型转化为典型的多阶段序贯决策模型。该模型避免了对日益复杂的电力系统进行建模,且不要求精确的火电机组出力成本函数,通过智能体与环境的不断交互,更新策略,自适应负荷与新能源出力的不确定性,实现任意场景下的电力系统动态经济调度。
(2)本发明利用近端策略优化算法,可求解电力系统这类状态空间与动作空间连续的问题,避免离散化带来的误差。PPO算法将探索与利用集成在算法中,使得智能体不断探索新动作,避免陷入局部最优点。PPO算法更新神经网络时,利用clip机制避免了新策略与旧策略产生过大的差距,降低了超参数(学习率)选择的复杂性。
附图说明
为了更清楚地说明本发明的技术方案,下面对实施例描述中所需的附图作简单介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,这些附图直接得到的技术方案也应属于本发明的保护范围。
图1为经济调度序贯决策模型;
图2为基于PPO算法的动态经济调度流程图。
具体实施方式
本发明提出一种基于深度强化学习的动态经济调度方法。经济调度模型是以机组出力成本最小化为目标,综合考虑机组出力约束,机组爬坡约束,线路潮流约束,节点电压约束的非线性规划问题。本发明将进行动作决策的调度中心作为决策主体,实际电力系统作为环境,通过对强化学习中动作、状态、奖励等元素的设计,将电力系统的经济调度模型转化为典型的多步决策问题,并采用近端策略优化算法求解。
1.经济调度物理模型
经济调度实质上是包含目标函数与约束条件的非线性规划问题。
(1)经济调度目标函数
经济调度以调度周期内机组出力成本的最小化为目标函数。火电机组出力成本用二次函数表示,新能源出力成本不计。当总负荷一定时,系统调度周期内的经济成本可表示为:
Figure BDA0002684569310000111
其中,ai,bi,ci为传统火电机组i的成本系数;Pg,i为传统火力发电机i的有功出力;T为调度周期,本发明中为一天24小时;G为系统中的传统火力发电机数量。
(2)经济调度约束
1)由潮流方程表示的等式约束
Figure BDA0002684569310000121
其中,Pl,i和Ql,i分别为节点i的有功负荷和无功负荷;Pg,i和Qg,i分别为节点i的有功出力和无功出力;Ui和Uj分别为节点i,j的电压幅值;θij为节点i,j的电压相角差;Gij和Bij分别为支路i-j的电导和电纳。
2)出力约束
传统火电机组出力约束如(3)所示:
Pg,i,min≤Pg,i≤Pg,i,max,i=1,2,…G (3)
其中,Pg,i,min和Pg,i,max分别为传统火电机组i的最大出力与最小出力。
新能源出力约束如(4)所示:
Figure BDA0002684569310000122
其中,Pwind和Ppv分别为风电与光伏的实发功率;Pwind,max和Ppv,max分别为风电与光伏的最大可发功率。
3)爬坡约束
传统火电机组出力需满足相邻时刻的爬坡约束,如(5)所示。
Figure BDA0002684569310000131
其中,Pg,i,t和Pg,i,t-1分别为传统火电机组i在t与t-1时刻的机组出力;Pi,ramp_up和Pi,ramp_down分别为传统火电机组i的最大上爬坡功率与最大下爬坡功率。
4)线路容量约束
为使得调度方案满足电力系统安全运行约束,线路传输功率需小于等于线路传输容量极限,如(6)所示。
|Tl|≤Tl,max,l=1,2,…L (6)
其中,Tl为线路l的传输视在功率;Tl,max为线路l的传输容量极限。
5)节点电压约束
为使得调度方案满足电力系统安全运行约束,节点电压需在安全范围,如(7)所示。
Vn,min≤Vn≤Vn,max,n=1,2,…N (7)
其中,Vn为节点n的电压幅值;Vn,min和Vn,max分别为节点n电压下限与上限。
2.马尔科夫决策过程
如果将进行动作决策的调度中心作为决策主体,实际电力系统作为环境,那么电力系统的经济调度模型可以转化为典型的多步决策问题。结合经济调度问题,将一天的经济调度分为24个决策周期的马尔可夫过程,每一天为一个决策周期。在每个决策阶段中,强化学习的智能体通过观察状态,做出动作决策,并将动作应用于实际电力系统环境中,得到从环境反馈的奖惩信息与新的状态。重复这一过程,直到整个调度周期结束。决策过程的主要变量定义如下。
(1)状态st:第t个决策阶段的状态st由t+1时刻的负荷和新能源预测信息及t时刻电网的实时信息组成:
st={P′load,t+1,P′wind,t+1,P′pv,t+1,Pg,t,Pwind,t,Ppv,t,Pline,t,Qline,t,Vt} (8)
其中,P′load,t+1,P′wind,t+1,P′pv,t+1分别为t+1时刻的负荷预测值、风电预测值、光伏预测值;Pg,t为传统火力发电机在t时刻的实际出力值;Pwind,t和Ppv,t分别为t时刻的风电实际出力值、光伏实际出力值;Pline,t和Qline,t分别为t时刻线路传输有功及无功功率;Vt为t时刻节点电压幅值。
(2)动作at
第t个决策阶段的动作at定义为:
Figure BDA0002684569310000141
其中,
Figure BDA0002684569310000142
为非平衡节点传统火电机组出力动作值;
Figure BDA0002684569310000143
为风电出力动作值;
Figure BDA0002684569310000144
为光伏出力动作值。
在智能体依据状态观测值st给出动作at后,需将动作应用到实际电力系统中。受限于传统火电机组相邻时刻爬坡约束,各传统火电机组下一调度时段t+1实际出力状态Pg,i,t+1为:
Figure BDA0002684569310000145
受限于新能源实际最大可发功率,新能源下一时调度时段t+1的出力值为:
Figure BDA0002684569310000151
Figure BDA0002684569310000152
其中,
Figure BDA0002684569310000153
Figure BDA0002684569310000154
分别为t+1时刻风电与光伏的最大可发功率。
(3)奖励reward
当动作at应用在环境中后,需根据环境的变化反馈即时奖励,供智能体学习动作的好坏。奖励函数的正确设计是强化学习算法高效运作的必要条件。t时刻的即时奖励由机组出力成本与惩罚函数组成,如(13)所示。强化学习目标为长期奖励的最大化,而经济调度的目标为调度周期内经济成本的最小化,因此需加负号。
rt=-(rcost,t+rpenal,t) (13)
其中,rcost,t为系统经济成本;rpenal,t为违反约束时的惩罚。
为实现新能源的优先消纳,系统经济成本中只计入传统火电机组出力成本,不计新能源出力成本,如(14)所示。
Figure BDA0002684569310000155
考虑到电力系统运行安全约束,需设置惩罚函数,如(15)所示。
Figure BDA0002684569310000156
其中,k1、k2与k3均为惩罚系数。通过上述动作、状态、奖励的设计,本发明将经济调度模型转化为强化学习模型。通过求解这一序贯决策问题,便可求解动态经济调度问题。
(4)策略π
强化学习的目标是给定一个马尔科夫决策过程,寻找最优策略。策略为状态到动作的映射,指的是给定状态时,动作集上的一个分布,也即在每个状态s指定一个动作概率。
(5)流程
假设在最开始系统处于某种初始状态s0下,调度系统根据策略π对电网下达动作指令a0,确定下一阶段发电机有功出力值、风光出力。将动作指令与环境交互,环境状态发生改变,并反馈回给调度中心系统作为下一决策阶段的状态s1,计算奖励r0。循环进行这一过程直至最后一个决策阶段。
3.近端策略优化算法
强化学习强调充分利用系统环境信息,基于环境信息分析采取行动,以求达到预期利益。目前,主要有值函数算法与策略优化算法。与基于值函数的深度强化学习算法相比,基于Actor-Critic框架的策略优化算法效率更高、求解速度更快。因此,目前深度强化学习算法一般是基于Actor-Critic框架。对于连续动作空间的任务,基于近端策略优化算法(Proximal Policy Optimization,PPO)可获得良好的决策效果。
PPO算法中包含包括动作网络(Actor)和评价网络(Critic)。动作网络的输入为观测状态st,输出为动作的正态分布均值与标准差,也即策略分布πθ(at|st),进而采样得到动作at。动作网络的优化目标函数如(16)所示。
Figure BDA0002684569310000171
Figure BDA0002684569310000172
Figure BDA0002684569310000173
其中,rt(θ)为新旧策略中动作at的概率之比;Q(st,at)为状态-动作值函数,表示在状态st下,执行动作at的价值;V(st)为状态值函数,表示状态st的价值,也可表示在状态st,执行所有动作的平均价值;γ为折扣因子,范围为[0,1],当其为0时,说明智能体只看重当前即时奖励,当其趋近于1时,说明智能体看重长期奖励;
Figure BDA0002684569310000174
为优势函数,表示当前动作与平均动作相比的优势;ε为超参数,一般设置为0.2。
最大化目标函数LCLIP(θ)旨在:当优势函数大于0(该动作的价值大于所有动作的平均价值)时,更新策略使得此动作被选中的概率增加;当优势函数小于0(该动作的价值小于所有动作的平均价值)时,更新策略使得此动作被选中的概率减少。
评价网络的输入为观测状态st,输出为该状态的价值函数V(st)。为评价网络的损失函数如(19)所示。
L(θ)=E[(δ)2]=E[(y-V(st))2] (19)
y=rt+γV(st+1) (20)
其中,δ为TD误差;y为折扣累计奖励。评价网络通过最小化TD误差更新网络参数。
4.基于PPO算法的动态经济调度流程
基于上述分析,本发明将动态经济调度模型转化为序贯决策模型,并采用PPO深度强化学习算法求解。基于PPO算法的动态经济调度流程如图2所示。具体流程说明如下:
步骤1:神经网络权重与偏置初始化;actor神经网络学习率θactor;critic神经网络学习率θcritic;奖励折扣因子γ;超参数ε等参数初始化。环境初始化。训练天数置0。
步骤2:动态经济调度从0h开始,循环每一时刻直至23h。
步骤3:从环境中读取0h的初始观测值(包括下一时刻的负荷预测值,下一时刻的新能源出力预测值,当前时刻的实时线路有功、线路无功、节点电压幅值)。
步骤4:将状态观测值st输入至actor神经网络,神经网络输出对应的策略πθ(at|st),也即动作分布。对该分布采样得到动作at
步骤5:将动作at经公式(10)-(12)转化为t+1时刻的调度方案(传统火电机组出力与新能源出力)。将该调度方案应用在t+1时刻的实时电力系统中,动作与环境交互后环境更新,得到t+1时刻的状态观测值st+1,根据公式(13)-(15)计算即时奖励rt
步骤6:存储st、at、rt;更新状态观测值st=st+1
步骤7:更新时间t=t+1。循环步骤3至步骤6,直到该日的动态经济调度结束。
步骤8:将状态观测值st+1输入至critic神经网络中,神经网络输出对应的状态值函数V(st)。根据步骤6存储的该日每个时刻的即时奖励,根据公式Q(st,at)=rt+γrt+1+…+γT-t+1rT-1T-tV(sT),计算每个时刻对应的累计折扣奖励。
步骤9:将存储的该日每时的状态st、动作at、折扣奖励Q(st,at)形成一个batch的数据(batchsize为24),更新actor和critic神经网络。
更新步骤:①计算优势函数
Figure BDA0002684569310000191
将batch内的状态st输入至critic神经网络,神经网络输出该batch的V(st);根据公式(18)以及batch的Q(st,at),计算batch内每个状态的优势函数
Figure BDA0002684569310000192
②更新actor神经网络。根据公式(16),以及批数据状态st、动作at、优势函数
Figure BDA0002684569310000193
计算目标函数LCLIP(θ)。神经网络需最小化损失函数,因此将目标函数取负作为损失函数,反向传递更新actor神经网络的参数;
③更新critic神经网络。根据公式(19),以及批数据状态st、折扣奖励Q(st,at)计算损失函数L(θ),并反向传递更新critic神经网络参数。
步骤10:训练天数加一。循环步骤2至步骤9,直到训练天数达到训练总天数,停止训练。
步骤11:保存actor与critic神经网络模型,并进行测试。保存测试数据。

Claims (4)

1.一种基于深度强化学习的动态电力系统经济调度方法,其特征在于:
系统调度周期内的经济成本可表示为:
Figure FDA0003297373320000011
其中,ai,bi,ci为传统火电机组i的成本系数;Pg,i为传统火力发电机i的有功出力;T为调度周期,为24小时;G为系统中的传统火力发电机数量;
根据上述模型,将一天24小时的经济调度分为24个决策周期的马尔可夫过程,在每个决策阶段中,通过观察状态,做出动作决策,并将动作应用于实际电力系统环境中,再得到从环境反馈的奖惩信息与新的状态,重复这一过程,直到整个调度周期结束,决策过程的变量包括:
1)状态st:第t个决策阶段的状态st由t+1时刻的负荷和新能源预测信息及t时刻电网的实时信息组成:
st={P′load,t+1,P′wind,t+1,P′pv,t+1,Pg,t,Pwind,t,Ppv,t,Pline,t,Qline,t,Vt} (8)
其中,P′load,t+1,P′wind,t+1,P′pv,t+1分别为t+1时刻的负荷预测值、风电预测值、光伏预测值;Pg,t为传统火力发电机在t时刻的实际出力值;Pwind,t和Ppv,t分别为t时刻的风电实际出力值、光伏实际出力值;Pline,t和Qline,t分别为t时刻线路传输有功及无功功率;Vt为t时刻节点电压幅值;
2)动作at
第t个决策阶段的动作at定义为:
Figure FDA0003297373320000021
其中,
Figure FDA0003297373320000022
为非平衡节点传统火电机组出力动作值;
Figure FDA0003297373320000023
为风电出力动作值;
Figure FDA0003297373320000024
为光伏出力动作值;
依据状态观测值st给出动作at后,需将动作应用到实际电力系统中,受限于传统火电机组相邻时刻爬坡约束,各传统火电机组下一调度时段t+1实际出力状态Pg,i,t+1为:
Figure FDA0003297373320000025
其中Pi,ramp_up和Pi,ramp_down分别为传统火电机组i的最大上爬坡功率与最大下爬坡功率;
受限于新能源实际最大可发功率,新能源下一时调度时段t+1的出力值为:
Figure FDA0003297373320000026
Figure FDA0003297373320000027
其中,
Figure FDA0003297373320000028
Figure FDA0003297373320000029
分别为t+1时刻风电与光伏的最大可发功率;
3)奖励reward
当动作at应用在环境中后,需根据环境的变化反馈即时奖励,供学习动作的效果,t时刻的即时奖励由机组出力成本与惩罚函数组成:
rt=-(rcost,t+rpenal,t) (13)
其中,rcost,t为系统经济成本;rpenal,t为违反约束时的惩罚;
为实现新能源的优先消纳,系统经济成本中只计入传统火电机组出力成本,不计新能源出力成本:
Figure FDA0003297373320000031
惩罚函数考虑电力系统运行安全约束:
Figure FDA0003297373320000032
其中,k1、k2与k3均为惩罚系数;Tl为线路l的传输视在功率;Tl,max为线路l的传输容量极限;Vn,t为节点n在t时刻的电压幅值;Vn,min和Vn,max分别为节点n电压下限与上限;
4)策略π
策略为状态到动作的映射,指的是给定状态时,动作集上的一个分布,也即在每个状态s指定一个动作概率;
5)流程
在最开始系统处于某种初始状态s0下,系统根据策略π对电网下达动作指令a0,确定下一阶段发电机有功出力值、风光出力,将动作指令与环境交互,环境状态发生改变,并反馈回给调度中心系统作为下一决策阶段的状态s1,计算奖励r0,循环进行这一过程直至最后一个决策阶段;
将上述马尔可夫过程的模型采用深度强化学习算法求解,得到最优的经济调度决策。
2.如权利要求1所述的一种基于深度强化学习的动态电力系统经济调度方法,其特征在于,将马尔可夫过程的模型采用近端策略优化算法求解,得到最优的经济调度决策。
3.如权利要求1所述的一种基于深度强化学习的动态电力系统经济调度方法,其特征在于,将马尔可夫过程的模型采用深度确定性策略梯度算法求解,得到最优的经济调度决策。
4.如权利要求1所述的一种基于深度强化学习的动态电力系统经济调度方法,其特征在于,对于式(1)中的参数的约束如下:
由潮流方程表示的等式约束:
Figure FDA0003297373320000041
其中,Pl,i和Ql,i分别为节点i的有功负荷和无功负荷;Pg,i和Qg,i分别为节点i的有功出力和无功出力;Ui和Uj分别为节点i,j的电压幅值;θij为节点i,j的电压相角差;Gij和Bij分别为支路i-j的电导和电纳;
传统火电机组出力约束:
Pg,i,min≤Pg,i≤Pg,i,max,i=1,2,…G (3)
其中,Pg,i,min和Pg,i,max分别为传统火电机组i的最大出力与最小出力;
新能源出力约束:
Figure FDA0003297373320000051
其中,Pwind和Ppv分别为风电与光伏的实发功率;Pwind,max和Ppv,max分别为风电与光伏的最大可发功率;
爬坡约束:
传统火电机组出力需满足相邻时刻的爬坡约束:
Figure FDA0003297373320000052
其中,Pg,i,t和Pg,i,t-1分别为传统火电机组i在t与t-1时刻的机组出力;Pi,ramp_up和Pi,ramp_down分别为传统火电机组i的最大上爬坡功率与最大下爬坡功率;
线路容量约束:
为使得调度方案满足电力系统安全运行约束,线路传输功率需小于等于线路传输容量极限:
|Tl|≤Tl,max,l=1,2,…L (6)
其中,Tl为线路l的传输视在功率;Tl,max为线路l的传输容量极限;
节点电压约束:
为使得调度方案满足电力系统安全运行约束,节点电压需在安全范围:
Vn,min≤Vn≤Vn,max,n=1,2,…N (7)
其中,Vn为节点n的电压幅值;Vn,min和Vn,max分别为节点n电压下限与上限。
CN202010972420.1A 2020-09-16 2020-09-16 一种基于深度强化学习的动态电力系统经济调度方法 Active CN112186743B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010972420.1A CN112186743B (zh) 2020-09-16 2020-09-16 一种基于深度强化学习的动态电力系统经济调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010972420.1A CN112186743B (zh) 2020-09-16 2020-09-16 一种基于深度强化学习的动态电力系统经济调度方法

Publications (2)

Publication Number Publication Date
CN112186743A CN112186743A (zh) 2021-01-05
CN112186743B true CN112186743B (zh) 2022-03-25

Family

ID=73920837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010972420.1A Active CN112186743B (zh) 2020-09-16 2020-09-16 一种基于深度强化学习的动态电力系统经济调度方法

Country Status (1)

Country Link
CN (1) CN112186743B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113098073B (zh) * 2021-04-06 2022-09-27 合肥工业大学 一种考虑源荷双侧弹性空间的日前调度优化方法
CN113141012B (zh) * 2021-04-24 2023-04-18 西安交通大学 电网潮流调控决策推理方法
CN113344283B (zh) * 2021-06-23 2023-11-28 国网黑龙江省电力有限公司 基于边缘智能的能源互联网新能源消纳能力评估方法
CN113469839A (zh) * 2021-06-30 2021-10-01 国网上海市电力公司 一种基于深度强化学习的智慧园区优化策略
CN113991654B (zh) * 2021-10-28 2024-01-23 东华大学 一种能源互联网混合能量系统及其调度方法
CN114048903B (zh) * 2021-11-11 2024-03-26 天津大学 一种基于深度强化学习的电网安全运行策略智能优化方法
CN114217524B (zh) * 2021-11-18 2024-03-19 国网天津市电力公司电力科学研究院 一种基于深度强化学习的电网实时自适应决策方法
CN114362187B (zh) * 2021-11-25 2022-12-09 南京邮电大学 一种基于多智能体深度强化学习的有源配电网协同调压方法及系统
CN113824116B (zh) * 2021-11-25 2022-03-11 国网江西省电力有限公司电力科学研究院 一种基于混合时间尺度drl的综合能源在线调度方法
CN114156893B (zh) * 2021-12-02 2022-07-26 中国电力科学研究院有限公司 面向新能源消纳场景的电网调度方法、装置、设备及介质
CN115049292B (zh) * 2022-06-28 2023-03-24 中国水利水电科学研究院 一种基于dqn深度强化学习算法的单一水库智能防洪调度方法
CN115840794B (zh) * 2023-02-14 2023-05-02 国网山东省电力公司东营供电公司 一种基于gis和rl模型的光伏系统规划方法
CN116245334B (zh) * 2023-03-15 2024-04-16 东南大学 一种基于深度强化学习的电力系统风险感知实时调度方法
CN116436003B (zh) * 2023-06-15 2023-09-22 山东大学 主动配电网风险约束备用优化方法、系统、介质及设备
CN117314370B (zh) * 2023-11-30 2024-03-01 嘉兴市信达电子科技有限公司 一种基于智慧能源的数据驾驶舱系统及实现方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106849190B (zh) * 2017-03-21 2019-05-17 国网天津市电力公司 一种基于Rollout算法的多能互补微网实时调度方法
CN108964042B (zh) * 2018-07-24 2021-10-15 合肥工业大学 基于深度q网络的区域电网运行点调度优化方法
CN110929948B (zh) * 2019-11-29 2022-12-16 上海电力大学 基于深度强化学习的完全分布式智能电网经济调度方法
CN111144728B (zh) * 2019-12-18 2023-08-04 东南大学 基于深度强化学习的热电联产系统经济调度方法
CN111506405A (zh) * 2020-04-08 2020-08-07 北京交通大学 一种基于深度强化学习的边缘计算时间片调度方法

Also Published As

Publication number Publication date
CN112186743A (zh) 2021-01-05

Similar Documents

Publication Publication Date Title
CN112186743B (zh) 一种基于深度强化学习的动态电力系统经济调度方法
CN112614009B (zh) 一种基于深度期望q-学习的电网能量管理方法及系统
CN110782363A (zh) 一种计及风电不确定性的交直流配电网调度方法
Guo et al. Study on short-term photovoltaic power prediction model based on the Stacking ensemble learning
CN114091879A (zh) 基于深度强化学习的多园区能源调度方法和系统
CN111934360B (zh) 基于模型预测控制的虚拟电厂-储能系统能量协同优化调控方法
CN111401664A (zh) 一种综合能源系统鲁棒优化调度方法及装置
Yin et al. Hybrid metaheuristic multi-layer reinforcement learning approach for two-level energy management strategy framework of multi-microgrid systems
Huang et al. A control strategy based on deep reinforcement learning under the combined wind-solar storage system
CN112491094B (zh) 一种混合驱动的微电网能量管理方法、系统及装置
CN112215428B (zh) 基于误差修正和模糊逻辑的光伏发电功率预测方法及系统
CN115374692B (zh) 一种用于区域综合能源系统的双层优化调度决策方法
CN114676941B (zh) 园区综合能源系统电-热负荷联合自适应预测方法及装置
CN112072643A (zh) 一种基于深度确定性梯度策略的光-蓄系统在线调度方法
CN113872213A (zh) 一种配电网电压自主优化控制方法及装置
Dou et al. Double‐deck optimal schedule of micro‐grid based on demand‐side response
CN113255982A (zh) 一种风光水互补系统中长期优化调度方法
Liu et al. Day-ahead economic dispatch of renewable energy system considering wind and photovoltaic predicted output
CN117277327A (zh) 一种基于智能体的并网型微电网最优能量管理方法
Qiu et al. Local integrated energy system operational optimization considering multi‐type uncertainties: A reinforcement learning approach based on improved TD3 algorithm
CN114204546B (zh) 一种考虑新能源消纳的机组组合优化方法
CN114759579A (zh) 一种基于数据驱动的电网有功优化控制系统、方法和介质
CN114400675A (zh) 基于权重均值深度双q网络的主动配电网电压控制方法
CN110070209B (zh) 一种基于SD-DNNs的区域供热系统短期负荷预测方法
CN115632406B (zh) 基于数字-机理融合驱动建模的无功电压控制方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant