CN111429038B - 一种基于强化学习的主动配电网实时随机优化调度方法 - Google Patents

一种基于强化学习的主动配电网实时随机优化调度方法 Download PDF

Info

Publication number
CN111429038B
CN111429038B CN202010336141.6A CN202010336141A CN111429038B CN 111429038 B CN111429038 B CN 111429038B CN 202010336141 A CN202010336141 A CN 202010336141A CN 111429038 B CN111429038 B CN 111429038B
Authority
CN
China
Prior art keywords
decision
distribution network
period
active power
power distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010336141.6A
Other languages
English (en)
Other versions
CN111429038A (zh
Inventor
李捷
余涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202010336141.6A priority Critical patent/CN111429038B/zh
Publication of CN111429038A publication Critical patent/CN111429038A/zh
Application granted granted Critical
Publication of CN111429038B publication Critical patent/CN111429038B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/28Arrangements for balancing of the load in a network by storage of energy
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/38Arrangements for parallely feeding a single network by two or more generators, converters or transformers
    • H02J3/381Dispersed generators
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Power Engineering (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Theoretical Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Water Supply & Treatment (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Public Health (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明提出一种基于强化学习的主动配电网实时随机优化调度方法。所述方法包括以下步骤:建立主动配电网的数学模型;提出原问题的动态规划公式,根据主动配电网中电动汽车的特性构造表征当前决策对后续所有时段影响的值函数,并利用决策后状态值函数避免期望值的计算;训练值函数,得到近似值函数;利用训练好的近似值函数对主动配电网实时场景下的随机优化调度问题进行递推求解,得到各时段的近似最优决策。本发明在实时运行中时,一方面能更有效地提升调度收益,另一方面也起到“削峰填谷”的作用。当环境中的随机因素变化更加剧烈时,本发明依旧适用,能接近最优解,且实时调度过程中的计算时间并不受影响,具有较强的鲁棒性。

Description

一种基于强化学习的主动配电网实时随机优化调度方法
技术领域
本发明涉及电力系统主动配电网优化调度领域,尤其涉及一种基于强化学习的主动配电网实时随机优化调度方法。
背景技术
随着分布式电源(Distributed Generator,DG)、储能装置(Energy Storage,ES)和柔性负荷(Flexible Load,FL)广泛接入电网,传统配电网正逐渐向主动配电网(ActiveDistribution Network,ADN)转变。不同于传统配电网的能量单向流动,ADN中的“主动”二字体现在能量的双向流动,即不止主网能向配网传输功率,配网中的DG、ES、FL也可以反过来向主网传输功率。ADN的不断发展给电力系统的安全经济运行带来一系列的挑战。已有大量文献对ADN的调度方法进行了研究,提供了多种方法促进配电网中分布式资源的消纳,但是并未考虑随机性的影响(顾伟,任佳依,高君,高菲,宋晓辉,刘海波.含分布式电源和可调负荷的售电公司优化调度模型[J].电力系统自动化,2017,41(14):37-44.肖浩,裴玮,孔力.含大规模电动汽车接入的主动配电网多目标优化调度方法[J].电工技术学报,2017,32(S2):179-189.Hu J,Cong H,Jiang C.Coordinated scheduling model of power systemwith active distribution networks based on multi-agent system[J].Journal ofModern Power Systems and Clean Energy,2018,6(3):521-531.欧阳聪,刘明波,林舜江,冯汉中.采用同步型交替方向乘子法的微电网分散式动态经济调度算法[J].电工技术学报,2017,32(05):134-142.);针对考虑随机性的优化问题,鲁棒优化(梁俊文,林舜江,刘明波,宋雨浓,范官盛,何森,蒋浩.主动配电网分布式鲁棒优化调度方法[J].电网技术,2019,43(04):1336-1344.)、机会约束(周星球,郑凌蔚,杨兰,仇琦.考虑多重不确定性的综合能源系统日前优化调度[J/OL].电网技术:1-8[2020-04-13].https://doi.org/10.13335/j.1000-3673.pst.2019.2169.)等算法得到了广泛应用。但大部分文献是站在日前调度决策的角度考虑随机性的影响,仅仅依赖日前调度方案,并不能实现经济效益的最大化,当预测误差较大时甚至可能出现安全运行问题。
强化学习可以解决考虑随机性影响下的多时段决策问题,在电力系统优化运行领域得到广泛关注,针对含储能或抽水蓄能站的电网动态经济调度问题,提出存储器模型以处理随机性(SHUAI Hang,FANG Jiakun,AI Xiaomeng,et al.Stochastic optimizationof economic dispatch for microgrid based on approximate dynamic programming[J].IEEE Transactions on Smart Grid,2018(Early Access)简淦杨,刘明波,林舜江.随机动态经济调度问题的存储器建模及近似动态规划算法[J].中国电机工程学报,2014,34(25):4333-4340.)。但上述方法针对单个储能设备进行值函数的设计,并无法简单应用到数量巨大的电动汽车中去。在计算效率方面,利用逐次投影近似法更新值函数(刘翠平,林舜江,刘明波,简淦杨,陆文甜.应用近似动态规划算法求解安全约束随机动态经济调度问题[J].电力系统自动化,2016,40(22):34-42.SALAS D F,POWELL W B.Benchmarking ascalable approximate dynamic programming algorithm for stochastic control ofgrid-level energy storage[J].Informs Journal on Computing,2018,30(1):106-123.),并采用投影运算的方法保证斜率单调递减,从而恢复值函数的凹性,但该方法收敛速度较慢,且对于初始斜率的依赖性过高。
因此,迫切需要找到一种适应电动汽车等新能源出力特点下的主动配电网实时随机优化调度方法。
发明内容
本发明提出一种基于强化学习的主动配电网实时随机优化调度方法。建立主动配电网的数学模型,将主动配电网的实时调度描述成一个多阶段随机序贯决策问题;提出原问题的动态规划公式,根据主动配电网中电动汽车的特性构造表征当前决策对后续所有时段影响的值函数,并利用决策后状态值函数避免期望值的计算;在大量模拟场景下利用基于时序差分TD(1)的策略迭代算法训练值函数,得到近似值函数;利用训练好的近似值函数对主动配电网实时场景下的随机优化调度问题进行递推求解,得到各时段的近似最优决策。
本发明的目的至少通过如下技术方案之一实现。
一种基于强化学习的主动配电网实时随机优化调度方法,包括以下步骤:
S1、建立主动配电网的数学模型,将主动配电网的实时调度描述成一个多阶段随机序贯决策问题;
S2、提出原问题的动态规划公式,根据主动配电网中电动汽车的特性构造表征当前决策对后续所有时段影响的值函数,并利用决策后状态值函数避免期望值的计算;
S3、在大量模拟场景下利用基于时序差分TD(1)的策略迭代算法训练值函数,得到近似值函数;
S4、利用训练好的近似值函数对主动配电网实时场景下的随机优化调度问题进行递推求解,得到各时段的近似最优决策。
进一步地,步骤A1中,所述主动配电网的数学模型包括潮流约束、储能约束、电动汽车充电约束、分布式电源约束以及主动配电网实时调度的目标函数。
进一步地,所述潮流约束如下:
Figure BDA0002466692050000031
式中,i、j均为节点编号,Pij、Qij、rij和xij分别为节点ij间的有功传输功率、无功传输功率、电阻和电抗,Pi、Qi、Vi和δi分别为节点i的有功功率、无功功率、电压和相角,NB为支路数;Pij,max和-Pij,max分别为节点ij间的最大和最小有功传输功率;Vi,max和Vi,min分别为节点i的最大和最小电压;
除了与外部电网相连的节点,配电网内其它节点在t时段的功率如下:
Figure BDA0002466692050000032
Figure BDA0002466692050000033
式中,
Figure BDA0002466692050000034
Figure BDA0002466692050000035
分别为t时段节点i上的分布式电源的有功和无功出力;
Figure BDA0002466692050000036
Figure BDA0002466692050000037
分别为t时段节点i上的储能的有功和无功出力;
Figure BDA0002466692050000038
Figure BDA0002466692050000039
为t时段节点i上的常规有功负荷和无功负荷;
Figure BDA00024666920500000310
Figure BDA00024666920500000311
为t时段节点i上的电动汽车有功负荷和无功负荷;n为电动汽车编号,NEV为电动汽车数目;
所述储能约束如下:
Figure BDA00024666920500000312
Pa,t,min≤Pa,t≤Pa,t,max; (5)
Ea,t,min≤Ea,t≤Ea,t,max; (6)
式(4)中,a为储能编号,Ea,t为t时段初第a个储能的能量,Ea,t+1为t时段末、t+1时段初第a个储能的能量;Pa,t为t时段第a个储能的充/放电功率,大于0表示放电,小于0表示充电;式(5)和(6)分别为功率和能量的上下限约束,Pa,t,max和Pa,t,min分别为功率上下限,Ea,t,max和Ea,t,min分别为能量上下限;
所述分布式电源约束如下:
Figure BDA0002466692050000041
其中,d为分布式电源编号,
Figure BDA0002466692050000042
为第d台分布式电源在t+1时段中发出的有功功率;vup,d和vdown,d分别为第d台分布式电源的向上爬坡速率限制和向下爬坡速率限制,
Figure BDA0002466692050000043
Figure BDA0002466692050000044
分别为第d台分布式电源输出功率的上限和下限;
所述单台电动汽车(EV)的充电约束如下:
Figure BDA0002466692050000045
式中,e为电动汽车编号,ee,t为t时段初第e台电动汽车电池的电量,η为充电效率,pe,k表示k时段第e台电动汽车的充电功率,ee,t,max、ee,t,min分别为t时刻电动汽车能量的上下边界;能量的上边界表示电动汽车接入电网后便以最大功率充电充至eexp这段时间内的电量变化曲线;能量的下边界表示接入后延迟充电直至离开的时刻恰好达到用户期望的电量值的电量变化曲线;eexp为用户希望离开时电池的电量,一般为电池的最大电量;pe,t,max、pe,t,min分别为t时段第e台电动汽车充电功率的上下限约束,pmax表示受充电桩和电动汽车本身性质影响的最大充电功率;Δt为每个时段的时长;tend表示结束时段;
当电动汽车的渗透率过高时,将每台电动汽车作为决策变量进行求解会产生“维数灾”的问题,可利用集群的思想,将一天分为T个时段,具有相同离开时段的电动汽车分为同一集群,将集群内单台电动汽车的充电模型叠加,可得到等效的集群模型:
Figure BDA0002466692050000051
式中,ec为电动汽车集群编号,Eec,t、Emax,ec,t、Emin,ec,t和Pec,t分别为t时段子集群ec的能量、能量上下界和子集群充电总功率;Pec,e,t为子集群ec内第e辆电动汽车t时段的充电功率;m为t时段子集群ec的电动汽车数量;
所述目标函数,为考虑各类资源包括电动汽车、分布式电源的随机性下,通过实时调度决策,使得调度周期内的总收益最大,即将主动配电网的实时调度描述成一个多阶段随机序贯决策问题:
Figure BDA0002466692050000052
其中,xt表示决策变量,Xt表示可行域,E()表示取期望值运算,Ft表示t时段的调度收益,为调度成本的相反数,具体如下:
Figure BDA0002466692050000053
其中,
Figure BDA0002466692050000054
分别是t时段主动配电网向外部电网购电的成本、t时段第a个储能的运行成本,
Figure BDA0002466692050000055
是t时段第d个分布式电源的运行成本,为二次函数;NDG,NESS分别表示分布式电源、储能的个数。
进一步地,步骤S2中提出原问题的动态规划公式,即根据贝尔曼的最优性原理,可将多时段的优化决策问题转化成递推问题,将式(10)转化成:
Figure BDA0002466692050000056
其中,St为主动配电网系统t时段所处的状态,F(St,xt)为主动配电网系统在St状态时作了决策xt后产生的实时收益,Vt(St)为主动配电网系统在St状态的值函数,Vt+1(St+1|St,xt,Wt)为主动配电网系统在St状态的前提下,做出决策xt、接收外源信息Wt后t+1时刻的值函数,值函数的意义为后续状态对当前状态的影响;
所述主动配电网系统t时段所处的状态St
Figure BDA0002466692050000057
其中,
Figure BDA0002466692050000058
为t时段电动汽车子集群ec的可调资源量,
Figure BDA0002466692050000059
Figure BDA0002466692050000061
即t时段电动汽车子集群ec的可调资源量为t时段电动汽车子集群ec的能量上界与该集群ec此时的能量之差,电动汽车子集群ec在t时段的能量为电池电量总和;
Figure BDA0002466692050000062
为t时段分布式电源的可调资源量,
Figure BDA0002466692050000063
即t时段分布式电源的可调资源量为t时段分布式电源的最大发电功率与实际发电功率之差;RESSa,t为储能的可调容量,即剩余电量;Pi,t、Qi,t分别为t时段节点i的有功功率、无功功率;
决策变量xt为:
Figure BDA0002466692050000064
外源信息Wt为:
Figure BDA0002466692050000065
外源信息Wt表示t时段主动配电网系统更新的各随机变量的预测误差,其中
Figure BDA0002466692050000066
表示因t时段电动汽车随机接入产生的误差,引起的变化包括各个电动汽车子集群内电动汽车的数量、集群能量轨迹上下边界、集群的充电功率极限;
Figure BDA0002466692050000067
Figure BDA0002466692050000068
分别表示t时段光伏出力的误差、风机出力的误差和电价的误差。
进一步地,步骤S2中根据主动配电网中电动汽车的特性构造表征当前决策对后续所有时段影响的值函数,并利用决策后状态值函数避免期望值的计算;
首先定义状态转移方程:
St=f(St-1,xt-1,Wt); (16)
表示t时段的主动配电网系统状态St由t-1的状态St-1、t-1时段所做的决策xt-1、t时段的外源信息Wt共同决定;
接着将主动配电网系统状态St分为决策前状态
Figure BDA0002466692050000069
和决策后状态
Figure BDA00024666920500000610
两个阶段;决策前,主动配电网系统接收外源信息Wt,改变状态,
Figure BDA00024666920500000611
做出决策后、未接受外源信息前,主动配电网系统的状态进一步变化
Figure BDA00024666920500000612
根据电动汽车特性进行设计,决策前每个电动汽车子集群的电池电量Eec,t不变,但观测到新的电动汽车的随机接入,即
Figure BDA00024666920500000613
导致电动汽车集群的能量上下边界Eec,t,max、Eec,t,min发生变化,从而电动汽车子集群的可调资源量由
Figure BDA00024666920500000614
变化至
Figure BDA00024666920500000615
决策后,每个电动汽车集群的电池电量Eec,t根据所作的决策发生改变,可调资源量变成RXec,t,实现主动配电网系统状态的转移;
根据前述内容将主动配电网系统状态分成决策前与决策后状态,则式(12)可分成两部分,得到决策前状态值函数
Figure BDA0002466692050000071
和决策后状态值函数
Figure BDA0002466692050000072
注意到决策前状态值函数是确定性问题,因此只要解决决策后状态值函数
Figure BDA0002466692050000073
的近似,即可通过解决确定性问题来获得最优解。
进一步地,步骤S3中,在大量模拟场景下利用基于时序差分TD(1)的策略迭代算法训练值函数,得到收敛的近似值函数,步骤如下:
S3.1、初始化
Figure BDA0002466692050000074
为第n次迭代中t时段第r段的斜率,直接令
Figure BDA0002466692050000075
生成n个训练样本TS1,TS2,…,TSn;令迭代次数g=1;
S3.2、从t=1,…,T,进行前推计算;
S3.3、从t=T,…,1,进行回代计算;
S3.4、令g=g+1,返回步骤S2;当g>n时迭代停止,得到收敛的各分段线性凹函数的斜率。
进一步地,步骤S3.2的具体步骤如下:
S3.2.1、令t=1;
S3.2.2、根据最新的随机变量更新主动配电网系统状态并利用上一次迭代后的各分段斜率
Figure BDA0002466692050000076
求得各决策变量
Figure BDA0002466692050000077
决策后的主动配电网系统状态
Figure BDA0002466692050000078
包括决策后的可调容量
Figure BDA0002466692050000079
S3.2.3、若t>1,对每个可调容量施加正负扰动,并计算其正负边际效益,第n次迭代中的第i个可调容量
Figure BDA00024666920500000710
的正负边际效益如下:
Figure BDA00024666920500000711
式中,
Figure BDA00024666920500000712
分别为第ec个电动汽车子集群可调容量的正负边际效益,δ+、δ-分别为正负扰动量,Ft为立即成本;
Figure BDA00024666920500000713
分别为t时段施加正、负扰动后的主动配电网系统状态,
Figure BDA00024666920500000714
分别为t时段施加正、负扰动后所做的决策;
S3.2.4、计算每个可调容量施加正负扰动后的资源变化量:
Figure BDA0002466692050000081
其中,
Figure BDA0002466692050000082
为施加正扰动后的资源变化量,
Figure BDA0002466692050000083
为施加负扰动后的资源变化量;
Figure BDA0002466692050000084
分别为施加正、负扰动后的资源量;
S3.2.5、令t=t+1,若t≤T,返回步骤S2.2;若t>T,循环终止。
进一步地,步骤S3.3的具体步骤如下:
S3.3.1、令t=T;
S3.3.2、计算本次迭代过程中决策前各分段斜率的正负边际值,正边际值的计算:
Figure BDA0002466692050000085
负边际值的计算:
Figure BDA0002466692050000086
根据
Figure BDA0002466692050000087
以及上一次迭代的决策后边际值
Figure BDA0002466692050000088
求得本次迭代的决策后边际值:
Figure BDA0002466692050000089
α为迭代步长,取值范围为0~1;
S3.3.3、根据
Figure BDA00024666920500000810
采用凹自适应值估计法(TheConcave Adaptive Value Estimation Algorithm,CAVE)对各分段线性凹函数的斜率进行更新;
S3.3.4、令t=t-1,若t≥1,返回步骤S3.2;若t<1,循环终止。
进一步地,步骤S3.4中,利用分段线性函数法将决策后状态值函数用分段线性凹函数表示,通过不断迭代更新得到收敛的分段线性凹函数的斜率,从而得到近似的决策后值函数即近似值函数;
所述分段线性函数法将决策后状态值函数用分段线性凹函数表示步骤如下:将可调资源用断点R=[ρ,2ρ,…,βρ]表示,R表示断点集合,β代表段数,ρ为每段的长度,将分段线性凹函数的斜率向量用有限集合vt(Wt)=[vt(1,Wt),vt(2,Wt),…,vt(β,Wt)]表示,vt(Wt)表示斜率集合,vt(β,Wt)表示第β段的斜率,[vt(1,Wt)≥vt(2,Wt),≥…≥vt(β,Wt)],保证斜率单调递减;则式(12)可进一步转化为:
Figure BDA0002466692050000091
表示当决策xt使得上式取最大值时,即为最优决策;须满足:
Figure BDA0002466692050000092
其中,r表示第r段线性凹函数,ρ为每段线性凹函数的长度,ytr为每段线性凹函数的资源量,其中,假设所有的分段线性凹函数的长度都是均匀的。
进一步地,步骤S4中,利用训练好的近似值函数对主动配电网实时场景下的随机优化调度问题进行递推求解,得到各时段的近似最优决策,步骤如下:
S4.1、令t=1;
S4.2、更新当前时段的外源信息,包括新接入的电动汽车、光伏出力的误差、风机出力的误差以及电价的误差;
S4.3、利用步骤S3中训练好的近似值函数,根据式(17)计算出t时段最优决策;
S4.、令t=t+1,若t≤T,返回步骤S4.2;若t>T,循环终止,得到各时段的近似最优决策。
相比于现有技术,本发明具有以下优点:
本发明针对主动配电网中多元资源的实时随机优化调度问题,根据强化学习思想,提出了一种能满足主动配电网实时、快速响应的方法,适应多变的配电网调度需求,所提方法在模拟场景中训练过后能快速地收敛并逼近最优解,投入到实时运行中时,一方面能更有效地提升调度收益,另一方面也起到“削峰填谷”的作用。当环境中的随机因素变化更加剧烈时,本发明依旧适用,能接近最优解,且实时调度过程中的计算时间并不受影响,具有较强的鲁棒性。
附图说明
图1为本发明实施例中一种基于强化学习的主动配电网实时随机优化调度方法的步骤流程图。
图2为本发明实施例中决策前后的电动汽车子集群的状态变化图。
具体实施方式
有鉴于此,本发明实施例提供了一种基于强化学习的主动配电网实时随机优化调度方法,满足主动配电网实时、快速响应的方法,适应多变的配电网调度需求。
为了使本技术领域的人员更好地理解本发明的技术方案,下面将结合本发明实施例以及附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例:
一种基于强化学习的主动配电网实时随机优化调度方法,如图1所示,包括以下步骤:
S1、建立主动配电网的数学模型,将主动配电网的实时调度描述成一个多阶段随机序贯决策问题;
所述主动配电网的数学模型包括潮流约束、储能约束、电动汽车充电约束、分布式电源约束以及主动配电网实时调度的目标函数。
所述潮流约束如下:
Figure BDA0002466692050000101
式中,i、j均为节点编号,Pij、Qij、rij和xij分别为节点ij间的有功传输功率、无功传输功率、电阻和电抗,Pi、Qi、Vi和δi分别为节点i的有功功率、无功功率、电压和相角,NB为支路数;Pij,max和-Pij,max分别为节点ij间的最大和最小有功传输功率;Vi,max和Vi,min分别为节点i的最大和最小电压;
除了与外部电网相连的节点,配电网内其它节点在t时段的功率如下:
Figure BDA0002466692050000111
Figure BDA0002466692050000112
式中,
Figure BDA0002466692050000113
Figure BDA0002466692050000114
分别为t时段节点i上的分布式电源的有功和无功出力;
Figure BDA0002466692050000115
Figure BDA0002466692050000116
分别为t时段节点i上的储能的有功和无功出力;
Figure BDA0002466692050000117
Figure BDA0002466692050000118
为t时段节点i上的常规有功负荷和无功负荷;
Figure BDA0002466692050000119
Figure BDA00024666920500001110
为t时段节点i上的电动汽车有功负荷和无功负荷;n为电动汽车编号,NEV为电动汽车数目;
所述储能约束如下:
Figure BDA00024666920500001111
Pa,t,min≤Pa,t≤Pa,t,max; (5)
Ea,t,min≤Ea,t≤Ea,t,max; (6)
式(4)中,a为储能编号,Ea,t为t时段初第a个储能的能量,Ea,t+1为t时段末、t+1时段初第a个储能的能量;Pa,t为t时段第a个储能的充/放电功率,大于0表示放电,小于0表示充电;式(5)和(6)分别为功率和能量的上下限约束,Pa,t,max和Pa,t,min分别为功率上下限,Ea,t,max和Ea,t,min分别为能量上下限;
所述分布式电源约束如下:
Figure BDA00024666920500001112
其中,d为分布式电源编号,
Figure BDA00024666920500001113
为第d台分布式电源在t+1时段中发出的有功功率;vup,d和vdown,d分别为第d台分布式电源的向上爬坡速率限制和向下爬坡速率限制,
Figure BDA00024666920500001114
Figure BDA00024666920500001115
分别为第d台分布式电源输出功率的上限和下限;
所述单台电动汽车(EV)的充电约束如下:
Figure BDA00024666920500001116
式中,e为电动汽车编号,ee,t为t时段初第e台电动汽车电池的电量,η为充电效率,pe,k表示k时段第e台电动汽车的充电功率,ee,t,max、ee,t,min分别为t时刻电动汽车能量的上下边界;能量的上边界表示电动汽车接入电网后便以最大功率充电充至eexp这段时间内的电量变化曲线;能量的下边界表示接入后延迟充电直至离开的时刻恰好达到用户期望的电量值的电量变化曲线;eexp为用户希望离开时电池的电量,一般为电池的最大电量;pe,t,max、pe,t,min分别为t时段第e台电动汽车充电功率的上下限约束,pmax表示受充电桩和电动汽车本身性质影响的最大充电功率;Δt为每个时段的时长;tend表示结束时段;
当电动汽车的渗透率过高时,将每台电动汽车作为决策变量进行求解会产生“维数灾”的问题,可利用集群的思想,将一天分为T个时段,具有相同离开时段的电动汽车分为同一集群,将集群内单台电动汽车的充电模型叠加,可得到等效的集群模型:
Figure BDA0002466692050000121
式中,ec为电动汽车集群编号,Eec,t、Emax,ec,t、Emin,ec,t和Pec,t分别为t时段子集群ec的能量、能量上下界和子集群充电总功率;Pec,e,t为子集群ec内第e辆电动汽车t时段的充电功率;m为t时段子集群ec的电动汽车数量;
所述目标函数,为考虑各类资源包括电动汽车、分布式电源的随机性下,通过实时调度决策,使得调度周期内的总收益最大,即将主动配电网的实时调度描述成一个多阶段随机序贯决策问题:
Figure BDA0002466692050000122
其中,xt表示决策变量,χt表示可行域,E()表示取期望值运算,Ft表示t时段的调度收益,为调度成本的相反数,具体如下:
Figure BDA0002466692050000123
其中,
Figure BDA0002466692050000124
分别是t时段主动配电网向外部电网购电的成本、t时段第a个储能的运行成本,
Figure BDA0002466692050000125
是t时段第d个分布式电源的运行成本,为二次函数;NDG,NESS分别表示分布式电源、储能的个数。
S2、提出原问题的动态规划公式,根据主动配电网中电动汽车的特性构造表征当前决策对后续所有时段影响的值函数,并利用决策后状态值函数避免期望值的计算;
提出原问题的动态规划公式,即根据贝尔曼的最优性原理,可将多时段的优化决策问题转化成递推问题,将式(10)转化成:
Figure BDA0002466692050000131
其中,St为主动配电网系统t时段所处的状态,F(St,xt)为主动配电网系统在St状态时作了决策xt后产生的实时收益,Vt(St)为主动配电网系统在St状态的值函数,Vt+1(St+1|St,xt,Wt)为主动配电网系统在St状态的前提下,做出决策xt、接收外源信息Wt后t+1时刻的值函数,值函数的意义为后续状态对当前状态的影响;
所述主动配电网系统t时段所处的状态St
Figure BDA0002466692050000132
其中,
Figure BDA0002466692050000133
为t时段电动汽车子集群ec的可调资源量,
Figure BDA0002466692050000134
Figure BDA0002466692050000135
即t时段电动汽车子集群ec的可调资源量为t时段电动汽车子集群ec的能量上界与该集群ec此时的能量之差,电动汽车子集群ec在t时段的能量为电池电量总和;
Figure BDA0002466692050000136
为t时段分布式电源的可调资源量,
Figure BDA0002466692050000137
即t时段分布式电源的可调资源量为t时段分布式电源的最大发电功率与实际发电功率之差;RESSa,t为储能的可调容量,即剩余电量;Pi,t、Qi,t分别为t时段节点i的有功功率、无功功率;
决策变量xt为:
Figure BDA0002466692050000138
外源信息Wt为:
Figure BDA0002466692050000139
外源信息Wt表示t时段主动配电网系统更新的各随机变量的预测误差,其中
Figure BDA00024666920500001310
表示因t时段电动汽车随机接入产生的误差,引起的变化包括各个电动汽车子集群内电动汽车的数量、集群能量轨迹上下边界、集群的充电功率极限;
Figure BDA00024666920500001311
Figure BDA00024666920500001312
分别表示t时段光伏出力的误差、风机出力的误差和电价的误差。
根据主动配电网中电动汽车的特性构造表征当前决策对后续所有时段影响的值函数,并利用决策后状态值函数避免期望值的计算;
首先定义状态转移方程:
St=f(St-1,xt-1,Wt); (16)
表示t时段的主动配电网系统状态St由t-1的状态St-1、t-1时段所做的决策xt-1、t时段的外源信息Wt共同决定;
接着将主动配电网系统状态St分为决策前状态
Figure BDA0002466692050000141
和决策后状态
Figure BDA0002466692050000142
两个阶段;决策前,主动配电网系统接收外源信息Wt,改变状态,
Figure BDA0002466692050000143
做出决策后、未接受外源信息前,主动配电网系统的状态进一步变化
Figure BDA0002466692050000144
根据电动汽车特性进行设计,如图2所示,决策前每个电动汽车子集群的电池电量Eec,t(实线)不变,但观测到新的电动汽车的随机接入,即
Figure BDA0002466692050000145
导致电动汽车集群的能量上下边界Eec,t,max、Eec,t,min发生变化,从而电动汽车子集群的可调资源量由
Figure BDA0002466692050000146
变化至
Figure BDA0002466692050000147
决策后,每个电动汽车集群的电池电量Eec,t根据所作的决策发生改变,可调资源量变成RXec,t,实现主动配电网系统状态的转移;
根据前述内容将主动配电网系统状态分成决策前与决策后状态,则式(12)可分成两部分,得到决策前状态值函数
Figure BDA0002466692050000148
和决策后状态值函数
Figure BDA0002466692050000149
注意到决策前状态值函数是确定性问题,因此只要解决决策后状态值函数
Figure BDA00024666920500001410
的近似,即可通过解决确定性问题来获得最优解。
S3、在大量模拟场景下利用基于时序差分TD(1)的策略迭代算法训练值函数,得到近似值函数;,步骤如下:
S3.1、初始化
Figure BDA00024666920500001411
为第n次迭代中t时段第r段的斜率,直接令
Figure BDA00024666920500001412
生成n个训练样本TS1,TS2,…,TSn;令迭代次数g=1;
S3.2、从t=1,…,T,进行前推计算;具体步骤如下:
S3.2.1、令t=1;
S3.2.2、根据最新的随机变量更新主动配电网系统状态并利用上一次迭代后的各分段斜率
Figure BDA00024666920500001413
求得各决策变量
Figure BDA00024666920500001414
决策后的主动配电网系统状态
Figure BDA00024666920500001415
包括决策后的可调容量
Figure BDA00024666920500001416
S3.2.3、若t>1,对每个可调容量施加正负扰动,并计算其正负边际效益,第n次迭代中的第i个可调容量
Figure BDA0002466692050000151
的正负边际效益如下:
Figure BDA0002466692050000152
式中,
Figure BDA0002466692050000153
分别为第ec个电动汽车子集群可调容量的正负边际效益,δ+、δ-分别为正负扰动量,Ft为立即成本;
Figure BDA0002466692050000154
分别为t时段施加正、负扰动后的主动配电网系统状态,
Figure BDA0002466692050000155
分别为t时段施加正、负扰动后所做的决策;
S3.2.4、计算每个可调容量施加正负扰动后的资源变化量:
Figure BDA0002466692050000156
其中,
Figure BDA0002466692050000157
为施加正扰动后的资源变化量,
Figure BDA0002466692050000158
为施加负扰动后的资源变化量;
Figure BDA0002466692050000159
分别为施加正、负扰动后的资源量;
S3.2.5、令t=t+1,若t≤T,返回步骤S2.2;若t>T,循环终止。
S3.3、从t=T,…,1,进行回代计算;具体步骤如下:
S3.3.1、令t=T;
S3.3.2、计算本次迭代过程中决策前各分段斜率的正负边际值,正边际值的计算:
Figure BDA00024666920500001510
负边际值的计算:
Figure BDA00024666920500001511
根据
Figure BDA00024666920500001512
以及上一次迭代的决策后边际值
Figure BDA00024666920500001513
求得本次迭代的决策后边际值:
Figure BDA0002466692050000161
α为迭代步长,取值范围为0~1;
S3.3.3、根据
Figure BDA0002466692050000162
采用凹自适应值估计法(TheConcave Adaptive Value Estimation Algorithm,CAVE)对各分段线性凹函数的斜率进行更新;
S3.3.4、令t=t-1,若t≥1,返回步骤S3.2;若t<1,循环终止。
S3.4、令g=g+1,返回步骤S2;当g>n时迭代停止,得到收敛的各分段线性凹函数的斜率;
其中,利用分段线性函数法将决策后状态值函数用分段线性凹函数表示,通过不断迭代更新得到收敛的分段线性凹函数的斜率,从而得到近似的决策后值函数即近似值函数;
所述分段线性函数法将决策后状态值函数用分段线性凹函数表示步骤如下:将可调资源用断点R=[ρ,2ρ,…,βρ]表示,R表示断点集合,β代表段数,ρ为每段的长度,将分段线性凹函数的斜率向量用有限集合vt(Wt)=[vt(1,Wt),vt(2,Wt),…,vt(β,Wt)]表示,vt(Wt)表示斜率集合,vt(β,Wt)表示第β段的斜率,[vt(1,Wt)≥vt(2,Wt),≥…≥vt(β,Wt)],保证斜率单调递减;则式(12)可进一步转化为:
Figure BDA0002466692050000163
表示当决策xt使得上式取最大值时,即为最优决策;须满足:
Figure BDA0002466692050000164
其中,r表示第r段线性凹函数,ρ为每段线性凹函数的长度,ytr为每段线性凹函数的资源量,其中,假设所有的分段线性凹函数的长度都是均匀的。
S4、利用训练好的近似值函数对主动配电网实时场景下的随机优化调度问题进行递推求解,得到各时段的近似最优决策;,步骤如下:
S4.1、令t=1;
S4.2、更新当前时段的外源信息,包括新接入的电动汽车、光伏出力的误差、风机出力的误差以及电价的误差;
S4.3、利用步骤S3中训练好的近似值函数,根据式(17)计算出t时段最优决策;
S4.、令t=t+1,若t≤T,返回步骤S4.2;若t>T,循环终止,得到各时段的近似最优决策。
本发明中,针对主动配电网中多元资源的实时随机优化调度问题,根据强化学习思想,提出了一种能满足主动配电网实时、快速响应的方法,适应多变的配电网调度需求,所述方法在模拟场景中训练过后能快速地收敛并逼近最优解,投入到实时运行中时,一方面能更有效地提升调度收益,另一方面也起到“削峰填谷”的作用。当环境中的随机因素变化更加剧烈时,本发明依旧适用,能接近最优解,且实时调度过程中的计算时间并不受影响,具有较强的鲁棒性。

Claims (8)

1.一种基于强化学习的主动配电网实时随机优化调度方法,其特征在于,包括以下步骤:
S1、建立主动配电网的数学模型,将主动配电网的实时调度描述成一个多阶段随机序贯决策问题;所述主动配电网的数学模型包括潮流约束、储能约束、电动汽车充电约束、分布式电源约束以及主动配电网实时调度的目标函数;所述潮流约束如下:
Figure FDA0003688417980000011
式中,i、j均为节点编号,Pij、Qij、rij和xij分别为节点ij间的有功传输功率、无功传输功率、电阻和电抗,Pi、Qi、Vi和δi分别为节点i的有功功率、无功功率、电压和相角,NB为支路数;Pij,max和-Pij,max分别为节点ij间的最大和最小有功传输功率;Vi,max和Vi,min分别为节点i的最大和最小电压;
除了与外部电网相连的节点,配电网内其它节点在t时段的功率如下:
Figure FDA0003688417980000012
Figure FDA0003688417980000013
式中,
Figure FDA0003688417980000014
Figure FDA0003688417980000015
分别为t时段节点i上的分布式电源的有功和无功出力;
Figure FDA0003688417980000016
Figure FDA0003688417980000017
分别为t时段节点i上的储能的有功和无功出力;
Figure FDA0003688417980000018
Figure FDA0003688417980000019
为t时段节点i上的常规有功负荷和无功负荷;
Figure FDA00036884179800000110
Figure FDA00036884179800000111
为t时段节点i上的电动汽车有功负荷和无功负荷;n为电动汽车编号,NEV为电动汽车数目;
所述储能约束如下:
Figure FDA00036884179800000112
Pa,t,min≤Pa,t≤Pa,t,max; (5)
Ea,t,min≤Ea,t≤Ea,t,max; (6)
式(4)中,a为储能编号,Ea,t为t时段初第a个储能的能量,Ea,t+1为t时段末、t+1时段初第a个储能的能量;Pa,t为t时段第a个储能的充/放电功率,大于0表示放电,小于0表示充电;;式(5)和(6)分别为功率和能量的上下限约束,Pa,t,max和Pa,t,min分别为功率上下限,Ea,t,max和Ea,t,min分别为能量上下限;
所述分布式电源约束如下:
Figure FDA0003688417980000021
其中,d为分布式电源编号,
Figure FDA0003688417980000022
为第d台分布式电源在t+1时段中发出的有功功率;vup,d和vdown,d分别为第d台分布式电源的向上爬坡速率限制和向下爬坡速率限制,
Figure FDA0003688417980000023
Figure FDA0003688417980000024
分别为第d台分布式电源输出功率的上限和下限;
单台电动汽车(EV)的充电约束如下:
Figure FDA0003688417980000025
式中,e为电动汽车编号,ee,t为t时段初第e台电动汽车电池的电量,η为充电效率,pe,k表示k时段第e台电动汽车的充电功率,ee,t,max、ee,t,min分别为t时刻电动汽车能量的上下边界;能量的上边界表示电动汽车接入电网后便以最大功率充电充至eexp这段时间内的电量变化曲线;能量的下边界表示接入后延迟充电直至离开的时刻恰好达到用户期望的电量值的电量变化曲线;eexp为用户希望离开时电池的电量,一般为电池的最大电量;pe,t,max、pe,t,min分别为t时段第e台电动汽车充电功率的上下限约束,pmax表示受充电桩和电动汽车本身性质影响的最大充电功率;Δt为每个时段的时长;tend表示结束时段;
当电动汽车的渗透率过高时,将每台电动汽车作为决策变量进行求解会产生“维数灾”的问题,可利用集群的思想,将一天分为T个时段,具有相同离开时段的电动汽车分为同一集群,将集群内单台电动汽车的充电模型叠加,可得到等效的集群模型:
Figure FDA0003688417980000031
式中,ec为电动汽车集群编号,Eec,t、Emax,ec,t、Emin,ec,t和Pec,t分别为t时段子集群ec的能量、能量上下界和子集群充电总功率;Pec,e,t为子集群ec内第e辆电动汽车t时段的充电功率;m为t时段子集群ec的电动汽车数量;
所述目标函数,为考虑各类资源包括电动汽车、分布式电源的随机性下,通过实时调度决策,使得调度周期内的总收益最大,即将主动配电网的实时调度描述成一个多阶段随机序贯决策问题:
Figure FDA0003688417980000032
其中,xt表示决策变量,χt表示可行域,E()表示取期望值运算,Ft表示t时段的调度收益,为调度成本的相反数,具体如下:
Figure FDA0003688417980000033
其中,
Figure FDA0003688417980000034
分别是t时段主动配电网向外部电网购电的成本、t时段第a个储能的运行成本,
Figure FDA0003688417980000035
是t时段第d个分布式电源的运行成本,为二次函数;NDG,NESS分别表示分布式电源、储能的个数;
S2、提出原问题的动态规划公式,根据主动配电网中电动汽车的特性构造表征当前决策对后续所有时段影响的值函数,并利用决策后状态值函数避免期望值的计算;
S3、在大量模拟场景下利用基于时序差分TD(1)的策略迭代算法训练值函数,得到近似值函数;
S4、利用训练好的近似值函数对主动配电网实时场景下的随机优化调度问题进行递推求解,得到各时段的近似最优决策。
2.根据权利要求1所述的一种基于强化学习的主动配电网实时随机优化调度方法,其特征在于,步骤S2中提出原问题的动态规划公式,即根据贝尔曼的最优性原理,可将多时段的优化决策问题转化成递推问题,将式(10)转化成:
Figure FDA0003688417980000041
其中,St为主动配电网系统t时段所处的状态,F(St,xt)为主动配电网系统在St状态时作了决策xt后产生的实时收益,Vt(St)为主动配电网系统在St状态的值函数,Vt+1(St+1|St,xt,Wt)为主动配电网系统在St状态的前提下,做出决策xt、接收外源信息Wt后t+1时刻的值函数,值函数的意义为后续状态对当前状态的影响;
所述主动配电网系统t时段所处的状态St
Figure FDA0003688417980000042
其中,
Figure FDA0003688417980000043
为t时段电动汽车子集群ec的可调资源量,
Figure FDA0003688417980000044
Figure FDA0003688417980000045
即t时段电动汽车子集群ec的可调资源量为t时段电动汽车子集群ec的能量上界与该集群ec此时的能量之差,电动汽车子集群ec在t时段的能量为电池电量总和;
Figure FDA0003688417980000046
为t时段分布式电源的可调资源量,
Figure FDA0003688417980000047
即t时段分布式电源的可调资源量为t时段分布式电源的最大发电功率与实际发电功率之差;
Figure FDA0003688417980000048
为储能的可调容量,即剩余电量;Pi,t、Qi,t分别为t时段节点i的有功功率、无功功率;
决策变量xt为:
Figure FDA0003688417980000049
外源信息Wt为:
Figure FDA00036884179800000410
外源信息Wt表示t时段主动配电网系统更新的各随机变量的预测误差,其中
Figure FDA00036884179800000411
表示因t时段电动汽车随机接入产生的误差,引起的变化包括各个电动汽车子集群内电动汽车的数量、集群能量轨迹上下边界、集群的充电功率极限;
Figure FDA00036884179800000412
Figure FDA00036884179800000413
分别表示t时段光伏出力的误差、风机出力的误差和电价的误差。
3.根据权利要求2所述的一种基于强化学习的主动配电网实时随机优化调度方法,其特征在于,步骤S2中根据主动配电网中电动汽车的特性构造表征当前决策对后续所有时段影响的值函数,并利用决策后状态值函数避免期望值的计算;
首先定义状态转移方程:
St=f(St-1,xt-1,Wt); (16)
表示t时段的主动配电网系统状态St由t-1的状态St-1、t-1时段所做的决策xt-1、t时段的外源信息Wt共同决定;
接着将主动配电网系统状态St分为决策前状态
Figure FDA0003688417980000051
和决策后状态
Figure FDA0003688417980000052
两个阶段;决策前,主动配电网系统接收外源信息Wt,改变状态,
Figure FDA0003688417980000053
做出决策后、未接受外源信息前,主动配电网系统的状态进一步变化
Figure FDA0003688417980000054
根据电动汽车特性进行设计,决策前每个电动汽车子集群的电池电量Eec,t不变,但观测到新的电动汽车的随机接入,即
Figure FDA0003688417980000055
导致电动汽车集群的能量上下边界Eec,t,max、Eec,t,min发生变化,从而电动汽车子集群的可调资源量由
Figure FDA0003688417980000056
变化至
Figure FDA0003688417980000057
决策后,每个电动汽车集群的电池电量Eec,t根据所作的决策发生改变,可调资源量变成
Figure FDA0003688417980000058
实现主动配电网系统状态的转移;
根据前述内容将主动配电网系统状态分成决策前与决策后状态,则式(12)可分成两部分,得到决策前状态值函数
Figure FDA0003688417980000059
和决策后状态值函数
Figure FDA00036884179800000510
决策前状态值函数是确定性问题,解决决策后状态值函数
Figure FDA00036884179800000511
的近似,通过解决确定性问题来获得最优解。
4.根据权利要求1所述的一种基于强化学习的主动配电网实时随机优化调度方法,其特征在于,步骤S3中,在大量模拟场景下利用基于时序差分TD(1)的策略迭代算法训练值函数,得到收敛的近似值函数,步骤如下:
S3.1、初始化
Figure FDA00036884179800000512
为第n次迭代中t时段第r段的斜率,直接令
Figure FDA00036884179800000513
生成n个训练样本
Figure FDA00036884179800000514
令迭代次数g=1;
S3.2、从t=1,…,T,进行前推计算;
S3.3、从t=T,…,1,进行回代计算;
S3.4、令g=g+1,返回步骤S2;当g>n时迭代停止,得到收敛的各分段线性凹函数的斜率。
5.根据权利要求4所述的一种基于强化学习的主动配电网实时随机优化调度方法,其特征在于,步骤S3.2的具体步骤如下:
S3.2.1、令t=1;
S3.2.2、根据最新的随机变量更新主动配电网系统状态并利用上一次迭代后的各分段斜率
Figure FDA00036884179800000515
求得各决策变量
Figure FDA00036884179800000516
决策后的主动配电网系统状态
Figure FDA00036884179800000517
包括决策后的可调容量
Figure FDA0003688417980000061
S3.2.3、若t>1,对每个可调容量施加正负扰动,并计算其正负边际效益,第n次迭代中的第i个可调容量
Figure FDA0003688417980000062
的正负边际效益如下:
Figure FDA0003688417980000063
式中,
Figure FDA0003688417980000064
分别为第ec个电动汽车子集群可调容量的正负边际效益,δ+、δ-分别为正负扰动量,
Figure FDA0003688417980000065
分别为t时段施加正、负扰动后的主动配电网系统状态,
Figure FDA0003688417980000066
分别为t时段施加正、负扰动后所做的决策;
S3.2.4、计算每个可调容量施加正负扰动后的资源变化量:
Figure FDA0003688417980000067
其中,
Figure FDA0003688417980000068
为施加正扰动后的资源变化量,
Figure FDA0003688417980000069
为施加负扰动后的资源变化量;
Figure FDA00036884179800000610
分别为施加正、负扰动后的资源量;
S3.2.5、令t=t+1,若t≤T,返回步骤S2.2;若t>T,循环终止。
6.根据权利要求4所述的一种基于强化学习的主动配电网实时随机优化调度方法,其特征在于,步骤S3.3的具体步骤如下:
S3.3.1、令t=T;
S3.3.2、计算本次迭代过程中决策前各分段斜率的正负边际值,正边际值的计算:
Figure FDA00036884179800000611
负边际值的计算:
Figure FDA00036884179800000612
根据
Figure FDA00036884179800000613
以及上一次迭代的决策后边际值
Figure FDA00036884179800000614
求得本次迭代的决策后边际值:
Figure FDA0003688417980000071
α为迭代步长,取值范围为0~1;
S3.3.3、根据
Figure FDA0003688417980000072
采用凹自适应值估计法对各分段线性凹函数的斜率进行更新;
S3.3.4、令t=t-1,若t≥1,返回步骤S3.2;若t<1,循环终止。
7.根据权利要求4所述的一种基于强化学习的主动配电网实时随机优化调度方法,其特征在于,步骤S3.4中,利用分段线性函数法将决策后状态值函数用分段线性凹函数表示,通过不断迭代更新得到收敛的分段线性凹函数的斜率,从而得到近似的决策后值函数即近似值函数;
所述分段线性函数法将决策后状态值函数用分段线性凹函数表示步骤如下:将可调资源用断点R=[ρ,2ρ,…,βρ]表示,R表示断点集合,β代表段数,ρ为每段的长度,将分段线性凹函数的斜率向量用有限集合vt(Wt)=[vt(1,Wt),vt(2,Wt),…,vt(β,Wt)]表示,vt(Wt)表示斜率集合,vt(β,Wt)表示第β段的斜率,[vt(1,Wt)≥vt(2,Wt),≥…≥vt(β,Wt)],保证斜率单调递减;则式(12)可进一步转化为:
Figure FDA0003688417980000073
表示当决策xt使得上式取最大值时,即为最优决策;须满足:
Figure FDA0003688417980000074
其中,r表示第r段线性凹函数,ρ为每段线性凹函数的长度,ytr为每段线性凹函数的资源量,其中,假设所有的分段线性凹函数的长度都是均匀的。
8.根据权利要求1所述的一种基于强化学习的主动配电网实时随机优化调度方法,其特征在于,步骤S4中,利用训练好的近似值函数对主动配电网实时场景下的随机优化调度问题进行递推求解,得到各时段的近似最优决策,步骤如下:
S4.1、令t=1;
S4.2、更新当前时段的外源信息,包括新接入的电动汽车、光伏出力的误差、风机出力的误差以及电价的误差;
S4.3、利用步骤S3中训练好的近似值函数,根据式(17)计算出t时段最优决策;
S4.4、令t=t+1,若t≤T,返回步骤S4.2;若t>T,循环终止,得到各时段的近似最优决策。
CN202010336141.6A 2020-04-25 2020-04-25 一种基于强化学习的主动配电网实时随机优化调度方法 Active CN111429038B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010336141.6A CN111429038B (zh) 2020-04-25 2020-04-25 一种基于强化学习的主动配电网实时随机优化调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010336141.6A CN111429038B (zh) 2020-04-25 2020-04-25 一种基于强化学习的主动配电网实时随机优化调度方法

Publications (2)

Publication Number Publication Date
CN111429038A CN111429038A (zh) 2020-07-17
CN111429038B true CN111429038B (zh) 2022-08-12

Family

ID=71558284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010336141.6A Active CN111429038B (zh) 2020-04-25 2020-04-25 一种基于强化学习的主动配电网实时随机优化调度方法

Country Status (1)

Country Link
CN (1) CN111429038B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112381397A (zh) * 2020-11-13 2021-02-19 深圳供电局有限公司 一种综合能源楼宇实时能量控制方法
CN112874369B (zh) * 2021-01-12 2022-08-05 上海追日电气有限公司 一种充电管理系统的充电与供能优化方法及装置
CN113780622B (zh) * 2021-08-04 2024-03-12 华南理工大学 基于多智能体强化学习的多微网配电系统分布式调度方法
CN115775081B (zh) * 2022-12-16 2023-10-03 华南理工大学 一种电力系统随机经济调度方法、装置及介质
CN116739074B (zh) * 2023-06-08 2023-11-17 河海大学 基于改进q学习的配电系统过程状态驱动的弹性策略方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109765787A (zh) * 2019-01-30 2019-05-17 南方电网科学研究院有限责任公司 一种基于日内-实时滚动控制的配电网源荷快速跟踪方法
CN110518580A (zh) * 2019-08-15 2019-11-29 上海电力大学 一种考虑微网主动优化的主动配电网运行优化方法
CN110929948A (zh) * 2019-11-29 2020-03-27 上海电力大学 基于深度强化学习的完全分布式智能电网经济调度方法
CN110929964A (zh) * 2019-12-18 2020-03-27 国网福建省电力有限公司 一种基于近似动态规划算法的含储能配电网优化调度方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200119556A1 (en) * 2018-10-11 2020-04-16 Di Shi Autonomous Voltage Control for Power System Using Deep Reinforcement Learning Considering N-1 Contingency

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109765787A (zh) * 2019-01-30 2019-05-17 南方电网科学研究院有限责任公司 一种基于日内-实时滚动控制的配电网源荷快速跟踪方法
CN110518580A (zh) * 2019-08-15 2019-11-29 上海电力大学 一种考虑微网主动优化的主动配电网运行优化方法
CN110929948A (zh) * 2019-11-29 2020-03-27 上海电力大学 基于深度强化学习的完全分布式智能电网经济调度方法
CN110929964A (zh) * 2019-12-18 2020-03-27 国网福建省电力有限公司 一种基于近似动态规划算法的含储能配电网优化调度方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Coordinated Energy Dispatching in Microgrid With Wind Power Generation and Plug-in Electric Vehicles;Ting Wu 等;《IEEE Transactions on Smart Grid》;20130807;全文 *
Decentralized and Collaborative Scheduling Approach for Active Distribution Network with Multiple Virtual Power Plants;Li Xiangyu等;《ENERGIES》;20181130;全文 *
基于时序动态约束的主动配电网滚动优化调度;李振坤 等;《电力系统自动化》;20190715;全文 *
基于短期预测信息和长期值函数近似的大规模电动汽车实时随机优化调度算法;王彬等;《电力系统保护与控制》;20191231(第24期);摘要、第1-4节 *

Also Published As

Publication number Publication date
CN111429038A (zh) 2020-07-17

Similar Documents

Publication Publication Date Title
CN111429038B (zh) 一种基于强化学习的主动配电网实时随机优化调度方法
CN114123166B (zh) 一种新能源耦合背景下的源网荷储协同调度方法
Liu et al. Decentralized charging control of electric vehicles in residential distribution networks
Jabr et al. Robust multi-period OPF with storage and renewables
Oh et al. Reinforcement-learning-based energy storage system operation strategies to manage wind power forecast uncertainty
CN111709672A (zh) 基于场景和深度强化学习的虚拟电厂经济调度方法
Shi et al. Enhancing the flexibility of storage integrated power system by multi-stage robust dispatch
Jeddi et al. Differential dynamic programming based home energy management scheduler
Zhang et al. Feasibility identification and computational efficiency improvement for two-stage RUC with multiple wind farms
Bucher et al. Robust allocation of reserves considering different reserve types and the flexibility from HVDC
Sun et al. Improving the restorability of bulk power systems with the implementation of a WF-BESS system
CN112381375A (zh) 一种基于潮流分配矩阵的电网经济运行域快速生成方法
Khaki et al. Probabilistic electric vehicle load management in distribution grids
CN117674290A (zh) 一种基于多场景的水电平抑分布鲁棒优化方法
CN117371755A (zh) 多微网综合能源系统分布式优化方法、装置、设备及介质
CN116760103A (zh) 虚拟电厂在线优化电力调度的自适应预测能量管理方法
CN116093995A (zh) 一种配电系统多目标网络重构方法及系统
CN107425519B (zh) 含分布式电源的三相配电网最大供电能力计算方法
CN115659792A (zh) 多时段多场景scuc解耦方法、系统、设备及存储介质
CN115313519A (zh) 一种配电网储能优化配置方法、装置、设备及存储介质
CN115632393A (zh) 一种考虑灵活性资源的多级电网协调鲁棒调度方法及装置
CN115360768A (zh) 基于muzero和深度强化学习的电力调度方法、装置及存储介质
CN114186811A (zh) 一种微电网系统实时调度模型的构建方法及应用
Liu et al. A novel photovoltaic power output forecasting method based on weather type clustering and wavelet support vector machines regression
KR102566824B1 (ko) 장단기 메모리 네트워크 모델을 학습시키는 방법 및 학습된 장단기 메모리 네트워크 모델을 이용하여 에너지 비용을 최소화하는 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant