CN115441437A - 基于深度强化学习的区域电网日前-日内联合调度方法 - Google Patents
基于深度强化学习的区域电网日前-日内联合调度方法 Download PDFInfo
- Publication number
- CN115441437A CN115441437A CN202211102713.XA CN202211102713A CN115441437A CN 115441437 A CN115441437 A CN 115441437A CN 202211102713 A CN202211102713 A CN 202211102713A CN 115441437 A CN115441437 A CN 115441437A
- Authority
- CN
- China
- Prior art keywords
- day
- load
- scheduling
- output
- state
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000002787 reinforcement Effects 0.000 title claims abstract description 30
- 230000006870 function Effects 0.000 claims abstract description 59
- 238000005096 rolling process Methods 0.000 claims abstract description 41
- 230000007704 transition Effects 0.000 claims abstract description 10
- 230000003203 everyday effect Effects 0.000 claims abstract description 4
- 230000009471 action Effects 0.000 claims description 42
- 239000003245 coal Substances 0.000 claims description 24
- 230000009194 climbing Effects 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 12
- 238000009826 distribution Methods 0.000 claims description 8
- 230000009467 reduction Effects 0.000 claims description 8
- 230000002354 daily effect Effects 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 6
- 239000003795 chemical substances by application Substances 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 230000003993 interaction Effects 0.000 claims description 4
- 230000004048 modification Effects 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 4
- 101100001671 Emericella variicolor andF gene Proteins 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000005336 cracking Methods 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 239000011248 coating agent Substances 0.000 claims description 2
- 238000000576 coating method Methods 0.000 claims description 2
- 238000002360 preparation method Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 abstract description 14
- 238000013178 mathematical model Methods 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 8
- 230000004044 response Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000010248 power generation Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 229910052739 hydrogen Inorganic materials 0.000 description 1
- 239000001257 hydrogen Substances 0.000 description 1
- 125000004435 hydrogen atom Chemical class [H]* 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/003—Load forecast, e.g. methods or systems for forecasting future load demand
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/004—Generation forecast, e.g. methods or systems for forecasting future energy generation
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/12—Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load
- H02J3/14—Circuit arrangements for ac mains or ac distribution networks for adjusting voltage in ac networks by changing a characteristic of the network load by switching loads on to, or off from, network, e.g. progressively balanced loading
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/38—Arrangements for parallely feeding a single network by two or more generators, converters or transformers
- H02J3/46—Controlling of the sharing of output between the generators, converters, or transformers
- H02J3/466—Scheduling the operation of the generators, e.g. connecting or disconnecting generators to meet a given demand
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Power Engineering (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- General Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Educational Administration (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Primary Health Care (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明属于电力系统调度优化技术领域,更具体地,涉及一种基于深度强化学习的区域电网日前‑日内联合调度方法,其建立了区域电网日内滚动调度优化模型,并提出了一种基于深度强化学习的调度策略求解。首先,日前调度计划每日根据日前风电及负荷预测曲线进行制定;然后,针对区域电网建立日内滚动调度模型:目标函数和约束条件;最后,利用深度强化学习算法对日内滚动模型进行求解。该方法在日前调度计划与AGC调控之间加入日内滚动计划,使得调度计划之间的衔接更加紧密、过渡更加平稳。深度强化学习算法相较于传统基于数学模型与优化求解器的调度优化方法更具有实时性,极大提升了求解效率。
Description
技术领域
本发明属于区域电网调度优化领域,更具体地,涉及一种基于深度强化学习的区域电网日前-日内联合调度方法。
背景技术
由于新能源发电为典型的间歇性电源,其出力具有波动性和不确定性,如果仅根据传统调度方法难以满足调度需求从而造成弃风或失负荷。因此有必要深入研究一种新的调度方法对区域电网中各类资源进行合理调度,进一步提高新能源的消纳率。
由于风电等可再生资源出力与负荷需求的日前预测误差通常难以避免,如果仅根据日前风电及负荷预测数据制定次日机组组合和机组出力计划,在AGC环节将会出现较大功率不平衡量,有时难以消除从而造成弃风或失负荷。通常,风电等可再生能源发电出力和负荷需求的预测精度与时间尺度直接相关,比如日内预测精度一般高于日前预测精度。此外,电力系统中柔性负荷等各类可调度资源的响应速度可能不同,采用传统日前调度环节直接与AGC环节衔接的模式难以充分利用区域电网中弹性资源的多时间尺度特性。然而目前的研究中,未能充分利用区域电网中弹性资源的多时间尺度特性,使得调度计划之间的衔接不够紧密,过渡不够平稳。
目前,针对电力调度模型的求解方法主要有传统求解器求解和深度强化学习算法求解。传统基于数学模型的求解器求解方法可以得到最优解,但对于混合整数规划问题计算效率不高,有时不能满足实时性要求。深度强化学习算法求解为解决此类问题提供了新思路。优势行动器-评判器(Advantage ActorCritic,A2C)算法是一种更快、更简单和更鲁棒的并行深度强化学习算法,它可以在连续的动作空间中工作。A2C利用同步学习器进行训练,即在一台机器上使用多个CPU线程(此处每个线程称为一个学习器),以更高效地学习,其求解速度远远快于传统方法。随着源荷双侧弹性资源大量加入电网,在问题规模进一步扩大的情况下,深度强化学习方法可以更好的适应调度需求。因此,研究基于深度强化学习的电力调度方法具有重要的理论意义和应用价值。
发明内容
针对现有技术中存在的问题,本发明提出一种基于深度强化学习的区域电网日前-日内联合调度方法,该方法在日前调度计划与AGC调控之间加入日内滚动计划,以使得调度计划之间的衔接更加紧密、过渡更加平稳。
为实现上述目的,本发明采用如下技术方案:
基于深度强化学习的区域电网日前-日内联合调度方法,包括以下步骤:
步骤1:日前调度计划每日根据日前风电及负荷预测曲线进行制定,得到火电机组的启停计划、火电机组出力计划、A类可削减负荷补偿价格及削减量、可平移负荷运行起始时间;
步骤2:日内滚动调度模型的目标函数为最小化系统运行成本与风险成本之和,约束为日内功率平衡约束、线路传输容量约束、火电机组出力上下限约束、火电机组爬坡约束和B类可削减负荷调用约束;
步骤3:利用深度强化学习完成日内滚动调度模型求解,获得日内调度计划。
本技术方案进一步的优化,所述步骤2中建立日内滚动调度模型目标函数:
其中,k为当前的时段,要对未来M*ΔT时段的风电出力和负荷需求进行预测;Pi,t为火电机组i的日前出力计划,在日内滚动调度模型中为已知量;ΔPi,t为火电机组i在日内t时段的出力调整量,为模型的决策变量;和分别为火电机组i在日内出力调整后的煤耗成本、附加煤耗成本和寿命损耗成本;为t时段 B类可削减负荷调度成本;为t时段弃风风险成本;为t时段火电机组i的失负荷风险成本;δi,t为火电机组i的日前启停计划,在日内滚动调度模型中为已知量;ai、bi和ci为机组i的煤耗成本系数;为机组i运行在深度调峰状态下的煤耗率系数;υi为机组i 在常规最小技术出力状态下的煤耗率系数;zi,t用来表示火电机组是否处于深度调峰状态,当机组运行于常规最小技术出力之下时,该值为1,当机组运行于常规最小技术出力之上时,该值为0;εi为火电机组在额定出力下的煤耗率;ρcoal为单位煤炭价格;Ni,t(Pi,t+ΔPi,t) 为机组i的转子致裂循环周次,其取值与(Pi,t+ΔPi,t)密切相关;ωi为火电机组运行损耗系数;为机组i的购机成本;ΔT为t时段的时间长度;ΔPt B表示t时段B类可削减负荷的负荷削减量;为t时段B类可削减负荷的补偿价格;λcw为单位电量的弃风风险成本系数;Nw为区域电网内风电场数量;为t时段风电出力和负荷需求极端场景下第j个风电场的弃风功率;λcl为单位电量的失负荷风险成本系数;ΔPt cl为t时段风电出力和负荷需求极端场景下区域电网的失荷功率。
本技术方案更进一步的优化,所述步骤2中建立日内滚动调度模型约束条件:
所述约束条件主要包括日内功率平衡约束、线路潮流约束、火电机组出力上下限约束、火电机组爬坡约束和B类可削减负荷调用约束如下式所示:
所述日内功率平衡约束:
其中,Ng为区域电网内火电机组数量,Nw为区域电网内风电场数量,i,j分别表示当前火电机组i和风电机组j;和为日内超短期负荷预测及风电预测功率,ΔPt B为B类可削减负荷备用调用量;ΔPt A为A类可削减负荷调用量;ΔPt cl为t时段切负荷量;Pt sh为可平移负荷经调度后t时段用电功率;Pt sh*为可平移负荷经调度前t时段用电功率;
所述火电机组出力上下限约束:
Pi min≤Pi,t+ΔPi,t≤Pi max
其中,Pi min和Pi max分别为火电机组i的最大、最小出力,对于常规火电机组,Pi min为常规最小技术出力,对于经灵活性改造后的深度调峰机组,Pi min为机组改造后的最大调峰深度;和分别为区域电网在深度调峰机组i在t时段向上和向下备用容量值;
所述火电机组爬坡约束:
-ri downΔT≤(Pi,t+ΔPi,t)-(Pi,t-1+ΔPi,t-1)≤ri upΔT
其中,ri down和ri up分别为火电机组i向下和向上爬坡的速率,ΔT为t-1到t时段的时间间隔;
所述线路潮流约束:
所述B类可削减负荷备用调用约束:
0≤ΔPt B≤Pt B。
本技术方案进一步的优化,所述步骤3具体如下:
根据步骤2所建立的日内滚动调度模型,建立马尔科夫决策模型,决策过程的变量包括:
1)状态空间构造:状态空间包括区域电网的超短期负荷预测值、超短期风电预测值、上时刻机组出力、日前调度计划,即:
S={Pw,Pl,P,Pday-ahead}
其中,Pw为区域电网日内超短期风电预测状态集合;Pl为日内超短期负荷功率预测状态集合;P为上一时刻各火电机组出力状态集合;Pday-ahead为区域电网日前调度计划状态集合;
2)动作空间构造:包括火电机组出力调整量区间、B类可削减负荷补偿价格及可削减量区间,即:
A={ΔP,ρB,ΔPB}
其中,ΔP为区域电网日内火电机组出力调整动作集合;ρB为B类可削减负荷补偿价格动作集合;ΔPB为B类可削减负荷削减量动作集合;
3)奖励函数构造:包括区域电网日内调度计划运行成本、弃风/失负荷惩罚和安全约束惩罚三部分,其中,区域电网日内滚动调度计划运行成本和弃风/失负荷惩罚即为权利要求5所述的目标函数,安全约束惩罚为系统支路潮流越限惩罚,即电网内部支路的潮流超过了其所能承受的极限值,可表示为:
因此,智能体奖励函数R可以表示为:
为使奖励最大化,电网日内调度计划运行成本、弃风/失负荷惩罚和安全约束惩罚三部分之和必须最小。
本技术方案进一步的优化,所述步骤3的深度强化学习算法为A2C算法。
本技术方案更进一步的优化,所述A2C算法设计:
A2C算法从组成上来看共包含两个深度网络,即Actor网络和Critic网络,Actor网络输入系统状态信息,输出当前状态下动作选择概率,Critic网络输入系统状态信息,输出当前状态的值函数;Actor网络和Critic网络根据区域电网调度环境信息,分别输出未来4h的调度计划和当前状态的状态值函数,将调度计划作用于外部环境获得下一状态和奖励,并将其作为网络训练的数据;训练完成后,Actor网络的输出即为区域电网的日内滚动调度计划。
本技术方案更进一步的优化,
Actor网络需要根据Critic网络的反馈进行更新,而Critic网络根据智能体与环境交互所产生的状态转移进行更新;Critic网络采用网络参数θv实现对状态值函数V(s;θv)的拟合,并根据状态值函数进行参数更新,可以表达为:
Critic网络输入系统状态信息,输出当前状态的值函数,对于Actor网络,其将动作策略近似为函数表达即π(s,a)≈π(a|s;θπ),并对其进行进一步的拟合近似可得到下式,
式中:θπ为Actor网络的权重参数;与状态转移概率P不同,p(a|s,θπ)表示网络参数为θπ时在状态s下采取动作a的概率;
策略π的目标函数可以表示为
根据梯度下降法,可知
进一步,根据▽f(x)=f(x)▽logf(x)可以推出
采用动作值函数Qπ(s,a)替换R可以得到
为使反馈值既可以大于零又可以小于零,增加状态值函数Vπ(s)作为基线值,可以得到
定义优势函数A(s,a)为
根据上式可得
更一般地,可以将其表示为
Actor网络同样输入系统状态信息,输出当前状态下动作选择概率,与Critic网络相比Actor网络的输出层分为均值层和标准差层,通过输出的均值和方差组成一个正态分布,进而通过正态分布对机组爬坡约束内的出力值进行采样得到最终的调度动作,通过这种方式实现了动作的连续取值,同时也保证了火电机组不会出现爬坡越限和出力越限。
区别于现有技术,本发明有益效果主要表现在:
1.本发明在日前调度计划与AGC调控之间加入日内滚动计划,传统的两时间尺度(日前+AGC)调度模式不够精细,缺少中间过渡环节,仅根据日前风电及负荷预测数据制定次日机组组合和机组出力计划,在AGC环节将会出现较大功率不平衡量,有时难以消除从而造成弃风或失负荷,加入日内滚动调度,使得调度计划之间的衔接更加紧密、过渡更加平稳。
2.本发明采用深度强化学习算法对日内滚动调度模型进行求解,由于区域电网调度中心在日内滚动调度阶段需要B类可削减负荷聚合商进行交互,且日内滚动调度时间尺度较短,系统对调度计划的制定有一定实时性要求,利用深度强化学习算法可以提高计算效率,相较于传统基于数学模型与优化求解器的调度优化方法更具有实时性。
附图说明
图1为区域电网的架构示意图;
图2为日前-日内滚动调度流程图;
图3为Critic网络结构示意图;
图4为Actor网络结构示意图;
图5为A2C算法训练框架图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
本发明公开了一种基于深度强化学习的区域电网日前-日内联合调度方法,在日前调度计划与AGC调控之间加入日内滚动计划,使得调度计划之间的衔接更加紧密、过渡更加平稳。所述深度强化学习算法相较于传统基于数学模型与优化求解器的调度优化方法更具有实时性。
请参阅图1所示,区域电网的架构示意图。区域电网的电力系统包括:常规火电机组、深度调峰机组、风力发电机组、刚性负荷和柔性负荷,柔性负荷包括可削减负荷和可平移负荷;可削减负荷包括A类可削减负荷和B类可削减负荷;A类可削减负荷为响应速度较慢,提前通知时间较长的负荷,调度中心在日前对A类可削减负荷做出计划并下达指令; B类可削减负荷为调节周期较短、响应速度较快的负荷,调度中心在日内较短时间内对B 类可削减负荷做出计划并下达指令。
参阅如图2所示,日前-日内滚动调度流程示意图,包括如下步骤,
步骤1:日前调度计划每日根据日前风电及负荷预测曲线进行制定,得到火电机组的启停计划、火电机组出力计划、A类可削减负荷补偿价格及削减量、可平移负荷运行起始时间;
步骤2:建立日内滚动调度模型:目标函数、约束条件。目标函数为最小化系统运行成本与风险成本之和,约束为日内功率平衡约束、线路潮流约束、火电机组出力上下限约束、火电机组爬坡约束和B类可削减负荷调用约束:
步骤2.1:建立日内滚动调度模型目标函数:
其中,k为当前的时段,要对未来M*ΔT时段的风电出力和负荷需求进行预测;Pi,t为火电机组i的日前出力计划,在日内滚动调度模型中为已知量;ΔPi,t为火电机组i在日内t时段的出力调整量,为模型的决策变量;和分别为火电机组i在日内出力调整后的煤耗成本、附加煤耗成本和寿命损耗成本;为t时段 B类可削减负荷调度成本;为t时段弃风风险成本;为t时段火电机组i的失负荷风险成本;δi,t为火电机组i的日前启停计划,在日内滚动调度模型中为已知量;ai、bi和ci为机组i的煤耗成本系数;为机组i运行在深度调峰状态下的煤耗率系数;υi为机组i 在常规最小技术出力状态下的煤耗率系数;zi,t用来表示火电机组是否处于深度调峰状态,当机组运行于常规最小技术出力之下时,该值为1,当机组运行于常规最小技术出力之上时,该值为0;εi为火电机组在额定出力下的煤耗率;ρcoal为单位煤炭价格。Ni,t(Pi,t+ΔPi,t) 为机组i的转子致裂循环周次,其取值与(Pi,t+ΔPi,t)密切相关;ωi为火电机组运行损耗系数;为机组i的购机成本;ΔT为t时段的时间长度;ΔPt B表示t时段B类可削减负荷的负荷削减量;为t时段B类可削减负荷的补偿价格;λcw为单位电量的弃风风险成本系数;Nw为区域电网内风电场数量;为t时段风电出力和负荷需求极端场景下第j个风电场的弃风功率;λcl为单位电量的失负荷风险成本系数;ΔPt cl为t时段风电出力和负荷需求极端场景下区域电网的失荷功率;
步骤2.2:建立日内滚动调度模型约束条件:
所述约束条件主要包括日内功率平衡约束、线路传输容量约束、火电机组出力上下限约束、火电机组爬坡约束和B类可削减负荷调用约束如下式所示:
所述日内功率平衡约束:
其中,Ng为区域电网内火电机组数量,Nw为区域电网内风电场数量,i,j分别表示当前火电机组i和风电机组j;Pt loadl和为日内超短期负荷预测及风电预测功率。ΔPt B为B类可削减负荷备用调用量;ΔPt A为A类可削减负荷调用量;ΔPt cl为t时段切负荷量;Pt sh为可平移负荷经调度后t时段用电功率;Pt sh*为可平移负荷经调度前t时段用电功率;
所述火电机组出力上下限约束:
Pi min≤Pi,t+ΔPi,t≤Pi max
其中,Pi min和Pi max分别为火电机组i的最大、最小出力,对于常规火电机组,Pi min为常规最小技术出力,对于经灵活性改造后的深度调峰机组,Pi min为机组改造后的最大调峰深度;和分别为区域电网在深度调峰机组i在t时段向上和向下备用容量值。
所述火电机组爬坡约束:
-ri downΔT≤(Pi,t+ΔPi,t)-(Pi,t-1+ΔPi,t-1)≤ri upΔT
其中,ri down和ri up分别为火电机组i向下和向上爬坡的速率,ΔT为t-1到t时段的时间间隔。
所述线路潮流约束:
所述B类可削减负荷备用调用约束:
0≤ΔPt B≤Pt B
步骤3:利用深度强化学习求解日内调度模型:
根据步骤2所建立的日内滚动调度模型,建立马尔科夫决策模型,决策过程的变量包括:
1)状态空间构造:状态空间包括区域电网的超短期负荷预测值、超短期风电预测值、上时刻机组出力、日前调度计划,即:
S={Pw,Pl,P,Pday-ahead}
其中,Pw为区域电网日内超短期风电预测状态集合;Pl为日内超短期负荷功率预测状态集合;P为上一时刻各火电机组出力状态集合;Pday-ahead为区域电网日前调度计划状态集合。
2)动作空间构造:包括火电机组出力调整量区间、B类可削减负荷补偿价格及可削减量区间,即:
A={ΔP,ρB,ΔPB}
其中,ΔP为区域电网日内火电机组出力调整动作集合;ρB为B类可削减负荷补偿价格动作集合;ΔPB为B类可削减负荷削减量动作集合。
3)奖励函数构造:包括区域电网日内调度计划运行成本、弃风/失负荷惩罚和安全约束惩罚三部分。其中,区域电网日内滚动调度计划运行成本和弃风/失负荷惩罚即为步骤2.1中建立日内滚动调度模型目标函数。安全约束惩罚为系统支路潮流越限惩罚,即电网内部支路的潮流超过了其所能承受的极限值,可表示为:
因此,智能体奖励函数R可以表示为:
为使奖励最大化,电网日内调度计划运行成本、弃风/失负荷惩罚和安全约束惩罚三部分之和必须最小。
A2C算法设计:
参阅如图3所示,Critic网络结构示意图。Critic网络输入系统状态信息,输出当前状态的值函数。通过输入层,隐含层,输出层得到当前状态的值函数。
A2C算法从组成上来看共包含两个深度网络,即Actor网络和Critic网络。Actor网络输入系统状态信息,输出当前状态下动作选择概率,Critic网络输入系统状态信息,输出当前状态的值函数。Actor网络和Critic网络根据区域电网调度环境信息,分别输出未来4h的调度计划和当前状态的状态值函数,将调度计划作用于外部环境获得下一状态和奖励,并将其作为网络训练的数据。训练完成后,Actor网络的输出即为区域电网的日内滚动调度计划。
Actor网络需要根据Critic网络的反馈进行更新,而Critic网络根据智能体与环境交互所产生的状态转移进行更新。Critic网络采用网络参数θv实现对状态值函数V(s;θv)的拟合,并根据状态值函数进行参数更新,可以表达为:
Critic网络输入系统状态信息,输出当前状态的值函数。对于Actor网络,其将动作策略近似为函数表达即π(s,a)≈π(a|s;θπ),并对其进行进一步的拟合近似可得到下式。
式中:θπ为Actor网络的权重参数;与状态转移概率P不同,p(a|s,θπ)表示网络参数为θπ时在状态s下采取动作a的概率。
策略π的目标函数可以表示为
根据梯度下降法,可知
采用动作值函数Qπ(s,a)替换R可以得到
为使反馈值既可以大于零又可以小于零,增加状态值函数Vπ(s)作为基线值,可以得到
定义优势函数A(s,a)为
根据上式可得
更一般地,可以将其表示为
Actor网络同样输入系统状态信息,输出当前状态下动作选择概率。与Critic网络相比Actor网络的输出层分为均值层和标准差层,通过输出的均值和方差组成一个正态分布,进而通过正态分布对机组爬坡约束内的出力值进行采样得到最终的调度动作,通过这种方式实现了动作的连续取值,同时也保证了火电机组不会出现爬坡越限和出力越限。
A2C算法的调度优化框架:
Actor网络和Critic网络根据区域电网调度环境信息,分别输出未来4h的调度计划和当前状态的状态值函数,将调度计划作用于外部环境获得下一状态和奖励,并将其作为网络训练的数据。训练完成后,Actor网络的输出即为区域电网的日内滚动调度计划。
本发明在日前调度计划与AGC调控之间加入日内滚动计划,使得调度计划之间的衔接更加紧密、过渡更加平稳。所述深度强化学习算法相较于传统基于数学模型与优化求解器的调度优化方法更具有实时性,极大提升了求解效率。
参阅如图4所示,Actor网络结构示意图。Actor网络输入系统状态信息,输出当前状态下动作选择概率。与Critic网络相比,Actor网络的输出层分为均值层和标准差层,通过输出的均值和方差组成一个正态分布,进而通过正态分布对机组爬坡约束内的出力值进行采样得到最终的调度动作,通过这种方式实现了动作的连续取值,同时也保证了火电机组不会出现爬坡越限和出力越限。
由于Actor网络与Critic网络的输入信息均为区域电网的调度环境信息,其各自的输入层和隐含层均是对区域电网调度环境信息进行特征提取。因此,本文将Actor网络与Critic网络的输入层和隐含层合并,即Actor网络与Critic网络共用相同的输入层与隐含层。
参阅如图5所示,为A2C算法训练框架图。Actor网络和Critic网络根据区域电网调度环境信息,分别输出未来4h的调度计划和当前状态的状态值函数,将调度计划作用于外部环境获得下一状态和奖励,并将其作为网络训练的数据。训练完成后,Actor网络的输出即为区域电网的日内滚动调度计划。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。
Claims (7)
1.基于深度强化学习的区域电网日前-日内联合调度方法,其特征在于,包括以下步骤:
步骤1:日前调度计划每日根据日前风电及负荷预测曲线进行制定,得到火电机组的启停计划、火电机组出力计划、A类可削减负荷补偿价格及削减量、可平移负荷运行起始时间;
步骤2:日内滚动调度模型的目标函数为最小化系统运行成本与风险成本之和,约束为日内功率平衡约束、线路传输容量约束、火电机组出力上下限约束、火电机组爬坡约束和B类可削减负荷调用约束;
步骤3:利用深度强化学习完成日内滚动调度模型求解,获得日内调度计划。
2.如权利要求1所述的基于深度强化学习的区域电网日前-日内联合调度方法,其特征在于,所述步骤2中建立日内滚动调度模型目标函数:
其中,k为当前的时段,要对未来M*ΔT时段的风电出力和负荷需求进行预测;Pi,t为火电机组i的日前出力计划,在日内滚动调度模型中为已知量;ΔPi,t为火电机组i在日内t时段的出力调整量,为模型的决策变量;和分别为火电机组i在日内出力调整后的煤耗成本、附加煤耗成本和寿命损耗成本;为t时段B类可削减负荷调度成本;为t时段弃风风险成本;为t时段火电机组i的失负荷风险成本;δi,t为火电机组i的日前启停计划,在日内滚动调度模型中为已知量;ai、bi和ci为机组i的煤耗成本系数;为机组i运行在深度调峰状态下的煤耗率系数;υi为机组i在常规最小技术出力状态下的煤耗率系数;zi,t用来表示火电机组是否处于深度调峰状态,当机组运行于常规最小技术出力之下时,该值为1,当机组运行于常规最小技术出力之上时,该值为0;εi为火电机组在额定出力下的煤耗率;ρcoal为单位煤炭价格;Ni,t(Pi,t+ΔPi,t)为机组i的转子致裂循环周次,其取值与(Pi,t+ΔPi,t)密切相关;ωi为火电机组运行损耗系数;为机组i的购机成本;ΔT为t时段的时间长度;ΔPt B表示t时段B类可削减负荷的负荷削减量;为t时段B类可削减负荷的补偿价格;λcw为单位电量的弃风风险成本系数;Nw为区域电网内风电场数量;为t时段风电出力和负荷需求极端场景下第j个风电场的弃风功率;λcl为单位电量的失负荷风险成本系数;为t时段风电出力和负荷需求极端场景下区域电网的失荷功率。
3.如权利要求2所述的基于深度强化学习的区域电网日前-日内联合调度方法,其特征在于,所述步骤2中建立日内滚动调度模型约束条件:
所述约束条件主要包括日内功率平衡约束、线路潮流约束、火电机组出力上下限约束、火电机组爬坡约束和B类可削减负荷调用约束如下式所示:
所述日内功率平衡约束:
其中,Ng为区域电网内火电机组数量,Nw为区域电网内风电场数量,i,j分别表示当前火电机组i和风电机组j;和为日内超短期负荷预测及风电预测功率,ΔPt B为B类可削减负荷备用调用量;ΔPt A为A类可削减负荷调用量;ΔPt cl为t时段切负荷量;Pt sh为可平移负荷经调度后t时段用电功率;Pt sh*为可平移负荷经调度前t时段用电功率;
所述火电机组出力上下限约束:
其中,Pi min和Pi max分别为火电机组i的最大、最小出力,对于常规火电机组,Pi min为常规最小技术出力,对于经灵活性改造后的深度调峰机组,Pi min为机组改造后的最大调峰深度;和分别为区域电网在深度调峰机组i在t时段向上和向下备用容量值;
所述火电机组爬坡约束:
所述B类可削减负荷备用调用约束:
0≤ΔPt B≤Pt B。
4.如权利要求1所述的基于深度强化学习的区域电网日前-日内联合调度方法,其特征在于,所述步骤3具体如下:
根据步骤2所建立的日内滚动调度模型,建立马尔科夫决策模型,决策过程的变量包括:
1)状态空间构造:状态空间包括区域电网的超短期负荷预测值、超短期风电预测值、上时刻机组出力、日前调度计划,即:
S={Pw,Pl,P,Pday-ahead}
其中,Pw为区域电网日内超短期风电预测状态集合;Pl为日内超短期负荷功率预测状态集合;P为上一时刻各火电机组出力状态集合;Pday-ahead为区域电网日前调度计划状态集合;
2)动作空间构造:包括火电机组出力调整量区间、B类可削减负荷补偿价格及可削减量区间,即:
A={ΔP,ρB,ΔPB}
其中,ΔP为区域电网日内火电机组出力调整动作集合;ρB为B类可削减负荷补偿价格动作集合;ΔPB为B类可削减负荷削减量动作集合;
3)奖励函数构造:包括区域电网日内调度计划运行成本、弃风/失负荷惩罚和安全约束惩罚三部分,其中,区域电网日内滚动调度计划运行成本和弃风/失负荷惩罚即为权利要求5所述的目标函数,安全约束惩罚为系统支路潮流越限惩罚,即电网内部支路的潮流超过了其所能承受的极限值,可表示为:
因此,智能体奖励函数R可以表示为:
为使奖励最大化,电网日内调度计划运行成本、弃风/失负荷惩罚和安全约束惩罚三部分之和必须最小。
5.如权利要求1所述的基于深度强化学习的区域电网日前-日内联合调度方法,其特征在于,所述步骤3的深度强化学习算法为A2C算法。
6.如权利要求5所述的基于深度强化学习的区域电网日前-日内联合调度方法,其特征在于,所述A2C算法设计:
A2C算法从组成上来看共包含两个深度网络,即Actor网络和Critic网络,Actor网络输入系统状态信息,输出当前状态下动作选择概率,Critic网络输入系统状态信息,输出当前状态的值函数;Actor网络和Critic网络根据区域电网调度环境信息,分别输出未来4h的调度计划和当前状态的状态值函数,将调度计划作用于外部环境获得下一状态和奖励,并将其作为网络训练的数据;训练完成后,Actor网络的输出即为区域电网的日内滚动调度计划。
7.如权利要求6所述的基于深度强化学习的区域电网日前-日内联合调度方法,其特征在于,
Actor网络需要根据Critic网络的反馈进行更新,而Critic网络根据智能体与环境交互所产生的状态转移进行更新;Critic网络采用网络参数θv实现对状态值函数V(s;θv)的拟合,并根据状态值函数进行参数更新,可以表达为:
Critic网络输入系统状态信息,输出当前状态的值函数,对于Actor网络,其将动作策略近似为函数表达即π(s,a)≈π(a|s;θπ),并对其进行进一步的拟合近似可得到下式,
式中:θπ为Actor网络的权重参数;与状态转移概率P不同,p(a|s,θπ)表示网络参数为θπ时在状态s下采取动作a的概率;
策略π的目标函数可以表示为
根据梯度下降法,可知
进一步,根据▽f(x)=f(x)▽logf(x)可以推出
采用动作值函数Qπ(s,a)替换R可以得到
为使反馈值既可以大于零又可以小于零,增加状态值函数Vπ(s)作为基线值,可以得到
定义优势函数A(s,a)为
根据上式可得
更一般地,可以将其表示为
Actor网络同样输入系统状态信息,输出当前状态下动作选择概率,与Critic网络相比Actor网络的输出层分为均值层和标准差层,通过输出的均值和方差组成一个正态分布,进而通过正态分布对机组爬坡约束内的出力值进行采样得到最终的调度动作,通过这种方式实现了动作的连续取值,同时也保证了火电机组不会出现爬坡越限和出力越限。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211102713.XA CN115441437A (zh) | 2022-09-09 | 2022-09-09 | 基于深度强化学习的区域电网日前-日内联合调度方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211102713.XA CN115441437A (zh) | 2022-09-09 | 2022-09-09 | 基于深度强化学习的区域电网日前-日内联合调度方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115441437A true CN115441437A (zh) | 2022-12-06 |
Family
ID=84248134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211102713.XA Pending CN115441437A (zh) | 2022-09-09 | 2022-09-09 | 基于深度强化学习的区域电网日前-日内联合调度方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115441437A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116245334A (zh) * | 2023-03-15 | 2023-06-09 | 东南大学 | 一种基于深度强化学习的电力系统风险感知实时调度方法 |
CN117691632A (zh) * | 2024-02-04 | 2024-03-12 | 山西中能天胜科技有限公司 | 一种火电机组调峰调频系统 |
-
2022
- 2022-09-09 CN CN202211102713.XA patent/CN115441437A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116245334A (zh) * | 2023-03-15 | 2023-06-09 | 东南大学 | 一种基于深度强化学习的电力系统风险感知实时调度方法 |
CN116245334B (zh) * | 2023-03-15 | 2024-04-16 | 东南大学 | 一种基于深度强化学习的电力系统风险感知实时调度方法 |
CN117691632A (zh) * | 2024-02-04 | 2024-03-12 | 山西中能天胜科技有限公司 | 一种火电机组调峰调频系统 |
CN117691632B (zh) * | 2024-02-04 | 2024-04-16 | 山西中能天胜科技有限公司 | 一种火电机组调峰调频系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109962499B (zh) | 一种电网多时间尺度调度方法 | |
CN112104007B (zh) | 一种广义源储系统调度的集中控制方法 | |
CN105046395B (zh) | 一种含多类型新能源的电力系统日内滚动计划编制方法 | |
CN115441437A (zh) | 基于深度强化学习的区域电网日前-日内联合调度方法 | |
CN109492861B (zh) | 一种梯级水电站群中期电量交易计划分解方法 | |
CN108092324B (zh) | 一种风电参与调峰调频的agc控制系统和控制方法 | |
CN111242443B (zh) | 基于深度强化学习的能源互联网中虚拟电厂经济调度方法 | |
CN110581571A (zh) | 一种主动配电网动态优化调度方法 | |
CN108808740B (zh) | 多区域互联电网的多时间尺度的调度方法、装置以及存储介质 | |
CN114336702B (zh) | 基于双层随机规划的风光储场站群功率分配协同优化方法 | |
CN112381424A (zh) | 新能源及负荷不确定性的多时间尺度有功优化决策方法 | |
CN112215433B (zh) | 基于市场出清电价不确定性的虚拟电厂日前优化调度方法 | |
CN110676849B (zh) | 一种孤岛微电网群能量调度模型的构建方法 | |
CN112909933B (zh) | 现货市场环境下含抽水蓄能机组的日内滚动优化调度方法 | |
CN113346555B (zh) | 一种考虑电量协调的日内滚动调度方法 | |
CN110867907B (zh) | 一种基于多类型发电资源同质化的电力系统调度方法 | |
Dong et al. | Optimal scheduling framework of electricity-gas-heat integrated energy system based on asynchronous advantage actor-critic algorithm | |
Nassourou et al. | Economic model predictive control for energy dispatch of a smart micro-grid system | |
CN110932257A (zh) | 一种微电网能量调度方法 | |
CN112803422B (zh) | 基于有功无功协调优化的输电网电压双层控制方法 | |
CN110350521B (zh) | 一种高比例可再生能源跨区互动消纳的受端电网阻塞预测方法及装置 | |
CN116760103A (zh) | 虚拟电厂在线优化电力调度的自适应预测能量管理方法 | |
CN111582599A (zh) | 一种基于虚拟电厂调峰的储能设备日内有功调度方法 | |
CN116885772A (zh) | 风电-光伏-抽水蓄能-火电联合运行系统优化调度方法 | |
CN115719132A (zh) | 含多座抽蓄电站的省级电网日前计划分层递进优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |