CN110414725A - 预测决策一体化的风电场储能系统调度方法及装置 - Google Patents
预测决策一体化的风电场储能系统调度方法及装置 Download PDFInfo
- Publication number
- CN110414725A CN110414725A CN201910626144.0A CN201910626144A CN110414725A CN 110414725 A CN110414725 A CN 110414725A CN 201910626144 A CN201910626144 A CN 201910626144A CN 110414725 A CN110414725 A CN 110414725A
- Authority
- CN
- China
- Prior art keywords
- power plant
- wind power
- storage system
- network
- energy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004146 energy storage Methods 0.000 title claims abstract description 101
- 238000000034 method Methods 0.000 title claims abstract description 73
- 238000011156 evaluation Methods 0.000 claims abstract description 40
- 230000008569 process Effects 0.000 claims abstract description 26
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000009825 accumulation Methods 0.000 claims abstract description 12
- 230000009471 action Effects 0.000 claims abstract description 11
- 230000005611 electricity Effects 0.000 claims description 35
- 230000033001 locomotion Effects 0.000 claims description 34
- 238000003860 storage Methods 0.000 claims description 25
- 230000008901 benefit Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 description 16
- 238000005457 optimization Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000013528 artificial neural network Methods 0.000 description 9
- 230000010354 integration Effects 0.000 description 9
- 238000007599 discharging Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 238000013507 mapping Methods 0.000 description 6
- 238000001803 electron scattering Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 239000000446 fuel Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002402 nanowire electron scattering Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0637—Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- General Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Supply And Distribution Of Alternating Current (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本公开提供了一种预测决策一体化的风电场储能系统调度方法及装置。其中,预测决策一体化的风电场储能系统调度方法,包括:样本积累步骤:将风电场状态st输入至评价网络,输出动作空间A中所有动作的Q值并由ε‑greedy策略确定储能系统的调度指令at,在储能系统执行该调度指令后,计算返回的奖励rt并观察下一时段风电场状态st+1,将(st,at,rt,st+1)作为一个样本存储到缓存器中,重复上述过程直至缓存器中样本数达到预设上限值;Q值迭代步骤;网络训练步骤;学习环节结束判断步骤:若风电场获取的收益不再增长并在预设书中范围内波动,则此时评价网络已收敛,当前调度指令最优;否则,重复上述步骤,直至评价网络收敛,输出最优调度指令。
Description
技术领域
本公开属于风电场储能系统优化领域,尤其涉及一种预测决策一体化的风电场储能系统调度方法及装置。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
风力发电机出力和市场电价直接关系着风电场的收益。风力发电机的出力具有不确定性和不可调度性,这些特性让风电场的收入也随之波动且不受控制。此外,电力市场发布的电价包含市场的供需平衡信息、传输阻塞、燃料成本等信息,调整电价是市场引导和约束发电商提供优质电能的手段。作为电力市场中电价的被动接受者,风力发电商根据电价的高低安排发电量能提高其调度收益。
储能技术为风电场应对风电的不确定性提供了解决途径。对于储能系统而言,当其被集成到风电场中时,风力发电机与储能系统的混合输出可以在一定程度上被控制。储能系统的调节能力不仅用来消除风电的部分不确定性,还用来实现根据电价制定的长期发电计划,实现长期利益的最大化。针对在风电不确定性条件下风电场储能系统的优化控制,当前研究以风电功率预测为前提,遵循预测、决策相分离的调度模式。从机器学习的角度来看,预测阶段是从风电场高维度的气象数据到预测功率值(或其他相关形式)的数据压缩、特征提取过程。发明人发下,预测与决策的分离致使该过程丢失了许多原始数据中蕴含的有效决策依据,并额外引入了因预测算法带来的误差干扰。此外,在基于数学优化算法的决策阶段,风电的不确定性通常被假设为特定的概率分布,概率分布与实际风电不确定性的匹配程度也影响着调度结果的可参考性。
发明内容
为了解决上述问题,本公开提供一种预测决策一体化的风电场储能系统调度方法及装置,其对风电场储能系统进行预测决策一体化调度,能够最大程度地避免风电场中有效决策依据的丢失,提升调度结果的有效性。
本公开的第一个方面提供一种预测决策一体化的风电场储能系统调度方法。
一体化的风电场储能系统调度方法,包括:
样本积累步骤:将当前时刻风电场状态st输入至评价网络,输出动作空间A中所有动作的Q值并由ε-greedy动作选择策略确定储能系统的调度指令at,在储能系统执行该调度指令后,计算返回的奖励rt并观察下一时段风电场状态st+1,将(st,at,rt,st+1)作为一个样本存储到缓存器中,重复上述过程直至缓存器中样本数达到预设上限值;
Q值迭代步骤:对存储的样本进行批量采样,再经评价网络和目标网络计算出每个样本的时间差分偏差值,取所有采样样本的时间差分偏差值的平均值作为整个批量样本的时间差分偏差值;其中目标网络是评价网络的阶段性复制品,两者具有相同的网络结构;
网络训练步骤:利用批量样本的时间差分偏差值构建训练过程中反向传递的损失函数,每当评价网络被更新预设次数后,将评价网络的参数拷贝至目标网络;
学习环节结束判断步骤:若风电场获取的调度收益不再增长并在预设数值范围内波动,则此时评价网络已收敛,当前调度指令最优;否则,重复上述步骤,直至评价网络收敛,输出最优调度指令。
本公开的第二个方面提供一种预测决策一体化的风电场储能系统调度装置。
一种预测决策一体化的风电场储能系统调度装置,包括:
样本积累模块,其用于:将当前时刻风电场状态st输入至评价网络,输出动作空间A中所有动作的Q值并由ε-greedy动作选择策略确定储能系统的调度指令at,在储能系统执行该调度指令后,计算返回的奖励rt并观察下一时段风电场状态st+1,将(st,at,rt,st+1)作为一个样本存储到缓存器中,重复上述过程直至缓存器中样本数达到预设上限值;
Q值迭代模块,其用于:对存储的样本进行批量采样,再经评价网络和目标网络计算出每个样本的时间差分偏差值,取所有采样样本的时间差分偏差值的平均值作为整个批量样本的时间差分偏差值;其中目标网络是评价网络的阶段性复制品,两者具有相同的网络结构;
网络训练模块,其用于:利用批量样本的时间差分偏差值构建训练过程中反向传递的损失函数,每当评价网络被更新预设次数后,将评价网络的参数拷贝至目标网络;
学习环节结束判断模块,其用于:若风电场获取的调度收益不再增长并在预设数值范围内波动,则此时评价网络已收敛,当前调度指令最优;否则,重复上述步骤,直至评价网络收敛,输出最优调度指令。
本公开的第三个方面提供一种计算机可读存储介质。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述的预测决策一体化的风电场储能系统调度方法中的步骤。
本公开的第四个方面提供一种计算机可读存储介质。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述所述的预测决策一体化的风电场储能系统调度方法中的步骤。
本公开的有益效果是:
(1)作为一种风电场储能系统经济调度方法,本公开对风电场储能系统进行预测决策一体化调度。该调度模式令包含高维度原始气象数据的风电场状态直接驱动储能系统的控制。端到端(end-to-end)的一体化调度模式最大程度地避免风电场中有效决策依据的丢失,提升调度结果的有效性。
(2)本公开将深度强化学习应用于风电场储能系统的优化控制,其不依赖具体统计模型的特性让优化过程无需表述或假设风电的不确定性规律。与之相对应,这种数据驱动的优化算法让蕴含在历史数据中的风电不确定性规律被机器自动捕捉并加以利用,避免了对不确定性的建模误差,进一步提升决策结果的可参考性。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例的预测决策一体化的储能系统调度模式示意图;
图2为当前传统的预测决策分离的储能系统调度模式示意图;
图3为本公开实施例的的控制器中神经网络结构的示意图;
图4为本公开实施例的所用的强化学习基本原理的示意图;
图5为本公开实施例的中基于深度强化学习的储能系统优化控制示意图;
图6为本公开实施例的中基于深度强化学习DQN算法的储能系统优化控制流程示意图;
图7为本公开实施例的验证中风电场在优化过程中所获收益的变化曲线。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
本实施例的一体化的风电场储能系统调度方法,包括:
样本积累步骤:将风电场状态st输入至评价网络,输出动作空间A中所有动作的Q值并由ε-greedy策略确定储能系统的调度指令at,在储能系统执行该调度指令后,计算返回的奖励rt并观察下一时段风电场状态st+1,将(st,at,rt,st+1)作为一个样本存储到缓存器中,重复上述过程直至缓存器中样本数达到预设上限值;
其中,评价网络为一个深度神经网络,本实例中评价网络的结构如图3所示;
Q值迭代步骤:对存储的样本进行批量采样,再经评价网络和目标网络计算出每个样本的时间差分偏差值,取所有采样样本的时间差分偏差值的平均值作为整个批量样本的时间差分偏差值,其中目标网络是评价网络的阶段性复制品,二者具有相同的网络结构;
网络训练步骤:利用批量样本的时间差分偏差值构建训练过程中反向传递的损失函数,每当评价网络被更新预设次数后,将评价网络的参数拷贝至目标网络;
学习环节结束判断步骤:若风电场获取的调度收益不再增长并在预设数值范围内波动,则此时评价网络已收敛,当前调度指令最优;否则,重复上述步骤,直至评价网络收敛,输出最优调度指令。
预测决策一体化调度模式将传统风电场调度模式中存在的预测、决策两个独立的阶段合二为一,形成端到端的调度模式。该模式下风储合作机制如图1所示,而传统的风储合作机制如图2所示。在预测决策一体化调度模式中,功率、气象和储能系统状态等数据都被作为决策依据输入到控制器中。具体的,风电场的输入状态空间由前瞻电价λt、上一个调度时段结束后储能系统存储的电量值Et-1以及风电场的测量数据组成,如下式所示:
式中:Mt表示风力发电机的实时及历史输出功率、风电场的风速、风向、气压、湿度等实时、历史甚至预测的气象数据。
在大量的决策依据中自动提取有益于提高售电收益的数据特征,进而直接给出储能系统的充放电功率作为输出指令。因此,输出动作空间由储能系统的充放电功率值PESS,t的n个等离散量组成,如下式所示:
A={a1,a2,…,an} (2)
调度结束后,风电场向电网注入的功率Psys,t为该时刻风力发电机的实际输出功率Pw,t与所决策的储能系统充放电功率PESS,t之和,如式(3)所示:
Psys,t=Pw,t+PESS,t (3)
其中,PESS,t为正值表示储能系统处于放电状态,负值表示储能系统处于充电状态。
深度神经网络拟合了从状态st到所有可行调度指令的Q值之间的映射关系,其初始参数为随机数。Q值衡量了该调度指令能为风电场带来长期收益。然后ε-greedy动作选择策略根据神经网络计算出的Q值选择最终的调度指令作为最终输出指令at。ε-greedy如下式所示:
式中:π表示在状态s下动作a被选取的概率;ε(≠0)为随机选取动作的概率,argmaxaQ(s,a)表示动作空间中具有最大Q值的可行动作。
该策略表达的物理含义是:以ε的概率随机选择动作空间中的某个动作作为输出指令,以1-ε的概率来选择动作空间中Q值最大的动作作为输出指令。
在考虑储能系统运行约束的情况下执行调度指令并计算调度收益rt。
其中,风电场所获得的调度收益计算如下:
rt=Psys,tλtΔt-Ct (5)
式中:λt是风电场在t时段的售电价格,Ct是风电场因储能系统运行状态越限而支付的惩罚费用,Δt为两次调度之间的时间间隔。
其中,储能系统运行约束如下:
储能系统的调节能力受其运行约束的限制。本实施例中以蓄电池组作为储能元件。储能系统的充放电功率可进一步表示为:
式中:与分别为t时段储能系统的放电、充电功率值;与分别是t时段储能系统的放电、充电状态变量,值为0时表示非,值为1时表示是。式(7)表示同一时段充电和放电状态无法同时存在。
蓄电池组的功率约束主要有:
1)充放电功率限制约束:
式中:和是储能系统允许的最大充、放电功率值。
由于蓄电池组t时段的电量与t-1时段的电量有关,即满足:
式中:和为储能系统的充电、放电效率;Et表示t时段储能元件的电量值。因此,储能系统还受到蓄电池容量与电量的限制。
2)储能系统容量约束:
Emin≤Et≤Emax (11)
式中:Emax与Emin分别为储能系统允许的最大、最小存储电量值。
3)控制周期末时段电量约束:
E24=Eend (12)
式中:E24为储能系统在一个控制周期结束后储能系统中存储的电量值;Eend为储能系统在进入下一个控制周期时要求的存储电量值,是一个固定值。该约束保证了储能系统能长期具备对风电场收益的调节能力。
4)储能系统充放电状态转换次数约束:
式中:YESS,t是储能系统充放电状态的转换变量,值为0表示t时段与t-1时段的充放电状态相同,值为1表示状态发生了变化;NESS是一个调度周期内储能系统充放电状态允许转换的最大次数。
其中,在调度过程中,若储能系统对式(12)、式(13)约束越限,风电场将根据越限程度来支付惩罚费用,惩罚费用计算如下:
1)违反控制周期末时段电量约束:
违反该约束后,风电场以Eend与E24之间的差值为依据支付惩罚费用:
式中:是储能系统违反控制周期末时段电量约束时的惩罚费用系数。
2)违反储能系统充放电状态转换次数约束:
违反该约束后,风电场以实际转换次数与最大允许转换次数的差值为依据支付惩罚费用:
式中:是违反储能系统充放电状态转换次数约束时的惩罚费用系数。
储能系统的运行状态越限后,风电场需要支付的惩罚费用是上述两类惩罚费用之和:
使用深度强化学习DQN算法更新控制器中的神经网络参数。
其中,强化学习的基本概念及原理如下:
强化学习的基本原理是不断鼓励智能体(控制器)以更高的概率输出能带来高回报的可行动作。智能体本质上是一个从状态空间S到动作空间A的映射关系。通过对外部环境的试错探索(即提升外部环境返回的奖励rt),强化学习直接优化智能体内部的映射关系,无需考虑状态st与动作at之间的物理机理。强化学习过程如图4所示。在传统强化学习算法中,映射关系通常以二维表格的形式存在,很难直接表征并处理连续的输入变量,必须对连续的状态空间进行离散才能与算法匹配,造成了不必要的信息损失。
本实施例将深度强化学习DQN算法应用到风电场的控制中,令控制器可以处理一体化调度模式下连续且高维度的风电场状态空间。深度强化学习引入深度神经网络来拟合映射关系。属于大数据挖掘技术的深度神经网络(深度学习)能有效挖掘状态空间中的高阶数据特征并筛除冗余信息,提升深度强化学习的优化效果。基于DQN算法的储能系统优化控制如图5所示。
其中DQN算法的更新原理如图6所示:
在DQN中,将控制器中搭建的神经网络称作评价网络。DQN中每一次学习过程可大致分为Q值迭代(Q-learning)和评价网络训练两个过程。其中,Q值的迭代规则如下所示:
式中:Q(st,at;θt)是经评价网络得出的在状态st下动作at的Q值;θt表示评价网络的网络参数;θ-是目标网络(target network)的网络参数;α是学习率;rt是奖励值;γ是衰减系数。目标网络与评价网络共同完成Q值的迭代,使迭代过程更加稳定,提升算法的收敛性。
在Q值迭代完毕后,DQN根据迭代前后Q值的差来训练评价网络,该差值被称为时间差分偏差(temporal difference error,TD-Error),如下所示:
评价网络训练过程中的损失函数L(θt)为:
L(θt)=TD-Error2 (19)
神经网络的训练(即深度学习)要求输入样本之间相互独立,但是强化学习产生的样本是连续的过程化样本,二者之间的矛盾使得算法的收敛性较差。因此,DQN设置了以replay buffer为主的经验回放机制,以打乱强化学习产生的过程化样本。Replay buffer将控制器经历过的样本存储,然后等概率地随机提取部分样本作为神经网络的训练集。
本实施例的风电场的储能系统参数如下
表1储能系统参数
风电场状态空间由前瞻电价λt、上一个调度时段结束后储能系统存储的电量值Et-1以及实时的风电场测量数据组成。测量数据包含:实时的测风塔10m风速、测风塔30m风速、测风塔50m风速、测风塔70m风速、轮毂高度风速、测风塔10m风向、测风塔30m风向、测风塔50m风向、测风塔70m风向、轮毂高度风向、风电场气压、湿度以及风力发电机的输出功率。整个状态空间由15维数据组成。各时段的售电电价如表2所示。
表2不同时段的售电价格
动作空间中,储能系统的充放电功率被等间隔地离散为31个动作,即{-7.5,-7.0,…,0,…,7.0,7.5}。
风电场的收益会随风电功率的波动而波动。图7所示为风电场平均收益随控制器历经样本数量增加的变化曲线。在初期的样本积累阶段中,由于经验回放机制中存储的样本数量不足,Q值的迭代和评价网络的训练未能被执行,因此该阶段的收益较低且无上升趋势。样本积累完毕后,从状态空间到动作空间的映射关系被持续优化,风电场的收益也随着历经样本的增加而有一个明显的上升阶段并随后达到一个稳定的波动范围。当收益曲线稳定后,风电场储能系统调度所获得的平均收益为6724.4元/小时。
为进一步说明所提方法的有效性,对预测、决策相分离的传统调度方法和基于场景的随机优化算法(scenario-based stochastic programming,SSP)进行了比较分析。在基于场景的随机优化过程中,风电功率的预测误差被假设服从正态分布N(μ,σ2),并取系数μ=0、σ=0.1yi。表3给出了风电场经历4000小时运营后不同情况下的调度收益。
表3多种情况下风电场的评价收益
通过对比情况1—5或3—5可得结论:与传统调度模式相比,预测决策一体化调度模式能为风电场带来更高收益。这是因为一体化调度模式能充分利用高维度风电场状态空间中蕴含的有效决策信息,提升调度的可参考性。此外,传统调度模式下,预测阶段中风电功率的预测精度会影响整个调度流程所获得的收益。而预测决策一体化调度模式未额外引入预测算法,因此不会存在该现象。
通过对比情况1—2或3—4可得结论:与数学优化算法相比,深度强化学习DQN算法不需要对风电的不确定性做特定假设或描述,避免了因概率分布的建模误差而导致的收益损失,进一步提升风电场所获收益。
综上,基于深度强化学习DQN算法的预测决策一体化调度(情况5)能最大化风电场的调度收益,证明了预测决策一体化调度模式和深度强化学习算法在风电场控制中的有效性。
作为一种风电场储能系统经济调度方法,本实施例对风电场储能系统进行预测决策一体化调度。该调度模式令包含高维度原始气象数据的风电场状态直接驱动储能系统的控制。端到端(end-to-end)的一体化调度模式最大程度地避免风电场中有效决策依据的丢失,提升调度结果的有效性。
本实施例将深度强化学习应用于风电场储能系统的优化控制,其不依赖具体统计模型的特性让优化过程无需表述或假设风电的不确定性规律。与之相对应,这种数据驱动的优化算法让蕴含在历史数据中的风电不确定性规律被机器自动捕捉并加以利用,避免了对不确定性的建模误差,进一步提升决策结果的可参考性。
实施例二
本实施例的一种预测决策一体化的风电场储能系统调度装置,包括:
(1)样本积累模块,其用于:将当前时刻风电场状态st输入至评价网络,输出动作空间A中所有动作的Q值并由ε-greedy动作选择策略确定储能系统的调度指令at,在储能系统执行该调度指令后,计算返回的奖励rt并观察下一时段风电场状态st+1,将(st,at,rt,st+1)作为一个样本存储到缓存器中,重复上述过程直至缓存器中样本数达到预设上限值;
(2)Q值迭代模块,其用于:对存储的样本进行批量采样,再经评价网络和目标网络计算出每个样本的时间差分偏差值,取所有采样样本的时间差分偏差值的平均值作为整个批量样本的时间差分偏差值;其中目标网络是评价网络的阶段性复制品,两者具有相同的网络结构;
(3)网络训练模块,其用于:利用批量样本的时间差分偏差值构建训练过程中反向传递的损失函数,每当评价网络被更新预设次数后,将评价网络的参数拷贝至目标网络;
(4)学习环节结束判断模块,其用于:若风电场获取的调度收益不再增长并在预设数值范围内波动,则此时评价网络已收敛,当前调度指令最优;否则,重复上述步骤,直至评价网络收敛,输出最优调度指令。
实施例三
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如实施例一所述的预测决策一体化的风电场储能系统调度方法中的步骤。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如实施例一所述的预测决策一体化的风电场储能系统调度方法中的步骤。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种预测决策一体化的风电场储能系统调度方法,其特征在于,包括:
样本积累步骤:将当前时刻风电场状态st输入至评价网络,输出动作空间A中所有动作的Q值并由ε-greedy动作选择策略确定储能系统的调度指令at,在储能系统执行该调度指令后,计算返回的奖励rt并观察下一时段风电场状态st+1,将(st,at,rt,st+1)作为一个样本存储到缓存器中,重复上述过程直至缓存器中样本数达到预设上限值;
Q值迭代步骤:对存储的样本进行批量采样,再经评价网络和目标网络计算出每个样本的时间差分偏差值,取所有采样样本的时间差分偏差值的平均值作为整个批量样本的时间差分偏差值;其中目标网络是评价网络的阶段性复制品,两者具有相同的网络结构;
网络训练步骤:利用批量样本的时间差分偏差值构建训练过程中反向传递的损失函数,每当评价网络被更新预设次数后,将评价网络的参数拷贝至目标网络;
学习环节结束判断步骤:若风电场获取的调度收益不再增长并在预设数值范围内波动,则此时评价网络已收敛,当前调度指令最优;否则,重复上述步骤,直至评价网络收敛,输出最优调度指令。
2.如权利要求1所述的预测决策一体化的风电场储能系统调度方法,其特征在于,在所述样本积累步骤中,ε-greedy动作选择策略是以ε的概率随机选择动作空间中的某个动作作为储能系统的调度指令,以1-ε的概率来选择动作空间中Q值最大的动作作为储能系统的调度指令,其中,0<ε≤1。
3.如权利要求2所述的预测决策一体化的风电场储能系统调度方法,其特征在于,在所述样本积累步骤中,ε-greedy动作选择策略的表达式为:
式中:π(a,s)表示在状态s下动作a被选取的概率;argmaxa Q(s,a)表示动作空间中具有最大Q值的可行动作。
4.如权利要求1所述的预测决策一体化的风电场储能系统调度方法,其特征在于,在所述Q值迭代步骤中,Q值迭代规则为:
式中:Q(st,at;θt)是经评价网络得出的在状态st下动作at的Q值;θt表示评价网络的网络参数;θ-是目标网络的网络参数;α是学习率;rt是奖励值;γ是衰减系数;是目标网络得出的在状态st+1下动作at+1的最大Q值。
5.如权利要求1所述的预测决策一体化的风电场储能系统调度方法,其特征在于,在所述学习环节结束判断步骤中,风电场获取的调度收益设为rt,其表达式为:
rt=Psys,tλtΔt-Ct
式中:λt是风电场在t时段的售电价格,Ct是风电场因储能系统运行状态越限而支付的惩罚费用,Psys,t为风电场向电网注入的功率,Δt为相邻两次调度之间的时间间隔。
6.一种预测决策一体化的风电场储能系统调度装置,其特征在于,包括:
样本积累模块,其用于:将当前时刻风电场状态st输入至评价网络,输出动作空间A中所有动作的Q值并由ε-greedy动作选择策略确定储能系统的调度指令at,在储能系统执行该调度指令后,计算返回的奖励rt并观察下一时段风电场状态st+1,将(st,at,rt,st+1)作为一个样本存储到缓存器中,重复上述过程直至缓存器中样本数达到预设上限值;
Q值迭代模块,其用于:对存储的样本进行批量采样,再经评价网络和目标网络计算出每个样本的时间差分偏差值,取所有采样样本的时间差分偏差值的平均值作为整个批量样本的时间差分偏差值;其中目标网络是评价网络的阶段性复制品,两者具有相同的网络结构;
网络训练模块,其用于:利用批量样本的时间差分偏差值构建训练过程中反向传递的损失函数,每当评价网络被更新预设次数后,将评价网络的参数拷贝至目标网络;
学习环节结束判断模块,其用于:若风电场获取的调度收益不再增长并在预设数值范围内波动,则此时评价网络已收敛,当前调度指令最优;否则,重复上述步骤,直至评价网络收敛,输出最优调度指令。
7.如权利要求6所述的预测决策一体化的风电场储能系统调度装置,其特征在于,在所述样本积累模块中,ε-greedy动作选择策略是以ε的概率随机选择动作空间中的某个动作作为储能系统的调度指令,以1-ε的概率来选择动作空间中Q值最大的动作作为储能系统的调度指令,其中,0<ε≤1。
8.如权利要求6所述的预测决策一体化的风电场储能系统调度装置,其特征在于,在所述Q值迭代模块中,Q值迭代规则为:
式中:Q(st,at;θt)是经评价网络得出的在状态st下动作at的Q值;θt表示评价网络的网络参数;θ-是目标网络的网络参数;α是学习率;rt是奖励值;γ是衰减系数;是目标网络得出的在状态st+1下动作at+1的最大Q值;
或在所述学习环节结束判断模块中,风电场获取的调度收益设为rt,其表达式为:
rt=Psys,tλtΔt-Ct
式中:λt是风电场在t时段的售电价格,Ct是风电场因储能系统运行状态越限而支付的惩罚费用,Psys,t为风电场向电网注入的功率,Δt为相邻两次调度之间的时间间隔。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的预测决策一体化的风电场储能系统调度方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5中任一项所述的预测决策一体化的风电场储能系统调度方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910626144.0A CN110414725B (zh) | 2019-07-11 | 2019-07-11 | 预测决策一体化的风电场储能系统调度方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910626144.0A CN110414725B (zh) | 2019-07-11 | 2019-07-11 | 预测决策一体化的风电场储能系统调度方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110414725A true CN110414725A (zh) | 2019-11-05 |
CN110414725B CN110414725B (zh) | 2021-02-19 |
Family
ID=68361103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910626144.0A Active CN110414725B (zh) | 2019-07-11 | 2019-07-11 | 预测决策一体化的风电场储能系统调度方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110414725B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110850720A (zh) * | 2019-11-26 | 2020-02-28 | 国网山东省电力公司电力科学研究院 | 一种基于dqn算法的区域自动发电动态控制方法 |
CN111275572A (zh) * | 2020-01-15 | 2020-06-12 | 杭州电子科技大学 | 一种基于粒子群和深度强化学习的机组调度系统及方法 |
CN112580801A (zh) * | 2020-12-09 | 2021-03-30 | 广州优策科技有限公司 | 一种强化学习训练方法及基于强化学习的决策方法 |
CN112668235A (zh) * | 2020-12-07 | 2021-04-16 | 中原工学院 | 基于离线模型预训练学习的ddpg算法的机器人控制方法 |
CN114123273A (zh) * | 2021-11-12 | 2022-03-01 | 青海综合能源服务有限公司 | 一种风电-光伏-储能联合系统的控制方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106487011A (zh) * | 2016-11-28 | 2017-03-08 | 东南大学 | 一种基于q学习的户用微电网能量优化方法 |
CN107026462A (zh) * | 2017-06-20 | 2017-08-08 | 华北电力大学(保定) | 用于风电计划功率跟踪的储能设备控制策略制定方法 |
CN107133181A (zh) * | 2017-06-13 | 2017-09-05 | 北京航空航天大学 | 一种差分小波神经网络软件故障预测技术的构建方法 |
CN108964042A (zh) * | 2018-07-24 | 2018-12-07 | 合肥工业大学 | 基于深度q网络的区域电网运行点调度优化方法 |
US20190033801A1 (en) * | 2017-07-26 | 2019-01-31 | General Electric Company | Method and system for providing flexible reserve power for power grid |
CN109347100A (zh) * | 2018-11-26 | 2019-02-15 | 国网四川省电力公司经济技术研究院 | 提升风电场综合性能的混合储能系统优化配置方法 |
CN109347149A (zh) * | 2018-09-20 | 2019-02-15 | 国网河南省电力公司电力科学研究院 | 基于深度q值网络强化学习的微电网储能调度方法及装置 |
CN109753751A (zh) * | 2019-01-20 | 2019-05-14 | 北京工业大学 | 一种基于机器学习的mec随机任务迁移方法 |
CN109802964A (zh) * | 2019-01-23 | 2019-05-24 | 西北大学 | 一种基于dqn的http自适应流控制能耗优化方法 |
-
2019
- 2019-07-11 CN CN201910626144.0A patent/CN110414725B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106487011A (zh) * | 2016-11-28 | 2017-03-08 | 东南大学 | 一种基于q学习的户用微电网能量优化方法 |
CN107133181A (zh) * | 2017-06-13 | 2017-09-05 | 北京航空航天大学 | 一种差分小波神经网络软件故障预测技术的构建方法 |
CN107026462A (zh) * | 2017-06-20 | 2017-08-08 | 华北电力大学(保定) | 用于风电计划功率跟踪的储能设备控制策略制定方法 |
US20190033801A1 (en) * | 2017-07-26 | 2019-01-31 | General Electric Company | Method and system for providing flexible reserve power for power grid |
CN108964042A (zh) * | 2018-07-24 | 2018-12-07 | 合肥工业大学 | 基于深度q网络的区域电网运行点调度优化方法 |
CN109347149A (zh) * | 2018-09-20 | 2019-02-15 | 国网河南省电力公司电力科学研究院 | 基于深度q值网络强化学习的微电网储能调度方法及装置 |
CN109347100A (zh) * | 2018-11-26 | 2019-02-15 | 国网四川省电力公司经济技术研究院 | 提升风电场综合性能的混合储能系统优化配置方法 |
CN109753751A (zh) * | 2019-01-20 | 2019-05-14 | 北京工业大学 | 一种基于机器学习的mec随机任务迁移方法 |
CN109802964A (zh) * | 2019-01-23 | 2019-05-24 | 西北大学 | 一种基于dqn的http自适应流控制能耗优化方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110850720A (zh) * | 2019-11-26 | 2020-02-28 | 国网山东省电力公司电力科学研究院 | 一种基于dqn算法的区域自动发电动态控制方法 |
CN111275572A (zh) * | 2020-01-15 | 2020-06-12 | 杭州电子科技大学 | 一种基于粒子群和深度强化学习的机组调度系统及方法 |
CN112668235A (zh) * | 2020-12-07 | 2021-04-16 | 中原工学院 | 基于离线模型预训练学习的ddpg算法的机器人控制方法 |
CN112668235B (zh) * | 2020-12-07 | 2022-12-09 | 中原工学院 | 基于离线模型预训练学习的ddpg算法的机器人控制方法 |
CN112580801A (zh) * | 2020-12-09 | 2021-03-30 | 广州优策科技有限公司 | 一种强化学习训练方法及基于强化学习的决策方法 |
CN112580801B (zh) * | 2020-12-09 | 2021-10-15 | 广州优策科技有限公司 | 一种强化学习训练方法及基于强化学习的决策方法 |
CN114123273A (zh) * | 2021-11-12 | 2022-03-01 | 青海综合能源服务有限公司 | 一种风电-光伏-储能联合系统的控制方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110414725B (zh) | 2021-02-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110414725A (zh) | 预测决策一体化的风电场储能系统调度方法及装置 | |
Hossain et al. | Modified PSO algorithm for real-time energy management in grid-connected microgrids | |
Abujarad et al. | Recent approaches of unit commitment in the presence of intermittent renewable energy resources: A review | |
Liu et al. | Dynamic pricing for decentralized energy trading in micro-grids | |
CN112614009B (zh) | 一种基于深度期望q-学习的电网能量管理方法及系统 | |
AU2017368470B2 (en) | System and method for dynamic energy storage system control | |
Ding et al. | Rolling optimization of wind farm and energy storage system in electricity markets | |
Eksin et al. | Demand response management in smart grids with heterogeneous consumer preferences | |
Wang et al. | Analysis of operation cost and wind curtailment using multi-objective unit commitment with battery energy storage | |
Shukla et al. | Clustering based unit commitment with wind power uncertainty | |
Huang et al. | A control strategy based on deep reinforcement learning under the combined wind-solar storage system | |
Lu et al. | A hybrid deep learning-based online energy management scheme for industrial microgrid | |
CN113794199B (zh) | 一种考虑电力市场波动的风电储能系统最大收益优化方法 | |
CN104091207A (zh) | 考虑有害气体排放量的含风电场多目标机组组合优化方法 | |
Chen et al. | A battery management strategy in microgrid for personalized customer requirements | |
CN116247648A (zh) | 一种考虑源荷不确定性下微电网能量调度的深度强化学习方法 | |
CN114362175B (zh) | 基于深度确定性策略梯度算法的风电功率预测方法及系统 | |
Bazmohammadi et al. | Optimal operation management of a microgrid based on MOPSO and Differential Evolution algorithms | |
CN114123273A (zh) | 一种风电-光伏-储能联合系统的控制方法及系统 | |
CN109976155B (zh) | 参与气电市场的虚拟电厂内部随机优化控制方法及系统 | |
Ebell et al. | Reinforcement learning control algorithm for a pv-battery-system providing frequency containment reserve power | |
Anwar et al. | Proximal policy optimization based reinforcement learning for joint bidding in energy and frequency regulation markets | |
Ma et al. | Design of a multi-energy complementary scheduling scheme with uncertainty analysis of the source-load prediction | |
Qiu et al. | Local integrated energy system operational optimization considering multi‐type uncertainties: A reinforcement learning approach based on improved TD3 algorithm | |
Matrenin et al. | Control of power prosumer based on swarm intelligence algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |