CN110021947A - 一种基于强化学习的分散式储能电力系统的运行优化方法 - Google Patents
一种基于强化学习的分散式储能电力系统的运行优化方法 Download PDFInfo
- Publication number
- CN110021947A CN110021947A CN201910328144.2A CN201910328144A CN110021947A CN 110021947 A CN110021947 A CN 110021947A CN 201910328144 A CN201910328144 A CN 201910328144A CN 110021947 A CN110021947 A CN 110021947A
- Authority
- CN
- China
- Prior art keywords
- energy storage
- battery energy
- charge
- discharge
- battery
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004146 energy storage Methods 0.000 title claims abstract description 291
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000005611 electricity Effects 0.000 claims abstract description 53
- 238000003860 storage Methods 0.000 claims abstract description 9
- 238000006116 polymerization reaction Methods 0.000 claims description 22
- 230000000875 corresponding effect Effects 0.000 claims description 21
- 230000032683 aging Effects 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 13
- 238000009825 accumulation Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000007599 discharging Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 abstract description 2
- 230000004044 response Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000000153 supplemental effect Effects 0.000 description 2
- 239000005955 Ferric phosphate Substances 0.000 description 1
- QSNQXZYQEIKDPU-UHFFFAOYSA-N [Li].[Fe] Chemical compound [Li].[Fe] QSNQXZYQEIKDPU-UHFFFAOYSA-N 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 229940032958 ferric phosphate Drugs 0.000 description 1
- WBJZTOZJJYAKHQ-UHFFFAOYSA-K iron(3+) phosphate Chemical compound [Fe+3].[O-]P([O-])([O-])=O WBJZTOZJJYAKHQ-UHFFFAOYSA-K 0.000 description 1
- 229910000399 iron(III) phosphate Inorganic materials 0.000 description 1
- 229910052744 lithium Inorganic materials 0.000 description 1
- 238000010248 power generation Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000003014 reinforcing effect Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/28—Arrangements for balancing of the load in a network by storage of energy
- H02J3/32—Arrangements for balancing of the load in a network by storage of energy using batteries with converting means
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Water Supply & Treatment (AREA)
- Public Health (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Power Engineering (AREA)
- Charge And Discharge Circuits For Batteries Or The Like (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开了一种基于强化学习的分散式储能电力系统的运行优化方法,通过储能聚合商将有意愿且有能力进行低储高发的DBESS进行集中控制,结合该地区大量的历史电价数据,以及储能约束条件,运用自趋优Q‑learning算法得出分散式储能的充放电策略,并通过互联网周期性地将策略信息送至每一个分散式储能(DBESS),DBESS接受到控制指令后,其功率控制系统通过双向DC‑DC变换器调节控制周期内充放电功率,实现低储高发;对推动微网社区内的分散式储能自主运行具有重要意义。
Description
技术领域
本发明属于信息技术在电力系统优化应用技术领域,具体涉及一种基于强化学习的分散式储能系统的运行优化方法。
背景技术
近年来储能行业展现日新月异的发展,包括特斯拉和比亚迪公司在内的世界许多企业都推出了家用储能产品,随着储能成本下降,这些分散式储能(DecentralizedBattery Energy Storage System)正越来越多地接入到楼宇及园区微网中。仅德国目前就有10万个分散式储能投入使用,并计划未来两年内增长到20万。将来大量的分散式储能存在于智能电网中,对电网的集中式发电和供电模式造成冲击,使得去中心化的分散式储能运行方式研究愈发重要,储能聚合商也渐渐成为DBESS参与电力市场的重要应用场景。
储能可被分成两类:能量型,例如飞轮储能,超级电容器等,多用于平滑分步式电源(Distributed Generation)功率波动;功率型,例如现今各种材质的电池储能系统(BESS),多用于微网削峰填谷以及自动发电。而考虑当今用户侧储能发展状况,本文所论皆是功率型储能即DBESS,如磷酸铁锂电池、钛酸铁锂电池。
然而,目前关于DBESS的应用大多集中在用其提高DG利用效率和微网运行经济性,都只是通过中心化的建模方式将DBESS作为需求侧响应以赚取需求响应服务费,而其作为分散式的家用电器设备,参与电力市场时追求自身利益最大化的特性没有得到体现。而且中心化的建模方式往往需要精确建模,要求目标函数具有很好的非凸性或必须假设出模型概率分布,但其假设的概率分布实际中却往往并不完全符合。而且传统中心化建模方式对微网信息和负荷信息要求较精细全面,但追求精确的最优往往需要耗费巨大的设备成本以及计算成本;模型的精确复杂化,还将导致求解难度大幅增大。故在未来能源系统日益去中心化的趋势下,传统中心化精确建模方式不能得到很好的应用。
发明内容
针对现有技术中的上述不足,本发明提供的基于强化学习的分散式储能电力系统的运行优化方法解决了上述背景技术中的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于强化学习的分散式储能电力系统的运行优化方法,包括以下步骤:
S1、构建包括电池储能及储能聚合商的分散式储能电力系统;
S2、根据历史电价数据和电池储能参数,构建基于强化学习方法制定的经验表;
S3、将当前周期的电价信息输入到经验表中,结合当前电池储能状态,确定该电池储能的最优充放电策略;
S4、根据当前周期的最优充放电策略,电池储能进行相应动作,并将其动作完成信息、储能状态及当前周期的电价信息返回至储能聚合商,用于更新下一周期的经验表,实现分散式储能电力系统的运行优化。
进一步地,所述步骤S1的分散式储能电力系统包括一个储能聚合商和同一地区的若干个电池储能,每个电池储能均与储能聚合商通信连接;
所述储能聚合商用于根据历史电价数据和电池储能参数制定电池储能的充放电策略,并将其发送至对应的电池储能;
所述电池储能根据接收到的充放电策略执行相应动作,实现分散式储能电力系统的运行优化。
进一步地,所述步骤S2具体为:
S21、根据电池储能参数,建立分散式储能电力系统的应用模型和调用成本模型;
S22、根据历史电价数据制定强化学习状态-动作对奖惩表;
S23、根据应用模型、调用成本模型和奖惩表建立经验表,并对其初始化;
S24、通过强化学习方法对经验表进行迭代,确定随机起始状态到达目标状态的不同路径,直到经验表收敛,并将每个路径累积起来对应的奖赏值填入到经验表中,完成经验表的构建。
进一步地,所述步骤S21中的应用模型包括电池储能的状态数和电池储能的状态;
其中,电池储能状态数Ni为:
式中,Ni为第i个电池储能的状态数;
Qrate为电池储能的额定容量;
ΔPset为电池储能的充放电功率最小变化步长;
电池储能的状态si,k为:
式中,si,k为第i个电池储能的第j个状态,且si,j∈S,0≤j≤Ni,S为DBESS i的状态集,N为第i个电池储能的状态数;
Qi为DBESS i的电荷量;
调用成本模型包括电池储能充电效率、电池储能放电效率、电池储能每小时充电损耗成本、电池储能老化成本、充电调用成本和放电调用成本;
其中,电池储能充电效率ηi,cha为:
ηi,cha=αi,cha-βi.chaPi,cha=0.95-0.015mi式中,αi,cha和βi.cha均为电池储能的充电常数;
Pi,cha为电池储能的充电功率;
mi为第i电池储能的运行月数;
电池储能的放电效率ηi,dch为:
ηi,dch=αi,dch-βi,dchPi,dch
式中,αi,dch和βi,dch为电池储能的放电常数;
Pi,dch为电池储能的充电常数;
电池储能每小时充电损耗成本Ci,dch,loss为:
式中,ρ为实时动态电价;
电池储能老化成本Ci,k,ag为:
式中,dk,i为电池储能第k周期开始时的放电深度;
Pi,bat为电池储能内部充放电功率;
Ei为DBESS i的容量;
Kp为特征常数;
N100,i,fail为100%放电深度下的电池储能的最大循环次数;
Ci,ap为电池储能的购置成本;
电池储能的充电调用成本Ci,cha:
Ci,cha=Ci,cha,loss+Ci,cha,ag
式中,Ci,cha,loss为电池储能的充电损耗成本;
Ci,cha,ag为电池储能的充电老化成本;
电池储能的放电调用成本Ci,dch为:
Ci,dch=Ci,dch,loss+Ci,dch,ag
式中,Ci,dch为每个控制周期的第i个BESS调用成本;
Ci,dch,loss为电池储能的放电损耗成本;
Ci,dch,ag为电池储能的放电老化成本。
进一步地,所述步骤S22中的奖惩表中的数据为电池储能的每个状态下所采取的充放电策略所带来的充放电奖赏;
其中,构建奖惩表的方法具体为:
A1、将电池储能的储能状态离散化,得到电池储能的m个荷电状态,根据设定的开环时域累积n,得到电池储能荷电状态与时间周期耦合的M=n×m个状态;
A2、根据电池储能的最大连续充放电功率约束,确定储能电池每个状态能够离散出的充放电动作数量J;
A3、构建M×J的奖惩矩阵;
A4、根据每个状态下的每个动作对应的充放电奖赏,填入到奖惩矩阵中,完成奖惩表的构建。
进一步地,所述步骤A2中的电池储能的最大连续充放电功率约束为:
0≤PBESS≤Prated
式中,PBESS为当前分散式储能的有功功率;
Prated为DBESS最大可持续充放电有功功率;
所述步骤A4中充放电奖赏的计算公式为:
Ri,k=ai,kρk
式中,Ri,k为当前周期k中第i个电池储能的充放电奖赏;
ρk为当前周期k的电价;
ai,k为当前周期k中第i个电池储能的充放电策略。
进一步地,所述步骤S24中对经验表进行迭代时的迭代优化目标函数为:
式中,Ji为该DBESS在给定的n个周期内的累积净现值;
Rπ(i,t)为第i个电池储能在实际间隔t内得到的收益;
n为开环时域累积。
进一步地,所述步骤S24中填入经验表的奖赏值函数为:
Q(st,at)=Q(st,at)+α(rt+λmaxaQ(st+1,at)-Q(st,at))-Ci.dch
式中,Q(st,at)为当前状态-动作的值;
α为学习率;
rt为当前t周期的状态下,分散式储能选择相应动作带来的奖赏;
λ为折扣因子;
maxaQ(st+1,at)为下一个可能的状态-动作的值函数的最大值;
Ci.dch为每个控制周期的第i个BESS调用成本。
进一步地,所述步骤S3中电池储能的最优充放电策略为:
将当前周期电价数据的输入到经验表中,将现有的经验表中该电池储能状态下最大奖赏值对应的动作作为该储能电池的最优充放电策略。
进一步地,聚合商将当前周期的电价信息更新到强化学习算法的电价数据库中,计算下一周期的充放电策略集,并更新经验表,如此实现开环时域累积的迭代向前,实现分散式电力储能系统的运行优化。
本发明的有益效果为:
(1)本发明通过去中心化的分散式储能及其聚合商建模,采用强化学习求解可以避免传统中心化模型因微网信息不确定性而难以精确建模的负载问题;
(2)本发明中的经验表已知参数只有电池储能参数数据和电价历史数据,强化学习算法可以在非物理精确建模情况下迅速求出最优解;另外,多分散式储能电力系统中需要加入新的电池储能,只需要在自趋优强化学习算法中输入该电池储能的参数,强化学习算法会根据应用模型自动计算其罚函数以及单词调用成本,扩展性好;
(3)本发明通过结合模型预测控制思想,强化算法中不断迭代进最新电价信息,实时更新经验表中的充放电策略;
(4)本发明因强化学习算法提前将经验表学习好,具有收敛性强、响应速度快和适应性高等特点。
附图说明
图1为本发明提供的基于强化学习的分散式储能电力系统的运行优化方法流程图。
图2为本发明中电池储能的模型图。
图3为本发明中分散式储能电力系统结构图。
图4为本发明中分散式储能电力系统自趋优运行过程示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,一种基于强化学习的分散式储能电力系统的运行优化方法,其特征在于,包括以下步骤:
S1、构建包括电池储能及储能聚合商的分散式储能电力系统;
S2、根据历史电价数据和电池储能参数,构建基于强化学习方法制定的经验表;
S3、将当前周期的电价信息输入到经验表中,结合当前电池储能状态,确定该电池储能的最优充放电策略;
S4、根据当前周期的最优充放电策略,电池储能进行相应动作,并将其动作完成信息、储能状态及当前周期的电价信息返回至储能聚合商,用于更新下一周期的经验表,实现分散式储能电力系统的运行优化。
其中,聚合商将当前周期的电价信息更新到强化学习算法的电价数据库中,计算下一周期的充放电策略集,并更新经验表,如此实现开环时域累积的迭代向前,实现分散式电力储能系统的运行优化。
上述步骤S1的分散式储能电力系统包括一个储能聚合商和同一地区的若干个电池储能,每个电池储能均与储能聚合商通信连接;
所述储能聚合商用于根据历史电价数据和电池储能参数制定电池储能的充放电策略,并将其发送至对应的电池储能;
所述电池储能根据接收到的充放电策略执行相应动作,实现分散式储能电力系统的运行优化。
本发明通过构建的储能电力系统提供了分散式储能的另一种运行方式,通过储能聚合商将DBESS集中控制,根据售电公司电价的日波动性,以DBESS的日历寿命周期净现值最大化为目标,运用强化学习中应用最广泛的Q-learning算法,在微网和负荷信息未知,即非物理精确建模时,储能聚合商基于分散式储能系统自身状态(荷电状态、容量配置、充放电功率等)以及未来开环滚动时域电价信息,制定各分散式储能最优充放电策略,在每个时域周期内自动趋向于盈利性低储高发。
上述步骤S2具体为:
S21、根据电池储能参数,建立分散式储能电力系统的应用模型和调用成本模型;
S22、根据历史电价数据制定强化学习状态-动作对奖惩表;
S23、根据应用模型、调用成本模型和奖惩表建立经验表,并对其初始化;
S24、通过强化学习方法对经验表进行迭代,确定随机起始状态到达目标状态的不同路径,直到经验表收敛,并将每个路径累积起来对应的奖赏值填入到经验表中,完成经验表的构建。
在上述步骤S21中考虑电池储能的材料、老化、容量、充放电效率和荷电状态等因素,建立分散式储能电力系统的应用模型和调用成本模型;
该应用模型包括电池储能的状态数和电池储能的状态;
其中,电池储能状态数Ni为:
式中,Ni为第i个电池储能的状态数;
Qrate为电池储能的额定容量;
ΔPset为电池储能的充放电功率最小变化步长;
电池储能的状态si,k为:
式中,si,k为第i个电池储能的第j个状态,S为DBESS i的状态集,N为第i个电池储能的状态数;
Qi为DBESS i的电荷量;
调用成本模型包括电池储能充电效率、电池储能放电效率、电池储能每小时充电损耗成本、电池储能老化成本、充电调用成本和放电调用成本;
其中,电池储能充电效率ηi,cha为:
ηi,cha=αi,cha-βi.chaPi,cha=0.95-0.015mi
式中,αi,cha和βi.cha均为电池储能的充电常数;
Pi,cha为电池储能的充电功率;
mi为第i电池储能的运行月数;
电池储能的放电效率ηi,dch为:
ηi,dch=αi,dch-βi,dchPi,dch
式中,αi,dch和βi,dch为电池储能的放电常数;
Pi,dch为电池储能的充电常数;
电池储能每小时充电损耗成本Ci,dch,loss为:
式中,ρ为实时动态电价;
电池储能老化成本Ci,k,ag为:
式中,dk,i为电池储能第k周期开始时的放电深度;
Pi,bat为电池储能内部充放电功率;
Ei为DBESS i的容量;
Kp为特征常数;
N100,i,fail为100%放电深度下的电池储能的最大循环次数;
Ci,ap为电池储能的购置成本;
电池储能的充电调用成本Ci,cha:
Ci,cha=Ci,cha,loss+Ci,cha,ag
式中,Ci,cha,loss为电池储能的充电损耗成本;
Ci,cha,ag为电池储能的充电老化成本;
电池储能的放电调用成本Ci,dch为:
Ci,dch=Ci,dch,loss+Ci,dch,ag
式中,Ci,dch为每个控制周期的第i个BESS调用成本;
Ci,dch,loss为电池储能的放电损耗成本;
Ci,dch,ag为电池储能的放电老化成本。
上述步骤S22中的奖惩表中的数据为电池储能的每个状态下所采取的充放电策略所带来的充放电奖赏;
其中,构建奖惩表的方法具体为:
A1、将电池储能的储能状态离散化,得到电池储能的m个荷电状态,根据设定的开环时域累积n,得到电池储能荷电状态与时间周期耦合的M=n×m个状态;
例如,电池储能有13个荷电状态,设定的开环时域累积为24小时,则13个荷电状态与24小时耦合出312个状态,描述了电池储能在一天可能的状态;
A2、根据电池储能的最大连续充放电功率约束,确定储能电池每个状态能够离散出的充放电动作数量J;
上述步骤A2中的电池储能的最大连续充放电功率约束为:
0≤PBESS≤Prated
式中,PBESS为当前分散式储能的有功功率;
Prated为DBESS最大可持续充放电有功功率;
考虑SOC以及充放电功率约束,DBESS充放电模型如图2所示,Prated是DBESS最大可持续充放电有功功率,PBESS是当前DBESS有功功率,Ssoc,max和Ssoc,min是DBESS的SOC(荷电状态)的最大值和最小值。
例如,根据储能的最大连续充放电功率约束(如40kW),假设储能变流器最小控制充放电功率变化为10kW,则储能的每个状态可以离散出9个充放电动作(除却容量约束不能选择的动作),这样构建出312*9的奖惩矩阵;
A3、构建M×J的奖惩矩阵;
A4、根据每个状态下的每个动作对应的充放电奖赏,填入到奖惩矩阵中,完成奖惩表的构建;
上述步骤A4中充放电奖赏的计算公式为:
Ri,k=ai,kρk
式中,Ri,k为当前周期k中第i个电池储能的充放电奖赏;
ρk为当前周期k的电价;
ai,k为当前周期k中第i个电池储能的充放电策略。
上述步骤S24中对经验表进行迭代时的迭代优化目标函数为:
式中,Ji为该DBESS在给定的n个周期内的累积净现值;
Rπ(i,t)为第i个电池储能在实际间隔t内得到的收益;(电池储能根据自身状态和设定自主选择采用储能聚合商提供的充放电策略或者不采用);
n为开环时域累积。
上述步骤S24中填入经验表的奖赏值函数为:
Q(st,at)=Q(st,at)+α(rt+λmaxaQ(st+1,at)-Q(st,at))-Ci.dch
式中,Q(st,at)为当前状态-动作的值;
α为学习率;
rt为当前t周期的状态下,分散式储能选择相应动作带来的奖赏;
λ为折扣因子;
maxaQ(st+1,at)为下一个可能的状态-动作的值函数的最大值;
Ci.dch为每个控制周期的第i个BESS调用成本。
该值函数用来从长远角度评价一个状态(或状态-动作对)的好坏。
上述步骤S3中电池储能的最优充放电策略为:
将当前周期电价数据的输入到经验表中,将现有的经验表中该电池储能状态下最大奖赏值对应的动作作为该储能电池的最优充放电策略。
如图3所示,显示了本发明中的包括电池储能及储能聚合商的系统的结构图;本发明考虑售电公司或者市场操作员根据当地的电价结构和电力的供求情况计算并发布实时动态电价ρ;假定该地区每家每户都有电池储能系统,储能聚合商通过一定商业模式将有意愿且有能力进行低储高发的DBESS进行集中控制,结合该地区大量的历史电价数据,以及储能约束条件,运用自趋优Q-learning算法得出分散式储能的充放电策略,并通过互联网周期性地将策略信息送至每一个分散式储能(DBESS),DBESS接受到控制指令后,其功率控制系统通过双向DC-DC变换器调节控制周期内充放电功率,实现低储高发。所谓低储高发,即储能聚合商在低电价时控制储能电池充电,在高电价时控制储能电池放电。对推动微网社区内的分散式储能自主运行具有重要意义。
如图4所示,在具体工作时,首先,在t时开始时,市场操作员公布本周期的电价ρt,该电价事先未知;然后,储能聚合商在极快的时间(即使考虑延迟也不超过10s)内根据强化学习对本地区t时之前电价的学习经验(经验表),结合本时段电价以及分散式储能的模型参数计算出DBESS i的充放电策略π(i,t);分散式储能自主选择是否按照获得的策略π(i,t)进行动作,并反馈动作完成信息以及储能状态信息Si,j给储能聚合商;最后聚合商将新时刻的电价更新到强化学习算法电价数据库中,计算下一周期策略集πi;下周期同上;进而实现分散式储能电力系统的运行优化。
本发明的有益效果为:
(1)本发明通过去中心化的分散式储能及其聚合商建模,采用强化学习求解可以避免传统中心化模型因微网信息不确定性而难以精确建模的复杂问题;
(2)本发明中的经验表已知参数只有电池储能参数数据和电价历史数据,强化学习算法可以在非物理精确建模情况下迅速求出最优解;另外,多分散式储能电力系统中需要加入新的电池储能,只需要在自趋优强化学习算法中输入该电池储能的参数,强化学习算法会根据应用模型自动计算其罚函数以及单词调用成本,扩展性好;
(3)本发明通过结合模型预测控制思想,强化算法中不断迭代进最新电价信息,实时更新经验表中的充放电策略;
(4)本发明因强化学习算法提前将经验表学习好,具有收敛性强、响应速度快和适应性高等特点。
Claims (10)
1.一种基于强化学习的分散式储能电力系统的运行优化方法,其特征在于,包括以下步骤:
S1、构建包括电池储能及储能聚合商的分散式储能电力系统;
S2、根据历史电价数据和电池储能参数,构建基于强化学习方法制定的经验表;
S3、将当前周期的电价信息输入到经验表中,结合当前电池储能状态,确定该电池储能的最优充放电策略;
S4、根据当前周期的最优充放电策略,电池储能进行相应动作,并将其动作完成信息、储能状态及当前周期的电价信息返回至储能聚合商,用于更新下一周期的经验表,实现分散式储能电力系统的运行优化。
2.根据权利要求1所述的基于强化学习的分散式储能电力系统的运行优化方法,其特征在于,所述步骤S1的分散式储能电力系统包括一个储能聚合商和同一地区的若干个电池储能,每个电池储能均与储能聚合商通信连接;
所述储能聚合商用于根据历史电价数据和电池储能参数制定电池储能的充放电策略,并将其发送至对应的电池储能;
所述电池储能根据接收到的充放电策略执行相应动作,实现分散式储能电力系统的运行优化。
3.根据权利要求1所述的基于强化学习的分散式储能电力系统的运行优化方法,其特征在于,所述步骤S2具体为:
S21、根据电池储能参数,建立分散式储能电力系统的应用模型和调用成本模型;
S22、根据历史电价数据制定强化学习状态-动作对奖惩表;
S23、根据应用模型、调用成本模型和奖惩表建立经验表,并对其初始化;
S24、通过强化学习方法对经验表进行迭代,确定随机起始状态到达目标状态的不同路径,直到经验表收敛,并将每个路径累积起来对应的奖赏值填入到经验表中,完成经验表的构建。
4.根据权利要求3所述的基于强化学习的分散式储能电力系统的运行优化方法,其特征在于,所述步骤S21中的应用模型包括电池储能的状态数和电池储能的状态;
其中,电池储能状态数Ni为:
式中,Ni为第i个电池储能的状态数;
Qrate为电池储能的额定容量;
ΔPset为电池储能的充放电功率最小变化步长;
电池储能的状态si,k为:
式中,si,k为第i个电池储能的第j个状态,且si,j∈S,0≤j≤Ni,S为DBESS i的状态集,N为第i个电池储能的状态数;
Qi为DBESS i的电荷量;
调用成本模型包括电池储能充电效率、电池储能放电效率、电池储能每小时充电损耗成本、电池储能老化成本、充电调用成本和放电调用成本;
其中,电池储能充电效率ηi,cha为:
ηi,cha=αi,cha-βi.chaPi,cha=0.95-0.015mi
式中,αi,cha和βi.cha均为电池储能的充电常数;
Pi,cha为电池储能的充电功率;
mi为第i电池储能的运行月数;
电池储能的放电效率ηi,dch为:
ηi,dch=αi,dch-βi,dchPi,dch
式中,αi,dch和βi,dch为电池储能的放电常数;
Pi,dch为电池储能的充电常数;
电池储能每小时充电损耗成本Ci,dch,loss为:
式中,ρ为实时动态电价;
电池储能老化成本Ci,k,ag为:
式中,dk,i为电池储能第k周期开始时的放电深度;
Pi,bat为电池储能内部充放电功率;
Ei为DBESS i的容量;
Kp为特征常数;
N100,i,fail为100%放电深度下的电池储能的最大循环次数;
Ci,ap为电池储能的购置成本;
电池储能的充电调用成本Ci,cha:
Ci,cha=Ci,cha,loss+Ci,cha,ag
式中,Ci,cha,loss为电池储能的充电损耗成本;
Ci,cha,ag为电池储能的充电老化成本;
电池储能的放电调用成本Ci,dch为:
Ci,dch=Ci,dch,loss+Ci,dch,ag
式中,Ci,dch为每个控制周期的第i个BESS调用成本;
Ci,dch,loss为电池储能的放电损耗成本;
Ci,dch,ag为电池储能的放电老化成本。
5.根据权利要求3所述的基于强化学习的分散式储能电力系统的运行优化方法,其特征在于,所述步骤S22中的奖惩表中的数据为电池储能的每个状态下所采取的充放电策略所带来的充放电奖赏;
其中,构建奖惩表的方法具体为:
A1、将电池储能的储能状态离散化,得到电池储能的m个荷电状态,根据设定的开环时域累积n,得到电池储能荷电状态与时间周期耦合的M=n×m个状态;
A2、根据电池储能的最大连续充放电功率约束,确定储能电池每个状态能够离散出的充放电动作数量J;
A3、构建M×J的奖惩矩阵;
A4、根据每个状态下的每个动作对应的充放电奖赏,填入到奖惩矩阵中,完成奖惩表的构建。
6.根据权利要求5所述的基于强化学习的分散式储能电力系统的运行优化方法,其特征在于,所述步骤A2中的电池储能的最大连续充放电功率约束为:
0≤PBESS≤Prated
式中,PBESS为当前分散式储能的有功功率;
Prated为DBESS最大可持续充放电有功功率;
所述步骤A4中充放电奖赏的计算公式为:
Ri,k=ai,kρk
式中,Ri,k为当前周期k中第i个电池储能的充放电奖赏;
ρk为当前周期k的电价;
ai,k为当前周期k中第i个电池储能的充放电策略。
7.根据权利要求5所述的基于强化学习的分散式储能电力系统的运行优化方法,其特征在于,所述步骤S24中对经验表进行迭代时的迭代优化目标函数为:
式中,Ji为该DBESS在给定的n个周期内的累积净现值;
Rπ(i,t)为第i个电池储能在实际间隔t内得到的收益;
n为开环时域累积。
8.根据权利要求3所述的基于强化学习的分散式储能电力系统的运行优化方法,其特征在于,所述步骤S24中填入经验表的奖赏值函数为:
Q(st,at)=Q(st,at)+α(rt+λmaxaQ(st+1,at)-Q(st,at))-Ci.dch
式中,Q(st,at)为当前状态-动作的值;
α为学习率;
rt为当前t周期的状态下,分散式储能选择相应动作带来的奖赏;
λ为折扣因子;
maxaQ(st+1,at)为下一个可能的状态-动作的值函数的最大值;
Ci.dch为每个控制周期的第i个BESS调用成本。
9.根据权利要求8所述的基于强化学习的分散式储能电力系统的运行优化方法,其特征在于,所述步骤S3中电池储能的最优充放电策略为:
将当前周期电价数据的输入到经验表中,将现有的经验表中该电池储能状态下最大奖赏值对应的动作作为该储能电池的最优充放电策略。
10.根据权利要求1所述的基于强化学习的分散式储能电力系统的运行优化方法,其特征在于,聚合商将当前周期的电价信息更新到强化学习算法的电价数据库中,计算下一周期的充放电策略集,并更新经验表,如此实现开环时域累积的迭代向前,实现分散式电力储能系统的运行优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910328144.2A CN110021947B (zh) | 2019-04-23 | 2019-04-23 | 一种基于强化学习的分散式储能电力系统的运行优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910328144.2A CN110021947B (zh) | 2019-04-23 | 2019-04-23 | 一种基于强化学习的分散式储能电力系统的运行优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110021947A true CN110021947A (zh) | 2019-07-16 |
CN110021947B CN110021947B (zh) | 2020-10-30 |
Family
ID=67192198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910328144.2A Expired - Fee Related CN110021947B (zh) | 2019-04-23 | 2019-04-23 | 一种基于强化学习的分散式储能电力系统的运行优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110021947B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112035949A (zh) * | 2020-08-14 | 2020-12-04 | 浙大宁波理工学院 | 一种结合q增强学习的实时模糊能源管理方法 |
CN112766680A (zh) * | 2021-01-08 | 2021-05-07 | 南京工程学院 | 虚拟电厂可控热负荷调度方法、系统、设备和电子介质 |
US11733680B2 (en) | 2020-03-23 | 2023-08-22 | Hamilton Sundstrand Corporation | Control of matrix converters using machine learning |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104022503A (zh) * | 2014-06-18 | 2014-09-03 | 中国科学院自动化研究所 | 一种带有储能设备的智能微电网电能优化控制方法 |
CN104253470A (zh) * | 2014-09-25 | 2014-12-31 | 许继电气股份有限公司 | 电动汽车与电网互动协调的有序充电控制方法 |
CN105046371A (zh) * | 2015-08-19 | 2015-11-11 | 东南大学 | 一种基于需求侧竞价的电动汽车充放电调度方法 |
CN106374516A (zh) * | 2016-09-23 | 2017-02-01 | 国网河南节能服务有限公司 | 一种广义聚合分布式储能系统的构建方法 |
US20170371306A1 (en) * | 2016-06-27 | 2017-12-28 | Ecole Polytechnique Federale De Lausanne (Epfl) | System and Method for Dispatching an Operation of a Distribution Feeder with Heterogeneous Prosumers |
CN108365632A (zh) * | 2018-04-08 | 2018-08-03 | 华中科技大学 | 一种基于储能电池的电力系统及运行方法 |
CN109193721A (zh) * | 2018-09-29 | 2019-01-11 | 华南理工大学 | 一种基于强化学习的电动汽车充放电策略优化方法 |
-
2019
- 2019-04-23 CN CN201910328144.2A patent/CN110021947B/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104022503A (zh) * | 2014-06-18 | 2014-09-03 | 中国科学院自动化研究所 | 一种带有储能设备的智能微电网电能优化控制方法 |
CN104253470A (zh) * | 2014-09-25 | 2014-12-31 | 许继电气股份有限公司 | 电动汽车与电网互动协调的有序充电控制方法 |
CN105046371A (zh) * | 2015-08-19 | 2015-11-11 | 东南大学 | 一种基于需求侧竞价的电动汽车充放电调度方法 |
US20170371306A1 (en) * | 2016-06-27 | 2017-12-28 | Ecole Polytechnique Federale De Lausanne (Epfl) | System and Method for Dispatching an Operation of a Distribution Feeder with Heterogeneous Prosumers |
CN106374516A (zh) * | 2016-09-23 | 2017-02-01 | 国网河南节能服务有限公司 | 一种广义聚合分布式储能系统的构建方法 |
CN108365632A (zh) * | 2018-04-08 | 2018-08-03 | 华中科技大学 | 一种基于储能电池的电力系统及运行方法 |
CN109193721A (zh) * | 2018-09-29 | 2019-01-11 | 华南理工大学 | 一种基于强化学习的电动汽车充放电策略优化方法 |
Non-Patent Citations (2)
Title |
---|
MATTHEW T. LAWDER ETAL.: "Battery Energy Storage System (BESS) and Battery Management System (BMS) for Grid-Scale Applications", 《PROCEEDINGS OF THE IEEE》 * |
朱泽锋 等: "主动配电网中电池储能系统最优充放电策略", 《电力系统自动化》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11733680B2 (en) | 2020-03-23 | 2023-08-22 | Hamilton Sundstrand Corporation | Control of matrix converters using machine learning |
CN112035949A (zh) * | 2020-08-14 | 2020-12-04 | 浙大宁波理工学院 | 一种结合q增强学习的实时模糊能源管理方法 |
CN112035949B (zh) * | 2020-08-14 | 2024-02-02 | 浙大宁波理工学院 | 一种结合q增强学习的实时模糊能源管理方法 |
CN112766680A (zh) * | 2021-01-08 | 2021-05-07 | 南京工程学院 | 虚拟电厂可控热负荷调度方法、系统、设备和电子介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110021947B (zh) | 2020-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109103912B (zh) | 考虑电网调峰需求的工业园区主动配电系统调度优化方法 | |
CN108667052B (zh) | 一种面向虚拟电厂优化运行的多类型储能系统规划配置方法及系统 | |
CN112117760A (zh) | 基于双q值网络深度强化学习的微电网能量调度方法 | |
CN110021947A (zh) | 一种基于强化学习的分散式储能电力系统的运行优化方法 | |
CN110516855B (zh) | 一种面向负荷聚合商的分布式储能控制权优化调度方法 | |
CN105846423A (zh) | 一种计及需求响应的光伏微电网储能多目标容量配置方法 | |
CN105046371A (zh) | 一种基于需求侧竞价的电动汽车充放电调度方法 | |
CN108092290B (zh) | 一种联合储能容量配置与优化运行的微网能量配置方法 | |
CN107769235B (zh) | 一种基于混合储能与电动汽车的微网能量管理方法 | |
CN107618392A (zh) | 充电桩自决策的电动汽车充电负荷随机接入控制系统及方法 | |
CN112800658A (zh) | 一种考虑源储荷互动的主动配电网调度方法 | |
CN113326994A (zh) | 一种考虑源荷储互动的虚拟电厂能量协同优化方法 | |
CN110912166B (zh) | 一种多用户共享储能模式的储能容量配置方法 | |
CN103729698A (zh) | 一种应对风电不确定性的需求响应调度方法 | |
CN114820046A (zh) | 一种区域电网混合储能辅助调频经济优化与补偿定价方法 | |
CN112434866A (zh) | 一种基于广义斯塔克尔伯格博弈的电动汽车充电管理方法 | |
CN110880776B (zh) | 控制储能系统中储能设备充放电的方法和装置 | |
CN116799828A (zh) | 一种面向柔性互联配电网的储能多时间尺度容量配置方法 | |
CN116402307A (zh) | 考虑可调度柔性资源运行特性的电网规划容量分析方法 | |
CN115473285A (zh) | 基于合作博弈论的多类型储能系统最优容量配置方法 | |
CN108808655A (zh) | 一种用于对电动汽车参与微网调频的经济性评估方法及系统 | |
CN111106612B (zh) | 储能式充电桩参与电网需求侧响应联合运行优化模型与求解算法 | |
CN114285075A (zh) | 一种基于分布式深度强化学习的微电网能量在线优化方法 | |
CN114123256A (zh) | 一种适应随机优化决策的分布式储能配置方法及系统 | |
CN113972645A (zh) | 基于多智能体深度确定策略梯度算法的配电网优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201030 Termination date: 20210423 |
|
CF01 | Termination of patent right due to non-payment of annual fee |