CN110021947B - 一种基于强化学习的分散式储能电力系统的运行优化方法 - Google Patents

一种基于强化学习的分散式储能电力系统的运行优化方法 Download PDF

Info

Publication number
CN110021947B
CN110021947B CN201910328144.2A CN201910328144A CN110021947B CN 110021947 B CN110021947 B CN 110021947B CN 201910328144 A CN201910328144 A CN 201910328144A CN 110021947 B CN110021947 B CN 110021947B
Authority
CN
China
Prior art keywords
energy storage
battery
charge
discharge
dch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910328144.2A
Other languages
English (en)
Other versions
CN110021947A (zh
Inventor
刘友波
邵明明
刘俊勇
向月
高红均
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201910328144.2A priority Critical patent/CN110021947B/zh
Publication of CN110021947A publication Critical patent/CN110021947A/zh
Application granted granted Critical
Publication of CN110021947B publication Critical patent/CN110021947B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J3/00Circuit arrangements for ac mains or ac distribution networks
    • H02J3/28Arrangements for balancing of the load in a network by storage of energy
    • H02J3/32Arrangements for balancing of the load in a network by storage of energy using batteries with converting means
    • HELECTRICITY
    • H02GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
    • H02JCIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
    • H02J2203/00Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
    • H02J2203/20Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • Water Supply & Treatment (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Power Engineering (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Charge And Discharge Circuits For Batteries Or The Like (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明公开了一种基于强化学习的分散式储能电力系统的运行优化方法,通过储能聚合商将有意愿且有能力进行低储高发的DBESS进行集中控制,结合该地区大量的历史电价数据,以及储能约束条件,运用自趋优Q‑learning算法得出分散式储能的充放电策略,并通过互联网周期性地将策略信息送至每一个分散式储能(DBESS),DBESS接受到控制指令后,其功率控制系统通过双向DC‑DC变换器调节控制周期内充放电功率,实现低储高发;对推动微网社区内的分散式储能自主运行具有重要意义。

Description

一种基于强化学习的分散式储能电力系统的运行优化方法
技术领域
本发明属于信息技术在电力系统优化应用技术领域,具体涉及一种基于强化学习的分散式储能系统的运行优化方法。
背景技术
近年来储能行业展现日新月异的发展,包括特斯拉和比亚迪公司在内的世界许多企业都推出了家用储能产品,随着储能成本下降,这些分散式储能(DecentralizedBattery Energy Storage System)正越来越多地接入到楼宇及园区微网中。仅德国目前就有10万个分散式储能投入使用,并计划未来两年内增长到20万。将来大量的分散式储能存在于智能电网中,对电网的集中式发电和供电模式造成冲击,使得去中心化的分散式储能运行方式研究愈发重要,储能聚合商也渐渐成为DBESS参与电力市场的重要应用场景。
储能可被分成两类:能量型,例如飞轮储能,超级电容器等,多用于平滑分步式电源(Distributed Generation)功率波动;功率型,例如现今各种材质的电池储能系统(BESS),多用于微网削峰填谷以及自动发电。而考虑当今用户侧储能发展状况,本文所论皆是功率型储能即DBESS,如磷酸铁锂电池、钛酸铁锂电池。
然而,目前关于DBESS的应用大多集中在用其提高DG利用效率和微网运行经济性,都只是通过中心化的建模方式将DBESS作为需求侧响应以赚取需求响应服务费,而其作为分散式的家用电器设备,参与电力市场时追求自身利益最大化的特性没有得到体现。而且中心化的建模方式往往需要精确建模,要求目标函数具有很好的非凸性或必须假设出模型概率分布,但其假设的概率分布实际中却往往并不完全符合。而且传统中心化建模方式对微网信息和负荷信息要求较精细全面,但追求精确的最优往往需要耗费巨大的设备成本以及计算成本;模型的精确复杂化,还将导致求解难度大幅增大。故在未来能源系统日益去中心化的趋势下,传统中心化精确建模方式不能得到很好的应用。
发明内容
针对现有技术中的上述不足,本发明提供的基于强化学习的分散式储能电力系统的运行优化方法解决了上述背景技术中的问题。
为了达到上述发明目的,本发明采用的技术方案为:一种基于强化学习的分散式储能电力系统的运行优化方法,包括以下步骤:
S1、构建包括电池储能及储能聚合商的分散式储能电力系统;
S2、根据历史电价数据和电池储能参数,构建基于强化学习方法制定的经验表;
S3、将当前周期的电价信息输入到经验表中,结合当前电池储能状态,确定该电池储能的最优充放电策略;
S4、根据当前周期的最优充放电策略,电池储能进行相应动作,并将其动作完成信息、储能状态及当前周期的电价信息返回至储能聚合商,用于更新下一周期的经验表,实现分散式储能电力系统的运行优化。
进一步地,所述步骤S1的分散式储能电力系统包括一个储能聚合商和同一地区的若干个电池储能,每个电池储能均与储能聚合商通信连接;
所述储能聚合商用于根据历史电价数据和电池储能参数制定电池储能的充放电策略,并将其发送至对应的电池储能;
所述电池储能根据接收到的充放电策略执行相应动作,实现分散式储能电力系统的运行优化。
进一步地,所述步骤S2具体为:
S21、根据电池储能参数,建立分散式储能电力系统的应用模型和调用成本模型;
S22、根据历史电价数据制定强化学习状态-动作对奖惩表;
S23、根据应用模型、调用成本模型和奖惩表建立经验表,并对其初始化;
S24、通过强化学习方法对经验表进行迭代,确定随机起始状态到达目标状态的不同路径,直到经验表收敛,并将每个路径累积起来对应的奖赏值填入到经验表中,完成经验表的构建。
进一步地,所述步骤S21中的应用模型包括电池储能的状态数和电池储能的状态;
其中,电池储能状态数Ni为:
Figure BDA0002036854080000031
式中,Ni为第i个电池储能的状态数;
Qrate为电池储能的额定容量;
ΔPset为电池储能的充放电功率最小变化步长;
电池储能的状态si,k为:
Figure BDA0002036854080000032
式中,si,k为第i个电池储能的第j个状态,且si,j∈S,0≤j≤Ni,S为DBESS i的状态集,N为第i个电池储能的状态数;
Qi为DBESS i的电荷量;
调用成本模型包括电池储能充电效率、电池储能放电效率、电池储能每小时充电损耗成本、电池储能老化成本、充电调用成本和放电调用成本;
其中,电池储能充电效率ηi,cha为:
ηi,cha=αi,chai.chaPi,cha=0.95-0.015mi式中,αi,cha和βi.cha均为电池储能的充电常数;
Pi,cha为电池储能的充电功率;
mi为第i电池储能的运行月数;
电池储能的放电效率ηi,dch为:
ηi,dch=αi,dchi,dchPi,dch
式中,αi,dch和βi,dch为电池储能的放电常数;
Pi,dch为电池储能的充电常数;
电池储能每小时充电损耗成本Ci,dch,loss为:
Figure BDA0002036854080000041
式中,ρ为实时动态电价;
电池储能老化成本Ci,k,ag为:
Figure BDA0002036854080000042
式中,dk,i为电池储能第k周期开始时的放电深度;
Pi,bat为电池储能内部充放电功率;
Ei为DBESS i的容量;
Kp为特征常数;
N100,i,fail为100%放电深度下的电池储能的最大循环次数;
Ci,ap为电池储能的购置成本;
电池储能的充电调用成本Ci,cha
Ci,cha=Ci,cha,loss+Ci,cha,ag
式中,Ci,cha,loss为电池储能的充电损耗成本;
Ci,cha,ag为电池储能的充电老化成本;
电池储能的放电调用成本Ci,dch为:
Ci,dch=Ci,dch,loss+Ci,dch,ag
式中,Ci,dch为每个控制周期的第i个BESS调用成本;
Ci,dch,loss为电池储能的放电损耗成本;
Ci,dch,ag为电池储能的放电老化成本。
进一步地,所述步骤S22中的奖惩表中的数据为电池储能的每个状态下所采取的充放电策略所带来的充放电奖赏;
其中,构建奖惩表的方法具体为:
A1、将电池储能的储能状态离散化,得到电池储能的m个荷电状态,根据设定的开环时域累积n,得到电池储能荷电状态与时间周期耦合的M=n×m个状态;
A2、根据电池储能的最大连续充放电功率约束,确定储能电池每个状态能够离散出的充放电动作数量J;
A3、构建M×J的奖惩矩阵;
A4、根据每个状态下的每个动作对应的充放电奖赏,填入到奖惩矩阵中,完成奖惩表的构建。
进一步地,所述步骤A2中的电池储能的最大连续充放电功率约束为:
0≤PBESS≤Prated
式中,PBESS为当前分散式储能的有功功率;
Prated为DBESS最大可持续充放电有功功率;
所述步骤A4中充放电奖赏的计算公式为:
Ri,k=ai,kρk
式中,Ri,k为当前周期k中第i个电池储能的充放电奖赏;
ρk为当前周期k的电价;
ai,k为当前周期k中第i个电池储能的充放电策略。
进一步地,所述步骤S24中对经验表进行迭代时的迭代优化目标函数为:
Figure BDA0002036854080000061
式中,Ji为该DBESS在给定的n个周期内的累积净现值;
Rπ(i,t)为第i个电池储能在实际间隔t内得到的收益;
n为开环时域累积。
进一步地,所述步骤S24中填入经验表的奖赏值函数为:
Q(st,at)=Q(st,at)+α(rt+λmaxaQ(st+1,at)-Q(st,at))-Ci.dch
式中,Q(st,at)为当前状态-动作的值;
α为学习率;
rt为当前t周期的状态下,分散式储能选择相应动作带来的奖赏;
λ为折扣因子;
maxaQ(st+1,at)为下一个可能的状态-动作的值函数的最大值;
Ci.dch为每个控制周期的第i个BESS调用成本。
进一步地,所述步骤S3中电池储能的最优充放电策略为:
将当前周期电价数据的输入到经验表中,将现有的经验表中该电池储能状态下最大奖赏值对应的动作作为该储能电池的最优充放电策略。
进一步地,聚合商将当前周期的电价信息更新到强化学习算法的电价数据库中,计算下一周期的充放电策略集,并更新经验表,如此实现开环时域累积的迭代向前,实现分散式电力储能系统的运行优化。
本发明的有益效果为:
(1)本发明通过去中心化的分散式储能及其聚合商建模,采用强化学习求解可以避免传统中心化模型因微网信息不确定性而难以精确建模的负载问题;
(2)本发明中的经验表已知参数只有电池储能参数数据和电价历史数据,强化学习算法可以在非物理精确建模情况下迅速求出最优解;另外,多分散式储能电力系统中需要加入新的电池储能,只需要在自趋优强化学习算法中输入该电池储能的参数,强化学习算法会根据应用模型自动计算其罚函数以及单词调用成本,扩展性好;
(3)本发明通过结合模型预测控制思想,强化算法中不断迭代进最新电价信息,实时更新经验表中的充放电策略;
(4)本发明因强化学习算法提前将经验表学习好,具有收敛性强、响应速度快和适应性高等特点。
附图说明
图1为本发明提供的基于强化学习的分散式储能电力系统的运行优化方法流程图。
图2为本发明中电池储能的模型图。
图3为本发明中分散式储能电力系统结构图。
图4为本发明中分散式储能电力系统自趋优运行过程示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,一种基于强化学习的分散式储能电力系统的运行优化方法,其特征在于,包括以下步骤:
S1、构建包括电池储能及储能聚合商的分散式储能电力系统;
S2、根据历史电价数据和电池储能参数,构建基于强化学习方法制定的经验表;
S3、将当前周期的电价信息输入到经验表中,结合当前电池储能状态,确定该电池储能的最优充放电策略;
S4、根据当前周期的最优充放电策略,电池储能进行相应动作,并将其动作完成信息、储能状态及当前周期的电价信息返回至储能聚合商,用于更新下一周期的经验表,实现分散式储能电力系统的运行优化。
其中,聚合商将当前周期的电价信息更新到强化学习算法的电价数据库中,计算下一周期的充放电策略集,并更新经验表,如此实现开环时域累积的迭代向前,实现分散式电力储能系统的运行优化。
上述步骤S1的分散式储能电力系统包括一个储能聚合商和同一地区的若干个电池储能,每个电池储能均与储能聚合商通信连接;
所述储能聚合商用于根据历史电价数据和电池储能参数制定电池储能的充放电策略,并将其发送至对应的电池储能;
所述电池储能根据接收到的充放电策略执行相应动作,实现分散式储能电力系统的运行优化。
本发明通过构建的储能电力系统提供了分散式储能的另一种运行方式,通过储能聚合商将DBESS集中控制,根据售电公司电价的日波动性,以DBESS的日历寿命周期净现值最大化为目标,运用强化学习中应用最广泛的Q-learning算法,在微网和负荷信息未知,即非物理精确建模时,储能聚合商基于分散式储能系统自身状态(荷电状态、容量配置、充放电功率等)以及未来开环滚动时域电价信息,制定各分散式储能最优充放电策略,在每个时域周期内自动趋向于盈利性低储高发。
上述步骤S2具体为:
S21、根据电池储能参数,建立分散式储能电力系统的应用模型和调用成本模型;
S22、根据历史电价数据制定强化学习状态-动作对奖惩表;
S23、根据应用模型、调用成本模型和奖惩表建立经验表,并对其初始化;
S24、通过强化学习方法对经验表进行迭代,确定随机起始状态到达目标状态的不同路径,直到经验表收敛,并将每个路径累积起来对应的奖赏值填入到经验表中,完成经验表的构建。
在上述步骤S21中考虑电池储能的材料、老化、容量、充放电效率和荷电状态等因素,建立分散式储能电力系统的应用模型和调用成本模型;
该应用模型包括电池储能的状态数和电池储能的状态;
其中,电池储能状态数Ni为:
Figure BDA0002036854080000091
式中,Ni为第i个电池储能的状态数;
Qrate为电池储能的额定容量;
ΔPset为电池储能的充放电功率最小变化步长;
电池储能的状态si,k为:
Figure BDA0002036854080000092
式中,si,k为第i个电池储能的第j个状态,S为DBESS i的状态集,N为第i个电池储能的状态数;
Qi为DBESS i的电荷量;
调用成本模型包括电池储能充电效率、电池储能放电效率、电池储能每小时充电损耗成本、电池储能老化成本、充电调用成本和放电调用成本;
其中,电池储能充电效率ηi,cha为:
ηi,cha=αi,chai.chaPi,cha=0.95-0.015mi
式中,αi,cha和βi.cha均为电池储能的充电常数;
Pi,cha为电池储能的充电功率;
mi为第i电池储能的运行月数;
电池储能的放电效率ηi,dch为:
ηi,dch=αi,dchi,dchPi,dch
式中,αi,dch和βi,dch为电池储能的放电常数;
Pi,dch为电池储能的充电常数;
电池储能每小时充电损耗成本Ci,dch,loss为:
Figure BDA0002036854080000101
式中,ρ为实时动态电价;
电池储能老化成本Ci,k,ag为:
Figure BDA0002036854080000102
式中,dk,i为电池储能第k周期开始时的放电深度;
Pi,bat为电池储能内部充放电功率;
Ei为DBESS i的容量;
Kp为特征常数;
N100,i,fail为100%放电深度下的电池储能的最大循环次数;
Ci,ap为电池储能的购置成本;
电池储能的充电调用成本Ci,cha
Ci,cha=Ci,cha,loss+Ci,cha,ag
式中,Ci,cha,loss为电池储能的充电损耗成本;
Ci,cha,ag为电池储能的充电老化成本;
电池储能的放电调用成本Ci,dch为:
Ci,dch=Ci,dch,loss+Ci,dch,ag
式中,Ci,dch为每个控制周期的第i个BESS调用成本;
Ci,dch,loss为电池储能的放电损耗成本;
Ci,dch,ag为电池储能的放电老化成本。
上述步骤S22中的奖惩表中的数据为电池储能的每个状态下所采取的充放电策略所带来的充放电奖赏;
其中,构建奖惩表的方法具体为:
A1、将电池储能的储能状态离散化,得到电池储能的m个荷电状态,根据设定的开环时域累积n,得到电池储能荷电状态与时间周期耦合的M=n×m个状态;
例如,电池储能有13个荷电状态,设定的开环时域累积为24小时,则13个荷电状态与24小时耦合出312个状态,描述了电池储能在一天可能的状态;
A2、根据电池储能的最大连续充放电功率约束,确定储能电池每个状态能够离散出的充放电动作数量J;
上述步骤A2中的电池储能的最大连续充放电功率约束为:
0≤PBESS≤Prated
式中,PBESS为当前分散式储能的有功功率;
Prated为DBESS最大可持续充放电有功功率;
考虑SOC以及充放电功率约束,DBESS充放电模型如图2所示,Prated是DBESS最大可持续充放电有功功率,PBESS是当前DBESS有功功率,Ssoc,max和Ssoc,min是DBESS的SOC(荷电状态)的最大值和最小值。
例如,根据储能的最大连续充放电功率约束(如40kW),假设储能变流器最小控制充放电功率变化为10kW,则储能的每个状态可以离散出9个充放电动作(除却容量约束不能选择的动作),这样构建出312*9的奖惩矩阵;
A3、构建M×J的奖惩矩阵;
A4、根据每个状态下的每个动作对应的充放电奖赏,填入到奖惩矩阵中,完成奖惩表的构建;
上述步骤A4中充放电奖赏的计算公式为:
Ri,k=ai,kρk
式中,Ri,k为当前周期k中第i个电池储能的充放电奖赏;
ρk为当前周期k的电价;
ai,k为当前周期k中第i个电池储能的充放电策略。
上述步骤S24中对经验表进行迭代时的迭代优化目标函数为:
Figure BDA0002036854080000121
式中,Ji为该DBESS在给定的n个周期内的累积净现值;
Rπ(i,t)为第i个电池储能在实际间隔t内得到的收益;(电池储能根据自身状态和设定自主选择采用储能聚合商提供的充放电策略或者不采用);
n为开环时域累积。
上述步骤S24中填入经验表的奖赏值函数为:
Q(st,at)=Q(st,at)+α(rt+λmaxaQ(st+1,at)-Q(st,at))-Ci.dch
式中,Q(st,at)为当前状态-动作的值;
α为学习率;
rt为当前t周期的状态下,分散式储能选择相应动作带来的奖赏;
λ为折扣因子;
maxaQ(st+1,at)为下一个可能的状态-动作的值函数的最大值;
Ci.dch为每个控制周期的第i个BESS调用成本。
该值函数用来从长远角度评价一个状态(或状态-动作对)的好坏。
上述步骤S3中电池储能的最优充放电策略为:
将当前周期电价数据的输入到经验表中,将现有的经验表中该电池储能状态下最大奖赏值对应的动作作为该储能电池的最优充放电策略。
如图3所示,显示了本发明中的包括电池储能及储能聚合商的系统的结构图;本发明考虑售电公司或者市场操作员根据当地的电价结构和电力的供求情况计算并发布实时动态电价ρ;假定该地区每家每户都有电池储能系统,储能聚合商通过一定商业模式将有意愿且有能力进行低储高发的DBESS进行集中控制,结合该地区大量的历史电价数据,以及储能约束条件,运用自趋优Q-learning算法得出分散式储能的充放电策略,并通过互联网周期性地将策略信息送至每一个分散式储能(DBESS),DBESS接受到控制指令后,其功率控制系统通过双向DC-DC变换器调节控制周期内充放电功率,实现低储高发。所谓低储高发,即储能聚合商在低电价时控制储能电池充电,在高电价时控制储能电池放电。对推动微网社区内的分散式储能自主运行具有重要意义。
如图4所示,在具体工作时,首先,在t时开始时,市场操作员公布本周期的电价ρt,该电价事先未知;然后,储能聚合商在极快的时间(即使考虑延迟也不超过10s)内根据强化学习对本地区t时之前电价的学习经验(经验表),结合本时段电价以及分散式储能的模型参数计算出DBESS i的充放电策略π(i,t);分散式储能自主选择是否按照获得的策略π(i,t)进行动作,并反馈动作完成信息以及储能状态信息Si,j给储能聚合商;最后聚合商将新时刻的电价更新到强化学习算法电价数据库中,计算下一周期策略集πi;下周期同上;进而实现分散式储能电力系统的运行优化。
本发明的有益效果为:
(1)本发明通过去中心化的分散式储能及其聚合商建模,采用强化学习求解可以避免传统中心化模型因微网信息不确定性而难以精确建模的复杂问题;
(2)本发明中的经验表已知参数只有电池储能参数数据和电价历史数据,强化学习算法可以在非物理精确建模情况下迅速求出最优解;另外,多分散式储能电力系统中需要加入新的电池储能,只需要在自趋优强化学习算法中输入该电池储能的参数,强化学习算法会根据应用模型自动计算其罚函数以及单词调用成本,扩展性好;
(3)本发明通过结合模型预测控制思想,强化算法中不断迭代进最新电价信息,实时更新经验表中的充放电策略;
(4)本发明因强化学习算法提前将经验表学习好,具有收敛性强、响应速度快和适应性高等特点。

Claims (7)

1.一种基于强化学习的分散式储能电力系统的运行优化方法,其特征在于,包括以下步骤:
S1、构建包括电池储能及储能聚合商的分散式储能电力系统;
S2、根据历史电价数据和电池储能参数,构建基于强化学习方法制定的经验表;
S3、将当前周期的电价信息输入到经验表中,结合当前电池储能状态,确定该电池储能的最优充放电策略;
S4、根据当前周期的最优充放电策略,电池储能进行相应动作,并将其动作完成信息、储能状态及当前周期的电价信息返回至储能聚合商,用于更新下一周期的经验表,实现分散式储能电力系统的运行优化;
所述步骤S1的分散式储能电力系统包括一个储能聚合商和同一地区的若干个电池储能,每个电池储能均与储能聚合商通信连接;
所述储能聚合商用于根据历史电价数据和电池储能参数制定电池储能的充放电策略,并将其发送至对应的电池储能;
所述电池储能根据接收到的充放电策略执行相应动作,实现分散式储能电力系统的运行优化;
所述步骤S2具体为:
S21、根据电池储能参数,建立分散式储能电力系统的应用模型和调用成本模型;
S22、根据历史电价数据制定强化学习状态-动作对奖惩表;
S23、根据应用模型、调用成本模型和奖惩表建立经验表,并对其初始化;
S24、通过强化学习方法对经验表进行迭代,确定随机起始状态到达目标状态的不同路径,直到经验表收敛,并将每个路径累积起来对应的奖赏值填入到经验表中,完成经验表的构建;
所述步骤S21中的应用模型包括电池储能的状态数和电池储能的状态;
其中,电池储能状态数Ni为:
Figure FDA0002608696270000021
式中,Ni为第i个电池储能的状态数;
Qrate为电池储能的额定容量;
ΔPset为电池储能的充放电功率最小变化步长;
电池储能的状态si,j为:
Figure FDA0002608696270000022
式中,si,j为第i个电池储能的第j个状态,且si,j∈S,0≤j≤Ni,S为DBESS i的状态集,Ni为第i个电池储能的状态数;
Qi为DBESS i的电荷量;
调用成本模型包括电池储能充电效率、电池储能放电效率、电池储能每小时充电损耗成本、电池储能老化成本、充电调用成本和放电调用成本;
其中,电池储能充电效率ηi,cha为:
ηi,cha=αi,chai.chaPi,cha=0.95-0.015mi
式中,αi,cha和βi.cha均为电池储能的充电常数;
Pi,cha为电池储能的充电功率;
mi为第i电池储能的运行月数;
电池储能的放电效率ηi,dch为:
ηi,dch=αi,dchi,dchPi,dch
式中,αi,dch和βi,dch为电池储能的放电常数;
Pi,dch为电池储能的放电功率;
电池储能每小时充电损耗成本Ci,dch,loss为:
Figure FDA0002608696270000031
式中,ρ为实时动态电价;
电池储能老化成本Ci,k,ag为:
Figure FDA0002608696270000032
式中,dk,i为电池储能第k周期开始时的放电深度;
Pi,bat为电池储能内部充放电功率;
Ei为DBESSi的容量;
Kp为特征常数;
N100,i,fail为100%放电深度下的电池储能的最大循环次数;
Ci,ap为电池储能的购置成本;
电池储能的充电调用成本Ci,cha
Ci,cha=Ci,cha,loss+Ci,cha,ag
式中,Ci,cha,loss为电池储能的充电损耗成本;
Ci,cha,ag为电池储能的充电老化成本;
电池储能的放电调用成本Ci,dch为:
Ci,dch=Ci,dch,loss+Ci,dch,ag
式中,Ci,dch为每个控制周期的第i个BESS调用成本;
Ci,dch,loss为电池储能的放电损耗成本;
Ci,dch,ag为电池储能的放电老化成本。
2.根据权利要求1所述的基于强化学习的分散式储能电力系统的运行优化方法,其特征在于,所述步骤S22中的奖惩表中的数据为电池储能的每个状态下所采取的充放电策略所带来的充放电奖赏;
其中,构建奖惩表的方法具体为:
A1、将电池储能的储能状态离散化,得到电池储能的m个荷电状态,根据设定的开环时域累积n,得到电池储能荷电状态与时间周期耦合的M=n×m个状态;
A2、根据电池储能的最大连续充放电功率约束,确定储能电池每个状态能够离散出的充放电动作数量J;
A3、构建M×J的奖惩矩阵;
A4、根据每个状态下的每个动作对应的充放电奖赏,填入到奖惩矩阵中,完成奖惩表的构建。
3.根据权利要求2所述的基于强化学习的分散式储能电力系统的运行优化方法,其特征在于,所述步骤A2中的电池储能的最大连续充放电功率约束为:
0≤PBESS≤Prated
式中,PBESS为当前分散式储能的有功功率;
Prated为DBESS最大可持续充放电有功功率;
所述步骤A4中充放电奖赏的计算公式为:
Ri,k=ai,kρk
式中,Ri,k为当前周期k中第i个电池储能的充放电奖赏;
ρk为当前周期k的电价;
ai,k为当前周期k中第i个电池储能的充放电策略。
4.根据权利要求2所述的基于强化学习的分散式储能电力系统的运行优化方法,其特征在于,所述步骤S24中对经验表进行迭代时的迭代优化目标函数为:
Figure FDA0002608696270000051
式中,Ji为该DBESS在给定的n个周期内的累积净现值;
Rπ(i,t)为第i个电池储能在实际间隔t内得到的收益;
n为开环时域累积。
5.根据权利要求1所述的基于强化学习的分散式储能电力系统的运行优化方法,其特征在于,所述步骤S24中填入经验表的奖赏值函数为:
Q(st,at)=Q(st,at)+α(rt+λmaxaQ(st+1,at)-Q(st,at))-Ci,dch
式中,Q(st,at)为当前状态-动作的值;
α为学习率;
rt为当前t周期的状态下,分散式储能选择相应动作带来的奖赏;
λ为折扣因子;
maxaQ(st+1,at)为下一个可能的状态-动作的值函数的最大值;
Ci,dch为每个控制周期的第i个BESS调用成本。
6.根据权利要求5所述的基于强化学习的分散式储能电力系统的运行优化方法,其特征在于,所述步骤S3中电池储能的最优充放电策略为:
将当前周期电价数据的输入到经验表中,将现有的经验表中该电池储能状态下最大奖赏值对应的动作作为该储能电池的最优充放电策略。
7.根据权利要求1所述的基于强化学习的分散式储能电力系统的运行优化方法,其特征在于,聚合商将当前周期的电价信息更新到强化学习算法的电价数据库中,计算下一周期的充放电策略集,并更新经验表,如此实现开环时域累积的迭代向前,实现分散式电力储能系统的运行优化。
CN201910328144.2A 2019-04-23 2019-04-23 一种基于强化学习的分散式储能电力系统的运行优化方法 Expired - Fee Related CN110021947B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910328144.2A CN110021947B (zh) 2019-04-23 2019-04-23 一种基于强化学习的分散式储能电力系统的运行优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910328144.2A CN110021947B (zh) 2019-04-23 2019-04-23 一种基于强化学习的分散式储能电力系统的运行优化方法

Publications (2)

Publication Number Publication Date
CN110021947A CN110021947A (zh) 2019-07-16
CN110021947B true CN110021947B (zh) 2020-10-30

Family

ID=67192198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910328144.2A Expired - Fee Related CN110021947B (zh) 2019-04-23 2019-04-23 一种基于强化学习的分散式储能电力系统的运行优化方法

Country Status (1)

Country Link
CN (1) CN110021947B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11733680B2 (en) 2020-03-23 2023-08-22 Hamilton Sundstrand Corporation Control of matrix converters using machine learning
CN112035949B (zh) * 2020-08-14 2024-02-02 浙大宁波理工学院 一种结合q增强学习的实时模糊能源管理方法
CN112766680B (zh) * 2021-01-08 2024-02-09 南京工程学院 虚拟电厂可控热负荷调度方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104022503B (zh) * 2014-06-18 2017-01-04 中国科学院自动化研究所 一种带有储能设备的智能微电网电能优化控制方法
CN104253470B (zh) * 2014-09-25 2017-05-03 许继电气股份有限公司 电动汽车与电网互动协调的有序充电控制方法
CN105046371A (zh) * 2015-08-19 2015-11-11 东南大学 一种基于需求侧竞价的电动汽车充放电调度方法
US20170371306A1 (en) * 2016-06-27 2017-12-28 Ecole Polytechnique Federale De Lausanne (Epfl) System and Method for Dispatching an Operation of a Distribution Feeder with Heterogeneous Prosumers
CN106374516B (zh) * 2016-09-23 2019-02-19 国网河南节能服务有限公司 一种广义聚合分布式储能系统的构建方法
CN108365632A (zh) * 2018-04-08 2018-08-03 华中科技大学 一种基于储能电池的电力系统及运行方法
CN109193721B (zh) * 2018-09-29 2020-09-22 华南理工大学 一种基于强化学习的电动汽车充放电策略优化方法

Also Published As

Publication number Publication date
CN110021947A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN110311421B (zh) 基于需求侧响应的微电网多时间尺度能量管理方法
CN110021947B (zh) 一种基于强化学习的分散式储能电力系统的运行优化方法
CN109103912A (zh) 考虑电网调峰需求的工业园区主动配电系统调度优化方法
CN107248751A (zh) 一种实现配电网负荷功率削峰填谷的储能站调度控制方法
CN103187806B (zh) 用于调频的电池储能电站功率控制方法及其系统
CN110717259A (zh) 面向用户侧的电池储能配置与运行优化方法
CN113783193B (zh) 一种基于边端协同的乡村供用能系统优化调控方法及系统
CN112800658A (zh) 一种考虑源储荷互动的主动配电网调度方法
CN114425964B (zh) 一种自主参与需求响应的电动汽车充电桩控制器及方法
CN113326994A (zh) 一种考虑源荷储互动的虚拟电厂能量协同优化方法
CN110880776B (zh) 控制储能系统中储能设备充放电的方法和装置
CN111224393A (zh) 智能家居电能调度优化方法、装置及存储介质
CN108808655A (zh) 一种用于对电动汽车参与微网调频的经济性评估方法及系统
CN116799828A (zh) 一种面向柔性互联配电网的储能多时间尺度容量配置方法
CN103679292B (zh) 一种智能微电网双电池电能协同优化方法
CN116091092A (zh) 一种基于弹性能量状态的电网储能运行方法
Chandio et al. Gridpeaks: Employing distributed energy storage for grid peak reduction
CN116191505A (zh) 一种低压台区源荷储充全局动态互动的调节方法及装置
CN109560576A (zh) 一种分散式储能参与大规模风电消纳的日内-实时调控方法
CN114418453A (zh) 一种基于电力市场的微电网多时间尺度能量管理系统
CN114498769A (zh) 一种高比例风光孤岛微电网群能量调度方法及系统
CN112836287A (zh) 一种基于神经网络的电动汽车资源灵活性预测方法
Song et al. Energy management optimization strategy for industrial enterprises based on demand response
Kilkki et al. Optimization of decentralized energy storage flexibility for frequency reserves
CN109995062A (zh) 一种微网储能设备投资配比优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201030

Termination date: 20210423

CF01 Termination of patent right due to non-payment of annual fee