CN110021947A

CN110021947A - 一种基于强化学习的分散式储能电力系统的运行优化方法

Info

Publication number: CN110021947A
Application number: CN201910328144.2A
Authority: CN
Inventors: 刘友波; 邵明明; 刘俊勇; 向月; 高红均
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2019-07-16
Anticipated expiration: 2039-04-23
Also published as: CN110021947B

Abstract

本发明公开了一种基于强化学习的分散式储能电力系统的运行优化方法，通过储能聚合商将有意愿且有能力进行低储高发的DBESS进行集中控制，结合该地区大量的历史电价数据，以及储能约束条件，运用自趋优Q‑learning算法得出分散式储能的充放电策略，并通过互联网周期性地将策略信息送至每一个分散式储能(DBESS)，DBESS接受到控制指令后，其功率控制系统通过双向DC‑DC变换器调节控制周期内充放电功率，实现低储高发；对推动微网社区内的分散式储能自主运行具有重要意义。

Description

一种基于强化学习的分散式储能电力系统的运行优化方法

技术领域

本发明属于信息技术在电力系统优化应用技术领域，具体涉及一种基于强化学习的分散式储能系统的运行优化方法。

背景技术

近年来储能行业展现日新月异的发展，包括特斯拉和比亚迪公司在内的世界许多企业都推出了家用储能产品，随着储能成本下降，这些分散式储能(DecentralizedBattery Energy Storage System)正越来越多地接入到楼宇及园区微网中。仅德国目前就有10万个分散式储能投入使用，并计划未来两年内增长到20万。将来大量的分散式储能存在于智能电网中，对电网的集中式发电和供电模式造成冲击，使得去中心化的分散式储能运行方式研究愈发重要，储能聚合商也渐渐成为DBESS参与电力市场的重要应用场景。

储能可被分成两类：能量型，例如飞轮储能，超级电容器等，多用于平滑分步式电源(Distributed Generation)功率波动；功率型，例如现今各种材质的电池储能系统(BESS)，多用于微网削峰填谷以及自动发电。而考虑当今用户侧储能发展状况，本文所论皆是功率型储能即DBESS，如磷酸铁锂电池、钛酸铁锂电池。

然而，目前关于DBESS的应用大多集中在用其提高DG利用效率和微网运行经济性，都只是通过中心化的建模方式将DBESS作为需求侧响应以赚取需求响应服务费，而其作为分散式的家用电器设备，参与电力市场时追求自身利益最大化的特性没有得到体现。而且中心化的建模方式往往需要精确建模，要求目标函数具有很好的非凸性或必须假设出模型概率分布，但其假设的概率分布实际中却往往并不完全符合。而且传统中心化建模方式对微网信息和负荷信息要求较精细全面，但追求精确的最优往往需要耗费巨大的设备成本以及计算成本；模型的精确复杂化，还将导致求解难度大幅增大。故在未来能源系统日益去中心化的趋势下，传统中心化精确建模方式不能得到很好的应用。

发明内容

针对现有技术中的上述不足，本发明提供的基于强化学习的分散式储能电力系统的运行优化方法解决了上述背景技术中的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于强化学习的分散式储能电力系统的运行优化方法，包括以下步骤：

S1、构建包括电池储能及储能聚合商的分散式储能电力系统；

S2、根据历史电价数据和电池储能参数，构建基于强化学习方法制定的经验表；

S3、将当前周期的电价信息输入到经验表中，结合当前电池储能状态，确定该电池储能的最优充放电策略；

S4、根据当前周期的最优充放电策略，电池储能进行相应动作，并将其动作完成信息、储能状态及当前周期的电价信息返回至储能聚合商，用于更新下一周期的经验表，实现分散式储能电力系统的运行优化。

进一步地，所述步骤S1的分散式储能电力系统包括一个储能聚合商和同一地区的若干个电池储能，每个电池储能均与储能聚合商通信连接；

所述储能聚合商用于根据历史电价数据和电池储能参数制定电池储能的充放电策略，并将其发送至对应的电池储能；

所述电池储能根据接收到的充放电策略执行相应动作，实现分散式储能电力系统的运行优化。

进一步地，所述步骤S2具体为：

S21、根据电池储能参数，建立分散式储能电力系统的应用模型和调用成本模型；

S22、根据历史电价数据制定强化学习状态-动作对奖惩表；

S23、根据应用模型、调用成本模型和奖惩表建立经验表，并对其初始化；

S24、通过强化学习方法对经验表进行迭代，确定随机起始状态到达目标状态的不同路径，直到经验表收敛，并将每个路径累积起来对应的奖赏值填入到经验表中，完成经验表的构建。

进一步地，所述步骤S21中的应用模型包括电池储能的状态数和电池储能的状态；

其中，电池储能状态数N_i为：

式中，N_i为第i个电池储能的状态数；

Q_rate为电池储能的额定容量；

ΔP_set为电池储能的充放电功率最小变化步长；

电池储能的状态s_i,k为：

式中，s_i,k为第i个电池储能的第j个状态，且s_i,j∈S,0≤j≤N_i，S为DBESS i的状态集，N为第i个电池储能的状态数；

Q_i为DBESS i的电荷量；

调用成本模型包括电池储能充电效率、电池储能放电效率、电池储能每小时充电损耗成本、电池储能老化成本、充电调用成本和放电调用成本；

其中，电池储能充电效率η_i,cha为：

η_i,cha＝α_i,cha-β_i.chaP_i,cha＝0.95-0.015m_i式中，α_i,cha和β_i.cha均为电池储能的充电常数；

P_i,cha为电池储能的充电功率；

m_i为第i电池储能的运行月数；

电池储能的放电效率η_i,dch为：

η_i,dch＝α_i,dch-β_i,dchP_i,dch

式中，α_i,dch和β_i,dch为电池储能的放电常数；

P_i,dch为电池储能的充电常数；

电池储能每小时充电损耗成本C_i,dch,loss为：

式中，ρ为实时动态电价；

电池储能老化成本C_i,k,ag为：

式中，d_k,i为电池储能第k周期开始时的放电深度；

P_i,bat为电池储能内部充放电功率；

E_i为DBESS i的容量；

K_p为特征常数；

N_100,i,fail为100％放电深度下的电池储能的最大循环次数；

C_i,ap为电池储能的购置成本；

电池储能的充电调用成本C_i,cha：

C_i,cha＝C_i,cha,loss+C_i,cha,ag

式中，C_i,cha,loss为电池储能的充电损耗成本；

C_i,cha,ag为电池储能的充电老化成本；

电池储能的放电调用成本C_i,dch为：

C_i,dch＝C_i,dch,loss+C_i,dch,ag

式中，C_i,dch为每个控制周期的第i个BESS调用成本；

C_i,dch,loss为电池储能的放电损耗成本；

C_i,dch,ag为电池储能的放电老化成本。

进一步地，所述步骤S22中的奖惩表中的数据为电池储能的每个状态下所采取的充放电策略所带来的充放电奖赏；

其中，构建奖惩表的方法具体为：

A1、将电池储能的储能状态离散化，得到电池储能的m个荷电状态，根据设定的开环时域累积n，得到电池储能荷电状态与时间周期耦合的M＝n×m个状态；

A2、根据电池储能的最大连续充放电功率约束，确定储能电池每个状态能够离散出的充放电动作数量J；

A3、构建M×J的奖惩矩阵；

A4、根据每个状态下的每个动作对应的充放电奖赏，填入到奖惩矩阵中，完成奖惩表的构建。

进一步地，所述步骤A2中的电池储能的最大连续充放电功率约束为：

0≤P_BESS≤P_rated

式中，P_BESS为当前分散式储能的有功功率；

P_rated为DBESS最大可持续充放电有功功率；

所述步骤A4中充放电奖赏的计算公式为：

R_i,k＝a_i,kρ_k

式中，R_i,k为当前周期k中第i个电池储能的充放电奖赏；

ρ_k为当前周期k的电价；

a_i,k为当前周期k中第i个电池储能的充放电策略。

进一步地，所述步骤S24中对经验表进行迭代时的迭代优化目标函数为：

式中，J_i为该DBESS在给定的n个周期内的累积净现值；

R_π(i,t)为第i个电池储能在实际间隔t内得到的收益；

n为开环时域累积。

进一步地，所述步骤S24中填入经验表的奖赏值函数为：

Q(s_t,a_t)＝Q(s_t,a_t)+α(r_t+λmax_aQ(s_t+1,a_t)-Q(s_t,a_t))-C_i.dch

式中，Q(s_t,a_t)为当前状态-动作的值；

α为学习率；

r_t为当前t周期的状态下，分散式储能选择相应动作带来的奖赏；

λ为折扣因子；

max_aQ(s_t+1,a_t)为下一个可能的状态-动作的值函数的最大值；

C_i.dch为每个控制周期的第i个BESS调用成本。

进一步地，所述步骤S3中电池储能的最优充放电策略为：

将当前周期电价数据的输入到经验表中，将现有的经验表中该电池储能状态下最大奖赏值对应的动作作为该储能电池的最优充放电策略。

进一步地，聚合商将当前周期的电价信息更新到强化学习算法的电价数据库中，计算下一周期的充放电策略集，并更新经验表，如此实现开环时域累积的迭代向前，实现分散式电力储能系统的运行优化。

本发明的有益效果为：

(1)本发明通过去中心化的分散式储能及其聚合商建模，采用强化学习求解可以避免传统中心化模型因微网信息不确定性而难以精确建模的负载问题；

(2)本发明中的经验表已知参数只有电池储能参数数据和电价历史数据，强化学习算法可以在非物理精确建模情况下迅速求出最优解；另外，多分散式储能电力系统中需要加入新的电池储能，只需要在自趋优强化学习算法中输入该电池储能的参数，强化学习算法会根据应用模型自动计算其罚函数以及单词调用成本，扩展性好；

(3)本发明通过结合模型预测控制思想，强化算法中不断迭代进最新电价信息，实时更新经验表中的充放电策略；

(4)本发明因强化学习算法提前将经验表学习好，具有收敛性强、响应速度快和适应性高等特点。

附图说明

图1为本发明提供的基于强化学习的分散式储能电力系统的运行优化方法流程图。

图2为本发明中电池储能的模型图。

图3为本发明中分散式储能电力系统结构图。

图4为本发明中分散式储能电力系统自趋优运行过程示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，一种基于强化学习的分散式储能电力系统的运行优化方法，其特征在于，包括以下步骤：

其中，聚合商将当前周期的电价信息更新到强化学习算法的电价数据库中，计算下一周期的充放电策略集，并更新经验表，如此实现开环时域累积的迭代向前，实现分散式电力储能系统的运行优化。

上述步骤S1的分散式储能电力系统包括一个储能聚合商和同一地区的若干个电池储能，每个电池储能均与储能聚合商通信连接；

本发明通过构建的储能电力系统提供了分散式储能的另一种运行方式，通过储能聚合商将DBESS集中控制，根据售电公司电价的日波动性，以DBESS的日历寿命周期净现值最大化为目标，运用强化学习中应用最广泛的Q-learning算法，在微网和负荷信息未知，即非物理精确建模时，储能聚合商基于分散式储能系统自身状态(荷电状态、容量配置、充放电功率等)以及未来开环滚动时域电价信息，制定各分散式储能最优充放电策略，在每个时域周期内自动趋向于盈利性低储高发。

上述步骤S2具体为：

S22、根据历史电价数据制定强化学习状态-动作对奖惩表；

在上述步骤S21中考虑电池储能的材料、老化、容量、充放电效率和荷电状态等因素，建立分散式储能电力系统的应用模型和调用成本模型；

该应用模型包括电池储能的状态数和电池储能的状态；

其中，电池储能状态数N_i为：

式中，N_i为第i个电池储能的状态数；

Q_rate为电池储能的额定容量；

ΔP_set为电池储能的充放电功率最小变化步长；

电池储能的状态s_i,k为：

式中，s_i,k为第i个电池储能的第j个状态，S为DBESS i的状态集，N为第i个电池储能的状态数；

Q_i为DBESS i的电荷量；

其中，电池储能充电效率η_i,cha为：

η_i,cha＝α_i,cha-β_i.chaP_i,cha＝0.95-0.015m_i

式中，α_i,cha和β_i.cha均为电池储能的充电常数；

P_i,cha为电池储能的充电功率；

m_i为第i电池储能的运行月数；

电池储能的放电效率η_i,dch为：

η_i,dch＝α_i,dch-β_i,dchP_i,dch

式中，α_i,dch和β_i,dch为电池储能的放电常数；

P_i,dch为电池储能的充电常数；

电池储能每小时充电损耗成本C_i,dch,loss为：

式中，ρ为实时动态电价；

电池储能老化成本C_i,k,ag为：

式中，d_k,i为电池储能第k周期开始时的放电深度；

P_i,bat为电池储能内部充放电功率；

E_i为DBESS i的容量；

K_p为特征常数；

N_100,i,fail为100％放电深度下的电池储能的最大循环次数；

C_i,ap为电池储能的购置成本；

电池储能的充电调用成本C_i,cha：

C_i,cha＝C_i,cha,loss+C_i,cha,ag

式中，C_i,cha,loss为电池储能的充电损耗成本；

C_i,cha,ag为电池储能的充电老化成本；

电池储能的放电调用成本C_i,dch为：

C_i,dch＝C_i,dch,loss+C_i,dch,ag

式中，C_i,dch为每个控制周期的第i个BESS调用成本；

C_i,dch,loss为电池储能的放电损耗成本；

C_i,dch,ag为电池储能的放电老化成本。

上述步骤S22中的奖惩表中的数据为电池储能的每个状态下所采取的充放电策略所带来的充放电奖赏；

其中，构建奖惩表的方法具体为：

例如，电池储能有13个荷电状态，设定的开环时域累积为24小时，则13个荷电状态与24小时耦合出312个状态，描述了电池储能在一天可能的状态；

上述步骤A2中的电池储能的最大连续充放电功率约束为：

0≤P_BESS≤P_rated

式中，P_BESS为当前分散式储能的有功功率；

P_rated为DBESS最大可持续充放电有功功率；

考虑SOC以及充放电功率约束，DBESS充放电模型如图2所示，P_rated是DBESS最大可持续充放电有功功率，P_BESS是当前DBESS有功功率，S_soc,max和S_soc,min是DBESS的SOC(荷电状态)的最大值和最小值。

例如，根据储能的最大连续充放电功率约束(如40kW)，假设储能变流器最小控制充放电功率变化为10kW，则储能的每个状态可以离散出9个充放电动作(除却容量约束不能选择的动作)，这样构建出312*9的奖惩矩阵；

A3、构建M×J的奖惩矩阵；

A4、根据每个状态下的每个动作对应的充放电奖赏，填入到奖惩矩阵中，完成奖惩表的构建；

上述步骤A4中充放电奖赏的计算公式为：

R_i,k＝a_i,kρ_k

式中，R_i,k为当前周期k中第i个电池储能的充放电奖赏；

ρ_k为当前周期k的电价；

a_i,k为当前周期k中第i个电池储能的充放电策略。

上述步骤S24中对经验表进行迭代时的迭代优化目标函数为：

式中，J_i为该DBESS在给定的n个周期内的累积净现值；

R_π(i,t)为第i个电池储能在实际间隔t内得到的收益；(电池储能根据自身状态和设定自主选择采用储能聚合商提供的充放电策略或者不采用)；

n为开环时域累积。

上述步骤S24中填入经验表的奖赏值函数为：

Q(s_t,a_t)＝Q(s_t,a_t)+α(r_t+λmax_aQ(s_t+1,a_t)-Q(s_t,a_t))-C_i.dch

式中，Q(s_t,a_t)为当前状态-动作的值；

α为学习率；

λ为折扣因子；

max_aQ(s_t+1,a_t)为下一个可能的状态-动作的值函数的最大值；

C_i.dch为每个控制周期的第i个BESS调用成本。

该值函数用来从长远角度评价一个状态(或状态-动作对)的好坏。

上述步骤S3中电池储能的最优充放电策略为：

如图3所示，显示了本发明中的包括电池储能及储能聚合商的系统的结构图；本发明考虑售电公司或者市场操作员根据当地的电价结构和电力的供求情况计算并发布实时动态电价ρ；假定该地区每家每户都有电池储能系统，储能聚合商通过一定商业模式将有意愿且有能力进行低储高发的DBESS进行集中控制，结合该地区大量的历史电价数据，以及储能约束条件，运用自趋优Q-learning算法得出分散式储能的充放电策略，并通过互联网周期性地将策略信息送至每一个分散式储能(DBESS)，DBESS接受到控制指令后，其功率控制系统通过双向DC-DC变换器调节控制周期内充放电功率，实现低储高发。所谓低储高发，即储能聚合商在低电价时控制储能电池充电，在高电价时控制储能电池放电。对推动微网社区内的分散式储能自主运行具有重要意义。

如图4所示，在具体工作时，首先，在t时开始时，市场操作员公布本周期的电价ρ_t，该电价事先未知；然后，储能聚合商在极快的时间(即使考虑延迟也不超过10s)内根据强化学习对本地区t时之前电价的学习经验(经验表)，结合本时段电价以及分散式储能的模型参数计算出DBESS i的充放电策略π(i,t)；分散式储能自主选择是否按照获得的策略π(i,t)进行动作，并反馈动作完成信息以及储能状态信息S_i,j给储能聚合商；最后聚合商将新时刻的电价更新到强化学习算法电价数据库中，计算下一周期策略集π_i；下周期同上；进而实现分散式储能电力系统的运行优化。

本发明的有益效果为：

(1)本发明通过去中心化的分散式储能及其聚合商建模，采用强化学习求解可以避免传统中心化模型因微网信息不确定性而难以精确建模的复杂问题；

Claims

1.一种基于强化学习的分散式储能电力系统的运行优化方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于强化学习的分散式储能电力系统的运行优化方法，其特征在于，所述步骤S1的分散式储能电力系统包括一个储能聚合商和同一地区的若干个电池储能，每个电池储能均与储能聚合商通信连接；

3.根据权利要求1所述的基于强化学习的分散式储能电力系统的运行优化方法，其特征在于，所述步骤S2具体为：

S22、根据历史电价数据制定强化学习状态-动作对奖惩表；

4.根据权利要求3所述的基于强化学习的分散式储能电力系统的运行优化方法，其特征在于，所述步骤S21中的应用模型包括电池储能的状态数和电池储能的状态；

其中，电池储能状态数N_i为：

式中，N_i为第i个电池储能的状态数；

Q_rate为电池储能的额定容量；

ΔP_set为电池储能的充放电功率最小变化步长；

电池储能的状态s_i,k为：

Q_i为DBESS i的电荷量；

其中，电池储能充电效率η_i,cha为：

η_i,cha＝α_i,cha-β_i.chaP_i,cha＝0.95-0.015m_i

式中，α_i,cha和β_i.cha均为电池储能的充电常数；

P_i,cha为电池储能的充电功率；

m_i为第i电池储能的运行月数；

电池储能的放电效率η_i,dch为：

η_i,dch＝α_i,dch-β_i,dchP_i,dch

式中，α_i,dch和β_i,dch为电池储能的放电常数；

P_i,dch为电池储能的充电常数；

电池储能每小时充电损耗成本C_i,dch,loss为：

式中，ρ为实时动态电价；

电池储能老化成本C_i,k,ag为：

式中，d_k,i为电池储能第k周期开始时的放电深度；

P_i,bat为电池储能内部充放电功率；

E_i为DBESS i的容量；

K_p为特征常数；

N_100,i,fail为100％放电深度下的电池储能的最大循环次数；

C_i,ap为电池储能的购置成本；

电池储能的充电调用成本C_i,cha：

C_i,cha＝C_i,cha,loss+C_i,cha,ag

式中，C_i,cha,loss为电池储能的充电损耗成本；

C_i,cha,ag为电池储能的充电老化成本；

电池储能的放电调用成本C_i,dch为：

C_i,dch＝C_i,dch,loss+C_i,dch,ag

式中，C_i,dch为每个控制周期的第i个BESS调用成本；

C_i,dch,loss为电池储能的放电损耗成本；

C_i,dch,ag为电池储能的放电老化成本。

5.根据权利要求3所述的基于强化学习的分散式储能电力系统的运行优化方法，其特征在于，所述步骤S22中的奖惩表中的数据为电池储能的每个状态下所采取的充放电策略所带来的充放电奖赏；

其中，构建奖惩表的方法具体为：

A3、构建M×J的奖惩矩阵；

6.根据权利要求5所述的基于强化学习的分散式储能电力系统的运行优化方法，其特征在于，所述步骤A2中的电池储能的最大连续充放电功率约束为：

0≤P_BESS≤P_rated

式中，P_BESS为当前分散式储能的有功功率；

P_rated为DBESS最大可持续充放电有功功率；

所述步骤A4中充放电奖赏的计算公式为：

R_i,k＝a_i,kρ_k

式中，R_i,k为当前周期k中第i个电池储能的充放电奖赏；

ρ_k为当前周期k的电价；

a_i,k为当前周期k中第i个电池储能的充放电策略。

7.根据权利要求5所述的基于强化学习的分散式储能电力系统的运行优化方法，其特征在于，所述步骤S24中对经验表进行迭代时的迭代优化目标函数为：

式中，J_i为该DBESS在给定的n个周期内的累积净现值；

R_π(i,t)为第i个电池储能在实际间隔t内得到的收益；

n为开环时域累积。

8.根据权利要求3所述的基于强化学习的分散式储能电力系统的运行优化方法，其特征在于，所述步骤S24中填入经验表的奖赏值函数为：

Q(s_t,a_t)＝Q(s_t,a_t)+α(r_t+λmax_aQ(s_t+1,a_t)-Q(s_t,a_t))-C_i.dch

式中，Q(s_t,a_t)为当前状态-动作的值；

α为学习率；

λ为折扣因子；

max_aQ(s_t+1,a_t)为下一个可能的状态-动作的值函数的最大值；

C_i.dch为每个控制周期的第i个BESS调用成本。

9.根据权利要求8所述的基于强化学习的分散式储能电力系统的运行优化方法，其特征在于，所述步骤S3中电池储能的最优充放电策略为：

10.根据权利要求1所述的基于强化学习的分散式储能电力系统的运行优化方法，其特征在于，聚合商将当前周期的电价信息更新到强化学习算法的电价数据库中，计算下一周期的充放电策略集，并更新经验表，如此实现开环时域累积的迭代向前，实现分散式电力储能系统的运行优化。