CN116316755B - 一种基于强化学习的电气化铁路储能系统能量管理方法 - Google Patents
一种基于强化学习的电气化铁路储能系统能量管理方法 Download PDFInfo
- Publication number
- CN116316755B CN116316755B CN202310213320.4A CN202310213320A CN116316755B CN 116316755 B CN116316755 B CN 116316755B CN 202310213320 A CN202310213320 A CN 202310213320A CN 116316755 B CN116316755 B CN 116316755B
- Authority
- CN
- China
- Prior art keywords
- power
- storage system
- energy storage
- state
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004146 energy storage Methods 0.000 title claims abstract description 144
- 238000007726 management method Methods 0.000 title claims abstract description 38
- 230000002787 reinforcement Effects 0.000 title claims abstract description 35
- 230000009471 action Effects 0.000 claims abstract description 81
- 238000012549 training Methods 0.000 claims abstract description 44
- 238000000034 method Methods 0.000 claims abstract description 38
- 230000008569 process Effects 0.000 claims abstract description 20
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 16
- 238000012614 Monte-Carlo sampling Methods 0.000 claims abstract description 9
- 230000006870 function Effects 0.000 claims description 48
- 239000003795 chemical substances by application Substances 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 17
- 230000003137 locomotive effect Effects 0.000 claims description 13
- 230000009194 climbing Effects 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 claims description 6
- 238000007599 discharging Methods 0.000 claims description 6
- 238000005315 distribution function Methods 0.000 claims description 6
- 239000012634 fragment Substances 0.000 claims description 6
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 238000010521 absorption reaction Methods 0.000 claims description 3
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 150000001875 compounds Chemical class 0.000 claims description 3
- 238000013500 data storage Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000013178 mathematical model Methods 0.000 claims description 3
- 238000013508 migration Methods 0.000 abstract description 5
- 230000005012 migration Effects 0.000 abstract description 5
- 230000001172 regenerating effect Effects 0.000 abstract description 4
- 230000000694 effects Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004088 simulation Methods 0.000 description 3
- 229910000831 Steel Inorganic materials 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 230000000087 stabilizing effect Effects 0.000 description 2
- 239000010959 steel Substances 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013509 system migration Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J3/00—Circuit arrangements for ac mains or ac distribution networks
- H02J3/28—Arrangements for balancing of the load in a network by storage of energy
- H02J3/32—Arrangements for balancing of the load in a network by storage of energy using batteries with converting means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J7/00—Circuit arrangements for charging or depolarising batteries or for supplying loads from batteries
- H02J7/0068—Battery or charger load switching, e.g. concurrent charging and load supply
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/04—Constraint-based CAD
-
- H—ELECTRICITY
- H02—GENERATION; CONVERSION OR DISTRIBUTION OF ELECTRIC POWER
- H02J—CIRCUIT ARRANGEMENTS OR SYSTEMS FOR SUPPLYING OR DISTRIBUTING ELECTRIC POWER; SYSTEMS FOR STORING ELECTRIC ENERGY
- H02J2203/00—Indexing scheme relating to details of circuit arrangements for AC mains or AC distribution networks
- H02J2203/20—Simulating, e g planning, reliability check, modelling or computer assisted design [CAD]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Power Engineering (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computer Hardware Design (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Geometry (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开了一种基于强化学习的电气化铁路储能系统能量管理方法,所述储能系统能量管理方法包括离线预训练以及在线更新,所述电气化铁路储能系统中的能量管理系统通过接收二次设备的信息,向铁路功率调节器以及DC/DC变换器发出控制信号,实现储能系统功率交换;该方法建立了电气化铁路能量管理的马尔科夫决策模型,采用强化学习算法求解各种工况下的最优动作序列,通过对蒙特卡洛抽样过程进行改进以提升收敛速度,控制储能系统与牵引供电系统之间进行自适应功率交换,能够有效提升再生制动能量的利用效率,同时具有在线更新的能力,可实现在不同的系统间进行迁移。
Description
技术领域
本发明属于电气化铁路技术领域,具体涉及一种基于强化学习的电气化铁路储能系统能量管理方法。
背景技术
随着电气化铁路规模的扩大,电力机车能耗高、功率波动大等问题逐渐显现。在全球节能减排的背景下,如何降低牵引能耗成为亟待解决的问题,而储能技术的发展提供了新的思路。当前,牵引供电系统的能量管理策略主要包括基于电压的能量管理策略与基于功率的能量管理策略等。在城市轨道交通领域,由于牵引功率相对较小、供电电压相对较低,通常采用基于电压的能量管理策略。此类策略以稳定牵引网电压为目标,以牵引网电压为判据控制储能系统完成充放电;但电气化铁路牵引功率巨大,且供电制式不同,网压变动更为剧烈,采用基于电压的能量管理策略并不合适。而基于功率的能量管理策略则通过将采样功率与充放电阈值进行比较,从而控制储能系统进行充电或放电;此类方法的本质均为针对不同的工况设计不同的充放电阈值来控制系统的能量交换。然而由于行车方式每天都会发生变化,导致基于固定阈值的能量管理策略灵活性较差,同时只能适配特定变电所。因此,如何设计高效协调外部电力系统、电力机车和储能系统的策略成为系统运行的关键所在。
当前针对电气化铁路储能式牵引变电所在线能量管理研究尚处于起步阶段。专利《储能装置放电阈值的确定方法、装置、终端及存储介质》(公开号:CN111628514A)提出了一种电气化铁道储能系统放电阈值确定方法从而实现自适应效果,但该方法预测间隔时间较长且不具备迁移能力;专利《一种电气化铁路储能式牵引供电系统及其控制方法》(公开号:CN110829435A)提出了一种应用于单相交流牵引供电系统,可以实现再生制动能量高效利用和系统容量优化配置的方案,但没有自适应控制效果,且灵活性不足;专利《基于强化学习的城轨交通储能系统能量管理方法》(公开号:CN107895960B)提出了一种基于强化学习的能量管理方法,能够实现节能效果和稳压效果的优化,但该方案没有考虑空闲工况对收敛速度的影响,由于供电制式的不同无法直接应用于电气化铁路。
发明内容
为克服现有技术的缺陷,本发明提出一种基于强化学习的电气化铁路储能系统能量管理方法,该方法建立了马尔科夫决策模型,利用基于能量的蒙特卡洛抽样过程来选取训练数据,将抽取的训练数据输入到马尔科夫决策模型中,采用强化学习算法进行求解,得到最优动作序列;该方法通过对蒙特卡洛抽样过程进行改进以提升收敛速度,控制储能系统与牵引供电系统进行自适应功率交换,能够有效提升再生制动能量的利用效率,具有在线更新的能力,可实现在不同的系统间进行迁移。
本发明的目的可以通过以下技术方案来实现:
一种基于强化学习的电气化铁路储能系统能量管理方法,所述电气化铁路储能系统结构包括牵引供电系统、外部电力系统、单相降压变压器、LCL型滤波器、铁路功率调节器、二次设备、能量管理系统以及储能系统,其中牵引供电系统采用单相交流工频供电制式,储能系统(电力机车)与牵引变电所两侧供电臂的接触线与钢轨连接,通过单相降压变压器后接入LCL型滤波器,再接入铁路功率调节器装置,从铁路功率调节器的直流母线引出馈线,与储能系统直流母线连接,再从直流母线引出馈线,接入DC/DC变换器,最后与储能系统连接;
所述储能系统能量管理方法包括离线预训练以及在线更新,所述电气化铁路储能系统中的能量管理系统通过接收二次设备的信息,向铁路功率调节器以及DC/DC变换器发出控制信号,实现储能系统功率交换;
所述离线预训练具体包括以下步骤:
S111:建立马尔科夫决策模型,载入训练功率数据以及储能系统荷电初始状态数据,所述马尔科夫决策模型根据电力机车功率、储能系统交换功率、电力系统与牵引供电系统的交换功率、储能系统荷电状态以及储能系统电荷量,建立状态变量S、动作A、奖励R、回报G及策略π的数学模型;
S112:通过基于能量的蒙特卡洛抽样过程抽取训练功率片段,将所述训练功率片段输入马尔科夫决策模型中,获取初始状态变量;
S113:采用基于Q-learning智能体的强化学习算法,根据Q价值函数求解所述马尔科夫决策模型,获取最优决策即最优动作序列,计算功率交换结果,控制储能系统进行功率交换;其中Q-learning智能体会观测当前的状态及奖励,自动评判当前状态及动作的好坏,并做出相应决策,与环境进行交互;
S114:判断是否执行搜索策略;
S115:检查决策是否满足马尔科夫决策模型的约束条件,若不是最后一组数据,完成储能系统功率交换后对状态变量进行更新,同时更新Q价值函数,完成训练后存储Q价值函数,进入下一循环;
所述在线更新具体包括以下步骤:
S121:载入所述离线预训练获取的Q价值函数;
S122:读取二次设备采样数据后载入马尔科夫决策模型,更新状态变量;
S123:采用基于Q-learning智能体的强化学习算法,根据Q价值函数求解所述马尔科夫决策模型,获取最优决策,计算功率交换结果,控制储能系统进行功率交换;
S124:完成储能系统功率交换后,对Q价值函数进行更新并存储;
S125:收到停止指令后结束,若未收到停止指令,重复S121~S124,所述指令由人工判断后发出信号。
进一步的,所述马尔科夫决策模型用于描述能量管理系统的决策流程,将最优动作序列转换为最优价值函数来进行表示,所述状态变量S通过如式(1)所示t时刻的状态变量St来描述:
St={Plc,t-Δt,Pess,t-Δt,Pps,t-Δt,SOCt,Qt} (1)
式(1)中,Plc,t-Δt表示t-Δt时刻的机车功率,Pess,t-Δt表示t-Δt时刻的储能系统交换功率,Pps,t-Δt表示t-Δt时刻电力系统与牵引供电系统的交换功率,SOCt表示t时刻的储能系统荷电状态,Qt表示t时刻的储能系统的电荷量,Δt表示采样时间间隔;
将最大充电功率与最大放电功率分别按照c个梯度进行划分,每个功率梯度对应不同的动作,将所述动作A采用公式(2)描述:
A={a1,...,ac,ac+1,ac+2,...,a2c+1} (2)
式(2)中,a1,...,ac表示储能系统充电状态下的动作,ac+1表示储能系统空闲状态下的动作,ac+2,...,a2c+1表示储能系统放电状态下的动作;
第d种功率梯度下储能系统的交换功率计算如式(3)所示:
式(3)中,表示储能系统最大充电功率,/>表示储能系统最大放电功率;
所述奖励R通过采用在St状态下采用动作at的奖励R(St,at)描述,如式(4)所示:
R(St,at)=rcon(St,at)+rsoc(St)+rre(St,at)+rpeak(St,at)+ren(at) (4)
式(4)中,rcon表示工况选择奖励,rsoc表示荷电状态奖励rsoc,rre表示空闲工况充电奖励,rpeak表示峰值功率削减奖励,ren表示能量吸收奖励;
所述回报G通过采用在St状态下可获得的折扣奖励和的期望值G(St)描述,如式(5)所示:
式(5)中,γt表示St状态下的折扣因子,若决策的动作序列为最优动作序列,则可获得折扣奖励和的最大期望值G0,如式(6)所示:
所述策略π通过St状态下采用动作at的概率π(St,at)描述,值得注意的是,在初始状态下,所有动作的抽样概率是相等的,随着强化学习算法的迭代,各类动作的抽样概率会发生变化。
进一步的,所述基于能量的蒙特卡洛抽样过程用于从训练数据中抽取具有更大训练价值的数据集,其中t时刻时间窗的能量比如式(7):
式(7)中,m表示离线训练数据的长度,n表示数据窗的长度,Plc,i表示数据窗起始功率点,i表示序号;
t时刻的训练数据采样概率p(Plc,t)如式(8):
概率分布函数F(Plc,t)如式(9):
设随机变量u(t)是(0,1)区间的随机分布,起始功率点为j,通过对u(t)进行随机采样,代入概率分布函数F(Plc,t)的反函数F-1(Plc,t)中,即可求得起始功率点Plc,j,如式(10):
Plc,j=F-1(uj) (u(t)~U(0,1)) (10)
如式(11),可获取离线预训练时间窗功率序列:
Plc={Plc,j,Plc,j+1,...,Plc,j+n-1} (11)。
进一步的,所述Q价值函数Q(St,at)用于衡量在状态St下采取动作at的好坏,并通过采用贝尔曼方程进行更新,若在初始状态S0下,强化学习的智能体根据策略π采取最优动作a0,可以获取最优价值函数Q*(S,a),如式(12):
所述基于Q-learning智能体根据Q价值函数的最大值来选取最优动作,从状态St至下一状态St+1的动作at可通过式(13)描述:
式(13)中,Qk表示第k次迭代下的Q价值函数,a*表示状态St下的最优动作。
进一步的,为避免智能体陷入局部最优的情况,在动作选择中采取了探索策略,并通过设置概率数值ε来判断是否执行动作探索策略,该动作探索策略具体包括以下步骤:
S61:随机生成一个范围在(0,1)的随机数rand(0,1),将其与概率数值ε进行比较;
S62:若rand(0,1)≥ε,则智能体的动作保持不变,若rand(0,1)<ε,则智能体随机抽取其他动作,动作的选择概率P(a)如式(14):
进一步的,所述马尔科夫决策模型的约束条件包括功率平衡约束、储能系统功率爬坡约束、储能系统最大功率约束以及荷电状态约束;
所述功率平衡约束如式(15)~式(16):
Plc,t=Pess,t+Pps,t-Ploss,t(Plc,t>0) (15)
Plc,t=Pess,t+Pps,t+Ploss,t(Plc,t<0) (16)
所述储能系统功率爬坡约束如式(17):
所述储能系统最大功率约束如式(18)~式(19):
所述荷电状态约束如式(20):
SOCmin≤SOCt≤SOCmax (20)
式(15)~式(20)中,Plc,t表示t时刻机车功率,Pess,t表示储能系统交换功率为,Pps,t表示牵引供电系统与外部电力系统交换功率,Ploss,t表示传输损失功率,表示储能系统充电爬坡限制功率,/>表示储能系统放电爬坡限制功率,/>表示储能系统最大充电功率,/>表示储能系统最大放电功率,SOCmax表示最大工作荷电状态,SOCmin表示最小工作荷电状态,SOCt表示t时刻储能系统荷电状态。
进一步的,通过t时刻的状态变量St以及动作at,对马尔科夫决策模型完成储能系统功率交换后的状态变量进行更新,从状态St至下一状态St+1的更新过程如式(21)~式(26):
St+1={Plc,t,Pess,t,Pps,t,SOCt+1,Qt+1} (21)
St+1(1)=Plc,t (22)
St+1(2)=Pess,t (23)
St+1(3)=Pps,t=Plc,t-Pess,t-Ploss,t (24)
式(21)~式(26)中,SOCt+1表示状态St+1下的储能系统荷电状态,Qt+1表示状态St+1下的储能系统的电荷量,Qtotal表示总电荷量,Eess表示储能系统电压。
进一步的,对Q价值函数进行更新的过程如式(27):
式(27)中,Qk+1(St,at)表示第k+1次迭代下的Q价值函数,Qk(St,at)表示第k次迭代下的Q价值函数,β表示学习因子。
与现有技术相比,本发明具有以下技术效果:
(1)能够实现动态自适应充电及放电,并实时对充放电策略进行调整,能更好的利用再生制动能量,发挥削峰填谷的效果;
(2)基于能量抽取出具有更高训练价值的功率片段,可以有效提升训练效率,加快强化学习的训练速度;
(3)具有良好的系统迁移能力,通过对价值函数的自动更新,可以自动适配不同的牵引变电所而无需重新训练。
附图说明
图1为本发明电气化铁路储能系统结构图;
图2为离线预训练流程示意图;
图3为在线更新流程示意图;
图4为牵引变电所测量功率图;
图5为采用不同算法的Q价值函数矩阵2范数图;
图6为储能系统功率输出图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
一种基于强化学习的电气化铁路储能系统能量管理方法,如图1所示,所述电气化铁路储能系统结构包括牵引供电系统、外部电力系统、单相降压变压器、LCL型滤波器、铁路功率调节器、二次设备、能量管理系统以及储能系统,其中牵引供电系统采用单相交流工频供电制式,储能系统(电力机车)与牵引变电所两侧供电臂的接触线与钢轨连接,通过单相降压变压器后接入LCL型滤波器,再接入铁路功率调节器装置,从铁路功率调节器的直流母线引出馈线,与储能系统直流母线连接,再从直流母线引出馈线,接入DC/DC变换器,最后与储能系统连接;所述储能系统能量管理方法包括离散预训练以及在线更新,所述电气化铁路储能系统中的能量管理系统通过接收二次设备的信息,向铁路功率调节器以及DC/DC变换器发出控制信号,实现储能系统功率交换;
如图2所示,所述离散预训练具体包括以下步骤:
S111:建立马尔科夫决策模型,载入训练功率数据以及储能系统荷电初始状态数据,所述马尔科夫决策模型根据电力机车功率、储能系统交换功率、电力系统与牵引供电系统的交换功率、储能系统荷电状态以及储能系统电荷量,建立状态变量S、动作A、奖励R、回报G及策略π的数学模型;
S112:设定离线训练次数,通过基于能量的蒙特卡洛抽样过程抽取训练功率片段,将所述训练功率片段输入马尔科夫决策模型中,获取初始状态变量;
S113:采用基于Q-learning智能体的强化学习算法,根据Q价值函数求解所述马尔科夫决策模型,获取最优决策即最优动作序列,计算功率交换结果,控制储能系统进行功率交换;其中Q-learning智能体会观测当前的状态及奖励,自动评判当前状态及动作的好坏,并做出相应决策,与环境进行交互;
S114:判断是否执行搜索策略;
S115:检查决策是否满足马尔科夫决策模型的约束条件,若不是最后一组数据,完成储能系统功率交换后对状态变量进行更新,同时更新Q价值函数,完成训练后存储Q价值函数,进入下一循环;
如图3所示,所述在线更新具体包括以下步骤:
S121:载入所述离线预训练获取的Q价值函数;
S122:读取二次设备采样数据后载入马尔科夫决策模型,更新状态变量;
S123:采用基于Q-learning智能体的强化学习算法,根据Q价值函数求解所述马尔科夫决策模型,获取最优决策,计算功率交换结果,控制储能系统进行功率交换;
S124:完成储能系统功率交换后,对Q价值函数进行更新并存储;
S125:收到停止指令后结束,若未收到停止指令,重复S121~S124,所述指令由人工判断后发出信号。
所述马尔科夫决策模型用于描述能量管理系统的决策流程,将最优动作序列转换为最优价值函数来进行表示,所述状态变量S通过如式(1)所示t时刻的状态变量St来描述:
St={Plc,t-Δt,Pess,t-Δt,Pps,t-Δt,SOCt,Qt} (1)
式(1)中,Plc,t-Δt表示t-Δt时刻的机车功率,Pess,t-Δt表示t-Δt时刻的储能系统交换功率,Pps,t-Δt表示t-Δt时刻电力系统与牵引供电系统的交换功率,SOCt表示t时刻的储能系统荷电状态,Qt表示t时刻的储能系统的电荷量,Δt表示采样时间间隔;
将最大充电功率与最大放电功率分别按照c个梯度进行划分,每个功率梯度对应不同的动作,将所述动作A采用公式(2)描述:
A={a1,...,ac,ac+1,ac+2,...,a2c+1} (2)
式(2)中,a1,...,ac表示储能系统充电状态下的动作,ac+1表示储能系统空闲状态下的动作,ac+2,...,a2c+1表示储能系统放电状态下的动作;
第d种功率梯度下储能系统的交换功率计算如式(3)所示:
式(3)中,表示储能系统最大充电功率,/>表示储能系统最大放电功率;
所述奖励R通过采用在St状态下采用动作at的奖励R(St,at)描述,如式(4)所示:
R(St,at)=rcon(St,at)+rsoc(St)+rre(St,at)+rpeak(St,at)+ren(at) (4)
式(4)中,rcon表示工况选择奖励,rsoc表示荷电状态奖励rsoc,rre表示空闲工况充电奖励,rpeak表示峰值功率削减奖励,ren表示能量吸收奖励;
所述回报G通过采用在St状态下可获得的折扣奖励和的期望值G(St)描述,如式(5)所示:
式(5)中,γt表示St状态下的折扣因子,若决策的动作序列为最优动作序列,则可获得折扣奖励和的最大期望值G0,如式(6)所示:
所述策略π通过St状态下采用动作at的概率π(St,at)描述,值得注意的是,在初始状态下,所有动作的抽样概率是相等的,随着强化学习算法的迭代,各类动作的抽样概率会发生变化。
所述基于能量的蒙特卡洛抽样过程用于从训练数据中抽取具有更大训练价值的数据集,其中t时刻时间窗的能量比如式(7):
式(7)中,m表示离线训练数据的长度,n表示数据窗的长度,Plc,i表示数据窗起始功率点,i表示序号;
t时刻的训练数据采样概率p(Plc,t)如式(8):
概率分布函数F(Plc,t)如式(9):
设随机变量u(t)是(0,1)区间的随机分布,起始功率点为j,通过对u(t)进行随机采样,代入概率分布函数F(Plc,t)的反函数F-1(Plc,t)中,即可求得起始功率点Plc,j,如式(10):
Plc,j=F-1(uj) (u(t)~U(0,1)) (10)
如式(11),可获取离线预训练时间窗功率序列:
Plc={Plc,j,Plc,j+1,...,Plc,j+n-1} (11)。
所述Q价值函数Q(St,at)用于衡量在状态St下采取动作at的好坏,并通过采用贝尔曼方程进行更新,若在初始状态S0下,强化学习的智能体根据策略π采取最优动作a0,可以获取最优价值函数Q*(S,a),如式(12):
所述基于Q-learning智能体根据Q价值函数的最大值来选取最优动作,从状态St至下一状态St+1的动作at可通过式(13)描述:
式(13)中,Qk表示第k次迭代下的Q价值函数,a*表示状态St下的最优动作。
为避免智能体陷入局部最优的情况,在动作选择中采取了探索策略,并通过设置概率数值ε来判断是否执行动作探索策略,该动作探索策略具体包括以下步骤:
S61:随机生成一个范围在(0,1)的随机数rand(0,1),将其与概率数值ε进行比较;
S62:若rand(0,1)≥ε,则智能体的动作保持不变,若rand(0,1)<ε,则智能体随机抽取其他动作,动作的选择概率P(a)如式(14):
所述马尔科夫决策模型的约束条件包括功率平衡约束、储能系统功率爬坡约束、储能系统最大功率约束以及荷电状态约束;
所述功率平衡约束如式(15)~式(16):
Plc,t=Pess,t+Pps,t-Ploss,t(Plc,t>0) (15)
Plc,t=Pess,t+Pps,t+Ploss,t(Plc,t<0) (16)
所述储能系统功率爬坡约束如式(17):
所述储能系统最大功率约束如式(18)~式(19):
所述荷电状态约束如式(20):
SOCmin≤SOCt≤SOCmax (20)
式(15)~式(20)中,Plc,t表示t时刻机车功率,Pess,t表示储能系统交换功率为,Pps,t表示牵引供电系统与外部电力系统交换功率,Ploss,t表示传输损失功率,表示储能系统充电爬坡限制功率,/>表示储能系统放电爬坡限制功率,/>表示储能系统最大充电功率,/>表示储能系统最大放电功率,SOCmax表示最大工作荷电状态,SOCmin表示最小工作荷电状态,SOCt表示t时刻储能系统荷电状态。
通过t时刻的状态变量St以及动作at,对马尔科夫决策模型完成储能系统功率交换后的状态变量进行更新,从状态St至下一状态St+1的更新过程如式(21)~式(26):
St+1={Plc,t,Pess,t,Pps,t,SOCt+1,Qt+1} (21)
St+1(1)=Plc,t (22)
St+1(2)=Pess,t (23)
St+1(3)=Pps,t=Plc,t-Pess,t-Ploss,t (24)
式(21)~式(26)中,SOCt+1表示状态St+1下的储能系统荷电状态,Qt+1表示状态St+1下的储能系统的电荷量,Qtotal表示总电荷量,Eess表示储能系统电压。
对Q价值函数进行更新的过程如式(27):
式(27)中,Qk+1(St,at)表示第k+1次迭代下的Q价值函数,Qk(St,at)表示第k次迭代下的Q价值函数,β表示学习因子。
本发明假设电气化铁路储能系统采用电池为储能介质,图1中电气化铁路储能系统的系统参数如表1所示。
表1储能系统参数表
如表2所示,以某牵引变电所的一日牵引功率曲线作为测试数据,得到的牵引变电所的测量功率如图4所示。
表2牵引变电所功率参数表
Q价值函数矩阵存储的数据代表强化学习算法通过迭代所学习的信息,如图5所示,本发明以不同算法的Q价值函数矩阵2范数来衡量Q价值函数矩阵所存储的信息的多少;可以看出,与传统强化学习算法相比,本发明方法收敛速度明显快于传统强化学习算法,且两种算法的收敛极限基本相同,说明了采用本发明所提出的方法可提高强化学习的收敛速度。
如表3所示,与模糊逻辑控制方法、固定阈值控制方法相比,本发明方法的能量回馈效率分别高出14.52%、13.62%,同时接触网平均牵引功率仅为2.59MW,削峰填谷的能力明显高于其他三种方法,具有良好的控制性能。
表3数值仿真功率参数信息表
从图6可以看出,本发明电气化铁路储能系统功率可以随机车牵引功率的变化进行自适应充放电,可以有效发挥削峰填谷的作用。
另外,为验证本发明控制方法的迁移能力,将上述仿真过程的参数直接移植到另一牵引变电所的训练数据,以模拟现实情况下同一套能量管理方法在不同牵引变电所中的表现情况。如表4所示为数值仿真功率参数信息,可以看出,本发明方法在各项参数上明显优于模糊逻辑控制方法及固定阈值控制方法,略优于普通强化学习控制方法,具有较好的迁移能力。
表4数值仿真功率参数信息表
/>
Claims (8)
1.一种基于强化学习的电气化铁路储能系统能量管理方法,其特征在于,所述储能系统能量管理方法包括离线预训练以及在线更新,所述电气化铁路储能系统中的能量管理系统通过接收二次设备的信息,向铁路功率调节器以及DC/DC变换器发出控制信号,实现储能系统功率交换;
所述离线预训练具体包括以下步骤:
S111:建立马尔科夫决策模型,载入训练功率数据以及储能系统荷电初始状态数据,所述马尔科夫决策模型根据电力机车功率、储能系统交换功率、电力系统与牵引供电系统的交换功率、储能系统荷电状态以及储能系统电荷量,建立状态变量S、动作A、奖励R、回报G及策略π的数学模型;
所述马尔科夫决策模型用于描述能量管理系统的决策流程,将最优动作序列转换为最优价值函数来进行表示,所述状态变量S通过如式(1)所示t时刻的状态变量St来描述:
St={Plc,t-Δt,Pess,t-Δt,Pps,t-Δt,SOCt,Qt} (1)
式(1)中,Plc,t-Δt表示t-Δt时刻的机车功率,Pess,t-Δt表示t-Δt时刻的储能系统交换功率,Pps,t-Δt表示t-Δt时刻电力系统与牵引供电系统的交换功率,SOCt表示t时刻的储能系统荷电状态,Qt表示t时刻的储能系统的电荷量,Δt表示采样时间间隔;
将最大充电功率与最大放电功率分别按照c个梯度进行划分,每个功率梯度对应不同的动作,将所述动作A采用公式(2)描述:
A={a1,...,ac,ac+1,ac+2,...,a2c+1} (2)
式(2)中,a1,...,ac表示储能系统充电状态下的动作,ac+1表示储能系统空闲状态下的动作,ac+2,...,a2c+1表示储能系统放电状态下的动作;
第d种功率梯度下储能系统的交换功率计算如式(3)所示:
式(3)中,表示储能系统最大充电功率,/>表示储能系统最大放电功率;
所述奖励R通过采用在St状态下采用动作at的奖励R(St,at)描述,如式(4)所示:
R(St,at)=rcon(St,at)+rsoc(St)+rre(St,at)+rpeak(St,at)+ren(at) (4)
式(4)中,rcon表示工况选择奖励,rsoc表示荷电状态奖励rsoc,rre表示空闲工况充电奖励,rpeak表示峰值功率削减奖励,ren表示能量吸收奖励;
所述回报G通过采用在St状态下可获得的折扣奖励和的期望值G(St)描述,如式(5)所示:
式(5)中,γt表示St状态下的折扣因子,若决策的动作序列为最优动作序列,则可获得折扣奖励和的最大期望值G0,如式(6)所示:
所述策略π通过St状态下采用动作at的概率π(St,at)描述;
S112:通过基于能量的蒙特卡洛抽样过程抽取训练功率片段,将所述训练功率片段输入马尔科夫决策模型中,获取初始状态变量;
S113:采用基于Q-learning智能体的强化学习算法,根据Q价值函数求解所述马尔科夫决策模型,获取最优决策,计算功率交换结果,控制储能系统进行功率交换;
S114:判断是否执行搜索策略;
S115:检查决策是否满足马尔科夫决策模型的约束条件,完成储能系统功率交换后对状态变量进行更新;
所述在线更新具体包括以下步骤:
S121:载入所述离线预训练获取的Q价值函数Q(St,at);
S122:读取二次设备采样数据后载入马尔科夫决策模型,更新状态变量;
S123:采用基于Q-learning智能体的强化学习算法,根据Q价值函数求解所述马尔科夫决策模型,获取最优决策,计算功率交换结果,控制储能系统进行功率交换;
S124:完成储能系统功率交换后,对Q价值函数进行更新并存储;
S125:收到停止指令后结束,若未收到停止指令,重复S121~S124。
2.根据权利要求1所述基于强化学习的电气化铁路储能系统能量管理方法,其特征在于,所述基于能量的蒙特卡洛抽样过程用于从训练数据中抽取具有更大训练价值的数据集,其中t时刻时间窗的能量比如式(7):
式(7)中,m表示离线训练数据的长度,n表示数据窗的长度,Plc,i表示数据窗起始功率点,i表示序号;
t时刻的训练数据采样概率p(Plc,t)如式(8):
概率分布函数F(Plc,t)如式(9):
设随机变量u(t)是(0,1)区间的随机分布,起始功率点为j,通过对u(t)进行随机采样,代入概率分布函数F(Plc,t)的反函数F-1(Plc,t)中,即可求得起始功率点Plc,j,如式(10):
Plc,j=F-1(uj) (u(t)~U(0,1)) (10)
如式(11),可获取离线预训练时间窗功率序列:
Plc={Plc,j,Plc,j+1,...,Plc,j+n-1} (11)。
3.根据权利要求2所述基于强化学习的电气化铁路储能系统能量管理方法,其特征在于,所述Q价值函数Q(St,at)用于衡量在状态St下采取动作at的好坏,并通过采用贝尔曼方程进行更新,若在初始状态S0下,强化学习的智能体根据策略π采取最优动作a0,可以获取最优价值函数Q*(S,a),如式(12):
4.根据权利要求3所述基于强化学习的电气化铁路储能系统能量管理方法,其特征在于,所述基于Q-learning智能体根据Q价值函数的最大值来选取最优动作,从状态St至下一状态St+1的动作at可通过式(13)描述:
式(13)中,Qk表示第k次迭代下的Q价值函数,a*表示状态St下的最优动作。
5.根据权利要求4所述基于强化学习的电气化铁路储能系统能量管理方法,其特征在于,通过设置概率数值ε来判断是否执行动作探索策略,该动作探索策略具体包括以下步骤:
S61:随机生成一个范围在(0,1)的随机数rand(0,1),将其与概率数值ε进行比较;
S62:若rand(0,1)≥ε,则智能体的动作保持不变,若rand(0,1)<ε,则智能体随机抽取其他动作,动作的选择概率P(a)如式(14):
6.根据权利要求5所述基于强化学习的电气化铁路储能系统能量管理方法,其特征在于,所述马尔科夫决策模型的约束条件包括功率平衡约束、储能系统功率爬坡约束、储能系统最大功率约束以及荷电状态约束;
所述功率平衡约束如式(15)~式(16):
Plc,t=Pess,t+Pps,t-Ploss,t(Plc,t>0) (15)
Plc,t=Pess,t+Pps,t+Ploss,t(Plc,t<0) (16)
所述储能系统功率爬坡约束如式(17):
所述储能系统最大功率约束如式(18)~式(19):
所述荷电状态约束如式(20):
SOCmin≤SOCt≤SOCmax (20)
式(15)~式(20)中,Plc,t表示t时刻机车功率,Pess,t表示储能系统交换功率为,Pps,t表示牵引供电系统与外部电力系统交换功率,Ploss,t表示传输损失功率,表示储能系统充电爬坡限制功率,/>表示储能系统放电爬坡限制功率,/>表示储能系统最大充电功率,/>表示储能系统最大放电功率,SOCmax表示最大工作荷电状态,SOCmin表示最小工作荷电状态,SOCt表示t时刻储能系统荷电状态。
7.根据权利要求6所述基于强化学习的电气化铁路储能系统能量管理方法,其特征在于,通过t时刻的状态变量St以及动作at,对马尔科夫决策模型完成储能系统功率交换后的状态变量进行更新,从状态St至下一状态St+1的更新过程如式(21)~式(26):
St+1={Plc,t,Pess,t,Pps,t,SOCt+1,Qt+1} (21)
St+1(1)=Plc,t (22)
St+1(2)=Pess,t (23)
St+1(3)=Pps,t=Plc,t-Pess,t-Ploss,t (24)
式(21)~式(26)中,SOCt+1表示状态St+1下的储能系统荷电状态,Qt+1表示状态St+1下的储能系统的电荷量,Qtotal表示总电荷量,Eess表示储能系统电压。
8.根据权利要求7所述基于强化学习的电气化铁路储能系统能量管理方法,其特征在于,对Q价值函数进行更新的过程如式(27):
式(27)中,Qk+1(St,at)表示第k+1次迭代下的Q价值函数,Qk(St,at)表示第k次迭代下的Q价值函数,β表示学习因子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310213320.4A CN116316755B (zh) | 2023-03-07 | 2023-03-07 | 一种基于强化学习的电气化铁路储能系统能量管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310213320.4A CN116316755B (zh) | 2023-03-07 | 2023-03-07 | 一种基于强化学习的电气化铁路储能系统能量管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116316755A CN116316755A (zh) | 2023-06-23 |
CN116316755B true CN116316755B (zh) | 2023-11-14 |
Family
ID=86791917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310213320.4A Active CN116316755B (zh) | 2023-03-07 | 2023-03-07 | 一种基于强化学习的电气化铁路储能系统能量管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116316755B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117254570B (zh) * | 2023-11-15 | 2024-02-13 | 苏州元脑智能科技有限公司 | 一种能量回收方法、系统、介质、装置及服务器 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012131141A1 (es) * | 2011-03-31 | 2012-10-04 | Administrador De Infraestructuras Ferroviarias (Adif) | Sistema y procedimiento de control de carga de baterias desde el sistema electrico ferroviario |
CN107895960A (zh) * | 2017-11-01 | 2018-04-10 | 北京交通大学长三角研究院 | 基于强化学习的城轨交通地面式超级电容储能系统能量管理方法 |
CN112003269A (zh) * | 2020-07-30 | 2020-11-27 | 四川大学 | 并网型共享储能系统的智能化在线控制方法 |
CN112529727A (zh) * | 2020-11-06 | 2021-03-19 | 台州宏远电力设计院有限公司 | 基于深度强化学习的微电网储能调度方法及装置及设备 |
CN112598137A (zh) * | 2020-12-21 | 2021-04-02 | 西北工业大学 | 一种基于改进的Q-learning的最优决策方法 |
CN115169957A (zh) * | 2022-07-27 | 2022-10-11 | 广东电网有限责任公司 | 一种基于深度强化学习的配电网调度方法、装置及介质 |
CN115714382A (zh) * | 2022-11-23 | 2023-02-24 | 国网福建省电力有限公司经济技术研究院 | 一种基于安全强化学习的主动配电网实时调度方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102287233B1 (ko) * | 2019-11-21 | 2021-08-11 | 한국에너지기술연구원 | 다기능 에너지 저장 시스템 및 그 운영 방법 |
-
2023
- 2023-03-07 CN CN202310213320.4A patent/CN116316755B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012131141A1 (es) * | 2011-03-31 | 2012-10-04 | Administrador De Infraestructuras Ferroviarias (Adif) | Sistema y procedimiento de control de carga de baterias desde el sistema electrico ferroviario |
CN107895960A (zh) * | 2017-11-01 | 2018-04-10 | 北京交通大学长三角研究院 | 基于强化学习的城轨交通地面式超级电容储能系统能量管理方法 |
CN112003269A (zh) * | 2020-07-30 | 2020-11-27 | 四川大学 | 并网型共享储能系统的智能化在线控制方法 |
CN112529727A (zh) * | 2020-11-06 | 2021-03-19 | 台州宏远电力设计院有限公司 | 基于深度强化学习的微电网储能调度方法及装置及设备 |
CN112598137A (zh) * | 2020-12-21 | 2021-04-02 | 西北工业大学 | 一种基于改进的Q-learning的最优决策方法 |
CN115169957A (zh) * | 2022-07-27 | 2022-10-11 | 广东电网有限责任公司 | 一种基于深度强化学习的配电网调度方法、装置及介质 |
CN115714382A (zh) * | 2022-11-23 | 2023-02-24 | 国网福建省电力有限公司经济技术研究院 | 一种基于安全强化学习的主动配电网实时调度方法及装置 |
Non-Patent Citations (2)
Title |
---|
基于改进Q学习算法的储能系统实时优化决策研究;汪波 等;电气技术;第19卷(第02期);54-60,65 * |
基于深度强化学习的微能源网能量管理与优化策略研究;刘俊峰 等;电网技术;第44卷(第10期);3794-3803 * |
Also Published As
Publication number | Publication date |
---|---|
CN116316755A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111422094B (zh) | 分布式充电桩的充放电协调优化控制方法 | |
CN113103905B (zh) | 一种电动汽车智能充电分配调节方法、装置、设备及介质 | |
CN106228258A (zh) | 一种计及需求侧管理的家庭能源局域网能量优化控制方法 | |
CN116316755B (zh) | 一种基于强化学习的电气化铁路储能系统能量管理方法 | |
CN116001624A (zh) | 基于深度强化学习的一桩多联电动汽车有序充电方法 | |
CN110198042B (zh) | 一种电网储能的动态优化方法及存储介质 | |
CN110086187A (zh) | 计及负荷特性的储能调峰日前优化调度方法 | |
CN112238781B (zh) | 一种基于分层架构的电动汽车有序充电控制方法 | |
CN116436019B (zh) | 一种多资源协调优化方法、装置及存储介质 | |
CN112928767B (zh) | 一种分布式储能协同控制方法 | |
Zheng et al. | Optimal short-term power dispatch scheduling for a wind farm with battery energy storage system | |
Zhou et al. | A novel unified planning model for distributed generation and electric vehicle charging station considering multi-uncertainties and battery degradation | |
CN113824111A (zh) | 一种光储能场景中储能容量配置和调度方法 | |
CN113580984A (zh) | 一种电动汽车有序充电策略及其仿真方法 | |
CN117277392B (zh) | 一种面向配电系统弹性提升的应急资源优化配置方法 | |
CN109383323A (zh) | 一种电动汽车群的充放电优化控制方法 | |
CN114899856A (zh) | 一种电动汽车充电桩功率调节方法、系统、设备及介质 | |
CN113682203A (zh) | 基于燃料电池有轨电车全生命周期状态的能量调控方法 | |
CN114301095B (zh) | 一种基于多能源分布式无线岸电系统的ppo2能量管理方法 | |
CN111680413A (zh) | 基于双层算法的有轨电车定时节能运行优化方法及其系统 | |
Zhao et al. | Research on personalized charging strategy of electric bus under time-varying constraints | |
CN116544995A (zh) | 基于云边协同的储能电池一致性充放电控制方法及系统 | |
CN114186811B (zh) | 一种微电网系统实时调度模型的构建方法及应用 | |
CN114498692A (zh) | 一种基于模糊控制的电气化铁路储能系统能量管理方法 | |
CN118035254A (zh) | 基于prl的功率融通型牵引供电系统能量管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |