CN116316755B

CN116316755B - 一种基于强化学习的电气化铁路储能系统能量管理方法

Info

Publication number: CN116316755B
Application number: CN202310213320.4A
Authority: CN
Inventors: 罗嘉明; 高仕斌; 韦晓广; 刘帝洋; 雷杰宇; 张敬凯; 罗嘉逸
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2023-03-07
Filing date: 2023-03-07
Publication date: 2023-11-14
Anticipated expiration: 2043-03-07
Also published as: CN116316755A

Abstract

本发明公开了一种基于强化学习的电气化铁路储能系统能量管理方法，所述储能系统能量管理方法包括离线预训练以及在线更新，所述电气化铁路储能系统中的能量管理系统通过接收二次设备的信息，向铁路功率调节器以及DC/DC变换器发出控制信号，实现储能系统功率交换；该方法建立了电气化铁路能量管理的马尔科夫决策模型，采用强化学习算法求解各种工况下的最优动作序列，通过对蒙特卡洛抽样过程进行改进以提升收敛速度，控制储能系统与牵引供电系统之间进行自适应功率交换，能够有效提升再生制动能量的利用效率，同时具有在线更新的能力，可实现在不同的系统间进行迁移。

Description

一种基于强化学习的电气化铁路储能系统能量管理方法

技术领域

本发明属于电气化铁路技术领域，具体涉及一种基于强化学习的电气化铁路储能系统能量管理方法。

背景技术

随着电气化铁路规模的扩大，电力机车能耗高、功率波动大等问题逐渐显现。在全球节能减排的背景下，如何降低牵引能耗成为亟待解决的问题，而储能技术的发展提供了新的思路。当前，牵引供电系统的能量管理策略主要包括基于电压的能量管理策略与基于功率的能量管理策略等。在城市轨道交通领域，由于牵引功率相对较小、供电电压相对较低，通常采用基于电压的能量管理策略。此类策略以稳定牵引网电压为目标，以牵引网电压为判据控制储能系统完成充放电；但电气化铁路牵引功率巨大，且供电制式不同，网压变动更为剧烈，采用基于电压的能量管理策略并不合适。而基于功率的能量管理策略则通过将采样功率与充放电阈值进行比较，从而控制储能系统进行充电或放电；此类方法的本质均为针对不同的工况设计不同的充放电阈值来控制系统的能量交换。然而由于行车方式每天都会发生变化，导致基于固定阈值的能量管理策略灵活性较差，同时只能适配特定变电所。因此，如何设计高效协调外部电力系统、电力机车和储能系统的策略成为系统运行的关键所在。

当前针对电气化铁路储能式牵引变电所在线能量管理研究尚处于起步阶段。专利《储能装置放电阈值的确定方法、装置、终端及存储介质》(公开号：CN111628514A)提出了一种电气化铁道储能系统放电阈值确定方法从而实现自适应效果，但该方法预测间隔时间较长且不具备迁移能力；专利《一种电气化铁路储能式牵引供电系统及其控制方法》(公开号：CN110829435A)提出了一种应用于单相交流牵引供电系统，可以实现再生制动能量高效利用和系统容量优化配置的方案，但没有自适应控制效果，且灵活性不足；专利《基于强化学习的城轨交通储能系统能量管理方法》(公开号：CN107895960B)提出了一种基于强化学习的能量管理方法，能够实现节能效果和稳压效果的优化，但该方案没有考虑空闲工况对收敛速度的影响，由于供电制式的不同无法直接应用于电气化铁路。

发明内容

为克服现有技术的缺陷，本发明提出一种基于强化学习的电气化铁路储能系统能量管理方法，该方法建立了马尔科夫决策模型，利用基于能量的蒙特卡洛抽样过程来选取训练数据，将抽取的训练数据输入到马尔科夫决策模型中，采用强化学习算法进行求解，得到最优动作序列；该方法通过对蒙特卡洛抽样过程进行改进以提升收敛速度，控制储能系统与牵引供电系统进行自适应功率交换，能够有效提升再生制动能量的利用效率，具有在线更新的能力，可实现在不同的系统间进行迁移。

本发明的目的可以通过以下技术方案来实现：

一种基于强化学习的电气化铁路储能系统能量管理方法，所述电气化铁路储能系统结构包括牵引供电系统、外部电力系统、单相降压变压器、LCL型滤波器、铁路功率调节器、二次设备、能量管理系统以及储能系统，其中牵引供电系统采用单相交流工频供电制式，储能系统(电力机车)与牵引变电所两侧供电臂的接触线与钢轨连接，通过单相降压变压器后接入LCL型滤波器，再接入铁路功率调节器装置，从铁路功率调节器的直流母线引出馈线，与储能系统直流母线连接，再从直流母线引出馈线，接入DC/DC变换器，最后与储能系统连接；

所述储能系统能量管理方法包括离线预训练以及在线更新，所述电气化铁路储能系统中的能量管理系统通过接收二次设备的信息，向铁路功率调节器以及DC/DC变换器发出控制信号，实现储能系统功率交换；

所述离线预训练具体包括以下步骤：

S111：建立马尔科夫决策模型，载入训练功率数据以及储能系统荷电初始状态数据，所述马尔科夫决策模型根据电力机车功率、储能系统交换功率、电力系统与牵引供电系统的交换功率、储能系统荷电状态以及储能系统电荷量，建立状态变量S、动作A、奖励R、回报G及策略π的数学模型；

S112：通过基于能量的蒙特卡洛抽样过程抽取训练功率片段，将所述训练功率片段输入马尔科夫决策模型中，获取初始状态变量；

S113：采用基于Q-learning智能体的强化学习算法，根据Q价值函数求解所述马尔科夫决策模型，获取最优决策即最优动作序列，计算功率交换结果，控制储能系统进行功率交换；其中Q-learning智能体会观测当前的状态及奖励，自动评判当前状态及动作的好坏，并做出相应决策，与环境进行交互；

S114：判断是否执行搜索策略；

S115：检查决策是否满足马尔科夫决策模型的约束条件，若不是最后一组数据，完成储能系统功率交换后对状态变量进行更新，同时更新Q价值函数，完成训练后存储Q价值函数，进入下一循环；

所述在线更新具体包括以下步骤：

S121：载入所述离线预训练获取的Q价值函数；

S122：读取二次设备采样数据后载入马尔科夫决策模型，更新状态变量；

S123：采用基于Q-learning智能体的强化学习算法，根据Q价值函数求解所述马尔科夫决策模型，获取最优决策，计算功率交换结果，控制储能系统进行功率交换；

S124：完成储能系统功率交换后，对Q价值函数进行更新并存储；

S125：收到停止指令后结束，若未收到停止指令，重复S121～S124，所述指令由人工判断后发出信号。

进一步的，所述马尔科夫决策模型用于描述能量管理系统的决策流程，将最优动作序列转换为最优价值函数来进行表示，所述状态变量S通过如式(1)所示t时刻的状态变量S_t来描述：

S_t＝{P_lc,t-Δt,P_ess,t-Δt,P_ps,t-Δt,SOC_t,Q_t} (1)

式(1)中，P_lc,t-Δt表示t-Δt时刻的机车功率，P_ess,t-Δt表示t-Δt时刻的储能系统交换功率，P_ps,t-Δt表示t-Δt时刻电力系统与牵引供电系统的交换功率，SOC_t表示t时刻的储能系统荷电状态，Q_t表示t时刻的储能系统的电荷量，Δt表示采样时间间隔；

将最大充电功率与最大放电功率分别按照c个梯度进行划分，每个功率梯度对应不同的动作，将所述动作A采用公式(2)描述：

A＝{a₁,...,a_c,a_c+1,a_c+2,...,a_2c+1} (2)

式(2)中，a₁,...,a_c表示储能系统充电状态下的动作，a_c+1表示储能系统空闲状态下的动作，a_c+2,...,a_2c+1表示储能系统放电状态下的动作；

第d种功率梯度下储能系统的交换功率计算如式(3)所示：

式(3)中，表示储能系统最大充电功率，/>表示储能系统最大放电功率；

所述奖励R通过采用在S_t状态下采用动作a_t的奖励R(S_t,a_t)描述，如式(4)所示：

R(S_t,a_t)＝r_con(S_t,a_t)+r_soc(S_t)+r_re(S_t,a_t)+r_peak(S_t,a_t)+r_en(a_t) (4)

式(4)中，r_con表示工况选择奖励，r_soc表示荷电状态奖励r_soc，r_re表示空闲工况充电奖励，r_peak表示峰值功率削减奖励，r_en表示能量吸收奖励；

所述回报G通过采用在S_t状态下可获得的折扣奖励和的期望值G(S_t)描述，如式(5)所示：

式(5)中，γ^t表示S_t状态下的折扣因子，若决策的动作序列为最优动作序列，则可获得折扣奖励和的最大期望值G₀，如式(6)所示：

所述策略π通过S_t状态下采用动作a_t的概率π(S_t,a_t)描述，值得注意的是，在初始状态下，所有动作的抽样概率是相等的，随着强化学习算法的迭代，各类动作的抽样概率会发生变化。

进一步的，所述基于能量的蒙特卡洛抽样过程用于从训练数据中抽取具有更大训练价值的数据集，其中t时刻时间窗的能量比如式(7)：

式(7)中，m表示离线训练数据的长度，n表示数据窗的长度，P_lc,i表示数据窗起始功率点，i表示序号；

t时刻的训练数据采样概率p(P_lc,t)如式(8)：

概率分布函数F(P_lc,t)如式(9)：

设随机变量u^(t)是(0,1)区间的随机分布，起始功率点为j，通过对u^(t)进行随机采样，代入概率分布函数F(P_lc,t)的反函数F^-1(P_lc,t)中，即可求得起始功率点P_lc,j，如式(10)：

P_lc,j＝F^-1(u^j) (u^(t)～U(0,1)) (10)

如式(11)，可获取离线预训练时间窗功率序列：

P_lc＝{P_lc,j,P_lc,j+1,...,P_lc,j+n-1} (11)。

进一步的，所述Q价值函数Q(S_t,a_t)用于衡量在状态S_t下采取动作a_t的好坏，并通过采用贝尔曼方程进行更新，若在初始状态S₀下，强化学习的智能体根据策略π采取最优动作a₀，可以获取最优价值函数Q^*(S,a)，如式(12)：

所述基于Q-learning智能体根据Q价值函数的最大值来选取最优动作，从状态S_t至下一状态S_t+1的动作a_t可通过式(13)描述：

式(13)中，Q_k表示第k次迭代下的Q价值函数，a^*表示状态S_t下的最优动作。

进一步的，为避免智能体陷入局部最优的情况，在动作选择中采取了探索策略，并通过设置概率数值ε来判断是否执行动作探索策略，该动作探索策略具体包括以下步骤：

S61：随机生成一个范围在(0,1)的随机数rand(0,1)，将其与概率数值ε进行比较；

S62：若rand(0,1)≥ε，则智能体的动作保持不变，若rand(0,1)＜ε，则智能体随机抽取其他动作，动作的选择概率P(a)如式(14)：

进一步的，所述马尔科夫决策模型的约束条件包括功率平衡约束、储能系统功率爬坡约束、储能系统最大功率约束以及荷电状态约束；

所述功率平衡约束如式(15)～式(16)：

P_lc,t＝P_ess,t+P_ps,t-P_loss,t(P_lc,t＞0) (15)

P_lc,t＝P_ess,t+P_ps,t+P_loss,t(P_lc,t＜0) (16)

所述储能系统功率爬坡约束如式(17)：

所述储能系统最大功率约束如式(18)～式(19)：

所述荷电状态约束如式(20)：

SOC^min≤SOC_t≤SOC^max (20)

式(15)～式(20)中，P_lc,t表示t时刻机车功率，P_ess,t表示储能系统交换功率为，P_ps,t表示牵引供电系统与外部电力系统交换功率，P_loss,t表示传输损失功率，表示储能系统充电爬坡限制功率，/>表示储能系统放电爬坡限制功率，/>表示储能系统最大充电功率，/>表示储能系统最大放电功率，SOC^max表示最大工作荷电状态，SOC^min表示最小工作荷电状态，SOC_t表示t时刻储能系统荷电状态。

进一步的，通过t时刻的状态变量S_t以及动作a_t，对马尔科夫决策模型完成储能系统功率交换后的状态变量进行更新，从状态S_t至下一状态S_t+1的更新过程如式(21)～式(26)：

S_t+1＝{P_lc,t,P_ess,t,P_ps,t,SOC_t+1,Q_t+1} (21)

S_t+1(1)＝P_lc,t (22)

S_t+1(2)＝P_ess,t (23)

S_t+1(3)＝P_ps,t＝P_lc,t-P_ess,t-P_loss,t (24)

式(21)～式(26)中，SOC_t+1表示状态S_t+1下的储能系统荷电状态，Q_t+1表示状态S_t+1下的储能系统的电荷量，Q_total表示总电荷量，E_ess表示储能系统电压。

进一步的，对Q价值函数进行更新的过程如式(27)：

式(27)中，Q_k+1(S_t,a_t)表示第k+1次迭代下的Q价值函数，Q_k(S_t,a_t)表示第k次迭代下的Q价值函数，β表示学习因子。

与现有技术相比，本发明具有以下技术效果：

(1)能够实现动态自适应充电及放电，并实时对充放电策略进行调整，能更好的利用再生制动能量，发挥削峰填谷的效果；

(2)基于能量抽取出具有更高训练价值的功率片段，可以有效提升训练效率，加快强化学习的训练速度；

(3)具有良好的系统迁移能力，通过对价值函数的自动更新，可以自动适配不同的牵引变电所而无需重新训练。

附图说明

图1为本发明电气化铁路储能系统结构图；

图2为离线预训练流程示意图；

图3为在线更新流程示意图；

图4为牵引变电所测量功率图；

图5为采用不同算法的Q价值函数矩阵2范数图；

图6为储能系统功率输出图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

一种基于强化学习的电气化铁路储能系统能量管理方法，如图1所示，所述电气化铁路储能系统结构包括牵引供电系统、外部电力系统、单相降压变压器、LCL型滤波器、铁路功率调节器、二次设备、能量管理系统以及储能系统，其中牵引供电系统采用单相交流工频供电制式，储能系统(电力机车)与牵引变电所两侧供电臂的接触线与钢轨连接，通过单相降压变压器后接入LCL型滤波器，再接入铁路功率调节器装置，从铁路功率调节器的直流母线引出馈线，与储能系统直流母线连接，再从直流母线引出馈线，接入DC/DC变换器，最后与储能系统连接；所述储能系统能量管理方法包括离散预训练以及在线更新，所述电气化铁路储能系统中的能量管理系统通过接收二次设备的信息，向铁路功率调节器以及DC/DC变换器发出控制信号，实现储能系统功率交换；

如图2所示，所述离散预训练具体包括以下步骤：

S112：设定离线训练次数，通过基于能量的蒙特卡洛抽样过程抽取训练功率片段，将所述训练功率片段输入马尔科夫决策模型中，获取初始状态变量；

S114：判断是否执行搜索策略；

如图3所示，所述在线更新具体包括以下步骤：

S121：载入所述离线预训练获取的Q价值函数；

所述马尔科夫决策模型用于描述能量管理系统的决策流程，将最优动作序列转换为最优价值函数来进行表示，所述状态变量S通过如式(1)所示t时刻的状态变量S_t来描述：

S_t＝{P_lc,t-Δt,P_ess,t-Δt,P_ps,t-Δt,SOC_t,Q_t} (1)

A＝{a₁,...,a_c,a_c+1,a_c+2,...,a_2c+1} (2)

第d种功率梯度下储能系统的交换功率计算如式(3)所示：

所述基于能量的蒙特卡洛抽样过程用于从训练数据中抽取具有更大训练价值的数据集，其中t时刻时间窗的能量比如式(7)：

t时刻的训练数据采样概率p(P_lc,t)如式(8)：

概率分布函数F(P_lc,t)如式(9)：

P_lc,j＝F^-1(u^j) (u^(t)～U(0,1)) (10)

如式(11)，可获取离线预训练时间窗功率序列：

P_lc＝{P_lc,j,P_lc,j+1,...,P_lc,j+n-1} (11)。

所述Q价值函数Q(S_t,a_t)用于衡量在状态S_t下采取动作a_t的好坏，并通过采用贝尔曼方程进行更新，若在初始状态S₀下，强化学习的智能体根据策略π采取最优动作a₀，可以获取最优价值函数Q^*(S,a)，如式(12)：

为避免智能体陷入局部最优的情况，在动作选择中采取了探索策略，并通过设置概率数值ε来判断是否执行动作探索策略，该动作探索策略具体包括以下步骤：

所述马尔科夫决策模型的约束条件包括功率平衡约束、储能系统功率爬坡约束、储能系统最大功率约束以及荷电状态约束；

所述功率平衡约束如式(15)～式(16)：

P_lc,t＝P_ess,t+P_ps,t-P_loss,t(P_lc,t＞0) (15)

P_lc,t＝P_ess,t+P_ps,t+P_loss,t(P_lc,t＜0) (16)

所述储能系统功率爬坡约束如式(17)：

所述储能系统最大功率约束如式(18)～式(19)：

所述荷电状态约束如式(20)：

SOC^min≤SOC_t≤SOC^max (20)

通过t时刻的状态变量S_t以及动作a_t，对马尔科夫决策模型完成储能系统功率交换后的状态变量进行更新，从状态S_t至下一状态S_t+1的更新过程如式(21)～式(26)：

S_t+1＝{P_lc,t,P_ess,t,P_ps,t,SOC_t+1,Q_t+1} (21)

S_t+1(1)＝P_lc,t (22)

S_t+1(2)＝P_ess,t (23)

S_t+1(3)＝P_ps,t＝P_lc,t-P_ess,t-P_loss,t (24)

对Q价值函数进行更新的过程如式(27)：

本发明假设电气化铁路储能系统采用电池为储能介质，图1中电气化铁路储能系统的系统参数如表1所示。

表1储能系统参数表

如表2所示，以某牵引变电所的一日牵引功率曲线作为测试数据，得到的牵引变电所的测量功率如图4所示。

表2牵引变电所功率参数表

Q价值函数矩阵存储的数据代表强化学习算法通过迭代所学习的信息，如图5所示，本发明以不同算法的Q价值函数矩阵2范数来衡量Q价值函数矩阵所存储的信息的多少；可以看出，与传统强化学习算法相比，本发明方法收敛速度明显快于传统强化学习算法，且两种算法的收敛极限基本相同，说明了采用本发明所提出的方法可提高强化学习的收敛速度。

如表3所示，与模糊逻辑控制方法、固定阈值控制方法相比，本发明方法的能量回馈效率分别高出14.52％、13.62％，同时接触网平均牵引功率仅为2.59MW，削峰填谷的能力明显高于其他三种方法，具有良好的控制性能。

表3数值仿真功率参数信息表

从图6可以看出，本发明电气化铁路储能系统功率可以随机车牵引功率的变化进行自适应充放电，可以有效发挥削峰填谷的作用。

另外，为验证本发明控制方法的迁移能力，将上述仿真过程的参数直接移植到另一牵引变电所的训练数据，以模拟现实情况下同一套能量管理方法在不同牵引变电所中的表现情况。如表4所示为数值仿真功率参数信息，可以看出，本发明方法在各项参数上明显优于模糊逻辑控制方法及固定阈值控制方法，略优于普通强化学习控制方法，具有较好的迁移能力。

表4数值仿真功率参数信息表

/>

Claims

1.一种基于强化学习的电气化铁路储能系统能量管理方法，其特征在于，所述储能系统能量管理方法包括离线预训练以及在线更新，所述电气化铁路储能系统中的能量管理系统通过接收二次设备的信息，向铁路功率调节器以及DC/DC变换器发出控制信号，实现储能系统功率交换；

所述离线预训练具体包括以下步骤：

S_t＝{P_lc,t-Δt,P_ess,t-Δt,P_ps,t-Δt,SOC_t,Q_t} (1)

A＝{a₁,...,a_c,a_c+1,a_c+2,...,a_2c+1} (2)

第d种功率梯度下储能系统的交换功率计算如式(3)所示：

所述策略π通过S_t状态下采用动作a_t的概率π(S_t,a_t)描述；

S113：采用基于Q-learning智能体的强化学习算法，根据Q价值函数求解所述马尔科夫决策模型，获取最优决策，计算功率交换结果，控制储能系统进行功率交换；

S114：判断是否执行搜索策略；

S115：检查决策是否满足马尔科夫决策模型的约束条件，完成储能系统功率交换后对状态变量进行更新；

所述在线更新具体包括以下步骤：

S121：载入所述离线预训练获取的Q价值函数Q(S_t,a_t)；

S125：收到停止指令后结束，若未收到停止指令，重复S121～S124。

2.根据权利要求1所述基于强化学习的电气化铁路储能系统能量管理方法，其特征在于，所述基于能量的蒙特卡洛抽样过程用于从训练数据中抽取具有更大训练价值的数据集，其中t时刻时间窗的能量比如式(7)：

t时刻的训练数据采样概率p(P_lc,t)如式(8)：

概率分布函数F(P_lc,t)如式(9)：

P_lc,j＝F^-1(u^j) (u^(t)～U(0,1)) (10)

如式(11)，可获取离线预训练时间窗功率序列：

P_lc＝{P_lc,j,P_lc,j+1,...,P_lc,j+n-1} (11)。

3.根据权利要求2所述基于强化学习的电气化铁路储能系统能量管理方法，其特征在于，所述Q价值函数Q(S_t,a_t)用于衡量在状态S_t下采取动作a_t的好坏，并通过采用贝尔曼方程进行更新，若在初始状态S₀下，强化学习的智能体根据策略π采取最优动作a₀，可以获取最优价值函数Q^*(S,a)，如式(12)：

4.根据权利要求3所述基于强化学习的电气化铁路储能系统能量管理方法，其特征在于，所述基于Q-learning智能体根据Q价值函数的最大值来选取最优动作，从状态S_t至下一状态S_t+1的动作a_t可通过式(13)描述：

5.根据权利要求4所述基于强化学习的电气化铁路储能系统能量管理方法，其特征在于，通过设置概率数值ε来判断是否执行动作探索策略，该动作探索策略具体包括以下步骤：

6.根据权利要求5所述基于强化学习的电气化铁路储能系统能量管理方法，其特征在于，所述马尔科夫决策模型的约束条件包括功率平衡约束、储能系统功率爬坡约束、储能系统最大功率约束以及荷电状态约束；

所述功率平衡约束如式(15)～式(16)：

P_lc,t＝P_ess,t+P_ps,t-P_loss,t(P_lc,t＞0) (15)

P_lc,t＝P_ess,t+P_ps,t+P_loss,t(P_lc,t＜0) (16)

所述储能系统功率爬坡约束如式(17)：

所述储能系统最大功率约束如式(18)～式(19)：

所述荷电状态约束如式(20)：

SOC^min≤SOC_t≤SOC^max (20)

7.根据权利要求6所述基于强化学习的电气化铁路储能系统能量管理方法，其特征在于，通过t时刻的状态变量S_t以及动作a_t，对马尔科夫决策模型完成储能系统功率交换后的状态变量进行更新，从状态S_t至下一状态S_t+1的更新过程如式(21)～式(26)：

S_t+1＝{P_lc,t,P_ess,t,P_ps,t,SOC_t+1,Q_t+1} (21)

S_t+1(1)＝P_lc,t (22)

S_t+1(2)＝P_ess,t (23)

S_t+1(3)＝P_ps,t＝P_lc,t-P_ess,t-P_loss,t (24)

8.根据权利要求7所述基于强化学习的电气化铁路储能系统能量管理方法，其特征在于，对Q价值函数进行更新的过程如式(27)：