CN117973538B

CN117973538B - 一种基于多所博弈的融通型牵引供电系统能量管理方法

Info

Publication number: CN117973538B
Application number: CN202410127987.7A
Authority: CN
Inventors: 高仕斌; 罗嘉明; 韦晓广; 雷杰宇; 刘帝洋; 张敬凯; 富嘉兴
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2024-01-30
Filing date: 2024-01-30
Publication date: 2024-08-06
Anticipated expiration: 2044-01-30
Also published as: CN117973538A

Abstract

本发明公开了一种基于多所博弈的融通型牵引供电系统能量管理方法，所述能量管理方法基于电气化铁路能量管理过程的马尔科夫决策模型以及多变电所协同工作过程的能量管理数学模型；该方法可根据电力机车的实时功率需求动态调节融通型牵引供电系统的运行方式，实现多变电所在独立运行方式以及协同运行方式下的自适应能量交换；各牵引变电所在能量管理系统的控制下既可独立运行也可协同运行，扩大了能量的传导范围，同时多所博弈算法解决了多所协同下的动态功率自适应分配问题，具有良好的控制效果。

Description

一种基于多所博弈的融通型牵引供电系统能量管理方法

技术领域

本发明涉及电气化铁路技术领域，具体涉及一种基于多所博弈的融通型牵引供电系统能量管理方法。

背景技术

电气化铁路作为关乎国民经济发展的重要交通运输方式，具有运量大、速度快、成本低等优势。牵引供电系统作为驱动电力机车的唯一能量来源，其能量消耗高、冲击功率大等问题逐渐显现。因此，如何降低牵引能耗，实现能量的高效利用对于铁路运行及社会发展具有重要的现实意义。传统牵引供电系统由于电分相的存在，导致能量只能在一个供电臂内进行流动；同时，由于未装配储能装置，导致多余电力机车再生制动能量无法被消纳，从而造成浪费。针对以上问题，功率融通型牵引供电系统在电分相及分区所处增设功率融通装置，并在牵引变电所的功率融通装置的直流母线上接入储能系统。然而，功率融通装置及储能系统的加入使得新型牵引供电的用电方式发生了变化，能量管理系统如何高效协调多个牵引变电所的功率融通装置及储能系统成为了新的问题。

目前，针对融通型牵引供电系统的能量管理方法研究尚处起步阶段。在能量管理范围方面，目前主流能量管理方法主要聚焦于单个变电所层面的运行，缺乏相邻牵引变电所的功率支援，并未充分利用融通型牵引供电系统的跨时空调配能量的能力；在能量管理原理方面，目前方法以规则类方式主导，例如：城市轨道交通领域普遍以牵引网网压为判据，根据网压来控制储能系统的充放电电流；在交流牵引供电领域以电力机车功率为判据，通过设定功率阈值来控制系统充放电。然而，固定的充放电曲线会造成系统运行的灵活性不足，同时，由于铁路运行图的变化，牵引供电系统每日的运行状态并不相同，导致规则类方式灵活性不足，且需要针对单一牵引变电所进行适配，不具备迁移能力。因此，对于融通型牵引供电系统，急需建立协同自适应的能量管理方法。

根据公开专利信息显示，当前对于功率融通型牵引供电系统的能量管理方法研究尚处于起步阶段。专利《一种电气化铁路储能式牵引供电系统及其控制方法》(公开号：CN110829435A)提出了一种应用于单相交流牵引供电系统，可以实现再生制动能量高效利用和系统容量优化配置的方案，但该方法灵活性不足，没有自适应控制效果；专利《储能装置放电阈值的确定方法、装置、终端及存储介质》(公开号：CN111628514A)提出了一种电气化铁道储能系统放电阈值确定方法，但无法实现多个牵引变电所的协同供能，只能实现对单一系统的控制，且自适应效果有限；专利《一种基于强化学习的电气化铁路储能系统能量管理方法》(公开号：CN116316755B)提出了一种基于强化学习的能量管理方法，自适应效果较好，但仍然缺乏多个能量管理系统的交互机制。

发明内容

为克服现有技术的缺陷，本发明提出一种基于多所博弈的融通型牵引供电系统能量管理方法，该方法建立了多变电所协同工作过程的能量管理数学模型，基于该数学模型与已建立的马尔科夫决策模型，可将融通型牵引供电系统划分为独立运行工况与协同运行工况，并由强化学习算法进行决策，实现在多变电所独立运行方式下以及协同运行方式下的自适应充放电。

本发明的目的可以通过以下技术方案来实现：

一种基于多所博弈的融通型牵引供电系统能量管理方法，基于电气化铁路能量管理过程的马尔科夫决策模型以及多变电所协同工作过程的能量管理数学模型，通过判断电力机车的实时功率需求，动态调节融通型牵引供电系统的运行方式，实现多变电所在独立运行方式以及协同运行方式下的自适应能量交换；

所述能量管理方法包括以下步骤：

S1：马尔可夫决策模型中载入离散训练得到的动作-状态价值矩阵；

S2：建立基于多变电所协同工作过程的能量管理数学模型；

S3：读取二次设备数据并载入马尔可夫决策模型以及能量管理数学模型；

S4：基于能量管理数学模型，获取各牵引供电系统的状态变量优化值，根据独立运行工况的判别条件以及协同运行工况的判别条件，判断所述融通型牵引系统的运行工况；

S5：若判断为独立运行工况时，则执行基于强化学习算法得到的动作-状态价值函数矩阵进行决策，控制储能系统进行功率交换并更新系统参数，以独立完成功率分配和储能充放电任务；

S6：若判断为协同运行工况时，则执行基于多所博弈算法进行功率博弈至纳什均衡，根据博弈结果控制储能系统进行功率交换并更新系统参数，以实现多变电所之间的能量管理和功率分配；

S7：更新系统参数，执行功率交换，循环步骤S4至S6，直到系统接收到停止指令后结束运行。

所述能量管理方法用于动态调节多个牵引变电所在独立运行和协同运行工况下与电力机车之间的能量交换过程，使得融通型牵引供电系统能够灵活地切换运行模式，根据实时功率需求和系统状态，有效地进行能量管理，以提高能源利用效率和保障电力供应的稳定性。

进一步的，所述基于多变电所协同工作过程的能量管理数学模型包括能量管理目标以及能量管理约束；

所述能量管理目标包括储能系统能量吸收效率最大化、储能系统能量回馈效率最大化以及平均牵引功率最小化；

所述储能系统能量吸收效率最大化可表示如式(1)：

式(1)中，e_ab％为储能系统能量吸收效率，X为牵引变电所总数，Y为供电臂总数，M为采样时间窗总数，N为每个采样时间窗的数据点总数，x为牵引变电所序号，y为供电臂序号，i为时间窗序号，j为采样点序号，η_ce为储能系统充电效率，为第x个牵引变电所储能系统的电压，为第x个牵引变电所储能系统的充电电流，为第x个牵引变电所的空闲状态补能功率，为第y个供电臂下的电力机车再生制动功率和；

所述储能系统能量回馈效率最大化可表示如式(2)：

式(2)中，e_tr％为储能系统能量回馈效率，η_de为储能系统放电效率，为第x个牵引变电所储能系统的放电电流，为第y个供电臂下的电力机车牵引功率和；

所述平均牵引功率最小化可表示如式(3)：

式(3)中，P_ave为平均牵引功率，Δt为采样时间间隔。

进一步的，所述能量管理约束包括多牵引变电所功率平衡约束、电力机车能量平衡约束、储能系统能量平衡约束、储能系统功率爬坡约束、储能系统最大放电功率约束、储能系统最大充电功率约束以及储能系统荷电状态约束；

所述多牵引变电所功率平衡约束描述如式(4)：

式(4)中，为第x个牵引变电所与该所连接的外部电力系统的交换功率，为第y个供电臂下的电力机车功率和；

所述电力机车能量平衡约束描述如式(5)：

所述储能系统能量平衡约束描述如式(6)：

式(6)中，为第x个牵引变电所的储能系统交换功率；

所述储能系统功率爬坡约束描述如式(7)：

式(7)中，t与t+1为两个相邻的采样时间点，为单位时间内储能系统所允许的最大交换能量；

所述储能系统最大放电功率约束描述如式(8)：

式(8)中，为储能系统最大放电功率；

所述储能系统最大充电功率约束描述如式(9)：

式(9)中，为储能系统最大充电功率；

所述储能系统荷电状态约束描述如式(10)：

式(10)中，SOC^x(t)为第x个牵引变电所的储能系统的荷电状态数值，和分别为储能系统最小荷电状态数值与最大荷电状态数值。

能量管理系统在运行时满足能量管理约束条件，同时根据能量管理目标，提升储能系统能量吸收效率以及储能系统能量回馈效率，降低平均牵引功率。

进一步的，利用Q-learning强化学习算法来求解所述基于电气化铁路能量管理过程的马尔科夫决策模型，获取当前状态下的最优动作，对动作-状态价值矩阵进行迭代更新。

进一步的，所述独立运行工况的判别条件如式(11)：

式(11)中，Y^x为第x个牵引变电所的供电臂总数。

独立运行工况下，供电臂下电力机车的功率和可以被单个储能系统完全供给/吸收，各牵引变电所的能量不通过分区所功率融通装置进行交换，电力机车能量由该机车所处的供电臂的牵引变电所及其储能设备进行供给，；

独立运行工况下，能量管理系统基于强化学习算法直接进行决策，输出满足约束条件的储能系统指导功率，控制系统根据储能系统指导功率控制DC/DC变换器的运行，从而实现能量管理系统对融通型牵引供电系统的控制。

进一步的，所述协同运行工况的判别条件如式(12)：

式(12)中，x₁和x₂为两个相邻的牵引变电所序号，和分别为与x₁和x₂直接连接的供电臂总数，和分别为x₁和x₂牵引变电所的储能系统的最大充电功率，和分别为x₁和x₂牵引变电所的储能系统的最大放电功率。

协同运行工况下，供电臂下电力机车的功率和无法被单个储能系统完全供给/吸收，牵引变电所的能量通过分区所功率融通装置进行交换，电力机车能量由该机车所处的供电臂的牵引变电所及最近的相邻牵引变电所共同承担；

协同运行工况下，能量管理系统会基于多所博弈算法进行决策，博弈算法的输出结果用于动作-状态价值函数矩阵的更新。

进一步的，所述多所博弈算法包括建立多所博弈算法模型以及对所述多所博弈算法模型进行求解，建立多所博弈算法模型具体包括以下步骤：

S81：确定各牵引变电所的能量管理系统作为博弈参与者，建立其相互间的博弈关系，并定义每个参与者的可能动作集合及相应的奖励函数；

S82：构建一个纳什均衡模型，该模型反映了在牵引供电系统中，各相邻牵引变电所的能量管理系统通过协同决策实现纳什均衡；其中每个牵引变电所的策略旨在最大化其奖励数值，而当系统达到纳什均衡状态时，任何一个能量管理系统无法通过单独改变策略来提高自己的奖励；

S83：以序号x的牵引变电所为参考点，建立包括所有牵引变电所在内的策略奖励数值矩阵，并计算在策略组合下每个变电所的奖励数值，确定每个变电所的最优策略和相应的奖励数值；

S84：以整个牵引供电系统的最大化预期回报为目标，形成全局最优的纳什均衡方程，结合各个变电所的策略概率分布函数与奖励函数，构建全局奖励期望模型；该奖励期望综合考虑所有牵引变电所能量管理系统的预期回报，以引导各变电所达到全局最优的能量分配；对于任一个牵引变电所能量管理系统，考虑其在全局最优条件下达成与其他所有牵引变电所的能量管理系统的纳什均衡，通过迭代博弈过程，调整其能量分配策略以最大化全局奖励期望。

S85：修改纳什均衡方程以适应全局最优条件，对最大动作-状态价值函数矩阵数值进行替换修正，通过迭代更新动作-状态价值函数矩阵，每个牵引变电所在纳什均衡及全局最优条件下修正各自的策略，确保在全局视角下达到预期的最优能量管理效果。

进一步的，基于多所博弈算法模型的功率博弈至纳什均衡的求解步骤包括：

S91：在牵引变电所之间建立主从博弈关系，其中直接连接牵引负荷的牵引变电所作为主系统，相邻支援变电所作为从系统，主系统根据动作的概率分布进行抽样来确定初始决策；

S92：主系统的初始决策信息通过通信线路传递给从系统，从系统依据主系统的决策，根据自身的动作-状态价值函数数值更新决策，旨在提升相应的奖励值；

S93：主从系统反复执行各自的决策过程，每次迭代都基于对方的最新策略进行调整，直到博弈过程达到预定的纳什均衡次数，从而形成稳定的策略组合；

S94：利用纳什均衡判据检验当前策略组合是否为纳什均衡的唯一解，若符合纳什均衡方程，则认定博弈决策为稳定，否则继续博弈过程；

S95：在存在多组可行的动作对的情况下，各能量管理系统的决策动作将交替重复，根据设定的期望标准，选择全局最优解，保证能量管理系统在达到博弈均衡的同时，实现整体的最佳功率分配；

S96：完成博弈后，根据最终的纳什均衡决策结果，控制储能系统执行功率交换，并更新系统参数，确保多变电所之间实现有效的能量管理和功率分配。

与现有技术相比，本发明具有以下技术效果：

(1)本发明可以实现多个牵引变电所的协同供电，有利于消纳更多再生制动能量，提升了能量的利用效率。

(2)本发明能够实现多个储能系统动态自适应充电及放电，并实时对充放电策略进行调整，能够更好的利用再生制动能量，发挥削峰填谷的作用。

(3)本发明可以实现相邻牵引变电所的自适应能量支援，通过博弈的方法动态调节支援功率的大小，具有较好的灵活性。

附图说明

图1为本发明融通型牵引供电系统结构图；

图2为本发明能量管理方法流程图；

图3为牵引变电所1测量功率图；

图4为牵引变电所2测量功率图；

图5为牵引变电所1交换功率图；

图6为牵引变电所2交换功率图；

图7为分区所交换功率图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

如图1所示，所述功率融通型牵引供电系统结构包括牵引供电系统、外部电力系统、牵引变电所1、铁路功率调节器1、储能系统1、分区所、铁路功率调节器2、牵引变电所2、铁路功率调节器3、储能系统2，功率融通型牵引供电系统采取单相工频交流供电制式，在牵引变电所内部安装功率融通设备，连接该牵引变电所的左右两个供电臂，储能系统经DC/DC变换器后接入功率融通装置的直流母线，同时在分区所仅装配功率融通装置，能量管理系统通过控制功率融通装置与DC/DC变换器完成能量交换。

如图2所示，所述能量管理方法包括以下步骤：

S1：马尔可夫决策模型中载入离散训练得到的动作-状态价值矩阵；所述马尔可夫决策模型包含状态变量动作奖励回报G及策略π，状态变量包含机车功率、储能系统交换功率、电力系统与牵引供电系统的交换功率、储能系统荷电状态、储能系统的电荷量；动作包含充电动作、空闲动作及放电动作三种动作，充电动作与放电动作分别以储能系统最大充放电功率为基准，均划分为多个梯度，每个梯度代表该功率下的储能系统动作；奖励包括工况选择奖励、荷电状态奖励、峰值功率削减奖励、空闲工况充电奖励及能量吸收奖励；策略π取随机动作策略，所有动作的抽样概率相同；回报G为折扣奖励和的期望值。

S2：建立基于多变电所协同工作过程的能量管理数学模型；所述基于多变电所协同工作过程的能量管理数学模型包括能量管理目标以及能量管理约束；

所述储能系统能量吸收效率最大化可表示如式(S-1)：

式(S-1)中，e_ab％为储能系统能量吸收效率，X为牵引变电所总数，Y为供电臂总数，M为采样时间窗总数，N为每个采样时间窗的数据点总数，x为牵引变电所序号，y为供电臂序号，i为时间窗序号，j为采样点序号，η_ce为储能系统充电效率，为第x个牵引变电所储能系统的电压，为第x个牵引变电所储能系统的充电电流，为第x个牵引变电所的空闲状态补能功率，为第y个供电臂下的电力机车再生制动功率和；

所述储能系统能量回馈效率最大化可表示如式(S-2)：

式(S-2)中，e_tr％为储能系统能量回馈效率，η_de为储能系统放电效率，为第x个牵引变电所储能系统的放电电流，为第y个供电臂下的电力机车牵引功率和；

所述平均牵引功率最小化可表示如式(S-3)：

式(S-3)中，P_ave为平均牵引功率，Δt为采样时间间隔。

所述能量管理约束包括多牵引变电所功率平衡约束、电力机车能量平衡约束、储能系统能量平衡约束、储能系统功率爬坡约束、储能系统最大放电功率约束、储能系统最大充电功率约束以及储能系统荷电状态约束；

所述多牵引变电所功率平衡约束描述如式(S-4)：

式(S-4)中，为第x个牵引变电所与该所连接的外部电力系统的交换功率，为第y个供电臂下的电力机车功率和；

所述电力机车能量平衡约束描述如式(S-5)：

所述储能系统能量平衡约束描述如式(S-6)：

式(S-6)中，为第x个牵引变电所的储能系统交换功率；

所述储能系统功率爬坡约束描述如式(S-7)：

式(S-7)中，t与t+1为两个相邻的采样时间点，为单位时间内储能系统所允许的最大交换能量；

所述储能系统最大放电功率约束描述如式(S-8)：

式(S-8)中，为储能系统最大放电功率；

所述储能系统最大充电功率约束描述如式(S-9)：

式(S-9)中，为储能系统最大充电功率；

所述储能系统荷电状态约束描述如式(S-10)：

式(S-10)中，SOC^x(t)为第x个牵引变电所的储能系统的荷电状态数值，和分别为储能系统最小荷电状态数值与最大荷电状态数值。

S3：读取二次设备数据并载入马尔可夫决策模型以及能量管理数学模型；利用Q-learning强化学习算法来求解所述基于电气化铁路能量管理过程的马尔科夫决策模型，获取当前状态下的最优动作，对动作-状态价值矩阵进行迭代更新；Q-learning强化学习算法从状态至状态的动作如式(S-11)：

式(S-11)中，为第x个牵引变电所的系统状态，下一状态为为第t+1时刻迭代下的第x个牵引变电所的动作-状态价值矩阵，为第t时刻迭代下的第x个牵引变电所的动作-状态价值矩阵，为当前状态下的最优动作，A为动作的集合；

在求得当前状态下的最优动作后，能量管理系统还需要对动作-状态价值矩阵进行更新，动作-状态价值矩阵更新过程如式(S-12)：

式(S-12)中，为第t+1时刻迭代下的第x个牵引变电所的动作-状态价值矩阵，为当前状态下采取动作的奖励，α为学习因子，范围(0,1]，γ为折扣因子为，范围(0,1]，为第t时刻迭代下的第x个牵引变电所的动作-状态价值矩阵。

所述独立运行工况的判别条件如式(S-13)：

式(S-13)中，Y^x为第x个牵引变电所的供电臂总数。

所述协同运行工况的判别条件如式(S-14)：

式(S-14)中，x₁和x₂为两个相邻的牵引变电所序号，和分别为与x₁和x₂直接连接的供电臂总数，和分别为x₁和x₂牵引变电所的储能系统的最大充电功率，和分别为x₁和x₂牵引变电所的储能系统的最大放电功率。

独立运行工况下，供电臂下电力机车的功率和可以被单个储能系统完全供给/吸收，各牵引变电所的能量不通过分区所功率融通装置进行交换，电力机车能量由该机车所处的供电臂的牵引变电所及其储能设备进行供给；

协同运行工况下，供电臂下电力机车的功率和无法被单个储能系统完全供给/吸收，牵引变电所的能量通过分区所功率融通装置进行交换，电力机车能量由该机车所处的供电臂的牵引变电所及最近的相邻牵引变电所共同承担。

所述多所博弈算法包括建立多所博弈算法模型以及对所述多所博弈算法模型进行求解，建立多所博弈算法模型具体包括以下步骤：

纳什均衡模型如式(S-15)：

式(S-15)中，以序号x的牵引变电所为参考，其余变电所序号分别为1、2、…、x-1、x+1、x+2、…X-1、X，为在纳什均衡下各牵引变电所的能量管理系统的策略，为第x个牵引变电所在策略下的奖励数值；

全局奖励期望如式(S-16)：

式(S-16)中，-x为除序号为x的牵引变电所外其他所有牵引变电所序号的集合元素，为第x个牵引变电所能量管理系统在状态下的策略概率分布函数，为第x个牵引变电所能量管理系统在状态下采取动作的奖励；

如式(S-17)对纳什均衡方程进行改写：

如式(S-18)对最大动作-状态价值函数矩阵数值进行替换修正：

基于多所博弈算法模型的功率博弈至纳什均衡的求解步骤包括：

主系统的动作概率分布可以表示如式(S-19)：

式(S-19)中，为主系统的动作抽取概率函数，x₁为主系统所在牵引变电所的序号，x₂为从系统所在牵引变电所的序号，为主系统的动作-状态价值矩阵函数数值，为主系统所在的牵引变电所状态，为主系统的动作决策，为从系统的初始决策，为主系统的动作空间的元素，为从系统所在的牵引变电所的储能系统交换功率，为主系统动作空间维数。

S92：主系统的初始决策信息通过通信线路传递给从系统，从系统依据主系统的决策，根据自身的动作-状态价值函数数值更新决策，旨在提升相应的奖励值；从系统的对应动作的概率分布可以表示如式(S-20)：

式(S-20)中，为从系统的动作抽取概率函数，为从系统的动作-状态价值矩阵函数数值，为从系统所在的牵引变电所状态，为从系统的动作决策，为从系统的动作空间的元素，为从系统动作空间维数。

博弈过程可以表示如式(S-21)：

式(S-21)中，设需要k次博弈才能达到纳什均衡，分别为主系统第1次、第2次及第k次博弈输出的动作决策，为从系统初始动作决策，分别为从系统第1次、第k次博弈输出的动作决策；

纳什均衡判据表示如式(S-22)：

S95：若存在多组可行的动作对，各能量管理系统的决策动作将交替重复，根据设定的期望标准，选择全局最优解，保证能量管理系统在达到博弈均衡的同时，实现整体的最佳功率分配；判别条件如式(S-23)：

选择全局最优解，如式(S-24)：

针对图1所示的两个牵引变电所组成的融通型牵引供电系统，假设储能系统采用电池为储能介质，系统参数如表1所示。

表1系统参数表

如图3所示描述了牵引变电所1的测量功率，如图4所示描述了牵引变电所2的测量功率，利用表1和图3、图4中的数据来验证本发明提出的能量管理方法，通过仿真可得到两个牵引变电所及分区所的能量交换情况分别如图5、图6、图7所示。从图中可以看出，在高功率需求情况下，相邻能量管理系统将通过博弈的方式根据所需功率的大小动态调整支援功率。同时，相邻变电站的支援能量也会从分区所转移过来。在此策略下，牵引变电所1的平均牵引功率从4.4MW降至3.07MW，降幅达30.23％。同时，牵引供电系统与外部电力系统之间的总能量交换减少了8.6％，列车再生制动能量利用效率为93.29％，证明了该策略的经济优势。具体参数如表2所示。

表2能量管理方法仿真数据汇总表

与完全独立运行模式相比，整个系统的再生制动能量利用效率提高了5.94％，减少能量损失0.513MWh，两种模式的比较如表3所示。

表3本发明方法与完全独立运行模式参数比较

本发明提出的能量管理方法用于动态调节多个牵引变电所在独立运行和协同运行工况下与电力机车之间的能量交换过程，使得融通型牵引供电系统能够灵活地切换运行模式，根据实时功率需求和系统状态，有效地进行能量管理，以提高能源利用效率和保障电力供应的稳定性。

Claims

1.一种基于多所博弈的融通型牵引供电系统能量管理方法，其特征在于，所述能量管理方法基于电气化铁路能量管理过程的马尔科夫决策模型以及多变电所协同工作过程的能量管理数学模型，通过判断电力机车的实时功率需求，动态调节融通型牵引供电系统的运行方式，实现多变电所在独立运行方式以及协同运行方式下的自适应能量交换；

所述能量管理方法包括以下几个步骤：

S2：建立基于多变电所协同工作过程的能量管理数学模型；

S4：基于能量管理数学模型，获取各牵引供电系统的状态变量优化值，根据独立运行工况的判别条件以及协同运行工况的判别条件，判断融通型牵引系统的运行工况；

2.根据权利要求1所述基于多所博弈的融通型牵引供电系统能量管理方法，其特征在于，所述基于多变电所协同工作过程的能量管理数学模型包括能量管理目标以及能量管理约束；

3.根据权利要求2所述基于多所博弈的融通型牵引供电系统能量管理方法，其特征在于，所述储能系统能量吸收效率最大化可表示如式(1)：

所述储能系统能量回馈效率最大化可表示如式(2)：

所述平均牵引功率最小化可表示如式(3)：

式(3)中，P_ave为平均牵引功率，Δt为采样时间间隔。

4.根据权利要求3所述基于多所博弈的融通型牵引供电系统能量管理方法，其特征在于，所述多牵引变电所功率平衡约束描述如式(4)：

所述电力机车能量平衡约束描述如式(5)：

所述储能系统能量平衡约束描述如式(6)：

式(6)中，为第x个牵引变电所的储能系统交换功率；

所述储能系统功率爬坡约束描述如式(7)：

所述储能系统最大放电功率约束描述如式(8)：

式(8)中，为储能系统最大放电功率；

所述储能系统最大充电功率约束描述如式(9)：

式(9)中，为储能系统最大充电功率；

所述储能系统荷电状态约束描述如式(10)：

5.根据权利要求4所述基于多所博弈的融通型牵引供电系统能量管理方法，其特征在于，利用Q-learning强化学习算法来求解所述基于电气化铁路能量管理过程的马尔科夫决策模型，获取当前状态下的最优动作，对动作-状态价值矩阵进行迭代更新。

6.根据权利要求5所述基于多所博弈的融通型牵引供电系统能量管理方法，其特征在于，所述独立运行工况的判别条件如式(11)：

式(11)中，Y^x为第x个牵引变电所的供电臂总数。

7.根据权利要求6所述基于多所博弈的融通型牵引供电系统能量管理方法，其特征在于，所述协同运行工况的判别条件如式(12)：

8.根据权利要求7所述基于多所博弈的融通型牵引供电系统能量管理方法，其特征在于，所述多所博弈算法包括建立多所博弈算法模型以及对所述多所博弈算法模型进行求解，建立多所博弈算法模型具体包括以下步骤：

S82：构建一个纳什均衡模型，该模型反映了在牵引供电系统中，各相邻牵引变电所的能量管理系统通过协同决策实现纳什均衡；

S83：建立包括所有牵引变电所在内的策略奖励数值矩阵，并计算在策略组合下每个变电所的奖励数值，确定每个变电所的最优策略和相应的奖励数值；

S84：以整个牵引供电系统的最大化预期回报为目标，形成全局最优的纳什均衡方程，结合各个变电所的策略概率分布函数与奖励函数，构建全局奖励期望模型；

S85：修改纳什均衡方程以适应全局最优条件，对最大动作-状态价值函数矩阵数值进行替换修正，通过迭代更新动作-状态价值函数矩阵，每个牵引变电所在纳什均衡及全局最优条件下修正各自的策略。

9.根据权利要求8所述基于多所博弈的融通型牵引供电系统能量管理方法，其特征在于，基于多所博弈算法模型的功率博弈至纳什均衡的求解步骤包括：

S95：在存在多组可行的动作对的情况下，各能量管理系统的决策动作将交替重复，根据设定的期望标准，选择全局最优解，保证能量管理系统在达到博弈均衡的同时，实现整体最佳功率分配；