CN116027667A

CN116027667A - 一种基于深度强化学习的重联-动车组双弓协同控制方法

Info

Publication number: CN116027667A
Application number: CN202310043183.4A
Authority: CN
Inventors: 刘志刚; 王惠; 韩志伟
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2023-01-29
Filing date: 2023-01-29
Publication date: 2023-04-28

Abstract

本发明公开了一种基于深度强化学习的重联‑动车组双弓协同控制方法，具体为：信息采集单元获取受电弓状态信息、列车运行信息；建立控制器控制动作与接触网交互样本数据集；使用综合奖励约束持续平稳的行为策略；为量化前弓控制动作引发的接触网波动传播对后弓的影响，使用奖励传播通道建立双弓交互机制；基于所建立的交互样本数据集，利用多智能体深度强化学习网络学习最优行为策略；根据最优行为策略作为控制器，将控制器补偿动作输出受电弓气阀板上的精密调压阀从而控制气囊压强。本发明能有效对重联‑动车组前后弓的精准、提前控制，保证受电弓和接触网的良好接触，提升列车的受流质量，降低后弓的离线率；降低接触部件的磨损、提升服役寿命。

Description

一种基于深度强化学习的重联-动车组双弓协同控制方法

技术领域

本发明属于高速铁路受电弓的智能控制技术领域，尤其涉及一种基于深度强化学习的重联-动车组双弓协同控制方法。

背景技术

高速铁路的快速发展，对牵引供电系统的运行安全性提出了更高的要求。随着我国铁路往重载化和高速化方向发展，受电弓与接触网系统的耦合性能随着振动加剧现象日益恶化。为了增加运输能力，两个动车组经常串联组成重联-动车组。然而，由于单弓的电流容量限制，采用双受电弓同时收集电流。在这种情况下，后弓受到源自前弓并通过接触网传输的波动干扰。过大的接触力会导致受电弓滑板和接触线产生额外的应力和磨损，并降低系统的预期寿命。接触力不足会增加电弧发生的可能性，这可能会烧毁接触表面并导致电力传输问题。降低接触力波动不仅可以保证受电弓收集器和接触线之间良好的接触质量,还减少接触导线的疲劳失效和接触表面的磨损。与优化受电弓悬架系统或重构接触网所需要的昂贵成本相比，主动控制受电弓是更有价值和有效的选择。

发明内容

为实现对重联-动车组进行协同控制，避免接触线和受电弓碳滑板过度磨损，提高列车受流质量，保障列车安全。本发明提供一种基于深度强化学习的重联-动车组双弓协同控制方法。

本发明的一种基于深度强化学习的重联-动车组双弓协同控制方法，控制系统包括气囊、供气源、精密调压阀、控制器和信息采集单元；供气源连接气囊用于提供稳定气压，精密调压阀用于精确控制气囊压强，控制单元连接精密调压阀用于输出控制信号，信息采集单元用于采集控制器决策所用信息。控制方法具体包括以下步骤：

步骤1：信息采集单元获取受电弓状态信息、列车运行信息和接触网信息。

步骤2：建立控制器控制动作与接触网交互样本数据集。

步骤3：基于步骤2所建立的交互样本数据集，采用深度强化学习网络学习最优行为策略。

步骤4：根据步骤3的最优行为策略作为控制器，将控制器补偿动作输出受电弓气阀板上的精密调压阀从而控制气囊压强。

进一步的，步骤1中的受电弓状态信息包括受电弓升弓高度、弓头垂向速度、弓头垂向加速度和开闭口方向；列车运行信息包括列车运行速度。

进一步的，步骤2具体为：

步骤21：定义多智能体深度强化学习部分可观马尔可夫决策环境关键要素：(N,S,O,A,R,T,γ)；其中γ表示奖励的折扣系数，N＝1,2,...,n是智能体的数量；还包括观察空间O，状态空间S，动作空间A、奖励函数R和转移函数T。

(1)观察空间：观察空间是智能体能够观察到的状态信息，其表示为：

其中，d_ph,v_ph,a_ph表示受电弓升弓高度、弓头垂向速度、弓头垂向加速度，v_train表示列车运行信息。

(2)状态空间：状态空间包含所有智能体的观察空间，其表示为：

其中，

表示第i个智能体在t时间的观察信息，s_t表示总状态信息。

(3)动作空间：动作空间包含气囊气压变化的范围，其表示为：

A＝{a|a_min≤a_t≤a_max}

其中a_t表示智能体在t时间的动作，a_min表示气囊最小设定气压，a_max表示气囊最大设定气压。

(4)奖励函数：考虑到受电弓的优化目标和实际物理约束，在设计受电弓-悬链系统控制器时必须考虑以下因素：

波动损失r_fluc：智能体因弓网接触力波动而受到惩罚，该波动损失被定义为实际和参考弓网接触力F_refer之间差异的平方范数；

r_fluc＝||F_pc(t)-F_refer||²

式中，F_pc(t)表示时刻t的弓网接触力，F_refer表示最优参考接触力。

边界损失r_bound：边界损失表示为：

r_bound＝||a_t||²

式中，a_t表示时刻t的受电弓主动控制力。

平滑度损失r_smooth：震荡的控制力可能会导致受电弓关节磨损，平滑度损失r_smooth表示为：

r_smooth＝||a_t-1-a_t||²

综合以上损失或奖励，综合奖励函数r(t)用于奖励策略网络向最优策略收敛，其表达式如下：

r(t)＝r_fluc+c_boundr_bound+c_smoothr_smooth

其中，c_bound和c_smooth是用于平衡损失的权重系数，可以根据任务实际情况设置。综合奖励函数r(t)表示在一步状态转移过程中智能体得到的总奖励。

(5)转移函数；转移函数包含智能体进行状态转移的机理过程；在数值仿真实验中，他表示模型模拟的弓网动力学过程；在半实物实验台实验中，他表示实际受电弓-接触网交互的动力学过程。

步骤22：双弓网系统只能向一个方向移动，所以只有前弓会影响后弓受流，并且其影响可以根据其上下文进行量化；因此，使用奖励传播通道来复合反映代理之间相互作用的效果：

R_LP＝r_Lp+discount×r_Tp

R_Tp＝r_Tp

其中，r_Lp表示前弓在当前时间步的实际奖励，R_Lp表示前弓在当前时间步经过奖励传播加权后的最终奖励；r_Tp表示在当前时间步后弓的实际奖励，R_Tp表示在当前时间步后弓的最终奖励；discount参数用于量化前弓对后弓的影响，设置discount＝0.25。

步骤23：以运行线路参数和受电弓参数建立虚拟仿真平台生成虚拟仿真样本库。

步骤24：样本获取过程如下：智能体i获得当前时间步状态

并生成动作

给受电弓气阀板，气阀板执行控制后，深度强化学习网络获得奖励

和下一时间步受电弓状态

产生样本

并存储在数据库中，重复以上步骤直至训练结束。

步骤25：以运行线路参数和实际受电弓建立半实物半虚拟平台建立平台样本库，样本获取过程同步骤24。

进一步的，步骤3具体为：

步骤31：利用步骤2产生的2个样本库，轮流训练深度强化学习网络。

步骤32：步骤31的深度强化学习网络具有2个策略网络和1个评估网络；策略网络用于输出最优动作，评估网络用于评估策略网络输出的策略是否优秀，并指导其生成最优策略；策略网络和评估网络使用数据库中的样本训练。

步骤33：步骤32的策略网络输入智能体观察信息

输出最优动作

使用π表示策略网络，θ表示策略网络的参数，

表示第i个策略网络；从数据库中采样一批样本

训练策略网络。添加策略熵奖励S[π_θ]以确保智能体充分探索动作空间，从而产生结合策略损失和策略熵奖励的损失函数。总损失函数写成如下：

L(θ)＝E_t[L^CLIP(θ)+c₁S[π_θ]]

其中，c₁是权重系数，代表行为策略熵的重要性，设置c₁＝0.1；E_t表示对括号中的策略损失和熵奖励求期望。

使用裁剪代理目标函数L^CLIP(θ)更新策略：

其中，

表示优势函数，其利用价值函数V(s_t)计算，其中V(s_t)评估每个智能体在状态s_t的期望奖励。

表示新旧控制策略的差异；∈是用来决定新旧策略差异的距离约束的超参数，我们可以取∈＝0.2，使得其新旧策略差异在(0.8,1.2)之间。V(s_t)表示状态s_t的状态价值。λ表示优势函数估计的权重，在策略价值估计偏差和方差之间做出折衷。

步骤34：步骤33的评估网络输入联状态空间S，输出状态价值函数V(S)；使用V_φ表示价值函数，其评估每个智能体动作的优劣；价值函数是通过最小化TD误差来实现的，其平方误差损失函数如下：

L^VF(φ)＝[V_φ(s_t)-(r_t+V_φ(s_t+1))]²

其中V_φ(s_t)表示状态s_t在价值函数网络V_φ评估下的状态价值。

进一步的，步骤4具体为：前后弓接受控制器输出的设定气囊气压，并将设定气囊气压设定于受电弓气阀板上的精密调压阀从而控制气囊压强。

本发明和现有技术相比的有益技术效果为；

1.本发明通过深度强化学习方法对高铁受电弓的精准、提前控制，保证受电弓和接触网的良好接触，提升列车的受流质量，降低接触部件的磨损、提升服役寿命。

2.本发明重联-动车组双受电弓的波动传播特性，利用奖励传播通道智能化地进行双弓协同控制，有效的提升了后弓受流质量。

3.本发明方法能够有效约束受电弓，持续性地平稳、周期性的行为策略，优化列车受流条件。

附图说明

图1为本发明基于深度强化学习的重联-动车组双弓运行示意图。

图2为本发明单智能体部分可观马尔可夫决策过程环境定义。

图3为本发明马尔可夫决策过程。

图4为本发明的多智能体交互马尔可夫决策过程环境。

图5为本发明在建立虚拟仿真平台时所使用的受电弓模型。

图6为本发明在建立虚拟仿真平台时所使用的接触网模型。

图7为本发明建立平台样本库所建立的半实物半虚拟平台。

图8为本发明在所建立虚拟仿真平台时验证的前弓控制效果。

图9为本发明在所建立虚拟仿真平台时验证的后弓控制效果。

图10为本发明控制器输出的前后弓控制力时域和频域波形。

图11为本发明在所建立半实物半虚拟平台验证的后弓控制效果。

图12为本发明在所建立半实物半虚拟平台验证的控制前后前后弓控制力方差对比图。

图13为本发明在所建立半实物半虚拟平台验证的控制前后后弓离线率对比图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细说明。

本发明的一种基于深度强化学习的重联-动车组双弓协同控制方法，控制系统包括气囊、供气源、精密调压阀、控制器和信息采集单元；供气源连接气囊用于提供稳定气压，精密调压阀用于精确控制气囊压强，控制单元连接精密调压阀用于输出控制信号，信息采集单元用于采集控制器决策所用信息。控制方法如图1所示，具体包括以下步骤：

受电弓状态信息包括受电弓升弓高度、弓头垂向速度、弓头垂向加速度和开闭口方向；列车运行信息包括列车运行速度。

步骤2：建立控制器控制动作与接触网交互样本数据集。

A＝{a|a_min≤a_t≤a_max}

其中，a_min表示气囊最小设定气压，a_max表示气囊最大设定气压。

波动损失r_fluc：我们的主要目标是减少接触部件磨损，同时保持列车安全和低离线率。接触部分磨损的主要原因是弓网接触力过大或太小。智能体因弓网接触力波动而受到惩罚，该波动损失r_fluc被定义为实际和参考弓网接触力F_refer之间差异的平方范数；

r_fluc＝||F_pc(t)-F_refer||²

边界损失r_bound：在现实世界中，过度的基础升力会损坏受电弓底部的空气弹簧。以牺牲产品寿命为代价来保证平稳运行是不可行的。为确保基本提升力的可接受范围，必须限制基础提升力的大小。边界损失r_bound表示为：

r_bound＝||a_t||²

式中，a_t表示时刻t的受电弓主动控制力。

平滑度r_smooth损失：受电弓系统的基本升力不能任意改变。频繁变化的基础抬升力会对机械结构造成额外的磨损，甚至导致关节损坏。平滑度损失r_smooth表示为：

综合以上损失或奖励，综合奖励函数用于奖励策略网络向最优策略收敛，其表达式如下：

r＝r_fluc+c_boundr_bound+c_smoothr_smooth

(5)转移函数；转移函数包含智能体进行状态转移的机理过程；在仿真实验中，他表示模型模拟的弓网动力学过程；在半实物实验台实验中，他表示实际受电弓-接触网交互的动力学过程。

图2为本发明的马尔可夫决策过程环境定义，图3为本发明的马尔可夫决策过程，图4为本发明的双弓协同控制决策过程。

步骤22：双弓网系统(重联-动车组)是一个具有直接交互的多智能体系统。因为双弓网系统只能向一个方向移动，所以只有前弓会影响后弓受流，并且其影响可以根据其上下文进行量化；因此，使用奖励传播通道来复合反映代理之间相互作用的效果：

R_LP＝r_Lp+discount×r_Tp

R_Tp＝r_Tp

步骤24：样本获取过程如下：智能体i(前弓1，后弓2)获得当前时间步状态

并生成动作

和下一时间步受电弓状态

产生样本

并存储在数据库中，重复以上步骤直至训练结束。

步骤32：如图4所示，步骤31的深度强化学习网络具有2个策略网络和1个评估网络；策略网络用于输出最优动作，评估网络用于评估策略网络输出的策略是否优秀，并指导其生成最优策略；策略网络和评估网络使用数据库中的样本训练。

步骤33：步骤32的策略网络输入智能体观察信息

输出最优动作

使用π表示策略网络，θ表示策略网络的参数，π_θi表示第i个策略网络；从数据库中采样一批样本

训练策略网络，添加熵奖励S[π_θ]以确保代理充分探索，从而产生结合策略损失和熵损失的损失函数，总损失函数写成如下：

L(θ)＝E_t[L^CLIP(θ)+c₁S[π_θ]]

其中，c₁是权重系数，代表行为策略熵的重要性，设置c₁＝0.1；E_t表示对括号中的策略损失和熵损失求期望。

我们在优化策略网络π_θ时采用策略梯度方法优化，其通常通过最大化方程式中的损失函数L(θ)来优化。在没有约束的情况下最大化L(θ)会导致策略更新过大，从而导致次优策略或训练崩溃。因此，我们使用裁剪代理目标函数L^CLIP(θ)更新策略：

其中，

表示优势函数，其利用价值函数V(s_t)计算，其中V(s_t)评估每个智能体在状态s_t的期望奖励；

表示新旧控制策略的差异；ε是用来决定新旧策略差异的距离约束的超参数，取ε＝0.2，使得其新旧策略差异在(0.8,1.2)之间；V(s_t)表示状态s_t的状态价值；λ表示优势函数估计的权重，在策略价值估计偏差和方差之间做出折衷。

步骤34：步骤33的评估网络输入并联状态空间S，输出状态价值函数V(S)；使用V_φ表示价值函数，其评估每个智能体动作的优劣；价值函数是通过最小化TD误差来实现的，其平方误差损失函数如下：

L^VF(φ)＝[V_φ(s_t)-(r_t+V_φ(s_t+1))]²

接受控制器输出的设定气囊气压，并将设定气囊气压设定于受电弓气阀板上的精密调压阀从而控制气囊压强。

实施例

1、数据样本集建立。如图5、6所示，利用模型建立虚拟仿真平台，收集虚拟仿真样本库。如图7所示，以运行线路参数和实际受电弓建立半实物半虚拟平台，收集平台样本库。

2、虚拟仿真平台控制策略训练。根据如上建立的数据样本，利用深度强化学习方法训练最优控制策略。训练控制效果如图8、9所示，图8为控制前后前弓接触力对比图，图9为控制前后后弓接触力对比图，图10为前后弓控制力波形图。

3、半实物半虚拟平台控制策略优化。将步骤2所训练的控制策略部署至半实物半虚拟平台，并利用半实物半虚拟平台所产生的平台样本库继续训练最优控制策略。控制策略从实际样本库中学习经验，并逐步微调控制策略，直至生成最优控制策略。图11为控制前后后弓接触力对比图，图12为控制前后前后弓控制力方差对比图，图13为控制前后后弓离线率对比图。从图中可以清晰看到所提专利可以有效降低后弓接触力波动，同时降低离线率。