CN116027667A - 一种基于深度强化学习的重联-动车组双弓协同控制方法 - Google Patents

一种基于深度强化学习的重联-动车组双弓协同控制方法 Download PDF

Info

Publication number
CN116027667A
CN116027667A CN202310043183.4A CN202310043183A CN116027667A CN 116027667 A CN116027667 A CN 116027667A CN 202310043183 A CN202310043183 A CN 202310043183A CN 116027667 A CN116027667 A CN 116027667A
Authority
CN
China
Prior art keywords
pantograph
bow
strategy
double
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310043183.4A
Other languages
English (en)
Inventor
刘志刚
王惠
韩志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202310043183.4A priority Critical patent/CN116027667A/zh
Publication of CN116027667A publication Critical patent/CN116027667A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Current-Collector Devices For Electrically Propelled Vehicles (AREA)

Abstract

本发明公开了一种基于深度强化学习的重联‑动车组双弓协同控制方法,具体为:信息采集单元获取受电弓状态信息、列车运行信息;建立控制器控制动作与接触网交互样本数据集;使用综合奖励约束持续平稳的行为策略;为量化前弓控制动作引发的接触网波动传播对后弓的影响,使用奖励传播通道建立双弓交互机制;基于所建立的交互样本数据集,利用多智能体深度强化学习网络学习最优行为策略;根据最优行为策略作为控制器,将控制器补偿动作输出受电弓气阀板上的精密调压阀从而控制气囊压强。本发明能有效对重联‑动车组前后弓的精准、提前控制,保证受电弓和接触网的良好接触,提升列车的受流质量,降低后弓的离线率;降低接触部件的磨损、提升服役寿命。

Description

一种基于深度强化学习的重联-动车组双弓协同控制方法
技术领域
本发明属于高速铁路受电弓的智能控制技术领域,尤其涉及一种基于深度强化学习的重联-动车组双弓协同控制方法。
背景技术
高速铁路的快速发展,对牵引供电系统的运行安全性提出了更高的要求。随着我国铁路往重载化和高速化方向发展,受电弓与接触网系统的耦合性能随着振动加剧现象日益恶化。为了增加运输能力,两个动车组经常串联组成重联-动车组。然而,由于单弓的电流容量限制,采用双受电弓同时收集电流。在这种情况下,后弓受到源自前弓并通过接触网传输的波动干扰。过大的接触力会导致受电弓滑板和接触线产生额外的应力和磨损,并降低系统的预期寿命。接触力不足会增加电弧发生的可能性,这可能会烧毁接触表面并导致电力传输问题。降低接触力波动不仅可以保证受电弓收集器和接触线之间良好的接触质量,还减少接触导线的疲劳失效和接触表面的磨损。与优化受电弓悬架系统或重构接触网所需要的昂贵成本相比,主动控制受电弓是更有价值和有效的选择。
发明内容
为实现对重联-动车组进行协同控制,避免接触线和受电弓碳滑板过度磨损,提高列车受流质量,保障列车安全。本发明提供一种基于深度强化学习的重联-动车组双弓协同控制方法。
本发明的一种基于深度强化学习的重联-动车组双弓协同控制方法,控制系统包括气囊、供气源、精密调压阀、控制器和信息采集单元;供气源连接气囊用于提供稳定气压,精密调压阀用于精确控制气囊压强,控制单元连接精密调压阀用于输出控制信号,信息采集单元用于采集控制器决策所用信息。控制方法具体包括以下步骤:
步骤1:信息采集单元获取受电弓状态信息、列车运行信息和接触网信息。
步骤2:建立控制器控制动作与接触网交互样本数据集。
步骤3:基于步骤2所建立的交互样本数据集,采用深度强化学习网络学习最优行为策略。
步骤4:根据步骤3的最优行为策略作为控制器,将控制器补偿动作输出受电弓气阀板上的精密调压阀从而控制气囊压强。
进一步的,步骤1中的受电弓状态信息包括受电弓升弓高度、弓头垂向速度、弓头垂向加速度和开闭口方向;列车运行信息包括列车运行速度。
进一步的,步骤2具体为:
步骤21:定义多智能体深度强化学习部分可观马尔可夫决策环境关键要素:(N,S,O,A,R,T,γ);其中γ表示奖励的折扣系数,N=1,2,...,n是智能体的数量;还包括观察空间O,状态空间S,动作空间A、奖励函数R和转移函数T。
(1)观察空间:观察空间是智能体能够观察到的状态信息,其表示为:
Figure BDA0004051275830000022
其中,dph,vph,aph表示受电弓升弓高度、弓头垂向速度、弓头垂向加速度,vtrain表示列车运行信息。
(2)状态空间:状态空间包含所有智能体的观察空间,其表示为:
Figure BDA0004051275830000021
其中,
Figure BDA0004051275830000023
表示第i个智能体在t时间的观察信息,st表示总状态信息。
(3)动作空间:动作空间包含气囊气压变化的范围,其表示为:
A={a|amin≤at≤amax}
其中at表示智能体在t时间的动作,amin表示气囊最小设定气压,amax表示气囊最大设定气压。
(4)奖励函数:考虑到受电弓的优化目标和实际物理约束,在设计受电弓-悬链系统控制器时必须考虑以下因素:
波动损失rfluc:智能体因弓网接触力波动而受到惩罚,该波动损失被定义为实际和参考弓网接触力Frefer之间差异的平方范数;
rfluc=||Fpc(t)-Frefer||2
式中,Fpc(t)表示时刻t的弓网接触力,Frefer表示最优参考接触力。
边界损失rbound:边界损失表示为:
rbound=||at||2
式中,at表示时刻t的受电弓主动控制力。
平滑度损失rsmooth:震荡的控制力可能会导致受电弓关节磨损,平滑度损失rsmooth表示为:
rsmooth=||at-1-at||2
综合以上损失或奖励,综合奖励函数r(t)用于奖励策略网络向最优策略收敛,其表达式如下:
r(t)=rfluc+cboundrbound+csmoothrsmooth
其中,cbound和csmooth是用于平衡损失的权重系数,可以根据任务实际情况设置。综合奖励函数r(t)表示在一步状态转移过程中智能体得到的总奖励。
(5)转移函数;转移函数包含智能体进行状态转移的机理过程;在数值仿真实验中,他表示模型模拟的弓网动力学过程;在半实物实验台实验中,他表示实际受电弓-接触网交互的动力学过程。
步骤22:双弓网系统只能向一个方向移动,所以只有前弓会影响后弓受流,并且其影响可以根据其上下文进行量化;因此,使用奖励传播通道来复合反映代理之间相互作用的效果:
RLP=rLp+discount×rTp
RTp=rTp
其中,rLp表示前弓在当前时间步的实际奖励,RLp表示前弓在当前时间步经过奖励传播加权后的最终奖励;rTp表示在当前时间步后弓的实际奖励,RTp表示在当前时间步后弓的最终奖励;discount参数用于量化前弓对后弓的影响,设置discount=0.25。
步骤23:以运行线路参数和受电弓参数建立虚拟仿真平台生成虚拟仿真样本库。
步骤24:样本获取过程如下:智能体i获得当前时间步状态
Figure BDA0004051275830000031
并生成动作
Figure BDA0004051275830000032
给受电弓气阀板,气阀板执行控制后,深度强化学习网络获得奖励
Figure BDA0004051275830000037
和下一时间步受电弓状态
Figure BDA0004051275830000034
产生样本
Figure BDA0004051275830000033
并存储在数据库中,重复以上步骤直至训练结束。
步骤25:以运行线路参数和实际受电弓建立半实物半虚拟平台建立平台样本库,样本获取过程同步骤24。
进一步的,步骤3具体为:
步骤31:利用步骤2产生的2个样本库,轮流训练深度强化学习网络。
步骤32:步骤31的深度强化学习网络具有2个策略网络和1个评估网络;策略网络用于输出最优动作,评估网络用于评估策略网络输出的策略是否优秀,并指导其生成最优策略;策略网络和评估网络使用数据库中的样本训练。
步骤33:步骤32的策略网络输入智能体观察信息
Figure BDA0004051275830000035
输出最优动作
Figure BDA0004051275830000036
使用π表示策略网络,θ表示策略网络的参数,
Figure BDA0004051275830000046
表示第i个策略网络;从数据库中采样一批样本
Figure BDA0004051275830000047
训练策略网络。添加策略熵奖励S[πθ]以确保智能体充分探索动作空间,从而产生结合策略损失和策略熵奖励的损失函数。总损失函数写成如下:
L(θ)=Et[LCLIP(θ)+c1S[πθ]]
其中,c1是权重系数,代表行为策略熵的重要性,设置c1=0.1;Et表示对括号中的策略损失和熵奖励求期望。
使用裁剪代理目标函数LCLIP(θ)更新策略:
Figure BDA0004051275830000041
Figure BDA0004051275830000042
Figure BDA0004051275830000043
其中,
Figure BDA0004051275830000044
表示优势函数,其利用价值函数V(st)计算,其中V(st)评估每个智能体在状态st的期望奖励。
Figure BDA0004051275830000045
表示新旧控制策略的差异;∈是用来决定新旧策略差异的距离约束的超参数,我们可以取∈=0.2,使得其新旧策略差异在(0.8,1.2)之间。V(st)表示状态st的状态价值。λ表示优势函数估计的权重,在策略价值估计偏差和方差之间做出折衷。
步骤34:步骤33的评估网络输入联状态空间S,输出状态价值函数V(S);使用Vφ表示价值函数,其评估每个智能体动作的优劣;价值函数是通过最小化TD误差来实现的,其平方误差损失函数如下:
LVF(φ)=[Vφ(st)-(rt+Vφ(st+1))]2
Figure BDA0004051275830000048
其中Vφ(st)表示状态st在价值函数网络Vφ评估下的状态价值。
进一步的,步骤4具体为:前后弓接受控制器输出的设定气囊气压,并将设定气囊气压设定于受电弓气阀板上的精密调压阀从而控制气囊压强。
本发明和现有技术相比的有益技术效果为;
1.本发明通过深度强化学习方法对高铁受电弓的精准、提前控制,保证受电弓和接触网的良好接触,提升列车的受流质量,降低接触部件的磨损、提升服役寿命。
2.本发明重联-动车组双受电弓的波动传播特性,利用奖励传播通道智能化地进行双弓协同控制,有效的提升了后弓受流质量。
3.本发明方法能够有效约束受电弓,持续性地平稳、周期性的行为策略,优化列车受流条件。
附图说明
图1为本发明基于深度强化学习的重联-动车组双弓运行示意图。
图2为本发明单智能体部分可观马尔可夫决策过程环境定义。
图3为本发明马尔可夫决策过程。
图4为本发明的多智能体交互马尔可夫决策过程环境。
图5为本发明在建立虚拟仿真平台时所使用的受电弓模型。
图6为本发明在建立虚拟仿真平台时所使用的接触网模型。
图7为本发明建立平台样本库所建立的半实物半虚拟平台。
图8为本发明在所建立虚拟仿真平台时验证的前弓控制效果。
图9为本发明在所建立虚拟仿真平台时验证的后弓控制效果。
图10为本发明控制器输出的前后弓控制力时域和频域波形。
图11为本发明在所建立半实物半虚拟平台验证的后弓控制效果。
图12为本发明在所建立半实物半虚拟平台验证的控制前后前后弓控制力方差对比图。
图13为本发明在所建立半实物半虚拟平台验证的控制前后后弓离线率对比图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细说明。
本发明的一种基于深度强化学习的重联-动车组双弓协同控制方法,控制系统包括气囊、供气源、精密调压阀、控制器和信息采集单元;供气源连接气囊用于提供稳定气压,精密调压阀用于精确控制气囊压强,控制单元连接精密调压阀用于输出控制信号,信息采集单元用于采集控制器决策所用信息。控制方法如图1所示,具体包括以下步骤:
步骤1:信息采集单元获取受电弓状态信息、列车运行信息和接触网信息。
受电弓状态信息包括受电弓升弓高度、弓头垂向速度、弓头垂向加速度和开闭口方向;列车运行信息包括列车运行速度。
步骤2:建立控制器控制动作与接触网交互样本数据集。
步骤21:定义多智能体深度强化学习部分可观马尔可夫决策环境关键要素:(N,S,O,A,R,T,γ);其中γ表示奖励的折扣系数,N=1,2,...,n是智能体的数量;还包括观察空间O,状态空间S,动作空间A、奖励函数R和转移函数T。
(1)观察空间:观察空间是智能体能够观察到的状态信息,其表示为:
Figure BDA0004051275830000062
其中,dph,vph,aph表示受电弓升弓高度、弓头垂向速度、弓头垂向加速度,vtrain表示列车运行信息。
(2)状态空间:状态空间包含所有智能体的观察空间,其表示为:
Figure BDA0004051275830000061
(3)动作空间:动作空间包含气囊气压变化的范围,其表示为:
A={a|amin≤at≤amax}
其中,amin表示气囊最小设定气压,amax表示气囊最大设定气压。
(4)奖励函数:考虑到受电弓的优化目标和实际物理约束,在设计受电弓-悬链系统控制器时必须考虑以下因素:
波动损失rfluc:我们的主要目标是减少接触部件磨损,同时保持列车安全和低离线率。接触部分磨损的主要原因是弓网接触力过大或太小。智能体因弓网接触力波动而受到惩罚,该波动损失rfluc被定义为实际和参考弓网接触力Frefer之间差异的平方范数;
rfluc=||Fpc(t)-Frefer||2
式中,Fpc(t)表示时刻t的弓网接触力,Frefer表示最优参考接触力。
边界损失rbound:在现实世界中,过度的基础升力会损坏受电弓底部的空气弹簧。以牺牲产品寿命为代价来保证平稳运行是不可行的。为确保基本提升力的可接受范围,必须限制基础提升力的大小。边界损失rbound表示为:
rbound=||at||2
式中,at表示时刻t的受电弓主动控制力。
平滑度rsmooth损失:受电弓系统的基本升力不能任意改变。频繁变化的基础抬升力会对机械结构造成额外的磨损,甚至导致关节损坏。平滑度损失rsmooth表示为:
Figure BDA0004051275830000071
综合以上损失或奖励,综合奖励函数用于奖励策略网络向最优策略收敛,其表达式如下:
r=rfluc+cboundrbound+csmoothrsmooth
其中,cbound和csmooth是用于平衡损失的权重系数,可以根据任务实际情况设置。综合奖励函数r(t)表示在一步状态转移过程中智能体得到的总奖励。
(5)转移函数;转移函数包含智能体进行状态转移的机理过程;在仿真实验中,他表示模型模拟的弓网动力学过程;在半实物实验台实验中,他表示实际受电弓-接触网交互的动力学过程。
图2为本发明的马尔可夫决策过程环境定义,图3为本发明的马尔可夫决策过程,图4为本发明的双弓协同控制决策过程。
步骤22:双弓网系统(重联-动车组)是一个具有直接交互的多智能体系统。因为双弓网系统只能向一个方向移动,所以只有前弓会影响后弓受流,并且其影响可以根据其上下文进行量化;因此,使用奖励传播通道来复合反映代理之间相互作用的效果:
RLP=rLp+discount×rTp
RTp=rTp
其中,rLp表示前弓在当前时间步的实际奖励,RLp表示前弓在当前时间步经过奖励传播加权后的最终奖励;rTp表示在当前时间步后弓的实际奖励,RTp表示在当前时间步后弓的最终奖励;discount参数用于量化前弓对后弓的影响,设置discount=0.25。
步骤23:以运行线路参数和受电弓参数建立虚拟仿真平台生成虚拟仿真样本库。
步骤24:样本获取过程如下:智能体i(前弓1,后弓2)获得当前时间步状态
Figure BDA0004051275830000075
并生成动作
Figure BDA0004051275830000072
给受电弓气阀板,气阀板执行控制后,深度强化学习网络获得奖励
Figure BDA0004051275830000076
和下一时间步受电弓状态
Figure BDA0004051275830000073
产生样本
Figure BDA0004051275830000074
并存储在数据库中,重复以上步骤直至训练结束。
步骤25:以运行线路参数和实际受电弓建立半实物半虚拟平台建立平台样本库,样本获取过程同步骤24。
步骤3:基于步骤2所建立的交互样本数据集,采用深度强化学习网络学习最优行为策略。
步骤31:利用步骤2产生的2个样本库,轮流训练深度强化学习网络。
步骤32:如图4所示,步骤31的深度强化学习网络具有2个策略网络和1个评估网络;策略网络用于输出最优动作,评估网络用于评估策略网络输出的策略是否优秀,并指导其生成最优策略;策略网络和评估网络使用数据库中的样本训练。
步骤33:步骤32的策略网络输入智能体观察信息
Figure BDA0004051275830000087
输出最优动作
Figure BDA0004051275830000088
使用π表示策略网络,θ表示策略网络的参数,πθi表示第i个策略网络;从数据库中采样一批样本
Figure BDA0004051275830000081
训练策略网络,添加熵奖励S[πθ]以确保代理充分探索,从而产生结合策略损失和熵损失的损失函数,总损失函数写成如下:
L(θ)=Et[LCLIP(θ)+c1S[πθ]]
其中,c1是权重系数,代表行为策略熵的重要性,设置c1=0.1;Et表示对括号中的策略损失和熵损失求期望。
我们在优化策略网络πθ时采用策略梯度方法优化,其通常通过最大化方程式中的损失函数L(θ)来优化。在没有约束的情况下最大化L(θ)会导致策略更新过大,从而导致次优策略或训练崩溃。因此,我们使用裁剪代理目标函数LCLIP(θ)更新策略:
Figure BDA0004051275830000082
Figure BDA0004051275830000083
Figure BDA0004051275830000084
其中,
Figure BDA0004051275830000085
表示优势函数,其利用价值函数V(st)计算,其中V(st)评估每个智能体在状态st的期望奖励;
Figure BDA0004051275830000086
表示新旧控制策略的差异;ε是用来决定新旧策略差异的距离约束的超参数,取ε=0.2,使得其新旧策略差异在(0.8,1.2)之间;V(st)表示状态st的状态价值;λ表示优势函数估计的权重,在策略价值估计偏差和方差之间做出折衷。
步骤34:步骤33的评估网络输入并联状态空间S,输出状态价值函数V(S);使用Vφ表示价值函数,其评估每个智能体动作的优劣;价值函数是通过最小化TD误差来实现的,其平方误差损失函数如下:
LVF(φ)=[Vφ(st)-(rt+Vφ(st+1))]2
Figure BDA0004051275830000091
其中Vφ(st)表示状态st在价值函数网络Vφ评估下的状态价值。
步骤4:根据步骤3的最优行为策略作为控制器,将控制器补偿动作输出受电弓气阀板上的精密调压阀从而控制气囊压强。
接受控制器输出的设定气囊气压,并将设定气囊气压设定于受电弓气阀板上的精密调压阀从而控制气囊压强。
实施例
1、数据样本集建立。如图5、6所示,利用模型建立虚拟仿真平台,收集虚拟仿真样本库。如图7所示,以运行线路参数和实际受电弓建立半实物半虚拟平台,收集平台样本库。
2、虚拟仿真平台控制策略训练。根据如上建立的数据样本,利用深度强化学习方法训练最优控制策略。训练控制效果如图8、9所示,图8为控制前后前弓接触力对比图,图9为控制前后后弓接触力对比图,图10为前后弓控制力波形图。
3、半实物半虚拟平台控制策略优化。将步骤2所训练的控制策略部署至半实物半虚拟平台,并利用半实物半虚拟平台所产生的平台样本库继续训练最优控制策略。控制策略从实际样本库中学习经验,并逐步微调控制策略,直至生成最优控制策略。图11为控制前后后弓接触力对比图,图12为控制前后前后弓控制力方差对比图,图13为控制前后后弓离线率对比图。从图中可以清晰看到所提专利可以有效降低后弓接触力波动,同时降低离线率。

Claims (5)

1.一种基于深度强化学习的重联-动车组双弓协同控制方法,其特征在于,控制系统包括气囊、供气源、精密调压阀、控制器和信息采集单元;供气源连接气囊用于提供稳定气压,精密调压阀用于精确控制气囊压强,控制单元连接精密调压阀用于输出控制信号,信息采集单元用于采集控制器决策所用信息;控制方法具体包括以下步骤:
步骤1:信息采集单元获取受电弓状态信息、列车运行信息和接触网信息;
步骤2:建立控制器控制动作与接触网交互样本数据集;
步骤3:基于步骤2所建立的交互样本数据集,采用深度强化学习网络学习最优行为策略;
步骤4:根据步骤3的最优行为策略作为控制器,将控制器补偿动作输出受电弓气阀板上的精密调压阀从而控制气囊压强。
2.根据权利要求1所述的一种基于深度强化学习的重联-动车组双弓协同控制方法,其特征在于,所述步骤1中的受电弓状态信息包括受电弓升弓高度、弓头垂向速度、弓头垂向加速度和开闭口方向;列车运行信息包括列车运行速度。
3.根据权利要求2所述的一种基于深度强化学习的重联-动车组双弓协同控制方法,其特征在于,所述步骤2具体为:
步骤21:定义多智能体深度强化学习部分可观马尔可夫决策环境关键要素:(N,S,O,A,R,T,γ);其中γ表示奖励的折扣系数,N=1,2,...,n是智能体的数量;还包括观察空间O,状态空间S,动作空间A、奖励函数R和转移函数T:
(1)观察空间:观察空间是智能体能够观察到的状态信息,其表示为:
Figure FDA0004051275820000011
其中,dph,vph,aph表示受电弓升弓高度、弓头垂向速度、弓头垂向加速度,vtrain表示列车运行信息;
(2)状态空间:状态空间包含所有智能体的观察空间,其表示为:
Figure FDA0004051275820000012
其中,
Figure FDA0004051275820000013
表示第i个智能体在t时间的观察信息,st表示总状态信息;
(3)动作空间:动作空间包含气囊气压变化的范围,其表示为:
A={a|amin≤at≤amax}
其中,at表示智能体在t时间的动作,amin表示气囊最小设定气压,amax表示气囊最大设定气压;
(4)奖励函数:考虑到受电弓的优化目标和实际物理约束,在设计受电弓-悬链系统控制器时必须考虑以下因素:
波动损失rfluc:智能体因弓网接触力波动而受到惩罚,该波动损失被定义为实际和参考弓网接触力Frefer之间差异的平方范数;
rfluc=||Fpc(t)-Frefer||2
式中,Fpc(t)表示时刻t的弓网接触力,Frefer表示最优参考接触力;
边界损失rbound:边界损失表示为:
rbound=||at||2
式中,at表示时刻t的受电弓主动控制力;
平滑度损失rsmooth:震荡的控制力会导致受电弓关节磨损,平滑度损失rsmooth表示为:
rsmooth=||at-1-at||2
综合以上损失或奖励,综合奖励函数r(t)用于奖励策略网络向最优策略收敛,其表达式如下:
r(t)=rfluc+cboundrbound+csmoothrsmooth
其中,cbound和csmooth是用于平衡损失的权重系数,根据任务实际情况设置;综合奖励函数r(t)表示在一步状态转移过程中智能体得到的总奖励;
(5)转移函数;转移函数包含智能体进行状态转移的机理过程;在仿真实验中,他表示模型模拟的弓网动力学过程;在半实物实验台实验中,他表示实际受电弓-接触网交互的动力学过程;
步骤22:双弓网系统只能向一个方向移动,所以只有前弓会影响后弓受流,并且其影响可以根据其上下文进行量化;因此,使用奖励传播通道来复合反映代理之间相互作用的效果:
RLP=rLp+discount×rTp
RTp=rTp
其中,rLp表示前弓在当前时间步的实际奖励,RLp表示前弓在当前时间步经过奖励传播加权后的最终奖励;rTp表示在当前时间步后弓的实际奖励,RTp表示在当前时间步后弓的最终奖励;discount参数用于量化前弓对后弓的影响,设置discount=0.25;
步骤23:以运行线路参数和受电弓参数建立虚拟仿真平台生成虚拟仿真样本库;
步骤24:样本获取过程如下:智能体i获得当前时间步状态
Figure FDA0004051275820000031
并生成动作
Figure FDA0004051275820000032
给受电弓气阀板,气阀板执行控制后,深度强化学习网络获得奖励
Figure FDA0004051275820000033
和下一时间步受电弓状态
Figure FDA0004051275820000034
产生样本
Figure FDA0004051275820000035
并存储在数据库中,重复以上步骤直至训练结束;
步骤25:以运行线路参数和实际受电弓建立半实物半虚拟平台建立平台样本库,样本获取过程同步骤24。
4.根据权利要求3所述的一种基于深度强化学习的重联-动车组双弓协同控制方法,其特征在于,所述步骤3具体为:
步骤31:利用步骤2产生的2个样本库,轮流训练深度强化学习网络;
步骤32:步骤31的深度强化学习网络具有2个策略网络和1个评估网络;策略网络用于输出最优动作,评估网络用于评估策略网络输出的策略是否优秀,并指导其生成最优策略;策略网络和评估网络使用数据库中的样本训练;
步骤33:步骤32的策略网络输入智能体观察信息
Figure FDA0004051275820000036
输出最优动作
Figure FDA0004051275820000037
使用π表示策略网络,θ表示策略网络的参数,
Figure FDA0004051275820000038
表示第i个策略网络;从数据库中采样一批样本
Figure FDA0004051275820000039
训练策略网络,添加熵奖励S[πθ]以确保代理充分探索,从而产生结合策略损失和熵损失的损失函数,总损失函数写成如下:
L(θ)=Et[LCLIP(θ)+c1S[πθ]]
其中,c1是权重系数,代表行为策略熵的重要性,设置c1=0.1;Et表示对括号中的策略损失和熵奖励求期望;
使用裁剪代理目标函数LCLIP(θ)更新策略:
Figure FDA00040512758200000310
Figure FDA00040512758200000311
Figure FDA00040512758200000312
其中,
Figure FDA00040512758200000313
表示优势函数,其利用价值函数V(st)计算,其中V(st)评估每个智能体在状态st的期望奖励;
Figure FDA0004051275820000041
表示新旧控制策略的差异;ε是用来决定新旧策略差异的距离约束的超参数,取ε=0.2,使得其新旧策略差异在(0.8,1.2)之间;V(st)表示状态st的状态价值;λ表示优势函数估计的权重,在策略价值估计偏差和方差之间做出折衷;
步骤34:步骤33的评估网络输入并联状态空间S,输出状态价值函数V(S);使用Vφ表示价值函数,其评估每个智能体动作的优劣;价值函数是通过最小化TD误差来实现的,其平方误差损失函数如下:
LVF(φ)=[Vφ(st)-(rt+Vφ(st+1))]2
Figure FDA0004051275820000042
其中Vφ(st)表示状态st在价值函数网络Vφ评估下的状态价值。
5.根据权利要求4所述的一种基于深度强化学习的重联-动车组双弓协同控制方法,其特征在于,所述步骤4具体为:前后弓接受控制器输出的设定气囊气压,并将设定气囊气压设定于受电弓气阀板上的精密调压阀从而控制气囊压强。
CN202310043183.4A 2023-01-29 2023-01-29 一种基于深度强化学习的重联-动车组双弓协同控制方法 Pending CN116027667A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310043183.4A CN116027667A (zh) 2023-01-29 2023-01-29 一种基于深度强化学习的重联-动车组双弓协同控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310043183.4A CN116027667A (zh) 2023-01-29 2023-01-29 一种基于深度强化学习的重联-动车组双弓协同控制方法

Publications (1)

Publication Number Publication Date
CN116027667A true CN116027667A (zh) 2023-04-28

Family

ID=86072096

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310043183.4A Pending CN116027667A (zh) 2023-01-29 2023-01-29 一种基于深度强化学习的重联-动车组双弓协同控制方法

Country Status (1)

Country Link
CN (1) CN116027667A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117341547A (zh) * 2023-10-31 2024-01-05 清华大学 一种用于电气化公路的车弓网协同控制系统及方法
CN117742402A (zh) * 2023-12-28 2024-03-22 天津大学 一种基于安全强化学习的直升机智能减振方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117341547A (zh) * 2023-10-31 2024-01-05 清华大学 一种用于电气化公路的车弓网协同控制系统及方法
CN117341547B (zh) * 2023-10-31 2024-07-05 清华大学 一种用于电气化公路的车弓网协同控制系统及方法
CN117742402A (zh) * 2023-12-28 2024-03-22 天津大学 一种基于安全强化学习的直升机智能减振方法

Similar Documents

Publication Publication Date Title
CN116027667A (zh) 一种基于深度强化学习的重联-动车组双弓协同控制方法
CN110850716B (zh) 基于接触网先验信息的受电弓神经网络滑模变结构主动控制方法
CN106503362B (zh) 一种高速受电弓多目标鲁棒h∞控制器设计方法
Açıkbas et al. Coasting point optimisation for mass rail transit lines using artificial neural networks and genetic algorithms
Allotta et al. Design and experimental results of an active suspension system for a high-speed pantograph
CN112541228B (zh) 接触力长短时记忆网络预测的受电弓主动控制方法
CN109783890A (zh) 基于钩缓装置模型的重载列车运行曲线多目标优化方法
CN114167733B (zh) 一种高速列车速度控制方法及系统
CN111367173B (zh) 一种基于状态估计的高速铁路受电弓鲁棒预测控制方法
CN113619402B (zh) 一种磁浮列车、悬浮控制系统及提高运行平稳性的方法
CN103754081A (zh) 车辆非线性悬架系统的最优模糊复合控制方法
CN112733448B (zh) 列车自动驾驶系统参数自学习双q表联合代理建立方法
CN112506043B (zh) 轨道车辆及垂向减振器的控制方法和控制系统
Lin et al. Robust active vibration control for rail vehicle pantograph
Wang et al. A reinforcement learning-based pantograph control strategy for improving current collection quality in high-speed railways
Wang et al. Rapid adaptation for active pantograph control in high-speed railway via deep meta reinforcement learning
CN115489320B (zh) 一种基于深度强化学习的列车受电弓智能控制方法
CN108608822B (zh) 一种agv悬挂系统弹性调节方法及系统
CN112947056A (zh) 基于igwo-bp-pid的磁浮列车位移速度跟踪控制方法
CN111598311B (zh) 一种新型列车运行速度曲线智能优化方法
CN116909145A (zh) 一种用于长大下坡循环制动的重载列车速度跟踪控制方法
CN114274787B (zh) 基于自适应神经网络的磁悬浮列车运行控制方法
CN110225842A (zh) 致动装置
CN115056825B (zh) 自适应性能的列车加速方法
Zolotas et al. A comparison of tilt control approaches for high speed railway vehicles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination