CN116027667A - 一种基于深度强化学习的重联-动车组双弓协同控制方法 - Google Patents
一种基于深度强化学习的重联-动车组双弓协同控制方法 Download PDFInfo
- Publication number
- CN116027667A CN116027667A CN202310043183.4A CN202310043183A CN116027667A CN 116027667 A CN116027667 A CN 116027667A CN 202310043183 A CN202310043183 A CN 202310043183A CN 116027667 A CN116027667 A CN 116027667A
- Authority
- CN
- China
- Prior art keywords
- pantograph
- bow
- strategy
- double
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000002787 reinforcement Effects 0.000 title claims abstract description 31
- 230000009471 action Effects 0.000 claims abstract description 25
- 230000001105 regulatory effect Effects 0.000 claims abstract description 16
- 230000003993 interaction Effects 0.000 claims abstract description 13
- 230000006399 behavior Effects 0.000 claims abstract description 11
- 238000005299 abrasion Methods 0.000 claims abstract description 4
- 230000007246 mechanism Effects 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 55
- 230000008569 process Effects 0.000 claims description 20
- 238000012549 training Methods 0.000 claims description 16
- 238000011156 evaluation Methods 0.000 claims description 15
- 238000012546 transfer Methods 0.000 claims description 13
- 238000011217 control strategy Methods 0.000 claims description 11
- 230000000694 effects Effects 0.000 claims description 9
- 230000001133 acceleration Effects 0.000 claims description 6
- 238000002474 experimental method Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 230000002508 compound effect Effects 0.000 claims description 3
- 230000001276 controlling effect Effects 0.000 claims description 3
- 229910052757 nitrogen Inorganic materials 0.000 claims description 3
- 229910052760 oxygen Inorganic materials 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000004088 simulation Methods 0.000 claims description 3
- 229910052717 sulfur Inorganic materials 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 2
- 230000002035 prolonged effect Effects 0.000 abstract description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910052799 carbon Inorganic materials 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Current-Collector Devices For Electrically Propelled Vehicles (AREA)
Abstract
本发明公开了一种基于深度强化学习的重联‑动车组双弓协同控制方法,具体为:信息采集单元获取受电弓状态信息、列车运行信息;建立控制器控制动作与接触网交互样本数据集;使用综合奖励约束持续平稳的行为策略;为量化前弓控制动作引发的接触网波动传播对后弓的影响,使用奖励传播通道建立双弓交互机制;基于所建立的交互样本数据集,利用多智能体深度强化学习网络学习最优行为策略;根据最优行为策略作为控制器,将控制器补偿动作输出受电弓气阀板上的精密调压阀从而控制气囊压强。本发明能有效对重联‑动车组前后弓的精准、提前控制,保证受电弓和接触网的良好接触,提升列车的受流质量,降低后弓的离线率;降低接触部件的磨损、提升服役寿命。
Description
技术领域
本发明属于高速铁路受电弓的智能控制技术领域,尤其涉及一种基于深度强化学习的重联-动车组双弓协同控制方法。
背景技术
高速铁路的快速发展,对牵引供电系统的运行安全性提出了更高的要求。随着我国铁路往重载化和高速化方向发展,受电弓与接触网系统的耦合性能随着振动加剧现象日益恶化。为了增加运输能力,两个动车组经常串联组成重联-动车组。然而,由于单弓的电流容量限制,采用双受电弓同时收集电流。在这种情况下,后弓受到源自前弓并通过接触网传输的波动干扰。过大的接触力会导致受电弓滑板和接触线产生额外的应力和磨损,并降低系统的预期寿命。接触力不足会增加电弧发生的可能性,这可能会烧毁接触表面并导致电力传输问题。降低接触力波动不仅可以保证受电弓收集器和接触线之间良好的接触质量,还减少接触导线的疲劳失效和接触表面的磨损。与优化受电弓悬架系统或重构接触网所需要的昂贵成本相比,主动控制受电弓是更有价值和有效的选择。
发明内容
为实现对重联-动车组进行协同控制,避免接触线和受电弓碳滑板过度磨损,提高列车受流质量,保障列车安全。本发明提供一种基于深度强化学习的重联-动车组双弓协同控制方法。
本发明的一种基于深度强化学习的重联-动车组双弓协同控制方法,控制系统包括气囊、供气源、精密调压阀、控制器和信息采集单元;供气源连接气囊用于提供稳定气压,精密调压阀用于精确控制气囊压强,控制单元连接精密调压阀用于输出控制信号,信息采集单元用于采集控制器决策所用信息。控制方法具体包括以下步骤:
步骤1:信息采集单元获取受电弓状态信息、列车运行信息和接触网信息。
步骤2:建立控制器控制动作与接触网交互样本数据集。
步骤3:基于步骤2所建立的交互样本数据集,采用深度强化学习网络学习最优行为策略。
步骤4:根据步骤3的最优行为策略作为控制器,将控制器补偿动作输出受电弓气阀板上的精密调压阀从而控制气囊压强。
进一步的,步骤1中的受电弓状态信息包括受电弓升弓高度、弓头垂向速度、弓头垂向加速度和开闭口方向;列车运行信息包括列车运行速度。
进一步的,步骤2具体为:
步骤21:定义多智能体深度强化学习部分可观马尔可夫决策环境关键要素:(N,S,O,A,R,T,γ);其中γ表示奖励的折扣系数,N=1,2,...,n是智能体的数量;还包括观察空间O,状态空间S,动作空间A、奖励函数R和转移函数T。
(1)观察空间:观察空间是智能体能够观察到的状态信息,其表示为:
其中,dph,vph,aph表示受电弓升弓高度、弓头垂向速度、弓头垂向加速度,vtrain表示列车运行信息。
(2)状态空间:状态空间包含所有智能体的观察空间,其表示为:
(3)动作空间:动作空间包含气囊气压变化的范围,其表示为:
A={a|amin≤at≤amax}
其中at表示智能体在t时间的动作,amin表示气囊最小设定气压,amax表示气囊最大设定气压。
(4)奖励函数:考虑到受电弓的优化目标和实际物理约束,在设计受电弓-悬链系统控制器时必须考虑以下因素:
波动损失rfluc:智能体因弓网接触力波动而受到惩罚,该波动损失被定义为实际和参考弓网接触力Frefer之间差异的平方范数;
rfluc=||Fpc(t)-Frefer||2
式中,Fpc(t)表示时刻t的弓网接触力,Frefer表示最优参考接触力。
边界损失rbound:边界损失表示为:
rbound=||at||2
式中,at表示时刻t的受电弓主动控制力。
平滑度损失rsmooth:震荡的控制力可能会导致受电弓关节磨损,平滑度损失rsmooth表示为:
rsmooth=||at-1-at||2
综合以上损失或奖励,综合奖励函数r(t)用于奖励策略网络向最优策略收敛,其表达式如下:
r(t)=rfluc+cboundrbound+csmoothrsmooth
其中,cbound和csmooth是用于平衡损失的权重系数,可以根据任务实际情况设置。综合奖励函数r(t)表示在一步状态转移过程中智能体得到的总奖励。
(5)转移函数;转移函数包含智能体进行状态转移的机理过程;在数值仿真实验中,他表示模型模拟的弓网动力学过程;在半实物实验台实验中,他表示实际受电弓-接触网交互的动力学过程。
步骤22:双弓网系统只能向一个方向移动,所以只有前弓会影响后弓受流,并且其影响可以根据其上下文进行量化;因此,使用奖励传播通道来复合反映代理之间相互作用的效果:
RLP=rLp+discount×rTp
RTp=rTp
其中,rLp表示前弓在当前时间步的实际奖励,RLp表示前弓在当前时间步经过奖励传播加权后的最终奖励;rTp表示在当前时间步后弓的实际奖励,RTp表示在当前时间步后弓的最终奖励;discount参数用于量化前弓对后弓的影响,设置discount=0.25。
步骤23:以运行线路参数和受电弓参数建立虚拟仿真平台生成虚拟仿真样本库。
步骤25:以运行线路参数和实际受电弓建立半实物半虚拟平台建立平台样本库,样本获取过程同步骤24。
进一步的,步骤3具体为:
步骤31:利用步骤2产生的2个样本库,轮流训练深度强化学习网络。
步骤32:步骤31的深度强化学习网络具有2个策略网络和1个评估网络;策略网络用于输出最优动作,评估网络用于评估策略网络输出的策略是否优秀,并指导其生成最优策略;策略网络和评估网络使用数据库中的样本训练。
步骤33:步骤32的策略网络输入智能体观察信息输出最优动作使用π表示策略网络,θ表示策略网络的参数,表示第i个策略网络;从数据库中采样一批样本训练策略网络。添加策略熵奖励S[πθ]以确保智能体充分探索动作空间,从而产生结合策略损失和策略熵奖励的损失函数。总损失函数写成如下:
L(θ)=Et[LCLIP(θ)+c1S[πθ]]
其中,c1是权重系数,代表行为策略熵的重要性,设置c1=0.1;Et表示对括号中的策略损失和熵奖励求期望。
使用裁剪代理目标函数LCLIP(θ)更新策略:
其中,表示优势函数,其利用价值函数V(st)计算,其中V(st)评估每个智能体在状态st的期望奖励。表示新旧控制策略的差异;∈是用来决定新旧策略差异的距离约束的超参数,我们可以取∈=0.2,使得其新旧策略差异在(0.8,1.2)之间。V(st)表示状态st的状态价值。λ表示优势函数估计的权重,在策略价值估计偏差和方差之间做出折衷。
步骤34:步骤33的评估网络输入联状态空间S,输出状态价值函数V(S);使用Vφ表示价值函数,其评估每个智能体动作的优劣;价值函数是通过最小化TD误差来实现的,其平方误差损失函数如下:
LVF(φ)=[Vφ(st)-(rt+Vφ(st+1))]2
其中Vφ(st)表示状态st在价值函数网络Vφ评估下的状态价值。
进一步的,步骤4具体为:前后弓接受控制器输出的设定气囊气压,并将设定气囊气压设定于受电弓气阀板上的精密调压阀从而控制气囊压强。
本发明和现有技术相比的有益技术效果为;
1.本发明通过深度强化学习方法对高铁受电弓的精准、提前控制,保证受电弓和接触网的良好接触,提升列车的受流质量,降低接触部件的磨损、提升服役寿命。
2.本发明重联-动车组双受电弓的波动传播特性,利用奖励传播通道智能化地进行双弓协同控制,有效的提升了后弓受流质量。
3.本发明方法能够有效约束受电弓,持续性地平稳、周期性的行为策略,优化列车受流条件。
附图说明
图1为本发明基于深度强化学习的重联-动车组双弓运行示意图。
图2为本发明单智能体部分可观马尔可夫决策过程环境定义。
图3为本发明马尔可夫决策过程。
图4为本发明的多智能体交互马尔可夫决策过程环境。
图5为本发明在建立虚拟仿真平台时所使用的受电弓模型。
图6为本发明在建立虚拟仿真平台时所使用的接触网模型。
图7为本发明建立平台样本库所建立的半实物半虚拟平台。
图8为本发明在所建立虚拟仿真平台时验证的前弓控制效果。
图9为本发明在所建立虚拟仿真平台时验证的后弓控制效果。
图10为本发明控制器输出的前后弓控制力时域和频域波形。
图11为本发明在所建立半实物半虚拟平台验证的后弓控制效果。
图12为本发明在所建立半实物半虚拟平台验证的控制前后前后弓控制力方差对比图。
图13为本发明在所建立半实物半虚拟平台验证的控制前后后弓离线率对比图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细说明。
本发明的一种基于深度强化学习的重联-动车组双弓协同控制方法,控制系统包括气囊、供气源、精密调压阀、控制器和信息采集单元;供气源连接气囊用于提供稳定气压,精密调压阀用于精确控制气囊压强,控制单元连接精密调压阀用于输出控制信号,信息采集单元用于采集控制器决策所用信息。控制方法如图1所示,具体包括以下步骤:
步骤1:信息采集单元获取受电弓状态信息、列车运行信息和接触网信息。
受电弓状态信息包括受电弓升弓高度、弓头垂向速度、弓头垂向加速度和开闭口方向;列车运行信息包括列车运行速度。
步骤2:建立控制器控制动作与接触网交互样本数据集。
步骤21:定义多智能体深度强化学习部分可观马尔可夫决策环境关键要素:(N,S,O,A,R,T,γ);其中γ表示奖励的折扣系数,N=1,2,...,n是智能体的数量;还包括观察空间O,状态空间S,动作空间A、奖励函数R和转移函数T。
(1)观察空间:观察空间是智能体能够观察到的状态信息,其表示为:
其中,dph,vph,aph表示受电弓升弓高度、弓头垂向速度、弓头垂向加速度,vtrain表示列车运行信息。
(2)状态空间:状态空间包含所有智能体的观察空间,其表示为:
(3)动作空间:动作空间包含气囊气压变化的范围,其表示为:
A={a|amin≤at≤amax}
其中,amin表示气囊最小设定气压,amax表示气囊最大设定气压。
(4)奖励函数:考虑到受电弓的优化目标和实际物理约束,在设计受电弓-悬链系统控制器时必须考虑以下因素:
波动损失rfluc:我们的主要目标是减少接触部件磨损,同时保持列车安全和低离线率。接触部分磨损的主要原因是弓网接触力过大或太小。智能体因弓网接触力波动而受到惩罚,该波动损失rfluc被定义为实际和参考弓网接触力Frefer之间差异的平方范数;
rfluc=||Fpc(t)-Frefer||2
式中,Fpc(t)表示时刻t的弓网接触力,Frefer表示最优参考接触力。
边界损失rbound:在现实世界中,过度的基础升力会损坏受电弓底部的空气弹簧。以牺牲产品寿命为代价来保证平稳运行是不可行的。为确保基本提升力的可接受范围,必须限制基础提升力的大小。边界损失rbound表示为:
rbound=||at||2
式中,at表示时刻t的受电弓主动控制力。
平滑度rsmooth损失:受电弓系统的基本升力不能任意改变。频繁变化的基础抬升力会对机械结构造成额外的磨损,甚至导致关节损坏。平滑度损失rsmooth表示为:
综合以上损失或奖励,综合奖励函数用于奖励策略网络向最优策略收敛,其表达式如下:
r=rfluc+cboundrbound+csmoothrsmooth
其中,cbound和csmooth是用于平衡损失的权重系数,可以根据任务实际情况设置。综合奖励函数r(t)表示在一步状态转移过程中智能体得到的总奖励。
(5)转移函数;转移函数包含智能体进行状态转移的机理过程;在仿真实验中,他表示模型模拟的弓网动力学过程;在半实物实验台实验中,他表示实际受电弓-接触网交互的动力学过程。
图2为本发明的马尔可夫决策过程环境定义,图3为本发明的马尔可夫决策过程,图4为本发明的双弓协同控制决策过程。
步骤22:双弓网系统(重联-动车组)是一个具有直接交互的多智能体系统。因为双弓网系统只能向一个方向移动,所以只有前弓会影响后弓受流,并且其影响可以根据其上下文进行量化;因此,使用奖励传播通道来复合反映代理之间相互作用的效果:
RLP=rLp+discount×rTp
RTp=rTp
其中,rLp表示前弓在当前时间步的实际奖励,RLp表示前弓在当前时间步经过奖励传播加权后的最终奖励;rTp表示在当前时间步后弓的实际奖励,RTp表示在当前时间步后弓的最终奖励;discount参数用于量化前弓对后弓的影响,设置discount=0.25。
步骤23:以运行线路参数和受电弓参数建立虚拟仿真平台生成虚拟仿真样本库。
步骤24:样本获取过程如下:智能体i(前弓1,后弓2)获得当前时间步状态并生成动作给受电弓气阀板,气阀板执行控制后,深度强化学习网络获得奖励和下一时间步受电弓状态产生样本并存储在数据库中,重复以上步骤直至训练结束。
步骤25:以运行线路参数和实际受电弓建立半实物半虚拟平台建立平台样本库,样本获取过程同步骤24。
步骤3:基于步骤2所建立的交互样本数据集,采用深度强化学习网络学习最优行为策略。
步骤31:利用步骤2产生的2个样本库,轮流训练深度强化学习网络。
步骤32:如图4所示,步骤31的深度强化学习网络具有2个策略网络和1个评估网络;策略网络用于输出最优动作,评估网络用于评估策略网络输出的策略是否优秀,并指导其生成最优策略;策略网络和评估网络使用数据库中的样本训练。
步骤33:步骤32的策略网络输入智能体观察信息输出最优动作使用π表示策略网络,θ表示策略网络的参数,πθi表示第i个策略网络;从数据库中采样一批样本训练策略网络,添加熵奖励S[πθ]以确保代理充分探索,从而产生结合策略损失和熵损失的损失函数,总损失函数写成如下:
L(θ)=Et[LCLIP(θ)+c1S[πθ]]
其中,c1是权重系数,代表行为策略熵的重要性,设置c1=0.1;Et表示对括号中的策略损失和熵损失求期望。
我们在优化策略网络πθ时采用策略梯度方法优化,其通常通过最大化方程式中的损失函数L(θ)来优化。在没有约束的情况下最大化L(θ)会导致策略更新过大,从而导致次优策略或训练崩溃。因此,我们使用裁剪代理目标函数LCLIP(θ)更新策略:
其中,表示优势函数,其利用价值函数V(st)计算,其中V(st)评估每个智能体在状态st的期望奖励;表示新旧控制策略的差异;ε是用来决定新旧策略差异的距离约束的超参数,取ε=0.2,使得其新旧策略差异在(0.8,1.2)之间;V(st)表示状态st的状态价值;λ表示优势函数估计的权重,在策略价值估计偏差和方差之间做出折衷。
步骤34:步骤33的评估网络输入并联状态空间S,输出状态价值函数V(S);使用Vφ表示价值函数,其评估每个智能体动作的优劣;价值函数是通过最小化TD误差来实现的,其平方误差损失函数如下:
LVF(φ)=[Vφ(st)-(rt+Vφ(st+1))]2
其中Vφ(st)表示状态st在价值函数网络Vφ评估下的状态价值。
步骤4:根据步骤3的最优行为策略作为控制器,将控制器补偿动作输出受电弓气阀板上的精密调压阀从而控制气囊压强。
接受控制器输出的设定气囊气压,并将设定气囊气压设定于受电弓气阀板上的精密调压阀从而控制气囊压强。
实施例
1、数据样本集建立。如图5、6所示,利用模型建立虚拟仿真平台,收集虚拟仿真样本库。如图7所示,以运行线路参数和实际受电弓建立半实物半虚拟平台,收集平台样本库。
2、虚拟仿真平台控制策略训练。根据如上建立的数据样本,利用深度强化学习方法训练最优控制策略。训练控制效果如图8、9所示,图8为控制前后前弓接触力对比图,图9为控制前后后弓接触力对比图,图10为前后弓控制力波形图。
3、半实物半虚拟平台控制策略优化。将步骤2所训练的控制策略部署至半实物半虚拟平台,并利用半实物半虚拟平台所产生的平台样本库继续训练最优控制策略。控制策略从实际样本库中学习经验,并逐步微调控制策略,直至生成最优控制策略。图11为控制前后后弓接触力对比图,图12为控制前后前后弓控制力方差对比图,图13为控制前后后弓离线率对比图。从图中可以清晰看到所提专利可以有效降低后弓接触力波动,同时降低离线率。
Claims (5)
1.一种基于深度强化学习的重联-动车组双弓协同控制方法,其特征在于,控制系统包括气囊、供气源、精密调压阀、控制器和信息采集单元;供气源连接气囊用于提供稳定气压,精密调压阀用于精确控制气囊压强,控制单元连接精密调压阀用于输出控制信号,信息采集单元用于采集控制器决策所用信息;控制方法具体包括以下步骤:
步骤1:信息采集单元获取受电弓状态信息、列车运行信息和接触网信息;
步骤2:建立控制器控制动作与接触网交互样本数据集;
步骤3:基于步骤2所建立的交互样本数据集,采用深度强化学习网络学习最优行为策略;
步骤4:根据步骤3的最优行为策略作为控制器,将控制器补偿动作输出受电弓气阀板上的精密调压阀从而控制气囊压强。
2.根据权利要求1所述的一种基于深度强化学习的重联-动车组双弓协同控制方法,其特征在于,所述步骤1中的受电弓状态信息包括受电弓升弓高度、弓头垂向速度、弓头垂向加速度和开闭口方向;列车运行信息包括列车运行速度。
3.根据权利要求2所述的一种基于深度强化学习的重联-动车组双弓协同控制方法,其特征在于,所述步骤2具体为:
步骤21:定义多智能体深度强化学习部分可观马尔可夫决策环境关键要素:(N,S,O,A,R,T,γ);其中γ表示奖励的折扣系数,N=1,2,...,n是智能体的数量;还包括观察空间O,状态空间S,动作空间A、奖励函数R和转移函数T:
(1)观察空间:观察空间是智能体能够观察到的状态信息,其表示为:
其中,dph,vph,aph表示受电弓升弓高度、弓头垂向速度、弓头垂向加速度,vtrain表示列车运行信息;
(2)状态空间:状态空间包含所有智能体的观察空间,其表示为:
(3)动作空间:动作空间包含气囊气压变化的范围,其表示为:
A={a|amin≤at≤amax}
其中,at表示智能体在t时间的动作,amin表示气囊最小设定气压,amax表示气囊最大设定气压;
(4)奖励函数:考虑到受电弓的优化目标和实际物理约束,在设计受电弓-悬链系统控制器时必须考虑以下因素:
波动损失rfluc:智能体因弓网接触力波动而受到惩罚,该波动损失被定义为实际和参考弓网接触力Frefer之间差异的平方范数;
rfluc=||Fpc(t)-Frefer||2
式中,Fpc(t)表示时刻t的弓网接触力,Frefer表示最优参考接触力;
边界损失rbound:边界损失表示为:
rbound=||at||2
式中,at表示时刻t的受电弓主动控制力;
平滑度损失rsmooth:震荡的控制力会导致受电弓关节磨损,平滑度损失rsmooth表示为:
rsmooth=||at-1-at||2
综合以上损失或奖励,综合奖励函数r(t)用于奖励策略网络向最优策略收敛,其表达式如下:
r(t)=rfluc+cboundrbound+csmoothrsmooth
其中,cbound和csmooth是用于平衡损失的权重系数,根据任务实际情况设置;综合奖励函数r(t)表示在一步状态转移过程中智能体得到的总奖励;
(5)转移函数;转移函数包含智能体进行状态转移的机理过程;在仿真实验中,他表示模型模拟的弓网动力学过程;在半实物实验台实验中,他表示实际受电弓-接触网交互的动力学过程;
步骤22:双弓网系统只能向一个方向移动,所以只有前弓会影响后弓受流,并且其影响可以根据其上下文进行量化;因此,使用奖励传播通道来复合反映代理之间相互作用的效果:
RLP=rLp+discount×rTp
RTp=rTp
其中,rLp表示前弓在当前时间步的实际奖励,RLp表示前弓在当前时间步经过奖励传播加权后的最终奖励;rTp表示在当前时间步后弓的实际奖励,RTp表示在当前时间步后弓的最终奖励;discount参数用于量化前弓对后弓的影响,设置discount=0.25;
步骤23:以运行线路参数和受电弓参数建立虚拟仿真平台生成虚拟仿真样本库;
步骤25:以运行线路参数和实际受电弓建立半实物半虚拟平台建立平台样本库,样本获取过程同步骤24。
4.根据权利要求3所述的一种基于深度强化学习的重联-动车组双弓协同控制方法,其特征在于,所述步骤3具体为:
步骤31:利用步骤2产生的2个样本库,轮流训练深度强化学习网络;
步骤32:步骤31的深度强化学习网络具有2个策略网络和1个评估网络;策略网络用于输出最优动作,评估网络用于评估策略网络输出的策略是否优秀,并指导其生成最优策略;策略网络和评估网络使用数据库中的样本训练;
步骤33:步骤32的策略网络输入智能体观察信息输出最优动作使用π表示策略网络,θ表示策略网络的参数,表示第i个策略网络;从数据库中采样一批样本训练策略网络,添加熵奖励S[πθ]以确保代理充分探索,从而产生结合策略损失和熵损失的损失函数,总损失函数写成如下:
L(θ)=Et[LCLIP(θ)+c1S[πθ]]
其中,c1是权重系数,代表行为策略熵的重要性,设置c1=0.1;Et表示对括号中的策略损失和熵奖励求期望;
使用裁剪代理目标函数LCLIP(θ)更新策略:
其中,表示优势函数,其利用价值函数V(st)计算,其中V(st)评估每个智能体在状态st的期望奖励;表示新旧控制策略的差异;ε是用来决定新旧策略差异的距离约束的超参数,取ε=0.2,使得其新旧策略差异在(0.8,1.2)之间;V(st)表示状态st的状态价值;λ表示优势函数估计的权重,在策略价值估计偏差和方差之间做出折衷;
步骤34:步骤33的评估网络输入并联状态空间S,输出状态价值函数V(S);使用Vφ表示价值函数,其评估每个智能体动作的优劣;价值函数是通过最小化TD误差来实现的,其平方误差损失函数如下:
LVF(φ)=[Vφ(st)-(rt+Vφ(st+1))]2
其中Vφ(st)表示状态st在价值函数网络Vφ评估下的状态价值。
5.根据权利要求4所述的一种基于深度强化学习的重联-动车组双弓协同控制方法,其特征在于,所述步骤4具体为:前后弓接受控制器输出的设定气囊气压,并将设定气囊气压设定于受电弓气阀板上的精密调压阀从而控制气囊压强。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310043183.4A CN116027667A (zh) | 2023-01-29 | 2023-01-29 | 一种基于深度强化学习的重联-动车组双弓协同控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310043183.4A CN116027667A (zh) | 2023-01-29 | 2023-01-29 | 一种基于深度强化学习的重联-动车组双弓协同控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116027667A true CN116027667A (zh) | 2023-04-28 |
Family
ID=86072096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310043183.4A Pending CN116027667A (zh) | 2023-01-29 | 2023-01-29 | 一种基于深度强化学习的重联-动车组双弓协同控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116027667A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117341547A (zh) * | 2023-10-31 | 2024-01-05 | 清华大学 | 一种用于电气化公路的车弓网协同控制系统及方法 |
CN117742402A (zh) * | 2023-12-28 | 2024-03-22 | 天津大学 | 一种基于安全强化学习的直升机智能减振方法 |
-
2023
- 2023-01-29 CN CN202310043183.4A patent/CN116027667A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117341547A (zh) * | 2023-10-31 | 2024-01-05 | 清华大学 | 一种用于电气化公路的车弓网协同控制系统及方法 |
CN117341547B (zh) * | 2023-10-31 | 2024-07-05 | 清华大学 | 一种用于电气化公路的车弓网协同控制系统及方法 |
CN117742402A (zh) * | 2023-12-28 | 2024-03-22 | 天津大学 | 一种基于安全强化学习的直升机智能减振方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116027667A (zh) | 一种基于深度强化学习的重联-动车组双弓协同控制方法 | |
CN110850716B (zh) | 基于接触网先验信息的受电弓神经网络滑模变结构主动控制方法 | |
CN106503362B (zh) | 一种高速受电弓多目标鲁棒h∞控制器设计方法 | |
Açıkbas et al. | Coasting point optimisation for mass rail transit lines using artificial neural networks and genetic algorithms | |
Allotta et al. | Design and experimental results of an active suspension system for a high-speed pantograph | |
CN112541228B (zh) | 接触力长短时记忆网络预测的受电弓主动控制方法 | |
CN109783890A (zh) | 基于钩缓装置模型的重载列车运行曲线多目标优化方法 | |
CN114167733B (zh) | 一种高速列车速度控制方法及系统 | |
CN111367173B (zh) | 一种基于状态估计的高速铁路受电弓鲁棒预测控制方法 | |
CN113619402B (zh) | 一种磁浮列车、悬浮控制系统及提高运行平稳性的方法 | |
CN103754081A (zh) | 车辆非线性悬架系统的最优模糊复合控制方法 | |
CN112733448B (zh) | 列车自动驾驶系统参数自学习双q表联合代理建立方法 | |
CN112506043B (zh) | 轨道车辆及垂向减振器的控制方法和控制系统 | |
Lin et al. | Robust active vibration control for rail vehicle pantograph | |
Wang et al. | A reinforcement learning-based pantograph control strategy for improving current collection quality in high-speed railways | |
Wang et al. | Rapid adaptation for active pantograph control in high-speed railway via deep meta reinforcement learning | |
CN115489320B (zh) | 一种基于深度强化学习的列车受电弓智能控制方法 | |
CN108608822B (zh) | 一种agv悬挂系统弹性调节方法及系统 | |
CN112947056A (zh) | 基于igwo-bp-pid的磁浮列车位移速度跟踪控制方法 | |
CN111598311B (zh) | 一种新型列车运行速度曲线智能优化方法 | |
CN116909145A (zh) | 一种用于长大下坡循环制动的重载列车速度跟踪控制方法 | |
CN114274787B (zh) | 基于自适应神经网络的磁悬浮列车运行控制方法 | |
CN110225842A (zh) | 致动装置 | |
CN115056825B (zh) | 自适应性能的列车加速方法 | |
Zolotas et al. | A comparison of tilt control approaches for high speed railway vehicles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |