CN116577991A - 一种基于元强化学习的列车受电弓自适应控制方法 - Google Patents
一种基于元强化学习的列车受电弓自适应控制方法 Download PDFInfo
- Publication number
- CN116577991A CN116577991A CN202310630245.1A CN202310630245A CN116577991A CN 116577991 A CN116577991 A CN 116577991A CN 202310630245 A CN202310630245 A CN 202310630245A CN 116577991 A CN116577991 A CN 116577991A
- Authority
- CN
- China
- Prior art keywords
- pantograph
- network
- representing
- reinforcement learning
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000002787 reinforcement Effects 0.000 title claims abstract description 37
- 230000009471 action Effects 0.000 claims abstract description 39
- 230000001105 regulatory effect Effects 0.000 claims abstract description 16
- 238000005457 optimization Methods 0.000 claims abstract description 15
- 230000006399 behavior Effects 0.000 claims abstract description 8
- 230000003993 interaction Effects 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 37
- 238000011156 evaluation Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 20
- 238000011217 control strategy Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 14
- 238000005070 sampling Methods 0.000 claims description 8
- 239000003795 chemical substances by application Substances 0.000 claims description 6
- 230000001276 controlling effect Effects 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000001133 acceleration Effects 0.000 claims description 3
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000003044 adaptive effect Effects 0.000 claims 3
- 238000005299 abrasion Methods 0.000 abstract description 4
- 230000008859 change Effects 0.000 abstract description 4
- 230000002035 prolonged effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000004088 simulation Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 229910052799 carbon Inorganic materials 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000010183 spectrum analysis Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000010891 electric arc Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G05—CONTROLLING; REGULATING
- G05B—CONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
- G05B13/00—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion
- G05B13/02—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric
- G05B13/04—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators
- G05B13/042—Adaptive control systems, i.e. systems automatically adjusting themselves to have a performance which is optimum according to some preassigned criterion electric involving the use of models or simulators in which a parameter or coefficient is automatically adjusted to optimise the performance
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Automation & Control Theory (AREA)
- Current-Collector Devices For Electrically Propelled Vehicles (AREA)
Abstract
本发明公开了一种基于元强化学习的列车受电弓自适应控制方法,具体为:信息采集单元获取受电弓状态信息、列车运行信息和接触网信息;建立控制器控制动作与接触网交互样本数据集;基于所建立的交互样本数据集采用深度强化学习网络学习最优行为策略;每一个控制任务基于贝叶斯优化方法生成最优任务编码;最优行为策略作为控制器,根据弓网系统运行信息和任务编码计算最优控制动作,并将控制器补偿动作输出受电弓气阀板上的精密调压阀从而控制气囊压强。本发明对高铁受电弓的精准、提前控制,保证受电弓和接触网的良好接触,提升列车的受流质量,降低接触部件的磨损,提升服役寿命;还使弓网系统控制器能够快速适应外部环境扰动和自身参数变化。
Description
技术领域
本发明属于高速铁路受电弓的智能控制技术领域,尤其涉及一种基于元强化学习的列车受电弓自适应控制方法。
背景技术
高速铁路的快速发展,对牵引供电系统的运行安全性提出了更高的要求。随着我国铁路往重载化和高速化方向发展,受电弓与接触网系统的耦合性能随着振动加剧现象日益恶化。受电弓-接触网系统是一个复杂的动力学系统。传统的优化方式主要从受电弓结构优化、接触网性能优化和弓网参数匹配等角度出发,但是花费的经济成本巨大难以推动。受电弓的主动控制是一项弓网性能优化技术。当受电弓与接触网接触力过大时,会导致接触线和受电弓碳滑板过度磨损,影响产品服务寿命。当受电弓与接触网接触力过小时,会导致受电弓与接触网脱离接触,造成离线电弧,灼伤受电弓碳滑板,并且产生谐波影响电流质量。但由于受电弓、接触网类型很多,传统控制器只能针对单一弓网参数组合有控制效果,当受电弓、接触网类型或者环境扰动发生变化时,控制器很可能失效甚至恶化弓网接触。
发明内容
为实现对受电弓进行快速的自适应控制,避免接触线和受电弓碳滑板过度磨损,提高主动受电弓控制器适应性,提高列车受流质量,保障列车安全。本发明提供一种基于元强化学习的列车受电弓自适应控制方法。
本发明的一种基于元强化学习的列车受电弓自适应控制方法,控制系统包括气囊、供气源、精密调压阀、控制器和信息采集单元;供气源连接气囊用于提供稳定气压,精密调压阀用于精确控制气囊压强,控制单元连接精密调压阀用于输出控制信号,信息采集单元用于采集控制器决策所用信息。控制方法具体包括以下步骤:
步骤1:信息采集单元获取受电弓状态信息、列车运行信息和接触网信息。
步骤2:初始化一批不同受电弓、接触网、环境扰动参数的控制任务,建立控制器控制动作与接触网交互样本数据集。
步骤3:基于步骤2所建立的交互样本数据集,采用任务编码网络学习任务编码,采用强化学习网络学习最优行为策略。
步骤4:根据步骤3的最优行为策略作为控制器,将控制器补偿动作输出受电弓气阀板上的精密调压阀从而控制气囊压强。
步骤1中的受电弓状态信息包括受电弓升弓高度、弓头垂向速度、弓头垂向加速度和开闭口方向;列车运行信息包括列车运行速度和运行方向;接触网信息包括接触网的刚度、跨度和吊弦分布信息。
进一步的,步骤2具体为:
步骤2.1:定义深度强化学习马尔可夫决策环境关键要素:状态空间,动作空间和奖励函数:
1)状态空间:状态空间包含所有步骤1的状态信息,其表示为:
S={s|st=(spantograph,scatenary,strain)}
其中,spantograph表示受电弓状态信息,scatenary表示接触网信息,strain表示列车运行信息。
2)动作空间:动作空间包含气囊气压变化的范围,其表示为:
A={a|amin≤at≤amax}
其中,amin表示气囊最小设定气压,amax表示气囊最大设定气压。
3)奖励函数:奖励函数用于奖励策略网络向最优策略收敛:
rt=-|Fr-Fpc(t)|
其中,Fr表示最优弓网接触力,Fpc(t)表示实际弓网接触力。
步骤2.2:建立虚拟仿真平台,初始化一批不同受电弓、接触网、环境扰动参数的弓网系统控制任务,运行所有控制任务生成虚拟仿真样本库。
步骤2.3:步骤2.2样本获取过程如下:深度强化学习网络获得当前时间步状态st并生成动作at给受电弓气阀板,气阀板执行控制后,深度强化学习网络获得奖励rt和下一时间步受电弓状态st+1;产生样本(st,at,rt,st+1)并存储在数据库中,重复以上步骤直至训练结束。
步骤2.4:以运行线路参数和实际受电弓建立半实物半虚拟平台建立平台样本库,样本获取过程同步骤2.3。
进一步的,步骤3具体为:
步骤3.1:利用步骤2产生的2个样本库,轮流训练深度强化学习网络和任务编码网络。
步骤3.2:步骤3.1的深度强化学习网络具有1个策略网络和4个评估网络;策略网络用于输出最优动作,评估网络用于评估策略网络输出的策略是否优秀,并指导其生成最优控制策略。
步骤3.3:步骤3.2的策略网络输入状态信息和任务编码信息,输出最优动作;使用πθ(s,z)表示策略网络,θ表示策略网络的参数;从数据库中采样一批样本(st,at,rt,st+1)训练策略网络,其损失函数写为:
其中,B表示采样样本库,Qφ表示评估网络,s,a表示样本中状态和动作值,z表示当前任务编码,表示不通过z计算梯度。
步骤3.4:步骤3.3的评估网络Qφ输入状态信息和动作,输出状态动作价值,有两种策略网络,使用Q表示当前评估网络,使用φ表示其参数;使用表示目标评估网络,使用/>表示其参数;当前评估网络参数的损失函数写为:
式中,a′=πθ(s′),表示下一状态s'下根据控制策略πθ采取的动作a'。目标评估网络通过当前评估网络参数定期软更新:
其中,τ表示软更新的速度。
步骤3.5:步骤3.3、步骤3.4的任务编码计算方式为基于贝叶斯优化的任务编码计算。
贝叶斯优化的求解步骤为:首先生成一个初始候选解集合,然后根据这些点寻找下一个最有可能是极值的点,将该点加入集合中,重复这一步骤,直至迭代终止;最后从这些点中找出函数值最大的点作为问题的解,从而求解最优任务编码。
需要求解的目标函数为智能体的累计奖励函数,其公式为:
以高斯过程回归做为概率代理模型,其表达式如下:
μt(z)=[μ(z1) ... μ(xt)]
式中,D1:t={D1:t-1,(zt;Jt)}表示采样点,μt(z)和σt(z)是高斯过程回归的均值向量和协方差矩阵。
采用高斯过程-置信上限作为采集函数,利用高斯过程-置信上限采集函数αt(z)获取下一采样点的公式写为:
其中,加权和项μt-1(z)和σt-1(z)是高斯过程的均值与均方差,可以分别解释为探索和探索;β通常为常数,表示探索因子权重。
进一步的,步骤4具体为:接受控制器输出的设定气囊气压,并将设定气囊气压设定于受电弓气阀板上的精密调压阀从而控制气囊压强。
本发明和现有技术相比的有益技术效果为:
1.本发明通过深度强化学习方法对高铁受电弓的精准、提前控制,保证受电弓和接触网的良好接触,提升列车的受流质量,降低接触部件的磨损、提升服役寿命。本发明受电弓与接触网的长期运行特征,利用深度强化学习方法智能化地学习最优控制策略。
2.本发明方法能够有效适应多型号受电弓接触网参数组合,针对具体线路优化控制策略,优化列车受流条件。另外,本发明方法还使弓网系统控制器能够快速适应外部环境扰动和自身参数变化。
附图说明
图1为本发明方法处理过程框图。
图2为本发明马尔可夫决策过程环境定义。
图3为本发明马尔可夫决策过程。
图4为本发明的深度强化学习策略网络结构。
图5为本发明的深度强化学习整体网络结构。
图6为本发明在建立虚拟仿真平台时所使用的受电弓模型。
图7为本发明在建立虚拟仿真平台时所使用的接触网模型。
图8为本发明建立平台样本库所建立的半实物半虚拟平台。
图9为本发明贝叶斯优化方法流程图。
图10为本发明控制策略在所建立虚拟仿真平台时验证的控制效果(其中a为控制器加入前后的接触力对比;b为控制器加入前后,接触力的频率密度分析对比)。
图11为控制器输出的控制力时域和频域波形(其中a为控制器输出的主动控制力时域波形;b为主动控制力的频谱分析)。
图12为本发明控制策略在所建立半实物半虚拟平台验证的控制效果。
图13为本发明控制策略在所建立半实物半虚拟平台验证的控制效果统计。
具体实施方式
下面结合附图和具体实施例对本发明做进一步详细说明。
本发明的一种基于深度强化学习的列车受电弓智能控制方法,控制系统包括气囊、供气源、精密调压阀、控制器和信息采集单元;供气源连接气囊用于提供稳定气压,精密调压阀用于精确控制气囊压强,控制单元连接精密调压阀用于输出控制信号,信息采集单元用于采集控制器决策所用信息。控制方法流程如图1所示,具体包括以下步骤:
步骤1:信息采集单元获取受电弓状态信息、列车运行信息和接触网信息。
受电弓状态信息包括受电弓升弓高度、弓头垂向速度、弓头垂向加速度和开闭口方向;列车运行信息包括列车运行速度和运行方向;接触网信息包括接触网的刚度、跨度和吊弦分布信息。
步骤2:初始化一批不同受电弓、接触网、环境扰动参数的控制任务,建立控制器控制动作与接触网交互样本数据集。
步骤2.1:图2为本发明所述的马尔可夫决策过程环境定义,图3本发明所述的马尔可夫决策过程。定义深度强化学习马尔可夫决策环境关键要素:状态空间,动作空间和奖励函数。
1)状态空间:状态空间包含所有步骤1的状态信息,其表示为:
S={s|st=(spantograph,scatenary,strain)}
其中,spantograph表示受电弓状态信息,scatenary表示接触网信息,strain表示列车运行信息。
2)动作空间:动作空间包含气囊气压变化的范围,其表示为:
A={a|amin≤at≤amax}
其中,amin表示气囊最小设定气压,amax表示气囊最大设定气压。
3)奖励函数:奖励函数用于奖励策略网络向最优策略收敛;
rt=-|Fr-Fpc(t)|
其中,Fr表示最优弓网接触力,Fpc(t)表示实际弓网接触力。
步骤2.2:如图6、7所示,利用受电弓和接触网模型建立虚拟仿真平台。初始化一批不同受电弓、接触网、环境扰动参数的弓网系统控制任务。建立虚拟仿真平台运行所有控制任务生成虚拟仿真样本库。样本获取过程如下:深度强化学习策略网络获得当前时间步受电弓状态st和任务编码并生成动作at给受电弓气阀板,气阀板执行控制动作后,深度强化学习网络获得奖励rt和下一时间步受电弓状态st+1。这产生样本(st,at,rt,st+1)并存储在数据库中,重复以上步骤直至训练结束。
步骤2.3:如图8所示,以运行线路参数和实际受电弓建立半实物半虚拟平台建立平台样本库。样本获取同步骤2.2。
步骤3:基于步骤2所建立的交互样本数据集,采用任务编码网络学习任务编码,采用强化学习网络学习最优行为策略。
步骤3.1:利用步骤2产生的2个样本库,轮流训练深度强化学习网络和任务编码网络。
步骤3.2:如图5所示,步骤3.1的深度强化学习网络具有1个策略网络和4个评估网络;策略网络用于输出最优动作,评估网络用于评估策略网络输出的策略是否优秀,并指导其生成最优控制策略。
步骤3.3:如图4所示,步骤3.2的策略网络输入状态信息和任务编码信息,输出最优动作;使用πθ(s,z)表示策略网络,θ表示策略网络的参数;从数据库中采样一批样本(st,at,rt,st+1)训练策略网络,其损失函数写为:
其中,B表示采样样本库,Qφ表示评估网络,s,a表示样本中状态和动作值,z表示当前任务编码,表示不通过z计算梯度。
步骤3.4:步骤3.3的评估网络Qφ输入状态信息和动作,输出状态动作价值,有两种策略网络,使用Q表示当前评估网络,使用φ表示其参数;使用表示目标评估网络,使用/>表示其参数;当前评估网络参数的损失函数写为:
式中,a′=πθ(s′),表示下一状态s'下根据控制策略πθ采取的动作a'。
目标评估网络通过当前评估网络参数定期软更新:
其中,τ表示软更新的速度。
步骤3.5:贝叶斯优化的流程图如图9所示,首先生成一个初始候选解集合,然后根据这些点寻找下一个最有可能是极值的点,将该点加入集合中,重复这一步骤,直至迭代终止。最后从这些点中找出函数值最大的点作为问题的解,从而求解最优任务编码。在这一步中,我们固定策略函数权重,单独寻优任务编码。贝叶斯优化是一种用于求解函数极值问题的黑盒优化算法,通常包括一个概率代理模型(高斯过程回归)和采集函数。算法根据一组采样点处的函数值预测出任意点处概率替代模型的概率分布,这通过高斯过程回归而实现。根据高斯过程回归的结果构造采集函数,用于衡量每一个点值得探索的程度,求解采集函数的极值从而确定下一个采样点。最后返回这组采样点的极值作为函数的极值。
需要求解的目标函数为智能体的累计奖励函数,其公式为:
以高斯过程回归做为概率代理模型,其表达式如下:
μt(z)=[μ(z1) ... μ(xt)]
式中D1:t={D1:t-1,(zt;Jt)}表示采样点。μt(z)和σt(z)是高斯过程回归的均值向量和协方差矩阵。
采用高斯过程-置信上限作为采集函数,利用高斯过程-置信上限采集函数αt(z)获取下一采样点的公式写为:
其中,加权和项μt-1(z)和σt-1(z)是高斯过程的均值与均方差,可以分别解释为探索和探索;β通常为常数,表示探索因子权重。
步骤4:根据步骤3的最优行为策略作为控制器,将控制器补偿动作输出受电弓气阀板上的精密调压阀从而控制气囊压强。
接受控制器输出的设定气囊气压,并将设定气囊气压设定于受电弓气阀板上的精密调压阀从而控制气囊压强。
实施案例:
1、数据样本集建立。如图6、7所示,利用模型建立虚拟仿真平台,收集虚拟仿真样本库。如图8所示,以运行线路参数和实际受电弓建立半实物半虚拟平台,收集平台样本库。
2、虚拟仿真平台控制策略训练。根据如上建立的数据样本,利用图9所示的贝叶斯优化算法求解最优任务编码。利用深度强化学习方法训练最优控制策略。在仿真平台的控制器性能验证和实际时频域分析结果如图10所示。其中a为控制器加入前后的接触力对比;b为控制器加入前后,接触力的频率密度分析对比。仿真结果表明控制器可以显著接触力方差和频域能量。控制器输出的动作如图11所示,其中a为控制器输出的主动控制力时域波形;b为主动控制力的频谱分析。仿真结果表明控制器输出了相对平滑的控制动作。
3、半实物半虚拟平台控制策略优化。将步骤2所训练的控制策略部署至半实物半虚拟平台,并利用半实物半虚拟平台所产生的平台样本库继续训练最优控制策略。在环境扰动或接触网仿真参数变化时的控制器性能验证如图12所示,结果表明控制器可以快速适应环境扰动和弓网系统参数变化。不同速度下在控制前后的控制力方差对比图如图13所示,可见控制器对比不同运行速度均有效。
Claims (6)
1.一种基于元强化学习的列车受电弓自适应控制方法,其特征在于,控制系统包括气囊、供气源、精密调压阀、控制器和信息采集单元;供气源连接气囊用于提供稳定气压,精密调压阀用于精确控制气囊压强,控制单元连接精密调压阀用于输出控制信号,信息采集单元用于采集控制器决策所用信息;控制方法具体包括以下步骤:
步骤1:信息采集单元获取受电弓状态信息、列车运行信息和接触网信息;
步骤2:初始化一批不同受电弓、接触网、环境扰动参数的控制任务,建立控制器控制动作与接触网交互样本数据集;
步骤3:基于步骤2所建立的交互样本数据集,采用任务编码网络学习任务编码,采用强化学习网络学习最优行为策略;
步骤4:根据步骤3的最优行为策略作为控制器,将控制器补偿动作输出受电弓气阀板上的精密调压阀从而控制气囊压强。
2.根据权利要求1所述的一种基于元强化学习的列车受电弓自适应控制方法,其特征在于,所述步骤1中的受电弓状态信息包括受电弓升弓高度、弓头垂向速度、弓头垂向加速度和开闭口方向;列车运行信息包括列车运行速度和运行方向;接触网信息包括接触网的刚度、跨度和吊弦分布信息。
3.根据权利要求2所述的一种基于元强化学习的列车受电弓自适应控制方法,其特征在于,所述步骤2具体为:
步骤2.1:定义深度强化学习马尔可夫决策环境关键要素:状态空间,动作空间和奖励函数:
1)状态空间:状态空间包含所有步骤1的状态信息,其表示为:
S={s|st=(spantograph,scatenary,strain)}
其中,spantograph表示受电弓状态信息,scatenary表示接触网信息,strain表示列车运行信息;
2)动作空间:动作空间包含气囊气压变化的范围,其表示为:
A={a|amin≤at≤amax}
其中,amin表示气囊最小设定气压,amax表示气囊最大设定气压;
3)奖励函数:奖励函数用于奖励策略网络向最优策略收敛;
rt=-|Fr-Fpc(t)|
其中,Fr表示最优弓网接触力,Fpc(t)表示实际弓网接触力;
步骤2.2:建立虚拟仿真平台,初始化一批不同受电弓、接触网、环境扰动参数的弓网系统控制任务,运行所有控制任务生成虚拟仿真样本库;
步骤2.3:步骤2.2样本获取过程如下:深度强化学习网络获得当前时间步状态st并生成动作at给受电弓气阀板,气阀板执行控制后,深度强化学习网络获得奖励rt和下一时间步受电弓状态st+1;产生样本(st,at,rt,st+1)并存储在数据库中,重复以上步骤直至训练结束;
步骤2.4:以运行线路参数和实际受电弓建立半实物半虚拟平台建立平台样本库,样本获取过程同步骤2.3。
4.根据权利要求3所述的一种基于元强化学习的列车受电弓自适应控制方法,其特征在于,所述步骤3具体为:
步骤3.1:利用步骤2产生的2个样本库,轮流训练深度强化学习网络和任务编码网络;
步骤3.2:步骤3.1的深度强化学习网络具有1个策略网络和4个评估网络;策略网络用于输出最优动作,评估网络用于评估策略网络输出的策略是否优秀,并指导其生成最优控制策略;
步骤3.3:步骤3.2的策略网络输入状态信息和任务编码信息,输出最优动作;使用πθ(s,z)表示策略网络,θ表示策略网络的参数;从数据库中采样一批样本(st,at,rt,st+1)训练策略网络,其损失函数写为:
其中,B表示采样样本库,Qφ表示评估网络,s,a表示样本中状态和动作值,z表示当前任务编码,表示不通过z计算梯度;
步骤3.4:步骤3.3的评估网络Qφ输入状态信息和动作,输出状态动作价值,有两种策略网络,使用Q表示当前评估网络,使用φ表示其参数;使用表示目标评估网络,使用/>表示其参数;当前评估网络参数的损失函数写为:
式中,a′=πθ(s′),表示下一状态s'下根据控制策略πθ采取的动作a';目标评估网络通过当前评估网络参数定期软更新:
其中,τ表示软更新的速度;
步骤3.5:步骤3.3、步骤3.4的任务编码计算方式为基于贝叶斯优化的任务编码计算。
5.根据权利要求4所述的一种基于元强化学习的列车受电弓自适应控制方法,其特征在于,所述贝叶斯优化的求解步骤为:首先生成一个初始候选解集合,然后根据这些点寻找下一个最有可能是极值的点,将该点加入集合中,重复这一步骤,直至迭代终止;最后从这些点中找出函数值最大的点作为问题的解,从而求解最优任务编码;
需要求解的目标函数为智能体的累计奖励函数,其公式为:
以高斯过程回归做为概率代理模型,其表达式如下:
μt(z)=[μ(z1) ... μ(xt)]
式中,D1:t={D1:t-1,(zt;Jt)}表示采样点,μt(z)和σt(z)是高斯过程回归的均值向量和协方差矩阵;
采用高斯过程-置信上限作为采集函数,利用高斯过程-置信上限采集函数αt(z)获取下一采样点的公式写为:
其中,加权和项μt-1(z)和σt-1(z)是高斯过程的均值与均方差,分别解释为探索和探索;β为常数,表示探索因子权重。
6.根据权利要求4所述的一种基于元强化学习的列车受电弓自适应控制方法,其特征在于,所述步骤4具体为:接受控制器输出的设定气囊气压,并将设定气囊气压设定于受电弓气阀板上的精密调压阀从而控制气囊压强。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310630245.1A CN116577991A (zh) | 2023-05-31 | 2023-05-31 | 一种基于元强化学习的列车受电弓自适应控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310630245.1A CN116577991A (zh) | 2023-05-31 | 2023-05-31 | 一种基于元强化学习的列车受电弓自适应控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116577991A true CN116577991A (zh) | 2023-08-11 |
Family
ID=87539571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310630245.1A Pending CN116577991A (zh) | 2023-05-31 | 2023-05-31 | 一种基于元强化学习的列车受电弓自适应控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116577991A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118627400A (zh) * | 2024-08-13 | 2024-09-10 | 中车工业研究院(青岛)有限公司 | 一种受电弓受流质量的调控方法、装置、设备及介质 |
CN118627400B (zh) * | 2024-08-13 | 2024-10-22 | 中车工业研究院(青岛)有限公司 | 一种受电弓受流质量的调控方法、装置、设备及介质 |
-
2023
- 2023-05-31 CN CN202310630245.1A patent/CN116577991A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118627400A (zh) * | 2024-08-13 | 2024-09-10 | 中车工业研究院(青岛)有限公司 | 一种受电弓受流质量的调控方法、装置、设备及介质 |
CN118627400B (zh) * | 2024-08-13 | 2024-10-22 | 中车工业研究院(青岛)有限公司 | 一种受电弓受流质量的调控方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112668235B (zh) | 基于离线模型预训练学习的ddpg算法的机器人控制方法 | |
CN110850716B (zh) | 基于接触网先验信息的受电弓神经网络滑模变结构主动控制方法 | |
CN107728478B (zh) | 燃料电池氧气过剩系数神经网络预测控制方法 | |
CN112541228B (zh) | 接触力长短时记忆网络预测的受电弓主动控制方法 | |
CN116027667A (zh) | 一种基于深度强化学习的重联-动车组双弓协同控制方法 | |
CN110802589A (zh) | 一种工业机器人单关节伺服控制的迟滞补偿方法 | |
Wang et al. | Rapid adaptation for active pantograph control in high-speed railway via deep meta reinforcement learning | |
Cheng et al. | Grey FNN control and robustness design for practical nonlinear systems | |
CN116643499A (zh) | 一种基于模型强化学习的智能体路径规划方法及系统 | |
CN116604532A (zh) | 一种上肢康复机器人智能控制方法 | |
Liu et al. | Active pantograph in high-speed railway: Review, challenges, and applications | |
Wang et al. | Contrastive learning-based bayes-adaptive meta-reinforcement learning for active pantograph control in high-speed railways | |
CN116577991A (zh) | 一种基于元强化学习的列车受电弓自适应控制方法 | |
Wang et al. | Offline Meta-Reinforcement Learning for Active Pantograph Control in High-Speed Railways | |
CN112947056A (zh) | 基于igwo-bp-pid的磁浮列车位移速度跟踪控制方法 | |
CN117787384A (zh) | 一种用于无人机空战决策的强化学习模型训练方法 | |
Puccetti et al. | Speed tracking control using model-based reinforcement learning in a real vehicle | |
CN117170244A (zh) | 一种基于igwo-svr的交流接触器控制参数优化方法 | |
CN115489320B (zh) | 一种基于深度强化学习的列车受电弓智能控制方法 | |
EP3985461A1 (en) | Model learning apparatus, control apparatus, model learning method and computer program | |
Liu et al. | Forward-looking imaginative planning framework combined with prioritized-replay double DQN | |
CN112308229B (zh) | 基于自组织映射的动态多目标演化优化方法 | |
Natella et al. | A Q-learning approach for SoftECU design in hybrid electric vehicles | |
CN116974187A (zh) | 基于深度强化学习和扰动观测的磁悬浮动态控制方法和系统 | |
Wang et al. | A Hierarchical Control Strategy for Active Pantograph in High-speed Railway |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |