CN116577991A

CN116577991A - 一种基于元强化学习的列车受电弓自适应控制方法

Info

Publication number: CN116577991A
Application number: CN202310630245.1A
Authority: CN
Inventors: 刘志刚; 王惠
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2023-05-31
Filing date: 2023-05-31
Publication date: 2023-08-11

Abstract

本发明公开了一种基于元强化学习的列车受电弓自适应控制方法，具体为：信息采集单元获取受电弓状态信息、列车运行信息和接触网信息；建立控制器控制动作与接触网交互样本数据集；基于所建立的交互样本数据集采用深度强化学习网络学习最优行为策略；每一个控制任务基于贝叶斯优化方法生成最优任务编码；最优行为策略作为控制器，根据弓网系统运行信息和任务编码计算最优控制动作，并将控制器补偿动作输出受电弓气阀板上的精密调压阀从而控制气囊压强。本发明对高铁受电弓的精准、提前控制，保证受电弓和接触网的良好接触，提升列车的受流质量，降低接触部件的磨损，提升服役寿命；还使弓网系统控制器能够快速适应外部环境扰动和自身参数变化。

Description

一种基于元强化学习的列车受电弓自适应控制方法

技术领域

本发明属于高速铁路受电弓的智能控制技术领域，尤其涉及一种基于元强化学习的列车受电弓自适应控制方法。

背景技术

高速铁路的快速发展，对牵引供电系统的运行安全性提出了更高的要求。随着我国铁路往重载化和高速化方向发展，受电弓与接触网系统的耦合性能随着振动加剧现象日益恶化。受电弓-接触网系统是一个复杂的动力学系统。传统的优化方式主要从受电弓结构优化、接触网性能优化和弓网参数匹配等角度出发，但是花费的经济成本巨大难以推动。受电弓的主动控制是一项弓网性能优化技术。当受电弓与接触网接触力过大时，会导致接触线和受电弓碳滑板过度磨损，影响产品服务寿命。当受电弓与接触网接触力过小时，会导致受电弓与接触网脱离接触，造成离线电弧，灼伤受电弓碳滑板，并且产生谐波影响电流质量。但由于受电弓、接触网类型很多，传统控制器只能针对单一弓网参数组合有控制效果，当受电弓、接触网类型或者环境扰动发生变化时，控制器很可能失效甚至恶化弓网接触。

发明内容

为实现对受电弓进行快速的自适应控制，避免接触线和受电弓碳滑板过度磨损，提高主动受电弓控制器适应性，提高列车受流质量，保障列车安全。本发明提供一种基于元强化学习的列车受电弓自适应控制方法。

本发明的一种基于元强化学习的列车受电弓自适应控制方法，控制系统包括气囊、供气源、精密调压阀、控制器和信息采集单元；供气源连接气囊用于提供稳定气压，精密调压阀用于精确控制气囊压强，控制单元连接精密调压阀用于输出控制信号，信息采集单元用于采集控制器决策所用信息。控制方法具体包括以下步骤：

步骤1：信息采集单元获取受电弓状态信息、列车运行信息和接触网信息。

步骤2：初始化一批不同受电弓、接触网、环境扰动参数的控制任务，建立控制器控制动作与接触网交互样本数据集。

步骤3：基于步骤2所建立的交互样本数据集，采用任务编码网络学习任务编码，采用强化学习网络学习最优行为策略。

步骤4：根据步骤3的最优行为策略作为控制器，将控制器补偿动作输出受电弓气阀板上的精密调压阀从而控制气囊压强。

步骤1中的受电弓状态信息包括受电弓升弓高度、弓头垂向速度、弓头垂向加速度和开闭口方向；列车运行信息包括列车运行速度和运行方向；接触网信息包括接触网的刚度、跨度和吊弦分布信息。

进一步的，步骤2具体为：

步骤2.1：定义深度强化学习马尔可夫决策环境关键要素：状态空间，动作空间和奖励函数：

1)状态空间：状态空间包含所有步骤1的状态信息，其表示为：

S＝{s|s_t＝(s_pantograph,s_catenary,s_train)}

其中，s_pantograph表示受电弓状态信息，s_catenary表示接触网信息，s_train表示列车运行信息。

2)动作空间：动作空间包含气囊气压变化的范围，其表示为：

A＝{a|a_min≤a_t≤a_max}

其中，a_min表示气囊最小设定气压，a_max表示气囊最大设定气压。

3)奖励函数：奖励函数用于奖励策略网络向最优策略收敛：

r_t＝-|F_r-F_pc(t)|

其中，F_r表示最优弓网接触力，F_pc(t)表示实际弓网接触力。

步骤2.2：建立虚拟仿真平台，初始化一批不同受电弓、接触网、环境扰动参数的弓网系统控制任务，运行所有控制任务生成虚拟仿真样本库。

步骤2.3：步骤2.2样本获取过程如下：深度强化学习网络获得当前时间步状态s_t并生成动作a_t给受电弓气阀板，气阀板执行控制后，深度强化学习网络获得奖励r_t和下一时间步受电弓状态s_t+1；产生样本(s_t,a_t,r_t,s_t+1)并存储在数据库中，重复以上步骤直至训练结束。

步骤2.4：以运行线路参数和实际受电弓建立半实物半虚拟平台建立平台样本库，样本获取过程同步骤2.3。

进一步的，步骤3具体为：

步骤3.1：利用步骤2产生的2个样本库，轮流训练深度强化学习网络和任务编码网络。

步骤3.2：步骤3.1的深度强化学习网络具有1个策略网络和4个评估网络；策略网络用于输出最优动作，评估网络用于评估策略网络输出的策略是否优秀，并指导其生成最优控制策略。

步骤3.3：步骤3.2的策略网络输入状态信息和任务编码信息，输出最优动作；使用π_θ(s,z)表示策略网络，θ表示策略网络的参数；从数据库中采样一批样本(s_t,a_t,r_t,s_t+1)训练策略网络，其损失函数写为：

其中，B表示采样样本库，Q_φ表示评估网络，s,a表示样本中状态和动作值，z表示当前任务编码，表示不通过z计算梯度。

步骤3.4：步骤3.3的评估网络Q_φ输入状态信息和动作，输出状态动作价值，有两种策略网络，使用Q表示当前评估网络，使用φ表示其参数；使用表示目标评估网络，使用/>表示其参数；当前评估网络参数的损失函数写为：

式中，a′＝π_θ(s′)，表示下一状态s'下根据控制策略π_θ采取的动作a'。目标评估网络通过当前评估网络参数定期软更新：

其中，τ表示软更新的速度。

步骤3.5：步骤3.3、步骤3.4的任务编码计算方式为基于贝叶斯优化的任务编码计算。

贝叶斯优化的求解步骤为：首先生成一个初始候选解集合，然后根据这些点寻找下一个最有可能是极值的点，将该点加入集合中，重复这一步骤，直至迭代终止；最后从这些点中找出函数值最大的点作为问题的解，从而求解最优任务编码。

需要求解的目标函数为智能体的累计奖励函数，其公式为：

以高斯过程回归做为概率代理模型，其表达式如下：

μ_t(z)＝[μ(z₁) ... μ(x_t)]

式中，D_1:t＝{D_1:t-1,(z_t；J_t)}表示采样点，μ_t(z)和σ_t(z)是高斯过程回归的均值向量和协方差矩阵。

采用高斯过程-置信上限作为采集函数，利用高斯过程-置信上限采集函数α_t(z)获取下一采样点的公式写为：

其中，加权和项μ_t-1(z)和σ_t-1(z)是高斯过程的均值与均方差，可以分别解释为探索和探索；β通常为常数，表示探索因子权重。

进一步的，步骤4具体为：接受控制器输出的设定气囊气压，并将设定气囊气压设定于受电弓气阀板上的精密调压阀从而控制气囊压强。

本发明和现有技术相比的有益技术效果为：

1.本发明通过深度强化学习方法对高铁受电弓的精准、提前控制，保证受电弓和接触网的良好接触，提升列车的受流质量，降低接触部件的磨损、提升服役寿命。本发明受电弓与接触网的长期运行特征，利用深度强化学习方法智能化地学习最优控制策略。

2.本发明方法能够有效适应多型号受电弓接触网参数组合，针对具体线路优化控制策略，优化列车受流条件。另外，本发明方法还使弓网系统控制器能够快速适应外部环境扰动和自身参数变化。

附图说明

图1为本发明方法处理过程框图。

图2为本发明马尔可夫决策过程环境定义。

图3为本发明马尔可夫决策过程。

图4为本发明的深度强化学习策略网络结构。

图5为本发明的深度强化学习整体网络结构。

图6为本发明在建立虚拟仿真平台时所使用的受电弓模型。

图7为本发明在建立虚拟仿真平台时所使用的接触网模型。

图8为本发明建立平台样本库所建立的半实物半虚拟平台。

图9为本发明贝叶斯优化方法流程图。

图10为本发明控制策略在所建立虚拟仿真平台时验证的控制效果(其中a为控制器加入前后的接触力对比；b为控制器加入前后，接触力的频率密度分析对比)。

图11为控制器输出的控制力时域和频域波形(其中a为控制器输出的主动控制力时域波形；b为主动控制力的频谱分析)。

图12为本发明控制策略在所建立半实物半虚拟平台验证的控制效果。

图13为本发明控制策略在所建立半实物半虚拟平台验证的控制效果统计。

具体实施方式

下面结合附图和具体实施例对本发明做进一步详细说明。

本发明的一种基于深度强化学习的列车受电弓智能控制方法，控制系统包括气囊、供气源、精密调压阀、控制器和信息采集单元；供气源连接气囊用于提供稳定气压，精密调压阀用于精确控制气囊压强，控制单元连接精密调压阀用于输出控制信号，信息采集单元用于采集控制器决策所用信息。控制方法流程如图1所示，具体包括以下步骤：

受电弓状态信息包括受电弓升弓高度、弓头垂向速度、弓头垂向加速度和开闭口方向；列车运行信息包括列车运行速度和运行方向；接触网信息包括接触网的刚度、跨度和吊弦分布信息。

步骤2.1：图2为本发明所述的马尔可夫决策过程环境定义，图3本发明所述的马尔可夫决策过程。定义深度强化学习马尔可夫决策环境关键要素：状态空间，动作空间和奖励函数。

S＝{s|s_t＝(s_pantograph,s_catenary,s_train)}

A＝{a|a_min≤a_t≤a_max}

3)奖励函数：奖励函数用于奖励策略网络向最优策略收敛；

r_t＝-|F_r-F_pc(t)|

其中，F_r表示最优弓网接触力，F_pc(t)表示实际弓网接触力。

步骤2.2：如图6、7所示，利用受电弓和接触网模型建立虚拟仿真平台。初始化一批不同受电弓、接触网、环境扰动参数的弓网系统控制任务。建立虚拟仿真平台运行所有控制任务生成虚拟仿真样本库。样本获取过程如下：深度强化学习策略网络获得当前时间步受电弓状态s_t和任务编码并生成动作a_t给受电弓气阀板，气阀板执行控制动作后，深度强化学习网络获得奖励r_t和下一时间步受电弓状态s_t+1。这产生样本(s_t,a_t,r_t,s_t+1)并存储在数据库中，重复以上步骤直至训练结束。

步骤2.3：如图8所示，以运行线路参数和实际受电弓建立半实物半虚拟平台建立平台样本库。样本获取同步骤2.2。

步骤3.2：如图5所示，步骤3.1的深度强化学习网络具有1个策略网络和4个评估网络；策略网络用于输出最优动作，评估网络用于评估策略网络输出的策略是否优秀，并指导其生成最优控制策略。

步骤3.3：如图4所示，步骤3.2的策略网络输入状态信息和任务编码信息，输出最优动作；使用π_θ(s,z)表示策略网络，θ表示策略网络的参数；从数据库中采样一批样本(s_t,a_t,r_t,s_t+1)训练策略网络，其损失函数写为：

式中，a′＝π_θ(s′)，表示下一状态s'下根据控制策略π_θ采取的动作a'。

目标评估网络通过当前评估网络参数定期软更新：

其中，τ表示软更新的速度。

步骤3.5：贝叶斯优化的流程图如图9所示，首先生成一个初始候选解集合，然后根据这些点寻找下一个最有可能是极值的点，将该点加入集合中，重复这一步骤，直至迭代终止。最后从这些点中找出函数值最大的点作为问题的解，从而求解最优任务编码。在这一步中，我们固定策略函数权重，单独寻优任务编码。贝叶斯优化是一种用于求解函数极值问题的黑盒优化算法，通常包括一个概率代理模型(高斯过程回归)和采集函数。算法根据一组采样点处的函数值预测出任意点处概率替代模型的概率分布，这通过高斯过程回归而实现。根据高斯过程回归的结果构造采集函数，用于衡量每一个点值得探索的程度，求解采集函数的极值从而确定下一个采样点。最后返回这组采样点的极值作为函数的极值。

需要求解的目标函数为智能体的累计奖励函数，其公式为：

以高斯过程回归做为概率代理模型，其表达式如下：

μ_t(z)＝[μ(z₁) ... μ(x_t)]

式中D_1:t＝{D_1:t-1,(z_t；J_t)}表示采样点。μ_t(z)和σ_t(z)是高斯过程回归的均值向量和协方差矩阵。

接受控制器输出的设定气囊气压，并将设定气囊气压设定于受电弓气阀板上的精密调压阀从而控制气囊压强。

实施案例：

1、数据样本集建立。如图6、7所示，利用模型建立虚拟仿真平台，收集虚拟仿真样本库。如图8所示，以运行线路参数和实际受电弓建立半实物半虚拟平台，收集平台样本库。

2、虚拟仿真平台控制策略训练。根据如上建立的数据样本，利用图9所示的贝叶斯优化算法求解最优任务编码。利用深度强化学习方法训练最优控制策略。在仿真平台的控制器性能验证和实际时频域分析结果如图10所示。其中a为控制器加入前后的接触力对比；b为控制器加入前后，接触力的频率密度分析对比。仿真结果表明控制器可以显著接触力方差和频域能量。控制器输出的动作如图11所示，其中a为控制器输出的主动控制力时域波形；b为主动控制力的频谱分析。仿真结果表明控制器输出了相对平滑的控制动作。

3、半实物半虚拟平台控制策略优化。将步骤2所训练的控制策略部署至半实物半虚拟平台，并利用半实物半虚拟平台所产生的平台样本库继续训练最优控制策略。在环境扰动或接触网仿真参数变化时的控制器性能验证如图12所示，结果表明控制器可以快速适应环境扰动和弓网系统参数变化。不同速度下在控制前后的控制力方差对比图如图13所示，可见控制器对比不同运行速度均有效。

Claims

1.一种基于元强化学习的列车受电弓自适应控制方法，其特征在于，控制系统包括气囊、供气源、精密调压阀、控制器和信息采集单元；供气源连接气囊用于提供稳定气压，精密调压阀用于精确控制气囊压强，控制单元连接精密调压阀用于输出控制信号，信息采集单元用于采集控制器决策所用信息；控制方法具体包括以下步骤：

步骤1：信息采集单元获取受电弓状态信息、列车运行信息和接触网信息；

步骤2：初始化一批不同受电弓、接触网、环境扰动参数的控制任务，建立控制器控制动作与接触网交互样本数据集；

步骤3：基于步骤2所建立的交互样本数据集，采用任务编码网络学习任务编码，采用强化学习网络学习最优行为策略；

2.根据权利要求1所述的一种基于元强化学习的列车受电弓自适应控制方法，其特征在于，所述步骤1中的受电弓状态信息包括受电弓升弓高度、弓头垂向速度、弓头垂向加速度和开闭口方向；列车运行信息包括列车运行速度和运行方向；接触网信息包括接触网的刚度、跨度和吊弦分布信息。

3.根据权利要求2所述的一种基于元强化学习的列车受电弓自适应控制方法，其特征在于，所述步骤2具体为：

S＝{s|s_t＝(s_pantograph,s_catenary,s_train)}

其中，s_pantograph表示受电弓状态信息，s_catenary表示接触网信息，s_train表示列车运行信息；

A＝{a|a_min≤a_t≤a_max}

其中，a_min表示气囊最小设定气压，a_max表示气囊最大设定气压；

3)奖励函数：奖励函数用于奖励策略网络向最优策略收敛；

r_t＝-|F_r-F_pc(t)|

其中，F_r表示最优弓网接触力，F_pc(t)表示实际弓网接触力；

步骤2.2：建立虚拟仿真平台，初始化一批不同受电弓、接触网、环境扰动参数的弓网系统控制任务，运行所有控制任务生成虚拟仿真样本库；

步骤2.3：步骤2.2样本获取过程如下：深度强化学习网络获得当前时间步状态s_t并生成动作a_t给受电弓气阀板，气阀板执行控制后，深度强化学习网络获得奖励r_t和下一时间步受电弓状态s_t+1；产生样本(s_t,a_t,r_t,s_t+1)并存储在数据库中，重复以上步骤直至训练结束；

4.根据权利要求3所述的一种基于元强化学习的列车受电弓自适应控制方法，其特征在于，所述步骤3具体为：

步骤3.1：利用步骤2产生的2个样本库，轮流训练深度强化学习网络和任务编码网络；

步骤3.2：步骤3.1的深度强化学习网络具有1个策略网络和4个评估网络；策略网络用于输出最优动作，评估网络用于评估策略网络输出的策略是否优秀，并指导其生成最优控制策略；

其中，B表示采样样本库，Q_φ表示评估网络，s,a表示样本中状态和动作值，z表示当前任务编码，表示不通过z计算梯度；

式中，a′＝π_θ(s′)，表示下一状态s'下根据控制策略π_θ采取的动作a'；目标评估网络通过当前评估网络参数定期软更新：

其中，τ表示软更新的速度；

5.根据权利要求4所述的一种基于元强化学习的列车受电弓自适应控制方法，其特征在于，所述贝叶斯优化的求解步骤为：首先生成一个初始候选解集合，然后根据这些点寻找下一个最有可能是极值的点，将该点加入集合中，重复这一步骤，直至迭代终止；最后从这些点中找出函数值最大的点作为问题的解，从而求解最优任务编码；

需要求解的目标函数为智能体的累计奖励函数，其公式为：

以高斯过程回归做为概率代理模型，其表达式如下：

μ_t(z)＝[μ(z₁) ... μ(x_t)]

式中，D_1:t＝{D_1:t-1,(z_t；J_t)}表示采样点，μ_t(z)和σ_t(z)是高斯过程回归的均值向量和协方差矩阵；

其中，加权和项μ_t-1(z)和σ_t-1(z)是高斯过程的均值与均方差，分别解释为探索和探索；β为常数，表示探索因子权重。

6.根据权利要求4所述的一种基于元强化学习的列车受电弓自适应控制方法，其特征在于，所述步骤4具体为：接受控制器输出的设定气囊气压，并将设定气囊气压设定于受电弓气阀板上的精密调压阀从而控制气囊压强。