CN117557256B

CN117557256B - 一种高速铁路轨道平顺性多任务协调维护方法

Info

Publication number: CN117557256B
Application number: CN202410047396.9A
Authority: CN
Inventors: 何庆; 孙华坤; 李晨钟; 徐淙洋; 杨倩倩; 吴国新; 吕关仁; 丁军君; 张岷; 余天乐; 王平; 刘宇恒; 王庆晶
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2024-01-12
Filing date: 2024-01-12
Publication date: 2024-03-22
Anticipated expiration: 2044-01-12
Also published as: CN117557256A

Abstract

本发明涉及铁路轨道平顺性维护技术领域，提供一种高速铁路轨道平顺性多任务协调维护方法，其包括以下步骤：1）初始化轨道状态；2）定义自然恶化、大机捣固和轨道精调动作的状态转移概率矩阵；3）初始化轨道维护环境参数；4）初始化贝叶斯深度强化学习代理参数；5）维护环境与模型代理迭代交互和时间步求解。本发明能较佳地进行高速铁路轨道平顺性多任务协调维护。

Description

一种高速铁路轨道平顺性多任务协调维护方法

技术领域

本发明涉及铁路轨道平顺性维护技术领域，具体地说，涉及一种高速铁路轨道平顺性多任务协调维护方法。

背景技术

轨道不平顺是高速列车振动失稳和轨道结构性能下降的主要原因。消除轨道不平顺，保持轨道高平顺性是高速铁路网运维的核心。对于高速铁路有砟轨道来说，大机捣固和轨道精调是保持轨道高平顺性的两项关键措施，也是高速铁路与普速铁路的重要区别。大机捣固是一种重置轨道结构不平顺的维护方法，特别适用于控制轨道长波不平顺，但对中短波的控制效果具有随机性。相比之下，轨道精调是一种对扣件系统进行精细化调整的措施，可以精确控制中短波不平顺，但长波优化能力有限。在高铁建设阶段，这两种维护措施的特点没有得到充分利用，造成资源浪费和技术冗余。当维护资源有限时，智能维护的难点在于如何最大限度地发挥两种措施的优势，实现联合维护。

发明内容

本发明的内容是提供一种高速铁路轨道平顺性多任务协调维护方法，其能够解决现有轨道平顺性维护计划制定过程未考虑线路长期状态、无法高效协同多种维护措施的问题。

根据本发明的一种高速铁路轨道平顺性多任务协调维护方法，其包括以下步骤：

1）初始化轨道状态；

2）定义自然恶化、大机捣固和轨道精调的状态转移概率矩阵；

3）初始化轨道维护环境参数；

4）初始化贝叶斯深度强化学习代理参数；

5）维护环境与模型代理迭代交互和时间步求解。

作为优选，步骤1）中，以200m为基准将长度为L的线路划分为n个初始维护单元区段，基于当前线路平顺性状态，以TQI指标为基准，由低至高划定线路横垂向状态为4个等级，具体如下：

；

其中，i表示轨道维护单元索引，i=0,1,...,n-1；表示第i个维护单元范围内第j个采样点值；/>表示第i个维护单元范围内所有采样点均值；/>和/>表示第i个维护单元标准差和状态；/>表示所有维护单元TQI最大值。

作为优选，步骤3）中，轨道维护环境参数包括轨道参数、动作更新函数、奖励计算函数、早停机制。

作为优选，动作更新函数根据输入的动作向量，计算选择执行后对应更新状态/>，具体如下：

；

其中，i表示轨道维护单元索引，i=0,1,...,n-1；表示第i个维护单元执行动作后状态，/>、/>和/>分别表示第i个维护单元执行自然恶化、大机捣固、轨道精调后状态。

作为优选，奖励计算函数根据输入的动作向量，计算选择执行后对应奖励，具体如下：

；

其中，表示所有维护单元执行维护操作后总奖励，由成本奖励/>，状态提升奖励/>，危险状态惩罚/>三部分组成；/>和分别表示大机捣固和轨道精调维护成本；i表示轨道维护单元索引，i=0,1,...,n-1；/>和/>表示第i个维护单元执行维护前后状态；/>表示目标状态等级；/>表示超出状态等级惩罚值。

作为优选，早停机制具体如下：

；

其中，i表示轨道维护单元索引，i=0,1,...,n-1；表示第i个维护单元状态；表示成本奖励；/>和/>分别表示维护环境与模型代理交互的继续和终止；/>表示目标状态等级；/>表示最大成本约束。

作为优选，步骤4）中，贝叶斯深度强化学习代理参数包括代理参数、深度贝叶斯多层感知网络、专家动作选择和专家经验池。

作为优选，深度贝叶斯多层感知网络用于根据当前状态判断动作价值Q，选择动作，深度贝叶斯多层感知网络包括1层状态输入层、多层贝叶斯隐藏层和1层动作价值Q输出层；其中，输入端为状态向量，隐藏层采用蒙特卡洛原理进行随机丢弃保证鲁棒性。

作为优选，专家动作选择包括模型动作选择和随机新动作选择；定义探索率函数，用于权衡模型动作选择与随机新动作选择概率；当随机数大于探索率时，按照当前模型优化参数进行动作价值Q计算，每个维度选择动作价值Q最大的动作；当随机数小于探索率时，从动作空间中进行随机动作选择，具体如下：

；

其中，为探索率，/>和/>分别表示初始设置的最大和最小探索率；s为探索步长；/>为探索折扣；/>（*）为/>函数，用于返回动作价值Q对应的动作索引；/>为深度贝叶斯多层感知网络；/>表示从动作空间中随机选择一条维度相同的动作向量，/>为随机数，取值范围[0,1]。

作为优选，专家经验池用于存储过去选择Q值的更新记录，包括：当前状态、当前动作、下一状态以及当前奖励。

本发明的有益效果如下：

通过分析历史检测数据，建立了定义轨道状态等级。考虑两种措施效果的异同，融合专家知识概念，通过奖励塑造和专家策略引导来加速特定行为的学习。最后，考虑状态转换和动作预测的不确定性，建立贝叶斯深度强化学习模型，以提高决策的鲁棒性。在维修资源固定的情况下，有效制定大机捣固和轨道精调两种维修任务联合作业计划，区别于传统针对单一维护规划仅能输出单一措施的应用区间，本方法可同时输出大机捣固和轨道精调两种维护措施的应用区间；同时，考虑维护效果的提升和随机性，能够以最小代价将整体状态降低至目标等级。

附图说明

图1为实施例1中一种高速铁路轨道平顺性多任务协调维护方法的流程图；

图2为实施例1中深度贝叶斯多层感知网络示意图；

图3为实施例2中线路单元横向初始状态情况示意图；

图4为实施例2中线路单元垂向初始状态情况示意图；

图5为实施例2中不同维护措施应用区间示意图；

图6为实施例2中联合维护策略应用后横向状态示意图。

图7为实施例2中联合维护策略应用后垂向状态示意图。

实施方式

为进一步了解本发明的内容，结合附图和实施例对本发明作详细描述。应当理解的是，实施例仅仅是对本发明进行解释而并非限定。

实施例1

如图1所示，本实施例提供了一种高速铁路轨道平顺性多任务协调维护方法，其包括以下步骤：

1）初始化轨道状态；

以200m为基准将长度为L的线路划分为n个初始维护单元区段，基于当前线路平顺性状态，以TQI指标为基准，由低至高划定线路横垂向状态为4个等级，具体如下：

；

2）定义自然恶化、大机捣固和轨道精调动作的状态转移概率矩阵；

自然恶化

根据线路初始情况定义不进行维护时的自然恶化状态转移概率矩阵。考虑线路发展情况，状态只会由低状态向高状态发展，具体如表1（a）和表1（b）所示。

表1（a）自然恶化垂向状态转移概率矩阵表

；

表1（b）自然恶化横向状态转移概率矩阵表

；

其中，SCV和SPV分别表示自然恶化前后的垂向状态，SCH和SPH分别表示自然恶化前后的垂向状态；表示初始状态向未来状态转移的概率，/>表示行列数，取值范围[1,4]。

大机捣固动作

建立大机捣固动作对应的横垂向状态转移概率矩阵。考虑大机捣固维护的重置作用效果，执行动作后的状态大概率会由高等级向低等级发展，小概率保持或进一步恶化；同时，大机捣固操作对于垂向高等级状态作用效果更明显，对于横向状态可精细化控制，为保障快速收敛，可对状态空间进行精简。具体如表2（a）和表2（b）所示。

表2（a）大机捣固动作垂向状态转移概率矩阵表

；

表2（b）大机捣固动作横向状态转移概率矩阵表

；

其中，SCTV和SPTV分别表示大机捣固前后的垂向状态，SCTH和SPTH分别表示大机捣固前后的垂向状态；表示初始状态向未来状态转移的概率，/>表示行列数，取值范围[1,4]。

轨道精调动作

建立轨道精调动作对应的横垂向状态转移概率矩阵。考虑轨道精调维护的精细化调整效果，执行动作后的状态大概率会由高等级向低等级发展，小概率保持或进一步恶化；同时，轨道精调操作对于横向高等级状态作用效果更明显，对于垂向中等级状态控制效果更佳，为保障快速收敛，可对状态空间进行精简。具体如表3（a）和表3（b）所示。

表3（a）轨道精调动作垂向状态转移概率矩阵表

；

表3（b）轨道精调动作横向状态转移概率矩阵表

；

其中，SCFV和SPFV分别表示轨道精调前后的垂向状态，SCFH和SPFH分别表示轨道精调前后的垂向状态；表示初始状态向未来状态转移的概率，/>表示行列数，取值范围[1,4]。

3）初始化轨道维护环境参数；轨道维护环境参数包括基本轨道参数、动作更新函数、奖励计算函数、早停机制。

基本轨道参数

如表4所示。

表4 环境基本轨道参数表

；

动作更新函数Updata

根据输入的动作向量，计算选择执行后对应更新状态/>，具体如下：

；

奖励计算函数

根据输入的动作向量，计算选择执行后对应奖励/>，具体如下：

；

其中，表示所有维护单元执行维护操作后总奖励，由成本奖励/>，状态提升奖励/>，危险状态惩罚/>三部分组成；/>和分别表示大机捣固和轨道精调维护成本；i表示轨道维护单元索引，i=0,1,...,n-1；/>和/>表示第i个维护单元执行维护前后状态；/>表示目标状态等级阈值，从2,3,4中自由选择；/>表示超出状态等级惩罚值。

早停机制

为避免出现过拟合、减少模型计算量，同时考虑状态等级和成本约束条件，建立早停机制，具体如下：

；

4）初始化贝叶斯深度强化学习代理参数；贝叶斯深度强化学习代理参数包括代理基本参数、深度贝叶斯多层感知网络、专家动作选择和专家经验池。

代理基本参数

如表5所示。

表5 代理基本参数表

；

深度贝叶斯多层感知网络M

用于根据当前状态判断动作价值，选择动作。深度贝叶斯多层感知网络包括1层状态输入层、多层贝叶斯隐藏层和1层动作价值Q输出层；其中，输入端为状态向量，隐藏层采用蒙特卡洛原理进行随机丢弃保证鲁棒性。模型如图2所示。

专家动作选择Select

包括模型动作选择和随机新动作选择；定义探索率函数，用于权衡模型动作选择与随机新动作选择概率；当随机数大于探索率时，按照当前模型优化参数进行动作价值Q计算，每个维度选择动作价值Q最大的动作；当随机数小于探索率时，从动作空间中进行随机动作选择，具体如下：

；其中，/>为探索率，/>和/>分别表示初始设置的最大和最小探索率；s为探索步长；/>为探索折扣；/>（*）为/>函数，用于返回动作价值Q对应的动作索引；/>为深度贝叶斯多层感知网络；/>表示从动作空间中随机选择一条维度相同的动作向量，/>为随机数，取值范围[0,1]。

专家经验池Memorize

专家经验池用于存储过去选择的Q值较优的更新记录，主要包括：当前状态、当前动作、下一状态以及当前奖励。

5）迭代次数和时间步求解。

迭代求解过程主要用于代理和环境的交互更新，其主要参数迭代次数n_episode和时间步数n_step，实现逻辑如表6所示。

表6 迭代更新求解算法逻辑表

；

本实施例通过分析历史检测数据，建立了定义轨道状态等级。考虑两种措施效果的异同，融合专家知识概念，通过奖励塑造和专家策略引导来加速特定行为的学习。最后，考虑状态转换和动作预测的不确定性，建立贝叶斯深度强化学习模型，以提高决策的鲁棒性。在维修资源固定的情况下，有效制定大机捣固和轨道精调两种维修任务联合作业计划，区别于传统针对单一维护规划仅能输出单一措施的应用区间，本方法可同时输出大机捣固和轨道精调两种维护措施的应用区间；同时，考虑维护效果的提升和随机性，能够以最小代价将整体状态降低至目标等级。

实施例2

本实施例以一段长度10公里包含50个维护单元的数据为例进行方法应用，具体如下：

1）初始化轨道状态

参照公式（1）、（2）分别计算线路初始横向和垂向状态如图3、图4所示。

2）定义自然恶化、大机捣固和轨道精调维护状态转移概率矩阵

根据线路初始情况定义不进行维护时的状态转移概率矩阵。考虑线路发展情况，状态只会由低状态向高状态发展，同时，短周期内跨状态转移概率较小，结合实测数据结果，具体参数选取如表7（a）和表7（b）所示。

表7（a）自然恶化垂向状态转移概率矩阵表

；

表7（b）自然恶化横向状态转移概率矩阵表

；

建立大机捣固动作对应的横垂向状态转移概率矩阵。考虑大机捣固维护的重置作用效果，执行动作后的状态大概率会由高等级向低等级发展，小概率保持或进一步恶化；同时，大机捣固操作对于垂向高等级状态作用效果更明显，对于横向状态可精细化控制，结合实测数据结果，具体参数选取如表8（a）和表8（b）所示。

表8（a）大机捣固动作垂向状态转移概率矩阵表

；

表8（b）大机捣固动作横向状态转移概率矩阵表

；

建立轨道精调动作对应的横垂向状态转移概率矩阵。考虑轨道精调维护的精细化调整效果，执行动作后的状态大概率会由高等级向低等级发展，小概率保持或进一步恶化；同时，轨道精调操作对于横向高等级状态作用效果更明显，对于垂向中等级状态控制效果更佳，结合实测数据结果，具体参数选取如表9（a）和表9（b）所示。

表9（a）轨道精调动作垂向状态转移概率矩阵表

；

表9（b）轨道精调动作横向状态转移概率矩阵表

；

3）初始化轨道维护环境参数

选取基本轨道参数值如表10所示。

表10 环境基本轨道参数表

；

4）初始化贝叶斯深度强化学习代理参数

代理部分参数主要定义：代理基本参数、基于深度贝叶斯多层感知的动作价值计算网络结构参数。

其中，代理基本参数列表如表11所示。

表11 代理基本参数表

；

网络结构由1层状态输入层（Input）、3层贝叶斯隐藏层（Hidden）、1层动作价值Q输出层（Output）构成，用于根据当前状态判断动作价值选择动作。其中，输入端为状态向量，隐藏层采用蒙特卡洛原理进行随机丢弃（Dropout）保证算法的鲁棒性，不同网络层间采用ReLU激活函数进行激活（Activation），保证模型非线性优化，参数取值如表12所示。

表12深度贝叶斯多层感知网络参数表

；

5）求解

初始化迭代次数n_episode=500和时间步数n_step=200，进行迭代计算，输出动作执行区间及执行后效果如图5、图6、图7所示。

即使面临超过50个决策单元，模型也可在不超过400个迭代步的情况下实现稳定求解，避免陷入局部最优。对于长里程、复杂服役状态线路来说，当决策单元过多、特征维度过高时，现有方法难以高效求解，容易陷入局部最优，难以整体优化。应用本发明方法，对于包含50个决策单元，每个单元3种动作、4种状态的情景下，也可快速实现模型收敛和求解，

从图5、图6、图7可知，区别于传统针对单一维护规划仅能输出单一措施的应用区间，本模型可同时输出捣固和精调两种维护措施的应用区间；同时，考虑维护效果的提升和随机性，能够以最小代价将整体状态降低至目标等级。

以上示意性的对本发明及其实施方式进行了描述，该描述没有限制性，附图中所示的也只是本发明的实施方式之一，实际的结构并不局限于此。所以，如果本领域的普通技术人员受其启示，在不脱离本发明创造宗旨的情况下，不经创造性的设计出与该技术方案相似的结构方式及实施例，均应属于本发明的保护范围。

Claims

1.一种高速铁路轨道平顺性多任务协调维护方法，其特征在于：包括以下步骤：

1)初始化轨道状态；

2)定义自然恶化、大机捣固和轨道精调动作的状态转移概率矩阵；

3)初始化轨道维护环境参数；

步骤3)中，轨道维护环境参数包括轨道参数、动作更新函数、奖励计算函数和早停机制；

奖励计算函数根据输入的动作向量action，计算选择执行后对应奖励Reward，具体如下：

Reward＝Reward₁+Reward₂+Reward₃

其中，Reward表示所有维护单元执行维护操作后总奖励，由成本奖励Reward₁，状态提升奖励Reward₂，危险状态惩罚Reward₃三部分组成；cost_tamping和cos_fine-tuning分别表示大机捣固和轨道精调维护成本，action表示动作向量；i表示轨道维护单元索引，i＝0,1,...,n-1；state_i和state_new,i表示第i个维护单元执行维护前后状态；Target_level表示目标状态等级；penalty表示超出状态等级惩罚值；

4)初始化贝叶斯深度强化学习代理参数；

5)维护环境与模型代理迭代交互和时间步求解。

2.根据权利要求1所述的一种高速铁路轨道平顺性多任务协调维护方法，其特征在于：步骤1)中，以200m为基准将长度为L的线路划分为n个初始维护单元区段，基于当前线路平顺性状态，以TQI指标为基准，由低至高划定线路横垂向状态为4个等级，具体如下：

其中，i表示轨道维护单元索引，i＝0,1,...,n-1；x_i,j表示第i个维护单元范围内第j个采样点值；表示第i个维护单元范围内所有采样点均值；TQI_i和state_i表示第i个维护单元标准差和状态；TQI_max表示所有维护单元TQI最大值。

3.根据权利要求2所述的一种高速铁路轨道平顺性多任务协调维护方法，其特征在于：动作更新函数根据输入的动作向量，计算选择执行后对应更新状态，具体如下：

其中，i表示轨道维护单元索引，i＝0,1,...,n-1；state_new,i表示第i个维护单元执行动作后状态，state_natural,i、state_tamping,i和state_{fine-tuning,i}分别表示第i个维护单元执行自然恶化、大机捣固、轨道精调后状态，action表示动作向量。

4.根据权利要求3所述的一种高速铁路轨道平顺性多任务协调维护方法，其特征在于：早停机制done具体如下：

其中，i表示轨道维护单元索引，i＝0,1,...,n-1；state_i表示第i个维护单元状态；Reward₁表示成本奖励；True和False分别表示维护环境与模型代理交互的继续和终止；Target_level表示目标状态等级；Max_cost表示最大成本约束。

5.根据权利要求4所述的一种高速铁路轨道平顺性多任务协调维护方法，其特征在于：步骤4)中，贝叶斯深度强化学习代理参数包括代理参数、深度贝叶斯多层感知网络、专家动作选择和专家经验池。

6.根据权利要求5所述的一种高速铁路轨道平顺性多任务协调维护方法，其特征在于：深度贝叶斯多层感知网络用于根据当前状态判断动作价值，选择动作，深度贝叶斯多层感知网络包括1层状态输入层、多层贝叶斯隐藏层和1层动作Q值输出层；其中，输入端为状态向量，隐藏层采用蒙特卡洛原理进行随机丢弃保证鲁棒性。

7.根据权利要求6所述的一种高速铁路轨道平顺性多任务协调维护方法，其特征在于：专家动作选择包括模型动作选择和随机新动作选择；定义探索率函数，用于权衡模型动作选择与随机新动作选择概率；当随机数大于探索率时，按照当前模型优化参数进行动作价值Q计算，每个维度选择动作价值Q最大的动作；当随机数小于探索率时，从动作空间中进行随机动作选择，具体如下：

其中，epsilon为探索率，epsilon_bg和epsilon_ed分别表示初始设置的最大和最小探索率；s为探索步长；decay为探索折扣；Argmax(*)为Argmax函数，用于返回动作价值Q对应的动作索引；M(*)为深度贝叶斯多层感知网络；Sample_{Action_space}表示从动作空间中随机选择一条维度相同的动作向量action，r为随机数，取值范围[0,1]。

8.根据权利要求7所述的一种高速铁路轨道平顺性多任务协调维护方法，其特征在于：专家经验池用于存储过去选择Q值的更新记录，包括：当前状态、当前动作、下一状态以及当前奖励。