CN117557256B - 一种高速铁路轨道平顺性多任务协调维护方法 - Google Patents

一种高速铁路轨道平顺性多任务协调维护方法 Download PDF

Info

Publication number
CN117557256B
CN117557256B CN202410047396.9A CN202410047396A CN117557256B CN 117557256 B CN117557256 B CN 117557256B CN 202410047396 A CN202410047396 A CN 202410047396A CN 117557256 B CN117557256 B CN 117557256B
Authority
CN
China
Prior art keywords
action
state
track
maintenance
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410047396.9A
Other languages
English (en)
Other versions
CN117557256A (zh
Inventor
何庆
孙华坤
李晨钟
徐淙洋
杨倩倩
吴国新
吕关仁
丁军君
张岷
余天乐
王平
刘宇恒
王庆晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202410047396.9A priority Critical patent/CN117557256B/zh
Publication of CN117557256A publication Critical patent/CN117557256A/zh
Application granted granted Critical
Publication of CN117557256B publication Critical patent/CN117557256B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06312Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Business, Economics & Management (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Machines For Laying And Maintaining Railways (AREA)

Abstract

本发明涉及铁路轨道平顺性维护技术领域,提供一种高速铁路轨道平顺性多任务协调维护方法,其包括以下步骤:1)初始化轨道状态;2)定义自然恶化、大机捣固和轨道精调动作的状态转移概率矩阵;3)初始化轨道维护环境参数;4)初始化贝叶斯深度强化学习代理参数;5)维护环境与模型代理迭代交互和时间步求解。本发明能较佳地进行高速铁路轨道平顺性多任务协调维护。

Description

一种高速铁路轨道平顺性多任务协调维护方法
技术领域
本发明涉及铁路轨道平顺性维护技术领域,具体地说,涉及一种高速铁路轨道平顺性多任务协调维护方法。
背景技术
轨道不平顺是高速列车振动失稳和轨道结构性能下降的主要原因。消除轨道不平顺,保持轨道高平顺性是高速铁路网运维的核心。对于高速铁路有砟轨道来说,大机捣固和轨道精调是保持轨道高平顺性的两项关键措施,也是高速铁路与普速铁路的重要区别。大机捣固是一种重置轨道结构不平顺的维护方法,特别适用于控制轨道长波不平顺,但对中短波的控制效果具有随机性。相比之下,轨道精调是一种对扣件系统进行精细化调整的措施,可以精确控制中短波不平顺,但长波优化能力有限。在高铁建设阶段,这两种维护措施的特点没有得到充分利用,造成资源浪费和技术冗余。当维护资源有限时,智能维护的难点在于如何最大限度地发挥两种措施的优势,实现联合维护。
发明内容
本发明的内容是提供一种高速铁路轨道平顺性多任务协调维护方法,其能够解决现有轨道平顺性维护计划制定过程未考虑线路长期状态、无法高效协同多种维护措施的问题。
根据本发明的一种高速铁路轨道平顺性多任务协调维护方法,其包括以下步骤:
1)初始化轨道状态;
2)定义自然恶化、大机捣固和轨道精调的状态转移概率矩阵;
3)初始化轨道维护环境参数;
4)初始化贝叶斯深度强化学习代理参数;
5)维护环境与模型代理迭代交互和时间步求解。
作为优选,步骤1)中,以200m为基准将长度为L的线路划分为n个初始维护单元区段,基于当前线路平顺性状态,以TQI指标为基准,由低至高划定线路横垂向状态为4个等级,具体如下:
其中,i表示轨道维护单元索引,i=0,1,...,n-1;表示第i个维护单元范围内第j个采样点值;/>表示第i个维护单元范围内所有采样点均值;/>和/>表示第i个维护单元标准差和状态;/>表示所有维护单元TQI最大值。
作为优选,步骤3)中,轨道维护环境参数包括轨道参数、动作更新函数、奖励计算函数、早停机制。
作为优选,动作更新函数根据输入的动作向量,计算选择执行后对应更新状态/>,具体如下:
其中,i表示轨道维护单元索引,i=0,1,...,n-1;表示第i个维护单元执行动作后状态,/>、/>和/>分别表示第i个维护单元执行自然恶化、大机捣固、轨道精调后状态。
作为优选,奖励计算函数根据输入的动作向量,计算选择执行后对应奖励,具体如下:
其中,表示所有维护单元执行维护操作后总奖励,由成本奖励/>,状态提升奖励/>,危险状态惩罚/>三部分组成;/>分别表示大机捣固和轨道精调维护成本;i表示轨道维护单元索引,i=0,1,...,n-1;/>和/>表示第i个维护单元执行维护前后状态;/>表示目标状态等级;/>表示超出状态等级惩罚值。
作为优选,早停机制具体如下:
其中,i表示轨道维护单元索引,i=0,1,...,n-1;表示第i个维护单元状态;表示成本奖励;/>和/>分别表示维护环境与模型代理交互的继续和终止;/>表示目标状态等级;/>表示最大成本约束。
作为优选,步骤4)中,贝叶斯深度强化学习代理参数包括代理参数、深度贝叶斯多层感知网络、专家动作选择和专家经验池。
作为优选,深度贝叶斯多层感知网络用于根据当前状态判断动作价值Q,选择动作,深度贝叶斯多层感知网络包括1层状态输入层、多层贝叶斯隐藏层和1层动作价值Q输出层;其中,输入端为状态向量,隐藏层采用蒙特卡洛原理进行随机丢弃保证鲁棒性。
作为优选,专家动作选择包括模型动作选择和随机新动作选择;定义探索率函数,用于权衡模型动作选择与随机新动作选择概率;当随机数大于探索率时,按照当前模型优化参数进行动作价值Q计算,每个维度选择动作价值Q最大的动作;当随机数小于探索率时,从动作空间中进行随机动作选择,具体如下:
其中,为探索率,/>和/>分别表示初始设置的最大和最小探索率;s为探索步长;/>为探索折扣;/>(*)为/>函数,用于返回动作价值Q对应的动作索引;/>为深度贝叶斯多层感知网络;/>表示从动作空间中随机选择一条维度相同的动作向量,/>为随机数,取值范围[0,1]。
作为优选,专家经验池用于存储过去选择Q值的更新记录,包括:当前状态、当前动作、下一状态以及当前奖励。
本发明的有益效果如下:
通过分析历史检测数据,建立了定义轨道状态等级。考虑两种措施效果的异同,融合专家知识概念,通过奖励塑造和专家策略引导来加速特定行为的学习。最后,考虑状态转换和动作预测的不确定性,建立贝叶斯深度强化学习模型,以提高决策的鲁棒性。在维修资源固定的情况下,有效制定大机捣固和轨道精调两种维修任务联合作业计划,区别于传统针对单一维护规划仅能输出单一措施的应用区间,本方法可同时输出大机捣固和轨道精调两种维护措施的应用区间;同时,考虑维护效果的提升和随机性,能够以最小代价将整体状态降低至目标等级。
附图说明
图1为实施例1中一种高速铁路轨道平顺性多任务协调维护方法的流程图;
图2为实施例1中深度贝叶斯多层感知网络示意图;
图3为实施例2中线路单元横向初始状态情况示意图;
图4为实施例2中线路单元垂向初始状态情况示意图;
图5为实施例2中不同维护措施应用区间示意图;
图6为实施例2中联合维护策略应用后横向状态示意图。
图7为实施例2中联合维护策略应用后垂向状态示意图。
实施方式
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。应当理解的是,实施例仅仅是对本发明进行解释而并非限定。
实施例1
如图1所示,本实施例提供了一种高速铁路轨道平顺性多任务协调维护方法,其包括以下步骤:
1)初始化轨道状态;
以200m为基准将长度为L的线路划分为n个初始维护单元区段,基于当前线路平顺性状态,以TQI指标为基准,由低至高划定线路横垂向状态为4个等级,具体如下:
其中,i表示轨道维护单元索引,i=0,1,...,n-1;表示第i个维护单元范围内第j个采样点值;/>表示第i个维护单元范围内所有采样点均值;/>和/>表示第i个维护单元标准差和状态;/>表示所有维护单元TQI最大值。
2)定义自然恶化、大机捣固和轨道精调动作的状态转移概率矩阵;
自然恶化
根据线路初始情况定义不进行维护时的自然恶化状态转移概率矩阵。考虑线路发展情况,状态只会由低状态向高状态发展,具体如表1(a)和表1(b)所示。
表1(a)自然恶化垂向状态转移概率矩阵表
表1(b)自然恶化横向状态转移概率矩阵表
其中,SCV和SPV分别表示自然恶化前后的垂向状态,SCH和SPH分别表示自然恶化前后的垂向状态;表示初始状态向未来状态转移的概率,/>表示行列数,取值范围[1,4]。
大机捣固动作
建立大机捣固动作对应的横垂向状态转移概率矩阵。考虑大机捣固维护的重置作用效果,执行动作后的状态大概率会由高等级向低等级发展,小概率保持或进一步恶化;同时,大机捣固操作对于垂向高等级状态作用效果更明显,对于横向状态可精细化控制,为保障快速收敛,可对状态空间进行精简。具体如表2(a)和表2(b)所示。
表2(a)大机捣固动作垂向状态转移概率矩阵表
表2(b)大机捣固动作横向状态转移概率矩阵表
其中,SCTV和SPTV分别表示大机捣固前后的垂向状态,SCTH和SPTH分别表示大机捣固前后的垂向状态; 表示初始状态向未来状态转移的概率,/>表示行列数,取值范围[1,4]。
轨道精调动作
建立轨道精调动作对应的横垂向状态转移概率矩阵。考虑轨道精调维护的精细化调整效果,执行动作后的状态大概率会由高等级向低等级发展,小概率保持或进一步恶化;同时,轨道精调操作对于横向高等级状态作用效果更明显,对于垂向中等级状态控制效果更佳,为保障快速收敛,可对状态空间进行精简。具体如表3(a)和表3(b)所示。
表3(a)轨道精调动作垂向状态转移概率矩阵表
表3(b)轨道精调动作横向状态转移概率矩阵表
其中,SCFV和SPFV分别表示轨道精调前后的垂向状态,SCFH和SPFH分别表示轨道精调前后的垂向状态;表示初始状态向未来状态转移的概率,/>表示行列数,取值范围[1,4]。
3)初始化轨道维护环境参数;轨道维护环境参数包括基本轨道参数、动作更新函数、奖励计算函数、早停机制。
基本轨道参数
如表4所示。
表4 环境基本轨道参数表
动作更新函数Updata
根据输入的动作向量,计算选择执行后对应更新状态/>,具体如下:
其中,i表示轨道维护单元索引,i=0,1,...,n-1;表示第i个维护单元执行动作后状态,/>、/>和/>分别表示第i个维护单元执行自然恶化、大机捣固、轨道精调后状态。
奖励计算函数
根据输入的动作向量,计算选择执行后对应奖励/>,具体如下:
其中,表示所有维护单元执行维护操作后总奖励,由成本奖励/>,状态提升奖励/>,危险状态惩罚/>三部分组成;/>分别表示大机捣固和轨道精调维护成本;i表示轨道维护单元索引,i=0,1,...,n-1;/>和/>表示第i个维护单元执行维护前后状态;/>表示目标状态等级阈值,从2,3,4中自由选择;/>表示超出状态等级惩罚值。
早停机制
为避免出现过拟合、减少模型计算量,同时考虑状态等级和成本约束条件,建立早停机制,具体如下:
其中,i表示轨道维护单元索引,i=0,1,...,n-1表示第i个维护单元状态;表示成本奖励;/>和/>分别表示维护环境与模型代理交互的继续和终止;/>表示目标状态等级;/>表示最大成本约束。
4)初始化贝叶斯深度强化学习代理参数;贝叶斯深度强化学习代理参数包括代理基本参数、深度贝叶斯多层感知网络、专家动作选择和专家经验池。
代理基本参数
如表5所示。
表5 代理基本参数表
深度贝叶斯多层感知网络M
用于根据当前状态判断动作价值,选择动作。深度贝叶斯多层感知网络包括1层状态输入层、多层贝叶斯隐藏层和1层动作价值Q输出层;其中,输入端为状态向量,隐藏层采用蒙特卡洛原理进行随机丢弃保证鲁棒性。模型如图2所示。
专家动作选择Select
包括模型动作选择和随机新动作选择;定义探索率函数,用于权衡模型动作选择与随机新动作选择概率;当随机数大于探索率时,按照当前模型优化参数进行动作价值Q计算,每个维度选择动作价值Q最大的动作;当随机数小于探索率时,从动作空间中进行随机动作选择,具体如下:
;其中,/>为探索率,/>和/>分别表示初始设置的最大和最小探索率;s为探索步长;/>为探索折扣;/>(*)为/>函数,用于返回动作价值Q对应的动作索引;/>为深度贝叶斯多层感知网络;/>表示从动作空间中随机选择一条维度相同的动作向量,/>为随机数,取值范围[0,1]。
专家经验池Memorize
专家经验池用于存储过去选择的Q值较优的更新记录,主要包括:当前状态、当前动作、下一状态以及当前奖励。
5)迭代次数和时间步求解。
迭代求解过程主要用于代理和环境的交互更新,其主要参数迭代次数n_episode和时间步数n_step,实现逻辑如表6所示。
表6 迭代更新求解算法逻辑表
本实施例通过分析历史检测数据,建立了定义轨道状态等级。考虑两种措施效果的异同,融合专家知识概念,通过奖励塑造和专家策略引导来加速特定行为的学习。最后,考虑状态转换和动作预测的不确定性,建立贝叶斯深度强化学习模型,以提高决策的鲁棒性。在维修资源固定的情况下,有效制定大机捣固和轨道精调两种维修任务联合作业计划,区别于传统针对单一维护规划仅能输出单一措施的应用区间,本方法可同时输出大机捣固和轨道精调两种维护措施的应用区间;同时,考虑维护效果的提升和随机性,能够以最小代价将整体状态降低至目标等级。
实施例2
本实施例以一段长度10公里包含50个维护单元的数据为例进行方法应用,具体如下:
1)初始化轨道状态
参照公式(1)、(2)分别计算线路初始横向和垂向状态如图3、图4所示。
2)定义自然恶化、大机捣固和轨道精调维护状态转移概率矩阵
根据线路初始情况定义不进行维护时的状态转移概率矩阵。考虑线路发展情况,状态只会由低状态向高状态发展,同时,短周期内跨状态转移概率较小,结合实测数据结果,具体参数选取如表7(a)和表7(b)所示。
表7(a)自然恶化垂向状态转移概率矩阵表
表7(b)自然恶化横向状态转移概率矩阵表
建立大机捣固动作对应的横垂向状态转移概率矩阵。考虑大机捣固维护的重置作用效果,执行动作后的状态大概率会由高等级向低等级发展,小概率保持或进一步恶化;同时,大机捣固操作对于垂向高等级状态作用效果更明显,对于横向状态可精细化控制,结合实测数据结果,具体参数选取如表8(a)和表8(b)所示。
表8(a)大机捣固动作垂向状态转移概率矩阵表
表8(b)大机捣固动作横向状态转移概率矩阵表
建立轨道精调动作对应的横垂向状态转移概率矩阵。考虑轨道精调维护的精细化调整效果,执行动作后的状态大概率会由高等级向低等级发展,小概率保持或进一步恶化;同时,轨道精调操作对于横向高等级状态作用效果更明显,对于垂向中等级状态控制效果更佳,结合实测数据结果,具体参数选取如表9(a)和表9(b)所示。
表9(a)轨道精调动作垂向状态转移概率矩阵表
表9(b)轨道精调动作横向状态转移概率矩阵表
3)初始化轨道维护环境参数
选取基本轨道参数值如表10所示。
表10 环境基本轨道参数表
4)初始化贝叶斯深度强化学习代理参数
代理部分参数主要定义:代理基本参数、基于深度贝叶斯多层感知的动作价值计算网络结构参数。
其中,代理基本参数列表如表11所示。
表11 代理基本参数表
网络结构由1层状态输入层(Input)、3层贝叶斯隐藏层(Hidden)、1层动作价值Q输出层(Output)构成,用于根据当前状态判断动作价值选择动作。其中,输入端为状态向量,隐藏层采用蒙特卡洛原理进行随机丢弃(Dropout)保证算法的鲁棒性,不同网络层间采用ReLU激活函数进行激活(Activation),保证模型非线性优化,参数取值如表12所示。
表12深度贝叶斯多层感知网络参数表
5)求解
初始化迭代次数n_episode=500和时间步数n_step=200,进行迭代计算,输出动作执行区间及执行后效果如图5、图6、图7所示。
即使面临超过50个决策单元,模型也可在不超过400个迭代步的情况下实现稳定求解,避免陷入局部最优。对于长里程、复杂服役状态线路来说,当决策单元过多、特征维度过高时,现有方法难以高效求解,容易陷入局部最优,难以整体优化。应用本发明方法,对于包含50个决策单元,每个单元3种动作、4种状态的情景下,也可快速实现模型收敛和求解,
从图5、图6、图7可知,区别于传统针对单一维护规划仅能输出单一措施的应用区间,本模型可同时输出捣固和精调两种维护措施的应用区间;同时,考虑维护效果的提升和随机性,能够以最小代价将整体状态降低至目标等级。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。

Claims (8)

1.一种高速铁路轨道平顺性多任务协调维护方法,其特征在于:包括以下步骤:
1)初始化轨道状态;
2)定义自然恶化、大机捣固和轨道精调动作的状态转移概率矩阵;
3)初始化轨道维护环境参数;
步骤3)中,轨道维护环境参数包括轨道参数、动作更新函数、奖励计算函数和早停机制;
奖励计算函数根据输入的动作向量action,计算选择执行后对应奖励Reward,具体如下:
Reward=Reward1+Reward2+Reward3
其中,Reward表示所有维护单元执行维护操作后总奖励,由成本奖励Reward1,状态提升奖励Reward2,危险状态惩罚Reward3三部分组成;costtamping和cosfine-tuning分别表示大机捣固和轨道精调维护成本,action表示动作向量;i表示轨道维护单元索引,i=0,1,...,n-1;statei和statenew,i表示第i个维护单元执行维护前后状态;Target_level表示目标状态等级;penalty表示超出状态等级惩罚值;
4)初始化贝叶斯深度强化学习代理参数;
5)维护环境与模型代理迭代交互和时间步求解。
2.根据权利要求1所述的一种高速铁路轨道平顺性多任务协调维护方法,其特征在于:步骤1)中,以200m为基准将长度为L的线路划分为n个初始维护单元区段,基于当前线路平顺性状态,以TQI指标为基准,由低至高划定线路横垂向状态为4个等级,具体如下:
其中,i表示轨道维护单元索引,i=0,1,...,n-1;xi,j表示第i个维护单元范围内第j个采样点值;表示第i个维护单元范围内所有采样点均值;TQIi和statei表示第i个维护单元标准差和状态;TQImax表示所有维护单元TQI最大值。
3.根据权利要求2所述的一种高速铁路轨道平顺性多任务协调维护方法,其特征在于:动作更新函数根据输入的动作向量,计算选择执行后对应更新状态,具体如下:
其中,i表示轨道维护单元索引,i=0,1,...,n-1;statenew,i表示第i个维护单元执行动作后状态,statenatural,i、statetamping,i和statefine-tuning,i分别表示第i个维护单元执行自然恶化、大机捣固、轨道精调后状态,action表示动作向量。
4.根据权利要求3所述的一种高速铁路轨道平顺性多任务协调维护方法,其特征在于:早停机制done具体如下:
其中,i表示轨道维护单元索引,i=0,1,...,n-1;statei表示第i个维护单元状态;Reward1表示成本奖励;True和False分别表示维护环境与模型代理交互的继续和终止;Target_level表示目标状态等级;Max_cost表示最大成本约束。
5.根据权利要求4所述的一种高速铁路轨道平顺性多任务协调维护方法,其特征在于:步骤4)中,贝叶斯深度强化学习代理参数包括代理参数、深度贝叶斯多层感知网络、专家动作选择和专家经验池。
6.根据权利要求5所述的一种高速铁路轨道平顺性多任务协调维护方法,其特征在于:深度贝叶斯多层感知网络用于根据当前状态判断动作价值,选择动作,深度贝叶斯多层感知网络包括1层状态输入层、多层贝叶斯隐藏层和1层动作Q值输出层;其中,输入端为状态向量,隐藏层采用蒙特卡洛原理进行随机丢弃保证鲁棒性。
7.根据权利要求6所述的一种高速铁路轨道平顺性多任务协调维护方法,其特征在于:专家动作选择包括模型动作选择和随机新动作选择;定义探索率函数,用于权衡模型动作选择与随机新动作选择概率;当随机数大于探索率时,按照当前模型优化参数进行动作价值Q计算,每个维度选择动作价值Q最大的动作;当随机数小于探索率时,从动作空间中进行随机动作选择,具体如下:
其中,epsilon为探索率,epsilonbg和epsiloned分别表示初始设置的最大和最小探索率;s为探索步长;decay为探索折扣;Argmax(*)为Argmax函数,用于返回动作价值Q对应的动作索引;M(*)为深度贝叶斯多层感知网络;SampleAction_space表示从动作空间中随机选择一条维度相同的动作向量action,r为随机数,取值范围[0,1]。
8.根据权利要求7所述的一种高速铁路轨道平顺性多任务协调维护方法,其特征在于:专家经验池用于存储过去选择Q值的更新记录,包括:当前状态、当前动作、下一状态以及当前奖励。
CN202410047396.9A 2024-01-12 2024-01-12 一种高速铁路轨道平顺性多任务协调维护方法 Active CN117557256B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410047396.9A CN117557256B (zh) 2024-01-12 2024-01-12 一种高速铁路轨道平顺性多任务协调维护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410047396.9A CN117557256B (zh) 2024-01-12 2024-01-12 一种高速铁路轨道平顺性多任务协调维护方法

Publications (2)

Publication Number Publication Date
CN117557256A CN117557256A (zh) 2024-02-13
CN117557256B true CN117557256B (zh) 2024-03-22

Family

ID=89823757

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410047396.9A Active CN117557256B (zh) 2024-01-12 2024-01-12 一种高速铁路轨道平顺性多任务协调维护方法

Country Status (1)

Country Link
CN (1) CN117557256B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112655004A (zh) * 2018-09-05 2021-04-13 赛多利斯司特蒂姆数据分析公司 用于异常检测和/或预测性维护的计算机实现的方法、计算机程序产品以及系统
CN113359449A (zh) * 2021-06-04 2021-09-07 西安交通大学 基于强化学习的航空发动机双参数指数劣化维护方法
CN115392107A (zh) * 2022-07-13 2022-11-25 清华大学 基于数据驱动的机车车辆轮轴全生命周期管理系统及方法
CN116127631A (zh) * 2022-12-21 2023-05-16 西南交通大学 一种数据物理融合下的高速铁路轨道多目标精调方法
CN116224951A (zh) * 2021-12-02 2023-06-06 Ip传输控股公司 维护控制系统和方法
CN117171508A (zh) * 2023-09-05 2023-12-05 石家庄铁道大学 基于贝叶斯优化的深度q学习轴承故障诊断方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112655004A (zh) * 2018-09-05 2021-04-13 赛多利斯司特蒂姆数据分析公司 用于异常检测和/或预测性维护的计算机实现的方法、计算机程序产品以及系统
CN113359449A (zh) * 2021-06-04 2021-09-07 西安交通大学 基于强化学习的航空发动机双参数指数劣化维护方法
CN116224951A (zh) * 2021-12-02 2023-06-06 Ip传输控股公司 维护控制系统和方法
CN115392107A (zh) * 2022-07-13 2022-11-25 清华大学 基于数据驱动的机车车辆轮轴全生命周期管理系统及方法
CN116127631A (zh) * 2022-12-21 2023-05-16 西南交通大学 一种数据物理融合下的高速铁路轨道多目标精调方法
CN117171508A (zh) * 2023-09-05 2023-12-05 石家庄铁道大学 基于贝叶斯优化的深度q学习轴承故障诊断方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Data-driven optimization of railway maintenance for track geometry;Siddhartha Sharma 等;《Transportation Research Part C: Emerging Technologies》;20180531;第90卷;第34-58页,全文 *
Estimation of railway track longitudinal irregularity using vehicle response with information compression and Bayesian deep learning;Chenzhong Li等;《Computer‐Aided Civil and Infrastructure Engineering》;20220831;第37卷(第10期);第1260-1276页,全文 *
Prediction Models for Railway Track Geometry Degradation Using Machine Learning Methods: A Review;Yingying Liao等;《Sensors》;20220926;第1-26页,全文 *
一种智慧地铁轨道状态预测和维修决策优化系统;李茂圣等;《计算机测量与控制》;20221130;第31卷(第2期);第48-53页,全文 *
基于机器学习的地铁轨道不平顺状态预测及维修决策优化技术研究;吕五一;《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》;20220315;摘要,正文第2.1.2、3.1、4节 *

Also Published As

Publication number Publication date
CN117557256A (zh) 2024-02-13

Similar Documents

Publication Publication Date Title
CN109388484B (zh) 一种基于Deep Q-network算法的多资源云作业调度方法
Liu et al. Energy-efficient subway train scheduling design with time-dependent demand based on an approximate dynamic programming approach
CN112131206B (zh) 一种多模型数据库OrientDB参数配置自动调优方法
CN113407345B (zh) 一种基于深度强化学习的目标驱动计算卸载方法
CN113935463A (zh) 一种基于人工智能控制方法的微电网控制器
CN113053122B (zh) 基于wmgirl算法的可变交通管控方案中区域流量分布预测方法
Coles Opportunistic Branched Plans to Maximise Utility in the Presence of Resource Uncertainty.
Li et al. Train timetabling with the general learning environment and multi-agent deep reinforcement learning
CN116513273A (zh) 基于深度强化学习的列车运行调度优化方法
CN117557256B (zh) 一种高速铁路轨道平顺性多任务协调维护方法
Liessner et al. Explainable Reinforcement Learning for Longitudinal Control.
Peng et al. Model-based actor-critic with chance constraint for stochastic system
CN114861368B (zh) 一种基于近端策略的铁路纵断面设计学习模型的构建方法
Tong et al. Enhancing rolling horizon evolution with policy and value networks
CN116307331B (zh) 航空器轨迹的规划方法
CN114355947B (zh) 基于强化学习的机器人复杂时序逻辑任务路径规划方法
CN113128753A (zh) 一种基于深度强化学习的操作票操作顺序智能生成方法
Ma et al. Research on Preventive Maintenance of Industrial Internet Based on Reinforcement Learning
CN115313411B (zh) 一种电网无功优化控制方法和装置
CN116892866B (zh) 一种火箭子级回收轨迹规划方法、设备及存储介质
Zalewski Debiasing Architectural Decision-Making: A Workshop-Based Training Approach
Sun et al. Balanced Prioritized Experience Replay
Sun et al. Research on path planning algorithm of partially observable penetration test based on reinforcement learning
Ibrahim et al. Uncertainty Quantification for Efficient and Risk-Sensitive Reinforcement Learning
CN116562553A (zh) 一种列车智能调度优化方法、系统及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant