CN117557256B - 一种高速铁路轨道平顺性多任务协调维护方法 - Google Patents
一种高速铁路轨道平顺性多任务协调维护方法 Download PDFInfo
- Publication number
- CN117557256B CN117557256B CN202410047396.9A CN202410047396A CN117557256B CN 117557256 B CN117557256 B CN 117557256B CN 202410047396 A CN202410047396 A CN 202410047396A CN 117557256 B CN117557256 B CN 117557256B
- Authority
- CN
- China
- Prior art keywords
- action
- state
- track
- maintenance
- representing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012423 maintenance Methods 0.000 title claims abstract description 105
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000009471 action Effects 0.000 claims abstract description 94
- 230000007704 transition Effects 0.000 claims abstract description 27
- 239000011159 matrix material Substances 0.000 claims abstract description 23
- 230000006866 deterioration Effects 0.000 claims abstract description 12
- 230000002787 reinforcement Effects 0.000 claims abstract description 10
- 230000003993 interaction Effects 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 19
- 239000003795 chemical substances by application Substances 0.000 claims description 9
- 230000008447 perception Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241000649053 Spinach curly top Arizona virus Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06312—Adjustment or analysis of established resource schedule, e.g. resource or task levelling, or dynamic rescheduling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Game Theory and Decision Science (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Machines For Laying And Maintaining Railways (AREA)
Abstract
本发明涉及铁路轨道平顺性维护技术领域,提供一种高速铁路轨道平顺性多任务协调维护方法,其包括以下步骤:1)初始化轨道状态;2)定义自然恶化、大机捣固和轨道精调动作的状态转移概率矩阵;3)初始化轨道维护环境参数;4)初始化贝叶斯深度强化学习代理参数;5)维护环境与模型代理迭代交互和时间步求解。本发明能较佳地进行高速铁路轨道平顺性多任务协调维护。
Description
技术领域
本发明涉及铁路轨道平顺性维护技术领域,具体地说,涉及一种高速铁路轨道平顺性多任务协调维护方法。
背景技术
轨道不平顺是高速列车振动失稳和轨道结构性能下降的主要原因。消除轨道不平顺,保持轨道高平顺性是高速铁路网运维的核心。对于高速铁路有砟轨道来说,大机捣固和轨道精调是保持轨道高平顺性的两项关键措施,也是高速铁路与普速铁路的重要区别。大机捣固是一种重置轨道结构不平顺的维护方法,特别适用于控制轨道长波不平顺,但对中短波的控制效果具有随机性。相比之下,轨道精调是一种对扣件系统进行精细化调整的措施,可以精确控制中短波不平顺,但长波优化能力有限。在高铁建设阶段,这两种维护措施的特点没有得到充分利用,造成资源浪费和技术冗余。当维护资源有限时,智能维护的难点在于如何最大限度地发挥两种措施的优势,实现联合维护。
发明内容
本发明的内容是提供一种高速铁路轨道平顺性多任务协调维护方法,其能够解决现有轨道平顺性维护计划制定过程未考虑线路长期状态、无法高效协同多种维护措施的问题。
根据本发明的一种高速铁路轨道平顺性多任务协调维护方法,其包括以下步骤:
1)初始化轨道状态;
2)定义自然恶化、大机捣固和轨道精调的状态转移概率矩阵;
3)初始化轨道维护环境参数;
4)初始化贝叶斯深度强化学习代理参数;
5)维护环境与模型代理迭代交互和时间步求解。
作为优选,步骤1)中,以200m为基准将长度为L的线路划分为n个初始维护单元区段,基于当前线路平顺性状态,以TQI指标为基准,由低至高划定线路横垂向状态为4个等级,具体如下:
;
;
其中,i表示轨道维护单元索引,i=0,1,...,n-1;表示第i个维护单元范围内第j个采样点值;/>表示第i个维护单元范围内所有采样点均值;/>和/>表示第i个维护单元标准差和状态;/>表示所有维护单元TQI最大值。
作为优选,步骤3)中,轨道维护环境参数包括轨道参数、动作更新函数、奖励计算函数、早停机制。
作为优选,动作更新函数根据输入的动作向量,计算选择执行后对应更新状态/>,具体如下:
;
其中,i表示轨道维护单元索引,i=0,1,...,n-1;表示第i个维护单元执行动作后状态,/>、/>和/>分别表示第i个维护单元执行自然恶化、大机捣固、轨道精调后状态。
作为优选,奖励计算函数根据输入的动作向量,计算选择执行后对应奖励,具体如下:
;
;
其中,表示所有维护单元执行维护操作后总奖励,由成本奖励/>,状态提升奖励/>,危险状态惩罚/>三部分组成;/>和分别表示大机捣固和轨道精调维护成本;i表示轨道维护单元索引,i=0,1,...,n-1;/>和/>表示第i个维护单元执行维护前后状态;/>表示目标状态等级;/>表示超出状态等级惩罚值。
作为优选,早停机制具体如下:
;
其中,i表示轨道维护单元索引,i=0,1,...,n-1;表示第i个维护单元状态;表示成本奖励;/>和/>分别表示维护环境与模型代理交互的继续和终止;/>表示目标状态等级;/>表示最大成本约束。
作为优选,步骤4)中,贝叶斯深度强化学习代理参数包括代理参数、深度贝叶斯多层感知网络、专家动作选择和专家经验池。
作为优选,深度贝叶斯多层感知网络用于根据当前状态判断动作价值Q,选择动作,深度贝叶斯多层感知网络包括1层状态输入层、多层贝叶斯隐藏层和1层动作价值Q输出层;其中,输入端为状态向量,隐藏层采用蒙特卡洛原理进行随机丢弃保证鲁棒性。
作为优选,专家动作选择包括模型动作选择和随机新动作选择;定义探索率函数,用于权衡模型动作选择与随机新动作选择概率;当随机数大于探索率时,按照当前模型优化参数进行动作价值Q计算,每个维度选择动作价值Q最大的动作;当随机数小于探索率时,从动作空间中进行随机动作选择,具体如下:
;
其中,为探索率,/>和/>分别表示初始设置的最大和最小探索率;s为探索步长;/>为探索折扣;/>(*)为/>函数,用于返回动作价值Q对应的动作索引;/>为深度贝叶斯多层感知网络;/>表示从动作空间中随机选择一条维度相同的动作向量,/>为随机数,取值范围[0,1]。
作为优选,专家经验池用于存储过去选择Q值的更新记录,包括:当前状态、当前动作、下一状态以及当前奖励。
本发明的有益效果如下:
通过分析历史检测数据,建立了定义轨道状态等级。考虑两种措施效果的异同,融合专家知识概念,通过奖励塑造和专家策略引导来加速特定行为的学习。最后,考虑状态转换和动作预测的不确定性,建立贝叶斯深度强化学习模型,以提高决策的鲁棒性。在维修资源固定的情况下,有效制定大机捣固和轨道精调两种维修任务联合作业计划,区别于传统针对单一维护规划仅能输出单一措施的应用区间,本方法可同时输出大机捣固和轨道精调两种维护措施的应用区间;同时,考虑维护效果的提升和随机性,能够以最小代价将整体状态降低至目标等级。
附图说明
图1为实施例1中一种高速铁路轨道平顺性多任务协调维护方法的流程图;
图2为实施例1中深度贝叶斯多层感知网络示意图;
图3为实施例2中线路单元横向初始状态情况示意图;
图4为实施例2中线路单元垂向初始状态情况示意图;
图5为实施例2中不同维护措施应用区间示意图;
图6为实施例2中联合维护策略应用后横向状态示意图。
图7为实施例2中联合维护策略应用后垂向状态示意图。
实施方式
为进一步了解本发明的内容,结合附图和实施例对本发明作详细描述。应当理解的是,实施例仅仅是对本发明进行解释而并非限定。
实施例1
如图1所示,本实施例提供了一种高速铁路轨道平顺性多任务协调维护方法,其包括以下步骤:
1)初始化轨道状态;
以200m为基准将长度为L的线路划分为n个初始维护单元区段,基于当前线路平顺性状态,以TQI指标为基准,由低至高划定线路横垂向状态为4个等级,具体如下:
;
;
其中,i表示轨道维护单元索引,i=0,1,...,n-1;表示第i个维护单元范围内第j个采样点值;/>表示第i个维护单元范围内所有采样点均值;/>和/>表示第i个维护单元标准差和状态;/>表示所有维护单元TQI最大值。
2)定义自然恶化、大机捣固和轨道精调动作的状态转移概率矩阵;
自然恶化
根据线路初始情况定义不进行维护时的自然恶化状态转移概率矩阵。考虑线路发展情况,状态只会由低状态向高状态发展,具体如表1(a)和表1(b)所示。
表1(a)自然恶化垂向状态转移概率矩阵表
;
表1(b)自然恶化横向状态转移概率矩阵表
;
其中,SCV和SPV分别表示自然恶化前后的垂向状态,SCH和SPH分别表示自然恶化前后的垂向状态;表示初始状态向未来状态转移的概率,/>表示行列数,取值范围[1,4]。
大机捣固动作
建立大机捣固动作对应的横垂向状态转移概率矩阵。考虑大机捣固维护的重置作用效果,执行动作后的状态大概率会由高等级向低等级发展,小概率保持或进一步恶化;同时,大机捣固操作对于垂向高等级状态作用效果更明显,对于横向状态可精细化控制,为保障快速收敛,可对状态空间进行精简。具体如表2(a)和表2(b)所示。
表2(a)大机捣固动作垂向状态转移概率矩阵表
;
表2(b)大机捣固动作横向状态转移概率矩阵表
;
其中,SCTV和SPTV分别表示大机捣固前后的垂向状态,SCTH和SPTH分别表示大机捣固前后的垂向状态; 表示初始状态向未来状态转移的概率,/>表示行列数,取值范围[1,4]。
轨道精调动作
建立轨道精调动作对应的横垂向状态转移概率矩阵。考虑轨道精调维护的精细化调整效果,执行动作后的状态大概率会由高等级向低等级发展,小概率保持或进一步恶化;同时,轨道精调操作对于横向高等级状态作用效果更明显,对于垂向中等级状态控制效果更佳,为保障快速收敛,可对状态空间进行精简。具体如表3(a)和表3(b)所示。
表3(a)轨道精调动作垂向状态转移概率矩阵表
;
表3(b)轨道精调动作横向状态转移概率矩阵表
;
其中,SCFV和SPFV分别表示轨道精调前后的垂向状态,SCFH和SPFH分别表示轨道精调前后的垂向状态;表示初始状态向未来状态转移的概率,/>表示行列数,取值范围[1,4]。
3)初始化轨道维护环境参数;轨道维护环境参数包括基本轨道参数、动作更新函数、奖励计算函数、早停机制。
基本轨道参数
如表4所示。
表4 环境基本轨道参数表
;
动作更新函数Updata
根据输入的动作向量,计算选择执行后对应更新状态/>,具体如下:
;
其中,i表示轨道维护单元索引,i=0,1,...,n-1;表示第i个维护单元执行动作后状态,/>、/>和/>分别表示第i个维护单元执行自然恶化、大机捣固、轨道精调后状态。
奖励计算函数
根据输入的动作向量,计算选择执行后对应奖励/>,具体如下:
;
;
其中,表示所有维护单元执行维护操作后总奖励,由成本奖励/>,状态提升奖励/>,危险状态惩罚/>三部分组成;/>和分别表示大机捣固和轨道精调维护成本;i表示轨道维护单元索引,i=0,1,...,n-1;/>和/>表示第i个维护单元执行维护前后状态;/>表示目标状态等级阈值,从2,3,4中自由选择;/>表示超出状态等级惩罚值。
早停机制
为避免出现过拟合、减少模型计算量,同时考虑状态等级和成本约束条件,建立早停机制,具体如下:
;
其中,i表示轨道维护单元索引,i=0,1,...,n-1;表示第i个维护单元状态;表示成本奖励;/>和/>分别表示维护环境与模型代理交互的继续和终止;/>表示目标状态等级;/>表示最大成本约束。
4)初始化贝叶斯深度强化学习代理参数;贝叶斯深度强化学习代理参数包括代理基本参数、深度贝叶斯多层感知网络、专家动作选择和专家经验池。
代理基本参数
如表5所示。
表5 代理基本参数表
;
深度贝叶斯多层感知网络M
用于根据当前状态判断动作价值,选择动作。深度贝叶斯多层感知网络包括1层状态输入层、多层贝叶斯隐藏层和1层动作价值Q输出层;其中,输入端为状态向量,隐藏层采用蒙特卡洛原理进行随机丢弃保证鲁棒性。模型如图2所示。
专家动作选择Select
包括模型动作选择和随机新动作选择;定义探索率函数,用于权衡模型动作选择与随机新动作选择概率;当随机数大于探索率时,按照当前模型优化参数进行动作价值Q计算,每个维度选择动作价值Q最大的动作;当随机数小于探索率时,从动作空间中进行随机动作选择,具体如下:
;其中,/>为探索率,/>和/>分别表示初始设置的最大和最小探索率;s为探索步长;/>为探索折扣;/>(*)为/>函数,用于返回动作价值Q对应的动作索引;/>为深度贝叶斯多层感知网络;/>表示从动作空间中随机选择一条维度相同的动作向量,/>为随机数,取值范围[0,1]。
专家经验池Memorize
专家经验池用于存储过去选择的Q值较优的更新记录,主要包括:当前状态、当前动作、下一状态以及当前奖励。
5)迭代次数和时间步求解。
迭代求解过程主要用于代理和环境的交互更新,其主要参数迭代次数n_episode和时间步数n_step,实现逻辑如表6所示。
表6 迭代更新求解算法逻辑表
;
本实施例通过分析历史检测数据,建立了定义轨道状态等级。考虑两种措施效果的异同,融合专家知识概念,通过奖励塑造和专家策略引导来加速特定行为的学习。最后,考虑状态转换和动作预测的不确定性,建立贝叶斯深度强化学习模型,以提高决策的鲁棒性。在维修资源固定的情况下,有效制定大机捣固和轨道精调两种维修任务联合作业计划,区别于传统针对单一维护规划仅能输出单一措施的应用区间,本方法可同时输出大机捣固和轨道精调两种维护措施的应用区间;同时,考虑维护效果的提升和随机性,能够以最小代价将整体状态降低至目标等级。
实施例2
本实施例以一段长度10公里包含50个维护单元的数据为例进行方法应用,具体如下:
1)初始化轨道状态
参照公式(1)、(2)分别计算线路初始横向和垂向状态如图3、图4所示。
2)定义自然恶化、大机捣固和轨道精调维护状态转移概率矩阵
根据线路初始情况定义不进行维护时的状态转移概率矩阵。考虑线路发展情况,状态只会由低状态向高状态发展,同时,短周期内跨状态转移概率较小,结合实测数据结果,具体参数选取如表7(a)和表7(b)所示。
表7(a)自然恶化垂向状态转移概率矩阵表
;
表7(b)自然恶化横向状态转移概率矩阵表
;
建立大机捣固动作对应的横垂向状态转移概率矩阵。考虑大机捣固维护的重置作用效果,执行动作后的状态大概率会由高等级向低等级发展,小概率保持或进一步恶化;同时,大机捣固操作对于垂向高等级状态作用效果更明显,对于横向状态可精细化控制,结合实测数据结果,具体参数选取如表8(a)和表8(b)所示。
表8(a)大机捣固动作垂向状态转移概率矩阵表
;
表8(b)大机捣固动作横向状态转移概率矩阵表
;
建立轨道精调动作对应的横垂向状态转移概率矩阵。考虑轨道精调维护的精细化调整效果,执行动作后的状态大概率会由高等级向低等级发展,小概率保持或进一步恶化;同时,轨道精调操作对于横向高等级状态作用效果更明显,对于垂向中等级状态控制效果更佳,结合实测数据结果,具体参数选取如表9(a)和表9(b)所示。
表9(a)轨道精调动作垂向状态转移概率矩阵表
;
表9(b)轨道精调动作横向状态转移概率矩阵表
;
3)初始化轨道维护环境参数
选取基本轨道参数值如表10所示。
表10 环境基本轨道参数表
;
4)初始化贝叶斯深度强化学习代理参数
代理部分参数主要定义:代理基本参数、基于深度贝叶斯多层感知的动作价值计算网络结构参数。
其中,代理基本参数列表如表11所示。
表11 代理基本参数表
;
网络结构由1层状态输入层(Input)、3层贝叶斯隐藏层(Hidden)、1层动作价值Q输出层(Output)构成,用于根据当前状态判断动作价值选择动作。其中,输入端为状态向量,隐藏层采用蒙特卡洛原理进行随机丢弃(Dropout)保证算法的鲁棒性,不同网络层间采用ReLU激活函数进行激活(Activation),保证模型非线性优化,参数取值如表12所示。
表12深度贝叶斯多层感知网络参数表
;
5)求解
初始化迭代次数n_episode=500和时间步数n_step=200,进行迭代计算,输出动作执行区间及执行后效果如图5、图6、图7所示。
即使面临超过50个决策单元,模型也可在不超过400个迭代步的情况下实现稳定求解,避免陷入局部最优。对于长里程、复杂服役状态线路来说,当决策单元过多、特征维度过高时,现有方法难以高效求解,容易陷入局部最优,难以整体优化。应用本发明方法,对于包含50个决策单元,每个单元3种动作、4种状态的情景下,也可快速实现模型收敛和求解,
从图5、图6、图7可知,区别于传统针对单一维护规划仅能输出单一措施的应用区间,本模型可同时输出捣固和精调两种维护措施的应用区间;同时,考虑维护效果的提升和随机性,能够以最小代价将整体状态降低至目标等级。
以上示意性的对本发明及其实施方式进行了描述,该描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。所以,如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
Claims (8)
1.一种高速铁路轨道平顺性多任务协调维护方法,其特征在于:包括以下步骤:
1)初始化轨道状态;
2)定义自然恶化、大机捣固和轨道精调动作的状态转移概率矩阵;
3)初始化轨道维护环境参数;
步骤3)中,轨道维护环境参数包括轨道参数、动作更新函数、奖励计算函数和早停机制;
奖励计算函数根据输入的动作向量action,计算选择执行后对应奖励Reward,具体如下:
Reward=Reward1+Reward2+Reward3
其中,Reward表示所有维护单元执行维护操作后总奖励,由成本奖励Reward1,状态提升奖励Reward2,危险状态惩罚Reward3三部分组成;costtamping和cosfine-tuning分别表示大机捣固和轨道精调维护成本,action表示动作向量;i表示轨道维护单元索引,i=0,1,...,n-1;statei和statenew,i表示第i个维护单元执行维护前后状态;Target_level表示目标状态等级;penalty表示超出状态等级惩罚值;
4)初始化贝叶斯深度强化学习代理参数;
5)维护环境与模型代理迭代交互和时间步求解。
2.根据权利要求1所述的一种高速铁路轨道平顺性多任务协调维护方法,其特征在于:步骤1)中,以200m为基准将长度为L的线路划分为n个初始维护单元区段,基于当前线路平顺性状态,以TQI指标为基准,由低至高划定线路横垂向状态为4个等级,具体如下:
其中,i表示轨道维护单元索引,i=0,1,...,n-1;xi,j表示第i个维护单元范围内第j个采样点值;表示第i个维护单元范围内所有采样点均值;TQIi和statei表示第i个维护单元标准差和状态;TQImax表示所有维护单元TQI最大值。
3.根据权利要求2所述的一种高速铁路轨道平顺性多任务协调维护方法,其特征在于:动作更新函数根据输入的动作向量,计算选择执行后对应更新状态,具体如下:
其中,i表示轨道维护单元索引,i=0,1,...,n-1;statenew,i表示第i个维护单元执行动作后状态,statenatural,i、statetamping,i和statefine-tuning,i分别表示第i个维护单元执行自然恶化、大机捣固、轨道精调后状态,action表示动作向量。
4.根据权利要求3所述的一种高速铁路轨道平顺性多任务协调维护方法,其特征在于:早停机制done具体如下:
其中,i表示轨道维护单元索引,i=0,1,...,n-1;statei表示第i个维护单元状态;Reward1表示成本奖励;True和False分别表示维护环境与模型代理交互的继续和终止;Target_level表示目标状态等级;Max_cost表示最大成本约束。
5.根据权利要求4所述的一种高速铁路轨道平顺性多任务协调维护方法,其特征在于:步骤4)中,贝叶斯深度强化学习代理参数包括代理参数、深度贝叶斯多层感知网络、专家动作选择和专家经验池。
6.根据权利要求5所述的一种高速铁路轨道平顺性多任务协调维护方法,其特征在于:深度贝叶斯多层感知网络用于根据当前状态判断动作价值,选择动作,深度贝叶斯多层感知网络包括1层状态输入层、多层贝叶斯隐藏层和1层动作Q值输出层;其中,输入端为状态向量,隐藏层采用蒙特卡洛原理进行随机丢弃保证鲁棒性。
7.根据权利要求6所述的一种高速铁路轨道平顺性多任务协调维护方法,其特征在于:专家动作选择包括模型动作选择和随机新动作选择;定义探索率函数,用于权衡模型动作选择与随机新动作选择概率;当随机数大于探索率时,按照当前模型优化参数进行动作价值Q计算,每个维度选择动作价值Q最大的动作;当随机数小于探索率时,从动作空间中进行随机动作选择,具体如下:
其中,epsilon为探索率,epsilonbg和epsiloned分别表示初始设置的最大和最小探索率;s为探索步长;decay为探索折扣;Argmax(*)为Argmax函数,用于返回动作价值Q对应的动作索引;M(*)为深度贝叶斯多层感知网络;SampleAction_space表示从动作空间中随机选择一条维度相同的动作向量action,r为随机数,取值范围[0,1]。
8.根据权利要求7所述的一种高速铁路轨道平顺性多任务协调维护方法,其特征在于:专家经验池用于存储过去选择Q值的更新记录,包括:当前状态、当前动作、下一状态以及当前奖励。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410047396.9A CN117557256B (zh) | 2024-01-12 | 2024-01-12 | 一种高速铁路轨道平顺性多任务协调维护方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410047396.9A CN117557256B (zh) | 2024-01-12 | 2024-01-12 | 一种高速铁路轨道平顺性多任务协调维护方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117557256A CN117557256A (zh) | 2024-02-13 |
CN117557256B true CN117557256B (zh) | 2024-03-22 |
Family
ID=89823757
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410047396.9A Active CN117557256B (zh) | 2024-01-12 | 2024-01-12 | 一种高速铁路轨道平顺性多任务协调维护方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117557256B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112655004A (zh) * | 2018-09-05 | 2021-04-13 | 赛多利斯司特蒂姆数据分析公司 | 用于异常检测和/或预测性维护的计算机实现的方法、计算机程序产品以及系统 |
CN113359449A (zh) * | 2021-06-04 | 2021-09-07 | 西安交通大学 | 基于强化学习的航空发动机双参数指数劣化维护方法 |
CN115392107A (zh) * | 2022-07-13 | 2022-11-25 | 清华大学 | 基于数据驱动的机车车辆轮轴全生命周期管理系统及方法 |
CN116127631A (zh) * | 2022-12-21 | 2023-05-16 | 西南交通大学 | 一种数据物理融合下的高速铁路轨道多目标精调方法 |
CN116224951A (zh) * | 2021-12-02 | 2023-06-06 | Ip传输控股公司 | 维护控制系统和方法 |
CN117171508A (zh) * | 2023-09-05 | 2023-12-05 | 石家庄铁道大学 | 基于贝叶斯优化的深度q学习轴承故障诊断方法 |
-
2024
- 2024-01-12 CN CN202410047396.9A patent/CN117557256B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112655004A (zh) * | 2018-09-05 | 2021-04-13 | 赛多利斯司特蒂姆数据分析公司 | 用于异常检测和/或预测性维护的计算机实现的方法、计算机程序产品以及系统 |
CN113359449A (zh) * | 2021-06-04 | 2021-09-07 | 西安交通大学 | 基于强化学习的航空发动机双参数指数劣化维护方法 |
CN116224951A (zh) * | 2021-12-02 | 2023-06-06 | Ip传输控股公司 | 维护控制系统和方法 |
CN115392107A (zh) * | 2022-07-13 | 2022-11-25 | 清华大学 | 基于数据驱动的机车车辆轮轴全生命周期管理系统及方法 |
CN116127631A (zh) * | 2022-12-21 | 2023-05-16 | 西南交通大学 | 一种数据物理融合下的高速铁路轨道多目标精调方法 |
CN117171508A (zh) * | 2023-09-05 | 2023-12-05 | 石家庄铁道大学 | 基于贝叶斯优化的深度q学习轴承故障诊断方法 |
Non-Patent Citations (5)
Title |
---|
Data-driven optimization of railway maintenance for track geometry;Siddhartha Sharma 等;《Transportation Research Part C: Emerging Technologies》;20180531;第90卷;第34-58页,全文 * |
Estimation of railway track longitudinal irregularity using vehicle response with information compression and Bayesian deep learning;Chenzhong Li等;《Computer‐Aided Civil and Infrastructure Engineering》;20220831;第37卷(第10期);第1260-1276页,全文 * |
Prediction Models for Railway Track Geometry Degradation Using Machine Learning Methods: A Review;Yingying Liao等;《Sensors》;20220926;第1-26页,全文 * |
一种智慧地铁轨道状态预测和维修决策优化系统;李茂圣等;《计算机测量与控制》;20221130;第31卷(第2期);第48-53页,全文 * |
基于机器学习的地铁轨道不平顺状态预测及维修决策优化技术研究;吕五一;《中国优秀硕士学位论文全文数据库工程科技Ⅱ辑》;20220315;摘要,正文第2.1.2、3.1、4节 * |
Also Published As
Publication number | Publication date |
---|---|
CN117557256A (zh) | 2024-02-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109388484B (zh) | 一种基于Deep Q-network算法的多资源云作业调度方法 | |
Liu et al. | Energy-efficient subway train scheduling design with time-dependent demand based on an approximate dynamic programming approach | |
CN112131206B (zh) | 一种多模型数据库OrientDB参数配置自动调优方法 | |
CN113407345B (zh) | 一种基于深度强化学习的目标驱动计算卸载方法 | |
CN113935463A (zh) | 一种基于人工智能控制方法的微电网控制器 | |
CN113053122B (zh) | 基于wmgirl算法的可变交通管控方案中区域流量分布预测方法 | |
Coles | Opportunistic Branched Plans to Maximise Utility in the Presence of Resource Uncertainty. | |
Li et al. | Train timetabling with the general learning environment and multi-agent deep reinforcement learning | |
CN116513273A (zh) | 基于深度强化学习的列车运行调度优化方法 | |
CN117557256B (zh) | 一种高速铁路轨道平顺性多任务协调维护方法 | |
Liessner et al. | Explainable Reinforcement Learning for Longitudinal Control. | |
Peng et al. | Model-based actor-critic with chance constraint for stochastic system | |
CN114861368B (zh) | 一种基于近端策略的铁路纵断面设计学习模型的构建方法 | |
Tong et al. | Enhancing rolling horizon evolution with policy and value networks | |
CN116307331B (zh) | 航空器轨迹的规划方法 | |
CN114355947B (zh) | 基于强化学习的机器人复杂时序逻辑任务路径规划方法 | |
CN113128753A (zh) | 一种基于深度强化学习的操作票操作顺序智能生成方法 | |
Ma et al. | Research on Preventive Maintenance of Industrial Internet Based on Reinforcement Learning | |
CN115313411B (zh) | 一种电网无功优化控制方法和装置 | |
CN116892866B (zh) | 一种火箭子级回收轨迹规划方法、设备及存储介质 | |
Zalewski | Debiasing Architectural Decision-Making: A Workshop-Based Training Approach | |
Sun et al. | Balanced Prioritized Experience Replay | |
Sun et al. | Research on path planning algorithm of partially observable penetration test based on reinforcement learning | |
Ibrahim et al. | Uncertainty Quantification for Efficient and Risk-Sensitive Reinforcement Learning | |
CN116562553A (zh) | 一种列车智能调度优化方法、系统及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |