CN114444737B - 基于迁移学习的路面养护智能规划方法 - Google Patents
基于迁移学习的路面养护智能规划方法 Download PDFInfo
- Publication number
- CN114444737B CN114444737B CN202210151681.6A CN202210151681A CN114444737B CN 114444737 B CN114444737 B CN 114444737B CN 202210151681 A CN202210151681 A CN 202210151681A CN 114444737 B CN114444737 B CN 114444737B
- Authority
- CN
- China
- Prior art keywords
- maintenance
- strategy
- benefit
- index
- updating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012423 maintenance Methods 0.000 title claims abstract description 93
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013526 transfer learning Methods 0.000 title claims abstract description 9
- 230000008901 benefit Effects 0.000 claims abstract description 54
- 230000009471 action Effects 0.000 claims abstract description 11
- 230000008569 process Effects 0.000 claims abstract description 8
- 238000005070 sampling Methods 0.000 claims abstract description 5
- 238000011156 evaluation Methods 0.000 claims description 26
- 230000006870 function Effects 0.000 claims description 24
- 238000005457 optimization Methods 0.000 claims description 20
- 230000008859 change Effects 0.000 claims description 15
- 230000007613 environmental effect Effects 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 9
- 238000007637 random forest analysis Methods 0.000 claims description 6
- 238000007726 management method Methods 0.000 claims description 4
- 238000012952 Resampling Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000003111 delayed effect Effects 0.000 claims description 3
- 238000013210 evaluation model Methods 0.000 claims description 3
- 230000009191 jumping Effects 0.000 claims description 3
- 238000012886 linear function Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 239000000463 material Substances 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011269 treatment regimen Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/20—Administration of product repair or maintenance
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Educational Administration (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于迁移学习的路面养护智能规划方法,属于道路技术领域。S1:构建与更新结构状态预测模型;S2:构建和更新效益模型;S3:进行养护措施规划;S4:针对维修措施数据,采取高斯采样对维修措施的连续动作进行处理;S5:策略即具体状态下采取的维修措施的连续动作的组合;S6:对策略进行优化时采用的是梯度更新的方式,通过策略搜索赋值。在数据缺失或面临新场景的情况下可以快速收敛并给出参考建议,对于新工程、新结构、新材料等不同情况具有较强的移植性。
Description
技术领域
本发明属于道路技术领域,涉及基于迁移学习的路面养护智能规划方法。
背景技术
当针对道路结构进行养护维修的时候,其决策往往是基于当下状态进行的最优选择,并未考虑其全寿命周期的效益进行决策;在项目进行中长期规划的时候,则往往采用单一的宏观效益指标,无法进行多目标优化。此外,针对一个具体的工程往往并不存在一个确定的合适的维修措施,所采取的措施只是可能具备相对的高效益,无法证明其是最优选择,可能的维修措施有很多种;进一步,历史养护维修数据的决策方案往往数据量较少,依赖于专家经验,可以用于学习决策的数据量明显不足,尤其是养护技术更新迭代速度较快的情况下。
针对以上问题提出基于迁移学习方法进行养护方案决策,实现多目标决策、小数据学习的目标。
发明内容
有鉴于此,本发明的目的在于提供一种基于迁移学习的路面养护智能规划方法。
为达到上述目的,本发明提供如下技术方案:
基于迁移学习的路面养护智能规划方法,该方法包括以下步骤:
S1:构建与更新结构状态预测模型:基于收集的结构状态、路龄和维修历史的环境状态数据,基斯皮尔曼系数选择0.3及以上的参数指标作为有效影响因子用于预测,后利用随机森林算法学习并预测结构状态参数的变化,更新修正预测模型;
S2:构建和更新效益模型:收集道路结构组成、地区高温、低温及累计交通荷载数据,作为环境状态数据,收集历史道路评价评价指标数据作为道路结构的状态参数,共同组成环境参数集合S,收集历史维修记录,即为特定状态s下所采取的维修措施m;将收集到的(s,m)集合作为被学习的对象,并在具体的工程管理中,不断更新和修正;
S3:进行养护措施规划:针对特定项目在未来的时间维度上采取的不连续措施,需要确定:
一定寿命周期内采取几次维修措施,分别是什么措施,以及采取的时间点;
效益为组合效益,表征为全部时间维度上的结构状态指标变化,即采用连续收益方程进行养护方案的选择优化;
采用2个结构状态指标作为效益参数当采用更多效益指标的时候,则不断地将效益分为两组叠加计算;
S4:针对维修措施数据,采取高斯采样对维修措施的连续动作进行处理;
S5:策略即具体状态下采取的维修措施的连续动作的组合;
S6:对策略进行优化时采用的是梯度更新的方式,通过策略搜索赋值。
可选的,所述S4具体为:
S41:产生[0,1]上的均匀分布随机数u0,计算x=F-1(u0)得到指数分布的样本x;
S42:再产生[0,1]上的均匀分布随机数u1,若u1<A(x),则接受x进入下一步;否则拒绝,跳回到S41重新采样;
S43:再次产生[0,1]上的均匀分布随机数u2,若u2<0.5,则x将转化为-x;否则保持不变,得到标准正态分布的样本。
可选的,在有限策略中发现一个维修策略使得期望回报最大,效益最高;
首先,建立养护维修策略网络和估值网络;
初始化策略网络采用决策策略后的预期效益;预期效益是指道路评价指标的变化,评价指标包括反应损坏性能的路面损坏状况指数PCI和反应车辆行驶性能的车辆行驶质量指数RQI、车辙深度统计指标RD和横向力摩擦系统SFC,覆盖损坏状况、行驶质量和抗滑性能3个关键性能目标;
当下的策略效益为分阶段线性函数,即相对增益,评价指标根据策略内容增加固定数值,此数据为学习获得;后分析其新的状态,利用历史数据采用随机森林模型预测后续指标变化,选择当前状态下的指标值与处治策略后规划目标年,内性能指标的变化作为其连续收益方程的自变量,效益参数设为B,B是PCI或者RQI的函数;其中,ω1是PCI得权重,ω2是RQI的权重,ω1+ω2=1,将RQI替换为RDI;
year指的是规划目标年限;μi指的是规划目标在规划年限内的年限权重,ΔPCIi,ΔRQIi指的是给予适当措施后的衰变后性能值的减去基于现状性能预测所得的性能评价指标的在任意年的衰变值;
求解目标策略及更新效益值:
首先,基于构建的明确指标的收益函数B对策略进行估值,计算特定维修策略下的初始状态变化以及所获得收益期望值E;通过养护方案的连续控制,基于成本参数化的养护方案对收益函数的梯度进行更新;
使用参数化表示维修策略,包括费用和工程排序赋值,基于输入环境状态s和结构状态c来选择养护方案m,维修策略函数表示为V(m|s,c)=P(Mt=m|St=s,Ct=c),其中,时刻为t,环境状态参数为s、结构状态参数为c、输出动作m的概率为p;
生成马尔科夫决策过程轨迹T*={s1,m1,...,st,mt},
方案时机组合出现的概率表示为:
即:
采用策略梯度方法,找到一组最佳参数来表征维修策略函数,使其累计奖惩期望值最大,累计奖惩值为R(T*);
优化目标为J,将优化目标设定为规划年限内的期望效益函,基于此建立设定的优化目标,优化维修策略参数,即求解目标函数梯度获得策略梯度函数,梯度上升来寻找最优的梯度,利用梯度更新维修策略求解网络参数的公式如下:
实际维修决策中策略更新较为缓慢,采用双Q学习方法,即构建两组网络,两组评价模型分别独立的进行优化;r是奖励值,s’是下一阶段的状态,y是B的目标网络值,两个网络结构和参数完全一致,并且每隔一定的训练次数,将评估网络的参数延时拷贝至目标网络;γ∈[0,1],为折扣因子;和/>为一对决策者,/>和/>为一对评估值向量,优化公示如下:
采用偏置估计值作为/>的上限,在两个估计之间取最小值,用于目标更新,算法如下:
优化求解的算法逻辑如下:
初始化两个维修策略网络Vφ;
初始化维修策略的估值网络和/>
初始化维修策略网络和估值网络对应的目标网络;
基于公式循环计算获得最优解。
本发明的有益效果在于:在数据缺失或面临新场景的情况下可以快速收敛并给出参考建议,对于新工程、新结构、新材料等不同情况具有较强的移植性。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为求解目标策略及更新效益值的逻辑图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
本发明的步骤为:
S1:构建与更新结构状态预测模型:基于收集的结构状态、路龄、维修历史等环境状态数据,基斯皮尔曼系数选择0.3及以上的参数指标作为有效影响因子用于预测,后利用随机森林算法学习并预测结构状态参数的变化,更新修正预测模型。
S2:构建和更新效益模型:收集道路结构组成、地区高温、低温及累计交通荷载数据,作为环境状态数据,收集历史道路评价评价指标数据作为道路结构的状态参数,共同组成环境参数集合S,收集历史维修记录,即为特定状态s下所采取的维修措施m。将收集到的(s,m)集合作为被学习的对象,并在具体的工程管理中,不断更新和修正。
S3:具体进行养护措施规划即针对特定项目在未来的时间维度上采取的不连续措施,需要确定一定寿命周期内应该采取几次维修措施,分别是什么措施,以及采取的时间点。其效益为组合效益,表征为全部时间维度上的结构状态指标变化,即采用连续收益方程进行养护方案的选择优化,由于满足不同服务目标的结构状态指标不同,本项目采用2个结构状态指标作为效益参数当采用更多效益指标的时候则不断地将效益分为两组叠加计算。
S4:针对维修措施数据,采取高斯采样对连续动作(维修措施)进行处理。
具体的采样过程如下:
(1)产生[0,1]上的均匀分布随机数u0,计算x=F-1(u0)得到指数分布的样本x;
(2)再产生[0,1]上的均匀分布随机数u1,若u1<A(x),则接受x进入下一步;否则拒绝,跳回到(1)重新采样;
(3)最后再次产生[0,1]上的均匀分布随机数u2,若u2<0.5,则x将转化为-x;否则保持不变,得到标准正态分布的样本。
S5:策略即具体状态下采取的连续动作(维修措施)的组合。
S6:对策略进行优化时采用的是梯度更新的方式,通过策略搜索赋值。
策略搜索即在有限策略中发现一个维修策略使得期望回报最大,效益最高。首先,建立养护维修策略网络、估值网络,养护措施的策略组成举例如下:
初始化策略网络采用决策策略后的预期效益。预期效益主要是指道路评价指标的变化,评价指标包括反应损坏性能的路面损坏状况指数(Pavement condition index,PCI)和反应车辆行驶性能的车辆行驶质量指数(Ride Quality,RQI)、车辙深度统计指标RD((Rut depth))、横向力摩擦系统SFC等,不同的数据来源会涉及不同的指标,但基本覆盖损坏状况、行驶质量、抗滑性能3个关键性能目标。
当下的策略效益为分阶段线性函数,即相对增益(评价指标根据策略内容增加固定数值,此数据为学习获得),后分析其新的状态,利用历史数据采用随机森林模型预测后续指标变化,选择当前状态下的指标值与处治策略后规划目标年(year)内性能指标的变化作为其连续收益方程的自变量,效益参数设为B(benefit),B是PCI或者RQI的函数。其中,ω1是PCI得权重,ω2是RQI的权重,ω1+ω2=1,具体的权重数值可以根据实际情况进行调整,具体的评价指标也可以根据实际管理需求进行调整,例如,将RQI替换为RDI(Ruttingdepth index)。
year指的是规划目标年限,例如5年,10年,15年等;μi指的是规划目标在规划年限内的年限权重,ΔPCIi,ΔRQIi指的是给予适当措施后的衰变后性能值的减去基于现状性能预测所得的性能评价指标的在任意年的衰变值。
求解目标策略及更新效益值的逻辑如图1所示。
首先,基于构建的明确指标的收益函数B对策略进行估值,计算特定维修策略下的初始状态变化以及所获得收益期望值E。通过养护方案的连续控制,基于成本参数化的养护方案可以对收益函数的梯度进行更新。
使用参数化表示维修策略,包括费用(属于成本参数)和工程排序赋值(人为设定的维修方案倾向,当成本效益比相同时辅助进行选择),基于输入环境状态s和结构状态c来选择养护方案m,因此维修策略函数表示为V(m|s,c)=P(Mt=m|St=s,Ct=c),其中,时刻为t,环境状态参数为s,结构状态参数为c,输出动作(养护方案)m的概率为p。
因此生成马尔科夫决策过程轨迹T*={s1,m1,…,st,mt},
此方案时机组合(轨迹)出现的概率表示为
即:
采用策略梯度方法,找到一组最佳参数来表征维修策略函数,使其累计奖惩期望值最大,累计奖惩值为R(T*)。
优化目标为J,将优化目标设定为规划年限内的期望效益函,基于此建立设定的优化目标,优化维修策略参数,即求解目标函数梯度获得策略梯度函数,梯度上升来寻找最优的梯度,利用梯度更新维修策略求解网络参数的公式如下:
实际维修决策中策略更新较为缓慢,故而采用双Q学习方法,即构建两组网络,两组评价模型分别独立的进行优化。r是奖励值,s’是下一阶段的状态,y是B的目标网络值,两个网络结构和参数完全一致,并且每隔一定的训练次数,将评估网络的参数延时拷贝至目标网络。γ∈[0,1],为折扣因子。和/>为一对决策者(智能体),/>和/>为一对评估值向量,优化公示如下:
采用偏置估计值作为/>的上限,在两个估计之间取最小值,用于目标更新,算法如下:
优化求解的算法逻辑如下:
初始化两个维修策略网络Vφ;
初始化维修策略的估值网络和/>
初始化维修策略网络和估值网络对应的目标网络;
基于公式循环计算获得最优解。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (2)
1.基于迁移学习的路面养护智能规划方法,其特征在于:该方法包括以下步骤:
S1:构建与更新结构状态预测模型:基于收集的结构状态、路龄和维修历史的环境状态数据,基斯皮尔曼系数选择0.3及以上的参数指标作为有效影响因子用于预测,后利用随机森林算法学习并预测结构状态参数的变化,更新修正预测模型;
S2:构建和更新效益模型:收集道路结构组成、地区高温、低温及累计交通荷载数据,作为环境状态数据,收集历史道路评价评价指标数据作为道路结构的状态参数,共同组成环境参数集合S,收集历史维修记录,即为特定状态s下所采取的维修措施m;将收集到的(s,m)集合作为被学习的对象,并在具体的工程管理中,不断更新和修正;
S3:进行养护措施规划:针对特定项目在未来的时间维度上采取的不连续措施,需要确定:
一定寿命周期内采取几次维修措施,分别是什么措施,以及采取的时间点;
效益为组合效益,表征为全部时间维度上的结构状态指标变化,即采用连续收益方程进行养护方案的选择优化;
采用2个结构状态指标作为效益参数当采用更多效益指标的时候,则不断地将效益分为两组叠加计算;
S4:针对维修措施数据,采取高斯采样对维修措施的连续动作进行处理;
S5:策略即具体状态下采取的维修措施的连续动作的组合;
S6:对策略进行优化时采用的是梯度更新的方式,通过策略搜索赋值;
所述策略搜索为:在有限策略中发现一个维修策略使得期望回报最大,效益最高;
首先,建立养护维修策略网络和估值网络;
初始化策略网络采用决策策略后的预期效益;预期效益是指道路评价指标的变化,评价指标包括反应损坏性能的路面损坏状况指数PCI和反应车辆行驶性能的车辆行驶质量指数RQI、车辙深度统计指标RD和横向力摩擦系统SFC,覆盖损坏状况、行驶质量和抗滑性能3个关键性能目标;
当下的策略效益为分阶段线性函数,即相对增益,评价指标根据策略内容增加固定数值,此数据为学习获得;后分析其新的状态,利用历史数据采用随机森林模型预测后续指标变化,选择当前状态下的指标值与处治策略后规划目标年,内性能指标的变化作为其连续收益方程的自变量,效益参数设为B,B是PCI或者RQI的函数;其中,ω1是PCI得权重,ω2是RQI的权重,ω1+ω2=1,将RQI替换为RDI;
year指的是规划目标年限;μi指的是规划目标在规划年限内的年限权重,ΔPCIi,ΔRQIi指的是给予适当措施后的衰变后性能值的减去基于现状性能预测所得的性能评价指标的在任意年的衰变值;
求解目标策略及更新效益值:
首先,基于构建的明确指标的收益函数B对策略进行估值,计算特定维修策略下的初始状态变化以及所获得收益期望值E;通过养护方案的连续控制,基于成本参数化的养护方案对收益函数的梯度进行更新;
使用参数化表示维修策略,包括费用和工程排序赋值,基于输入环境状态s和结构状态c来选择养护方案m,维修策略函数表示为V(m|s,c)=P(Mt=m|St=s,Ct=c),其中,时刻为t,环境状态参数为s、结构状态参数为c、输出动作m的概率为p;
生成马尔科夫决策过程轨迹T*={s1,m1,...,st,mt},
方案时机组合出现的概率表示为:
即:
采用策略梯度方法,找到一组最佳参数来表征维修策略函数,使其累计奖惩期望值最大,累计奖惩值为R(T*);
优化目标为J,将优化目标设定为规划年限内的期望效益函,基于此建立设定的优化目标,优化维修策略参数,即求解目标函数梯度获得策略梯度函数,梯度上升来寻找最优的梯度,利用梯度更新维修策略求解网络参数的公式如下:
实际维修决策中策略更新较为缓慢,采用双Q学习方法,即构建两组网络,两组评价模型分别独立的进行优化;r是奖励值,s’是下一阶段的状态,y是B的目标网络值,两个网络结构和参数完全一致,并且每隔一定的训练次数,将评估网络的参数延时拷贝至目标网络;γ∈[0,1],为折扣因子;和/>为一对决策者,/>和/>为一对评估值向量,优化公示如下:
采用偏置估计值作为/>的上限,在两个估计之间取最小值,用于目标更新,算法如下:
优化求解的算法逻辑如下:
初始化两个维修策略网络Vφ;
初始化维修策略的估值网络和/>
初始化维修策略网络和估值网络对应的目标网络;
基于公式循环计算获得最优解。
2.根据权利要求1所述的基于迁移学习的路面养护智能规划方法,其特征在于:所述S4具体为:
S41:产生[0,1]上的均匀分布随机数u0,计算x=F-1(u0)得到指数分布的样本x;
S42:再产生[0,1]上的均匀分布随机数u1,若u1<A(x),则接受x进入下一步;否则拒绝,跳回到S41重新采样;
S43:再次产生[0,1]上的均匀分布随机数u2,若u2<0.5,则x将转化为-x;否则保持不变,得到标准正态分布的样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210151681.6A CN114444737B (zh) | 2022-02-18 | 2022-02-18 | 基于迁移学习的路面养护智能规划方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210151681.6A CN114444737B (zh) | 2022-02-18 | 2022-02-18 | 基于迁移学习的路面养护智能规划方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114444737A CN114444737A (zh) | 2022-05-06 |
CN114444737B true CN114444737B (zh) | 2024-05-28 |
Family
ID=81372954
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210151681.6A Active CN114444737B (zh) | 2022-02-18 | 2022-02-18 | 基于迁移学习的路面养护智能规划方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114444737B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726324B (zh) * | 2024-02-07 | 2024-04-30 | 中国水利水电第九工程局有限公司 | 一种基于数据识别的公路交通施工巡检方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100748078B1 (ko) * | 2006-04-05 | 2007-08-09 | 한국건설기술연구원 | 생애주기 성능 및 비용에 기초한 사회기반구조물의 최적유지관리전략 수립 방법 |
KR101903003B1 (ko) * | 2017-08-23 | 2018-10-01 | 주식회사 에스코컨설턴트 | 중장기 및 단기건전화 계획 수립을 위한 지하 구조물 성능평가 예측 시스템 |
CN109697515A (zh) * | 2018-12-28 | 2019-04-30 | 深圳高速工程顾问有限公司 | 道路路面管理方法、装置、存储介质及计算机设备 |
CN111652520A (zh) * | 2020-06-04 | 2020-09-11 | 招商局重庆交通科研设计院有限公司 | 一种基于大数据的路面养护智能决策系统及方法 |
CN113723753A (zh) * | 2021-07-26 | 2021-11-30 | 重庆大学 | 一种路面养护维修智能决策系统 |
-
2022
- 2022-02-18 CN CN202210151681.6A patent/CN114444737B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100748078B1 (ko) * | 2006-04-05 | 2007-08-09 | 한국건설기술연구원 | 생애주기 성능 및 비용에 기초한 사회기반구조물의 최적유지관리전략 수립 방법 |
KR101903003B1 (ko) * | 2017-08-23 | 2018-10-01 | 주식회사 에스코컨설턴트 | 중장기 및 단기건전화 계획 수립을 위한 지하 구조물 성능평가 예측 시스템 |
CN109697515A (zh) * | 2018-12-28 | 2019-04-30 | 深圳高速工程顾问有限公司 | 道路路面管理方法、装置、存储介质及计算机设备 |
CN111652520A (zh) * | 2020-06-04 | 2020-09-11 | 招商局重庆交通科研设计院有限公司 | 一种基于大数据的路面养护智能决策系统及方法 |
CN113723753A (zh) * | 2021-07-26 | 2021-11-30 | 重庆大学 | 一种路面养护维修智能决策系统 |
Non-Patent Citations (2)
Title |
---|
基于DEA模型的城市道路沥青路面养护效益评价;胡延辉;《公路交通科技(应用技术版)》;20170315;第13卷(第03期);1-3 * |
基于衰变-Markov模型的沥青路面性能预测研究;武昭融;上海理工大学学报;20160415;第38卷(第02期);187-191 * |
Also Published As
Publication number | Publication date |
---|---|
CN114444737A (zh) | 2022-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110341690B (zh) | 一种基于确定性策略梯度学习的phev能量管理方法 | |
CN112216124B (zh) | 一种基于深度强化学习的交通信号控制方法 | |
CN109243172A (zh) | 基于遗传算法优化lstm神经网络的交通流预测方法 | |
CN112101684B (zh) | 一种插电式混合动力车辆实时能量管理方法和系统 | |
CN111047085A (zh) | 一种基于元学习的混合动力车辆工况预测方法 | |
CN106529818A (zh) | 基于模糊小波神经网络的水质评价预测方法 | |
CN110543978A (zh) | 基于小波神经网络的交通流数据预测方法和装置 | |
CN113538910A (zh) | 一种自适应的全链条城市区域网络信号控制优化方法 | |
CN113537580B (zh) | 一种基于自适应图学习的公共交通客流预测方法及系统 | |
CN110674965A (zh) | 基于动态特征选取的多时间步长风功率预测方法 | |
Kavitha et al. | Improved Harris Hawks optimization with hybrid deep learning based heating and cooling load prediction on residential buildings | |
CN114167898B (zh) | 一种无人机收集数据的全局路径规划方法及系统 | |
CN114444737B (zh) | 基于迁移学习的路面养护智能规划方法 | |
CN117541026B (zh) | 一种智能物流运输车辆调度方法及系统 | |
CN101706888A (zh) | 一种旅行时间预测的方法 | |
CN105574586A (zh) | 基于mpso-bp网络的通用飞机航材需求预测方法 | |
CN116562514A (zh) | 基于神经网络的企业生产状况即时分析方法及系统 | |
Guo et al. | Applying gated recurrent units pproaches for workload prediction | |
Chen et al. | Traffic signal optimization control method based on adaptive weighted averaged double deep Q network | |
CN114117910A (zh) | 一种基于分层深度强化学习的电动汽车充电引导策略方法 | |
CN111767991B (zh) | 一种基于深度q学习的测控资源调度方法 | |
CN111507499B (zh) | 预测用模型的构建方法、测试方法、装置及系统 | |
CN117075634A (zh) | 基于改进蚁群算法的配电网多无人机调度巡检方法及装置 | |
CN116968721A (zh) | 一种混合动力汽车预测式能量管理方法、系统和存储介质 | |
CN114841461B (zh) | 基于时序缺失感知和多源因素融合的空气质量集成预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |