CN114444737B

CN114444737B - 基于迁移学习的路面养护智能规划方法

Info

Publication number: CN114444737B
Application number: CN202210151681.6A
Authority: CN
Inventors: 徐周聪; 王全磊; 伍杰; 周浩南; 王火明; 李菁若
Original assignee: China Merchants Chongqing Communications Research and Design Institute Co Ltd
Current assignee: China Merchants Chongqing Communications Research and Design Institute Co Ltd
Priority date: 2022-02-18
Filing date: 2022-02-18
Publication date: 2024-05-28
Anticipated expiration: 2042-02-18
Also published as: CN114444737A

Abstract

本发明涉及一种基于迁移学习的路面养护智能规划方法，属于道路技术领域。S1：构建与更新结构状态预测模型；S2：构建和更新效益模型；S3：进行养护措施规划；S4：针对维修措施数据，采取高斯采样对维修措施的连续动作进行处理；S5：策略即具体状态下采取的维修措施的连续动作的组合；S6：对策略进行优化时采用的是梯度更新的方式，通过策略搜索赋值。在数据缺失或面临新场景的情况下可以快速收敛并给出参考建议，对于新工程、新结构、新材料等不同情况具有较强的移植性。

Description

基于迁移学习的路面养护智能规划方法

技术领域

本发明属于道路技术领域，涉及基于迁移学习的路面养护智能规划方法。

背景技术

当针对道路结构进行养护维修的时候，其决策往往是基于当下状态进行的最优选择，并未考虑其全寿命周期的效益进行决策；在项目进行中长期规划的时候，则往往采用单一的宏观效益指标，无法进行多目标优化。此外，针对一个具体的工程往往并不存在一个确定的合适的维修措施，所采取的措施只是可能具备相对的高效益，无法证明其是最优选择，可能的维修措施有很多种；进一步，历史养护维修数据的决策方案往往数据量较少，依赖于专家经验，可以用于学习决策的数据量明显不足，尤其是养护技术更新迭代速度较快的情况下。

针对以上问题提出基于迁移学习方法进行养护方案决策，实现多目标决策、小数据学习的目标。

发明内容

有鉴于此，本发明的目的在于提供一种基于迁移学习的路面养护智能规划方法。

为达到上述目的，本发明提供如下技术方案：

基于迁移学习的路面养护智能规划方法，该方法包括以下步骤：

S1：构建与更新结构状态预测模型：基于收集的结构状态、路龄和维修历史的环境状态数据，基斯皮尔曼系数选择0.3及以上的参数指标作为有效影响因子用于预测，后利用随机森林算法学习并预测结构状态参数的变化，更新修正预测模型；

S2：构建和更新效益模型：收集道路结构组成、地区高温、低温及累计交通荷载数据，作为环境状态数据，收集历史道路评价评价指标数据作为道路结构的状态参数，共同组成环境参数集合S，收集历史维修记录，即为特定状态s下所采取的维修措施m；将收集到的(s,m)集合作为被学习的对象，并在具体的工程管理中，不断更新和修正；

S3：进行养护措施规划：针对特定项目在未来的时间维度上采取的不连续措施，需要确定：

一定寿命周期内采取几次维修措施，分别是什么措施，以及采取的时间点；

效益为组合效益，表征为全部时间维度上的结构状态指标变化，即采用连续收益方程进行养护方案的选择优化；

采用2个结构状态指标作为效益参数当采用更多效益指标的时候，则不断地将效益分为两组叠加计算；

S4：针对维修措施数据，采取高斯采样对维修措施的连续动作进行处理；

S5：策略即具体状态下采取的维修措施的连续动作的组合；

S6：对策略进行优化时采用的是梯度更新的方式，通过策略搜索赋值。

可选的，所述S4具体为：

S41：产生[0,1]上的均匀分布随机数u₀，计算x＝F^-1(u₀)得到指数分布的样本x；

S42：再产生[0,1]上的均匀分布随机数u₁，若u₁＜A(x)，则接受x进入下一步；否则拒绝，跳回到S41重新采样；

S43：再次产生[0,1]上的均匀分布随机数u₂，若u₂＜0.5，则x将转化为-x；否则保持不变，得到标准正态分布的样本。

可选的，在有限策略中发现一个维修策略使得期望回报最大，效益最高；

首先，建立养护维修策略网络和估值网络；

初始化策略网络采用决策策略后的预期效益；预期效益是指道路评价指标的变化，评价指标包括反应损坏性能的路面损坏状况指数PCI和反应车辆行驶性能的车辆行驶质量指数RQI、车辙深度统计指标RD和横向力摩擦系统SFC，覆盖损坏状况、行驶质量和抗滑性能3个关键性能目标；

当下的策略效益为分阶段线性函数，即相对增益，评价指标根据策略内容增加固定数值，此数据为学习获得；后分析其新的状态，利用历史数据采用随机森林模型预测后续指标变化，选择当前状态下的指标值与处治策略后规划目标年，内性能指标的变化作为其连续收益方程的自变量，效益参数设为B，B是PCI或者RQI的函数；其中，ω₁是PCI得权重，ω₂是RQI的权重，ω₁+ω₂＝1，将RQI替换为RDI；

year指的是规划目标年限；μ_i指的是规划目标在规划年限内的年限权重，ΔPCI_i，ΔRQI_i指的是给予适当措施后的衰变后性能值的减去基于现状性能预测所得的性能评价指标的在任意年的衰变值；

求解目标策略及更新效益值：

首先，基于构建的明确指标的收益函数B对策略进行估值，计算特定维修策略下的初始状态变化以及所获得收益期望值E；通过养护方案的连续控制，基于成本参数化的养护方案对收益函数的梯度进行更新；

使用参数化表示维修策略，包括费用和工程排序赋值，基于输入环境状态s和结构状态c来选择养护方案m，维修策略函数表示为V(m|s,c)＝P(M_t＝m|S_t＝s,C_t＝c)，其中，时刻为t，环境状态参数为s、结构状态参数为c、输出动作m的概率为p；

生成马尔科夫决策过程轨迹T*＝{s₁,m₁,...,s_t,m_t}，

方案时机组合出现的概率表示为：

即：

采用策略梯度方法，找到一组最佳参数来表征维修策略函数，使其累计奖惩期望值最大，累计奖惩值为R(T*)；

优化目标为J，将优化目标设定为规划年限内的期望效益函，基于此建立设定的优化目标，优化维修策略参数，即求解目标函数梯度获得策略梯度函数，梯度上升来寻找最优的梯度，利用梯度更新维修策略求解网络参数的公式如下：

实际维修决策中策略更新较为缓慢，采用双Q学习方法，即构建两组网络，两组评价模型分别独立的进行优化；r是奖励值，s’是下一阶段的状态，y是B的目标网络值，两个网络结构和参数完全一致，并且每隔一定的训练次数，将评估网络的参数延时拷贝至目标网络；γ∈[0,1]，为折扣因子；和/>为一对决策者，/>和/>为一对评估值向量，优化公示如下：

采用偏置估计值作为/>的上限，在两个估计之间取最小值，用于目标更新，算法如下：

优化求解的算法逻辑如下：

初始化两个维修策略网络V_φ；

初始化维修策略的估值网络和/>

初始化维修策略网络和估值网络对应的目标网络；

基于公式循环计算获得最优解。

本发明的有益效果在于：在数据缺失或面临新场景的情况下可以快速收敛并给出参考建议，对于新工程、新结构、新材料等不同情况具有较强的移植性。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为求解目标策略及更新效益值的逻辑图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

本发明的步骤为：

S1：构建与更新结构状态预测模型：基于收集的结构状态、路龄、维修历史等环境状态数据，基斯皮尔曼系数选择0.3及以上的参数指标作为有效影响因子用于预测，后利用随机森林算法学习并预测结构状态参数的变化，更新修正预测模型。

S2：构建和更新效益模型：收集道路结构组成、地区高温、低温及累计交通荷载数据，作为环境状态数据，收集历史道路评价评价指标数据作为道路结构的状态参数，共同组成环境参数集合S，收集历史维修记录，即为特定状态s下所采取的维修措施m。将收集到的(s，m)集合作为被学习的对象，并在具体的工程管理中，不断更新和修正。

S3：具体进行养护措施规划即针对特定项目在未来的时间维度上采取的不连续措施，需要确定一定寿命周期内应该采取几次维修措施，分别是什么措施，以及采取的时间点。其效益为组合效益，表征为全部时间维度上的结构状态指标变化，即采用连续收益方程进行养护方案的选择优化，由于满足不同服务目标的结构状态指标不同，本项目采用2个结构状态指标作为效益参数当采用更多效益指标的时候则不断地将效益分为两组叠加计算。

S4：针对维修措施数据，采取高斯采样对连续动作(维修措施)进行处理。

具体的采样过程如下：

(1)产生[0,1]上的均匀分布随机数u₀，计算x＝F^-1(u₀)得到指数分布的样本x；

(2)再产生[0,1]上的均匀分布随机数u₁，若u₁＜A(x)，则接受x进入下一步；否则拒绝，跳回到(1)重新采样；

(3)最后再次产生[0,1]上的均匀分布随机数u₂，若u₂＜0.5，则x将转化为-x；否则保持不变，得到标准正态分布的样本。

S5：策略即具体状态下采取的连续动作(维修措施)的组合。

策略搜索即在有限策略中发现一个维修策略使得期望回报最大，效益最高。首先，建立养护维修策略网络、估值网络，养护措施的策略组成举例如下：

初始化策略网络采用决策策略后的预期效益。预期效益主要是指道路评价指标的变化，评价指标包括反应损坏性能的路面损坏状况指数(Pavement condition index,PCI)和反应车辆行驶性能的车辆行驶质量指数(Ride Quality,RQI)、车辙深度统计指标RD((Rut depth))、横向力摩擦系统SFC等，不同的数据来源会涉及不同的指标，但基本覆盖损坏状况、行驶质量、抗滑性能3个关键性能目标。

当下的策略效益为分阶段线性函数，即相对增益(评价指标根据策略内容增加固定数值，此数据为学习获得)，后分析其新的状态，利用历史数据采用随机森林模型预测后续指标变化，选择当前状态下的指标值与处治策略后规划目标年(year)内性能指标的变化作为其连续收益方程的自变量，效益参数设为B(benefit)，B是PCI或者RQI的函数。其中，ω₁是PCI得权重，ω₂是RQI的权重，ω₁+ω₂＝1，具体的权重数值可以根据实际情况进行调整，具体的评价指标也可以根据实际管理需求进行调整，例如，将RQI替换为RDI(Ruttingdepth index)。

year指的是规划目标年限，例如5年，10年，15年等；μ_i指的是规划目标在规划年限内的年限权重，ΔPCI_i，ΔRQI_i指的是给予适当措施后的衰变后性能值的减去基于现状性能预测所得的性能评价指标的在任意年的衰变值。

求解目标策略及更新效益值的逻辑如图1所示。

首先，基于构建的明确指标的收益函数B对策略进行估值，计算特定维修策略下的初始状态变化以及所获得收益期望值E。通过养护方案的连续控制，基于成本参数化的养护方案可以对收益函数的梯度进行更新。

使用参数化表示维修策略，包括费用(属于成本参数)和工程排序赋值(人为设定的维修方案倾向，当成本效益比相同时辅助进行选择)，基于输入环境状态s和结构状态c来选择养护方案m，因此维修策略函数表示为V(m|s,c)＝P(M_t＝m|S_t＝s,C_t＝c)，其中，时刻为t，环境状态参数为s，结构状态参数为c，输出动作(养护方案)m的概率为p。

因此生成马尔科夫决策过程轨迹T*＝{s₁,m₁,…,s_t,m_t}，

此方案时机组合(轨迹)出现的概率表示为

即：

采用策略梯度方法，找到一组最佳参数来表征维修策略函数，使其累计奖惩期望值最大，累计奖惩值为R(T*)。

实际维修决策中策略更新较为缓慢，故而采用双Q学习方法，即构建两组网络，两组评价模型分别独立的进行优化。r是奖励值，s’是下一阶段的状态，y是B的目标网络值，两个网络结构和参数完全一致，并且每隔一定的训练次数，将评估网络的参数延时拷贝至目标网络。γ∈[0,1]，为折扣因子。和/>为一对决策者(智能体)，/>和/>为一对评估值向量，优化公示如下：

优化求解的算法逻辑如下：

初始化两个维修策略网络V_φ；

初始化维修策略的估值网络和/>

初始化维修策略网络和估值网络对应的目标网络；

基于公式循环计算获得最优解。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.基于迁移学习的路面养护智能规划方法，其特征在于：该方法包括以下步骤：

S5：策略即具体状态下采取的维修措施的连续动作的组合；

S6：对策略进行优化时采用的是梯度更新的方式，通过策略搜索赋值；

所述策略搜索为：在有限策略中发现一个维修策略使得期望回报最大，效益最高；

首先，建立养护维修策略网络和估值网络；

求解目标策略及更新效益值：

生成马尔科夫决策过程轨迹T*＝{s₁,m₁,...,s_t,m_t}，

方案时机组合出现的概率表示为：

即：

优化求解的算法逻辑如下：

初始化两个维修策略网络V_φ；

初始化维修策略的估值网络和/>

初始化维修策略网络和估值网络对应的目标网络；

基于公式循环计算获得最优解。

2.根据权利要求1所述的基于迁移学习的路面养护智能规划方法，其特征在于：所述S4具体为：