CN110807601B

CN110807601B - 一种基于截尾数据的园区道路劣化分析方法

Info

Publication number: CN110807601B
Application number: CN201911097047.3A
Authority: CN
Inventors: 尹春林; 刘柱揆; 于辉; 程志万; 朱华; 潘侃; 张征容
Original assignee: Electric Power Research Institute of Yunnan Power Grid Co Ltd
Current assignee: Electric Power Research Institute of Yunnan Power Grid Co Ltd
Priority date: 2019-11-11
Filing date: 2019-11-11
Publication date: 2023-11-07
Anticipated expiration: 2039-11-11
Also published as: CN110807601A

Abstract

本申请实施例公开了一种基于截尾数据的园区道路劣化分析方法，所述方法由数据收集、数据处理、数据标准化、变量选择、模型构建、参数估计、构建道路劣化模型和结果分析八个步骤实现，在样本中添加自然环境和气候因素，以此达到在原有因素的基础上更近一步分析自然环境和气候因素对道路劣化的影响的目的；同时分析由道路评分标准范围限制造成的截尾数据，利用基于Cox回归模型的方法处理截尾数据，将这一部分不完整数据所带的信息加入到模型训练中，保证信息的完整性，避免偏差。

Description

一种基于截尾数据的园区道路劣化分析方法

技术领域

本发明涉及道路劣化分析领域，特别涉及一种基于截尾数据的园区道路劣化分析方法。

背景技术

道路劣化现象日益严重，在大范围内，道路劣化分析也逐渐引起了世界各地的广泛关注。针对道路劣化，目前已经有很多分析方法被提出，且为道路维护和管理的发展作出了贡献。尽管这些方法取得了值得肯定的成功，但也仍然存在两个问题。首先，现有方法没有考虑自然环境和气候因素。其次，忽略了截尾数据的存在。截尾数据的存在会导致道路劣化分析中出现预测结果与实际情况不符的情况。

近年来，许多基于机器学习算法的方法已经被用于道路劣化分析，比如人工神经网络、马尔可夫链、模糊技术和回归分析等。这些方法可以分为两种类型：确定型和随机型方法。

马尔可夫链是随机型方法中的一种主流方法。马尔可夫模型假设道路的未来状态取决于当前状态，每一个时间点的状态都可以通过固定的转移概率转移到另一个状态。因为道路状态是用1至5五个等级来评估的，所以在道路劣化分析中，过渡概率矩阵被表示为一个矩阵。过渡概率矩阵通常是由道路状态的统计数据来计算的。因此，如果已知道路目前的状态，就可以得到某一时刻的未来状态，从而预测道路的劣化趋势。尽管马尔可夫链被广泛地用于道路劣化分析，但是大多数研究只关注于将道路作为一个整体来预测其状态的转移，而不能做到分析具体的因素对道路劣化产生的影响，特别是现有的方法都没有考虑自然环境和气候因素的影响,这可能会影响在道路养护决策的准确性。此外，现有的方法假设用于构建道路劣化模型的数据不存在截尾数据，这个假设会导致实验结果出现偏差。

回归模型是确定型方法的一种主流方法，可以量化不同因素对最终结果的影响。它是一种预测建模技术，主要用于求解最佳的数学模型，从而可以根据自变量预测因变量。描述因变量与自变量之间的因果关系也是回归模型的主要目的。一般情况下，在道路劣化分析中，首先确定道路劣化的潜在决定因素，将其作为自变量输入，并以道路状况评分作为因变量。通过回归分析估计的系数值代表了各个自变量对道路劣化的影响程度。现有方法在使用回归模型进行分析时仅考虑了道路使用年限这唯一一个因素对道路劣化的影响。极少方法有考虑到包括使用年限、平均日交通量、降雨量、温度范围这些因素。但它们都忽视了自然环境因素和气候因素。此外，现有的基于回归模型的方法同样假设用于构建模型的数据不存在删失数据。

不可否认现有的方法取得了一定的成功，但总的来说还是存在这两个缺陷。1、现有方法没有考虑自然环境和气候因素。2、忽略了截尾数据的存在，特别是分数标准范围限制造成截尾数据的这种情况。

发明内容

针对现有技术所存在的问题，本发明提供了一种基于截尾数据的园区道路劣化分析方法，通过在样本中添加自然环境和气候因素，以此达到在原有因素的基础上更近一步分析自然环境和气候因素对道路劣化的影响的目的；通过分析由道路评分标准范围限制造成的截尾数据，利用基于Cox回归模型的方法处理截尾数据，将这一部分不完整数据所带的信息加入到模型训练中，保证信息的完整性，避免偏差。

本申请提供了一种基于截尾数据的园区道路劣化分析方法，包括以下步骤：

步骤一：数据收集，从园区管理部门收集到的各个区域的真实道路状况数据；

步骤二：数据处理，对原始数据中的缺失值进行补充；

步骤三：数据标准化，消除指标间的量纲效应，需要对数据进行标准化，以此解决数据指标间的可比性问题；

步骤四：变量选择，对于用于构建cox回归模型的数据，每个观察对象需要考虑k个影响因素、评分和截尾指标；影响因素变量分为两类，一个是定性变量，需要进行量化处理；

步骤五：构建模型，Cox回归不同于传统的回归分析，不能直接用道路评分作为回归方程的因变量，风险函数与基准风险函数的比值反映了协变量对道路评分的影响，从而需要构建风险函数模型；

步骤六：参数估计，Cox回归模型对h₀(t)没有任何假设，对于两个个体，其危险比与h₀(t)无关，即使在h₀(t)未知的情况下，我们仍然可以进行参数估计；

步骤七：通过模型训练，得到道路劣化模型；

步骤八：结果分析。

进一步地，步骤一中所述的真实道路状况数据为基础数据，所述基础数据是每条道路所有相关信息的样本，此外，设置一个指标变量c来定义截尾状态，如果道路评分小于100分，则c＝1，否则c＝0。

进一步地，步骤二中所述对原始数据中的缺失值进行补充的具体方法为：

采用随机森林对原始数据进行插补缺失值的处理；从完整的数据中提取k个子样本集，为每个子样本集建立cart决策树模型，得到k个决策树模型{y₁(X)，y₂(X)，...y_k(X)}，然后对每个决策树模型进行投票；函数如公式(1)所示：

然后，通过与道路工程专家的讨论，对相似属性和属性值进行合并，剔除不合理的属性值；为了便于计算机处理，我们对数据进行实数编码。

进一步地，步骤三中所述对数据进行标准化的具体方法为：

对属性值为数值的属性进行标准化；我们使用的标准化方法是线性归一化，转换函数如公式(2)所示：

x′＝x-min(x)/max(x)-min(x)(2)。

进一步地，步骤四中所述变量选择的具体方法为：

由于影响因素变量分为两类，其中定性变量需要进行量化处理，采用实数编码来实现量化；而定量变量，需要标准化转换处理，采用线性归一化进行标准化处理；评分是一个连续的数字变量；截尾指标有两种状态，“1”表示评分符合道路实际情况，“0”表示截尾，即评分不符合道路实际情况，道路实际情况的评分高于100；

Cox回归以两个变量为因变量；一个是分类变，另一个是连续变量；事件结局和道路评分被视为因变量；指示变量c被用来表示事件结局，如果道路评分小于100，则c＝1，否则c＝0；此指示变量c还标识了数据是否是截尾数据；道路评分定义为t.对于给定的个体i，我们将其评分标记为t_i；

为了分析影响因素对道路评分的影响，将各影响因素作为为自变量；假设评分的影响因素的数量是k，所有的因素可以分别定义为X₁、X₂、X₃、……X_k,协变向量形式记为X＝(X₁ X₂ …… X_k)；为防止自变量过多而造成数据溢出，先做单因素分析，剔除无显著性影响的因素，再对剩下的因素做多因素分析。

进一步地，步骤五中所述模型构建具体方法为：

风险函数定义为h(t)，它表示道路获得了符合实际情况的合适分数的概率；为公式(3)：

同时，基准风险函数可以定义为h₀(t)；它表示没有任何协变量影响的道路风险函数的形式；h₀(t)可以是与t有关的任何函数，cox回归模型中没有对它的任何假设；

假设基于影响因素X＝(X₁ X₂ …… X_k)的道路风险函数用h_i(t,X)表示，根据比例风险和对数线性假设，用于道路劣化分析的cox回归模型定义为公式(4)：

h_i(t，X)＝h₀(t)exp(β₁x_i1+β₂x_i2+…+β_kx_ik) (4)

其中，当X＝(00……0)时，h₀(t)等同于h_i(t,X)；exp(β_kX_ik)表示X对风险的影响程度，这个影响度使风险从h₀(t)增至h₀(t)exp(β_k X_ik)；exp(β_k X_ik)可以被视为一个比例常数；所以公式(4)也被称为比例风险函数；β_k是基于样本的估计值来描述各种因素对风险的影响的参数；当β_k＝0时，因素X_k对风险无影响；当β_k>0时，因素X_k会增加风险，是危险因素；当β_k<0时，因素X_k可以减少风险，成为保护因素；则公式(4)也可以被转换成公式(5)：

等式的左边是相对风险率的自然对数，右边是协变量和对应回归系数的线性函数。

进一步地，步骤六中所述参数估计的具体方法为：

Cox回归模型对h₀(t)没有任何假设；对于两个个体，其危险比与h₀(t)无关；我们可以发现，在以下表达式(6)中，h₀(t)可以被消去；

即使在h₀(t)未知的情况下，仍然可以进行参数估计；风险比仅仅依赖于回归系数β；在学习模型时，定义了偏似然函数；截尾指示变量δ_j用于标识截尾数据，如果道路数据是截尾数据，则δ_j等于0，否则δ_j为1；另外，设置R(t)来表示评分t的危险集；在假设有m个事件的情况下，将相应的条件偏似然函数定义为公式(7)：

把公式(7)写成log似然函数，如下所示：

采用数值方法比如迭代算法来推导出公式(8)，从而得到参数β的最大似然估计值及其标准误差，然后进行似然比检验、得分检验或Wald检验，以确定各协变量是否统计学意义；根据β值可以判断这些因素是道路劣化的危险因素还是保护因素。

进一步地，步骤七中所述模型训练，得到道路劣化模型的具体方法为：

h(t，X)＝h₀(t)exp(-1.323e+00X₁+-1.528e+00X₂+…+2.407e-01X₁₆) (9)

根据表达式(9)来估计协变量是危险因素还是保护因素。同时也可以看出协变量对道路评分的影响程度；由于协变量对道路评分的影响反映在风险函数与基准风险函数的比值上，变量单位变化引起的风险比变化；风险越高，道路评分低的概率越高，反之亦然。

进一步地，步骤八中所述结果分析的具体方法为：

进一步地，通过对实验结果的观察，得出的结果；根据对道路评分的影响，选取因素分为危险因素、保护因素和无显著影响因素三类。

本申请的有益效果：在样本中添加自然环境和气候因素，以此达到在原有因素的基础上更近一步分析自然环境和气候因素对道路劣化的影响的目的。分析由道路评分标准范围限制造成的截尾数据，利用基于Cox回归模型的方法处理截尾数据，将这一部分不完整数据所带的信息加入到模型训练中，保证信息的完整性，避免偏差。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一种基于截尾数据的园区道路劣化分析方法的流程图。

具体实施方式

参见图1，为本申请一种基于截尾数据的园区道路劣化分析方法的流程图；

本申请实施例提供了一种基于截尾数据的园区道路劣化分析方法，包括以下步骤：

步骤二：数据处理，对原始数据中的缺失值进行补充；

步骤七：通过模型训练，得到道路劣化模型；

步骤八：结果分析。

进一步地，步骤一中所述的真实道路状况数据为基础数据，所述基础数据是每条道路所有相关信息的样本，每个样本包括12个属性，有路面铺装材料、建成年限、路面总宽、道路类型、构造-形式、构造-材料、伸缩缝类型、年平均降雨量、最冷月平均最低气温、最热月平均最高气温，雨天天数和雪天天数，此外，设置一个指标变量c来定义截尾状态，如果道路评分小于100分，则c＝1，否则c＝0。

然后，通过与道路工程专家的讨论，对相似属性和属性值进行合并，剔除不合理的属性值；为了便于计算机处理，我们对数据进行实数编码。例如，在“道路类型”属性值中，“超大路”编码为1，“大路”编码为2，“中路”编码为3，“小路”编码为4。

进一步地，步骤三中所述对数据进行标准化的具体方法为：

x′＝x-min(x)/max(x)-min(x) (2)。

经过处理后，数据格式如表2所示：

表2数据格式

进一步地，步骤四中所述变量选择的具体方法为：

由于影响因素变量分为两类，其中定性变量需要进行量化处理，采用实数编码来实现量化；而定量变量，需要标准化转换处理，采用线性归一化进行标准化处理；本例考虑的12个影响因素中，有6个是分类变量，6个是定量变量。评分是一个连续的数字变量；截尾指标有两种状态，“1”表示评分符合道路实际情况，“0”表示截尾，即评分不符合道路实际情况，道路实际情况的评分高于100；

进一步地，步骤五中所述模型构建具体方法为：

h_i(t，X)＝h₀(t)exp(β₁x_i1+β₂x_i2+…+β_kx_ik) (4)

进一步地，步骤六中所述参数估计的具体方法为：

把公式(7)写成log似然函数，如下所示：

进一步地，步骤七中所述模型训练，得到道路劣化模型的具体方法为：表3展示了参数估计的结果，最后一列的星级表示因素的显著性影响，星越多显著性越大。

表3参数估计结果

通过模型训练，得到道路劣化模型：

h(t，X)＝h₀(t)exp(-1.323e+00X₁+-1.528e+00X₂+…+2.407e-01X₁₆) (9)

进一步地，步骤八中所述结果分析的具体方法为：

本申请在样本中添加自然环境和气候因素，以此达到在原有因素的基础上更近一步分析自然环境和气候因素对道路劣化的影响的目的。分析由道路评分标准范围限制造成的截尾数据，利用基于Cox回归模型的方法处理截尾数据，将这一部分不完整数据所带的信息加入到模型训练中，保证信息的完整性，避免偏差。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种基于截尾数据的园区道路劣化分析方法，其特征在于，包括以下步骤：

步骤一：数据收集，从园区管理部门收集各个区域的真实道路状况数据；其中，真实道路状况数据为每条道路所有相关信息的样本，每个样本包括以下属性：路面铺装材料、建成年限、路面总宽、道路类型、构造形式、构造材料、伸缩缝类型、年平均降雨量、最冷月平均最低气温、最热月平均最高气温、雨天天数和雪天天数；

步骤二：数据处理，采用随机森林对原始的真实道路状况进行插补缺失值的处理，包括：从完整的真实道路状况数据中提取k个子样本集，为每个子样本集建立cart决策树模型，得到k个cart决策树模型{y₁(X),y₂(X),…y_k(X)}，对每个决策树模型进行投票，函数如公式(1)所示：

对相似属性和属性值进行合并，剔除不合理的属性值，并对数据进行实数编码；

步骤三：数据标准化，消除指标间的量纲效应，对属性值为数值的属性进行标准化；其中，标准化方法为线性归一化，转换函数如公式(2)所示：

X‘＝X-min(X)/max(X)-min(X) (2)；

步骤四：变量选择，对于标准化后的真实道路状况数据，定义k个影响因素以及评分与截尾指标；其中，影响因素分为两类，一个是定性影响因素，进行量化处理，采用实数编码实现量化，二是定量影响因素，进行标准化转换处理；评分是一个连续的数字变量；截尾指标包括两种状态，以指示变量c标识数据是否为截尾数据，“c＝1”表示评分符合道路实际情况，“c＝0”表示截尾，即评分不符合道路实际情况；

Cox回归模型以两个变量为因变量，分别为事件结局和道路评分；事件结局通过指示变量c表示，如果道路评分小于100，则c＝1，否则c＝0；道路评分定义为t，对于给定的个体i，将其道路评分标记为t_i；

将各影响因素作为自变量，假设道路评分的影响因素的数量是n，所有的影响因素可以分别定义为X₁、X₂、X₃、…X_j…X_n,影响因素X的协变向量形式记为X＝(X₁ X₂…X_j…X_n)，进行单因素分析，剔除无显著性影响的影响因素，再对剩下的影响因素做多因素分析；

步骤五：构建模型，以风险函数与基准风险函数的比值反映影响因素X对道路评分的影响，将风险函数定义为h(t)，表示道路获得符合实际情况的合适分数的概率；计算方式为公式(3)：

将基准风险函数定义为h₀(t)；表示没有任何协变量影响的道路风险函数；h₀(t)的函数形式是与t有关的任何函数；

基于影响因素X＝(X₁ X₂…X_j…X_n)的道路风险函数用h_i(t,X)表示，根据比例风险和对数线性假设，用于道路劣化分析的cox回归模型定义为公式(4)：

h_i(t,X)＝h₀(t)exp(β₁X_i1+β₂X_i2+…+β_jX_ij) (4)

其中，当X＝(0 0…0…0)时，h₀(t)等同于h_i(t,X)；exp(β_jX_ij)为一个比例常数，表示影响因素X_j对道路评分的影响程度；β_j是描述影响因素X_j对道路评分的影响的参数；当β_j＝0时，表示影响因素X_j对道路评分无影响；当β_j>0时，表示影响因素X_j会增加对道路评分的影响，影响因素X_j是危险因素；当β_j<0时，表示影响因素X_j会减少对道路评分的影响，影响因素X_j是保护因素；

步骤六：参数估计，设置R(t)来表示道路评分t的危险集，在假设有m个事件的情况下，将相应的条件偏似然函数L_p(β)定义为公式(5)；其中，截尾指示变量δ_j用于标识截尾数据，如果道路数据是截尾数据，则δ_j等于0，否则δ_j为1；

将公式(5)写成log似然函数，如公式(6)所示：

再采用迭代算法来推导得到参数β的最大似然估计值及其标准误差，然后进行似然比检验、得分检验或Wald检验，根据β值判断影响因素X是道路劣化的危险因素还是保护因素；

步骤七：通过模型训练，得到道路劣化模型，如公式(7)：

h(t，X)＝h₀(t)exp(-1.323e+00X₁+-1.528e+00X₂+…+2.407e-01X₁₆) (7)

根据公式(7)来估计协变量是危险因素还是保护因素；

步骤八：结果分析，根据对道路评分的影响，将影响因素X分为危险因素、保护因素和无显著影响因素三类。