CN110807601A - 一种基于截尾数据的园区道路劣化分析方法 - Google Patents

一种基于截尾数据的园区道路劣化分析方法 Download PDF

Info

Publication number
CN110807601A
CN110807601A CN201911097047.3A CN201911097047A CN110807601A CN 110807601 A CN110807601 A CN 110807601A CN 201911097047 A CN201911097047 A CN 201911097047A CN 110807601 A CN110807601 A CN 110807601A
Authority
CN
China
Prior art keywords
road
data
risk
score
factors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911097047.3A
Other languages
English (en)
Other versions
CN110807601B (zh
Inventor
尹春林
刘柱揆
于辉
程志万
朱华
潘侃
张征容
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Research Institute of Yunnan Power System Ltd
Original Assignee
Electric Power Research Institute of Yunnan Power System Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of Yunnan Power System Ltd filed Critical Electric Power Research Institute of Yunnan Power System Ltd
Priority to CN201911097047.3A priority Critical patent/CN110807601B/zh
Publication of CN110807601A publication Critical patent/CN110807601A/zh
Application granted granted Critical
Publication of CN110807601B publication Critical patent/CN110807601B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Primary Health Care (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Traffic Control Systems (AREA)

Abstract

本申请实施例公开了一种基于截尾数据的园区道路劣化分析方法,所述方法由数据收集、数据处理、数据标准化、变量选择、模型构建、参数估计、构建道路劣化模型和结果分析八个步骤实现,在样本中添加自然环境和气候因素,以此达到在原有因素的基础上更近一步分析自然环境和气候因素对道路劣化的影响的目的;同时分析由道路评分标准范围限制造成的截尾数据,利用基于Cox回归模型的方法处理截尾数据,将这一部分不完整数据所带的信息加入到模型训练中,保证信息的完整性,避免偏差。

Description

一种基于截尾数据的园区道路劣化分析方法
技术领域
本发明涉及道路劣化分析领域,特别涉及一种基于截尾数据的园区道路劣化分析方法。
背景技术
道路劣化现象日益严重,在大范围内,道路劣化分析也逐渐引起了世界各地的广泛关注。针对道路劣化,目前已经有很多分析方法被提出,且为道路维护和管理的发展作出了贡献。尽管这些方法取得了值得肯定的成功,但也仍然存在两个问题。首先,现有方法没有考虑自然环境和气候因素。其次,忽略了截尾数据的存在。截尾数据的存在会导致道路劣化分析中出现预测结果与实际情况不符的情况。
近年来,许多基于机器学习算法的方法已经被用于道路劣化分析,比如人工神经网络、马尔可夫链、模糊技术和回归分析等。这些方法可以分为两种类型:确定型和随机型方法。
马尔可夫链是随机型方法中的一种主流方法。马尔可夫模型假设道路的未来状态取决于当前状态,每一个时间点的状态都可以通过固定的转移概率转移到另一个状态。因为道路状态是用1至5五个等级来评估的,所以在道路劣化分析中,过渡概率矩阵被表示为一个矩阵。过渡概率矩阵通常是由道路状态的统计数据来计算的。因此,如果已知道路目前的状态,就可以得到某一时刻的未来状态,从而预测道路的劣化趋势。尽管马尔可夫链被广泛地用于道路劣化分析,但是大多数研究只关注于将道路作为一个整体来预测其状态的转移,而不能做到分析具体的因素对道路劣化产生的影响,特别是现有的方法都没有考虑自然环境和气候因素的影响,这可能会影响在道路养护决策的准确性。此外,现有的方法假设用于构建道路劣化模型的数据不存在截尾数据,这个假设会导致实验结果出现偏差。
回归模型是确定型方法的一种主流方法,可以量化不同因素对最终结果的影响。它是一种预测建模技术,主要用于求解最佳的数学模型,从而可以根据自变量预测因变量。描述因变量与自变量之间的因果关系也是回归模型的主要目的。一般情况下,在道路劣化分析中,首先确定道路劣化的潜在决定因素,将其作为自变量输入,并以道路状况评分作为因变量。通过回归分析估计的系数值代表了各个自变量对道路劣化的影响程度。现有方法在使用回归模型进行分析时仅考虑了道路使用年限这唯一一个因素对道路劣化的影响。极少方法有考虑到包括使用年限、平均日交通量、降雨量、温度范围这些因素。但它们都忽视了自然环境因素和气候因素。此外,现有的基于回归模型的方法同样假设用于构建模型的数据不存在删失数据。
不可否认现有的方法取得了一定的成功,但总的来说还是存在这两个缺陷。1、现有方法没有考虑自然环境和气候因素。2、忽略了截尾数据的存在,特别是分数标准范围限制造成截尾数据的这种情况。
发明内容
针对现有技术所存在的问题,本发明提供了一种基于截尾数据的园区道路劣化分析方法,通过在样本中添加自然环境和气候因素,以此达到在原有因素的基础上更近一步分析自然环境和气候因素对道路劣化的影响的目的;通过分析由道路评分标准范围限制造成的截尾数据,利用基于Cox回归模型的方法处理截尾数据,将这一部分不完整数据所带的信息加入到模型训练中,保证信息的完整性,避免偏差。
本申请提供了一种基于截尾数据的园区道路劣化分析方法,包括以下步骤:
步骤一:数据收集,从园区管理部门收集到的各个区域的真实道路状况数据;
步骤二:数据处理,对原始数据中的缺失值进行补充;
步骤三:数据标准化,消除指标间的量纲效应,需要对数据进行标准化,以此解决数据指标间的可比性问题;
步骤四:变量选择,对于用于构建cox回归模型的数据,每个观察对象需要考虑k个影响因素、评分和截尾指标;影响因素变量分为两类,一个是定性变量,需要进行量化处理;
步骤五:构建模型,Cox回归不同于传统的回归分析,不能直接用道路评分作为回归方程的因变量,风险函数与基准风险函数的比值反映了协变量对道路评分的影响,从而需要构建风险函数模型;
步骤六:参数估计,Cox回归模型对h0(t)没有任何假设,对于两个个体,其危险比与h0(t)无关,即使在h0(t)未知的情况下,我们仍然可以进行参数估计;
步骤七:通过模型训练,得到道路劣化模型;
步骤八:结果分析。
进一步地,步骤一中所述的真实道路状况数据为基础数据,所述基础数据是每条道路所有相关信息的样本,此外,设置一个指标变量c来定义截尾状态,如果道路评分小于100分,则c=1,否则c=0。
进一步地,步骤二中所述对原始数据中的缺失值进行补充的具体方法为:
采用随机森林对原始数据进行插补缺失值的处理;从完整的数据中提取k个子样本集,为每个子样本集建立cart决策树模型,得到k个决策树模型{y1(X),y2(X),...yk(X)},然后对每个决策树模型进行投票;函数如公式(1)所示:
然后,通过与道路工程专家的讨论,对相似属性和属性值进行合并,剔除不合理的属性值;为了便于计算机处理,我们对数据进行实数编码。
进一步地,步骤三中所述对数据进行标准化的具体方法为:
对属性值为数值的属性进行标准化;我们使用的标准化方法是线性归一化,转换函数如公式(2)所示:
x′=x-min(x)/max(x)-min(x) (2)。
进一步地,步骤四中所述变量选择的具体方法为:
由于影响因素变量分为两类,其中定性变量需要进行量化处理,采用实数编码来实现量化;而定量变量,需要标准化转换处理,采用线性归一化进行标准化处理;评分是一个连续的数字变量;截尾指标有两种状态,“1”表示评分符合道路实际情况,“0”表示截尾,即评分不符合道路实际情况,道路实际情况的评分高于100;
Cox回归以两个变量为因变量;一个是分类变,另一个是连续变量;事件结局和道路评分被视为因变量;指示变量c被用来表示事件结局,如果道路评分小于100,则c=1,否则c=0;此指示变量c还标识了数据是否是截尾数据;道路评分定义为t.对于给定的个体i,我们将其评分标记为ti
为了分析影响因素对道路评分的影响,将各影响因素作为为自变量;假设评分的影响因素的数量是k,所有的因素可以分别定义为X1、X2、X3、……Xk,协变向量形式记为X=(X1 X2 …… Xk);为防止自变量过多而造成数据溢出,先做单因素分析,剔除无显著性影响的因素,再对剩下的因素做多因素分析。
进一步地,步骤五中所述模型构建具体方法为:
风险函数定义为h(t),它表示道路获得了符合实际情况的合适分数的概率;为公式(3):
Figure BDA0002268659720000041
同时,基准风险函数可以定义为h0(t);它表示没有任何协变量影响的道路风险函数的形式;h0(t)可以是与t有关的任何函数,cox回归模型中没有对它的任何假设;
假设基于影响因素X=(X1 X2 …… Xk)的道路风险函数用hi(t,X)表示,根据比例风险和对数线性假设,用于道路劣化分析的cox回归模型定义为公式(4):
hi(t,X)=h0(t)exp(β1xi12xi2+…+βkxik) (4)
其中,当X=(00……0)时,h0(t)等同于hi(t,X);exp(βkXik)表示X对风险的影响程度,这个影响度使风险从h0(t)增至h0(t)exp(βk Xik);exp(βk Xik)可以被视为一个比例常数;所以公式(4)也被称为比例风险函数;βk是基于样本的估计值来描述各种因素对风险的影响的参数;当βk=0时,因素Xk对风险无影响;当βk>0时,因素Xk会增加风险,是危险因素;当βk<0时,因素Xk可以减少风险,成为保护因素;则公式(4)也可以被转换成公式(5):
Figure BDA0002268659720000042
等式的左边是相对风险率的自然对数,右边是协变量和对应回归系数的线性函数。
进一步地,步骤六中所述参数估计的具体方法为:
Cox回归模型对h0(t)没有任何假设;对于两个个体,其危险比与h0(t)无关;我们可以发现,在以下表达式(6)中,h0(t)可以被消去;
Figure BDA0002268659720000043
即使在h0(t)未知的情况下,仍然可以进行参数估计;风险比仅仅依赖于回归系数β;在学习模型时,定义了偏似然函数;截尾指示变量δj用于标识截尾数据,如果道路数据是截尾数据,则δj等于0,否则δj为1;另外,设置R(t)来表示评分t的危险集;在假设有m个事件的情况下,将相应的条件偏似然函数定义为公式(7):
把公式(7)写成log似然函数,如下所示:
Figure BDA0002268659720000051
采用数值方法比如迭代算法来推导出公式(8),从而得到参数β的最大似然估计值及其标准误差,然后进行似然比检验、得分检验或Wald检验,以确定各协变量是否统计学意义;根据β值可以判断这些因素是道路劣化的危险因素还是保护因素。
进一步地,步骤七中所述模型训练,得到道路劣化模型的具体方法为:
h(t,X)=h0(t)exp(-1.323e+00X1+-1.528e+00X2+…+2.407e-01X16) (9)
根据表达式(9)来估计协变量是危险因素还是保护因素。同时也可以看出协变量对道路评分的影响程度;由于协变量对道路评分的影响反映在风险函数与基准风险函数的比值上,变量单位变化引起的风险比变化;风险越高,道路评分低的概率越高,反之亦然。
进一步地,步骤八中所述结果分析的具体方法为:
进一步地,通过对实验结果的观察,得出的结果;根据对道路评分的影响,选取因素分为危险因素、保护因素和无显著影响因素三类。
本申请的有益效果:在样本中添加自然环境和气候因素,以此达到在原有因素的基础上更近一步分析自然环境和气候因素对道路劣化的影响的目的。分析由道路评分标准范围限制造成的截尾数据,利用基于Cox回归模型的方法处理截尾数据,将这一部分不完整数据所带的信息加入到模型训练中,保证信息的完整性,避免偏差。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一种基于截尾数据的园区道路劣化分析方法的流程图。
具体实施方式
参见图1,为本申请一种基于截尾数据的园区道路劣化分析方法的流程图;
本申请实施例提供了一种基于截尾数据的园区道路劣化分析方法,包括以下步骤:
步骤一:数据收集,从园区管理部门收集到的各个区域的真实道路状况数据;
步骤二:数据处理,对原始数据中的缺失值进行补充;
步骤三:数据标准化,消除指标间的量纲效应,需要对数据进行标准化,以此解决数据指标间的可比性问题;
步骤四:变量选择,对于用于构建cox回归模型的数据,每个观察对象需要考虑k个影响因素、评分和截尾指标;影响因素变量分为两类,一个是定性变量,需要进行量化处理;
步骤五:构建模型,Cox回归不同于传统的回归分析,不能直接用道路评分作为回归方程的因变量,风险函数与基准风险函数的比值反映了协变量对道路评分的影响,从而需要构建风险函数模型;
步骤六:参数估计,Cox回归模型对h0(t)没有任何假设,对于两个个体,其危险比与h0(t)无关,即使在h0(t)未知的情况下,我们仍然可以进行参数估计;
步骤七:通过模型训练,得到道路劣化模型;
步骤八:结果分析。
进一步地,步骤一中所述的真实道路状况数据为基础数据,所述基础数据是每条道路所有相关信息的样本,每个样本包括12个属性,有路面铺装材料、建成年限、路面总宽、道路类型、构造-形式、构造-材料、伸缩缝类型、年平均降雨量、最冷月平均最低气温、最热月平均最高气温,雨天天数和雪天天数,此外,设置一个指标变量c来定义截尾状态,如果道路评分小于100分,则c=1,否则c=0。
进一步地,步骤二中所述对原始数据中的缺失值进行补充的具体方法为:
采用随机森林对原始数据进行插补缺失值的处理;从完整的数据中提取k个子样本集,为每个子样本集建立cart决策树模型,得到k个决策树模型{y1(X),y2(X),...yk(X)},然后对每个决策树模型进行投票;函数如公式(1)所示:
Figure BDA0002268659720000061
然后,通过与道路工程专家的讨论,对相似属性和属性值进行合并,剔除不合理的属性值;为了便于计算机处理,我们对数据进行实数编码。例如,在“道路类型”属性值中,“超大路”编码为1,“大路”编码为2,“中路”编码为3,“小路”编码为4。
进一步地,步骤三中所述对数据进行标准化的具体方法为:
对属性值为数值的属性进行标准化;我们使用的标准化方法是线性归一化,转换函数如公式(2)所示:
x′=x-min(x)/max(x)-min(x) (2)。
经过处理后,数据格式如表2所示:
表2数据格式
Figure BDA0002268659720000071
进一步地,步骤四中所述变量选择的具体方法为:
由于影响因素变量分为两类,其中定性变量需要进行量化处理,采用实数编码来实现量化;而定量变量,需要标准化转换处理,采用线性归一化进行标准化处理;本例考虑的12个影响因素中,有6个是分类变量,6个是定量变量。评分是一个连续的数字变量;截尾指标有两种状态,“1”表示评分符合道路实际情况,“0”表示截尾,即评分不符合道路实际情况,道路实际情况的评分高于100;
Cox回归以两个变量为因变量;一个是分类变,另一个是连续变量;事件结局和道路评分被视为因变量;指示变量c被用来表示事件结局,如果道路评分小于100,则c=1,否则c=0;此指示变量c还标识了数据是否是截尾数据;道路评分定义为t.对于给定的个体i,我们将其评分标记为ti
为了分析影响因素对道路评分的影响,将各影响因素作为为自变量;假设评分的影响因素的数量是k,所有的因素可以分别定义为X1、X2、X3、……Xk,协变向量形式记为X=(X1 X2 …… Xk);为防止自变量过多而造成数据溢出,先做单因素分析,剔除无显著性影响的因素,再对剩下的因素做多因素分析。
进一步地,步骤五中所述模型构建具体方法为:
风险函数定义为h(t),它表示道路获得了符合实际情况的合适分数的概率;为公式(3):
Figure BDA0002268659720000081
同时,基准风险函数可以定义为h0(t);它表示没有任何协变量影响的道路风险函数的形式;h0(t)可以是与t有关的任何函数,cox回归模型中没有对它的任何假设;
假设基于影响因素X=(X1 X2 …… Xk)的道路风险函数用hi(t,X)表示,根据比例风险和对数线性假设,用于道路劣化分析的cox回归模型定义为公式(4):
hi(t,X)=h0(t)exp(β1xi12xi2+…+βkxik) (4)
其中,当X=(00……0)时,h0(t)等同于hi(t,X);exp(βkXik)表示X对风险的影响程度,这个影响度使风险从h0(t)增至h0(t)exp(βk Xik);exp(βk Xik)可以被视为一个比例常数;所以公式(4)也被称为比例风险函数;βk是基于样本的估计值来描述各种因素对风险的影响的参数;当βk=0时,因素Xk对风险无影响;当βk>0时,因素Xk会增加风险,是危险因素;当βk<0时,因素Xk可以减少风险,成为保护因素;则公式(4)也可以被转换成公式(5):
等式的左边是相对风险率的自然对数,右边是协变量和对应回归系数的线性函数。
进一步地,步骤六中所述参数估计的具体方法为:
Cox回归模型对h0(t)没有任何假设;对于两个个体,其危险比与h0(t)无关;我们可以发现,在以下表达式(6)中,h0(t)可以被消去;
Figure BDA0002268659720000083
即使在h0(t)未知的情况下,仍然可以进行参数估计;风险比仅仅依赖于回归系数β;在学习模型时,定义了偏似然函数;截尾指示变量δj用于标识截尾数据,如果道路数据是截尾数据,则δj等于0,否则δj为1;另外,设置R(t)来表示评分t的危险集;在假设有m个事件的情况下,将相应的条件偏似然函数定义为公式(7):
Figure BDA0002268659720000091
把公式(7)写成log似然函数,如下所示:
Figure BDA0002268659720000092
采用数值方法比如迭代算法来推导出公式(8),从而得到参数β的最大似然估计值及其标准误差,然后进行似然比检验、得分检验或Wald检验,以确定各协变量是否统计学意义;根据β值可以判断这些因素是道路劣化的危险因素还是保护因素。
进一步地,步骤七中所述模型训练,得到道路劣化模型的具体方法为:表3展示了参数估计的结果,最后一列的星级表示因素的显著性影响,星越多显著性越大。
表3参数估计结果
Figure BDA0002268659720000101
通过模型训练,得到道路劣化模型:
h(t,X)=h0(t)exp(-1.323e+00X1+-1.528e+00X2+…+2.407e-01X16) (9)
根据表达式(9)来估计协变量是危险因素还是保护因素。同时也可以看出协变量对道路评分的影响程度;由于协变量对道路评分的影响反映在风险函数与基准风险函数的比值上,变量单位变化引起的风险比变化;风险越高,道路评分低的概率越高,反之亦然。
进一步地,步骤八中所述结果分析的具体方法为:
进一步地,通过对实验结果的观察,得出的结果;根据对道路评分的影响,选取因素分为危险因素、保护因素和无显著影响因素三类。
本申请在样本中添加自然环境和气候因素,以此达到在原有因素的基础上更近一步分析自然环境和气候因素对道路劣化的影响的目的。分析由道路评分标准范围限制造成的截尾数据,利用基于Cox回归模型的方法处理截尾数据,将这一部分不完整数据所带的信息加入到模型训练中,保证信息的完整性,避免偏差。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (9)

1.一种基于截尾数据的园区道路劣化分析方法,其特征在于,包括以下步骤:
步骤一:数据收集,从园区管理部门收集到的各个区域的真实道路状况数据;
步骤二:数据处理,对原始数据中的缺失值进行补充;
步骤三:数据标准化,消除指标间的量纲效应,需要对数据进行标准化,以此解决数据指标间的可比性问题;
步骤四:变量选择,对于用于构建cox回归模型的数据,每个观察对象需要考虑k个影响因素、评分和截尾指标;影响因素变量分为两类,一个是定性变量,需要进行量化处理;
步骤五:构建模型,Cox回归不同于传统的回归分析,不能直接用道路评分作为回归方程的因变量,风险函数与基准风险函数的比值反映了协变量对道路评分的影响,从而需要构建风险函数模型;
步骤六:参数估计,Cox回归模型对h0(t)没有任何假设,对于两个个体,其危险比与h0(t)无关,即使在h0(t)未知的情况下,我们仍然可以进行参数估计;
步骤七:通过模型训练,得到道路劣化模型;
步骤八:结果分析。
2.根据权利要求1所述的一种基于截尾数据的园区道路劣化分析方法,其特征在于,步骤一中所述的真实道路状况数据为基础数据,所述基础数据是每条道路所有相关信息的样本,此外,设置一个指标变量c来定义截尾状态,如果道路评分小于100分,则c=1,否则c=0。
3.根据权利要求1所述的一种基于截尾数据的园区道路劣化分析方法,其特征在于,步骤二中所述对原始数据中的缺失值进行补充的具体方法为:
采用随机森林对原始数据进行插补缺失值的处理;从完整的数据中提取k个子样本集,为每个子样本集建立cart决策树模型,得到k个决策树模型{y1(X),y2(X),...yk(X)},然后对每个决策树模型进行投票;函数如公式(1)所示:
Figure FDA0002268659710000011
然后,通过与道路工程专家的讨论,对相似属性和属性值进行合并,剔除不合理的属性值;为了便于计算机处理,我们对数据进行实数编码。
4.根据权利要求1所述的一种基于截尾数据的园区道路劣化分析方法,其特征在于,步骤三中所述对数据进行标准化的具体方法为:
对属性值为数值的属性进行标准化;我们使用的标准化方法是线性归一化,转换函数如公式(2)所示:
x′=x-min(x)/max(x)-min(x) (2)。
5.根据权利要求1所述的一种基于截尾数据的园区道路劣化分析方法,其特征在于,步骤四中所述变量选择的具体方法为:
由于影响因素变量分为两类,其中定性变量需要进行量化处理,采用实数编码来实现量化;而定量变量,需要标准化转换处理,采用线性归一化进行标准化处理;评分是一个连续的数字变量;截尾指标有两种状态,“1”表示评分符合道路实际情况,“0”表示截尾,即评分不符合道路实际情况,道路实际情况的评分高于100;
Cox回归以两个变量为因变量;一个是分类变,另一个是连续变量;事件结局和道路评分被视为因变量;指示变量c被用来表示事件结局,如果道路评分小于100,则c=1,否则c=0;此指示变量c还标识了数据是否是截尾数据;道路评分定义为t.对于给定的个体i,我们将其评分标记为ti
为了分析影响因素对道路评分的影响,将各影响因素作为为自变量;假设评分的影响因素的数量是k,所有的因素可以分别定义为X1、X2、X3、……Xk,协变向量形式记为X=(X1X2……Xk);为防止自变量过多而造成数据溢出,先做单因素分析,剔除无显著性影响的因素,再对剩下的因素做多因素分析。
6.根据权利要求1所述的一种基于截尾数据的园区道路劣化分析方法,其特征在于,步骤五中所述模型构建具体方法为:
风险函数定义为h(t),它表示道路获得了符合实际情况的合适分数的概率;为公式(3):
Figure FDA0002268659710000021
同时,基准风险函数可以定义为h0(t);它表示没有任何协变量影响的道路风险函数的形式;h0(t)可以是与t有关的任何函数,cox回归模型中没有对它的任何假设;
假设基于影响因素X=(X1 X2……Xk)的道路风险函数用hi(t,X)表示,根据比例风险和对数线性假设,用于道路劣化分析的cox回归模型定义为公式(4):
hi(t,X)=h0(t)exp(β1xi12xi2+…+βkxik) (4)
其中,当X=(0 0……0)时,h0(t)等同于hi(t,X);exp(βkXik)表示X对风险的影响程度,这个影响度使风险从h0(t)增至h0(t)exp(βk Xik);exp(βk Xik)可以被视为一个比例常数;所以公式(4)也被称为比例风险函数;βk是基于样本的估计值来描述各种因素对风险的影响的参数;当βk=0时,因素Xk对风险无影响;当βk>0时,因素Xk会增加风险,是危险因素;当βk<0时,因素Xk可以减少风险,成为保护因素;则公式(4)也可以被转换成公式(5):
Figure FDA0002268659710000031
等式的左边是相对风险率的自然对数,右边是协变量和对应回归系数的线性函数。
7.根据权利要求1所述的一种基于截尾数据的园区道路劣化分析方法,其特征在于,步骤六中所述参数估计的具体方法为:
Cox回归模型对h0(t)没有任何假设;对于两个个体,其危险比与h0(t)无关;我们可以发现,在以下表达式(6)中,h0(t)可以被消去;
Figure FDA0002268659710000032
即使在h0(t)未知的情况下,仍然可以进行参数估计;风险比仅仅依赖于回归系数β;在学习模型时,定义了偏似然函数;截尾指示变量δj用于标识截尾数据,如果道路数据是截尾数据,则δj等于0,否则δj为1;另外,设置R(t)来表示评分t的危险集;在假设有m个事件的情况下,将相应的条件偏似然函数定义为公式(7):
Figure FDA0002268659710000033
把公式(7)写成log似然函数,如下所示:
Figure FDA0002268659710000034
采用数值方法比如迭代算法来推导出公式(8),从而得到参数β的最大似然估计值及其标准误差,然后进行似然比检验、得分检验或Wald检验,以确定各协变量是否统计学意义;根据β值可以判断这些因素是道路劣化的危险因素还是保护因素。
8.根据权利要求1所述的一种基于截尾数据的园区道路劣化分析方法,其特征在于,步骤七中所述模型训练,得到道路劣化模型的具体方法为:
h(t,X)=h0(t)exp(-1.323e+00X1+-1.528e+00X2+…+2.407e-01X16) (9)
根据表达式(9)来估计协变量是危险因素还是保护因素,同时也可以看出协变量对道路评分的影响程度;由于协变量对道路评分的影响反映在风险函数与基准风险函数的比值上,变量单位变化引起的风险比变化;风险越高,道路评分低的概率越高,反之亦然。
9.根据权利要求1所述的一种基于截尾数据的园区道路劣化分析方法,其特征在于,步骤八中所述结果分析的具体方法为:
通过对实验结果的观察,得出的结果;根据对道路评分的影响,选取因素分为危险因素、保护因素和无显著影响因素三类。
CN201911097047.3A 2019-11-11 2019-11-11 一种基于截尾数据的园区道路劣化分析方法 Active CN110807601B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911097047.3A CN110807601B (zh) 2019-11-11 2019-11-11 一种基于截尾数据的园区道路劣化分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911097047.3A CN110807601B (zh) 2019-11-11 2019-11-11 一种基于截尾数据的园区道路劣化分析方法

Publications (2)

Publication Number Publication Date
CN110807601A true CN110807601A (zh) 2020-02-18
CN110807601B CN110807601B (zh) 2023-11-07

Family

ID=69502012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911097047.3A Active CN110807601B (zh) 2019-11-11 2019-11-11 一种基于截尾数据的园区道路劣化分析方法

Country Status (1)

Country Link
CN (1) CN110807601B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345525A (zh) * 2021-06-03 2021-09-03 谱天(天津)生物科技有限公司 一种用于高通量检测中减少协变量对检测结果影响的分析方法
CN113554070A (zh) * 2021-07-07 2021-10-26 石家庄铁道大学 基于过渡概率矩阵和轻量级网络的轴承故障诊断方法
CN116362059A (zh) * 2023-05-30 2023-06-30 交通运输部公路科学研究所 一种道路土层性能劣化评估方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120143564A1 (en) * 2010-12-01 2012-06-07 Xerox Corporation System and method for predicting remaining useful life of device components
CN105631578A (zh) * 2015-12-10 2016-06-01 浙江大学 一种面向风险评估的输变电设备故障概率模型的建模方法
CN108052770A (zh) * 2017-12-28 2018-05-18 大连理工大学 一种考虑时变效应的大跨桥梁主梁性能预警方法
CN109063418A (zh) * 2018-07-19 2018-12-21 东软集团股份有限公司 疾病预测分类器的确定方法、装置、设备及可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120143564A1 (en) * 2010-12-01 2012-06-07 Xerox Corporation System and method for predicting remaining useful life of device components
CN105631578A (zh) * 2015-12-10 2016-06-01 浙江大学 一种面向风险评估的输变电设备故障概率模型的建模方法
CN108052770A (zh) * 2017-12-28 2018-05-18 大连理工大学 一种考虑时变效应的大跨桥梁主梁性能预警方法
CN109063418A (zh) * 2018-07-19 2018-12-21 东软集团股份有限公司 疾病预测分类器的确定方法、装置、设备及可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马伟中等 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113345525A (zh) * 2021-06-03 2021-09-03 谱天(天津)生物科技有限公司 一种用于高通量检测中减少协变量对检测结果影响的分析方法
CN113554070A (zh) * 2021-07-07 2021-10-26 石家庄铁道大学 基于过渡概率矩阵和轻量级网络的轴承故障诊断方法
CN113554070B (zh) * 2021-07-07 2022-03-25 石家庄铁道大学 基于过渡概率矩阵和轻量级网络的轴承故障诊断方法
CN116362059A (zh) * 2023-05-30 2023-06-30 交通运输部公路科学研究所 一种道路土层性能劣化评估方法及系统

Also Published As

Publication number Publication date
CN110807601B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
WO2023065545A1 (zh) 风险预测方法、装置、设备及存储介质
CN109523018B (zh) 一种基于深度迁移学习的图片分类方法
CN110648014B (zh) 一种基于时空分位数回归的区域风电预测方法及系统
CN110807601A (zh) 一种基于截尾数据的园区道路劣化分析方法
CN109544926B (zh) 一种基于路口相关性的交通流量修复方法
CN114998602A (zh) 基于低置信度样本对比损失的域适应学习方法及系统
CN111310918B (zh) 一种数据处理方法、装置、计算机设备及存储介质
CN114584406B (zh) 一种联邦学习的工业大数据隐私保护系统及方法
CN116503118A (zh) 一种基于分类选择强化预测模型的废旧家电价值评估系统
CN113449919A (zh) 一种基于特征和趋势感知的用电量预测方法及系统
CN113920379B (zh) 一种基于知识辅助的零样本图像分类方法
CN115051929A (zh) 基于自监督目标感知神经网络的网络故障预测方法及装置
CN112598405B (zh) 一种基于大数据的商业项目数据管理方法及系统
CN111221915B (zh) 基于CWK-means的在线学习资源质量分析方法
CN109635008B (zh) 一种基于机器学习的设备故障检测方法
CN117011751A (zh) 使用变换器网络分割视频图像序列
CN114265954B (zh) 基于位置与结构信息的图表示学习方法
CN116432810A (zh) 交通流预测模型确定方法、设备、装置及可读存储介质
CN114004513A (zh) 一种需求预测方法、系统及存储介质
CN113096070A (zh) 一种基于MA-Unet的图像分割方法
CN113240213A (zh) 基于神经网络和树模型的人员甄选方法、装置及设备
CN109308565B (zh) 人群绩效等级识别方法、装置、存储介质及计算机设备
CN111489192A (zh) 融合ict供应链网络拓扑特征的产品份额趋势预测方法
CN117592865B (zh) 一种装备零备件质量状态预测方法及装置
CN113282705B (zh) 一种能够自动更新的案件预判智能体训练方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant