CN110807601B - 一种基于截尾数据的园区道路劣化分析方法 - Google Patents
一种基于截尾数据的园区道路劣化分析方法 Download PDFInfo
- Publication number
- CN110807601B CN110807601B CN201911097047.3A CN201911097047A CN110807601B CN 110807601 B CN110807601 B CN 110807601B CN 201911097047 A CN201911097047 A CN 201911097047A CN 110807601 B CN110807601 B CN 110807601B
- Authority
- CN
- China
- Prior art keywords
- road
- data
- influence
- factors
- factor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000015556 catabolic process Effects 0.000 title claims abstract description 43
- 238000006731 degradation reaction Methods 0.000 title claims abstract description 43
- 238000004458 analytical method Methods 0.000 title claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 47
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims abstract description 10
- 238000010276 construction Methods 0.000 claims abstract description 5
- 238000013480 data collection Methods 0.000 claims abstract description 4
- 108010014173 Factor X Proteins 0.000 claims description 16
- 230000001419 dependent effect Effects 0.000 claims description 11
- 238000003066 decision tree Methods 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 8
- 238000000556 factor analysis Methods 0.000 claims description 6
- 238000013139 quantization Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 4
- 238000003657 Likelihood-ratio test Methods 0.000 claims description 3
- 238000007476 Maximum Likelihood Methods 0.000 claims description 3
- 238000001604 Rao's score test Methods 0.000 claims description 3
- 238000001772 Wald test Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 claims description 3
- 230000001681 protective effect Effects 0.000 claims description 3
- 238000007637 random forest analysis Methods 0.000 claims description 3
- 239000004035 construction material Substances 0.000 claims description 2
- 239000000463 material Substances 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims 1
- 230000006870 function Effects 0.000 description 32
- 238000000611 regression analysis Methods 0.000 description 4
- 230000001502 supplementing effect Effects 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Educational Administration (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Traffic Control Systems (AREA)
Abstract
本申请实施例公开了一种基于截尾数据的园区道路劣化分析方法,所述方法由数据收集、数据处理、数据标准化、变量选择、模型构建、参数估计、构建道路劣化模型和结果分析八个步骤实现,在样本中添加自然环境和气候因素,以此达到在原有因素的基础上更近一步分析自然环境和气候因素对道路劣化的影响的目的;同时分析由道路评分标准范围限制造成的截尾数据,利用基于Cox回归模型的方法处理截尾数据,将这一部分不完整数据所带的信息加入到模型训练中,保证信息的完整性,避免偏差。
Description
技术领域
本发明涉及道路劣化分析领域,特别涉及一种基于截尾数据的园区道路劣化分析方法。
背景技术
道路劣化现象日益严重,在大范围内,道路劣化分析也逐渐引起了世界各地的广泛关注。针对道路劣化,目前已经有很多分析方法被提出,且为道路维护和管理的发展作出了贡献。尽管这些方法取得了值得肯定的成功,但也仍然存在两个问题。首先,现有方法没有考虑自然环境和气候因素。其次,忽略了截尾数据的存在。截尾数据的存在会导致道路劣化分析中出现预测结果与实际情况不符的情况。
近年来,许多基于机器学习算法的方法已经被用于道路劣化分析,比如人工神经网络、马尔可夫链、模糊技术和回归分析等。这些方法可以分为两种类型:确定型和随机型方法。
马尔可夫链是随机型方法中的一种主流方法。马尔可夫模型假设道路的未来状态取决于当前状态,每一个时间点的状态都可以通过固定的转移概率转移到另一个状态。因为道路状态是用1至5五个等级来评估的,所以在道路劣化分析中,过渡概率矩阵被表示为一个矩阵。过渡概率矩阵通常是由道路状态的统计数据来计算的。因此,如果已知道路目前的状态,就可以得到某一时刻的未来状态,从而预测道路的劣化趋势。尽管马尔可夫链被广泛地用于道路劣化分析,但是大多数研究只关注于将道路作为一个整体来预测其状态的转移,而不能做到分析具体的因素对道路劣化产生的影响,特别是现有的方法都没有考虑自然环境和气候因素的影响,这可能会影响在道路养护决策的准确性。此外,现有的方法假设用于构建道路劣化模型的数据不存在截尾数据,这个假设会导致实验结果出现偏差。
回归模型是确定型方法的一种主流方法,可以量化不同因素对最终结果的影响。它是一种预测建模技术,主要用于求解最佳的数学模型,从而可以根据自变量预测因变量。描述因变量与自变量之间的因果关系也是回归模型的主要目的。一般情况下,在道路劣化分析中,首先确定道路劣化的潜在决定因素,将其作为自变量输入,并以道路状况评分作为因变量。通过回归分析估计的系数值代表了各个自变量对道路劣化的影响程度。现有方法在使用回归模型进行分析时仅考虑了道路使用年限这唯一一个因素对道路劣化的影响。极少方法有考虑到包括使用年限、平均日交通量、降雨量、温度范围这些因素。但它们都忽视了自然环境因素和气候因素。此外,现有的基于回归模型的方法同样假设用于构建模型的数据不存在删失数据。
不可否认现有的方法取得了一定的成功,但总的来说还是存在这两个缺陷。1、现有方法没有考虑自然环境和气候因素。2、忽略了截尾数据的存在,特别是分数标准范围限制造成截尾数据的这种情况。
发明内容
针对现有技术所存在的问题,本发明提供了一种基于截尾数据的园区道路劣化分析方法,通过在样本中添加自然环境和气候因素,以此达到在原有因素的基础上更近一步分析自然环境和气候因素对道路劣化的影响的目的;通过分析由道路评分标准范围限制造成的截尾数据,利用基于Cox回归模型的方法处理截尾数据,将这一部分不完整数据所带的信息加入到模型训练中,保证信息的完整性,避免偏差。
本申请提供了一种基于截尾数据的园区道路劣化分析方法,包括以下步骤:
步骤一:数据收集,从园区管理部门收集到的各个区域的真实道路状况数据;
步骤二:数据处理,对原始数据中的缺失值进行补充;
步骤三:数据标准化,消除指标间的量纲效应,需要对数据进行标准化,以此解决数据指标间的可比性问题;
步骤四:变量选择,对于用于构建cox回归模型的数据,每个观察对象需要考虑k个影响因素、评分和截尾指标;影响因素变量分为两类,一个是定性变量,需要进行量化处理;
步骤五:构建模型,Cox回归不同于传统的回归分析,不能直接用道路评分作为回归方程的因变量,风险函数与基准风险函数的比值反映了协变量对道路评分的影响,从而需要构建风险函数模型;
步骤六:参数估计,Cox回归模型对h0(t)没有任何假设,对于两个个体,其危险比与h0(t)无关,即使在h0(t)未知的情况下,我们仍然可以进行参数估计;
步骤七:通过模型训练,得到道路劣化模型;
步骤八:结果分析。
进一步地,步骤一中所述的真实道路状况数据为基础数据,所述基础数据是每条道路所有相关信息的样本,此外,设置一个指标变量c来定义截尾状态,如果道路评分小于100分,则c=1,否则c=0。
进一步地,步骤二中所述对原始数据中的缺失值进行补充的具体方法为:
采用随机森林对原始数据进行插补缺失值的处理;从完整的数据中提取k个子样本集,为每个子样本集建立cart决策树模型,得到k个决策树模型{y1(X),y2(X),...yk(X)},然后对每个决策树模型进行投票;函数如公式(1)所示:
然后,通过与道路工程专家的讨论,对相似属性和属性值进行合并,剔除不合理的属性值;为了便于计算机处理,我们对数据进行实数编码。
进一步地,步骤三中所述对数据进行标准化的具体方法为:
对属性值为数值的属性进行标准化;我们使用的标准化方法是线性归一化,转换函数如公式(2)所示:
x′=x-min(x)/max(x)-min(x)(2)。
进一步地,步骤四中所述变量选择的具体方法为:
由于影响因素变量分为两类,其中定性变量需要进行量化处理,采用实数编码来实现量化;而定量变量,需要标准化转换处理,采用线性归一化进行标准化处理;评分是一个连续的数字变量;截尾指标有两种状态,“1”表示评分符合道路实际情况,“0”表示截尾,即评分不符合道路实际情况,道路实际情况的评分高于100;
Cox回归以两个变量为因变量;一个是分类变,另一个是连续变量;事件结局和道路评分被视为因变量;指示变量c被用来表示事件结局,如果道路评分小于100,则c=1,否则c=0;此指示变量c还标识了数据是否是截尾数据;道路评分定义为t.对于给定的个体i,我们将其评分标记为ti;
为了分析影响因素对道路评分的影响,将各影响因素作为为自变量;假设评分的影响因素的数量是k,所有的因素可以分别定义为X1、X2、X3、……Xk,协变向量形式记为X=(X1 X2 …… Xk);为防止自变量过多而造成数据溢出,先做单因素分析,剔除无显著性影响的因素,再对剩下的因素做多因素分析。
进一步地,步骤五中所述模型构建具体方法为:
风险函数定义为h(t),它表示道路获得了符合实际情况的合适分数的概率;为公式(3):
同时,基准风险函数可以定义为h0(t);它表示没有任何协变量影响的道路风险函数的形式;h0(t)可以是与t有关的任何函数,cox回归模型中没有对它的任何假设;
假设基于影响因素X=(X1 X2 …… Xk)的道路风险函数用hi(t,X)表示,根据比例风险和对数线性假设,用于道路劣化分析的cox回归模型定义为公式(4):
hi(t,X)=h0(t)exp(β1xi1+β2xi2+…+βkxik) (4)
其中,当X=(00……0)时,h0(t)等同于hi(t,X);exp(βkXik)表示X对风险的影响程度,这个影响度使风险从h0(t)增至h0(t)exp(βk Xik);exp(βk Xik)可以被视为一个比例常数;所以公式(4)也被称为比例风险函数;βk是基于样本的估计值来描述各种因素对风险的影响的参数;当βk=0时,因素Xk对风险无影响;当βk>0时,因素Xk会增加风险,是危险因素;当βk<0时,因素Xk可以减少风险,成为保护因素;则公式(4)也可以被转换成公式(5):
等式的左边是相对风险率的自然对数,右边是协变量和对应回归系数的线性函数。
进一步地,步骤六中所述参数估计的具体方法为:
Cox回归模型对h0(t)没有任何假设;对于两个个体,其危险比与h0(t)无关;我们可以发现,在以下表达式(6)中,h0(t)可以被消去;
即使在h0(t)未知的情况下,仍然可以进行参数估计;风险比仅仅依赖于回归系数β;在学习模型时,定义了偏似然函数;截尾指示变量δj用于标识截尾数据,如果道路数据是截尾数据,则δj等于0,否则δj为1;另外,设置R(t)来表示评分t的危险集;在假设有m个事件的情况下,将相应的条件偏似然函数定义为公式(7):
把公式(7)写成log似然函数,如下所示:
采用数值方法比如迭代算法来推导出公式(8),从而得到参数β的最大似然估计值及其标准误差,然后进行似然比检验、得分检验或Wald检验,以确定各协变量是否统计学意义;根据β值可以判断这些因素是道路劣化的危险因素还是保护因素。
进一步地,步骤七中所述模型训练,得到道路劣化模型的具体方法为:
h(t,X)=h0(t)exp(-1.323e+00X1+-1.528e+00X2+…+2.407e-01X16) (9)
根据表达式(9)来估计协变量是危险因素还是保护因素。同时也可以看出协变量对道路评分的影响程度;由于协变量对道路评分的影响反映在风险函数与基准风险函数的比值上,变量单位变化引起的风险比变化;风险越高,道路评分低的概率越高,反之亦然。
进一步地,步骤八中所述结果分析的具体方法为:
进一步地,通过对实验结果的观察,得出的结果;根据对道路评分的影响,选取因素分为危险因素、保护因素和无显著影响因素三类。
本申请的有益效果:在样本中添加自然环境和气候因素,以此达到在原有因素的基础上更近一步分析自然环境和气候因素对道路劣化的影响的目的。分析由道路评分标准范围限制造成的截尾数据,利用基于Cox回归模型的方法处理截尾数据,将这一部分不完整数据所带的信息加入到模型训练中,保证信息的完整性,避免偏差。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一种基于截尾数据的园区道路劣化分析方法的流程图。
具体实施方式
参见图1,为本申请一种基于截尾数据的园区道路劣化分析方法的流程图;
本申请实施例提供了一种基于截尾数据的园区道路劣化分析方法,包括以下步骤:
步骤一:数据收集,从园区管理部门收集到的各个区域的真实道路状况数据;
步骤二:数据处理,对原始数据中的缺失值进行补充;
步骤三:数据标准化,消除指标间的量纲效应,需要对数据进行标准化,以此解决数据指标间的可比性问题;
步骤四:变量选择,对于用于构建cox回归模型的数据,每个观察对象需要考虑k个影响因素、评分和截尾指标;影响因素变量分为两类,一个是定性变量,需要进行量化处理;
步骤五:构建模型,Cox回归不同于传统的回归分析,不能直接用道路评分作为回归方程的因变量,风险函数与基准风险函数的比值反映了协变量对道路评分的影响,从而需要构建风险函数模型;
步骤六:参数估计,Cox回归模型对h0(t)没有任何假设,对于两个个体,其危险比与h0(t)无关,即使在h0(t)未知的情况下,我们仍然可以进行参数估计;
步骤七:通过模型训练,得到道路劣化模型;
步骤八:结果分析。
进一步地,步骤一中所述的真实道路状况数据为基础数据,所述基础数据是每条道路所有相关信息的样本,每个样本包括12个属性,有路面铺装材料、建成年限、路面总宽、道路类型、构造-形式、构造-材料、伸缩缝类型、年平均降雨量、最冷月平均最低气温、最热月平均最高气温,雨天天数和雪天天数,此外,设置一个指标变量c来定义截尾状态,如果道路评分小于100分,则c=1,否则c=0。
进一步地,步骤二中所述对原始数据中的缺失值进行补充的具体方法为:
采用随机森林对原始数据进行插补缺失值的处理;从完整的数据中提取k个子样本集,为每个子样本集建立cart决策树模型,得到k个决策树模型{y1(X),y2(X),...yk(X)},然后对每个决策树模型进行投票;函数如公式(1)所示:
然后,通过与道路工程专家的讨论,对相似属性和属性值进行合并,剔除不合理的属性值;为了便于计算机处理,我们对数据进行实数编码。例如,在“道路类型”属性值中,“超大路”编码为1,“大路”编码为2,“中路”编码为3,“小路”编码为4。
进一步地,步骤三中所述对数据进行标准化的具体方法为:
对属性值为数值的属性进行标准化;我们使用的标准化方法是线性归一化,转换函数如公式(2)所示:
x′=x-min(x)/max(x)-min(x) (2)。
经过处理后,数据格式如表2所示:
表2数据格式
进一步地,步骤四中所述变量选择的具体方法为:
由于影响因素变量分为两类,其中定性变量需要进行量化处理,采用实数编码来实现量化;而定量变量,需要标准化转换处理,采用线性归一化进行标准化处理;本例考虑的12个影响因素中,有6个是分类变量,6个是定量变量。评分是一个连续的数字变量;截尾指标有两种状态,“1”表示评分符合道路实际情况,“0”表示截尾,即评分不符合道路实际情况,道路实际情况的评分高于100;
Cox回归以两个变量为因变量;一个是分类变,另一个是连续变量;事件结局和道路评分被视为因变量;指示变量c被用来表示事件结局,如果道路评分小于100,则c=1,否则c=0;此指示变量c还标识了数据是否是截尾数据;道路评分定义为t.对于给定的个体i,我们将其评分标记为ti;
为了分析影响因素对道路评分的影响,将各影响因素作为为自变量;假设评分的影响因素的数量是k,所有的因素可以分别定义为X1、X2、X3、……Xk,协变向量形式记为X=(X1 X2 …… Xk);为防止自变量过多而造成数据溢出,先做单因素分析,剔除无显著性影响的因素,再对剩下的因素做多因素分析。
进一步地,步骤五中所述模型构建具体方法为:
风险函数定义为h(t),它表示道路获得了符合实际情况的合适分数的概率;为公式(3):
同时,基准风险函数可以定义为h0(t);它表示没有任何协变量影响的道路风险函数的形式;h0(t)可以是与t有关的任何函数,cox回归模型中没有对它的任何假设;
假设基于影响因素X=(X1 X2 …… Xk)的道路风险函数用hi(t,X)表示,根据比例风险和对数线性假设,用于道路劣化分析的cox回归模型定义为公式(4):
hi(t,X)=h0(t)exp(β1xi1+β2xi2+…+βkxik) (4)
其中,当X=(00……0)时,h0(t)等同于hi(t,X);exp(βkXik)表示X对风险的影响程度,这个影响度使风险从h0(t)增至h0(t)exp(βk Xik);exp(βk Xik)可以被视为一个比例常数;所以公式(4)也被称为比例风险函数;βk是基于样本的估计值来描述各种因素对风险的影响的参数;当βk=0时,因素Xk对风险无影响;当βk>0时,因素Xk会增加风险,是危险因素;当βk<0时,因素Xk可以减少风险,成为保护因素;则公式(4)也可以被转换成公式(5):
等式的左边是相对风险率的自然对数,右边是协变量和对应回归系数的线性函数。
进一步地,步骤六中所述参数估计的具体方法为:
Cox回归模型对h0(t)没有任何假设;对于两个个体,其危险比与h0(t)无关;我们可以发现,在以下表达式(6)中,h0(t)可以被消去;
即使在h0(t)未知的情况下,仍然可以进行参数估计;风险比仅仅依赖于回归系数β;在学习模型时,定义了偏似然函数;截尾指示变量δj用于标识截尾数据,如果道路数据是截尾数据,则δj等于0,否则δj为1;另外,设置R(t)来表示评分t的危险集;在假设有m个事件的情况下,将相应的条件偏似然函数定义为公式(7):
把公式(7)写成log似然函数,如下所示:
采用数值方法比如迭代算法来推导出公式(8),从而得到参数β的最大似然估计值及其标准误差,然后进行似然比检验、得分检验或Wald检验,以确定各协变量是否统计学意义;根据β值可以判断这些因素是道路劣化的危险因素还是保护因素。
进一步地,步骤七中所述模型训练,得到道路劣化模型的具体方法为:表3展示了参数估计的结果,最后一列的星级表示因素的显著性影响,星越多显著性越大。
表3参数估计结果
通过模型训练,得到道路劣化模型:
h(t,X)=h0(t)exp(-1.323e+00X1+-1.528e+00X2+…+2.407e-01X16) (9)
根据表达式(9)来估计协变量是危险因素还是保护因素。同时也可以看出协变量对道路评分的影响程度;由于协变量对道路评分的影响反映在风险函数与基准风险函数的比值上,变量单位变化引起的风险比变化;风险越高,道路评分低的概率越高,反之亦然。
进一步地,步骤八中所述结果分析的具体方法为:
进一步地,通过对实验结果的观察,得出的结果;根据对道路评分的影响,选取因素分为危险因素、保护因素和无显著影响因素三类。
本申请在样本中添加自然环境和气候因素,以此达到在原有因素的基础上更近一步分析自然环境和气候因素对道路劣化的影响的目的。分析由道路评分标准范围限制造成的截尾数据,利用基于Cox回归模型的方法处理截尾数据,将这一部分不完整数据所带的信息加入到模型训练中,保证信息的完整性,避免偏差。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (1)
1.一种基于截尾数据的园区道路劣化分析方法,其特征在于,包括以下步骤:
步骤一:数据收集,从园区管理部门收集各个区域的真实道路状况数据;其中,真实道路状况数据为每条道路所有相关信息的样本,每个样本包括以下属性:路面铺装材料、建成年限、路面总宽、道路类型、构造形式、构造材料、伸缩缝类型、年平均降雨量、最冷月平均最低气温、最热月平均最高气温、雨天天数和雪天天数;
步骤二:数据处理,采用随机森林对原始的真实道路状况进行插补缺失值的处理,包括:从完整的真实道路状况数据中提取k个子样本集,为每个子样本集建立cart决策树模型,得到k个cart决策树模型{y1(X),y2(X),…yk(X)},对每个决策树模型进行投票,函数如公式(1)所示:
对相似属性和属性值进行合并,剔除不合理的属性值,并对数据进行实数编码;
步骤三:数据标准化,消除指标间的量纲效应,对属性值为数值的属性进行标准化;其中,标准化方法为线性归一化,转换函数如公式(2)所示:
X‘=X-min(X)/max(X)-min(X) (2);
步骤四:变量选择,对于标准化后的真实道路状况数据,定义k个影响因素以及评分与截尾指标;其中,影响因素分为两类,一个是定性影响因素,进行量化处理,采用实数编码实现量化,二是定量影响因素,进行标准化转换处理;评分是一个连续的数字变量;截尾指标包括两种状态,以指示变量c标识数据是否为截尾数据,“c=1”表示评分符合道路实际情况,“c=0”表示截尾,即评分不符合道路实际情况;
Cox回归模型以两个变量为因变量,分别为事件结局和道路评分;事件结局通过指示变量c表示,如果道路评分小于100,则c=1,否则c=0;道路评分定义为t,对于给定的个体i,将其道路评分标记为ti;
将各影响因素作为自变量,假设道路评分的影响因素的数量是n,所有的影响因素可以分别定义为X1、X2、X3、…Xj…Xn,影响因素X的协变向量形式记为X=(X1 X2…Xj…Xn),进行单因素分析,剔除无显著性影响的影响因素,再对剩下的影响因素做多因素分析;
步骤五:构建模型,以风险函数与基准风险函数的比值反映影响因素X对道路评分的影响,将风险函数定义为h(t),表示道路获得符合实际情况的合适分数的概率;计算方式为公式(3):
将基准风险函数定义为h0(t);表示没有任何协变量影响的道路风险函数;h0(t)的函数形式是与t有关的任何函数;
基于影响因素X=(X1 X2…Xj…Xn)的道路风险函数用hi(t,X)表示,根据比例风险和对数线性假设,用于道路劣化分析的cox回归模型定义为公式(4):
hi(t,X)=h0(t)exp(β1Xi1+β2Xi2+…+βjXij) (4)
其中,当X=(0 0…0…0)时,h0(t)等同于hi(t,X);exp(βjXij)为一个比例常数,表示影响因素Xj对道路评分的影响程度;βj是描述影响因素Xj对道路评分的影响的参数;当βj=0时,表示影响因素Xj对道路评分无影响;当βj>0时,表示影响因素Xj会增加对道路评分的影响,影响因素Xj是危险因素;当βj<0时,表示影响因素Xj会减少对道路评分的影响,影响因素Xj是保护因素;
步骤六:参数估计,设置R(t)来表示道路评分t的危险集,在假设有m个事件的情况下,将相应的条件偏似然函数Lp(β)定义为公式(5);其中,截尾指示变量δj用于标识截尾数据,如果道路数据是截尾数据,则δj等于0,否则δj为1;
将公式(5)写成log似然函数,如公式(6)所示:
再采用迭代算法来推导得到参数β的最大似然估计值及其标准误差,然后进行似然比检验、得分检验或Wald检验,根据β值判断影响因素X是道路劣化的危险因素还是保护因素;
步骤七:通过模型训练,得到道路劣化模型,如公式(7):
h(t,X)=h0(t)exp(-1.323e+00X1+-1.528e+00X2+…+2.407e-01X16) (7)
根据公式(7)来估计协变量是危险因素还是保护因素;
步骤八:结果分析,根据对道路评分的影响,将影响因素X分为危险因素、保护因素和无显著影响因素三类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911097047.3A CN110807601B (zh) | 2019-11-11 | 2019-11-11 | 一种基于截尾数据的园区道路劣化分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911097047.3A CN110807601B (zh) | 2019-11-11 | 2019-11-11 | 一种基于截尾数据的园区道路劣化分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110807601A CN110807601A (zh) | 2020-02-18 |
CN110807601B true CN110807601B (zh) | 2023-11-07 |
Family
ID=69502012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911097047.3A Active CN110807601B (zh) | 2019-11-11 | 2019-11-11 | 一种基于截尾数据的园区道路劣化分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110807601B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113345525B (zh) * | 2021-06-03 | 2022-08-09 | 谱天(天津)生物科技有限公司 | 一种用于高通量检测中减少协变量对检测结果影响的分析方法 |
CN113554070B (zh) * | 2021-07-07 | 2022-03-25 | 石家庄铁道大学 | 基于过渡概率矩阵和轻量级网络的轴承故障诊断方法 |
CN116362059B (zh) * | 2023-05-30 | 2023-08-01 | 交通运输部公路科学研究所 | 一种道路土层性能劣化评估方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631578A (zh) * | 2015-12-10 | 2016-06-01 | 浙江大学 | 一种面向风险评估的输变电设备故障概率模型的建模方法 |
CN108052770A (zh) * | 2017-12-28 | 2018-05-18 | 大连理工大学 | 一种考虑时变效应的大跨桥梁主梁性能预警方法 |
CN109063418A (zh) * | 2018-07-19 | 2018-12-21 | 东软集团股份有限公司 | 疾病预测分类器的确定方法、装置、设备及可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8712726B2 (en) * | 2010-12-01 | 2014-04-29 | Xerox Corporation | System and method for predicting remaining useful life of device components |
-
2019
- 2019-11-11 CN CN201911097047.3A patent/CN110807601B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105631578A (zh) * | 2015-12-10 | 2016-06-01 | 浙江大学 | 一种面向风险评估的输变电设备故障概率模型的建模方法 |
CN108052770A (zh) * | 2017-12-28 | 2018-05-18 | 大连理工大学 | 一种考虑时变效应的大跨桥梁主梁性能预警方法 |
CN109063418A (zh) * | 2018-07-19 | 2018-12-21 | 东软集团股份有限公司 | 疾病预测分类器的确定方法、装置、设备及可读存储介质 |
Non-Patent Citations (2)
Title |
---|
颜毅等.山东农业大学学报(自然科学版)/基于安全监测数据的桥梁结构劣化状态反演评估.2019,第50卷(第50期),全文. * |
马伟中等.道路工程/基于回归分析法的甘肃省河西地区高速公路沥青路面使用性能预测.2019,第15卷(第2期),第12-15页. * |
Also Published As
Publication number | Publication date |
---|---|
CN110807601A (zh) | 2020-02-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110807601B (zh) | 一种基于截尾数据的园区道路劣化分析方法 | |
CN109523018B (zh) | 一种基于深度迁移学习的图片分类方法 | |
CN110648014B (zh) | 一种基于时空分位数回归的区域风电预测方法及系统 | |
CN108459955B (zh) | 基于深度自编码网络的软件缺陷预测方法 | |
CN112784092A (zh) | 一种混合融合模型的跨模态图像文本检索方法 | |
CN110288137B (zh) | 路网级道路基础设施结构综合养护决策方法及系统 | |
CN114015825B (zh) | 基于注意力机制的高炉热负荷异常状态监测方法 | |
JP2004157814A (ja) | 決定木生成方法およびモデル構造生成装置 | |
CN112668822A (zh) | 科技成果转化平台共享系统、方法、存储介质、手机app | |
CN113822488A (zh) | 融资租赁的风险预测方法、装置、计算机设备及存储介质 | |
CN114139624A (zh) | 一种基于集成模型挖掘时间序列数据相似性信息的方法 | |
CN116432810A (zh) | 交通流预测模型确定方法、设备、装置及可读存储介质 | |
CN114971009A (zh) | 一种车险出险预测方法及计算机设备 | |
CN108629381A (zh) | 基于大数据的人群筛选方法及终端设备 | |
CN113128769A (zh) | 基于深度学习的智能航班延误预测方法 | |
CN111738610A (zh) | 一种基于舆情数据的企业流失性风险预警系统和方法 | |
CN114943290B (zh) | 一种基于多源数据融合分析的生物入侵识别方法 | |
CN115293827A (zh) | 一种助力企业精细化运营的模型可解释性分析新方法 | |
CN115759095A (zh) | 一种烟草病虫害的命名实体识别方法及其装置 | |
CN113240213B (zh) | 基于神经网络和树模型的人员甄选方法、装置及设备 | |
KR102543211B1 (ko) | 비정형 기업 데이터를 이용한 기업성장 예측 시스템 | |
CN114862092A (zh) | 一种基于神经网络的评标方法及设备 | |
CN113627997A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN110083637B (zh) | 一种面向桥梁病害评级数据的去噪方法 | |
CN113361652A (zh) | 一种面向个体收入预测的去偏方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |