CN115018110A

CN115018110A - 一种基于XGBoost的公路阻断损失预测方法及系统

Info

Publication number: CN115018110A
Application number: CN202210026767.6A
Authority: CN
Inventors: 张家洪; 郭红烈; 李英娜; 赵振刚
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2022-09-06

Abstract

本发明公开一种基于XGBoost的公路阻断损失预测方法及系统，方法包括以下步骤：获取原始公路阻断事件数据；对所述原始公路阻断事件数据进行清洗，获得公路阻断事件数据集；对所述公路阻断事件数据集进行预处理；将预处理后的所述公路阻断事件数据集输入极限梯度提升网络XGBoost，构建公路阻断损失预测模型；利用所述公路阻断损失预测模型对公路阻断损失进行预测，获得预测结果。本发明能够对公路阻断损失进行准确预测，填补了目前对于公路阻断事件损失金额预测的空白。

Description

一种基于XGBoost的公路阻断损失预测方法及系统

技术领域

本发明涉及公路人工智能领域，特别是涉及一种基于XGBoost的公路阻断损失预测方法及系统。

背景技术

公路阻断事件是指因滑坡、泥石流、塌方、雪灾、滚石等因素导致的公路交通阻断，公路阻断事件损失的预测，可以作为公路及时抢修抢通的有力依据，同时也能为工程施工、财政预算、审计等相关工作提供重要参考。因此，对于公路阻断事件的数据挖掘和信息处理具有相当大的意义和价值。公路阻断事件损失预测作为公路事故应急管理的重要前提，有利于道路交通管理部门针对已发生的交通事件做出合理的决策，展开相应的道路疏通工作，合理配置最优保障资源，减少事故发生后可能带来的后续损失，也有助于出行者合理规划自己的行程线路，同时可以为阻断事件中造成的损失统计和后续采取抢修措施、工程施工、财务、审计等相关工作提供有力支持。

公路阻断事件损失的预测指的是在公路阻断事件数据资料的基础上对阻断事件变化规律的研究，以及阻断事件损失变化趋势的预测。目前常用的研究方法有数理统计法、回归法、时间序列法、马尔科夫链法、灰色预测法、神经网络法及其他非线性预测方法等。对于公路阻断损失的预测主要是基于事件线的逻辑因果关系，对阻断事件的文本数据资料统计、分析、数据挖掘和基于时间序列等方法进行的预测。公路阻断事件作为一种随机事件，其发生和变化受各种客观因素的影响，如：天气、地质、路况、自然灾害等，其趋势特征虽然不受人们主观因素所控制，但是却存在着客观的逻辑关系，由此可以通过历史数据对其建模研究，以达到预测其变化趋势和规律的目的。

目前直接针对公路交通阻断所造成损失金额进行预测的相关研究还比较少，但是国内外对于各种公路事件预测的研究已经取得不俗的成果，主要的研究方向为针对交通事故发生的预测、交通事故持续时间的预测、交通动态流量的预测和交通事故持续时间的预测。对相关研究文献进行归纳后,这些研究可分为三种主要的研究方法，第一：基于概率与数理统计的预测模型研究，其优点在于可以利用数据信息进行建模，数据逻辑关系明显，可解释性强，但是需要大量的统计数据，求解模型较复杂，泛化性差；第二：基于传统机器学习的预测研究，如SVM、朴素贝叶斯等，易于实现，计算复杂度较低，速度快，存储资源低，但是对数据的表达形式很敏感，需要特征独立，对缺失数据的处理困难，容易过拟合等不足；第三：基于深度学习的预测研究，其学习能力强，覆盖范围广，适应力强，可移植性好等，但是深度学习需要大量的训练数据和很高的算力，硬件要求很高，便携性差，成本很高，计算量大，模型设计复杂。

通常大量的公路阻断事件信息被记录在文本中，难以全部数值化处理，因此，现有的研究方法由于受数据类型和数据精度的影响，无论是在时效性和预测精度上还是对数据本身挖掘程度上都难以满足实际需要。

因此，亟需一种结合数据清洗、文本向量化和极限梯度提升网络的公路阻断损失预测方法。

发明内容

本发明的目的是提供一种基于XGBoost的公路阻断损失预测方法及系统，以解决上述现有技术存在的问题，使在公路阻断损失预测任务中，进行公路阻断损失预测，填补了目前对于公路阻断事件损失金额预测的空白。

为实现上述目的，本发明提供了如下方案：本发明提供一种基于XGBoost的公路阻断损失预测方法，包括以下步骤：

获取原始公路阻断事件数据；

对所述原始公路阻断事件数据进行清洗，获得公路阻断事件数据集；

对所述公路阻断事件数据集进行预处理；

将预处理后的所述公路阻断事件数据集输入极限梯度提升网络XGBoost，构建公路阻断损失预测模型；

利用所述公路阻断损失预测模型对公路阻断损失进行预测，获得预测结果。

可选地，对所述原始公路阻断事件数据进行清洗，获得所述公路阻断事件数据集包括：

整理所述原始公路阻断事件数据，统一所述原始公路阻断事件数据的格式，填补缺失值，进行一致性检查，删除重复值、无效值，获得所述公路阻断事件数据集。

可选地，所述公路阻断事件数据集包括路线编号、起点桩号和止点桩号、公路阻断发生地点、采取抢修措施、塌方处、塌方数量。

可选地，对所述公路阻断事件数据集进行预处理包括：区分所述公路阻断事件数据的类型，根据所述类型分别进行预处理，包括文本one-hot编码处理、时间信息分箱处理和数据权重赋值。

可选地，所述将预处理后的所述公路阻断事件数据集输入极限梯度提升网络XGBoost，构建公路阻断损失预测模型包括：

构建极限梯度提升网络XGBoost，设置初始化参数，其中所述参数包括最大深度、学习率、迭代次数，构建目标函数，将所述预处理后的所述公路阻断事件数据输入所述极限梯度提升网络XGBoost进行训练，获得初始公路阻断损失预测模型，对所述初始公路阻断损失预测模型进行优化，获得公路阻断损失预测模型。

可选地，所述损失预测方法还包括对所述公路阻断损失预测模型进行评价。

可选地，对所述公路阻断损失预测模型进行评价的过程中，以均方根误差RMSE平均绝对误差MAE和R²_score对所述公路阻断损失预测模型进行评价。

还提供一种基于XGBoost的公路阻断损失预测系统，包括数据获取模块、数据清洗模块、数据预处理模块和分析预测模块，

所述数据获取模块，用于获取原始公路阻断事件数据；

所述数据清洗模块，用于对所述原始公路阻断事件数据进行清洗，获得公路阻断事件数据；

所述数据预处理模块，用于对所述公路阻断事件数据进行预处理；

所述分析预测模块，用于将预处理后的所述公路阻断事件数据输入极限梯度提升网络XGBoost，构建公路阻断损失预测模型；

可选地，所述预测系统还包括评价模块，所述评价模块用于对所述公路阻断损失预测模型进行评价。

本发明公开了以下技术效果：

本发明提供的一种基于XGBoost的公路阻断损失预测方法及系统，有效地结合了数据清洗模块保证了数据可用性，清除不符合要求的数据得到可用数据集，可以节省时间并提高效率；将包括文本one-hot编码处理、时间信息分箱处理、部分数据权重赋值等多种方法用于数据预处理，以生成模型的训练集；基于XGBoost网络搭建发明的主模型，有效地提高了公路阻断损失预测的效率及准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本实施例中公路阻断损失预测方法流程示意图；

图2为基于XGBoost的模型建立流程图；

图3为不同的回归算法预测差值对比图,其中，图(a)为XGBoost算法，图(b)为SVM算法，图(c)为Linear算法；

图4为本发明预测值与真实值样例分布图,其中，图(a)为MSE最小的300个数据的分布图，图(b)为随机300个数据的分布图，图(c)为MSE最大的300个数据的分布图；

图5为本实施例中公路阻断损失预测系统结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明提供一种基于XGBoost的公路阻断损失预测方法，如图1所示，包括以下步骤：

S1、获取原始公路阻断事件数据。

本实施例中，原始公路阻断事件数据来自云南省2014-2019年的公路阻断事件原始记录数据，数据包含云南省16个地州6年中的所有阻断事件。部分阻断事件原始数据如表1所示：

表1

S2、对原始公路阻断事件数据进行清洗，获得公路阻断事件数据集。

首先整理表格数据，将所有数据格式进行统一。如表1所示，数据包含事件发生的序号、路线编号、阻断区间、阻断原因、中断时间、恢复或预计恢复交通时间、采取抢修措施、塌方处，塌方数量以及损失金额(万元)等字段。

对数据缺失情况进行初步的统计，其表现情况如表2所示。为了保证数据完整性，利用缺失数据时间点前后的平均值进行填补。然后对数据进行分析，并进行一致性检查，删除重复值、无效值；其中，表中数据栏的序号：对于模型的训练无影响暂时不考虑，直接删除。阻断原因：用于具体描述引起公路阻断事件发生的原因，该特征需要手工将数据分为雪灾、泥石流、滑坡、崩塌、滚石类型。单位：所有数值都一样，直接删除。损失金额(万元)：作为预测值。获得公路阻断事件数据。

表2

S3、对公路阻断事件数据集进行预处理。

公路阻断事件数据当中路线编号、起点桩号和止点桩号、地点、阻断原因、中断时间和恢复时间、采取抢修措施、塌方处、塌方数量等阻断数据为输入特征，损失金额(万元)：作为预测值。按照阻断数据类型的不同分别进行预处理，包括：

路线编号：如G213、S304、元勐线等，有字母、数字、汉字类别特征明显，首先将数据格式统一后做one-hot编码处理。

起点桩号和止点桩号：该特征对于本文研究预测损失金额有较大的关联性，首先该特征通过路标可以作为确定事件发生精确位置的信息，即某条路的某处，另外结合起点和止点可以计算出事故影响的路程里程数。

州市、县(乡)：标识地点，可以表示事件发生地的地理环境，先将格式统一化，如：曲靖、玉溪市、文山州等，只保留地名，去除市，州等字段，表示为曲靖、玉溪、文山，之后做one-hot处理。

中断时间和恢复时间：首先将数据格式统一化，统一为yyyy/m/dh：mm，然后采用Day of month方式做时间戳，这将产生一系列的月份数字，对应的小时信息数据(范围为0-23的整数)可以采用分箱处理。

采取抢修措施：数据中对于抢修措施的文本描述信息千差万别，但是经过整理发现大致可以分为“人工”，“机械”，“人机配合”等三大类保通措施。因此，采用赋值权重的方式来处理，可以直接赋予数值，设置警示桩：0，人工：1，机械：2，人机配合：3，缺失数据填充：2，赋值权重后此列以数值特征作为模型输入。

塌方处、塌方数量：塌方处及塌方数量描述的是事件共造成几处塌方，塌方数为多少立方米等数据。可以当做数值直接作为输入特征。

预处理后的部分数据如表3所示：

表3

S4、将预处理后的公路阻断事件数据集输入极限梯度提升网络XGBoost，构建公路阻断损失预测模型，如图2所示。

本实施例中，利用极限梯度提升网络(XGBoost)构建预测模型的过程中，不断地添加决策树，不断地进行特征分裂来生长一棵决策树，每次添加一个决策树，其实是学习一个新函数f(x)，去拟合上次预测的残差。当训练完成得到k棵树后，要预测一个样本的分数，根据这个样本的特征，在每棵树中会落到对应的一个叶子节点，每个叶子节点就对应一个分数，最后需要将每棵树对应的分数加起来就是该样本的预测值。具体包括：

S4.1、将S3所产生的数据集随机划分为训练集和测试集，将训练集作为输入，送入极限梯度提升网络(XGBoost)，XGBoost模型如式(1)所示：

其中，

为第t个损失预测值，k为决策树的棵数，F对应所有决策树的集合，f_k为第k次迭代所产生的第k个决策树，

为第t-1个损失预测值，f_t(x_i)为第t次迭代所产生的第t个决策树；

S4.2、步骤S4.1的结果损失函数L可由实测值y_i与预测值

进行表示，如式(2)所示：

其中，n为样本数量。

模型的预测精度由模型的偏差和方差共同决定，损失函数代表了模型的偏差，想要方差小则需要在目标函数中添加正则项，用于防止过拟合。所以目标函数由模型的损失函数L与抑制模型复杂度的正则项Ω组成，目标函数Obj定义为如式(3)所示：

式中，n为样本数量，

为将全部t棵树的复杂度进行求和，添加到目标函数中作为正则化项，用于防止模型过拟合。

S4.3、由于XGBoost是boosting族中的算法，所以遵从前项分步加法，以第t步的模型为例，模型对第i个样本x_i的预测值

为如式(4)所示：

其中，

是由第t-1步的模型给出的预测值，是已知常数，f_t(x_i)是这次需要加入新生成树的残差值。此时，目标函数Obj就可以写成如式(5)所示：

式中，l()为损失函数，Ω为正则项，n为样本数量，t为生成树的数量，C为常数项。

S4.4、以S4.3得出的公式，将f(x)对应的损失函数为

x对应前t-1棵树的预测值

Δx对应于正在训练的第t棵树f_t(x_i)，再根据泰勒公式展开有如式(6)所示：

将损失函数写为如式(7)所示：

其中，g_i为损失函数的一阶导，h_i为损失函数的二阶导，将上述二阶展开式带入到XGBoost的目标函数中则可以得到目标函数的近似值约为如式(8)所示：

由于在第t步时

其实是一个已知的值，所以

是一个常数，对于函数的优化不会产生影响。因此去掉全部常数项即可得到目标函数如式(9)所示：

所以只需要求出每一步损失函数的一阶导及二阶导的值，然后最优化目标函数就可以得到每一步的f(x)，最后根据加法模型得到一个整体模型，即为初始公路阻断损失预测模型。

对初始公路阻断损失预测模型进行参数微调，在使用机器学习方法时，参数调整是训练模型的重要部分。例如，对于模型惩罚参数λ和γ合适的值可以有效防止过拟合(当λ和γ太小时发生)和欠拟合(当λ和γ太大时发生)。过拟合和欠拟合都意味着模型无法准确捕获数据内在规律，影响模型准确率。模型拟合、参数调整和模型评估必须针对不同的数据进行计算。

本实施例中模型参数微调过程中5个参数被调整，每个参数设置至少4个值，其中具体每个参数的设置如表4所示。n_estimators为模型中决策树的数量，reg_lambda和min_split_loss分别表示正则化参数λ和γ。subsample表示数据子采样中使用数据的比率，最后learning_rate为学习率，获得参数调整后的公路阻断损失预测模型，

表4

采用10折交叉验证来评估参数调整后的公路阻断损失预测模型，首先把预处理后的数据集中的测试集分成10份，依次用作测试集来评估在其他9份中训练的模型，在10次模型交叉验证中获得评估度量(模型准确度)的平均值作为模型准确度的测试结果，从而获得公路阻断损失预测模型。损失金额的预测模型以均方根误差(RMSE)平均绝对误差(MAE)和R²_score对模型进行评价，具体表示如式(10)-(12)所示：

其中，

表示预测的损失金额，y_i为真实的损失金额，n为样本个数，RMSE和MAE反映了预测损失金额与真实损失金额的平均偏差，R²_score是回归模型评测中最常用的指标，R²_score的值在0～1之间，当R²_score值越趋近于1表示模型的预测效果越好相反则表示模型的预测效果越差。

S5、利用公路阻断损失预测模型对公路阻断损失进行预测，获得预测结果。

对于事故损失金额，一方面反映了事故的严重性，另一方面也反应了资源的损失。为了能够准确的预测，本次实施例通过多组实验对比预测结果展现本发明提出方法的有效性，基于2014-2019年原始事故记录数据对比了本发明方法、Linear Regression和SVMRegression三种方法的表现情况。

三组实验过程中，本实施例分别记录了实验的结果值如表5所示，为减小实验的误差和验证模型的可靠性每一个实验都进行了10折验证，对其结果进行平均值计算后记录于表5，通过表5可以看出本发明的方法表现最好，对于RMSE值本发明的方法仅0.0415相比于Linear Regression减小了0.0397，对于MAE值本发明的方法相比SVM regression减小了0.0148。对于综合评价值R²_score本发明的方法相比于Linear Regression提高了23％((0.95-0.77)/0.77)，相比于SVM regression提高了13％((0.95-0.84)/0.84)。通过三种评价指标可以看出本发明的方法在预测事故损失金额方面效果更好。

表5

本实施例对测试集的3种方法预测值和真实值进行了统计(为方便显示对差值进行四舍五入)，预测值和差值表现如图3所示，与SVM regression和Linear Regression两种方法相比，本发明的方法具有更高的准确率(偏差0)，并且在±1偏差内具有更高的预测百分比。回归模型预测了±1内93％的情况，而SVM regression模型和Linear Regression模型预测值在±1偏差内分别是87％和83％。本发明方法预测的事故损失金额更切合实际损失的金额。

为了进一步分析本发明方法的模型在预测事故金额的表现情况，我们选取了测试数据中的300个样例进行分析，分别是预测值和真实值MSE最小的300个样例和MSE最大的300个样例，另外还随机选取了300个数据样例，具体如图4(a)-图4(c)所示，从图中可以看出MSE最小的300个样例中预测值和真实值非常接近，而MSE最大的300个样例预测值和真实值之间有一定的差距，通过3个子图的表现可以发现本发明方法在真实值较大的情况下预测值与真实值之间的差距相对较大，这是因为大量事故的损失值都相对较集中较少事故损失值过大导致模型预测值有一定的误差。

本实施例中还提供一种基于XGBoost的公路阻断损失预测系统，如图5所示，包括数据获取模块、数据清洗模块、数据预处理模块和分析预测模块，

数据获取模块，用于获取原始公路阻断事件数据；

数据清洗模块，用于对原始公路阻断事件数据进行清洗，获得公路阻断事件数据；

数据预处理模块，用于对公路阻断事件数据进行预处理；

分析预测模块，用于将预处理后的公路阻断事件数据输入极限梯度提升网络XGBoost，构建公路阻断损失预测模型，利用公路阻断损失预测模型对公路阻断损失进行预测，获得预测结果。

进一步优化方案，该预测系统还包括评价模块，评价模块用于对公路阻断损失预测模型进行评价。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于XGBoost的公路阻断损失预测方法，其特征在于，包括以下步骤：

获取原始公路阻断事件数据；

对所述公路阻断事件数据集进行预处理；

2.根据权利要求1所述的基于XGBoost的公路阻断损失预测方法，其特征在于，对所述原始公路阻断事件数据进行清洗，获得所述公路阻断事件数据集包括：

3.根据权利要求1或2所述的基于XGBoost的公路阻断损失预测方法，其特征在于，所述公路阻断事件数据集包括路线编号、起点桩号和止点桩号、公路阻断发生地点、采取抢修措施、塌方处、塌方数量。

4.根据权利要求3所述的基于XGBoost的公路阻断损失预测方法，其特征在于，对所述公路阻断事件数据集进行预处理包括：区分所述公路阻断事件数据的类型，根据所述类型分别进行预处理，包括文本one-hot编码处理、时间信息分箱处理和数据权重赋值。

5.根据权利要求1或4所述的基于XGBoost的公路阻断损失预测方法，其特征在于，所述将预处理后的所述公路阻断事件数据集输入极限梯度提升网络XGBoost，构建公路阻断损失预测模型包括：

6.根据权利要求1所述的基于XGBoost的公路阻断损失预测方法，其特征在于，所述损失预测方法还包括对所述公路阻断损失预测模型进行评价。

7.根据权利要求6所述的基于XGBoost的公路阻断损失预测方法，其特征在于，对所述公路阻断损失预测模型进行评价的过程中，以均方根误差RMSE平均绝对误差MAE和R²_score对所述公路阻断损失预测模型进行评价。

8.一种基于XGBoost的公路阻断损失预测系统，其特征在于，包括数据获取模块、数据清洗模块、数据预处理模块和分析预测模块，

所述数据获取模块，用于获取原始公路阻断事件数据；

9.根据权利要求8所述的基于XGBoost的公路阻断损失预测系统，其特征在于，所述预测系统还包括评价模块，所述评价模块用于对所述公路阻断损失预测模型进行评价。