CN111144485B

CN111144485B - 基于xgboost分类算法的车辆事故判断方法和系统

Info

Publication number: CN111144485B
Application number: CN201911371212.XA
Authority: CN
Inventors: 黄智勇; 张云朋; 郭蕊晶; 蔡抒扬; 张志平; 胡道生; 夏曙东
Original assignee: Beijing Sinoiov Vehicle Network Technology Co ltd
Current assignee: Beijing Sinoiov Vehicle Network Technology Co ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2023-07-21
Anticipated expiration: 2039-12-26
Also published as: CN111144485A

Abstract

本申请公开了一种基于xgboost分类算法的车辆事故判断方法和系统，包括：采集第一时间段内的车辆事故数据和第二时间段内的车辆数据，进行预处理得到停靠数据；根据车辆事故数据和停靠数据确定训练集和测试集；对各样本进行特征创建和处理，得到特征因子和衍生因子；输入训练集中的特征因子和衍生因子至待训练的xgboost分类模型，使用AUC评估方法和网格搜索算法进行训练，得到分类模型；输入测试集中的特征因子和衍生因子至分类模型，得到事故概率，使用AUC评估方法对分类模型进行优化得到判断模型；使用判断模型实时计算车辆事故概率。通过使用xgboost分类模型、AUC评估方法和网格搜索算法进行训练和优化，能够实时对车辆的事故进行高准确度的判断。

Description

基于xgboost分类算法的车辆事故判断方法和系统

技术领域

本申请涉及数据分析领域，尤其涉及一种基于xgboost分类算法的车辆事故判断方法和系统。

背景技术

随着我国道路交通事业的飞速发展，交通事故猛增已成为当今备受关注的严重交通问题之一。交通事故通常还会引发道路损坏、堵车以及人生伤害等危险情况，因此，为了保证经济发展和社会稳定，保障人们出行安全和货物运输安全，以及在车辆出现事故时能够及时进行跟踪、监控、紧急情况的帮助和后续的技术服务与支援，需要提供一种能够实时对车辆事故进行准确判断的方法和系统。

发明内容

为解决以上问题，本申请提出了一种基于xgboost分类算法的车辆事故判断方法和系统。

一方面，本申请提出一种基于xgboost分类算法的车辆事故判断方法，包括：

采集第一时间段内的车辆事故数据和第二时间段内的车辆数据，进行预处理，得到停靠数据；

根据所述车辆事故数据和所述停靠数据，确定样本集，得到训练集和测试集；

对所述样本集中的各样本进行特征创建和处理，得到每个样本的特征因子和衍生因子；

输入训练集中各样本对应的特征因子和衍生因子至待训练的xgboost分类模型，使用AUC评估方法和网格搜索算法进行训练，得到训练好的分类模型；

输入测试集中各样本对应的特征因子和衍生因子至所述分类模型，得到各样本对应的事故概率，使用AUC评估方法根据得到的事故概率对分类模型进行优化，得到判断模型；

使用所述判断模型实时计算车辆事故概率。

优选地，所述采集第一时间段内的车辆事故数据和第二时间段内的车辆数据，进行预处理，得到停靠数据，包括：

采集第一时间段内的车辆事故数据和第二时间段内的车辆数据；

对所述车辆数据中的第一轨迹点数据进行过滤和修正，得到第二轨迹点数据；

根据所述第二轨迹点数据确定所有停靠时长大于判断时长的车辆及其停靠位置，得到停靠数据。

优选地，所述根据所述车辆事故数据和所述停靠数据，确定样本集，得到训练集和测试集，包括：

根据所述车辆事故数据，确定所述停靠数据中发生事故的停靠数据，得到正样本，将所述停靠数据中未发生事故的停靠数据作为负样本；

根据所述正样本和负样本，确定样本集，分割所述样本集，得到训练集和测试集。

优选地，所述对所述样本集中的各样本进行特征创建和处理，得到每个样本的特征因子和衍生因子，包括：

对各样本中的所述停靠数据及其对应的第二轨迹点数据和车辆数据进行特征创建，得到每个样本的多个特征因子；

对每个所述样本中的特征因子进行处理，得到每个所述样本的待处理衍生因子；

保留相关性低的待处理衍生因子，得到每个样本的衍生因子。

优选地，所述输入训练集中各样本对应的特征因子和衍生因子至待训练的xgboost分类模型，使用AUC评估方法和网格搜索算法进行训练，得到训练好的分类模型，包括：

输入训练集中各样本对应的特征因子和衍生因子至待训练的xgboost分类模型，得到每个样本的事故概率；

根据所述事故概率以及其对应的正样本或负样本，使用AUC评估方法确定所述分类模型的第一评估值；

根据所述第一评估值，使用网格搜索算法调整所述分类模型的参数，继续训练，直至得到的所述第一评估值超过评估阈值，得到训练好的分类模型。

优选地，所述输入测试集中各样本对应的特征因子和衍生因子至所述分类模型，得到各样本对应的事故概率，使用AUC评估方法根据得到的事故概率对分类模型进行优化，得到判断模型，包括：

输入测试集中各样本对应的特征因子和衍生因子至所述分类模型，输出各样本对应的事故概率；

根据所述事故概率以及其对应的正样本或负样本，使用AUC评估方法确定所述分类模型的第二评估值；

若所述第二评估值在所述第一评估值的评估阈值范围内，则输出所述分类模型，若所述第二评估值不在所述第一评估值的评估阈值内，则对所述特征因子和第一衍生因子进行优化和训练，得到判断模型。

优选地，所述使用所述判断模型实时计算车辆事故概率，包括：

实时获取停靠时长大于判断时长的车辆的停靠数据，并使用所述判断模型进行实时处理，得到对应各车辆的所述停靠数据的实时事故概率。

优选地，在所述使用所述判断模型实时计算车辆事故概率之后，还包括：

根据第三时间段内的所述实时事故概率及其对应的事故数据，确定误差；

根据所述误差对所述判断模型进行优化。

优选地，所述第二时间段包括所述第一时间段和在第一时间段之前的时间段。

第二方面，本申请提出一种基于xgboost分类算法的车辆事故判断系统，包括：

预处理模块，用于采集第一时间段内的车辆事故数据和第二时间段内的车辆数据，进行预处理，得到停靠数据，根据所述车辆事故数据和所述停靠数据，确定样本集，得到训练集和测试集，对所述样本集中的各样本进行特征创建和处理，得到每个样本的特征因子和衍生因子；

训练模块，用于输入训练集中各样本对应的特征因子和衍生因子至待训练的xgboost分类模型，使用AUC评估方法和网格搜索算法进行训练，得到训练好的分类模型；

测试模块，用于输入测试集中各样本对应的特征因子和衍生因子至所述分类模型，得到各样本对应的事故概率，使用AUC评估方法根据得到的事故概率对分类模型进行优化，得到判断模型；

判断模块，用于使用所述判断模型实时计算车辆事故概率。

本申请的优点在于：通过采集第一时间段内的车辆事故数据和第二时间段内的车辆数据，确定样本集，并获取每个样本的特征因子和衍生因子，使用xgboost分类模型、AUC评估方法和网格搜索算法进行训练和优化，能够得到对车辆在实时事故的判断具有很高准确的性判断模型，从而实时对车辆的事故进行高准确度的判断。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选事实方案的目的，而并不认为是对本申请的限制。而且在整个附图中，用同样的参考符号表示相同的部件。在附图中：

图1是本申请提供的一种基于xgboost分类算法的车辆事故判断方法的步骤示意图；

图2是本申请提供的一种基于xgboost分类算法的车辆事故判断方法的流程示意图；

图3是本申请提供的一种基于xgboost分类算法的车辆事故判断系统的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

根据本申请的实施方式，提出一种基于xgboost分类算法的车辆事故判断方法，如图1所示，包括：

S101，采集第一时间段内的车辆事故数据和第二时间段内的车辆数据，进行预处理，得到停靠数据；

S102，根据车辆事故数据和停靠数据，确定样本集，得到训练集和测试集；

S103，对样本集中的各样本进行特征创建和处理，得到每个样本的特征因子和衍生因子；

S104，输入训练集中各样本对应的特征因子和衍生因子至待训练的xgboost分类模型，使用AUC评估方法和网格搜索算法进行训练，得到训练好的分类模型；

S105，输入测试集中各样本对应的特征因子和衍生因子至分类模型，得到各样本对应的事故概率，使用曲线下面积(Area under the Curve，AUC)评估方法根据得到的事故概率对分类模型进行优化，得到判断模型；

S106，使用判断模型实时计算车辆事故概率。

采集第一时间段内的车辆事故数据和第二时间段内的车辆数据，进行预处理，得到停靠数据，包括：

对车辆数据中的第一轨迹点数据进行过滤和修正，得到第二轨迹点数据；

根据第二轨迹点数据确定所有停靠时长大于判断时长的车辆及其停靠位置，得到停靠数据。

根据车辆事故数据和停靠数据，确定样本集，得到训练集和测试集，包括：

根据车辆事故数据，确定停靠数据中发生事故的停靠数据，得到正样本，将停靠数据中未发生事故的停靠数据作为负样本；

根据正样本和负样本，确定样本集，分割样本集，得到训练集和测试集。

对样本集中的各样本进行特征创建和处理，得到每个样本的特征因子和衍生因子，包括：

对各样本中的停靠数据及其对应的第二轨迹点数据和车辆数据进行特征创建，得到每个样本的多个特征因子；

对每个样本中的特征因子进行处理，得到每个样本的待处理衍生因子；

输入训练集中各样本对应的特征因子和衍生因子至待训练的xgboost分类模型，使用AUC评估方法和网格搜索算法进行训练，得到训练好的分类模型，包括：

根据事故概率以及其对应的正样本或负样本，使用AUC评估方法确定分类模型的第一评估值；

根据第一评估值，使用网格搜索算法调整分类模型的参数，继续训练，直至得到的第一评估值超过评估阈值，得到训练好的分类模型。

输入测试集中各样本对应的特征因子和衍生因子至分类模型，得到各样本对应的事故概率，使用AUC评估方法根据得到的事故概率对分类模型进行优化，得到判断模型，包括：

输入测试集中各样本对应的特征因子和衍生因子至分类模型，输出各样本对应的事故概率；

根据事故概率以及其对应的正样本或负样本，使用AUC评估方法确定分类模型的第二评估值；

若第二评估值在第一评估值的评估阈值范围内，则输出分类模型，若第二评估值不在第一评估值的评估阈值内，则对特征因子和第一衍生因子进行优化和训练，得到判断模型。

使用判断模型实时计算车辆事故概率，包括：

实时获取停靠时长大于判断时长的车辆的停靠数据，并使用判断模型进行实时处理，得到对应各车辆的停靠数据的实时事故概率。

在使用判断模型实时计算车辆事故概率之后，还包括：

根据第三时间段内的实时事故概率及其对应的事故数据，确定误差；

根据误差对判断模型进行优化。

第二时间段包括第一时间段和在第一时间段之前的时间段。

对车辆数据中的第一轨迹点数据进行过滤和修正，对于错误的位置轨迹点数据进行过滤、如速度错误、经纬度错误等；利用傅里叶滤波技术对偏移的经纬度进行修正，得到第二轨迹点数据。

第一评估值的评估阈值范围为第一评估值的浮动范围，可以进行设定。

特征因子，优选地，包括五类：第一类，终端信号，刹车、信号灯等；第二类，制动时相关因子；第三类，周围路口情况；第四类，周围历史停靠情况及堵车判断；第五类，道路信息。每个样本都包括上述的五类因子。可以使用数组或表的形式，为每个样本配置一个或多个表，表中包括各因子的对应数据，若表中对应具体因子的位置有对应数据，则此位置保存对应数据的具体数值，没有对应数据，则为空。

利用离散化、二元化、标准化等方法处理特征因子，得到多个待处理衍生因子。

待处理衍生因子可以是多个，由于对不同的特征因子进行衍生时，可能会出现具有相同条件的判断或者相同条件较多的判断，所以需要对待处理衍生因子的特征进行选择，对待处理因子中的特征进行相关性分析，结合业务删除相关性较高的待处理衍生因子，得到衍生因子。

衍生因子可以是多个。

下面，对本申请实施例进行进一步说明。

以重载货车为例，首先进行数据采集，采集2019年4月份(第一时间段)重载货车事故案例数据(车辆事故数据)，案例数据需要具备事故车辆车牌号、事故发生时间、事故发生地点的经纬度信息。

采集2019年3-4月份(第二时间段)所有重载货车的车辆数据，包括具备车辆车牌号、轨迹发生时间、轨迹经纬度、速度、行驶方向、左/右转向灯开启信号、陀螺仪碰撞/侧翻信号等信息的位置轨迹点数据。

对车辆数据进行预处理。首先，清洗(过滤和修正)位置轨迹点数据，对于错误的位置轨迹点数据进行过滤、如速度错误、经纬度错误等；利用傅里叶滤波技术对偏移的经纬度进行修正，得到第二轨迹点数据。其中，被清洗的数据为第一轨迹点数据。

根据第二轨迹点数据确定停靠数据。利用2019年3-4月份位置轨迹点数据，计算出所有货车大于判断时长的停靠点(位置)及停靠时长，得到停靠数据。判断时长，优选地，可以为30分钟。

根据车辆事故数据和停靠数据确定样本数据。将2019年4月份的停靠点与事故案例数据相关联，关联上的停靠数据作为模型正样本，否则作为模型负样本。2019年4月份发生事故的停靠点为正样本，未发生事故的停靠点为负样本，得到包括正样本和负样本的样本集。

按照正负样本1:1的比例，随机抽取10000条样本，再按照7:3的比例分割样本集，得到训练集和测试集。

利用位置轨迹点数据停靠数据，为每一条样本创建建模所需特征因子。

特征因子包括五类：第一类，终端信号，刹车、信号灯等；第二类，制动时相关因子；第三类，周围路口情况；第四类，周围历史停靠情况及堵车判断；第五类，道路信息。利用离散化、二元化、标准化等方法对特征因子进行特征衍生，得到多个待处理衍生因子。对待处理衍生因子的特征进行相关性分析，结合业务理解删除相关性较高的待处理衍生因子，得到衍生因子。

以使用python为例，利用第三方数据挖掘库xgboost分类算法，输入训练集训练模型，得到每个样本的事故概率，使用AUC评估方法确定分类模型的第一评估值(第一曲线下面积)。利用sklearn中grid_search方法搜索模型最佳参数，最后以得到最高AUC或第一评估值超过评估阈值的参数作为最优模型参数，保存模型并输出，得到训练好的分类模型。

输入测试集至训练好的分类模型，得到每个样本的事故概率，使用AUC评估方法确定分类模型的第二评估值(第二曲线下面积)，评估预测结果的混淆矩阵，如果测试集的第二评估值在训练集的第一评估值的评估阈值范围内，则得到判断模型，进行应用；否则优化特征工程思路与过程，重新训练模型。

如图2所示，对得到判断模型进行部署应用。将保存的包括判断模型的模型文件部署至线上的python环境中。在线上环境中，对于停靠的货车，进行持续监控，当某货车停靠满足30分钟，调取特征因子实时计算服务，确定模型需要的特征(特征因子和衍生因子)，载入判断模型，将特征因子和处理后的衍生因子输入判断模型中，进行事故预测。假设最后得到的事故概率为79％，通过电话验证，确认是否发生事故。

第二方面，根据本申请的实施方式，还提出一种基于xgboost分类算法的车辆事故判断系统，如图3所示，包括：

预处理模块101，用于采集第一时间段内的车辆事故数据和第二时间段内的车辆数据，进行预处理，得到停靠数据，根据车辆事故数据和停靠数据，确定样本集，得到训练集和测试集，对样本集中的各样本进行特征创建和处理，得到每个样本的特征因子和衍生因子；

训练模块102，用于输入训练集中各样本对应的特征因子和衍生因子至待训练的xgboost分类模型，使用AUC评估方法和网格搜索算法进行训练，得到训练好的分类模型；

测试模块103，用于输入测试集中各样本对应的特征因子和衍生因子至分类模型，得到各样本对应的事故概率，使用AUC评估方法根据得到的事故概率对分类模型进行优化，得到判断模型；

判断模块104，用于使用判断模型实时计算车辆事故概率。

本申请的方法中，通过采集第一时间段内的车辆事故数据和第二时间段内的车辆数据，确定样本集，并获取每个样本的特征因子和衍生因子，使用xgboost分类模型、AUC评估方法和网格搜索算法进行训练和优化，能够得到对车辆在实时事故的判断具有很高准确的性判断模型，从而实时对车辆的事故进行高准确度的判断。依托事故判断模型，在车辆出现事故时能够及时进行跟踪、监控、紧急情况的帮助和后续的技术服务与支援以及对其他司机进行通知，方便行驶的实时规划。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于xgboost分类算法的车辆事故判断方法，其特征在于，包括：

使用所述判断模型实时计算车辆事故概率；

其中，所述每个样本的特征因子包括每个样本的终端信号、周围路口情况、道路信息、制动时相关因子、周围历史停靠情况及堵车判断情况；

其中，所述每个样本的衍生因子的获取方法包括：

对所述每个样本的特征因子进行特征衍生，得到多个待处理衍生因子；

对所述待处理衍生因子的特征进行相关性分析，结合业务理解删除相关性较高的待处理衍生因子，得到所述每个样本的衍生因子。

2.如权利要求1所述的方法，其特征在于，所述采集第一时间段内的车辆事故数据和第二时间段内的车辆数据，进行预处理，得到停靠数据，包括：

3.如权利要求1所述的方法，其特征在于，所述根据所述车辆事故数据和所述停靠数据，确定样本集，得到训练集和测试集，包括：

4.如权利要求1所述的方法，其特征在于，所述对所述样本集中的各样本进行特征创建和处理，得到每个样本的特征因子和衍生因子，包括：

5.如权利要求1所述的方法，其特征在于，所述输入训练集中各样本对应的特征因子和衍生因子至待训练的xgboost分类模型，使用AUC评估方法和网格搜索算法进行训练，得到训练好的分类模型，包括：

6.如权利要求5所述的方法，其特征在于，所述输入测试集中各样本对应的特征因子和衍生因子至所述分类模型，得到各样本对应的事故概率，使用AUC评估方法根据得到的事故概率对分类模型进行优化，得到判断模型，包括：

7.如权利要求1所述的方法，其特征在于，所述使用所述判断模型实时计算车辆事故概率，包括：

8.如权利要求7所述的方法，其特征在于，在所述使用所述判断模型实时计算车辆事故概率之后，还包括：

根据所述误差对所述判断模型进行优化。

9.如权利要求1所述的方法，其特征在于，所述第二时间段包括所述第一时间段和在第一时间段之前的时间段。

10.一种基于xgboost分类算法的车辆事故判断系统，其特征在于，包括：

判断模块，用于使用所述判断模型实时计算车辆事故概率；

其中，所述每个样本的衍生因子的获取方法包括：