CN105303197A

CN105303197A - 一种基于机器学习的车辆跟车安全自动评估方法

Info

Publication number: CN105303197A
Application number: CN201510765235.4A
Authority: CN
Inventors: 齐家; 卞加佳; 陈晨; 冒兵; 朱磊; 焦枫
Original assignee: Jiangsu Posts and Telecommunications Planning and Designing Institute Co Ltd
Current assignee: Jiangsu Posts and Telecommunications Planning and Designing Institute Co Ltd
Priority date: 2015-11-11
Filing date: 2015-11-11
Publication date: 2016-02-03
Anticipated expiration: 2035-11-11
Also published as: CN105303197B

Abstract

本发明公开了一种基于机器学习的车辆跟车安全自动评估方法，包括采集数据，对获取的数据进行数据清洗，保留符合要求的数据，将数据标准化规整到同一数据集D中，对清洗后的数据提取建模所需特征特征字段，根据事故记录和相关监控数据，从清洗规整后的数据中提取出用于机器学习的建模数据M，将M集按给定比例随机抽分为两个子集M_T与M_E，M_T用于模型训练，M_E用于模型性能验证测试，采用监督分类的机器学习算法，利用训练数据M_T进行建模学习，用M_E数据验证所获模型性能，计算相关混淆矩阵和模型分类精度，记录与比较每次结果，选出一个最优模型，使用该最优模型对数据集D中所有记录逐条自动评估，将结果追加到数据集D并输出结果。

Description

一种基于机器学习的车辆跟车安全自动评估方法

技术领域

本发明属于高速公路营运管理信息化处理领域，尤其涉及一种基于机器学习的车辆跟车安全自动评估方法。

背景技术

近年来，信息化在高速公路营运管理中发挥的作用与日递增，伴随信息化程度的提升(大量数据积淀、机器性能提升、数据挖掘等学科的发展)，基于车辆的精准管理与服务在智慧高速公路建设中应运而生。为个体车辆提供精准管理服务依赖于对车辆各种行为的深度认知，但由于管理对象数量庞大，认知内容复杂，人工评估因工作量巨大而无法做到以车辆为单位进行逐一处理。数据挖掘与机器学习技术的应用无疑是解决这一问题的有效手段。

传统意义上，针对个体车辆行车行为的跟踪研判难度复杂且工作量大，尚无使用传统手段之先例。本发明提出基于海量数据与深度学习相结合的应用，在概念和实现技术上尚无其他传统手段可对比，填补了车辆行为分析跟车安全研判的空白。

发明内容

发明目的：本发明提出了一种新颖的数据挖掘与机器学习方案，应用于在海量数据中对车辆以个体为单位利用卡口流水记录进行跟车行为安全的自动评估。

为了实现上述目的，本发明公开了一种针对车辆跟车行为的数据分析与挖掘的方法。该方法分为三个阶段：数据准备阶段(步骤1～3)、机器学习建模阶段(步骤4～7)、最优模型选取及应用模型反演结果阶段(步骤8～9)，具体包括以下步骤：

步骤1，采集与获取所需数据；

步骤2，对步骤2获取的数据进行预处理，将预处理后的数据规整在同一数据集D中；

步骤3，对数据集D中的数据提取建模所需特征字段；

步骤4，准备建模数据集M；

步骤5，将数据集M按训练度R_T(0<R_T<1)随机分为两个子集M_T与M_E，其中M_T为训练数据集，用于学习模型的训练，M_E为测试数据集，用于学习模型的测试；R_T的取值为(0,1)之间的一个百分比，本步骤与下一步需要使用包括R_T在内的不同参数组合迭代尝试，R_T的取值是非固定、动态的。

步骤6，采用机器学习的监督分类算法(本发明中以随机森林算法为例)，使用训练数据集M_T进行建模学习，使用测试数据集M_E验证所获模型性能，计算相关混淆矩阵和模型分类精度；

步骤7，根据所采用的分类算法所需使用的各参数，使用不同的值的参数组合重复步骤5～6步建模过程，记录与比较每次结果，每个参数组合执行两次以上建模试验，以获得该参数组合上的最优模型；计算比较各参数组合所得最优模型精度以及模型训练所需运算开销，选出一个最终的最优模型；

步骤8，使用最终的最优模型对数据集D中所有记录数据逐条自动评估，将结果追加到数据集D。

步骤9，可视化输出结果。

其中，步骤1中，所述数据包括：路段卡口数据、收费记录数据、气象数据、视频监控数据和事故记录数据；其中，路段卡口数据包含路段卡口对过往车辆抓拍后所识别的车牌号、抓拍时间戳、抓拍时行驶速度与方向，及原始影像数据；收费记录数据包含了各收费站出入车辆的出入时间戳和车辆出入收费站被拍照识别的车牌记录；气象数据包含高速公路沿线各气象检测点不间断对路面周边环境自动记录的气象信息；事故记录数据包含了高速公路过往的交通事故记录。

步骤2中预处理包括判断数据是否为无效数据，若数据中的关键信息缺失，无法提供分析跟车行为的数据，即判定为无效数据，将其删除。

步骤3中所述特征字段用于模型训练时建立车辆行驶被观测到的状态和该态是否存在安全风险之间的联系。

步骤4包括：根据事故记录数据和视频监控数据，找出数据集D中对应的记录数据，对该记录数据贴上对应事故等级标签，同时在数据集D中抽取相同数量的正常行驶车辆的记录数据，对这些记录数据贴上安全标签，规整上述贴上标签的记录数据，得到用于机器学习的建模数据集M。

有益效果：本发明通过对各类车辆在高速公路不同情境下跟车行驶的安全程度进行监督分类的机器学习建模，为建立基于个体车辆行驶行为信息库提供了基础数据，将车辆的跟车安全以一组给定标准的方式自动评估，具有并不限于以下有益效果：

(1)本发明所述的跟车安全评估方式相比固定距离法更为实用，综合评价多方面的因素对跟车安全的影响，并能对由跟车距离不当引发的事故作出安全预警。

(2)所建立的模型对输入的数据可实现快速判别，可进行实时车辆跟车安全评估与反馈。模型也可随时根据道路通行等情况的变化进行重训练和评估结果更新。

(3)本发明所述方法可向高速公路管理方实时全方位反馈路网各路段/时段的车辆跟车评估，为路网的智慧化管理提供决策支撑。

(4)本发明所述方法所得结果可通过多种方式(如：道路可变情报板或APP)及时向驾驶人员提示或推送，便于及时调整跟车距离，避免危险或事故的发生。

(5)该发明所述方法可为驾驶文明诚信档案提供评估跟车行为的数据支持。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1是本发明数据分析与机器学习的完整流程图。

图2是实施例中随机抽样10000个代表总体分布。

图3是实施例中模型训练度和模型内estimator数量对模型精度的影响对比。

图4是实施例中模型训练度和模型内estimator数量对模型训练时间的影响对比。

图5是实施例中用于训练模型的数据的标签染色与最优模型对同组数据的机器评估染色对比。

图6是实施例中最优模型对原始数据进行机器评估后随机抽样10000条标签染色展示。

具体实施方式

本发明方案需要采集以下数据：

(1)路段卡口数据

路段卡口(即安装在高速公路断面上对指定车道内机动车进行不间断自动检测和记录的系统)数据描述了路段卡口对过往车辆抓拍后所识别的车牌号，抓拍时间戳，抓拍时行驶速度与方向，及原始影像数据。

(2)收费记录数据

收费记录数据描述了各收费站出入车辆的流水记录。作为车辆基础信息的参照依据，收费记录除了提供车辆出入时间戳，车辆出入收费站被拍照识别的车牌记录外，在本方案中提供了过车的类型，轴重，车牌信息等重要信息。

(3)气象数据

气象数据描述了高速公路沿线各气象检测点不间断对路面周边环境自动记录的气象信息，包含天气、温度、湿度、能见度等信息。

(4)事故记录

事故记录数据记录了高速公路过往的交通事故记录，本案需要其中的信息主要包括事故类型、危害程度、事发时间、事发路段、肇事车辆信息等，用于和前述数据建立关联。

本发明方案的数据分析建模流程如1所示，本发明公开了一种通过数据挖掘与建模分析，对高速公路车辆跟车安全进行机器学习与自动评估分类的方法，如图1所示，包括三阶段数据准备过程(步骤1～3)、机器学习建模过程(步骤4～7)、最优模型选取与结果反演过程(步骤8～9)：

步骤1，采集整理上述获取所需数据。

步骤2，对采集的数据进行清洗，去除缺失、无效、重复记录，保留符合要求的数据。本步骤中的预处理内容包括删除各数据集中关键信息缺失的记录数据，若数据集中关键信息缺失，无法提供分析跟车行为的数据，即判定无效数据。将剩余有效数据按照卡口的过车记录，汇聚到同一张表格(表格/数据集D)

步骤3，提取特征字段信息。特征信息用于描述卡口检测行车的跟车状态，这些信息将用于输入后期机器学习建立的模型从而获得安全评估。根据实际条件，可采选的特征信息要素应尽可能是全面涉及影响安全跟车，建议包含并不限于以下：车速、与前车相对速度、车距、车型、前车车型、日/夜、车道、气象条件、能见度条件、温/湿度。

上述的大部分特征信息已在步骤2中按照卡口行车记录整合到数据集D中。有的特征信息还需要进一步加工获得，如与前车的速度差。该变量可通过以下步骤获得：(1)对D中各车道记录按时间序列排序，设d_ij为其中任意记录，i为按时间戳排序索引，d为车道编号，将前车记录，即d_(i-1)j，最加至d_ij记录中。(2)利用后车速减去前车车速，获得后车相对于前车的速度差δv，若该速度差为正值，则该车正在以此速度差追赶前车，若该速度差为负值，则该车正在以此速度远离前车。

步骤4，准备建模数据。使用机器学习的监督分类建模需要一定量样本数据进行模型训练和验证。样本数量应该足够大以确保模型的准确性，同时其规模兼顾机器处理性能。

本发明中，建模所需样本实质为m×n二维数组，描述了实测的不同情景行驶状态及对应标签。其1-(n-1)列为前述各特征向量，n列为对应的安全标签，它的描述可分以下几类：是否存在事故风险及存在何种等级事故风险、是否属于安全跟车状态、是否距离过远为非跟车状态。

为了获得样本数据，本案提出使用无放回随机抽样法按比例抽取正常行车数据和事故数据组成建模数据。首先整理事故数据，保留其中因跟车距离不当造成的记录，结合监控视频，判断数据集D中是否存在该车辆发生事故前的行车状态记录，若存在则提取该记录结合事故等级成为一条训练样本。收集所有可用的样本数据，抽取一定数量作为建模用，并按一定比例抽取非事故样本数据(作为安全跟车的参照)混合在一起，成为建模数据(数据集M)。

步骤5，将M集按一定比例随机分为两个子集M_T和M_E，其中M_T用于模型的训练，M_E用于模型的验证。

步骤6，车辆跟车安全行为机器学习建模和验证过程。

本发明核心思路是使用监督分类的方法让机器建立模型并自动分析车辆行车数据从而获得其跟车安全程度评估。通常的，有监督分类包含以下几个步骤：(1)收集训练集数据，并提取用于分类的相关特征向量，(2)选取一定的算法和相应的参数，利用特征向量训练模型，(3)验证模型的精度和优选模型的参数，(4)利用最终选用的模型为新的数据进行自动分类。利用训练数据(M_T)进行模型训练模，使用验证数据(M_E)测试模型性能，计算混淆矩阵(confusionmatrix)和分类精度。

传统的，我国采用固定距离法要求规定车辆的安全跟车距离，如规定高速公路上应与前车保持200米距离。一些国家地区也使用车间时距算法来要求驾驶人员与前车保持对应的安全车距。车间时距法比固定距离法的优势在于安全车距会随车速变化而自动调整。其他的研究提出了如安全车距(SafetyDistance)、临界安全车距(CriticalSafetyDistance)、基本安全车距(BasicSafetyDistance)、充分安全车距(IdealSafetyDistance)，等指标/模型用于评判车辆跟车的安全程度。本发明认为车辆跟车安全不仅要考虑以上指标(特征向量)，还应尽可能多的综合考虑如车辆型号、载重、路面环境、能见度、气象、时间、气温等要素，将其与安全/事故标签结合起来建立分类模型。

本发明使用了集成学习(EnsembleLearning)的机器学习算法，对训练数据进行机器学习，从而获得分类模型。集成学习是机器学习算法发展中一个崭露头角的新研究分支。集成学习的原理是将若干种不同算法的弱分类器集成在一起，形成一个复合分类模型(强分类器)。集成学习模型中各算法(弱分类器)先对输入数据进行各自判别，复合模型再综合各弱分类器的结果，基于其内建的类似于投票机制的方法，给出最终判别结果。集成学习模型比单一的分类器健壮性更强，对分类结果的总体误差低，分类精确度高于单一分类器。单一分类器若在学习过程中产生误差，会对分类结果产生系统性误差，而集成学习的投票机制可以弥消这种系统误差的产生，从而提高分类系统的整体精度。bagging,boosting,randomforests是集成学习中较为经典的算法。

以randomforests(随机森林)算法为例，该算法是基于若干个决策树分类算法组合而成的集成学习模型。决策树分类器是一种简单而高效的机器学习分类算法，通过对训练数据的学习，构造出树形分类器，使用被构造的分类器可快速对新的数据记录进行分类。决策树模型的诸多优点暂不赘述，训练模型易过度适应(overfitting)是使用决策树分类器的必须警惕的缺点。单一决策树模型因易受训练数据和系统误差的影响降低分类精度，过拟模型往往对训练数据有着非常好的适应性，而丢失了其应对被分类数据总体的普遍分类性能。而随机森林算法能随机选取训练数据和训练特征向量从而建造出大量的决策树模型，形如一片森林。这种组合学习模型在使用时对被应用数据产生多样的分类结果，利用投票方式决定其最终归属，故而可以避免单一决策树模型对整体的分类偏差。

使用验证数据对所得模型进行精度验证。验证主要对比机器分类(即机器判定的跟车安全标签)的结果和验证数据中人工评估的车辆跟车安全标签之间的异同。将这些对比结果汇总统计到一张表格上，计算出模型分类的混淆矩阵。

在预测模型的验证中，混淆矩阵是用于描述模型分类准确性的可视化工具。矩阵的每一列代表一个类的实例预测，每一行表示一个实际的类的实例。矩阵自左上至右下的对角线上的每个元素表示了每类被模型正确分类的总数，该对角线上数值的和除以矩阵总和即模型的分类总精度。通过混淆矩阵计算出模型总体精度，该指标以百分数描述了模型在对未知数据进行自动评估时与实际值之间的准确度。

步骤7，多组建模测试与调优。

由于建模过程中选取的参数不同对所建模型的性能(机器评估的精确度)和所需运算时间有着决定性的影响。模型调优主要采用不同的参数组合进行反复建模训练(重复步骤5-6)，记录下各参数组的建模结果，最后权衡比较获得一个在精度和运算时间上都可以接受的最优模型作为最终模型。

步骤8，使用最终获得分类模型对全体数据进行自动评估。最终模型可用于(1)对D中所有数据的一次性评估；或(2)基于实时采集的数据即时做出的判断与结果反馈。

步骤9，结果输出。将步骤8获得的评估结果输出至数据库备用，可进行各类后续统计分析，如：(1)从车/次的安全评估汇总为基于某牌照车辆的跟车行为评价，(2)基于某些路段的评估，(3)基于某些气象条件的结果统计等。亦可进行数据结果的可视化(参见实施案例)。评估结果无论对于高速公路管理方或是公众驾车人都有广泛应用，此处不再赘述。

实施例

以下介绍本发明的一个实施案例，案例使用了某高速公路公司所辖约260公里高速公路2012年至2014年运营期间全部数据，包含主路卡口数据、各收费站收费数据、各路段气象数据、事故记录数据等原始数据，其大小为约1.2Tb。

本案建模研究测试的硬件环境为CORE^TMi5CPU，内存16Gb，系统平台为Windows10(64～bit)，开发测试软件使用python^TM3.4(64bit),机器学习建模采用python第三方库sckit-learn0.16.0。

案例具体实施步骤如下：

步骤1，采集与准备所需的数据。

步骤2，使用SQL语言和Python脚本处理原始数据，基于每条过车记录进行预处理分析。进行数据清洗和匹配，剔除任何不能被分析的记录，如(对后续分析所需)关键字段/信息缺失，并将相应信息匹配到同一表格上。本案例使用了以下特征向量关联事故记录进行建模学习：与前车车距、车速、与前车相对速度差、跟车类型(如：a小车跟小车、b小车跟大车，c大车跟小车、d大车跟大车、等)、车道号、跟车发生时间(如：a日、b夜)、气候条件(如：a晴、b雾、c雨、d雪、等)、卡口号。因此，清洗完毕后所得记录至少应明确包含以上各字段信息。

步骤3，提取清洗后数据的特征向量。按照说明书步骤3所述方法获得每条记录车辆与前车的速度差。合并特征信息加以整理后获得数据集D用于进一步建模。图2展示了随机抽取D中10000条记录，图2中(a)为三维空间描绘行车特征向量的散点图，图2中(b)为三维空间描绘行车特征向量的分布状况，其中三个主要特征字段向量为车辆行驶速度、车辆与前车的速度差、车辆跟车的距离。

步骤4，准备建模数据。整理事故记录数据，取出其中因跟车距离不当造成的记录，综合调查视频记录找出数据集D中是否有记录能表征事故发生前该车辆的跟车情况，若存在则提取出来，结合三个事故等级标签(轻/中/重)，作为建模数据中的事故数据(M₁)。本实施例最终获得有1896条有效的事故数据(M₁)作为训练用。调用Python内建random模块，使用random_data_choose方法对D中剩余数随机采样2004条，为非事故数据(M₂)作为训练用。因此本案的建模数据(M₁+M₂)共使用了10000记录作为建模用。将M数据集以Python内建方法Pickle作为持久化暂存备用。

步骤5，将建模数据随机分为两组，训练数据M_T和验证数据M_E。根据一个给定训练度R_T，采用random模块的random_data_choose方法，将M分成训练数据M_T和验证数据M_E两组。本步骤结合下一步需要重复多次，以测试不同的R_T值对最终建模性能的影响，本案例将选取包括0.1,0.2,…,0.9在内的9个值的R_T重复试验。

步骤6，进行模型训练与验证。

利用scikit-learn工具包的随机森林算法，基于数据集M_T进行随机森林模型的训练。scikit-learn是基于Python语言的开源机器学习库，提供了分类、回归、聚类分析的多个经典算法，如：支持向量机、随机森林、K均值聚类、主成分分析等。同时也提供了对其他开源库件，如NumPy、SciPy、matplotlib的良好支持。

调用sklearn.ensemble模块中RandomForestClassifier分类器，按照下要求进行建模训练：

(1)使用M_T中1-n列作为特征向量X，第n列作为参考分类标签Y。

(2)分别使用不同的内置参数n_estimators(即森林中决策树的数量)为10,20,···,200和不同训练度0.1,0.2,···,0.9，共计180个不同参数组合重复步骤6和7进行建模测试，每参数组合重复试验10次，共产生1800个随机森林模型。记录每次建模所需CPU时间，作为优选模型之衡量依据。

(3)每个模型训练获得后使用预留的验证数据进行模型性能检验。向模型输入验证数据的特征向量，获得模型给出的分类结果，对比验证数据原始的分类结果，计算获得该模型的混淆矩阵和模型分类精度，计算出每个小组的平均精度和CPU时间。

(4)使用Python内建方法Pickle保存所有模型，并输所有模型的混淆矩阵和分类精度用于后期模型性能分析和调优。

步骤7，分析对比步骤6中各模型结果，选取一个最优模型用于反演D中所有跟车记录，获得每辆车/次的跟车安全评价，作为建模过程的最终结果输出。

以下讨论本次建模试验中如何选取最优分类模型：

(1)模型精度对不同建模参数的敏感度

本案例主要探究了2个建模参数(建模数据训练度和模型参数estimator的数量)对模型性能的影响，以便寻找最优模型用于数据反演。通过1800个模型试验，获得了这两个参数对模型精度影响的对比，如图3所示。通过分组试验可以看出：图3中(a)显示模型性能对训练度较为敏感，训练度的提升对模型精度呈对数级提升；图3中(b)显示模型性能对estimator数量较不敏感，图3中(c)显示estimator数量的提升可略微提升模型精度，但其效果和稳定性远不及训练度提升影响显著，同时estimator数量过低会对模型精度产生显著的劣化影响。

(2)不同参数建模过程对运算开销的需求程度

通过对比试验发现estimator数量和训练度的变化都会影响训练模型所需计算时间。图4显示了这两个参数取不同值时建模所需CPU时间。试验发现训练模型所需时间随estimator数量增加和模型训练度降低而线性增加，并且随着estimator数量递增和模型训练度递减，所需CPU时间的线性增加斜率也相应增加。

综合以上模型训练精度和建模时间的对比，本实施例最终判定n_estimator和训练度分别采用50和0.5时所建模型较为理想，在该组中获得的最优模型精确度可达94.24％，模型训练所需时间为9.11秒，本案例采用该参数组合试验中的最优模型作为分类反演模型。尽管选择更高训练度和estimator数模型可略微提示精度，但其所需花费成倍的运算时间，且在训练度较高时会来带过拟合的风险。

步骤8，使用最终获得最优分类模型对数据进行自动评估。将步骤3所准备的清洗后数据输入最优模型，得到模型对车辆跟车安全的评估结果。在本例硬件条件下，模型的处理速度大约为73000条/秒。所获预测结果以Python程序写回数据库持久化存储，以备其他研究或项目使用。图5对比了训练数据的原始分类(如图5中(b)所示)和模型对原始数据的预测分类(如图5中(a)所示)在车辆时速、车辆与前车速度差、车辆跟车距离这三个维度上的空间体现。图5和图6中，符号。表示重度事故风险、▲表示中度事故风险、▼表示轻度事故风险、■表示安全跟车、●表示非跟车。通过对比不难发现模型的预测对原始训练数据分类情况的还原度相当高。图6展示了10000条被自动分类的数据，这些数据由随机抽样法，在所有被自动评估的数据中随机抽选出。与图5中(b)所选数据不同，图6中包含大部分为未知结果的原始数据(少量建模数据有可能被随机选中，比例约为1:440)。图6显示了这些未知原始数据的评价分布在空间中与已知结果的训练数据及其相似，从而在一定程度上印证了模型对整体数据评估的稳定性。

实施案例最终获得的成果为：

(1)最优评价模型，以python对象的形式持久化存储；

(2)最优模型对所有原始数据的预测结果，输出存储于数据中，以备其他研究或项目使用。

本发明提供了一种基于机器学习的车辆跟车安全自动评估方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于机器学习的车辆跟车安全自动评估方法，其特征在于：包括以下步骤：

步骤1，采集与获取所需数据；

步骤3，对数据集D中的数据提取建模所需特征字段；

步骤4，准备建模数据集M；

步骤5，将数据集M按训练度R_T随机分为两个子集M_T与M_E，0<R_T<1，其中M_T为训练数据集，用于学习模型的训练，M_E为测试数据集，用于学习模型的测试；

步骤6，采用机器学习的监督分类算法，使用训练数据集M_T进行建模学习，使用测试数据集M_E验证所获模型的性能，计算模型的混淆矩阵和模型分类精度；

步骤8，使用最终的最优模型对数据集D中所有记录数据逐条自动评估，将结果追加到数据集D；

步骤9，可视化输出结果。

2.如权利要求1所述的一种基于机器学习的车辆跟车安全自动评估方法，其特征在于：步骤1中，所述数据包括：路段卡口数据、收费记录数据、气象数据、视频监控数据和事故记录数据；其中，路段卡口数据包含路段卡口对过往车辆抓拍后所识别的车牌号、抓拍时间戳、抓拍时行驶速度与方向，及原始影像数据；收费记录数据包含了各收费站出入车辆的出入时间戳和车辆出入收费站被拍照识别的车牌记录；气象数据包含高速公路沿线各气象检测点不间断对路面周边环境自动记录的气象信息；事故记录数据包含了高速公路过往的交通事故记录。

3.如权利要求2所述的一种基于机器学习的车辆跟车安全自动评估方法，其特征在于：步骤2中预处理包括判断数据是否为无效数据，若数据中的信息缺失，无法提供分析跟车行为的数据，即判定为无效数据，将其删除。

4.如权利要求3所述的一种基于机器学习的车辆跟车安全自动评估方法，其特征在于：步骤3中所述特征字段用于模型训练时建立车辆行驶被观测到的状态和该状态是否存在安全风险之间的联系。

5.如权利要求4所述的一种基于机器学习的车辆跟车安全自动评估方法，其特征在于：步骤4包括：根据事故记录数据和视频监控数据，找出数据集D中对应的记录数据，对该记录数据贴上对应事故等级标签，同时在数据集D中抽取相同数量的正常行驶车辆的记录数据，对这些记录数据贴上安全标签，规整上述贴上标签的记录数据，得到用于机器学习的建模数据集M。