CN109840612A

CN109840612A - 用户驾驶行为分析方法及系统

Info

Publication number: CN109840612A
Application number: CN201810820838.3A
Authority: CN
Inventors: 张伟; 吕兴; 杨治; 赵安宁
Original assignee: Shanghai Win Ke Information Technology Co Ltd
Current assignee: Shanghai Win Ke Information Technology Co Ltd
Priority date: 2018-07-24
Filing date: 2018-07-24
Publication date: 2019-06-04

Abstract

本发明公开了一种用户驾驶行为分析方法及系统。其中，方法包括：采集若干用户的车辆行驶数据，根据车辆行驶数据，计算若干用于描绘用户驾驶行为的指标项；获取用户的交通事故信息；将指标项作为特征变量，分析每个特征变量与交通事故信息的相关性，筛选出与所述交通事故信息相关性最高的N个特征变量，形成N维向量；利用非线性降维算法降维，得到变量集；以变量集为自变量，以交通事故信息为因变量，训练用户驾驶行为评价模型；利用所述用户驾驶行为评价模型评价待分析用户的驾驶行为。本发明将交通事故信息作为评价用户驾驶行为的量化指标，训练用户驾驶行为评价模型，提高了用户驾驶行为的预测和评价准确度。

Description

用户驾驶行为分析方法及系统

技术领域

本发明属于车联网领域，尤其涉及一种用户驾驶行为分析方法及系统。

背景技术

在车联网领域，用户驾驶行为的分析近年来是众多研究和应用的基础。由于数据源繁杂，数据量巨大以及应用方式多样，传统的统计分析方法难以满足准确预测以及快速迭代的要求。因此众多机器学习以及人工智能的技术并引入其中。取得巨大进步的同时，现有技术仍然存在一定的局限性，大致有以下几个方面：

1、数据源层面：目前技术采用的数据源主要由手机等后装通讯设备实时传输的数据，或者车载CAN-BUS(控制器局域网络总线)记录仪离线采集的数据两种方式。前一种数据源无法控制设备的开启与否会极大影响数据的完整性；同时设备采集精度以及同步的问题也会影响后续数据模型特征的计算的准确性。后一种数据源则缺乏实时计算处理的能力，无法满足现阶段大量应用需要快速迭代的要求。数据源层面另一种限制在于现有技术没有应用其他行业的数据源进行交叉验证，技术的适配性存在疑问。

2、特征提取层面：使用机器学习技术进行行为预测的一个核心问题是选择合适且准确的特征变量。现有技术由于数据来源以及数据精度问题，仅能应用例如总的距离，平均速度等易统计的，反映平均状况的特征；或者使用某些基于主观判断确难以校验的算法计算急刹车，急转弯等反映极端行驶状况的特征。同时缺乏丰富的交叉各种场景(比如早晚高峰，超速等)反映行驶状况的特征变量。因为车主行为的多样性，这些缺乏或者不准确的特征往往能更好的反映车主的驾驶行为。

3、模型与算法层面：现有技术主要涵盖两大算法：无监督机器学习，主要集中在聚类分析；有监督机器学习，主要应用广义线性回归做二元分类分析。前一种算法局限性在缺乏实际且可靠的验证方法，方法的准确性仅能靠主观经验判断；并且快速迭代能力受限制。后一种算法对于特征变量的提取需要较高要求且对噪音比较敏感。

发明内容

本发明要解决的技术问题是为了克服现有技术中存在上述三个层面的局限性导致对用户驾驶行为未能充分准确地分析与预测的缺陷，提供一种用户驾驶行为分析方法及系统。

本发明是通过以下技术方案解决上述技术问题的：

一种用户驾驶行为分析方法，包括：

采集若干用户的车辆行驶数据，根据所述车辆行驶数据，计算若干用于描绘用户驾驶行为的指标项；

获取所述用户的交通事故信息；

将所述指标项作为特征变量，分析每个所述特征变量与所述交通事故信息的相关性，筛选出与所述交通事故信息相关性最高的N个特征变量，形成一个N维向量；

利用非线性降维算法将所述N维向量降维，得到变量集；

以所述变量集为自变量，以所述交通事故信息为因变量，训练用户驾驶行为评价模型；

采集待分析用户的车辆行驶数据，利用所述用户驾驶行为评价模型评价所述待分析用户的驾驶行为。

较佳地，利用前装的车载传感器设备以预设频率采集所述若干用户的车辆行驶数据及所述待分析用户的车辆行驶数据。

较佳地，所述车辆行驶数据包括以下数据中的至少一种：车架号、车辆所在位置的经度、车辆所在位置的纬度、GPS时间、水平精度因子、车辆的油门开合度、车辆的刹车开合度、车辆的油耗、车辆的总里程、车辆的发动机转速、车辆的速度、车辆的方向盘角度；

和/或，将所述车辆行驶数据划分为若干行程，根据每个行程内的车辆行驶数据计算每个行程的所述指标项，所述指标项包括以下指标中的至少一种：行程开始时间、行程结束时间、总公里数、行程开始经度、行程开始纬度、行程结束经度、行程结束纬度、行程开始道路名称、行程结束道路名称、行程时长、有效数据量、行程总油耗、最大发动机转速、总发动机转速、发动机空转时长、怠速时长、最省油车速行驶时长、急加速次数、急刹车次数、急转弯次数、超速次数、公里内最高时速、夜间驾驶时长、夜间驾驶距离、行程中疲劳驾驶时长、疲劳驾驶距离、早高峰驾驶时长、早高峰驾驶距离、晚高峰驾驶时长、晚高峰驾驶距离；

和/或，所述交通事故信息通过脱敏后的保险理赔信息获得，所述保险理赔信息包括以下信息中的至少一种：出险次数、保险赔偿金额、事故发生时间、地点、关于事故情况的文字描述。

较佳地，分析每个所述特征变量与所述交通事故信息的相关性，包括：

针对每个所述特征变量，根据不同分位进行离散化处理，将离散化处理后的特征变量与所述交通事故信息做卡方检验。

较佳地，所述用户驾驶行为分析方法还将用户的熟路使用的比例作为特征变量。

较佳地，通过以下步骤计算用户的熟路使用的比例：

建立熟路计算模型，所述熟路计算模型用于计算所述用户的一个行程为熟路的概率；

根据所述熟路计算模型计算所述用户的每个行程为熟路的概率，若所述概率大于预设概率阈值，则判定对应的行程为熟路；

统计为熟路的行程的数量以及所有行程的总数，计算所述用户的熟路使用的比例。

较佳地，通过以下步骤建立所述熟路计算模型：

提取所述用户的若干行程的行程信息，所述行程信息包括起始点经纬度和终止点经纬度、行驶时间和行驶里程；

分别针对每个行程形成一个用于表示所述行程信息的6维向量，对所述行程时间和行驶里程做正规化处理，形成针对所述若干行程的向量集合；

对所述向量集合进行聚类，得到熟路数据集和生路数据集；

利用所述熟路数据集训练生成对抗网络的生成器和判别器，以计算所述用户的一个行程为熟路的概率。

一种用户驾驶行为分析系统，包括：数据处理模块、特征选择模块、模型训练模块和模型使用模块；

所述数据处理模块包括：

用户行程数据子模块，用于采集若干用户的车辆行驶数据，根据所述车辆行驶数据，计算若干用于描绘用户驾驶行为的指标项；

交通事故数据子模块，用于获取所述用户的交通事故信息；

所述特征选择模块用于将所述指标项作为特征变量，分析每个所述特征变量与所述交通事故信息的相关性，筛选出与所述交通事故信息相关性最高的N个特征变量，形成一个N维向量；

所述特征选择模块还用于利用非线性降维算法将所述N维向量降维，得到变量集；

所述模型训练模块用于以所述变量集为自变量，以所述交通事故信息为因变量，训练用户驾驶行为评价模型；

所述用户行程数据子模块还用于采集待分析用户的车辆行驶数据；

所述模型使用模块用于利用所述用户驾驶行为评价模型评价所述待分析用户的驾驶行为。

较佳地，所述用户行程数据子模块利用前装的车载传感器设备以预设频率采集所述若干用户的车辆行驶数据及所述待分析用户的车辆行驶数据。

和/或，所述用户行程数据子模块还用于将所述车辆行驶数据划分为若干行程，根据每个行程内的车辆行驶数据计算每个行程的所述指标项，所述指标项包括以下指标中的至少一种：行程开始时间、行程结束时间、总公里数、行程开始经度、行程开始纬度、行程结束经度、行程结束纬度、行程开始道路名称、行程结束道路名称、行程时长、有效数据量、行程总油耗、最大发动机转速、总发动机转速、发动机空转时长、怠速时长、最省油车速行驶时长、急加速次数、急刹车次数、急转弯次数、超速次数、公里内最高时速、夜间驾驶时长、夜间驾驶距离、行程中疲劳驾驶时长、疲劳驾驶距离、早高峰驾驶时长、早高峰驾驶距离、晚高峰驾驶时长、晚高峰驾驶距离；

较佳地，所述特征选择模块还用于将用户的熟路使用的比例作为特征变量。

较佳地，所述用户行程数据子模块还用于：

较佳地，建立所述熟路计算模型，包括：

对所述向量集合进行聚类，得到熟路数据集和生路数据集；

在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本发明各较佳实例。

本发明的积极进步效果在于：本发明将交通事故信息作为评价用户驾驶行为的量化指标，利用车辆行驶数据与交通事故信息训练用户驾驶行为评价模型，提高了用户驾驶行为的预测和评价准确度。

附图说明

图1为本发明实施例1的用户驾驶行为分析方法的流程图；

图2为本发明实施例1的用户驾驶行为分析方法计算用户的熟路使用的比例的流程图；

图3为本发明实施例2的用户驾驶行为分析系统的示意框图。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。

实施例1

一种用户驾驶行为分析方法，如图1所示，包括：

步骤101、采集若干用户的车辆行驶数据，根据所述车辆行驶数据，计算若干用于描绘用户驾驶行为的指标项。

步骤102、获取所述用户的交通事故信息。

步骤103、将所述指标项作为特征变量，分析每个所述特征变量与所述交通事故信息的相关性，筛选出与所述交通事故信息相关性最高的N个特征变量，形成一个N维向量。

步骤104、利用非线性降维算法将所述N维向量降维，得到变量集。

步骤105、以所述变量集为自变量，以所述交通事故信息为因变量，训练用户驾驶行为评价模型。

步骤106、采集待分析用户的车辆行驶数据，利用所述用户驾驶行为评价模型评价所述待分析用户的驾驶行为。

为了保证数据完整性，在步骤101采集若干用户的车辆行驶数据和步骤106采集待分析用户的车辆行驶数据时，可以利用前装的车载传感器设备以预设频率采集所述若干用户的车辆行驶数据及所述待分析用户的车辆行驶数据，其中，所述预设频率决定了采集数据的精度，预设频率越高，精度越高，反之，预设频率越小，精度越小。为了保证数据的精度，可以将预设频率设定为每秒一次，即每隔一秒采集一次车辆行驶数据。同时稳定的大数据以及流式计算平台保证了实时计算以及模型快速迭代的要求。

其中，所述车辆行驶数据可以包括以下数据中的至少一种：车架号、车辆所在位置的经度、车辆所在位置的纬度、GPS时间、水平精度因子、车辆的油门开合度、车辆的刹车开合度、车辆的油耗、车辆的总里程、车辆的发动机转速、车辆的速度、车辆的方向盘角度。

在步骤101中根据所述车辆行驶数据，计算若干用于描绘用户驾驶行为的指标项时，可以将所述车辆行驶数据划分为若干行程，根据每个行程内的车辆行驶数据计算每个行程的所述指标项。即以行程作为计算指标项的统计单位。例如，采集到一个用户的2000条车辆行驶数据，通过分析，可确定前1200条车辆行驶数据属于一个行程，后800条车辆行驶数据属于另一个行程，那么，利用前1200条车辆行驶数据计算前一个行程的指标项，利用后800条车辆行驶数据计算后一个行程的指标项。

所述指标项包括以下指标中的至少一种：行程开始时间、行程结束时间、总公里数、行程开始经度、行程开始纬度、行程结束经度、行程结束纬度、行程开始道路名称、行程结束道路名称、行程时长、有效数据量、行程总油耗、最大发动机转速、总发动机转速、发动机空转时长、怠速时长、最省油车速行驶时长、急加速次数、急刹车次数、急转弯次数、超速次数、公里内最高时速、夜间驾驶时长、夜间驾驶距离、行程中疲劳驾驶时长、疲劳驾驶距离、早高峰驾驶时长、早高峰驾驶距离、晚高峰驾驶时长、晚高峰驾驶距离。上述指标项中，总公里数、行程时长等可以反映整体行驶情况，早高峰驾驶时长、早高峰驾驶距离、晚高峰驾驶时长、晚高峰驾驶距离等可以反映不同场景的行驶情况，急加速次数、急刹车次数、急转弯次数等指标项可以反映用户的极端行驶状况或平稳度，行程开始经度、行程开始纬度、行程结束经度、行程结束纬度、行程开始道路名称、行程结束道路名称等可以反映车辆行驶环境。上述指标项能够全面反映车辆的行驶情况，从而反映出用户的驾驶情况。

步骤102中，所述交通事故信息可以通过脱敏后的保险理赔信息获得，所述保险理赔信息包括以下信息中的至少一种：出险次数、保险赔偿金额、事故发生时间、地点、关于事故情况的文字描述。可以直接将出险次数、保险赔偿金额、事故发生时间、地点、关于事故情况的文字描述中的至少一种作为交通事故信息，也可将由所述保险理赔信息推导出来的信息作为交通事故信息。其中，出险次数、保险赔偿金额属于数字信息，对于这些数字信息，可以进行正规化和异常值处理；事故发生时间、事故发生地点、关于事故情况的文字描述属于文字信息，对于这些文字信息，可以通过自然语言处理算法处理为结构化的数据输出到后续的模型和算法中。大量完整的保险理赔信息可以对车辆行驶数据进行标记，从而给予用户驾驶行为一个较为准确的量化指标。

另外，本实施例的用户驾驶行为分析方法还可以将用户的熟路使用的比例作为所述特征变量。所谓的熟路，是指用户经常行驶的路。相应地，生路，是指用户不经常行驶的路。具体如图2所示，通过以下步骤计算用户的熟路使用的比例：

步骤201、建立熟路计算模型，所述熟路计算模型用于计算所述用户的一个行程为熟路的概率。

步骤202、根据所述熟路计算模型计算所述用户的每个行程为熟路的概率，若所述概率大于预设概率阈值，则判定对应的行程为熟路，若否，则判定对应的行程为生路。

步骤203、统计为熟路的行程的数量以及所有行程的总数，计算所述用户的熟路使用的比例。所述比例等于为熟路的行程的数量与所有行程的总数之比。

本实施例中，通过以下步骤建立所述熟路计算模型：

对所述向量集合进行聚类，得到熟路数据集和生路数据集；

下面对通过上述步骤建立所述熟路计算模型的过程做具体说明：

提取单一用户所有行程的起始点经纬度，终止点经纬度，行程时间和行驶里程，得到每个行程的一个6维向量，对行程时间和行驶里程做正规化处理，得到一个新的六维向量。所有行程的6维向量形成一个6维向量集合。

使用DBSCAN(一种聚类算法)对所述向量集合进行聚类(其中点点连通的阈值可以设定为0.01)。根据聚类的结果，选择出包含数据量最多的若干个簇(如3个簇)。取该些簇中的所有数据点对应行程作为熟路数据集，其余的行程作为生路数据集。

对于所述熟路数据集中的每个行程，从原始采集的车辆行驶数据中提取单秒采集的GPS信息，以描绘每个行程的行驶轨迹。例如，熟路数据集中一个行程的向量是(120.01,31.42,121.95,30.27,1600,27)，因为行程时间是1600秒，则针对此段行程源数据中包含1600个GPS经纬度条目，这些GPS经纬度条目可组成此行程的行驶轨迹。每条行驶轨迹可以视为一张图片作为后续生成对抗网络的输入。

针对上一步生成的图片，先将其进行裁剪到一个矩形区域内；矩形经度范围的最大最小值由所有图片包含数据点中经度的最大最小值决定，纬度范围的最大最小值由所有图片包含数据点中纬度的最大最小值决定。将裁剪以后的图片输入到一个卷积神经网络中(此卷积神经网络使用4层架构，其中包含两层使用最大值函数的pooling层)。卷积神经网络的输出即为每张图片提取的特征，而这些特征就是后续生成对抗网络所要训练的目标生成模型的变量。

生成对抗网络的生成器的自变量即对应上一步骤输出的特征变量，架构是一个带一个隐藏层的神经网络。数据集部分使用的实际熟路集合经过前述步骤得到的特征向量集合。判别器是一个带有一个隐藏层的神经网络。(针对此架构会根据后续数据的变化有调整)。具体训练的方法是最大化以下期望函数E_x～pdatalogd(x)+E_x～pmodellog(1-d(x))，其中d(x)表示的是特征变量x被判别器判别为实际数据而不是生成器生成数据的概率。

最终训练完毕的卷积神经网络-生成对抗网络模型，接受一段行程轨迹图片作为输入，输出经过卷积神经网络，生成对抗网络生成器的结果。对比生成网络采样的分布，得出此行程属于熟路的概率，概率大于概率阈值(如0.3)的行程判定为熟路行程。

步骤103中，分析每个所述特征变量与所述交通事故信息的相关性，可以包括：

针对每个所述特征变量，根据不同分位(如5分位、10分位、……95分位)进行离散化处理，将离散化处理后的特征变量与所述交通事故信息做卡方检验。其中，卡方值的大小与特征变量与所述交通事故信息的相关性呈负相关。例如，分析每个所述特征变量与出险次数的相关性，将离散化处理后的特征变量与出险次数做卡方检验，若卡方值小于一阈值(如0.1)，则判定该特征变量为与出险次数的相关性较强的特征变量。

其中，N可以为预设值。N也可以为非预设值，即根据所有特征变量与交通事故信息做卡方检验的结果，确定N的取值，如，统计卡方值小于阈值的特征变量的数量，将该数量作为N，与所述交通事故信息相关性最高的N个特征变量，即卡方值小于阈值的N个特征变量。

相对于现有技术，本实施例使用了进行过标记的数据点，提高了变量相关性的可靠程度。同时，由于车联网数据的线性相关性较弱但彼此间又具有统计依赖，因此，非线性降维算法比传统的主成分分析更适合，可以使得降维后的数据点尽可能地容易被区分。

所述非线性降维算法可以采用等度量映射、t-SNE(一种降维方法)等。下面以等度量映射说明降维的具体步骤：

假设：对于第i个用户，步骤103形成的向量包括总公里数，早高峰驾驶距离等169个特征变量，记录为

那么，利用等度量映射方法将上述向量降维的具体步骤为：

利用k近邻(如，k取6)定义近邻点，对于两点近邻，定义之间距离为欧式距离；对于两点不近邻，定义距离为无限大；

利用最短路径算法计算所有点之间的测地线距离，构造距离矩阵B；

计算距离矩阵B的特征值，并取最大的20个特征值组成对角矩阵

D＝diag(λ₁,λ₂,…,λ₂₀)

其对应的特征向量组成

V＝(v₁,v₂,…,v₂₀)

V*D中的每一行就是原数据点在新的低维空间的坐标。

步骤105中，训练的用户驾驶行为评价模型可以采用XGBoost模型。使用所述变量集为自变量，以交通事故信息为因变量(如用户的出险次数或保险赔偿金额)，对于惩罚项，加入所有数据点(包含有标记和无标记数据)模型输出的距离测度的均值，输出是XGBoost各个阶段决策树模型以及不同树的权重。利用测试集，验证模型。步骤106中，计算待分析用户对应所述变量集的值，输入至所述用户驾驶行为评价模型，所述用户驾驶行为评价模型输出预测的待分析用户的交通事故信息，预测结果可以反映出用户驾驶行为的风险高低，以此描述车主驾驶行为。本实施例相较现有多使用的需要依靠部分先验知识无监督聚类算法，有客观量化的验证标准；相较使用逻辑回归分类器的模型，描述用户行为的测度更全面，同时避免了极端数据对模型的干扰，以及均值数据附近模型敏感度太高的问题。

本实施例基于大数据平台采集数据，使用Spark(一种专为大规模数据处理而设计的快速通用的计算引擎)计算平台，定期使用全量数据训练模型。训练以后的模型参数以配置文件形式给到工程化的计算程序输出用户驾驶行为的评分。

实施例2

一种用户驾驶行为分析系统，如图3所示，包括：数据处理模块31、特征选择模块32、模型训练模块33和模型使用模块34。所述数据处理模块31包括：用户行程数据子模块311和交通事故数据子模块312。

所述用户行程数据子模块311用于采集若干用户的车辆行驶数据，根据所述车辆行驶数据，计算若干用于描绘用户驾驶行为的指标项。

所述交通事故数据子模块312用于获取所述用户的交通事故信息。

所述特征选择模块32用于将所述指标项作为特征变量，分析每个所述特征变量与所述交通事故信息的相关性，筛选出与所述交通事故信息相关性最高的N个特征变量，形成一个N维向量。

所述特征选择模块32还用于利用非线性降维算法将所述N维向量降维，得到变量集。

所述模型训练模块33用于以所述变量集为自变量，以所述交通事故信息为因变量，训练用户驾驶行为评价模型。

所述用户行程数据子模块311还用于采集待分析用户的车辆行驶数据。

所述模型使用模块34用于利用所述用户驾驶行为评价模型评价所述待分析用户的驾驶行为。

其中，所述用户行程数据子模块311可以利用前装的车载传感器设备以预设频率采集所述若干用户的车辆行驶数据及所述待分析用户的车辆行驶数据。

具体地，所述车辆行驶数据可以包括以下数据中的至少一种：车架号、车辆所在位置的经度、车辆所在位置的纬度、GPS时间、水平精度因子、车辆的油门开合度、车辆的刹车开合度、车辆的油耗、车辆的总里程、车辆的发动机转速、车辆的速度、车辆的方向盘角度。

所述用户行程数据子模块311还可以用于将所述车辆行驶数据划分为若干行程，根据每个行程内的车辆行驶数据计算每个行程的所述指标项。所述指标项包括以下指标中的至少一种：行程开始时间、行程结束时间、总公里数、行程开始经度、行程开始纬度、行程结束经度、行程结束纬度、行程开始道路名称、行程结束道路名称、行程时长、有效数据量、行程总油耗、最大发动机转速、总发动机转速、发动机空转时长、怠速时长、最省油车速行驶时长、急加速次数、急刹车次数、急转弯次数、超速次数、公里内最高时速、夜间驾驶时长、夜间驾驶距离、行程中疲劳驾驶时长、疲劳驾驶距离、早高峰驾驶时长、早高峰驾驶距离、晚高峰驾驶时长、晚高峰驾驶距离。

所述交通事故信息可以通过脱敏后的保险理赔信息获得，所述保险理赔信息包括以下信息中的至少一种：出险次数、保险赔偿金额、事故发生时间、地点、关于事故情况的文字描述。

另外，所述特征选择模块32还可以用于将用户的熟路使用的比例作为特征变量。所述熟路使用的比例通过所述用户行程数据子模块311计算而得。

具体地，所述用户行程数据子模块311还可以用于：

其中，建立所述熟路计算模型，可以进一步包括：

对所述向量集合进行聚类，得到熟路数据集和生路数据集；

本实施例中，分析每个所述特征变量与所述交通事故信息的相关性，可以包括：

所述非线性降维算法可以采用等度量映射、t-SNE等。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些仅是举例说明，本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下，可以对这些实施方式做出多种变更或修改，但这些变更和修改均落入本发明的保护范围。

Claims

1.一种用户驾驶行为分析方法，其特征在于，包括：

获取所述用户的交通事故信息；

利用非线性降维算法将所述N维向量降维，得到变量集；

2.如权利要求1所述的用户驾驶行为分析方法，其特征在于，利用前装的车载传感器设备以预设频率采集所述若干用户的车辆行驶数据及所述待分析用户的车辆行驶数据。

3.如权利要求1所述的用户驾驶行为分析方法，其特征在于，所述车辆行驶数据包括以下数据中的至少一种：车架号、车辆所在位置的经度、车辆所在位置的纬度、GPS时间、水平精度因子、车辆的油门开合度、车辆的刹车开合度、车辆的油耗、车辆的总里程、车辆的发动机转速、车辆的速度、车辆的方向盘角度；

4.如权利要求1所述的用户驾驶行为分析方法，其特征在于，分析每个所述特征变量与所述交通事故信息的相关性，包括：

5.如权利要求1所述的用户驾驶行为分析方法，其特征在于，所述用户驾驶行为分析方法还将用户的熟路使用的比例作为特征变量。

6.如权利要求5所述的用户驾驶行为分析方法，其特征在于，通过以下步骤计算用户的熟路使用的比例：

7.如权利要求6所述的用户驾驶行为分析方法，其特征在于，通过以下步骤建立所述熟路计算模型：

对所述向量集合进行聚类，得到熟路数据集和生路数据集；

8.一种用户驾驶行为分析系统，其特征在于，包括：数据处理模块、特征选择模块、模型训练模块和模型使用模块；

所述数据处理模块包括：

交通事故数据子模块，用于获取所述用户的交通事故信息；

9.如权利要求8所述的用户驾驶行为分析系统，其特征在于，所述用户行程数据子模块利用前装的车载传感器设备以预设频率采集所述若干用户的车辆行驶数据及所述待分析用户的车辆行驶数据。

10.如权利要求8所述的用户驾驶行为分析系统，其特征在于，所述车辆行驶数据包括以下数据中的至少一种：车架号、车辆所在位置的经度、车辆所在位置的纬度、GPS时间、水平精度因子、车辆的油门开合度、车辆的刹车开合度、车辆的油耗、车辆的总里程、车辆的发动机转速、车辆的速度、车辆的方向盘角度；

11.如权利要求8所述的用户驾驶行为分析系统，其特征在于，分析每个所述特征变量与所述交通事故信息的相关性，包括：

12.如权利要求8所述的用户驾驶行为分析系统，其特征在于，所述特征选择模块还用于将用户的熟路使用的比例作为特征变量。

13.如权利要求12所述的用户驾驶行为分析系统，其特征在于，所述用户行程数据子模块还用于：

14.如权利要求13所述的用户驾驶行为分析系统，其特征在于，建立所述熟路计算模型，包括：

对所述向量集合进行聚类，得到熟路数据集和生路数据集；