CN109583741B

CN109583741B - 行驶轨迹风险评估方法和系统

Info

Publication number: CN109583741B
Application number: CN201811408039.1A
Authority: CN
Inventors: 王延峰
Original assignee: Shanghai Jiaotong University
Current assignee: Suzhou Jiaochi Artificial Intelligence Research Institute Co.,Ltd.
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2021-03-09
Anticipated expiration: 2038-11-23
Also published as: CN109583741A

Abstract

本发明提供了一种行驶轨迹风险评估方法和系统，将全路网中每条路的特征采集，将路段特征集中的数据进行标准化处理，得到标准化数据，对标准化数据分析后，初步建立出风险评估模型后，以预设调整验证方式对作为观测样本的某条路段确定邻居路段范围，依此确定出路网中每一条路段的所述邻居路段范围，从而完成风险评估模型的验证调整，再继而处理得到整条行驶轨迹风险值，此过程考虑到了路段化分析，避免了因全局化、区域化的分析带来的结果偏差大、模型不稳定的影响，本发明所提供的行驶轨迹风险评估方法模型稳定性高、风险值结果偏差小、精确度高。

Description

行驶轨迹风险评估方法和系统

技术领域

本发明涉及风险评估领域，具体地，涉及一种行驶轨迹风险评估方法和系统。

背景技术

传统风险评估方式中，静态资料评估驾驶风险随着车联网的兴起以及相关硬件技术的成熟，逐渐地被结合车主驾驶行为习惯、行驶轨迹、时间频率等一系列指标的复杂风险评估方式所超越。

非限制性地，将该复杂风险评估方式应用于保险中，即形成了UBI(Usage BasedInsurance，车辆实际使用情况来设计的保险)，但普遍基于OBD(on-board diagnostics，车载诊断系统)的UBI会遇到：OBD接口普及程度；协议的开放程度；数据的价值不高；安装位置不一致，数据校准有误差；频繁诊断数据不稳；恶意软件攻击威胁等问题。通过OBD设备输出的数据描述的车主的驾驶习惯、经验以及车辆的安全状况作为内部因素，而既有考虑这样内部因素又结合考虑不同的环境下的外部环境因素的综合性风险评估并不成熟。

现有技术对行驶轨迹的综合性风险评估，也存在基于事故发生频率进行区分，然而，一方面事故发生频率较简单、缺乏深入细致的分析，另一方面交通事故实际上发生的频率很低，因此具体到每条道路上，数据量往往很小，这样的低频数据由于缺乏统计意义，无法如实反应道路的风险程度，会对实际的风险评估带来很大的影响。

另外，现有做法中对全路网或者路网中分大区域所进行评估的方式也存在不利影响。具体而言，如果从全局来分析，则由于忽视了局部的特征而导致得到的结果与实际偏差过大。如果从区域来分析，尽管缩小了研究粒度，且考虑了空间上的相关性，但区域内部的路段与路段之间的差别仍无法体现。同时由于相邻区域之间具有较为明显的差异，而相邻路段之间则具有高度相似性，因此将现有区域分析的方法直接使用在路段上会导致模型不稳定，影响模型最后的结果。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种行驶轨迹风险评估方法和系统。

根据本发明提供的一种行驶轨迹风险评估方法，包括：

构建模型步骤：获取路网中的路段特征集，将路段特征集中的数据进行标准化处理，得到标准化数据，对标准化数据分析后，构建第一风险评估模型；

调整模型步骤：以预设调整验证方式确定路网中的各路段的邻居路段范围，基于邻居路段范围验证调整第一风险评估模型，基于第一风险评估模型，得到第二风险评估模型；

评估风险步骤：基于第二风险评估模型，得出路网中的各路段的风险值，记为路段风险值，基于所述路段风险值得到整条行驶轨迹的风险值，记为行驶轨迹风险值。

优选地，所述的行驶轨迹风险评估方法，还包括评价模型步骤：采用偏差残差评价方式、平均绝对偏差评价方式、修正的赤池信息量准则评价方式中任一种或任多种对邻居路段范围进行评价，得出邻居路段范围的最优取值，基于第一风险评估模型和最优取值，得到第二风险评估模型。

优选地，所述构建模型步骤包括：

生成数据集步骤：获取路网中的基础数据，提取基础数据中的特征数据，生成路段特征集，所述基础数据至少包括交通数据、环境数据、路网数据；

数据标准化步骤：采用min-max标准化方式对路段特征集中的数据进行标准化处理，得到标准化数据；

构建第一风险评估模型步骤：对标准化数据进行相关性分析和/或多重共线性分析，构建第一风险评估模型。

优选地，所述生成数据集步骤包括：

获取特征步骤：获取交通数据、环境数据、路网数据，将交通数据、环境数据并映射到路段上，形成交通环境路段映射关系；

映射路段步骤：基于交通环境路段映射关系，生成路段特征集。

优选地，所述生成数据集步骤还包括映射事故步骤：获取历史交通事故数据，将历史交通事故数据映射到路段上，形成事故记录路段映射关系，基于事故记录路段映射关系和交通环境路段映射关系，生成路段特征集。

优选地，所述的行驶轨迹风险评估方法，还包括：

轨迹分解步骤：对行驶轨迹进行分解，得到路段的集合，将存在历史交通事故数据的路段记为已知路段，将不存在历史交通事故数据的路段记为未知路段，对已知路段通过第二风险评估模型，得出路段风险值；对未知路段，建立未知路段特征集；

优选地，所述的行驶轨迹风险评估方法，还包括：

风险值分段步骤：根据连续值特征分段标准将已知路段的路段风险值进行分段，得到已知路段风险值分段评估结果；基于信息熵和离散特征对路段特征集进行分段，得到已知路段的离散特征集合；

构建决策树步骤：枚举离散特征集合中的特征，计算特征的熵值，将熵值最小的特征作为分支节点，构建已知路段决策树；

未知路段风险评级步骤：根据连续值特征分段标准将未知路段特征集进行分段，依照已知路段决策树，得出未知路段风险评级。

优选地，所述预设调整验证方式包括通过重采样方式得到邻居路段范围的下限取值，进一步由赤池信息量准则，得到所述邻居路段范围的最优取值。

根据本发明提供的一种行驶轨迹风险评估系统，包括：

构建模型模块：获取路网中的路段特征集，将路段特征集中的数据进行标准化处理，得到标准化数据，对标准化数据分析后，构建第一风险评估模型；

调整模型模块：以预设调整验证方式确定路网中的各路段的邻居路段范围，基于邻居路段范围验证调整第一风险评估模型，基于第一风险评估模型，得到第二风险评估模型；

评估风险模块：基于第二风险评估模型，得出路网中的各路段的风险值，记为路段风险值，基于所述路段风险值得到整条行驶轨迹的风险值，记为行驶轨迹风险值。

优选地，所述的行驶轨迹风险评估方法，还包括评价模型模块：采用偏差残差评价方式、平均绝对偏差评价方式、修正的赤池信息量准则评价方式中任一种或任多种对邻居路段范围进行评价，得出邻居路段范围的最优取值，基于第一风险评估模型和最优取值，得到第二风险评估模型。

与现有技术相比，本发明技术方案具有以下有益效果：

本发明考虑到了全路网中每条路的特征采集，初步建立出风险评估模型后，以预设调整验证方式对作为观测样本的某条路段确定邻居路段范围，依此确定出路网中每一条路段的所述邻居路段范围，从而完成风险评估模型的验证调整，再继而处理得到整条行驶轨迹风险值，此过程考虑到了路段化分析，避免了因全局化、区域化的分析带来的结果偏差大、模型不稳定的影响，本发明所提供的行驶轨迹风险评估方法模型稳定性高、风险值结果偏差小、精确度高。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1为本发明的实施例中行驶轨迹风险评估方法的流程示意图；

图2为本发明的实施例中行驶轨迹和路网的映射示意图；

图3为本发明的实施例中获取行驶轨迹的示意图；

图4为本发明的实施例中行驶轨迹所包含路段的分解示意图；

图5为本发明的实施例中针对某条路段的风险值计算示意图；

图6为本发明的实施例中整条行驶轨迹的风险值计算示意图；

图7本发明的实施例中对缺乏交通事故记录的未知路段的行驶轨迹风险评估方法的流程示意图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变化和改进。这些都属于本发明的保护范围。

发明人发现现有技术中，通过全局分析忽视了局部的特征导致结果偏差过大，如果将现有区域分析的方法直接搬挪转用在路段分析上又会导致模型不稳定的问题。针对上述问题，发明人经过研究，提供了一种行驶轨迹风险评估方法，考虑到全路网中每条路的特征采集，初步建立出风险评估模型后，以预设调整验证方式对作为观测样本的某条路段确定邻居路段范围，依此确定出路网中每一条路段的所述邻居路段范围，从而完成风险评估模型的验证调整，再继而处理得到整条行驶轨迹风险值，此过程考虑到了路段化分析，避免了因全局化、区域化的分析带来的结果偏差大、模型不稳定的影响，本发明所提供的行驶轨迹风险评估方法模型稳定性高、风险值结果偏差小、精确度高。

根据本发明提供的一种行驶轨迹风险评估方法，包括：

构建模型步骤：获取路网中的路段特征集，将路段特征集中的数据进行标准化处理，得到标准化数据，对标准化数据分析后，构建第一风险评估模型；优选地，标准化处理后，将经过特征筛选的路段特征用于构建第一风险评估模型，其中，特征筛选通过相关性分析和/或多重共线性分析实现；优选地，所述特征筛选对所得到的路段特征考虑空间数据基础上或进一步考虑时间数据以参数方式或半参数方式，构建出风险评估模型，所述构建评估模型采用基于空间或进一步考虑时间数据的半参数加权泊松回归模型；

评估风险步骤：基于第二风险评估模型，得出路网中的各路段的风险值，记为路段风险值，基于所述路段风险值得到整条行驶轨迹的风险值，记为行驶轨迹风险值。通过风险评估模型得到了路网中每条路段的事故数量预测值，对事故数量预测值做标准化处理后得到所有道路的风险值。其中，在经处理得到整条行驶轨迹的风险值中，包括：将一条行驶轨迹分解为道路的集合，然后对这些道路的风险值进行累加即可得到该条轨迹的风险值。

其中，当预设调整验证方式采用高斯权重方式时，所述邻居路段范围由固定距离b确定，即在半径为b的圆所覆盖的范围内所有路段作为观测样本，当预设调整验证方式采用自适应双二次权重方式时，所述邻居路段范围由观测样本数确定，也称为邻居数，即离观测样本i最近的前k个邻居路段。

具体地，所述的行驶轨迹风险评估方法，还包括评价模型步骤：采用偏差残差评价方式、平均绝对偏差评价方式、修正的赤池信息量准则评价方式中任一种或任多种对邻居路段范围进行评价，得出邻居路段范围的最优取值，基于第一风险评估模型和最优取值，得到第二风险评估模型。

具体地，所述构建模型步骤包括：

具体地，所述生成数据集步骤包括：

获取特征步骤：获取交通数据、环境数据、路网数据，将交通数据、环境数据映射到路段上，形成交通环境路段映射关系；

映射路段步骤：基于交通环境路段映射关系，生成路段特征集。将交通数据、环境数据映射到所述路网数据中的每条路段上形成交通环境路段映射关系，当所述行驶轨迹中包含的路段不存在历史交通事故记录时，基于交通环境路段映射关系生成所述路段特征集；当所述行驶轨迹中包含的路段存在历史交通事故记录时，将历史交通事故记录映射到相应路段上，基于所形成的事故记录路段映射关系生成所述路段特征集。

具体地，所述生成数据集步骤还包括映射事故步骤：获取历史交通事故数据，将历史交通事故数据映射到路段上，形成事故记录路段映射关系，基于事故记录路段映射关系和交通环境路段映射关系，生成路段特征集。

具体地，所述的行驶轨迹风险评估方法，还包括：

当所述行驶轨迹中包含的路段不存在历史交通事故记录时，通过存在历史交通事故记录的路段得到该路段的风险值集合，据此构建分类器；根据所构建的分类器映射对照确定出不存在历史交通事故记录的路段的风险值。在构建分类器的过程中，根据路段风险值的分布和实际分段需求做分段处理。

具体地，所述的行驶轨迹风险评估方法，还包括：

具体地，所述预设调整验证方式包括通过重采样方式得到邻居路段范围的下限取值，进一步由赤池信息量准则，得到所述邻居路段范围的最优取值。

根据本发明提供的一种行驶轨迹风险评估系统，包括：

具体地，所述的行驶轨迹风险评估系统，还包括评价模型模块：采用偏差残差评价方式、平均绝对偏差评价方式、修正的赤池信息量准则评价方式中任一种或任多种对邻居路段范围进行评价，得出邻居路段范围的最优取值，基于第一风险评估模型和最优取值，得到第二风险评估模型。

本发明提供的行驶轨迹风险评估系统，可以通过行驶轨迹风险评估方法的步骤流程实现。本领域技术人员可以将行驶轨迹风险评估方法理解为所述行驶轨迹风险评估系统的优选例。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。

如图1所示的是本发明的一种行驶轨迹风险评估方法的实施例的流程示意图。

本第一实施例中，所针对的路网具有完整的交通数据、环境数据、历史交通事故记录等数据信息，以具有部分该数据信息发生变化的容错性为背景，来对路网中的行驶轨迹风险进行评估。上文中，具有完整数据信息的情况为：一条行驶轨迹中包含的路段特征集是历史交通事故数据所涉及的路网的路段特征集的子集。具有部分该数据信息发生变化的容错性的情况为：某些路段因为一些原因造成信息不全，如：施工等原因而缺失，新建道路缺乏相关数据，路段交通事故数据统计不完整等。

如图1所示，该行驶轨迹风险评估方法包括如下步骤：

首先，建立路段特征集的步骤，包括：

步骤S1：获取如下相关数据，可按实际任意种类、数量组合，并不限于此罗列：

路网数据：道路位置、道路属性(如路段长度、路段形状曲率、车道数、最高限速、路面情况、路灯情况、有无非机动车等)等；

交通数据：交通流量、各类型车辆占比等；

环境数据：天气、人口数据(如人口密度、男女性别占比、年龄分布、汽车拥有情况、就业率、出行方式、经济程度等)、土地使用类型(如居民区、商业区、工业区等)、地理环境等；

历史交通事故记录：驾驶员信息、驾驶车辆信息、天气、时间、位置、事故描述(如严重程度、伤亡情况等)等。

步骤S2：至少获取交通数据、环境数据以及路网数据；

步骤S3：将交通数据、环境数据映射到每条路段上形成交通环境路段映射关系。

步骤S4：判断是否存在历史交通事故数据，当行驶轨迹中包含的路段不存在历史交通事故记录时，基于交通环境路段映射关系，来处理生成如步骤S6中的路段特征集；

步骤S5：当行驶轨迹中包含的路段存在历史交通事故记录时，将历史交通事故记录映射到路段上，基于所形成的事故记录路段映射关系，来处理生成如步骤S6中的路段特征集。

此第一实施例中，继续针对当行驶轨迹中包含的路段存在历史交通事故记录时的情况为具体实施例进行说明，不存在历史交通事故记录时的情况由下述第二实施例进行说明。

步骤S7：数据标准化步骤，包含：通过路段特征集中的数据，本第一实施例中，得到路段中与交通事故相关的主要因素，将这些因素按照min-max标准化(Min-maxnormalization)公式(1)做标准化处理；

式中：max——样本数据的最大值；

min——样本数据的最小值；

x——路段特征集中的原始数据值；

x^*——标准化后的数据值。

步骤S8：在构建风险评估模型步骤中，对标准化处理后的路段特征集中的数据进行相关性分析、多重共线性分析这样的特征筛选步骤是非必要的，也可以通过相关性分析和/或多重共线性分析来实现筛选，分别进行以下步骤说明。

相关性分析：相关性分析的目的是分析任意两个路段特征之间的相关程度，有针对性地删减相关性强的因素，即删减相关性强的特征数据。因此这里以Pearson相关系数为例作分析，计算公式(2)如下：

式中：

——特征取值向量X的均值；

X_i——向量X的第i个取值，n表示向量X总的取值个数；

——特征取值向量Y的均值；

Y_i——向量Y的第i个取值；

r_X,Y——变量X和Y的Pearson相关系数。

多重共线性分析：该分析的目的是避免多个特征之间的强相关性影响模型的结果，这里以通过计算各个输入变量的方差膨胀因子(Variance inflation factor，VIF)的值为例作多重共线性分析。在计算一个变量的方差膨胀因子时，以该变量作为因变量，然后关于其他变量进行多元线性回归。计算公式(3)为：

R²是多元线性回归模型的决定系数，计算公式(4)为：

式中：ESS——多元线性回归模型的残差平方和；

TSS——多元线性回归模型的总体平方和；

ESS和TSS的计算公式(5)、(6)为：

式中：Y_i——变量y的实际取值向量Y的第i个值

——由多元线性回归模型得到的Y_i的估计值

——变量y实际取值向量Y的平均值

方差膨胀因子VIF越大，显示共线性越严重。经验判断方法表明：当0<VIF<10，不存在多重共线性；当10≤VIF<100，存在较强的多重共线性；当VIF≥100，存在严重多重共线性，可以根据VIF值有针对性地删减共线性强的因素，本实施例中即以此为标准删减相关性强的特征数据，此处方差膨胀因子的阈值并非仅限制为10、100，表示存在或不存在多重共线性的阈值均可在可预见性的预定范围内被取值设置。

继续地，步骤S8中的建立风险评估模型：将上述相关性分析、多重共线性分析等删减处理(非必要)完后的特征数据用于建立风险评估模型。

在本发明中，构建出风险评估模型的步骤包含：对所得到的路段特征考虑空间数据基础上或进一步考虑时间数据以参数方式或半参数方式，构建出风险评估模型均可。

采用基于空间和时间数据的半参数加权泊松回归模型为优选方式，即基于时空的半参数加权泊松回归模型，其中时空指考虑时间和空间的数据，半参数加权的含义为部分参数为局部变量，即每条路段上那部分参数的取值不同，另一部分参数则为全局变量，即每条路段上那部分参数取值相同。由此可见该模型比较灵活，可以根据数据的实际情况可以有不同的形式，例如如果缺少时间相关的数据，则可以将模型转换为基于空间的半参数加权泊松回归模型；如果全部参数都为局部参数，则变为基于空间的加权泊松回归模型。

为了理解和叙述上的便利，本例中，以公式(7-1)的基于空间的加权泊松回归模型为例作介绍，更为普遍的基于时空的半参数加权泊松回归模型参见第一实施例的补充说明部分：

式中：λ_i——第i个观测样本的事故数的期望值，同时也是泊松分布的参数

E_vi——第i个观测样本的暴露变量(Exposure variable)，在本例中该变量即指交通流量

X_ij——第i个观测样本的第j个解释变量

X_ik——第i个观测样本的第k个解释变量

(u_i,V_i)——观测样本i的几何中心的二维坐标

β_j(u_i,v_i)——第i个观测样本的第j个变量的参数，是与观测样本

(u_i,v_i)有关的一个函数，共有l-1个变量。

其中，β_j(u_i,v_i)可以用如下公式(8)估计：

是观测样本i的局部回归系数，是一个p+1维向量。X是输入变量矩阵，Y是n维因变量向量，代表n个观测样本，W(u_i,v_i)是一个n×n的空间加权矩阵，表达式(9)如下：

式中：w_ij——观测样本i进行模型校正时对观测样本j(j＝1,2,3,…,n)所加的权重，应着重说明的是，此模型校正时的权重即可考虑为：对作为观测样本的某条路段评估时所参考的以该条路段开始的邻居路段范围，此邻居路段范围在不同的预设调整验证方式中的定义不相同，解释说明如下：

对所初步构建的风险评估模型按照预设调整验证方式进行调整，其一般有以下两种形式：高斯权重方式和自适应双二次权重方式。

·高斯权重函数采用公式(10)：

·自适应双二次权重函数采用公式(11)：

式中：d_ij——观测样本i的中心和观测样本j的中心之间的欧式距离，即

b——根据欧式距离确定的固定带宽

b_i(k)——观测样本i的自适应带宽：观测样本i与其的第k个最近观测样本之间的距离

步骤S9：以预设调整验证方式确定出对作为观测样本的某条路段评估时所参考的以该条路段开始的邻居路段范围，依此确定出路网中每一条路段的所述邻居路段范围，完成对所述风险评估模型的验证调整。

本实施例中，所述预设调整验证方式包含：通过重采样方式得到所述邻居路段范围的下限取值；以及进一步包含重采样方式得到邻居路段范围的下限取值后，由修正的赤池信息量准则AICc方法，得到所述邻居路段范围的最优取值。在本发明中，也可仅通过重采样方式得到所述邻居路段范围的下限取值即可。

其中，上述重采样方式包含但不限制于：交叉验证方法、自助方法、留一方法等等，省略其他重采样方式的变形例子可预见性、可替换性地罗列，用于确定模型稳定性时的邻居路段范围的下限取值。

上述预设调整验证方式中例如公式(10)、公式(11)的带宽即邻居路段范围在不同的权重定义中有不同的定义：例如在高斯权重函数中，带宽为固定的距离b，即在半径为b的圆所覆盖的范围内所有的观测样本。而在自适应双二次权重函数中，则是观测样本数，也称为邻居数，即离观测样本i最近的前k个邻居路段。

由于模型考虑的粒度非常细，例如路段，因此会有稳定性的问题存在，即相邻路段过于相似，导致预测结果的不稳定，为了得到更准确的预测结果。

这里以自适应双二次权重函数的定义为例，首先用交叉验证方法确定模型的稳定性，从而得到带宽的下限，然后用AICc(corrected Akaike information criterion)方法得到带宽的最优取值。

交叉验证的具体过程为：将数据集随机地分为若干份，这里以10部分为例，每一次建模都只丢掉其中的一部分，对某个带宽即邻居路段范围值K，循环建模10次，每次建模路段的邻居都会不同，最终每个路段会得到10个不同的局部模型以及相应的10个预测结果。如果预测结果的标准差小于预定阈值可理解为较小时，就说明模型的预测较为稳定，如果标准差大于预定阈值即过大时，则增加K的大小重复上述过程，直到模型趋于稳定，由此得到K的下限值。

风险评估模型选择自适应带宽时所使用的指标AICc的计算公式(12)下：

式中：N——观测样本的数量；

AIC——详见“模型评估”部分中的相关定义。

AICc的值越小，表明模型的结果越好，因此在之前得到的K的下限的基础上继续迭代，最后得到最优的带宽K，即得到最优的邻居路段范围值K。

为了确定邻居路段范围值K的下限取值，另一种确定稳定性的重采样方式：自助法(bootstrap)如下说明：

自助法(bootstrap)基本步骤是从训练数据集中有放回的随机取样，得到的数据集的容量与原训练集相同。这样重复多次，可得多个自助法数据集，在其上拟合模型，并检查多次重复实验的拟合结果(没有被自助法选入训练集的样本用来做预测)。

这里以自适应双二次权重函数的定义为例，首先用自助法确定模型的稳定性，从而得到带宽的下限，然后用AICc(corrected Akaike information criterion)方法得到带宽的最优取值。

自助法的基本过程为：每次建模都从数据集中随机地采样一定的数据，这里以60％为例，即随机采样60％大小的数据，把剩余的40％的数据丢弃，对某个带宽即邻居数K，循环建模多次，这里以10次为例，则每次建模路段的邻居都会不同，最终每个路段会得到10个不同的局部模型以及相应的10个预测结果。如果预测结果的标准差较小，就说明模型的预测较为稳定，如果标准差过大，则增加K的大小重复上述过程，直到模型趋于稳定，由此得到K的下限。

步骤S10：对风险评估模型进行模型评价步骤，这里采用三个例如基于偏差残差评价方式

MAD(Mean absolute deviance平均绝对偏差评价方式)和AICc(Akaikeinformation criterion修正的赤池信息量准则评价方式)中任意至少一种。

是一个基于标准残差，用来评估模型对数据拟合优度的指标，

越大表示模型对数据的拟合程度越好。计算方法如下公式(13)：

式中：

——模型估计的观测样本i的交通事故数；

Y_i——观测样本i实际的交通事故数；

——所有观测样本实际交通事故数的平均值。

MAD方式是一个评价模型预测准确性的指标，MAD越小表示在平均水平上模型对事故数的预测能力越好。计算方法如下公式(14)：

式(14)中各变量的定义与

中的定义相同。

AICc方式中的AIC指标也是评估模型对数据集拟合优度的指标，同时它也考虑了模型的复杂程度。计算方法如下公式(15-1)；(15-2)；(15-3)：

AIC＝D+2K (15-1)

K＝Trace(S) (15-3)

式中各变量的定义与

中的定义相同。AIC的值越小，表示模型越好。

步骤S11：路段风险标准化步骤：上述模型得到了每条路段的事故数量预测值，将上述结果按照min-max标准化公式(1)做标准化处理，得到路网中所有道路的风险值集合U＝{u₁,u₂,…,u_n}，其中u_i为第i条路段的风险值。

步骤S12：轨迹风险评价步骤，包含：

对于一整条行驶轨迹

即该整条的轨迹C_i可以视为路段

的集合。由于其包含的路段集合是历史交通事故数据所涉及的路段集合的子集，因此得到行驶轨迹所对应的路段风险值集合

其中

为路段

对应的风险值。基于开车时间越长，风险越大这一观察，通过公式(16)该条轨迹的风险值为：

因此，基于验证调整后的风险评估模型得出路网中各条路段的风险值，经处理得到整条行驶轨迹的风险值。

以下结合图2至图6对第一实施例进行说明，如图2中具体路网情况包含道路A至道路I以规律方式或者不规律方式进行交错组合连接排列，图3可知，获取行驶轨迹，将行驶轨迹映射到路网上，由图4可知，根据路网将轨迹拆分为路段集合，轨迹对应的路段集合为{道路A，道路B，道路C，道路D}。由图5可知，计算路段风险，将道路A作为观测样本的路段，对此路段进行评估时所参考的周边路段经过上述第一实施例中的预设调整验证方式，其具体确定过程省略表达来看，可确定出该道路A的邻居路段范围是周边的道路B、道路C、道路E、道路F、道路G、道路H、道路I，通过周边路段的相关信息计算目标路段的风险值，综合考虑道路A自身及其周边的邻居路段范围，建立基于时空的加权泊松回归模型来得到道路A的风险值为：0.0001。以此类推，对行驶轨迹中的道路B、道路C、道路D进行同样的邻居路段范围确定和风险值的计算，从而由图6可知，计算轨迹风险，综合该条行驶轨迹涉及的所有路段的风险值得到这条轨迹的风险值为：0.0314159。

总结，回过来看上述的关于部分特征数据发生变化时的模型容错性的说明，可得出：由于针对路网中的每条路段，风险评估模型都综合考虑了作为观测样本时其周边的路段数据，因此，整体上来看，路网中一部分路段的特征数据缺失并不会对结果产生过大的影响。同时，由于在对以预设调整验证方式对风险评估模型进行验证调整时，“确定邻居路段范围”这一步的过程中使用了例如交叉验证的重采样方式，这一过程本身就有以数据不完整为前提，因而保证了风险评估模型的容错性。

第一实施例中采用基于空间的半参数加权泊松回归模型，接下来对其他风险评估模型构建方式的其他可选变形例子进行说明：

(1)第一变形例的说明：基于空间的半参数加权泊松回归模型。

第一实施例中的基于空间的加权泊松回归模型是一个非参数回归模型，其主要特点在于重点考虑了空间变化对模型的影响，但是有时考虑的特征中有些特征其实是与区域无关的，如果从区域的角度来考虑这些因素可能会导致模型过拟合等问题，影响模型的最后结果。因此对于这些与区域无关的特征，就有必要作为全局特征来处理，由此得到了基于空间的半参数加权泊松回归模型。

下面主要针对其与第一实施例中的空间模型的区别作逐一说明，基于空间数据的半参数加权泊松回归模型可以表述为：如下公式(7-2)：

式中：X_ij——第i个观测样本的第j个解释变量；

X_ik——第i个观测样本的第k个解释变量；

β_j——第i个观测样本的第j个变量的参数，是与观测样本(u_i,v_i)无关的一个全局变量，共有l-1个变量；

β_k(u_i,v_i)——第i个观测样本的第k个变量的参数，是与观测样本(u_i,v_i)有关的一个局部变量，共有p-l个变量；

其余变量与上述空间模型公式(7-1)的相一致。

为了确定基于空间数据的半参数加权泊松回归模型中的全局变量与局部变量，首先求解如下公式(17)：

即所有参数都是全局变量，估计公式(18)如下：

其中：W＝Diag(λ_i)，即为λ_i的对角矩阵。

由此，求得全局变量

接下来对于每一个全局变量

将其余的变量都视为局部变量，求解相应的空间模型，然后用AICc等评估方法得到该模型的评估结果与原先求解的空间模型的评估结果，如果该模型的效果更好，则认为β_j应该视为全局变量，否则β_j则应该为局部变量。由此得到基于空间的半参数加权泊松回归模型。

(2)第二变形例的说明：基于时空的加权泊松回归模型。

此变形例中，基于时空的加权泊松回归模型，与第一实施例中的基于空间的加权泊松回归模型的主要区别在于时空模型增加了时间这一维度，因此相应的公式(7-3)都增加了时间变量。下面主要针对其与空间模型的区别作逐一说明：

式中：t_i——观测样本i的时间值；

β_k(u_i,v_i,t_i)——第i个观测样本的第k个变量的参数，是观测样本(u_i,v_i,t_i)的一个函数，共有p+1个变量；

其余变量与基于空间的加权泊松回归模型的公式(7-1)相一致。

在公式(7-3)中，β_k(u_i,v_i,t_i)可以用如下公式(19)估计：

其中，

是观测样本i的局部回归系数，是一个p+1维向量。X是输入变量矩阵，Y是因变量向量，W(u_i,v_i,t_i)是一个n×(q+1)阶的空间加权矩阵，表达式(20)如下：

该式(20)中：w_ij,T——观测样本i进行模型校正时对观测样本j(j＝1,2,3,…,n)在观测时间T(T＝t,t-1,…,t-q)所加的权重，其形式和空间模型中类似，但由于引入了时间变量，因此距离函数需要做以下公式(21)相应修改：

式(21)中：γ、μ——分别为空间与时间距离的比例系数，用于调节两种距离之间的差异；

t_i、t_j——分别为观测样本数据i、j对应的时间值；

其余变量与空间模型(7-1)相一致。

将上述公式(21)的距离定义，代入相应的权重函数后，剩下的步骤与空间模型基本一致，故不再赘述。

在第二实施例中，所针对的路网数据具有完整道路信息，部分或者没有交通事故等数据信息为背景，来对路网中的行驶轨迹风险进行评估。所述具有完整道路信息，部分或者没有交通事故等数据信息是指：在有些情况下，我们虽然拥有完整的道路相关数据，例如路网数据、交通数据和环境数据等，且部分区域有交通事故记录，但轨迹涉及的道路中缺乏相应的交通事故记录。

因为行驶轨迹涉及的道路中包含缺乏相应的交通事故记录的路段，如图7所示，本发明通过将行驶轨迹分为未知路段和已知路段，通过包含以下步骤来解决这一问题：当所述行驶轨迹中包含的路段不存在历史交通事故记录时，针对该路段的风险评估方法包括：

通过存在历史交通事故记录的路段利用如上述第一实施例所述的方法得到该路段的风险值集合，据此构建分类器；

根据所构建的分类器映射对照确定出不存在历史交通事故记录的未知路段的风险值。

具体来说，实施例二中的行驶轨迹风险评估方法包含以下步骤：

1.轨迹分解步骤：将轨迹分解为路段的集合，然后根据是否缺乏历史交通事故记录将路段拆分为已知路段和未知路段，对其中缺乏交通事故记录的路段(下简称为未知路段)使用分类算法获取其风险值，有交通事故记录的路段(下简称为已知路段)参考第一实施例中的方法确定其事故风险值，最后参照第一实施例中的方法得到轨迹的风险评估。

因此下面主要描述确定没有交通事故记录的路段的风险值的过程。

2.获取训练数据集步骤,包含：

步骤S2-1：建立路段特征集F：提取训练数据集中涉及的路段特征，得到特征集F＝{f₁,f₂,…,f_m}；

步骤S2-2：将第一实施例中的方法应用在已知路段上，得到已知路段风险值集合

步骤S2-3：由已知路段风险值集合

可知已知路段风险值评估结果，依据该结果将已知路段风险值进行分段，此处，为了避免分类结果过于离散，可以根据路段风险值的分布和实际需求做分段处理，这里以将路段风险值分为安全、警惕、危险这3段为例。

步骤S2-4：将已知路段风险值进行分段后，得到已知路段风险值分段评估结果；

步骤S2-5：对所建立的路段特征生成路段特征集合；

步骤S2-6：为了避免因连续值特征导致分类结果过于离散，这里对路段特征是否为连续值特征进行判断后，基于信息熵对连续值的特征做分段；

步骤S2-7：对特征集中的特征f_j计算其每种分段情况下的熵；

步骤S2-8：从每种分段情况下所计算出的熵中，选取取最小的结果作为最终的分段标准，计算公式(22-1)；公式(22-2)如下：

式中：D_j——特征f_j所包含的值的集合，|D_j|为集合D_j的大小；

k——第k种分段方法；

h——将集合D_j分为h段；

——将集合D_j第k种分段方法分为h段后，第i段的集合，

为集合

的大小；

——集合

的熵；

3——将集合

根据路段风险值分段的结果分为安全、警惕、危险3段；

——第l段包含的数据个数在集合

中的占比。

步骤S2-9：判断是否还有未分段的连续值特征，如果还有，则对该连续值特征分段，参见步骤S2-6至S2-8，如果没有则执行下一个步骤；

步骤S2-10：经过上述处理后，所有的路段特征都为离散特征，从而得到路段的离散特征集合；

3.构建决策树步骤,包含：

步骤S2-11：首先枚举特征集F＝{f₁,f₂,…,F_m}中的每一个特征f_i；

步骤S2-12：按照上述公式(22-1；22-2)计算其熵，然后选择熵值最小的特征作为当前的分支特征，作为分支节点；

步骤S2-13：从特征集中删去该熵值最小的特征；

步骤S2-14：对余下的特征重复上述过程，判断特征集是否为空，直到最后一个特征为止。

步骤S2-15：得到基于已知路段而构建的已知路段决策树；

4.根据所构建的已知路段的决策树得到未知路段的事故风险值步骤,包含：

步骤S2-16：对于一条未知路段，首先获取其特征值的集合；

步骤S2-17：然后，对于未知路段的特征值集合中的连续值特征按照上述对应的连续值特征分段标准确定其所属哪一段(参见步骤S2-6至S2-10)，对其连续值特征进行分段；

步骤S2-18：根据之前所构建的已知路段的决策树(参见步骤S2-15)，对未知路段特征集合确定其所属的风险评级；

步骤S2-19：最后映射得出未知路段的风险评级。

在本发明中，在上述在构建例如决策树的分类器过程中，根据路段风险值的分布和实际分段需求做分段处理未非必要步骤，如果连续值特征的分类结果未出现过于离散的状况，则可省略确定分段标准的步骤。

综上两个实施例和变形例可知，基于历史交通事故记录和相关道路信息，研究导致交通事故的主要影响因素(如：驾驶员属性、天气、时间、道路属性、环境属性等)，分析其相关性和多重共线性，并对数据做标准化等处理，由此得到模型的输入矩阵和因变量矩阵，通过模型训练得到每条路段在不同情况下的风险评估。对于一条行驶轨迹，基于其行驶条件(如：驾驶员基本信息、行驶的时刻、天气等等)、轨迹本身的信息(如途径的路段等)和之前得到的路段风险评估结果，计算轨迹中每条路段在其行驶条件下的风险程度。综合上述信息得到这条行驶轨迹的风险评估结果。如果轨迹中某路段不在上述路段风险评估结果中，在已有路段的风险评估结果上建立分类器，然后获取该路段的特征信息(如：道路属性、环境属性等)，基于分类器建立该路段与已有路段风险评估结果的映射关系，从而得到该路段的风险评估结果，最后综合已有的路段风险评估结果得到最终的行驶轨迹的风险评估结果。所具有的进一步的有益效果体现在：

首先对道路风险评估做了细致的研究，通过多种方法来降低交通事故低频的影响，并在此基础上评估行驶轨迹的实际风险，通过从全局特征和局部特征两个角度对各种风险因素的全面考虑，得到更为准确的风险评估结果，在对例如保费计算等具体技术应用领域提供了更为可靠的依据。另外，本发明建立的风险评估模型结构灵活，能够良好地适应数据的不同变化和缺失，例如：对路段建立的基于时空的路段风险评估模型在缺乏和时间相关的数据时，能够直接变换为基于空间的路段风险评估模型；如果某些路段因为一些原因造成信息不全，如：施工等原因而缺失，新建道路缺乏相关数据，路段交通事故数据统计不完整等，本发明建立的模型由于考虑周边路段的信息以及在建立模型中就有数据不完整的验证机制，因此能够比较完善地弥补上述问题，具有较好的稳定性和扩展性。另外，本发明对于缺乏数据的区域也能通过已有的结果建立映射关系，得到相应的风险评估结果，从而极大地提升了本发明的适用范围。

由于本发明考虑的风险因素覆盖面较广，因此可以为车主提供相关的风险分析，从而帮助其更好地规避风险，带来更安全的驾驶体验。本发明只需记录行驶轨迹，并不依赖于背景技术所提及的OBD设备，避免了OBD设备的种种缺陷所产生的问题。

本领域技术人员知道，除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外，完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以，本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件，而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构；也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种行驶轨迹风险评估方法，其特征在于，包括：

评估风险步骤：基于第二风险评估模型，得出路网中的各路段的风险值，记为路段风险值，基于所述路段风险值得到整条行驶轨迹的风险值，记为行驶轨迹风险值；

所述构建模型步骤包括：

构建第一风险评估模型步骤：对标准化数据进行相关性分析和/或多重共线性分析，构建第一风险评估模型；

所述生成数据集步骤包括：

2.根据权利要求1所述的行驶轨迹风险评估方法，其特征在于，还包括评价模型步骤：采用偏差残差评价方式、平均绝对偏差评价方式、修正的赤池信息量准则评价方式中任一种或任多种对邻居路段范围进行评价，得出邻居路段范围的最优取值，基于第一风险评估模型和最优取值，得到第二风险评估模型。

3.根据权利要求1所述的行驶轨迹风险评估方法，其特征在于，所述生成数据集步骤还包括映射事故步骤：获取历史交通事故数据，将历史交通事故数据映射到路段上，形成事故记录路段映射关系，基于事故记录路段映射关系和交通环境路段映射关系，生成路段特征集。

4.根据权利要求1所述的行驶轨迹风险评估方法，其特征在于，还包括：

轨迹分解步骤：对行驶轨迹进行分解，得到路段的集合，将存在历史交通事故数据的路段记为已知路段，将不存在历史交通事故数据的路段记为未知路段，对已知路段通过第二风险评估模型，得出路段风险值；对未知路段，建立未知路段特征集。

5.根据权利要求4所述的行驶轨迹风险评估方法，其特征在于，还包括：

6.根据权利要求1所述的行驶轨迹风险评估方法，其特征在于，所述预设调整验证方式包括通过重采样方式得到邻居路段范围的下限取值，进一步由赤池信息量准则，得到所述邻居路段范围的最优取值。

7.一种行驶轨迹风险评估系统，其特征在于，包括：

评估风险模块：基于第二风险评估模型，得出路网中的各路段的风险值，记为路段风险值，基于所述路段风险值得到整条行驶轨迹的风险值，记为行驶轨迹风险值；

所述构建模型模块，获取路网中的基础数据，提取基础数据中的特征数据，生成路段特征集，所述基础数据至少包括交通数据、环境数据、路网数据，将交通数据、环境数据并映射到路段上，形成交通环境路段映射关系；采用min-max标准化方式对路段特征集中的数据进行标准化处理，得到标准化数据；对标准化数据进行相关性分析和/或多重共线性分析，构建第一风险评估模型；基于交通环境路段映射关系，生成路段特征集。

8.根据权利要求7所述的行驶轨迹风险评估系统，其特征在于，还包括评价模型模块：采用偏差残差评价方式、平均绝对偏差评价方式、修正的赤池信息量准则评价方式中任一种或任多种对邻居路段范围进行评价，得出邻居路段范围的最优取值，基于第一风险评估模型和最优取值，得到第二风险评估模型。