CN111242484B

CN111242484B - 基于转移概率的车辆风险综合评价方法

Info

Publication number: CN111242484B
Application number: CN202010036793.8A
Authority: CN
Inventors: 祝志杰; 林兆平
Original assignee: Shenyang Ping Tong Hi Tech Co ltd
Current assignee: Shenyang Ping Tong Hi Tech Co ltd
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2023-09-19
Anticipated expiration: 2040-01-14
Also published as: CN111242484A

Abstract

基于转移概率的车辆风险综合评价方法，其步骤为：1)数据的采集及处理：2)确定指标分类：根据指标对风险影响大小，将指标分为对风险影响大的A类指标和对风险影响小的B类指标；其中A类指标包括防碰撞预警指标和疲劳驾驶报警指标；3)针对预处理过后的车联网报警数据，构建的车辆驾驶风险评估模型。通过上述步骤，本发明提供了一种评价准确性好，使用效果好，适用能力强的基于转移概率的车辆风险综合评价方法。

Description

基于转移概率的车辆风险综合评价方法

技术领域

本发明创造涉及一种车辆风险综合评价方法，具体涉及一种基于转移概率的车辆风险综合评价方法。

背景技术

中国2018年汽车总产销为一千二百万辆，环比增长4％，超美国汽车总产销40％以上，是目前世界上汽车产业发展速度最快的国家。近年来，社会发展和人民生活水平的不断提高，公路汽车在各个领域已变得非常普遍。然而，其所面临的道路交通安全问题也日益凸显。当前，道路交通事故已经成为威胁人民公共安全的最严重问题之一。2016年世界卫生组织(WHO)统计数据显示，中国每年因交通事故死亡者超过20万，其中1万名以上是15岁以下的青少年，因交通事故致伤、致残者数量则更多。道路交通事故危害的不仅仅是广大人民群众的生命安全，同时给社会造成极大的经济损失，其损失程度预估可以占到国内生产总值的3％。

在整个道路交通安全系统中，影响交通安全的因素有很多种，其中由驾驶员和机动车相互影响而造成的交通事故尤为严重。车队作为车辆公司的最基层管理单位，其有效的运行不仅关系到车队实际的经济利益，更加关系到其人员的健康与安全。交通安全问题是现阶段最大的风险，因此安全管理是日常运作的重要环节之一。道路交通事故的发生除了道路交通法规和汽车制造等因素之外，还涉及到驾驶员的因素。对于运输车队而言，安全管理尤为重要，关于车队安全管理的方式有很多种，其中较为流行的是车队的行为安全管理。通过管理车队驾驶员的心理、行为以及车队文化等方面进行风险控制。“人”是控制交通危险发生的主体，通过让人们意识到交通安全的重要性并提高相应的安全意识，以此来降低交通事故的发生率。在现阶段的车队管理中，通常引进主动安全预警系统(AdvancedDriver Assistance Systems，简称ADAS)，利用安装在车辆上的各种传感器实时收集车辆行驶过程中的数据。并对收集到的数据进行计算分析提供相应的预警，通过制定录用考核制度、绩效考核制度和安全培训等措施，能够在一定程度上改善，但能否使车队安全管理达到最优的状态，还需要通过各种管理及大数据理论进行研究。

车保险，即机动车辆保险，简称车险，是指对机动车辆由于自然灾害或意外事故所造成的人身伤亡或财产损失负赔偿责任的一种商业保险。截至2017年底，我国机动车保有量已经达到3.1亿辆，随着机动车辆的不断增多，车险行业的规模也不断扩大。根据《中国统计年鉴2018》，我国2016年财产保费共9265.7亿元，其中机动车辆保险6834.2亿元，占总保费的73.7％，环比增长10.2％。然而，虽然我国车险行业不断发展，但其业务一直处于“高保费、高赔付、低收入”的尴尬处境。

车辆保险行业难以盈利，主要有两方面的因素。一方面是由于传统车险的费率的定大多由保监会规定，大多根据车辆的价格进行投保，也就是说每年车行五千公里，和五万公里保费一样，有驾驶经验的老司机和刚拿驾照的新司机保费也无差异。车险的险种也表现出同质化，然而这种事后分析的做法有很大的缺陷，并不科学甚至有一定的盲目性。另一方面是由于车辆零整比不合理、常常出现骗保等情况，进而引起车辆保险的赔付率始终很高。

那么，如何降低赔付率对车险乃至整个保险行业都有着重要的意义。保险公司在经营期间，需要支付各种费用，当赔付率在60％以上，公司很容易出现亏损，不利于行业发展，同时保险公司在经营车险业务时面临巨大风险。近几年，车险行业处于进退两难的地步，保险公司也需要降低车辆发生事故的概率，并对每辆车的风险进行评估，进而对其进行一定的风险控制。另外，根据交通事因果关系表明，由驾驶人员在其行驶过程中的行为不当造成交通事故占80％以上，而由于车辆本身造成交通事故的仅占10％-20％。进而看来，驾驶人员的驾驶行为安全与否直接影响着交通事故发生的概率大小。

目前，保险公司在制定保费时不能对车辆未来发生交通事故的概率进行预测是赔付率居高不下的主要原因。如何使车险定价趋于合理，是保险公司在经营车险业务时面临的首要问题。保险公司的车辆风险事后分析具有明显的缺陷，保险公司如若将事后分析转化为事前分析，并将车辆未来的驾驶风险进行准确的评估制定一种新的定价标准，这无疑对车险行业乃至整个保险行业都具有十分重要的意义。

目前国内的研究多用于传统的机器学习方法和综合评价方法，并在实践过程中仍然存在很多问题，具体缺陷如下：

(1)传统的车辆风险评估多为事后评估，有一定的滞后性。目前国内外的大多数研究只能通过车辆的历史数据及出险信息进行评估。事后评估对车辆风险的预判及保险公司对车辆定价具有一定的盲目性。本发明利用车辆驾驶数据对车辆进行事中监控及事前预防，对目前风险控制有着巨大的意义。

(2)车辆风险评估的通用性有待加强。从现有的研究来看，针对车辆驾驶风险的评估实验，数据的来源多种多样，有些以仿真分析，驾驶模拟器为实验基础进行研究，但由于驾驶行为本身具有其复杂性和多角度性以及基础实验条件的限制，其研究成果并不成熟。另外有些以真实行驶数据建立数据库，但由于数据采集的局限性，无法形成较为完善的理论指标体系，难以适应于所有车辆风险评估。

(3)风险评估的客观性与公正性有待保证。在综合性评价中，有专家法这样的主观性群体评价方法，也有以客观数据为依据的客观评价方法。后者可以通过软件等客观工具的评价，保证得到一个较为客观真实的结果；而前者的分析，在很大程度上就有可能受个人因素的干扰。

(4)马尔科夫方法运用的范围有待推广。相较于传统的统计方法，马尔科夫方法所属的贝叶斯领域虽然较为古老但一直发展缓慢。近几年由于各种识别技术的发展，这种方法也逐渐被大家所知。但在车辆风险评估方面等各种领域欠于应用，方法有待推广应用。

(5)车辆保险和互联网市场应该更加紧密的结合。互联网的不断发展，大数据市场也越来越受欢迎。按照既定费率进行定价的传统保险已经不能适应市场的发展，国外该领域发展不断进步，我国也应该加紧创新车联网保险的发展。

发明内容

为克服相关技术中存在的问题，本发明创造提供一种基于转移概率的车辆风险综合评价方法，解决了现有技术中存在的评价精度低的技术问题。

1)数据的采集及处理：

1.1)数据采集：通过平台收集ADAS设备中每个驾驶员每日的汇总数据；

1.2)数据预处理：

1.2.1)去掉每行、每列数据为零的数据；

1.2.2)异常值处理：将异常值进行剔除；

1.3)插补异常值：当一条数据中仅有一个指标存在异常值，在数据分析时不能因为一个异常指标而去除整条数据，采用KNN算法进行插补；

2)确定指标分类：根据指标对风险影响大小，将指标分为对风险影响大的A类指标和对风险影响小的B类指标；其中A类指标包括防碰撞预警指标和疲劳驾驶报警指标；

3)针对预处理过后的车联网报警数据，构建的车辆驾驶风险评估模型；

3.1)采用随机森林算法筛选出A类指标的重要变量，并计算B类各指标间转移矩阵；

3.2)构建出随机森林改进的隐马尔科夫模型；

3.3)利用聚类分析对危险等级进行划分，继而运用朴素贝叶斯计算出各危险等级发生的概率；

3.4)以海因里希法则，将行驶里程作为权重计算车辆驾驶风险概率。

本发明创造的有益效果为：

(1)数据质量完备效果：本发明通过ADAS系统采集了车联网报警数据，在原始数据的基础上进一步清洗计算，将原始车联网数据由于设备的敏感程度等原因造成的异常数据进行改良。利用KNN算法结合数据本身特点进行异常值处理，完善数据结构。并根据数据的描述性统计分析，得到了车辆报警指标的阈值。通过专家解读与调查问卷结合数据分布特征的方式，将车辆报警指标划分为对车辆风险影响较大的A类指标与对车辆风险影响较小的B类指标。

(2)转移概率测算精准与强解释性效果：通过对原始车联网报警数据的清理及划分，对每个车辆分别建立不同的隐马尔科夫模型。使用随机森林优化了隐马尔科夫模型初始值不足的缺点，针对不同的车辆建立不同的测算模型，得到每个车辆各B类指标之间的转移概率关系，以及B类指标到A类指标的概率转移关系。并对转移关系的进行充分的解释说明，弥补大数据算法对结果的不可解释性。

(3)体系新颖性与多分类效果：将改进的隐马尔科夫模型综合各类报警，并结合聚类分析与朴素贝叶斯方法估算出车辆每日行驶可能出现零到两次的危险次数。得出大多数车辆每日发生风险较小，符合驾车行为多数是规范行为的客观规律的结论。同时引用管理学上著名的海因里希法则以车辆里程作为权重，对车辆风险进行评分。将评分结果通过功效系数法进行整体转移，得到每个车辆的驾驶风险得分，为保险公司制定保费提供了重要的量化依据。

(4)结果反馈充分性与可监督性效果：本发明通过机器学习等人工智能方法对车辆风险进行评估，不单从全部的历史数据进行研究，提出了与传统车险相似的十万公里驾驶行为理论。将测试车辆近十万公里的行驶数据通过模型测算的风险为车辆的基础风险。以车辆每日的行驶数据作为研究对象并对其评估为车辆的当日风险。基础风险是对车辆的累计驾驶行为进行考察，而当日风险是对车辆每日的驾驶行为进行实时监控。两个风险指标全面的反应车辆的历史情况和某日是否出现异常驾驶行为的情况。

(5)实用性效果：本发明对所建立的车辆风险综合评价体系进行验证。实验结果表明整个评价体系效果优良。将建立的车辆风险评价体系应用到平台的车辆安全管理与保险系统上，通过人工智能识别将危险驾驶车辆的范围缩小，安全管理部门可以对车辆进行实时的风险监控。与此同时，保险公司可以结合车辆基本信息、历史出险率及模型判断风险等级综合为车辆保费进行定价，对保险公司解决目前“高赔付率”问题有着重要的意义。另外，保险公司针对不同风险等级的车辆制定不同的保险费率，对驾驶员本身也是一种激励。风险较低的驾驶员为了保持较低的保费会继续保持良好的驾驶行为，风险较高的驾驶员为了获得较低的保费会改善自己的驾驶行为使其车辆行驶风险降低。

附图说明

图1为专利技术路线图；

图2为数据采集流程图；

图3a为急转弯报警分布图；

图3b为车道压线报警分布图；

图3c为抽烟报警分布图；

图3d为闭眼报警报警分布图；

图4为noHit(防碰撞预警频次)指标关联分析图；

图5为Pcount(疲劳驾驶报警)指标关联分析图；

图6为车辆风险评估模型图；

图7a为疲劳驾驶频数分布图；

图7b为防碰撞预警频数分布图；

图8为车辆日危险次数饼图；

图9为分类示意图；

图10为车辆风险评分直方图。

具体实施方式

一种基于转移概率的车辆风险综合评价方法，其步骤为：

1)数据的采集及处理：

1.2)数据预处理：

1.2.1)去掉每行、每列数据为零的数据；

1.2.2)异常值处理：通过绘制统计图表与计算特征向量描述数据的基本分布特征，利用σ特性，按照“3σ原则”，将大于μ+3σ的数据列为异常值，并进行剔除处理；

3.2)构建出随机森林改进的隐马尔科夫模型；

实施例1：

1、数据来源

随着互联网与大数据不断的发展，监控车辆驾驶行为的方式变得更加多样化，包括汽车自带的里程与速度检测系统、现行最流行的GPS定位系统，以及新兴的ADAS车联网报警系统等。本专利数据来自ADAS设备按日汇总的数据，数据采集流程如图2所示。

通过平台数据库获得每位驾驶员每日驾驶行为数据，原始数据共计21451条。

表1：原始指标解释表

2.数据预处理

对原始样本数据进行初步观测后，发现数据中存在很多空值和异常数据。如talk(聊天报警频次)所有数据都为空，Turn(急转弯报警频次)出现一天内数据过千的频次等。虽然采集到的数据看似为规整的格式化数据，但正如数据显示的问题，格式化数据中仍存在各种各样的“脏数据”。因此，在模型构建之前对原始数据进行数据预处理，从而使样本数据的质量更好地满足评价建模的要求。主要通过以下四步进行:

(1)去掉每行、每列数据为零的数据

对原始数据各观测值进行观察发现，数据集中出现一条数据所有报警次数都为零值的情况，该类数据由于车辆在当天没有行驶记录，因而数据都为0。此类数据在建模过程中属无效数据，应直接剔除。其次，在原始数据还存在里程数据为0但其报警数据却不为0，因此也剔除这部分不符合常理数据。原始数据共21451条，报警零值数据为2869条，占比原数据的13.37％，里程零值数据397条，占比1.85％，剩余样本数据18185条。如表2所示

表2：空值数据报警情况表

(2)异常值处理

为避免异常值对结果造成的不良影响。本专利提出通过绘制统计图表与计算特征向量方式来描述数据的基本分布特征，从而筛查异常数据。部分指标的分布图如图3a-图3d所示。

由指标分布图可以看出，各类报警次数据均属于右偏分布，所含报警次数为零的数据占绝大多数，符合实际车辆驾驶的真实状态。本专利通过数据变化区间、均值、标准差、变异系数构造特征向量来进一步验证比较。各指标特征如表3所示：

表3：指标范围与变异系数表

根据图形与特征向量，本专利利用σ特性，按照“3σ原则”，将大于μ+3σ的数据列为异常值，并进行剔除处理。“3σ原则”就是98％的数据，都在均值加减3个标准差的阈值范围之内。

(3)用K近邻方法插补异常值

鉴于源数据的结构状态，应采用无监督学习进行处理。一条数据中可能仅有一个指标存在异常值，在数据分析中不能因为一个异常指标而去除整条数据。所以结合数据特征与方法优势，采用KNN算法进行插补。KNN算法成熟，易于理解与实现并无需估计参数，且无需训练。通过算法找出样本中补偿的指标(缺失需要进行补偿的指标)的k个最近邻居和其离该指标的距离，运用距离计算k个最近邻居的权值(weight)进而计算这几个邻居的加权平均值对空值进行插补。并将插补的结果与计算的指标上限进行比较，验证KNN插补结果是否良好，发现仅有phoning(打电话报警)存在插补数据高于上限值的情况。这与进行异常数据处理的目的相勃，因此专利提出插补终止条件：如若插补结果高于上限值则直接将值设定为上限值。

3、指标的分类确认

根据对车联网报警数据的分析与后期建模的需要，对原始指标要进行具体的划分。通过问卷调查、相关文献查阅、车辆保险从业人员及研究人员的访谈，共得出两方面结论：一方面从车辆行驶的角度来看，防碰撞预警指标意味着在车辆行驶过程中与前方物体距离过近，若其速度稍微增大很可能就此发生交通事故，该指标是公认的距离交通事故最为形似的指标。另一方面从驾驶员状态的角度来看，疲劳驾驶报警指标意味着驾驶员在驾驶过程中处于疲劳怠倦状态，精神高度不集中稍有不慎就很有可能发生交通事故，因此该指标其危险程度也是极高的。因此主观总结这两个指标为核心指标。

为了证明主观调查选定指标的可靠性，本文对这两个导致车辆风险变大的指标进行关联度分析如图4与图5所示。从图中可以看出，与noHit(防碰撞预警)指标关联度较高的为carNear(车距过近报警)指标、Line(偏离车道报警)指标、Turn(急转弯报警)指标，这些指标均与车辆行驶状况相关。与pcount(疲劳驾驶报警)指标关联度较高的为distraction(闭眼报警)指标、yawn(打哈欠报警)指标、phoning(打电话报警)指标、anyLook(左顾右盼报警)指标，这些指标均与驾驶员的行为习惯相关。同时结果表明关联规则中心点分别为pcount(疲劳驾驶报警)与noHit(防碰撞预警)，其余各指标围绕其中心点并均具有一定的关联度，表明主观调查选定的noHit(防碰撞预警)与pcount(疲劳驾驶报警)这两个指标对车辆风险影响较大的判定与客观结果是一致的。

因此，专利将上述13个报警类指标分为对车辆风险影响较大的A类指标：noHit(防碰撞预警)、pcount(疲劳驾驶报警)与其他对车辆风险影响较小的11个B类指标。

4、车辆行驶风险评估

针对预处理过后的车联网报警数据，构建的车辆驾驶风险评估模型。采用随机森林算法筛选出A类指标的重要变量，并计算B类各指标间转移矩阵，构建出随机森林改进的隐马尔科夫模型。利用聚类分析对危险等级进行划分，继而运用朴素贝叶斯计算出各危险等级发生的概率。以海因里希法则思想为核心，将行驶里程作为权重计算车辆驾驶风险概率。具体流程如图6所示。

(1)随机森林筛选重要变量及转移矩阵计算

随机森林算法所构建的“森林”是决策树的集成。随机森林建立了多个决策树，并将它们合并在一起以获得更稳定的预测结果。在决策树中，每个内部节点代表对一类属性的“测试”(例如，抛硬币的结果是正面还是反面)，每个分支代表测试的结果，每个叶节点代表一个类标签(在计算所有属性之后作出的决定)。叶子就是没有下一分支的节点。决策树的基本思想为：随着树深度的增加，节点的熵迅速的降低。熵降低的速度越快越好。熵值计算公式为：

P_i为第i个指标所占全体的比重，其中k＞0一般另k＝1/ln_m，去中m是样本个数。

随机森林是一种灵活且易于使用的机器学习算法，即便没有超参数调优，也可以在大多数情况下得到很好的结果。它也是最常用的算法之一，因为它很简易，既可用于分类也能用于回归任务。

随机森林算法的一个优点是可以很容易地测量每个特征对预测的相对重要性。Sklearn为此提供了一个很好的工具，它通过查看使用该特征减少了森林中所有树多少的不纯度，来衡量特征的重要性。它在训练后自动计算每个特征的得分，并对结果进行标准化，以使所有特征的重要性总和等于1。

首先用随机森林方法得出B类指标分别对A类指标的pcount、noHit的影响程度。这里引入了sklearn中RandomForestRegressor模块，将B类指标数据作为x值，A类指标数据分别作为Y值拟合。可以得到B类指标对A类指标的影响程度。然后利用Boruta包中的BorutaPy函数对B类指标进行选取。Boruta包基于所有特征训练随机森林模型，并评价每个特征的重要性(默认基于平均精度降低测度)。每一次迭代中，该方法都会检测真实特征相对其影特征是否更重要，并移除哪些重要性差别最低的特征。

noHit(防碰撞预警)指标通过随机森林筛选重要变量，可以得到carNear(车距过近)、Line(偏离车道)、smoke(抽烟)、Turn(急转弯)、distraction(闭眼)、anyLook(左顾右看)、phoning(打电话)、brake(急刹车)、rapid(急加速)这9个B类指标。pcount(疲劳驾驶报警)指标通过随机森林筛选重要变量，可以得到Line(偏离车道)、Turn(急转弯)、yawn(打哈欠)、carNear(车距过近)、distraction(闭眼)、smoke(抽烟)、fatigue(车辆疲劳)这7个B类指标。

从结果可知，两矩个转移矩阵中两两相同指标的转移概率基本相同，这也验证了模型的可靠性。另外，B类指标之间有着一定的相互关系，但由于初始设定自身转移概率为0.5，所得结果有一定的导向性，即自身转移概率值较其他转移概率较大，后续仍需针对具体车辆的行为数据对转移矩阵进行修正。

(2)改进的隐马尔科夫状态转移模型的构建

隐马尔科夫模型是一般用来描述随机状态序列的概率模型，由隐藏状态、观测状态、转移矩阵与发射矩阵组成。在前文已探究过B类指标之间转移关系，进而在本章节隐马尔科夫模型中探究B类指标和A类指标风险之间的比例关系，即B类指标有多少概率能够转移到A类风险。因此，将隐藏状态定义为B类指标状态，观测状态定义为A类指标状态。为了更完善隐马尔科夫模型的初始值设定，将B类指标之间的转移矩阵作为输入端的隐藏状态转移矩阵。

在建立隐马尔科夫模型前，需要输入符合模型参数的A类指标，即将A类指标按照其数值特征进行离散化处理。首先观测A类指标的数值特征，其直方图如图7a-7b所示。

如直方图所示，A类报警数据零值最多，随着报警次数的增大其数据量不断的减少。按照统计常用分类方法，将两个A类指标分别分为三类，状态划分如表4所示。

表4A类指标状态划分表

为0的时候是不存在报警的情况，使其成为一类；一次到均值加三个标准差是正常发生报警的次数，也使其成为一类；超过3个标准差就是异常报警次数，属于高风险人群了，也使其成为一类。

传统的马尔科夫模型是关于时间序列一条时续链，即描述从0到t时刻某事件的转移过程。因此为了更好的拟合马尔科夫链，将清洗过的数据按照车辆代码和日期进行排序，可以得到每个车辆关于两个A类指标的观测序列。为了探究A类指标和B类指标之前的具体关系，将随机森林通过回归计算出的转移矩阵,以及根据原始数据得到的隐藏状态的初始概率，输入到隐马尔科夫链中。通过随机森林回归计算出的转移矩阵弥补隐马尔科夫链不含有隐含状态之间的信息，并根据原始数据得到的隐藏状态的初始概率,构建隐马尔科夫模型。隐马尔科夫模型所需的参数共有五个，分别为状态数量、观测数量、转移概率矩阵、发射矩阵及初始概率。从已知数据和前文计算结果可得到状态数量、观测数量、转移概率矩阵及初始概率。模型的发射矩阵仍未知，因此利用Baurn-Welch算法，训练车辆风险的多维离散型隐马尔科夫模型。

从结果可以明显的看出模型估计的隐藏状态的转移矩阵，即B类指标之间的转移矩阵，相比随机森林计算出的转移矩阵有所变化，可以认为输入转移矩阵作为了模型估计的初始值，通过算法不断迭代并收敛得到估计结果为最终B类指标之间转移矩阵。得到估计结果表示：各B类状态之间存在以概率1转移关系，也存在非转移关系，即并不是所有B类指标之间都存在一定概率的转移关系。另外，从HMM模型估计出来的参数B矩阵为隐藏状态到观测状态的发射矩阵，即本文所需B类指标可能引起A类指标发生的概率。设原始B类指标的数据为X_ij，计算现有B类指标数据引起A类指标各状态数据公式为：X_ij*B＝A′_ij。将许多危险性较小的报警指标以一定概率转换为危险性较大的报警指标，这表明了许多较大危险指标有很大可能性是由较小危险性指标累计而来。在实际驾驶过程中，不仅要关注对危险影响较大的A类报警指标，对危险影响较小的B类指标也不容忽视。

在观测众多报警数据时，往往会由于小指标过多而无法判断总体状况，为了更好的反应总体车辆风险。将B类指标转化为A类指标的数据和A类指标原有数据相结合，如公式其中：/>为B类指标转化为A类指标并与A类指标原有数据相结合后的数据，A′_ij为B类指标转化为A类指标的数据，A_ij为A类指标原有数据。利用原始数据结合HMM的方法可估计出车辆一次运行中出现A类指标各状态的数量，即对车辆危险程度的描述，部分结果如表5所示。

表5：车辆危险程度描述表

(3)车辆日行驶危险次数判定

在车辆行驶过程中，发生危险的次数与车辆报警次数相比是微乎其微的。车辆每日可能有上百次的A类报警发生，其发生危险的实际次数往往不得而知。根据著名安全工程师海因里希提出的300：29：1法则，该法则认为：在一件重大事故背后必有29件“轻度”事故，还有300件潜在的隐患。根据此法则当车辆在一日内危险程度的综合指数达到300，即认为车辆当日有一次危险状况。对车辆近半年来历史行驶数据进行统计，并按综合指数从大到小排序。

排序后可知车辆危险程度的综合指数最高为436，大于300且小于600，因此车辆每日内至多发生两次危险状况。通过车辆危险状况描述的数据进行K均值聚类，将其聚为三类，分别为一日之内车辆发生零次危险、一次危险与两次危险，其结果如图8所示。

在聚类分析中，根据输入数据所得的分类结果只能显示划分的类别，却不能判断每条数据划分到各类别的概率。且若各样本的特征之间出现重叠状态，贸然的将某些样本划分为特定的某类导致结果失真，缺乏精准性。为了弥补聚类方法这一缺陷，需要分类器进行迭代调优。所谓分类器，一般是将输入样本空间X,根据需要划分的类别，将输入空间划分为一些互不相交的区域，这些区域的边界一边叫做分类的决策面，分类示意图如9所示。很多分类器要求各变量不能存在共线性等问题，而朴素贝叶斯很好的解决这一问题，且算法成熟稳定性较强，从而选用朴素贝叶斯进行分类。

将聚类算法估计出各条数据所属危险次数作为分类器的输出，将HMM算法计算出的A类各状态的报警值作为分类器的输入，构建朴素贝叶斯分类器。与传统的机器算法不同，此种方法不用于预测或者分类，其目的是为了弥补原聚类算法对车辆危险次数划分的绝对性，将其进行量化处理。若分类结果为该车辆此次行驶危险次数为0次，则可能该分类器以0.8的概率认为其危险次数为0次，但仍然分别有0.15和0.05的概率表示有1次和2次危险。这个方法很好的将决策分布在各个可能性上，避免了模型陷入绝对最优的困境。并具有良好的解释性与较强的可靠性。

(4)车辆风险评估

在本文的驾驶行为风险指标中除各类报警指标外，还存在“日行驶里程”这一重要指标。我国车险定价主要依据去年出现次数进行厘定的，而在欧美等车险厘定市场化程度发展较好的国家，其将车险里程定价作为车险定价的新兴业务，即车险的定价数额与车辆行驶里程相关联，若某车辆行驶里程较长，则其所交保费也应较多。此种车险厘定的方法被认为是科学且有利于社会公平的方法。因此本文将“日行驶里程”这一指标作为车辆风险评估模型中的权重指标。

将日行驶里程与具体危险次数相结合得到综合风险，并选择60-100分的评分标准，对每条车辆数据进行评分，得分较高的车辆代表其车辆当日驾驶风险较高。反之，则代表车辆当日风险相对较低，安全性能高。对测试计算车辆综合风险评分，其分布图如图10所示。

此处计算的风险评分评价的是某一车辆一天内的驾驶行为，可将其称作车辆的“当日风险评分”。然而车险行业需要关注的是车辆在某一周期内车辆风险的状况，仅从每日车辆风险的角度进行研究并不具有实用性。在传统的车险理论中，一般探究每十万公里出险概率并计算厘定费率。因此结合该理论，将车辆行为数据按照车辆ID按倒序时间进行里程累计，筛选出车辆近日十万公里内的里程数据。将车辆行驶发生危险次数与里程相结合，并得到综合车辆风险，部分结果如表6所示。

表6：车辆当日风险评分表

海因里希法则表明，重大事故是多个安全隐患累计而得。同样，车辆风险也是一个累计的过程，因此本专利定义了车辆驾驶风险评估的滚动周期，即在车辆行驶近十万公里内计算其累计综合风险。利用此种方法计算出每个车辆近十万公里综合风险，同样选择60-100分的评分标准，对每个车辆的风险进行评分。通过结合海因里希法则计算的累计综合风险是对车辆近十万公里的总体历史评价，称其为车辆的“基础风险评分”。基础风险评分综合了车辆历史的报警行为数据，是从一个总体的角度来评价车辆的风险，这样便可以按照车辆ID列出的风险评分，并观测车辆在某一周期内的风险。

在车辆风险评估中，车队管理部门驾驶员需要车辆每日的驾驶风险评估并进行相应的改善，而保险公司则需要对车辆某一周期的风险进行评估并制定其保费。将“当日风险评分”与“基础风险评分”相结合，列出的表可以得到一个总的综合评分，如表7所示。

表7车辆综合风险评分表

(5)车辆风险评估模型结果验证

对所得的车辆风险评分是否合理，采用关联规则进行验证，对不同风险评分等级进行原始数据关联度匹配。验证建立的模型判定存在较高风险的行驶数据，在实际原始数据中也存在较多的报警。反之，模型判定存在较低风险的行驶数据，在实际原始数据也存在较少的报警。如若跟上述假设相同，则可认为对驾驶行为判断是准确的。为使数据更好的进行关联规则验证，对原始报警数据进行离散化处理，结合其分布情况进行程度划分，具体划分如表8所示。

表8：数据离散化表

从关联规则的结果可以看出，各条规则的提升度均大于1，说明结果关联性较强。排名较靠前且存在高危驾驶的风险的车辆，通过原始数据分析来看这部分车辆在日常驾驶中就存在危险驾驶的行为，且包含较多的高危险报警和较长的行驶里程。综合关联规则的全部结果可知，车辆风险评估模型的结果与车辆日常驾驶行为的危险程度密切相关，可以认为车辆风险评估模型对车辆驾驶风险的评价精度较高，结果准确可靠。

Claims

1.基于转移概率的车辆风险综合评价方法，其特征在于，其步骤为：

1)数据的采集及处理：

1.2)数据预处理：

1.2.1)去掉每行、每列数据为零的数据；

1.2.2)异常值处理：将异常值进行剔除；

3.1.1)sklearn中RandomForestRegressor模块，将B类指标数据作为x值，A类指标数据分别作为Y值拟合，得到B类指标对A类指标的影响程度；

3.1.2)然后利用Boruta包中的BorutaPy函数对B类指标进行选取Boruta包基于所有特征训练随机森林模型，并评价每个特征的重要性；

3.1.3)A类中防碰撞预警指标随机森林筛选重要变量，可以得到：车距过近指标、偏离车道指标、抽烟指标、急转弯指标、闭眼指标、左顾右看指标、打电话指标、急刹车指标、急加速指标；A类中疲劳驾驶报警指标通过随机森林筛选重要变量，可以得到偏离车道指标、急转弯指标、打哈欠指标、车距过近指标、闭眼指标、抽烟指标、车辆疲劳指标；

3.2)构建出随机森林改进的隐马尔科夫模型；

3.2.1)将隐藏状态定义为B类指标状态，观测状态定义为A类指标状态，将B类指标之间的转移矩阵作为输入端的隐藏状态转移矩阵；在建立隐马尔科夫模型前，输入符合模型参数的A类指标，即将A类指标按照其数值特征进行离散化处理，将两个A类指标分为三类，如表4所示：

表4：A类指标状态划分表

Pcount为疲劳驾驶报警指标，noHit为防碰撞预警指标；

为0的时候是不存在报警的情况，使其成为一类；一次到均值加三个标准差是正常发生报警的次数，也使其成为一类；超过3个标准差就是异常报警次数，属于高风险人群了，也使其成为一类；

3.2.2)将清洗过的数据按照车辆代码和日期进行排序，得到每个车辆关于两个A类指标的观测序列；

3.2.3)将随机森林通过回归计算出的转移矩阵,以及根据原始数据得到的隐藏状态的初始概率，输入到隐马尔科夫链中；通过随机森林回归计算出的转移矩阵弥补隐马尔科夫链不含有隐含状态之间的信息，并根据原始数据得到的隐藏状态的初始概率，构建隐马尔科夫模型；

3.2.4)利用Baurn-Welch算法，训练车辆风险的多维离散型隐马尔科夫模型；

3.2.5)将B类指标转化为A类指标的数据和A类指标原有数据相结合，公式如下

其中：为B类指标转化为A类指标并与A类指标原有数据相结合后的数据，A'_ij为B类指标转化为A类指标的数据，A_ij为A类指标原有数据；

3.2.6)利用原始数据结合HMM的方法估计出车辆一次运行中出现A类指标各状态的数量，对车辆危险程度进行描述；

2.根据权利要求1所述的基于转移概率的车辆风险综合评价方法，其特征在于，所述的步骤1.1)中的汇总数据如表1所示：

表1：原始指标解释表。

3.根据权利要求1所述的基于转移概率的车辆风险综合评价方法，其特征在于，所述的步骤1.2.2)中的具体方法为：通过绘制统计图表与计算特征向量描述数据的基本分布特征，利用σ特性，按照“3σ原则”，即数据分布在均值加减3个标准差内的数据视为正常数据，将大于μ+3σ的数据列为异常值并进行剔除处理。

4.根据权利要求1所述的基于转移概率的车辆风险综合评价方法，其特征在于，所述的步骤1.3)中采用KNN算法进行补偿的具体方法为：通过算法找出样本中补偿指标的k个最近邻居和其离该指标的距离，运用距离计算k个最近邻居的权值，进而计算这几个邻居的加权平均值对空值进行插补；如若插补结果高于上限值则直接将值设定为上限值。

5.根据权利要求1所述的基于转移概率的车辆风险综合评价方法，其特征在于，所述的步骤2)中，防碰撞预警指标包括车距过近报警指标、偏离车道报警指标、急转弯报警指标；疲劳驾驶报警指标包括有闭眼报警指标、打哈欠报警指标、打电话报警指标、左顾右盼报警指标。