CN110570655B - 基于层次聚类和决策树的车辆特征评估方法 - Google Patents
基于层次聚类和决策树的车辆特征评估方法 Download PDFInfo
- Publication number
- CN110570655B CN110570655B CN201910887704.8A CN201910887704A CN110570655B CN 110570655 B CN110570655 B CN 110570655B CN 201910887704 A CN201910887704 A CN 201910887704A CN 110570655 B CN110570655 B CN 110570655B
- Authority
- CN
- China
- Prior art keywords
- vehicle
- data
- hierarchical clustering
- evaluation index
- evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 49
- 238000003066 decision tree Methods 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 18
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 15
- 238000013210 evaluation model Methods 0.000 claims abstract description 8
- 238000012502 risk assessment Methods 0.000 claims abstract description 8
- 230000007613 environmental effect Effects 0.000 claims description 10
- 238000012360 testing method Methods 0.000 claims description 7
- 238000007689 inspection Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 2
- 230000006399 behavior Effects 0.000 description 10
- 238000002372 labelling Methods 0.000 description 5
- 206010039203 Road traffic accident Diseases 0.000 description 4
- 238000012795 verification Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000000383 hazardous chemical Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G06Q50/40—
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0125—Traffic data processing
-
- G—PHYSICS
- G08—SIGNALLING
- G08G—TRAFFIC CONTROL SYSTEMS
- G08G1/00—Traffic control systems for road vehicles
- G08G1/01—Detecting movement of traffic to be counted or controlled
- G08G1/0104—Measuring and analyzing of parameters relative to traffic conditions
- G08G1/0137—Measuring and analyzing of parameters relative to traffic conditions for specific applications
Abstract
一种基于层次聚类和决策树的车辆特征评估方法,通过建立机动车管控体系,可协助交通部门做高效精准管理;包括根据车辆本身属性和车辆被驾驶的行为特征,确定相应的车辆评估指标;获取待评价车辆的评估指标数据;对车辆评估指标数据进行层次聚类处理;根据层次聚类的结果,进行划分类别并标注;基于层次聚类后标注的数据,建立决策树进行训练进而构建车辆危险评估模型;基于车辆危险评估模型,对待评价车辆进行危险等级评估。本发明使用层次聚类和决策树结合的方法,构建车辆危险等级模型,通过量化的风险评估,为交通管理者对不同风险的车辆差异化管理,提高道路安全管理的效率,减少安全隐患。
Description
技术领域
本发明涉及交通安全技术领域,具体涉及一种基于层次聚类和决策树的车辆特征评估方法。
背景技术
一直以来,机动车作为交通管理的主要对象都受到了交通管理者的重点管控,但由于机动车数量的剧增,交管部门有限的警力资源己经无法对其进行全方位的严格管控,致使各类交通违法和乱象层出不穷,给人们的交通出行安全带来极大的隐患。
发明内容
本发明提出的一种基于层次聚类和决策树的车辆特征评估方法,结合交通警务管理实战的需求,建立机动车管控体系,可协助交通部门做高效精准管理,提供道路安全。
为实现上述目的,本发明采用了以下技术方案:
一种基于层次聚类和决策树的车辆特征评估方法,包括以下步骤:
S100、根据车辆本身属性和车辆被驾驶的行为特征,确定相应的车辆评估指标;
S200、获取待评价车辆的评估指标数据;
S300、对车辆评估指标数据进行层次聚类处理;
S400、根据层次聚类的结果,进行划分类别并标注;
S500、基于层次聚类后标注的数据,建立决策树进行训练进而构建车辆危险评估模型;
S600、基于车辆危险评估模型,对待评价车辆进行危险等级评估。
进一步的,所述步骤S200获取待评价车辆的评估指标数据;还包括对获取到的评估指标数据进行数据处理,处理成指定格式。
进一步的,所述步骤S100中车辆评估指标包括车辆类型、车龄、环保等级、使用性质、车检是否逾期、是否报废、保险是否逾期、违法、事故。
进一步的,所述S200获取待评价车辆的评估指标数据;具体从车辆基本信息中获取,其中车辆基本数据包括车辆基本信息表、违法信息表、事故信息表。
进一步的,所述步骤S200中数据处理包括:
把车辆类型分为为大车、小车、摩托车、其他车辆;
把使用性质分为救护、客运、校车教练车、非营运、租赁、货运、危化品运输、其他;
把车龄分为1年以内、1-3年、3-10年、10年以上;
车辆环保情况分为国一、国二、国三、国四、国五、登记信息不全或未登记六种。
进一步的,所述不住S300对车辆评估指标数据进行层次聚类处理;包括:对“车辆类型”、“车龄”、“是否报废”进行离散属性组合,然后将“违法积分”和“事故积分”作为主要聚类信息进行层次聚类;
其中层次聚类包括先对离散属性组合进行层次聚类,然后查看聚类个数,再确定聚类个数。
进一步的,所述S500基于层次聚类后标注的数据,建立决策树进行训练进而构建车辆危险评估模型;
包括根据最终标签数据,将数据进行随机切分,百分之七十作为训练数据,百分之三十作为测试数据,通过决策树进行建模,得到车辆评估模型。
本发明还公开一种基于层次聚类和决策树的车辆特征评估系统,包括以下模块:
数据采集模块,用于获取待评价车辆的评估指标数据;
车辆危险评估模型构建模块,基于层次聚类后标注的数据,建立决策树进行训练进而构建车辆危险评估模型;
车辆危险评估模块,对待评价车辆进行危险等级评估。
进一步的,还包括数据处理模块,所述数据处理模块用于对获取到的评估指标数据进行数据处理,处理成指定格式。
由上述技术方案可知,本发明的基于层次聚类和决策树的车辆特征评估方法具有以下有益效果:
本发明依托交通信息情报大数据中心库中车辆的基本档案信息、历史违法信息、交通事故信息等相关信息,使用层次聚类和决策树结合的方法,构建车辆危险等级模型,通过量化的风险评估,为交通管理者对不同风险的车辆差异化管理,提高道路安全管理的效率,减少安全隐患。
附图说明
图1是本发明的方法流程图;
图2是本发明实施例的类别标注示意图;
图3是本发明实施例的类别标注结果示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
如图1所示,本发明实施例的一种基于层次聚类和决策树的车辆特征评估方法包括以下步骤:
S100、根据车辆本身属性和车辆被驾驶的行为特征,确定相应的车辆评估指标;
S200、获取待评价车辆的评估指标数据;
S300、对车辆评估指标数据进行层次聚类处理;
S400、根据层次聚类的结果,进行划分类别并标注;
S500、基于层次聚类后标注的数据,建立决策树进行训练进而构建车辆危险评估模型;
S600、基于车辆危险评估模型,对待评价车辆进行危险等级评估。
上述步骤可解释为本发明实施例的一种基于层次聚类和决策树的车辆特征评估方法,根据车辆违法情况和违法频率情况,制定相应的车辆评估模型,依托交通信息情报大数据中心库中车辆的基本档案信息、历史违法信息、交通事故信息等相关信息,将机动车按照积分等级划分相应的等级比如为高危、中危、低危3个等级。
其中S100、根据车辆本身属性和车辆被驾驶的行为特征,确定相应的车辆评估指标;可解释为:
机动车辆的危险程度,主要包括车辆本身属性和车辆被驾驶的行为特征。车辆的属性,主要由车辆类型、车龄、环保等级、使用性质、车检是否逾期、是否报废、保险是否逾期七个特征来描述;车辆被驾驶的行为特征,就是车辆行驶中造成的违法、事故两类交通事件。
对于步骤S200获取待评价车辆的评估指标数据;其中评估指标数据处理,主要依据车辆基础信息、车辆违法、和车辆事故的数据,提取模型需要的九个变量:
对于S300、对车辆评估指标数据进行层次聚类处理;可解释为分析数据主要特征,对于“车辆类型”、“车龄”“是否报废”、“违法情况”、“事故情况”五个特征,对结果分类相对比较重要。因此,这里对“车辆类型”、“车龄”、“是否报废”进行离散属性组合,然后将“违法积分”和“事故积分”作为主要聚类信息,这里采用层次聚类。
层次聚类包括:对“车辆类型”、“车龄”、“是否报废”进行离散属性组合,然后将“违法积分”和“事故积分”作为主要聚类信息进行层次聚类;
其中层次聚类包括先对离散属性组合进行层次聚类,然后查看聚类个数,再确定聚类个数。
层次聚类原理:(1)将每个对象看作一类,计算两两之间的最小距离;(2)将距离最小的两个类合并成一个新类;(3)重新计算新类与所有类之间的距离;(4)重复(2)、(3),直到所有类最后合并成一类。
对于S400、根据层次聚类的结果,进行划分类别并标注;其中类别标注的工作,主要是根据层次聚类的结果,将数据划分为“高危、中危、低危”三类。具体方法如下:
(1)根据层次聚类的结果,从每类数据中抽取一列作为聚类中心。转成字符型供专业人士进行标注。
(2)对一些能确定的特殊行为数据进行标注。例如至少在五起轻微事故负主要责任的列为中危,至少在两起重伤及以上事故负主要责任直接列为高危车辆等等,更新类别标签,得到最后有标签的数据。
对于S500、基于层次聚类后标注的数据,建立决策树进行训练进而构建车辆危险评估模型;其中,将层次聚类后的数据随机划分为70%的训练集和30%的测试集;
(1)初始,按照最大深度为3、随机种子为30的参数,建立决策树模型,对训练集数据进行训练。
(2)运用准确率等指标,对测试集的结果评估。
(3)在测试集的结果不理想的情况下,通过“决策树参数搜索”的方法,寻找模型最优的参数。
决策树原理:决策树的构造过程就是找到在分类时起到决定性作用的特征,根据其决定性程度来构造一个倒立的树--决定性作用最大的那个特征作为根节点,然后递归找到各分支下子数据集中次大的决定性特征,直至子数据集中所有数据都属于同一类。
最后对于S600、基于车辆危险评估模型,对待评价车辆进行危险等级评估。包括首先,对其他需要进行车辆危险等级评估的数据,进行变量处理。然后,通过训练好的决策树模型,对需要分类为“高危、中危、低危”三类的车辆进行评估。
以下具体说明本发明实施例:
数据预处理
特征选择
根据对业务的理解,这里最终选择“车辆类型”,“车龄”,“环保等级”,“使用性质”,“车检是否逾期”,“是否报废”,“保险是否逾期”,“违法”,“事故”9个特征作为车辆评估特征。
基本数据
车辆基本信息表
从车辆信息表中取得“XH”、“HPHM”、“HPZL”、“CLLX”、“SYXZ”、“CCDJRQ”、“YXQZ”、“QZBFQZ”、“BXZZRQ”、“HBDBQK”对应的“序号”、“号牌号码”、“号牌种类”、“车辆类型”、“使用性质”、“初次登记日期”、“检验有效期止”、“强制报废期止”、“保险终止日期”、“环保达标情况”。取得的车辆信息表数据为593888条。
违法信息表
从违法信息表中取“HPHM”、“HPZL”、“WFJFS”对应“号牌号码”、“号牌种类”、“违法计分数”。由于违法行为种类太多,不方便数据分析,而违法计分数能体现出违法行为的严重程度,所以这里取了违法行为字段。为了方便统计车辆的违法行为对应的次数,这里将违法信息表进行变换,最后变成“HPHM”、“HPZL”、“WF_0”、“WF_1”、“WF_2”、“WF_3”、“WF_6”、“WF_12”对应的是“号牌号码”、“号牌种类”、“扣0分的次数”、“扣1分的次数”、“扣2分的次数”、“扣3分的次数”、“扣6分的次数”、“扣12分的次数”。
事故信息表
事故信息表数据由事故人员信息表和事故表关联事故编号得到。取事故人员信息表中的“HPHM”、“HPZL”、“SGZR”和事故表中的“QSRS”、“ZSRS”、“SWRS30”、“ZJCCSS”对应的是“号牌号码”、“号牌种类”、“事故责任”、“轻伤人数”、“重伤人数”、“死亡人数”、“直接财产损失”。
根据轻微事故、一般事故、重大事故、特大事故的判断规则计算。
轻微事故是指一次造成轻伤1至2人,或者财产损失机动车事故不足1000元,非机动车事故不足200元的事故。
一般事故是指一次造成重伤1到2人,或者轻伤3人以上,或者财产损失不足3万元的事故。
重大事故是指一次造成死亡1至2人,或者重伤3人以上10人以下,或者财产损失3万元以上不足6万元的事故。
特大事故是指一次造成死亡3人以上,或者重伤11人以上,或者死亡1人,同时重伤8人以上,或者死亡2人,同时重伤5人以上,或者财产损失6万元以上的事故。
最后计算变换得到表“HPHM”、“HPZL”、“QWSG_1”、“QWSG_2”、“QWSG_3”、“QWSG_4”、“QWSG_5”、“QWSG_6”、“YBSG_1”、“YBSG_2”、“YBSG_3”、“YBSG_4”、“YBSG_5”、“YBSG_6”、“ZDSG_1”、“ZDSG_2”、“ZDSG_3”、“ZDSG_4”、“ZDSG_5”、“ZDSG_6”对应的是“号牌号码”、“号牌种类”、“轻微事故-全部责任次数”、“轻微事故-主要责任次数”、“轻微事故-同等责任次数”、“轻微事故-次要责任次数”、“轻微事故-无责次数”、“轻微事故-无法认定次数”、“一般事故-全部责任次数”、“一般事故-主要责任次数”、“一般事故-同等责任次数”、“一般事故-次要责任次数”、“一般事故-无责次数”、“一般事故-无法认定次数”、“重大事故-全部责任次数”、“重大事故-主要责任次数”、“重大事故-同等责任次数”、“重大事故-次要责任次数”、“重大事故-无责次数”、“重大事故-无法认定次数”、“特大事故-全部责任次数”、“特大事故-主要责任次数”、“特大事故-同等责任次数”、“特大事故-次要责任次数”、“特大事故-无责次数”、“特大事故-无法认定次数”。
数据清洗
相关属性
将上述表通过“HPHM”、“HPZL”进行关联,最终得到总表“XH”、“CLLX”、“SYXZ”、“CCDJRQ”、“YXQZ”、“QZBFQZ”、“BXZZRQ”、“HBDBQK”、“WF_0”、“WF_1”、“WF_2”、“WF_3”、“WF_6”、“WF_12”、“QWSG_1”、“QWSG_2”、“QWSG_3”、“QWSG_4”、“QWSG_5”、“QWSG_6”、“YBSG_1”、“YBSG_2”、“YBSG_3”、“YBSG_4”、“YBSG_5”、“YBSG_6”、“ZDSG_1”、“ZDSG_2”、“ZDSG_3”、“ZDSG_4”、“ZDSG_5”、“ZDSG_6”包含“车辆类型”、“使用性质”、“初次登记日期”、“使用性质”、“检验有效期止”、“强制报废期止”、“保险终止日期”、“环保达标情况”、“违法情况”、“事故情况”相关信息。
数据处理说明
车辆类型
通过“cllx”字段处理,处理方法如下:
第一个字符 | 表示车辆 | 判断规则 |
B | 半挂车 | 大车 |
D | 电车 | 小车 |
G | 挂车 | 大车 |
H | 货车 | 第二个字符1、2为大车,3、4、5为小车 |
J | 挖掘机 | 大车 |
K | 客车轿车 | 第二个字符1、2大车,3、4小车 |
M | 摩托车 | |
N | 三轮汽车 | 小车 |
Q | 牵引车 | 大车 |
T | 拖拉机 | 第二个字符1大车,2小车 |
X | 其他 | |
Z | 专业作业车 | 第二个字符1、2、5大车,4、7小车 |
最后将车辆类型分为大车、小车、摩托车、其他四种。
使用性质
由“SYXZ”确定,根据数据字典将使用性质分为救护、客运、校车教练车、非营运、租赁、货运、危化品运输、其他(不在以上范围内以及未登记的)。
车龄
由“CCDJRQ”确定,计算当前时间和初次登记日期的时间差,将车龄分为1年以内、1-3年、3-10年、10年以上。
是否检验有效期内
由“YXQZ”确定,将检验期止和当前时间进行比较,若晚于当前时间则在检验有效期内,否则在有效期外。
是否报废
由“QZBFQZ”确定,将强制报废期止和当前时间进行比较,若晚于当前时间则未报废,否则已报废。
是否保险期内
由“BXZZRQ”确定,将保险终止日期和当前时间进行比较,若晚于当前时间则在保险有效期内,否则在有效期外。
车辆环保情况
由“HBDBQK”确定,由于环保达标情况登记时数据不规范,出现空值、字符不一致(例如有的登记的是“,”,有的是“,”,还有“、”和空格的情况)、中英文字符混合、登记信息不全无法判断是属于哪一种环保等级。经过对字符串进行清洗,最终将环保等级分为国一、国二、国三、国四、国五、登记信息不全或未登记六种。
违法积分
将违法相关属性合并为一列,由于违法行为的严重程度和扣分表挂钩,因此将所有违法扣分信息合并为一列作为“违法积分”。计算扣分数乘以相关次数之和,但是为了避免数值太大影响建模,因此将扣分数除以10作为积分值,而违法扣分为0并不表示没有违法,因此也给予一定积分值,这里赋值为0.05。因此违法积分=0.05*扣0分次数+0.1*扣1分次数+0.2*扣2分次数+0.3*扣3分次数+0.6*扣6分次数+1.2*扣12分次数。
事故积分
事故信息也需要合并处理,将每一类事故合并为一列。查看了交通法,当事故双方都是机动车时,全部责任赔偿100%,主要责任赔偿70%,次要责任赔偿30%,同等责任赔偿50%,无法判断双方赔偿50%,无责则不赔偿。因此计算事故积分=1*全部责任次数+0.7*主要责任次数+0.3*次要责任次数+0.5*同等责任次数+0.5*无法判断次数
对轻微事故、一般事故、重大事故、特大事故分别进行计算。
数据概览
经过数据清洗之后得到最终进行建模的数据:
层次聚类
分析数据主要特征,很明显“车辆类型”、“车龄”“是否报废”、“违法情况”、“事故情况”对结果分类相对比较重要,因此,这里对“车辆类型”、“车龄”、“是否报废”进行离散属性组合,然后将“违法积分”和“事故积分”作为主要聚类信息,这里采用层次聚类。
离散属性组合
对“车辆类型”、“车龄”、“是否报废”进行离散属性组合,组合结果为:
车辆类型为大车,车龄为1年以内,未报废数据为538条。
车辆类型为大车,车龄为1-3年,未报废数据为3144条。
车辆类型为大车,车龄为3-10年,未报废数据为30375条。
车辆类型为大车,车龄为10年以上,未报废数据为19594条。
车辆类型为小车,车龄为1年以内,未报废数据为3629条。
车辆类型为小车,车龄为1-3年,未报废数据为29382条。
车辆类型为小车,车龄为3-10年,未报废数据为148500条。
车辆类型为小车,车龄为10年以上,未报废数据为49874条。
车辆类型为大车,车龄为10年以上,报废数据为18626条。
车辆类型为小车,车龄为3-10年,报废数据为597条。
车辆类型为小车,车龄为10年以上,报废数据为13037条。
车辆类型为摩托车,车龄为1年以内,未报废数据为1182条。
车辆类型为摩托车,车龄为1-3年,未报废数据为21040条。
车辆类型为摩托车,车龄为3-10年,未报废数据为141473条。
车辆类型为摩托车,车龄为10年以上,未报废数据为56512条。
车辆类型为摩托车,车龄为10年以上,报废数据为55991条。
车辆类型为其他,车龄为1年以内,未报废数据为1条。
车辆类型为其他,车龄为3-10年,未报废数据为63条。
车辆类型为其他,车龄为10年以上,未报废数据为247条。
车辆类型为其他,车龄为10年以上,报废数据为83条。
对每种组合分别进行聚类。
聚类
先对每种组合进行层次聚类,然后查看聚类个数。其中车辆类型为大车,车龄为1年以内,未报废时,根据不同t(t为层次聚类参数)值计算聚类个数,结果如下:
t=0.0时对应的聚类个数为:35
t=0.2时对应的聚类个数为:24
t=0.4时对应的聚类个数为:19
t=0.6时对应的聚类个数为:17
t=0.8时对应的聚类个数为:10
t=1.0时对应的聚类个数为:8
t=1.2时对应的聚类个数为:6
t=1.4时对应的聚类个数为:4
t=1.6时对应的聚类个数为:3
t=1.8时对应的聚类个数为:3
t=2.0时对应的聚类个数为:3
t=2.2时对应的聚类个数为:3
t=2.4时对应的聚类个数为:3
t=2.6时对应的聚类个数为:2
t=2.8时对应的聚类个数为:2
t=3.0时对应的聚类个数为:2
t=3.2时对应的聚类个数为:1
t=3.4时对应的聚类个数为:1
车辆类型为大车,车龄为1-3年,未报废,结果如下:
t=0.0时对应的聚类个数为:190
t=0.2时对应的聚类个数为:101
t=0.4时对应的聚类个数为:59
t=0.6时对应的聚类个数为:39
t=0.8时对应的聚类个数为:29
t=1.0时对应的聚类个数为:24
t=1.2时对应的聚类个数为:18
t=1.4时对应的聚类个数为:14
t=1.6时对应的聚类个数为:10
t=1.8时对应的聚类个数为:9
t=2.0时对应的聚类个数为:8
t=2.2时对应的聚类个数为:7
t=2.4时对应的聚类个数为:7
t=2.6时对应的聚类个数为:7
t=2.8时对应的聚类个数为:7
t=3.0时对应的聚类个数为:6
t=3.2时对应的聚类个数为:6
t=3.4时对应的聚类个数为:5
其他数据也根据不同的t值查看聚类个数,就不一一列出。
聚类结果
根据结果这里将t值统一定为2.0。然后将聚类后的结果再合并。得到最后聚类结果,共聚成240类。
类别标注
由于层次聚类没有聚类中心,因此从每类数据中抽取一列作为聚类中心。转成字符型方便专业人士进行标注;如图2所示。
根据聚类中心,由专业人士将每一类标注成高危、中危、低危三种结果。关联原数据得到总标签数据。
特殊情况数据标注
对一些能确定的特殊行为数据进行标注,例如至少在五起轻微事故负主要责任的列为中危,至少在两起重伤及以上事故负主要责任直接列为高危车辆等等,更新类别标签,得到最后有标签的数据。
结果分析
查看类别标注结果,如图3所示;
最后标注出来的低危车辆有484482辆,中危车辆105971辆,高危车辆3435辆。
建立决策树
根据最终标签数据,将数据进行随机切分,百分之70作为训练数据,百分之30作为测试数据,通过spark的决策树进行建模,得到车辆评估模型。用测试数据对模型预测性能进行评估,准确率为0.99。
同时本发明实施例还公开一种基于层次聚类和决策树的车辆特征评估系统,包括以下模块:
数据采集模块,用于获取待评价车辆的评估指标数据;
车辆危险评估模型构建模块,基于层次聚类后标注的数据,建立决策树进行训练进而构建车辆危险评估模型;
车辆危险评估模块,对待评价车辆进行危险等级评估。
同时还包括数据处理模块,所述数据处理模块用于对获取到的评估指标数据进行数据处理,处理成指定格式。
可理解的是,本发明实施例提供的系统与本发明实施例提供的方法相对应,相关内容的解释、举例和有益效果可以参考上述方法中的相应部分。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (2)
1.一种基于层次聚类和决策树的车辆特征评估方法,其特征在于包括以下步骤:
S100、根据车辆本身属性和车辆被驾驶的行为特征,确定相应的车辆评估指标;
S200、获取待评价车辆的评估指标数据;
S300、对车辆评估指标数据进行层次聚类处理;
S400、根据层次聚类的结果,进行划分类别并标注;
S500、基于层次聚类后标注的数据,建立决策树进行训练进而构建车辆危险评估模型;
S600、基于车辆危险评估模型,对待评价车辆进行危险等级评估;
所述步骤S100中车辆评估指标包括车辆类型、车龄、环保等级、使用性质、车检是否逾期、是否报废、保险是否逾期、违法、事故;
所述步骤S200获取待评价车辆的评估指标数据并对评估指标数据处理,在获取车辆评估指标的数据中,具体包括车辆基本信息、违法信息和事故信息的获取;评估指标的数据处理包括:
把车辆类型分为大车、小车、摩托车、其他车辆;
把使用性质分为救护、客运、校车教练车、非营运、租赁、货运、危化品运输、其他;
把车龄分为1年以内、1-3年、3-10年、10年以上;
车辆环保情况分为国一、国二、国三、国四、国五、登记信息不全或未登记六种;
S300对车辆评估指标数据进行层次聚类处理;包括:对“车辆类型”、“车龄”、“是否报废”进行离散属性组合,然后将“违法积分”和“事故积分”作为主要聚类信息进行层次聚类;
其中层次聚类包括先对离散属性组合进行层次聚类,然后查看聚类个数,再确定聚类个数;
S400、根据层次聚类的结果,进行划分类别并标注;具体包括:
S401、根据层次聚类的结果,从每类数据中抽取一列作为聚类中心,转成字符型供专业人士进行标注;
S402、对能确定的特殊行为数据进行标注;包括至少在五起轻微事故负主要责任的列为中危,至少在两起重伤及以上事故负主要责任直接列为高危车辆,更新类别标签,得到最后有标签的数据即最终标签数据。
2.根据权利要求1所述的基于层次聚类和决策树的车辆特征评估方法,其特征在于:所述S500基于层次聚类后标注的数据,建立决策树进行训练进而构建车辆危险评估模型;
包括根据最终标签数据,将数据进行随机切分,百分之七十作为训练数据,百分之三十作为测试数据,通过决策树进行建模,得到车辆危险评估模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910887704.8A CN110570655B (zh) | 2019-09-19 | 2019-09-19 | 基于层次聚类和决策树的车辆特征评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910887704.8A CN110570655B (zh) | 2019-09-19 | 2019-09-19 | 基于层次聚类和决策树的车辆特征评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110570655A CN110570655A (zh) | 2019-12-13 |
CN110570655B true CN110570655B (zh) | 2021-03-05 |
Family
ID=68781218
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910887704.8A Active CN110570655B (zh) | 2019-09-19 | 2019-09-19 | 基于层次聚类和决策树的车辆特征评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110570655B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111523766B (zh) * | 2020-03-27 | 2020-11-13 | 中国平安财产保险股份有限公司 | 驾驶风险评估方法、装置、电子设备及可读存储介质 |
CN111553435B (zh) * | 2020-04-30 | 2024-04-09 | 上海明略人工智能(集团)有限公司 | 目标对象等级确定方法、装置、存储介质及电子装置 |
CN113313191A (zh) * | 2021-06-13 | 2021-08-27 | 西北工业大学 | 一种基于无监督学习的分布式孔径交互智能评估方法 |
CN114202929B (zh) * | 2021-12-14 | 2022-12-06 | 广州交信投科技股份有限公司 | 一种基于中小客车通行行为的非法营运车辆识别方法 |
CN117556339B (zh) * | 2023-11-17 | 2024-04-26 | 中国标准化研究院 | 一种网络违法行为风险危险等级评估方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10621670B2 (en) * | 2014-08-15 | 2020-04-14 | Scope Technologies Holdings Limited | Determination and display of driving risk |
CN104732077A (zh) * | 2015-03-12 | 2015-06-24 | 苏州讯创信息技术有限公司 | 基于多维度评估模型的高危车辆颜色预警方法 |
CN106651162A (zh) * | 2016-12-09 | 2017-05-10 | 思建科技有限公司 | 一种基于大数据的驾驶风险评估方法 |
CN106980911A (zh) * | 2017-04-05 | 2017-07-25 | 南京人人保网络技术有限公司 | 基于静态因子的驾驶风险评估方法及装置 |
CN109840660B (zh) * | 2017-11-29 | 2021-07-30 | 北京四维图新科技股份有限公司 | 一种车辆特征数据处理方法及车辆风险预测模型训练方法 |
CN109063751B (zh) * | 2018-07-16 | 2021-09-17 | 江苏智通交通科技有限公司 | 基于梯度提升决策树算法的交通高危人员识别方法 |
CN109544351B (zh) * | 2018-10-12 | 2024-05-07 | 平安科技(深圳)有限公司 | 车辆风险评估方法、装置、计算机设备及存储介质 |
CN109740840A (zh) * | 2018-11-23 | 2019-05-10 | 深圳市大东车慧科技股份有限公司 | 一种基于人、车、路和环境的多元分析驾驶风险评估系统 |
CN109598931B (zh) * | 2018-11-30 | 2021-06-11 | 江苏智通交通科技有限公司 | 基于交通安全风险的群体划分与差异性分析方法及系统 |
CN109649396B (zh) * | 2019-01-18 | 2020-06-09 | 长安大学 | 一种营运车辆驾驶员安全性检测方法 |
CN109726942A (zh) * | 2019-03-01 | 2019-05-07 | 北京汽车研究总院有限公司 | 一种驾驶环境风险评估方法及系统 |
-
2019
- 2019-09-19 CN CN201910887704.8A patent/CN110570655B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110570655A (zh) | 2019-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110570655B (zh) | 基于层次聚类和决策树的车辆特征评估方法 | |
CN111815986B (zh) | 一种交通事故预警方法、装置、终端设备及存储介质 | |
Das et al. | Factor association with multiple correspondence analysis in vehicle–pedestrian crashes | |
CN110544373B (zh) | 一种基于北斗车联网的货车预警信息提取与风险识别方法 | |
Wong et al. | Rough set approach for accident chains exploration | |
Das et al. | Investigating the pattern of traffic crashes under rainy weather by association rules in data mining | |
CN110705852A (zh) | 一种基于层次分析法的车辆风险评估方法 | |
CN105809193A (zh) | 一种基于kmeans算法的非法运营车辆的识别方法 | |
CN106021545A (zh) | 用于车辆远程诊断与备件检索的方法 | |
CN114168646A (zh) | 基于多数据融合的营运车辆运输监控方法及系统 | |
CN113762734A (zh) | 一种危化品车辆公路行驶风险评估方法及系统 | |
CN110400469B (zh) | 基于人车关联分析的准驾不符违法行为预警方法 | |
CN113837886A (zh) | 一种基于知识图谱的车险理赔欺诈风险识别方法和系统 | |
Liu et al. | Predicting interstate motor carrier crash rate level using classification models | |
CN108961748A (zh) | 一种基于当量违法率的交叉口运行安全状态排名方法 | |
Ma et al. | Driving style estimation by fusing multiple driving behaviors: a case study of freeway in China | |
CN113673304B (zh) | 基于场景语义驱动的车载预期功能安全危害分析评估方法 | |
CN107766983A (zh) | 一种城市轨道交通车站应急救援驻车点的设置方法 | |
Zhang et al. | A road traffic accidents prediction model for traffic service robot | |
Gardner et al. | Driving with data: Modeling and forecasting vehicle fleet maintenance in Detroit | |
CN110119891B (zh) | 一种适于大数据的交通安全影响因素辨识方法 | |
CN110263074B (zh) | 一种基于lle和k均值法挖掘违法事故对应关系的方法 | |
CN107169202A (zh) | 一种行进车辆间安全保持距离的计算方法 | |
CN116753938A (zh) | 车辆测试场景生成方法、装置、存储介质及设备 | |
CN111144772A (zh) | 一种基于数据挖掘的道路运输安全风险实时评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: Room 707-710, 7th floor, building B3, innovation industrial park, No. 800, Wangjiang West Road, hi tech Zone, Hefei City, Anhui Province Patentee after: Anhui Baicheng Huitong Technology Co.,Ltd. Address before: Room 707-710, 7th floor, building B3, innovation industrial park, No. 800, Wangjiang West Road, hi tech Zone, Hefei City, Anhui Province Patentee before: ANHUI BAI CHENG HUI TONG TECHNOLOGY CO.,LTD. |
|
CP01 | Change in the name or title of a patent holder |