CN107516287A

CN107516287A - 交通事故成因分析方法

Info

Publication number: CN107516287A
Application number: CN201710729803.4A
Authority: CN
Inventors: 邓晓衡; 曾德天
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2017-08-23
Filing date: 2017-08-23
Publication date: 2017-12-26

Abstract

本发明公开了一种交通事故成因分析方法，包括获取交通事故相关数据并得到与交通事故直接相关的数据集；采用层次分析法对数据集进行分类；构建上下层次的判断矩阵并进行一致性检验；获取数据集中的频繁项集并采用遗传算法计算最终的最优分类规则集，从而完成交通事故的成因分析。本发明方法通过层次分析法和遗传算法相结合的方式，对交通事故的成因、影响因素、驾驶人的因素、天气因素等各类因素进行综合考量，对交通事故的成因进行了大量数据的挖掘，找到其内在数据的联系，挖掘交通事故数据与事故自身的关联因素，从而为交通管理部分提供决策依据和数据支持。

Description

交通事故成因分析方法

技术领域

本发明具体涉及一种交通事故成因分析方法。

背景技术

随着国家经济技术的发展和人们生活水平的提高，汽车已经成为了人们生产和生活中必不可少的交通工具，给人们的生产和生活带来了无尽的便利。

随着汽车的逐步普及和车辆的大量上路，道路的交通压力大大增加。同时，随着车辆的普及，大量的新手司机开车上路，新手司机对于道路状况的不熟悉，对于道路综合情况的处理经验不足，相对容易导致道路事故的发生；此外，一些经验丰富的司机，凭借着自己多年的道路驾驶经验，容易产生麻痹大意的情况，也会导致交通事故的隐患。因此，目前司机和车辆的大量上路，道路的拥堵及综合状态，均使得交通事故有着愈演愈烈的趋势。

每天每时每刻，我国的土地上都发生着交通事故，但是现在我国的交通事故处理都还处于事故处理的阶段，并未发现任何研究或专利对事故发生的原因及背后的因素进行深入挖掘，从而使得我国交通事故频繁发生却无数据对事故发生原因进行数据支持，从而使得交通管理部门无法针对事故发生的原因针对性的指定相应的指导策略或规则。

发明内容

本发明的目的在于提供一种能够挖掘交通事故数据与事故自身的关联因素，从而为交通管理部分提供决策依据和数据支持的交通事故成因分析方法。

本发明提供的这种交通事故成因分析方法，包括如下步骤：

S1.获取交通事故的相关数据，并对获取的数据进行清洗，从而得到与交通事故直接相关的数据集；

S2.采用层次分析法对步骤S1得到的数据集进行分类，从而将数据集中的所有数据分为若干类；

S3.根据步骤S2得到的分类结果，结合专家知识构建上下层次的判断矩阵，并对构建的判断矩阵进行一致性检验；

S4.获取步骤S1中数据集中的频繁项集，并采用遗传算法计算到最终的最优分类规则集，从而完成交通事故的成因分析。

步骤S1所述的获取交通事故的相关数据，具体包括交通事故数据表，全年天气数据表以及违法行为数据表。

步骤S1所述的得到与交通事故直接相关的数据集，具体包括驾驶年限数据信息，驾驶员性别数据信息，驾驶员年龄数据信息，培训方式数据信息，车辆品牌数据信息，车辆颜色数据信息，事故地点数据信息，事故月份数据信息，事故日数据信息，事故小时数据信息，天气状况数据信息，温度数据信息和风力风向数据信息。

步骤S2所述的数据集中的所有数据分为若干类，具体为将数据集中的数据分为驾驶员类、车辆类、时间-地点类和环境类。

步骤S3所述的构建上下层次的判断矩阵并进行一致性检验，具体为采用如下步骤构建矩阵和检验：

A.结合专家知识，按照9分位比率，构建上下层次判断矩阵；所述上下层次判断矩阵为目标层-中间层判断矩阵G-C，中间层-方案层判断矩阵C1-S，中间层-方案层判断矩阵C2-S，中间层-方案层判断矩阵C3-S和中间层-方案层判断矩阵C4-S；

B.按照计算步骤A获取的判断矩阵的CI值和CR值：

式中λ_max为对应判断矩阵的最大特征值，n为对应判断矩阵的维度，RI值通过查询层次分析法中的平均一致性指标取值参考表中n所对应的值得到；

C.根据步骤B的计算结果，若判断矩阵的CR值小于0.1，则认定该判断矩阵的一致性检验通过；

D.待所有判断矩阵的一致性检验通过后，计算各个判断矩阵最大特征值所对的特征向量；该特征向量即对应下一层中的每个属性相对于上一层的权重值；将中间层-方案层中某一判断矩阵所对应的特征向量乘上目标层-中间层判断矩阵所对应的特征向量中相应的值，从而得到方案层中每个属性相对于目标层的权重值，并选取权重大于设定阈值的字段作为影响交通事故的主要因素。

步骤S4中所述的获取数据集中的频繁项集，具体为采用apriori算法得到数据集中的频繁项集。

步骤S4所述的采用遗传算法计算到最终的最优分类规则集，具体为采用如下规则计算最终分类规则集：

a.针对数据集，将影响交通事故的因素作为规则前件部分，将交通事故原因类型作为规则后件部分；并用x位二进制数表示规则前件中每一个特征属性的分类，用y位二进制数表示规则后件中每一个特征属性的分类；

b.根据得到的频繁项集，挑选其中同时含有特征属性与分类属性的项集，作为初始的群体进行编码；所述的分类属性为事故原因类型字段，特征属性为不包含事故原因的剩余字段；

c.选取如下算式作为适应度函数：

F(r)＝a*S(r)+b*C(r)+c*CR(r)

式中变量r代表规则，a，b，c均为常量系数并且a，b，c的取值范围为[0,1]；

d.将完成二进制编码后的频繁项作为遗传算法中的初始染色体；

e.设计选择算子：选用轮盘赌算法，对种群中的每个染色体，计算其对应的适应度值，并将所有染色体的适应度值刻画到一个圆盘上，所述圆盘代表区间0-1；所述圆盘上的每块面积对应每个染色体适应度值的大小；通过所产生的随机数(0-1)所落的圆盘区间，选择对应的染色体作为父代；

f.设计交叉算子：使用选择算子选择出父本和母本，按单点交叉原则进行y次交叉，随机产生交叉位，交换两个父代个体交叉位前后的串并形成两个新的个体，计算新的个体的适应度值并判断适应度值是否大于设定的阈值：若适应度值大于设定的阈值，则该个体适合下一次的遗传进化，否则则判定该个体不适应下一次的遗传进化；

g.按照如下规则涉及变异算子：

若个体的适应度低于平均适应度，则将该个体的变异算子的取值增大；

若个体的适应度高于或等于平均适应度，则将该个体的变异算子的取值减小。

本发明提供的这种交通事故成因分析方法，通过层次分析法和遗传算法相结合的方式，对交通事故的成因、影响因素、驾驶人的因素、天气因素等各类因素进行综合考量，对交通事故的成因进行了大量数据的挖掘，找到其内在数据的联系，挖掘交通事故数据与事故自身的关联因素，从而为交通管理部分提供决策依据和数据支持。

附图说明

图1为本发明方法的方法流程图。

图2为本发明方法中的交通事故系统层次结构图。

具体实施方式

以下以A市的数据作为示例，进一步说明本发明方法。

如图1所示为本发明方法的方法流程图：本发明提供的这种交通事故成因分析方法，包括如下步骤：

S1.获取交通事故的相关数据，并对获取的数据进行清洗，从而得到与交通事故直接相关的数据集；交通事故的相关数据包括交通事故数据表，全年天气数据表以及违法行为数据表；其中，与交通事故直接相关的数据集则具体包括驾驶年限数据信息，驾驶员性别数据信息，驾驶员年龄数据信息，培训方式数据信息，车辆品牌数据信息，车辆颜色数据信息，事故地点数据信息，事故月份数据信息，事故日数据信息，事故小时数据信息，天气状况数据信息，温度数据信息和风力风向数据信息；

在具体实施时，在mysql数据库导入原始的execl表格，包含交通事故数据表，贵阳市全年天气数据表，违法行为数据表共3个表格。由于不是所有的属性字段都可能与事故成因有关联，如车牌号，驾驶证号，事故编号等，在剔除掉无关的编号字段后剩下的便是可能和事故成因相关的属性字段。以交通事故数据表为主表关联各表的信息，构建一个包含如下特征的汇总表{驾驶年龄，驾驶员性别，驾驶员年龄，培训方式，1车的品牌，2车的品牌，1车的颜色，2车的颜色，事故地点，月份，日，小时，天气状况，温度，风力风向}；

然后，通过编写sql函数对汇总表进行数据除噪、离散化、概念分层等数据预处理工作。在数据处理完毕后，将汇总表从数据库导出，保存为csv格式。通过编写python函数对csv文件进行处理；

S2.采用层次分析法对步骤S1得到的数据集进行分类，从而将数据集中的所有数据分为驾驶员类、车辆类、时间-地点类和环境类(如图2所示)；其中，将驾驶年龄，驾驶员性别，驾驶员年龄，培训方式四个字段归于驾驶员类；将1车的品牌，2车的品牌，1车的颜色，2车的颜色归于车辆类；将事故地点，月份，日，小时归于时间-地点类，将天气状况，温度，风力风向归于环境类；

S3.根据步骤S2得到的分类结果，结合专家知识构建上下层次的判断矩阵，并对构建的判断矩阵进行一致性检验；具体为采用如下步骤构建矩阵和检验：

B.按照计算步骤A获取的判断矩阵的CI值和CR值：

式中λ_max为对应判断矩阵的最大特征值，n为对应判断矩阵的维度，RI值通过查询层次分析法中的平均一致性指标取值参考表中n所对应的值得到；具体如下表1所示：

表1 层次分析法中的平均一致性指标取值参考表

阶数	1	2	3	4	5	6	7	8	9
										RI	0	0	0.52	0.89	1.12	1.26	1.36	1.41	1.46

D.待所有判断矩阵的一致性检验通过后，计算各个判断矩阵最大特征值所对的特征向量；该特征向量即对应下一层中的每个属性相对于上一层的权重值；将中间层-方案层中某一判断矩阵所对应的特征向量乘上目标层-中间层判断矩阵所对应的特征向量中相应的值，从而得到方案层中每个属性相对于目标层的权重值，并选取权重大于设定阈值的字段作为影响交通事故的主要因素；

在具体实施时，构造好系统层次结构后，结合专家知识，参照ahp的9分位比率，构造上下层次的判断矩阵，分别为目标层与中间层的判断矩阵G-C如表2所示：

表2 目标层与中间层的判断矩阵G-C

G	C1	C2	C3	C4
					C1	1	5	3	2
C2	1/5	1	1/2	1/4
					C3	1/3	2	1	1/2
C4	1/2	4	2	1

中间层与方案层的判断矩阵C1-S如表3所示：

表3 中间层与方案层的判断矩阵C1-S

C1	S1	S2	S3	S4
					S1	1	5	3	2
S2	1/5	1	1/3	1/2
					S3	1/3	3	1	2
S4	1/2	2	1/2	1

中间层与方案层的判断矩阵C2-S如表4所示：

表4 中间层与方案层的判断矩阵C2-S

C2	S5	S6	S7	S8
					S5	1	1	1/2	1/3
S6	1	1	1/3	1/3
					S7	2	3	1	1/2
S8	3	3	2	1

中间层与方案层的判断矩阵C3-S如表5所示：

表5 中间层与方案层的判断矩阵C3-S

C3	S9	S10	S11	S12
					S9	1	3	3	4
S10	1/3	1	1/2	2
					S11	1/3	2	1	3
S12	1/4	1/2	1/3	1

中间层与方案层的判断矩阵C4-S如表6所示：

表6 中间层与方案层的判断矩阵C4-S

C4	S13	S14	S15
				S13	1	5	3
S14	1/5	1	1/3
				S15	1/3	3	1

之后判断上述各个矩阵能否通过一致性检验，计算矩阵的最大特征值和其对应的特征向量，以及相应的CI和CR值，计算的结果如表7所示：

表7 计算结果示意表

	G-C	C1-S	C2-S	C3-S
					ω_k1	0.4773	0.4909	0.1377	0.5081
ω_k2	0.0809	0.0863	0.1258	0.1545
					ω_k3	0.1539	0.2483	0.2879	0.2448
ω_k4	0.2880	0.1745	0.4486	0.0925
					λ_max	4.0211	4.1074	4.0458	4.0875
CI	0.007	0.0358	0.0153	0.0292
					CR	0.0078	0.039	0.017	0.0324

ω_k代表相应矩阵最大特征值对应的特征向量；

对于RI的值可以通过查平均随机一致性指标取值参考表得到，当矩阵的阶数n为3时，RI取0.58；当矩阵的阶数n为4时，RI取0.90。对于每个矩阵如果最终计算出来的CR值远小于0.1，则说明矩阵的一致性检验通过，可以进行下一步的工作；若没有通过则说明要重新构造判断矩阵，直到一致性检验通过；

最终得出方案层中每个属性相对于目标层的权重值如表8所示：

表8 权重值示意表

选取权重大于某一阈值的字段作为影响交通事故的主要因素。这里可以根据实际的权重值选取合适的阈值(选取阈值为0.044)作为一个较好的分割值，从而选出一些主因素字段；如果阈值选取的过大，则选出的字段会偏少，导致生成的关联规则也较少；反之，阈值偏大，选取的字段过多，不利于主因素字段的筛选

S4.获取步骤S1中数据集中的频繁项集，并采用遗传算法计算到最终的最优分类规则集，从而完成交通事故的成因分析；具体为采用apriori算法得到数据集中的频繁项集，并采用如下规则计算最终分类规则集：

假设属性含有n个分类，则x的取值满足如下的公式：

2^x＞n

例如得到某一频繁项—[驾龄＝'Driving experience 1',培训方式＝'schooltraining',事故原因类型＝'1']，培训方式所属的特征属性分类有’schooltraining’与’self training’两类，即公式(3)中n＝2，则x相应取2；其中'schooltraining'对应编码为’01’，’self training’对应’10’；同理驾龄字段的分类(n＝4)，'Driving experience 1'编码为’001’，’Driving experience 2’编码为’010’,’Drivingexperience 3’编码为’011’，’Driving experience 4’编码为’100’；事故原因类型＝’1’编码为’0001’(此处n＝9)，其他未出现在此频繁项中的特征属性对应的二进制编码为一串0，其相应的位数为x，x的取值依赖于特征属性的分类数

c.选取如下算式作为适应度函数：

F(r)＝a*S(r)+b*C(r)+c*CR(r)

令N为整个数据集的记录数，C为规则中除去“事故原因类型”属性后的其他字段属性，C在数据集中出现的频数用R_C表示；用D表示频繁项中“事故原因类型”字段属性，D在数据集中出现的频数用R_D表示；C，D同时出现在数据集中的频数计为R_C∪R_D，S(r)为规则的支持度，则S(r)的定义为：

C(r)为规则的置信度，C(r)的定义为：

同理规则的覆盖度CR(r)定义为：

常量系数a，b，c的值由用户根据需要调整，从而对规则评价的偏重可以发生相应的改变，使得进化沿用户期望的方向进行；

e.设计选择算子：选用轮盘赌算法，对种群中的每个染色体，计算其对应的适应度值，并将所有染色体的适应度值刻画到一个圆盘上，所述圆盘代表区间0-1；所述圆盘上的每块面积对应每个染色体适应度值的大小；通过所产生的随机数所落的圆盘区间，选择对应的染色体作为父代；

f.设计交叉算子：使用选择算子选择出父本和母本，按单点交叉原则进行y次交叉，随机产生交叉位，交换两个父代个体交叉位前后的串并形成两个新的个体，计算新的个体的适应度值并判断适应度值是否大于设定的阈值：若适应度值大于设定的阈值，则该个体适合下一次的遗传进化，否则则判定该个体不适应下一次的遗传进化；具体的，设置交叉的概率为0.6，使用选择算子选择出父本和母本，按单点交叉原则进行y次交叉，随机产生交叉位，交换两个父代个体交叉位前后的串并形成两个新的个体，计算新的个体的适应度值并判断适应度值是否大于设定的阈值：若适应度值大于设定的阈值，则该个体适合下一次的遗传进化，否则则判定该个体不适应下一次的遗传进化；

g.按照如下规则涉及变异算子：

通过多代的进化，apriori产生的初始规则集沿用户期望的方向(即适应度函数F(r)的设计)不断产生新的规则，通过适者生存的原则，最终找到一批具有高适应度的规则集。

在具体实施时，对于交通事故数据集，将影响交通事故的因素作为规则前件部分，将交通事故原因类型作为规则后件。期望能够找到“驾龄、年龄、培训驾校、时间等字段＝>driver1fault”形式的规则，规则的前件中每一个特征属性(如驾龄)有n个分类，则使用相应x位二进制进行表示，其中x取满足如下公式的最小值：规则的后件driver1fault作为分类属性，则代表造成事故的原因，事故原因共有9种，用二进制表示的方法同规则前件中的特征属性，其分类对照表如表9所示。驾龄字段及其他字段的分类与对照如表10和表11；

表9 分类对照表

标志	意义
		1	追尾的
2	逆行的
		3	倒车的
4	停车时未挂低速档、未拉驻车制动，导致车辆滑行的
		5	开关车门的
6	违反交通信号的
		7	未按规定让行的
8	依法应负全责的其他情形
		9	不符合前8款规定或者双方同时具有上述情形的

表10 驾驶字段分类对照表

标志	意义
		驾驶经验1	0～4年
驾驶经验2	5～11年
		驾驶经验3	12～19年
驾驶经验4	20年及以上

表11其他字段分类对标表

如我们得到了某一频繁项—[Driver age＝'Driving experience 1',Drivertraining＝'school training',driver1fault＝'1']，Driver training所属的特征属性分类有’school training’与’self training’两类，则公式中x取2，'school training '对应编码为’01’，’self training’对应’10’；'Driving experience 1'编码为’001’，’Driving experience 2’编码为’010’,’Driving experience 3’编码为’011’，’Drivingexperience 4’编码为’100’；driver1fault＝’1’编码为’0001’，其他未出现在此频繁项中的特征属性对应的二进制为0，其相应的位数为x，x的取值依赖于特征属性的分类数。在程序设计中，构造了一个列表用于存放频繁项集所对应的二进制染色体。列表的长度为23，对应7个特征属性和1个分类属性，每个属性字段所对应的编码按固定顺序依次存于列表当中。

对于apriori算法得出的频繁项集，挑选其中同时含有特征属性与分类属性的项集，作为初始的群体进行编码。适应度函数是用来评价个体适应环境的能力，是进行自然选择的依据。由于每一条染色体可以看作“驾龄、年龄、培训驾校、时间、天气等字段＝>driver1fault”形式的规则，对于这条规则可以使用支持度，置信度，覆盖度等度量指标进行评价。规则的支持度和置信度反映了所发现规则的有用性和确定性，覆盖度则表达了规则的覆盖程度。令适应度函数F(r):

F(r)＝a*S(r)+b*C(r)+c*CR(r)

其中变量r代表规则，a，b，c均为常量系数并且a，b，c的取值范围为[0,1]。令N为整个数据集的记录数，C为规则中除去driver1fault属性后的其他字段属性，C在数据集中出现的频数用R_C表示；用D表示频繁项中driver1fault字段属性，D在数据集中出现的频数用R_D表示；C，D同时出现在数据集中的频数计为R_C∪R_D，S(r)为规则的支持度，则S(r)的定义为：

C(r)为规则的置信度，C(r)的定义为：

同理规则的覆盖度CR(r)定义为：

对于种群中的每个染色体，计算其对应的适应度值，将所有的适应度值刻画到一个圆盘上，适应度值的大小表示在圆盘上的面积。在转动轮盘的过程中，单个模块的面积(即个体适应度)越大，则被选中的概率越大。假定初始种群的数量为p，连续生成p个0到1之间的随机数，根据随机数所落圆盘的模块，选择其对应的染色体；

设置交叉概率为0.6，为了在不破坏种群的基因多样性的前提下加快种群的进化速度，使用选择算子选择出父本和母本后，按单点交叉进行y次交叉，随机产生交叉位，交换两个父代个体交叉位前后的串，形成两个新的个体，一共会产生2y个个体，考虑到在交通事故数据挖掘中为了找到更优的规则集，将新产生的个体按适应度排序，再从这2y个个体中挑选出大于适应度阈值的个体加入到解中，同时也将这些挑选出的个体加入到原先的种群从而形成新的种群。这样既保存了父本和母本的基因，又在进化的过程中大大提高了种群中个体的性能。对于每条生成的规则，通过计算它的支持度、置信度、覆盖度之和(即适应度)是否大于一定的阈值来判断它是否适合下一次的遗传进化。对于最终生成的结果集中的规则而言，每条规则可以根据其附带的支持度、置信度、覆盖度判断规则的有效性；

如果个体的适应度低于群体的平均适应度，将变异概率的值取一个相对较大的值；如果个体的适应度大于群体的平均适应度，则不需要对个体进行变异，此时将变异概率取一个相对较小的值。

Claims

1.一种交通事故成因分析方法，包括如下步骤：

2.根据权利要求1所述的交通事故成因分析方法，其特征在于步骤S1所述的获取交通事故的相关数据，具体包括交通事故数据表，全年天气数据表以及违法行为数据表。

3.根据权利要求2所述的交通事故成因分析方法，其特征在于步骤S1所述的得到与交通事故直接相关的数据集，具体包括驾驶年限数据信息，驾驶员性别数据信息，驾驶员年龄数据信息，培训方式数据信息，车辆品牌数据信息，车辆颜色数据信息，事故地点数据信息，事故月份数据信息，事故日数据信息，事故小时数据信息，天气状况数据信息，温度数据信息和风力风向数据信息。

4.根据权利要求3所述的交通事故成因分析方法，其特征在于步骤S2所述的数据集中的所有数据分为若干类，具体为将数据集中的数据分为驾驶员类、车辆类、时间-地点类和环境类。

5.根据权利要求4所述的交通事故成因分析方法，其特征在于步骤S3所述的构建上下层次的判断矩阵并进行一致性检验，具体为采用如下步骤构建矩阵和检验：

B.按照计算步骤A获取的判断矩阵的CI值和CR值：

<mrow> <mi>C</mi> <mi>I</mi> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&lambda;</mi> <mi>max</mi> </msub> <mo>-</mo> <mi>n</mi> </mrow> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> </mrow>

6.根据权利要求5所述的交通事故成因分析方法，其特征在于步骤S4中所述的获取数据集中的频繁项集，具体为采用apriori算法得到数据集中的频繁项集。

7.根据权利要求6所述的交通事故成因分析方法，其特征在于步骤S4所述的采用遗传算法计算到最终的最优分类规则集，具体为采用如下规则计算最终分类规则集：

c.选取如下算式作为适应度函数：

F(r)＝a*S(r)+b*C(r)+c*CR(r)

g.按照如下规则涉及变异算子：