CN110929224A

CN110929224A - 基于公交行车安全的安全指标体系创建方法

Info

Publication number: CN110929224A
Application number: CN201911119519.0A
Authority: CN
Inventors: 黄驿惠; 沈峰; 潘振兴; 刘伟; 娄亭
Original assignee: Shanghai Seari Intelligent System Co Ltd
Current assignee: Shanghai Seari Intelligent System Co Ltd
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2020-03-27

Abstract

本发明涉及一种基于公交行车安全的安全指标体系创建方法。本发明的安全指标主要涉及到两类指标：安全评价指标和安全风险指标。安全评价指标以事故统计数据为依据，考虑事故发生频率、事故人员伤亡、事故财产损失等方面，客观刻画评价对象过去一段时间的行车安全状况。安全风险指标基于安全评价指标以及其他各类安全属性，挖掘出行车安全背后的规则，对评价对象可能存在的潜在安全风险进行定量评价，是一种事故风险预测指标。

Description

基于公交行车安全的安全指标体系创建方法

技术领域

本发明在全面分析公交行车安全事故的基础上，运用数据挖掘，构建安全管理评价指标体系，以全面预判行车安全涉及到人、车、线、场、站多维度对象的行车风险。

背景技术

目前公交公司对于行车对象行车安全方面的考核和管理基本基于安全公里数等单一的考核指标，没有成体系的评价指标。公交公司内部管理系统通常存储有以下几种类型的数据：

(1)驾驶员属性：主要包括公交公司在职驾驶员个人基本信息、身体健康状态方面数据、驾驶员驾驶技能相关数据等等。驾驶员属性数据的数据结构如下表1所示：

表1

(2)车辆属性：主要包括公交公司运营车辆基本信息数据、车辆使用状态相关数据等等。车辆属性数据的数据结构如下表2所示：

表2

(3)站点属性：主要包括站点基本信息数据、站点所在位置、站点相关线路等等。站点属性数据的数据结构如下表3所示：

表3

(4)场站属性：主要包括场站基本信息数据、场站面积、场站停车数等等。场站属性数据的数据结构如下表4所示：

表4

(5)线路属性：主要包括线路基本信息数据、线路车队管理相关数据等等。线路属性数据的数据结构如下表5所示：

表5

(6)事故属性：主要包括事故发生的时间地点、事故情况、事故伤亡人数、财产损失等等。事故属性数据的数据结构如下表6所示：

数据	类型	含义
			事故时间	TIME	事故时间
事故日期	DATE	事故日期
			线路	VARchar2(10)	线路名称
车牌号	VARchar2(32)	涉事公交车牌照
			名字	VARchar2(100)	驾驶员名字
职号	VARchar2(100)	驾驶员职号
			事故对象	VARchar2(100)	事故对象
事故地点	VARchar2(255)	事故发生地点描述
			事故坐标经度	NUMBER(38,6)	事故发生地点经度坐标
事故坐标维度	NUMBER(38,6)	事故发生地点纬度坐标
			事故情况	VARchar2(255)	事故具体情况描述
责任分析	VARchar2(255)	事故驾驶员责任分析
			事故总损失	NUMBER(10)	事故总损失
事故死亡人数	NUMBER(10)	事故死亡人数
			事故受伤人数	NUMBER(10)	事故受伤人数

表6

发明内容

本发明目的是：基于公交公司内部管理系统存储的数据建立反映行车安全的安全指标体系。

为了达到上述目的，本发明的技术方案是提供了一种基于公交行车安全的安全指标体系创建方法，其特征在于，包括以下步骤：

步骤1：将当前年度之前的历史年度事故数据与各对象的对象编号进行合并；

步骤2：判断各对象是否有事故发生，有则转入步骤3，没有则转入步骤4；

步骤3：按照对象分组统计事故的死亡人数、事故的受伤人数、事故的财产损失和事故的发生次数；

步骤4：将事故的死亡人数、事故的受伤人数、事故的财产损失和事故的发生次数均填充为0，

步骤5：通过步骤3及步骤4获得所有对象的事故属性；

步骤6：分别利用层次分析法及主成分分析法对上一步获得的数据进行处理，其中：

利用层次分析法对上一步获得的数据进行处理具体包括以下步骤：

步骤6101、建立层次结构模型，该层次结构模型包括目标层、准则层、方案层，其中，方案层反映不同的方案即多个驾驶员，准则层反映判断驾驶员分数的因素或标准，目标层反映驾驶员行车安全的综合水平；

步骤6102、构造对比矩阵；

步骤6103、对上一步构造出的对比矩阵进行一致性检验，若通过一致性检验，则计算对比矩阵的归一化特征向量，将其作为权向量，若未通过一致性检验，则返回步骤6102重新构造对比矩阵；

步骤6104、权向量中的4个元素x₁，x₂，x₃，x₄为准则层的4个权重；则方案层及各个对象的最终安全评价指标c_i得分为：x₁Y_i1+x₂Y_i2+x₃Y_i3+x₄Y_i4，式中，Y_i1、Y_i2、Y_i3、Y_i4分别表示第i个对象的事故属性；

假设有n个对象信息，每个对象信息为包括事故的死亡人数、事故的受伤人数、事故的财产损失和事故的发生次数的4维属性，按照列组成n×4矩阵X，则利用主成分分析法对上一步获得的数据进行处理具体包括以下步骤：

步骤6201、求出协方差矩阵

步骤6202、求出协方差矩阵C的特征值λ_i和特征向量w_i；

步骤6203、对特征值λ_i从大到小排序，选取最大特征值对应的特征向量，组成矩阵W₁₄；

步骤6204、计算降维矩阵Y_1n＝W₁₄X_4n即为PCA降维最终结果p_i；

步骤7：将层次分析法、主成分分析法获得的最终结果投射到(50，100)范围内，以初步形成安全评价指标初始分值；

步骤8：根据组合赋权法公式：

得到安全评价指标最终得分w_i，式中，

表示不同算法的权重系数，

)；

步骤9：导入当前年度事故数据，判断对象是否发生过事故，发生过则对象目标属性标注为1，没有发生过事故则对象目标属性标注为0；

步骤10：导入对象特征变量和目标变量，特征变量包括两部分：对象自身属性以及通过步骤1至步骤8得到的对象历史安全评价指标；

步骤11：检查数据是否有缺失值、异常值，对有缺失值、异常值的样本数据进行删除；

步骤12：对特征变量进行相关性分析，变量两两之间相关性大于预先设定的阈值，删除其中之一的变量；

步骤13：判断变量是否是类别变量，否的话转入步骤14，是的话转入步骤15；

步骤14：导入对象目标属性变量，对连续性变量采取连续性变量离散化处理，转回步骤13；

步骤15：判断类别变量类别是否超过5类，是的话转入步骤16，否的话转入步骤17；

步骤16：对类别变量进行分组处理，使得变量类别小于等于5类；

步骤17：计算所有特征变量的IV值：

式中，#y_i是这个组中响应对象的数量，#n_i是这个组中未响应对象的数量，#y_T是样本中所有响应客户的数量，#n_T是样本中所有未响应客户的数量；

根据IV值从大到小排序，选出IV值大于预先设定的阈值的所有特征变量；

步骤10：对筛选完的变量进行证据权重转化

WOE_i表示证据权重；

步骤11：利用步骤10得到的WOE_i对对象目标属性进行处理得到数据集；

步骤12：将数据集分为测试数据集以及训练数据集；

步骤13：运用训练数据集训练逻辑回归模型，首先初始化模型参数；

步骤14：通过公式

计算预测结果，式中，σ(·)为sigmoid激活函数；

步骤15：计算代价函数

式中，

为针对1个样本的损失函数，n为样本总数量；

步骤16：判断代价函数J(w,b)是否达到最小值，是的话则逻辑回归模型已收敛到最小值，输出逻辑回归模型的结果，进入步骤18；否则进入步骤17；

步骤17：按梯度上升算法调整逻辑回归模型的参数，返回步骤14，重新计算预测结果；

步骤18：运用测试集对逻辑回归模型进行检验，判断KS值是否大于预先设定的阈值，若大于则说明逻辑回归模型预测能力较好，转入步骤19，否则转回步骤13，对逻辑回归模型重新进行调整；

步骤19：输出模型参数β₀、β₁、β₂、β₃…β_n；

步骤20：设定评分卡参数：确定预期分值P和比率翻番的分数POD；

步骤21：将上一步确定的预期分值P和比率翻番的分数POD代入公式

求解参数A、B，式中，θ₀表示样本的好坏比率；

步骤22：运用如下公式计算获得安全风险指标Score：Score＝A-B{β₀+β₁(ω₁₁δ₁₁+ω₁₂δ₁₂+…)+β₂(ω₂₁δ₂₁+ω₂₂δ₂₂+…)+…β_n(ω_n1δ_n1+ω_n2δ_n2+…)}，式中，β₀、β₁、β₂、β₃…β_n为逻辑回归的模型参数；ω_ij为第i个变量第j个值的WOE；δ_ij为二元变量(0，1)，表示变量i是否取第j个值。

优选地，步骤5中，对事故属性数据统一进行归一化处理。

优选地，步骤6103中，对对比矩阵进行一致性检验包括以下步骤：

定义一致性指标为

式中，λ表示特征向量，n表示矩阵阶数；CI＝0有完全的一致性；CI接近于0，有满意的一致性；CI越大，不一致性越严重；引入随机一致性指标RI衡量CI的大小，定义一致性比率：

若一致性比率CR<0.1时，认为步骤6102构造的对比矩阵的不一致程度在允许的范围之内，有满意的一致性，通过一致性检验，否则返回步骤6102重新构造对比矩阵。

本发明的安全指标主要涉及到两类指标：安全评价指标和安全风险指标。安全评价指标以事故统计数据为依据，考虑事故发生频率、事故人员伤亡、事故财产损失等方面，客观刻画评价对象过去一段时间的行车安全状况。安全风险指标基于安全评价指标以及其他各类安全属性，挖掘出行车安全背后的规则，对评价对象可能存在的潜在安全风险进行定量评价，是一种事故风险预测指标。

指标体系对象主要指人、车、线、场、站五类中的每个个体对象。对于安全评价指标来说，这五类对象特征属性无区别，算法流程基本一致；对于安全风险指标来说，五类对象的个体特征属性各不相同，但数据处理、算法流程基本一致；

由于各类属性时间敏感度不高，事故发生也属于低频事件，故安全指标体系以每一个自然年作为更新单位。涉及到的高频属性均按照年平均(数值型)或众数(类别性)取值。

安全风险指标算法的输入参数包含了每个对象的安全评价指标，安全评价指标反应的是每一个对象的历史行车安全状况，类似于过往病史，在对对象进行未来一段时间行车安全风险进行预判时，考虑历史事故状况可以使得预判更加准确。

附图说明

图1为本发明的流程图；

图2为层次结构模型。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明的提出基于如下概念

相关性分析：数据相关性是指数据之间存在某种关系，如正相关，负相关。

连续性变量离散化：数据离散化是指将连续的数据进行分段，使其变为一段段离散化的区间。

WOE：WOE的全称是“Weight of Evidence”，即证据权重。WOE是对原始自变量的一种编码形式。

IV(Information Value):中文意思是信息价值或者信息量，用来衡量自变量的预测能力。

KS值：KS(Kolmogorov-Smirnov)值越大，表示模型能够将正、负客户区分开的程度越大。KS值的取值范围是[0，1]，通常来讲，KS>0.2即表示模型有较好的预测准确性。

POD:当好坏比上升1倍时，分数上升PDO个单位。

如图1所示，本发明提供的一种基于公交行车安全的安全指标体系创建方法包括以下内容：

第一部分、算法前期数据处理步骤：

安全评价指标前期数据处理：

步骤1：首先将历史年度事故数据(2014-2017年)与各对象编号进行合并；

步骤3：按照对象分组统计事故的死亡人数、事故的受伤人数、事故的财产损失和事故的发生次数，单位为：年每百公里(驾驶员、车)/年(站台、场站、线路)。

步骤4：事故的死亡人数、事故的受伤人数、事故的财产损失和事故的发生次数均填充为0，

步骤5：获得所有对象的事故属性，为消除量纲的影响，对事故属性数据统一进行归一化处理。

安全风险指标前期数据处理：

步骤1：导入当前年度(2018年)事故数据，判断对象是否发生过事故，发生过则对象目标属性标注为1，没有发生过事故则标注为0；

步骤2：导入对象特征变量和目标变量，特征变量主要包括两部分：对象自身属性以及对象历史安全评价指标；

步骤3：检查数据是否有缺失值、异常值，对有缺失值、异常值的样本数据进行删除；

步骤4：对特征变量进行相关性分析，变量两两之间相关性大于0.8，删除其中之一的变量；

步骤5：判断变量是否是类别变量，否的话转入步骤6，是的话转入步骤7；

步骤6：导入对象目标属性变量，对连续性变量采取连续性变量离散化处理，转回步骤5；

步骤7：判断类别变量类别是否超过5类，是的话转入步骤8，否的话转入步骤9；

步骤8：对类别变量进行分组处理，使得变量类别小于等于5类；

步骤9：计算所有特征变量的IV值：

式中，py_i表示这个组中响应客户占所有样本中所有响应客户的比例，pn_i表示这个组中未响应客户占样本中所有未响应客户的比例，#y_i是这个组中响应对象的数量，#n_i是这个组中未响应对象的数量，#y_T是样本中所有响应客户的数量，#n_T是样本中所有未响应客户的数量。

根据IV值从大到小排序，选出IV值大于0.02的所有特征变量；

步骤10：对筛选完的变量进行证据权重转化，得到证据权重

第二部分、算法步骤描述：

1)层次分析法：

步骤1：建立层次结构模型(目标层、准则层、方案层)以公交车驾驶员的信息为例，如图2所示。

步骤2：构造对比矩阵

得到以下对比矩阵：

a₁₄＝7说明死亡人数对事故次数来说强烈重要。

步骤3：层次单排序及一致性检验。构造出的矩阵如果不满足一致性检验需要重新构造矩阵，对应于判断矩阵的最大特征值λ_max的特征向量，经过归一化(使向量中各元素之和为1)后记为W。W的元素为同一层元素对于上一层元素某因素相对重要性的排序权值，这一过程称为层次单排序。

定义一致性指标为

CI＝0有完全的一致性；CI接近于0，有满意的一致性；CI越大，不一致性越严重。为了衡量CI的大小，引入随机一致性指标RI如下表所示：

n	1	2	3	4	5	6	7	8	9	10	11
												RI	0	0	0.58	0.90	1.12	1.24	1.32	1.41	1.45	1.49	1.51

定义一致性比率：

一般认为一致性比率CR<0.1时，认为A矩阵的不一致程度在允许的范围之内，有满意的一致性，通过一致性检验。可用其归一化特征向量作为权向量，否则就要重新构造对比矩阵A，对a_ij加以调整。

步骤4：通过一致性检验之后，确定准则层4个权重：x₁，x₂，x₃，x₄；方案层及各个对象的最终安全评价指标c_i得分为：x₁Y_i1+x₂Y_i2+x₃Y_i3+x₄Y_i4，式中，Y_i1、Y_i2、Y_i3、Y_i4分别表示第i个对象的事故属性。

2)PCA(主成分分析法)：

假设有n个对象信息，每个对象信息为包括事故的死亡人数、事故的受伤人数、事故的财产损失和事故的发生次数的4维属性，按照列组成n×4矩阵X，则PCA主成分分析法的步骤如下：

步骤1：求出协方差矩阵

步骤2：求出协方差矩阵C的特征值λ_i和特征向量w_i。

步骤3：对特征值从大到小排序，选取最大特征值对应的特征向量w₁，组成矩阵W₁₄。

步骤4：计算降维矩阵Y_1n＝W₁₄X_4n即为PCA降维最终结果p_i。

3)逻辑回归算法模型训练步骤：

把对象目标属性和对象特征属性按照对象编号进行匹配合并形成数据集。

步骤1：将数据集按3：7比例分为两部分，测试数据集以及训练数据集；

步骤2：运用训练数据集训练逻辑回归模型，首先初始化模型参数；

步骤3：通过公式

σ(Z)为sigmoid激活函数计算预测结果；

步骤4：计算代价函数

为针对1个样本的损失函数；

步骤5：判断代价函数是否达到最小值，是的话则模型已收敛到最小值，输出模型结果，进入步骤7；否则进入步骤6；

步骤6：按梯度上升算法调整模型参数，返回步骤3，重新计算预测结果；

步骤7：运用测试集对模型进行检验，判断KS值是否大于20％，大于20％则说明模型预测能力较好，转入步骤8，否则转回步骤2，对模型重新进行调整；

步骤8：输出模型参数β₀、β₁、β₂、β₃…β_n。

第三部分、指标评分体系建立步骤：

1)安全评价指标最终评分：

步骤1：根据层次分析法、PCA(主成分分析法)获得的最终结果投射到(50，100)范围内，以初步形成安全评价指标初始分值；

步骤2：根据组合赋权法公式：

得到安全评价指标最终得分，

表示不同算法的权重系数，

2)安全风险指标最终评分：

步骤1：设定评分卡参数：确定预期分值P和比率翻番的分数POD；

步骤2：将上一步确定的预期分值P和比率翻番的分数POD代入公式

求解参数A、B，式中，θ₀表示样本的好坏比率；

步骤3：运用如下公式计算获得安全风险指标Score：Score＝A-B{β₀+β₁(ω₁₁δ₁₁+ω₁₂δ₁₂+…)+β₂(ω₂₁δ₂₁+ω₂₂δ₂₂+…)+…β_n(ω_n1δ_n1+ω_n2δ_n2+…)}，式中，β₀、β₁、β₂、β₃…β_n为逻辑回归的模型参数；ω_ij为第i个变量第j个值的WOE；δ_ij为二元变量(0，1)，表示变量i是否取第j个值。