CN105809193B

CN105809193B - 一种基于kmeans算法的非法运营车辆的识别方法

Info

Publication number: CN105809193B
Application number: CN201610128320.4A
Authority: CN
Inventors: 邢建平; 宋宪明; 贲晛烨; 田欣玉; 何小妹
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2016-03-07
Filing date: 2016-03-07
Publication date: 2019-03-26
Anticipated expiration: 2036-03-07
Also published as: CN105809193A

Abstract

本发明涉及一种基于kmeans算法的非法运营车辆的识别方法，对现有的Kmeans算法进行改进，在每次分类完毕后都会剔除符合条件的类，减少了原本算法的迭代次数，时间较短，方法简洁易于理解，在提高分类准确率的基础上拓展了kmeans算法的应用。本发明非法运营车辆的识别率较高，在对样本数据进行训练时，非法运营车辆识别率达69％。

Description

一种基于kmeans算法的非法运营车辆的识别方法

技术领域

本发明涉及一种基于kmeans算法的非法运营车辆的识别方法，属于智能交通技术领域。

背景技术

非法运营车辆是未经道路运输管理部门审批，没有在道路客运管理部门办理任何相关手续，没有领取运营牌证而从事有偿服务实施非法经营的车辆。非法运营车辆对社会有一定的危害性：安全系数极低，缺乏日常保养维护，容易发生机械事故，交通安全不能保障；驾驶员的素质差，不具备运营客车驾驶员的基本要求，安全意识淡薄，容易发生人为肇事事故，且未经客运服务培训，无法提供优质服务；车辆不进站，不进行危险品检查，容易发生携带危险品上车而出现意外人身伤害事故和火灾事故等。近年来，由于互联网的不断发展，给非法运营车辆的发展提供了飞速发展的机会，非法运营车辆的治理出现了车辆难以识别、取证困难、数量庞大的特征，目前尚无有效的方法对其自动识别，在大数据时代如何正确的挖掘出非法运营车辆已成为运管中心亟待处理的问题。

中国专利文献CN104794184A公开了种基于大规模数据的贝叶斯分类算法的黑车识别方法，包括：从大规模过车数据平台中检索出黑车样本车辆和白车样本车辆的过车记录数据；对检索出来的过车记录数据进行数据预处理，得到过车记录数据的原始特征属性；根据过车记录数据的原始特征属性计算出车辆出行规律程度；利用过车记录数据的原始特征属性和车辆出行规律程度对贝叶斯分类模型进行训练，得到黑车识别模型；将卡口系统中未识别的过车数据输入黑车识别模型中，黑车识别模型自动识别车辆是否为黑车，并将识别结果呈现给用户。但是，该专利存在以下缺陷：贝叶斯网络的建模过程中需要耗费大量的时间，无法处理基于特征组合所产生的变化结果，需要各个特征属性保持独立，在实际生活中独立性假设并不成立，因而影响其分类结果。在分类方法中都会作出假设逼近贝叶斯定理的要求，分类准确率较低，且该模型较为复杂，不易理解。

K-means算法是硬聚类算法，是典型的基于原型的目标函数聚类方法的代表，它是数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度，它是求对应某一初始聚类中心向量V最优分类，使得评价指标J最小。K-means算法快速、简单，对大数据集有较高的效率并且是可伸缩性的；时间复杂度近于线性，而且适合挖掘大规模数据集。K-Means聚类算法的时间复杂度是O(nkt),其中n代表数据集中对象的数量，t代表着算法迭代的次数，k代表着簇的数目。

发明内容

针对现有技术的不足，本发明提供了一种基于kmeans算法的非法运营车辆的识别方法；

本发明的技术方案为：

一种基于kmeans算法的非法运营车辆的识别方法，具体步骤包括：

A、数据预处理

(1)获取非法运营车辆的行驶信息，作为非法运营车辆的样本数据；获得私家车辆的行驶信息，作为合法车辆的样本数据；行驶信息包括道路卡口编号、所在城市的区域编号、过车时刻、过车次数、车型；

(2)对步骤(1)获取的行驶信息提取出过车记录数据，对所述过车记录数据进行数据预处理，得到过车记录数据的m个原始特征属性；所述过车记录数据包括道路卡口编号、所在城市的区域编号、过车时刻、过车次数；

B、数据分类

(3)将步骤(2)得到的m个原始特征属性组成向量，并在向量中添加分类信息，所述分类信息是指该原始特征属性对应的车辆是否为非法运营车辆，得到所有车辆的数据集；例如，将道路卡口编号、所在城市的区域编号、过车时刻、过车次数组成向量，如表1所示：

表1

C、获取非法运营车辆分类模型

(4)从步骤(3)得到的数据集选取k个数据作为质心；K值一般在实验中选取，根据样本数据集的大小以及正确率等进行设定。

(5)对数据集中剩余的每个数据执行以下操作：计算数据到步骤(4)的每个质心的距离，找到求取的最小距离对应的质心，将该数据与该质心归为一类，距离计算公式如式(Ⅰ)所示：

式(Ⅰ)中，(α₁,α₂Kα_nKα_m)是指表示所述数据的向量，(β₁,β₂Kβ_nKβ_m)是指表示k个质心中某一质心的向量，Similarity是指所述数据到某一质心的距离；n为整数，1≤n≤m；

(6)判断分类是否结束，是的话，进入步骤D，否则，对步骤(5)得到的每一类数据进行如下操作：求取第x类中非法运营车辆在本类中的比例R_illegal,x及合法车辆在本类中的比例R_legal,x，x为类的序号，1≤x≤k，R_illegal,x是第x类中非法运营车辆的数量与第x类中总数量的比值，R_legal,x是第x类中合法车辆的数量与第x类中总数量的比值；取R_illegal,x及R_legal,x中的较大值，与设定阈值λ进行比较，0.6≤λ≤1，如果大于阈值λ，则第x类的数据归为该较大值所属的类，否则，进入步骤(5)；例如，在分出的一类中，合法车辆的比例为70％，非法运营车辆的比例为30％，设定阈值λ为0.6，那么该类就是合法车辆。

D、车辆识别

提取待测车辆的原始特征属性，原始特征属性组成向量，根据式(Ⅰ)计算待测车辆到步骤(4)的每个质心的距离D_t，t＝1,2,...,K；计算待测车辆为合法车辆的概率P_legal及待测车辆为非法运营车辆的概率P_illegal，计算公式如式(Ⅱ)、式(Ⅲ)所示：

如果P_legal大于P_illegal，则该待测车辆为合法车辆，否则，该待测车辆为非法运营车辆。

根据本发明优选的，λ＝0.7。

根据本发明优选的，所述步骤(2)中，具体步骤包括：

a、删除非法运营车辆的样本数据及合法车辆的样本数据中有缺失或者错误的数据；

b、通过相关性分析，得到车辆的过车记录数据中的各原始特征属性与非法运营车辆的相关程度，取相关程度最大的4个特征属性作为过车记录数据的原始特征属性，即道路卡口编号、所在城市的区域编号、过车时刻、过车次数。

本发明的有益效果为：

1、本发明所述方法对现有的Kmeans算法进行改进，在每次分类完毕后都会剔除符合条件的类，减少了原本算法的迭代次数，时间较短，方法简洁易于理解，在提高分类准确率的基础上拓展了kmeans算法的应用。

2、本发明非法运营车辆的识别率较高，在对样本数据进行训练时，非法运营车辆识别率达69％。

附图说明

图1为本发明方法流程框图；

图2为本发明获取非法运营车辆分类模型的方法流程示意图。

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例

A、数据预处理

(1)从运营中心获取非法运营车辆的行驶信息，作为非法运营车辆的样本数据；从运营中心获得私家车辆的行驶信息，作为合法车辆的样本数据；行驶信息包括道路卡口编号、所在城市的区域编号、过车时刻、过车次数、车型；

B、数据分类

(3)将步骤(2)得到的4个原始特征属性组成向量，并在向量中添加分类信息，所述分类信息是指该原始特征属性对应的车辆是否为非法运营车辆，得到所有车辆的数据集；将道路卡口编号、所在城市的区域编号、过车时刻、过车次数组成向量，如表1所示：

表1

C、获取非法运营车辆分类模型

(6)判断分类是否结束，是的话，进入步骤D，否则，对步骤(5)得到的每一类数据进行如下操作：求取第x类中非法运营车辆在本类中的比例R_illegal,x及合法车辆在本类中的比例R_legal,x，x为类的序号，1≤x≤k，R_illegal,x是第x类中非法运营车辆的数量与第x类中总数量的比值，R_legal,x是第x类中合法车辆的数量与第x类中总数量的比值；取R_illegal,x及R_legal,x中的较大值，与设定阈值λ进行比较，λ＝0.7。如果大于阈值λ，则第x类的数据归为该较大值所属的类，否则，进入步骤(5)；例如，在分出的一类中，合法车辆的比例为70％，非法运营车辆的比例为30％，设定阈值λ为0.6，那么该类就是合法车辆。

D、车辆识别

提取待测车辆的原始特征属性，原始特征属性组成向量，根据式(Ⅰ)计算待测车辆到步骤(1)的每个质心的距离D_t，t＝1,2,...,K；计算待测车辆为合法车辆的概率P_legal及待测车辆为非法运营车辆的概率P_illegal，计算公式如式(Ⅱ)、式(Ⅲ)所示：

所述步骤(2)中，具体步骤包括：

b、通过相关性分析，得到车辆的过车记录数据中的各原始特征属性与非法运营车辆的相关程度，取相关程度最大的4个特征属性作为过车记录数据的原始特征属性；

本发明在k次分类后都对每一类计算每类中合法车辆和非法运营车辆的比例，多了这样一个过程，每次往外筛选数据，不仅减少了迭代次数，而且减少用时。在本实施例中，用现有的kmeans算法对数据集进行分类时，分类时间较长，同样的数据集，采用现有的kmeans算法用时为3小时50分，利用本发明所述方法用时为1小时20分，不仅减少了迭代次数，而且减少用时。现有的kmeans算法分类的准确度为45％，本发明所述方法的准确率为70％，准确率大大提高。

Claims

1.一种基于kmeans算法的非法运营车辆的识别方法，其特征在于，具体步骤包括：

A、数据预处理

B、数据分类

(3)将步骤(2)得到的m个原始特征属性组成向量，并在向量中添加分类信息，所述分类信息是指该原始特征属性对应的车辆是否为非法运营车辆，得到所有车辆的数据集；将道路卡口编号、所在城市的区域编号、过车时刻、过车次数组成向量；

C、获取非法运营车辆分类模型

(4)从步骤(3)得到的数据集选取K个数据作为质心；K值在实验中选取，根据样本数据集的大小以及正确率进行设定；

式(Ⅰ)中，(α₁,α₂…α_n…α_m)是指表示所述数据的向量，(β₁,β₂...β_n...β_m)是指表示K个质心中某一质心的向量，Similarity是指所述数据到某一质心的距离；n为整数，1≤n≤m；

(6)判断分类是否结束，是的话，进入步骤D，否则，对步骤(5)得到的每一类数据进行如下操作：求取第x类中非法运营车辆在本类中的比例R_illegal,x及合法车辆在本类中的比例R_legal,x，x为类的序号，1≤x≤K，R_illegal,x是第x类中非法运营车辆的数量与第x类中总数量的比值，R_legal,x是第x类中合法车辆的数量与第x类中总数量的比值；取R_illegal,x及R_legal,x中的较大值，与设定阈值λ进行比较，0.6≤λ≤1，如果大于阈值λ，则第x类的数据归为该较大值所属的类，否则，进入步骤(5)；

D、车辆识别

2.根据权利要求1所述的一种基于kmeans算法的非法运营车辆的识别方法，其特征在于，λ＝0.7。

3.根据权利要求1所述的一种基于kmeans算法的非法运营车辆的识别方法，其特征在于，所述步骤(2)中，具体步骤包括：