CN105809193B - 一种基于kmeans算法的非法运营车辆的识别方法 - Google Patents

一种基于kmeans算法的非法运营车辆的识别方法 Download PDF

Info

Publication number
CN105809193B
CN105809193B CN201610128320.4A CN201610128320A CN105809193B CN 105809193 B CN105809193 B CN 105809193B CN 201610128320 A CN201610128320 A CN 201610128320A CN 105809193 B CN105809193 B CN 105809193B
Authority
CN
China
Prior art keywords
vehicle
data
illegal
legal
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610128320.4A
Other languages
English (en)
Other versions
CN105809193A (zh
Inventor
邢建平
宋宪明
贲晛烨
田欣玉
何小妹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201610128320.4A priority Critical patent/CN105809193B/zh
Publication of CN105809193A publication Critical patent/CN105809193A/zh
Application granted granted Critical
Publication of CN105809193B publication Critical patent/CN105809193B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明涉及一种基于kmeans算法的非法运营车辆的识别方法,对现有的Kmeans算法进行改进,在每次分类完毕后都会剔除符合条件的类,减少了原本算法的迭代次数,时间较短,方法简洁易于理解,在提高分类准确率的基础上拓展了kmeans算法的应用。本发明非法运营车辆的识别率较高,在对样本数据进行训练时,非法运营车辆识别率达69%。

Description

一种基于kmeans算法的非法运营车辆的识别方法
技术领域
本发明涉及一种基于kmeans算法的非法运营车辆的识别方法,属于智能交通技术领域。
背景技术
非法运营车辆是未经道路运输管理部门审批,没有在道路客运管理部门办理任何相关手续,没有领取运营牌证而从事有偿服务实施非法经营的车辆。非法运营车辆对社会有一定的危害性:安全系数极低,缺乏日常保养维护,容易发生机械事故,交通安全不能保障;驾驶员的素质差,不具备运营客车驾驶员的基本要求,安全意识淡薄,容易发生人为肇事事故,且未经客运服务培训,无法提供优质服务;车辆不进站,不进行危险品检查,容易发生携带危险品上车而出现意外人身伤害事故和火灾事故等。近年来,由于互联网的不断发展,给非法运营车辆的发展提供了飞速发展的机会,非法运营车辆的治理出现了车辆难以识别、取证困难、数量庞大的特征,目前尚无有效的方法对其自动识别,在大数据时代如何正确的挖掘出非法运营车辆已成为运管中心亟待处理的问题。
中国专利文献CN104794184A公开了种基于大规模数据的贝叶斯分类算法的黑车识别方法,包括:从大规模过车数据平台中检索出黑车样本车辆和白车样本车辆的过车记录数据;对检索出来的过车记录数据进行数据预处理,得到过车记录数据的原始特征属性;根据过车记录数据的原始特征属性计算出车辆出行规律程度;利用过车记录数据的原始特征属性和车辆出行规律程度对贝叶斯分类模型进行训练,得到黑车识别模型;将卡口系统中未识别的过车数据输入黑车识别模型中,黑车识别模型自动识别车辆是否为黑车,并将识别结果呈现给用户。但是,该专利存在以下缺陷:贝叶斯网络的建模过程中需要耗费大量的时间,无法处理基于特征组合所产生的变化结果,需要各个特征属性保持独立,在实际生活中独立性假设并不成立,因而影响其分类结果。在分类方法中都会作出假设逼近贝叶斯定理的要求,分类准确率较低,且该模型较为复杂,不易理解。
K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。K-means算法快速、简单,对大数据集有较高的效率并且是可伸缩性的;时间复杂度近于线性,而且适合挖掘大规模数据集。K-Means聚类算法的时间复杂度是O(nkt),其中n代表数据集中对象的数量,t代表着算法迭代的次数,k代表着簇的数目。
发明内容
针对现有技术的不足,本发明提供了一种基于kmeans算法的非法运营车辆的识别方法;
本发明的技术方案为:
一种基于kmeans算法的非法运营车辆的识别方法,具体步骤包括:
A、数据预处理
(1)获取非法运营车辆的行驶信息,作为非法运营车辆的样本数据;获得私家车辆的行驶信息,作为合法车辆的样本数据;行驶信息包括道路卡口编号、所在城市的区域编号、过车时刻、过车次数、车型;
(2)对步骤(1)获取的行驶信息提取出过车记录数据,对所述过车记录数据进行数据预处理,得到过车记录数据的m个原始特征属性;所述过车记录数据包括道路卡口编号、所在城市的区域编号、过车时刻、过车次数;
B、数据分类
(3)将步骤(2)得到的m个原始特征属性组成向量,并在向量中添加分类信息,所述分类信息是指该原始特征属性对应的车辆是否为非法运营车辆,得到所有车辆的数据集;例如,将道路卡口编号、所在城市的区域编号、过车时刻、过车次数组成向量,如表1所示:
表1
C、获取非法运营车辆分类模型
(4)从步骤(3)得到的数据集选取k个数据作为质心;K值一般在实验中选取,根据样本数据集的大小以及正确率等进行设定。
(5)对数据集中剩余的每个数据执行以下操作:计算数据到步骤(4)的每个质心的距离,找到求取的最小距离对应的质心,将该数据与该质心归为一类,距离计算公式如式(Ⅰ)所示:
式(Ⅰ)中,(α12nm)是指表示所述数据的向量,(β12nm)是指表示k个质心中某一质心的向量,Similarity是指所述数据到某一质心的距离;n为整数,1≤n≤m;
(6)判断分类是否结束,是的话,进入步骤D,否则,对步骤(5)得到的每一类数据进行如下操作:求取第x类中非法运营车辆在本类中的比例Rillegal,x及合法车辆在本类中的比例Rlegal,x,x为类的序号,1≤x≤k,Rillegal,x是第x类中非法运营车辆的数量与第x类中总数量的比值,Rlegal,x是第x类中合法车辆的数量与第x类中总数量的比值;取Rillegal,x及Rlegal,x中的较大值,与设定阈值λ进行比较,0.6≤λ≤1,如果大于阈值λ,则第x类的数据归为该较大值所属的类,否则,进入步骤(5);例如,在分出的一类中,合法车辆的比例为70%,非法运营车辆的比例为30%,设定阈值λ为0.6,那么该类就是合法车辆。
D、车辆识别
提取待测车辆的原始特征属性,原始特征属性组成向量,根据式(Ⅰ)计算待测车辆到步骤(4)的每个质心的距离Dt,t=1,2,...,K;计算待测车辆为合法车辆的概率Plegal及待测车辆为非法运营车辆的概率Pillegal,计算公式如式(Ⅱ)、式(Ⅲ)所示:
如果Plegal大于Pillegal,则该待测车辆为合法车辆,否则,该待测车辆为非法运营车辆。
根据本发明优选的,λ=0.7。
根据本发明优选的,所述步骤(2)中,具体步骤包括:
a、删除非法运营车辆的样本数据及合法车辆的样本数据中有缺失或者错误的数据;
b、通过相关性分析,得到车辆的过车记录数据中的各原始特征属性与非法运营车辆的相关程度,取相关程度最大的4个特征属性作为过车记录数据的原始特征属性,即道路卡口编号、所在城市的区域编号、过车时刻、过车次数。
本发明的有益效果为:
1、本发明所述方法对现有的Kmeans算法进行改进,在每次分类完毕后都会剔除符合条件的类,减少了原本算法的迭代次数,时间较短,方法简洁易于理解,在提高分类准确率的基础上拓展了kmeans算法的应用。
2、本发明非法运营车辆的识别率较高,在对样本数据进行训练时,非法运营车辆识别率达69%。
附图说明
图1为本发明方法流程框图;
图2为本发明获取非法运营车辆分类模型的方法流程示意图。
具体实施方式
下面结合说明书附图和实施例对本发明作进一步限定,但不限于此。
实施例
一种基于kmeans算法的非法运营车辆的识别方法,具体步骤包括:
A、数据预处理
(1)从运营中心获取非法运营车辆的行驶信息,作为非法运营车辆的样本数据;从运营中心获得私家车辆的行驶信息,作为合法车辆的样本数据;行驶信息包括道路卡口编号、所在城市的区域编号、过车时刻、过车次数、车型;
(2)对步骤(1)获取的行驶信息提取出过车记录数据,对所述过车记录数据进行数据预处理,得到过车记录数据的m个原始特征属性;所述过车记录数据包括道路卡口编号、所在城市的区域编号、过车时刻、过车次数;
B、数据分类
(3)将步骤(2)得到的4个原始特征属性组成向量,并在向量中添加分类信息,所述分类信息是指该原始特征属性对应的车辆是否为非法运营车辆,得到所有车辆的数据集;将道路卡口编号、所在城市的区域编号、过车时刻、过车次数组成向量,如表1所示:
表1
C、获取非法运营车辆分类模型
(4)从步骤(3)得到的数据集选取k个数据作为质心;K值一般在实验中选取,根据样本数据集的大小以及正确率等进行设定。
(5)对数据集中剩余的每个数据执行以下操作:计算数据到步骤(4)的每个质心的距离,找到求取的最小距离对应的质心,将该数据与该质心归为一类,距离计算公式如式(Ⅰ)所示:
式(Ⅰ)中,(α12nm)是指表示所述数据的向量,(β12nm)是指表示k个质心中某一质心的向量,Similarity是指所述数据到某一质心的距离;n为整数,1≤n≤m;
(6)判断分类是否结束,是的话,进入步骤D,否则,对步骤(5)得到的每一类数据进行如下操作:求取第x类中非法运营车辆在本类中的比例Rillegal,x及合法车辆在本类中的比例Rlegal,x,x为类的序号,1≤x≤k,Rillegal,x是第x类中非法运营车辆的数量与第x类中总数量的比值,Rlegal,x是第x类中合法车辆的数量与第x类中总数量的比值;取Rillegal,x及Rlegal,x中的较大值,与设定阈值λ进行比较,λ=0.7。如果大于阈值λ,则第x类的数据归为该较大值所属的类,否则,进入步骤(5);例如,在分出的一类中,合法车辆的比例为70%,非法运营车辆的比例为30%,设定阈值λ为0.6,那么该类就是合法车辆。
D、车辆识别
提取待测车辆的原始特征属性,原始特征属性组成向量,根据式(Ⅰ)计算待测车辆到步骤(1)的每个质心的距离Dt,t=1,2,...,K;计算待测车辆为合法车辆的概率Plegal及待测车辆为非法运营车辆的概率Pillegal,计算公式如式(Ⅱ)、式(Ⅲ)所示:
如果Plegal大于Pillegal,则该待测车辆为合法车辆,否则,该待测车辆为非法运营车辆。
所述步骤(2)中,具体步骤包括:
a、删除非法运营车辆的样本数据及合法车辆的样本数据中有缺失或者错误的数据;
b、通过相关性分析,得到车辆的过车记录数据中的各原始特征属性与非法运营车辆的相关程度,取相关程度最大的4个特征属性作为过车记录数据的原始特征属性;
本发明在k次分类后都对每一类计算每类中合法车辆和非法运营车辆的比例,多了这样一个过程,每次往外筛选数据,不仅减少了迭代次数,而且减少用时。在本实施例中,用现有的kmeans算法对数据集进行分类时,分类时间较长,同样的数据集,采用现有的kmeans算法用时为3小时50分,利用本发明所述方法用时为1小时20分,不仅减少了迭代次数,而且减少用时。现有的kmeans算法分类的准确度为45%,本发明所述方法的准确率为70%,准确率大大提高。

Claims (3)

1.一种基于kmeans算法的非法运营车辆的识别方法,其特征在于,具体步骤包括:
A、数据预处理
(1)获取非法运营车辆的行驶信息,作为非法运营车辆的样本数据;获得私家车辆的行驶信息,作为合法车辆的样本数据;行驶信息包括道路卡口编号、所在城市的区域编号、过车时刻、过车次数、车型;
(2)对步骤(1)获取的行驶信息提取出过车记录数据,对所述过车记录数据进行数据预处理,得到过车记录数据的m个原始特征属性;所述过车记录数据包括道路卡口编号、所在城市的区域编号、过车时刻、过车次数;
B、数据分类
(3)将步骤(2)得到的m个原始特征属性组成向量,并在向量中添加分类信息,所述分类信息是指该原始特征属性对应的车辆是否为非法运营车辆,得到所有车辆的数据集;将道路卡口编号、所在城市的区域编号、过车时刻、过车次数组成向量;
C、获取非法运营车辆分类模型
(4)从步骤(3)得到的数据集选取K个数据作为质心;K值在实验中选取,根据样本数据集的大小以及正确率进行设定;
(5)对数据集中剩余的每个数据执行以下操作:计算数据到步骤(4)的每个质心的距离,找到求取的最小距离对应的质心,将该数据与该质心归为一类,距离计算公式如式(Ⅰ)所示:
式(Ⅰ)中,(α12…αn…αm)是指表示所述数据的向量,(β12...βn...βm)是指表示K个质心中某一质心的向量,Similarity是指所述数据到某一质心的距离;n为整数,1≤n≤m;
(6)判断分类是否结束,是的话,进入步骤D,否则,对步骤(5)得到的每一类数据进行如下操作:求取第x类中非法运营车辆在本类中的比例Rillegal,x及合法车辆在本类中的比例Rlegal,x,x为类的序号,1≤x≤K,Rillegal,x是第x类中非法运营车辆的数量与第x类中总数量的比值,Rlegal,x是第x类中合法车辆的数量与第x类中总数量的比值;取Rillegal,x及Rlegal,x中的较大值,与设定阈值λ进行比较,0.6≤λ≤1,如果大于阈值λ,则第x类的数据归为该较大值所属的类,否则,进入步骤(5);
D、车辆识别
提取待测车辆的原始特征属性,原始特征属性组成向量,根据式(Ⅰ)计算待测车辆到步骤(4)的每个质心的距离Dt,t=1,2,...,K;计算待测车辆为合法车辆的概率Plegal及待测车辆为非法运营车辆的概率Pillegal,计算公式如式(Ⅱ)、式(Ⅲ)所示:
如果Plegal大于Pillegal,则该待测车辆为合法车辆,否则,该待测车辆为非法运营车辆。
2.根据权利要求1所述的一种基于kmeans算法的非法运营车辆的识别方法,其特征在于,λ=0.7。
3.根据权利要求1所述的一种基于kmeans算法的非法运营车辆的识别方法,其特征在于,所述步骤(2)中,具体步骤包括:
a、删除非法运营车辆的样本数据及合法车辆的样本数据中有缺失或者错误的数据;
b、通过相关性分析,得到车辆的过车记录数据中的各原始特征属性与非法运营车辆的相关程度,取相关程度最大的4个特征属性作为过车记录数据的原始特征属性,即道路卡口编号、所在城市的区域编号、过车时刻、过车次数。
CN201610128320.4A 2016-03-07 2016-03-07 一种基于kmeans算法的非法运营车辆的识别方法 Active CN105809193B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610128320.4A CN105809193B (zh) 2016-03-07 2016-03-07 一种基于kmeans算法的非法运营车辆的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610128320.4A CN105809193B (zh) 2016-03-07 2016-03-07 一种基于kmeans算法的非法运营车辆的识别方法

Publications (2)

Publication Number Publication Date
CN105809193A CN105809193A (zh) 2016-07-27
CN105809193B true CN105809193B (zh) 2019-03-26

Family

ID=56466859

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610128320.4A Active CN105809193B (zh) 2016-03-07 2016-03-07 一种基于kmeans算法的非法运营车辆的识别方法

Country Status (1)

Country Link
CN (1) CN105809193B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106557777B (zh) * 2016-10-17 2019-09-06 中国互联网络信息中心 一种基于SimHash改进的Kmeans文档聚类方法
CN107679557B (zh) * 2017-09-19 2020-11-27 平安科技(深圳)有限公司 驾驶模型训练方法、驾驶人识别方法、装置、设备及介质
CN108256733A (zh) * 2017-12-12 2018-07-06 北京荣之联科技股份有限公司 营运性车辆的判断方法和装置
CN108389397A (zh) * 2018-02-28 2018-08-10 夏莹杰 一种基于卡口数据辨别非法营运车辆的方法
CN109145982A (zh) * 2018-08-17 2019-01-04 上海汽车集团股份有限公司 驾驶员的身份识别方法及装置、存储介质、终端
CN109493608B (zh) * 2018-12-06 2020-10-16 湖南科创信息技术股份有限公司 非法营运车辆的识别方法及系统和计算机可读的存储介质
CN111145542A (zh) * 2019-12-23 2020-05-12 北京高诚科技发展有限公司 一种基于车辆行为的营运性质监测系统及方法
CN114202929B (zh) * 2021-12-14 2022-12-06 广州交信投科技股份有限公司 一种基于中小客车通行行为的非法营运车辆识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101329797B1 (ko) * 2011-12-20 2013-11-15 (주)한일에스티엠 긴급차량을 이용한 위법차량 단속시스템 및 이를 이용한 위법차량 단속방법
CN104268599B (zh) * 2014-09-29 2017-05-10 中国科学院软件研究所 一种基于车辆轨迹时空特征分析的黑车智能发现方法
CN104794184B (zh) * 2014-12-15 2018-01-19 安徽四创电子股份有限公司 一种基于大规模数据的贝叶斯分类算法的黑车识别方法

Also Published As

Publication number Publication date
CN105809193A (zh) 2016-07-27

Similar Documents

Publication Publication Date Title
CN105809193B (zh) 一种基于kmeans算法的非法运营车辆的识别方法
CN112508392B (zh) 一种山区双车道公路隐患路段交通冲突风险动态评估方法
CN102750824B (zh) 基于多种神经网络分类器投票的城市道路交通状态检测方法
CN106372571A (zh) 路面交通标志检测与识别方法
CN112016605B (zh) 一种基于边界框角点对齐和边界匹配的目标检测方法
CN116628455B (zh) 一种城市交通碳排放监测与决策支持方法及系统
CN110588658B (zh) 一种基于综合模型检测驾驶员风险等级的方法
CN104750800A (zh) 一种基于出行时间特征的机动车聚类方法
CN110562261B (zh) 一种基于马尔可夫模型检测驾驶员风险等级的方法
CN110705582B (zh) 一种基于改进K-Means聚类算法的船舶过桥行为特征提取方法
CN109164450B (zh) 一种基于多普勒雷达数据的下击暴流预测方法
CN108091132A (zh) 一种交通流量预测方法及装置
CN110197586A (zh) 一种基于多源数据的高速公路路段拥堵检测方法
CN113962600A (zh) 一种交通安全风险诊断方法及装置
CN110766940A (zh) 道路信号交叉口运行状况评估方法
CN108682153B (zh) 一种基于rfid电子车牌数据的城市道路交通拥堵状态判别方法
CN105046259A (zh) 基于多特征融合的日冕物质抛射检测方法
Ma et al. Driving style estimation by fusing multiple driving behaviors: a case study of freeway in China
CN112132490A (zh) 城市传染病高风险社区识别方法、装置、电子设备及介质
CN115205086A (zh) 移动轨迹大数据驱动的异常轨迹检测方法、系统和电子设备
CN109849926B (zh) 一种辨别出租车是否交予他人驾驶的方法及系统
CN112308136B (zh) 一种基于SVM-Adaboost的驾驶分心检测方法
Wang et al. Changing lane probability estimating model based on neural network
CN117493998A (zh) 一种基于大数据的问卷调查事件智能分类管理方法及系统
CN106056150A (zh) 基于人工智能随机森林方法建立不同车型分零件远程定损系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant