CN108847022B - 一种微波交通数据采集设备的异常值检测方法 - Google Patents

一种微波交通数据采集设备的异常值检测方法 Download PDF

Info

Publication number
CN108847022B
CN108847022B CN201810585465.6A CN201810585465A CN108847022B CN 108847022 B CN108847022 B CN 108847022B CN 201810585465 A CN201810585465 A CN 201810585465A CN 108847022 B CN108847022 B CN 108847022B
Authority
CN
China
Prior art keywords
data
abnormal
clustering
vehicle
microwave
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810585465.6A
Other languages
English (en)
Other versions
CN108847022A (zh
Inventor
许彦超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Yinjiang Zhihui Traffic Group Co ltd
Original Assignee
Zhejiang Yinjiang Zhihui Traffic Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Yinjiang Zhihui Traffic Group Co ltd filed Critical Zhejiang Yinjiang Zhihui Traffic Group Co ltd
Priority to CN201810585465.6A priority Critical patent/CN108847022B/zh
Publication of CN108847022A publication Critical patent/CN108847022A/zh
Application granted granted Critical
Publication of CN108847022B publication Critical patent/CN108847022B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/04Detecting movement of traffic to be counted or controlled using optical or ultrasonic detectors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0108Measuring and analyzing of parameters relative to traffic conditions based on the source of data
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/01Detecting movement of traffic to be counted or controlled
    • G08G1/0104Measuring and analyzing of parameters relative to traffic conditions
    • G08G1/0125Traffic data processing
    • G08G1/0133Traffic data processing for classifying traffic situation

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Traffic Control Systems (AREA)

Abstract

一种微波交通数据采集设备的异常值检测方法,包括:(1)读取微波交通数据采集设备采集的数据,对同一维度的数据进行有效维度筛选,得到多维度有效数据;(2)对多维度有效数据进行标准化处理;(3)对标准化后的多维有效数据进行聚类,得到相应的聚类结果;(4)对聚类结果中各个类别中的数据的表现进行判定,确定哪些类别的数据为异常数据。本发明的有益效果:可以有效利用微波数据的多维度特征,在全局角度筛选出数据异常值,摒弃了之前只从单维度分析异常值的办法。提升异常值检测效率,在海量数据层面上也具有可操作性,节省时间和技术人员的精力。

Description

一种微波交通数据采集设备的异常值检测方法
技术领域
本发明属于城市交通领域,涉及一种基于Kmeans聚类算法的微波交通数据采集设备的异常值检测方法。
背景技术
在交通领域存在多种数据采集方式和设备,其中微波设备由于其稳定性而被广泛安装在城市道路上。对交通数据采集设备收集的数据进行分析和利用在整治交通拥堵,规划道路等城市发展问题上具有指导意义。然而由于客观原因的存在,交通采集设备所收集的数据往往具有异常值,从而导致数据质量下降,影响了后续对数据的分析,所以需要对原始数据进行异常值检测,保证数据质量。根据以往经验,交通采集设备所收集的数据会包含统计性异常值和业务性异常值。统计性异常值一般都是由于设备故障而产生的,而业务性异常值属于不符合业务规律的。
现有的异常值检测方案一般还是以技术人员的经验判断为准人为筛选出异常值。这种方法效率不高而且难以在多维度数据上使用。与此同时,人为判断异常值也常常会因为数据量的增大忽略掉一些潜在的异常值。跟现有的异常值检测技术相比,聚类算法可以应对多维度数据的情况,通过把数据点按照之间在多维空间上的欧式距离远近归类找出“少且异”的异常值。
发明内容
本发明的目的是提供一种提升异常值检测效率,在海量数据层面上也具有可操作性,节省时间和技术人员的精力的微波交通数据采集设备的异常值检测方法。
本发明采用的技术方案是:
一种微波交通数据采集设备的异常值检测方法,其特征在于:包括:
(1)读取微波交通数据采集设备采集的数据,对同一维度的数据进行有效维度筛选,得到多维度有效数据;
(2)对多维度有效数据进行标准化处理;
(3)对标准化后的多维有效数据进行聚类,得到相应的聚类结果;
(4)对聚类结果中各个类别中的数据的表现进行判定,确定哪些类别的数据为异常数据。本发明针对交通采集设备微波所采集的数据特点,运用聚类算法对其多维度特征进行分类,达到异常值检测的效果。同时,在判断聚类类别是否为异常值时,需要运用交通理论的知识。
进一步,所述多维度有效数据包括车流量、车辆过车速度、车辆占有率。原始微波数据包含很多维度,但是有些维度如纪录自增ID对异常值检测起不了显著作用,而有些维度虽然有字段存在但是并没有采集到任何数据,这些维度都可以视为无效维度,剔除这些之后剩下的即有意义的维度,即车流量,车辆过车速度,车辆占有率。
进一步,步骤(2)中的标准化处理采用min-max标准化处理。筛选出有效维度之后,因为各个维度的取值范围不一,在进行聚类的时候会对结果造成不良影响,所以需要对数据进行标准化处理。在对数据进行min-max标准化处理之后,各个维度对结果都具有同等的解释作用。
进一步,步骤(3)聚类采用Kmeans聚类,具体步骤包括:
1)设定聚类类别数目k,需要聚类的类别数目需要事先确定,最后的结果会把所有原始数据点分为k个类别,而每个类别中的数据都具有相似性;
2)随机分配k个聚类中心,根据给定的数目k自生成k个聚类中心;
3)对每一数据点都计算其与所有聚类中心的欧式距离,然后把数据点分配给最近的聚类中心;
4)重复2)和3)的内容,直到聚类中心收敛,即所有数据点不会随着聚类中心的变化改变其所依附的聚类中心。本发明最后得到的数据是按照以k个聚类中心所代表的k个类别组织的;每个类别内的成员都具有相似性而与其他类别不相似。
或者,步骤(3)中的聚类是根据已有的异常数据的样本值进行训练,对获得异常数据的特征聚类并建立异常数据模型,根据异常数据模型对在新数据中找出类似的异常数据。
进一步,步骤(4)中的判定方法包括业务员的经验和相关维度之间的相关性关系。
进一步,业务人员的经验指的是聚类出来的一个类别之中将近99%的数据表现为该类别中的数据包括多个维度是无效数据或者是仅有一个维度是有效数据,则该类别的数据是异常数据。比如:聚类出来的一个类别之中将近99%的数据表现为流量为0,占有率为0,速度为240,这些属于有意义的有效数据但是这显然属于异常值。
进一步,相关维度之间的相关性关系指的是多维度有效数据中的各维度之间存在一定的线性关系,若某个类别中的数据在所述线性关系的置信区间内,则该类别的数据可以视作异常数据。比如车流量=车辆过车速度*密度;车辆占有率=车辆平均长度*密度,根据交通理论中这两个关于车流量,车辆过车速度,车辆占有率的公式,可以看到通过密度这个维度可以把三者直接放在一个公式下:车流量=车辆过车速度*车辆占有率/车辆平均长度,即三者存在一定的线性关系。当得到聚类结果的时候,可以通过对各个类别中数据的表现进行判定,若这个类别中的数据在这个线性关系的置信区间内,则这个类别的数据可以视作异常数据。
进一步,对步骤(4)中确定的异常数据打上数据异常的标签。
本发明的有益效果:
1、可以有效利用微波数据的多维度特征,在全局角度筛选出数据异常值,摒弃了之前只从单维度分析异常值的办法。
2、提升异常值检测效率,在海量数据层面上也具有可操作性,节省时间和技术人员的精力。
附图说明
图1为本发明的流程示意图。
具体实施方式
下面结合具体实施例来对本发明进行进一步说明,但并不将本发明局限于这些具体实施方式。本领域技术人员应该认识到,本发明涵盖了权利要求书范围内所可能包括的所有备选方案、改进方案和等效方案。
参见图1,本实施例提供了一种微波交通数据采集设备的异常值检测方法,包括:
(1)读取微波交通数据采集设备采集的数据,对同一维度的数据进行有效维度筛选,得到多维度有效数据;
本实施例所述多维度有效数据包括车流量、车辆过车速度、车辆占有率。原始微波数据包含很多维度,但是有些维度如纪录自增ID对异常值检测起不了显著作用,而有些维度虽然有字段存在但是并没有采集到任何数据,这些维度都可以视为无效维度,剔除这些之后剩下的即有意义的维度,即车流量,车辆过车速度,车辆占有率。具体的,现在可以拿到的一条微波数据包括以下维度:自增ID,设备编码,设备车道编码,车道流量,C1车型流量,C2车型流量,C3车型流量,C4车型流量,C5车型流量,车道平均速度,车头时距,车头间距,车道占有率,车道饱和度,采集时间,记录时间。对于异常值来说,类似自增ID这种纯粹标记性的维度是没有作用的。其次,虽然存在类似车头时距,车头间距这样的字段,但是这个字段中没有数据,即数据都为0,所以将其视为无效。在这些维度当中,车流量,平均速度,和占有率是比较有效的,首先因为这三个变量是交通理论中重要的概念,其次这三个维度的数据质量比较高,基本不存在0的情况。所以假如我们要判断一条微波数据是否为异常值,可以从这三个重要且有效的维度入手判断。
(2)对多维度有效数据进行标准化处理;
筛选出有效维度之后,因为各个维度的取值范围不一,在进行聚类的时候会对结果造成不良影响,所以需要对数据进行标准化处理。在对数据进行min-max标准化处理之后,各个维度对结果都具有同等的解释作用。
(3)对标准化后的多维有效数据进行Kmeans聚类,得到相应的聚类结果;
Kmeans聚类具体步骤包括:
1)设定聚类类别数目k,需要聚类的类别数目需要事先确定,最后的结果会把所有原始数据点分为k个类别,而每个类别中的数据都具有相似性;
2)随机分配k个聚类中心,根据给定的数目k自生成k个聚类中心;
3)对每一数据点都计算其与所有聚类中心的欧式距离,然后把数据点分配给最近的聚类中心;
4)重复2)和3)的内容,直到聚类中心收敛,即所有数据点不会随着聚类中心的变化改变其所依附的聚类中心。本发明最后得到的数据是按照以k个聚类中心所代表的k个类别组织的;每个类别内的成员都具有相似性而与其他类别不相似。
(4)对聚类结果中各个类别中的数据的表现通过业务员的经验和相关维度之间的相关性关系进行判定,确定哪些类别的数据为异常数据并打上数据异常的标签。具体的业务人员的经验指的是聚类出来的一个类别之中将近99%的数据表现为该类别中的数据包括多个维度是无效数据或者是仅有一个维度是有效数据,则该类别的数据是异常数据。比如:聚类出来的一个类别之中将近99%的数据表现为流量为0,占有率为0,速度为240,这些属于有意义的有效数据但是这显然属于异常值。相关维度之间的相关性关系指的是多维度有效数据中的各维度之间存在一定的线性关系,若某个类别中的数据在所述线性关系的置信区间内,则该类别的数据可以视作异常数据。比如车流量=车辆过车速度*密度;车辆占有率=车辆平均长度*密度,根据交通理论中这两个关于车流量,车辆过车速度,车辆占有率的公式,可以看到通过密度这个维度可以把三者直接放在一个公式下:车流量=车辆过车速度*车辆占有率/车辆平均长度,即三者存在一定的线性关系。当得到聚类结果的时候,可以通过对各个类别中数据的表现进行判定,若这个类别中的数据在这个线性关系的置信区间内,则这个类别的数据可以视作异常数据。
当异常数据的样本足够多时,步骤(3)中的聚类是可以根据已有的异常数据的样本值进行训练,对获得异常数据的特征聚类并建立异常数据模型,根据异常数据模型对在新数据中找出类似的异常数据。
本发明针对交通采集设备微波所采集的数据特点,运用聚类算法对其多维度特征进行分类,达到异常值检测的效果。同时,在判断聚类类别是否为异常值时,需要运用交通理论的知识。将聚类算法运用在交通数据上,同时结合了交通理论中流量速度和占有率的关系判断异常值。先通过聚类找出疑似异常值,再根据变量之间的相关性关系判断异常值,这一套流程在交通领域目前是具有先进性的。

Claims (2)

1.一种微波交通数据采集设备的异常值检测方法,其特征在于:包括:
(1)读取微波交通数据采集设备采集的数据,对同一维度的数据进行有效维度筛选,得到多维度有效数据;
微波数据的维度包括:自增ID、设备编码、设备车道编码、车道流量、C1车型流量、C2车型流量、C3车型流量、C4车型流量、C5车型流量、车道平均速度、车头时距、车头间距、车道占有率、车道饱和度、采集时间、记录时间;
(2)对多维度有效数据进行标准化处理;
步骤(2)中的标准化处理采用min-max标准化处理;
(3)对标准化后的多维有效数据进行聚类,得到相应的聚类结果;其中聚类采用Kmeans聚类,具体步骤包括:
1)设定聚类类别数目k,需要聚类的类别数目需要事先确定,最后的结果会把所有原始数据点分为k个类别,而每个类别中的数据都具有相似性;
2)随机分配k个聚类中心,根据给定的数目k自生成k个聚类中心;
3)对每一数据点都计算其与所有聚类中心的欧式距离,然后把数据点分配给最近的聚类中心;
4)重复2)和3)的内容,直到聚类中心收敛,即所有数据点不会随着聚类中心的变化改变其所依附的聚类中心;
(4)对聚类结果中各个类别中的数据的表现进行判定,确定哪些类别的数据为异常数据;
步骤(4)中的判定方法包括业务员的经验和相关维度之间的相关性关系;
车流量=车辆过车速度*车辆占有率/车辆平均长度;
相关维度之间的相关性关系指的是多维度有效数据中的各维度之间存在一定的线性关系,若某个类别中的数据在所述线性关系的置信区间内,则该类别的数据可以视作异常数据;
步骤(3)中的聚类是根据已有的异常数据的样本值进行训练,对获得异常数据的特征聚类并建立异常数据模型,根据异常数据模型对在新数据中找出类似的异常数据;
业务人员的经验指的是聚类出来的一个类别之中将近99%的数据表现为该类别中的数据包括多个维度是无效数据或者是仅有一个维度是有效数据,则该类别的数据是异常数据;
对步骤(4)中确定的异常数据打上数据异常的标签。
2.根据权利要求1所述的一种微波交通数据采集设备的异常值检测方法,其特征在于:所述多维度有效数据包括车流量、车辆过车速度、车辆占有率。
CN201810585465.6A 2018-06-08 2018-06-08 一种微波交通数据采集设备的异常值检测方法 Active CN108847022B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810585465.6A CN108847022B (zh) 2018-06-08 2018-06-08 一种微波交通数据采集设备的异常值检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810585465.6A CN108847022B (zh) 2018-06-08 2018-06-08 一种微波交通数据采集设备的异常值检测方法

Publications (2)

Publication Number Publication Date
CN108847022A CN108847022A (zh) 2018-11-20
CN108847022B true CN108847022B (zh) 2021-04-16

Family

ID=64210324

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810585465.6A Active CN108847022B (zh) 2018-06-08 2018-06-08 一种微波交通数据采集设备的异常值检测方法

Country Status (1)

Country Link
CN (1) CN108847022B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110021164B (zh) * 2019-03-02 2020-09-04 合肥学院 基于行驶时间数据的网约车路网占有率分析方法
CN110021163B (zh) * 2019-03-02 2020-10-13 合肥学院 基于行驶里程数据的网约车路网占有率分析方法
CN110007660B (zh) * 2019-04-10 2020-06-16 河北工业大学 一种火电厂汽轮机组瞬态等效热应力在线软测量方法
CN111160401A (zh) * 2019-12-09 2020-05-15 国网辽宁省电力有限公司电力科学研究院 一种基于均值漂移和XGBoost的异常用电判别方法
CN112434260A (zh) * 2020-10-21 2021-03-02 北京千方科技股份有限公司 一种公路的交通状态检测方法、装置、存储介质及终端
CN114495498B (zh) * 2022-01-20 2023-01-10 青岛海信网络科技股份有限公司 一种交通数据分布有效性判别方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727749A (zh) * 2009-11-19 2010-06-09 北京世纪高通科技有限公司 异常车速数据的识别方法和装置
CN103839409A (zh) * 2014-02-27 2014-06-04 南京大学 基于多断面视觉传感聚类分析的交通流状态判别方法
CN104809877A (zh) * 2015-05-14 2015-07-29 重庆大学 基于特征参数加权gefcm算法的高速公路地点交通状态估计方法
CN106919953A (zh) * 2017-02-23 2017-07-04 北京工业大学 一种基于轨道交通数据分析的异常出行群体识别方法
WO2017154947A1 (ja) * 2016-03-10 2017-09-14 新日本理化株式会社 粉体状1,4-シクロヘキサンジカルボン酸

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727749A (zh) * 2009-11-19 2010-06-09 北京世纪高通科技有限公司 异常车速数据的识别方法和装置
CN103839409A (zh) * 2014-02-27 2014-06-04 南京大学 基于多断面视觉传感聚类分析的交通流状态判别方法
CN104809877A (zh) * 2015-05-14 2015-07-29 重庆大学 基于特征参数加权gefcm算法的高速公路地点交通状态估计方法
WO2017154947A1 (ja) * 2016-03-10 2017-09-14 新日本理化株式会社 粉体状1,4-シクロヘキサンジカルボン酸
CN106919953A (zh) * 2017-02-23 2017-07-04 北京工业大学 一种基于轨道交通数据分析的异常出行群体识别方法

Also Published As

Publication number Publication date
CN108847022A (zh) 2018-11-20

Similar Documents

Publication Publication Date Title
CN108847022B (zh) 一种微波交通数据采集设备的异常值检测方法
CN107577688B (zh) 基于媒体信息采集的原创文章影响力分析系统
CN110245981B (zh) 一种基于手机信令数据的人群类型识别方法
CN108549814A (zh) 一种基于机器学习的sql注入检测方法、数据库安全系统
CN103150900A (zh) 一种基于视频的交通拥堵事件自动检测方法
CN112905576B (zh) 一种基于农机作业轨迹确定农田和道路的方法及系统
CN108122186B (zh) 一种基于卡口数据的职住位置估计方法
CN110705582B (zh) 一种基于改进K-Means聚类算法的船舶过桥行为特征提取方法
CN109767618B (zh) 一种公安交管业务异常数据综合研判方法及系统
CN112528774B (zh) 一种复杂电磁环境下未知雷达信号智能分选系统及方法
CN117081858B (zh) 一种基于多决策树入侵行为检测方法、系统、设备及介质
CN108615532A (zh) 一种应用于声场景的分类方法及装置
CN106843941A (zh) 信息处理方法、装置和计算机设备
CN111160959A (zh) 一种用户点击转化预估方法及装置
CN112712112A (zh) 区域流动人口识别方法、装置、设备及介质
Borg et al. Clustering residential burglaries using modus operandi and spatiotemporal information
CN108090635B (zh) 一种基于聚类分类的路用性能预测方法
CN114611604A (zh) 一种基于电驱总成载荷特征融合与聚类的用户筛选方法
CN114756420A (zh) 故障预测方法及相关装置
CN115565373B (zh) 高速公路隧道事故实时风险预测方法、装置、设备及介质
Erdelić et al. Classification of travel modes using streaming GNSS data
CN113380318B (zh) 人工智能辅助流式细胞术40cd免疫表型检测方法及系统
CN115392351A (zh) 风险用户识别方法、装置、电子设备及存储介质
CN113379334B (zh) 基于有噪声轨迹数据的路段自行车骑行质量鉴别方法
CN114528909A (zh) 一种基于流量日志特征提取的无监督异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant