CN101246645A - 一种识别离群交通数据的方法 - Google Patents

一种识别离群交通数据的方法 Download PDF

Info

Publication number
CN101246645A
CN101246645A CNA2008100247009A CN200810024700A CN101246645A CN 101246645 A CN101246645 A CN 101246645A CN A2008100247009 A CNA2008100247009 A CN A2008100247009A CN 200810024700 A CN200810024700 A CN 200810024700A CN 101246645 A CN101246645 A CN 101246645A
Authority
CN
China
Prior art keywords
data
factor
outlier
reach
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008100247009A
Other languages
English (en)
Other versions
CN100535955C (zh
Inventor
陈淑燕
王炜
瞿高峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast University
Original Assignee
Southeast University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast University filed Critical Southeast University
Priority to CNB2008100247009A priority Critical patent/CN100535955C/zh
Publication of CN101246645A publication Critical patent/CN101246645A/zh
Application granted granted Critical
Publication of CN100535955C publication Critical patent/CN100535955C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

一种识别离群交通数据的方法,其特征在于该方法首先采集获取交通数据,计算数据的平均局部离群因子,而后使用以下两个准则之一判断离群数据:平均局部离群因子最高的m个数据是离群数据,或平均局部离群因子大于给定阈值的数据是离群数据,最后删除或采用滤波方法修正所识别出的离群数据,或者分析离群数据所包含的隐藏信息。该方法可有效检出边界和内部的离群数据,其效果优于基于统计的离群检测方法。

Description

一种识别离群交通数据的方法
技术领域
本发明提出一种识别离群交通数据的方法,涉及智能交通系统所采集的交通数据的质量控制,属于智能交通系统中智能信息处理技术领域。
背景技术
交通数据在智能交通系统中占有重要的地位,智能交通系统(ITS)的核心技术之一是交通参数的实时估计与预测技术,由于采样失真、测量误差、突发交通事件以及其它可能存在的影响因素,采集的交通数据集中通常存在着不遵循数据模型的普遍行为的样本,这些异常点即为离群数据。当采集的交通数据用于建模时,这些异常点不具备代表性,不能有效地建模并描述系统。为了提高动态交通信息的准确性和可靠性,保证交通模型的使用效果,首先需要对异常数据加以识别并进行相应的处理。
目前,在交通工程领域中主要基于统计学的方法识别离群数据,该方法计算简单,但其应用需要事先知道数据的分布,这往往比较难,而且现实数据也往往不符合任何一种理想状态的数学分布。此外,基于统计的离群检测算法大多只适合于挖掘单变量的数值型数据,对高维、周期性数据、分类数据则较难进行识别,这限制了它的应用。
为了克服上述方法的缺陷,本发明提出使用基于密度的离群数据挖掘算法识别异常交通数据。
发明内容
技术问题:异常交通数据可使得所建模型的要点变得模糊,不能反映真实系统的本质,本发明提供一种基于密度的识别异常交通数据的方法,该方法可有效检出边界和内部的离群数据,其效果优于基于统计的离群检测方法。
技术方案:本发明的识别离群交通数据的方法首先计算数据的平均局部离群因子,而后使用以下两个准则之一判断离群点:平均局部离群因子最高的m个数据是离群点,或平均局部离群因子大于给定阈值的数据是离群点。
所述计算数据的平均局部离群因子方法为,在某一自然数k值下,计算每个数据的k-局部离群因子,以一定步长改变k值,重复计算每个数据的k-局部离群因子,而后通过平均得到每个数据平均局部离群因子,其计算方法为:
lof ( p ) = Σ k lof k ( p ) k 2 - k 1 s + 1 - - 1
其中,k1和k2分别是k的上下限,k1是不小于10的自然数,s是步长,lofk(p)为任一数据p的k-局部离群因子。
每个数据的k-局部离群因子计算方法为,p的k-邻域内所有数据的k-局部可达密度平均值与p的k-局部可达密度之比,即:
lof k ( p ) = Σ o ∈ N k ( p ) lrd k ( o ) lrd k ( p ) | N k ( p ) | - - 2
其中,k是自然数,Nk(p)是数据p的k-邻域,|Nk(p)|是该邻域含有的元素个数;p的k-邻域由所有与p之间的距离不大于p的k-距离的数据组成,p的k-距离为数据p和离其最近的第k个数据之间的距离;lrdk(p)为p的k-局部可达密度,o是p的k-邻域内任一数据,lrdk(o)为o的k-局部可达密度。
任一数据p的k-局部可达密度为该数据与其k-距离邻域的平均可达距离的倒数,其计算方法为:
lrd k ( p ) = 1 / Σ o ∈ N k ( p ) reach _ disp k ( p , o ) | N k ( p ) | - - 3
reach_dispk(p,o)是p到其k-邻域内任一数据o的可达距离,p相对于o的可达距离为o的k-距离和p与o之间距离的较大值,即:
reach_disp k(p,o)=max{k_distance(o),d(p,o)}    --4。
有益效果:在该方法中,一个点的离群程度与它周围的点有关,这体现了“局部”的概念,这是它与以往离群定义不同之处,也是优势所在。此外,使用局部离群因子的平均值判断离群点,使检测结果更加稳定,不随参数k值的变化而有较大变动。基于密度的离群挖掘算法能发现其它方法漏检的局部离群点,有其独到之处,有更好的应用价值。
附图说明
图1是本发明的步骤流程图。其中有:k最小值kmin,k最大值kmax,k改变步长kstep
图2是交通流到达率和密度关系及其离群数据,
图3是路面平整度测试数据及离群数据。
具体实施方式
下面将参考附图具体说明发明的实施方式。步骤如下:
1.运用智能交通系统中的数据采集设备,如车辆检测线圈、视频检测器、移动车辆、雷达、超声波等获取交通数据,如车速、车流量、占有率、旅行时间等,设所采集数据集为D;
2.计算D中每个数据的k-局部可达密度;
给定一个自然数k,计算每个数据p的k-距离(k-distance(p)),其值为p和离其最近的第k个邻居o∈D之间的距离d(p,o),
p的k邻域定义为
Nk(p)={q∈D\{p}|d(p,q)≤k_distance(p)}    (1)
p相对于o的可达距离为
reach_disp k(p,o)=max{k_distance(o),d(p,o)}    (2)
p的k-局部可达密度为数据p与其k-距离邻域的平均可达距离的倒数,
lrd k ( p ) = 1 / Σ o ∈ N k ( p ) reach _ disp k ( o ) | N k ( p ) | - - - ( 3 )
3.然后计算数据的k-局部离群因子;
p的k-局部离群因子定义为
lof k ( p ) = Σ o ∈ N k ( p ) lrd k ( o ) lrd k ( p ) | N k ( p ) | - - - ( 4 )
4. 以一定步长改变k值,重复步骤2和3,计算每个数据的k-局部离群因子。局部离群因子说明了数据的离群程度,一个数据的局部离群因子越大,其越有可能是离群数据。
5. 计算每个数据的平均局部离群因子,以消除参数k对检测结果的影响。
6. 基于平均局部离群因子判断离群点。可以使用以下两个准则:平均局部离群因子最高的m个数据是离群点,或平均局部离群因子大于给定阈值的数据都是离群点。
7. 删除或采用滤波技术修正所识别出的离群数据,或者分析这些离群数据获取隐藏信息。
实施例1:交通流建模
高速公路的交通流通常用平均车速、到达率、密度来描述,到达率和密度之间的关系可以用图描述,称之为交通流基本图形。检测设备或传输设备出错、突发交通事件都可能使交通流数据发生异常改变,不管是采样错误还是异常交通事件所产生的离群数据,都将使模型特征变得模糊,不能真正反应系统的内在规律。因此,在建立模型前需要找出并除去离群数据,以减少离群数据的影响,提高所建模型的准确性和可靠性。
现收集有南京碌口机场高速公路的交通流数据709个,采样周期为1分钟,拟建立到达率和密度之间的模型。运用基于密度的检测方法LOF寻找特异样本,令k=20,计算所有样本的局部异常因子。以10为步长增加k值,重复计算所有样本的局部异常因子,直至k=150。而后,计算所有样本的平均局部异常因子,取平均局部异常因子最高的12个数据为离群数据。图2是所交通流到达率和密度关系基本图表,其中加圈的即为离群数据。可以看出,边界和内部的离群数据都有效检出。
删除上述离群数据,而后采用不含离群数据的数据集建立高速公路的交通流模型。
实施例2:路面平整度测试应用
路面平整度是路面表面功能的一项重要指标,它不仅反映了路面的行驶舒适性,也从侧面反映出路面的健康状况。国际平整度指数IRI(International RoughnessIndex)已被世界各国广泛采用,定义为标准车身悬架的总位移(单位m)与行驶距离(单位km)之比,单位是m/km。现有IRI样本8000个,数据采集每隔一米一次,用澳大利亚进口路面平整度测试车测试所得.
运用基于密度的检测方法LOF寻找特异样本,令k从50为初始值开始,以步长10增加,计算所有样本的局部异常因子。而后求出所有样本的平均局部异常因子。这里,假设平均局部异常因子大于1.8的都是离群数据,则发现离群程度最强的28个点,如图3所示,其中加圈的即为离群数据。
与其他检测点相比,这些离群数据说明该处路面不平整或者路面损坏较严重,也可能是采样误差或噪音。对于每个检测出的异常值,需要人工参与,对当时的路面、检测设备等做进一步的分析,正确区分其产生的原因。

Claims (4)

1. 一种识别离群交通数据的方法,其特征在于该方法首先采集获取交通数据,计算数据的平均局部离群因子,而后使用以下两个准则之一判断离群数据:平均局部离群因子最高的m个数据是离群数据,或平均局部离群因子大于给定阈值的数据是离群数据,最后删除或采用滤波方法修正所识别出的离群数据,或者分析离群数据所包含的隐藏信息。
2. 根据权利要求1所述的一种识别离群交通数据的方法,其特征在于所述计算数据的平均局部离群因子方法为,在某一自然数k值下,计算每个数据的k-局部离群因子,以一定步长改变k值,重复计算每个数据的k-局部离群因子,而后通过平均得到每个数据平均局部离群因子,其计算方法为:
lof ( p ) = Σ k lof k ( p ) k 2 - k 1 s + 1 - - 1
其中,k1和k2分别是k的上下限,k1是不小于10的自然数,s是步长,lofk(p)为任一数据p的k-局部离群因子。
3. 根据权利要求2所述的一种识别离群交通数据的方法,其特征在于每个数据的k-局部离群因子计算方法为,p的k-邻域内所有数据的k-局部可达密度平均值与p的k-局部可达密度之比,即:
lof k ( p ) = Σ o ∈ N k ( p ) lrd k ( o ) lrd k ( p ) | N k ( p ) | - - 2
其中,k是自然数,Nk(p)是数据p的k-邻域,|Nk(p)|是该邻域含有的元素个数;p的k-邻域由所有与p之间的距离不大于p的k-距离的数据组成,p的k-距离为数据p和离其最近的第k个数据之间的距离;lrdk(p)为p的k-局部可达密度,o是p的k-邻域内任一数据,lrdk(o)为o的k-局部可达密度。
4. 根据权利要求3所述的一种识别离群交通数据的方法,其特征在于任一数据p的k-局部可达密度为该数据与其k-距离邻域的平均可达距离的倒数,其计算方法为:
lrd k ( p ) = 1 / Σ o ∈ N k ( p ) reach _ disp k ( p , o ) | N k ( p ) | - - 3
reach_dispk(p,o)是p到其k-邻域内任一数据o的可达距离,其值为o的k-距离和p与o之间距离的较大值,即:
reach_disp k(p,o)=max{k_distance(o),d(p,o)}    --4。
CNB2008100247009A 2008-04-01 2008-04-01 一种识别离群交通数据的方法 Expired - Fee Related CN100535955C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2008100247009A CN100535955C (zh) 2008-04-01 2008-04-01 一种识别离群交通数据的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2008100247009A CN100535955C (zh) 2008-04-01 2008-04-01 一种识别离群交通数据的方法

Publications (2)

Publication Number Publication Date
CN101246645A true CN101246645A (zh) 2008-08-20
CN100535955C CN100535955C (zh) 2009-09-02

Family

ID=39947074

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2008100247009A Expired - Fee Related CN100535955C (zh) 2008-04-01 2008-04-01 一种识别离群交通数据的方法

Country Status (1)

Country Link
CN (1) CN100535955C (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866551A (zh) * 2010-06-02 2010-10-20 北京世纪高通科技有限公司 一种交通流信息的处理方法及处理装置
CN101950483A (zh) * 2010-09-15 2011-01-19 青岛海信网络科技股份有限公司 交通数据故障的修复方法及装置
CN104317908A (zh) * 2014-10-28 2015-01-28 河南师范大学 基于三支决策和距离的离群点检测方法
CN104376078A (zh) * 2014-11-14 2015-02-25 南京大学 一种基于知识熵的异常数据检测方法
CN104408116A (zh) * 2014-11-26 2015-03-11 浪潮电子信息产业股份有限公司 基于遗传算法从大规模高维数据中检测离群数据的方法
CN104462802A (zh) * 2014-11-26 2015-03-25 浪潮电子信息产业股份有限公司 一种大规模数据中离群数据的分析方法
CN104951893A (zh) * 2015-06-24 2015-09-30 银江股份有限公司 一种面向城市交通的交警路面警情处置效率评估方法
CN106649339A (zh) * 2015-10-30 2017-05-10 北大方正集团有限公司 离群点的挖掘方法及挖掘装置
WO2017107790A1 (zh) * 2015-12-22 2017-06-29 阿里巴巴集团控股有限公司 一种基于大数据预测路段状况的方法及装置
CN107146409A (zh) * 2017-06-01 2017-09-08 东方网力科技股份有限公司 路网中设备检测时间异常的识别和真实时差估算方法
CN107941537A (zh) * 2017-10-25 2018-04-20 南京航空航天大学 一种机械设备健康状态评估方法
CN109086291A (zh) * 2018-06-09 2018-12-25 西安电子科技大学 一种基于MapReduce的并行异常检测方法及系统
CN109308395A (zh) * 2018-09-30 2019-02-05 西安电子科技大学 基于lof-knn算法的晶圆级空间测量参数异常识别方法
CN109814022A (zh) * 2019-01-02 2019-05-28 浙江大学 一种芯片老炼试验数据处理方法
CN110207827A (zh) * 2019-05-23 2019-09-06 浙江大学 一种基于异常因子提取的电气设备温度实时预警方法
CN116612641A (zh) * 2023-07-19 2023-08-18 天津中德应用技术大学 基于智能网联的车辆队列控制数据处理方法
CN117892248A (zh) * 2024-03-15 2024-04-16 山东鲁新国合节能环保科技有限公司 一种烧结烟气内循环过程中异常数据监测方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104504901B (zh) * 2014-12-29 2016-06-08 浙江银江研究院有限公司 一种基于多维数据的交通异常点检测方法

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101866551A (zh) * 2010-06-02 2010-10-20 北京世纪高通科技有限公司 一种交通流信息的处理方法及处理装置
WO2011150712A1 (zh) * 2010-06-02 2011-12-08 北京世纪高通科技有限公司 一种交通流信息的处理方法及处理装置
CN101950483A (zh) * 2010-09-15 2011-01-19 青岛海信网络科技股份有限公司 交通数据故障的修复方法及装置
CN101950483B (zh) * 2010-09-15 2013-03-20 青岛海信网络科技股份有限公司 交通数据故障的修复方法及装置
CN104317908A (zh) * 2014-10-28 2015-01-28 河南师范大学 基于三支决策和距离的离群点检测方法
CN104317908B (zh) * 2014-10-28 2018-08-17 河南师范大学 基于三支决策和距离的离群点检测方法
CN104376078A (zh) * 2014-11-14 2015-02-25 南京大学 一种基于知识熵的异常数据检测方法
CN104408116A (zh) * 2014-11-26 2015-03-11 浪潮电子信息产业股份有限公司 基于遗传算法从大规模高维数据中检测离群数据的方法
CN104462802A (zh) * 2014-11-26 2015-03-25 浪潮电子信息产业股份有限公司 一种大规模数据中离群数据的分析方法
CN104951893A (zh) * 2015-06-24 2015-09-30 银江股份有限公司 一种面向城市交通的交警路面警情处置效率评估方法
CN106649339A (zh) * 2015-10-30 2017-05-10 北大方正集团有限公司 离群点的挖掘方法及挖掘装置
WO2017107790A1 (zh) * 2015-12-22 2017-06-29 阿里巴巴集团控股有限公司 一种基于大数据预测路段状况的方法及装置
US10977933B2 (en) 2015-12-22 2021-04-13 Alibaba Group Holding Limited Method and apparatus for predicting road conditions based on big data
CN107146409A (zh) * 2017-06-01 2017-09-08 东方网力科技股份有限公司 路网中设备检测时间异常的识别和真实时差估算方法
CN107941537A (zh) * 2017-10-25 2018-04-20 南京航空航天大学 一种机械设备健康状态评估方法
CN109086291A (zh) * 2018-06-09 2018-12-25 西安电子科技大学 一种基于MapReduce的并行异常检测方法及系统
CN109086291B (zh) * 2018-06-09 2022-07-12 西安电子科技大学 一种基于MapReduce的并行异常检测方法及系统
CN109308395A (zh) * 2018-09-30 2019-02-05 西安电子科技大学 基于lof-knn算法的晶圆级空间测量参数异常识别方法
CN109814022A (zh) * 2019-01-02 2019-05-28 浙江大学 一种芯片老炼试验数据处理方法
CN110207827A (zh) * 2019-05-23 2019-09-06 浙江大学 一种基于异常因子提取的电气设备温度实时预警方法
CN110207827B (zh) * 2019-05-23 2020-05-08 浙江大学 一种基于异常因子提取的电气设备温度实时预警方法
CN116612641A (zh) * 2023-07-19 2023-08-18 天津中德应用技术大学 基于智能网联的车辆队列控制数据处理方法
CN116612641B (zh) * 2023-07-19 2023-09-22 天津中德应用技术大学 基于智能网联的车辆队列控制数据处理方法
CN117892248A (zh) * 2024-03-15 2024-04-16 山东鲁新国合节能环保科技有限公司 一种烧结烟气内循环过程中异常数据监测方法

Also Published As

Publication number Publication date
CN100535955C (zh) 2009-09-02

Similar Documents

Publication Publication Date Title
CN100535955C (zh) 一种识别离群交通数据的方法
CN102087788B (zh) 基于浮动车车速置信度的交通状态参数估计方法
CN109923595A (zh) 一种基于浮动车数据的城市道路交通异常检测方法
CN111623722A (zh) 一种基于多传感器的边坡变形立体监测系统和方法
CN105241465B (zh) 一种道路更新的方法
CN110285877B (zh) 基于Spark Streaming的列车实时定位跟踪与速度计算方法
CN109492708B (zh) 一种基于ls-knn的管道漏磁内检测缺失数据插补方法
CN102279424B (zh) 电网气象灾害预警系统
CN109190272B (zh) 基于弹性波和机器学习的混凝土结构缺陷检测方法
CN105120433A (zh) 基于连续采样及模糊聚类处理的wlan室内定位方法
CN112749210B (zh) 基于深度学习的车辆碰撞识别方法和系统
CN104851301B (zh) 一种基于减速带声音分析的车辆参数识别方法
CN106247173A (zh) 管道泄漏检测的方法及装置
CN106647514A (zh) 一种对水泥企业碳排放实时在线监测管理系统
CN116522270B (zh) 用于智慧海绵城市的数据处理系统
CN115100819B (zh) 基于大数据分析的滑坡灾害预警方法、装置及电子设备
CN111971581A (zh) 用于验证由雨量传感器提供的数据的设备、方法和计算机程序产品
Sharifi et al. Outsourced probe data effectiveness on signalized arterials
CN114330120A (zh) 一种基于深度神经网络预测24小时pm2.5浓度的方法
CN113706871A (zh) 一种城市交通大数据处理中多源数据融合系统
CN105222885A (zh) 一种光纤振动检测方法及装置
Wieczorek et al. Techniques for validating an automatic bottleneck detection tool using archived freeway sensor data
CN114611728B (zh) 污水管网堵塞监测方法及系统
CN202166754U (zh) 电网气象灾害预警系统
CN113255820B (zh) 落石检测模型训练方法、落石检测方法及相关装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090902

Termination date: 20120401