CN112364910B - 基于峰值聚类高速公路收费数据异常事件检测方法及装置 - Google Patents

基于峰值聚类高速公路收费数据异常事件检测方法及装置 Download PDF

Info

Publication number
CN112364910B
CN112364910B CN202011225553.9A CN202011225553A CN112364910B CN 112364910 B CN112364910 B CN 112364910B CN 202011225553 A CN202011225553 A CN 202011225553A CN 112364910 B CN112364910 B CN 112364910B
Authority
CN
China
Prior art keywords
data
cluster
cluster center
pseudo
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011225553.9A
Other languages
English (en)
Other versions
CN112364910A (zh
Inventor
孙朝云
裴莉莉
沙爱民
韩雨希
李伟
郝雪丽
户媛姣
袁博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changan University
Original Assignee
Changan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changan University filed Critical Changan University
Priority to CN202011225553.9A priority Critical patent/CN112364910B/zh
Publication of CN112364910A publication Critical patent/CN112364910A/zh
Application granted granted Critical
Publication of CN112364910B publication Critical patent/CN112364910B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Traffic Control Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于峰值聚类高速公路收费数据异常事件检测方法及装置,用以解决现有技术中的高速公路异常事件检测方法及装置存在的检测结果不准确、效率不高等问题;本发明提供的基于高速公路收费数据的异常事件检测方法及装置,可以更加全面准确感知高速公路交通运行状况,能够有效挖掘出数据中隐藏的道路拥堵、长时停留、车辆超速、设备故障、系统故障、网络故障、车辆超载和疑似逃费等异常事件。

Description

基于峰值聚类高速公路收费数据异常事件检测方法及装置
技术领域
本发明涉及收费数据异常事件检测方法和装置,具体涉及一种基于峰值聚类高速公路收费数据异常事件检测方法及装置。
背景技术
随着高速路网逐渐完善和信息时代的到来,智能收费系统,道路智能检测等设施所产生的数据已形成了一定的规模。其中,海量的高速公路收费数据中包含许多有待发掘和利用的信息,可以用于进行异常事件的挖掘。
现有对高速公路运行状态的监测管理主要通过人工巡检和视频自动检测两种方法,国内高速公路普遍安装了外场监测设备,但布设的采集设备检测范围有限,未达到全路段覆盖;而人工巡检依靠人工观测监控画面实现,增加了监控员的工作负担,大大降低了事件的检出率。
交通管理部门对高速公路异常事件的检测主要通过依靠简单抽样与统计方法来完成。常见的事件检测算法可以分为模式识别(如加利福尼亚算法)和统计预测(如标准正常偏差法)两类算法。算法以车道占有率以及车流量作为原始数据,将原始数据代入算法判别式,计算出是否有异常事件发生。原始数据的采集依赖于检测器,而部分检测器精度不高,采集到的数据误差较大,且采集到的数据没有被充分的利用,缺乏进一步的数据挖掘。
综上所述,现有的检测方法存在检测结果准确性不高,并且检测速度较慢,检测效率不高的问题。
发明内容
本发明的目的在于提供一种基于峰值聚类高速公路收费数据异常事件检测方法及装置,用以解决现有技术中的高速公路异常事件检测方法及装置存在的检测结果不准确、效率不高等问题。
为了实现上述任务,本发明采用以下技术方案:
一种基于峰值聚类高速公路收费数据异常事件检测方法,用于对待检测的高速公路一段时间内的异常事件类型进行检测,方法按照以下步骤执行:
步骤1、获取待检测的高速公路一段时间内的原始高速公路收费数据集;
步骤2、对数据集进行数据质量提升,获得数据质量提升后的数据集;
步骤3、将数据质量提升后的数据集输入至检测模型中,获得异常事件数据;
其中检测模型包括依次连接的聚类层、插值层以及检测层;
聚类层用于对数据质量提升后的数据集进行聚类,获得多个数据簇;
插值层用于对每一个数据簇进行插值修复,获得多个修复后的数据簇,获得修复后的数据集;
检测层用于采用快速峰值聚类算法对修复后的数据集进行分类,获得异常事件数据;
其中快速峰值聚类算法的簇中心集采用以下步骤获得:
步骤a、采用式I计算修复后的数据集中第i个数据的特征值γi,其中i=1,2,3,…,n,n表示修复后的数据集中数据的个数,n为正整数:
γi=ρi×δi 式I
其中ρi为第i个数据的局部密度的值,δi为第i个数据的簇中心距离的值;
步骤b、重复步骤a,直至获得n个特征值;
步骤c、对步骤b获得的所有特征值进行降序排列,获得特征值序列;
步骤d、获得特征值序列中所有特征值斜率差的平均值β;
步骤e、采用式II获得第一特征值点的序号p:
p=max{a|||ka|-|ka+1||≥β,a=1,2,…,n-2} 式II
其中ka表示第a个特征值与第a+1个特征值之间的斜率;
步骤f、采用式III获得伪簇中心集中每一个伪簇中心点的序号集合SP:
SP={q|γq≥γp,q=1,2,…,p} 式III
其中q表示伪簇中心的序号,q∈i,p∈i;
步骤g、根据步骤f获得的序号集合SP,获得伪簇中心集;
步骤h、构建簇中心集,簇中心集的初始值为空集;
步骤i、将步骤g获得的伪簇中心集中特征值最大的一个点作为初始簇中心点放入簇中心集中后,将初始簇中心点从伪簇中心集中剔除;
步骤j、对于伪簇中心集中的任一伪簇中心点,计算该伪簇中心点与簇中心集中每个簇中心点的距离,若该伪簇中心点与簇中心集中每个簇中心点的距离均大于最小簇间距离,则将该伪簇中心点放入簇中心集后返回步骤j,直至对伪簇中心集中每一个伪簇中心点都进行了步骤j的处理后,获得簇中心集;
步骤4、根据异常事件数据,获得异常事件类型。
进一步地,步骤2中对数据集进行数据质量提升时,采用式Ⅳ对每一个数据进行处理:
Figure BDA0002763530620000041
其中,xj *表示第j个数据经过数据质量提升后的值,xj表示第j个数据的值,xmin表示数据集中的最小值,xmax表示数据集中的最大值。
进一步地,聚类层对数据集进行聚类时,采用K均值聚类算法,获得多个数据簇。
进一步地,插值层对每一个数据簇进行插值修复时,采用拉格朗日插值方法、平均插值方法以及牛顿插值方法分别对每一个数据簇进行插值修复,获得每一个数据簇对应的三种插值结果;将每一个数据簇对应的三种插值结果进行融合,获得每一个数据簇对应的修复后的数据簇,获得多个修复后的数据簇。
进一步地,将每一个数据簇对应的三种插值结果进行融合时,采用均值法。
一种基于峰值聚类高速公路收费数据异常事件检测装置,用于对待检测的高速公路一段时间内的异常事件进行检测,装置包括数据获取模块、数据质量提升模块、数据检测模块以及类型检测模块;
数据获取模块用于获取待检测的高速公路一段时间内的原始高速公路收费数据集;
数据质量提升模块用于对数据集进行数据质量提升,获得数据质量提升后的数据集;
数据检测模块用于将数据质量提升后的数据集输入至检测模型中,获得异常事件数据;
其中检测模型包括依次连接的聚类层、插值层以及检测层;
聚类层用于对数据质量提升后的数据集进行聚类,获得多个数据簇;
插值层用于对每一个数据簇进行插值修复,获得多个修复后的数据簇,获得修复后的数据集;
检测层用于采用快速峰值聚类算法对修复后的数据集进行分类,获得异常事件数据;
检测层包括簇中心确定子模块;
簇中心确定子模块包括特征值计算单元、特征值序列获得单元、斜率差平均值获得单元、特征点序号获得单元、簇中心序号获得单元、伪簇中心集获得单元以及簇中心集获得单元;
特征值计算单元用于采用式Ⅰ计算修复后的数据集中第i个数据的特征值γi,其中i=1,2,3,…,n,n表示修复后的数据集中数据的个数,n为正整数:
γi=ρi×δi 式I
其中ρi为第i个数据的局部密度的值,δi为第i个数据的簇中心距离的值;
获得n个特征值;
特征值序列获得单元用于对获得的所有特征值进行降序排列,获得特征值序列;
斜率差平均值获得单元用于获得特征值序列中所有特征值斜率差的平均值β;
特征点序号获得单元用于采用式II获得第一特征值点的序号p:
p=max{a|||ka|-|ka+1||≥β,a=1,2,…,n-2} 式II
其中ka表示第a个特征值与第a+1个特征值之间的斜率;
簇中心序号获得单元用于采用式III获得伪簇中心集中每一个伪簇中心点的序号集合SP:
SP={q|γq≥γp,q=1,2,…,p} 式III
其中q表示伪簇中心的序号,q∈i,p∈i;
伪簇中心集获得单元用于根据获得的序号集合SP,获得伪簇中心集;
簇中心集构建单元用于构建簇中心集,簇中心集的初始值为空集;
初始簇中心点筛选单元用于将伪簇中心集中特征值最大的一个点作为初始簇中心点放入簇中心集中后,将初始簇中心点从伪簇中心集中剔除;
簇中心集获得单元用于对于伪簇中心集中的任一伪簇中心点,计算该伪簇中心点与簇中心集中每个簇中心点的距离,若该伪簇中心点与簇中心集中每个簇中心点的距离均大于最小簇间距离,则将该伪簇中心点放入簇中心集,对伪簇中心集中每一个伪簇中心点都进行了计算处理后,获得簇中心集;
类型检测模块用于根据异常事件数据,获得异常事件类型。
进一步地,数据质量提升模块对数据集进行数据质量提升时,采用式Ⅳ对每一个数据进行处理:
Figure BDA0002763530620000071
其中,xj *表示第j个数据经过数据质量提升后的值,xj表示第j个数据的值,xmin表示数据集中的最小值,xmax表示数据集中的最大值。
进一步地,聚类层对数据集进行聚类时,采用K均值聚类算法,获得多个数据簇。
进一步地,插值层对每一个数据簇进行插值修复时,采用拉格朗日插值方法、平均插值方法以及牛顿插值方法分别对每一个数据簇进行插值修复,获得每一个数据簇对应的三种插值结果;将每一个数据簇对应的三种插值结果进行融合,获得每一个数据簇对应的修复后的数据簇,获得多个修复后的数据簇。
进一步地,将每一个数据簇对应的三种插值结果进行融合时,采用均值法。
本发明与现有技术相比具有以下技术效果:
1、本发明提供的基于峰值聚类高速公路收费数据异常事件检测方法及装置,基于多算法融合提出了一种专用于高速公路收费数据的缺失数据修复方法,与单一的修复方法相比,具有更高的准确度以及更强的普适性;
2、本发明提供的基于峰值聚类高速公路收费数据异常事件检测方法及装置,针对高速公路收费数据多维性的特点,提出了一种改进快速峰值聚类算法,具有实现简单、所需参数少、能处理非凸数据、聚类效果良好等优点。相比于传统聚类算法,本发明提出的方法具有更高的准确度,能够更好地应用于多维收费数据的聚类和异常事件挖掘中。
3、本发明提供的基于峰值聚类高速公路收费数据异常事件检测方法及装置,可以更加全面准确感知高速公路交通运行状况,能够有效挖掘出数据中隐藏的道路拥堵、长时停留、车辆超速、设备故障、系统故障、网络故障、车辆超载和疑似逃费等异常事件。
附图说明
图1为本发明的总流程图;
图2为传统方法与本发明提供的数据修复方法的测试结果对比;
图3为传统方法与本发明提供的检测模型的评价指标对比示例图;
图4为本发明提供的中异常事件检测方法及装置的实验结果示例图。
具体实施方式
下面结合附图和实施例对本发明进行详细说明。以便本领域的技术人员更好的理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
以下对本发明涉及的定义或概念内涵做以说明:
聚类:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程;
插值:在离散数据的基础上补插连续函数,使得这条连续曲线通过全部给定的离散数据点。利用插值可通过函数在有限个点处的取值估算出函数在其他点处的近似值;
K均值聚类算法:经典的无监督聚类算法,其主要目的是将n个样本点划分为k个簇,使得相似的样本尽量被分到同一个聚簇;
拉格朗日插值方法:一种多项式插值方法,如对实践中的某个物理量进行观测,在若干个不同的地方得到相应的观测值,拉格朗日插值法可以找到一个多项式,其恰好在各个观测的点取到观测到的值;
平均插值方法:使用数据的均值来估算函数在某点处的值;
牛顿插值方法:一种代数插值方法,牛顿插值引入了差商的概念,方法首先计算出差商,再求得近似值。其在插值节点增加时便于计算;
快速峰值聚类算法:一种基于密度的聚类方法,可以识别各种形状的类簇,并且参数很容易确定。其主要思想是寻找被低密度区域分离的高密度区域。
实施例一
在实施例中公开了一种基于峰值聚类高速公路收费数据异常事件检测方法,用于对待检测的高速公路一段时间内的异常事件进行检测,如图1所示,方法首先为高速公路收费数据收集与整理、高速公路收费数据质量提升,其次是构建基于聚类算法的异常检测模型后,将处理后的数据集输入到检测模型中,检测模型包括首先对数据集进行快速峰值聚类,对缺失数据进行多插值法融合修复,修复方法包括拉格朗日插值方法、平均插值方法以及牛顿插值方法,融合修复后的数据进行高速公路收费数据异常值检测,获得异常事件数据,最后根据异常数据表,分析异常事件类型,具体地,方法按照以下步骤执行:
步骤1、获取待检测的高速公路一段时间内的原始高速公路收费数据集;
本实施例中使用了贵州省2016~2017年原始高速公路收费数据,其中收费数据由贵州省高速公路各个收费站汇总而来,数据的原始形式如表1所示:
表1原始数据字段
Figure BDA0002763530620000101
Figure BDA0002763530620000111
原始收费数据中并非所有字段都是有效字段,有些字段存在整体缺失和未统计等现象;同时也不是所有字段都能用于异常事件的检测。因此需要根据数据分析目标对有效字段进行筛选。
异常事件主要分为交通事故和交通事件两类,其中交通事故是指车辆撞车、撞人、撞公路设施、翻车等造成人身伤害及车辆或设施损坏的交通异常状况,交通事件是指车辆故障、长时停车、车辆逆行、系统故障、设备故障、通行费偷逃等异常情况。为了检测出异常事件,需要选取与站点、时间、费用以及车辆总重有关的属性字段进行数据挖掘,选取的特定的属性字段的说明如表2所示:
表2部分属性字段
Figure BDA0002763530620000112
Figure BDA0002763530620000121
步骤2、对数据集进行数据质量提升,获得数据质量提升后的数据集;
在本实施例中通过数据质量提升对原始高速公路收费数据进行数据质量提升,可选地,步骤2中对数据集进行数据质量提升时,采用式Ⅰ对每一个数据进行处理:
Figure BDA0002763530620000122
其中,xj *表示第j个数据经过数据质量提升后的值,xj表示第j个数据的值,xmin表示数据集中的最小值,xmax表示数据集中的最大值。
步骤3、将数据集输入至检测模型中,获得异常事件数据;
其中检测模型包括依次连接的聚类层、插值层以及检测层;
聚类层用于对数据集进行聚类,获得多个数据簇;
插值层用于对每一个数据簇进行插值修复,获得多个修复后的数据簇,获得修复后的数据集;
检测层用于采用快速峰值聚类算法对修复后的数据集进行分类,获得异常事件数据;
在本实施例中,为了进一步对数据进行挖掘分析,需要填补数据中的缺失值,提升数据的质量,为后续进行聚类操作奠定基础。首先对数据质量提升后的数据集进行插值,即对缺失数据的修复。
可选地,聚类层对数据集进行聚类时,采用K均值聚类算法,获得多个数据簇。
首先使用K均值聚类算法对模型输入数据进行聚类。设输入数据集为X={x1,...,xl},其中l为数据规模。选取k个初始中心C={c1,...,ck},对每个xi∈X,计算其到每个初始中心cj∈C的距离为:
Figure BDA0002763530620000131
其中h为数据的属性规模,
Figure BDA0002763530620000133
为数据xi中属性p的值。
通过比较计算出的距离d(xi,cq),可以将xi划分至簇q中。在所有点均聚类完成后,对每个簇计算新的中心。设簇
Figure BDA0002763530620000134
其中nj为簇中点的个数,新中心的计算公式为:
Figure BDA0002763530620000132
按照上述过程对所有点不断迭代进行聚类,直到聚类产生的簇中各点不再改变。
相比直接插值,聚类后的数据考虑到了不同簇间的特点,根据簇的特点进行的插值因此具有更高的准确度。现实中,用户的出行模式具有明显的类别特征,不同类型的用户出行会产生特征相近的交通数据,反映到高速公路收费数据中体现在相近的出行时间、车辆总重等。结合相似的特征,将一类数据先聚类在一起,然后再插值得到结果也更加合理。因此,本发明提出的方法在聚类后进行插值。
可选地,插值层对每一个数据簇进行插值修复时,采用拉格朗日插值方法、平均插值方法以及牛顿插值方法分别对每一个数据簇进行插值修复,获得每一个数据簇对应的三种插值结果;将每一个数据簇对应的三种插值结果进行融合,获得每一个数据簇对应的修复后的数据簇,获得多个修复后的数据簇。
设位于函数f(x)上的现有点集(x0,y0),(x1,y1),...,(xn,yn)互不相同,对于格朗日插值方法,首先构造如下所示的插值基函数li(x):
li(x)=a(x-x0)(x-x1)…(x-xn)
Figure BDA0002763530620000141
接着由插值基函数构造出拉格朗日插值多项式如下:
Figure BDA0002763530620000142
将含有缺失值的点带入拉格朗日插值多项式,即可实现缺失数据的拉格朗日插值修复。
以点集(0,1),(2,11),(3,19)为例,可以构造出插值基函数如下:
Figure BDA0002763530620000143
Figure BDA0002763530620000144
Figure BDA0002763530620000145
由插值基函数可以构造出拉格朗日插值多项式如下:
L(x)=1·l1(x)+11·l2(x)+19·l3(x)=3x+x2+1
设(1,y)点中y为缺失值,则修复后y=L(1)=5。
对于牛顿插值法,首先按照下面的递推公式依次构造出n阶差商:
Figure BDA0002763530620000151
Figure BDA0002763530620000152
……
Figure BDA0002763530620000153
接着构造出牛顿插值公式如下:
P(x)=f(x0)+(x-x0)f[x1,x0]+(x-x0)(x-x1)f[x2,x1,x0]+…+(x-x0)(x-x1)...(x-xn-1)f[x0,x1…,xn];
将含有缺失值的点带入牛顿插值公式,即可实现缺失数据的牛顿插值修复。
以点集(0,1),(2,11),(3,19)为例,可以计算出差商如下:
Figure BDA0002763530620000154
Figure BDA0002763530620000155
Figure BDA0002763530620000156
由差商可构造出牛顿插值公式如下:
P(x)=1+5(x-0)+(x-0)(x-2)=3x+x2+1
设(1,y)点中y为缺失值,则修复后y=P(1)=5。
对于平均插值法,计算均值avg如下:
Figure BDA0002763530620000157
对于每一个缺失值,使用均值avg代替之以实现平均插值修复。
以点集(0,1),(2,11),(3,19)为例,可以计算出均值如下:
Figure BDA0002763530620000161
设(1,y)点中y为缺失值,则修复后y=avg=10.33。
可选地,将每一个数据簇对应的三种插值结果使用均值法进行融合。设三种插值结果分别为Res1、Res2、Res3,则融合结果R可表示为:
Figure BDA0002763530620000162
参见图2与图3,本实施例中,采用以上的方法对缺失数据进行了修复,为了体现本发明中模型修复的准确度,对缺失数据采用以拉格朗日插值法为代表的传统修复方法进行修复,得到的精度与误差的评价指标如表2所示:
表2修复结果对比
Figure BDA0002763530620000163
结果表明,本发明提出的缺失数据修复模型的RMSE误差仅为0.7818,与传统修复方法相比,误差降低了0.8915;R2为0.9166,相比传统修复方法,其准确度提升了0.321。
为了解决现有技术检测准确度不足且没有考虑到交通数据特点的问题,在本发明中提出了一种专用于交通数据异常挖掘的方法。
在本发明中提出了基于改进快速峰值聚类算法的异常事件挖掘模型,按照第三关系模型构造出ρ-δ决策图对数据进行聚类以区分出有效数据与噪声数据,从而实现具有较高准确度的异常事件挖掘,其中,第三关系模型的详细说明如下:
所述基于改进快速峰值聚类算法的异常事件挖掘模型通过寻找被低密度数据分离的高密度数据以进行数据的聚类。设ρi为数据的局部密度,即距该数据小于给定的截止距离的数据规模,其定义为:
Figure BDA0002763530620000171
其中i与j为两条互异的数据,dij为i与j间的距离,dc为预先设定的截止距离。当i小于0时,χ(i)=1,反之χ(i)=0。
δi为簇中心距离,即ρi高于数据i的所有数据中与i的距离的最小值,其定义为:
Figure BDA0002763530620000172
对于密度最高的数据,其δi值为该数据与其余所有点之间距离的最大值,定义为:
δi=maxj(dij)
计算出所有数据的ρ与δ后,以ρ和δ作为两个维度构造出ρ-δ决策图。接着根据决策图选取合适的簇中心。通常地,ρ值和δ值都较高的数据为簇中心,ρ值较低,δ值较高的数据为噪声数据,ρ值相对较高,δ值很低的数据为簇内数据。
在本实施例中,相比于传统的快速峰值聚类算法改进了簇中心集的获取方法,传统的方法是通过人工筛选簇中心集,而在本发明中提供了一种自动挑选簇中心集的方法,以提高交通数据异常挖掘的效率。
快速峰值聚类算法的簇中心集采用以下步骤获得:
步骤a、采用式I计算修复后的数据集中第i个数据的特征值γi,其中i=1,2,3,…,n,n表示修复后的数据集中数据的个数,n为正整数:
γi=ρi×δi 式I
其中ρi为第i个数据的局部密度的值,δi为第i个数据的簇中心距离的值;
步骤b、重复步骤a,直至获得n个特征值;
步骤c、对步骤b获得的所有特征值进行降序排列,获得特征值序列;
步骤d、获得特征值序列中所有特征值斜率差的平均值β;
步骤e、采用式II获得第一特征值点的序号p:
p=max{a|||ka|-|ka+1||≥β,a=1,2,…,n-2} 式II
其中ka表示第a个特征值与第a+1个特征值之间的斜率;
步骤f、采用式III获得伪簇中心集中每一个伪簇中心点的序号集合SP:
SP={q|γq≥γp,q=1,2,…,p} 式III
其中q表示伪簇中心的序号,q∈i,p∈i;
步骤g、根据步骤f获得的序号集合SP,获得伪簇中心集;
步骤h、构建簇中心集,簇中心集的初始值为空集;
步骤i、将步骤g获得的伪簇中心集中特征值最大的一个点作为初始簇中心点放入簇中心集中后,将初始簇中心点从伪簇中心集中剔除;
步骤j、对于伪簇中心集中的任一伪簇中心点,计算该伪簇中心点与簇中心集中每个簇中心点的距离,若该伪簇中心点与簇中心集中每个簇中心点的距离均大于最小簇间距离,则将该伪簇中心点放入簇中心集后返回步骤j,直至对伪簇中心集中每一个伪簇中心点都进行了步骤j的处理后,获得簇中心集;
在本实施例中,设γi=ρi×δi,则γi较大的点有很大可能为簇中心。以γi降序对数据进行排序,得到关于γi的降序折线图。设临界数据P为以该数据为临界的γ[1~P]与γ[P~n]变化程度最大的数据,其定义为:
P=max{a|||ka|-|ka+1||≥β,a=1,2,…,n-2}
β=α(j)/(n-2)
Figure BDA0002763530620000191
其中ka表示第a个特征值与第a+1个特征值之间的斜率;β表示斜率差的平均值,α(j)表示在γi值降序排列图中相邻的两点的斜率差的总和。据此可得到簇中心的可能取值范围,称之为伪中心集Spq,其定义如下:
Spq={q|γq≥γp,q=1,2,…,p}
构造簇中心集S。首先将γi值最大的点放入S中并从伪簇中心集SP中移除,接着对SP中的每一个伪中心SPk,逐个计算其与S中每一个簇中心Si的欧氏距离dist(SPk,Si),若存在某个dist(SPk,Si)<dc(dc为设定的最小簇间距),则将伪中心SPk作为簇内点,反之则将伪中心SPk作为簇中心放入S中。最后将剩余的数据逐个划分到与其距离最近的有较高密度的数据所在簇,再为每个簇找到一个边界区域,即分配给某簇中的数据距另一簇中数据的距离小于截止距离,接着在每个簇的边界区域内找出密度最高的数据,记其密度为ρb,最后对簇中的每条数据进行检验,将密度小于ρb的数据剔除出簇并记作噪声数据。
如图4所示,本实施例中,以收费数据中选取的“车辆总重”和“通行时间”属性为例,使用所述基于改进快速峰值聚类算法的异常事件挖掘模型进行处理,得到的结果如图4所示,图中红色与绿色部分为两个簇,黑色部分为噪声数据,即发生异常事件对应的收费数据。
步骤4、根据异常事件数据,获得异常事件类型。
本发明提供的异常数据由异常数据可精准定位事件发生所在的车辆、站点、车道、人员等基本信息,对异常数据进行跟踪分析,便可进一步得到异常事件的具体类型。本实施例中,异常事件主要有以下四种类型:
(1)通行时间过长:大部分车辆的通行时间在1-2个小时左右,而异常数据的通行时间大多在5小时以上,在两个距离较近收费站之间的通行时间过长,可能是由于事故、停车、时钟不同步、记录错误和疑似逃费等原因引起的。
(2)通行时间过短:由两站间的距离及该路段的最高行驶速度可计算出通行时间最小值,低于该值的数据即为异常数据,可能是由于车辆超速、网络故障、时钟不同步、记录错误和疑似逃费等原因引起的。
(3)车辆总重过高:主要是货车存在此类问题,可能是由于车辆超载、称重设备故障、记录错误或疑似逃费等原因引起的。
(4)车辆总重过低:主要是货车存在此类问题,可能是由于称重设备故障、记录错误或疑似逃费等原因引起的。
实施例二
在本实施例中公开了一种基于峰值聚类高速公路收费数据异常事件检测装置,用于对待检测的高速公路一段时间内的异常事件进行检测,装置包括数据获取模块、数据质量提升模块、数据检测模块以及类型检测模块;
数据获取模块用于获取待检测的高速公路一段时间内的原始高速公路收费数据集;
数据质量提升模块用于对数据集进行数据质量提升,获得数据质量提升后的数据集;
数据检测模块用于将数据质量提升后的数据集输入至检测模型中,获得异常事件数据;
其中检测模型包括依次连接的聚类层、插值层以及检测层;
聚类层用于对数据质量提升后的数据集进行聚类,获得多个数据簇;
插值层用于对每一个数据簇进行插值修复,获得多个修复后的数据簇,获得修复后的数据集;
检测层用于采用快速峰值聚类算法对修复后的数据集进行分类,获得异常事件数据;
检测层包括簇中心确定子模块;
簇中心确定子模块包括特征值计算单元、特征值序列获得单元、斜率差平均值获得单元、特征点序号获得单元、簇中心序号获得单元、伪簇中心集获得单元以及簇中心集获得单元;
特征值计算单元用于采用式I计算修复后的数据集中第i个数据的特征值γi,其中i=1,2,3,…,n,n表示修复后的数据集中数据的个数,n为正整数:
γi=ρi×δi 式I
其中ρi为第i个数据的局部密度的值,δi为第i个数据的簇中心距离的值;
获得n个特征值;
特征值序列获得单元用于对获得的所有特征值进行降序排列,获得特征值序列;
斜率差平均值获得单元用于获得特征值序列中所有特征值斜率差的平均值β;
特征点序号获得单元用于采用式II获得第一特征值点的序号p:
p=max{a|||ka|-|ka+1||≥β,a=1,2,…,n-2} 式II
其中ka表示第a个特征值与第a+1个特征值之间的斜率;
簇中心序号获得单元用于采用式III获得伪簇中心集中每一个伪簇中心点的序号集合SP:
SP={q|γq≥γp,q=1,2,…,p} 式III
其中q表示伪簇中心的序号,q∈i,p∈i;
伪簇中心集获得单元用于根据获得的序号集合SP,获得伪簇中心集;
簇中心集构建单元用于构建簇中心集,簇中心集的初始值为空集;
初始簇中心点筛选单元用于将伪簇中心集中特征值最大的一个点作为初始簇中心点放入簇中心集中后,将初始簇中心点从伪簇中心集中剔除;
簇中心集获得单元用于对于伪簇中心集中的任一伪簇中心点,计算该伪簇中心点与簇中心集中每个簇中心点的距离,若该伪簇中心点与簇中心集中每个簇中心点的距离均大于最小簇间距离,则将该伪簇中心点放入簇中心集,对伪簇中心集中每一个伪簇中心点都进行了计算处理后,获得簇中心集;
类型检测模块用于根据异常事件数据,获得异常事件类型。
可选地,数据质量提升模块对数据集进行数据质量提升时,采用式Ⅳ对每一个数据进行处理:
Figure BDA0002763530620000231
其中,xj *表示第j个数据经过数据质量提升后的值,xj表示第j个数据的值,xmin表示数据集中的最小值,xmax表示数据集中的最大值。
可选地,聚类层对数据集进行聚类时,采用K均值聚类算法,获得多个数据簇。
可选地,插值层对每一个数据簇进行插值修复时,采用拉格朗日插值方法、平均插值方法以及牛顿插值方法分别对每一个数据簇进行插值修复,获得每一个数据簇对应的三种插值结果;将每一个数据簇对应的三种插值结果进行融合,获得每一个数据簇对应的修复后的数据簇,获得多个修复后的数据簇。
可选地,将每一个数据簇对应的三种插值结果进行融合时,采用均值法。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法。

Claims (6)

1.一种基于峰值聚类高速公路收费数据异常事件检测方法,用于对待检测的高速公路一段时间内的异常事件类型进行检测,其特征在于,所述的方法按照以下步骤执行:
步骤1、获取待检测的高速公路一段时间内的原始高速公路收费数据集;
根据数据分析目标对有效字段进行筛选,选取与站点、时间、费用以及车辆总重有关的属性字段进行数据挖掘,选取的属性字段为:数据序号、进站口时间、出站口时间、进站名称、出站名称、进站车辆总重、出站车辆总重、消费金额和消费后余额;
步骤2、对所述的数据集进行数据质量提升,获得数据质量提升后的数据集;
步骤3、将所述的数据质量提升后的数据集输入至检测模型中,获得异常事件数据;
其中所述的检测模型包括依次连接的聚类层、插值层以及检测层;
所述的聚类层用于对所述的数据质量提升后的数据集进行聚类,获得多个数据簇;
所述的插值层用于对每一个数据簇进行插值修复,获得多个修复后的数据簇,获得修复后的数据集;所述的插值层对每一个数据簇进行插值修复时,采用拉格朗日插值方法、平均插值方法以及牛顿插值方法分别对每一个数据簇进行插值修复,获得每一个数据簇对应的三种插值结果;将每一个数据簇对应的三种插值结果进行融合,获得每一个数据簇对应的修复后的数据簇,获得多个修复后的数据簇;所述的将每一个数据簇对应的三种插值结果进行融合时,采用均值法;
所述的检测层用于采用快速峰值聚类算法对所述的修复后的数据集进行分类,获得异常事件数据;
其中所述的快速峰值聚类算法的簇中心集采用以下步骤获得:
步骤a、采用式I计算修复后的数据集中第i个数据的特征值γi,其中i=1,2,3,…,n,n表示修复后的数据集中数据的个数,n为正整数:
γi=ρi×δi 式I
其中ρi为第i个数据的局部密度的值,δi为第i个数据的簇中心距离的值;
步骤b、重复步骤a,直至获得n个特征值;
步骤c、对步骤b获得的所有特征值进行降序排列,获得特征值序列;
步骤d、获得特征值序列中所有特征值斜率差的平均值β;
步骤e、采用式II获得第一特征值点的序号p:
p=max{a|||ka|-|ka+1||≥β,a=1,2,…,n-2} 式II
其中ka表示第α个特征值与第a+1个特征值之间的斜率;
步骤f、采用式IⅡ获得伪簇中心集中每一个伪簇中心点的序号集合SP:
SP={q|γq≥γp,q=1,2,…,p} 式IⅡ
其中q表示伪簇中心的序号,q∈i,p∈i;
步骤g、根据步骤f获得的序号集合SP,获得伪簇中心集;
步骤h、构建簇中心集,所述的簇中心集的初始值为空集;
步骤i、将步骤g获得的伪簇中心集中特征值最大的一个点作为初始簇中心点放入簇中心集中后,将所述的初始簇中心点从伪簇中心集中剔除;
步骤j、对于伪簇中心集中的任一伪簇中心点,计算该伪簇中心点与簇中心集中每个簇中心点的距离,若该伪簇中心点与簇中心集中每个簇中心点的距离均大于最小簇间距离,则将该伪簇中心点放入簇中心集后返回步骤j,直至对伪簇中心集中每一个伪簇中心点都进行了步骤j的处理后,获得所述的簇中心集;
步骤4、根据所述的异常事件数据,获得异常事件类型;所述异常事件类型有以下四种:(1)通行时间过长;(2)通行时间过短;(3)车辆总重过高;(4)车辆总重过低。
2.如权利要求1所述的基于峰值聚类高速公路收费数据异常事件检测方法,其特征在于,所述的步骤2中对所述的数据集进行数据质量提升时,采用式Ⅳ对每一个数据进行处理:
Figure FDA0003846867070000031
其中,xj *表示第j个数据经过数据质量提升后的值,xj表示第j个数据的值,xmin表示数据集中的最小值,xmax表示数据集中的最大值。
3.如权利要求2所述的基于峰值聚类高速公路收费数据异常事件检测方法,其特征在于,所述的聚类层对所述的数据集进行聚类时,采用K均值聚类算法,获得多个数据簇。
4.一种基于峰值聚类高速公路收费数据异常事件检测装置,用于对待检测的高速公路一段时间内的异常事件进行检测,其特征在于,所述的装置包括数据获取模块、数据质量提升模块、数据检测模块以及类型检测模块;
所述的数据获取模块用于获取待检测的高速公路一段时间内的原始高速公路收费数据集;根据数据分析目标对有效字段进行筛选,选取与站点、时间、费用以及车辆总重有关的属性字段进行数据挖掘,选取的属性字段为:数据序号、进站口时间、出站口时间、进站名称、出站名称、进站车辆总重、出站车辆总重、消费金额和消费后余额;
所述的数据质量提升模块用于对所述的数据集进行数据质量提升,获得数据质量提升后的数据集;
所述的数据检测模块用于将所述的数据质量提升后的数据集输入至检测模型中,获得异常事件数据;
其中所述的检测模型包括依次连接的聚类层、插值层以及检测层;
所述的聚类层用于对所述的数据质量提升后的数据集进行聚类,获得多个数据簇;
所述的插值层用于对每一个数据簇进行插值修复,获得多个修复后的数据簇,获得修复后的数据集;所述的插值层对每一个数据簇进行插值修复时,采用拉格朗日插值方法、平均插值方法以及牛顿插值方法分别对每一个数据簇进行插值修复,获得每一个数据簇对应的三种插值结果;将每一个数据簇对应的三种插值结果进行融合,获得每一个数据簇对应的修复后的数据簇,获得多个修复后的数据簇;所述的将每一个数据簇对应的三种插值结果进行融合时,采用均值法;
所述的检测层用于采用快速峰值聚类算法对所述的修复后的数据集进行分类,获得异常事件数据;
所述的检测层包括簇中心确定子模块;
所述的簇中心确定子模块包括特征值计算单元、特征值序列获得单元、斜率差平均值获得单元、特征点序号获得单元、簇中心序号获得单元、伪簇中心集获得单元、簇中心集构建单元、初始簇中心点筛选单元以及簇中心集获得单元;
所述的特征值计算单元用于采用式Ⅰ计算修复后的数据集中第i个数据的特征值γi,其中i=1,2,3,…,n,n表示修复后的数据集中数据的个数,n为正整数:
γi=ρi×δi 式Ⅰ
其中ρi为第i个数据的局部密度的值,δi为第i个数据的簇中心距离的值;
获得n个特征值;
所述的特征值序列获得单元用于对获得的所有特征值进行降序排列,获得特征值序列;
斜率差平均值获得单元用于获得特征值序列中所有特征值斜率差的平均值β;
所述的特征点序号获得单元用于采用式Ⅱ获得第一特征值点的序号p:
p=max{a|||ka|-|ka+1||≥β,a=1,2,…,n-2} 式II
其中ka表示第a个特征值与第a+1个特征值之间的斜率;
所述的簇中心序号获得单元用于采用式IⅡ获得伪簇中心集中每一个伪簇中心点的序号集合SP:
SP={q|γq≥γp,q=1,2,…,p} 式IⅡ
其中q表示伪簇中心的序号,q∈i,p∈i;
所述的伪簇中心集获得单元用于根据获得的序号集合SP,获得伪簇中心集;
所述的簇中心集构建单元用于构建簇中心集,所述的簇中心集的初始值为空集;
所述的初始簇中心点筛选单元用于将伪簇中心集中特征值最大的一个点作为初始簇中心点放入簇中心集中后,将所述的初始簇中心点从伪簇中心集中剔除;
所述的簇中心集获得单元用于对于伪簇中心集中的任一伪簇中心点,计算该伪簇中心点与簇中心集中每个簇中心点的距离,若该伪簇中心点与簇中心集中每个簇中心点的距离均大于最小簇间距离,则将该伪簇中心点放入簇中心集,对伪簇中心集中每一个伪簇中心点都进行了计算处理后,获得所述的簇中心集;
所述的类型检测模块用于根据所述的异常事件数据,获得异常事件类型;所述异常事件类型有以下四种:(1)通行时间过长;(2)通行时间过短;(3)车辆总重过高;(4)车辆总重过低。
5.如权利要求4所述的基于峰值聚类高速公路收费数据异常事件检测装置,其特征在于,所述的数据质量提升模块对所述的数据集进行数据质量提升时,采用式IV对每一个数据进行处理:
Figure FDA0003846867070000051
其中,xj *表示第j个数据经过数据质量提升后的值,xj表示第j个数据的值,xmin表示数据集中的最小值,xmax表示数据集中的最大值。
6.如权利要求5所述的基于峰值聚类高速公路收费数据异常事件检测装置,其特征在于,所述的聚类层对所述的数据集进行聚类时,采用K均值聚类算法,获得多个数据簇。
CN202011225553.9A 2020-11-05 2020-11-05 基于峰值聚类高速公路收费数据异常事件检测方法及装置 Active CN112364910B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011225553.9A CN112364910B (zh) 2020-11-05 2020-11-05 基于峰值聚类高速公路收费数据异常事件检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011225553.9A CN112364910B (zh) 2020-11-05 2020-11-05 基于峰值聚类高速公路收费数据异常事件检测方法及装置

Publications (2)

Publication Number Publication Date
CN112364910A CN112364910A (zh) 2021-02-12
CN112364910B true CN112364910B (zh) 2022-10-28

Family

ID=74510089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011225553.9A Active CN112364910B (zh) 2020-11-05 2020-11-05 基于峰值聚类高速公路收费数据异常事件检测方法及装置

Country Status (1)

Country Link
CN (1) CN112364910B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807220A (zh) * 2021-09-06 2021-12-17 丰图科技(深圳)有限公司 交通事件检测方法、装置、电子设备和可读存储介质
CN114495497B (zh) * 2022-01-19 2024-01-12 山东大学 一种交通异常数据的判别和插补方法及系统
CN118427765B (zh) * 2024-07-04 2024-09-06 浙江中控信息产业股份有限公司 一种交通雷达数据优化方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577649A (zh) * 2017-09-26 2018-01-12 广州供电局有限公司 缺失数据的插补处理方法及装置
CN108197080A (zh) * 2016-12-08 2018-06-22 广东精点数据科技股份有限公司 一种基于多种算法融合的缺失值插补方法
CN110895526A (zh) * 2019-11-29 2020-03-20 南京信息工程大学 一种大气监测系统中数据异常的修正方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104346770A (zh) * 2013-07-24 2015-02-11 联咏科技股份有限公司 数据插补方法及数据插补系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197080A (zh) * 2016-12-08 2018-06-22 广东精点数据科技股份有限公司 一种基于多种算法融合的缺失值插补方法
CN107577649A (zh) * 2017-09-26 2018-01-12 广州供电局有限公司 缺失数据的插补处理方法及装置
CN110895526A (zh) * 2019-11-29 2020-03-20 南京信息工程大学 一种大气监测系统中数据异常的修正方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于快速峰值聚类的高速公路异常事件识别方法;赵怀鑫等;《长安大学学报(自然科学版)》;20180930;正文第207-210页 *
气象要素时空插值方法研究;彭思岭;《中国优秀硕士论文全文数据库 基础科学辑》;20110215;正文第22页 *
自动确定聚类中心的密度峰值算法;王洋等;《计算机工程与应用》;20170415;正文第4页 *

Also Published As

Publication number Publication date
CN112364910A (zh) 2021-02-12

Similar Documents

Publication Publication Date Title
CN112364910B (zh) 基于峰值聚类高速公路收费数据异常事件检测方法及装置
Gast et al. Probabilistic forecasts of bike-sharing systems for journey planning
CN109816031B (zh) 一种基于数据不均衡度量的变压器状态评估聚类分析方法
CN105931458B (zh) 一种路面交通流量检测设备可信度评估的方法
CN115691120A (zh) 一种基于高速公路流水数据的拥堵识别方法及系统
CN102081846A (zh) 基于高速公路收费数据轨迹匹配的交通状态识别方法
CN112053558A (zh) 一种交通拥堵状态识别方法及装置和设备
CN112419718B (zh) 一种基于时空图卷积神经网络的交通拥塞传播预测方法
CN107679734A (zh) 一种用于无标签数据分类预测的方法和系统
CN111179592B (zh) 基于时空数据流融合分析的城市交通预测方法和系统
CN113963539B (zh) 高速公路交通事故识别方法、模块及系统
CN114004137A (zh) 一种多源气象数据融合与预处理方法
CN106910334B (zh) 一种基于大数据预测路段状况的方法及装置
CN113159374B (zh) 一种数据驱动的城市交通流速模式识别与实时预测预警方法
Biswas et al. Assessment of level-of-service on urban arterials: a case study in Kolkata metropolis
Bitar et al. A probabilistic approach to improve the accuracy of axle-based automatic vehicle classifiers
CN116010838A (zh) 一种融合密度值和K-means算法的车辆轨迹聚类方法
US20110015967A1 (en) Methodology to identify emerging issues based on fused severity and sensitivity of temporal trends
CN116739376A (zh) 一种基于数据挖掘的公路路面预防性养护决策方法
CN115311858A (zh) 基于交通流韧性的城市路段分级管制方法
CN113593242A (zh) 一种基于路口车辆检测器组的在途量估算方法
CN117472893A (zh) 一种系统化提升交通流数据质量方法
CN112765219A (zh) 一种跳过平稳区域的流数据异常检测方法
CN113379334B (zh) 基于有噪声轨迹数据的路段自行车骑行质量鉴别方法
CN116434566A (zh) 交通流量的确定方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant