CN105825242A - 基于混合网格分层聚类的集群通信终端轨迹实时异常检测方法与系统 - Google Patents
基于混合网格分层聚类的集群通信终端轨迹实时异常检测方法与系统 Download PDFInfo
- Publication number
- CN105825242A CN105825242A CN201610299087.6A CN201610299087A CN105825242A CN 105825242 A CN105825242 A CN 105825242A CN 201610299087 A CN201610299087 A CN 201610299087A CN 105825242 A CN105825242 A CN 105825242A
- Authority
- CN
- China
- Prior art keywords
- track
- grid
- cluster
- abnormal
- latitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004891 communication Methods 0.000 title claims abstract description 41
- 238000001514 detection method Methods 0.000 title claims abstract description 27
- 230000002159 abnormal effect Effects 0.000 claims abstract description 50
- 238000000034 method Methods 0.000 claims abstract description 46
- 239000011159 matrix material Substances 0.000 claims abstract description 30
- 238000011156 evaluation Methods 0.000 claims abstract description 5
- 230000005856 abnormality Effects 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000012800 visualization Methods 0.000 claims description 9
- 239000012141 concentrate Substances 0.000 claims description 7
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 238000005259 measurement Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 4
- 230000002547 anomalous effect Effects 0.000 abstract description 3
- 238000011897 real-time detection Methods 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 7
- 238000013450 outlier detection Methods 0.000 description 6
- 238000013461 design Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000007418 data mining Methods 0.000 description 2
- 239000004615 ingredient Substances 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- DMBHHRLKUKUOEG-UHFFFAOYSA-N diphenylamine Chemical compound C=1C=CC=CC=1NC1=CC=CC=C1 DMBHHRLKUKUOEG-UHFFFAOYSA-N 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/231—Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Position Fixing By Use Of Radio Waves (AREA)
Abstract
本发明涉及通信领域,提出一种基于混合网格分层聚类的集群通信终端轨迹实时异常检测方法,包括以下步骤:步骤1、构建基于网格的轨迹,确定最优网格大小;步骤2、计算Hausdroff距离矩阵,利用Hausdroff距离公式计算基于网格的轨迹集中所有轨迹之间的距离,生成轨迹集的距离矩阵;步骤3、分层聚类,即在轨迹集的Hausdroff距离矩阵的基础上应用自下而上的凝聚分层聚类算法,实现大规模轨迹的正常与异常轨迹的分类;步骤4、异常检测方法评估反馈,利用上述方法,对已经有轨迹分类标识的轨迹集的进行异常轨迹检测,得到异常分类结果,进行对比后评估模型参数是否合理并作出反馈。本发明的方法可实现对异常事件的在线实时检测,提高集群通信系统的上层调度指挥效率。
Description
技术领域
本发明涉及通信技术领域,具体而言涉及一种基于混合网格分层聚类的集群通信终端轨迹实时异常检测方法与系统。
背景技术
随着GPS、RFID以及无线传感器等移动对象定位技术的迅速发展,越来越多的移动轨迹数据被收集和保存在应用服务器。如何快速的从这些轨迹数据集中发现有效信息日益成为一个令人关注的研究课题。因此,一系列基于位置信息的服务(LBS)相继出现,例如:出租车打车服务、小孩和老年人的位置监护以及重要设备的位置管理等。通过电信移动运营商的无线电通讯网络(如GSM网、CDMA网)或外部定位方式(如GPS)获取移动终端用户的位置信息(地理坐标或大地坐标),在地理信息系统(GIS)平台的支持下,为用户提供相应服务的一种增值业务。用户可以实时查看自己关心的家人或车辆的位置信息,为人们的生活带来了极大的便利。在很多特定的场景下,人们需要识别场景中的人或物体的移动行为是否符合规范。因此,移动轨迹的异常检测成为了一项十分重要的应用。
随着集群通信系统的规模的迅猛发展、业务的爆炸式增长,集群通信系统的终端数量急剧增长。目前绝不多数集群通信系统中的终端都配有GPS或者北斗定位装置,位置采集技术的日益普及促进了人们对时间-空间数据的大规模采集,从而为发现珍贵的关于用户移动位置的信心带来了新的机遇。如何在海量的轨迹数据中发现终端的行为异常轨迹是目前很热门的课题。目前的异常轨迹检测方法在小规模的轨迹数据上表现良好,但是在处理海量数据时非常耗时,系统的时间复杂度随着数据的规模变得很大,大大降低了集群通信系统的调度效率。
发明内容
为解决上述问题,本发明旨在提供一种基于混合网格分层聚类的集群通信终端轨迹实时异常检测方法与系统,基于集群通信系统中移动终端的轨迹数据,利用数据挖掘技术发现终端异常轨迹的时空特点,并以此为依据实现对大规模轨迹数据的异常检测,实现对异常事件的在线实时检测,提高集群通信系统的上层调度指挥效率。
本发明的上述目的通过独立权利要求的技术特征实现,从属权利要求以另选或有利的方式发展独立权利要求的技术特征。
为达成上述目的,本发明提出一种基于混合网格分层聚类的集群通信终端轨迹实时异常检测方法,包括以下步骤:
步骤1、构建基于网格的轨迹,确定最优网格大小;
步骤2、计算Hausdroff距离矩阵,即利用Hausdroff距离公式计算基于网格的轨迹集中所有轨迹之间的距离,生成轨迹集的距离矩阵M;
步骤3、分层聚类,即在轨迹集的Hausdroff距离矩阵的基础上应用自下而上的凝聚分层聚类算法,实现大规模轨迹的正常与异常轨迹的分类;
步骤4、异常检测方法评估反馈,利用上述步骤1~3的方法,对已经有轨迹分类标识的轨迹集的进行异常轨迹检测,得到异常分类结果,并与真实分类情况进行对比,评估步骤1,3中模型参数是否合理,并作出反馈。
根据本发明的改进,还提出一种基于混合网格分层聚类的集群通信终端轨迹实时异常轨迹检测系统,该系统包括:服务调度中心、集群通信网络和移动定位终端,其中
服务调度中心包括:
轨迹文件数据库服务器,用于存储所有移动定位终端上传的位置信息;
异常轨迹检测程序服务器,用于移动定位终端的异常轨迹检测,优化集群通信的系统调度;
可视化Web服务器,用于动态展示移动定位终端的历史轨迹,并将异常轨迹检测程序服务器计算得到的异常轨迹显示在地图上;
轨迹分析程序服务器包括:
网格轨迹构建模块,Hausdroff距离矩阵计算模块、网格轨迹凝聚分层聚类模块以及异常检测方法评估反馈模块。
由以上技术方案可知,与现有技术相比,本发明的显著优点在于:
1、将原始GPS轨迹数据利用网格分割结构转化为网格序列,简化了聚类算法的输入,大大降低了异常轨迹检测算法的时间复杂度;
2、本发明利用基于Haversine公式的Hausdroff距离矩阵,可以有效表征网格序列之间的相似程度;
3、本发明提出的基于混合网格分层聚类的集群通信终端轨迹实时异常轨迹检测方法和系统,在现有集群通信系统中添加了智能服务中心,利用基于移动终端轨迹数据分析技术为集群通信智能调度和应急防范提供有效地决策。
应当理解,前述构思以及在下面更加详细地描述的额外构思的所有组合只要在这样的构思不相互矛盾的情况下都可以被视为本公开的发明主题的一部分。另外,所要求保护的主题的所有组合都被视为本公开的发明主题的一部分。
结合附图从下面的描述中可以更加全面地理解本发明教导的前述和其他方面、实施例和特征。本发明的其他附加方面例如示例性实施方式的特征和/或有益效果将在下面的描述中显见,或通过根据本发明教导的具体实施方式的实践中得知。
附图说明
附图不意在按比例绘制。在附图中,在各个图中示出的每个相同或近似相同的组成部分可以用相同的标号表示。为了清晰起见,在每个图中,并非每个组成部分均被标记。现在,将通过例子并参考附图来描述本发明的各个方面的实施例,其中:
图1是根据本发明某些实施例的基于混合网格分层聚类的集群通信终端轨迹实时异常轨迹检测方法的流程示意图。
图2是根据本发明某些实施例的GPS轨迹构建网格序列示例示意图。
图3是根据本发明某些实施例的网格尺寸与热点区域个数的关系曲线示意图。
图4是根据本发明某些实施例的网格尺寸与轨迹数据覆盖率的关系曲线示意图。
图5是根据本发明某些实施例的分层聚类树状图。
图6是根据本发明某些实施例的异常轨迹可视化结果示意图。
图7是移动定位终端与服务调度中心之间经过集群通信网络进行通信的示意图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
在本公开中参照附图来描述本发明的各方面,附图中示出了许多说明的实施例。本公开的实施例不必定意在包括本发明的所有方面。应当理解,上面介绍的多种构思和实施例,以及下面更加详细地描述的那些构思和实施方式可以以很多方式中任意一种来实施,这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外,本发明公开的一些方面可以单独使用,或者与本发明公开的其他方面的任何适当组合来使用。
结合图1所示,根据本发明的实施例,一种基于混合网格分层聚类的集群通信终端轨迹实时异常检测方法,包括以下步骤:步骤1、构建基于网格的轨迹,确定最优网格大小;步骤2、计算Hausdroff距离矩阵,即利用Hausdroff距离公式计算基于网格的轨迹集中所有轨迹之间的距离,生成轨迹集的距离矩阵M;步骤3、分层聚类,即在轨迹集的Hausdroff距离矩阵的基础上应用自下而上的凝聚分层聚类算法,实现大规模轨迹的正常与异常轨迹的分类;步骤4、异常检测方法评估反馈,利用上述步骤1~3的方法,对已经有轨迹分类标识的轨迹集的进行异常轨迹检测,得到异常分类结果,并与真实分类情况进行对比,评估步骤1、3中的参数是否合理,并作出反馈。
上述方案的检测方法,基于集群通信系统中移动终端的轨迹数据,利用数据挖掘技术发现终端异常轨迹的时空特点,并以此为依据实现对大规模轨迹数据的异常检测,实现对异常事件的在线实时检测,提高集群通信系统的上层调度指挥效率。
我们在以下内容中对前述步骤1-步骤4的实现做具体的说明。
步骤1、构建基于网格的轨迹,确定最优网格大小
传统分层聚类算法需要轨迹之间两两比较距离,假设轨迹数据规模为N,那么整个聚类算法的时间复杂度O(N2)。
为了克服传统算法的缺点,同时避免路网结构、地图匹配等因素的限制,本例中提出一种基于网格的聚类算法。该算法将整个目标区域划分为若干个小网格区域,并将终端移动轨迹映射为网格序列。
给定一条GPS轨迹数据T=<(p1,t1),...,(pi,ti),...(pn,tn)>、一个网格分割结构和网格容量阈值MinPts,一个基于网格的轨迹定义为G=<(g1,t′1),...,(gj,t′j),...(gm,t′m)>,其中gj={(pa,ta),...,(pe,te)},t'j=ta,网格容量满足gj≥MinPts。
对于目标区域中一个轨迹点p(lat,lng),该轨迹点对应的网格编号(t,s)由如下计算可得:
其中,latmax和lngmax分别是目标区域经纬度坐标轴上的最大值;latmin和lngmin分别是目标区域经纬度坐标轴上的最小值;nlat和nlng分别是经纬度坐标轴上的网格数。
不同的网格分割结构会对接下来的异常检测算法性能产生重要的影响。小的网格更能还原原始GPS轨迹的移动特性,但同时会使异常检测算法的时间复杂度大大增加;大的网格可以降低异常检测算法的时间复杂度,但由于网格粒度过大会丧失原始的移动特性。
因此,本发明在保持原始轨迹移动特性和算法时间复杂度之间做了权衡,获得最优的网格分割结构。
步骤2、计算Hausdroff距离矩阵
利用Hausdroff距离公式计算基于网格的轨迹集中所有轨迹之间的距离,生成轨迹集的距离矩阵M。
任意两条基于网格的轨迹之间的无向Hausdroff距离如下:
其中d(p,q)是haversine公式,如下:
d=2Rarcsin(h)
其中:φp、φq和λp、λq分别是GPS轨迹点的经纬度,R=6371km是地球的近似半径。
步骤3、网格轨迹凝聚分层聚类
在轨迹集的Hausdroff距离矩阵的基础上应用自下而上的凝聚分层聚类算法,实现大规模轨迹的正常与异常轨迹的分类。
具体地,分层聚类的过程包括:初始,将每条轨迹分配在不同的簇中,然后根据最大距离连接度量准则,逐步将相似轨迹合并到同一个簇中。簇合并过程反复进行,直到所有轨迹最终合并形成一个大簇。
使用聚类树状图的树形结构实现对层次聚类过程的可视化,并且实现最优轨迹分类距离阈值的确定。
本发明中,异常轨迹被定义为与绝大多数轨迹远离的小部分轨迹。因此,我们将远离绝大多数轨迹簇的轨迹簇中的轨迹判定为异常轨迹,不同的轨迹集需要根据聚类树状图确定合适的分类距离阈值。
步骤4、异常检测方法评估反馈
利用上述步骤1~3的方法,对已经有轨迹分类标识的轨迹集的进行异常轨迹检测,得到算法计算出来的异常分类结果,与真实分类情况进行对比。在本发明中,运用机器学习中常用的评价标准混淆矩阵、精确度、召回率、F分数,评估步骤1、3中模型参数是否合理,并作出正确的反馈,优化异常轨迹算法的正确性和鲁棒性。
下面结合附图1-附图6所示,更加具体地描述前述各个步骤的示例性实现。
步骤1:
将整个目标区域划分为若干个小网格区域,并将终端GPS轨迹映射为网格序列,如图2所示。
对于目标区域中一个轨迹点p(lat,lng),该轨迹点对应的网格编号(t,s)由如下计算可得:
其中,latmax和lngmax分别是目标区域经纬度坐标轴上的最大值;latmin和lngmin分别是目标区域经纬度坐标轴上的最小值;nlat和nlng分别是经纬度坐标轴上的网格数。
定义网格中包含GPS轨迹点的个数为网格容量,保留满足网格容量大于MinPts的网格称为热点区域,由热点区域组成网格序列。定义网格序列中包含的GPS轨迹点数占原始GPS轨迹点总数的比率为轨迹数据覆盖率。不同的网格尺寸下的网格分割结构会导致热点区域个数和轨迹数据覆盖率的变化。根据计算网格尺寸与热点区域、轨迹数据覆盖率的关系曲线,最佳网格尺寸可以定为0.6×10-3度。在网格尺寸确定为0.6×10-3度的条件下,将G原始GPS轨迹转换为网格序列,如图3、图4所示。
步骤2:
在步骤1计算得到的网格序列集上,运用Hausdroff距离公式计算基于网格的轨迹集中所有轨迹之间的距离,生成轨迹集的距离矩阵M。任意两条基于网格的轨迹之间的无向Hausdroff距离如下:
其中d(p,q)是haversine公式,如下:
d=2Rarcsin(h)
其中:φp、φq和λp、λq分别是GPS轨迹点的经纬度,R=6371km是地球的近似半径。
表1网格序列的Hausdroff距离矩阵
1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | |
1 | 0 | 1.5811 | 3.1066 | 1.1344 | 1.363 | 0.6824 | 1.2262 | 1.1411 | 0.8573 | 1.4444 |
2 | 1.5811 | 0 | 3.4497 | 1.236 | 1.4106 | 1.2801 | 1.0298 | 0.9999 | 1.1403 | 1.4069 |
3 | 3.1066 | 3.4497 | 0 | 3.2205 | 3.3087 | 2.7455 | 3.2574 | 3.2165 | 2.8379 | 3.3969 |
4 | 1.1344 | 1.236 | 3.2205 | 0 | 1.4644 | 0.1969 | 0.4931 | 0.2951 | 0.4212 | 1.4627 |
5 | 1.363 | 1.4106 | 3.3087 | 1.4644 | 0 | 1.7919 | 1.6798 | 0.4429 | 1.7224 | 0.1976 |
6 | 0.6824 | 1.2801 | 2.7455 | 0.1969 | 1.7919 | 0 | 0.7664 | 0.7664 | 0.5844 | 1.7838 |
7 | 1.2262 | 1.0298 | 3.2574 | 0.4931 | 1.6798 | 0.7664 | 0 | 0 | 0.4751 | 1.6585 |
8 | 1.1411 | 0.9999 | 3.2165 | 0.2951 | 0.4429 | 0.7664 | 0 | 0 | 0.4751 | 0.8764 |
9 | 0.8573 | 1.1403 | 2.8379 | 0.4212 | 1.7224 | 0.5844 | 0.4751 | 0.4751 | 0 | 1.715 |
10 | 1.4444 | 1.4069 | 3.3969 | 1.4627 | 0.1976 | 1.7838 | 1.6735 | 0.8764 | 1.715 | 0 |
步骤3:
凝聚分层聚类,轨迹类阈值设定
在轨迹集的Hausdroff距离矩阵的基础上应用自下而上的凝聚分层聚类算法,实现大规模轨迹的正常与异常轨迹的分类。初始,算法将每条轨迹分配在不同的簇中,然后根据最大距离连接度量准则,逐步将相似轨迹合并到同一个簇中。簇合并过程反复进行,直到所有轨迹最终合并形成一个大簇。使用聚类树状图的树形结构实现对层次聚类过程的可视化,并且实现最优轨迹分类距离阈值的确定,如图5所示为分层聚类树状图的示例。本发明中,异常轨迹被定义为与绝不多数轨迹远离的小部分轨迹。因此,我们将远离绝不多数轨迹簇的轨迹簇中轨迹判定为异常轨迹,不同的轨迹集需要根据聚类树状图确定合适的分类距离阈值。
根据示例树状图中的聚类结果,轨迹3位于远离其他轨迹的簇中,因此轨迹3被标记为异常轨迹,如图6所示。
步骤4:
异常检测方法评估反馈
利用上述步骤1~3的方法,对已经有轨迹分类标识的轨迹集的进行异常轨迹检测,得到算法计算出来的异常分类结果,与真实分类情况进行对比。在本发明中,运用机器学习中常用的评价标准混淆矩阵、精确度、召回率、F分数,评估步骤1、3中模型参数是否合理,并作出正确的反馈,优化异常轨迹算法的正确性和鲁棒性。
表2异常轨迹检测算法性能测试
轨迹簇的距离/km | 真正例 | 真负例 | 假正例 | 假负例 | 精确值 | 召回率 | F分数 |
1 | 40 | 10 | 5 | 25 | 0.89 | 0.62 | 0.73 |
2 | 44 | 9 | 6 | 21 | 0.88 | 0.68 | 0.77 |
3 | 53 | 6 | 9 | 12 | 0.85 | 0.82 | 0.83 |
4 | 56 | 4 | 11 | 9 | 0.84 | 0.86 | 0.85 |
5 | 60 | 2 | 13 | 5 | 0.82 | 0.92 | 0.87 |
结合图1、图7所示,根据本公开,还提出一种基于混合网格分层聚类的集群通信终端轨迹实时异常轨迹检测系统,该系统包括:服务调度中心、集群通信网络和移动定位终端。
移动定位终端与服务调度中心之间经过集群通信网络进行通信。
移动定位终端包括数据终端、车载终端、单模终端。
服务调度中心包括:
轨迹文件数据库服务器,用于存储所有移动定位终端上传的位置信息;
异常轨迹检测程序服务器,用于移动定位终端的异常轨迹检测,优化集群通信的系统调度;
可视化Web服务器,用于动态展示终端的历史轨迹,并将异常轨迹检测程序服务器计算得到的终端异常轨迹显示在地图上。
轨迹分析程序服务器包括:
网格轨迹构建模块,用于将整个目标区域划分为若干个小网格区域,并将终端移动轨迹映射为网格序列。给定一条GPS轨迹数据T=<(p1,t1),...,(pi,ti),...(pn,tn)>和一个网格分割结构,一个基于网格的轨迹定义为G=<(g1,t′1),...,(gj,t'j),...(gm,t'm)>,其中gj={(pa,ta),...,(pe,te)},t'j=ta。
对于目标区域中一个轨迹点p(lat,lng),该轨迹点对应的网格编号(t,s)由如下计算可得:
其中,latmax和lngmax分别是目标区域经纬度坐标轴上的最大值;latmin和lngmin分别是目标区域经纬度坐标轴上的最小值;nlat和nlng分别是经纬度坐标轴上的网格数。不同的网格分割结构会对接下来的异常检测算法性能产生重要的影响。小的网格更能还原原始GPS轨迹的移动特性,但同时会使异常检测算法的时间复杂度大大增加;大的网格可以降低异常检测算法的时间复杂度,但由于网格粒度过大会丧失原始的移动特性。因此,本发明在保持原始轨迹移动特性和算法时间复杂度之间做了权衡,获得最优的网格分割结构。
Hausdroff距离矩阵计算模块,利用Hausdroff距离公式计算基于网格的轨迹集中所有轨迹之间的距离,生成轨迹集的距离矩阵M。任意两条基于网格的轨迹之间的无向Hausdroff距离如下:
其中d(p,q)是haversine公式,如下:
d=2Rarcsin(h)
其中:φp、φq和λp、λq分别是GPS轨迹点的经纬度,R=6371km是地球的近似半径。
网格轨迹凝聚分层聚类模块,初始,算法将每条轨迹分配在不同的簇中,然后根据最大距离连接度量准则,逐步将相似轨迹合并到同一个簇中。簇合并过程反复进行,直到所有轨迹最终合并形成一个大簇。使用聚类树状图的树形结构实现对层次聚类过程的可视化,并且实现最优轨迹分类距离阈值的确定。本发明中,异常轨迹被定义为与绝不多数轨迹远离的小部分轨迹。因此,我们将远离绝不多数轨迹簇的轨迹簇中轨迹判定为异常轨迹,不同的轨迹集需要根据聚类树状图确定合适的分类距离阈值。
异常检测评估反馈模块,利用上述三个模块,对已经有轨迹分类标识的轨迹集的进行异常轨迹检测,得到算法计算出来的异常分类结果,与真实分类情况进行对比。在本发明中,运用机器学习中常用的评价标准混淆矩阵、精确度、召回率、F分数,评估评估网格轨迹构建模块、网格轨迹凝聚分层聚类模块中模型参数是否合理,并作出正确的反馈,优化异常轨迹算法的正确性和鲁棒性。
虽然本发明已以较佳实施例揭露如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。
Claims (6)
1.一种基于混合网格分层聚类的集群通信终端轨迹实时异常检测方法,其特征在于,包括以下步骤:
步骤1、构建基于网格的轨迹,确定最优网格大小;
步骤2、计算Hausdroff距离矩阵,即利用Hausdroff距离公式计算基于网格的轨迹集中所有轨迹之间的距离,生成轨迹集的距离矩阵M;
步骤3、分层聚类,即在轨迹集的Hausdroff距离矩阵的基础上应用自下而上的凝聚分层聚类算法,实现大规模轨迹的正常与异常轨迹的分类;
步骤4、异常检测方法评估反馈,利用上述步骤1~3的方法,对已经有轨迹分类标识的轨迹集的进行异常轨迹检测,得到异常分类结果,并与真实分类情况进行对比,评估步骤1、3中模型参数是否合理,并作出反馈。
2.根据权利要求1所述的基于混合网格分层聚类的集群通信终端轨迹实时异常检测方法,其特征在于,所述步骤1的具体实现包括以下步骤:
将整个目标区域划分为若干个小网格区域,并将终端移动轨迹映射为网格序列;给定一条GPS轨迹数据T=<(p1,t1),...,(pi,ti),...(pn,tn)>,其中pi是经纬度坐标值(lati,lngi),ti是时间戳,n是轨迹点的数目,一个网格分割结构和网格容量阈值MinPts,一个基于网格的轨迹定义为G=<(g1,t′1),...,(gj,t′j),...(gm,t′m)>,其中gj={(pa,ta),...,(pe,te)}表示一个网格,t′j=ta表示用第一个到达网格gj的轨迹点的时间戳ta作为到达网格gj的时间戳,(pa,ta),...,(pe,te)表示落在网格gj内的轨迹点,m是网格轨迹的网格数目,网格容量满足gj≥MinPts;
对于目标区域中一个轨迹点p(lat,lng),lat和lng分别是该轨迹点的经纬度值,该轨迹点对应的网格编号(t,s)由如下计算得到:
其中,latmax和lngmax分别是目标区域经纬度坐标轴上的最大值;latmin和lngmin分别是目标区域经纬度坐标轴上的最小值;nlat和nlng分别是经纬度坐标轴上的网格数。
3.根据权利要求2所述的基于混合网格分层聚类的集群通信终端轨迹实时异常检测方法,其特征在于,所述步骤2中,任意两条基于网格的轨迹P和Q之间的无向Hausdroff距离如下:
其中任意两个网格p和q之间的距离d(p,q)是由haversine公式决定,如下:
d=2Rarcsin(h)
其中:φp、φq和λp、λq分别是p和q两个GPS轨迹点的纬度和经度,R=6371km是地球的近似半径。
4.根据权利要求3所述的基于混合网格分层聚类的集群通信终端轨迹实时异常检测方法,其特征在于,所述步骤3中,分层聚类的过程具体包括:
初始,将每条轨迹分配在不同的簇中,然后根据最大距离连接度量准则,逐步将相似轨迹合并到同一个簇中;
簇的合并过程反复进行,直到所有轨迹最终合并形成一个大簇;
其中,使用聚类树状图的树形结构实现对层次聚类过程的可视化,实现最优轨迹分类距离阈值的确定;并且将异常轨迹定义为与绝大多数轨迹远离的小部分轨迹,因此将远离绝大多数轨迹簇的轨迹簇中的轨迹判定为异常轨迹,不同的轨迹集根据聚类树状图确定分类距离阈值。
5.根据权利要求4所述的基于混合网格分层聚类的集群通信终端轨迹实时异常检测方法,其特征在于,所述步骤4的异常检测方法评估反馈的实现具体包括:
利用上述步骤1~3的方法,对已经有轨迹分类标识的轨迹集的进行异常轨迹检测,得到算法计算出来的异常分类结果,与真实分类情况进行对比,并运用机器学习中常用的评价标准混淆矩阵、精确度、召回率以及F分数,评估步骤1、3中模型参数是否合理,并作出反馈,优化异常轨迹算法的正确性和鲁棒性。
6.一种基于混合网格分层聚类的集群通信终端轨迹实时异常轨迹检测系统,其特征在于,该系统包括:服务调度中心、集群通信网络和移动定位终端;其中:
移动定位终端与服务调度中心之间经过集群通信网络进行通信;
服务调度中心包括:
轨迹文件数据库服务器,用于存储所有移动定位终端上传的位置信息;
异常轨迹检测程序服务器,用于移动定位终端的异常轨迹检测,优化集群通信的系统调度;以及
可视化Web服务器,用于动态展示终端的历史轨迹,并将异常轨迹检测程序服务器计算得到的终端异常轨迹显示在地图上;
轨迹分析程序服务器包括:
网格轨迹构建模块,用于将整个目标区域划分为若干个小网格区域,并将终端移动轨迹映射为网格序列,其中,给定一条GPS轨迹数据T=<(p1,t1),...,(pi,ti),...(pn,tn)>,其中pi是经纬度坐标值(lati,lngi),ti是时间戳,n是轨迹点的数目,一个网格分割结构和网格容量阈值MinPts,一个基于网格的轨迹定义为G=<(g1,t′1),...,(gj,t′j),...(gm,t′m)>,其中gj={(pa,ta),...,(pe,te)}表示一个网格,t′j=ta表示用第一个到达网格gj的轨迹点的时间戳ta作为到达网格gj的时间戳,(pa,ta),...,(pe,te)表示落在网格gj内的轨迹点,m是网格轨迹的网格数目,网格容量满足gj≥MinPts;
对于目标区域中一个轨迹点p(lat,lng),lat和lng分别是该轨迹点的经纬度值,该轨迹点对应的网格编号(t,s)由如下计算得到:
其中,latmax和lngmax分别是目标区域经纬度坐标轴上的最大值;latmin和lngmin分别是目标区域经纬度坐标轴上的最小值;nlat和nlng分别是经纬度坐标轴上的网格数;
Hausdroff距离矩阵计算模块,用于利用Hausdroff距离公式计算基于网格的轨迹集中所有轨迹之间的距离,生成轨迹集的距离矩阵M,其中任意两条基于网格的轨迹P和Q之间的无向Hausdroff距离如下:
其中任意两个网格p和q之间的距离d(p,q)是haversine公式,如下:
d=2Rarcsin(h)
其中:φp、φq和λp、λq分别是p和q两个GPS轨迹点的纬度和经度,R=6371km是地球的近似半径;
网格轨迹凝聚分层聚类模块,用于分层聚类,即在轨迹集的Hausdroff距离矩阵的基础上应用自下而上的凝聚分层聚类算法,实现大规模轨迹的正常与异常轨迹的分类,其具体配置成按照下述方式进行聚类:初始,将每条轨迹分配在不同的簇中,然后根据最大距离连接度量准则,逐步将相似轨迹合并到同一个簇中;簇的合并过程反复进行,直到所有轨迹最终合并形成一个大簇;其中,使用聚类树状图的树形结构实现对层次聚类过程的可视化,实现最优轨迹分类距离阈值的确定;并且将异常轨迹定义为与绝大多数轨迹远离的小部分轨迹,因此将远离绝大多数轨迹簇的轨迹簇中的轨迹判定为异常轨迹,不同的轨迹集根据聚类树状图确定分类距离阈值;
异常检测评估反馈模块,用于利用上述网格轨迹构建模块、Hausdroff距离矩阵计算模块以及网格轨迹凝聚分层聚类模块,对已经有轨迹分类标识的轨迹集的进行异常轨迹检测,得到异常分类结果,并与真实分类情况进行对比,评估网格轨迹构建模块、网格轨迹凝聚分层聚类模块中模型参数是否合理,并作出反馈。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610299087.6A CN105825242B (zh) | 2016-05-06 | 2016-05-06 | 基于混合网格分层聚类的集群通信终端轨迹实时异常检测方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610299087.6A CN105825242B (zh) | 2016-05-06 | 2016-05-06 | 基于混合网格分层聚类的集群通信终端轨迹实时异常检测方法与系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105825242A true CN105825242A (zh) | 2016-08-03 |
CN105825242B CN105825242B (zh) | 2019-08-27 |
Family
ID=56528329
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610299087.6A Active CN105825242B (zh) | 2016-05-06 | 2016-05-06 | 基于混合网格分层聚类的集群通信终端轨迹实时异常检测方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105825242B (zh) |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133971A (zh) * | 2017-04-19 | 2017-09-05 | 南京邮电大学 | 一种基于网络节点能量传递的人物异常轨迹检测方法 |
CN107967493A (zh) * | 2017-12-18 | 2018-04-27 | 广州汇智通信技术有限公司 | 一种人车伴随的判定方法、系统及相关装置 |
CN108717510A (zh) * | 2018-05-11 | 2018-10-30 | 深圳市联软科技股份有限公司 | 一种通过聚类分析文件异常操作行为的方法、系统及终端 |
CN109218985A (zh) * | 2018-08-08 | 2019-01-15 | 上海中交水运设计研究有限公司 | 一种基于模式相似度的船舶作业行为异常检测方法及系统 |
CN109255315A (zh) * | 2018-08-30 | 2019-01-22 | 跨越速运集团有限公司 | 一种出车途中人车分离判断方法及装置 |
CN109308548A (zh) * | 2018-09-12 | 2019-02-05 | 中科绿建(天津)科技发展有限公司 | 一种基于网格预测的设备安全管理方法及系统 |
CN109544914A (zh) * | 2018-11-09 | 2019-03-29 | 西南交通大学 | 一种基于历史gps轨迹的共享单车逆行行为识别方法 |
CN109977109A (zh) * | 2019-04-03 | 2019-07-05 | 深圳市甲易科技有限公司 | 一种轨迹数据清洗方法及伴随分析方法 |
CN110211204A (zh) * | 2018-03-06 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 一种确定道路任务包的方法、装置及存储介质 |
CN110490264A (zh) * | 2019-08-23 | 2019-11-22 | 中国民航大学 | 基于时间序列的多维距离聚类异常检测方法及系统 |
CN111447564A (zh) * | 2020-03-27 | 2020-07-24 | 山西大学 | 一种基于概率的基站位置异常检测及重定位方法 |
CN111542792A (zh) * | 2018-03-01 | 2020-08-14 | 株式会社日立制作所 | 诊断装置和诊断方法 |
CN111753906A (zh) * | 2020-06-24 | 2020-10-09 | 中科三清科技有限公司 | 污染物传输轨迹的聚类方法、装置、电子设备及存储介质 |
CN112182133A (zh) * | 2020-09-29 | 2021-01-05 | 南京北斗创新应用科技研究院有限公司 | 一种基于ais数据的船舶徘徊检测方法 |
CN112288029A (zh) * | 2020-11-06 | 2021-01-29 | 电子科技大学 | 一种城市路网中车辆轨迹分类方法 |
CN113012047A (zh) * | 2021-03-26 | 2021-06-22 | 广州市赋安电子科技有限公司 | 动态摄像头坐标映射建立方法、装置及可读存储介质 |
CN113521750A (zh) * | 2021-07-15 | 2021-10-22 | 珠海金山网络游戏科技有限公司 | 异常账号检测模型训练方法和异常账号检测方法 |
CN114091630A (zh) * | 2022-01-24 | 2022-02-25 | 阿里巴巴达摩院(杭州)科技有限公司 | 获取目标对象移动轨迹信息的方法、装置及系统 |
CN114385765A (zh) * | 2021-12-03 | 2022-04-22 | 中交疏浚技术装备国家工程研究中心有限公司 | 一种基于航迹数据的耙吸挖泥船生产时间预估方法 |
CN116029736A (zh) * | 2023-01-05 | 2023-04-28 | 浙江警察学院 | 一种网约车异常轨迹实时检测和安全预警方法、系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101770516A (zh) * | 2010-01-12 | 2010-07-07 | 深圳先进技术研究院 | 挖掘热带气旋移动轨迹通道方法 |
CN103473540A (zh) * | 2013-09-11 | 2013-12-25 | 天津工业大学 | 智能交通系统车辆轨迹增量式建模与在线异常检测方法 |
-
2016
- 2016-05-06 CN CN201610299087.6A patent/CN105825242B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101770516A (zh) * | 2010-01-12 | 2010-07-07 | 深圳先进技术研究院 | 挖掘热带气旋移动轨迹通道方法 |
CN103473540A (zh) * | 2013-09-11 | 2013-12-25 | 天津工业大学 | 智能交通系统车辆轨迹增量式建模与在线异常检测方法 |
Non-Patent Citations (2)
Title |
---|
JINYANG CHEN.ETC: "Clustering of Trajectories Based on Hausdorff Distance", 《INTERNATIONAL CONFERENCE ON ELECTRONICS》 * |
JIUYUE HAO.ETC: "Trajectory Clustering based on Length Scale Directive Hausdorff", 《INTERNATIONAL IEEE CONFERENCE ON INTELLIGENT TRANSPORTATION SYSTEMS》 * |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133971A (zh) * | 2017-04-19 | 2017-09-05 | 南京邮电大学 | 一种基于网络节点能量传递的人物异常轨迹检测方法 |
CN107133971B (zh) * | 2017-04-19 | 2019-12-10 | 南京邮电大学 | 一种基于网络节点能量传递的人物异常轨迹检测方法 |
CN107967493A (zh) * | 2017-12-18 | 2018-04-27 | 广州汇智通信技术有限公司 | 一种人车伴随的判定方法、系统及相关装置 |
CN111542792A (zh) * | 2018-03-01 | 2020-08-14 | 株式会社日立制作所 | 诊断装置和诊断方法 |
CN110211204A (zh) * | 2018-03-06 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 一种确定道路任务包的方法、装置及存储介质 |
CN108717510A (zh) * | 2018-05-11 | 2018-10-30 | 深圳市联软科技股份有限公司 | 一种通过聚类分析文件异常操作行为的方法、系统及终端 |
CN109218985A (zh) * | 2018-08-08 | 2019-01-15 | 上海中交水运设计研究有限公司 | 一种基于模式相似度的船舶作业行为异常检测方法及系统 |
CN109218985B (zh) * | 2018-08-08 | 2020-09-22 | 上海中交水运设计研究有限公司 | 一种基于模式相似度的船舶作业行为异常检测方法及系统 |
CN109255315A (zh) * | 2018-08-30 | 2019-01-22 | 跨越速运集团有限公司 | 一种出车途中人车分离判断方法及装置 |
CN109308548A (zh) * | 2018-09-12 | 2019-02-05 | 中科绿建(天津)科技发展有限公司 | 一种基于网格预测的设备安全管理方法及系统 |
CN109308548B (zh) * | 2018-09-12 | 2021-01-26 | 中科绿建(天津)科技发展有限公司 | 一种基于网格预测的设备安全管理方法及系统 |
CN109544914A (zh) * | 2018-11-09 | 2019-03-29 | 西南交通大学 | 一种基于历史gps轨迹的共享单车逆行行为识别方法 |
CN109977109A (zh) * | 2019-04-03 | 2019-07-05 | 深圳市甲易科技有限公司 | 一种轨迹数据清洗方法及伴随分析方法 |
CN110490264A (zh) * | 2019-08-23 | 2019-11-22 | 中国民航大学 | 基于时间序列的多维距离聚类异常检测方法及系统 |
CN111447564B (zh) * | 2020-03-27 | 2021-05-14 | 山西大学 | 一种基于概率的基站位置异常检测及重定位方法 |
CN111447564A (zh) * | 2020-03-27 | 2020-07-24 | 山西大学 | 一种基于概率的基站位置异常检测及重定位方法 |
CN111753906A (zh) * | 2020-06-24 | 2020-10-09 | 中科三清科技有限公司 | 污染物传输轨迹的聚类方法、装置、电子设备及存储介质 |
CN112182133A (zh) * | 2020-09-29 | 2021-01-05 | 南京北斗创新应用科技研究院有限公司 | 一种基于ais数据的船舶徘徊检测方法 |
US20220171796A1 (en) * | 2020-09-29 | 2022-06-02 | Nanjing Beidou Innovation and Application Technology Research Institute Co., Ltd. | Ship wandering detection method based on ais data |
CN112288029A (zh) * | 2020-11-06 | 2021-01-29 | 电子科技大学 | 一种城市路网中车辆轨迹分类方法 |
CN113012047A (zh) * | 2021-03-26 | 2021-06-22 | 广州市赋安电子科技有限公司 | 动态摄像头坐标映射建立方法、装置及可读存储介质 |
CN113521750A (zh) * | 2021-07-15 | 2021-10-22 | 珠海金山网络游戏科技有限公司 | 异常账号检测模型训练方法和异常账号检测方法 |
CN113521750B (zh) * | 2021-07-15 | 2023-10-24 | 珠海金山数字网络科技有限公司 | 异常账号检测模型训练方法和异常账号检测方法 |
CN114385765A (zh) * | 2021-12-03 | 2022-04-22 | 中交疏浚技术装备国家工程研究中心有限公司 | 一种基于航迹数据的耙吸挖泥船生产时间预估方法 |
CN114091630A (zh) * | 2022-01-24 | 2022-02-25 | 阿里巴巴达摩院(杭州)科技有限公司 | 获取目标对象移动轨迹信息的方法、装置及系统 |
CN116029736A (zh) * | 2023-01-05 | 2023-04-28 | 浙江警察学院 | 一种网约车异常轨迹实时检测和安全预警方法、系统 |
CN116029736B (zh) * | 2023-01-05 | 2023-09-29 | 浙江警察学院 | 一种网约车异常轨迹实时检测和安全预警方法、系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105825242B (zh) | 2019-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105825242A (zh) | 基于混合网格分层聚类的集群通信终端轨迹实时异常检测方法与系统 | |
Liu et al. | Exploring data validity in transportation systems for smart cities | |
Chen et al. | Dynamic cluster-based over-demand prediction in bike sharing systems | |
Zhan et al. | Inferring urban land use using large-scale social media check-in data | |
CN103116696B (zh) | 基于稀疏采样的手机定位数据的人员常驻地点识别方法 | |
Jin et al. | Location-based social networking data: exploration into use of doubly constrained gravity model for origin–destination estimation | |
CN109688532B (zh) | 一种划分城市功能区域的方法及装置 | |
CN105206048A (zh) | 一种基于交通od数据的城市居民群体换乘模式发现系统及方法 | |
Kim | Identifying the structure of cities by clustering using a new similarity measure based on smart card data | |
CN110414732A (zh) | 一种出行未来轨迹预测方法、装置、储存介质及电子设备 | |
CN105718465A (zh) | 地理围栏生成方法及装置 | |
CN105243844A (zh) | 一种基于手机信令的道路状态识别方法 | |
CN104778263A (zh) | 一种电动车充电站系统仿真数据挖掘方法 | |
Behara et al. | A novel methodology to assimilate sub-path flows in bi-level OD matrix estimation process | |
CN105788263A (zh) | 一种通过手机信息预测道路拥堵的方法 | |
CN110413855B (zh) | 一种基于出租车下客点的区域出入口动态提取方法 | |
Sun et al. | Identifying tourists and locals by K-means clustering method from mobile phone signaling data | |
Chen et al. | An analysis of movement patterns between zones using taxi GPS data | |
Bachir et al. | Combining bayesian inference and clustering for transport mode detection from sparse and noisy geolocation data | |
Coscia et al. | Optimal spatial resolution for the analysis of human mobility | |
Yuan et al. | Recognition of functional areas based on call detail records and point of interest data | |
CN111191817B (zh) | 一种基于换乘客流量的公交线网拓扑划分方法 | |
Kong et al. | The method and application of big data mining for mobile trajectory of taxi based on MapReduce | |
Du et al. | Transit pattern detection using tensor factorization | |
Kinjarapu et al. | Applications of passive GPS data to characterize the movement of freight trucks—a case study in the Calgary region of Canada |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |