CN112988849A - 一种交通轨迹模式分布式挖掘方法 - Google Patents

一种交通轨迹模式分布式挖掘方法 Download PDF

Info

Publication number
CN112988849A
CN112988849A CN202110456546.8A CN202110456546A CN112988849A CN 112988849 A CN112988849 A CN 112988849A CN 202110456546 A CN202110456546 A CN 202110456546A CN 112988849 A CN112988849 A CN 112988849A
Authority
CN
China
Prior art keywords
track
cluster
distance
time
points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110456546.8A
Other languages
English (en)
Other versions
CN112988849B (zh
Inventor
佟路
田旺
曹先彬
杜文博
朱熙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHECC Data Co Ltd
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202110456546.8A priority Critical patent/CN112988849B/zh
Publication of CN112988849A publication Critical patent/CN112988849A/zh
Application granted granted Critical
Publication of CN112988849B publication Critical patent/CN112988849B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Remote Sensing (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Radar Systems Or Details Thereof (AREA)

Abstract

本发明提供一种交通轨迹模式分布式挖掘方法,接收实时航迹数据,并针对所考察的地理围栏内的航迹数据进行数据预处理和重采样,然后通过聚类分析对所有航迹进行模式识别。本发明的方法能够处理一定地理围栏范围内的航迹数据,在结合部分历史数据的信息下,对实时的航迹数据进行轨迹重建和模式识别。算法复杂度低,实时性强,结果动态响应及时,在面向流式大数据的挑战时,高效地分析航迹模式,为空管人员实时掌握航班运行情况,评估航班运行效率提供有力支持。

Description

一种交通轨迹模式分布式挖掘方法
技术领域
本发明属于大数据技术领域,尤其涉及一种交通轨迹模式分布式挖掘方法,具体地说,是指一种在流式大数据场景下,使用分布式技术,实时分析航迹模式的方法。
背景技术
随着中国民航运输体量的快速增长,空域资源愈发紧张,随之而来的空管压力也不断增大。与此同时,包括ADS-B,二次雷达等技术在内的航班运行监视手段的不断完善,为基于海量航迹数据的模式分析奠定了基础。从海量的航迹数据中分析辨识不同的航迹模式,可以支持空管部门对航班进行调控、评估航班的运行效率,进而提高空管自动化水平,优化空域运行效率。
但是,伴随着我国民用航空领域的蓬勃发展和相关通信监视手段的完善,航迹数据量也迎来了快速地增长。现有的航迹模式分析,多使用离线的航迹数据进行,虽然能够得到不同的航迹模式,但是不能满足空管系统对航迹模式进行实时分析的高级需求。同时,航迹大数据的出现也对计算性能和系统的健壮性提出了更高的要求,传统的基于单机或者简单集群的系统部署方式较难应对航迹这类流式大数据对计算吞吐量和实时性的挑战。
按照我国《民用航空使用空域办法》的规定,航路、航线地带和民用机场区域设置高空管制区、中低空管制区、终端(进近)管制区和机场塔台管制区。空管人员会关注相应空域内的航班运行情况,并为其提供服务。每一架航班的飞行轨迹由三维坐标和时间组成的时空序列来表示,而这些数据主要通过ADS-B或者二次雷达等监控手段获得。在一定空域运行规则的指导下,随着空域环境的变化,航班的航迹会呈现不同的航迹模式,具体的表现为航迹线会聚集形成不同的类簇。传统的航迹模式识别,主要基于历史数据进行分析,无法实时反映空域运行情况的变化,同时存在性能瓶颈,在面向海量航迹数据时,所需计算资源高。
发明内容
为了解决上述已有技术存在的不足,本发明针对航迹作为一种流式大数据的特点,设计了高效、实时、动态、分布式的航迹模式识别算法和系统,可以应对航迹的实时变化,并随之进行模式的更新,进而有效支撑空管决策的制定,反馈决策执行情况。本发明的具体技术方案如下:
一种交通轨迹模式分布式挖掘方法,包括以下步骤:
S1:获取航班的实时飞行数据;
使用消息队列,监听每一架航班,持续接收航班的轨迹点数据;轨迹点由
Figure 194142DEST_PATH_IMAGE001
表示,
Figure 382505DEST_PATH_IMAGE002
,其中,
Figure 484454DEST_PATH_IMAGE003
分别表示经度、维度、高度和时间,考虑到时间信息不参与后续计算,同时为了使轨迹的表示方式更具有一般性,将
Figure 381871DEST_PATH_IMAGE001
转换为一个
Figure 453732DEST_PATH_IMAGE004
的矩阵,表示一个三维空间上的点,即
Figure 769307DEST_PATH_IMAGE005
Figure 527310DEST_PATH_IMAGE006
则用于判断一条轨迹中轨迹点的顺序;
S2:获取需要考察的地理围栏,筛选所查询地理围栏范围内的实时轨迹点记录,使用带有空间地理数据处理能力的对象-关系型数据库检索1-30天内此地理围栏内所有的轨迹点记录,并计算平均每条轨迹所包含的轨迹点记录数量,记为
Figure 193915DEST_PATH_IMAGE007
使用地理信息系统工具软件即GIS工具软件对实时接入的轨迹点进行筛选,获取实时轨迹在所考察地理围栏内的记录,并保持跟踪,直到轨迹点超出所考察地理围栏,停止跟踪;
回溯实时轨迹,截取所考察地理围栏范围内的轨迹点记录,组成一条原始轨迹
Figure 69467DEST_PATH_IMAGE008
,对于包含有
Figure 488816DEST_PATH_IMAGE009
个轨迹点的轨迹,将其转换为一个
Figure 666987DEST_PATH_IMAGE010
的矩阵,即
Figure 306041DEST_PATH_IMAGE011
Figure 985284DEST_PATH_IMAGE012
分别为
Figure 9872DEST_PATH_IMAGE008
中的第1个至第
Figure 873792DEST_PATH_IMAGE009
个轨迹点;时间较早的轨迹点在矩阵
Figure 249409DEST_PATH_IMAGE008
中的行序号更低;
S3;对步骤S2中产生的每一条原始轨迹
Figure 92863DEST_PATH_IMAGE008
进行等距重采样,采样规则为:保留端点的两个轨迹点,对其余中间的
Figure 362170DEST_PATH_IMAGE013
个轨迹点使用线性插值法进行等距重采样到
Figure 882144DEST_PATH_IMAGE014
个轨迹点;最终,经过数据预处理的轨迹均包含
Figure 463167DEST_PATH_IMAGE007
个轨迹点,且一条轨迹中的每段长度均相等;经过数据后的轨迹表示为一个
Figure 484213DEST_PATH_IMAGE015
的矩阵
Figure 483393DEST_PATH_IMAGE016
Figure 456159DEST_PATH_IMAGE017
表示数据预处理后的轨迹矩阵;
S4:初始化类簇,并设定聚类阈值
Figure 540790DEST_PATH_IMAGE018
使用
Figure 224581DEST_PATH_IMAGE019
表示一个类簇,且
Figure 202901DEST_PATH_IMAGE020
,其中,
Figure 330257DEST_PATH_IMAGE021
表示类簇
Figure 652916DEST_PATH_IMAGE022
包含的轨迹序列
Figure 891131DEST_PATH_IMAGE023
Figure 723958DEST_PATH_IMAGE024
分别为类簇中包含的第1条至第
Figure 271483DEST_PATH_IMAGE025
条轨迹;
Figure 330705DEST_PATH_IMAGE026
为一个
Figure 857764DEST_PATH_IMAGE015
矩阵,为
Figure 810677DEST_PATH_IMAGE021
中所有表示轨迹的矩阵之和,即
Figure 279835DEST_PATH_IMAGE027
Figure 810042DEST_PATH_IMAGE028
为当前类簇
Figure 921218DEST_PATH_IMAGE021
包含的轨迹条数;用
Figure 354736DEST_PATH_IMAGE029
表示类簇
Figure 119429DEST_PATH_IMAGE019
的中心线,显然
Figure 887665DEST_PATH_IMAGE030
为一个
Figure 255061DEST_PATH_IMAGE015
的矩阵;输入第一条轨迹完成聚类的初始化;
S5:对于每一条新的轨迹,使用分布式集群,多节点并行计算该轨迹与各类簇中心轨迹的距离,并以此作为当前轨迹与各类簇的距离,距离的计算方式采用对称最小平均距离法;
设已有类簇数量为
Figure 323512DEST_PATH_IMAGE031
,分别使用
Figure 885205DEST_PATH_IMAGE032
代表,则对应的类簇中心线表示为
Figure 265371DEST_PATH_IMAGE033
;对于每一条输入的新轨迹
Figure 187191DEST_PATH_IMAGE034
,并行计算其与每一条类簇中心线的距离;
具体来说,对于轨迹矩阵
Figure 93836DEST_PATH_IMAGE035
,定义其对称轨迹矩阵为
Figure 75698DEST_PATH_IMAGE036
;设有两条已经完成重采样的轨迹
Figure 943160DEST_PATH_IMAGE037
Figure 419403DEST_PATH_IMAGE038
分别表示重采样后轨迹
Figure 196866DEST_PATH_IMAGE039
包含的第1个轨迹点至第
Figure 598897DEST_PATH_IMAGE007
个轨迹点,
Figure 563442DEST_PATH_IMAGE040
Figure 217278DEST_PATH_IMAGE041
分别表示重采样后轨迹
Figure 68821DEST_PATH_IMAGE042
包含的第1个轨迹点至第
Figure 392486DEST_PATH_IMAGE007
个轨迹点,定义其对称最小平均距离
Figure 234540DEST_PATH_IMAGE043
Figure 551121DEST_PATH_IMAGE044
Figure 37597DEST_PATH_IMAGE045
Figure 548475DEST_PATH_IMAGE046
其中,
Figure 487612DEST_PATH_IMAGE047
表示空间中两个点的欧式距离,
Figure 952092DEST_PATH_IMAGE048
代表两条轨迹各轨迹点间一一对应距离的平均值,
Figure 807921DEST_PATH_IMAGE049
表示将其中一条轨迹进行颠倒后,再次一一计算对应轨迹点间的距离,并取平均值;最后,对称最小平均距离
Figure 738968DEST_PATH_IMAGE050
Figure 650554DEST_PATH_IMAGE048
Figure 449883DEST_PATH_IMAGE049
中较小的;
采用大数据中的MapReduce操作计算新轨迹
Figure 645372DEST_PATH_IMAGE034
到各已有聚类中心线的距离,Map操作表示将距离计算的过程在多个分布式节点上并行进行,Reduce操作归约所有距离中最小的一个,并设其所属的类簇序号为
Figure 731009DEST_PATH_IMAGE051
,最终获得最近类簇距离
Figure 644738DEST_PATH_IMAGE052
S6:判断与当前轨迹距离最近的类簇的距离和所设定的聚类阈值的大小,如果小于或等于聚类阈值,则将当前轨迹加入该距离最近的类簇,并更新类簇;如果大于聚类阈值,则将当前轨迹划分到新的类簇中,具体地:
如果
Figure 982179DEST_PATH_IMAGE053
,则将轨迹
Figure 782907DEST_PATH_IMAGE034
加入类簇
Figure 55756DEST_PATH_IMAGE054
,同时更新类簇信息;即如果
Figure 440470DEST_PATH_IMAGE055
,则将
Figure 581601DEST_PATH_IMAGE034
加入类簇
Figure 751683DEST_PATH_IMAGE054
的轨迹序列
Figure 680587DEST_PATH_IMAGE021
,并使
Figure 365646DEST_PATH_IMAGE056
;如果
Figure 169523DEST_PATH_IMAGE057
,则将
Figure 459690DEST_PATH_IMAGE058
加入类簇
Figure 559495DEST_PATH_IMAGE054
的轨迹序列
Figure 669534DEST_PATH_IMAGE021
,并使
Figure 886888DEST_PATH_IMAGE059
;最后,使
Figure 15250DEST_PATH_IMAGE060
如果
Figure 800804DEST_PATH_IMAGE061
,则表示轨迹
Figure 437887DEST_PATH_IMAGE034
无法被归类到现有的任何一个类簇中,将其添加至新类簇
Figure 458933DEST_PATH_IMAGE062
,此时,
Figure 458113DEST_PATH_IMAGE063
,已有类簇数量
Figure 663835DEST_PATH_IMAGE064
更新为
Figure 482887DEST_PATH_IMAGE065
进一步地,所述地理围栏是一个二维多边形、三维多面体或起止点对。
本发明的有益效果在于:
1.本发明所采用的对称最小平均距离,作为一种空间中轨迹点相似度的度量方法,较好地利用了航迹数据所带有的时序性,降低了轨迹间距离计算的复杂度。
2.本发明设计的航迹聚类算法,能够确保每一条航迹只被划入一个类簇一次,不用在新的航迹进入时,对所有已归类的航迹重新计算,由此实现了“累进式”聚类,进而可以跟踪航迹模式的动态演化。
3.本发明采用了流式大数据的处理思想,通过分布式,多节点并行化处理的方式,提升了系统的数据吞吐量,在面对海量流式航迹大数据的压力时,依然能够高效地完成分析计算,响应速度快,航迹模式实时性强。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图。其中:
图1为直接距离示例图;
图2为对称距离示例图;
图3为使用MapReduce方式计算新航迹到各聚类中心线的距离过程示例图;
图4为本发明的整体流程图;
图5为以西安进近区一天内航迹为例的模式挖掘结果图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
本发明设计了一种交通轨迹模式分布式挖掘方法,改进了轨迹间距离度量方式,运用流式大数据技术,优化聚类算法使其能充分利用分布式计算集群的性能,提高了算法的运行效率,并能满足实时性以及适应航迹模式动态演化的需求,可以极大地提升航迹模式分析在空管系统中的实用性,为空管人员监视空域正常运行,提升空域运行效率提供支撑。
具体地,如图4所示,一种交通轨迹模式分布式挖掘方法,包括以下步骤:
S1:获取航班的实时飞行数据;
使用消息队列,监听每一架航班,持续接收航班的轨迹点数据;轨迹点由
Figure 307623DEST_PATH_IMAGE001
表示,
Figure 912042DEST_PATH_IMAGE002
,其中,
Figure 773819DEST_PATH_IMAGE003
分别表示经度、维度、高度和时间,考虑到时间信息不参与后续计算,同时为了使轨迹的表示方式更具有一般性,将
Figure 860592DEST_PATH_IMAGE001
转换为一个
Figure 223441DEST_PATH_IMAGE004
的矩阵,表示一个三维空间上的点,即
Figure 931634DEST_PATH_IMAGE005
Figure 980623DEST_PATH_IMAGE006
则用于判断一条轨迹中轨迹点的顺序;
S2:获取需要考察的地理围栏,筛选所查询地理围栏范围内的实时轨迹点记录,使用带有空间地理数据处理能力的对象-关系型数据库检索1-30天内此地理围栏内所有的轨迹点记录,并计算平均每条轨迹所包含的轨迹点记录数量,记为
Figure 774267DEST_PATH_IMAGE007
使用地理信息系统工具软件即GIS工具软件对实时接入的轨迹点进行筛选,获取实时轨迹在所考察地理围栏内的记录,并保持跟踪,直到轨迹点超出所考察地理围栏,停止跟踪;
回溯实时轨迹,截取所考察地理围栏范围内的轨迹点记录,组成一条原始轨迹
Figure 940806DEST_PATH_IMAGE008
,对于包含有
Figure 18352DEST_PATH_IMAGE009
个轨迹点的轨迹,将其转换为一个
Figure 487511DEST_PATH_IMAGE010
的矩阵,即
Figure 519183DEST_PATH_IMAGE011
Figure 223834DEST_PATH_IMAGE012
分别为
Figure 906619DEST_PATH_IMAGE008
中的第1个至第
Figure 795947DEST_PATH_IMAGE009
个轨迹点;时间较早的轨迹点在矩阵
Figure 564183DEST_PATH_IMAGE008
中的行序号更低;
S3;对步骤S2中产生的每一条原始轨迹
Figure 72524DEST_PATH_IMAGE008
进行等距重采样,采样规则为:保留端点的两个轨迹点,对其余中间的
Figure 891707DEST_PATH_IMAGE013
个轨迹点使用线性插值法进行等距重采样到
Figure 702668DEST_PATH_IMAGE014
个轨迹点;最终,经过数据预处理的轨迹均包含
Figure 941888DEST_PATH_IMAGE007
个轨迹点,且一条轨迹中的每段长度均相等;经过数据后的轨迹表示为一个
Figure 988342DEST_PATH_IMAGE015
的矩阵
Figure 911298DEST_PATH_IMAGE016
Figure 378314DEST_PATH_IMAGE017
表示数据预处理后的轨迹矩阵;
S4:初始化类簇,并设定聚类阈值
Figure 121142DEST_PATH_IMAGE018
使用
Figure 95920DEST_PATH_IMAGE019
表示一个类簇,且
Figure 732438DEST_PATH_IMAGE020
,其中,
Figure 885202DEST_PATH_IMAGE021
表示类簇
Figure 866058DEST_PATH_IMAGE022
包含的轨迹序列
Figure 129681DEST_PATH_IMAGE023
Figure 886284DEST_PATH_IMAGE024
分别为类簇中包含的第1条至第
Figure 193637DEST_PATH_IMAGE025
条轨迹;
Figure 911058DEST_PATH_IMAGE026
为一个
Figure 729103DEST_PATH_IMAGE015
矩阵,为
Figure 340213DEST_PATH_IMAGE021
中所有表示轨迹的矩阵之和,即
Figure 834780DEST_PATH_IMAGE027
Figure 23184DEST_PATH_IMAGE028
为当前类簇
Figure 894188DEST_PATH_IMAGE021
包含的轨迹条数;用
Figure 359805DEST_PATH_IMAGE029
表示类簇
Figure 776005DEST_PATH_IMAGE019
的中心线,显然
Figure 202438DEST_PATH_IMAGE030
为一个
Figure 126401DEST_PATH_IMAGE015
的矩阵;输入第一条轨迹完成聚类的初始化;
S5:对于每一条新的轨迹,使用分布式集群,多节点并行计算该轨迹与各类簇中心轨迹的距离,并以此作为当前轨迹与各类簇的距离,距离的计算方式采用对称最小平均距离法;
设已有类簇数量为
Figure 180944DEST_PATH_IMAGE031
,分别使用
Figure 174570DEST_PATH_IMAGE032
代表,则对应的类簇中心线表示为
Figure 337567DEST_PATH_IMAGE033
;对于每一条输入的新轨迹
Figure 815953DEST_PATH_IMAGE034
,并行计算其与每一条类簇中心线的距离;
传统的轨迹距离计算方式诸如Hausdorff距离,通常忽略了轨迹的时序性,将两条轨迹仅仅是看作一堆点的集合,两条轨迹间的距离通过每一条轨迹中每一个点与另一条轨迹中每一个点的距离来定义,在轨迹所包含的轨迹点记录较多的情况下,计算复杂度将会很高。事实上,一条轨迹中的轨迹点具有一定的空间顺序,但是考虑到一般普适性,一条三维轨迹在空间中往往不具有方向性,也就是说缺少对于所谓轨迹“起点”的统一定义。对于具有时间信息的四维航迹而言,轨迹的方向可以通过时间来指定。但是,在航迹问题中,以终端区为例,进港航路和离港航路往往是可以对应的,这也就导致轨迹方向完全相反的两条航迹可能具有类似的航迹,为了避免将这样的两条航迹分类为两种不同的航迹模式,反而应摒弃由时间带来的方向性,更关注于轨迹本身的形状。
为此,本发明采用一种对称最小平均距离来计算轨迹间的距离。具体来说,对于轨迹矩阵
Figure 351102DEST_PATH_IMAGE066
,定义其对称轨迹矩阵为
Figure 748585DEST_PATH_IMAGE067
;设有两条已经完成重采样的轨迹
Figure 884032DEST_PATH_IMAGE037
Figure 149797DEST_PATH_IMAGE038
分别表示重采样后轨迹
Figure 319878DEST_PATH_IMAGE039
包含的第1个轨迹点至第
Figure 514361DEST_PATH_IMAGE007
个轨迹点,
Figure 261737DEST_PATH_IMAGE040
Figure 550767DEST_PATH_IMAGE068
分别表示重采样后轨迹
Figure 90202DEST_PATH_IMAGE042
包含的第1个轨迹点至第
Figure 704854DEST_PATH_IMAGE007
个轨迹点,定义其对称最小平均距离
Figure 939526DEST_PATH_IMAGE043
Figure 48559DEST_PATH_IMAGE044
Figure 927653DEST_PATH_IMAGE045
Figure 228053DEST_PATH_IMAGE046
其中,如图1和图2所示,
Figure 684443DEST_PATH_IMAGE047
表示空间中两个点的欧式距离,
Figure 580854DEST_PATH_IMAGE048
代表两条轨迹各轨迹点间一一对应距离的平均值,
Figure 330767DEST_PATH_IMAGE049
表示将其中一条轨迹进行颠倒后,再次一一计算对应轨迹点间的距离,并取平均值;最后,对称最小平均距离
Figure 21642DEST_PATH_IMAGE050
Figure 621120DEST_PATH_IMAGE048
Figure 445856DEST_PATH_IMAGE049
中较小的;
对称最小平均距离算法,通过将其中一条轨迹对称翻转,使空间轨迹可以不用统一约定“起点”和方向性,也能利用空间轨迹所包含轨迹点的顺序性,将轨迹间距离计算的计算复杂度降低到了线性复杂度,减轻了计算压力。
如图3所示,采用大数据中的MapReduce操作计算新轨迹
Figure 299543DEST_PATH_IMAGE034
到各已有聚类中心线的距离,Map操作表示将距离计算的过程在多个分布式节点上并行进行,Reduce操作归约所有距离中最小的一个,并设其所属的类簇序号为
Figure 177631DEST_PATH_IMAGE051
,最终获得最近类簇距离
Figure 343033DEST_PATH_IMAGE052
;通过Map操作,能够极大地缩短新航迹与已有类簇之间距离计算的时间,提升系统的处理效率。
S6:判断与当前轨迹距离最近的类簇的距离和所设定的聚类阈值的大小,如果小于或等于聚类阈值,则将当前轨迹加入该距离最近的类簇,并更新类簇;如果大于聚类阈值,则将当前轨迹划分到新的类簇中,具体地:
如果
Figure 581248DEST_PATH_IMAGE053
,则将轨迹
Figure 69867DEST_PATH_IMAGE034
加入类簇
Figure 368124DEST_PATH_IMAGE054
,同时更新类簇信息;即如果
Figure 912500DEST_PATH_IMAGE055
,则将
Figure 79039DEST_PATH_IMAGE034
加入类簇
Figure 907318DEST_PATH_IMAGE054
的轨迹序列
Figure 625744DEST_PATH_IMAGE021
,并使
Figure 906684DEST_PATH_IMAGE056
;如果
Figure 611335DEST_PATH_IMAGE057
,则将
Figure 21415DEST_PATH_IMAGE069
加入类簇
Figure 661475DEST_PATH_IMAGE054
的轨迹序列
Figure 678978DEST_PATH_IMAGE021
,并使
Figure 187320DEST_PATH_IMAGE059
;最后,使
Figure 724612DEST_PATH_IMAGE060
如果
Figure 286305DEST_PATH_IMAGE061
,则表示轨迹
Figure 541837DEST_PATH_IMAGE034
无法被归类到现有的任何一个类簇中,将其添加至新类簇
Figure 853870DEST_PATH_IMAGE062
,此时,
Figure 760515DEST_PATH_IMAGE063
,已有类簇数量
Figure 742377DEST_PATH_IMAGE064
更新为
Figure 970359DEST_PATH_IMAGE065
较佳地,地理围栏是一个二维多边形、三维多面体或起止点对。
为了验证本发明的有效性,选取西安进近区2020年9月份某一天共计949架次的航班轨迹进行处理,程序运行时间小于1秒。如图5所示,为一天内航迹为例的模式挖掘结果图,以航迹类簇中心线代表一类航迹模式,获得进港航迹模式共5种。聚类中心线能较好地体现原始航迹的聚集分布,走向符合进港程序航路要求。实验结果表明了本方法的高效性和实用性。
综上,本发明设计了复杂度低的轨迹距离计算方法,并优化了聚类算法的流程,提升了航迹模式分析系统的运行效率,在面向海量流式航迹大数据的挑战时,可以对航迹数据进行实时持续分析,展示航迹模式动态演化的过程。方法可行性高,实用性强,可以为空管系统提供辅助,优化空域运行效率,具有积极的意义。
上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种交通轨迹模式分布式挖掘方法,其特征在于,包括以下步骤:
S1:获取航班的实时飞行数据;
使用消息队列,监听每一架航班,持续接收航班的轨迹点数据;轨迹点由
Figure 850101DEST_PATH_IMAGE001
表示,
Figure 777605DEST_PATH_IMAGE002
,其中,
Figure 119725DEST_PATH_IMAGE003
分别表示经度、维度、高度和时间,考虑到时间信息不参与后续计算,同时为了使轨迹的表示方式更具有一般性,将
Figure 532514DEST_PATH_IMAGE001
转换为一个
Figure 110126DEST_PATH_IMAGE004
的矩阵,表示一个三维空间上的点,即
Figure 157716DEST_PATH_IMAGE005
Figure 936317DEST_PATH_IMAGE006
则用于判断一条轨迹中轨迹点的顺序;
S2:获取需要考察的地理围栏,筛选所查询地理围栏范围内的实时轨迹点记录,使用带有空间地理数据处理能力的对象-关系型数据库检索1-30天内此地理围栏内所有的轨迹点记录,并计算平均每条轨迹所包含的轨迹点记录数量,记为
Figure 334937DEST_PATH_IMAGE007
使用地理信息系统工具软件即GIS工具软件对实时接入的轨迹点进行筛选,获取实时轨迹在所考察地理围栏内的记录,并保持跟踪,直到轨迹点超出所考察地理围栏,停止跟踪;
回溯实时轨迹,截取所考察地理围栏范围内的轨迹点记录,组成一条原始轨迹
Figure 928688DEST_PATH_IMAGE008
,对于包含有
Figure 96364DEST_PATH_IMAGE009
个轨迹点的轨迹,将其转换为一个
Figure 904920DEST_PATH_IMAGE010
的矩阵,即
Figure 666203DEST_PATH_IMAGE011
Figure 585617DEST_PATH_IMAGE012
分别为
Figure 374844DEST_PATH_IMAGE008
中的第1个至第
Figure 354301DEST_PATH_IMAGE009
个轨迹点;时间较早的轨迹点在矩阵
Figure 337301DEST_PATH_IMAGE008
中的行序号更低;
S3;对步骤S2中产生的每一条原始轨迹
Figure 60406DEST_PATH_IMAGE008
进行等距重采样,采样规则为:保留端点的两个轨迹点,对其余中间的
Figure 937095DEST_PATH_IMAGE013
个轨迹点使用线性插值法进行等距重采样到
Figure 323339DEST_PATH_IMAGE014
个轨迹点;最终,经过数据预处理的轨迹均包含
Figure 183848DEST_PATH_IMAGE007
个轨迹点,且一条轨迹中的每段长度均相等;经过数据后的轨迹表示为一个
Figure 445065DEST_PATH_IMAGE015
的矩阵
Figure 176261DEST_PATH_IMAGE016
Figure 372887DEST_PATH_IMAGE017
表示数据预处理后的轨迹矩阵;
S4:初始化类簇,并设定聚类阈值
Figure 956577DEST_PATH_IMAGE018
使用
Figure 21485DEST_PATH_IMAGE019
表示一个类簇,且
Figure 872766DEST_PATH_IMAGE020
,其中,
Figure 771452DEST_PATH_IMAGE021
表示类簇
Figure 75395DEST_PATH_IMAGE022
包含的轨迹序列
Figure 179879DEST_PATH_IMAGE023
Figure 151246DEST_PATH_IMAGE024
分别为类簇中包含的第1条至第
Figure 689675DEST_PATH_IMAGE025
条轨迹;
Figure 746493DEST_PATH_IMAGE026
为一个
Figure 153203DEST_PATH_IMAGE015
矩阵,为
Figure 120022DEST_PATH_IMAGE021
中所有表示轨迹的矩阵之和,即
Figure 721030DEST_PATH_IMAGE027
Figure 733985DEST_PATH_IMAGE028
为当前类簇
Figure 944387DEST_PATH_IMAGE021
包含的轨迹条数;用
Figure 624767DEST_PATH_IMAGE029
表示类簇
Figure 770578DEST_PATH_IMAGE019
的中心线,显然
Figure 37873DEST_PATH_IMAGE030
为一个
Figure 786386DEST_PATH_IMAGE015
的矩阵;输入第一条轨迹完成聚类的初始化;
S5:对于每一条新的轨迹,使用分布式集群,多节点并行计算该轨迹与各类簇中心轨迹的距离,并以此作为当前轨迹与各类簇的距离,距离的计算方式采用对称最小平均距离法;
设已有类簇数量为
Figure 586852DEST_PATH_IMAGE031
,分别使用
Figure 903564DEST_PATH_IMAGE032
代表,则对应的类簇中心线表示为
Figure 156691DEST_PATH_IMAGE033
;对于每一条输入的新轨迹
Figure 210360DEST_PATH_IMAGE034
,并行计算其与每一条类簇中心线的距离;
具体来说,对于轨迹矩阵
Figure 599753DEST_PATH_IMAGE035
,定义其对称轨迹矩阵为
Figure 87366DEST_PATH_IMAGE036
;设有两条已经完成重采样的轨迹
Figure 562209DEST_PATH_IMAGE037
Figure 918104DEST_PATH_IMAGE038
分别表示重采样后轨迹
Figure 929048DEST_PATH_IMAGE039
包含的第1个轨迹点至第
Figure 446617DEST_PATH_IMAGE007
个轨迹点,
Figure 549702DEST_PATH_IMAGE040
Figure 443709DEST_PATH_IMAGE041
分别表示重采样后轨迹
Figure 73273DEST_PATH_IMAGE042
包含的第1个轨迹点至第
Figure 263209DEST_PATH_IMAGE007
个轨迹点,定义其对称最小平均距离
Figure 853590DEST_PATH_IMAGE043
Figure 285708DEST_PATH_IMAGE044
Figure 504200DEST_PATH_IMAGE045
Figure 363572DEST_PATH_IMAGE046
其中,
Figure 801768DEST_PATH_IMAGE047
表示空间中两个点的欧式距离,
Figure 444102DEST_PATH_IMAGE048
代表两条轨迹各轨迹点间一一对应距离的平均值,
Figure 517101DEST_PATH_IMAGE049
表示将其中一条轨迹进行颠倒后,再次一一计算对应轨迹点间的距离,并取平均值;最后,对称最小平均距离
Figure 812953DEST_PATH_IMAGE050
Figure 971402DEST_PATH_IMAGE048
Figure 512367DEST_PATH_IMAGE049
中较小的;
采用大数据中的MapReduce操作计算新轨迹
Figure 705450DEST_PATH_IMAGE034
到各已有聚类中心线的距离,Map操作表示将距离计算的过程在多个分布式节点上并行进行,Reduce操作归约所有距离中最小的一个,并设其所属的类簇序号为
Figure 47570DEST_PATH_IMAGE051
,最终获得最近类簇距离
Figure 958894DEST_PATH_IMAGE052
S6:判断与当前轨迹距离最近的类簇的距离和所设定的聚类阈值的大小,如果小于或等于聚类阈值,则将当前轨迹加入该距离最近的类簇,并更新类簇;如果大于聚类阈值,则将当前轨迹划分到新的类簇中,具体地:
如果
Figure 802085DEST_PATH_IMAGE053
,则将轨迹
Figure 351141DEST_PATH_IMAGE034
加入类簇
Figure 864162DEST_PATH_IMAGE054
,同时更新类簇信息;即如果
Figure 262782DEST_PATH_IMAGE055
,则将
Figure 644085DEST_PATH_IMAGE034
加入类簇
Figure 811761DEST_PATH_IMAGE054
的轨迹序列
Figure 495683DEST_PATH_IMAGE021
,并使
Figure 617485DEST_PATH_IMAGE056
;如果
Figure 802479DEST_PATH_IMAGE057
,则将
Figure 824661DEST_PATH_IMAGE058
加入类簇
Figure 679485DEST_PATH_IMAGE054
的轨迹序列
Figure 52697DEST_PATH_IMAGE021
,并使
Figure 277268DEST_PATH_IMAGE059
;最后,使
Figure 153957DEST_PATH_IMAGE060
如果
Figure 445261DEST_PATH_IMAGE061
,则表示轨迹
Figure 40190DEST_PATH_IMAGE034
无法被归类到现有的任何一个类簇中,将其添加至新类簇
Figure 566987DEST_PATH_IMAGE062
,此时,
Figure 799647DEST_PATH_IMAGE063
,已有类簇数量
Figure 261852DEST_PATH_IMAGE064
更新为
Figure 344078DEST_PATH_IMAGE065
2.根据权利要求1所述的一种交通轨迹模式分布式挖掘方法,其特征在于,所述地理围栏是一个二维多边形、三维多面体或起止点对。
CN202110456546.8A 2021-04-27 2021-04-27 一种交通轨迹模式分布式挖掘方法 Active CN112988849B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110456546.8A CN112988849B (zh) 2021-04-27 2021-04-27 一种交通轨迹模式分布式挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110456546.8A CN112988849B (zh) 2021-04-27 2021-04-27 一种交通轨迹模式分布式挖掘方法

Publications (2)

Publication Number Publication Date
CN112988849A true CN112988849A (zh) 2021-06-18
CN112988849B CN112988849B (zh) 2021-07-30

Family

ID=76340257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110456546.8A Active CN112988849B (zh) 2021-04-27 2021-04-27 一种交通轨迹模式分布式挖掘方法

Country Status (1)

Country Link
CN (1) CN112988849B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688332A (zh) * 2021-10-22 2021-11-23 北京数业专攻科技有限公司 基于频繁模式的轨迹重建方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016015312A1 (zh) * 2014-07-31 2016-02-04 华为技术有限公司 一种轨迹数据查询的方法及装置
CN109241126A (zh) * 2018-06-29 2019-01-18 武汉理工大学 一种基于r*树索引的时空轨迹聚集模式挖掘算法
CN110232319A (zh) * 2019-05-07 2019-09-13 杭州电子科技大学 一种基于深度学习的船舶行为识别方法
CN110580251A (zh) * 2019-07-19 2019-12-17 中国科学院信息工程研究所 一种大数据环境下的群体轨迹伴随模式在线分析方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016015312A1 (zh) * 2014-07-31 2016-02-04 华为技术有限公司 一种轨迹数据查询的方法及装置
CN109241126A (zh) * 2018-06-29 2019-01-18 武汉理工大学 一种基于r*树索引的时空轨迹聚集模式挖掘算法
CN110232319A (zh) * 2019-05-07 2019-09-13 杭州电子科技大学 一种基于深度学习的船舶行为识别方法
CN110580251A (zh) * 2019-07-19 2019-12-17 中国科学院信息工程研究所 一种大数据环境下的群体轨迹伴随模式在线分析方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688332A (zh) * 2021-10-22 2021-11-23 北京数业专攻科技有限公司 基于频繁模式的轨迹重建方法及装置

Also Published As

Publication number Publication date
CN112988849B (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN106297291B (zh) 城市快速路交通信息采集系统
CN108415975B (zh) 基于bdch-dbscan的出租车载客热点识别方法
CN107481511A (zh) 一种计算候选公交站点的方法及系统
CN108170793A (zh) 基于车辆语义轨迹数据的停留点分析方法及其系统
Zhou et al. Short-term traffic flow prediction of the smart city using 5G internet of vehicles based on edge computing
CN109739585B (zh) 基于spark集群并行化计算的交通拥堵点发现方法
CN110990661B (zh) 一种基于路网约束和密度聚类的兴趣区域出入口提取方法
CN110555544A (zh) 一种基于gps导航数据的交通需求估计方法
US20220082405A1 (en) System and method for vehicle event data processing for identifying parking areas
CN113240265B (zh) 一种基于多模式交通数据的城市空间划分方法
Wang et al. A demand-supply oriented taxi recommendation system for vehicular social networks
CN112988849B (zh) 一种交通轨迹模式分布式挖掘方法
Zhang et al. Detecting taxi travel patterns using GPS trajectory data: A case study of Beijing
CN109520499A (zh) 基于车辆gps轨迹数据实现区域实时等时线的方法
Chen et al. An analysis of movement patterns between zones using taxi GPS data
CN114530038A (zh) 一种基于时空数据聚类的出行兴趣区域提取方法及系统
Xia et al. A parallel SP-DBSCAN algorithm on spark for waiting spot recommendation
CN112559909B (zh) 一种基于gcn嵌入空间聚类模型的商业区发现方法
CN113361174A (zh) 基于stp模型的大型无人机碰撞概率计算方法
CN112988855A (zh) 一种基于数据挖掘的地铁乘客分析方法及系统
CN104778355A (zh) 基于广域分布交通系统的异常轨迹检测方法
Tan et al. Statistical analysis and prediction of regional bus passenger flows
CN111653115B (zh) 任务的划分方法、装置及存储介质
Liu et al. Estimation of travel flux between urban blocks by combining spatio-temporal and purpose correlation
Xu et al. An assistant decision-supporting method for urban transportation planning over big traffic data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20211231

Address after: 908, block a, floor 8, No. 116, Zizhuyuan Road, Haidian District, Beijing 100089

Patentee after: ZHONGZI DATA CO.,LTD.

Address before: 100191 No. 37, Haidian District, Beijing, Xueyuan Road

Patentee before: BEIHANG University

TR01 Transfer of patent right