CN110580251B - 一种大数据环境下的群体轨迹伴随模式在线分析方法和系统 - Google Patents

一种大数据环境下的群体轨迹伴随模式在线分析方法和系统 Download PDF

Info

Publication number
CN110580251B
CN110580251B CN201910655594.2A CN201910655594A CN110580251B CN 110580251 B CN110580251 B CN 110580251B CN 201910655594 A CN201910655594 A CN 201910655594A CN 110580251 B CN110580251 B CN 110580251B
Authority
CN
China
Prior art keywords
group
accompanying
track
candidate group
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910655594.2A
Other languages
English (en)
Other versions
CN110580251A (zh
Inventor
王博
李超
郭承青
王维光
刘路
陈天然
庹宇鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
National Computer Network and Information Security Management Center
Original Assignee
Institute of Information Engineering of CAS
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS, National Computer Network and Information Security Management Center filed Critical Institute of Information Engineering of CAS
Priority to CN201910655594.2A priority Critical patent/CN110580251B/zh
Publication of CN110580251A publication Critical patent/CN110580251A/zh
Application granted granted Critical
Publication of CN110580251B publication Critical patent/CN110580251B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种大数据环境下的群体轨迹伴随模式在线分析方法和系统。该方法包括:设置群体轨迹伴随模式的阈值参数;对群体轨迹流数据进行切片,获得当前时间片的群体位置信息集合;构建基于spark的分布式高维索引树KD‑Tree;进行位置点的密度聚类,形成当前时间片的群体位置聚类快照簇集合Scs;根据当前群体轨迹伴随候选集SetAc是否为空,将Scs中的位置聚类快照簇加入SetAc中存在的伴随候选组或者新生成的轨迹伴随候选组;判断当前每个轨迹伴随候选组是否合格,如果合格则输出合格的群体轨迹伴随模式详情。本发明具有高吞吐量、实时性高、准确性高、扩展性好、高可配置性等优点。

Description

一种大数据环境下的群体轨迹伴随模式在线分析方法和系统
技术领域
本发明涉及移动群体轨迹模式分析与监控领域,是一种实时获取移动智能终端产生的海量时空位置大数据,使用分布式算法对轨迹数据按时间片切分和聚类并进行群体轨迹伴随模式在线识别发现的方法,能够应用于群体移动轨迹伴随模式分析、特定群体活动监控、交通热点路线发现等方面。
背景技术
随着移动互联网的迅速发展,特别是以手机为代表的智能移动终端的普及,每时每刻产生着海量的移动群体位置信息,蕴含着大量用户日常生活习惯和生活圈的位置和时空轨迹数据。群体轨迹伴随模式是指一群移动对象在时空轨迹上表现出相同或相似的运动模式,并且该模式持续了一定时间长度。群体轨迹伴随模式在我们生活中普遍存在,例如一起乘坐公共交通工具的乘客、一起逛街的朋友等都形成了轨迹伴随模式。快速有效地对大数据规模下的群体移动轨迹进行模式识别和分析,挖掘群体移动轨迹的伴随模式特征,对群体关系发现、特定群体活动监控、城市交通规划等方面具有极大价值。
当前主流的群体移动轨迹伴随模式分析方法是基于轨迹聚类的方法,该方法主要操作包括位置点聚类和相邻簇取交集。CMC(Coherent Moving Cluster)算法为基于轨迹聚类方法中的典型算法,其规定若至少m个移动对象伴随运动持续k个时间片以上则形成轨迹伴随模式。虽然该算法考虑了移动群体活动轨迹的随机性和多样性,能够识别和发现大多数情况下的群体轨迹伴随行为,但是在大数据规模的环境下,该算法中传统聚类和取交集操作执行效率低,扩展性差,对计算和存储资源消耗巨大,难以用于海量移动网信令数据的群体移动轨迹伴随模式的在线分析和实时发现的场景。
发明内容
针对上述现有方法存在的问题,本发明公开了一种大数据环境下的群体轨迹伴随模式在线分析方法和系统。
本发明采用的技术方案如下:
一种大数据环境下的群体轨迹伴随模式在线分析方法,包括以下步骤:
1)设置群体轨迹伴随模式的阈值参数;
2)对接入的群体轨迹流数据进行切片,获得当前时间片的群体位置信息集合;
3)根据当前时间片的群体位置信息集合,构建基于spark的分布式高维索引树KD-Tree;
4)基于KD-Tree进行位置点的密度聚类,形成当前时间片的群体位置聚类快照簇集合Scs;
5)如果当前群体轨迹伴随候选集SetAc为空,则生成新轨迹伴随候选组,将Scs中的位置聚类快照簇放入该新轨迹伴随候选组;
6)如果SetAc不为空,则将Scs中每个位置聚类快照簇与SetAc中的轨迹伴随候选组进行比对,根据步骤1)所述阈值参数进行判断,将Scs中的位置聚类快照簇作为最新时间片快照加入SetAc中存在的伴随候选组,或者生成新轨迹伴随候选组并将Scs中的位置聚类快照簇放入该新轨迹伴随候选组;
7)根据步骤1)所述阈值参数判断当前每个轨迹伴随候选组是否合格,如果合格则输出合格的群体轨迹伴随模式详情,如果不合格则将不合格的轨迹伴随候选组置为闭合状态,并从SetAc中移除。
进一步地,循环执行步骤5)至7),直到结束轨迹伴随模式在线分析。
进一步地,步骤2)进行所述切片之前,对接入的群体轨迹流数据进行清洗和过滤,包括:进行脏数据清洗;过滤掉用户ID标识、时间戳及经纬度信息缺失或异常的无效数据。
进一步地,步骤3)将所述群体位置信息集合中每个位置信息按照经度、纬度两个维度添加到同一棵维度等于2的K-D Tree数据结构中;在K-D Tree构造过程中采用逐层交替法,即相邻两层采用不同维度,交替选择;在K-D Tree插入新结点时,根据所在层次lev,比较待插入结点和已有结点的lev%2维数据决定待插入结点是在已有结点的左子树还是右子树。
进一步地,步骤1)所述阈值参数包括时间切片长度Slen、伴随群体最小成员数Mp、伴随群体最小核心成员数Mc、伴随持续最短时间阈值Mt、伴随群体相邻时间片最小移动距离Md、密度聚类领域半径r、密度聚类核心对象r半径领域内最小对象数MinPts。
进一步地,步骤6)所述比对包括:如果SetAc中存在伴随候选组Gj与Scs中位置聚类快照簇Si的Hausdorff距离不小于Md,且Gj的最后一个时间片的位置聚类快照簇Gsl与Si的共有成员个数不小于Mp,则将Si作为最新时间片快照加入Gj;否则生成新轨迹伴随候选组,将Scs中产生的位置聚类快照簇放入该新轨迹伴随候选组。
进一步地,步骤7)所述判断当前每个轨迹伴随候选组是否合格,包括:对群体轨迹伴随候选集SetAc中每个持续周期大于Mt的轨迹伴随候选组进行轨迹伴随模式分析,如果存在候选组Gj的核心成员人数不少于Mc,则为合格群体轨迹伴随模式。
进一步地,步骤7)所述合格的群体轨迹伴随模式详情,包括伴随成员ID集合、伴随开始时间、伴随持续时间长度、伴随开始位置点、伴随轨迹。
基于同一发明构思,本发明还提供一种大数据环境下的群体轨迹伴随模式在线分析系统,其包括:
阈值参数设置模块,用于设置群体轨迹伴随模式的阈值参数;
清洗和过滤模块,连接所述阈值参数设置模块,用于对接入的群体轨迹流数据进行清洗和过滤;
切片模块,连接所述清洗和过滤模块,用于对清洗和过滤后的群体轨迹流数据进行切片,获得当前时间片的群体位置信息集合;
KD-Tree构建模块,连接所述切片模块,用于根据当前时间片的群体位置信息集合,构建基于spark的分布式高维索引树KD-Tree;
密度聚类模块,连接所述KD-Tree构建模块,用于基于KD-Tree进行位置点的密度聚类,形成当前时间片的群体位置聚类快照簇集合Scs;
轨迹伴随候选组操作模块,连接所述密度聚类模块,如果当前群体轨迹伴随候选集SetAc为空,则生成新轨迹伴随候选组,将Scs中的位置聚类快照簇放入该新轨迹伴随候选组;如果SetAc不为空,则将Scs中每个位置聚类快照簇与SetAc中的轨迹伴随候选组进行比对,根据所述阈值参数设置模块设置的阈值参数进行判断,将Scs中的位置聚类快照簇作为最新时间片快照加入SetAc中存在的轨迹伴随候选组,或者生成新轨迹伴随候选组并将Scs中的位置聚类快照簇放入该新轨迹伴随候选组;
合格性判断模块,连接所述轨迹伴随候选组操作模块,用于根据所述阈值参数设置模块设置的阈值参数判断当前每个轨迹伴随候选组是否合格,如果合格则输出合格的群体轨迹伴随模式详情,如果不合格则将不合格的轨迹伴随候选组置为闭合状态,并从SetAc中移除。
与现有技术相比,本发明具有如下优点:
(1)高吞吐量:本发明基于map-reduce思想构建群体轨迹伴随模式分析模型,能够分布式处理大规模的时空轨迹数据流,具有高吞吐量的数据处理和分析能力;
(2)实时性高:轨迹伴随模式分析时效性对在线群体活动监控、交通路线规划等业务十分重要,本发明按时间片处理轨迹数据,使用图搜索算法优化了轨迹聚类算法性能,能够近似实时性发现群体轨迹伴随模式,为相关业务开展提供有力支撑;
(3)准确性高:本发明采用基于K-D tree的密度聚类算法进行位置聚类,能够发现任意形状的群体伴随快照簇,并根据伴随群体持续时间和核心成员人数综合判断伴随模式的合格性,经实际测试,本方法发现的群体轨迹伴随模式具有较高准确性。
(4)扩展性好:本发明基于Spark分布式平台构建,能够根据处理的移动网信令数据规模灵活配置计算资源和存储资源,具有较好的扩展性。
(5)高可配置:本发明向用户提供了轨迹伴随模式的多个配置参数,使其能够支持多种不同业务场景下的轨迹伴随模式分析,具有较高的实用意义。
附图说明
图1是一种大数据环境下的群体轨迹伴随模式在线分析方法的逻辑流程图。
图2是基于KD-Tree的密度聚类算法逻辑示意图。
图3是轨迹伴随候选组合格性判断算法流程图。
图4是一种大数据环境下的群体轨迹伴随模式在线分析系统的模块组成示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
本发明公开了一种大数据环境下的群体轨迹伴随模式在线分析方法,其逻辑流程如图1所示,具体步骤包括:
(1)设置群体轨迹伴随模式阈值参数。本发明研究的群体轨迹伴随模式是指从时空轨迹数据集中发现具有相同或相似路线的移动对象群体,形式化定义为:给定Mp,Mc,Mt∈N,Mp≥Mc,N为自然数,r为大于0的常数,给定时空轨迹集合,在时间区域I=[ti,tj](j-i+1≥Mt)中至少包含Mp个移动对象,在时间区间I的每个时空中至少有Mc个移动对象所在位置点都集中在半径为r的圆形区域内。因此,群体伴随模式分析方法的阈值参数包括时间切片长度Slen、伴随群体最小成员数Mp、伴随群体最小核心成员数Mc、伴随持续最短时间阈值Mt、伴随群体相邻时间片最小移动距离Md、密度聚类领域半径r、密度聚类核心对象r半径领域内最小对象数MinPts等。
(2)群体轨迹流数据接入。通过消息队列实时订阅群体轨迹流数据,轨迹流数据中包含群体成员在某时间点的位置信息vi(i=0,1,…,n),n表示成员数目,其中vi(ID,Ti,lng,lat)包括用户唯一标识ID,当前时间戳Ti,当前位置经度lng、维度lat。
(3)轨迹数据清洗和过滤。对群体轨迹流数据进行脏数据清洗,过滤掉用户ID标识、时间戳及经纬度信息缺失或异常的无效数据。
(4)对轨迹流数据切片和预处理。以时间切片长度Slen为周期对实时轨迹数据流进行切片,进行切片数据去重和缺失值补全,形成当前时间片的群体位置信息集合V。例如时间切片长度Slen=10min,则每隔10min取一次群体位置数据集合V,将集合V中每个位置信息vi加入到标识为ID的成员位置信息队列中,形成该成员的历史轨迹Traj(v0,v1,…,vi);如果群体中某成员在近10min中内没有位置数据出现,则取该成员上一个时间片的位置点vi-1作为该时刻的位置点坐标vi
(5)获取当前时间片的群体位置信息集合V,构建基于Spark的分布式高维索引树KD-Tree数据结构。将群体位置信息集合V中每个位置信息vi按照经纬度两个维度添加到同一棵维度等于2的K-D Tree数据结构中。K-D Tree是一种分割K维数据空间的数据结构,其基本思想就是对搜索空间进行层次划分,是多维空间数据最近邻搜索的一种高效数据结构。Spark是一种分布式计算引擎,基于Spark构建KD-Tree数据结构,需要数据结构满足Spark计算中可序列化的要求。
(6)基于KD-Tree进行位置点的密度聚类,形成当前时间片的群体位置聚类快照簇集合Scs。快照簇集合Scs包含n个聚类结果快照簇Si(i=1,2,3,…,n);基于KD-Tree进行密度聚类,避免了聚类过程中将群体位置信息集V中每个点与核心点的距离逐一进行比较,极大的提升了密度聚类算法的计算效率。
(7)如果当前群体轨迹伴随候选集SetAc为空,则生成新轨迹伴随候选组,将步骤(6)快照簇集合Scs中产生的位置聚类快照簇S放入该轨迹伴随候选组,转到步骤(11);如果当前群体轨迹伴随候选集SetAc不为空,则执行步骤(8)。
(8)将步骤(6)快照簇中每个位置聚类快照簇Si与群体轨迹伴随候选集SetAc中伴随候选组进行比对,如果候选集中存在伴随候选组Gj与聚类快照簇Si的Hausdorff距离不小于Md,且候选组Gj的最后一个时间片的位置聚类快照簇Gsl与Si的共有成员个数不小于Mp,则将聚类快照簇Si作为最新时间片快照加入候选组Gj,执行步骤(9);否则生成新轨迹伴随候选组,将步骤(6)中产生的位置聚类快照簇放入该轨迹伴随候选组,然后转到步骤(11)。
(9)判断当前每个轨迹伴随候选组是否合格。对群体轨迹伴随候选集SetAc中每个持续周期大于Mt的轨迹伴随候选组进行轨迹伴随模式分析,如果存在候选组Gj的核心成员人数不少于Mc,则为合格群体轨迹伴随模式,执行步骤(10);如果核心成员人数不超过Mc,则将该候选组置为闭合状态,并从轨迹伴随候选集SetAc中移除,然后转到步骤(11)。
(10)输出合格的群体轨迹伴随模式详情,包括伴随成员ID集合、伴随开始时间、伴随持续时间长度、伴随开始位置点、伴随轨迹等信息。
(11)是否结束轨迹伴随模式在线分析,如果是,则分析结束;如果否,则转到步骤(5)开始新循环。
下面更具体地、详细地说明上述方法的各个步骤。
(1)设置群体轨迹伴随模式阈值参数,群体伴随模式分析方法分阈值参数包括时间切片长度Slen,伴随群体最小成员数Mp、伴随群体最小核心成员数Mc、伴随持续最短时间阈值Mt、伴随群体相邻时间片最小移动距离Md、密度聚类领域半径r、最少成员数目MinPts等;
(2)群体轨迹流数据接入,通过消息队列实时订阅群体轨迹流数据,轨迹流数据中包含群体成员在某时间点的位置信息vi(i=0,1,…,n),其中vi(ID,Ti,lng,lat)包括用户唯一标识ID,当前时间戳Ti,当前位置经度lng、维度lat;
(3)轨迹数据清洗和过滤,对用户轨迹数据进行脏数据清洗,过滤掉用户id标识、时间戳及经纬度信息缺失或异常的无效数据;
(4)对轨迹流数据切片和预处理,以时间切片长度Slen为周期对实时轨迹数据流进行切片,进行切片数据去重和缺失值补全,形成当前时间片的群体位置信息集合V。例如时间切片长度Slen=10min,则每隔10min取一次群体位置数据集合V,将集合V中每个位置信息vi加入到标识为ID的成员位置信息队列中,形成该成员的历史轨迹Traj(v0,v1,…,vi);如果群体中某成员在近10min中内没有位置数据出现,则取该成员上一个时间片的位置点vi-1作为该时刻的位置点坐标vi
(5)获取当前时间片的群体位置信息集合V,构建基于Spark的分布式高维索引树KD-Tree数据结构,将群体位置信息集合V中每个位置信息vi按照经纬度两个维度添加到同一棵维度等于2的K-D Tree数据结构中。K-D Tree是一种分割K维数据空间的数据结构,其基本思想就是对搜索空间进行层次划分,是多维空间数据最近邻搜索的一种高效数据结构。
在K-D Tree构造过程中,采用逐层交替法,即相邻两层采用不同维度,交替选择。在K-D Tree插入新结点时,根据所在层次lev,比较待插入结点和已有结点的lev%2(%代表模运算)维数据决定待插入结点是在已有结点的左子树还是右子树。K-D Tree构造步骤如下:
(5.1)在同一时间切片的二维位置数据,新建树结点存储当前用户数据,根据K-DTree上已有结点所在维度k,比较二者在此维度的值,选择在已有结点的某个子树上加入该结点;
(5.2)在子树上继续重复步骤1,直到找到合适的位置插入此新结点。
(6)基于KD-Tree进行位置点的密度聚类,形成当前时间片的群体位置聚类快照簇集合Scs,快照簇集合Scs包含n个聚类结果快照簇Si(i=1,2,3,…,n);基于KD-Tree进行密度聚类,避免了聚类过程中将群体位置信息集V中每个点与核心点的距离逐一进行比较,极大的提升了密度聚类算法的计算效率。
基于KD-Tree的密度聚类算法逻辑如图2所示,算法步骤具体如下:
(6.1):根据当前时间片所有包含群体位置数据的对象全局唯一标识ID构建一棵分布式K-D Tree,该K-D Tree称为kdt;
(6.2):遍历当前群体位置信息集合,选取一个对象p,在kdt上检索所有从p关于ε-邻域和MinPts密度可达的对象:如果p是核心对象,构建以p为始点,其可达对象为终点的边集;如果p是边缘对象,构建以p自身为始点和终点的边,得到边集Edges;图2中size()>=minPts-1代表对象p在ε-邻域内的对象数大于等于minPts-1;
(6.3):构建当前时间片所有对象的顶点集Vertexs,以Edges和Vertexs构建图G;
(6.4):计算图G的连通分支,每个连通分支ID设置为分支中序号最小的顶点的ID;
(6.5):遍历图G中的边,以所在连通分支ID作为clusterID。得到二元组<clusterID,Edge>的集合celists;
(6.6):对celists按clusterID分组,将具有相同clusterID边的节点划分到同一个节点簇,遍历所有clusterID得到所有的聚类快照簇Scs,Scs特性参照密度聚类快照簇定义。
密度聚类快照簇是指给定群体时空轨迹数据集合ODB,ODB在第i个时间片的子集ODB(ti),距离阈值ε,对象个数阈值MinPts,快照簇c(ti)是集合
Figure BDA0002136775550000071
的非空子集,且O(ti)满足以下条件:
1)
Figure BDA0002136775550000072
q(ti)∈O(ti),op(ti)关于ε和MinPts与oq(ti)是密度相连的。
2)不存在一个更大的集合O’(ti)使得
Figure BDA0002136775550000073
如果oq(ti)∈O(ti),且op(ti)从oq(ti)是关于ε和MinPts密度可达的,则op(ti)∈O(ti)。
(7)如果当前群体轨迹伴随候选集SetAc为空,则生成新轨迹伴随候选组,将步骤(6)快照簇集合Scs中产生的位置聚类快照簇S放入该轨迹伴随候选组;如果当前群体轨迹伴随候选集SetAc不为空,则执行步骤(8);
(8)将步骤(6)快照簇中每个位置聚类快照簇Si与群体轨迹伴随候选集SetAc中伴随候选组进行比对,如果候选集中存在伴随候选组Groupj与聚类快照簇Si的Hausdorff距离不小于Md,且候选组Groupj的最后一个时间片的位置聚类快照簇Gsl与Si的共有成员个数不小于Mp,则将聚类快照簇Si作为最新时间片快照加入候选组Groupj;否则生成新轨迹伴随候选组,将步骤(6)中产生的位置聚类快照簇放入该轨迹伴随候选组,然后转到步骤(11);
伴随候选组更新需要度量两个聚类快照簇之间的距离
Figure BDA0002136775550000074
Hausdorff距离可以度量两个点集的最大不匹配程度,而快照簇是一个时间片的满足聚类要求的用户位置的点集,因此采用Hausdorff距离来衡量两个簇之间的空间距离。
Hausdoff距离定义:设有两组集合A={a1,…,ap},B={b1,…,bq},这两个点集合之间的Hausdorff距离定义为:
H(A,B)=max(h(A,B),h(B,A))
其中,
h(A,B)=max(a∈A)min(b∈B)‖a-b‖
h(B,A)=max(b∈B)min(a∈A)‖b-a‖
‖·‖是点集A和B点集间的距离范式。本发明采用Haversine公式(计算地球两点间距离公式)作为距离范式。
(9)判断当前每个轨迹伴随候选组是否合格。对群体轨迹伴随候选集SetAc中每个持续周期大于Mt的轨迹伴随候选组进行轨迹伴随模式判断,如果存在候选组Groupj的核心成员人数不少于Mc,则为合格群体轨迹伴随模式,执行步骤(10);如果核心成员人数不超过Mc,则将该候选组置为闭合状态,说明该候选组的群体未形成轨迹伴随,从轨迹伴随候选集SetAc中移除,然后转到步骤(11);
核心成员是指在一个群体Cr中,设o是Cr中的一个对象,当o至少在Cr的k(K∈N,K>0)个快照簇内出现时,o被称作Cr中的参与者。
判断一个候选组是不是合格的伴随模式,其逻辑流程如图3所示,主要步骤如下,
(9.1)判断该候选组持续时间周期是否大于Mt;
(9.2)使用一个全局位容器bitVector来存储候选组中每个成员在每个时间片的出现记录;
(9.3)汇总出现次数大于k的核心成员,形成该候选组的核心成员集合coreSet;
(9.4)验证该候选组中每个快照簇的核心成员个数是否达到阈值Mc。在验证每个簇的核心成员个数是否达到阈值时,将每个簇的用户ID集合与核心成员集合coreSet做交集,如果交集中ID个数达到阈值Mc,则说明该候选组为合格轨迹伴随模式;如果没有,则该候选组不合格。
(10)输出合格的群体轨迹伴随模式详情,包括伴随成员ID集合、伴随开始时间、伴随持续时间长度、伴随开始位置点、伴随轨迹等信息。
(11)是否结束轨迹伴随模式在线分析,如果是,则分析结束;如果否,则转到步骤(5)开始新循环。
基于同一发明构思,本发明另一实施例提供一种大数据环境下的群体轨迹伴随模式在线分析系统,如图4所示,该系统包括:
阈值参数设置模块,用于设置群体轨迹伴随模式的阈值参数;
清洗和过滤模块,连接所述阈值参数设置模块,用于对接入的群体轨迹流数据进行清洗和过滤;
切片模块,连接所述清洗和过滤模块,用于对清洗和过滤后的群体轨迹流数据进行切片,获得当前时间片的群体位置信息集合;
KD-Tree构建模块,连接所述切片模块,用于根据当前时间片的群体位置信息集合,构建基于spark的分布式高维索引树KD-Tree;
密度聚类模块,连接所述KD-Tree构建模块,用于基于KD-Tree进行位置点的密度聚类,形成当前时间片的群体位置聚类快照簇集合Scs;
轨迹伴随候选组操作模块,连接所述密度聚类模块,如果当前群体轨迹伴随候选集SetAc为空,则生成新轨迹伴随候选组,将Scs中的位置聚类快照簇放入该新轨迹伴随候选组;如果SetAc不为空,则将Scs中每个位置聚类快照簇与SetAc中的轨迹伴随候选组进行比对,根据所述阈值参数设置模块设置的阈值参数进行判断,将Scs中的位置聚类快照簇作为最新时间片快照加入SetAc中存在的轨迹伴随候选组,或者生成新轨迹伴随候选组并将Scs中的位置聚类快照簇放入该新轨迹伴随候选组;
合格性判断模块,连接所述轨迹伴随候选组操作模块,用于根据所述阈值参数设置模块设置的阈值参数判断当前每个轨迹伴随候选组是否合格,如果合格则输出合格的群体轨迹伴随模式详情,如果不合格则将不合格的轨迹伴随候选组置为闭合状态,并从SetAc中移除。
基于同一发明构思,本发明另一实施例提供一种计算机/服务器,其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上面所述方法中各步骤的指令。
基于同一发明构思,本发明另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现上面所述方法的步骤。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的原理和范围,本发明的保护范围应以权利要求书所述为准。

Claims (6)

1.一种大数据环境下的群体轨迹伴随模式在线分析方法,其特征在于,包括以下步骤:
1)设置群体轨迹伴随模式的阈值参数;
2)对接入的群体轨迹流数据进行切片,获得当前时间片的群体位置信息集合;
3)根据当前时间片的群体位置信息集合,构建基于spark的分布式高维索引树KD-Tree;
4)基于KD-Tree进行位置点的密度聚类,形成当前时间片的群体位置聚类快照簇集合Scs;
5)如果当前群体轨迹伴随候选集SetAc为空,则生成新轨迹伴随候选组,将Scs中的位置聚类快照簇放入该新轨迹伴随候选组;
6)如果SetAc不为空,则将Scs中每个位置聚类快照簇与SetAc中的轨迹伴随候选组进行比对,根据步骤1)所述阈值参数进行判断,将Scs中的位置聚类快照簇作为最新时间片快照加入SetAc中存在的轨迹伴随候选组,或者生成新轨迹伴随候选组并将Scs中的位置聚类快照簇放入该新轨迹伴随候选组;
7)根据步骤1)所述阈值参数判断当前每个轨迹伴随候选组是否合格,如果合格则输出合格的群体轨迹伴随模式详情,如果不合格则将不合格的轨迹伴随候选组置为闭合状态,并从SetAc中移除;
其中,步骤1)所述阈值参数包括时间切片长度Slen、伴随群体最小成员数Mp、伴随群体最小核心成员数Mc、伴随持续最短时间阈值Mt、伴随群体相邻时间片最小移动距离Md、密度聚类领域半径r、密度聚类核心对象r半径领域内最小对象数MinPts;
其中,步骤6)所述比对包括:如果SetAc中存在伴随候选组Gj与Scs中位置聚类快照簇Si的Hausdorff距离不小于Md,且Gj的最后一个时间片的位置聚类快照簇Gsl与Si的共有成员个数不小于Mp,则将Si作为最新时间片快照加入Gj;否则生成新轨迹伴随候选组,将Scs中产生的位置聚类快照簇放入该新轨迹伴随候选组;
其中,步骤7)所述判断当前每个轨迹伴随候选组是否合格,包括:对群体轨迹伴随候选集SetAc中每个持续周期大于Mt的轨迹伴随候选组进行轨迹伴随模式分析,如果存在候选组Gj的核心成员人数不少于Mc,则为合格群体轨迹伴随模式;判断一个轨迹伴随候选组是不是合格的群体轨迹伴随模式的步骤如下:
(a)判断该候选组持续时间周期是否大于Mt;
(b)使用一个全局位容器bitVector来存储候选组中每个成员在每个时间片的出现记录;
(c)汇总出现次数大于k的核心成员,形成该候选组的核心成员集合coreSet;
(d)验证该候选组中每个快照簇的核心成员个数是否达到阈值Mc;在验证每个簇的核心成员个数是否达到阈值时,将每个簇的用户ID集合与核心成员集合coreSet做交集,如果交集中ID个数达到阈值Mc,则说明该候选组为合格轨迹伴随模式;如果没有,则该候选组不合格;
其中,步骤7)所述合格的群体轨迹伴随模式详情,包括伴随成员ID集合、伴随开始时间、伴随持续时间长度、伴随开始位置点、伴随轨迹。
2.根据权利要求1所述的方法,其特征在于,循环执行步骤5)至7),直到结束轨迹伴随模式在线分析。
3.根据权利要求1所述的方法,其特征在于,步骤2)进行所述切片之前,对接入的群体轨迹流数据进行清洗和过滤,包括:进行脏数据清洗;过滤掉用户ID标识、时间戳及经纬度信息缺失或异常的无效数据。
4.根据权利要求1所述的方法,其特征在于,步骤3)将所述群体位置信息集合中每个位置信息按照经度、纬度两个维度添加到同一棵维度等于2的K-D Tree数据结构中;在K-DTree构造过程中采用逐层交替法,即相邻两层采用不同维度,交替选择;在K-D Tree插入新结点时,根据所在层次lev,比较待插入结点和已有结点的lev%2维数据决定待插入结点是在已有结点的左子树还是右子树。
5.根据权利要求1所述的方法,其特征在于,步骤4)所述基于KD-Tree进行位置点的密度聚类,包括:
(1)根据当前时间片所有包含群体位置数据的对象全局唯一标识ID构建一棵分布式K-DTree,称为kdt;
(2)遍历当前群体位置信息集合,选取一个对象p,在kdt上检索所有从p关于ε-邻域和MinPts密度可达的对象:如果p是核心对象,构建以p为始点,其可达对象为终点的边集;如果p是边缘对象,构建以p自身为始点和终点的边,得到边集Edges;
(3)构建当前时间片所有对象的顶点集Vertexs,以Edges和Vertexs构建图G;
(4)计算图G的连通分支,每个连通分支ID设置为分支中序号最小的顶点的ID;
(5)遍历图G中的边,以所在连通分支ID作为clusterID,得到二元组<clusterID,Edge>的集合celists;
(6)对celists按clusterID分组,将具有相同clusterID边的节点划分到同一个节点簇,遍历所有clusterID得到所有的聚类快照簇。
6.一种采用权利要求1~5中任一权利要求所述方法的大数据环境下的群体轨迹伴随模式在线分析系统,其特征在于,包括:
阈值参数设置模块,用于设置群体轨迹伴随模式的阈值参数;
清洗和过滤模块,连接所述阈值参数设置模块,用于对接入的群体轨迹流数据进行清洗和过滤;
切片模块,连接所述清洗和过滤模块,用于对清洗和过滤后的群体轨迹流数据进行切片,获得当前时间片的群体位置信息集合;
KD-Tree构建模块,连接所述切片模块,用于根据当前时间片的群体位置信息集合,构建基于spark的分布式高维索引树KD-Tree;
密度聚类模块,连接所述KD-Tree构建模块,用于基于KD-Tree进行位置点的密度聚类,形成当前时间片的群体位置聚类快照簇集合Scs;
轨迹伴随候选组操作模块,连接所述密度聚类模块,如果当前群体轨迹伴随候选集SetAc为空,则生成新轨迹伴随候选组,将Scs中的位置聚类快照簇放入该新轨迹伴随候选组;如果SetAc不为空,则将Scs中每个位置聚类快照簇与SetAc中的轨迹伴随候选组进行比对,根据所述阈值参数设置模块设置的阈值参数进行判断,将Scs中的位置聚类快照簇作为最新时间片快照加入SetAc中存在的轨迹伴随候选组,或者生成新轨迹伴随候选组并将Scs中的位置聚类快照簇放入该新轨迹伴随候选组;
合格性判断模块,连接所述轨迹伴随候选组操作模块,用于根据所述阈值参数设置模块设置的阈值参数判断当前每个轨迹伴随候选组是否合格,如果合格则输出合格的群体轨迹伴随模式详情,如果不合格则将不合格的轨迹伴随候选组置为闭合状态,并从SetAc中移除。
CN201910655594.2A 2019-07-19 2019-07-19 一种大数据环境下的群体轨迹伴随模式在线分析方法和系统 Active CN110580251B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910655594.2A CN110580251B (zh) 2019-07-19 2019-07-19 一种大数据环境下的群体轨迹伴随模式在线分析方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910655594.2A CN110580251B (zh) 2019-07-19 2019-07-19 一种大数据环境下的群体轨迹伴随模式在线分析方法和系统

Publications (2)

Publication Number Publication Date
CN110580251A CN110580251A (zh) 2019-12-17
CN110580251B true CN110580251B (zh) 2023-01-17

Family

ID=68811084

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910655594.2A Active CN110580251B (zh) 2019-07-19 2019-07-19 一种大数据环境下的群体轨迹伴随模式在线分析方法和系统

Country Status (1)

Country Link
CN (1) CN110580251B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111413718B (zh) * 2020-03-27 2021-06-29 杭州华量软件有限公司 一种基于船载视频监控的渔船时空轨迹修正方法及装置
CN111366160B (zh) * 2020-05-25 2020-10-27 深圳市城市交通规划设计研究中心股份有限公司 路径规划方法、路径规划装置及终端设备
CN112100243B (zh) * 2020-09-15 2024-02-20 山东理工大学 一种基于海量时空数据分析的异常聚集检测方法
CN112269844B (zh) * 2020-09-24 2021-08-06 桂林电子科技大学 基于大规模轨迹数据的通用伴随模式分布式挖掘方法
CN112988849B (zh) * 2021-04-27 2021-07-30 北京航空航天大学 一种交通轨迹模式分布式挖掘方法
CN113779105B (zh) * 2021-08-11 2022-12-13 桂林电子科技大学 分布式轨迹流伴随模式挖掘方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5063695B2 (ja) * 2006-08-22 2012-10-31 インターナショナル・ビジネス・マシーンズ・コーポレーション 空間インデックスをトラバースする方法及びシステム
CN109376900A (zh) * 2018-09-07 2019-02-22 北京航空航天大学青岛研究院 基于点云的无人机轨迹生成方法
CN109885891A (zh) * 2019-01-24 2019-06-14 中国科学院合肥物质科学研究院 一种智能车gpu并行加速轨迹规划方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5063695B2 (ja) * 2006-08-22 2012-10-31 インターナショナル・ビジネス・マシーンズ・コーポレーション 空間インデックスをトラバースする方法及びシステム
CN109376900A (zh) * 2018-09-07 2019-02-22 北京航空航天大学青岛研究院 基于点云的无人机轨迹生成方法
CN109885891A (zh) * 2019-01-24 2019-06-14 中国科学院合肥物质科学研究院 一种智能车gpu并行加速轨迹规划方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
NSIM:A robust method to discover similar trajectories on cellular network location data;Yupeng Tuo;《IEEE PIMRC2017》;20171013;全文 *
Online Discovery of Congregate Groups on Sparse Spatio-temporal Data;Tianran Chen;《PIMRC 2018》;20180912;全文 *
P2P僵尸网络跨域体系结构的构建与评估;庹宇鹏;《电子学报》;20180420;全文 *
基于时空数据的伴随分析与社团发现系统设计与实现;张昶昶;《中国优秀硕士学位论文全文数据库》;20190115;全文 *
基于用户轨迹数据的群体聚集模式分析系统的设计与实现;刘路;《中国优秀硕士学位论文全文数据库》;20180215;第2.1.3、3.4.1、3.4.3节 *
面向移动社交网络内容分享的位置隐私保护方法;李超;《通信学报》;20161120;全文 *

Also Published As

Publication number Publication date
CN110580251A (zh) 2019-12-17

Similar Documents

Publication Publication Date Title
CN110580251B (zh) 一种大数据环境下的群体轨迹伴随模式在线分析方法和系统
CN110457315A (zh) 一种基于用户轨迹数据的群体聚集模式分析方法和系统
CN105630988A (zh) 一种快速检测空间数据变化并更新的方法及系统
CN111291776B (zh) 基于众源轨迹数据的航道信息提取方法
CN106709503B (zh) 一种基于密度的大型空间数据聚类算法k-dbscan
CN106060920B (zh) 热点区域确定方法和系统
CN107330734A (zh) 基于Co‑location模式和本体的商业地址选择方法
CN111522968A (zh) 知识图谱融合方法及装置
CN114186073A (zh) 基于子图匹配和分布式查询的运维故障诊断分析方法
CN103945238A (zh) 一种基于用户行为的社区探测方法
CN115456490A (zh) 一种基于地理信息的渔业资源数据分析方法及系统
CN115273372A (zh) 一种园区设备告警方法、系统、装置及存储介质
CN113326343A (zh) 基于多级网格和文件索引的路网数据存储方法及系统
CN113343565B (zh) 顾及空间异质性的邻域效应模式构建与ca模拟方法及系统
CN115205699B (zh) 一种基于cfsfdp改进算法的地图图斑聚类融合处理方法
CN113722415B (zh) 点云数据的处理方法、装置、电子设备及存储介质
CN115424133A (zh) 一种车道级高精度可计算路网构建方法、装置及电子设备
Li et al. The parallel and precision adaptive method of marine lane extraction based on QuadTree
CN113806642A (zh) 一种社交网络快速最大团和极大团搜索方法
CN113946584A (zh) 面向海量矢量数据检索的qrb树索引方法
CN114491061A (zh) 一种多维数据关联分析系统及方法
Ramadhani et al. Implementation of data mining analysis to determine the tuna fishing zone using DBSCAN algorithm
CN114548582B (zh) 动态社交网络社区演化预测方法、系统、存储介质及设备
Wang et al. A comparative study of two density-based spatial clustering algorithms for very large datasets
Bae et al. SD-Miner: A spatial data mining system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant