CN116361327A - 一种基于二级时空索引的轨迹伴随关系挖掘方法和系统 - Google Patents

一种基于二级时空索引的轨迹伴随关系挖掘方法和系统 Download PDF

Info

Publication number
CN116361327A
CN116361327A CN202310329481.XA CN202310329481A CN116361327A CN 116361327 A CN116361327 A CN 116361327A CN 202310329481 A CN202310329481 A CN 202310329481A CN 116361327 A CN116361327 A CN 116361327A
Authority
CN
China
Prior art keywords
track
sub
tracks
accompanying
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310329481.XA
Other languages
English (en)
Inventor
王晨旭
汪谨权
杨鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202310329481.XA priority Critical patent/CN116361327A/zh
Publication of CN116361327A publication Critical patent/CN116361327A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2246Trees, e.g. B+trees
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于二级时空索引的轨迹伴随关系挖掘方法和系统,包括:对轨迹数据预处理,得到具有伴随查询意义的子轨迹;将具有伴随查询意义的子轨迹模糊化,得到使查询结果更准确的子轨迹;将模糊化后的子轨迹在时间和空间上进行轨迹聚类,得到聚类完成的索引结构;将聚类完成的索引结构的索引项进行合并,得到轨迹之间的完整伴随结果。本发明中通过将模糊化后的子轨迹在时间和空间上进行轨迹聚类,得到聚类完成的索引结构,使得索引结构能够直接得到伴随轨迹对,避免了轨迹对之间的相似性计算,大大提高了伴随轨迹查询效率。

Description

一种基于二级时空索引的轨迹伴随关系挖掘方法和系统
技术领域
本发明涉及时空数据的相似伴随对高效查询应用领域,具体涉及一种基于二级时空索引的轨迹伴随关系挖掘方法和系统。
背景技术
海量的空间轨迹数据集中包含了各种移动物体的移动性,最近的技术大都使用Fréchet距离计算方法或者最长公共子序列计算方法与LSH方法结合,LSH方法对轨迹进行粗分类对轨迹进行聚类,但是利用LSH将轨迹分割为若干个轨迹片段时,存在轨迹信息丢失的问题导致伴随轨迹查询的准确率降低;还有一些方法利用单个轨迹位置点对轨迹聚类的索引结构,但是这类方法在构建轨迹的索引结构时没有考虑到轨迹在时间上的相似度,且Fréchet距离计算方法在计算时也不考虑轨迹在时间上的相似度,得到的相似轨迹与查询轨迹的轨迹产生时间不同。最长公共子序列求轨迹相似度虽然没有丢弃时间的限制,但其计算时间复杂度是平方级别的,当面对海量数据的长轨迹时效率低下,导致相似伴随对的计算效率低下,不适用于对查询效率要求较高的应用场景。
发明内容
针对现有技术的缺陷,本发明提出了一种基于二级时空索引的轨迹伴随关系挖掘方法和系统,尽可能高效的挖掘出具有伴随关系的轨迹对,对时效性要求较高的场景时,能够快速完成任务的朔源。
一种基于二级时空索引的轨迹伴随关系挖掘方法,包括以下步骤:
获取轨迹数据,对轨迹数据预处理,得到具有伴随查询意义的子轨迹;
将具有伴随查询意义的子轨迹模糊化,得到使查询结果更准确的子轨迹;
将模糊化后的子轨迹在时间和空间上进行轨迹聚类,得到聚类完成的索引结构;
将聚类完成的索引结构的索引项进行合并,得到轨迹之间的完整伴随结果。
进一步的,对轨迹数据预处理,得到具有伴随查询意义的子轨迹,包括以下过程:从给定的数据文件中读取轨迹数据,将轨迹数据进行压缩保存在内存数组中并将轨迹数据划分为长度相同的子轨迹,对无移动特征的子轨迹进行过滤,得到具有伴随查询意义的子轨迹。
进一步的,对轨迹数据预处理,得到具有伴随查询意义的子轨迹,包括以下过程:
S11:对于用户,由时间time、经度lon、纬度lat三维表示的位置点按时间信息排序组成的轨迹数据,使用空间索引方法对轨迹数据在内存中的存储方式进行压缩为一维表示pos_id,得到按时间信息先后排序的轨迹向量;
S12:对于步骤S11得到的轨迹向量,为每个用户初始化一个长度相同的数组保存轨迹数据信息;
S13:针对长度相同的数组,利用双指针的方法,设定左右指针之间的距离l,左指针的初始位置从数组的第一个下标0开始,右指针的初始位置为0+l,截取数组左右指针中间的轨迹数组[0,0+l)构成一条子轨迹,且左右指针同时向右移动一个位置点,直至截取完所有的子轨迹;
S14:对截取的所有的子轨迹中进行数据分析,监控子轨迹中的轨迹位置点变化次数以及矢量移动距离,若不满足设定的要求,则判断子轨迹移动异常,不满足真实的移动信息,对移动异常的子轨迹进行抛弃,防止产生错误的伴随结果。
进一步的,判断子轨迹移动异常方法为:对于由轨迹位置点按时间信息先后组成的子轨迹,统计子轨迹中的位置点pos_id的变化次数以及矢量移动距离,对于在同一个区域一直未移动轨迹或者由于位置采集装置发生位置漂移导致空间信息在多个区域中来回跳动导致的假移动轨迹,判断为子轨迹移动异常,若子轨迹中的轨迹位置点在满足变化次数的要求,矢量移动距离不满足设定的长度时,判断子轨迹移动异常。
进一步的,将具有伴随查询意义的子轨迹模糊化,得到使查询结果更准确的子轨迹,包括以下步骤:
对于每一条具有伴随查询意义的子轨迹,对除去开始和结束位置点外的所有位置点,均匀的对子轨迹中剩下的l-2个轨迹位置点进行抽样模糊,设定每次抽样的轨迹位置点的个数为o,对于每次抽样的o个位置点,将抽取到的位置点置换为通配符,每条子轨迹衍生出
Figure SMS_1
条子轨迹obsSubTra;其中,l为具有伴随查询意义的子轨迹的长度。
进一步的,将模糊化后的子轨迹在时间和空间上进行轨迹聚类,得到聚类完成的索引结构,包括以下过程:
在时间上对使查询结果更准确的子轨迹进行聚类,将在时间上有伴随关系的轨迹聚类到同一个索引项,得到第一层时间索引结构;然后将在空间上具有伴随关系的子轨迹聚类在同一个第二层空间索引结构的索引项上,得到聚类所有轨迹的索引结构。
进一步的,将模糊化后的子轨迹在时间和空间上进行轨迹聚类,得到聚类完成的索引结构,具体包括以下过程:
S31:将一天的时间划分为若干个时间覆盖范围大小相同的时间槽,当时间槽宽度为slot时,一天划分为24/slot个时间槽,利用具有伴随查询意义的子轨迹和使查询结果更准确的子轨迹的第一个位置点的时间信息startTime进行第一层聚类,将具有伴随查询意义的子轨迹和使查询结果更准确的子轨迹映射到第startTime/slot个时间槽中,得到第一层时间索引结构;
S32:对于第一层时间索引结构中同一个时间槽中的所有子轨迹,计算子轨迹的空间信息的哈希值并利用哈希值在空间上进行聚类,得到第二层空间索引结构;
S33:对步骤S32中所有第二层空间索引结构的索引项进行遍历,对于每条子轨迹subTra,对子轨迹中的轨迹位置点进行模糊化后,得到衍生出来的子轨迹;将每一条子轨迹衍生出来的子轨迹在第二层空间索引结构中索引项中的轨迹ID合并到子轨迹subTra所在的第二层空间索引结构的索引项中,并且在合并时,将衍生出来的子轨迹所在第二层轨迹索引结构的索引项中的轨迹ID添加一个标识ID_o;对于合并后索引项中轨迹ID数量小于2的索引项进行删除,得到聚类完成的索引结构;
哈希值计算公式为:
Figure SMS_2
其中n为subTra的长度,s[i]为subTra的第i个字符的ASCII码。
进一步的,将模糊化后的子轨迹在时间和空间上进行轨迹聚类,得到聚类完成的索引结构,包括以下步骤:
S41:每一个第二层空间索引结构的索引项中保存了一个轨迹ID的集合,对集合中带有标记的轨迹ID和不带有标记的轨迹ID之间、两个不带有标记的轨迹ID之间抽取,得到具有伴随关系的轨迹对;
S42:对于具有伴随关系的轨迹对,将具有伴随关系的轨迹对都保存在前缀树中,得到聚类完成的索引结构。
进一步的,将具有伴随关系的轨迹对保存到前缀树的方法为:利用具有伴随关系的轨迹对ID在前缀树中查询该轨迹对是否已经有伴随信息,判断已有的伴随信息与当前要保存的具有伴随关系的轨迹对中的伴随信息是否有重复部分,若没有重复部分,将具有伴随关系的轨迹对保存;若有重复部分则进行合并,得到聚类完成的索引结构。
一种基于二级时空索引的轨迹伴随关系挖掘系统,包括:
子轨迹模糊模块,用于将具有伴随查询意义的子轨迹模糊化,得到使查询结果更准确的子轨迹;
轨迹聚类模块,用于将模糊化后的子轨迹在时间和空间上进行轨迹聚类,得到聚类完成的索引结构;
轨迹合并模块,用于将聚类完成的索引结构的索引项进行合并,得到轨迹之间的完整伴随结果。
与现有技术相比,本发明具有的有益效果:
本发明中通过将模糊化后的子轨迹在时间和空间上进行轨迹聚类,得到聚类完成的索引结构,使得索引结构能够直接得到伴随轨迹对,避免了轨迹对之间的相似性计算,大大提高了伴随轨迹查询效率。
进一步的,同时对于索引结构得到的伴随结果,本发明观察到轨迹ID为手机号,结合手机号的特征使用前缀树数据结构对伴随结果进行保存,对数中节点进行重复利用,不仅降低了伴随结果的内存消耗,且由于前缀树的查询时间复杂度为O(n),n为前缀树的深度,本发明中前缀树深度为6,使得伴随结果的查询高效且稳定。
进一步的,本发明在时间和空间上构建二层轨迹索引结构对轨迹进行更加细粒度的聚类,本发明基于双指针方法截取的子轨迹解决了已有方法在构建索引结构时存在轨迹信息丢失的问题,使用子轨迹模糊化方法,
附图说明
图1是本发明的实施例提供的一种基于二级时空索引的轨迹伴随关系挖掘系统的结构示意图。
图2是本发明的实施例提供的一种基于二级时空索引的轨迹伴随关系挖掘方法的流程示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行详细说明,显然,所描述的实施仅仅时本发明一部分实施例,而不是全部例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图2,一种基于二级时空索引的轨迹伴随关系挖掘方法,包括以下步骤:
1)轨迹数据预处理:
从存储了用户移动数据信息的文件中读取轨迹数据,将轨迹数据进行压缩保存在内存数组中并将轨迹数据划分为长度相同的子轨迹,对无移动特征的子轨迹进行过滤,得到具有伴随查询意义的子轨迹;
具体的,所述轨迹数据预处理模块的具体实现方法为:
S11:对于用户,由时间(time)、经度(lon)、纬度(lat)三维表示的位置点按时间信息排序组成的轨迹数据,对轨迹数据在内存中的存储方式进行压缩,对于由(lon,lat)二维表示的空间信息,使用空间索引方法将其压缩为一维表示pos_id,将每个位置点表示为(time,pos_id),因此每条轨迹在内存中被压缩为由二维位置点(time,pos_id)按时间信息先后排序的轨迹向量。
其中,空间索引方法为:将地图范围划分为若干个面积相等的正方形并给每个正方形赋予一个整数型ID,对于每一个经纬度,都将映射到对应的正方形中,那么这个经纬度的表示就为该正方形的ID。
S12:对于每个用户的轨迹向量,为每个用户初始化一个长度相同的数组保存轨迹数据信息,数组的长度Len取决于轨迹位置点的采集频率θ,若θ=5分钟,即位置采集装置每5分钟为用户收集一次位置信息,由于每天有24*60分钟,则数组长度为24*60/5=288。数组中保存着轨迹位置点空间信息的一维表示pos_id,而轨迹位置点在数组的位置则保存了轨迹位置点的时间time,数组的下标subS表示的时间信息为subS*θ。
S13:针对长度相同的数组,利用双指针的方法,设定左右指针之间的距离l,左指针的初始位置从数组的第一个下标即0开始,故右指针的初始位置为0+l,截取数组左右指针中间的轨迹数组[0,0+l)构成一条子轨迹,且左右指针同时向右移动一个位置点直至截取完所有的子轨迹;
S14:对截取的所有的子轨迹中进行数据分析,监控子轨迹中的轨迹位置点变化次数以及矢量移动距离,若不满足设定的要求,则判断子轨迹移动异常,不满足真实的移动信息,对移动异常的子轨迹进行抛弃,防止产生错误的伴随结果。
在所述步骤S14中,判断子轨迹移动异常方法为:对于由轨迹位置点按时间信息subS*θ先后组成的子轨迹,统计子轨迹中的位置点pos_id的变化次数以及矢量移动距离,对于那些在同一个区域一直未移动轨迹或者由于位置采集装置发生位置漂移导致空间信息在多个区域中来回跳动导致的假移动轨迹判断为子轨迹移动异常,同时,若子轨迹中的轨迹位置点在满足变化次数的要求,但是矢量移动距离不满足设定的长度时,依旧判断子轨迹移动异常。
2)模糊子轨迹:
将子轨迹信息模糊化,由于位置采集装置在采集位置数据时会出现位置漂移问题导致采集到错误的位置信息,导致原本伴随的子轨迹在数据上无法计算出伴随的结果。因此使用位置点模糊化操作对子轨迹进行处理,还原子轨迹之间的伴随结果,得到使查询结果更准确的子轨迹。
具体的,对于所述的轨迹预处理模块得到的每一条长度为l的子轨迹,对除去开始和结束位置点外的所有位置点,均匀的对子轨迹中剩下的l-2个轨迹位置点进行抽样模糊,设定每次抽样的轨迹位置点的个数为o,对于每次抽样的o个位置点。将抽取到的位置点置换为通配符,即每条子轨迹可以衍生出
Figure SMS_3
条子轨迹obsSubTra。
3)聚类轨迹:
将模糊化后的子轨迹在时间和空间上先后进行轨迹聚类,得到聚类完成的索引结构。首先构建实现第一层时间索引结构,在时间上对轨迹进行聚类,将在时间上有伴随关系的轨迹聚类到同一个索引项;然后在第一层时间索引结构的基础上对同一个时间范围内的轨迹构建第二层空间索引结构,将在空间上具有伴随关系的子轨迹聚类在同一个第二层空间索引结构的索引项上,得到聚类所有轨迹的索引结构。
对于每一条子轨迹,先后在时间和空间上计算子轨迹之间的时间伴随信息和空间伴随信息,构造一个二级索引结构,利用子轨迹之间的伴随关系将有伴随关系的子轨迹聚类到一起。聚类的具体过程包括:
S31:首先构建第一层时间索引结构:将一天的时间划分为若干个时间覆盖范围大小相同的时间槽,当时间槽宽度为slot时,一天即被划分为24/slot个时间槽。利用具有伴随查询意义的子轨迹和使查询结果更准确的子轨迹的第一个位置点的时间信息startTime进行第一层聚类,将具有伴随查询意义的子轨迹和使查询结果更准确的子轨迹映射到第startTime/slot个时间槽中。
S32:构建第二层空间索引结构:对于同一个时间槽中的所有子轨迹,为子轨迹的空间信息计算哈希值并利用计算得到的哈希值在空间上进行聚类。由于子轨迹表示为位置点按序组成的字符串(subTra),使用哈希方法计算得到子轨迹的哈希值,根据哈希值对子轨迹进行聚类,具体的哈希值计算公式为:
Figure SMS_4
其中n为subTra的长度,s[i]为subTra的第i个字符的ASCII码。
第二层空间索引结构构建完成后,对于构建完成的具有二层索引的完整轨迹索引结构,每一个二级空间索引项中的所有轨迹都在时间和空间上同时具有伴随关系,在时间的伴随关系由第一层时间索引结构中的时间槽和第二层空间索引结构中子轨迹的长度同时确定,该子轨迹的长度为超参,由左右指针之间的距离l确定。当在第i个时间槽时,子轨迹之间的时间伴随信息为(i*slot,i*slot+l*θ)。
S33:对步骤S32中所有第二层空间索引结构的索引项进行遍历,对于每条子轨迹subTra,对子轨迹中的轨迹位置点进行模糊化后得到
Figure SMS_5
条衍生出来的子轨迹
Figure SMS_6
Figure SMS_7
将每一条子轨迹衍生出来的子轨迹在第二层空间索引结构中索引项中的轨迹ID合并到subTra所在的第二层空间索引结构的索引项中,并且在合并时,将衍生出来的子轨迹所在第二层轨迹索引结构的索引项中的轨迹ID(手机号)添加一个标识ID_o,表明该轨迹ID是来源于衍生出来的子轨迹索引项。同时对于合并后索引项中轨迹ID数量小于2的索引项进行删除,得到聚类完成的索引结构。
4)合并轨迹:
将聚类完成的索引结构的索引项进行合并,得到轨迹之间的完整伴随结果,实现定位;具体过程包括如下步骤:
S41:对于所述的聚类完成的索引结构,每一个第二层空间索引结构的索引项中保存了一个轨迹ID的集合,集合中的轨迹ID分为两类:原始子轨迹subTra索引项中的轨迹ID集合和衍生子轨迹obsSubTra索引项中轨迹ID集合被合并到其原始子轨迹所在索引项的轨迹ID集合中的被标记的轨迹ID_o。当集合为(id1,id2,idO_1,idO_2),为了使获得的具有伴随关系的子轨迹之间的正确的位置点数量大于l-o,对集合中带有标记的手机号和不带有标记的手机号之间、两个不带有标记的手机号之间抽取得到具有伴随关系的轨迹对,即(id1,id2)、(id1,idO_1)、(id1,idO_2)、(id2,idO_1),(id2,idO_2)。对于不带有标记之间的手机号认为其手机号所代表的轨迹对之间的位置点误差数量高于每次抽样的o个位置点,如(idO_1,idO_2)。
S42:对于步骤S41中获取到的具有伴随关系的轨迹对,将具有伴随关系的轨迹对都保存在前缀树中。
根据手机号的组成特征,前三位携带其运营商信息,接下来四位代表手机号所属地的地域信息,最后四位为随机无规律的数字组成。因此构建一颗深度为6的前缀树,设定根节点所有层数为第一层,叶节点所在层数为第六层。前缀树的第一层包含手机号的前三位标识即手机号所属运营商,第二层包含手机号接下来的四位标拾即手机号所述地域信息,接下来的四层每一层分别标识手机号剩下的四位。因此前缀的根节点到每一个叶节点的路径都构成了一个手机号,叶子节点中保存着与该手机号所代表的轨迹的伴随轨迹信息,主要包括轨迹对之间的伴随时间段和伴随的空间信息。
将具有伴随关系的轨迹对保存到前缀树的方法为:首先利用具有伴随关系的轨迹对ID即手机号在前缀树中查询该轨迹对是否已经有伴随信息,由于前缀树中保存如果有伴随信息轨迹对是单向,因此在对插入具有伴随关系的轨迹对时,对具有伴随关系的轨迹对中的两个手机号都进行查询,判断已有的伴随信息与当前要保存的具有伴随关系的轨迹对中的伴随信息是否有重复部分,若没有重复部分,将具有伴随关系的轨迹对保存;若有重复部分则进行合并,得到轨迹之间的完整伴随结,其中,合并的具体过程为:前缀树的叶子节点中保存的伴随信息包括轨迹对伴随的时间段和伴随轨迹。对于步骤S41中的轨迹对,可以根据索引结构的第一层时间索引结构中的时间槽确定轨迹对的伴随开始时间s_t,根据子轨迹中位置点的个数和位置点采样频率确定轨迹对的伴随结束时间e_t,得到轨迹对的伴随时间段(s_t,e_t)。判断该时间段与叶子节点中保存的时间段是否有交集。若有交集,则取时间段的最小值和最大值组成新的伴随时间段,并截取多出来的轨迹段添加到原来的伴随轨迹上,将结果保存到前缀树中。
参见图1,本发明的一种基于二级时空索引的轨迹伴随关系挖掘系统,包括轨迹数据预处理模块、子轨迹模糊模块、轨迹聚类模块和轨迹合并模块;
一种基于二级时空索引的轨迹伴随关系挖掘系统,其特征在于,包括:
子轨迹模糊模块,用于将具有伴随查询意义的子轨迹模糊化,得到使查询结果更准确的子轨迹;
轨迹聚类模块,用于将模糊化后的子轨迹在时间和空间上进行轨迹聚类,得到聚类完成的索引结构;
轨迹合并模块,用于将聚类完成的索引结构的索引项进行合并,得到轨迹之间的完整伴随结果。
本发明提出了一种基于二级时空索引的轨迹伴随关系挖掘方法和系统,尽可能高效的挖掘出具有伴随关系的轨迹对,面对公安治理、疫情防控等对时效性要求较高的场景时,能够快速完成任务的朔源。
仿真例:
为验证本发明方法的有效性,模拟多种真实场景下的用户伴随,通过对当天XX省包含四千五百万条轨迹的数据集构建索引结构完成轨迹聚类,查询伴随结果验证本发明提出方法的有效性。通过多个测试人员在2022年10月20号至2022年11月20号时间范围内利用多种交通工具出现,一起出行的测试人员视为伴随轨迹对,测试结果利用覆盖率来衡量验证结果的有效性,覆盖率定义为:
Figure SMS_8
式中findCount为从伴随结果中查询到的伴随轨迹对数量,existCount为已知模拟存在的伴随轨迹对数量。
表1范围采样方式的轨迹伴随有效性实验
Figure SMS_9
Figure SMS_10
实验结果如表1所示,结果表明在不同的出行方式下索引项模糊化方法在伴随轨迹查询结果中覆盖率都达到了85%以上。为验证查询结果的准确性,对查询到的伴随对轨迹数据进行分析,结果表示用户轨迹对的移动路径均为从西安市的陈家庄小区出发,沿着科技路、吉祥路、小寨西路、长安中路到达目的地小寨,分析结果表明用户轨迹对之间确实存在伴随关系。
对伴随结果覆盖率较低的轨迹对数据进行分析,模拟时存在伴随关系的轨迹对而伴随结果中未查询到伴随结果时,分析这类轨迹对未得到伴随结果的原因。用户轨迹对的真实移动路径均为从延安市的延安大小附属医院出发,沿着沿河北路、高新大道、520国道、党郭路到达目的地延安汽车站。但是由于采集到的轨迹数据存在误差,采集位置信息时出现多个基站信号来回切换的问题,导致轨迹数据中存在多个错误的位置信息,从轨迹信息角度无法得出轨迹之间存在伴随的关系。轨迹对中的一条轨迹的数据显示路径为沿河北路、高新大道、沿河北路、520国道、党郭路、520国道、党郭路最终到达目的地延安汽车站,与真实移动路径相比差异较大,从轨迹信息角度无法得出轨迹之间存在伴随的关系,因此索引结构未能查询到伴随结果,表明本发明的索引项模糊化方法的有效性,对于轨迹数据上具有伴随关系的轨迹本发明的方法均能得出伴随结果关系,对于这类由于采集误差导致的轨迹无伴随的情况,可通过在轨迹数据聚类之前先对轨迹数据进行预处理,对于这类在多个基站之间漂移的轨迹进行修正,进一步提高伴随结果的覆盖率。
在效率方面,针对45560248条长度为1440轨迹,本发明方法耗时7.92h小时得到所有伴随轨迹对,得到伴随结果。对于伴随结果的查询,本发明方法的结果查询时间小于1s,满足高时效的伴随轨迹查询应用场景。
本发明在时间和空间上构建二层轨迹索引结构对轨迹进行更加细粒度的聚类,本发明基于双指针方法截取的子轨迹解决了已有方法在构建索引结构时存在轨迹信息丢失的问题,使用子轨迹模糊化方法,使得索引结构能够直接得到伴随轨迹对,避免了轨迹对之间的相似性计算,大大提高了伴随轨迹查询效率。同时对于索引结构得到的伴随结果,本发明观察到轨迹ID为手机号,结合手机号的特征使用前缀树数据结构对伴随结果进行保存,对数中节点进行重复利用,不仅降低了伴随结果的内存消耗,且由于前缀树的查询时间复杂度为O(n),n为前缀树的深度,本发明中前缀树深度为6,使得伴随结果的查询高效且稳定。

Claims (10)

1.一种基于二级时空索引的轨迹伴随关系挖掘方法,其特征在于,包括以下步骤:
获取轨迹数据,对轨迹数据预处理,得到具有伴随查询意义的子轨迹;
将具有伴随查询意义的子轨迹模糊化,得到使查询结果更准确的子轨迹;
将模糊化后的子轨迹在时间和空间上进行轨迹聚类,得到聚类完成的索引结构;
将聚类完成的索引结构的索引项进行合并,得到轨迹之间的完整伴随结果。
2.根据权利要求1所述的一种基于二级时空索引的轨迹伴随关系挖掘方法,其特征在于,对轨迹数据预处理,得到具有伴随查询意义的子轨迹,包括以下过程:从给定的数据文件中读取轨迹数据,将轨迹数据进行压缩保存在内存数组中并将轨迹数据划分为长度相同的子轨迹,对无移动特征的子轨迹进行过滤,得到具有伴随查询意义的子轨迹。
3.根据权利要求1所述的一种基于二级时空索引的轨迹伴随关系挖掘方法,其特征在于,对轨迹数据预处理,得到具有伴随查询意义的子轨迹,包括以下过程:
S11:对于用户,由时间time、经度lon、纬度lat三维表示的位置点按时间信息排序组成的轨迹数据,使用空间索引方法对轨迹数据在内存中的存储方式进行压缩为一维表示pos_id,得到按时间信息先后排序的轨迹向量;
S12:对于步骤S11得到的轨迹向量,为每个用户初始化一个长度相同的数组保存轨迹数据信息;
S13:针对长度相同的数组,利用双指针的方法,设定左右指针之间的距离l,左指针的初始位置从数组的第一个下标0开始,右指针的初始位置为0+l,截取数组左右指针中间的轨迹数组[0,0+l)构成一条子轨迹,且左右指针同时向右移动一个位置点,直至截取完所有的子轨迹;
S14:对截取的所有的子轨迹中进行数据分析,监控子轨迹中的轨迹位置点变化次数以及矢量移动距离,若不满足设定的要求,则判断子轨迹移动异常,不满足真实的移动信息,对移动异常的子轨迹进行抛弃,防止产生错误的伴随结果。
4.根据权利要求3所述的一种基于二级时空索引的轨迹伴随关系挖掘方法,其特征在于,判断子轨迹移动异常方法为:对于由轨迹位置点按时间信息先后组成的子轨迹,统计子轨迹中的位置点pos_id的变化次数以及矢量移动距离,对于在同一个区域一直未移动轨迹或者由于位置采集装置发生位置漂移导致空间信息在多个区域中来回跳动导致的假移动轨迹,判断为子轨迹移动异常,若子轨迹中的轨迹位置点在满足变化次数的要求,矢量移动距离不满足设定的长度时,判断子轨迹移动异常。
5.根据权利要求1所述的一种基于二级时空索引的轨迹伴随关系挖掘方法,其特征在于,将具有伴随查询意义的子轨迹模糊化,得到使查询结果更准确的子轨迹,包括以下步骤:
对于每一条具有伴随查询意义的子轨迹,对除去开始和结束位置点外的所有位置点,均匀的对子轨迹中剩下的l-2个轨迹位置点进行抽样模糊,设定每次抽样的轨迹位置点的个数为o,对于每次抽样的o个位置点,将抽取到的位置点置换为通配符,每条子轨迹衍生出
Figure FDA0004154430600000021
条子轨迹obsSubTra;其中,l为具有伴随查询意义的子轨迹的长度。
6.根据权利要求1所述的一种基于二级时空索引的轨迹伴随关系挖掘方法,其特征在于,将模糊化后的子轨迹在时间和空间上进行轨迹聚类,得到聚类完成的索引结构,包括以下过程:
在时间上对使查询结果更准确的子轨迹进行聚类,将在时间上有伴随关系的轨迹聚类到同一个索引项,得到第一层时间索引结构;然后将在空间上具有伴随关系的子轨迹聚类在同一个第二层空间索引结构的索引项上,得到聚类所有轨迹的索引结构。
7.根据权利要求1所述的一种基于二级时空索引的轨迹伴随关系挖掘方法,其特征在于,将模糊化后的子轨迹在时间和空间上进行轨迹聚类,得到聚类完成的索引结构,具体包括以下过程:
S31:将一天的时间划分为若干个时间覆盖范围大小相同的时间槽,当时间槽宽度为slot时,一天划分为24/slot个时间槽,利用具有伴随查询意义的子轨迹和使查询结果更准确的子轨迹的第一个位置点的时间信息startTime进行第一层聚类,将具有伴随查询意义的子轨迹和使查询结果更准确的子轨迹映射到第startTime/slot个时间槽中,得到第一层时间索引结构;
S32:对于第一层时间索引结构中同一个时间槽中的所有子轨迹,计算子轨迹的空间信息的哈希值并利用哈希值在空间上进行聚类,得到第二层空间索引结构;
S33:对步骤S32中所有第二层空间索引结构的索引项进行遍历,对于每条子轨迹subTra,对子轨迹中的轨迹位置点进行模糊化后,得到衍生出来的子轨迹;将每一条子轨迹衍生出来的子轨迹在第二层空间索引结构中索引项中的轨迹ID合并到子轨迹subTra所在的第二层空间索引结构的索引项中,并且在合并时,将衍生出来的子轨迹所在第二层轨迹索引结构的索引项中的轨迹ID添加一个标识ID_o;对于合并后索引项中轨迹ID数量小于2的索引项进行删除,得到聚类完成的索引结构;
哈希值计算公式为:
Figure FDA0004154430600000031
其中n为subTra的长度,s[i]为subTra的第i个字符的ASCII码。
8.根据权利要求1所述的一种基于二级时空索引的轨迹伴随关系挖掘方法,其特征在于,将模糊化后的子轨迹在时间和空间上进行轨迹聚类,得到聚类完成的索引结构,包括以下步骤:
S41:每一个第二层空间索引结构的索引项中保存了一个轨迹ID的集合,对集合中带有标记的轨迹ID和不带有标记的轨迹ID之间、两个不带有标记的轨迹ID之间抽取,得到具有伴随关系的轨迹对;
S42:对于具有伴随关系的轨迹对,将具有伴随关系的轨迹对都保存在前缀树中,得到聚类完成的索引结构。
9.根据权利要求1所述的一种基于二级时空索引的轨迹伴随关系挖掘方法,其特征在于,将具有伴随关系的轨迹对保存到前缀树的方法为:利用具有伴随关系的轨迹对ID在前缀树中查询该轨迹对是否已经有伴随信息,判断已有的伴随信息与当前要保存的具有伴随关系的轨迹对中的伴随信息是否有重复部分,若没有重复部分,将具有伴随关系的轨迹对保存;若有重复部分则进行合并,得到聚类完成的索引结构。
10.一种基于二级时空索引的轨迹伴随关系挖掘系统,其特征在于,包括:
子轨迹模糊模块,用于将具有伴随查询意义的子轨迹模糊化,得到使查询结果更准确的子轨迹;
轨迹聚类模块,用于将模糊化后的子轨迹在时间和空间上进行轨迹聚类,得到聚类完成的索引结构;
轨迹合并模块,用于将聚类完成的索引结构的索引项进行合并,得到轨迹之间的完整伴随结果。
CN202310329481.XA 2023-03-30 2023-03-30 一种基于二级时空索引的轨迹伴随关系挖掘方法和系统 Pending CN116361327A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310329481.XA CN116361327A (zh) 2023-03-30 2023-03-30 一种基于二级时空索引的轨迹伴随关系挖掘方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310329481.XA CN116361327A (zh) 2023-03-30 2023-03-30 一种基于二级时空索引的轨迹伴随关系挖掘方法和系统

Publications (1)

Publication Number Publication Date
CN116361327A true CN116361327A (zh) 2023-06-30

Family

ID=86936645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310329481.XA Pending CN116361327A (zh) 2023-03-30 2023-03-30 一种基于二级时空索引的轨迹伴随关系挖掘方法和系统

Country Status (1)

Country Link
CN (1) CN116361327A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116842285A (zh) * 2023-07-27 2023-10-03 中国人民解放军陆军工程大学 基于时空轨迹数据的目标伴随模式挖掘方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116842285A (zh) * 2023-07-27 2023-10-03 中国人民解放军陆军工程大学 基于时空轨迹数据的目标伴随模式挖掘方法
CN116842285B (zh) * 2023-07-27 2024-05-03 中国人民解放军陆军工程大学 基于时空轨迹数据的目标伴随模式挖掘方法

Similar Documents

Publication Publication Date Title
CN108536851B (zh) 一种基于移动轨迹相似度比较的用户身份识别方法
Zhao et al. Rest: A reference-based framework for spatio-temporal trajectory compression
CN109828967B (zh) 一种伴随关系获取方法、系统、设备、存储介质
CN108595539B (zh) 一种基于大数据的行迹相似对象识别方法与系统
CN106960006B (zh) 一种不同轨迹间相似度度量系统及其度量方法
CN111307164B (zh) 一种低采样率轨迹地图匹配方法
CN112015835A (zh) Geohash压缩的地图匹配方法
CN113051359A (zh) 一种基于多级索引结构的大规模轨迹数据相似性查询方法
CN111292356B (zh) 运动轨迹与道路的匹配方法及装置
CN110275911B (zh) 基于频繁序列模式的私家车出行热点路径挖掘方法
CN116361327A (zh) 一种基于二级时空索引的轨迹伴随关系挖掘方法和系统
Jin et al. Frequency-based randomization for guaranteeing differential privacy in spatial trajectories
Cai et al. The mining of urban hotspots based on multi-source location data fusion
CN113483729A (zh) 一种基于隐私保护和机器负载平衡的经纬测距方法
CN112765120A (zh) 一种基于手机信令分析和提取用户移动轨迹的方法
CN115292962B (zh) 基于轨迹抽稀的路径相似度匹配方法、设备及存储介质
CN111651484A (zh) 基于语义轨迹相似度移动对象伴随关系的分析方法和装置
Wang et al. Accurate Detection of Road Network Anomaly by Understanding Crowd's Driving Strategies from Human Mobility
CN117009678A (zh) 一种轨迹重合度检测方法、装置及电子设备
CN114935773A (zh) 基于北斗定位的在线道路匹配方法、装置、介质和设备
Wang et al. Grid‐Based Whole Trajectory Clustering in Road Networks Environment
CN111897805A (zh) 基于最长公共子轨迹密度聚类的热点路径挖掘方法
CN111428063A (zh) 基于地理空间位置划分的图像特征关联处理方法及系统
Wan et al. Phone‐vehicle trajectory matching framework based on ALPR and cellular signalling data
CN116452014B (zh) 应用于城市规划的企业集群确定方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination