CN111078754B

CN111078754B - 基于海量时空数据的频繁轨迹提取方法及其挖掘系统

Info

Publication number: CN111078754B
Application number: CN201911314539.3A
Authority: CN
Inventors: 吴善新
Original assignee: Nanjing Baiyue Software Co ltd
Current assignee: Nanjing Baiyue Software Co ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2020-08-25
Anticipated expiration: 2039-12-19
Also published as: CN111078754A

Abstract

本发明提供一种从历史时空数据提取出带时间约束的频繁轨迹的方法，属于大数据挖掘领域。该方法包括连续轨迹切分；对连续轨迹站点去重等数据清洗；1‑频繁轨迹集合生成；支持度阈值α过滤；k+1序列生成；k+1序列的支持度阈值α过滤。反复执行上述由低阶频繁轨迹生成高阶候选轨迹、筛选得到频繁轨迹的步骤，完成对时空数据的所有频繁轨迹的挖掘。在挖掘频繁轨迹的过程中加入了时间间隔约束，使得本发明更具有实际的参考价值和应用性。本发明对海量的历史轨迹数据进行挖掘，通过轨迹划分和子轨迹归纳，最终输出目标的频繁轨迹，对于用户有效处理轨迹数据、滤除冗余信息、研究轨迹间的前后关联等都有重要的意义。

Description

基于海量时空数据的频繁轨迹提取方法及其挖掘系统

技术领域

本发明涉及大数据挖掘领域，是一种基于海量时空数据的轨迹特征提取方法及其系统。

背景技术

由位置和时间戳顺序形成的原始轨迹对于人们来说是没有意义的，不能直观地得到有效信息，需要对海量时空数据进行深度挖掘，找出目标的活动规律。为了解决这一难题，可以通过轨迹划分和轨迹归纳，将满足支持度阈值的频繁轨迹展示给用户。将每一天的轨迹视为一项独立的事务，本问题即可转化为频繁序列挖掘的问题，即将每一个由站点组合形成的路径视为一个频繁序列，我们找出出现次数最多的序列。目前此类算法模型已经有经典的PrefixSpan算法等。PrefixSpan是一种基于序列数据集和支持度阈值α，挖掘数据集中频繁序列的算法。该方法存在明显的不足之处：在挖掘频繁轨迹时，可能会遇到需要对序列的时间进行约束的情形，比如已知两条轨迹<(time1,site1),(time2,site2)>和<(time3,site1),(time4,site2)>,如果time3-time1>Δt,则被视为意义不同的序列，此时经典的PrefixPan算法则无法满足这种带时间约束的频繁序列挖掘需求。

本发明申请主要解决的就是由复杂的目标轨迹数据，提取出其频繁路径的问题。

发明内容

本发明主要解决在海量时空数据时，由复杂的目标轨迹数据提取出其频繁路径的问题。

为了实现上述目的，本发明的技术方案如下：

一种基于海量时空数据的特征轨迹提取方法，包括以下步骤：

S1：时空数据的切分，将原始的时空数据的采集时间向前推N个小时，采集数据按照其前推后的归属日期切分成多条轨迹，形成序列数据集D；

S2：获取序列数据集D、支持度阈值α、去重时间间隔阈值ΔT、相同轨迹点时间间隔阈值Δt；

S3：序列数据集D中的每一个子轨迹去重，在同一站点被连续采集两次或两次以上，且距离第一次记录时间差小于设定阈值ΔT时，只保留第一次采集记录；

S4：将k初始化为1，找出所有长度为k的前缀和对应的投影数据库S；

S5：对长度为1的前缀进行计数，站点相同、时间差在Δt以内的轨迹点视为同一种前缀，将支持度低于阈值α的前缀对应的项从数据集S删除，同时得到所有的频繁1项序列；

S6：判断S5所得频繁序列是否为空集，若是，则执行步骤S8，否则执行步骤S7；

S7：对于每个长度为k+1满足支持度要求的前缀进行递归挖掘；

S8：将所有的频繁序列集合输出到磁盘；

所述的步骤S5具体包括：

S5a：将站点相同的前缀对应的时间组成一个一维张量M，若有n个站点，则M中有n个元素；

S5b：初始化i＝1,开始处理张量中的第一个元素L；

S5c：找出L内时间差最小的两个元素Time1、Time2，若abs(Time1-Time2)<Δt，将Time1和Time2合并为一组，并用均值代替原Time1和Time2，进入步骤S5d，否则，退出步骤S5；

S5d：找出L内时间差最小的两个元素Time3、Time4，Time3和Time4的原所在组为List3和List4，若abs(max(List3)-min(List4))<Δt且abs(max(List3)-min(List4))<Δt，将Time3和Time4合并为一组，用均值代替原Time3和Time4，重复S5c，否则，退出S5d执行S5e；

S5e：删除所有低于支持度阈值α的候选集，获得候选前缀集合；

S5f：i＝i+1，如果i小于张量M的长度，开始处理张量中的第i个元素L，执行步骤S5c，否则执行步骤S5g；

S5g：合并所有站点的候选前缀集合，以前缀为键、前缀出现的次数为值，构建键值对集合；

S5h：将支持度低于阈值α的前缀对应的项从集合删除，得到所有的频繁1项序列。

优选的，所述的步骤S4具体包括：

S4a：初始化i＝1；

S4b：处理数据集D中的第i条轨迹；初始化k＝1，将序列D(i)中的第一个位置点作为第一个前缀，前缀向后的子序列即为对应的前缀投影；

S4c：k＝k+1，如果k小于序列长度，将序列中的k位置点作为第一个前缀，前缀向后的子序列即为对应的前缀投影，否则执行S4d；

S4d：i＝i+1，如果i小于D的长度，执行S4b，否则，执行S4e；

S4e：输出所有的长度为1的前缀，及其对应的前缀投影。

优选的，所述的步骤S7具体包括：

S7a：将长度为k的频繁轨迹初始化为k+1项频繁的前缀；

S7b：初始化i＝1；

S7c：判断第i个k-频繁轨迹在所有轨迹中出现的位置，并构建k+1项频繁轨迹；

S7d：i＝i+1；如果i小于k-频繁轨迹项集的数目，执行S7c步骤，否则，执行S7d；

S7e：统计k+1项频繁轨迹出现的次数；

S7f：删除所有低于支持度阈值α的候选集，获得候选前缀集合。

本发明同时提供一种基于海量时空数据的特征轨迹提取方法的挖掘系统，包括数据预处理模块、1阶频繁轨迹挖掘模块以及k阶频繁轨迹挖掘模块；

所述数据预处理模块用于将数据切分为多个互相独立的序列，并将序列代表的轨迹进行时间差阈值为Δt的去重；

所述的1阶频繁轨迹挖掘模块用于挖掘长度为1的频繁轨迹，包含同一站点内轨迹合并模块和支持度阈值α过滤模块；

所述的k阶频繁轨迹挖掘模块于挖掘长度为k的频繁轨迹，只在k阶频繁轨迹挖掘模块返回值不为空时生效，同样包含了同一站点内轨迹合并模块和支持度阈值α过滤模块。

优选地，客户在输入目标身份的时空数据后，可以输出目标在数据时段内所有的支持度大于阈值α的频繁轨迹。

总体而言，通过本发明的技术方案，可以实现的有益效果为：

本发明针对海量时空数据提出了一种有效的频繁轨迹提取方法，在输入目标身份的时空数据后，可以输出目标在数据时段内的支持度大于阈值的频繁轨迹，克服了目前频繁序列挖掘算法不具有时间约束项的局限性，使得本发明解决了经典的频繁序列挖掘用于挖掘频繁轨迹时应用性较低的问题。

附图说明

图1为本发明方法流程图。

图2为长度为1的轨迹合并算法伪代码图。

具体实施方式

为了能够更清晰的表述本发明的技术手段、创作特征和有效功效，下面将结合具体的实施例阐述本发明。此处描述的具体实施案例仅仅用于解释本发明，并不用于限定本发明。

实施例1

图1示出了本发明所述的基于海量时空数据的频繁轨迹挖掘方法，包括以下几个步骤：

S1：时空数据的切分。将原始的采集数据，按照日期切分成多条轨迹，形成序列数据集D。原始采集时间向前推N个小时(比如前推4小时)，采集数据按照其前推后的归属日期作为其划分日期。当N＝4时，即每一天从当天凌晨4点开始至次日凌晨4点。每一天的轨迹相互独立，每一天的轨迹称为一个事务。

S2：获取序列数据集D、支持度阈值α、去重时间间隔阈值ΔT、相同轨迹点时间间隔阈值Δt。

S3：序列数据集D中的每一个子轨迹进行去重。在同一站点被连续采集两次或两次以上，且记录时间差小于设定阈值ΔT，只保留第一次采集记录。比如某一天的轨迹为<(time1,site1),(time2,site2),(time3,site3),(time4,site3),(time5,site4)>，如果time4-time3<Δt，去重后的轨迹为<(time1,site1),(time2,site2),(time3,site3),(time5,site4)>。

S4：将k初始化为1，找出所有长度为k的前缀和对应的投影数据库S。前缀通俗意义讲就是序列数据前面部分的子序列，长度为k的前缀就是长度为k的子序列。完整序列中前缀后面的子序列就是前缀对应的投影数据。

S5：对长度为k的前缀进行计数，站点相同且时间差在Δt以内的轨迹点视为同一种前缀。将支持度低于阈值α的前缀对应的项从数据集S删除，同时得到所有的频繁1项序列。

S6：判断S5所得频繁序列是否为空集，若是，则执行步骤S8，否则执行步骤S7。

S7：对于每个长度为k+1满足支持度要求的前缀进行递归挖掘

S8：将所有的频繁序列集合输出到磁盘。

优选地，所述的步骤S4具体包括：

S4a：初始化i＝1，处理数据集D中的第i条轨迹。初始化j＝1，将序列D(i)中的第一个位置点作为第一个前缀，前缀向后的子序列即为对应的前缀投影。

S4b：j＝j+1，如果j小于序列长度，将序列中的j位置点作为第一个前缀，前缀向后的子序列即为对应的前缀投影，否则执行S4c。

S4c：i＝i+1，对D中的每一条轨迹执行上述操作。

S4d：输出所有的长度为1的前缀，及其对应的前缀投影。

优选地，所述的步骤S5具体包括：

S5a：将站点相同的前缀对应的时间组成一个一维张量M，若有有n个站点，则M中有n个元素。

S5b：初始化i＝1,开始处理张量中的第一个元素L。

S5c：找出L内时间差最小的两个元素Time1、Time2，若abs(Time1-Time2)<Δt，将Time1和Time2合并为一组，并用均值代替原Time1和Time2，进入步骤S5d，否则，退出步骤S5

S5d：找出L内时间差最小的两个元素Time3、Time4，Time3和time4的原所在组为List3和List4，若abs(max(List3)-min(List4))<Δt且abs(max(List3)-min(List4))<Δt，将Time3和Time4合并为一组，用均值代替原Time3和Time4，重复S5c，否则，退出S5d执行S5e。

S5e：删除所有低于支持度阈值α的候选集，获得候选前缀集合。

S5f：i＝i+1，循环对张量中的每一个元素执行上述操作。

S5g：合并所有站点的候选前缀集合，以前缀为键、前缀出现的次数为值，构建键值对集合。

优选地，所述的步骤S7具体包括：

S7a：将长度为k的频繁轨迹初始化为k+1项频繁的前缀。

S7b：初始化i＝1,判断第i个k-频繁轨迹在所有轨迹中出现的位置，并构建k+1项频繁轨迹。

S7c：i＝i+1；如果i小于k-频繁轨迹项集的数目，执行S7b步骤，否则，执行S7d。

S7d：应用S5c所述的方法合并、统计k+1项频繁轨迹出现的次数。

S7e：删除所有低于支持度阈值α的候选集，获得候选前缀集合。

实施例2

图2示出了根据实施例1中所述方法进行海量时空数据的频繁轨迹挖掘系统，包括数据预处理模块、1阶频繁轨迹挖掘模块、k阶频繁轨迹挖掘模块。

所述数据预处理模块用于将数据切分为多个互相独立的事务，并将事务内的轨迹进行时间差阈值为Δt的去重。

所述的1阶频繁轨迹挖掘模块用于挖掘长度为1的频繁轨迹，包含同一站点内轨迹合并模块和支持度阈值α过滤模块。

综上所述，本发明提供一种从历史时空数据提取出目标身份频繁轨迹的方法，属于大数据挖掘领域。该方法包括连续轨迹按天进行切割；对轨迹进行去重等数据清洗；找出所有事务中的所有长度为1的轨迹，并判断每一种轨迹的出现次数；次数大于设定阈值的次数最多的轨迹即为1项频繁轨迹；同理可以得到目标身份的N项频繁轨迹。本发明对海量的历史轨迹数据进行挖掘，通过轨迹划分和子轨迹归纳，最终将满足支持度阈值的目标频繁轨迹展示给用户，解决了当前频繁序列挖掘算在应用在轨迹挖掘时不能设置时间约束的问题。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于海量时空数据的特征轨迹提取方法，其特征在于，包括以下步骤：

S8：将所有的频繁序列集合输出到磁盘；

所述的步骤S5具体包括：

S5b：初始化i＝1,开始处理张量中的第一个元素L；

2.根据权利要求1所述的基于海量时空数据的特征轨迹提取方法，其特征在于，所述的步骤S4具体包括：

S4a：初始化i＝1；

S4d：i＝i+1，如果i小于D的长度，执行S4b，否则，执行S4e；

S4e：输出所有的长度为1的前缀，及其对应的前缀投影。

3.根据权利要求1所述的基于海量时空数据的特征轨迹提取方法，其特征在于，所述的步骤S7具体包括：

S7a：将长度为k的频繁轨迹初始化为k+1项频繁的前缀；

S7b：初始化i＝1；

S7e：统计k+1项频繁轨迹出现的次数；

4.一种用于实现权利要求1所述的基于海量时空数据的特征轨迹提取方法的挖掘系统，其特征在于，包括数据预处理模块、1阶频繁轨迹挖掘模块以及k阶频繁轨迹挖掘模块；

5.根据权利要求4所述的挖掘系统，其特征在于，客户在输入目标身份的时空数据后，输出目标在数据时段内所有的支持度大于阈值α的频繁轨迹。