CN111107493B

CN111107493B - 一种移动用户位置预测方法与系统

Info

Publication number: CN111107493B
Application number: CN201811248189.0A
Authority: CN
Inventors: 田世明; 卜凡鹏; 张勇; 凌平; 苏运; 郭乃网
Original assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Shanghai Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; China Electric Power Research Institute Co Ltd CEPRI; State Grid Shanghai Electric Power Co Ltd
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2022-09-02
Anticipated expiration: 2038-10-25
Also published as: CN111107493A

Abstract

本发明具体涉及一种移动用户位置预测方法与系统，包括基于移动运营商的基站数据获取用户位置相关的数据，基于所述用户位置相关数据以及预先计算的所述用户轨迹的频繁轨迹，确定当前移动用户的走向预测，所述用户轨迹的频繁轨迹基于并行框架，采用FP‑Growth算法与负载均衡算法相结合的方式确定。一种移动用户位置预测方法与系统，本专利使得在每天产生大量的移动位置数据情况下，能够快速的对已有的位置预测方法对海量移动数据进行数据挖掘，快速深入挖掘移动数据的潜在信息的问题。

Description

一种移动用户位置预测方法与系统

技术领域

本发明属于数据挖掘技术领域，涉及一种移动用户位置预测方法与系统。

背景技术

近年来，随着移动互联网的快速发展，智能手机的广泛应用，大数据时代的到来，社交、移动和位置的相互融合以及发展，各种基于位置的服务和应用给大众日常生活带来了极大便利，并将更深入的影响人们的生活方式。准确的位置预测在导航、疾病预防、移动广告和城市规划等诸多方面有着广泛的应用；

在现实生活中，大部分移动用户的行为都具有一定的规律，如果对用户移动的历史记录进行频繁模式挖掘，可以找出用户移动模式，这种用户移动模式能够代表用户的移动规律，通过对用户移动模式的挖掘可以实现对移动用户的位置预测。

随着移动互联网和智能手机的快速发展，每天产生大量的移动位置数据，目前已有的位置预测方法对海量移动数据进行数据挖掘的效率低下，无法快速深入挖掘移动数据的潜在信息。

发明内容

为解决上述在每天产生大量的移动位置数据情况下，目前已有的位置预测方法对海量移动数据进行数据挖掘的效率低下，无法快速深入挖掘移动数据的潜在信息的问题，本发明具体提供一种移动用户位置预测方法，所述方法包括：

基于移动运营商的基站数据获取用户位置相关的数据；

基于所述用户位置相关数据以及预先计算的所述用户轨迹的频繁轨迹，确定当前移动用户的走向预测；

所述用户轨迹的频繁轨迹基于并行框架，采用FP-Growth算法与负载均衡算法相结合的方式确定。

优选的，所述用户轨迹的频繁轨迹的确定包括：

在并行框架下，基于移动运营商的基站历史数据获取用户位置相关的历史数据；

对所述位置相关的历史数据进行处理，获得头表项；

根据所述头表项构建原始频繁模式树，并利用所述原始频繁模式树以及负载均衡原则对所述位置相关的历史数据进行分组，每组数据对应一个计算节点；

基于每个计算节点，对所述计算节点中的位置相关的历史数据构建各计算节点的频繁模式树，并采用FP-Growth算法识别出移动用户轨迹的频繁轨迹。

优选的，所述对所述位置相关的历史数据进行处理，获得头表项包括：

在并行框架下，对数据库进行第一次扫描，使用弹性式数据分布集序列化数据库中的数据，得到1-项集与1-项集在数据库中出现次数相对应的键值对形式，同时修剪数据，筛选出大于次数阈值的1-项集对应的键值对，所述筛选出的所有键值对组成一个头表项。

优选的，所述负载均衡分组原则包括：

把频繁模式树分组节点中条件模式树最长路径和所述最长路径上的频率计数作为该节点负载的估计值，统计所有分组节点任务的估计值，然后将所有任务按估计值进行平均分组。

优选的，所述基于每个计算节点，对所述计算节点中的位置相关的历史数据构建各计算节点的频繁模式树，并采用FP-Growth算法识别出移动用户轨迹的频繁轨迹包括：

基于每个计算节点，对所述计算节点中的位置相关的历史数据构建各计算节点的频繁模式树，利用递归挖掘频繁项集，查找所述频繁项集对应的前缀路径，将所有前缀路径构成新的数据集；

基于所述新的数据集继续进行频繁模式树的构建和数据集的分割，直到数据集中只含有一条数据；

将最后获取的一条数据对应的轨迹出现次数与设定的支持度阈值比较，当数据轨迹出现的次数大于设定的阈值，则所述数据轨迹为所要查找的频繁轨迹，否则，所述数据轨迹不是所要查找的频繁轨迹。

优选的，所述根据所述头表项构建原始频繁模式树包括：

将所述每个头表项中频繁项的传递路径分别与原始数据集对应，删除对应的非频繁项，将所述剩余的频繁项对应的传递路径变为收缩路径；

遍历所述收缩路径，判断是否有交集，将存在交集的收缩路径合并。

优选的，所述对所述位置相关的历史数据进行处理，获得头表项，之前包括：

将所述位置相关的历史数据保存到数据库中，并在并行框架下，对数据库中的数据进行转换、融合和清洗。

一种移动用户位置预测系统，包括：

数据获取模块：用于基于移动运营商的基站数据获取用户位置相关的数据；

确定走向预测模块：用于基于所述用户位置相关数据以及预先计算的所述用户轨迹的频繁轨迹，确定当前移动用户的走向预测；

优选的，所述确定走向预测模块包括：频繁轨迹识别单元；

所述频繁轨迹识别单元用于在并行框架下，基于移动运营商的基站历史数据获取用户位置相关的历史数据；

对所述位置相关的历史数据进行处理，获得头表项；

优选的，所述频繁轨迹识别单元包括头表项获得子单元；

所述头表项获得子单元用于在并行框架下，对数据库进行第一次扫描，使用弹性式数据分布集序列化数据库中的数据，得到1-项集与1-项集在数据库中出现次数相对应的键值对形式，同时修剪数据，筛选出大于次数阈值的1-项集对应的键值对，所述筛选出的所有键值对组成一个头表项。

与最接近的现有技术相比，本发明具有如下有益效果：

1、本发明为一种移动用户位置预测方法与系统，通过基于移动运营商的基站数据获取用户位置相关的数据，基于所述用户位置相关数据以及预先计算的所述用户轨迹的频繁轨迹，确定当前移动用户的走向预测，所述用户轨迹的频繁轨迹基于并行框架，采用FP-Growth算法与负载均衡算法相结合的方式确定，使得在每天产生大量的移动位置数据情况下，能够快速的对已有的位置预测方法对海量移动数据进行数据挖掘，快速深入挖掘移动数据的潜在信息的问题。

附图说明

图1为本发明的方法流程示意图；

图2为本发明的一种移动用户位置预测方法示意图；

图3为本发明的一种移动用户位置预测系统示意图；

图4为本发明的使用基于剪枝的FP-Growth算法挖掘频繁模式示意图。

具体实施例

下面结合具体的实施例对本发明做进一步的解释说明

实施例1

本发明具体涉及到一种移动用户位置预测方法，如图1所示为本发明的方法流程示意图：

步骤1：基于移动运营商的基站数据获取用户位置相关的数据；

步骤2：基于所述用户位置相关数据以及预先计算的所述用户轨迹的频繁轨迹，确定当前移动用户的走向预测；

步骤3：所述用户轨迹的频繁轨迹基于并行框架，采用FP-Growth算法与负载均衡算法相结合的方式确定。

下面结合具体的实施例对上述步骤做进一步的解释说明：

对步骤1的解释

对移动运营商的基站数据进行预处理，将用户位置相关的数据保存到HBase中，在Spark环境下对保存的数据进行转换、融合和清洗等预处理；

对步骤2的进一步解释：

在Spark并行框架下对预处理过的数据进行第一次扫描，使用弹性式数据分布集RDD序列化数据库中的数据，最终得到1-项集与其在数据库中出现次数相对应的键值对形式，同时修剪数据，删除小于支持度阈值的1-项集对应的键值对，最后进行排序，排序后健值对的集合称为头表项Header Table；

根据Header Table构建FP-Tree，并利用FP-Tree对原始数据进行分组，估算各组数据对计算机的计算负荷。然后将各组数据根据负载均衡原则分配到各个节点，从而避免高频复杂型数据库某些节点负载过重；

对经过负载均衡分组的数据分别构建新的FP-Tree，并采用FP-Growth算法识别出移动用户轨迹的频繁模式；

计算移动用户的当前移动轨迹和频繁模式的相似度，并按照相似度的大小对频繁模式进行排序。在对相似度排序时，需要综合时间维度信息；

在频繁模式和当前路径进行匹配后，在用于预测的频繁轨迹上选取最靠近当前位置的元素作为轨迹走向的预测值；

将预测的用户轨迹按时间顺序保存到Hive数据库中。

实施例2

如图2所示：步骤S1：对移动运营商的基站数据进行预处理，将用户位置相关的数据保存到HBase中；对移动运营商的基站数据进行分析，从基站数据中得到某区域一定人群的历史轨迹数据，将历史轨迹数据存储在HBase中。作为一种高可靠性、高性能、面向列、可伸缩的分布式存储系统，HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。HBase既可以以列的形式提供存储供能，也可以在Hadoop MapReduce下处理海量数据，而且可以动态添加字段，使算法的实现更加灵活。同时可以利用Zoopkeeper作为对应，协调各个节点之间的运算，提高运算效率。

步骤S2：在Spark框架下清洗、切分、转换和融合数据。作为一种开源集群计算环境，Spark与Hadoop基本类似，但Spark相对Hadoop启用了内存分布数据集，除了提供用户的交互式查询，Spark还可以优化迭代工作负载，这使得Spark在工作负载方面表现得更加优越。在Spark的主从节点集群分布模式下，使用主节点完成资源调度，然后在从节点上进行数据预处理。

步骤S3：在Spark并行框架下利用基于剪枝的FP-Growth算法获取频繁轨迹。传统的FP-Growth频繁项集挖掘算法，虽然减少了对数据扫描的次数，但在构建FP-Tree时仍需要大量的计算资源，虽然可以使用并行式计算，但各主机之间还是需要进行大量通信，这导致并行式计算并不能很好的提升运算效率，本系统使用传递收缩剪枝技术限制频繁项集的搜索空间，实现项的合并，减少了内存占用，从而提高算法性能。跟传统的FP-Growth算法一样，首先构建一棵频繁模式树FP-Tree，然后可以利用传递收缩剪枝策略进行剪枝，在Spark分布式并行框架下计算，具体操作如下：

步骤S31：数据修整与计数。在Spark并行框架下，完成对数据库的第一次扫描，使用弹性式数据分布集RDD序列化数据库中的数据，最终得到1-项集与其在数据库中出现次数相对应的键值对形式，同时清理数据，筛选出大于支持度阈值的1-项集对应的键值对。这些键值对所组成的集合称为头表项。

步骤S32：负载均衡分组。为了避免大部分任务分配到一个节点中导致数据斜，首先进行负载任务估计：把分组节点中条件模式树最长路径和该路径上的频率计数作为该节点负载的估计值，统计所有分组节点任务的估计值，然后将所有任务按估计值进行平均组，从而避免高频复杂型数据库某些节点负载过重。

步骤S33：利用在第一步获得的头表项Header Table，从头表项上倒序遍历FP-Tree，分割数据集，得到每个头表项中频繁项的传递路径，创建一个新的头表项，以新的头表项分割得到的数据集，得到各频繁项的传递路径。

步骤S34：将传递路径分别与分割的数据集对应，删去对应的非频繁项，将传递路径变为收缩路径。

步骤S35：遍历各个频繁项的收缩路径，判断是否有交集，将存在交集的收缩路径合并，同时支持度叠加，在各个主机节点上对分配的数据分别构建FP-Tree。

步骤S36：利用FP-Tree递归挖掘频繁项集，如图4所示，查找FP-Tree的每个频繁1-项集所对应的前缀路径，构成一个新的数据集，依照上面相同的步骤对新数据集修剪、整理，构建新的FP-Tree，继续分割出新的数据集，直到数据集中只含有一条数据，比较该数据出现的次数与所设定的支持度阈值，若该项集满足阈值条件则为所要查找的频繁模式。

步骤S37：直接输出第七步所查找到的头表项中每个频繁项所对应的频繁模式。

步骤S4：使用频繁模式匹配和特征维度信息预测移动用户轨迹。在已经获取到频繁轨迹序列模式之后，查找与当前轨迹相似的频繁模式。在步骤3中获取的频繁项集中的每个元素都应包含三个字段：时间戳以及所对应的移动对象的位置坐标x，y，则对未来某个移动对象预测(x，y)问题转化为计算当前轨迹与频繁模式的匹配程度，优先选取轨迹片段在时间上最靠近当前的元素。在判断两条轨迹的相似程度之后还应考虑，其他特征维度信息如对移动用户轨迹的影响。在这里，指定多个特征维度信息，根据时间字段的取值将数据集拆分：年、月、日、星期、时、分、是否周末等，通过建模，计算各个特征维度信息对移动用户轨迹的影响因子。根据具体情况选择合适的系数，用影响因子和相似度表示历史轨迹和当前轨迹的匹配度，选取匹配度最高的频繁轨迹作为预测轨迹。

步骤S5：在频繁模式和当前路径进行匹配后，在用于预测的频繁轨迹上选取最靠近当前位置的元素作为轨迹走向的预测值，然后将当前轨迹作为前缀得到一条新的轨迹，多次迭代匹配，最终得到所要求取得某个时间点的位置预测。完成预测之后，需要合理的将这些预测值按时间顺序存储起到Hive中，然后使用数据抽取工具sqoop将存储在Hive中的轨迹预测数据抽取出来整合之后存储到关系型数据库中。

步骤S6：从HDFS中提取挖掘得到的频繁轨迹模式数据，从关系型数据库中提取轨迹预测数据，在网页端调用百度地图API显示到地图上，网页显示包括地图展示、轨迹显示、对预测结果可靠程度的分析以及该移动用户在某一段时间段内的历史轨迹。

相似的的计算过程如下：

认为：若当前路径上各点到频繁路径的距离越小，当前路径与频繁路径的相似度越大，若当前路径上的点到频繁路径的距离大于设定的阈值，认为这两条路径不相似，而不用考虑后面的路径预测。并且越靠近当前轨迹末端的点对最终的预测结果影响越大，需要为它们赋予更高的相似度权重。

设频繁轨迹为l₁＝{p₁,p₂,...,p_m}，当前轨迹为l₂＝{q₁,q₂,...,q_n}，阈值为threshold。

路径相似度计算过程如下：

1)取为l₁的起点p₁，计算l₂中离p₁最近的点q_i，计算p₁到线段q_i q_i+1的距离为d₁，将1/d₁与当前权重的乘积加到相似度中。

2)将q_i设为前点，q_i+1设为后点，分别计算p₂与前点后点的距离，若p₂与后点的距离小于前点的距离，将前点更新为之前的后点，为后点赋值为之前后点的下一个点，继续计算判断p₂与前点后点的距离大小关系。最后将p₂与前点后点所组成线段的距离作为p₂到频繁路径的距离为d₂。同步骤1先判断该距离是否满足阈值要求，如果满足则更新相似度，否则终止计算。

3)同步骤2，分别计算当前路径中其余各点到频繁轨迹的距离，更新相似度。

图3为本发明实施例所提供的移动用户位置预测系统结构框图；该系统可以包括：

数据读取模块100，用于利用Spark平台读取原始基站数据；

数据转换模块200，用于将上述原始基站数据转换为多个弹性分布数据集；

轨迹挖掘模块300，用于建立数据挖掘模型，挖掘移动位置数据集，生成移动用户轨迹的频繁模式；

轨迹预测模块400，用于将移动用户的当前移动轨迹作为变量同移动用户轨迹的频繁模式进行对比，输出移动用户位置预测；

显示模块500，用于显示移动用户的当前和历史轨迹，以及预测结果的可靠性分析。

进一步的，在上述所述的移动用户位置预测系统中，还包括：

数据处理模块，用于对所述原始基站数据进行清洗和数据变换处理；

负载均衡模块，用于对条件模式树进行负载均衡分组；

存储模块，用于将移动用户轨迹的频繁模式以及预测的移动用户轨迹保存至分布式文件系统中。

实施例3

本发明还涉及一种移动用户位置预测系统，包括：

所述确定走向预测模块包括：频繁轨迹识别单元；

对所述位置相关的历史数据进行处理，获得头表项；

所述频繁轨迹识别单元包括头表项获得子单元；

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均包含在申请待批的本发明的权利要求范围之内。

Claims

1.一种移动用户位置预测方法，其特征在于，所述方法包括：

基于移动运营商的基站数据获取用户位置相关的数据；

所述用户轨迹的频繁轨迹基于并行框架，采用FP-Growth算法与负载均衡算法相结合的方式确定；

所述用户轨迹的频繁轨迹的确定包括：

对所述位置相关的历史数据进行处理，获得头表项；

基于每个计算节点，对所述计算节点中的位置相关的历史数据构建各计算节点的频繁模式树，并采用FP-Growth算法识别出移动用户轨迹的频繁轨迹；

所述对所述位置相关的历史数据进行处理，获得头表项包括：

在并行框架下，对数据库进行第一次扫描，使用弹性式数据分布集序列化数据库中的数据，得到1-项集与1-项集在数据库中出现次数相对应的键值对形式，同时修剪数据，筛选出大于次数阈值的1-项集对应的键值对，所述筛选出的所有键值对组成一个头表项；

所述根据所述头表项构建原始频繁模式树包括：

将每个所述头表项中频繁项的传递路径分别与原始数据集对应，删除对应的非频繁项，将剩余的频繁项对应的传递路径变为收缩路径；

2.如权利要求1所述的一种移动用户位置预测方法，其特征在于，所述方法还包括：负载均衡分组原则：

3.如权利要求1所述的一种移动用户位置预测方法，其特征在于，所述基于每个计算节点，对所述计算节点中的位置相关的历史数据构建各计算节点的频繁模式树，并采用FP-Growth算法识别出移动用户轨迹的频繁轨迹包括：

4.如权利要求1所述的一种移动用户位置预测方法，其特征在于，所述对所述位置相关的历史数据进行处理，获得头表项，之前包括：

5.一种实现如权利要求1-4任一项所述移动用户位置预测方法的移动用户位置预测系统，其特征在于，包括：

6.如权利要求5所述的预测系统，其特征在于，所述确定走向预测模块包括：

频繁轨迹识别单元；

对所述位置相关的历史数据进行处理，获得头表项；

7.如权利要求6所述的预测系统，其特征在于，所述频繁轨迹识别单元包括头表项获得子单元；