CN103729478A - 基于MapReduce的LBS兴趣点发现方法 - Google Patents

基于MapReduce的LBS兴趣点发现方法 Download PDF

Info

Publication number
CN103729478A
CN103729478A CN201410037999.7A CN201410037999A CN103729478A CN 103729478 A CN103729478 A CN 103729478A CN 201410037999 A CN201410037999 A CN 201410037999A CN 103729478 A CN103729478 A CN 103729478A
Authority
CN
China
Prior art keywords
lac
text
key
list
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410037999.7A
Other languages
English (en)
Other versions
CN103729478B (zh
Inventor
胡峰
向倞
于洪
娄华宾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bolaa Network Co ltd
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201410037999.7A priority Critical patent/CN103729478B/zh
Publication of CN103729478A publication Critical patent/CN103729478A/zh
Application granted granted Critical
Publication of CN103729478B publication Critical patent/CN103729478B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Remote Sensing (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于MapReduce的LBS兴趣点发现方法,涉及计算机信息处理技术。使用MapReduce进行数据变换,得到项集频率降序序列,对事务集按照项集分组降序序列进行分发,在各机器上建立FP-Tree进行挖掘,对增量数据进行变换,对事务集按照增量数据分组进行划分,并行挖掘增量数据。本发明在MapReduce的PFP算法基础上,对增量数据筛选处理,处理部分增量数据,得到所有频繁项集,而不是每次重新挖掘全局数据,建立兴趣点关联规则数据挖掘模型,利用分布式并行化技术提高了关联规则挖掘算法的运行速度,能有效挖掘强关联性的兴趣点数据。

Description

基于MapReduce的LBS兴趣点发现方法
技术领域
本发明涉及计算机云运算领域,地理信息挖掘领域,提供了一种基于MapReduce的LBS(Location Based Service,即基于位置的服务)兴趣点发现方法。
背景技术
随着经济、社会及文化迅速发展,人们生活娱乐的活动范围越来越大、品质要求越来越高,对于旅游、娱乐、紧急救援、地址指南等多种LBS服务有了更大的需求。
兴趣点(Point Of Interest,简称POI):是地理信息系统(GeographicInformation System,简称GIS)中的一个术语,泛指一切可以抽象为点的地理对象,尤其是一些与人们生活密切相指用户感兴趣的地理对象实体。基于兴趣点的LBS服务是近年来的应用热点,例如基于兴趣点的签到应用Foursquare已拥有超过2500万名注册用户、基于兴趣点的嘀咕网社交系列游戏已拥有150万用户,基于兴趣点的微信公众号部分商家已有数十万粉丝,其发展前景十分看好。
用户关注的兴趣点信息往往隐藏在具有大规模、高增速、高密度等明显大数据特性的LBS地理位置信息中,因此如何从中准确、高效的的挖掘兴趣点数据,是近年的研究热点和难点。
关联规则挖掘是数据挖掘方法中一种被广泛采用的且具有影响力的方法,他能用来发现地理信息数据库中用户感兴趣的地理位置及各兴趣点之间的关联程度。目前能够使用的各种版本的关联规则挖掘大都是单机形式,面对大数据量情况显得无能为力,很多场景下也只是采样部分业务数据进行关联规则的查找。
1993年,Agrawal等人首先提出了挖掘顾客交易数据库中项集间的关联规则问题,其核心是基于两阶段频繁项集思想的递推算法。第一步通过迭代,检索出事务数据库中的所有频繁项集,频繁项集即支持度不低于用户设定的阈值的项集;第二步利用频繁项集构造出满足用户最小信任度的规则。其中,挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大部分。
频繁项集:项的集合称为项集。项集在事务中的出现次数称为项集的频率,支持率计数或者支持度计数。频率与事务数的商称为支持度(即支持度=频率/事务数),如果项集的支持度大于等于预定义的最小支持度阈值,则是频繁项集。
为了挖掘频繁项集,Agrawal等人率先提出Aprior算法,该算法在产生关联规则时需要多次扫描事务数据库生成大量的候选项集。为了避免生成候选项集,2000年Han等人提出了FP-growth算法,该算法只进行2次数据库扫描。直接压缩数据库生成一个频繁模式树的数据结构(Frequent Pattern Tree,简称FP-Tree),然后通过对FP-Tree的挖掘获得频繁项集,它不使用候选集,研究表明比Apriori算法快一个数量级。
MapReduce是云计算的关键技术,是由Google提出的一个软件架构和编程模型,用于大规模数据的并行运算。MapReduce将系统对数据的所有操作都拆解为映射函数Map和规约函数Reduce两个步骤来执行,Map函数将大规模数据进行拆分为多个小的数据集分发到多台机器上并行运行,Reduce函数则将各台机器上Map函数运算的结果进行聚合,Map和Reduce的配合达到了分布式并行运算的效果。近年来,MapReduce的研究非常活跃,许多单机算法都在MapReduce上予以重新实现,为处理海量数据提供了高可用性和可扩展性。
经过对现有技术的文献检索发现,文章PFP:Parallel FP-Growth for QueryRecommendation//Proc of the ACM Conferenceon RecommenderSystems.Lausanne,Switzerland,2008:107-111(基于查询推荐系统的并行FP-Tree算法),采用MapReduce的并行频繁模式树算法(Parallel FP-Growth,简称PFP)对频繁项集进行挖掘,每次挖掘均需要对全局事务数据进行扫描并按频率计数,才能建立支持度计数序列,因此更适用于静态数据集的关联规则挖掘。若使用该算法挖掘大规模、高增量、动态变化的LBS数据集,每次数据集发生变化后,仍会对频率未发生变化的分组项集数据重复挖掘,产生较多的冗余运算,进而导致该算法整体效率偏低,运算成本较高。
发明内容
本发明针对现有技术存在的从海量LBS地理位置信息中挖掘用户关注的兴趣点信息效率低、成本高的缺陷,本发明在MapReduce的PFP算法基础上,提出一个增量数据处理过程,通过单独计算增量数据的项集支持度计数序列,再与原项集序列合并,能快速得到新的全局项集序列,而不是每次重新挖掘全局数据。
本发明解决上述技术问题的技术方案是,提出一种基于MapReduce的LBS兴趣点发现方法,包括以下步骤:
从系统处获取用户群位置记录数据文本文件,由Hadoop(Apache基金会开发的开源分布式计算框架)自动进行分布式存储,再对用户群位置记录数据文本文件使用MapReduce(Hadoop框架中的分布式并行计算模型)进行数据变换,得到用户群位置坐标事务集文本文件;获取用户群位置坐标事务集文本数据文件,计算事务集文本数据文件中每个项的频度并按降序排列,得到项集频度降序序列文本文件,对项集频度降序序列文本文件中频率字段值进行分组,得到项集频度分组降序序列文本文件;对用户群位置坐标事务集文本文件按照项集频度分组降序序列进行分组,得到用户群位置坐标分组文件,对用户群位置坐标分组文件中的每个分组建立频繁模式树FP-tree(Frequent Pattern tree,在关联规则数据挖掘算法中使用,是一种压缩存储事务频繁项集的数据结构),根据FP-Tree得到用户兴趣坐标分组频繁项集文本文件,以及聚合分组数据后的兴趣坐标频繁项集文本文件;从系统处获取用户群位置记录增量数据文本文件,由Hadoop框架自动进行分布式存储,进行数据变换,获得用户群位置坐标增量事务集文本文件,计算增量事务集中每个项的频率并按降序排列,得到增量项集频率降序序列;将增量事务集的频率降序序列与增量前项集频率降序序列文本文件进行合并,得出全局项集频率降序序列;对上述全局项集频率降序序列进行分组,标记出需要重新挖掘的增量数据分组,对用户群位置坐标增量事务集文本文件进行分组,得到增量用户群坐标事务分组文本文件,对增量用户群坐标事务分组文本文件中的每个分组建立FP-Tree,进行并行挖掘,得到增量用户兴趣坐标分组频繁项集;将增量用户兴趣坐标分组频繁项集与用户兴趣坐标分组频繁项集合并,得到全局频繁项集。所述用户群位置记录数据文本文件包括定位时间Time、用户手机号码Phone、基站小区位置区码LAC三个字段。
更进一步地,采用均分方式对项集频率降序序列文本数据文件中的频率字段值进行分组,分组数与系统集群中微处理器核数相同。获得了全局项集频率降序序列文本数据文件具体包括:将增量项集频率降序序列文本数据文件与发生增量之前的项集频率降序序列文本数据文件合并,得到全局项集频率降序序列文本数据文件。扫描全局项集频率分组降序序列与项集频率分组降序序列属于同一分组的LAC项值,如果有项值存在频率不同,名称及项降序排序相同,且后续分组中各项频率、项名称及项间排序相同,则将当前分组及其前驱分组存为增量数据分组文本数据文件。
获得全局频繁项集具体包括:读取增量用户兴趣坐标频繁项集所属分组编号;读取增量前用户兴趣坐标分组频繁项集,从中排除与增量用户兴趣坐标频繁项集所属分组编号中具有相同分组编号的频繁项集,筛选出非增量用户兴趣坐标频繁项集;将非增量用户兴趣坐标频繁项集与增量用户兴趣坐标频繁项集合并,得到全局频繁项集。
对用户群位置记录数据文本文件中的字段采取键值对转换操作,获取用户群位置坐标事务集文本数据文件,具体包括:每个映射函数Map读取一行文本,将Time作为第1键key1,Phone、LAC作为第1值value1,构成<key1=Time,value1={Phone,LAC}>的键值对形式;通过公式:<key1=Time,value1=Phone LAC>→<key2=Phone,value2=LAC>对上述键值对进行转换,将Phone作为第2键key2,LAC作为第2值value2;通过公式:<key2=Phone,value2=LAC>→<key2=Phone,value2=List(LAC)>对键值对<key2=Phone,value2=LAC>进行转换,将Phone作为第2键key2,LAC的集合作为第2值value2;接收所有相同key2下的value2数组进行聚合;聚合结果保存为格式化的用户群位置坐标事务集文本数据文件。
对事务编码TID、LAC的集合List(LAC)两个字段采取键值对转换操作,获取项集频率降序序列文本数据文件,包括以下步骤:每个映射函数Map读取数据,将TID作为第1键key1,List(LAC)作为第1值value1,构成<key1=TID,value1=List(LAC)>的键值对形式;通过公式:<key1=TID,value1=List(LAC)>→<key2=LAC,value2=1>对上述键值对进行转换,将LAC作为第2键key2,每个LAC的值为1的作为第2值value2;对键值对<key2=Phone,value2=LAC>通过公式<key2=LAC,value2=1>→<key2=LAC,value2=List(1)>进行转换,将LAC作为第2键key2,每个LAC的计数1的集合List(1)作为第2值value2;接收所有相同key2对应的value2数组,计算value2数组中的元素个数,排除元素个数中频率小于等于2的项;将结果保存为格式化的项集频率降序序列文本数据文件。
获取用户群位置坐标事务分组文本文件具体包括:每个Map函数从用户群位置坐标事务集文本数据文件中读取数据,对TID、LAC的集合List(LAC)两个字段采取键值对转换操作,实现每个LAC字段值的过滤;过滤后的文本翻译成键值对<key1=TID,value1=List(LAC)>形式,即将TID作为第1键key1,List(LAC)作为第1值value1;通过公式:<key1=TID,value1=List(LAC)>→<key2=group(i),value2=List(LAC)>对上述键值对进行转换,转换后将分组编号group(i)作为第2键key2,List(LAC)作为第2值value2;调用规约函数Reduce接收所有相同key2对应的value2数组;结果保存为用户群位置坐标事务分组文本文件。
获取用户兴趣坐标频繁项集具体包括:一个Map函数处理一个增量用户群位置坐标事务分组文本文件;每个Map函数分别读取用户群位置坐标事务分组的一部分数据,翻译成键值对<key1=group(i),value1=List(LAC)>形式,即将group(i)作为第1键key1,List(LAC)作为第1值value1;以List(LAC)作为一个事务的项集,进行频繁项集挖掘,得到频繁项集List(I);将频繁项集存为键值对<key2=group(i),value2=List(I)>形式,即将group(i)作为第2键key2,频繁项的集合List(I)作为第2值value2;调用Reduce函数接收所有key2对应的value2数组,保存为多个格式化的用户兴趣坐标分组频繁项集,再合并得到用户兴趣坐标频繁项集。
本发明基于MapReduce的PFP算法提出了PFP算法的增量数据优化方法,增加了对增量数据的优化处理过程,即对于不会影响最终结果的非增量数据不予运算,只需参与最后环节的结果聚合。该方法能有效提高增量数据计算效率,更加符合数据量快速增长的实际商用场景。能明显提高兴趣点信息挖掘的效率,具有较好的实际应用价值且成本较低。
附图说明
图1采用MapReduce进行LBS兴趣点发现算法流程框图;
图2基于MapReduce进行数据预处理部分的流程框图;
图3采用MapReduce的PFP算法进行数据挖掘部分的流程框图;
图4采用MapReduce的PFP算法进行数据挖掘部分中FP-Tree拆分原理图;
图5基于MapReduce的PFP算法基础上进行增量数据处理的流程框图。
具体实施方式
图1为本发明方法流程框图,包括如下步骤:
1)数据预处理阶段:
使用基于MapReduce的数据预处理算法。从系统处获取用户群位置记录数据文本文件,由Hadoop框架自动进行分布式存储。用户群位置记录数据可包括{定位时间、用户手机号码、基站小区位置码}3个字段;对用户群位置记录数据文本文件使用MapReduce进行数据变换,得到用户群位置坐标事务集文本文件,形式可为{用户手机号码、基站小区位置码集合},其中基站小区位置码集合表示同一用户手机号码基站小区位置码;
2)数据挖掘阶段:
使用基于MapReduce的PFP算法进行数据挖掘。获取用户群位置坐标事务集文本数据文件;使用MapReduce计算事务集中每个项的频度并按降序排列,得到项集频度降序序列文本文件,形式可为{项,频率};对项集频度降序序列文本文件中频率字段值进行分组,分组个数与集群微处理器核数一致以保证各分组能并行运算,分组实现了巨大规模的项集拆分为多个小规模的子项集,利于后续并行运算的目的。分组完成后得到项集频度分组降序序列文本文件,形式为{{分组1:项,频率},{分组2:项,频率},...,{分组n:项,频率}};使用MapReduce对用户群位置坐标事务集文本文件按照项集频度分组降序序列进行分组,得到用户群位置坐标分组文件,形式为{分组,项集};使用MapReduce PFP算法,对用户群位置坐标分组文件中的每个分组建立FP-Tree,进行并行挖掘,得到用户兴趣坐标分组频繁项集文本文件形式为{{分组1:频繁项},{{分组2:频繁项},...,{分组n:频繁项}},以及聚合分组数据后的兴趣坐标频繁项集文本文件,形式为{频繁项1,频繁项2,…,频繁项n};
3)进一步处理增量数据阶段:
使用基于MapReduce的增量PFP算法进行数据挖掘。从系统处获取用户群位置记录增量数据文本文件,位置记录包括用户{Time、Phone、LAC}3个字段,由Hadoop框架自动进行分布式存储;用户群位置记录增量数据文本文件使用MapReduce进行数据变换,用户群位置坐标增量事务集文本文件,形式为{Phone、List(LAC)};使用MapReduce计算增量事务集中每个项的频率并按降序排列,得到增量项集频率降序序列,形式为{项,频率};将增量事务集的频率降序序列与增量前项集频率降序序列文本文件进行合并,得出全局项集频率降序序列,形式为{项,频率};对上述全局项集频率降序序列进行分组,标记出需要重新挖掘的增量数据分组,形式为{项,频率};使用MapReduce标记出增量数据分组对用户群位置坐标增量事务集文本文件进行分组,得到增量用户群坐标事务分组文本文件,形式为{增量分组,项集};使用MapReduce PFP算法,对增量用户群坐标事务分组文本文件中的每个分组建立FP-Tree,进行并行挖掘,得到增量用户兴趣坐标分组频繁项集,形式为{{增量分组1:频繁项},{{增量分组2:频繁项},...,{增量分组n:频繁项}};将增量用户兴趣坐标频繁项集与前面获得的用户兴趣坐标分组频繁项集合并,得到最终全局频繁项集,形式为{频繁项1,频繁项2,…,频繁项n}。
以下举例对本发明的实施作进一步说明。本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
步骤1)首先,从系统处提取用户群位置记录数据文本文件,文件内容形如下表1所示,其中Time(即定位时间)、Phone(即用户手机号码)、LAC(LocationArea Code,即基站小区位置区码,以LAC[编码]形式表示)
表1用户群位置记录数据
Time Phone LAC
2013-5-613:00 号码A LAC001
2013-5-613:00 号码B LAC002
2013-5-613:01 号码A LAC001
2013-5-613:02 号码C LAC002
2013-5-613:02 号码D LAC002
2013-5-613:02 号码E LAC003
用户群是多个有共同特征的用户手机号码的集合,是数据挖掘的对象。
位置坐标以LAC(即基站小区位置区码)表示,基站小区位置区码指无线网络上报终端所处的基站小区号,小区号可以翻译成经纬度坐标用于LBS定位,由于这种定位方法实现简单,无需在无线接入网侧增加设备,所以运营商使用最广泛。
步骤2)使用MapReduce对用户群位置记录数据文件进行数据预处理,如图2所示。
①首先在Map阶段,采用Map函数自动划分数据集并分发并行计算机制,将输入的用户群位置记录数据集划分为多个较小的数据集分发到不同机器上并行处理,每个并行处理任务被称为Mapper,每个Mapper中的数据集采用键值对列表的方式进行记录。
以表1为例,第1个并行处理任务Mapper1上的Map函数从用户群位置记录数据文本文件读取一部分数据,翻译成<key1=Time,value1={Phone,LAC}>的键值对(key-value)形式,文件内容形式如下表2,其中以Time作为键1(第1键)(key1),Phone和LAC的集合作为值1(第1值)(value1):
表2翻译为Time-{Phone,LAC}键值对形式的用户群位置记录数据
key1=Time value1={Phone,LAC}
2013-5-613:00 号码A,LAC001
2013-5-613:00 号码B,LAC002
2013-5-613:01 号码A,LAC001
2013-5-613:02 号码C,LAC002
2013-5-613:02 号码D,LAC002
2013-5-613:02 号码E,LAC003
然后,Map函数接收表2的键值对数据,遵循Map函数的键值对转换公式:<key1,value1>→<key2,value2>,即将键1(key1)-值1(value1)中的全部或部分内容转换为键2(key2)-值2(value2)的形式,如下:
<key1=Time,value1={Phone,LAC}>→<key2=Phone,value2=LAC>
将表2的键值对数据转化为下表3的键值对数据,即在Mapper1中得到位置记录数据集1:
表3转换后的Phone-LAC键值对数据
key2=Phone value2=LAC
号码A LAC001
号码B LAC002
号码A LAC001
号码C LAC002
号码D LAC002
号码E LAC003
②在每个并行处理任务Mapper中使用Shuffle函数(即合并函数),对表3的数据进行合并处理。Shuffle函数作用是接收一组如<key2,value2>形式的键值对数据,对同一个key2值的value2进行合并,转换为<key2,List(value2)>形式的键值对;遵循以下公式:
<key2,value2>→<key2,List(value2)>
即将同一键2(key2)对应值2(value2)中的全部内容进行合并,如下:
<key2=Phone,value2=LAC>→<key2=Phone,value2=List(LAC)>
将表3的键值对数据转化为下表4的键值对聚合数据,即在Mapper1中得到分组聚合数据集1,其中List(LAC)表示同一Phone对应的多个LAC的集合。依步骤①②也可以得到Mapper2中的分组聚合数据集2,如表5:
表4Mapper1聚合后得到的Phone-List(LAC)键值对分组聚合数据集1
key2=Phone value2=List(LAC)
号码A LAC001,LAC006,LAC003,LAC004
号码B LAC001,LAC002,LAC003,LAC006,
号码C LAC002,LAC006,LAC008
号码D LAC002,LAC003,LAC011
号码E LAC001,LAC006,LAC003,LAC005
表5Mapper2聚合后得到的Phone-List(LAC)键值对分组聚合数据集2
key2=Phone value2=List(LAC)
号码A LAC007,LAC009,LAC013,LAC016
号码B LAC012,LAC013,LAC015
号码C LAC010,LAC015
号码D LAC019,LAC016
号码E LAC012,LAC016,LAC013,LAC014
③然后在Reduce阶段,使用Reduce函数接收所有Mapper任务计算后的分组聚合数据集,对同一Phone重复的LAC值进行去重,合并为全局数据集,即用户群位置坐标事务集。在本实施案例中即是将表4、表5数据聚合得到形如表6
的用户群位置坐标事务集数据,至此数据预处理工作完成。
表6用户群位置坐标事务集数据
Figure BDA0000462270970000101
结合关联规则数据挖掘的概念,用户坐标定位的行为称之为事务集,用集合T={T1,T2...Tm}表示;表6中每一行对应一个事务Ti。每个事务的唯一标识称为TID,由唯一的用户手机号码表示。LAC的集合用项集I={I1,I2...Im},每个LAC称之为一个项Ii,如I1表示LAC001、I2表示LAC002等。因此对于第i个事务Ti,有对应的项集Ii={I1,I2...Im}。
步骤3)数据挖掘,如图3所示,包括:事务集并行计数,事务集分组,并行PFP算法挖掘三个阶段组成。
①事务集并行计数阶段,首先使用MapReduce中的Map函数将输入的用户群位置坐标事务集划分为多个小的事务集,分发到不同机器上并行处理,每个并行处理任务被称为Mapper,每个Mapper中的数据采用键值对列表的方式进行记录。以表6为例,Mapper1上的Map函数从用户群位置坐标事务集读取一行文本,翻译成<key1=TID,value1=List(LAC)>的键值对形式,形式如下表7:
表7翻译为TID-List(LAC)键值对形式的用户群位置坐标事务集
Figure BDA0000462270970000102
Figure BDA0000462270970000111
然后,Mapper1中的Map函数负责接收表7的键值对数据,遵循Map函数的键值对转换公式进行如下转换:
<key1=TID,value1=List(LAC)>→<key2=LAC,value2=1>
将表7的键值对数据转化为下表8的键值对数据,即在Mapper1中得到坐标事务数据集1。
表8转换后的LAC-1键值对数据
Key2=LAC Value2=1
LAC001 1
LAC001 1
LAC001 1
LAC001 1
LAC002 1
LAC002 1
LAC002 1
LAC003 1
LAC003 1
LAC003 1
LAC003 1
LAC003 1
LAC004 1
LAC005 1
②在每个Mapper中使用shuffle函数,对表8的数据进行聚合处理。shuffle函数接收一组<key2,value2>形式的键值,对同一个key2值的value2进行聚合,转换为<key2,List(value2)>形式的键值对;
即进行如下转换:
<key2=LAC,value2=1>→<key2=LAC,value2=List(1)>
将表8的键值对数据转化为下表9的键值对聚合数据,即在Mapper1中得到坐标分组数据集1。
表9Mapper1聚合后得到的LAC-List(1)键值对分组聚合数据集1
key2=LAC value2=List(1)
LAC001 1,1,1,1
LAC002 1,1,1
`AC003 1,1,1,1
LAC004 1
LAC005 1
LAC006 1,1,1,1
LAC007 1
LAC008 1
LAC009 1
LAC010 1
LAC011 1
LAC012 1,1
LAC013 1,1,1
LAC014 1
LAC015 1,1
LAC016 1,1,1
LAC019 1
③在Reduce阶段,使用Reduce函数接收所有Mapper任务计算后的坐标分组聚合数据集,对相同key2值的value进行计数,即进行如下操作:
<key2=LAC,value2=List(1)>→<key2=LAC,value2=n>
然后再聚合各机器上计数结果,降序排列,得到一个项集频率降序序列D_List,如下表10:
表10聚合得到LAC-n键值对形式的项集频率降序序列D_List
项集I(LAC) 频率(LAC计数)
LAC006 4
LAC003 4
LAC001 4
LAC002 3
LAC013 3
LAC016 3
LAC012 2
LAC004 1
LAC005 1
LAC007 1
LAC008 1
LAC009 1
LAC010 1
在关联规则数据挖掘中,挖掘出那些项之间有强关联关系是最终目的,而拥有强关联关系项的支持度必须大于某一阈值,该阈值称为最小支持度;即项的支持度大于某一阈值时才可能存在强关联关系。支持度=频率/事务数,在事务数不发生变化的情况下,可以用频率代替支持度体现项间的关联关系,考虑实际业务情况,如可设定在最小频率为2,即大于2的项之间才可能存在强关联关系,因此排除D_List中频率小于等于2的项后得到项集频率降序序列F_List:
F_List={LAC006:4,LAC003:4,LAC001:3,LAC002:3,LAC013:3,LAC016:3}
步骤4)考虑到实际业务情况,LAC项可能会达到十万数量级,采用传统的FP-Tree挖掘算法,无法在单机内存中建立一颗数十万结点的频繁模式树进行挖掘,因此采用基于MapReduce的并行PFP算法解决此问题。该算法原理如图4,将一颗巨大的FP-Tree按规则划分为多个子FP-Tree,因为各FP-Tree之间数据完备,无依赖关系,所以可将子FP-Tree分发到不同机器上计算并行计算,最后将各机器上运距结果聚合即得到整体结果。具体划分规则如下:
①为保证最大并行数,需遵循一个微处理器核挖掘一颗FP-Tree原则。因此先计算集群微处理器总核数确定子FP-Tree的数量。在本例中假设微处理器总核数为2,则将FP-Tree分为FP-Tree_1和FP-Tree_2共2个子树。
如图4为FP-Tree具有的特点:
a)每个分支代表一个事务,例如分支:{LAC006,LAC0003,LAC001,LAC013,LAC016}是扫描表7第一行后,再从F_list中筛选得到频率降序排列。
b)FP-Tree必须遵循每个分支上节点降频排列的原则,因此每个分支的终端节点必然是该分支频率最小的项。
基于以上两点特性,FP-Tree最多可以横向拆分为F_list中以LAC006、LAC003、LAC001、LAC002、LAC013、LAC016等LAC项为终端节点的6棵树。根据步骤4)-①确定的子树数量,将F_list分为group1和group2两组,得到项集频率分组降序序列G_list={{group1:(LAC006:4),(LAC003:4),(LAC001:4)},{group2:(LAC002:3),(LAC013:4),(LAC016:3)}}。分组后可以理解为将以LAC006、LAC003、LAC001为终端节点的颗树放入同一分组group1,合并为FP-Tree_1,将以LAC002、LAC013、LAC016为终端节点的3课树放入另一分组group2,合并为FP-Tree_2。如下表11,
表11项集频率分组降序序列G_list
Figure BDA0000462270970000141
③首先使用MapReduce中的Map函数将表7的用户群位置坐标事务集划分为多个较小的事务集分发到不同机器上并行处理,每个并行处理任务被称为Mapper,每个Mapper中的数据集采用键值对列表的方式进行记录。
a)Mapper1中的Map函数扫描表7用户群位置坐标事务集的每行数据,按照表11项集频率分组降序序列G_list的配置筛选出频率降序排列作为value1,如下表12:
表12按G_list筛选后的TID-List(LAC)键值对用户群位置坐标事务集
key1=TID value1=List(LAC)
号码A LAC006,LAC003,LAC001LAC013,LAC016
号码B LAC006,LAC003,LAC001,LAC002,LAC013
号码C LAC006,LAC002
号码D LAC003,LAC002,LAC016
号码E LAC006,LAC003,LAC001,LAC013,LAC016,
号码F LAC001
b)然后,Map函数负责处理表12的键值对数据,遵循Map函数的键值对转换公式进行如下转换:
<key1=TID,value1=List(LAC)>→<key2=group(1,2),value2=List(LAC)>
将表12的键值对数据转化为下表13的键值对数据,实现将表7用户群位置坐标事务集分为2个组。
表13转换后的group-List(LAC)键值对数据
key2=group key2=List(LAC)
group2 LAC006,LAC003,LAC001LAC013,LAC016
group2 LAC006,LAC003,LAC001,LAC002,LAC013
group1 LAC006,LAC002
group2 LAC003,LAC002,LAC016
group2 LAC006,LAC003,LAC001,LAC013,LAC016
group1 LAC001
c)然后在Reduce阶段,使用Reduce函数接收所有Mapper任务计算后的分
组数据集合并为全局数据集,如表14,获得用户群位置坐标事务集分组数据。
表14全局用户群位置坐标事务集分组数据
Figure BDA0000462270970000161
步骤5)使用MapReduce框架将不同分组的数据集分发到不同机器的CPU核上,为每个分组建立相应的FP-Tree,在本地挖掘FP-Tree的频繁项集,最后将各机器的本地挖掘结果聚合,得到最终用户兴趣坐标频繁项集挖掘结果。
①根据步骤4)-①的结论,在本例中将表14的数据分发到不同机器的2个核上并行处理,每个并行处理任务被称为Mapper,每个Mapper中的数据集采用键值对列表的方式进行翻译记录,如表15。
表15翻译为group-List(LAC)键值对形式的全局用户群位置坐标事务集分组数据
Figure BDA0000462270970000162
然后,Mapper1中的Map函数对group1中的LAC数据采用经典的单机FP-Tree算法进行挖掘,得到FP-Tree1的频繁项集{{LAC003,LAC016},{LAC003,LAC013}}。同理Mapper2中可得到FP-Tree2的频繁项集{LAC003,LAC006}。
②然后在Reduce阶段,使用Reduce函数接收所有Mapper任务计算后的频繁项集,合并为全局频繁项集,得到最终频繁项集为{{LAC003,LAC016},{LAC003,LAC013},{LAC003,LAC006}}。
步骤6)对于增量的用户群位置记录数据挖掘流程如图5,原理是比较全局项集频率分组降序序列与增量前的项集频率分组降序序列,找出发生增量变化的项集进行计算,该方法能有效降低计算量,提高效率。具体步骤如下:
①获取用户群位置记录增量数据文本文件,文件形式与用户群位置坐标事务集文本数据文件相同。采用步骤1)、步骤2)同样的预处理方式,获得用户群位置坐标增量事务集文本文件。
②对步骤6)-①中用户群位置坐标增量事务集文本文件采用与步骤3)-①、3)-②、3-③同样的挖掘方式,获得增量项集频率降序序列I_List。
③将I_List与增量前项集集频率降序序列F_Lis合并得到全局项集频率降序序列A_List,对其内部元素依据步骤4)-①的原理同样分为2组,得到全局项集频率分组降序序列AG_List。
④按LAC项频率从后向前对AG_List与G_List同一分组内所有LAC项进行扫描,可能出现以下情况:
a)在每个分组中,AG_List与G_List中LAC项频率不同,名称及项降序排序相同,且后续group中各项频率、项名称及项间排序相同。则表示group(i)后续分组无增量数据,只需对group(i)及其前驱分组中的LAC项进行数据挖掘,如下表16、17
表16同一分组group(i)中各自对应的降序频率不同的情况
Figure BDA0000462270970000171
上表说明当i=1时,group1后续的group2名称、频率、降序排列相同,
表示后续group2中无增量数据,因此只需重新对group1中的项进行挖掘。
表17同一分组group(i)中各自对应的降序频率相同的情况
Figure BDA0000462270970000181
上表说明当i=2时,group2的项频率不同,但项名称、降序排列相同,表示前驱group1中频繁项集可能发生变化,因此需要对对group1、group2中的项进行挖掘。
因此从AG_List中抽取出group(i)及其前驱分组组成增量数据分组R_List。
b)在所有group(i)中,AG_List与G_List中LAC项名称或降序排序不一致,表示全局数据发生变化,需要对全局数据重新挖掘。
⑤对于步骤6)-④-b)的情况,如图5分支流程将全局用户群位置坐标事务集和AG_List作为输入,采用步骤4)-③的方法对全局用户群位置坐标事务集行分组;然后采用步骤5)的方法进行并行FP-Tree挖掘,获得最终频繁项集结果。
⑥对于步骤6)-④-a)的情况,如图5分支流程,以表16的AG_List数据为例,得到增量数据分组R_List={{LAC006:5,LAC003:5,LAC001:1}}。
⑦将增量数据分组R_List和用户群位置坐标增量事务集作为输入,采用步骤4)-③的方法对增量用户群位置坐标事务集进行分组,获得增量用户群位置坐标事务分组;然后采用步骤5)-①的方法进行并行FP-Tree挖掘,重算FP-Tree1频繁项集,获得增量用户兴趣坐标分组频繁项集。
⑧读取步骤5)-①中获得的分组group2的增量用户兴趣坐标分组频繁项集,与前步骤FP-Tree1对应分组group1的增量用户兴趣坐标分组频繁项集合并,获得最终频繁项集结果,至此挖掘过程完成。

Claims (10)

1.使用基于MapReduce的LBS兴趣点发现方法,其特征在于,包括步骤:从系统处获取用户群位置记录数据文本文件,由Hadoop自动进行分布式存储,再对用户群位置记录数据文本文件使用MapReduce进行数据变换,得到用户群位置坐标事务集文本文件;获取用户群位置坐标事务集文本数据文件,计算事务集文本数据文件中每个项的频度并按降序排列,得到项集频度降序序列文本文件,对项集频度降序序列文本文件中频率字段值进行分组,得到项集频度分组降序序列文本文件;对用户群位置坐标事务集文本文件按照项集频度分组降序序列进行分组,得到用户群位置坐标分组文件,对用户群位置坐标分组文件中的每个分组建立频繁模式树FP-tree,根据FP-Tree得到用户兴趣坐标分组频繁项集文本文件,以及聚合分组数据后的兴趣坐标频繁项集文本文件;从系统处获取用户群位置记录增量数据文本文件,由Hadoop框架自动进行分布式存储,进行数据变换,获得用户群位置坐标增量事务集文本文件,计算增量事务集中每个项的频率并按降序排列,得到增量项集频率降序序列;将增量事务集的频率降序序列与增量前项集频率降序序列文本文件进行合并,得出全局项集频率降序序列;对上述全局项集频率降序序列进行分组,标记出需要重新挖掘的增量数据分组,对用户群位置坐标增量事务集文本文件进行分组,得到增量用户群坐标事务分组文本文件,对增量用户群坐标事务分组文本文件中的每个分组建立FP-Tree,进行并行挖掘,得到增量用户兴趣坐标分组频繁项集;将增量用户兴趣坐标分组频繁项集与用户兴趣坐标分组频繁项集合并,得到全局频繁项集。
2.根据权利要求1所述的方法,其特征在于,所述用户群位置记录数据文本文件包括定位时间Time、用户手机号码Phone、基站小区位置区码LAC三个字段。
3.根据权利要求1所述的方法,其特征在于,采用均分方式对项集频率降序序列文本数据文件中的频率字段值进行分组,分组数与系统集群中微处理器核数相同。
4.根据权利要求1所述的方法,其特征在于,获得了全局项集频率降序序列文本数据文件具体包括:将增量项集频率降序序列文本数据文件与发生增量之前的项集频率降序序列文本数据文件合并,得到全局项集频率降序序列文本数据文件。
5.根据权利要求1所述的方法,其特征在于,扫描全局项集频率分组降序序列与项集频率分组降序序列属于同一分组的LAC项值,如果有项值存在频率不同,名称及项降序排序相同,且后续分组中各项频率、项名称及项间排序相同,则将当前分组及其前驱分组存为增量数据分组文本数据文件。
6.根据权利要求1所述的方法,其特征在于,获得全局频繁项集具体包括:
读取增量用户兴趣坐标频繁项集所属分组编号;
读取增量前用户兴趣坐标分组频繁项集,从中排除与增量用户兴趣坐标频繁项集所属分组编号中具有相同分组编号的频繁项集,筛选出非增量用户兴趣坐标频繁项集;
将非增量用户兴趣坐标频繁项集与增量用户兴趣坐标频繁项集合并,得到全局频繁项集。
7.根据权利要求2所述的方法,其特征在于,对用户群位置记录数据文本文件中的字段采取键值对转换操作,获取用户群位置坐标事务集文本数据文件,具体包括:
每个映射函数Map读取一行文本,将Time作为第1键key1,Phone、LAC作为第1值value1,构成<key1=Time,value1={Phone,LAC}>的键值对形式;
通过公式:<key1=Time,value1=Phone LAC>→<key2=Phone,value2=LAC>对上述键值对进行转换,将Phone作为第2键key2,LAC作为第2值value2;
通过公式:<key2=Phone,value2=LAC>→<key2=Phone,value2=List(LAC)>对键值对<key2=Phone,value2=LAC>进行转换,将Phone作为第2键key2,LAC的集合作为第2值value2;
接收所有相同key2下的value2数组进行聚合;
聚合结果保存为格式化的用户群位置坐标事务集文本数据文件。
8.根据权利要求2所述的方法,其特征在于,对事务编码TID、LAC的集合List(LAC)两个字段采取键值对转换操作,获取项集频率降序序列文本数据文件,包括以下步骤:
每个映射函数Map读取数据,将TID作为第1键key1,List(LAC)作为第1值value1,构成<key1=TID,value1=List(LAC)>的键值对形式;
通过公式:<key1=TID,value1=List(LAC)>→<key2=LAC,value2=1>对上述键值对进行转换,将LAC作为第2键key2,每个LAC的值为1的作为第2值value2;
对键值对<key2=Phone,value2=LAC>通过公式<key2=LAC,value2=1>→<key2=LAC,value2=List(1)>进行转换,将LAC作为第2键key2,每个LAC的计数1的集合List(1)作为第2值value2;
接收所有相同key2对应的value2数组,计算value2数组中的元素个数,排除元素个数中频率小于等于2的项;
将结果保存为格式化的项集频率降序序列文本数据文件。
9.根据权利要求2所述的方法,其特征在于,获取用户群位置坐标事务分组文本文件具体包括:
每个Map函数从用户群位置坐标事务集文本数据文件中读取数据,对TID、LAC的集合List(LAC)两个字段采取键值对转换操作,实现每个LAC字段值的过滤;
过滤后的文本翻译成键值对<key1=TID,value1=List(LAC)>形式,即将TID作为第1键key1,List(LAC)作为第1值value1;
通过公式:<key1=TID,value1=List(LAC)>→<key2=group(i),value2=List(LAC)>对上述键值对进行转换,转换后将分组编号group(i)作为第2键key2,List(LAC)作为第2值value2;
调用规约函数Reduce接收所有相同key2对应的value2数组;
结果保存为用户群位置坐标事务分组文本文件。
10.根据权利要求2所述的方法,其特征在于,获取用户兴趣坐标频繁项集具体包括:
一个Map函数处理一个增量用户群位置坐标事务分组文本文件;
每个Map函数分别读取用户群位置坐标事务分组的一部分数据,翻译成键值对<key1=group(i),value1=List(LAC)>形式,即将group(i)作为第1键key1,List(LAC)作为第1值value1;
以List(LAC)作为一个事务的项集,进行频繁项集挖掘,得到频繁项集List(I);
将频繁项集存为键值对<key2=group(i),value2=List(I)>形式,即将group(i)作为第2键key2,频繁项的集合List(I)作为第2值value2;
调用Reduce函数接收所有key2对应的value2数组,保存为多个格式化的用户兴趣坐标分组频繁项集,再合并得到用户兴趣坐标频繁项集。
CN201410037999.7A 2014-01-26 2014-01-26 基于MapReduce的LBS兴趣点发现方法 Active CN103729478B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410037999.7A CN103729478B (zh) 2014-01-26 2014-01-26 基于MapReduce的LBS兴趣点发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410037999.7A CN103729478B (zh) 2014-01-26 2014-01-26 基于MapReduce的LBS兴趣点发现方法

Publications (2)

Publication Number Publication Date
CN103729478A true CN103729478A (zh) 2014-04-16
CN103729478B CN103729478B (zh) 2016-11-09

Family

ID=50453552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410037999.7A Active CN103729478B (zh) 2014-01-26 2014-01-26 基于MapReduce的LBS兴趣点发现方法

Country Status (1)

Country Link
CN (1) CN103729478B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205058A (zh) * 2014-06-10 2015-12-30 北京畅游天下网络技术有限公司 数据处理系统和方法
CN105740387A (zh) * 2016-01-27 2016-07-06 北京工业大学 一种基于作者频繁模式的科技文献推荐方法
CN106021240A (zh) * 2016-04-29 2016-10-12 北京创鑫旅程网络技术有限公司 一种旅行中常用外语语句及对应场景的自动识别方法
CN106202172A (zh) * 2016-06-24 2016-12-07 中国农业银行股份有限公司 文本压缩方法及装置
CN107301208A (zh) * 2017-06-02 2017-10-27 北京奇虎科技有限公司 一种数据表处理方法和装置
CN107862070A (zh) * 2017-11-22 2018-03-30 华南理工大学 基于文本聚类的线上课堂讨论短文本即时分组方法及系统
CN108205590A (zh) * 2017-12-29 2018-06-26 北京奇元科技有限公司 一种建立兴趣点网络层级拓扑图的方法及装置
CN108805755A (zh) * 2018-07-04 2018-11-13 山东汇贸电子口岸有限公司 一种旅游套餐生成方法及装置
CN105183841B (zh) * 2015-09-06 2019-03-26 南京游族信息技术有限公司 大数据环境下结合频繁项集和深度学习的推荐方法
CN110399397A (zh) * 2018-04-19 2019-11-01 北京京东尚科信息技术有限公司 一种数据查询方法和系统
CN110688434A (zh) * 2018-06-19 2020-01-14 百度在线网络技术(北京)有限公司 一种兴趣点处理方法、装置、设备和介质
CN111309786A (zh) * 2020-02-20 2020-06-19 江西理工大学 基于MapReduce的并行频繁项集挖掘方法
CN111526184A (zh) * 2020-04-07 2020-08-11 中国建设银行股份有限公司 业务审核的方法和装置
WO2020173043A1 (zh) * 2019-02-28 2020-09-03 平安科技(深圳)有限公司 用户群的优化方法及装置、计算机非易失性可读存储介质
CN115525695A (zh) * 2022-10-08 2022-12-27 广东工业大学 一种互联网金融实时流数据的增量式频繁项集挖掘方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8504411B1 (en) * 2009-09-14 2013-08-06 Aol Advertising Inc. Systems and methods for online user profiling and segmentation
CN103345698A (zh) * 2013-07-09 2013-10-09 焦点科技股份有限公司 电子商务环境下基于云计算处理模式的个性化推荐方法
CN103455613A (zh) * 2013-09-06 2013-12-18 南京大学 基于MapReduce模型的兴趣感知服务推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8504411B1 (en) * 2009-09-14 2013-08-06 Aol Advertising Inc. Systems and methods for online user profiling and segmentation
CN103345698A (zh) * 2013-07-09 2013-10-09 焦点科技股份有限公司 电子商务环境下基于云计算处理模式的个性化推荐方法
CN103455613A (zh) * 2013-09-06 2013-12-18 南京大学 基于MapReduce模型的兴趣感知服务推荐方法

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105205058A (zh) * 2014-06-10 2015-12-30 北京畅游天下网络技术有限公司 数据处理系统和方法
CN105205058B (zh) * 2014-06-10 2019-03-12 北京畅游天下网络技术有限公司 数据处理系统和方法
CN105183841B (zh) * 2015-09-06 2019-03-26 南京游族信息技术有限公司 大数据环境下结合频繁项集和深度学习的推荐方法
CN105740387A (zh) * 2016-01-27 2016-07-06 北京工业大学 一种基于作者频繁模式的科技文献推荐方法
CN105740387B (zh) * 2016-01-27 2019-04-05 北京工业大学 一种基于作者频繁模式的科技文献推荐方法
CN106021240A (zh) * 2016-04-29 2016-10-12 北京创鑫旅程网络技术有限公司 一种旅行中常用外语语句及对应场景的自动识别方法
CN106021240B (zh) * 2016-04-29 2018-07-24 北京创鑫旅程网络技术有限公司 一种旅行中常用外语语句及对应场景的自动识别方法
CN106202172A (zh) * 2016-06-24 2016-12-07 中国农业银行股份有限公司 文本压缩方法及装置
CN106202172B (zh) * 2016-06-24 2019-07-30 中国农业银行股份有限公司 文本压缩方法及装置
CN107301208A (zh) * 2017-06-02 2017-10-27 北京奇虎科技有限公司 一种数据表处理方法和装置
CN107862070A (zh) * 2017-11-22 2018-03-30 华南理工大学 基于文本聚类的线上课堂讨论短文本即时分组方法及系统
CN108205590A (zh) * 2017-12-29 2018-06-26 北京奇元科技有限公司 一种建立兴趣点网络层级拓扑图的方法及装置
CN108205590B (zh) * 2017-12-29 2022-01-28 北京奇元科技有限公司 一种建立兴趣点网络层级拓扑图的方法及装置
CN110399397A (zh) * 2018-04-19 2019-11-01 北京京东尚科信息技术有限公司 一种数据查询方法和系统
CN110688434A (zh) * 2018-06-19 2020-01-14 百度在线网络技术(北京)有限公司 一种兴趣点处理方法、装置、设备和介质
CN110688434B (zh) * 2018-06-19 2022-12-09 百度在线网络技术(北京)有限公司 一种兴趣点处理方法、装置、设备和介质
CN108805755A (zh) * 2018-07-04 2018-11-13 山东汇贸电子口岸有限公司 一种旅游套餐生成方法及装置
WO2020173043A1 (zh) * 2019-02-28 2020-09-03 平安科技(深圳)有限公司 用户群的优化方法及装置、计算机非易失性可读存储介质
CN111309786A (zh) * 2020-02-20 2020-06-19 江西理工大学 基于MapReduce的并行频繁项集挖掘方法
CN111309786B (zh) * 2020-02-20 2023-09-15 韶关学院 基于MapReduce的并行频繁项集挖掘方法
CN111526184A (zh) * 2020-04-07 2020-08-11 中国建设银行股份有限公司 业务审核的方法和装置
CN111526184B (zh) * 2020-04-07 2022-07-29 中国建设银行股份有限公司 业务审核的方法和装置
CN115525695A (zh) * 2022-10-08 2022-12-27 广东工业大学 一种互联网金融实时流数据的增量式频繁项集挖掘方法

Also Published As

Publication number Publication date
CN103729478B (zh) 2016-11-09

Similar Documents

Publication Publication Date Title
CN103729478A (zh) 基于MapReduce的LBS兴趣点发现方法
CN103020256B (zh) 一种大规模数据的关联规则挖掘方法
CN112182410B (zh) 基于时空轨迹知识图谱的用户出行模式挖掘方法
CN106528773B (zh) 一种基于Spark平台支持空间数据管理的图计算系统及方法
CN103220376B (zh) 利用移动终端的位置数据来定位ip位置的方法
CN106528787B (zh) 一种基于海量数据多维分析的查询方法及装置
CN105808696B (zh) 一种基于全局和局部特征的跨在线社交网络用户匹配方法
CN103838867A (zh) 日志处理方法和装置
CN102521364B (zh) 一种图上两点间最短路径查询方法
CN103258049A (zh) 一种基于海量数据的关联规则挖掘方法
CN107229751A (zh) 一种面向流式数据的并行增量式关联规则挖掘方法
CN102999506A (zh) 一种获取用户独立访问数的方法与装置
CN106599190A (zh) 基于云计算的动态Skyline查询方法
Demiryurek et al. Indexing network voronoi diagrams
CN106886592A (zh) 一种基于数据源服务的城市时空数据汇聚系统及方法
Zhang et al. Efficient spatio-textual similarity join using mapreduce
CN108345662A (zh) 一种考虑用户分布区域差异的签到微博数据加权统计方法
Cai et al. The mining of urban hotspots based on multi-source location data fusion
CN114554592A (zh) 通信大数据栅格化算法结合Gis引擎的优化定位方法及装置
CN104750860B (zh) 一种不确定数据的数据存储方法
Xu et al. An evaluation and query algorithm for the influence of spatial location based on R k NN
CN109947838A (zh) 一种存储数据的方法及装置
CN111107493A (zh) 一种移动用户位置预测方法与系统
CN112579831A (zh) 基于SimRank全局矩阵平滑收敛的网络社区发现方法、装置及存储介质
Bhandari et al. Estimation of Origin-Destination using Mobile Phone Call Data: A Case Study of Greater Dhaka, Bangladesh

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190201

Address after: 401121 17 Blocks, 106 Jinkai Avenue West Section, Yubei District, Chongqing

Patentee after: BOLAA NETWORK Co.,Ltd.

Address before: 400065 No. 2 Chongwen Road, Huang Jue ya, Nan'an District, Chongqing

Patentee before: Chongqing University of Posts and Telecommunications

PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Lbs interest point discovery method based on MapReduce

Effective date of registration: 20220520

Granted publication date: 20161109

Pledgee: Chongqing Branch of China Everbright Bank Co.,Ltd.

Pledgor: BOLAA NETWORK Co.,Ltd.

Registration number: Y2022500000028

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20230614

Granted publication date: 20161109

Pledgee: Chongqing Branch of China Everbright Bank Co.,Ltd.

Pledgor: BOLAA NETWORK Co.,Ltd.|Chongqing Wingshengda Technology Co.,Ltd.

Registration number: Y2022500000028

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: LBS Interest Point Discovery Method Based on MapReduce

Effective date of registration: 20230809

Granted publication date: 20161109

Pledgee: Chongqing Branch of China Everbright Bank Co.,Ltd.

Pledgor: BOLAA NETWORK Co.,Ltd.|Chongqing Wingshengda Technology Co.,Ltd.

Registration number: Y2023500000055

PE01 Entry into force of the registration of the contract for pledge of patent right