CN104965913A - 一种基于gps地理位置数据挖掘的用户分类方法 - Google Patents

一种基于gps地理位置数据挖掘的用户分类方法 Download PDF

Info

Publication number
CN104965913A
CN104965913A CN201510390801.8A CN201510390801A CN104965913A CN 104965913 A CN104965913 A CN 104965913A CN 201510390801 A CN201510390801 A CN 201510390801A CN 104965913 A CN104965913 A CN 104965913A
Authority
CN
China
Prior art keywords
user
users
list
nlp
dwell regions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510390801.8A
Other languages
English (en)
Other versions
CN104965913B (zh
Inventor
徐光侠
高诗意
常光辉
刘宴兵
梁绍飞
林福弈
胡杰
李来军
吴群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201510390801.8A priority Critical patent/CN104965913B/zh
Publication of CN104965913A publication Critical patent/CN104965913A/zh
Application granted granted Critical
Publication of CN104965913B publication Critical patent/CN104965913B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Remote Sensing (AREA)
  • Position Fixing By Use Of Radio Waves (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明请求保护一种基于GPS地理位置数据挖掘的用户分类方法,包括如下步骤:预处理原始数据集,提取算法所需数据属性并以用户为单位归纳整理;通过FindStayArea算法挖掘用户的停留区域,找出用户大范围的活动区域(如工作地点区域、居住小区等);接着通过FindStayPoint算法挖掘用户的停留位置也是就用户的活动位置(如工作地点区域中的某栋建筑,居住小区中的体育场等);最后将用户的停留位置结合UserClassify算法对用户分类。本发明将用户的原始GPS地理位置数据分层处理,不仅能挖掘出用户经常活动的停留位置,同时还能够利用挖掘的结果将用户分类,找出相似性最高的用户群体,充分挖掘GPS地理位置数据的价值。

Description

一种基于GPS地理位置数据挖掘的用户分类方法
技术领域
本发明涉及大数据分析技术领域,涉及利用机器学习算法对移动大数据中GPS地理位置数据的分析处理,具体涉及一种基于GPS地理位置数据挖掘的用户分类方法。
背景技术
随着移动智能终端爆炸式的发展以及定位技术的成熟,不仅催生了大量的基于位置的服务(Location Based Service,LBS)应用,同时也促进了移动大数据(Mobility Big Data,MBD)的产生。伴随着位置服务、车联网应用以及各式定位技术的不断普及和发展,由地理数据、车辆和人的轨迹以及应用记录等构成的移动大数据已经成为当前用来感知人类社群活动规律,分析地理国情和构建智慧城市的重要战略资源。
移动大数据表示通过采集用户移动时产生的地理位置数据信息,其特点具有除大数据4V特点以外,还具有复杂性、混杂性以及稀疏性。移动大数据中的类型可以根据其采集方式的不同分为三大类:GPS数据、GSM定位数据、WIFI定位数据。而其具体的采集方式可以分为基于卫星定位、基于地理信息系统定位、基于无线信号定位、基于传感器定位和组合定位等。
目前对于移动数据的采集越加方便和容易,但因此也导致数据量尤为庞大,如何利用和分析移动大数据成为当前研究领域的一大难题,同时也是一大热点。虽然有众多研究学者针对采集的用户GPS数据进行处理,但是这些研究的重点在于通过多而杂的GPS数据挖掘用户的停留区域,其方法大致分为分割聚类算法(Dividing Clustering Algorithm)、基于密度的聚类算法(Density-Based ClusteringAlgorithm)以及基于时间的聚类算法(Time-Based Clustering Algorithm)。这些方法都有着各自的缺点以及优点,也能够在一定程度上挖掘用户的停留区域,但是这些研究没有充分利用移动大数据的价值。(1)、挖掘用户的停留区域会导致信息有效性降低,区域对于用户来说范围太大,在实际的应用中价值不高;(2)、即使停留区域的精度提高了,但是仅仅知道用户的停留区域无法为用户提供更加高效、精准的服务。
而目前,有一种基于GPS地理位置数据对用户分类的算法是通过挖掘用户停留位置,然后通过停留位置间的轨迹序列将用户分类。这种算法首先在效率上较低,需要处理用户的移动轨迹序列,并且要分层多次聚类才能完成对用户的分类;其次这种算法对用户分类的研究太过严格,会丢失部分有效信息。
因此本发明主要利用机器学习相关算法对移动大数据中的GPS地理位置数据类型进行分析处理,首先挖掘用户的停留区域,其次在停留区域中挖掘用户的停留位置,最后再根据用户的停留位置结合余弦定理以及TF-IDF(TermFrequency-Inverse Document Frequency,词频逆文本频率指数)算法思想对用户进行分类。而分类结果可以进一步应用于为推荐引擎提供参考、为异常检测提供标准等,进而更加提高对移动大数据的利用,为用户提供更加有效、精确的服务。
发明内容
针对现有技术的不足,提出了一种提高对移动大数据的利用,为用户提供更加有效、精确的服务的基于GPS地理位置数据挖掘的用户分类方法。本发明的技术方案如下:一种基于GPS地理位置数据挖掘的用户分类方法,其包括以下步骤:
101、采集用户的原始GPS地理位置数据,并预处理原始GPS地理位置数据,具体为:将用户原始GPS地理位置数据按文件夹分类,分别遍历所有文件夹中存储用户原始GPS地理位置数据的文件,提取其中的纬度、经度、记录时间三个属性,并按用户ID作为输出文件的文件名;
102、挖掘用户停留区域的步骤:将步骤101整理好的用户数据作为FindStayArea算法挖掘停留区域的数据输入,输出结果为用户停留区域,停留区域包括停留区域中心点以及其附属的邻居节点;
103、挖掘用户停留位置的步骤:将步骤102中输出结果的用户停留区域作为FindStayPoint算法挖掘停留位置的数据输入,输出结果为用户停留位置,停留位置是由中心点所表示;
104、对用户分类,将用户停留位置作为用户分类UserClassify算法的数据输入,输出用户分类结果,将类别一致的用户作为一组用户输出。
进一步的,步骤102中挖掘用户停留区域的步骤具体为:
S21:读取用户数据文件,并将每一个记录的纬度、经度转换成浮点型数据,将记录时间转换成日期型数据,并保存为Location类类型,构建用户的位置列表list[Location],列表中的元素为Location类类型;
S22:将单个用户的位置列表list[Location]作为FindStayArea算法挖掘停留区域的输入数据源,并开始挖掘用户的停留区域,输出以计算开始位置作为key,位置列表作为value的字典类型数据结果Map{key:Location,value:list[Location]};
S23:整理FindStayArea算法的输出结果,计算结果中所有位置数据的平均值作为停留区域StayArea类类型的中心点,将所有位置数据作为停留区域StayArea类类型的邻居节点,并构建用户的停留区域列表list[StayArea],列表中的元素为StayArea类类型,将结果以二进制文件的形式保存。
进一步的,所述FindStayArea算法步骤具体为:
A1、任取用户某一地点位置作为起始计算点LP,遍历该用户其余所有位置点计算与LP的距离,当距离小于某一距离阀值mindist时,便将其加入到该点LP的邻居节点中;A2、遍历结束时,当该点LP的邻居节点其密度大于最小密度阀值minpoint时,将该点同其邻居节点视为一停留区域,同时将该点与其邻居节点从原始位置数据集中删除;如果遍历结束时,该点LP的邻居节点其密度不大于最小密度阀值minpoint时,将该点视为杂点,同时将该点从原始位置数据中删除;重复这一过程,直到原始位置数据中所有的点都经过了这两步计算过程,结束。
进一步的,步骤103中挖掘用户停留位置的具体步骤为:
S31:加载用户停留区域数据二进制文件,通过停留区域中的邻居节点数据构建位置列表数据集list[Location],列表中的元素为Location类类型;
S32:将停留区域中邻居节点构建的位置列表list[Location]作为FindStayPoint算法的输入数据源,并开始挖掘用户的停留位置,输出停留位置列表list[StayPoint],列表中的元素为StayPoint类类型,包括停留位置的中心点以及邻居节点。将结果以二进制文件形式保存。
进一步的,所述FindStayPoint算法的步骤具体为:
任取某用户停留区域的邻居节点中的地点位置作为起始计算点NLP,遍历该用户该停留区域的邻居节点中其余所有位置点计算与NLP的距离,当找到某点NLP'与NLP的距离大于某一距离阀值mindist时,计算NLP'与NLP时间间隔,当其时间间隔大于某一时间阀值mintime时,则将NLP与NLP'之间的点视为该用户的停留位置,并计算NLP与NLP'之间所有点的平均值作为该停留位置的中心点,同时下次从NLP'之后的某个位置点NLP”重新开始此计算步骤;而当某点NLP'与NLP的距离不大于某一距离阀值mindist时,从NLP之后的某个位置点NLP”重新开始计算NLP”与其他位置点的距离;重复此计算步骤,直到用户的所有停留区域中的邻居节点全部经过此计算过程,结束。
进一步的,步骤104中对用户分类的具体步骤为:
S41:加载用户停留位置数据二进制文件;
S42:对用户停留位置中心进行统一化处理,构建所有用户的中心位置向量LocationVector;
S43:构建单个用户的中心位置向量UserLocationVector
S44:根据用户的中心位置向量UserLocationVector与用户停留位置中心列表,计算用户中心位置向量的TF-IDF值;
S45:将计算所得用户中心位置向量的TF-IDF值结合所有用户的中心位置向量LocationVector建立用户的TF-IDF值向量列表;
S46:根据用户的TF-IDF值向量列表计算用户之间的余弦值,并将其作为用户之间的相似性度量值作为结果输出。
进一步的,所述步骤S42中对用户停留位置统一化以及建立所有用户中心位置向量LocationVector的处理方法为:
从某一用户的停留位置CLP开始,计算其本身以及其他用户的停留位置CLP',当其距离小于某一距离阀值mindist,将CLP与CLP'加入合并中心点列表,当遍历结束时,如果合并中心点列表不为空,则计算列表中所有中心点的平均值,并将CLP的值修改为新计算的平均值,同时对比所有用户的中心位置向量LocationVector,如果其中已经添加了CLP则忽略此点,否则将其添加至LocationVector中;反复计算直到所有用户的停留位置全部完成上述计算步骤。
进一步的,所述步骤S44中计算用户中心位置向量的TF-IDF值的方法为:
任取某一用户中心位置向量中的一点UCLP,统计其在该用户中心位置向量中出现的次数TFN与其他所有用户中出现的次数IDFN以及该用户中心位置向量的总数UCLPN与所有用户总数UN,通过计算该点UCLP的TF值,通过计算该点UCLP的IDF值,最后通过TF-IDF=TF*IDF计算该点UCLP的TF-IDF值;重复该过程,直到所有用户的所有中心位置向量中的中心点的TF-IDF全部计算完成。
进一步的,所述步骤S45中建立用户的TF-IDF值向量列表的方法为:
任取某一用户的中心位置向量UserLocationVector,将其与所有用户位置向量LocationVector中的中心点进行对比,如果相同则将计算的TF-IDF值赋值给该中心点,其余该用户位置中心向量中的中心点没有出现在LocationVector中的赋值为0;重复此步骤,直到所有用户的TF-IDF值向量列表全部建立。
进一步的,所述计算用户的相似性方法为:
任取某两个用户的TF-IDF值向量A和B,通过计算用户之间的余弦值,并作为这两个用户的相似性结果,当且仅当该值大于某相似性阀值minsimilarity时,才能判断这两个用户为一类;遍历所有用户,直到所有用户都和其他用户完成了此计算步骤。
本发明的优点及有益效果如下:
本发明通过机器学习相关算法对移动大数据分析处理的过程中,不仅能够挖掘用户的停留区域,同时也能够在用户的停留区域中挖掘用户的停留位置即用户经常活动的小范围地理位置地点,并且在此基础上,能够将用户按活动位置进行分类,为后期构建推荐引擎以及异常轨迹检测等算法提供数据源以及参考信息。在实际情况中最大化利用的移动大数据的信息价值。
本发明中的算法采取离线训练的模式,将算法最费时间的部分在线下预先处理完成,以保障能够在线给用户及时的服务,符合实际应用的开发与使用。
本发明结果GPS地理位置数据的特点,以及算法目的,在挖掘到某一用户停留位置区域后,将该区域内所有数据节点都删除,不计入下次计算,一方面提高了算法的运行速度与效率,另一方面也避免了同一区域被重复多次挖掘的信息冗余。本发明是基于用户GPS地理位置数据特性,结合用户实际生活情况对用户的停留位置用TF-IDF算法对其加权,然后通过余弦定理对用户分类,不仅提高了对移动大数据的价值提取,同时更加符合用户的实际生活情况,使得分类结果更具代表性更加真实。
附图说明
图1是本发明优选实施例算法整体流程结构示意图;
图2是本发明挖掘用户停留区域FindStayArea算法流程图;
图3是本发明挖掘用户停留位置FindStayPoint算法流程图;
图4是本发明用户分类UserClassify算法流程图。
具体实施方式
以下结合附图,对本发明作进一步说明:
参见图1,本发明提供了一种基于GPS地理位置数据挖掘的用户分类方法,其包括如下步骤:
第一步,预处理原始GPS地理位置数据,提取算法所需数据属性并按用户归纳整理;将用户原始GPS地理位置数据按文件夹分类,分别遍历所有文件夹中存储用户原始GPS地理位置数据的文件,提取其中的纬度、经度、记录时间三个属性,并按用户ID作为输出文件的文件名。
如图1所示,本发明首先需要从原始采集数据中提取有效信息,并按用户ID进行整理,然后通过同整理好的文件中读取原始GPS地理位置数据集,并通FindStayArea算法挖掘用户停留区域,整理好结果后做为FindStayPoint算法的输入数据,挖掘用户停留位置,最后余弦定理以及TF-IDF算法思想分析处理用户的停留位置中心,并将用户分类。
第二步,挖掘用户停留区域,将整理好的用户数据作为FindStayArea算法的数据输入,输出结果为用户停留区域(如用户的工作区域、生活区域等),停留区域包括停留区域中心点以及其附属的邻居节点,算步骤为:
S21:读取用户数据文件,并将每一个记录的纬度、经度转换成浮点型数据,将记录时间转换成日期型数据,并保存为Location类类型,构建用户的位置列表list[Location],列表中的元素为Location类类型;
S22:将单个用户的位置列表list[Location]作为FindStayArea算法的输入数据源,并开始挖掘用户的停留区域,输出以计算开始位置作为key,位置列表作为value的字典类型数据结果Map{key:Location,value:list[Location]};
S23:整理FindStayArea算法的输出结果,计算结果中所有位置数据的平均值作为停留区域StayArea类类型的中心点,将所有位置数据作为停留区域StayArea类类型的邻居节点,并构建用户的停留区域列表list[StayArea],列表中的元素为StayArea类类型,将结果以二进制文件的形式保存。
在本发明的一种优选实施方式中,如图2所示,所述对FindStayArea算法的实施方法为:第一步:任取用户某一地点位置作为起始计算点LP,遍历该用户其余所有位置点计算与LP的距离,当距离小于某一距离阀值mindist时,便将其加入到该点LP的邻居节点中;第二步:遍历结束时,当该点LP的邻居节点其密度大于最小密度阀值minpoint时,将该点同其邻居节点视为停留区域,同时将该点与其邻居节点从原始位置数据集中删除;如果遍历结束时,该点LP的邻居节点其密度不大于最小密度阀值minpoint时,将该点视为杂点,同时将该点从原始位置数据中删除;重复这一过程,直到原始位置数据中所有的点都经过了这两步计算过程。
第三步,挖掘用户停留位置,将用户停留区域作为FindStayPoint算法的数据输入,输出结果为用户停留位置(如用户的办公楼、生活区域中的体育场等),停留位置是由中心点所表示,算步骤为:
S31:加载用户停留区域数据二进制文件,通过停留区域中的邻居节点数据构建位置列表数据集list[Location],列表中的元素为Location类类型;
S32:将停留区域中邻居节点构建的位置列表list[Location]作为FindStayPoint算法的输入数据源,并开始挖掘用户的停留位置,输出停留位置列表list[StayPoint],列表中的元素为StayPoint类类型,包括停留位置的中心点以及邻居节点。将结果以二进制文件形式保存。
在本发明的一种优选实施方式中,如图3所示,所述对FindStayPoint算法的实施方法为:任取某用户停留区域的邻居节点中的地点位置作为起始计算点NLP,遍历该用户该停留区域的邻居节点中其余所有位置点计算与NLP的距离,当找到某点NLP'与NLP的距离大于某一距离阀值mindist时,计算NLP'与NLP时间间隔,当其时间间隔大于某一时间阀值mintime时,则将NLP与NLP'之间的点视为该用户的停留位置,并计算NLP与NLP'之间所有点的平均值作为该停留位置的中心点,同时下次从NLP'之后的某个位置点NLP”重新开始此计算步骤;而当某点NLP'与NLP的距离不大于某一距离阀值mindist时,从NLP之后的某个位置点NLP”重新开始计算NLP”与其他位置点的距离;重复此计算步骤,直到用户的所有停留区域中的邻居节点全部经过此计算过程。
第四步,对用户分类,将用户停留位置作为UserClassify算法的数据输入,输出用户分类结果,将类别一致的用户作为一组用户输出,流程图如图4所示,算步骤为:
S41:加载用户停留位置数据二进制文件;
S42:对用户停留位置中心进行统一化处理,构建所有用户的中心位置向量LocationVector;
S43:构建单个用户的中心位置向量UserLocationVector
S44:根据用户的中心位置向量UserLocationVector与用户停留位置中心列表,计算用户中心位置向量的TF-IDF值;
S45:将计算所得用户中心位置向量的TF-IDF值结合所有用户的中心位置向量LocationVector建立用户的TF-IDF值向量列表;
S46:根据用户的TF-IDF值向量列表计算用户之间的余弦值,并将其作为用户之间的相似性度量值作为结果输出。
在本发明的一种优选实施方式中,所述对用户停留位置统一化以及建立所有用户中心位置向量LocationVector的处理方法为:从某一用户的停留位置CLP开始,计算其本身以及其他用户的停留位置CLP',当其距离小于某一距离阀值mindist,将CLP与CLP'加入合并中心点列表,当遍历结束时,如果合并中心点列表不为空,则计算列表中所有中心点的平均值,并将CLP的值修改为新计算的平均值,同时对比所有用户的中心位置向量LocationVector,如果其中已经添加了CLP则忽略此点,否则将其添加至LocationVector中;反复计算直到所有用户的停留位置全部完成上述计算步骤。
在本发明的一种优选实施方式中,所述对用户停留位置统一化以及建立用户中心位置向量UserLocationVector的处理方法为:遍历统一化的某用户中心位置列表,对比该用户中心位置向量UserLocationVector,如果已经将其添加,则放弃该UCLP,否则将其添加至该用户中心位置向量UserLocationVector中;重复此步骤,直到所有用户均已遍历结束。
在本发明的一种优选实施方式中,所述计算用户中心位置向量的TF-IDF值的方法为:任取某一用户中心位置向量中的一点UCLP,统计其在该用户中心位置向量中出现的次数TFN与其他所有用户中出现的次数IDFN以及该用户中心位置向量的总数UCLPN与所有用户总数UN,通过计算该点UCLP的TF值,通过计算该点UCLP的IDF值,最后通过TF-IDF=TF*IDF计算该点UCLP的TF-IDF值;重复该过程,直到所有用户的所有中心位置向量中的中心点的TF-IDF全部计算完成。
在本发明的一种优选实施方式中,所述建立用户的TF-IDF值向量列表的方法为:任取某一用户的中心位置向量UserLocationVector,将其与所有用户位置向量LocationVector中的中心点进行对比,如果相同则将计算的TF-IDF值赋值给该中心点,其余该用户位置中心向量中的中心点没有出现在LocationVector中的赋值为0;重复此步骤,直到所有用户的TF-IDF值向量列表全部建立。
在本发明的一种优选实施方式中,所述计算用户的相似性方法为:任取某两个用户的TF-IDF值向量A和B,通过计算用户之间的余弦值,并作为这两个用户的相似性结果,当且仅当该值大于某相似性阀值minsimilarity时,才能判断这两个用户为一类;遍历所有用户,直到所有用户都和其他用户完成了此计算步骤。
本发明将用户的原始GPS地理位置数据分层处理,不仅能挖掘出用户经常活动的停留位置,同时还能够利用挖掘的结果将用户分类,找出相似性最高的用户群体,充分挖掘GPS地理位置数据的价值。与此同时该算法的处理结果能够进一步被加以利用,为推荐引擎提供对应的分类信息,为异常检测提供用户的相似性信息等,更加完善对GPS地理位置数据的利用。同时,本发明是基于用户GPS地理位置数据特性,结合用户实际生活情况对用户的停留位置用TF-IDF算法对其加权,然后通过余弦定理对用户分类,不仅提高了对移动大数据的价值提取,同时更加符合用户的实际生活情况,使得分类结果更具代表性更加真实。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (10)

1.一种基于GPS地理位置数据挖掘的用户分类方法,其特征在于,包括以下步骤:
101、采集用户的原始GPS地理位置数据,并预处理原始GPS地理位置数据,具体为:将用户原始GPS地理位置数据按文件夹分类,分别遍历所有文件夹中存储用户原始GPS地理位置数据的文件,提取其中的纬度、经度、记录时间三个属性,并按用户ID作为输出文件的文件名;
102、挖掘用户停留区域的步骤:将步骤101整理好的用户数据作为FindStayArea算法挖掘停留区域的数据输入,输出结果为用户停留区域,停留区域包括停留区域中心点以及其附属的邻居节点;
103、挖掘用户停留位置的步骤:将步骤102中输出结果的用户停留区域作为FindStayPoint算法挖掘停留位置的数据输入,输出结果为用户停留位置,停留位置是由中心点所表示;
104、对用户分类,将用户停留位置作为用户分类UserClassify算法的数据输入,输出用户分类结果,将类别一致的用户作为一组用户输出。
2.根据权利要求1所述的一种基于GPS地理位置数据挖掘的用户分类方法,其特征在于,步骤102中挖掘用户停留区域的步骤具体为:
S21:读取用户数据文件,并将每一个记录的纬度、经度转换成浮点型数据,将记录时间转换成日期型数据,并保存为Location类类型,构建用户的位置列表list[Location],列表中的元素为Location类类型;
S22:将单个用户的位置列表list[Location]作为FindStayArea算法挖掘停留区域的输入数据源,并开始挖掘用户的停留区域,输出以计算开始位置作为key,位置列表作为value的字典类型数据结果Map{key:Location,value:list[Location]};
S23:整理FindStayArea算法的输出结果,计算结果中所有位置数据的平均值作为停留区域StayArea类类型的中心点,将所有位置数据作为停留区域StayArea类类型的邻居节点,并构建用户的停留区域列表list[StayArea],列表中的元素为StayArea类类型,将结果以二进制文件的形式保存。
3.根据权利要求1或2所述的一种基于GPS地理位置数据挖掘的用户分类方法,其特征在于,所述FindStayArea算法挖掘停留区域步骤具体为:
A1、任取用户某一地点位置作为起始计算点LP,遍历该用户其余所有位置点计算与LP的距离,当距离小于某一距离阀值mindist时,便将其加入到该点LP的邻居节点中;A2、遍历结束时,当该点LP的邻居节点其密度大于最小密度阀值minpoint时,将该点同其邻居节点视为一停留区域,同时将该点与其邻居节点从原始位置数据集中删除;如果遍历结束时,该点LP的邻居节点其密度不大于最小密度阀值minpoint时,将该点视为杂点,同时将该点从原始位置数据中删除;重复这一过程,直到原始位置数据中所有的点都经过了这两步计算过程,结束。
4.根据权利要求1所述的一种基于GPS地理位置数据挖掘的用户分类方法,其特征在于,步骤103中挖掘用户停留位置的具体步骤为:
S31:加载用户停留区域数据二进制文件,通过停留区域中的邻居节点数据构建位置列表数据集list[Location],列表中的元素为Location类类型;
S32:将停留区域中邻居节点构建的位置列表list[Location]作为FindStayPoint算法的输入数据源,并开始挖掘用户的停留位置,输出停留位置列表list[StayPoint],列表中的元素为StayPoint类类型,包括停留位置的中心点以及邻居节点。将结果以二进制文件形式保存。
5.根据权利要求1或4所述的一种基于GPS地理位置数据挖掘的用户分类方法,其特征在于,所述FindStayPoint算法的步骤具体为:
任取某用户停留区域的邻居节点中的地点位置作为起始计算点NLP,遍历该用户该停留区域的邻居节点中其余所有位置点计算与NLP的距离,当找到某点NLP'与NLP的距离大于某一距离阀值mindist时,计算NLP'与NLP时间间隔,当其时间间隔大于某一时间阀值mintime时,则将NLP与NLP'之间的点视为该用户的停留位置,并计算NLP与NLP'之间所有点的平均值作为该停留位置的中心点,同时下次从NLP'之后的某个位置点NLP”重新开始此计算步骤;而当某点NLP'与NLP的距离不大于某一距离阀值mindist时,从NLP之后的某个位置点NLP”重新开始计算NLP”与其他位置点的距离;重复此计算步骤,直到用户的所有停留区域中的邻居节点全部经过此计算过程,结束。
6.根据权利要求1所述的一种基于GPS地理位置数据挖掘的用户分类方法,其特征在于,步骤104中对用户分类的具体步骤为:
S41:加载用户停留位置数据二进制文件;
S42:对用户停留位置中心进行统一化处理,构建所有用户的中心位置向量LocationVector;
S43:构建单个用户的中心位置向量UserLocationVector
S44:根据用户的中心位置向量UserLocationVector与用户停留位置中心列表,计算用户中心位置向量的TF-IDF值;
S45:将计算所得用户中心位置向量的TF-IDF值结合所有用户的中心位置向量LocationVector建立用户的TF-IDF值向量列表;
S46:根据用户的TF-IDF值向量列表计算用户之间的余弦值,并将其作为用户之间的相似性度量值作为结果输出。
7.根据权利要求6所述的一种基于GPS地理位置数据挖掘的用户分类方法,其特征在于,所述步骤S42中对用户停留位置统一化以及建立所有用户中心位置向量LocationVector的处理方法为:
从某一用户的停留位置CLP开始,计算其本身以及其他用户的停留位置CLP',当其距离小于某一距离阀值mindist,将CLP与CLP'加入合并中心点列表,当遍历结束时,如果合并中心点列表不为空,则计算列表中所有中心点的平均值,并将CLP的值修改为新计算的平均值,同时对比所有用户的中心位置向量LocationVector,如果其中已经添加了CLP则忽略此点,否则将其添加至LocationVector中;反复计算直到所有用户的停留位置全部完成上述计算步骤。
8.根据权利要求6所述的一种基于GPS地理位置数据挖掘的用户分类方法,其特征在于,所述步骤S44中计算用户中心位置向量的TF-IDF值的方法为:
任取某一用户中心位置向量中的一点UCLP,统计其在该用户中心位置向量中出现的次数TFN与其他所有用户中出现的次数IDFN以及该用户中心位置向量的总数UCLPN与所有用户总数UN,通过计算该点UCLP的TF值,通过计算该点UCLP的IDF值,最后通过TF-IDF=TF*IDF计算该点UCLP的TF-IDF值;重复该过程,直到所有用户的所有中心位置向量中的中心点的TF-IDF全部计算完成。
9.根据权利要求6所述的一种基于GPS地理位置数据挖掘的用户分类方法,其特征在于,所述步骤S45中建立用户的TF-IDF值向量列表的方法为:
任取某一用户的中心位置向量UserLocationVector,将其与所有用户位置向量LocationVector中的中心点进行对比,如果相同则将计算的TF-IDF值赋值给该中心点,其余该用户位置中心向量中的中心点没有出现在LocationVector中的赋值为0;重复此步骤,直到所有用户的TF-IDF值向量列表全部建立。
10.根据权利要求6所述的一种基于GPS地理位置数据挖掘的用户分类方法,其特征在于,所述计算用户的相似性方法为:
任取某两个用户的TF-IDF值向量A和B,通过计算用户之间的余弦值,并作为这两个用户的相似性结果,当且仅当该值大于某相似性阀值minsimilarity时,才能判断这两个用户为一类;遍历所有用户,直到所有用户都和其他用户完成了此计算步骤。
CN201510390801.8A 2015-07-03 2015-07-03 一种基于gps地理位置数据挖掘的用户分类方法 Active CN104965913B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510390801.8A CN104965913B (zh) 2015-07-03 2015-07-03 一种基于gps地理位置数据挖掘的用户分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510390801.8A CN104965913B (zh) 2015-07-03 2015-07-03 一种基于gps地理位置数据挖掘的用户分类方法

Publications (2)

Publication Number Publication Date
CN104965913A true CN104965913A (zh) 2015-10-07
CN104965913B CN104965913B (zh) 2018-10-12

Family

ID=54219951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510390801.8A Active CN104965913B (zh) 2015-07-03 2015-07-03 一种基于gps地理位置数据挖掘的用户分类方法

Country Status (1)

Country Link
CN (1) CN104965913B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106022934A (zh) * 2016-05-05 2016-10-12 北京邮电大学 一种基于移动轨迹模式的潜在好友发现方法及系统
CN106339417A (zh) * 2016-08-15 2017-01-18 浙江大学 基于移动轨迹中停留点的用户群体行为规律检测方法
CN106651603A (zh) * 2016-12-29 2017-05-10 平安科技(深圳)有限公司 基于位置服务的风险评估方法及装置
CN106874288A (zh) * 2015-12-11 2017-06-20 北京四维图新科技股份有限公司 一种地图信息的处理方法及装置
CN106910147A (zh) * 2015-12-23 2017-06-30 神州数码信息系统有限公司 一种基于多领域融合的智慧城市推荐技术与系统
CN107666649A (zh) * 2016-12-29 2018-02-06 平安科技(深圳)有限公司 个人财产状态评估方法及装置
CN108230023A (zh) * 2017-12-29 2018-06-29 南京光普信息技术有限公司 一种基于顾客游逛行为的客群分类方法
WO2018150228A1 (en) * 2017-02-17 2018-08-23 Dataspark Pte, Ltd Mobility gene for visit data
WO2018150227A1 (en) * 2017-02-17 2018-08-23 Dataspark Pte, Ltd Mobility gene for trajectory data
CN108509434A (zh) * 2017-02-23 2018-09-07 中国移动通信有限公司研究院 一种群体用户的挖掘方法及装置
WO2018219057A1 (zh) * 2017-06-01 2018-12-06 华为技术有限公司 选址方法及设备
CN109034187A (zh) * 2018-06-12 2018-12-18 上海中通吉网络技术有限公司 一种用户家庭工作地址挖掘流程
CN109074706A (zh) * 2016-12-24 2018-12-21 华为技术有限公司 一种确定用户乘车地理位置的方法及设备
CN109686085A (zh) * 2018-12-17 2019-04-26 北京交通大学 基于gps数据危险货物运输车辆停留节点活动类型识别方法
CN109902129A (zh) * 2019-01-25 2019-06-18 平安科技(深圳)有限公司 基于大数据分析的保险代理人归类方法及相关设备
CN110730432A (zh) * 2019-10-21 2020-01-24 深圳市名通科技股份有限公司 邻近用户识别方法、终端及可读存储介质
CN111367896A (zh) * 2018-12-25 2020-07-03 北京融信数联科技有限公司 基于大数据的用户个性化活动图谱构建方法
WO2021206630A1 (en) * 2019-08-19 2021-10-14 Kaha Pte. Ltd. Method, system and device for finding loneliness in one or more users
US11418915B2 (en) 2017-02-17 2022-08-16 DataSpark, PTE. LTD. Trajectory analysis with mode of transportation analysis
TWI819319B (zh) * 2021-06-22 2023-10-21 台灣大哥大股份有限公司 用於建立在地理區域中的用戶活動模型之系統及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102047697A (zh) * 2008-05-27 2011-05-04 高通股份有限公司 用于基于周期性位置锁定生成用户简档的方法和装置
US20110150452A1 (en) * 2009-12-22 2011-06-23 Casio Computer Co., Ltd. Positioning device, positioning method and storage medium
CN102667829A (zh) * 2009-10-09 2012-09-12 日本电气株式会社 信息管理装置、数据处理方法及计算机程序

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102047697A (zh) * 2008-05-27 2011-05-04 高通股份有限公司 用于基于周期性位置锁定生成用户简档的方法和装置
CN102667829A (zh) * 2009-10-09 2012-09-12 日本电气株式会社 信息管理装置、数据处理方法及计算机程序
US20110150452A1 (en) * 2009-12-22 2011-06-23 Casio Computer Co., Ltd. Positioning device, positioning method and storage medium

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭迟,等: ""位置大数据的价值提取与协调挖掘方法"", 《软件学报》 *

Cited By (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874288A (zh) * 2015-12-11 2017-06-20 北京四维图新科技股份有限公司 一种地图信息的处理方法及装置
CN106874288B (zh) * 2015-12-11 2020-06-02 北京四维图新科技股份有限公司 一种地图信息的处理方法及装置
CN106910147A (zh) * 2015-12-23 2017-06-30 神州数码信息系统有限公司 一种基于多领域融合的智慧城市推荐技术与系统
CN106022934A (zh) * 2016-05-05 2016-10-12 北京邮电大学 一种基于移动轨迹模式的潜在好友发现方法及系统
CN106339417A (zh) * 2016-08-15 2017-01-18 浙江大学 基于移动轨迹中停留点的用户群体行为规律检测方法
CN106339417B (zh) * 2016-08-15 2019-10-01 浙江大学 基于移动轨迹中停留点的用户群体行为规律检测方法
CN109074706A (zh) * 2016-12-24 2018-12-21 华为技术有限公司 一种确定用户乘车地理位置的方法及设备
CN107666649A (zh) * 2016-12-29 2018-02-06 平安科技(深圳)有限公司 个人财产状态评估方法及装置
WO2018120425A1 (zh) * 2016-12-29 2018-07-05 平安科技(深圳)有限公司 个人财产状态评估方法、装置、设备和存储介质
WO2018120427A1 (zh) * 2016-12-29 2018-07-05 平安科技(深圳)有限公司 基于位置服务的风险评估方法、装置、设备和存储介质
CN106651603A (zh) * 2016-12-29 2017-05-10 平安科技(深圳)有限公司 基于位置服务的风险评估方法及装置
WO2018150227A1 (en) * 2017-02-17 2018-08-23 Dataspark Pte, Ltd Mobility gene for trajectory data
US10945096B2 (en) 2017-02-17 2021-03-09 DataSpark, PTE. LTD. Mobility gene for visit data
US10873832B2 (en) 2017-02-17 2020-12-22 DataSpark, PTE. LTD. Mobility gene for trajectory data
WO2018150228A1 (en) * 2017-02-17 2018-08-23 Dataspark Pte, Ltd Mobility gene for visit data
US10834536B2 (en) 2017-02-17 2020-11-10 DataSpark, PTE. LTD. Trajectory analysis through fusion of multiple data sources
US10827308B2 (en) 2017-02-17 2020-11-03 Data Spark, Pte Ltd Real time trajectory identification from communications network
US11418915B2 (en) 2017-02-17 2022-08-16 DataSpark, PTE. LTD. Trajectory analysis with mode of transportation analysis
CN108509434B (zh) * 2017-02-23 2020-12-25 中国移动通信有限公司研究院 一种群体用户的挖掘方法及装置
CN108509434A (zh) * 2017-02-23 2018-09-07 中国移动通信有限公司研究院 一种群体用户的挖掘方法及装置
WO2018219057A1 (zh) * 2017-06-01 2018-12-06 华为技术有限公司 选址方法及设备
CN108230023B (zh) * 2017-12-29 2021-12-21 南京光普信息技术有限公司 一种基于顾客游逛行为的客群分类方法
CN108230023A (zh) * 2017-12-29 2018-06-29 南京光普信息技术有限公司 一种基于顾客游逛行为的客群分类方法
CN109034187A (zh) * 2018-06-12 2018-12-18 上海中通吉网络技术有限公司 一种用户家庭工作地址挖掘流程
CN109034187B (zh) * 2018-06-12 2021-09-17 上海中通吉网络技术有限公司 一种用户家庭工作地址挖掘流程
CN109686085A (zh) * 2018-12-17 2019-04-26 北京交通大学 基于gps数据危险货物运输车辆停留节点活动类型识别方法
CN111367896A (zh) * 2018-12-25 2020-07-03 北京融信数联科技有限公司 基于大数据的用户个性化活动图谱构建方法
CN109902129A (zh) * 2019-01-25 2019-06-18 平安科技(深圳)有限公司 基于大数据分析的保险代理人归类方法及相关设备
CN109902129B (zh) * 2019-01-25 2023-06-20 平安科技(深圳)有限公司 基于大数据分析的保险代理人归类方法及相关设备
WO2021206630A1 (en) * 2019-08-19 2021-10-14 Kaha Pte. Ltd. Method, system and device for finding loneliness in one or more users
CN110730432A (zh) * 2019-10-21 2020-01-24 深圳市名通科技股份有限公司 邻近用户识别方法、终端及可读存储介质
CN110730432B (zh) * 2019-10-21 2021-01-08 深圳市名通科技股份有限公司 邻近用户识别方法、终端及可读存储介质
TWI819319B (zh) * 2021-06-22 2023-10-21 台灣大哥大股份有限公司 用於建立在地理區域中的用戶活動模型之系統及方法

Also Published As

Publication number Publication date
CN104965913B (zh) 2018-10-12

Similar Documents

Publication Publication Date Title
CN104965913A (zh) 一种基于gps地理位置数据挖掘的用户分类方法
CN104462190B (zh) 一种基于海量空间轨迹挖掘的在线的位置预测方法
CN112182410B (zh) 基于时空轨迹知识图谱的用户出行模式挖掘方法
Ying et al. Semantic trajectory mining for location prediction
CN102332210B (zh) 基于手机定位数据的实时城市道路交通流数据提取方法
CN110334171A (zh) 一种基于Geohash的时空伴随对象挖掘方法
CN104778245A (zh) 基于海量车牌识别数据的相似轨迹挖掘方法及装置
CN104850604A (zh) 一种基于张量的用户轨迹挖掘方法
CN110032609A (zh) 一种基于定位数据的生活圈识别方法
CN106778876A (zh) 基于移动用户轨迹相似性的用户分类方法和系统
CN104217593B (zh) 一种面向手机移动速度的路况信息实时获取方法
CN106931974A (zh) 基于移动终端gps定位数据记录计算个人通勤距离的方法
CN103150338A (zh) 一种用于影像数据提取的剖分预处理方法及数据提取方法
CN103262594A (zh) 区域范围估计装置和区域范围估计方法
CN106951455A (zh) 一种相似轨迹分析系统及其分析方法
Sun et al. Identifying tourists and locals by K-means clustering method from mobile phone signaling data
CN112328728A (zh) 挖掘出行者轨迹的聚类方法、装置、电子装置和存储介质
CN107133236A (zh) 地理位置轨迹优化的方法和装置
Ghosh et al. Traj-cloud: a trajectory cloud for enabling efficient mobility services
CN105678246A (zh) 一种基于基站标号轨迹的运动模式挖掘方法
Liu et al. A novel compression approach for truck GPS trajectory data
Ji et al. Clockwise compression for trajectory data under road network constraints
CN104778355A (zh) 基于广域分布交通系统的异常轨迹检测方法
Zheng et al. A novel grid based k-means cluster method for traffic zone division
Santos et al. GBUS-Route GeoTracer

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant