CN104965913B - 一种基于gps地理位置数据挖掘的用户分类方法 - Google Patents
一种基于gps地理位置数据挖掘的用户分类方法 Download PDFInfo
- Publication number
- CN104965913B CN104965913B CN201510390801.8A CN201510390801A CN104965913B CN 104965913 B CN104965913 B CN 104965913B CN 201510390801 A CN201510390801 A CN 201510390801A CN 104965913 B CN104965913 B CN 104965913B
- Authority
- CN
- China
- Prior art keywords
- user
- point
- list
- nlp
- stop place
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Position Fixing By Use Of Radio Waves (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明请求保护一种基于GPS地理位置数据挖掘的用户分类方法,包括如下步骤:预处理原始数据集,提取算法所需数据属性并以用户为单位归纳整理;通过FindStayArea算法挖掘用户的停留区域,找出用户大范围的活动区域(如工作地点区域、居住小区等);接着通过FindStayPoint算法挖掘用户的停留位置也是就用户的活动位置(如工作地点区域中的某栋建筑,居住小区中的体育场等);最后将用户的停留位置结合UserClassify算法对用户分类。本发明将用户的原始GPS地理位置数据分层处理,不仅能挖掘出用户经常活动的停留位置,同时还能够利用挖掘的结果将用户分类,找出相似性最高的用户群体,充分挖掘GPS地理位置数据的价值。
Description
技术领域
本发明涉及大数据分析技术领域,涉及利用机器学习算法对移动大数据中GPS地理位置数据的分析处理,具体涉及一种基于GPS地理位置数据挖掘的用户分类方法。
背景技术
随着移动智能终端爆炸式的发展以及定位技术的成熟,不仅催生了大量的基于位置的服务(Location Based Service,LBS)应用,同时也促进了移动大数据(Mobility BigData,MBD)的产生。伴随着位置服务、车联网应用以及各式定位技术的不断普及和发展,由地理数据、车辆和人的轨迹以及应用记录等构成的移动大数据已经成为当前用来感知人类社群活动规律,分析地理国情和构建智慧城市的重要战略资源。
移动大数据表示通过采集用户移动时产生的地理位置数据信息,其特点具有除大数据4V特点以外,还具有复杂性、混杂性以及稀疏性。移动大数据中的类型可以根据其采集方式的不同分为三大类:GPS数据、GSM定位数据、WIFI定位数据。而其具体的采集方式可以分为基于卫星定位、基于地理信息系统定位、基于无线信号定位、基于传感器定位和组合定位等。
目前对于移动数据的采集越加方便和容易,但因此也导致数据量尤为庞大,如何利用和分析移动大数据成为当前研究领域的一大难题,同时也是一大热点。虽然有众多研究学者针对采集的用户GPS数据进行处理,但是这些研究的重点在于通过多而杂的GPS数据挖掘用户的停留区域,其方法大致分为分割聚类算法(Dividing Clustering Algorithm)、基于密度的聚类算法(Density-Based Clustering Algorithm)以及基于时间的聚类算法(Time-Based Clustering Algorithm)。这些方法都有着各自的缺点以及优点,也能够在一定程度上挖掘用户的停留区域,但是这些研究没有充分利用移动大数据的价值。(1)、挖掘用户的停留区域会导致信息有效性降低,区域对于用户来说范围太大,在实际的应用中价值不高;(2)、即使停留区域的精度提高了,但是仅仅知道用户的停留区域无法为用户提供更加高效、精准的服务。
而目前,有一种基于GPS地理位置数据对用户分类的算法是通过挖掘用户停留位置,然后通过停留位置间的轨迹序列将用户分类。这种算法首先在效率上较低,需要处理用户的移动轨迹序列,并且要分层多次聚类才能完成对用户的分类;其次这种算法对用户分类的研究太过严格,会丢失部分有效信息。
因此本发明主要利用机器学习相关算法对移动大数据中的GPS地理位置数据类型进行分析处理,首先挖掘用户的停留区域,其次在停留区域中挖掘用户的停留位置,最后再根据用户的停留位置结合余弦定理以及TF-IDF(Term Frequency-Inverse DocumentFrequency,词频逆文本频率指数)算法思想对用户进行分类。而分类结果可以进一步应用于为推荐引擎提供参考、为异常检测提供标准等,进而更加提高对移动大数据的利用,为用户提供更加有效、精确的服务。
发明内容
针对现有技术的不足,提出了一种提高对移动大数据的利用,为用户提供更加有效、精确的服务的基于GPS地理位置数据挖掘的用户分类方法。本发明的技术方案如下:一种基于GPS地理位置数据挖掘的用户分类方法,其包括以下步骤:
101、采集用户的原始GPS地理位置数据,并预处理原始GPS地理位置数据,具体为:将用户原始GPS地理位置数据按文件夹分类,分别遍历所有文件夹中存储用户原始GPS地理位置数据的文件,提取其中的纬度、经度、记录时间三个属性,并按用户ID作为输出文件的文件名;
102、挖掘用户停留区域的步骤:将步骤101整理好的用户数据作为FindStayArea算法挖掘停留区域的数据输入,输出结果为用户停留区域,停留区域包括停留区域中心点以及其附属的邻居节点;
103、挖掘用户停留位置的步骤:将步骤102中输出结果的用户停留区域作为FindStayPoint算法挖掘停留位置的数据输入,输出结果为用户停留位置,停留位置是由中心点所表示;
104、对用户分类,将用户停留位置作为用户分类UserClassify算法的数据输入,输出用户分类结果,将类别一致的用户作为一组用户输出。
进一步的,步骤102中挖掘用户停留区域的步骤具体为:
S21:读取用户数据文件,并将每一个记录的纬度、经度转换成浮点型数据,将记录时间转换成日期型数据,并保存为Location类类型,构建用户的位置列表list[Location],列表中的元素为Location类类型;
S22:将单个用户的位置列表list[Location]作为FindStayArea算法挖掘停留区域的输入数据源,并开始挖掘用户的停留区域,输出以计算开始位置作为key,位置列表作为value的字典类型数据结果Map{key:Location,value:list[Location]};
S23:整理FindStayArea算法的输出结果,计算结果中所有位置数据的平均值作为停留区域StayArea类类型的中心点,将所有位置数据作为停留区域StayArea类类型的邻居节点,并构建用户的停留区域列表list[StayArea],列表中的元素为StayArea类类型,将结果以二进制文件的形式保存。
进一步的,所述FindStayArea算法步骤具体为:
A1、任取用户某一地点位置作为起始计算点LP,遍历该用户其余所有位置点计算与LP的距离,当距离小于某一距离阀值mindist时,便将其加入到该点LP的邻居节点中;A2、遍历结束时,当该点LP的邻居节点其密度大于最小密度阀值minpoint时,将该点同其邻居节点视为一停留区域,同时将该点与其邻居节点从原始位置数据集中删除;如果遍历结束时,该点LP的邻居节点其密度不大于最小密度阀值minpoint时,将该点视为杂点,同时将该点从原始位置数据中删除;重复这一过程,直到原始位置数据中所有的点都经过了这两步计算过程,结束。
进一步的,步骤103中挖掘用户停留位置的具体步骤为:
S31:加载用户停留区域数据二进制文件,通过停留区域中的邻居节点数据构建位置列表数据集list[Location],列表中的元素为Location类类型;
S32:将停留区域中邻居节点构建的位置列表list[Location]作为FindStayPoint算法的输入数据源,并开始挖掘用户的停留位置,输出停留位置列表list[StayPoint],列表中的元素为StayPoint类类型,包括停留位置的中心点以及邻居节点。将结果以二进制文件形式保存。
进一步的,所述FindStayPoint算法的步骤具体为:
任取某用户停留区域的邻居节点中的地点位置作为起始计算点NLP,遍历该用户该停留区域的邻居节点中其余所有位置点计算与NLP的距离,当找到某点NLP'与NLP的距离大于某一距离阀值mindist时,计算NLP'与NLP时间间隔,当其时间间隔大于某一时间阀值mintime时,则将NLP与NLP'之间的点视为该用户的停留位置,并计算NLP与NLP'之间所有点的平均值作为该停留位置的中心点,同时下次从NLP'之后的某个位置点NLP”重新开始此计算步骤;而当某点NLP'与NLP的距离不大于某一距离阀值mindist时,从NLP之后的某个位置点NLP”重新开始计算NLP”与其他位置点的距离;重复此计算步骤,直到用户的所有停留区域中的邻居节点全部经过此计算过程,结束。
进一步的,步骤104中对用户分类的具体步骤为:
S41:加载用户停留位置数据二进制文件;
S42:对用户停留位置中心进行统一化处理,构建所有用户的中心位置向量LocationVector;
S43:构建单个用户的中心位置向量UserLocationVector
S44:根据用户的中心位置向量UserLocationVector与用户停留位置中心列表,计算用户中心位置向量的TF-IDF值;
S45:将计算所得用户中心位置向量的TF-IDF值结合所有用户的中心位置向量LocationVector建立用户的TF-IDF值向量列表;
S46:根据用户的TF-IDF值向量列表计算用户之间的余弦值,并将其作为用户之间的相似性度量值作为结果输出。
进一步的,所述步骤S42中对用户停留位置统一化以及建立所有用户中心位置向量LocationVector的处理方法为:
从某一用户的停留位置CLP开始,计算其本身以及其他用户的停留位置CLP',当其距离小于某一距离阀值mindist,将CLP与CLP'加入合并中心点列表,当遍历结束时,如果合并中心点列表不为空,则计算列表中所有中心点的平均值,并将CLP的值修改为新计算的平均值,同时对比所有用户的中心位置向量LocationVector,如果其中已经添加了CLP则忽略此点,否则将其添加至LocationVector中;反复计算直到所有用户的停留位置全部完成上述计算步骤。
进一步的,所述步骤S44中计算用户中心位置向量的TF-IDF值的方法为:
任取某一用户中心位置向量中的一点UCLP,统计其在该用户中心位置向量中出现的次数TFN与其他所有用户中出现的次数IDFN以及该用户中心位置向量的总数UCLPN与所有用户总数UN,通过计算该点UCLP的TF值,通过计算该点UCLP的IDF值,最后通过TF-IDF=TF*IDF计算该点UCLP的TF-IDF值;重复该过程,直到所有用户的所有中心位置向量中的中心点的TF-IDF全部计算完成。
进一步的,所述步骤S45中建立用户的TF-IDF值向量列表的方法为:
任取某一用户的中心位置向量UserLocationVector,将其与所有用户位置向量LocationVector中的中心点进行对比,如果相同则将计算的TF-IDF值赋值给该中心点,其余该用户位置中心向量中的中心点没有出现在LocationVector中的赋值为0;重复此步骤,直到所有用户的TF-IDF值向量列表全部建立。
进一步的,所述计算用户的相似性方法为:
任取某两个用户的TF-IDF值向量A和B,通过计算用户之间的余弦值,并作为这两个用户的相似性结果,当且仅当该值大于某相似性阀值minsimilarity时,才能判断这两个用户为一类;遍历所有用户,直到所有用户都和其他用户完成了此计算步骤。
本发明的优点及有益效果如下:
本发明通过机器学习相关算法对移动大数据分析处理的过程中,不仅能够挖掘用户的停留区域,同时也能够在用户的停留区域中挖掘用户的停留位置即用户经常活动的小范围地理位置地点,并且在此基础上,能够将用户按活动位置进行分类,为后期构建推荐引擎以及异常轨迹检测等算法提供数据源以及参考信息。在实际情况中最大化利用的移动大数据的信息价值。
本发明中的算法采取离线训练的模式,将算法最费时间的部分在线下预先处理完成,以保障能够在线给用户及时的服务,符合实际应用的开发与使用。
本发明结果GPS地理位置数据的特点,以及算法目的,在挖掘到某一用户停留位置区域后,将该区域内所有数据节点都删除,不计入下次计算,一方面提高了算法的运行速度与效率,另一方面也避免了同一区域被重复多次挖掘的信息冗余。本发明是基于用户GPS地理位置数据特性,结合用户实际生活情况对用户的停留位置用TF-IDF算法对其加权,然后通过余弦定理对用户分类,不仅提高了对移动大数据的价值提取,同时更加符合用户的实际生活情况,使得分类结果更具代表性更加真实。
附图说明
图1是本发明优选实施例算法整体流程结构示意图;
图2是本发明挖掘用户停留区域FindStayArea算法流程图;
图3是本发明挖掘用户停留位置FindStayPoint算法流程图;
图4是本发明用户分类UserClassify算法流程图。
具体实施方式
以下结合附图,对本发明作进一步说明:
参见图1,本发明提供了一种基于GPS地理位置数据挖掘的用户分类方法,其包括如下步骤:
第一步,预处理原始GPS地理位置数据,提取算法所需数据属性并按用户归纳整理;将用户原始GPS地理位置数据按文件夹分类,分别遍历所有文件夹中存储用户原始GPS地理位置数据的文件,提取其中的纬度、经度、记录时间三个属性,并按用户ID作为输出文件的文件名。
如图1所示,本发明首先需要从原始采集数据中提取有效信息,并按用户ID进行整理,然后通过同整理好的文件中读取原始GPS地理位置数据集,并通FindStayArea算法挖掘用户停留区域,整理好结果后做为FindStayPoint算法的输入数据,挖掘用户停留位置,最后余弦定理以及TF-IDF算法思想分析处理用户的停留位置中心,并将用户分类。
第二步,挖掘用户停留区域,将整理好的用户数据作为FindStayArea算法的数据输入,输出结果为用户停留区域(如用户的工作区域、生活区域等),停留区域包括停留区域中心点以及其附属的邻居节点,算步骤为:
S21:读取用户数据文件,并将每一个记录的纬度、经度转换成浮点型数据,将记录时间转换成日期型数据,并保存为Location类类型,构建用户的位置列表list[Location],列表中的元素为Location类类型;
S22:将单个用户的位置列表list[Location]作为FindStayArea算法的输入数据源,并开始挖掘用户的停留区域,输出以计算开始位置作为key,位置列表作为value的字典类型数据结果Map{key:Location,value:list[Location]};
S23:整理FindStayArea算法的输出结果,计算结果中所有位置数据的平均值作为停留区域StayArea类类型的中心点,将所有位置数据作为停留区域StayArea类类型的邻居节点,并构建用户的停留区域列表list[StayArea],列表中的元素为StayArea类类型,将结果以二进制文件的形式保存。
在本发明的一种优选实施方式中,如图2所示,所述对FindStayArea算法的实施方法为:第一步:任取用户某一地点位置作为起始计算点LP,遍历该用户其余所有位置点计算与LP的距离,当距离小于某一距离阀值mindist时,便将其加入到该点LP的邻居节点中;第二步:遍历结束时,当该点LP的邻居节点其密度大于最小密度阀值minpoint时,将该点同其邻居节点视为停留区域,同时将该点与其邻居节点从原始位置数据集中删除;如果遍历结束时,该点LP的邻居节点其密度不大于最小密度阀值minpoint时,将该点视为杂点,同时将该点从原始位置数据中删除;重复这一过程,直到原始位置数据中所有的点都经过了这两步计算过程。
第三步,挖掘用户停留位置,将用户停留区域作为FindStayPoint算法的数据输入,输出结果为用户停留位置(如用户的办公楼、生活区域中的体育场等),停留位置是由中心点所表示,算步骤为:
S31:加载用户停留区域数据二进制文件,通过停留区域中的邻居节点数据构建位置列表数据集list[Location],列表中的元素为Location类类型;
S32:将停留区域中邻居节点构建的位置列表list[Location]作为FindStayPoint算法的输入数据源,并开始挖掘用户的停留位置,输出停留位置列表list[StayPoint],列表中的元素为StayPoint类类型,包括停留位置的中心点以及邻居节点。将结果以二进制文件形式保存。
在本发明的一种优选实施方式中,如图3所示,所述对FindStayPoint算法的实施方法为:任取某用户停留区域的邻居节点中的地点位置作为起始计算点NLP,遍历该用户该停留区域的邻居节点中其余所有位置点计算与NLP的距离,当找到某点NLP'与NLP的距离大于某一距离阀值mindist时,计算NLP'与NLP时间间隔,当其时间间隔大于某一时间阀值mintime时,则将NLP与NLP'之间的点视为该用户的停留位置,并计算NLP与NLP'之间所有点的平均值作为该停留位置的中心点,同时下次从NLP'之后的某个位置点NLP”重新开始此计算步骤;而当某点NLP'与NLP的距离不大于某一距离阀值mindist时,从NLP之后的某个位置点NLP”重新开始计算NLP”与其他位置点的距离;重复此计算步骤,直到用户的所有停留区域中的邻居节点全部经过此计算过程。
第四步,对用户分类,将用户停留位置作为UserClassify算法的数据输入,输出用户分类结果,将类别一致的用户作为一组用户输出,流程图如图4所示,算步骤为:
S41:加载用户停留位置数据二进制文件;
S42:对用户停留位置中心进行统一化处理,构建所有用户的中心位置向量LocationVector;
S43:构建单个用户的中心位置向量UserLocationVector
S44:根据用户的中心位置向量UserLocationVector与用户停留位置中心列表,计算用户中心位置向量的TF-IDF值;
S45:将计算所得用户中心位置向量的TF-IDF值结合所有用户的中心位置向量LocationVector建立用户的TF-IDF值向量列表;
S46:根据用户的TF-IDF值向量列表计算用户之间的余弦值,并将其作为用户之间的相似性度量值作为结果输出。
在本发明的一种优选实施方式中,所述对用户停留位置统一化以及建立所有用户中心位置向量LocationVector的处理方法为:从某一用户的停留位置CLP开始,计算其本身以及其他用户的停留位置CLP',当其距离小于某一距离阀值mindist,将CLP与CLP'加入合并中心点列表,当遍历结束时,如果合并中心点列表不为空,则计算列表中所有中心点的平均值,并将CLP的值修改为新计算的平均值,同时对比所有用户的中心位置向量LocationVector,如果其中已经添加了CLP则忽略此点,否则将其添加至LocationVector中;反复计算直到所有用户的停留位置全部完成上述计算步骤。
在本发明的一种优选实施方式中,所述对用户停留位置统一化以及建立用户中心位置向量UserLocationVector的处理方法为:遍历统一化的某用户中心位置列表,对比该用户中心位置向量UserLocationVector,如果已经将其添加,则放弃该UCLP,否则将其添加至该用户中心位置向量UserLocationVector中;重复此步骤,直到所有用户均已遍历结束。
在本发明的一种优选实施方式中,所述计算用户中心位置向量的TF-IDF值的方法为:任取某一用户中心位置向量中的一点UCLP,统计其在该用户中心位置向量中出现的次数TFN与其他所有用户中出现的次数IDFN以及该用户中心位置向量的总数UCLPN与所有用户总数UN,通过计算该点UCLP的TF值,通过计算该点UCLP的IDF值,最后通过TF-IDF=TF*IDF计算该点UCLP的TF-IDF值;重复该过程,直到所有用户的所有中心位置向量中的中心点的TF-IDF全部计算完成。
在本发明的一种优选实施方式中,所述建立用户的TF-IDF值向量列表的方法为:任取某一用户的中心位置向量UserLocationVector,将其与所有用户位置向量LocationVector中的中心点进行对比,如果相同则将计算的TF-IDF值赋值给该中心点,其余该用户位置中心向量中的中心点没有出现在LocationVector中的赋值为0;重复此步骤,直到所有用户的TF-IDF值向量列表全部建立。
在本发明的一种优选实施方式中,所述计算用户的相似性方法为:任取某两个用户的TF-IDF值向量A和B,通过计算用户之间的余弦值,并作为这两个用户的相似性结果,当且仅当该值大于某相似性阀值minsimilarity时,才能判断这两个用户为一类;遍历所有用户,直到所有用户都和其他用户完成了此计算步骤。
本发明将用户的原始GPS地理位置数据分层处理,不仅能挖掘出用户经常活动的停留位置,同时还能够利用挖掘的结果将用户分类,找出相似性最高的用户群体,充分挖掘GPS地理位置数据的价值。与此同时该算法的处理结果能够进一步被加以利用,为推荐引擎提供对应的分类信息,为异常检测提供用户的相似性信息等,更加完善对GPS地理位置数据的利用。同时,本发明是基于用户GPS地理位置数据特性,结合用户实际生活情况对用户的停留位置用TF-IDF算法对其加权,然后通过余弦定理对用户分类,不仅提高了对移动大数据的价值提取,同时更加符合用户的实际生活情况,使得分类结果更具代表性更加真实。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (7)
1.一种基于GPS地理位置数据挖掘的用户分类方法,其特征在于,包括以下步骤:
101、采集用户的原始GPS地理位置数据,并预处理原始GPS地理位置数据,具体为:将用户原始GPS地理位置数据按文件夹分类,分别遍历所有文件夹中存储用户原始GPS地理位置数据的文件,提取其中的纬度、经度、记录时间三个属性,并按用户ID作为输出文件的文件名;
102、挖掘用户停留区域的步骤:将步骤101整理好的用户数据作为FindStayArea算法挖掘停留区域的数据输入,输出结果为用户停留区域,停留区域包括停留区域中心点以及其附属的邻居节点;所述对FindStayArea算法的实施方法为:第一步:任取用户某一地点位置作为起始计算点LP,遍历该用户其余所有位置点计算与LP的距离,当距离小于某一距离阀值mindist时,便将其加入到该点LP的邻居节点中;第二步:遍历结束时,当该点LP的邻居节点其密度大于最小密度阀值minpoint时,将该点同其邻居节点视为停留区域,同时将该点与其邻居节点从原始位置数据集中删除;如果遍历结束时,该点LP的邻居节点其密度不大于最小密度阀值minpoint时,将该点视为杂点,同时将该点从原始位置数据中删除;重复这一过程,直到原始位置数据中所有的点都经过了这两步计算过程;
103、挖掘用户停留位置的步骤:将步骤102中输出结果的用户停留区域作为FindStayPoint算法挖掘停留位置的数据输入,输出结果为用户停留位置,停留位置是由中心点所表示,所述FindStayPoint算法的步骤具体为:
任取某用户停留区域的邻居节点中的地点位置作为起始计算点NLP,遍历该用户该停留区域的邻居节点中其余所有位置点计算与NLP的距离,当找到某点NLP'与NLP的距离大于某一距离阀值mindist时,计算NLP'与NLP时间间隔,当其时间间隔大于某一时间阀值mintime时,则将NLP与NLP'之间的点视为该用户的停留位置,并计算NLP与NLP'之间所有点的平均值作为该停留位置的中心点,同时下次从NLP'之后的某个位置点NLP”重新开始此计算步骤;而当某点NLP'与NLP的距离不大于某一距离阀值mindist时,从NLP之后的某个位置点NLP”重新开始计算NLP”与其他位置点的距离;重复此计算步骤,直到用户的所有停留区域中的邻居节点全部经过此计算过程,结束;
104、对用户分类,将用户停留位置作为用户分类UserClassify算法的数据输入,输出用户分类结果,将类别一致的用户作为一组用户输出;UserClassify算法步骤为:
S41:加载用户停留位置数据二进制文件;
S42:对用户停留位置中心进行统一化处理,构建所有用户的中心位置向量LocationVector;
S43:构建单个用户的中心位置向量UserLocationVector;
S44:根据用户的中心位置向量UserLocationVector与用户停留位置中心列表,计算用户中心位置向量的TF-IDF值;
S45:将计算所得用户中心位置向量的TF-IDF值结合所有用户的中心位置向量LocationVector建立用户的TF-IDF值向量列表;
S46:根据用户的TF-IDF值向量列表计算用户之间的余弦值,并将其作为用户之间的相似性度量值作为结果输出。
2.根据权利要求1所述的一种基于GPS地理位置数据挖掘的用户分类方法,其特征在于,步骤102中挖掘用户停留区域的步骤具体为:
S21:读取用户数据文件,并将每一个记录的纬度、经度转换成浮点型数据,将记录时间转换成日期型数据,并保存为Location类类型,构建用户的位置列表list[Location],列表中的元素为Location类类型;
S22:将单个用户的位置列表list[Location]作为FindStayArea算法挖掘停留区域的输入数据源,并开始挖掘用户的停留区域,输出以计算开始位置作为key,位置列表作为value的字典类型数据结果Map{key:Location,value:list[Location]};
S23:整理FindStayArea算法的输出结果,计算结果中所有位置数据的平均值作为停留区域StayArea类类型的中心点,将所有位置数据作为停留区域StayArea类类型的邻居节点,并构建用户的停留区域列表list[StayArea],列表中的元素为StayArea类类型,将结果以二进制文件的形式保存。
3.根据权利要求1所述的一种基于GPS地理位置数据挖掘的用户分类方法,其特征在于,步骤103中挖掘用户停留位置的具体步骤为:
S31:加载用户停留区域数据二进制文件,通过停留区域中的邻居节点数据构建位置列表数据集list[Location],列表中的元素为Location类类型;
S32:将停留区域中邻居节点构建的位置列表list[Location]作为FindStayPoint算法的输入数据源,并开始挖掘用户的停留位置,输出停留位置列表list[StayPoint],列表中的元素为StayPoint类类型,包括停留位置的中心点以及邻居节点;将结果以二进制文件形式保存。
4.根据权利要求1所述的一种基于GPS地理位置数据挖掘的用户分类方法,其特征在于,所述步骤S42中对用户停留位置统一化以及建立所有用户中心位置向量LocationVector的处理方法为:
从某一用户的停留位置CLP开始,计算其本身以及其他用户的停留位置CLP',当其距离小于某一距离阀值mindist,将CLP与CLP'加入合并中心点列表,当遍历结束时,如果合并中心点列表不为空,则计算列表中所有中心点的平均值,并将CLP的值修改为新计算的平均值,同时对比所有用户的中心位置向量LocationVector,如果其中已经添加了CLP则忽略此点,否则将其添加至LocationVector中;反复计算直到所有用户的停留位置全部完成上述计算步骤。
5.根据权利要求1所述的一种基于GPS地理位置数据挖掘的用户分类方法,其特征在于,所述步骤S44中计算用户中心位置向量的TF-IDF值的方法为:
任取某一用户中心位置向量中的一点UCLP,统计其在该用户中心位置向量中出现的次数TFN与其他所有用户中出现的次数IDFN以及该用户中心位置向量的总数UCLPN与所有用户总数UN,通过计算该点UCLP的TF值,通过计算该点UCLP的IDF值,最后通过TF-IDF=TF*IDF计算该点UCLP的TF-IDF值;重复该过程,直到所有用户的所有中心位置向量中的中心点的TF-IDF全部计算完成。
6.根据权利要求1所述的一种基于GPS地理位置数据挖掘的用户分类方法,其特征在于,所述步骤S45中建立用户的TF-IDF值向量列表的方法为:
任取某一用户的中心位置向量UserLocationVector,将其与所有用户位置向量LocationVector中的中心点进行对比,如果相同则将计算的TF-IDF值赋值给该中心点,其余该用户位置中心向量中的中心点没有出现在LocationVector中的赋值为0;重复此步骤,直到所有用户的TF-IDF值向量列表全部建立。
7.根据权利要求1所述的一种基于GPS地理位置数据挖掘的用户分类方法,其特征在于,所述计算用户的相似性方法为:
任取某两个用户的TF-IDF值向量A和B,通过计算用户之间的余弦值,并作为这两个用户的相似性结果,当且仅当该值大于某相似性阀值minsimilarity时,才能判断这两个用户为一类;遍历所有用户,直到所有用户都和其他用户完成了此计算步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510390801.8A CN104965913B (zh) | 2015-07-03 | 2015-07-03 | 一种基于gps地理位置数据挖掘的用户分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510390801.8A CN104965913B (zh) | 2015-07-03 | 2015-07-03 | 一种基于gps地理位置数据挖掘的用户分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104965913A CN104965913A (zh) | 2015-10-07 |
CN104965913B true CN104965913B (zh) | 2018-10-12 |
Family
ID=54219951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510390801.8A Active CN104965913B (zh) | 2015-07-03 | 2015-07-03 | 一种基于gps地理位置数据挖掘的用户分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104965913B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874288B (zh) * | 2015-12-11 | 2020-06-02 | 北京四维图新科技股份有限公司 | 一种地图信息的处理方法及装置 |
CN106910147A (zh) * | 2015-12-23 | 2017-06-30 | 神州数码信息系统有限公司 | 一种基于多领域融合的智慧城市推荐技术与系统 |
CN106022934A (zh) * | 2016-05-05 | 2016-10-12 | 北京邮电大学 | 一种基于移动轨迹模式的潜在好友发现方法及系统 |
CN106339417B (zh) * | 2016-08-15 | 2019-10-01 | 浙江大学 | 基于移动轨迹中停留点的用户群体行为规律检测方法 |
EP3550536A4 (en) * | 2016-12-24 | 2020-04-01 | Huawei Technologies Co., Ltd. | METHOD AND DEVICE FOR DETERMINING A GEOGRAPHICAL LOCATION OF A USER TAKING A VEHICLE |
CN106651603A (zh) * | 2016-12-29 | 2017-05-10 | 平安科技(深圳)有限公司 | 基于位置服务的风险评估方法及装置 |
CN107666649A (zh) * | 2016-12-29 | 2018-02-06 | 平安科技(深圳)有限公司 | 个人财产状态评估方法及装置 |
US11418915B2 (en) | 2017-02-17 | 2022-08-16 | DataSpark, PTE. LTD. | Trajectory analysis with mode of transportation analysis |
WO2018150228A1 (en) * | 2017-02-17 | 2018-08-23 | Dataspark Pte, Ltd | Mobility gene for visit data |
WO2018150227A1 (en) | 2017-02-17 | 2018-08-23 | Dataspark Pte, Ltd | Mobility gene for trajectory data |
CN108509434B (zh) * | 2017-02-23 | 2020-12-25 | 中国移动通信有限公司研究院 | 一种群体用户的挖掘方法及装置 |
CN108984561B (zh) * | 2017-06-01 | 2021-06-22 | 华为技术有限公司 | 选址方法及设备 |
CN108230023B (zh) * | 2017-12-29 | 2021-12-21 | 南京光普信息技术有限公司 | 一种基于顾客游逛行为的客群分类方法 |
CN109034187B (zh) * | 2018-06-12 | 2021-09-17 | 上海中通吉网络技术有限公司 | 一种用户家庭工作地址挖掘流程 |
CN109686085B (zh) * | 2018-12-17 | 2020-05-05 | 北京交通大学 | 基于gps数据危险货物运输车辆停留节点活动类型识别方法 |
CN111367896A (zh) * | 2018-12-25 | 2020-07-03 | 北京融信数联科技有限公司 | 基于大数据的用户个性化活动图谱构建方法 |
CN109902129B (zh) * | 2019-01-25 | 2023-06-20 | 平安科技(深圳)有限公司 | 基于大数据分析的保险代理人归类方法及相关设备 |
SG10201907628VA (en) * | 2019-08-19 | 2021-03-30 | Kaha Pte Ltd | A smart safety network system for tracking a mobile computing device in an emergency environment and a method thereof |
CN110730432B (zh) * | 2019-10-21 | 2021-01-08 | 深圳市名通科技股份有限公司 | 邻近用户识别方法、终端及可读存储介质 |
TWI819319B (zh) * | 2021-06-22 | 2023-10-21 | 台灣大哥大股份有限公司 | 用於建立在地理區域中的用戶活動模型之系統及方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10163113B2 (en) * | 2008-05-27 | 2018-12-25 | Qualcomm Incorporated | Methods and apparatus for generating user profile based on periodic location fixes |
CN102667829A (zh) * | 2009-10-09 | 2012-09-12 | 日本电气株式会社 | 信息管理装置、数据处理方法及计算机程序 |
JP4998543B2 (ja) * | 2009-12-22 | 2012-08-15 | カシオ計算機株式会社 | 測位装置、測位方法及びプログラム |
-
2015
- 2015-07-03 CN CN201510390801.8A patent/CN104965913B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN104965913A (zh) | 2015-10-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104965913B (zh) | 一种基于gps地理位置数据挖掘的用户分类方法 | |
Ahmed et al. | Constructing street networks from GPS trajectories | |
US9256689B2 (en) | Mining trajectory for spatial temporal analytics | |
Kellaris et al. | Map-matched trajectory compression | |
Li et al. | Integrated use of spatial and semantic relationships for extracting road networks from floating car data | |
CN104462190A (zh) | 一种基于海量空间轨迹挖掘的在线的位置预测方法 | |
CN106931974A (zh) | 基于移动终端gps定位数据记录计算个人通勤距离的方法 | |
CN106778876A (zh) | 基于移动用户轨迹相似性的用户分类方法和系统 | |
CN104156524A (zh) | 交通数据流的聚集查询方法及系统 | |
CN107330422A (zh) | 一种基于高精度数字高程模型对半干旱地区进行微地形分类的方法 | |
CN107391670A (zh) | 一种融合协同过滤和用户属性过滤的混合推荐方法 | |
Tran et al. | Robust and hierarchical stop discovery in sparse and diverse trajectories | |
CN105574265B (zh) | 面向模型检索的装配体模型定量描述方法 | |
CN117076922A (zh) | 城际出行od需求量预测模型训练方法、预测方法及系统 | |
CN105323024A (zh) | 一种网络信号强度检测及融合方法 | |
CN106980644B (zh) | 一种异构城市数据的个体人际关系可视推理方法 | |
CN103514276B (zh) | 基于中心估计的图形目标检索定位方法 | |
CN103177189A (zh) | 一种众源位置签到数据质量分析方法 | |
Wang et al. | A PSO-neural network-based feature matching approach in data integration | |
CN107194492A (zh) | 一种基于位置社交网络的商家推荐的优化方法 | |
Zhong et al. | A trajectory data compression algorithm based on spatio-temporal characteristics | |
Stylianou | Stay-point identification as curve extrema | |
KR101063827B1 (ko) | 한국토지정보시스템 연속지적도와 수치지형도의 기하학적 지도 변환을 위한 반자동화된 공액점 쌍 추출방법 | |
Zeng et al. | Generating tourism path from trajectories and geo-photos | |
Zhang et al. | Enrichment of topographic road database for the purpose of routing and navigation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |