CN104965913B

CN104965913B - 一种基于gps地理位置数据挖掘的用户分类方法

Info

Publication number: CN104965913B
Application number: CN201510390801.8A
Authority: CN
Inventors: 徐光侠; 高诗意; 常光辉; 刘宴兵; 梁绍飞; 林福弈; 胡杰; 李来军; 吴群
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2015-07-03
Filing date: 2015-07-03
Publication date: 2018-10-12
Anticipated expiration: 2035-07-03
Also published as: CN104965913A

Abstract

本发明请求保护一种基于GPS地理位置数据挖掘的用户分类方法，包括如下步骤：预处理原始数据集，提取算法所需数据属性并以用户为单位归纳整理；通过FindStayArea算法挖掘用户的停留区域，找出用户大范围的活动区域(如工作地点区域、居住小区等)；接着通过FindStayPoint算法挖掘用户的停留位置也是就用户的活动位置(如工作地点区域中的某栋建筑，居住小区中的体育场等)；最后将用户的停留位置结合UserClassify算法对用户分类。本发明将用户的原始GPS地理位置数据分层处理，不仅能挖掘出用户经常活动的停留位置，同时还能够利用挖掘的结果将用户分类，找出相似性最高的用户群体，充分挖掘GPS地理位置数据的价值。

Description

一种基于GPS地理位置数据挖掘的用户分类方法

技术领域

本发明涉及大数据分析技术领域，涉及利用机器学习算法对移动大数据中GPS地理位置数据的分析处理，具体涉及一种基于GPS地理位置数据挖掘的用户分类方法。

背景技术

随着移动智能终端爆炸式的发展以及定位技术的成熟，不仅催生了大量的基于位置的服务(Location Based Service,LBS)应用，同时也促进了移动大数据(Mobility BigData,MBD)的产生。伴随着位置服务、车联网应用以及各式定位技术的不断普及和发展，由地理数据、车辆和人的轨迹以及应用记录等构成的移动大数据已经成为当前用来感知人类社群活动规律，分析地理国情和构建智慧城市的重要战略资源。

移动大数据表示通过采集用户移动时产生的地理位置数据信息，其特点具有除大数据4V特点以外，还具有复杂性、混杂性以及稀疏性。移动大数据中的类型可以根据其采集方式的不同分为三大类：GPS数据、GSM定位数据、WIFI定位数据。而其具体的采集方式可以分为基于卫星定位、基于地理信息系统定位、基于无线信号定位、基于传感器定位和组合定位等。

目前对于移动数据的采集越加方便和容易，但因此也导致数据量尤为庞大，如何利用和分析移动大数据成为当前研究领域的一大难题，同时也是一大热点。虽然有众多研究学者针对采集的用户GPS数据进行处理，但是这些研究的重点在于通过多而杂的GPS数据挖掘用户的停留区域，其方法大致分为分割聚类算法(Dividing Clustering Algorithm)、基于密度的聚类算法(Density-Based Clustering Algorithm)以及基于时间的聚类算法(Time-Based Clustering Algorithm)。这些方法都有着各自的缺点以及优点，也能够在一定程度上挖掘用户的停留区域，但是这些研究没有充分利用移动大数据的价值。(1)、挖掘用户的停留区域会导致信息有效性降低，区域对于用户来说范围太大，在实际的应用中价值不高；(2)、即使停留区域的精度提高了，但是仅仅知道用户的停留区域无法为用户提供更加高效、精准的服务。

而目前，有一种基于GPS地理位置数据对用户分类的算法是通过挖掘用户停留位置，然后通过停留位置间的轨迹序列将用户分类。这种算法首先在效率上较低，需要处理用户的移动轨迹序列，并且要分层多次聚类才能完成对用户的分类；其次这种算法对用户分类的研究太过严格，会丢失部分有效信息。

因此本发明主要利用机器学习相关算法对移动大数据中的GPS地理位置数据类型进行分析处理，首先挖掘用户的停留区域，其次在停留区域中挖掘用户的停留位置，最后再根据用户的停留位置结合余弦定理以及TF-IDF(Term Frequency-Inverse DocumentFrequency,词频逆文本频率指数)算法思想对用户进行分类。而分类结果可以进一步应用于为推荐引擎提供参考、为异常检测提供标准等，进而更加提高对移动大数据的利用，为用户提供更加有效、精确的服务。

发明内容

针对现有技术的不足，提出了一种提高对移动大数据的利用，为用户提供更加有效、精确的服务的基于GPS地理位置数据挖掘的用户分类方法。本发明的技术方案如下：一种基于GPS地理位置数据挖掘的用户分类方法，其包括以下步骤：

101、采集用户的原始GPS地理位置数据，并预处理原始GPS地理位置数据，具体为：将用户原始GPS地理位置数据按文件夹分类，分别遍历所有文件夹中存储用户原始GPS地理位置数据的文件，提取其中的纬度、经度、记录时间三个属性，并按用户ID作为输出文件的文件名；

102、挖掘用户停留区域的步骤：将步骤101整理好的用户数据作为FindStayArea算法挖掘停留区域的数据输入，输出结果为用户停留区域，停留区域包括停留区域中心点以及其附属的邻居节点；

103、挖掘用户停留位置的步骤：将步骤102中输出结果的用户停留区域作为FindStayPoint算法挖掘停留位置的数据输入，输出结果为用户停留位置，停留位置是由中心点所表示；

104、对用户分类，将用户停留位置作为用户分类UserClassify算法的数据输入，输出用户分类结果，将类别一致的用户作为一组用户输出。

进一步的，步骤102中挖掘用户停留区域的步骤具体为：

S21：读取用户数据文件，并将每一个记录的纬度、经度转换成浮点型数据，将记录时间转换成日期型数据，并保存为Location类类型，构建用户的位置列表list[Location]，列表中的元素为Location类类型；

S22：将单个用户的位置列表list[Location]作为FindStayArea算法挖掘停留区域的输入数据源，并开始挖掘用户的停留区域，输出以计算开始位置作为key，位置列表作为value的字典类型数据结果Map{key:Location,value:list[Location]}；

S23：整理FindStayArea算法的输出结果，计算结果中所有位置数据的平均值作为停留区域StayArea类类型的中心点，将所有位置数据作为停留区域StayArea类类型的邻居节点，并构建用户的停留区域列表list[StayArea]，列表中的元素为StayArea类类型，将结果以二进制文件的形式保存。

进一步的，所述FindStayArea算法步骤具体为：

A1、任取用户某一地点位置作为起始计算点LP，遍历该用户其余所有位置点计算与LP的距离，当距离小于某一距离阀值mindist时，便将其加入到该点LP的邻居节点中；A2、遍历结束时，当该点LP的邻居节点其密度大于最小密度阀值minpoint时，将该点同其邻居节点视为一停留区域，同时将该点与其邻居节点从原始位置数据集中删除；如果遍历结束时，该点LP的邻居节点其密度不大于最小密度阀值minpoint时，将该点视为杂点，同时将该点从原始位置数据中删除；重复这一过程，直到原始位置数据中所有的点都经过了这两步计算过程，结束。

进一步的，步骤103中挖掘用户停留位置的具体步骤为：

S31：加载用户停留区域数据二进制文件，通过停留区域中的邻居节点数据构建位置列表数据集list[Location]，列表中的元素为Location类类型；

S32：将停留区域中邻居节点构建的位置列表list[Location]作为FindStayPoint算法的输入数据源，并开始挖掘用户的停留位置，输出停留位置列表list[StayPoint]，列表中的元素为StayPoint类类型，包括停留位置的中心点以及邻居节点。将结果以二进制文件形式保存。

进一步的，所述FindStayPoint算法的步骤具体为：

任取某用户停留区域的邻居节点中的地点位置作为起始计算点NLP，遍历该用户该停留区域的邻居节点中其余所有位置点计算与NLP的距离，当找到某点NLP'与NLP的距离大于某一距离阀值mindist时，计算NLP'与NLP时间间隔，当其时间间隔大于某一时间阀值mintime时，则将NLP与NLP'之间的点视为该用户的停留位置，并计算NLP与NLP'之间所有点的平均值作为该停留位置的中心点，同时下次从NLP'之后的某个位置点NLP”重新开始此计算步骤；而当某点NLP'与NLP的距离不大于某一距离阀值mindist时，从NLP之后的某个位置点NLP”重新开始计算NLP”与其他位置点的距离；重复此计算步骤，直到用户的所有停留区域中的邻居节点全部经过此计算过程，结束。

进一步的，步骤104中对用户分类的具体步骤为：

S41：加载用户停留位置数据二进制文件；

S42：对用户停留位置中心进行统一化处理，构建所有用户的中心位置向量LocationVector；

S43：构建单个用户的中心位置向量UserLocationVector

S44：根据用户的中心位置向量UserLocationVector与用户停留位置中心列表，计算用户中心位置向量的TF-IDF值；

S45：将计算所得用户中心位置向量的TF-IDF值结合所有用户的中心位置向量LocationVector建立用户的TF-IDF值向量列表；

S46：根据用户的TF-IDF值向量列表计算用户之间的余弦值，并将其作为用户之间的相似性度量值作为结果输出。

进一步的，所述步骤S42中对用户停留位置统一化以及建立所有用户中心位置向量LocationVector的处理方法为：

从某一用户的停留位置CLP开始，计算其本身以及其他用户的停留位置CLP'，当其距离小于某一距离阀值mindist，将CLP与CLP'加入合并中心点列表，当遍历结束时，如果合并中心点列表不为空，则计算列表中所有中心点的平均值，并将CLP的值修改为新计算的平均值，同时对比所有用户的中心位置向量LocationVector，如果其中已经添加了CLP则忽略此点，否则将其添加至LocationVector中；反复计算直到所有用户的停留位置全部完成上述计算步骤。

进一步的，所述步骤S44中计算用户中心位置向量的TF-IDF值的方法为：

任取某一用户中心位置向量中的一点UCLP，统计其在该用户中心位置向量中出现的次数TFN与其他所有用户中出现的次数IDFN以及该用户中心位置向量的总数UCLPN与所有用户总数UN，通过计算该点UCLP的TF值，通过计算该点UCLP的IDF值，最后通过TF-IDF＝TF*IDF计算该点UCLP的TF-IDF值；重复该过程，直到所有用户的所有中心位置向量中的中心点的TF-IDF全部计算完成。

进一步的，所述步骤S45中建立用户的TF-IDF值向量列表的方法为：

任取某一用户的中心位置向量UserLocationVector，将其与所有用户位置向量LocationVector中的中心点进行对比，如果相同则将计算的TF-IDF值赋值给该中心点，其余该用户位置中心向量中的中心点没有出现在LocationVector中的赋值为0；重复此步骤，直到所有用户的TF-IDF值向量列表全部建立。

进一步的，所述计算用户的相似性方法为：

任取某两个用户的TF-IDF值向量A和B，通过计算用户之间的余弦值，并作为这两个用户的相似性结果，当且仅当该值大于某相似性阀值minsimilarity时，才能判断这两个用户为一类；遍历所有用户，直到所有用户都和其他用户完成了此计算步骤。

本发明的优点及有益效果如下：

本发明通过机器学习相关算法对移动大数据分析处理的过程中，不仅能够挖掘用户的停留区域，同时也能够在用户的停留区域中挖掘用户的停留位置即用户经常活动的小范围地理位置地点，并且在此基础上，能够将用户按活动位置进行分类，为后期构建推荐引擎以及异常轨迹检测等算法提供数据源以及参考信息。在实际情况中最大化利用的移动大数据的信息价值。

本发明中的算法采取离线训练的模式，将算法最费时间的部分在线下预先处理完成，以保障能够在线给用户及时的服务，符合实际应用的开发与使用。

本发明结果GPS地理位置数据的特点，以及算法目的，在挖掘到某一用户停留位置区域后，将该区域内所有数据节点都删除，不计入下次计算，一方面提高了算法的运行速度与效率，另一方面也避免了同一区域被重复多次挖掘的信息冗余。本发明是基于用户GPS地理位置数据特性，结合用户实际生活情况对用户的停留位置用TF-IDF算法对其加权，然后通过余弦定理对用户分类，不仅提高了对移动大数据的价值提取，同时更加符合用户的实际生活情况，使得分类结果更具代表性更加真实。

附图说明

图1是本发明优选实施例算法整体流程结构示意图；

图2是本发明挖掘用户停留区域FindStayArea算法流程图；

图3是本发明挖掘用户停留位置FindStayPoint算法流程图；

图4是本发明用户分类UserClassify算法流程图。

具体实施方式

以下结合附图，对本发明作进一步说明：

参见图1，本发明提供了一种基于GPS地理位置数据挖掘的用户分类方法，其包括如下步骤：

第一步，预处理原始GPS地理位置数据，提取算法所需数据属性并按用户归纳整理；将用户原始GPS地理位置数据按文件夹分类，分别遍历所有文件夹中存储用户原始GPS地理位置数据的文件，提取其中的纬度、经度、记录时间三个属性，并按用户ID作为输出文件的文件名。

如图1所示，本发明首先需要从原始采集数据中提取有效信息，并按用户ID进行整理，然后通过同整理好的文件中读取原始GPS地理位置数据集，并通FindStayArea算法挖掘用户停留区域，整理好结果后做为FindStayPoint算法的输入数据，挖掘用户停留位置，最后余弦定理以及TF-IDF算法思想分析处理用户的停留位置中心，并将用户分类。

第二步，挖掘用户停留区域，将整理好的用户数据作为FindStayArea算法的数据输入，输出结果为用户停留区域(如用户的工作区域、生活区域等)，停留区域包括停留区域中心点以及其附属的邻居节点，算步骤为：

S22：将单个用户的位置列表list[Location]作为FindStayArea算法的输入数据源，并开始挖掘用户的停留区域，输出以计算开始位置作为key，位置列表作为value的字典类型数据结果Map{key:Location,value:list[Location]}；

在本发明的一种优选实施方式中，如图2所示，所述对FindStayArea算法的实施方法为：第一步：任取用户某一地点位置作为起始计算点LP，遍历该用户其余所有位置点计算与LP的距离，当距离小于某一距离阀值mindist时，便将其加入到该点LP的邻居节点中；第二步：遍历结束时，当该点LP的邻居节点其密度大于最小密度阀值minpoint时，将该点同其邻居节点视为停留区域，同时将该点与其邻居节点从原始位置数据集中删除；如果遍历结束时，该点LP的邻居节点其密度不大于最小密度阀值minpoint时，将该点视为杂点，同时将该点从原始位置数据中删除；重复这一过程，直到原始位置数据中所有的点都经过了这两步计算过程。

第三步，挖掘用户停留位置，将用户停留区域作为FindStayPoint算法的数据输入，输出结果为用户停留位置(如用户的办公楼、生活区域中的体育场等)，停留位置是由中心点所表示，算步骤为：

在本发明的一种优选实施方式中，如图3所示，所述对FindStayPoint算法的实施方法为：任取某用户停留区域的邻居节点中的地点位置作为起始计算点NLP，遍历该用户该停留区域的邻居节点中其余所有位置点计算与NLP的距离，当找到某点NLP'与NLP的距离大于某一距离阀值mindist时，计算NLP'与NLP时间间隔，当其时间间隔大于某一时间阀值mintime时，则将NLP与NLP'之间的点视为该用户的停留位置，并计算NLP与NLP'之间所有点的平均值作为该停留位置的中心点，同时下次从NLP'之后的某个位置点NLP”重新开始此计算步骤；而当某点NLP'与NLP的距离不大于某一距离阀值mindist时，从NLP之后的某个位置点NLP”重新开始计算NLP”与其他位置点的距离；重复此计算步骤，直到用户的所有停留区域中的邻居节点全部经过此计算过程。

第四步，对用户分类，将用户停留位置作为UserClassify算法的数据输入，输出用户分类结果，将类别一致的用户作为一组用户输出，流程图如图4所示，算步骤为：

S41：加载用户停留位置数据二进制文件；

S43：构建单个用户的中心位置向量UserLocationVector

在本发明的一种优选实施方式中，所述对用户停留位置统一化以及建立所有用户中心位置向量LocationVector的处理方法为：从某一用户的停留位置CLP开始，计算其本身以及其他用户的停留位置CLP'，当其距离小于某一距离阀值mindist，将CLP与CLP'加入合并中心点列表，当遍历结束时，如果合并中心点列表不为空，则计算列表中所有中心点的平均值，并将CLP的值修改为新计算的平均值，同时对比所有用户的中心位置向量LocationVector，如果其中已经添加了CLP则忽略此点，否则将其添加至LocationVector中；反复计算直到所有用户的停留位置全部完成上述计算步骤。

在本发明的一种优选实施方式中，所述对用户停留位置统一化以及建立用户中心位置向量UserLocationVector的处理方法为：遍历统一化的某用户中心位置列表，对比该用户中心位置向量UserLocationVector，如果已经将其添加，则放弃该UCLP，否则将其添加至该用户中心位置向量UserLocationVector中；重复此步骤，直到所有用户均已遍历结束。

在本发明的一种优选实施方式中，所述计算用户中心位置向量的TF-IDF值的方法为：任取某一用户中心位置向量中的一点UCLP，统计其在该用户中心位置向量中出现的次数TFN与其他所有用户中出现的次数IDFN以及该用户中心位置向量的总数UCLPN与所有用户总数UN，通过计算该点UCLP的TF值，通过计算该点UCLP的IDF值，最后通过TF-IDF＝TF*IDF计算该点UCLP的TF-IDF值；重复该过程，直到所有用户的所有中心位置向量中的中心点的TF-IDF全部计算完成。

在本发明的一种优选实施方式中，所述建立用户的TF-IDF值向量列表的方法为：任取某一用户的中心位置向量UserLocationVector，将其与所有用户位置向量LocationVector中的中心点进行对比，如果相同则将计算的TF-IDF值赋值给该中心点，其余该用户位置中心向量中的中心点没有出现在LocationVector中的赋值为0；重复此步骤，直到所有用户的TF-IDF值向量列表全部建立。

在本发明的一种优选实施方式中，所述计算用户的相似性方法为：任取某两个用户的TF-IDF值向量A和B，通过计算用户之间的余弦值，并作为这两个用户的相似性结果，当且仅当该值大于某相似性阀值minsimilarity时，才能判断这两个用户为一类；遍历所有用户，直到所有用户都和其他用户完成了此计算步骤。

本发明将用户的原始GPS地理位置数据分层处理，不仅能挖掘出用户经常活动的停留位置，同时还能够利用挖掘的结果将用户分类，找出相似性最高的用户群体，充分挖掘GPS地理位置数据的价值。与此同时该算法的处理结果能够进一步被加以利用，为推荐引擎提供对应的分类信息，为异常检测提供用户的相似性信息等，更加完善对GPS地理位置数据的利用。同时，本发明是基于用户GPS地理位置数据特性，结合用户实际生活情况对用户的停留位置用TF-IDF算法对其加权，然后通过余弦定理对用户分类，不仅提高了对移动大数据的价值提取，同时更加符合用户的实际生活情况，使得分类结果更具代表性更加真实。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于GPS地理位置数据挖掘的用户分类方法，其特征在于，包括以下步骤：

102、挖掘用户停留区域的步骤：将步骤101整理好的用户数据作为FindStayArea算法挖掘停留区域的数据输入，输出结果为用户停留区域，停留区域包括停留区域中心点以及其附属的邻居节点；所述对FindStayArea算法的实施方法为：第一步：任取用户某一地点位置作为起始计算点LP，遍历该用户其余所有位置点计算与LP的距离，当距离小于某一距离阀值mindist时，便将其加入到该点LP的邻居节点中；第二步：遍历结束时，当该点LP的邻居节点其密度大于最小密度阀值minpoint时，将该点同其邻居节点视为停留区域，同时将该点与其邻居节点从原始位置数据集中删除；如果遍历结束时，该点LP的邻居节点其密度不大于最小密度阀值minpoint时，将该点视为杂点，同时将该点从原始位置数据中删除；重复这一过程，直到原始位置数据中所有的点都经过了这两步计算过程；

103、挖掘用户停留位置的步骤：将步骤102中输出结果的用户停留区域作为FindStayPoint算法挖掘停留位置的数据输入，输出结果为用户停留位置，停留位置是由中心点所表示，所述FindStayPoint算法的步骤具体为：

任取某用户停留区域的邻居节点中的地点位置作为起始计算点NLP，遍历该用户该停留区域的邻居节点中其余所有位置点计算与NLP的距离，当找到某点NLP'与NLP的距离大于某一距离阀值mindist时，计算NLP'与NLP时间间隔，当其时间间隔大于某一时间阀值mintime时，则将NLP与NLP'之间的点视为该用户的停留位置，并计算NLP与NLP'之间所有点的平均值作为该停留位置的中心点，同时下次从NLP'之后的某个位置点NLP”重新开始此计算步骤；而当某点NLP'与NLP的距离不大于某一距离阀值mindist时，从NLP之后的某个位置点NLP”重新开始计算NLP”与其他位置点的距离；重复此计算步骤，直到用户的所有停留区域中的邻居节点全部经过此计算过程，结束；

104、对用户分类，将用户停留位置作为用户分类UserClassify算法的数据输入，输出用户分类结果，将类别一致的用户作为一组用户输出；UserClassify算法步骤为：

S41：加载用户停留位置数据二进制文件；

S43：构建单个用户的中心位置向量UserLocationVector；

2.根据权利要求1所述的一种基于GPS地理位置数据挖掘的用户分类方法，其特征在于，步骤102中挖掘用户停留区域的步骤具体为：

3.根据权利要求1所述的一种基于GPS地理位置数据挖掘的用户分类方法，其特征在于，步骤103中挖掘用户停留位置的具体步骤为：

S32：将停留区域中邻居节点构建的位置列表list[Location]作为FindStayPoint算法的输入数据源，并开始挖掘用户的停留位置，输出停留位置列表list[StayPoint]，列表中的元素为StayPoint类类型，包括停留位置的中心点以及邻居节点；将结果以二进制文件形式保存。

4.根据权利要求1所述的一种基于GPS地理位置数据挖掘的用户分类方法，其特征在于，所述步骤S42中对用户停留位置统一化以及建立所有用户中心位置向量LocationVector的处理方法为：

5.根据权利要求1所述的一种基于GPS地理位置数据挖掘的用户分类方法，其特征在于，所述步骤S44中计算用户中心位置向量的TF-IDF值的方法为：

6.根据权利要求1所述的一种基于GPS地理位置数据挖掘的用户分类方法，其特征在于，所述步骤S45中建立用户的TF-IDF值向量列表的方法为：

7.根据权利要求1所述的一种基于GPS地理位置数据挖掘的用户分类方法，其特征在于，所述计算用户的相似性方法为：