CN109034187A

CN109034187A - 一种用户家庭工作地址挖掘流程

Info

Publication number: CN109034187A
Application number: CN201810602684.0A
Authority: CN
Inventors: 鲍明广
Original assignee: Shanghai Tunji Network Technology Co Ltd
Current assignee: Shanghai Tunji Network Technology Co Ltd
Priority date: 2018-06-12
Filing date: 2018-06-12
Publication date: 2018-12-18
Anticipated expiration: 2038-06-12
Also published as: CN109034187B

Abstract

本发明涉及一种用户家庭工作地址挖掘流程，用户的地理位置信息可以通过各种途径获取到，在地图上展示出来就是许多点组成的疏密不等的集群，一个基本常识就是普通用户的家庭地址和工作地址是点相对密集的区域，首先用DBSCAN等基于空间聚类的方式找出点相对密集的区域，并取前两个集群点数最多的集群为用户家和工作地址所在地。然后根据两个集群的点抽取一些特征(比如集群总点数、集群点总时长、集群点时间波动性、集群点时间特征、集群点星期特征、集群点周边POI(place of interest)信息等)作为特征，利用SVM或Logistics模型训练，判断某个集群是家还是工作地址。然后用一种调优后的KMeans算法在集群上聚类，作为用户的家庭或者工作地址。

Description

一种用户家庭工作地址挖掘流程

技术领域

本发明涉及一种挖掘流程，具体涉及一种用户家庭工作地址挖掘流程。

背景技术

针对出普通的单家庭和单工作地址的用户利用GPS信息和POI信息挖掘出用户家庭和工作地址。家庭和工作地址是用户在日常生活中的主要活动地点，智能手机和信息技术的不断发展与普及为人们的日常生活带来了极大的便利，除了通话、上网等传统应用之外，相关手机应用及LOT设备等采集数据也是用于用户行为模式挖掘的重要数据来源，例如家庭和工作地址。然而，相关工作面临着诸多挑战，包括轨迹数据漂移、位置精度高低不一以及行程的起始终止点不精确。

发明内容

针对上述问题，本发明的主要目的在于提供一种数据挖掘算法：基于DBSCAN算法找到用户重要位置的集群和基于集群内部的KMeans算法找到集群中心作为常去地点标识。

本发明是通过下述技术方案来解决上述技术问题的：一种用户家庭工作地址挖掘流程，所述用户家庭工作地址挖掘流程包括如下工作步骤：

(1)、将所有用户地理位置信息经过预处理后，以用户分组后，各用户数据按时间降序排列，选择最近一段时间的行程的起始点和终止点的经纬度及其时间作为数据源；

(2)、利用DBSCAN算法并选取不同的超参数组合进行调优计算出最优的各个用户最优的地理位置集群，并选出集群总点数靠前n个集群作为备选集群，然后计算点数最多和最少的备选集群的总点数只差和所有备选集群总点数的比值，如果大于阈值则继续(3)，否则结束判断；

(3)、针对所有的备选集群，利用KMeans算法计算该集群的一个中心点作为备选集群的中心；

(4)、遍历某用户经过时间排序后的所有行程点，从第二段行程的开始依次判断是否起点的位置与上一段行程的终止位置距离小于第一阈值，如果不是则继续下段行程判断，如果小于第一阈值，则依次判断距离所有备选集群中心的距离是否小于第二阈值，则该段行程加入对应备选集群，如果是则继续(5)，否则继续下段行程判断；

(5)、遍历某用户经过时间排序后的所有行程点，从第二段行程开始依次判断该行程起点与上段行程的终点时间间隔，然后加入该行程对应备选集群的总时间间隔TC；判断该段行程时间内是否有周六周日的时间，将相关时间加入到周六周日对应的总时间间隔，同时各个备选集群有效点数相应加一，这些数据都记为相应集群的特征；

(6)、根据各个备选集群的总停留时间重新排序，保留前两名集群及相关特征。然后判断第一备选集群总时间间隔占比是否大于第一阈值，如果是则标记为只有家庭地址的用户，否则继续判断上述前两名集群总时间间隔占比是否大于第二阈值，如果不是则结束判断，如果是继续判断第二备选集群总时间间隔占比是否大于第三阈值，如果不是则结束判断，如果是则继续判断前两名集群总停留点数占比是否大于第四阈值，如果不是结束判断，如果是则继续判断第二集群总停留点占比是否大于第五阈值，如果是则计算前两名集群的达到时间波动特征；

(7)、利用总时间间隔、周六总时间间隔、周日总时间间隔、有效点数和到达时间波动特征作为机器学习的输入，相应的标签是该集群属于家庭还是工作地址，运用机器学习模型进行训练并调优得出最终结果。

本发明的积极进步效果在于：本发明先运用了基于密度的聚类方法剔除了很多用户位置信息的噪音，形成了相对准确的集群，然后使用了经过定制的KMeans算法计算出一个中心作为用户常驻地点使得结果相对更加准确。另外本发明结合实际抽取了一些特征，这些特征极大的有助于提升用户家庭和工作地址的区分。

附图说明

图1为本发明的整体结构示意图。

图2为行程点所属集群划分流程图。

图3为相关特征计算流程图。

图4为预条件判断流程图。

具体实施方式

下面结合附图给出本发明较佳实施例，以详细说明本发明的技术方案。

图1为本发明的工作流程示意图，如图1所示：本发明提出了一种挖掘流程，该流程包含一个基于位置信息的过滤模块提高了数据的可用性，以及一个重要位置挖掘模块；基于此框架设计了一种数据挖掘算法：基于DBSCAN算法找到用户重要位置的集群和基于集群内部的KMeans算法找到集群中心作为常去地点标识。从3个方面进行优化：(1)使用多元数据的融合技术，提高结果的准确性；(2)提出了多种算法结合的技术提高了模型效果；(3)通过提取一些行为特征将家庭和工作地址准确区分开。

模型首先预处理行程起始终止位置数据，然后经过DBSCAN算法过滤掉相关噪音点，行程比较合理的集群，然后在各个集群内部使用KMeans距离找到该集群的唯一中心作为该集群的中心。然后判断相关数据是否满足预设计的条件然后计算相关特征，将相关特征和事先打好的标签放入相关机器学习模型进行判断家庭和工作地址的情况。

用户的地理位置信息可以通过各种途径获取到，在地图上展示出来就是许多点组成的疏密不等的集群，一个基本常识就是普通用户的家庭地址和工作地址是点相对密集的区域，首先用DBSCAN等基于空间聚类的方式找出点相对密集的区域，并取前两个集群点数最多的集群为用户家和工作地址所在地。然后根据两个集群的点抽取一些特征(比如集群总点数、集群点总时长、集群点时间波动性、集群点时间特征、集群点星期特征、集群点周边POI(place of interest)信息等)作为特征，利用SVM或Logistics模型训练，判断某个集群是家还是工作地址。然后用一种调优后的KMeans算法在集群上聚类，作为集群中心(也就是用户的家庭或者工作地址)。

图2为行程点所属集群划分流程图，图3为相关特征计算流程图，图4为预条件判断流程图；如图2-4所示，本发明的工作流程如下：

(1)、将所有用户地理位置信息经过预处理后以用户分组后按时间排序，选择最近一段时间的行程的起始和终止经纬度及其时间作为数据源；

(2)、利用DBSCAN算法并选取不同的超参数(∈邻域、领域密度阈值等)组合进行调优计算出最优的各个用户最优的地理位置集群，并选出集群总点数靠前n个集群作为备选集群，然后计算点数最多和最少的备选集群的总点数只差和所有备选集群总点数的比值，如果大于阈值则继续(3)，否则结束判断；

(4)、遍历某用户经过时间排序后的所有行程点，从第二段行程的开始依次判断是否起点的位置与上一段行程的终止位置距离小于第一阈值，如果不是则继续下段行程判断，如果小于第一阈值，则依次判断距离所有备选集群中心的距离是否小于第二阈值，则该段行程加入对应备选集群，如果是则继续(5)，否则继续下段行程判断(详见图2)。

(5)、遍历某用户经过时间排序后的所有行程点，从第二段行程开始依次判断该行程起点与上段行程的终点时间间隔，然后加入该行程对应备选集群的总时间间隔TC。判断该段行程时间内是否有周六周日的时间，将相关时间加入到周六周日对应的总时间间隔，同时各个备选集群有效点数相应加一，这些数据都记为相应集群的特征(详见图3)。

(6)、根据各个备选集群的总停留时间重新排序，保留前两名集群及相关特征。然后判断第一备选集群总时间间隔占比是否大于第一阈值，如果是则标记为只有家庭地址的用户，否则继续判断上述前两名集群总时间间隔占比是否大于第二阈值，如果不是则结束判断，如果是继续判断第二备选集群总时间间隔占比是否大于第三阈值，如果不是则结束判断，如果是则继续判断前两名集群总停留点数占比是否大于第四阈值，如果不是结束判断，如果是则继续判断第二集群总停留点占比是否大于第五阈值，如果是则计算前两名集群的达到时间波动特征(详见图4)。

(7)、利用前述的总时间间隔、周六总时间间隔、周日总时间间隔、有效点数和到达时间波动特征作为机器学习的输入，相应的标签是该集群属于家庭还是工作地址，运用机器学习模型进行训练并调优得出最终结果。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内，本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种用户家庭工作地址挖掘流程，其特征在于：所述用户家庭工作地址挖掘流程包括如下工作步骤：