CN109034187A - 一种用户家庭工作地址挖掘流程 - Google Patents

一种用户家庭工作地址挖掘流程 Download PDF

Info

Publication number
CN109034187A
CN109034187A CN201810602684.0A CN201810602684A CN109034187A CN 109034187 A CN109034187 A CN 109034187A CN 201810602684 A CN201810602684 A CN 201810602684A CN 109034187 A CN109034187 A CN 109034187A
Authority
CN
China
Prior art keywords
cluster
point
user
time
work address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810602684.0A
Other languages
English (en)
Other versions
CN109034187B (zh
Inventor
鲍明广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Tunji Network Technology Co Ltd
Original Assignee
Shanghai Tunji Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Tunji Network Technology Co Ltd filed Critical Shanghai Tunji Network Technology Co Ltd
Priority to CN201810602684.0A priority Critical patent/CN109034187B/zh
Publication of CN109034187A publication Critical patent/CN109034187A/zh
Application granted granted Critical
Publication of CN109034187B publication Critical patent/CN109034187B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种用户家庭工作地址挖掘流程,用户的地理位置信息可以通过各种途径获取到,在地图上展示出来就是许多点组成的疏密不等的集群,一个基本常识就是普通用户的家庭地址和工作地址是点相对密集的区域,首先用DBSCAN等基于空间聚类的方式找出点相对密集的区域,并取前两个集群点数最多的集群为用户家和工作地址所在地。然后根据两个集群的点抽取一些特征(比如集群总点数、集群点总时长、集群点时间波动性、集群点时间特征、集群点星期特征、集群点周边POI(place of interest)信息等)作为特征,利用SVM或Logistics模型训练,判断某个集群是家还是工作地址。然后用一种调优后的KMeans算法在集群上聚类,作为用户的家庭或者工作地址。

Description

一种用户家庭工作地址挖掘流程
技术领域
本发明涉及一种挖掘流程,具体涉及一种用户家庭工作地址挖掘流程。
背景技术
针对出普通的单家庭和单工作地址的用户利用GPS信息和POI信息挖掘出用户家庭和工作地址。家庭和工作地址是用户在日常生活中的主要活动地点,智能手机和信息技术的不断发展与普及为人们的日常生活带来了极大的便利,除了通话、上网等传统应用之外,相关手机应用及LOT设备等采集数据也是用于用户行为模式挖掘的重要数据来源,例如家庭和工作地址。然而,相关工作面临着诸多挑战,包括轨迹数据漂移、位置精度高低不一以及行程的起始终止点不精确。
发明内容
针对上述问题,本发明的主要目的在于提供一种数据挖掘算法:基于DBSCAN算法找到用户重要位置的集群和基于集群内部的KMeans算法找到集群中心作为常去地点标识。
本发明是通过下述技术方案来解决上述技术问题的:一种用户家庭工作地址挖掘流程,所述用户家庭工作地址挖掘流程包括如下工作步骤:
(1)、将所有用户地理位置信息经过预处理后,以用户分组后,各用户数据按时间降序排列,选择最近一段时间的行程的起始点和终止点的经纬度及其时间作为数据源;
(2)、利用DBSCAN算法并选取不同的超参数组合进行调优计算出最优的各个用户最优的地理位置集群,并选出集群总点数靠前n个集群作为备选集群,然后计算点数最多和最少的备选集群的总点数只差和所有备选集群总点数的比值,如果大于阈值则继续(3),否则结束判断;
(3)、针对所有的备选集群,利用KMeans算法计算该集群的一个中心点作为备选集群的中心;
(4)、遍历某用户经过时间排序后的所有行程点,从第二段行程的开始依次判断是否起点的位置与上一段行程的终止位置距离小于第一阈值,如果不是则继续下段行程判断,如果小于第一阈值,则依次判断距离所有备选集群中心的距离是否小于第二阈值,则该段行程加入对应备选集群,如果是则继续(5),否则继续下段行程判断;
(5)、遍历某用户经过时间排序后的所有行程点,从第二段行程开始依次判断该行程起点与上段行程的终点时间间隔,然后加入该行程对应备选集群的总时间间隔TC;判断该段行程时间内是否有周六周日的时间,将相关时间加入到周六周日对应的总时间间隔,同时各个备选集群有效点数相应加一,这些数据都记为相应集群的特征;
(6)、根据各个备选集群的总停留时间重新排序,保留前两名集群及相关特征。然后判断第一备选集群总时间间隔占比是否大于第一阈值,如果是则标记为只有家庭地址的用户,否则继续判断上述前两名集群总时间间隔占比是否大于第二阈值,如果不是则结束判断,如果是继续判断第二备选集群总时间间隔占比是否大于第三阈值,如果不是则结束判断,如果是则继续判断前两名集群总停留点数占比是否大于第四阈值,如果不是结束判断,如果是则继续判断第二集群总停留点占比是否大于第五阈值,如果是则计算前两名集群的达到时间波动特征;
(7)、利用总时间间隔、周六总时间间隔、周日总时间间隔、有效点数和到达时间波动特征作为机器学习的输入,相应的标签是该集群属于家庭还是工作地址,运用机器学习模型进行训练并调优得出最终结果。
本发明的积极进步效果在于:本发明先运用了基于密度的聚类方法剔除了很多用户位置信息的噪音,形成了相对准确的集群,然后使用了经过定制的KMeans算法计算出一个中心作为用户常驻地点使得结果相对更加准确。另外本发明结合实际抽取了一些特征,这些特征极大的有助于提升用户家庭和工作地址的区分。
附图说明
图1为本发明的整体结构示意图。
图2为行程点所属集群划分流程图。
图3为相关特征计算流程图。
图4为预条件判断流程图。
具体实施方式
下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案。
图1为本发明的工作流程示意图,如图1所示:本发明提出了一种挖掘流程,该流程包含一个基于位置信息的过滤模块提高了数据的可用性,以及一个重要位置挖掘模块;基于此框架设计了一种数据挖掘算法:基于DBSCAN算法找到用户重要位置的集群和基于集群内部的KMeans算法找到集群中心作为常去地点标识。从3个方面进行优化:(1)使用多元数据的融合技术,提高结果的准确性;(2)提出了多种算法结合的技术提高了模型效果;(3)通过提取一些行为特征将家庭和工作地址准确区分开。
模型首先预处理行程起始终止位置数据,然后经过DBSCAN算法过滤掉相关噪音点,行程比较合理的集群,然后在各个集群内部使用KMeans距离找到该集群的唯一中心作为该集群的中心。然后判断相关数据是否满足预设计的条件然后计算相关特征,将相关特征和事先打好的标签放入相关机器学习模型进行判断家庭和工作地址的情况。
用户的地理位置信息可以通过各种途径获取到,在地图上展示出来就是许多点组成的疏密不等的集群,一个基本常识就是普通用户的家庭地址和工作地址是点相对密集的区域,首先用DBSCAN等基于空间聚类的方式找出点相对密集的区域,并取前两个集群点数最多的集群为用户家和工作地址所在地。然后根据两个集群的点抽取一些特征(比如集群总点数、集群点总时长、集群点时间波动性、集群点时间特征、集群点星期特征、集群点周边POI(place of interest)信息等)作为特征,利用SVM或Logistics模型训练,判断某个集群是家还是工作地址。然后用一种调优后的KMeans算法在集群上聚类,作为集群中心(也就是用户的家庭或者工作地址)。
图2为行程点所属集群划分流程图,图3为相关特征计算流程图,图4为预条件判断流程图;如图2-4所示,本发明的工作流程如下:
(1)、将所有用户地理位置信息经过预处理后以用户分组后按时间排序,选择最近一段时间的行程的起始和终止经纬度及其时间作为数据源;
(2)、利用DBSCAN算法并选取不同的超参数(∈邻域、领域密度阈值等)组合进行调优计算出最优的各个用户最优的地理位置集群,并选出集群总点数靠前n个集群作为备选集群,然后计算点数最多和最少的备选集群的总点数只差和所有备选集群总点数的比值,如果大于阈值则继续(3),否则结束判断;
(3)、针对所有的备选集群,利用KMeans算法计算该集群的一个中心点作为备选集群的中心;
(4)、遍历某用户经过时间排序后的所有行程点,从第二段行程的开始依次判断是否起点的位置与上一段行程的终止位置距离小于第一阈值,如果不是则继续下段行程判断,如果小于第一阈值,则依次判断距离所有备选集群中心的距离是否小于第二阈值,则该段行程加入对应备选集群,如果是则继续(5),否则继续下段行程判断(详见图2)。
(5)、遍历某用户经过时间排序后的所有行程点,从第二段行程开始依次判断该行程起点与上段行程的终点时间间隔,然后加入该行程对应备选集群的总时间间隔TC。判断该段行程时间内是否有周六周日的时间,将相关时间加入到周六周日对应的总时间间隔,同时各个备选集群有效点数相应加一,这些数据都记为相应集群的特征(详见图3)。
(6)、根据各个备选集群的总停留时间重新排序,保留前两名集群及相关特征。然后判断第一备选集群总时间间隔占比是否大于第一阈值,如果是则标记为只有家庭地址的用户,否则继续判断上述前两名集群总时间间隔占比是否大于第二阈值,如果不是则结束判断,如果是继续判断第二备选集群总时间间隔占比是否大于第三阈值,如果不是则结束判断,如果是则继续判断前两名集群总停留点数占比是否大于第四阈值,如果不是结束判断,如果是则继续判断第二集群总停留点占比是否大于第五阈值,如果是则计算前两名集群的达到时间波动特征(详见图4)。
(7)、利用前述的总时间间隔、周六总时间间隔、周日总时间间隔、有效点数和到达时间波动特征作为机器学习的输入,相应的标签是该集群属于家庭还是工作地址,运用机器学习模型进行训练并调优得出最终结果。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内,本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (1)

1.一种用户家庭工作地址挖掘流程,其特征在于:所述用户家庭工作地址挖掘流程包括如下工作步骤:
(1)、将所有用户地理位置信息经过预处理后,以用户分组后,各用户数据按时间降序排列,选择最近一段时间的行程的起始点和终止点的经纬度及其时间作为数据源;
(2)、利用DBSCAN算法并选取不同的超参数组合进行调优计算出最优的各个用户最优的地理位置集群,并选出集群总点数靠前n个集群作为备选集群,然后计算点数最多和最少的备选集群的总点数只差和所有备选集群总点数的比值,如果大于阈值则继续(3),否则结束判断;
(3)、针对所有的备选集群,利用KMeans算法计算该集群的一个中心点作为备选集群的中心;
(4)、遍历某用户经过时间排序后的所有行程点,从第二段行程的开始依次判断是否起点的位置与上一段行程的终止位置距离小于第一阈值,如果不是则继续下段行程判断,如果小于第一阈值,则依次判断距离所有备选集群中心的距离是否小于第二阈值,则该段行程加入对应备选集群,如果是则继续(5),否则继续下段行程判断;
(5)、遍历某用户经过时间排序后的所有行程点,从第二段行程开始依次判断该行程起点与上段行程的终点时间间隔,然后加入该行程对应备选集群的总时间间隔TC;判断该段行程时间内是否有周六周日的时间,将相关时间加入到周六周日对应的总时间间隔,同时各个备选集群有效点数相应加一,这些数据都记为相应集群的特征;
(6)、根据各个备选集群的总停留时间重新排序,保留前两名集群及相关特征。然后判断第一备选集群总时间间隔占比是否大于第一阈值,如果是则标记为只有家庭地址的用户,否则继续判断上述前两名集群总时间间隔占比是否大于第二阈值,如果不是则结束判断,如果是继续判断第二备选集群总时间间隔占比是否大于第三阈值,如果不是则结束判断,如果是则继续判断前两名集群总停留点数占比是否大于第四阈值,如果不是结束判断,如果是则继续判断第二集群总停留点占比是否大于第五阈值,如果是则计算前两名集群的达到时间波动特征;
(7)、利用总时间间隔、周六总时间间隔、周日总时间间隔、有效点数和到达时间波动特征作为机器学习的输入,相应的标签是该集群属于家庭还是工作地址,运用机器学习模型进行训练并调优得出最终结果。
CN201810602684.0A 2018-06-12 2018-06-12 一种用户家庭工作地址挖掘流程 Active CN109034187B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810602684.0A CN109034187B (zh) 2018-06-12 2018-06-12 一种用户家庭工作地址挖掘流程

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810602684.0A CN109034187B (zh) 2018-06-12 2018-06-12 一种用户家庭工作地址挖掘流程

Publications (2)

Publication Number Publication Date
CN109034187A true CN109034187A (zh) 2018-12-18
CN109034187B CN109034187B (zh) 2021-09-17

Family

ID=64612854

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810602684.0A Active CN109034187B (zh) 2018-06-12 2018-06-12 一种用户家庭工作地址挖掘流程

Country Status (1)

Country Link
CN (1) CN109034187B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086323A (zh) * 2018-06-28 2018-12-25 上海中通吉网络技术有限公司 用户家庭和工作地址的确定方法和系统
CN109918582A (zh) * 2019-03-06 2019-06-21 上海评驾科技有限公司 一种基于时空数据的用户单兴趣点识别的方法
CN109918581A (zh) * 2019-03-06 2019-06-21 上海评驾科技有限公司 一种基于时空数据的用户多兴趣点多结果识别的方法
CN109919225A (zh) * 2019-03-06 2019-06-21 上海评驾科技有限公司 一种基于时空数据的用户兴趣点识别的方法
CN111078818A (zh) * 2019-12-27 2020-04-28 同盾(广州)科技有限公司 地址分析方法、装置、电子设备及存储介质
TWI776379B (zh) * 2021-01-28 2022-09-01 中華電信股份有限公司 一種用於特徵挖掘之裝置、方法及電腦可讀儲存媒介

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101945400A (zh) * 2009-07-10 2011-01-12 中国移动通信集团公司 一种用户动态行为分析方法及分析装置
CN104965913A (zh) * 2015-07-03 2015-10-07 重庆邮电大学 一种基于gps地理位置数据挖掘的用户分类方法
WO2015187710A1 (en) * 2014-06-02 2015-12-10 Blackwatch International A generic template node for developing and deploying model software packages
CN105243128A (zh) * 2015-09-29 2016-01-13 西华大学 一种基于签到数据的用户行为轨迹聚类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101945400A (zh) * 2009-07-10 2011-01-12 中国移动通信集团公司 一种用户动态行为分析方法及分析装置
WO2015187710A1 (en) * 2014-06-02 2015-12-10 Blackwatch International A generic template node for developing and deploying model software packages
CN104965913A (zh) * 2015-07-03 2015-10-07 重庆邮电大学 一种基于gps地理位置数据挖掘的用户分类方法
CN105243128A (zh) * 2015-09-29 2016-01-13 西华大学 一种基于签到数据的用户行为轨迹聚类方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ONAPA LIMWATTANAPIBOOL ET AL.: "Determination of the appropriate parameters for K ‐ means", 《EXPERT SYSTEMS》 *
巧克力工厂的查理: "用户地理位置的聚类算法实现—基于DBSCAN和Kmeans的混", 《CSDN》 *
庄夏: "基于DBSCAN和Kmeans的用户地理位置聚类算法研究", 《数字化用户》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086323A (zh) * 2018-06-28 2018-12-25 上海中通吉网络技术有限公司 用户家庭和工作地址的确定方法和系统
CN109918582A (zh) * 2019-03-06 2019-06-21 上海评驾科技有限公司 一种基于时空数据的用户单兴趣点识别的方法
CN109918581A (zh) * 2019-03-06 2019-06-21 上海评驾科技有限公司 一种基于时空数据的用户多兴趣点多结果识别的方法
CN109919225A (zh) * 2019-03-06 2019-06-21 上海评驾科技有限公司 一种基于时空数据的用户兴趣点识别的方法
CN109919225B (zh) * 2019-03-06 2023-06-20 上海评驾科技有限公司 一种基于时空数据的用户兴趣点识别的方法
CN109918581B (zh) * 2019-03-06 2023-09-22 上海评驾科技有限公司 一种基于时空数据的用户多兴趣点多结果识别的方法
CN111078818A (zh) * 2019-12-27 2020-04-28 同盾(广州)科技有限公司 地址分析方法、装置、电子设备及存储介质
TWI776379B (zh) * 2021-01-28 2022-09-01 中華電信股份有限公司 一種用於特徵挖掘之裝置、方法及電腦可讀儲存媒介

Also Published As

Publication number Publication date
CN109034187B (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN109034187A (zh) 一种用户家庭工作地址挖掘流程
CN110245981B (zh) 一种基于手机信令数据的人群类型识别方法
CN106912015B (zh) 一种基于移动网络数据的人员出行链识别方法
Yuan et al. An interactive-voting based map matching algorithm
CN102682041B (zh) 用户行为识别设备及方法
CN106878951B (zh) 用户轨迹分析方法及系统
CN106339716A (zh) 一种基于加权欧氏距离的移动轨迹相似度匹配方法
Zhou et al. Discovering personally meaningful places: An interactive clustering approach
CN107018493B (zh) 一种基于连续时序马尔科夫模型的地理位置预测方法
CN105409306B (zh) 移动终端位置预测方法及装置
CN102799897B (zh) 基于gps定位的交通方式组合出行的计算机识别方法
CN111582948B (zh) 一种基于手机信令数据与poi兴趣点的个体行为分析方法
CN109086323A (zh) 用户家庭和工作地址的确定方法和系统
CN105513351A (zh) 一种基于大数据的交通出行特征数据提取方法
CN106156528A (zh) 一种轨迹数据停留识别方法及系统
CN105933975A (zh) 一种基于WiFi指纹的精度改善的室内定位方法
CN106931974A (zh) 基于移动终端gps定位数据记录计算个人通勤距离的方法
CN108510011B (zh) 一种基于手机多传感器的用户出行方式分析方法
CN105910612A (zh) 一种个性化导航的方法及系统
US20140149070A1 (en) Method and system for analyzing movement trajectories
CN105243148A (zh) 一种基于签到数据的时空轨迹相似性度量方法及系统
Pavan et al. Finding important locations: A feature-based approach
CN106997666A (zh) 一种利用手机信令数据位置切换获取交通流速度的方法
CN109684373A (zh) 基于出行和话单数据分析的重点关系人发现方法
CN110598917B (zh) 一种基于路径轨迹的目的地预测方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant