CN111127065B - 用户职住地的获取方法和装置 - Google Patents

用户职住地的获取方法和装置 Download PDF

Info

Publication number
CN111127065B
CN111127065B CN201811296693.8A CN201811296693A CN111127065B CN 111127065 B CN111127065 B CN 111127065B CN 201811296693 A CN201811296693 A CN 201811296693A CN 111127065 B CN111127065 B CN 111127065B
Authority
CN
China
Prior art keywords
user
application program
log data
data
track
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811296693.8A
Other languages
English (en)
Other versions
CN111127065A (zh
Inventor
陈程
尤国安
彭继东
刘鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811296693.8A priority Critical patent/CN111127065B/zh
Publication of CN111127065A publication Critical patent/CN111127065A/zh
Application granted granted Critical
Publication of CN111127065B publication Critical patent/CN111127065B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0204Market segmentation
    • G06Q30/0205Location or geographical consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种用户职住地的获取方法和装置。用户职住地的获取方法包括:获取预设时长内用户的轨迹数据,轨迹数据用于指示用户在不同时间所处的位置;利用聚类算法对用户的轨迹数据进行聚类,获得至少一个聚类中心点;根据每个聚类中心点对应的用户的轨迹数据,获得用户在每个聚类中心点的轨迹分布曲线;根据每个聚类中心点的轨迹分布曲线,分别确定每个聚类中心点是否为用户的职住地。本发明提供的用户职住地的获取方法,基于大数据技术,提升了职住地的定位精度,提升了获得的用户职住地的准确性。

Description

用户职住地的获取方法和装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种用户职住地的获取方法和装置。
背景技术
城市居民的工作地和居住地是城市空间的重要组成部分。工作地和居住地也称为职住地。用户的职住地在互联网+具有广泛的应用。例如,对于运营商来说,获取用户的居住地,可以对用户进行定点营销和业务办理。对于银行来说,可以用来验证信用卡或贷款申请人员填写的地址信息是否真实可靠,降低风险。因此,获取准确的用户职住地是非常重要的。
目前,获取用户的职住地,可以基于信令数据和基站进行定位挖掘。
但是,基于基站数据挖掘用户的职住地,定位精度一般为千米级,定位精度很低。导致获取的用户职住地的准确性较低。
发明内容
本发明提供一种用户职住地的获取方法和装置,提升了职住地的定位精度,提升了获得的用户职住地的准确性。
第一方面,本发明提供一种用户职住地的获取方法,包括:
获取预设时长内用户的轨迹数据,所述轨迹数据用于指示所述用户在不同时间所处的位置;
利用聚类算法对所述用户的轨迹数据进行聚类,获得至少一个聚类中心点;
根据每个所述聚类中心点对应的所述用户的轨迹数据,获得所述用户在每个所述聚类中心点的轨迹分布曲线;
根据每个所述聚类中心点的轨迹分布曲线,分别确定每个所述聚类中心点是否为所述用户的职住地。
可选的,在第一方面的一种可能的实施方式中,所述获取预设时长内用户的轨迹数据,包括:
通过订阅应用程序的数据,获取所述预设时长内所述用户针对所述应用程序的日志数据;
根据所述应用程序的日志数据,获取所述用户的轨迹数据。
可选的,在第一方面的一种可能的实施方式中,所述应用程序包括具有定位功能的第一应用程序,所述第一应用程序的日志数据包括:用户标识、时间、位置和网络之间互连协议IP地址;
所述用户的轨迹数据包括所述用户针对所述第一应用程序的日志数据。
可选的,在第一方面的一种可能的实施方式中,所述应用程序还包括不具有定位功能的第二应用程序,所述第二应用程序的日志数据包括:用户标识、时间和网络之间互连协议IP地址;
所述根据所述应用程序的日志数据,获取所述用户的轨迹数据,包括:
根据所述第一应用程序的日志数据,为所述第二应用程序的日志数据添加位置信息;
将所述第一应用程序的日志数据和添加位置信息后的所述第二应用程序的日志数据,确定为所述用户的轨迹数据。
可选的,在第一方面的一种可能的实施方式中,所述根据所述第一应用程序的日志数据,为所述第二应用程序的日志数据添加位置信息,包括:
若ID1=ID2且|time1-time2|≤Thres,或者,若ID1=ID2、IP1=IP2且|time1-time2|≤Thres,则在所述第二应用程序的日志数据中添加所述第一应用程序的日志数据中包括的位置;
其中,ID1、time1和IP1分别表示所述第一应用程序的日志数据中包括的用户标识、时间和IP地址,ID2、time2和IP2分别表示所述第二应用程序的日志数据中包括的用户标识、时间和IP地址,Thres表示预设阈值。
可选的,在第一方面的一种可能的实施方式中,所述根据每个所述聚类中心点的轨迹分布曲线,分别确定每个所述聚类中心点是否为所述用户的职住地,包括:
若所述聚类中心点的轨迹分布曲线的特征符合工作地轨迹分布曲线的特征,则确定所述聚类中心点为用户的工作地;
若所述聚类中心点的轨迹分布曲线的特征符合居住地轨迹分布曲线的特征,则确定所述聚类中心点为用户的居住地。
可选的,在第一方面的一种可能的实施方式中,所述轨迹分布曲线的X轴坐标的取值范围为0~24小时,Y轴坐标用于指示在所述预设时长内同一个位置在X轴坐标指示的时间出现的次数。
可选的,在第一方面的一种可能的实施方式中,所述聚类算法包括DBSCAN算法。
第二方面,本发明提供一种用户职住地的获取装置,包括:
获取模块,用于获取预设时长内用户的轨迹数据,所述轨迹数据用于指示所述用户在不同时间所处的位置;
聚类模块,用于利用聚类算法对所述用户的轨迹数据进行聚类,获得至少一个聚类中心点;
处理模块,用于根据每个所述聚类中心点对应的所述用户的轨迹数据,获得所述用户在每个所述聚类中心点的轨迹分布曲线;
确定模块,用于根据每个所述聚类中心点的轨迹分布曲线,分别确定每个所述聚类中心点是否为所述用户的职住地。
可选的,在第二方面的一种可能的实施方式中,所述获取模块具体用于:
通过订阅应用程序的数据,获取所述预设时长内所述用户针对所述应用程序的日志数据;
根据所述应用程序的日志数据,获取所述用户的轨迹数据。
可选的,在第二方面的一种可能的实施方式中,所述应用程序包括具有定位功能的第一应用程序,所述第一应用程序的日志数据包括:用户标识、时间、位置和网络之间互连协议IP地址;
所述用户的轨迹数据包括所述用户针对所述第一应用程序的日志数据。
可选的,在第二方面的一种可能的实施方式中,所述应用程序还包括不具有定位功能的第二应用程序,所述第二应用程序的日志数据包括:用户标识、时间和网络之间互连协议IP地址;
所述获取模块具体用于:
根据所述第一应用程序的日志数据,为所述第二应用程序的日志数据添加位置信息;
将所述第一应用程序的日志数据和添加位置信息后的所述第二应用程序的日志数据,确定为所述用户的轨迹数据。
可选的,在第二方面的一种可能的实施方式中,所述获取模块具体用于:
若ID1=ID2且|time1-time2|≤Thres,或者,若ID1=ID2、IP1=IP2且|time1-time2|≤Thres,则在所述第二应用程序的日志数据中添加所述第一应用程序的日志数据中包括的位置;
其中,ID1、time1和IP1分别表示所述第一应用程序的日志数据中包括的用户标识、时间和IP地址,ID2、time2和IP2分别表示所述第二应用程序的日志数据中包括的用户标识、时间和IP地址,Thres表示预设阈值。
可选的,在第二方面的一种可能的实施方式中,所述确定模块具体用于:
若所述聚类中心点的轨迹分布曲线的特征符合工作地轨迹分布曲线的特征,则确定所述聚类中心点为用户的工作地;
若所述聚类中心点的轨迹分布曲线的特征符合居住地轨迹分布曲线的特征,则确定所述聚类中心点为用户的居住地。
可选的,在第二方面的一种可能的实施方式中,所述轨迹分布曲线的X轴坐标的取值范围为0~24小时,Y轴坐标用于指示在所述预设时长内同一个位置在X轴坐标指示的时间出现的次数。
可选的,在第二方面的一种可能的实施方式中,所述聚类算法包括DBSCAN算法。
第三方面,本发明提供一种用户职住地的获取设备,包括:存储器和处理器;
所述存储器,用于存储程序指令;
所述处理器,用于调用所述存储器中存储的所述程序指令以实现如本发明第一方面任一实施方式提供的用户职住地的获取方法。
第四方面,本发明提供一种存储介质,包括:可读存储介质和计算机程序,所述计算机程序用于实现如本发明第一方面任一实施方式提供的用户职住地的获取方法。
本发明提供一种用户职住地的获取方法和装置,通过获取预设时长内用户的轨迹数据,利用聚类算法对用户的轨迹数据进行聚类,获得至少一个聚类中心点,根据每个聚类中心点对应的用户的轨迹数据,获得用户在每个聚类中心点的轨迹分布曲线,根据每个聚类中心点的轨迹分布曲线,分别确定每个聚类中心点是否为用户的职住地。本发明提供的用户职住地的获取方法,基于大数据技术,提升了职住地的定位精度,提升了获得的用户职住地的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的用户职住地的获取方法的流程图;
图2为本发明实施例一提供的聚类中心点的轨迹分布曲线的示意图;
图3为本发明实施例一提供的工作日中工作地轨迹分布曲线的示意图;
图4为本发明实施例一提供的工作日中居住地轨迹分布曲线的示意图;
图5为本发明实施例一提供的用户职住地的获取装置的结构示意图;
图6为本发明实施例一提供的用户职住地的获取设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一提供的用户职住地的获取方法的流程图。本实施例提供的用户职住地的获取方法,执行主体可以为用户职住地的获取装置或者用户职住地的获取设备。如图1所示,本实施例提供的用户职住地的获取方法,可以包括:
S101、获取预设时长内用户的轨迹数据。
其中,轨迹数据用于指示用户在不同时间所处的位置。
具体的,获取预设时长内用户的轨迹数据,以用于挖掘用户的职住地。为了确保轨迹数据的有效性,可选的,预设时长可以为以当前时间为起点向前的预设时长。例如,最近90天。
可选的,用户的轨迹数据可以包括多条数据记录。
每条数据记录可以包括:用户标识、时间和位置。其中,时间和位置之间具有对应关系,即,每条记录中的位置,是指用户在每条记录中的时间所处的位置。用户标识用于唯一区分不同的用户。本实施例对于用户标识的实现方式不做限定。例如,用户标识可以为用户的身份证号码,或者是姓名加上身份证号码。
例如,一条数据记录可以为[ID,time,location]。其中,ID表示用户标识,time表示时间,location表示位置。
可选的,每条记录中还可以包括网络之间互连协议(Internet Protocol,IP)地址。此时,一条数据记录可以为[ID,time,location,IP]。其中,IP表示IP地址。
例如,用户通过智能手机中的地图类应用导航时,IP地址可以为智能手机接入网络中时的IP地址。
又例如,用户通过台式电脑在网页类地图中查询位置时,IP地址可以为台式电脑通过家庭网络接入因特网的IP地址。
需要说明的是,本实施例对于用户的数量不做限定。在本实施例中,以一个用户作为示例,对本实施例提供的用户职住地的获取方法进行说明。当用户为多个时,可以通过用户标识唯一区分不同的用户。
需要说明的是,本实施例对于预设时长的具体取值不做限定。例如,预设时长为90天。
S102、利用聚类算法对用户的轨迹数据进行聚类,获得至少一个聚类中心点。
所谓聚类算法,又称为群分析算法,是研究样品或指标分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法。
通过聚类算法,可以基于用户的轨迹数据进行挖掘,获得至少一个聚类中心点。聚类中心点即为通过聚类算法挖掘出来的可能是用户居住地或者工作地的位置。
需要说明的是,本实施例对于聚类算法的类型不做限定。可选的,聚类算法可以包括基于密度的带有噪声的空间聚类(Density-Based Spatial Clustering ofApplications with Noise,DBSCAN)算法。
S103、根据每个聚类中心点对应的用户的轨迹数据,获得用户在每个聚类中心点的轨迹分布曲线。
可选的,轨迹分布曲线的X轴坐标的取值范围可以为0~24小时,Y轴坐标用于指示在预设时长内同一个位置在X轴坐标指示的时间出现的次数。
下面通过具体示例进行说明。
图2为本发明实施例一提供的聚类中心点的轨迹分布曲线的示意图。假设预设时长为90天。如图2所示,X轴坐标的取值范围为0~24小时,时间粒度为1小时。例如,早上7时~8时这1个小时内,聚类中心点在90天内在早上7时~8时中出现的次数为50次。
可见,通过轨迹分布曲线,可以反映出预设时长内聚类中心点在时间轴上的分布情况,从而进一步确定聚类中心点是用户的工作地或者是居住地。
S104、根据每个聚类中心点的轨迹分布曲线,分别确定每个聚类中心点是否为用户的职住地。
可见,本实施例提供的用户职住地的获取方法,通过获取预设时长内用户的轨迹数据,可以利用聚类算法对用户的轨迹数据进行聚类,获得至少一个聚类中心点,进而,可以根据每个聚类中心点的轨迹分布曲线,分别确定每个聚类中心点是否为用户的职住地。相比于现有的基于基站数据获得用户职住地,本实施例提供的用户职住地的获取方法,基于大数据技术,提升了职住地的定位精度,因此提升了获得的用户职住地的准确性。
可选的,S104中,根据每个聚类中心点的轨迹分布曲线,分别确定每个聚类中心点是否为用户的职住地,可以包括:
若聚类中心点的轨迹分布曲线的特征符合工作地轨迹分布曲线的特征,则确定聚类中心点为用户的工作地。
若聚类中心点的轨迹分布曲线的特征符合居住地轨迹分布曲线的特征,则确定聚类中心点为用户的居住地。
下面,结合图2~图4进行示例性说明。其中,图3为本发明实施例一提供的工作日中工作地轨迹分布曲线的示意图,图4为本发明实施例一提供的工作日中居住地轨迹分布曲线的示意图。
如图3所示,工作日中,工作地轨迹分布曲线的特征如下:
(1)工作地轨迹分布曲线呈现先出现一个骤升点并保持高位,然后接一个骤降点的形态。
(2)工作地轨迹分布曲线的高位主要分布于10时-17时之间。
如图4所示,工作日中,居住地轨迹分布曲线的特征如下:
(1)居住地轨迹分布曲线呈现先出现骤降点并保持低位,然后接一个骤升点的形态。
(2)居住地轨迹分布曲线的高位主要分布于6时-8时、18时~24时之间。
如图2所示,图2所示聚类中心点的轨迹分布曲线的特征符合工作地轨迹分布曲线的特征,因此,可以确定聚类中心点为用户的工作地。
需要说明的是,图3和图4仅是一种示例,本实施例对于工作地轨迹分布曲线和居住地轨迹分布曲线的特征不做限定。
可选的,S101中,获取预设时长内用户的轨迹数据,可以包括:
通过订阅应用程序的数据,获取预设时长内用户针对应用程序的日志数据。
根据应用程序的日志数据,获取用户的轨迹数据。
具体的,通过订阅应用程序的数据,可以获取用户使用各种应用程序时产生的日志数据。本实施例对于应用程序的数量和类型不做限定。可选的,应用程序可以具有定位功能。此时,应用程序的日志数据中可以包括位置信息。例如,地图类应用、点餐类应用、购物类应用,等等。可选的,应用程序可以不具有定位功能。此时,应用程序的日志数据中可能不包括位置信息。例如,游戏类应用、新闻类应用,等等。
通过获取应用程序的日志数据,进而根据应用程序的日志数据获取用户的轨迹数据,扩大了大数据分析的数据来源,进一步提升了大数据分析的准确性,提升了用户职住地的准确性。
可选的,若应用程序包括具有定位功能的第一应用程序,第一应用程序的日志数据包括:用户标识、时间、位置和IP地址。则,用户的轨迹数据可以包括用户针对第一应用程序的日志数据。
在该种实现方式中,由于第一应用程序具有定位功能,因此,第一应用的日志数据中包括了准确的位置信息。用户的轨迹数据可以包括用户针对第一应用程序的日志数据,为用户职住地的挖掘提供了准确的数据源,提升了用户职住地的准确性。
可选的,若应用程序还包括不具有定位功能的第二应用程序,第二应用程序的日志数据包括:用户标识、时间和网络之间互连协议IP地址。
根据应用程序的日志数据,获取用户的轨迹数据,可以包括:
根据第一应用程序的日志数据,为第二应用程序的日志数据添加位置信息。
将第一应用程序的日志数据和添加位置信息后的第二应用程序的日志数据,确定为用户的轨迹数据。
在该种实现方式中,第一应用程序具有定位功能,因此,第一应用的日志数据中包括了准确的位置信息。第二应用程序不具有定位功能,因此,第二应用的日志数据中不包括位置信息。但是,可以根据第一应用的日志数据为第二应用程序的日志数据添加位置信息,从而扩充了数据源中的位置信息。用户的轨迹数据可以包括用户针对第一应用程序的日志数据,以及添加位置信息后的第二应用程序的日志数据,扩充了用户的轨迹数据的密度,为用户职住地的挖掘提供了充分的数据源,提升了用户职住地的准确性。
可选的,根据第一应用程序的日志数据,为第二应用程序的日志数据添加位置信息,可以包括:
若ID1=ID2且|time1-time2|≤Thres,或者,若ID1=ID2、IP1=IP2且|time1-time2|≤Thres,则在第二应用程序的日志数据中添加第一应用程序的日志数据中包括的位置。
其中,ID1、time1和IP1分别表示第一应用程序的日志数据中包括的用户标识、时间和IP地址,ID2、time2和IP2分别表示第二应用程序的日志数据中包括的用户标识、时间和IP地址,Thres表示预设阈值。
具体的,短时间内,如果用户没有发生移动,IP地址通常会保持不变。如果用户发生了移动,IP地址保持不变的概率也极大。假设,在time1时刻,通过具有定位功能的第一应用程序获得了日志数据[ID1,time1,location,IP1]。其中包括准确的位置信息location。在time2时刻,通过不具有定位功能的第二应用程序获得了日志数据[ID2,time2,IP2]。
在一种实现方式中,如果ID1=ID2且|time1-time2|≤Thres,通过ID,可以说明用户为同一个用户,且两条记录之间的时间间隔较短。可以判断time1时刻和time2时刻用户所在的位置相同。这样,就可以将位置信息location扩充到第二应用程序获得了日志数据[ID2,time2,IP2]中,形成数据[ID2,time2,location,IP2]。填补了由于第二应用程序不具有定位功能导致的time2时刻用户位置缺失的问题,扩充了用户的轨迹密度。
在另一种实现方式中,如果ID1=ID2、IP1=IP2且|time1-time2|≤Thres,通过ID和IP,可以说明用户为同一个用户,且两条记录之间的时间间隔较短。可以判断time1时刻和time2时刻用户所在的位置相同。这样,就可以将位置信息location扩充到第二应用程序获得了日志数据[ID2,time2,IP2]中,形成数据[ID2,time2,location,IP2]。填补了由于第二应用程序不具有定位功能导致的time2时刻用户位置缺失的问题,扩充了用户的轨迹密度。由于通过ID和IP判断用户是否为同一个用户,进一步提升了填补位置数据的准确性。
可选的,本实施例提供的用户职住地的获取方法,还可以包括:
若确定聚类中心点为用户的职住地,则存储用户与职住地之间的对应关系。
通过存储用户与职住地之间的对应关系,在互联网+的各种场景中,如地址验证、基于位置的精准推荐、运营商营销等,可以快速准确的获取用户的职住地,提升了应用用户职住地的准确性。
本实施例提供一种用户职住地的获取方法,包括:获取预设时长内用户的轨迹数据,利用聚类算法对用户的轨迹数据进行聚类,获得至少一个聚类中心点,根据每个聚类中心点对应的用户的轨迹数据,获得用户在每个聚类中心点的轨迹分布曲线,根据每个聚类中心点的轨迹分布曲线,分别确定每个聚类中心点是否为用户的职住地。本实施例提供的用户职住地的获取方法,基于大数据技术,提升了职住地的定位精度,提升了获得的用户职住地的准确性。
图5为本发明实施例一提供的用户职住地的获取装置的结构示意图。本实施例提供的用户职住地的获取装置,用于执行图1~图4所示实施例提供的用户职住地的获取方法。如图5所示,本实施例提供的用户职住地的获取方法,可以包括:
获取模块11,用于获取预设时长内用户的轨迹数据,轨迹数据用于指示用户在不同时间所处的位置。
聚类模块12,用于利用聚类算法对用户的轨迹数据进行聚类,获得至少一个聚类中心点。
处理模块13,用于根据每个聚类中心点对应的用户的轨迹数据,获得用户在每个聚类中心点的轨迹分布曲线。
确定模块14,用于根据每个聚类中心点的轨迹分布曲线,分别确定每个聚类中心点是否为用户的职住地。
可选的,获取模块11具体用于:
通过订阅应用程序的数据,获取预设时长内用户针对应用程序的日志数据。
根据应用程序的日志数据,获取用户的轨迹数据。
可选的,应用程序包括具有定位功能的第一应用程序,第一应用程序的日志数据包括:用户标识、时间、位置和网络之间互连协议IP地址。
用户的轨迹数据包括用户针对第一应用程序的日志数据。
可选的,应用程序还包括不具有定位功能的第二应用程序,第二应用程序的日志数据包括:用户标识、时间和网络之间互连协议IP地址。
获取模块11具体用于:
根据第一应用程序的日志数据,为第二应用程序的日志数据添加位置信息。
将第一应用程序的日志数据和添加位置信息后的第二应用程序的日志数据,确定为用户的轨迹数据。
可选的,获取模块11具体用于:
若ID1=ID2且|time1-time2|≤Thres,或者,若ID1=ID2、IP1=IP2且|time1-time2|≤Thres,则在第二应用程序的日志数据中添加第一应用程序的日志数据中包括的位置。
其中,ID1、time1和IP1分别表示第一应用程序的日志数据中包括的用户标识、时间和IP地址,ID2、time2和IP2分别表示第二应用程序的日志数据中包括的用户标识、时间和IP地址,Thres表示预设阈值。
可选的,确定模块14具体用于:
若聚类中心点的轨迹分布曲线的特征符合工作地轨迹分布曲线的特征,则确定聚类中心点为用户的工作地。
若聚类中心点的轨迹分布曲线的特征符合居住地轨迹分布曲线的特征,则确定聚类中心点为用户的居住地。
可选的,轨迹分布曲线的X轴坐标的取值范围为0~24小时,Y轴坐标用于指示在预设时长内同一个位置在X轴坐标指示的时间出现的次数。
可选的,聚类算法包括DBSCAN算法。
本实施例提供的用户职住地的获取装置,用于执行图1~图4所示实施例提供的用户职住地的获取方法,技术方案和技术效果相似,此处不再赘述。
图6为本发明实施例一提供的用户职住地的获取设备的结构示意图。如图6所示,所述用户职住地的获取设备可以包括处理器21和存储器22。所述存储器22用于存储指令,所述处理器21用于执行所述存储器22中存储的指令,以使所述用户职住地的获取设备执行图1~图4所示实施例提供的用户职住地的获取方法,具体实现方式和技术效果类似,这里不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims (14)

1.一种用户职住地的获取方法,其特征在于,包括:
获取预设时长内用户的轨迹数据,所述轨迹数据用于指示所述用户在不同时间所处的位置;
利用聚类算法对所述用户的轨迹数据进行聚类,获得至少一个聚类中心点;
根据每个所述聚类中心点对应的所述用户的轨迹数据,获得所述用户在每个所述聚类中心点的轨迹分布曲线;
根据每个所述聚类中心点的轨迹分布曲线,分别确定每个所述聚类中心点是否为所述用户的职住地;
所述获取预设时长内用户的轨迹数据,包括:
通过订阅应用程序的数据,获取所述预设时长内所述用户针对所述应用程序的日志数据;
根据所述应用程序的日志数据,获取所述用户的轨迹数据;
所述应用程序包括具有定位功能的第一应用程序和不具有定位功能的第二应用程序,所述第二应用程序的日志数据包括:用户标识、时间和IP地址;
所述根据所述应用程序的日志数据,获取所述用户的轨迹数据,包括:
根据所述第一应用程序的日志数据,为所述第二应用程序的日志数据添加位置信息;
将所述第一应用程序的日志数据和添加位置信息后的所述第二应用程序的日志数据,确定为所述用户的轨迹数据。
2.根据权利要求1所述的方法,其特征在于,所述第一应用程序的日志数据包括:用户标识、时间、位置和网络之间互连协议IP地址;
所述用户的轨迹数据还包括所述用户针对所述第一应用程序的日志数据。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一应用程序的日志数据,为所述第二应用程序的日志数据添加位置信息,包括:
若ID1=ID2且|time1-time2|≤Thres,或者,若ID1=ID2、IP1=IP2且|time1-time2|≤Thres,则在所述第二应用程序的日志数据中添加所述第一应用程序的日志数据中包括的位置;
其中,ID1、time1和IP1分别表示所述第一应用程序的日志数据中包括的用户标识、时间和IP地址,ID2、time2和IP2分别表示所述第二应用程序的日志数据中包括的用户标识、时间和IP地址,Thres表示预设阈值。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述根据每个所述聚类中心点的轨迹分布曲线,分别确定每个所述聚类中心点是否为所述用户的职住地,包括:
若所述聚类中心点的轨迹分布曲线的特征符合工作地轨迹分布曲线的特征,则确定所述聚类中心点为用户的工作地;
若所述聚类中心点的轨迹分布曲线的特征符合居住地轨迹分布曲线的特征,则确定所述聚类中心点为用户的居住地。
5.根据权利要求1-3任一项所述的方法,其特征在于,所述轨迹分布曲线的X轴坐标的取值范围为0~24小时,Y轴坐标用于指示在所述预设时长内同一个位置在X轴坐标指示的时间出现的次数。
6.根据权利要求1-3任一项所述的方法,其特征在于,所述聚类算法包括基于密度的带有噪声的空间聚类DBSCAN算法。
7.一种用户职住地的获取装置,其特征在于,包括:
获取模块,用于获取预设时长内用户的轨迹数据,所述轨迹数据用于指示所述用户在不同时间所处的位置;
聚类模块,用于利用聚类算法对所述用户的轨迹数据进行聚类,获得至少一个聚类中心点;
处理模块,用于根据每个所述聚类中心点对应的所述用户的轨迹数据,获得所述用户在每个所述聚类中心点的轨迹分布曲线;
确定模块,用于根据每个所述聚类中心点的轨迹分布曲线,分别确定每个所述聚类中心点是否为所述用户的职住地;
所述获取模块具体用于:
通过订阅应用程序的数据,获取所述预设时长内所述用户针对所述应用程序的日志数据;
根据所述应用程序的日志数据,获取所述用户的轨迹数据;
所述应用程序包括具有定位功能的第一应用程序和不具有定位功能的第二应用程序,所述第二应用程序的日志数据包括:用户标识、时间和网络之间互连协议IP地址;
所述获取模块具体用于:
根据所述第一应用程序的日志数据,为所述第二应用程序的日志数据添加位置信息;
将所述第一应用程序的日志数据和添加位置信息后的所述第二应用程序的日志数据,确定为所述用户的轨迹数据。
8.根据权利要求7所述的装置,其特征在于,所述第一应用程序的日志数据包括:用户标识、时间、位置和网络之间互连协议IP地址;
所述用户的轨迹数据还包括所述用户针对所述第一应用程序的日志数据。
9.根据权利要求7所述的装置,其特征在于,所述获取模块具体用于:
若ID1=ID2且|time1-time2|≤Thres,或者,若ID1=ID2、IP1=IP2且|time1-time2|≤Thres,则在所述第二应用程序的日志数据中添加所述第一应用程序的日志数据中包括的位置;
其中,ID1、time1和IP1分别表示所述第一应用程序的日志数据中包括的用户标识、时间和IP地址,ID2、time2和IP2分别表示所述第二应用程序的日志数据中包括的用户标识、时间和IP地址,Thres表示预设阈值。
10.根据权利要求7-9任一项所述的装置,其特征在于,所述确定模块具体用于:
若所述聚类中心点的轨迹分布曲线的特征符合工作地轨迹分布曲线的特征,则确定所述聚类中心点为用户的工作地;
若所述聚类中心点的轨迹分布曲线的特征符合居住地轨迹分布曲线的特征,则确定所述聚类中心点为用户的居住地。
11.根据权利要求7-9任一项所述的装置,其特征在于,所述轨迹分布曲线的X轴坐标的取值范围为0~24小时,Y轴坐标用于指示在所述预设时长内同一个位置在X轴坐标指示的时间出现的次数。
12.根据权利要求7-9任一项所述的装置,其特征在于,所述聚类算法包括基于密度的带有噪声的空间聚类DBSCAN算法。
13.一种用户职住地的获取设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序指令;
所述处理器,用于调用所述存储器中存储的所述程序指令以实现如权利要求1-6中任一项所述的用户职住地的获取方法。
14.一种存储介质,其特征在于,包括:可读存储介质和计算机程序,所述计算机程序用于实现如权利要求1-6中任一项所述的用户职住地的获取方法。
CN201811296693.8A 2018-11-01 2018-11-01 用户职住地的获取方法和装置 Active CN111127065B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811296693.8A CN111127065B (zh) 2018-11-01 2018-11-01 用户职住地的获取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811296693.8A CN111127065B (zh) 2018-11-01 2018-11-01 用户职住地的获取方法和装置

Publications (2)

Publication Number Publication Date
CN111127065A CN111127065A (zh) 2020-05-08
CN111127065B true CN111127065B (zh) 2023-07-25

Family

ID=70494925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811296693.8A Active CN111127065B (zh) 2018-11-01 2018-11-01 用户职住地的获取方法和装置

Country Status (1)

Country Link
CN (1) CN111127065B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797181B (zh) * 2020-05-26 2023-09-05 北京城市象限科技有限公司 用户职住地的定位方法、装置、控制设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015046152A (ja) * 2013-07-31 2015-03-12 技研商事インターナショナル株式会社 行動ログ分析システム及びそのプログラム
WO2017166648A1 (zh) * 2016-03-29 2017-10-05 乐视控股(北京)有限公司 一种导航路线的生成方法和装置、设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103227821B (zh) * 2013-04-03 2015-07-01 腾讯科技(深圳)有限公司 一种目标用户位置数据的处理方法及装置
CN105847310A (zh) * 2015-01-13 2016-08-10 中国移动通信集团江苏有限公司 一种确定位置的方法及装置
CN104933157A (zh) * 2015-06-26 2015-09-23 百度在线网络技术(北京)有限公司 用于获取用户属性信息的方法、装置及服务器
CN106792514B (zh) * 2016-11-30 2020-10-30 南京华苏科技有限公司 基于信令数据的用户职住地分析方法
CN107547633B (zh) * 2017-07-27 2021-09-03 腾讯科技(深圳)有限公司 一种用户常驻点的处理方法、装置和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015046152A (ja) * 2013-07-31 2015-03-12 技研商事インターナショナル株式会社 行動ログ分析システム及びそのプログラム
WO2017166648A1 (zh) * 2016-03-29 2017-10-05 乐视控股(北京)有限公司 一种导航路线的生成方法和装置、设备

Also Published As

Publication number Publication date
CN111127065A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
US10281284B2 (en) Hybrid road network and grid based spatial-temporal indexing under missing road links
CN103902653B (zh) 一种构建数据仓库表血缘关系图的方法和装置
CN107026881B (zh) 业务数据的处理方法、装置及系统
JP2019512764A (ja) ユーザ地理的ロケーションのタイプを識別するための方法および装置
CN110716539B (zh) 一种故障诊断分析方法和装置
CN110727740B (zh) 关联分析方法及装置、计算机设备与可读介质
CN109740129B (zh) 基于区块链的报表生成方法、装置、设备及可读存储介质
CN109145225B (zh) 一种数据处理方法及装置
CN113849702B (zh) 一种确定目标数据的方法、装置、电子设备及存储介质
CN108512726B (zh) 一种数据监控的方法及设备
CN112925757A (zh) 一种追踪智能设备操作日志的方法、设备、存储介质
CN111127065B (zh) 用户职住地的获取方法和装置
US8255474B2 (en) Pruning method
CN116303901A (zh) 一种基于文本聚类的环境公告信息提取方法和装置
CN104156364B (zh) 地图搜索结果的展现方法和装置
CN111597235B (zh) 数据处理方法、装置和电子设备
CN111611337B (zh) 终端数据处理系统
CN108694219B (zh) 一种数据处理方法及装置
CN112286777A (zh) 一种pc设备参数数据质量检查方法、系统、服务器
CN114254207B (zh) 企业同名高管识别方法、装置、电子设备及存储介质
CN110517010A (zh) 一种数据处理方法、系统及存储介质
CN110825809A (zh) 一种用于药物反应信息的存储方法及设备
CN115858712B (zh) 基于改进nlp算法的地址信息映射方法、系统以及介质
CN114398378B (zh) 确定索引代价的方法和装置
CN111294840B (zh) 一种专网断点定位方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant