CN111611500A - 一种基于聚类的常去地识别方法及装置、存储介质 - Google Patents
一种基于聚类的常去地识别方法及装置、存储介质 Download PDFInfo
- Publication number
- CN111611500A CN111611500A CN202010273065.9A CN202010273065A CN111611500A CN 111611500 A CN111611500 A CN 111611500A CN 202010273065 A CN202010273065 A CN 202010273065A CN 111611500 A CN111611500 A CN 111611500A
- Authority
- CN
- China
- Prior art keywords
- destination
- cluster
- coordinate
- coordinates
- destination coordinate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000005484 gravity Effects 0.000 claims description 24
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 8
- 230000000903 blocking effect Effects 0.000 description 7
- 238000007621 cluster analysis Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种基于聚类的常去地识别方法及装置、存储介质、计算机设备,该方法包括:获取用户行程数据,其中,所述用户行程数据包括目的地坐标;对所述目的地坐标进行聚类,得到至少一个目的地坐标簇,以使任一所述目的地簇中包含的目的地坐标的数量大于或等于最小数量阈值且同一所述目的地簇中的任一目的地坐标与其他目的地坐标之间的最小距离小于或等于最大距离阈值;计算每个所述目的地坐标簇的聚类中心;基于所述聚类中心,识别用户的常去地。本申请通过对特定用户的目的地坐标聚类的方式划分坐标簇,从而基于坐标簇的聚类中心确定用户常去地,所得到的常去地与用户个体更加匹配,并且解决了现有技术中区域分块粒度难以把握的问题。
Description
技术领域
本申请涉及数据分析技术领域,尤其是涉及到一种基于聚类的常去地识别方法及装置、存储介质、计算机设备。
背景技术
基于用户APP的GPS定位的数据,分析和推测用户的行为习惯、消费水平和家庭状况等,进而据此为用户提供更加个性化的服务和推荐,是目前LBS的常规应用方式。包括百度、阿里和腾讯在内的许多巨头,都在积极运用LBS类型的画像,强化客群的智能运营。在此过程中,通过处理和分析GPS打点数据识别用户的常去地点,是极其重要的一环。能准确识别客户的常去地点,对于改善用户画像的精准度,提升业务侧在用户运营方面的效率和满意度,都有非常积极的作用。
在传统的用户常去地点识别方法中,一般需要先对单个用户的GPS打点区域进行分块,统计各块内GPS坐标点数量并据此对分块排序,然后取TOPn的块作为用户常去的n个地点块,最后再取块内中心点作为用户常去点坐标。
传统方法存在明显不足,结果准确性也相当有限:首先,对不同用户的打点区域分块的粒度难以把握,过细则导致常去地一点多分的情况;过大则容易导致无法区分较近的多个常去地点。其次,分块边界容易对GPS打点数据造成分割,且对于边界附近坐标点的归属问题也没有很可靠解决方案,例如,高频打点的用户在常去地的打点数据非常容易被分块边界影响,导致一个常去地点的GPS打点数据被分割至多个分块,进而造成一点多分。
发明内容
有鉴于此,本申请提供了一种基于聚类的常去地识别方法及装置、存储介质、计算机设备,得到的常去地与用户个体更加匹配,并且解决了现有技术中区域分块粒度难以把握的问题。
根据本申请的一个方面,提供了一种基于聚类的常去地识别方法,包括:
获取用户行程数据,其中,所述用户行程数据包括目的地坐标;
对所述目的地坐标进行聚类,得到至少一个目的地坐标簇,以使任一所述目的地簇中包含的目的地坐标的数量大于或等于最小数量阈值且同一所述目的地簇中的任一目的地坐标与其他目的地坐标之间的最小距离小于或等于最大距离阈值;
计算每个所述目的地坐标簇的聚类中心;
基于所述聚类中心,识别用户的常去地。
具体地,所述对所述目的地坐标进行聚类,得到至少一个目的地坐标簇,具体包括:
步骤1,利用全部所述目的地坐标建立目的地坐标集合D,并将所述目的地坐标集合中的每个所述目的地坐标标记为未被访问;
步骤2,选取一个未被访问的所述目的地坐标p,并将所选取的所述目的地坐标p标记为已被访问;
步骤3,从所述目的地坐标集合中获取所述目的地坐标p的邻域目的地坐标,并统计所述邻域目的地坐标中的所述目的地坐标的数量,其中,所述邻域目的地坐标与所述目的地坐标p之间距离可达;
步骤4,若所述数量小于所述最小数量阈值,则将所述目的地坐标p标记为噪声点;
步骤5,若所述数量大于或等于所述最小数量阈值,则根据所述目的地坐标p及其所述邻域目的地坐标建立候选集合N;
步骤6,建立所述目的地坐标p的目的地坐标簇C,并将所述候选集合N中未被访问的所述目的地坐标加入所述目的地坐标簇C中;
步骤7,重复上述步骤2至步骤6,直至所述目的地坐标集合D中不包括未被访问的目的地坐标。
具体地,所述计算每个所述目的地坐标簇的聚类中心,具体包括:
计算任一所述目的地坐标簇中的目的地坐标的平均值,将所述平均值作为所述目的地坐标簇的聚类中心。
具体地,所述基于所述聚类中心,识别用户的常去地,具体包括:
统计任一所述目的地坐标簇中包含的所述目的地坐标数据的数量;
计算任一所述目的地坐标簇的目的地坐标的数量占所述目的地坐标总数量的第一比重;
按照所述第一比重以及第一最小比重阈值和/或第一预设常去地数量,从所述聚类中心中识别出常去地坐标。
具体地,所述基于所述聚类中心,识别用户的常去地之后,所述方法还包括:
输出所述常去地坐标及其对应的所述第一比重。
具体地,所述用户行程数据还包括与所述目的地坐标对应的停留时间;所述对所述目的地坐标进行聚类,得到至少一个目的地坐标簇,具体包括:
获取停留时间大于或等于最小停留时间阈值的目标目的地坐标;
对所述目标目的地坐标进行聚类,得到至少一个所述目的地坐标簇。
具体地,所述基于所述聚类中心,识别用户的常去地,具体包括:
统计任一所述目的地坐标簇中包含的所述目的地坐标对应的停留时间之和;
计算任一所述目的地坐标簇对应的停留时间之和占所述目标目的地坐标对应的停留时间总和的第二比重;
按照所述第二比重以及第二最小比重阈值和/或第二预设常去地数量,从所述聚类中心中识别出常去地坐标。
根据本申请的另一方面,提供了一种基于聚类的常去地识别装置,包括:
行程数据获取模块,用于获取用户行程数据,其中,所述用户行程数据包括目的地坐标;
目的地聚类模块,用于对所述目的地坐标进行聚类,得到至少一个目的地坐标簇,以使任一所述目的地簇中包含的目的地坐标的数量大于或等于最小数量阈值且同一所述目的地簇中的任一目的地坐标与其他目的地坐标之间的最小距离小于或等于最大距离阈值;
聚类中心计算模块,用于计算每个所述目的地坐标簇的聚类中心;
常去地识别模块,用于基于所述聚类中心,识别用户的常去地。
具体地,所述目的地聚类模块,具体包括:
坐标集合建立单元,用于执行步骤1,利用全部所述目的地坐标建立目的地坐标集合D,并将所述目的地坐标集合中的每个所述目的地坐标标记为未被访问;
坐标选取单元,用于执行步骤2,选取一个未被访问的所述目的地坐标p,并将所选取的所述目的地坐标p标记为已被访问;
邻域坐标获取单元,用于执行步骤3,从所述目的地坐标集合中获取所述目的地坐标p的邻域目的地坐标,并统计所述邻域目的地坐标中的所述目的地坐标的数量,其中,所述邻域目的地坐标与所述目的地坐标p之间距离可达;
噪声点标记单元,用于执行步骤4,若所述数量小于所述最小数量阈值,则将所述目的地坐标p标记为噪声点;
候选集合建立单元,用于执行步骤5,若所述数量大于或等于所述最小数量阈值,则根据所述目的地坐标p及其所述邻域目的地坐标建立候选集合N;
坐标簇建立单元,用于执行步骤6,建立所述目的地坐标p的目的地坐标簇C,并将所述候选集合N中未被访问的所述目的地坐标加入所述目的地坐标簇C中;
聚类单元,用于执行步骤7,重复上述步骤2至步骤6,直至所述目的地坐标集合D中不包括未被访问的目的地坐标。
具体地,所述聚类中心计算模块,具体用于计算任一所述目的地坐标簇中的目的地坐标的平均值,将所述平均值作为所述目的地坐标簇的聚类中心。
具体地,所述常去地识别模块,具体包括:
数量统计单元,用于统计任一所述目的地坐标簇中包含的所述目的地坐标数据的数量;
第一比重计算单元,用于计算任一所述目的地坐标簇的目的地坐标的数量占所述目的地坐标总数量的第一比重;
第一识别单元,用于按照所述第一比重以及第一最小比重阈值和/或第一预设常去地数量,从所述聚类中心中识别出常去地坐标。
具体地,所述装置还包括:
常去地输出模块,用于基于所述聚类中心,识别用户的常去地之后,输出所述常去地坐标及其对应的所述第一比重。
具体地,所述用户行程数据还包括与所述目的地坐标对应的停留时间;所述目的地聚类模块,具体用于:
获取停留时间大于或等于最小停留时间阈值的目标目的地坐标;以及
对所述目标目的地坐标进行聚类,得到至少一个所述目的地坐标簇。
具体地,所述常去地识别模块,具体包括:
时间统计单元,用于统计任一所述目的地坐标簇中包含的所述目的地坐标对应的停留时间之和;
第二比重计算单元,用于计算任一所述目的地坐标簇对应的停留时间之和占所述目标目的地坐标对应的停留时间总和的第二比重;
第二识别单元,用于按照所述第二比重以及第二最小比重阈值和/或第二预设常去地数量,从所述聚类中心中识别出常去地坐标。
依据本申请又一个方面,提供了一种存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述基于聚类的常去地识别方法。
依据本申请再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述基于聚类的常去地识别方法。
借由上述技术方案,本申请提供的一种基于聚类的常去地识别方法及装置、存储介质、计算机设备,依据用户行程数据中包含的目的地坐标,进行聚类分析,将目的地坐标划分为目的地坐标簇,使得每个目的地坐标簇中包含不小于最小数量阈值的目的地坐标,并且同一个目的地坐标簇之间的目的地坐标是可达的,从而保证聚类分析粒度不会过细也不会过粗,而后,分别求解每个目的地坐标簇的聚类中心,进而从聚类中心中识别出用户的常去地。本申请实施例与现有技术中基于地图进行区域分块,进而统计各块内的目的地坐标数量确定用户常去地的方法来说,通过对特定用户的目的地坐标聚类的方式划分坐标簇,从而基于坐标簇的聚类中心确定用户常去地,所得到的常去地与用户个体更加匹配,并且解决了现有技术中区域分块粒度难以把握的问题。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种基于聚类的常去地识别方法的流程示意图;
图2示出了本申请实施例提供的另一种基于聚类的常去地识别方法的流程示意图;
图3示出了本申请实施例提供的一种目的地坐标的聚类方法的流程示意图;
图4示出了本申请实施例提供的又一种基于聚类的常去地识别方法的流程示意图;
图5示出了本申请实施例提供的一种基于聚类的常去地识别装置的结构示意图;
图6示出了本申请实施例提供的另一种基于聚类的常去地识别装置的结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本实施例中提供了一种基于聚类的常去地识别方法,如图1所示,该方法包括:
步骤101,获取用户行程数据,其中,用户行程数据包括目的地坐标。
在本申请实施例中,用户行程数据可以通过日常生活中使用的移动电子设备中的应用来获取,例如用户对电子地图软件的使用数据或通过其他应用收集到的用户轨迹数据等等,用户行程数据中包含用户出行时经过、停留的目的地坐标。
步骤102,对目的地坐标进行聚类,得到至少一个目的地坐标簇,以使任一目的地簇中包含的目的地坐标的数量大于或等于最小数量阈值且同一目的地簇中的任一目的地坐标与其他目的地坐标之间的最小距离小于或等于最大距离阈值。
在上述实施例中,利用用户行程数据中包含的目的地坐标进行聚类,对用户的常去地进行统计、归纳,将用户行程数据对应的目的地进行常去地区域分块,将目的地坐标数据划分为至少一个目的地坐标簇,以使每个目的地坐标簇对应于一个地点,以便后续基于簇来确定用户的常去地,具体的目的地坐标簇划分应遵循以下规则:第一,每个目的地坐标簇中的目的地坐标数量大于或等于最小数量阈值;第二,同一个目的地坐标簇中的任意一个目的地坐标与其他的任意一个目的地坐标之间是可达的。这里所说的目的地坐标之间可达是指,通过一个目的地坐标簇中的任意一个目的地坐标A可以到达其他任意一个目的地坐标B,并且从A到B途径的目的地坐标中,相邻的两个目的地坐标之间的距离小于或等于最大距离阈值,其中,A至B可以是直达的,即A至B的距离小于或等于最大距离阈值,A至B也可以是可达的,即A至B的距离大于最大距离阈值,但是从A开始可以途径其他目的地坐标到达B,例如A-C-D-B,只要A与C、C与D、D与B之间的距离均小于或等于最大距离阈值即可。
在上述的簇划分规则中,规则一可以保证聚类过程的区域分块粒度不至于过细,避免导致常去地一点多分的情况,而规则二可以保证聚类过程的区域分块粒度不至于过粗,避免导致无法准确区分距离较近的多个常去地。
步骤103,计算每个目的地坐标簇的聚类中心。
步骤104,基于聚类中心,识别用户的常去地。
在上述实施例中,根据步骤102中得到的目的地坐标簇计算相应的聚类中心,其中,每个目的地坐标簇对应于一个用户的常去区域,计算该区域的聚类中心后,就可以用每个坐标簇对应的聚类中心来表示这个常去区域,最后,得到每个目的地坐标簇的聚类中心后,就可以对聚类中心进行筛选,从中识别出用户的常去地。
当然,也可以直接将每个目的地坐标簇对应的聚类中心作为用户的常去地,这是因为在步骤102的聚类过程中,规则一保证了每个目的地坐标簇的坐标最小数量,也就是说,通过上述方式得到的目的地坐标簇本身就已经不是用户偶尔去一次、两次的区域,只有用户多次经过、停留的区域才可能被划分为一个簇。但是,如果需要进一步按照用户的行程次数或其他条件进行常去地筛选,则可以基于聚类中心,再结合其他的筛选规则对用户的常去地进行详细的识别。
通过应用本实施例的技术方案,依据用户行程数据中包含的目的地坐标,进行聚类分析,将目的地坐标划分为目的地坐标簇,使得每个目的地坐标簇中包含不小于最小数量阈值的目的地坐标,并且同一个目的地坐标簇之间的目的地坐标是可达的,从而保证聚类分析粒度不会过细也不会过粗,而后,分别求解每个目的地坐标簇的聚类中心,进而从聚类中心中识别出用户的常去地。本申请实施例与现有技术中基于地图进行区域分块,进而统计各块内的目的地坐标数量确定用户常去地的方法来说,通过对特定用户的目的地坐标聚类的方式划分坐标簇,从而基于坐标簇的聚类中心确定用户常去地,所得到的常去地与用户个体更加匹配,并且解决了现有技术中区域分块粒度难以把握的问题。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,提供了另一种基于聚类的常去地识别方法,如图2所示,该方法包括:
步骤201,获取用户行程数据,其中,用户行程数据包括目的地坐标。
步骤202,对目的地坐标进行聚类,得到至少一个目的地坐标簇,以使任一目的地簇中包含的目的地坐标的数量大于或等于最小数量阈值且同一目的地簇中的任一目的地坐标与其他目的地坐标之间的最小距离小于或等于最大距离阈值。
在本申请实施例步骤202中,图3示出了本申请实施例提供的一种目的地坐标的聚类方法的流程示意图,该方法包括:
步骤301,利用全部目的地坐标建立目的地坐标集合D,并将目的地坐标集合中的每个目的地坐标标记为未被访问;
步骤302,选取一个未被访问的目的地坐标p,并将所选取的目的地坐标p标记为已被访问;
步骤303,从目的地坐标集合中获取目的地坐标p的邻域目的地坐标,并统计邻域目的地坐标中的目的地坐标的数量,其中,邻域目的地坐标与目的地坐标p之间距离可达;
步骤304,若数量小于最小数量阈值,则将目的地坐标p标记为噪声点;
步骤305,若数量大于或等于最小数量阈值,则根据目的地坐标p及其邻域目的地坐标建立候选集合N;
步骤306,建立目的地坐标p的目的地坐标簇C,并将候选集合N中未被访问的目的地坐标加入目的地坐标簇C中;
步骤307,重复上述步骤302至步骤306,直至目的地坐标集合D中不包括未被访问的目的地坐标。
在上述实施例的聚类方法中,采用DBSCAN密度聚类算法,在进行聚类之前应先确定两个阈值,其一为每个簇的最小样本数量阈值,即上述的最小数量阈值,其二为每个簇中的样本之间的邻域距离,即上述的最大距离阈值。
在具体聚类流程中,首先,利用用户的行程数据中全部的目的地坐标构建一个目的地坐标集合D,并将目的地坐标集合D中的所有坐标数据标记为未被访问;
其次,随机从目的地坐标集合D中选取一个未被访问的目的地坐标p,从目的地集合D中找出所有与目的地坐标p之间的距离小于或等于最大距离阈值的未被访问的目的地坐标q,而后继续基于每个目的地坐标q在目的地坐标集合D中找出所有与q之间的距离小于或等于最大距离阈值的目的地坐标t,以此类推,直至目的地坐标集合D中不存在与目的地坐标p、q、t……之间的距离小于或等于最大距离阈值的目的地坐标为止,这里的目的地坐标q、t……被称为目的地坐标p的邻域目的地坐标;
然后,计算目的地坐标p的邻域目的地坐标的数量,如果数量大于或等于最小数量阈值,说明坐标p及其邻域目的地坐标应是用户经常去的地方,该坐标簇中包含的坐标数量较多,因此可以构成一个坐标簇,则先将目的地坐标p以及其邻域目的地坐标建立成一个候选集合N,以便从候选集合N中选出目的地坐标p的坐标簇中应包含的坐标,接着,基于目的地坐标p建立一个新的坐标簇C,并迭代的将候选集合N中不属于其他簇的坐标加入到新的坐标簇C中,即把候选集合N中标记为未被访问的目的地坐标加入坐标簇C中,从而解决边界坐标点的归属问题,直到坐标簇C不再扩大,候选集合N中不再包含未被访问的坐标为止,此时坐标簇C完成聚类。另外,如果目的地坐标p的邻域目的地坐标的数量小于最小数量阈值,说明坐标p可能是用户偶尔经过的地方,不属于用户的常去地,则将这个目的地坐标p标记为噪声点,在进行聚类分析时,不将这个坐标点划分到任何一个簇中,以避免聚类粒度过细导致的常去地误识别。
最后,得到一个目的地坐标簇以后,可以继续按照上述的方式重新选定目的地坐标s,并重复上述步骤,直到目的地坐标集合D中不包含未被访问的目的地坐标为止,完成对目的地坐标集合D的聚类。
步骤203,计算任一目的地坐标簇中的目的地坐标的平均值,将平均值作为目的地坐标簇的聚类中心。
在上述实施例中,通过分别计算每个目的地坐标簇中的目的地坐标平均值的方式求解每个簇对应的聚类中心,例如某个簇中包含2个目的地坐标,分别为(1,2),(2,1),则聚类中心为((1+2)/2,(2+1)/2)=(1.5,1.5)。
步骤204,统计任一目的地坐标簇中包含的目的地坐标数据的数量;
步骤205,计算任一目的地坐标簇的目的地坐标的数量占目的地坐标总数量的第一比重;
步骤206,按照第一比重以及第一最小比重阈值和/或第一预设常去地数量,从聚类中心中识别出常去地坐标。
步骤207,输出常去地坐标及其对应的第一比重。
在上述步骤204至步骤207中,由于每个目的地坐标簇的聚类中心只能反映出每个常去地点的坐标,无法反映出某个常去地点相比于其他常去地点的区别,因此为了更加精准、合理的识别出用户的常去地,在本实施例中,通过统计每个坐标簇中目的地坐标数量的方式来确定用户的出行偏好,具体来说,首先,分别计算每个目的地坐标簇中目的地坐标的数量,其次,计算每个簇中坐标数量相对于用户行程数据中全部目的地坐标的总数量的占比,得到第一比重,然后,可以基于该占比即第一比重从多个聚类中心中识别出最终的用户常去地坐标,例如设置第一最小比重阈值,如果第一比重大于或等于第一最小比重阈值,则将相应的聚类中心识别为常去地坐标,再例如设置第一预设常去地数量,按照第一比重从大到小的顺序排列聚类中心,并从中选取与第一预设常去地数量相应数量的聚类中心作为常去地坐标,当然,也可以选取既满足第一最小比重阈值又满足第一预设常去地数量的聚类中心作为常去地坐标。进而,对常去地坐标进行识别后,还可以输出该常去地及其对应的第一比重,从而实现目的地推荐等目的。
进一步的,作为上述实施例具体实施方式的细化和扩展,为了完整说明本实施例的具体实施过程,提供了又一种基于聚类的常去地识别方法,如图4所示,该方法包括:
步骤401,获取用户行程数据,其中,用户行程数据包括目的地坐标。
步骤402,获取停留时间大于或等于最小停留时间阈值的目标目的地坐标。
步骤403,对目标目的地坐标进行聚类,得到至少一个目的地坐标簇,以使任一目的地簇中包含的目的地坐标的数量大于或等于最小数量阈值且同一目的地簇中的任一目的地坐标与其他目的地坐标之间的最小距离小于或等于最大距离阈值。
步骤404,计算任一目的地坐标簇中的目的地坐标的平均值,将平均值作为目的地坐标簇的聚类中心。
步骤405,统计任一目的地坐标簇中包含的目的地坐标对应的停留时间之和。
步骤406,计算任一目的地坐标簇对应的停留时间之和占目标目的地坐标对应的停留时间总和的第二比重。
步骤407,按照第二比重以及第二最小比重阈值和/或第二预设常去地数量,从聚类中心中识别出常去地坐标。
步骤408,输出常去地坐标及其对应的第二比重。
在如图3所示的实施例中,与如图2所示的实施例不同的是,用户行程数据还包括每个目的地坐标对应的停留时间,比如,可以根据用户定位联网类型、是否有基站切换等信息来挖掘出用户行程数据中的停留点,包括停留点的位置坐标、用户在停留点的出现时间、停留时间等。在进行目的地坐标聚类之前,应先对目的地坐标进行筛选,如步骤302所示,从目的地坐标中筛选出停留时间大于或等于预设的最小停留时间阈值的目标目的地坐标,将停留时间较短的坐标筛除掉,以排除用户只是快速路过不做停留的坐标对聚类分析产生干扰,进而基于这些目标目的地坐标进行聚类分析。
进一步的,在步骤305至步骤308中,提出了一种基于停留时间对用户常去地进行识别的方法。具体来说,首先,分别统计每个目的地坐标簇中的目的地坐标停留时间之和,其次,计算每个簇对应的停留时间之和相对于全部的目的地坐标停留时间总和的占比,得到第二比重,然后,可以基于该第二比重从多个聚类中心中识别出最终的用户常去地坐标,例如,设置第二最小比重阈值,如果第二比重大于或等于第二最小比重阈值,则将相应的聚类中心识别为常去地坐标,再例如设置第二预设常去地数量,按照第二比重从大到小的顺序排列聚类中心,并从中选取与第二预设常去地数量相应数量的聚类中更新作为常去地坐标,当然,也可以选取既满足第二最小比重阈值又满足第二预设常去地数量的聚类中心作为常去地坐标。与图2所示实施例相似的,对常去地坐标进行识别后,还可以输出该常去地及其对应的第一比重,从而实现目的地推荐等目的。
进一步的,作为图1方法的具体实现,本申请实施例提供了一种基于聚类的常去地识别装置,如图5所示,该装置包括:行程数据获取模块51、目的地聚类模块52、聚类中心计算模块53、常去地识别模块54。
行程数据获取模块51,用于获取用户行程数据,其中,用户行程数据包括目的地坐标;
目的地聚类模块52,用于对目的地坐标进行聚类,得到至少一个目的地坐标簇,以使任一目的地簇中包含的目的地坐标的数量大于或等于最小数量阈值且同一目的地簇中的任一目的地坐标与其他目的地坐标之间的最小距离小于或等于最大距离阈值;
聚类中心计算模块53,用于计算每个目的地坐标簇的聚类中心;
常去地识别模块54,用于基于聚类中心,识别用户的常去地。
在具体的应用场景中,如图6所示,目的地聚类模块52,具体包括:坐标集合建立单元521、坐标选取单元522、邻域坐标获取单元523、噪声点标记单元524、候选集合建立单元525、坐标簇建立单元526、聚类单元527。
坐标集合建立单元521,用于执行步骤1,利用全部目的地坐标建立目的地坐标集合D,并将目的地坐标集合中的每个目的地坐标标记为未被访问;
坐标选取单元522,用于执行步骤2,选取一个未被访问的目的地坐标p,并将所选取的目的地坐标p标记为已被访问;
邻域坐标获取单元523,用于执行步骤3,从目的地坐标集合中获取目的地坐标p的邻域目的地坐标,并统计邻域目的地坐标中的目的地坐标的数量,其中,邻域目的地坐标与目的地坐标p之间距离可达;
噪声点标记单元524,用于执行步骤4,若数量小于最小数量阈值,则将目的地坐标p标记为噪声点;
候选集合建立单元525,用于执行步骤5,若数量大于或等于最小数量阈值,则根据目的地坐标p及其邻域目的地坐标建立候选集合N;
坐标簇建立单元526,用于执行步骤6,建立目的地坐标p的目的地坐标簇C,并将候选集合N中未被访问的目的地坐标加入目的地坐标簇C中;
聚类单元527,用于执行步骤7,重复上述步骤2至步骤6,直至目的地坐标集合D中不包括未被访问的目的地坐标。
在具体的应用场景中,如图6所示,聚类中心计算模块53,具体用于:计算任一目的地坐标簇中的目的地坐标的平均值,将平均值作为目的地坐标簇的聚类中心。
在具体的应用场景中,如图6所示,常去地识别模块54,具体包括:数量统计单元541、第一比重计算单元542、第一识别单元543。
数量统计单元541,用于统计任一目的地坐标簇中包含的目的地坐标数据的数量;
第一比重计算单元542,用于计算任一目的地坐标簇的目的地坐标的数量占目的地坐标总数量的第一比重;
第一识别单元543,用于按照第一比重以及第一最小比重阈值和/或第一预设常去地数量,从聚类中心中识别出常去地坐标。
在具体的应用场景中,如图6所示,该装置还包括:常去地输出模块55。
常去地输出模块55,用于基于聚类中心,识别用户的常去地之后,输出常去地坐标及其对应的第一比重。
在具体的应用场景中,如图6所示,用户行程数据还包括与目的地坐标对应的停留时间;目的地聚类模块52,具体用于:获取停留时间大于或等于最小停留时间阈值的目标目的地坐标;以及对目标目的地坐标进行聚类,得到至少一个目的地坐标簇。
在具体的应用场景中,如图6所示,常去地识别模块54,具体包括:时间统计单元544、第二比重计算单元545、第二识别单元546。
时间统计单元544,用于统计任一目的地坐标簇中包含的目的地坐标对应的停留时间之和;
第二比重计算单元545,用于计算任一目的地坐标簇对应的停留时间之和占目标目的地坐标对应的停留时间总和的第二比重;
第二识别单元546,用于按照第二比重以及第二最小比重阈值和/或第二预设常去地数量,从聚类中心中识别出常去地坐标。
需要说明的是,本申请实施例提供的一种基于聚类的常去地识别装置所涉及各功能单元的其他相应描述,可以参考图1至图4中的对应描述,在此不再赘述。
基于上述如图1至图4所示方法,相应的,本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1至图4所示的基于聚类的常去地识别方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1至图4所示的方法,以及图5、图6所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该计算机设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1和图2所示的基于聚类的常去地识别方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的一种计算机设备结构并不构成对该计算机设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理和保存计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现依据用户行程数据中包含的目的地坐标,进行聚类分析,将目的地坐标划分为目的地坐标簇,使得每个目的地坐标簇中包含不小于最小数量阈值的目的地坐标,并且同一个目的地坐标簇之间的目的地坐标是可达的,从而保证聚类分析粒度不会过细也不会过粗,而后,分别求解每个目的地坐标簇的聚类中心,进而从聚类中心中识别出用户的常去地。本申请实施例与现有技术中基于地图进行区域分块,进而统计各块内的目的地坐标数量确定用户常去地的方法来说,通过对特定用户的目的地坐标聚类的方式划分坐标簇,从而基于坐标簇的聚类中心确定用户常去地,所得到的常去地与用户个体更加匹配,并且解决了现有技术中区域分块粒度难以把握的问题。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (10)
1.一种基于聚类的常去地识别方法,其特征在于,包括:
获取用户行程数据,其中,所述用户行程数据包括目的地坐标;
对所述目的地坐标进行聚类,得到至少一个目的地坐标簇,以使任一所述目的地簇中包含的目的地坐标的数量大于或等于最小数量阈值且同一所述目的地簇中的任一目的地坐标与其他目的地坐标之间的最小距离小于或等于最大距离阈值;
计算每个所述目的地坐标簇的聚类中心;
基于所述聚类中心,识别用户的常去地。
2.根据权利要求1所述的方法,其特征在于,所述对所述目的地坐标进行聚类,得到至少一个目的地坐标簇,具体包括:
步骤1,利用全部所述目的地坐标建立目的地坐标集合D,并将所述目的地坐标集合中的每个所述目的地坐标标记为未被访问;
步骤2,选取一个未被访问的所述目的地坐标p,并将所选取的所述目的地坐标p标记为已被访问;
步骤3,从所述目的地坐标集合中获取所述目的地坐标p的邻域目的地坐标,并统计所述邻域目的地坐标中的所述目的地坐标的数量;
步骤4,若所述数量小于所述最小数量阈值,则将所述目的地坐标p标记为噪声点;
步骤5,若所述数量大于或等于所述最小数量阈值,则根据所述目的地坐标p及其所述邻域目的地坐标建立候选集合N;
步骤6,建立所述目的地坐标p的目的地坐标簇C,并将所述候选集合N中未被访问的所述目的地坐标加入所述目的地坐标簇C中;
步骤7,重复上述步骤2至步骤6,直至所述目的地坐标集合D中不包括未被访问的目的地坐标。
3.根据权利要求2所述的方法,其特征在于,所述计算每个所述目的地坐标簇的聚类中心,具体包括:
计算任一所述目的地坐标簇中的目的地坐标的平均值,将所述平均值作为所述目的地坐标簇的聚类中心。
4.根据权利要求3所述的方法,其特征在于,所述基于所述聚类中心,识别用户的常去地,具体包括:
统计任一所述目的地坐标簇中包含的所述目的地坐标数据的数量;
计算任一所述目的地坐标簇的目的地坐标的数量占所述目的地坐标总数量的第一比重;
按照所述第一比重以及第一最小比重阈值和/或第一预设常去地数量,从所述聚类中心中识别出常去地坐标。
5.根据权利要求4所述的方法,其特征在于,所述基于所述聚类中心,识别用户的常去地之后,所述方法还包括:
输出所述常去地坐标及其对应的所述第一比重。
6.根据权利要求1所述的方法,其特征在于,所述用户行程数据还包括与所述目的地坐标对应的停留时间;所述对所述目的地坐标进行聚类,得到至少一个目的地坐标簇,具体包括:
获取停留时间大于或等于最小停留时间阈值的目标目的地坐标;
对所述目标目的地坐标进行聚类,得到至少一个所述目的地坐标簇。
7.根据权利要求6所述的方法,其特征在于,所述基于所述聚类中心,识别用户的常去地,具体包括:
统计任一所述目的地坐标簇中包含的所述目的地坐标对应的停留时间之和;
计算任一所述目的地坐标簇对应的停留时间之和占所述目标目的地坐标对应的停留时间总和的第二比重;
按照所述第二比重以及第二最小比重阈值和/或第二预设常去地数量,从所述聚类中心中识别出常去地坐标。
8.一种基于聚类的常去地识别装置,其特征在于,包括:
行程数据获取模块,用于获取用户行程数据,其中,所述用户行程数据包括目的地坐标;
目的地聚类模块,用于对所述目的地坐标进行聚类,得到至少一个目的地坐标簇,以使任一所述目的地簇中包含的目的地坐标的数量大于或等于最小数量阈值且同一所述目的地簇中的任一目的地坐标与其他目的地坐标之间的最小距离小于或等于最大距离阈值;
聚类中心计算模块,用于计算每个所述目的地坐标簇的聚类中心;
常去地识别模块,用于基于所述聚类中心,识别用户的常去地。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至7中任一项所述的基于聚类的常去地识别方法。
10.一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7中任一项所述的基于聚类的常去地识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010273065.9A CN111611500A (zh) | 2020-04-09 | 2020-04-09 | 一种基于聚类的常去地识别方法及装置、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010273065.9A CN111611500A (zh) | 2020-04-09 | 2020-04-09 | 一种基于聚类的常去地识别方法及装置、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111611500A true CN111611500A (zh) | 2020-09-01 |
Family
ID=72205464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010273065.9A Pending CN111611500A (zh) | 2020-04-09 | 2020-04-09 | 一种基于聚类的常去地识别方法及装置、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111611500A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112468546A (zh) * | 2020-11-12 | 2021-03-09 | 北京锐安科技有限公司 | 账号位置确定方法、装置、服务器和存储介质 |
CN112800165A (zh) * | 2021-04-06 | 2021-05-14 | 北京智源人工智能研究院 | 一种基于聚类算法的产业集群定位方法、装置及电子设备 |
CN114445053A (zh) * | 2022-04-11 | 2022-05-06 | 江西水利职业学院(江西省水利水电学校、江西省灌溉排水发展中心、江西省水利工程技师学院) | 一种智慧校园数据处理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446157A (zh) * | 2016-09-22 | 2017-02-22 | 北京百度网讯科技有限公司 | 行程目的地推荐方法和装置 |
CN108763538A (zh) * | 2018-05-31 | 2018-11-06 | 北京嘀嘀无限科技发展有限公司 | 一种确定兴趣点poi地理位置的方法及装置 |
CN109636020A (zh) * | 2018-11-30 | 2019-04-16 | 广州亚美信息科技有限公司 | 一种预测目的地地址的方法及系统 |
CN110544132A (zh) * | 2019-09-06 | 2019-12-06 | 上海喜马拉雅科技有限公司 | 用户常活动位置的确定方法、装置、设备和存储介质 |
-
2020
- 2020-04-09 CN CN202010273065.9A patent/CN111611500A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446157A (zh) * | 2016-09-22 | 2017-02-22 | 北京百度网讯科技有限公司 | 行程目的地推荐方法和装置 |
CN108763538A (zh) * | 2018-05-31 | 2018-11-06 | 北京嘀嘀无限科技发展有限公司 | 一种确定兴趣点poi地理位置的方法及装置 |
CN109636020A (zh) * | 2018-11-30 | 2019-04-16 | 广州亚美信息科技有限公司 | 一种预测目的地地址的方法及系统 |
CN110544132A (zh) * | 2019-09-06 | 2019-12-06 | 上海喜马拉雅科技有限公司 | 用户常活动位置的确定方法、装置、设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
唐西胜,齐智平,孔力: "《电力储能技术及应用》", 31 January 2020, 北京:机械工业出版社, pages: 102 - 103 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112468546A (zh) * | 2020-11-12 | 2021-03-09 | 北京锐安科技有限公司 | 账号位置确定方法、装置、服务器和存储介质 |
CN112468546B (zh) * | 2020-11-12 | 2023-11-24 | 北京锐安科技有限公司 | 账号位置确定方法、装置、服务器和存储介质 |
CN112800165A (zh) * | 2021-04-06 | 2021-05-14 | 北京智源人工智能研究院 | 一种基于聚类算法的产业集群定位方法、装置及电子设备 |
CN114445053A (zh) * | 2022-04-11 | 2022-05-06 | 江西水利职业学院(江西省水利水电学校、江西省灌溉排水发展中心、江西省水利工程技师学院) | 一种智慧校园数据处理方法及系统 |
CN114445053B (zh) * | 2022-04-11 | 2022-07-01 | 江西水利职业学院(江西省水利水电学校、江西省灌溉排水发展中心、江西省水利工程技师学院) | 一种智慧校园数据处理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102089026B1 (ko) | 사용자 관계의 식별 방법, 장치, 저장 매체 및 서버 | |
Wang et al. | Understanding travellers’ preferences for different types of trip destination based on mobile internet usage data | |
CN111611500A (zh) | 一种基于聚类的常去地识别方法及装置、存储介质 | |
CN107798557A (zh) | 电子装置、基于lbs数据的服务场所推荐方法及存储介质 | |
JP7407209B2 (ja) | 情報プッシュ方法及び装置 | |
JP5525835B2 (ja) | Poi推薦サーバおよびpoi推薦システム | |
US8830909B1 (en) | Methods and systems to determine user relationships, events and spaces using wireless fingerprints | |
CN105744526A (zh) | 一种判别伪基站的处理方法和电子设备 | |
CN110298687B (zh) | 一种区域吸引力评估方法及设备 | |
CN109447103B (zh) | 一种基于硬聚类算法的大数据分类方法、装置及设备 | |
CN111954175B (zh) | 一种兴趣点到访判别方法和相关装置 | |
CN108876440B (zh) | 区域划分方法和服务器 | |
JP6097774B2 (ja) | 匿名化処理方法、匿名化処理プログラム、及び匿名化処理装置 | |
EP2495696A1 (en) | Management server, population information calculation management server, zero population distribution area management method, and population information calculation method | |
JP2013250883A (ja) | 情報処理装置、情報処理方法およびプログラム | |
CN111078818A (zh) | 地址分析方法、装置、电子设备及存储介质 | |
CN112506972A (zh) | 用户常驻区域定位方法、装置、电子设备以及存储介质 | |
CN111475746B (zh) | 兴趣点位置挖掘方法、装置、计算机设备和存储介质 | |
CN111757464A (zh) | 一种区域轮廓提取方法及装置 | |
CN107133689B (zh) | 一种位置标记方法 | |
CN111611992A (zh) | 确定兴趣面的方法、装置和计算机设备 | |
WO2020095480A1 (ja) | 人口分布集計装置 | |
CN109040744B (zh) | 预测视频业务的关键质量指标的方法、装置及存储介质 | |
US9986382B1 (en) | Method and apparatus for determining relationship between points of interest | |
Alhazzani et al. | Urban Attractors: Discovering patterns in regions of attraction in cities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |