CN109902883B - 一种基于个性化层次核密度估计的签到位置预测方法 - Google Patents

一种基于个性化层次核密度估计的签到位置预测方法 Download PDF

Info

Publication number
CN109902883B
CN109902883B CN201910229248.8A CN201910229248A CN109902883B CN 109902883 B CN109902883 B CN 109902883B CN 201910229248 A CN201910229248 A CN 201910229248A CN 109902883 B CN109902883 B CN 109902883B
Authority
CN
China
Prior art keywords
kernel density
data
check
density estimation
estimation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910229248.8A
Other languages
English (en)
Other versions
CN109902883A (zh
Inventor
苏畅
周秋丽
谢显中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN201910229248.8A priority Critical patent/CN109902883B/zh
Publication of CN109902883A publication Critical patent/CN109902883A/zh
Application granted granted Critical
Publication of CN109902883B publication Critical patent/CN109902883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于个性化层次核密度估计的签到位置预测方法,属于数据分析技术领域。该方法包括:S1:利用提取的签到位置数据,建立基于地理空间的二元核密度估计;S2:构建自适应带宽的核密度估计,为每个数据点选择各自的带宽;S3:构建个性化的层次核密度估计;S4:利用梯度下降算法计算出参数值。本发明为用户提供了个性化的签到预测,同时,解决了签到数据太少造成的数据稀疏性问题,贴近实际生活,使得预测的结果更加的准确。

Description

一种基于个性化层次核密度估计的签到位置预测方法
技术领域
本发明属于数据分析技术领域,涉及一种基于个性化层次核密度估计的签到位置预测方法。
背景技术
随着智能终端的普及以及定位技术的发展,人们的位置信息相比以往更易获取,催生了基于位置的社交网络(LBSN)。LBSN提供与位置相关的服务,允许用户在物理位置上进行“签到”。如在Foursquare、Facebook和Gowalla等网站上用户可以选择性的签到,以此来记录自己的移动行为和相应的位置信息,还可以与其他人分享自己的位置信息。传统的手机通话记录通过信号塔来确定手机的位置还原用户的轨迹,而基于位置的社交网络为挖掘人的移动行为提供了一个新维度。在基于位置的社交网络中,人们与其他用户分享个人的位置信息,包括签到的物理位置、时间,社交关系等,产生了海量的用户移动数据,给研究用户的移动行为提供了方便。同时,使得研究人类的移动行为特性成为了人们关注的焦点。
基于地理位置社交网络的签到受到许多因素的影响。现有的技术,大多考虑时间、空间因素对用户签到位置的影响,通过高斯核函数,冥律分布,利用马尔科夫链进行建模,预测用户下一个可能的签到地点,以及通过用户与朋友签到位置的相似性进行社交关系建模并根据该模型预测用户的下一个位置。
由地理学第一定律知,位置的地理邻近性在用户签到行为中起着重要的作用。也就是说邻近位置的地理相关性要比偏远位置的相关性强。在考虑地理位置对用户签到的影响时,现有的位置预测技术没有充分考虑个性化的问题,以及没有解决数据稀疏性问题。
发明内容
有鉴于此,本发明的目的在于提供一种基于个性化层次核密度估计的签到位置预测方法,考虑用户的个性化签到问题,以及解决数据稀疏性问题。
为达到上述目的,本发明提供如下技术方案:
一种基于个性化层次核密度估计的签到位置预测方法,具体包括以下步骤:
S1:利用提取的签到位置数据,建立基于地理空间的二元核密度估计;
S2:构建自适应带宽的核密度估计,为每个数据点选择各自的带宽;
S3:构建个性化的层次核密度估计;
S4:利用梯度下降算法计算出参数值。
进一步,所述步骤S1具体包括以下步骤:
S11:从用户的签到数据中提取出签到位置数据样本,该数据样本由一系列的地理坐标L={l1,...,ln}组成,其中li,1≤i≤n每个都是一个二维的经纬度坐标(Loni,Lati),n为提取样本中的签到位置数;
S12:利用步骤S11中的经纬度坐标数据,选取固定带宽h和高斯核密度函数K(·),估计出一个二元核密度函数,得到二元核密度模型为:
Figure BDA0002006201350000021
Figure BDA0002006201350000022
Figure BDA0002006201350000023
其中,l表示待计算地点的密度,由于估计密度fKDE对带宽h的大小很敏感,h过小则会在地点处形成陡峭的峰值,h过大则会得到过于平滑的估计。所以可能会忽略掉重要的分布结构形式,如多中心模式的分布。
进一步,所述步骤S2具体为:由于核密度估计对带宽的选取很敏感,我们为每个位置的数据点提供各自的核密度带宽hi;建立自适应带宽的核密度估计。具体来说,选取li的k近邻距离作为自适应带宽hi,则自适应带宽的核密度估计为:
Figure BDA0002006201350000024
进一步,所述步骤S3具体为:由于自适应核密度模型不能实现个性化的估计,同时,考虑到数据稀疏性的问题,构建个性化的层次核密度估计为:
Figure BDA0002006201350000025
其中,βj,1≤j≤N为加权权重,N为核密度估计的种类,分别为三种不同层次的数据建立核密度估计;fKDE(l|Cj)为第j个KDE模型组件,Cj为构建这个模型的数据部分;其中每个fKDE(l|Cj)都是k近邻的自适应带宽;根据每个用户个人的签到数据建立个性化的核密度估计,同时,建立基于整体和区域的核密度估计,通过融合这三种核密度估计,得到个性化的层次核密度估计;
上式中,当j=1时,为用户个人签到数据C1的核密度;当j=2时,根据距离对地点进行初步聚类,建立类区域签到数据C2的核密度;当j=3时,则是全体数据上C3=C的核密度。
进一步,所述步骤S4具体为:在个性化层次核密度估计模型中,每个组件的核密度负责建立广泛的活动空间来平滑签到稀疏造成的估计中心化现象,利用梯度下降算法优化参数βj的凸集获得最大似然组合。
本发明的有益效果在于:本发明为用户提供了个性化的签到预测,同时,解决了签到数据太少造成的数据稀疏性问题,贴近实际生活,使得预测的结果更加的准确。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明所述预测方法的流程图;
图2为用户签到位置与用户家所在位置距离的累积分布函数(CCDF)示意图;
图3为采用本发明所述方法得到的预测结果图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
请参照图1~3,本发明提供一种基于个性化层次核密度估计的地理位置预测方法,通过对用户签到数据的空间分布分析发现,绝大多数签到发生在距离用户附近5KM以内的范围,并且随着距离的增加,签到的倾向急剧下降,因此,通过选择k近邻的自适应宽,建立多层面的核密度估计来改进空间密度模型核密度模型,从而反应用户签到的分布,进而用于预测用户的下一个签到位置。如图1所示,上述地理位置预测方法具体步骤如下:
步骤一:利用提取出的签到位置数据,建立基于地理空间的二元核密度估计;
步骤二:通过为每个数据点选择各自的带宽,构建自适应带宽的核密度估计;
步骤三:通过考虑三种核密度估计,构建个性化的层次核密度估计;
步骤四:利用梯度下降算法计算出参数的值。
步骤一中:从用户的签到数据中提取出签到位置数据样本,该数据由一系列的地理坐标L={l1,...,ln}组成。其中li,1≤i≤n每个都是一个二维的经纬度坐标(Loni,Lati)。直接利用这些提取出的经纬度坐标数据,选取固定带宽h和高斯核密度函数K(·),估计出一个二元核密度函数,得到如下的基于地理空间二元核密度模型:
Figure BDA0002006201350000041
Figure BDA0002006201350000042
Figure BDA0002006201350000043
其中,l表示待计算地点的密度,由于估计密度fKDE对带宽h的大小很敏感,h过小则会在地点处形成陡峭的峰值,h过大则会得到过于平滑的估计。所以可能会忽略掉重要的分布结构形式,如多中心模式的分布。
步骤二中:由于核密度估计对带宽的选取很敏感,我们通过选取li的k近邻距离作为自适应带宽hi,为每个位置的数据点提供各自的核密度带宽hi,建立自适应带宽的核密度估计。我们将自适应带宽的核密度估计定义为:
Figure BDA0002006201350000044
步骤三中:基于步骤二得到的自适应核密度模型,由于没有充分考虑每个用户的个性化签到,因此,不能实现个性化的估计。此外,考虑到由于用户签到数据较少造成的数据稀疏性的问题,我们建立个性化层次核密度估计模型,并将其定义为:
Figure BDA0002006201350000045
其中,βj,1≤j≤N为加权权重,N为核密度估计的种类,分别为三种不同层次的数据建立核密度估计,fKDE(l|Cj)为第j个KDE模型组件。Cj是构建这个模型的数据部分。其中每个fKDE(l|Cj)都是k近邻的自适应带宽。本发明实施例主要考虑三种核密度估计,根据每个用户个人的签到数据建立个性化的核密度估计,同时,建立基于整体和区域的核密度估计,通过融合这三种核密度估计,得到个性化的层次核密度估计。其中,当j=1时,为用户个人签到数据C1的核密度;当j=2时,依据距离把地点进行初步聚类,建立类区域签到数据C2的核密度;当j=3时,则是全体数据C3=C的核密度。
步骤四:基于步骤三得到的个性化层次核密度估计模型中,每个组件的核密度负责建立广泛的活动空间来平滑签到数据稀疏造成的估计中心化现象。最后,利用梯度下降算法优化参数βj,1≤j≤3的凸集获得最大似然组合。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (1)

1.一种基于个性化层次核密度估计的签到位置预测方法,其特征在于,该方法具体包括以下步骤:
S1:利用提取的签到位置数据,建立基于地理空间的二元核密度估计,具体包括以下步骤:
S11:从用户的签到数据中提取出签到位置数据样本,该数据样本由一系列的地理坐标L={l1,...,ln}组成,其中li,1≤i≤n每个都是一个二维的经纬度坐标(Loni,Lati),n为提取样本中的签到位置数;
S12:利用步骤S11中的经纬度坐标数据,选取固定带宽h和高斯核密度函数K(·),估计出一个二元核密度函数,得到二元核密度模型为:
Figure FDA0003822290420000011
Figure FDA0003822290420000012
Figure FDA0003822290420000013
其中,l表示待计算地点的密度;
S2:构建自适应带宽的核密度估计,为每个数据点选择各自的带宽,具体为:选取li的k近邻距离作为自适应带宽hi,则自适应带宽的核密度估计为:
Figure FDA0003822290420000014
S3:构建个性化的层次核密度估计,具体为:构建个性化的层次核密度估计为:
Figure FDA0003822290420000015
其中,βj,1≤j≤N为加权权重,N为核密度估计的种类,分别为三种不同层次的数据建立核密度估计;fKDE(l|Cj)为第j个KDE模型组件,Cj为构建这个模型的数据部分;其中每个fKDE(l|Cj)都是k近邻的自适应带宽;根据每个用户个人的签到数据建立个性化的核密度估计,同时,建立基于整体和区域的核密度估计,通过融合这三种核密度估计,得到个性化的层次核密度估计;
上式中,当j=1时,为用户个人签到数据C1的核密度;当j=2时,根据距离对地点进行初步聚类,建立类区域签到数据C2的核密度;当j=3时,则是全体数据上C3=C的核密度;
S4:利用梯度下降算法计算出参数值,具体为:在个性化层次核密度估计模型中,每个组件的核密度负责建立广泛的活动空间来平滑签到稀疏造成的估计中心化现象,利用梯度下降算法优化参数βj的凸集获得最大似然组合。
CN201910229248.8A 2019-03-25 2019-03-25 一种基于个性化层次核密度估计的签到位置预测方法 Active CN109902883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910229248.8A CN109902883B (zh) 2019-03-25 2019-03-25 一种基于个性化层次核密度估计的签到位置预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910229248.8A CN109902883B (zh) 2019-03-25 2019-03-25 一种基于个性化层次核密度估计的签到位置预测方法

Publications (2)

Publication Number Publication Date
CN109902883A CN109902883A (zh) 2019-06-18
CN109902883B true CN109902883B (zh) 2022-10-11

Family

ID=66953797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910229248.8A Active CN109902883B (zh) 2019-03-25 2019-03-25 一种基于个性化层次核密度估计的签到位置预测方法

Country Status (1)

Country Link
CN (1) CN109902883B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111310789B (zh) * 2020-01-15 2023-08-22 云南电网有限责任公司大理供电局 基于核密度估计的风电功率区间预测方法及其实现系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224545A (zh) * 2014-06-03 2016-01-06 华为技术有限公司 一种位置推荐方法及装置
CN106971345A (zh) * 2016-01-08 2017-07-21 车海莺 一种基于位置社交网络的地点推荐方法
KR20170106036A (ko) * 2016-03-11 2017-09-20 이준영 전력 소모를 최소화하는 식당 자동 체크인 시스템
CN107194011A (zh) * 2017-06-23 2017-09-22 重庆邮电大学 一种基于社交网络的位置预测系统及方法
CN107657015B (zh) * 2017-09-26 2021-03-19 北京邮电大学 一种兴趣点推荐方法、装置、电子设备及存储介质
CN108804646B (zh) * 2018-06-06 2021-05-11 重庆邮电大学 一种融合深度学习和因子分解机的兴趣点签到预测方法
CN108898244B (zh) * 2018-06-11 2021-07-20 北京工商大学 一种耦合多源要素的数字标牌位置推荐方法

Also Published As

Publication number Publication date
CN109902883A (zh) 2019-06-18

Similar Documents

Publication Publication Date Title
CN109005515B (zh) 一种基于移动轨迹信息的用户行为模式画像的方法
EP3241370B1 (en) Analyzing semantic places and related data from a plurality of location data reports
CN110414732B (zh) 一种出行未来轨迹预测方法、装置、储存介质及电子设备
Yang et al. Origin-destination estimation for non-commuting trips using location-based social networking data
Xu et al. How friends share urban space: An exploratory spatiotemporal analysis using mobile phone data
CN108829766B (zh) 一种兴趣点推荐方法、系统、设备及计算机可读存储介质
Cheng et al. Inferring friendship from check-in data of location-based social networks
CN104520881A (zh) 基于访问可能性对附近目的地排名以及从位置历史来预测对地点的未来访问
Furletti et al. Analysis of GSM calls data for understanding user mobility behavior
CN106339769B (zh) 一种面向移动社会网络的用户出行预测方法
CN109769210A (zh) 用户活动区域相似度判断方法、装置、计算机设备
Kanasugi et al. Spatiotemporal route estimation consistent with human mobility using cellular network data
CN113139140A (zh) 基于时空感知gru并结合用户关系偏好的旅游景点推荐方法
Umair et al. Discovering personal places from location traces
CN109902883B (zh) 一种基于个性化层次核密度估计的签到位置预测方法
Liu et al. Dynamic metric embedding model for point-of-interest prediction
Mamei et al. Estimating attendance from cellular network data
Shad et al. Cell oscillation resolution in mobility profile building
Xu Autonomous Indoor Localization Using Unsupervised Wi-Fi Fingerprinting
Papliatseyeu et al. Mobile habits: Inferring and predicting user activities with a location-aware smartphone
CN112738715A (zh) 一种基于GloVe模型的移动信令轨迹相关性表示方法
CN115510317A (zh) 一种云边协同的兴趣点推荐方法及装置
Al-Molegi et al. Regions-of-interest discovering and predicting in smartphone environments
CN115495661A (zh) 一种基于用户长短期偏好的自适应兴趣点推荐方法
Zhang et al. Prnet: Outdoor position recovery for heterogenous telco data by deep neural network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant