CN112579922A - 一种基于用户轨迹的兴趣点推荐方法 - Google Patents
一种基于用户轨迹的兴趣点推荐方法 Download PDFInfo
- Publication number
- CN112579922A CN112579922A CN202011552954.5A CN202011552954A CN112579922A CN 112579922 A CN112579922 A CN 112579922A CN 202011552954 A CN202011552954 A CN 202011552954A CN 112579922 A CN112579922 A CN 112579922A
- Authority
- CN
- China
- Prior art keywords
- data
- poi
- model
- interest
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Traffic Control Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于用户轨迹的兴趣点推荐方法,首先收集用户轨迹数据,并删除原始数据集中的乒乓数据和漂移数据以降低噪声数据对推荐方法准确度的影响,然后提取不同区域内的属性特征,统计POI所在位置的周边人流量数据以及上、下行人流量数据,构建训练样本集,最后联合Wide模型和Deep CNN模型设计模型Wide&Deep CNN,利用模型Wide&Deep CNN对待监测地区内待推荐的POI进行评分值的预测,本发明充分利用用户轨迹数据构建训练样本集,基于神经网络模型生成不同类型POI的评分指,进而根据评分值生成POI列表。该方法深入挖掘移动大数据中蕴藏的时空信息,分析大众的需求,更好的解决了兴趣点推荐问题。
Description
技术领域
本发明涉及兴趣点推荐技术领域,具体涉及一种基于用户轨迹的兴趣点推荐方法。
背景技术
POI是“Point of Interest”的缩写,中文可以翻译为“兴趣点”。一个POI可以是一栋房子、一个单位、一个公共设施等。人类大多数活动都与空间相关,受空间衰减效应的影响。POI对人类活动的影响也在一定程度上与空间距离密切相关。对其进行度量,可以支撑多种应用,如对于公共设施的度量可以发现其服务范围,用于规划;对于商业POI点的空间范围度量,可以用户个性化服务和广告的精准投放。兴趣点是具有地理标识的点对象,包含名称、类别和经纬度坐标等信息,是进行空间数据挖掘和分析的基础性数据。兴趣点的位置及数量对城市空间结构的构建起着至关重要的作用,如今智慧城市概念的提出,更加凸显出了在城市建设中合理规划兴趣点的重要性。此外,兴趣点还是个性化推荐、地理信息系统以及其他基于位置服务等应用中的基础性数据,是应用中必不可少的一部分。目前,兴趣点的研究工作大多数只集中在少数类型兴趣点的生成问题,极少有通用的兴趣点生成模型,因此,研究兴趣点的合理生成方法很有意义。
现如今,信息通信技术的发展和移动设备的普及为收集大规模人类移动数据提供了前所未有的机会。轨迹数据中蕴含着巨大的价值,通过对轨迹数据的分析可以挖掘出有用的信息。越来越多的学者努力通过轨迹数据理解城市动态,例如,通过轨迹数据挖掘房地产排名信息、分析区域需求分析以及零售商店的位置等。通过对轨迹数据进行深层次的挖掘可以帮助人们做出正确的决策。
发明内容
针对现有技术的不足,本发明提出一种基于用户轨迹的兴趣点推荐方法,包括以下步骤:
步骤1:将待监测地区划分为不同的区域,统计Ψ个不同区域内用户的轨迹数据,构建原始数据集;
步骤2:删除原始数据集中的乒乓数据和漂移数据,得到处理后的数据集;
步骤3:提取不同区域内的属性特征,所述属性特征包括环境特征和方位特征;
步骤4:统计每一兴趣点POI所在位置的周边人流量数据以及上、下行人流量数据;
步骤5:利用公式(1)计算所有属性特征交叉后的组合特征,
式中,Φf(x)表示与第f个属性特征交叉后的组合特征,当第j个属性特征xj与第f个属性特征交叉时cfj=1,否则cfj=0,J表示属性特征的数量;
步骤6:对上、下行人流量数据以及周边人流量数据进行预处理,将n天内统计的人流量数据处理为二维的形式如公式(2)所示,其中n≥7,所述人流量包括上、下行人流量和周边人流量;
步骤7:将第μ个区域内的属性特征、组合特征、二维形式的人流量数据以及第μ个区域内所有POI的评分值作为一组样本数据,μ=1,2,…,Ψ;
步骤8:统计Ψ个区域的样本数据构成训练样本集;
步骤9:根据公式(3)构建Wide模型,计算出每一POI所在位置的预测评分值Y;
Y=WTXL+b (3)
式中,XL表示输入的各属性特征和组合特征,WT表示模型参数,b表示Wide模型的偏置;
步骤10:构建Deep CNN模型;
步骤11:联合Wide模型和Deep CNN模型设计模型Wide&Deep CNN,利用Wide&DeepCNN模型对待监测地区内待推荐的POI进行评分值的预测。
所述步骤3包括:
步骤3.1:按照比例尺绘制将待监测地区的地图;
步骤3.2:对地图进行网络划分,使用基于隐马尔科夫的地图匹配算法,将处理后的数据集中的轨迹数据关联到地图上的所有路段;
步骤3.3:提取每一区域内的环境特征,所述环境特征包括竞争性特征、相关性特征、多样性特征;
步骤3.4:提取每一兴趣点POI所在位置的方位特征。
所述步骤3.2利用公式(4)~(6)计算地图被划分的网格总数,
countcell=countlat*countlng (6)
式中,countlat表示纬度方向上的网格总数,countlng表示经度方向上的网格总数,countcell表示所有的网格数,maxLng、minLng、maxLat、minLat表示网格边界,size表示每个网格的边长,γlat表示纬度方向上的比例尺,γlng表示经度方向上的比例尺。
所述步骤3.3包括:
所述步骤3.4包括:
步骤3.4.1:将POI所在网格以及周围的八个网络作为设定范围;
步骤3.4.2:将经过设定范围的所有路段作为候选路段;
步骤3.4.3:从所有候选路段中寻找最近路段,包括:
步骤3.4.4:将点A0相对于最近路段中心点的经度、纬度作为POI所在位置的方位特征。
所述步骤4包括:
步骤4.1:在夜间T1~T2时间段内,统计经过设定范围内的人流量,作为POI所在位置的周边人流量数据;
步骤4.2:统计最近路段上的上行人流量数据作为POI所在位置的上行人流量数据;
步骤4.3:统计最近路段上的下行人流量数据作为POI所在位置的下行人流量数据。
所述步骤10包括:
步骤10.1:根据公式(7)设计处理人流量数据的核函数,
步骤10.2:设计池化层时选择最大池化操作;
步骤10.3:采用线性模型设计全连接层,其中模型的输入为池化层的输出,模型输出为人流数据的特征挖掘信息。
所述步骤11包括:
步骤11.1:根据公式(8)设计Wide模型和Deep CNN模型联合作用的线性回归单元;
式中,XL表示输入的各属性特征,表示属性特征交叉后的组合特征,AL表示二维形式的人流量数据,WCNN[AL]表示Deep CNN模型的输出,表示Wide模型的输出,b'表示模型Wide&Deep CNN的偏置,pred(L)表示线性回归单元的输出,σ(·)表示sigmoid函数;
步骤11.2:利用逻辑回归损失函数计算POI的评分值与预测值之间的误差;
步骤11.3:采用小批量随机梯度下降法对模型Wide&Deep CNN的参数进行训练,当第τ次训练后的误差值小于等于预设的误差阈值,或者训练次数达到预设的最大迭代次数Γ时,停止训练,其中τ=1,2,…,Γ;
步骤11.4:将误差值最小时的模型参数作为最优参数,利用参数最优的模型对待监测地区内待推荐的POI进行评分值的预测。
本发明的有益效果是:
本发明提出了一种基于用户轨迹的兴趣点推荐方法,1)通过数据预处理对轨迹数据进行相应的处理,包括漂移数据的处理、乒乓数据的处理,减少噪声数据对模型准确度的影响;2)从多方位、多角度挖掘影响POI的特征,包括:环境特征、方位特征、周边人流量和上下行人流量,使得POI的特征具备较高的准确性和可解释性;3)通过基于Wide&Deep CNN模型挖掘上下行人流量数据中的周期性、趋势性等信息,智能获取兴趣点列表生成模式。
附图说明
图1为本发明中的基于用户轨迹的兴趣点推荐方法流程图;
图2为本发明中的基于用户轨迹的兴趣点推荐方法的设计原理图;
图3为本发明中的基于Wide模型和Deep CNN模型模型Wide&Deep CNN的训练示意图;
图4为本发明中的给定半径范围为1000米时不同兴趣点推荐方法得到兴趣点推荐列表的NDCG曲线图;
图5为本发明中的给定半径范围为2000米时不同兴趣点推荐方法得到兴趣点推荐列表的NDCG曲线图;
图6为本发明中的给定半径范围为3000米时不同兴趣点推荐方法得到兴趣点推荐列表的NDCG曲线图;
图7为本发明中的给定半径范围为1000米时不同兴趣点推荐方法得到兴趣点推荐列表的Precision曲线图;
图8为本发明中的给定半径范围为2000米时不同兴趣点推荐方法得到兴趣点推荐列表的Precision曲线图;
图9为本发明中的给定半径范围为3000米时不同兴趣点推荐方法得到兴趣点推荐列表的Precision曲线图;
图10为本发明中的给定半径范围为2000米时不同兴趣点推荐方法得到兴趣点推荐列表的Recall曲线图。
具体实施方式
下面结合附图和具体实施实例对发明做进一步说明。
如图2所示,基于用户轨迹的兴趣点推荐方法的设计主要包括三大部分:数据处理、特征数据提取和兴趣点评分值预测,其中,数据预处理是特征数据提取和兴趣点评分值预测的基础,其对算法准确度具有至关重要的作用,为了减少噪声数据对算法准确度的影响,本发明设计了对乒乓数据和漂移数据两类噪声数据的预处理;特征数据提取主要用于挖掘影响POI的属性特征和人流量数据,本发明挖掘的属性特征包括环境特征和方位特征,其中,环境特征包括多样性、相关性和竞争性,这三者都是由周围兴趣点的类型和数量决定,本发明挖掘的人流量数据包括周边人流量和上下行人流量;最终对不同类型的POI进行评分值的预测,进一步对评分结果进行排序并根据排序结果生成兴趣点列表。
一种基于用户轨迹的兴趣点推荐方法,如图1所示,包括如下步骤:
步骤1:将待监测地区划分为不同的区域,统计Ψ个不同区域内用户的轨迹数据,构建原始数据集;
由于本实施例中使用的轨迹数据是基于基站定位生成的,在现实情况中,随着人们的移动或者基站信号的折射、反射等,原始的基站定位数据中存在大量的乒乓数据和漂移数据,所以需要对其进行预处理,以消除对后续算法准确度的干扰。
步骤2:删除原始数据集中的乒乓数据和漂移数据,得到处理后的数据集;
为了消除乒乓数据对后续操作带来的影响,采用直接删除的方法对乒乓数据进行处理。乒乓数据是由于移动设备的信号在基站小区间来回切换产生的,即乒乓数据一般都是ABA这样的情况。
对轨迹中的乒乓数据进行形式化表示:轨迹中连续的三个位置点p1=<lon1,lat1,t1>,p2=<lon2,lat2,t2>,p3=<lon3,lat3,t3>,如果三个位置点满足1)lon1=lon3且lat1=lat3;2)lon1≠lon2或lat1≠lat2;3)△t1<T1且△t2<T1,则p2是乒乓数据。其中,△tu=tu+1-tu表示连续两位置点间的时间间隔,tu和tu+1分别为第u个和第u+1个位置点的时间。T1为连续两者间的时间阈值。表1是基站定位数据,总共有6条记录,其中,第3、4、5条记录就是ABA这样的情况,根据上述判断方法可以断定,第4条数据为乒乓数据,表1中,ID表示序号,IMSI表示国际移动用户识别码,LacID表示位置区域编号,CellID表示移动基站编号,Time表示时间。
表1基站定位数据
为了消除漂移数据对后续操作带来的影响,同样采用直接删除的方法对漂移数据进行处理。漂移数据一般具有下列特点:
(1)漂移点速度较快。因为漂移现象是移动设备的信号突然从某个基站切换到较远的基站,因此,漂移数据的速度会很大,当其超过最小漂移速度阈值时,其有可能是漂移数据。
(2)漂移点距离较远。因为漂移过程是很快的,所以一般不存在连续的漂移数据,因此可以通过轨迹点间的距离识别漂移数据。
对轨迹中的漂移数据进行形式化表示:轨迹中连续的三个位置点p1=<lon1,lat1,t1>,p2=<lon2,lat2,t2>,p3=<lon3,lat3,t3>,则可以通过公式(9)、(10)识别漂移数据:
其中,vkl为位置k与位置l间的速度,dkl表示位置k与位置l间的空间距离,m表示位置间距离的比值。
p1、p2、p3三个位置点,如果v12≥V1,m>θ,则p2是漂移点。其中,V1为速度阈值,θ为距离比阈值。
表2中的第3条记录就是漂移点。将表2基站定位数据中的LacID、CellID对应到表3中的基站经纬度计算可知,表2中的第2、3条记录中两位置点间的距离为388米,第2、4条记录中两位置点间的距离为120米。此时第3条记录中的位置点就是漂移点。
表2基站定位数据
表3基站信息表
本实施方式对数据进行预处理的算法伪代码如表4所示。
表4数据预处理算法伪代码
其中,第3~15行是乒乓数据预处理的过程,遍历轨迹Tr中的每个点Trp,将不是乒乓数据的点加入到集合Q中;第16~25行是漂移数据预处理的过程,遍历集合Q中的每个点Qp,将不是漂移点的点加入到集合中,就是经过预处理之后的轨迹数据。
在挖掘方位和上下行人流量特征时,需要找出距离其最近的路段,为了加快查找速度,可以使用网格地图的方法,在本发明中将网格中心点位置作为兴趣点的位置。
步骤3:提取不同区域内的属性特征,所述属性特征包括环境特征和方位特征,包括:
步骤3.1:按照比例尺绘制将待监测地区的地图;
网格地图一方面能确定兴趣点的位置(选取网格的中心位置),另一方面能加快特征数据的提取速度。经度上差别0.001约等于地面上距离90米,纬度上差别0.001约等于地面上距离110米。对于位置点(x0,y0),网格边界maxLng,minLng,maxLat,minLat,假定网格边长为size,则网格总数计算公式如下:
countcell=countlat*countlng
对网格数进行向上取整,countlat表示纬度方向上的网格总数,countlng表示经度方向上的网格总数。countcell是所有的网格数。
对网格gm,n进行编号,其中1≤m≤countlat,1≤n≤countlng,通过公式(6)和(7)就可以计算位置点(x0,y0)所在的网格。
其中,m和n都为整数,采用向下取整的方法。
为了方便后续地理特征的提取,为网格新增周边人流量属性以及路段属性其中,S是路段的集合。S的求解过程如下:首先,遍历G中的每一条路段,计算路段的起点和终点所在的网格,并根据这两个网格确定一个大的网格范围;然后,遍历该范围内每个网格,判断其与路段是否有交点,如果有,则说明该路段经过了此网格,否则,就是没有经过该网格;最后,将经过网格的路段都加入到集合S中。
步骤3.2:对地图进行网络划分,使用基于隐马尔科夫的地图匹配算法,将处理后的数据集中的轨迹数据关联到地图上的所有路段;
利用公式(4)~(6)计算地图被划分的网格总数,
countcell=countlat*countlng (6)
式中,countlat表示纬度方向上的网格总数,countlng表示经度方向上的网格总数,countcell表示所有的网格数,maxLng、minLng、maxLat、minLat表示网格边界,size表示每个网格的边长,γlat表示纬度方向上的比例尺,γlng表示经度方向上的比例尺。
步骤3.3:提取每一区域内的环境特征,所述环境特征包括竞争性特征、相关性特征、多样性特征,包括:
步骤3.3.1:竞争性体现在一个区域里同一种类型的POI之间存在竞争关系。以cg类型的兴趣点所在的网格中点A0为圆心、r为半径作圆形搜索区域,统计圆形搜索区域内与相同类型的兴趣点数量,作为兴趣点的竞争性特征;
步骤3.3.2:相关性体现在一个区域里不同类型的POI之间存在相互促进的关系。以cg类型的兴趣点所在的网格中点A0为圆心、r为半径作圆形搜索区域,统计圆形搜索区域内除类型cg之外的其他类型的种类数,作为兴趣点的相关性特征;
方位是POI所在位置相对于其最近路段的方位。位置l处的POI为poi,首先根据公式(6)、(7)计算它所在的网格g,然后将网格g中的路段和周围八个网格中的路段都添加到候选路段集合S中,最后从集合中找出距离poi最近的路段si,其表示为{mind(l,si),si∈S},其中d(l,si)表示位置l和路段si之间的距离。在实际情况中,位置和路段之间存在两种可能的情况,当位置和路段的两个端点形成钝角三角形时,此时两者之间的距离是位置到最近端点的距离;如果形成锐角三角形,此时两者之间的距离为位置到路段的垂点的距离。通过该种方法找到最近路段之后,然后计算位置相对最近路段中心点的方位,记为fl p,因为本实施例采用的中国辽宁沈阳的轨迹数据,所以可以根据两个位置点的经纬度判断方位,根据经度可以判断东西方位,经度大的在东侧,反之在西侧;根据纬度可以判断南北方位,纬度大的在北侧,反之在南侧。
步骤3.4:提取每一兴趣点POI所在位置的方位特征,包括:
步骤3.4.1:将POI所在网格以及周围的八个网络作为设定范围;
步骤3.4.2:将经过设定范围的所有路段作为候选路段;
步骤3.4.3:从所有候选路段中寻找最近路段,包括:
步骤3.4.4:将点A0相对于最近路段中心点的经度、纬度作为POI所在位置的方位特征。
周边人流量是POI所在位置周围一定区域范围内的人流量,本实施例中设定范围是给定位置所在网格以及其周围八个网格中的人流量。由于夜间人们都在休息,位置基本上是不变的,所以通过统计夜间1小时内的数据来测量周边人流量。位置l的周边人流量记为fl z。一般来说,周边人流量越大,表明该区域的居住人群越多,则对各种POI的需求也越多。
步骤4:统计每一兴趣点POI所在位置的周边人流量数据以及上、下行人流量数据,包括:
步骤4.1:在夜间T1~T2时间段内,统计经过设定范围内的人流量,作为POI所在位置的周边人流量数据;
步骤4.2:统计最近路段上的上行人流量数据作为POI所在位置的上行人流量数据;
步骤4.3:统计最近路段上的下行人流量数据作为POI所在位置的下行人流量数据。
上下行人流量是距离给定位置最近路段的上下行人流量。基于隐马尔科夫的地图匹配算法来求解上下行人流量。首先,根据上述讲过的方法找出距离位置最近的路段si,然后,计算该路段的上行人流量si.u、下行人流量si.d,选取每天早上7点到上午9点的轨迹数据计算上下行人流量。
本实施方法特征数据提取算法的详细描述如表5所示。
表5特征数据提取算法伪代码
其中,第1~3行是地理位置逆解析过程,大众点评中的POI数据具有该POI的名称、类型、位置和几类评分信息,但在挖掘特征信息时还需要用到POI的经纬度信息,因此,需要提前调用百度地图API使用逆解析方法获得POI的经纬度信息。第2~13行是环境特征的提取过程,为大众点评中的每个POI计算其多样性、相关性和竞争性。其中,第2~8行是计算每种POI类型ci的数量,第9~12行是计算多样性、竞争性和相关性;第14~20行是地理特征的提取过程,为大众点评中的每个POI计算其方位、周围人流量和上下行人流量信息。
为给定位置选取合适的POI类型,应当是越符合该位置的需求越好。现实生活中,有的POI的位置是合理的,有的是不合理的。显然一个位置的评分越高,说明该POI的被需求程度越高,否则被需求程度就低。如果在位置l处建立ci类型的POI获得的评分是e,那么就可以根据评分为该位置选择最合适的POI类型。由于当位置和类型给定时,环境特征和地理特征就是已知的,这里所说的地理特征是指方位特征、周围人流量和上下行人流量信息,所以对兴趣点评价是一个典型的回归问题。
本发明将根据POI的评价得分来确定给定位置的POI类型。对于给定的位置,不同类型的POI对应不同的评分,如果此位置对某种类型的POI需求很高,那么该种类型的POI评分就高,否则就低。
2016年谷歌提出Wide&Deep Learning模型,即其将线性模型和前馈神经网络结合,受此启发,提出了Wide&Deep CNN模型,即将线性模型和深度卷积神经网络结合。卷积神经网络CNN比前馈神经网络中少了大量的参数,提高了模型的训练速度,此外,由于本实施例中的人流量数据都是有具有周期性等特性的,而CNN可以充分挖掘二维数据中的信息,因此,本发明将使用Wide&Deep CNN模型(简称WDC)预测POI评分。WDC模型包括Wide模型和Deep CNN模型两个模型。其中,Wide模型是一个线性模型,该部分主要学习一维数据中的全局信息,深度卷积神经网络Deep CNN模型由多个卷积层(Convolutional Layer)、一个池化层(Pooling Layer)和一个全连接层(Fully-Connected Layer)组成,该部分主要学习二维数据中的周期性、趋势性等信息。
步骤5:为了获得更多的输入特征,引入特征交叉(Feature Crosses)来获得更多组合特征,利用公式(1)计算所有属性特征交叉后的组合特征,
式中,Φf(x)表示与第f个属性特征交叉后的组合特征,当第j个属性特征xj与第f个属性特征交叉时cfj=1,否则cfj=0,J表示属性特征的数量;
例如将POI类型和方位进行交叉组合成新的特征。在单独考虑两种特征时,可能并不能得到有意义的信息,但是当将两者组合成新的特征时,得出的结论就比较有意义;单独考虑方位和POI类型时可能就没有意义,但同时考虑两者时,表明某种类型的POI在某个方位时可能有更高或低的评分。
人流量具有三种时间特性:邻近性、周期性和趋势性。其中邻近性指时间上比较近的人流量之间相互会有影响,比如早上8点的人流量会影响早上9点的人流量;周期性是指每天的24小时的人流量都是相似的;趋势性是指受气温或者其他原因的影响,人流量的趋势会发生变化,比如,夏天时八点出门到冬天的普遍九点出门,这就会造成早高峰时间有所推迟。由于很难从一维的人流数据中挖掘出人流量时间特性,所以采用Deep CNN来挖掘二维人流数据中的信息。
周边人流量是选取每天晚上零点的人流量,由于不同日期其变化范围不大,为了节省计算资源,不对该部分进行挖掘。Deep CNN主要用于挖掘上下行人流量的信息。
步骤6:对上、下行人流量数据以及周边人流量数据进行预处理,将n天内统计的人流量数据处理为二维的形式如公式(2)所示,其中n≥7,所述人流量包括上、下行人流量和周边人流量;
步骤7:将第μ个区域内的属性特征、组合特征、二维形式的人流量数据以及第μ个区域内所有POI的评分值作为一组样本数据,μ=1,2,…,Ψ,其中POI的评分值可以从大众点评上获取;
步骤8:统计Ψ个区域的样本数据构成训练样本集;
步骤9:根据公式(3)构建Wide模型,计算出每一POI所在位置的预测评分值Y(即预测的评分);
Y=WTXL+b (3)
式中,XL=[x1,x2,...,xd]表示输入的各属性特征和组合特征,是一个d维的向量,WT表示模型参数,W=[w1,w2,...,wd],b表示Wide模型的偏置Bias;
步骤10:构建Deep CNN模型,包括:
卷积层:一个卷积层一般都是由多个卷积核组成。当输入的二维人流数据通过卷积核时会进行卷积运算。然后经过多个卷积层,最终得到多个二维的特征图。在实施例中,设定卷积核的个数为γ,γ的值可以根据实验进行调整。为了更好的处理人流量数据,本文还特别设计了适用人流量数据的卷积核,接下来将描述技术细节。
由于Deep CNN中的输入是二维数据,所以需要先将一维的人流量数据转换为二维的形式,本实施例将人流量数据根据周期进行划分。这里用向量Hp∈Rd表示第p周的人流数据,因为一周有7天,所以这里d的值取为7。
在一般的图像处理和识别时,都是直接应用卷积核进行卷积操作,但是人流量数据与图像数据信息有所不同,因此本发明专门设计处理人流量数据的核函数对人流量数据进行处理。对于特征cp+1:q+1,就可以通过数据生成。
步骤10.1:根据公式(7)设计处理人流量数据的核函数,
g2(·)是经过g1(·)函数转置操作实现的。实际上,它是通过当前行和上下行之间的差值来捕获同一时期人流量数据的波动和趋势。
通过g1(·)和g2(·)核函数之后,将两者结果进行求和,然后进行卷积操作,最后通过一个双曲正切的激活函数,得到特征值c,如下所示:
为了使c具有和原始矩阵相同的大小,这里使用了零填充。零填充就是在矩阵的边缘使用零值进行填充,这样就可以控制经过卷积操作之后的特征图的大小。
步骤10.2:设计池化层时选择最大池化操作;
池化层:CNN中的池化层的主要作用是减少参数(例如,权重)和冗余特征的数量,此外,池化层也可用于控制神经网络的收敛(例如,避免过拟合)。一般有两种池化操作:一个是最大池化,一个是平均池化。最大池化是在局部里找出一个最大值,而平均池化是局部和取均值。这里采用最大池化,即其输入是特征值c的特征图。池化层的卷积核大小为3*3,同样使用零填充。
步骤10.3:采用线性模型设计全连接层,其中模型的输入为池化层的输出,模型输出为人流数据的特征挖掘信息。
全连接层:Deep CNN中的全连接层类似于宽线性模型中的全连接层,区别是它们的神经元个数不同,该全连接层是用于挖掘数据中的主要信息,其计算公式和Wide模型中的全连接层一样。
步骤11:联合Wide模型和Deep CNN模型设计模型Wide&Deep CNN,利用模型Wide&Deep CNN对待监测地区内待推荐的POI进行评分值的预测,如图3所示,包括:
步骤11.1:根据公式(8)设计Wide模型和Deep CNN模型联合作用的线性回归单元;
式中,XL表示输入的各属性特征,表示属性特征交叉后的组合特征,AL表示二维形式的人流量数据,WCNN[AL]表示Deep CNN模型的输出,表示Wide模型的输出,b'表示模型Wide&Deep CNN的偏置,pred(L)表示线性回归单元的输出,σ(·)表示sigmoid函数;
步骤11.2:利用逻辑回归损失函数计算POI的评分值与预测值之间的误差;
步骤11.3:采用小批量随机梯度下降法对模型Wide&Deep CNN的参数进行训练,当第τ次训练后的误差值小于等于预设的误差阈值,或者训练次数达到预设的最大迭代次数Γ时,停止训练,其中τ=1,2,…,Γ;
联合训练使用小批量随机梯度下降(Mini-Batch Stochastic Optimization)同时对两部分进行梯度反向传播操作。优化方法选择带L1正则项的FTRL(Follow-the-Regularized-Leader)算法,其优化函数如下
其中,AL表示上下行人流量特征,pred是预测结果,即评分,σ(·)是sigmoid函数,xL是给定位置处特征(模型输入),b是偏差。WWide是Wide模型的参数,WCNN是CNN模型的参数。
步骤11.4:将误差值最小时的模型参数作为最优参数,利用参数最优的模型对待监测地区内待推荐的POI进行评分值的预测。
本实施方法的伪代码如表6所示。
表6兴趣点评价算法伪代码
其中,第1~2行是数据处理及训练模型的过程;第3~10行是生成兴趣点的过程,其中,首先将各POI类型以及其多样性、方位、周边人流量、上行人流量、下行人流量输入到训练好的模型中,然后获得对应的得分,将所有的得分进行排序,并生成兴趣点POI推荐列表。
本实施例使用的轨迹数据是基于中国移动的基站定位数据,基站定位数据是采用基站定位的方式获取用户的位置信息,这是一种被动式的位置信息获取方式。本文中使用的基站定位数据是辽宁省沈阳市中国移动分公司数据库中2018年6月份和平区的用户的数据,每天大概有几千万条记录。为了缩短程序运行时间,对数据集进行处理,其中,在计算周围人流量时使用每天晚上11点的数据,在计算上下行人流量时使用白天早上7点到中午13点的数据。
由于神经网络对数据比较敏感,因此,在对Wide&Deep CNN模型进行训练之前,需要先对连续型数据进行最大最小归一化(简称MAX–MIN Scaling)操作。
本实施例中,使用归一化折扣因子NDCG、精确率Precision和召回率Recall来评价本发明的质量,将本发明方法(简称UT-POI)与线性回归(简称LR)、支持向量回归(简称SVR)、决策树(简称DT)和Wide&Deep Learning(简称WDL)方法进行比较。其中,采用不同方法得到的top-N兴趣点推荐列表的归一化折损累计增益NDCG、准确率Precision、召回率Recall曲线分别如图4、图5、图6、图7、图8、图9、图10所示。
由图4、图5和图6可知,当挖掘环境特性时的半径r从2000米变为3000米时,NDCG值变小,这主要是由于范围太大,导致数据之间的关联性降低,进而导致算法的准确度变低。当r给定时,不同算法的NDCG值不同,UT_POI效果明显优于其他算法。从图7、图8和图9中可以看出,r的变化对Precision的影响和对NDCG指标的影响是类似的,在r确定时,不同算法之间的Precision为:UT-POI>WDL>SVR,DT>LR。以上已经详细的分析了r的变化对算法准确度的影响,从中可以看出r的变化对指标的影响是类似的,在r取2000米时模型准确度较高。因此,这里不再分析r对Recall指标的影响,直接选取r为2000,分析不同算法对Recall的影响,实验结果如图10所示。从图10中可以看出,由于WDL、UT-POI模型挖掘到的信息更多,因此,随着兴趣点推荐列表中兴趣点的数量N值的增加,三个模型的增幅逐渐增大,而LR、DT、SVR三个模型挖掘到的信息较少,因此,随着N值的增加,三者的变化幅度不大。
Claims (8)
1.一种基于用户轨迹的兴趣点推荐方法,其特征在于,包括如下步骤:
步骤1:将待监测地区划分为不同的区域,统计Ψ个不同区域内用户的轨迹数据,构建原始数据集;
步骤2:删除原始数据集中的乒乓数据和漂移数据,得到处理后的数据集;
步骤3:提取不同区域内的属性特征,所述属性特征包括环境特征和方位特征;
步骤4:统计每一兴趣点POI所在位置的周边人流量数据以及上、下行人流量数据;
步骤5:利用公式(1)计算所有属性特征交叉后的组合特征,
式中,Φf(x)表示与第f个属性特征交叉后的组合特征,当第j个属性特征xj与第f个属性特征交叉时cfj=1,否则cfj=0,J表示属性特征的数量;
步骤6:对上、下行人流量数据以及周边人流量数据进行预处理,将n天内统计的人流量数据处理为二维的形式如公式(2)所示,其中n≥7,所述人流量包括上、下行人流量和周边人流量;
步骤7:将第μ个区域内的属性特征、组合特征、二维形式的人流量数据以及第μ个区域内所有POI的评分值作为一组样本数据,μ=1,2,…,Ψ;
步骤8:统计Ψ个区域的样本数据构成训练样本集;
步骤9:根据公式(3)构建Wide模型,计算出每一POI所在位置的预测评分值Y;
Y=WTXL+b (3)
式中,XL表示输入的各属性特征和组合特征,WT表示模型参数,b表示Wide模型的偏置;
步骤10:构建Deep CNN模型;
步骤11:联合Wide模型和Deep CNN模型设计模型Wide&Deep CNN,利用模型Wide&DeepCNN对待监测地区内待推荐的POI进行评分值的预测。
2.根据权利要求1所述的一种基于用户轨迹的兴趣点推荐方法,其特征在于,所述步骤3包括:
步骤3.1:按照比例尺绘制将待监测地区的地图;
步骤3.2:对地图进行网络划分,使用基于隐马尔科夫的地图匹配算法,将处理后的数据集中的轨迹数据关联到地图上的所有路段;
步骤3.3:提取每一区域内的环境特征,所述环境特征包括竞争性特征、相关性特征、多样性特征;
步骤3.4:提取每一兴趣点POI所在位置的方位特征。
5.根据权利要求2所述的一种基于用户轨迹的兴趣点推荐方法,其特征在于,所述步骤3.4包括:
步骤3.4.1:将POI所在网格以及周围的八个网络作为设定范围;
步骤3.4.2:将经过设定范围的所有路段作为候选路段;
步骤3.4.3:从所有候选路段中寻找最近路段,包括:
步骤3.4.4:将点A0相对于最近路段中心点的经度、纬度作为POI所在位置的方位特征。
6.根据权利要求1所述的一种基于用户轨迹的兴趣点推荐方法,其特征在于,所述步骤4包括:
步骤4.1:在夜间T1~T2时间段内,统计经过设定范围内的人流量,作为POI所在位置的周边人流量数据;
步骤4.2:统计最近路段上的上行人流量数据作为POI所在位置的上行人流量数据;
步骤4.3:统计最近路段上的下行人流量数据作为POI所在位置的下行人流量数据。
8.根据权利要求1所述的一种基于用户轨迹的兴趣点推荐方法,其特征在于,所述步骤11包括:
步骤11.1:根据公式(8)设计Wide模型和Deep CNN模型联合作用的线性回归单元;
式中,XL表示输入的各属性特征,表示属性特征交叉后的组合特征,AL表示二维形式的人流量数据,WCNN[AL]表示Deep CNN模型的输出,表示Wide模型的输出,b'表示模型Wide&Deep CNN的偏置,pred(L)表示线性回归单元的输出,σ(·)表示sigmoid函数;
步骤11.2:利用逻辑回归损失函数计算POI的评分值与预测值之间的误差;
步骤11.3:采用小批量随机梯度下降法对模型Wide&Deep CNN的参数进行训练,当第τ次训练后的误差值小于等于预设的误差阈值,或者训练次数达到预设的最大迭代次数Γ时,停止训练,其中τ=1,2,…,Γ;
步骤11.4:将误差值最小时的模型参数作为最优参数,利用参数最优的模型对待监测地区内待推荐的POI进行评分值的预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011552954.5A CN112579922B (zh) | 2020-12-24 | 2020-12-24 | 一种基于用户轨迹的兴趣点推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011552954.5A CN112579922B (zh) | 2020-12-24 | 2020-12-24 | 一种基于用户轨迹的兴趣点推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112579922A true CN112579922A (zh) | 2021-03-30 |
CN112579922B CN112579922B (zh) | 2021-12-14 |
Family
ID=75139700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011552954.5A Active CN112579922B (zh) | 2020-12-24 | 2020-12-24 | 一种基于用户轨迹的兴趣点推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112579922B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657023A (zh) * | 2021-07-19 | 2021-11-16 | 生态环境部卫星环境应用中心 | 基于机器学习和深度学习结合的近地面臭氧浓度反演方法 |
CN114322985A (zh) * | 2021-12-24 | 2022-04-12 | 深圳依时货拉拉科技有限公司 | 电子地图推荐点展示方法、装置、设备及存储介质 |
CN115577294A (zh) * | 2022-11-22 | 2023-01-06 | 深圳市规划和自然资源数据管理中心(深圳市空间地理信息中心) | 一种基于兴趣点空间分布和语义信息的城市区域分类方法 |
CN115683142A (zh) * | 2022-10-25 | 2023-02-03 | 天津经纬恒润科技有限公司 | 一种感兴趣区域确定方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160132530A1 (en) * | 2014-11-10 | 2016-05-12 | Honda Motor Co., Ltd. | Identification of a driver's point of interest for a situated dialog system |
CN110399445A (zh) * | 2019-07-25 | 2019-11-01 | 腾讯科技(深圳)有限公司 | 一种兴趣点的处理方法、装置及设备 |
-
2020
- 2020-12-24 CN CN202011552954.5A patent/CN112579922B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160132530A1 (en) * | 2014-11-10 | 2016-05-12 | Honda Motor Co., Ltd. | Identification of a driver's point of interest for a situated dialog system |
CN110399445A (zh) * | 2019-07-25 | 2019-11-01 | 腾讯科技(深圳)有限公司 | 一种兴趣点的处理方法、装置及设备 |
Non-Patent Citations (2)
Title |
---|
HUIFENG GUO等: "DeepFM: An End-to-End Wide & Deep Learning Framework for CTR Prediction", 《IN: PROC. OF IEEE》 * |
黄立威等: "基于深度学习的推荐系统研究综述", 《计算机学报》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113657023A (zh) * | 2021-07-19 | 2021-11-16 | 生态环境部卫星环境应用中心 | 基于机器学习和深度学习结合的近地面臭氧浓度反演方法 |
CN114322985A (zh) * | 2021-12-24 | 2022-04-12 | 深圳依时货拉拉科技有限公司 | 电子地图推荐点展示方法、装置、设备及存储介质 |
CN114322985B (zh) * | 2021-12-24 | 2024-04-12 | 深圳依时货拉拉科技有限公司 | 电子地图推荐点展示方法、装置、设备及存储介质 |
CN115683142A (zh) * | 2022-10-25 | 2023-02-03 | 天津经纬恒润科技有限公司 | 一种感兴趣区域确定方法及装置 |
CN115577294A (zh) * | 2022-11-22 | 2023-01-06 | 深圳市规划和自然资源数据管理中心(深圳市空间地理信息中心) | 一种基于兴趣点空间分布和语义信息的城市区域分类方法 |
CN115577294B (zh) * | 2022-11-22 | 2023-03-24 | 深圳市规划和自然资源数据管理中心(深圳市空间地理信息中心) | 一种基于兴趣点空间分布和语义信息的城市区域分类方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112579922B (zh) | 2021-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112579922B (zh) | 一种基于用户轨迹的兴趣点推荐方法 | |
CN110570651B (zh) | 一种基于深度学习的路网交通态势预测方法及系统 | |
Soh et al. | Adaptive deep learning-based air quality prediction model using the most relevant spatial-temporal relations | |
CN110928993B (zh) | 基于深度循环神经网络的用户位置预测方法及系统 | |
CN110414732B (zh) | 一种出行未来轨迹预测方法、装置、储存介质及电子设备 | |
Jakaria et al. | Smart weather forecasting using machine learning: a case study in tennessee | |
CN106931974B (zh) | 基于移动终端gps定位数据记录计算个人通勤距离的方法 | |
Ghaemi et al. | LaSVM-based big data learning system for dynamic prediction of air pollution in Tehran | |
CN106488405B (zh) | 一种融合个体与近邻移动规律的位置预测方法 | |
WO2022217839A1 (zh) | 一种基于深度时空相似性的空气质量预测方法 | |
CN107679558A (zh) | 一种基于度量学习的用户轨迹相似性度量方法 | |
CN105045858A (zh) | 基于投票的出租车载客点推荐方法 | |
CN113139140B (zh) | 基于时空感知gru并结合用户关系偏好的旅游景点推荐方法 | |
CN110598917B (zh) | 一种基于路径轨迹的目的地预测方法、系统及存储介质 | |
CN110716935A (zh) | 基于网约车出行的轨迹数据分析与可视化方法及系统 | |
Bwambale et al. | Modelling long-distance route choice using mobile phone call detail record data: a case study of Senegal | |
CN109143408A (zh) | 基于mlp的动态区域联合短时降水预报方法 | |
CN113836808A (zh) | 一种基于重污染特征约束的pm2.5深度学习预测方法 | |
CN115034429A (zh) | 基于深度图神经网络的城市出租车接客点推荐方法 | |
Yin et al. | ADPR: An attention-based deep learning point-of-interest recommendation framework | |
CN113779113A (zh) | 基于雨洪时空过程相似性挖掘的洪水动态预估方法及系统 | |
CN116884222B (zh) | 一种卡口节点的短时交通流预测方法 | |
Zhao et al. | An objective prediction model for typhoon rainstorm using particle swarm optimization: neural network ensemble | |
Wu et al. | A flood-discharge-based spatio-temporal diffusion method for multi-target traffic hotness construction from trajectory data | |
CN115408618A (zh) | 一种基于社交关系融合位置动态流行度和地理特征的兴趣点推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |