CN110471997A - 一种基于手机使用数据的个性化地点推荐方法 - Google Patents
一种基于手机使用数据的个性化地点推荐方法 Download PDFInfo
- Publication number
- CN110471997A CN110471997A CN201910590291.7A CN201910590291A CN110471997A CN 110471997 A CN110471997 A CN 110471997A CN 201910590291 A CN201910590291 A CN 201910590291A CN 110471997 A CN110471997 A CN 110471997A
- Authority
- CN
- China
- Prior art keywords
- user
- feature
- place
- access
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012512 characterization method Methods 0.000 claims abstract description 15
- 230000033001 locomotion Effects 0.000 claims abstract description 14
- 238000004891 communication Methods 0.000 claims abstract description 13
- 238000012549 training Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 13
- 230000001133 acceleration Effects 0.000 claims description 10
- 239000000284 extract Substances 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000001413 cellular effect Effects 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 5
- 230000005611 electricity Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 4
- 238000003825 pressing Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 230000002123 temporal effect Effects 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 2
- 238000003064 k means clustering Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 230000004044 response Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims 1
- 238000005303 weighing Methods 0.000 claims 1
- 238000010276 construction Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 206010034719 Personality change Diseases 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/14—Travel agencies
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Remote Sensing (AREA)
- Mobile Radio Communication Systems (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于手机使用数据的个性化地点推荐方法。首先对用户的地点访问记录数据进行预处理,获得候选地点及相应的地点标签;然后分别提取App使用、多媒体、通讯和网络、通话和短信、系统状态和运动状态等手机使用特征,用户的性别和年龄等人口统计学特征,以及平均停留时间和周末访问频率等地点特征;最后通过基于二阶因子分解机的推荐模型,为新用户预测候选地点的访问次数,从而实现个性化地点推荐。本发明利用手机使用数据进行个性化地点推荐,有效解决了用户冷启动问题,在路线规划和旅游景点推荐等基于位置的服务领域具有广阔的应用空间。
Description
技术领域
本发明涉及个性化地点推荐领域,具体涉及一种基于手机使用数据的个性化地点推荐方法。
背景技术
随着移动互联网的迅猛发展,越来越多的用户热衷于在社交网络平台上分享他们去过的地点,并与其他用户交流互动。因此,挖掘用户的地点访问偏好进而向用户推荐其潜在感兴趣的地点成为了业界关注的热点,相应技术在路线规划和旅游景点推荐等基于位置的服务领域具有广阔的应用前景。
根据在推荐过程中是否考虑用户个体偏好的差异,地点推荐可分为非个性化地点推荐和个性化地点推荐。非个性化地点推荐通常根据大众人群的喜好,基于全局的流行程度对地点进行排名,如获得当地过去一周的热门地点榜单直接向用户进行推荐。然而,这类方法忽视了用户个体差异可能产生的不同偏好,对每一个用户推荐的地点均是相同的,而大众人群的喜好并不一定适用于所有用户个体。
个性化地点推荐考虑了用户个体差异所产生的不同偏好,以用户为中心,为每一个用户推荐其潜在感兴趣的、最相关的地点。这类方法通常利用基于位置的社交网络平台中的用户地点访问历史数据(如签到数据)来挖掘不同用户的地点访问偏好,进而实现个性化地点推荐。然而,这类方法不可避免地会存在用户冷启动问题。由于新用户没有任何地点访问历史数据,难以挖掘其地点访问偏好,因此这类方法对于新用户无法工作。针对这一问题,现有方法尝试引入其它外部信息(如用户的人口统计学信息)来刻画用户。然而,由于缺乏丰富的细粒度用户信息,这类方法难以取得良好的个性化推荐效果。
此外,随着智能手机的广泛普及,用户在日常使用手机的过程中产生了大量的日志数据,包括App使用、无线网络信号、通话和短信、系统设置和加速度传感器数据等。这些丰富的手机使用数据包含用户的地点访问历史和日常手机使用习惯信息,体现了不同用户的行为特点。然而,现有方法忽略了这一足以充分刻画用户的重要信息。
发明内容
本发明要解决的技术问题是如何有效利用手机使用数据,挖掘用户地点访问偏好,提出一种基于手机使用数据的个性化地点推荐方法。
本发明的技术方案为:
一种基于手机使用数据的个性化地点推荐方法,包括候选地点推荐模型构建阶段和个性化地点推荐阶段,其中:
候选地点推荐模型构建阶段包括:
步骤1-1,输入所有用户的基本信息和地点访问记录集合;
步骤1-2,利用DBSCAN算法分别对每一个用户的所有地点访问记录数据进行聚类,获得每一个用户访问的地点集合,并确定用户的“家”和“工作场所或学校”个性化语义标签;
步骤1-3,利用DBSCAN算法对所有用户访问的地点进行聚类,发现不同用户共同访问的公共地点,生成候选地点集合并确定每个候选地点的非个性化语义标签;
步骤1-4,提取用户的手机使用特征fphone,具体包括提取App使用特征fa、多媒体特征fm、通讯和网络特征fn、通话和短信特征fc、系统状态特征fs和运动状态特征fo;
步骤1-5,提取用户的人口统计学特征fuser,具体包括提取用户的性别特征fg、年龄特征fe、工作状况特征fw和收入特征fi;
步骤1-6,提取地点特征flocation,具体包括提取地点的标签特征fl、平均停留时间特征ft、周末访问频率特征fr和分段访问频率特征ff;
步骤1-7,根据手机使用特征fphone、人口统计学特征fuser以及地点特征flocation构建用户及其历史所访问的每一个地点的特征向量xpos,并统计相应地点的访问次数ypos,根据特征向量xpos和对应的访问次数ypos构建正样本训练数据集Dpos;
步骤1-8,从每个用户的未访问地点中随机采样s个地点作为用户的负样本,构造用户和每一个负样本地点的特征向量xneg,并将相应地点的访问次数yneg置为0,根据特征向量xneg和访问次数yneg构建负样本训练数据集Dneg;
步骤1-9,利用二阶因子分解机构建候选地点推荐模型,将正样本训练数据集Dpos和负样本训练数据集Dneg输入候选地点推荐模型中进行训练,获得训练好的候选地点推荐模型;
个性化地点推荐阶段包括:
步骤2-1,同步骤1-4和步骤1-5,提取新用户的手机使用特征f′phone和人口统计学特征f′user;
步骤2-2,为新用户和每一个候选地点构造相应的特征向量xtest;
步骤2-3,将步骤2-2中的特征向量xtest输入训练好的基于二阶因子分解机的候选地点推荐模型,预测每一个候选地点的访问次数ytest;
步骤2-4,对步骤2-3中的候选地点的访问次数预测结果ytest进行降序排序,为新用户推荐排序列表中的前N个地点。
本发明利用用户的手机使用数据来挖掘用户地点访问偏好,实现个性化地点推荐。与现有方法相比,其优点在于:
1)提出基于手机使用数据的个性化地点推荐方法,引入大量的用户手机使用数据来刻画用户,解决了用户冷启动问题。
2)利用用户手机使用数据提取App使用、多媒体、通讯和网络、通话和短信、系统状态和运动状态等六类手机使用特征,充分挖掘用户的地点访问偏好。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是基于手机使用数据的个性化地点推荐方法的流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
如图1所示,本实施例提供的基于手机使用数据的个性化地点推荐方法,包括两个阶段,分别为候选地点推荐模型构建阶段和个性化地点推荐阶段。
候选地点推荐模型构建阶段
本阶段主要构建候选地点推荐模型,具体包括以下步骤:
步骤1-1,输入所有用户的基本信息和地点访问记录集合。
每个用户的基本信息包含性别、年龄、工作状况和平均月收入等人口统计学数据。每条地点访问记录可表示为vt=(u,llon,llat,tsta,tend,ue),其中u表示用户,llon和llat表示地点的经纬度坐标,tsta和tend表示地点访问的开始时间和结束时间,ue为在地点访问期间从用户手机上获取的各类手机使用数据,包括App使用,音乐、视频和照片等多媒体资源,蓝牙、无线网络和蜂窝网络信号,通话和短信记录,手机电量、内存容量、情景模式和响铃模式等系统状态,以及加速度传感器所反映的用户运动状态等信息。
步骤1-2,利用DBSCAN(Density-Based Spatial Clustering of Applicationswith Noise)算法分别对每一个用户的所有地点访问记录数据进行聚类,获得每一个用户访问的地点集合,并确定用户的“家”和“工作场所或学校”等个性化语义标签。
针对每一个用户的所有地点访问记录,分别利用DBSCAN算法进行聚类,将聚类结果得到的每一个簇内的地点视为同一地点,获得每一个用户访问的地点集合,然后,根据用户地点访问的时间特性,从每一个用户访问的地点集合中确定个性化语义标签,即“家”和“工作场所或学校”。
步骤1-3,利用DBSCAN算法对所有用户访问的地点进行聚类,发现不同用户共同访问的公共地点,生成候选地点集合并确定每个候选地点的非个性化语义标签。
首先,对每一个用户访问的地点集合中的“家”和“工作场所或学校”两个地点进行过滤;然后,用DBSCAN算法对其余所有地点进行聚类,将聚类结果得到的每一个簇内,不同用户访问的地点视为同一地点,即不同用户共同访问的公共地点,该公共地点组成候选地点集合;最后,将每个候选地点的经纬度坐标与在线地图服务中的兴趣点(POI)语义标签一一对齐,从而获得每个候选地点的非个性化语义标签,具体包括:交通相关场所、室外运动场所、室内运动场所、餐馆或酒吧、商场或购物中心和旅游景点等。
步骤1-4,提取用户的手机使用特征fphone,具体包括提取App使用特征fa、多媒体特征fm、通讯和网络特征fn、通话和短信特征fc、系统状态特征fs和运动状态特征fo。
步骤1-4具体包括:
a)提取用户的App使用特征fa:首先,统计在所有用户中使用频率最高的50个App并按k=1,2,...,50进行编号;然后,统计用户在每一次地点访问记录中上述50个App的使用次数,所有手机App启动次数nstarted和关闭次数mclosed;最后,对上述统计特征归一化并按不同地点标签归类,对用户在同一地点标签的特征均值化处理,并将不同地点标签的特征进行拼接得到最终用户的App使用特征fa。
b)提取用户的多媒体特征fm:首先,统计用户在每一次地点访问记录中,手机上音乐、视频和照片的使用情况,具体包括:播放音乐数nmusic、播放音乐总时长tmusic_tot、平均播放时长tmusic_ave、最短播放时长tmusic_min和最长播放时长tmusic_max,以及播放视频的平均大小smp4_ave和浏览照片的平均大小sjpg_ave;其次,对上述统计特征归一化并按不同地点标签归类,对用户在同一地点标签的特征均值化处理,并将不同地点标签的特征进行拼接得到最终用户的多媒体特征fm。
c)提取用户的通讯和网络特征fn:首先,统计用户在每一次地点访问记录中,手机上蓝牙、无线网络和蜂窝网络信号的使用情况,具体包括:扫描到的蓝牙设备数nbluetooth、扫描到的无线网络设备数nwifi,以及蜂窝网络信号强度的均值sgsm_ave、方差sgsm_std、最大值sgsm_max和最小值sgsm_min;其次,对上述统计特征归一化并按不同地点标签归类,对用户在同一地点标签的特征均值化处理,并将不同地点标签的特征进行拼接得到最终用户的通讯和网络特征fn。
d)提取用户的通话和短信特征fc:首先,统计用户在每一次地点访问记录中,手机上通话和短信的使用情况,具体包括:接听电话数ncall_in、拨打电话数ncall_out、未接来电数nmissed_call、接听电话持续时长tcall_out、拨打电话持续时长tcall_in、接收短信数nmsg_in和发送短信数nmsg_out;其次,对上述统计特征归一化并按不同地点标签归类,对用户在同一地点标签的特征均值化处理,并将不同地点标签的特征进行拼接得到最终用户的通话和短信特征fc。
e)提取用户的系统状态特征fs:首先,统计用户在每一次地点访问记录中,手机上电量、内存容量、情景模式和响铃模式的使用情况,具体包括:待机最长持续时长tidle_max、平均电量scharge_ave、平均内存容量sram_ave、七种不同情景模式的出现比例rprofile_k,其中k=1,2,...,7,分别为通用(General)、无声(Silent)、会议(Meeting)、户外(Outdoor)、寻呼机(Pager)、离线(Offfline)和自定义(Customized),以及五种不同响铃模式的出现比例rring_k,其中k=1,2,...,5,分别为通用(General)、上升(Ascending)、响铃一次(Ringonce)、震动(Beep)和无声(Silent);其次,对上述统计特征归一化并按不同地点标签归类,对用户在同一地点标签的特征均值化处理,并将不同地点标签的特征进行拼接得到最终用户的系统状态特征fs。
f)提取用户的运动状态特征fo:统计加速度传感器所反映出的用户运动状态特征,首先,针对所有地点访问记录中的三轴加速度数据,按时间窗口长度为2秒进行划分,其中重合窗口为1秒,对每一个时间窗口的加速度数据提取均值、方差、标准差、均方根、平均绝对偏差和四分位差时域特征;其次,基于所提取的时域特征,利用k-means聚类算法对所有的加速度时间窗口数据进行聚类,并将聚类结果得到的每一个簇视为一种简单活动类型,统计用户在每一次地点访问记录中的简单活动类型分布特征;最后,对用户在同一地点标签的特征均值化处理,并将不同地点标签的特征进行拼接得到最终用户的运动状态特征fo。
步骤1-5,提取用户的人口统计学特征fuser,具体包括提取用户的性别特征fg、年龄特征fe、工作状况特征fw和收入特征fi。
步骤1-5具体包括:
a)提取用户的性别特征fg:统计每一个用户的性别信息,利用独热编码的方法构造性别特征例如,若用户为“男性”,则其性别特征fg=[1,0];若为“女性”,则其性别特征fg=[0,1]。
b)提取用户的年龄特征fe:统计每一个用户的年龄信息,按不同年龄段将年龄分成8个组(如表1所示),并利用独热编码的方法构造年龄特征例如,若用户年龄为22岁,则其年龄特征fe=[0,0,1,0,0,0,0,0]。
表1年龄段
c)提取用户的工作状况特征fw:统计每一个用户的工作状况信息,将收集到的工作状况分成8种不同类型(如表2所示),并利用独热编码的方法构造工作状况特征例如,若用户为“全日制学生”,则其工作状况特征fw=[0,0,0,1,0,0,0,0]。
表2工作状况
d)提取用户的收入特征fi:统计每一个用户的平均月收入信息,将收集到的平均月收入数据按不同收入等级分成5个组(如表3所示),并利用独热编码的方法构造收入特征例如,若用户平均月收入为800元,则其收入特征fi=[1,0,0,0,0]。
表3平均月收入
步骤1-6,提取地点特征flocation,具体包括提取地点的标签特征fl、平均停留时间特征ft、周末访问频率特征fr和分段访问频率特征ff。
步骤1-6具体包括:
a)提取地点的标签特征fl:根据步骤1-3确定的每一个地点的非个性化语义标签(如表4所示),利用独热编码的方法构造地点的标签特征例如,若地点标签为“旅游景点”,则其标签特征fl=[0,0,0,0,0,1]。
表4地点标签
b)提取地点的平均停留时间特征ft:统计每一个地点被所有用户访问的平均停留时间并进行归一化,获得相应地点的平均停留时间特征ft。
c)提取地点的周末访问频率特征fr:统计每一个地点的周末访问次数和工作日访问次数并进行归一化,最后将周末访问次数与工作日访问次数的比值作为周末访问频率特征fr。
d)提取地点的分段访问频率特征ff:在不同时间段下,分别统计每一个地点的访问频率特征。首先,按每两个小时为一个时间段,将一天24小时分成12个时间间隔,如凌晨0时至凌晨2时为第一个时间间隔,凌晨2时至凌晨4时为第二个时间间隔,依此类推。其次,按工作日和周末分别统计12个时间间隔内每一个地点的访问次数并进行归一化,将其作为相应地点的分段访问频率特征
步骤1-7,根据手机使用特征fphone、人口统计学特征fuser以及地点特征flocation构建用户及其历史所访问的每一个地点的特征向量xpos,并统计相应地点的访问次数ypos。
根据提取的手机使用特征fphone=[fa,fm,fn,fc,fs,fo]、人口统计学特征fuser=[fg,fe,fw,fi]和地点特征flocation=[fl,ft,fr,ff],为每一个用户及其历史所访问的每一个地点构造特征向量xpos=[fuser,fphone,flocation_pos],并从用户的地点访问历史数据中统计相应地点的访问次数最终获得所有含正样本的正样本训练数据集
步骤1-8,从每个用户的未访问地点中随机采样s个地点作为用户的负样本,构造用户和每一个负样本地点的特征向量xneg,并将相应地点的访问次数yneg置为0。
通过随机采样的方法,从每一个用户未访问的地点中筛选出s个地点作为用户的负样本。同步骤1-7,为所有具有地点访问历史数据的用户,构造用户和每一个负样本地点的特征向量xneg=[fuser,fphone,flocation_neg],并将相应地点的访问次数设置为yneg=0,最终获得所有含负样本的负样本训练数据集
步骤1-9,利用二阶因子分解机构建候选地点推荐模型,将正样本训练数据集Dpos和负样本训练数据集Dneg输入候选地点推荐模型中进行训练。
二阶因子分解机建模如式(1)和(2)所示:
其中,wi表示第i维特征的权重;<vi,vj>表示两个k维向量vi和vj的点积,反映了特征xi和xj两两之间的交叉关系;k则表示矩阵分解的维度。
将步骤1-7和步骤1-8中的正样本训练数据集Dpos和负样本训练数据集Dneg合并,获得完整训练数据集D=Dpos∪Dneg,输入候选地点推荐模型中进行训练。
个性化地点推荐阶段
本阶段主要是利用构建好的候选地点推荐模型对新用户进行个性化地点推荐,具体包括以下过程:
步骤2-1,同步骤1-4和步骤1-5,提取新用户的手机使用特征f′phone和人口统计学特征f′user。
为每一个新用户提取App使用特征、多媒体特征、通讯和网络特征、通话和短信特征、系统状态特征和运动状态特征等手机使用特征f′phone=[f′a,f′m,f′n,f′c,f′s,f′o],以及性别、年龄、工作状况和收入等人口统计学特征f′user=[f′g,f′e,f′w,f′i]。
步骤2-2,为新用户和每一个候选地点构造相应的特征向量xtest。
将新用户和每一个候选地点进行组合,构造相应的特征向量xtest=[f′user,f′phone,flocation]。
步骤2-3,将步骤2-2中的特征向量xtest输入训练好的基于二阶因子分解机的候选地点推荐模型,预测每一个候选地点的访问次数ytest。
步骤2-4,对步骤2-3中的候选地点的访问次数预测结果ytest进行降序排序,为新用户推荐排序列表中的前N个地点。
上述个性化地点推荐方法,引入大量的用户手机使用数据来刻画用户,解决了用户冷启动问题,同时利用用户手机使用数据提取App使用、多媒体、通讯和网络、通话和短信、系统状态和运动状态等六类手机使用特征,充分挖掘用户的地点访问偏好。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于手机使用数据的个性化地点推荐方法,包括候选地点推荐模型构建阶段和个性化地点推荐阶段,其中:
候选地点推荐模型构建阶段包括:
步骤1-1,输入所有用户的基本信息和地点访问记录集合;
步骤1-2,利用DBSCAN算法分别对每一个用户的所有地点访问记录数据进行聚类,获得每一个用户访问的地点集合,并确定用户的“家”和“工作场所或学校”个性化语义标签;
步骤1-3,利用DBSCAN算法对所有用户访问的地点进行聚类,发现不同用户共同访问的公共地点,生成候选地点集合并确定每个候选地点的非个性化语义标签;
步骤1-4,提取用户的手机使用特征fphone,具体包括提取App使用特征fa、多媒体特征fm、通讯和网络特征fn、通话和短信特征fc、系统状态特征fs和运动状态特征fo;
步骤1-5,提取用户的人口统计学特征fuser,具体包括提取用户的性别特征fg、年龄特征fe、工作状况特征fw和收入特征fi;
步骤1-6,提取地点特征flocation,具体包括提取地点的标签特征fl、平均停留时间特征ft、周末访问频率特征fr和分段访问频率特征ff;
步骤1-7,根据手机使用特征fphone、人口统计学特征fuser以及地点特征f1ocation构建用户及其历史所访问的每一个地点的特征向量xpos,并统计相应地点的访问次数ypos,根据特征向量xpos和对应的访问次数ypos构建正样本训练数据集Dpos;
步骤1-8,从每个用户的未访问地点中随机采样s个地点作为用户的负样本,构造用户和每一个负样本地点的特征向量xneg,并将相应地点的访问次数yneg置为0,根据特征向量xneg和访问次数yneg构建负样本训练数据集Dneg;
步骤1-9,利用二阶因子分解机构建候选地点推荐模型,将正样本训练数据集Dpos和负样本训练数据集Dneg输入候选地点推荐模型中进行训练,获得训练好的候选地点推荐模型;
个性化地点推荐阶段包括:
步骤2-1,同步骤1-4和步骤1-5,提取新用户的手机使用特征f′phone和人口统计学特征f′user;
步骤2-2,为新用户和每一个候选地点构造相应的特征向量xtest;
步骤2-3,将步骤2-2中的特征向量xtest输入训练好的基于二阶因子分解机的候选地点推荐模型,预测每一个候选地点的访问次数ytest;
步骤2-4,对步骤2-3中的候选地点的访问次数预测结果ytest进行降序排序,为新用户推荐排序列表中的前N个地点。
2.如权利要求1所述的基于手机使用数据的个性化地点推荐方法,其特征在于,步骤1-2中,针对每一个用户的所有地点访问记录,分别利用DBSCAN算法进行聚类,将聚类结果得到的每一个簇内的地点视为同一地点,获得每一个用户访问的地点集合,然后,根据用户地点访问的时间特性,从每一个用户访问的地点集合中确定个性化语义标签,即“家”和“工作场所或学校”。
3.如权利要求1所述的基于手机使用数据的个性化地点推荐方法,其特征在于,步骤1-3中,
首先,对每一个用户访问的地点集合中的“家”和“工作场所或学校”两个地点进行过滤;
然后,用DBSCAN算法对其余所有地点进行聚类,将聚类结果得到的每一个簇内,不同用户访问的地点视为同一地点,即不同用户共同访问的公共地点,该公共地点组成候选地点集合;
最后,将每个候选地点的经纬度坐标与在线地图服务中的兴趣点(POI)语义标签一一对齐,从而获得每个候选地点的非个性化语义标签,具体包括:交通相关场所、室外运动场所、室内运动场所、餐馆或酒吧、商场或购物中心和旅游景点。
4.如权利要求1所述的基于手机使用数据的个性化地点推荐方法,其特征在于,步骤1-4具体包括:
a)提取用户的App使用特征fa:首先,统计在所有用户中使用频率最高的50个App并按k=1,2,...,50进行编号;然后,统计用户在每一次地点访问记录中上述50个App的使用次数,所有手机App启动次数nstarted和关闭次数nclosed;最后,对上述统计特征归一化并按不同地点标签归类,对用户在同一地点标签的特征均值化处理,并将不同地点标签的特征进行拼接得到最终用户的App使用特征fa;
b)提取用户的多媒体特征fm:首先,统计用户在每一次地点访问记录中,手机上音乐、视频和照片的使用情况,具体包括:播放音乐数nmusic、播放音乐总时长tmusic_tot、平均播放时长tmusic_ave、最短播放时长tmusic_min和最长播放时长tmusic_max,以及播放视频的平均大小smp4_ave和浏览照片的平均大小sjpg_ave;其次,对上述统计特征归一化并按不同地点标签归类,对用户在同一地点标签的特征均值化处理,并将不同地点标签的特征进行拼接得到最终用户的多媒体特征fm;
c)提取用户的通讯和网络特征fn:首先,统计用户在每一次地点访问记录中,手机上蓝牙、无线网络和蜂窝网络信号的使用情况,具体包括:扫描到的蓝牙设备数nbluetooth、扫描到的无线网络设备数nwifi,以及蜂窝网络信号强度的均值sgsm_ave、方差sgsm_std、最大值sgsm_max和最小值sgsm_min;其次,对上述统计特征归一化并按不同地点标签归类,对用户在同一地点标签的特征均值化处理,并将不同地点标签的特征进行拼接得到最终用户的通讯和网络特征fn;
d)提取用户的通话和短信特征fc:首先,统计用户在每一次地点访问记录中,手机上通话和短信的使用情况,具体包括:接听电话数ncall_in、拨打电话数ncall_out、未接来电数nmissed_call、接听电话持续时长tcall_out、拨打电话持续时长tcall_in、接收短信数nmsg_in和发送短信数nmsg_out;其次,对上述统计特征归一化并按不同地点标签归类,对用户在同一地点标签的特征均值化处理,并将不同地点标签的特征进行拼接得到最终用户的通话和短信特征fc;
e)提取用户的系统状态特征fs:首先,统计用户在每一次地点访问记录中,手机上电量、内存容量、情景模式和响铃模式的使用情况,具体包括:待机最长持续时长tidle_max、平均电量scharge_ave、平均内存容量sram_ave、七种不同情景模式的出现比例rprofile_k,其中k=1,2,...,7,分别为通用、无声、会议、户外、寻呼机离线和自定义,以及五种不同响铃模式的出现比例rring_k,其中k=1,2,...,5,分别为通用、上升、响铃一次、震动和无声;其次,对上述统计特征归一化并按不同地点标签归类,对用户在同一地点标签的特征均值化处理,并将不同地点标签的特征进行拼接得到最终用户的系统状态特征fs;
f)提取用户的运动状态特征fo:统计加速度传感器所反映出的用户运动状态特征,首先,针对所有地点访问记录中的三轴加速度数据,按时间窗口长度为2秒进行划分,其中重合窗口为1秒,对每一个时间窗口的加速度数据提取均值、方差、标准差、均方根、平均绝对偏差和四分位差时域特征;其次,基于所提取的时域特征,利用k-means聚类算法对所有的加速度时间窗口数据进行聚类,并将聚类结果得到的每一个簇视为一种简单活动类型,统计用户在每一次地点访问记录中的简单活动类型分布特征;最后,对用户在同一地点标签的特征均值化处理,并将不同地点标签的特征进行拼接得到最终用户的运动状态特征fo。
5.如权利要求1所述的基于手机使用数据的个性化地点推荐方法,其特征在于,步骤1-5具体包括:
a)提取用户的性别特征fg:统计每一个用户的性别信息,利用独热编码的方法构造性别特征
b)提取用户的年龄特征fe:统计每一个用户的年龄信息,按不同年龄段将年龄分成8个组,并利用独热编码的方法构造年龄特征
c)提取用户的工作状况特征fw:统计每一个用户的工作状况信息,将收集到的工作状况分成8种不同类型,并利用独热编码的方法构造工作状况特征
d)提取用户的收入特征fi:统计每一个用户的平均月收入信息,将收集到的平均月收入数据按不同收入等级分成5个组,并利用独热编码的方法构造收入特征
6.如权利要求1所述的基于手机使用数据的个性化地点推荐方法,其特征在于,步骤1-6具体包括:
a)提取地点的标签特征f1:根据步骤1-3确定的每一个地点的非个性化语义标签,利用独热编码的方法构造地点的标签特征
b)提取地点的平均停留时间特征ft:统计每一个地点被所有用户访问的平均停留时间并进行归一化,获得相应地点的平均停留时间特征ft;
c)提取地点的周末访问频率特征fr:统计每一个地点的周末访问次数和工作日访问次数并进行归一化,最后将周末访问次数与工作日访问次数的比值作为周末访问频率特征fr;
d)提取地点的分段访问频率特征ff:在不同时间段下,分别统计每一个地点的访问频率特征。首先,按每两个小时为一个时间段,将一天24小时分成12个时间间隔;其次,按工作日和周末分别统计12个时间间隔内每一个地点的访问次数并进行归一化,将其作为相应地点的分段访问频率特征
7.如权利要求1所述的基于手机使用数据的个性化地点推荐方法,其特征在于,步骤1-9中,
二阶因子分解机建模如式(1)和(2)所示:
其中,wi表示第i维特征的权重;<vi,vj>表示两个k维向量vi和vj的点积,反映了特征xi和xj两两之间的交叉关系;k则表示矩阵分解的维度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910590291.7A CN110471997A (zh) | 2019-07-02 | 2019-07-02 | 一种基于手机使用数据的个性化地点推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910590291.7A CN110471997A (zh) | 2019-07-02 | 2019-07-02 | 一种基于手机使用数据的个性化地点推荐方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110471997A true CN110471997A (zh) | 2019-11-19 |
Family
ID=68507462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910590291.7A Pending CN110471997A (zh) | 2019-07-02 | 2019-07-02 | 一种基于手机使用数据的个性化地点推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110471997A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929162A (zh) * | 2019-12-04 | 2020-03-27 | 腾讯科技(深圳)有限公司 | 基于兴趣点的推荐方法、装置、计算机设备和存储介质 |
CN112948482A (zh) * | 2021-04-28 | 2021-06-11 | 云景文旅科技有限公司 | 一种旅游在线服平台机器学习的数据预处理方法和系统 |
CN113076344A (zh) * | 2021-03-26 | 2021-07-06 | 中山大学 | 一种基于用户App数据的个性化地点推荐方法及系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108897750A (zh) * | 2018-04-28 | 2018-11-27 | 中国地质大学(武汉) | 融合多元上下文信息的个性化地点推荐方法及设备 |
-
2019
- 2019-07-02 CN CN201910590291.7A patent/CN110471997A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108897750A (zh) * | 2018-04-28 | 2018-11-27 | 中国地质大学(武汉) | 融合多元上下文信息的个性化地点推荐方法及设备 |
Non-Patent Citations (1)
Title |
---|
施鸿裕等: "Personalized location recommendation using mobile phone usage information", 《APPLIED INTELLIGENCE (2019)HTTPS://DOI.ORG/10.1007/S10489-019-01477-6 》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929162A (zh) * | 2019-12-04 | 2020-03-27 | 腾讯科技(深圳)有限公司 | 基于兴趣点的推荐方法、装置、计算机设备和存储介质 |
CN113076344A (zh) * | 2021-03-26 | 2021-07-06 | 中山大学 | 一种基于用户App数据的个性化地点推荐方法及系统 |
CN113076344B (zh) * | 2021-03-26 | 2024-04-05 | 中山大学 | 一种基于用户App数据的个性化地点推荐方法及系统 |
CN112948482A (zh) * | 2021-04-28 | 2021-06-11 | 云景文旅科技有限公司 | 一种旅游在线服平台机器学习的数据预处理方法和系统 |
CN112948482B (zh) * | 2021-04-28 | 2023-04-18 | 云景文旅科技有限公司 | 一种旅游在线服平台机器学习的数据预处理方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018076695A1 (zh) | 一种智能推荐系统及智能推荐方法 | |
CN104348855B (zh) | 用户信息的处理方法、移动终端及服务器 | |
Chon et al. | Understanding the coverage and scalability of place-centric crowdsensing | |
Liu et al. | Characterizing mixed-use buildings based on multi-source big data | |
Zheng et al. | Diagnosing New York city's noises with ubiquitous data | |
CN102591911B (zh) | 位置相关实体的实时个性化推荐 | |
CN103593349B (zh) | 感应网络环境下移动位置分析方法 | |
CN110471997A (zh) | 一种基于手机使用数据的个性化地点推荐方法 | |
KR20190139130A (ko) | 피셀 알고리즘을 이용하여 실시간 유동 인구 데이터의 제공이 가능한 유동인구 정보 분석 방법 | |
US20130210480A1 (en) | State detection | |
EP3014491B1 (en) | Displaying demographic data | |
US20200019365A1 (en) | Location prediction systems and related methods | |
CN108876475A (zh) | 一种基于兴趣点采集的城市功能区识别方法、服务器及存储介质 | |
Noyman et al. | Reversed urbanism: Inferring urban performance through behavioral patterns in temporal telecom data | |
US20150006255A1 (en) | Determining demographic data | |
JPWO2018142685A1 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
Sila-Nowicka et al. | Sensing spatiotemporal patterns in urban areas: Analytics and visualizations using the integrated multimedia city data platform | |
CN110781256A (zh) | 基于发送位置数据确定与Wi-Fi相匹配的POI的方法及装置 | |
Takeuchi et al. | A user-adaptive city guide system with an unobtrusive navigation interface | |
WO2023125692A1 (zh) | 一种服务推荐方法及相关装置 | |
CN109117476B (zh) | 一种基于多情境嵌入的个性化场所语义识别方法 | |
RU2658876C1 (ru) | Способ и сервер для обработки данных датчика беспроводного устройства для создания вектора объекта, связанного с физическим положением | |
CN111881180A (zh) | 构建方法、构建装置、终端及可读存储介质 | |
Bachir | Estimating urban mobility with mobile network geolocation data mining | |
CN110347936A (zh) | 基于lbs信息的数据挖掘方法、装置、系统和记录介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191119 |
|
RJ01 | Rejection of invention patent application after publication |