CN115827898A - 一种面向用户意图的时空知识图谱构建方法 - Google Patents

一种面向用户意图的时空知识图谱构建方法 Download PDF

Info

Publication number
CN115827898A
CN115827898A CN202211692521.9A CN202211692521A CN115827898A CN 115827898 A CN115827898 A CN 115827898A CN 202211692521 A CN202211692521 A CN 202211692521A CN 115827898 A CN115827898 A CN 115827898A
Authority
CN
China
Prior art keywords
user
vector
travel
location
intention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211692521.9A
Other languages
English (en)
Inventor
张莹
张心怡
潘璇
蔡祥睿
袁晓洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN202211692521.9A priority Critical patent/CN115827898A/zh
Publication of CN115827898A publication Critical patent/CN115827898A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据挖掘技术领域,具体涉及基于位置服务的社交网络时空数据,特别是一种面向用户意图的时空知识图谱构建方法。该方法包括如下步骤:第1步、数据采集并对其进行预处理,进而构建能够直接输入模型的用户、地点、类别、时间槽和地理位置编码的ID;第2步、利用预处理后的数据建立访问序列向量,构建用户出行意图向量;第3步、构建时空知识图谱模型,生成对应的三元组(u,(rseq,rpur),v),用于记录用户u在移动行为rseq后,根据出行意图目的rpur,进行了位置地点v的访问;第4步、根据给定用户的历史访问序列和出行意图进行位置预测。

Description

一种面向用户意图的时空知识图谱构建方法
技术领域
本发明属于数据挖掘技术领域,具体涉及基于位置服务的社交网络时空数据,特别是一种面向用户意图的时空知识图谱构建方法。
背景技术
随着智能设备的日益发展和普及,移动通讯已经渗透到日常生活中的各方各面,人们可以时时刻刻在社交网络上分享经历或者获取需要的信息。通过使用具有GPS定位、3/4/5G/Wifi信号感知功能的智能移动终端,获取并记录当下的位置坐标就变得简单而又方便,许多用户喜欢以“签到”的形式发布他们的物理位置。而许多移动终端的应用程序,如打车出行、外卖配送以及网上购物等,都需要用户提供个人的位置信息。因此在基于位置服务社交网络中,大量的用户足迹数据正在被生成和收集,此类数据中包含了丰富的时空属性,反映了人群多样的移动行为规律。这些数据被广泛地应用于智慧城市、移动计算和轨迹预测等领域中,吸引了学术界和工业界研究者的热切关注。时空数据所承载的语义信息反映出了用户在活动过程中的出行目的,也就是用户在不同位置之间移动的驱动因素。因此,建模和学习这些行为的变化模式可以有效地帮助人们进行移动位置预测,从而优化生活中各类位置感知的服务和应用,如公共卫生防疫、位置推荐、路线规划和用户行为预测等。
位置预测是时空数据挖掘中一个常见而重要的问题分支,其目标是根据用户的历史访问记录以及其他相关信息,捕获用户各种各样不同形式的移动行为以及个人访问偏好,由此来预测该用户未来可能访问位置。位置预测包含一系列子任务,如传统位置预测、下一个访问位置预测、轨迹预测、已知区域的位置预测等。这些任务主要学习全部位置候选集上的偏好,忽略了用户当下的出行意图以及不同类型地点的个性化特征,而用户通常会根据希望访问的目标过滤掉与选择类型无关的位置。
除此之外,时空数据的多源异构性、用户签到记录的分布稀疏性以及移动行为模式的复杂性,使位置预测方法具有一定的局限性。时空属性利用度不高、挖掘程度不足的问题导致现有模型的数据结构无法完整地展现用户的行为规律,从而导致预测结果不甚理想。因此,如何更好地利用时空属性以及如何解决数据稀疏性,仍旧是位置预测中不可忽视的关键问题。知识图谱是当下人工智能主流的分支技术,它以三元组(头实体、关系、尾实体)的形式对实体及其关系的结构化信息进行编码。基于翻译的知识图谱模型满足三角不等式的条件,能够极大程度地缓解数据稀疏性问题。在位置预测场景下,用户和位置均可被看作实体,时空上下文可以被建模为在用户和位置实体上操作的翻译向量,然而当前基于知识图谱的位置预测模型无法融合用户的出行意图。
综上所述,面向用户意图的时空知识图谱构建是一个创新的研究思路,具有重要的研究意义和应用价值。
发明内容
本发明的目的是从现实生活中位置预测任务的实际应用出发,针对用户出行意图的需求和个体移动行为模式的多样性,提出一种融合时空信息的移动行为知识图谱构建方法。该方法以基于翻译的知识图谱为框架,同时考虑用户出行意图与移动行为规律,进而实现提高预测用户未来访问位置准确率的目的。
面向用户意图的时空知识图谱构建方法,该方法构建一个联合时空信息的知识图谱移动行为图谱,首先将地理社交网络中的时空数据形成融合多元属性的图谱表示,同时捕获用户的出行意图与移动行为模式规律,通过注意力网络结合这两部分以生成统一的偏好特征,并基于此特征与历史访问记录对用户未来可能访问的位置进行预测。
为实现上述目的,本发明提供了如下技术方案:
一种面向用户意图的时空知识图谱构建方法,具体步骤如下:
第1步、数据采集并对其进行预处理,进而构建能够直接输入模型的用户、地点、类别、时间槽和地理位置编码的ID;
第2步、利用预处理后的数据建立访问序列向量,构建用户出行意图向量;
第3步、构建时空知识图谱模型,生成对应的三元组(u,(rseq,rpur),v),用于记录用户u在移动行为rseq后,根据出行意图目的rpur,进行了位置地点v的访问;
第4步、根据给定用户的历史访问序列和出行意图进行位置预测。
本技术方案进一步的优化,所述第1步具体步骤为,
第1.1步、数据采集,从基于位置服务的社交网络中获得数据;
第1.2步、数据处理,在数据采集之后,需要对原始数据进行预处理,预处理后的签到记录涉及的属性信息包括:用户ID、地点ID、类别ID、时间槽ID、地理位置向量;
第1.3步、数据重构,
定义1:时空知识图谱节点的嵌入向量,定义如下:
集合U={u1,u2,…,u|U|},V={v1,v2,…,v|V|},和C={c1,c2,…,c|C|}分别表示用户、地点和地点类别的向量集合,其中,向量
Figure BDA0004021812330000031
Figure BDA0004021812330000032
du、dv、dc分别为三种向量的维数;
定义2:每个地点代表一个特定的地理位置,每个地点
Figure BDA0004021812330000033
都隶属于一个类别
Figure BDA0004021812330000034
Figure BDA0004021812330000035
定义3:签到记录,每一条签到活动为一个三元组(u,v,t),代表用户u在时间t访问位置v;
定义4:签到序列,签到序列
Figure BDA0004021812330000036
是一组按时间顺序排列的特定用户的签入记录。
本技术方案进一步的优化,所述第2步具体步骤为,
第2.1步、利用预处理后的历史签到记录建立访问序列向量
采用个性化注意力来捕捉用户对不同历史签到的差别关注,对于用户签到序列中的每个记录,定义如下:
Figure BDA0004021812330000037
其中vi和ti分别代表该条记录s中用户访问的地点和时间,concat(·)为拼接函数,w表示训练的参数,loc(·)是地理编码方法;
由于一个用户历史记录数量过于庞大且无法反映当下用户的移动性,截取了最近的n个固定历史记录窗口,给定最近的签到记录
Figure BDA0004021812330000038
用户当下的历史记录可以唯一被编码为:
Figure BDA0004021812330000039
其中,f(·)表示聚合操作,用于将L条历史记录聚合成一个向量表示,α表示与用户无关的可训练向量,以获取全局转移偏差;
第2.2步、构建用户出行意图向量
用户决定出行目标往往是选择一个类型,而数据集中每个位置均拥有一个所属的类别ci,恰好与用户出行目的需求匹配,因此直接将其作为用户出行意图向量即可,类别表示如下:
Figure BDA00040218123300000310
其中,nc代表了用户出行意图向量的数量,d表示向量维度,因此,用户出行目的rpur可以表示为:
rpur=ci
本技术方案进一步的优化,所述第3步具体步骤为,
第3.1步、构建时空知识图谱模型
基于翻译的知识图谱模型是将知识图谱中的实体和关系看成两个矩阵,实体矩阵结构为n×d,其中n表示实体数量,d表示每个实体向量的维度,矩阵中的每一行代表了一个实体的词向量;而关系矩阵结构为r×d,其中r代表关系数量,d表示每个关系向量的维度模型训练后模型的理想状态,从实体矩阵和关系矩阵中各自抽取一个向量,进行L2范数运算:
Figure BDA0004021812330000041
ai可以表示任意一个向量;
知识图谱模型将三元组(h,r,t)嵌入到满足h+r≈t的过渡空间中,其中h、r、t表示头、关系和尾实体,在移动行为学习场景中,用户和位置均可以被视为“实体”,因此,用户u和位置v的关系被定义为:
Figure BDA0004021812330000042
为了避免过拟合和学习模型参数值过大的问题,添加约束的规范嵌入:
Figure BDA0004021812330000043
v,r,有||u||2≤1,||v||2≤1和||r||2≤1;
根据上述代表用户移动行为的访问序列向量和出行目的的用户出行意图向量,可以生成对应的三元组(u,(rseq,rpur),v),用于记录用户u在移动行为rseq后,根据出行意图目的rpur,进行了位置地点v的访问;
第3.2步、用户签到行为和出行目的表示
为了捕捉两个关系的重要性,应用关系级注意力来计算权重的影响:
Figure BDA0004021812330000044
其中,MLPr(·)是两层神经网络,输入用户向量和关系向量的拼接,然后得到用户对该关系的重视程度;
第3.3步、用户位置预测学习目标
给定定义的分数函数fr(u,v),用户位置预测学习的目标为:
Figure BDA0004021812330000051
其中γ是边距,D和D’是三元组正负样本的集合,而u,u′和v,v′分别代表正/负用户以及正/负地点,负样本通过随机替换正样本中的用户或者地点得到。
本技术方案进一步的优化,所述第4步具体步骤为,
根据给定用户u的历史访问序列和出行意图,预测用户u访问类别c的位置vc的概率为:
Figure BDA0004021812330000052
通过计算类别c下所有位置的概率,可以得到用户对各个地点的感兴趣概率,从而得到它可能最感兴趣的n个地点,即作为位置预测结果返回。
区别于现有技术,上述技术方案具有如下有益效果:
1)本发明开创性地提出了一种面向用户出行意图的时空知识图谱构建方法,相比以往将签到记录以矩阵形式或图结构建模位置预测模型的输入,本发明利用知识图谱独特的三元组形式表征每一条记录,极大地缓解了数据稀疏性问题。
2)本发明分别针对地理位置进行了独特的编码和解析,该编码可以唯一表示地球上任何一个位置,且距离越近的地点编码序列越相似,比以往模型在经纬度位置捕捉方面更加精准,便于拟合用户活动范围围绕一个位置中心的特点。
3)本发明考虑用户移动行为的时间周期性,将时间建模为24*7个向量,独立表示一周中每天的24小时的特征,在时间属性地覆盖方面更加全面。
4)考虑用户出行意图,本发明更精准地匹配现实需求。利用移动行为图谱建模注意力网络和相应的位置预测模型,实现了面向用户出行目标的行为移动图谱构建,相关实验证明了该模型能提高位置预测的准确度。
附图说明
图1为面向用户意图的时空知识图谱示意图;
图2为用于位置预测的知识图谱联合注意力网络模型框架示意图;
图3为面向用户意图的时空知识图谱构建方法的流程图;
图4为位置服务数据集Foursquare中纽约、东京和伊斯坦布尔城市用户统计信息;
图5为序列感知的个性化注意力网络示意图;
图6为关系级别的注意力学习示意图;
图7为三个城市位置预测结果比较示意图。
具体实施方式
为详细说明技术方案的技术内容、构造特征、所实现目的及效果,以下结合具体实施例并配合附图详予说明。
时空知识图谱的构建主要包括两个部分,一是利用时空数据构建用户移动行为的图谱表示,参阅图1所示,为面向用户意图的时空知识图谱示意图;二是构建基于时空知识图谱的位置预测模型,该模型由基于翻译的知识图谱和序列感知的注意力网络组成,模型的框架如图2所示,为用于位置预测的知识图谱联合注意力网络模型框架示意图。
从用户签到数据的收集直至最后位置预测结果的生成一共分为4个步骤,其流程图如图3所示,为面向用户意图的时空知识图谱构建方法流程图,以下结合具体数据集对本专利的实现流程做进一步说明。
第1步、位置服务数据的收集和预处理
1.1数据采集
以基于位置服务社交网络Foursquare中三个城市(纽约、东京和伊斯坦布尔)的数据作为模型进行训练和预测的对象,提取其用户签到记录作为构建移动行为图谱的原始数据。其中Foursquare数据使用的是Dingqi Yang等人提供的数据集,该数据集提供了从2012年4月至2014年1月的用户签到数据,选取了其中三个城市的数据作为研究对象。参阅图4所示,为三个城市的用户数据情况示意图。
1.2数据处理
在数据采集之后,需要对原始数据进行预处理,以输入至模型中。由于面向用户意图的时空知识图谱是以用户为单位构建的,因此签到记录可以使用用户ID分组。具体流程如下所述:
-签到时间根据所选择的粒度切分成不同的时间区间,也就是时间槽。每个具体时间能映射到相应的时间槽中,最终可以用时间槽ID表示签到的具体时间。
-签到地点所在的位置信息以一串唯一的编码序列表示,根据获取到数据中全部签到地点涉及的经纬度。分别将经度和纬度输入编码器,进而得到一串唯一的序列表示,位置越相近的位置,序列越相似。
-经过预处理后的签到记录涉及的属性信息包括:用户ID、地点ID、类别ID、时间槽
ID、地理位置向量。
每个数据集中,按照上述的方法划分时间槽并得到地理位置向量,具体方式为将时间均以周为周期划分成24*7=168个时间槽,将用户签到记录中的具体访问时间映射至时间槽中,以对应的时间槽ID表示签到时间信息;将经纬度输入编码器,生成十二位的位置序列,再将时间序列输入神经网络中生成唯一的向量以表示位置信息。
1.3数据重构
三个数据集中,训练集和测试集的比例分别为80%和20%,并且为了保障预测未来访问地点的任务需求,出现在测试集中的访问记录,其地点不会出现在训练集中,并且访问时间均在训练集之后。
定义1:时空知识图谱节点的嵌入向量,定义如下:
集合U={u1,u2,…,u|U|},V={v1,v2,…,v|V|},和C={c1,c2,…,c|C|}分别表示用户,地点和地点类别(用户意向)的向量集合。其中,向量
Figure BDA0004021812330000071
Figure BDA0004021812330000072
du、dv、dc分别为三种向量的维数。
定义2:每个地点代表一个特定的地理位置(例如,XX餐厅或者XX博物馆)。每个地点
Figure BDA0004021812330000073
都隶属于一个类别
Figure BDA0004021812330000074
定义3:签到记录。每一条签到活动为一个三元组(u,v,t),代表用户u在时间t访问位置v。
定义4:签到序列。签到序列
Figure BDA0004021812330000075
是一组按时间顺序排列的特定用户的签入记录。
第2步、建立序列访问向量和出行意图向量
在本发明考虑的面向时空移动行为建模场景中,每个用户对应一组图谱,按照步骤1的设置,每个数据集中每个用户的信息是由该用户所有的签到记录组成,而在每条记录中用户访问的历史序列表示和用户出行意图则为用户画像不可或缺的一部分,因此问题关键在于如何更好地结合历史轨迹中的时空上下文以及用户的意图。
因此,该部分将从:历史访问向量的构建、用户出行意图向量的构建两个部分进行叙述。
第2.1步、利用预处理后的历史签到记录建立访问序列向量
用户访问的顺序规律性对于学习其个性化偏好具有重要意义,时间越近的历史记录,对用户位置预测的结果影响越大,即历史记录对用户当下访问的影响与间隔时间呈负相关。受项目推荐字段中用户-项目交互表示的成功启发,这里考虑历史序列行为,构造一个自适应关系的向量。
注意力机制是在计算能力有限的情况下,将计算资源分配给更重要的任务,同时解决信息超载问题的一种资源分配方案。在神经网络学习中,一般而言模型的参数越多则模型的表达能力越强,模型所存储的信息量也越大,但这会带来信息过载的问题。那么通过引入注意力机制,在众多的输入信息中聚焦于对当前任务更为关键的信息,降低对其他信息的关注度,甚至过滤掉无关信息,就可以解决信息过载问题,并提高任务处理的效率和准确性。
通过采用个性化注意力,模型可以捕捉用户对不同历史签到的差别关注,从而更完整地学习用户历史访问序列对位置预测的影响,整体处理流程如图5所示。需按照如下方法构造用户签到序列中的每个记录:
Figure BDA0004021812330000081
其中vi和ti分别代表该条记录s中用户访问的地点和时间,concat(·)为拼接函数,w表示训练的参数。loc(·)是地理编码方法。这里采用了开放位置代码的编码方法。首先将经纬度位置转换为一串字符序列,接着利用循环神经网络对该序列学习,得到唯一的n维向量编码作为地理位置的表示。
现实中存在许多用户,访问了成百上千的地点,时间久远的历史记录可能并不具有参考价值,这就是经典的长尾问题。由于一个用户历史记录数量过于庞大且无法反映当下用户的移动性,因此历史序列截取了最近的n个固定历史记录窗口。给定最近的签到记录
Figure BDA0004021812330000082
用户当下的历史记录可以唯一被编码为:
Figure BDA0004021812330000083
其中,f(·)表示聚合操作,用于将L条历史记录聚合成一个向量表示,α表示与用户无关的可训练向量,以获取全局转移偏差,使结果更为准确。聚合操作可以选择多种不同的方式。为了捕捉不同顺序的历史记录的不同重要性,采用了自适应和位置感知的个性化注意机制,整体处理流程如图5所示,它能够兼顾位置项链和序列顺序,最终能够得到用户的动态偏好。
第2.2步、构建用户出行意图向量
在用户出行之前,总会有最终的目的,例如,当下电影《哈利波特》重映,小明想寻找影院,所以位置预测问题只需要考虑影院类型的地点。这一场景在现实生活中得到了广泛的应用,美团、大众点评等移动应用程序均已包含了大量位置类型信息的选择,并且都放在了显著的位置,以供用户事先进行选择。
用户决定出行目标往往是选择一个类型,例如:餐厅、影院、酒吧等等。而数据集中每个位置均拥有一个所属的类别ci,恰好与用户出行目的需求匹配。因此直接将其作为用户出行意图向量即可,类别集合表示如下:
Figure BDA0004021812330000091
其中,nc代表了用户出行意图向量的数量,d表示向量维度,因此,用户出行目的rpur可以表示为:
rpur=ci
第3步、挖掘时空知识图谱的用户偏好与移动行为规律
知识图谱主要目标是用来描述真实世界中存在的各种实体和概念,以及他们之间的关系,因此可以认为是一种语义网络。其基本组成单位是“实体—关系—实体”三元组,以及实体及其相关属性的键值对,实体间通过关系相互联结,构成网状的知识结构。
第3.1步、构建时空知识图谱
基于翻译的知识图谱(TranE)是将知识图谱中的实体和关系看成两个矩阵。实体矩阵结构为n×d,其中n表示实体数量,d表示每个实体向量的维度,矩阵中的每一行代表了一个实体的词向量;而关系矩阵结构为r×d,其中r代表关系数量,d表示每个关系向量的维度模型训练后模型的理想状态,从实体矩阵和关系矩阵中各自抽取一个向量,进行L2范数运算:
Figure BDA0004021812330000092
ai可以表向量a的第i个维度上的数值。得到的结果近似于实体矩阵中的另一个实体的向量,从而达到通过词向量表示知识图谱中已存在的三元组的关系。
TransE是各种基于知识图谱技术中的典型方法,它将三元组(h,r,t)嵌入到满足h+r≈t的过渡空间中,其中h、r、t表示头、关系和尾实体。在移动行为学习场景中,用户和位置均可以被视为“实体”。因此,用户u和位置v的关系被定义为:
Figure BDA0004021812330000093
r代表用户和地点之间的关系,即时空上下文,下文将详细描述。为了避免过拟合和学习模型参数值过大的问题,添加约束的规范嵌入:
Figure BDA0004021812330000094
v,r,有||u||2≤1,||v||2≤1和||r||2≤1。
值得注意的是,当下有各种基于翻译的方法可以建模不同的关系模式,例如对称/非对称、组合和反演等等。由于本发明主要关注于利用历史记录序列和用户出行意图进行移动行为建模。因此,问题关键是掌握模型中的关系向量r,将其编码为用户的连续签到行为和用户出行意图的融合。
根据上述代表用户移动行为的访问序列向量和出行目的的用户出行意图向量,可以生成对应的三元组(u,(rseq,rpur),v),用于记录用户u在移动行为rseq后,根据出行意图目的rpur,进行了位置地点v的访问。对于rseq,rpur信息的融合,则是下一步需要考虑的操作。
第3.2步、用户签到行为和出行目的表示
在本发明考虑的面向时空移动行为图谱建模场量中,每个用户对应一组图谱,按照步骤1的设置,每个数据集中每个用户的信息图谱是由该用户所有的签到记录组成,而在每条记录中,用户和地点可以分别被看作是知识图谱的头尾节点,用户访问的历史序列表示和用户出行意图可作为三元组的关系,因此问题构建时空知识图谱的关键在于如何更好地结合历史轨迹中的时空上下文以及用户的意图。
为了捕捉两个关系的重要性,应用关系级注意力来计算权重的影响:
Figure BDA0004021812330000102
其中,MLPr(·)是两层多层感知机,输入用户向量和关系向量的拼接,从而得到用户对该关系的重视程度。ri代表的是访问时序向量或出行意图向量,通过计算二者的权重来获得用户对两者的关注程度。最典型的MLP包括三层结构:输入层、隐藏层和输出层,MLP神经网络不同层之间是全连接的(全连接:上一层的任何一个神经元与下一层的所有神经元都有连接)。
第3.3步、用户位置预测学习目标
给定定义的分数函数fr(u,v),用户位置预测学习的目标(损失函数)为:
Figure BDA0004021812330000101
其中γ是边距,D和D’是三元组正负样本的集合,而u,u′和v,v′分别代表正/负用户以及正/负地点,负样本通过随机替换正样本中的用户或者地点得到。训练目标为实现正负样本距离最大化,损失函数收敛,代表模型训练完毕。
第4步、根据新用户历史记录进行位置预测
根据给定用户u的历史访问序列和出行意图,本发明可以预测用户u访问类别c的位置vc的概率为:
Figure BDA0004021812330000111
通过计算类别c下所有位置的概率,可以得到用户对各个地点的感兴趣概率,从而得到它可能最感兴趣的n个地点,即作为位置预测结果返回。
在预测阶段,每个用户的历史签到记录首先被转化为翻译向量;然后将用户出行意图作为网络的输入,经过注意力机制、循环神经网络和基于知识图谱的位置预测网络,最终得到地点的概率分布作为位置预测结果。
更新后的节点向量进一步作为位置预测网络的输入,按照上述方法,先对每个图谱节点向量添加包含图谱所有节点的注意力信息,然后所有的图谱节点累加起来作为图谱整体向量表示,之后分别与所有地点向量相乘,其乘积最后通过计算TransE模型的分数函数作为位置预测结果。
模型在训练阶段,对于每一个用户对应的签到记录,将训练数据中的签到时间发生在构建图谱记录之后的所有记录的地点作为真实值,以知识图谱三元组的方式表示。整体模型利用MarginLoss作为目标函数。本发明提出的位置预测模型在Foursquare三个城市数据集中对比了6种位置预测模型,并将本模型的变种(不包含用户出行意图、LSTM/RNN替换个性化注意力网络)的方法作为比较模型,其预测结果通过精确率、召回率、平均精度均值和归一化折扣累计收益4种评估指标评估。结果比较如图7所示,每行对应一种评估指标,其中左边为NYC数据集的结果,中间为TKY数据集的结果,右边为IST数据集的结果。每个结果对应的模型如图7所示,其中六种比较模型分别为SAE-NAD,LGLMF,APOIR,STA,SUCP和ContextsPOI,最后一种表示本发明提出的面向用户意图的时空知识图谱的位置预测模型。从图中可以看出,本发明提出的模型的性能表现均优于比较模型,印证了本发明提高了位置预测任务上的预测效果。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。

Claims (5)

1.一种面向用户意图的时空知识图谱构建方法,其特征在于,该方法具体步骤如下:
第1步、数据采集并对其进行预处理,进而构建能够直接输入模型的用户、地点、类别、时间槽和地理位置编码的ID;
第2步、利用预处理后的数据建立访问序列向量,构建用户出行意图向量;
第3步、构建时空知识图谱模型,生成对应的三元组(u,(rseq,rpur),v),用于记录用户u在移动行为rseq后,根据出行意图目的rpur,进行了位置地点v的访问;
第4步、根据给定用户的历史访问序列和出行意图进行位置预测。
2.根据权利要求1所述的面向用户意图的时空知识图谱构建方法,其特征在于:所述第1步具体步骤为,
第1.1步、数据采集,从基于位置服务的社交网络中获得数据;
第1.2步、数据处理,在数据采集之后,需要对原始数据进行预处理,预处理后的签到记录涉及的属性信息包括:用户ID、地点ID、类别ID、时间槽ID、地理位置向量;
第1.3步、数据重构,
定义1:时空知识图谱节点的嵌入向量,定义如下:
集合U={u1,u2,…,u|U|},V={v1,v2,…,v|V|},和C={c1,c2,…,c|C|}分别表示用户、地点和地点类别的向量集合,其中,向量
Figure FDA0004021812320000011
Figure FDA0004021812320000012
du、dv、dc分别为三种向量的维数;
定义2:每个地点代表一个特定的地理位置,每个地点
Figure FDA0004021812320000013
都隶属于一个类别
Figure FDA0004021812320000014
Figure FDA0004021812320000015
定义3:签到记录,每一条签到活动为一个三元组(u,v,t),代表用户u在时间t访问位置v;
定义4:签到序列,签到序列
Figure FDA0004021812320000016
是一组按时间顺序排列的特定用户的签入记录。
3.根据权利要求1或2所述的面向用户意图的时空知识图谱构建方法,其特征在于:所述第2步具体步骤为,
第2.1步、利用预处理后的历史签到记录建立访问序列向量
采用个性化注意力来捕捉用户对不同历史签到的差别关注,对于用户签到序列中的每个记录,定义如下:
Figure FDA0004021812320000021
其中vi和ti分别代表该条记录s中用户访问的地点和时间,concat(·)为拼接函数,w表示训练的参数,loc(·)是地理编码方法;
由于一个用户历史记录数量过于庞大且无法反映当下用户的移动性,截取了最近的n个固定历史记录窗口,给定最近的签到记录
Figure FDA0004021812320000022
用户当下的历史记录可以唯一被编码为:
Figure FDA0004021812320000023
其中,f(·)表示聚合操作,用于将L条历史记录聚合成一个向量表示,α表示与用户无关的可训练向量,以获取全局转移偏差;
第2.2步、构建用户出行意图向量
用户决定出行目标往往是选择一个类型,而数据集中每个位置均拥有一个所属的类别ci,恰好与用户出行目的需求匹配,因此直接将其作为用户出行意图向量即可,类别表示如下:
Figure FDA0004021812320000024
其中,nc代表了用户出行意图向量的数量,d表示向量维度,因此,用户出行目的rpur可以表示为:
rpur=ci
4.根据权利要求3所述的面向用户意图的时空知识图谱构建方法,其特征在于:所述第3步具体步骤为,
第3.1步、构建时空知识图谱模型
基于翻译的知识图谱模型是将知识图谱中的实体和关系看成两个矩阵,实体矩阵结构为n×d,其中n表示实体数量,d表示每个实体向量的维度,矩阵中的每一行代表了一个实体的词向量;而关系矩阵结构为r×d,其中r代表关系数量,d表示每个关系向量的维度模型训练后模型的理想状态,从实体矩阵和关系矩阵中各自抽取一个向量,进行L2范数运算:
Figure FDA0004021812320000025
ai可以表示任意一个向量;
知识图谱模型将三元组(h,r,t)嵌入到满足h+r≈t的过渡空间中,其中h、r、t表示头、关系和尾实体,在移动行为学习场景中,用户和位置均可以被视为“实体”,因此,用户u和位置v的关系被定义为:
Figure FDA0004021812320000031
其中r表示用户和地点的关系,即时空上下文和出行意图,为了避免过拟合和学习模型参数值过大的问题,添加约束的规范嵌入:
Figure FDA0004021812320000032
有||u||2≤1,||v||2≤1和||r||2≤1;
根据上述代表用户移动行为的访问序列向量和出行目的的用户出行意图向量,可以生成对应的三元组(u,(rseq,rpur),v),用于记录用户u在移动行为rseq后,根据出行意图目的rpur,进行了位置地点v的访问;
第3.2步、用户签到行为和出行目的表示
为了捕捉两个关系的重要性,应用关系级注意力来计算权重的影响:
Figure FDA0004021812320000033
其中,MLPr(·)是两层神经网络,输入用户向量和关系向量的拼接,然后得到用户对该关系的重视程度;ri代表历史访问序列向量或用户出行意图向量;
第3.3步、用户位置预测学习目标
给定定义的分数函数fr(u,v),用户位置预测学习的目标为:
Figure FDA0004021812320000034
其中γ是边距,D和D’是三元组正负样本的集合,而u,u′和v,v′分别代表正/负用户以及正/负地点,负样本通过随机替换正样本中的用户或者地点得到。
5.根据权利要求1所述的面向用户意图的时空知识图谱构建方法,其特征在于:所述第4步具体步骤为,
根据给定用户u的历史访问序列和出行意图,预测用户u访问类别c的位置vc的概率为:
Figure FDA0004021812320000035
通过计算类别c下所有位置的概率,可以得到用户对各个地点的感兴趣概率,从而得到它可能最感兴趣的n个地点,即作为位置预测结果返回。
CN202211692521.9A 2022-12-28 2022-12-28 一种面向用户意图的时空知识图谱构建方法 Pending CN115827898A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211692521.9A CN115827898A (zh) 2022-12-28 2022-12-28 一种面向用户意图的时空知识图谱构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211692521.9A CN115827898A (zh) 2022-12-28 2022-12-28 一种面向用户意图的时空知识图谱构建方法

Publications (1)

Publication Number Publication Date
CN115827898A true CN115827898A (zh) 2023-03-21

Family

ID=85518810

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211692521.9A Pending CN115827898A (zh) 2022-12-28 2022-12-28 一种面向用户意图的时空知识图谱构建方法

Country Status (1)

Country Link
CN (1) CN115827898A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975054A (zh) * 2023-06-12 2023-10-31 农业农村部大数据发展中心 一种基于lstm进行访问路径学习的数据索引方法
CN118550951A (zh) * 2024-07-29 2024-08-27 苏州大学 一种融合节点上下文信息的可解释开源项目推荐方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975054A (zh) * 2023-06-12 2023-10-31 农业农村部大数据发展中心 一种基于lstm进行访问路径学习的数据索引方法
CN116975054B (zh) * 2023-06-12 2024-03-12 农业农村部大数据发展中心 一种基于lstm进行访问路径学习的数据索引方法
CN118550951A (zh) * 2024-07-29 2024-08-27 苏州大学 一种融合节点上下文信息的可解释开源项目推荐方法

Similar Documents

Publication Publication Date Title
Liu et al. Dynamic spatial-temporal representation learning for traffic flow prediction
WO2022088661A1 (zh) 基于注意力机制的群体旅游路线推荐方法
CN115827898A (zh) 一种面向用户意图的时空知识图谱构建方法
Chen et al. Next POI recommendation based on location interest mining with recurrent neural networks
CN114579879B (zh) 好友推荐方法、装置、设备和存储介质
CN113139140A (zh) 基于时空感知gru并结合用户关系偏好的旅游景点推荐方法
CN111695019A (zh) 一种识别关联账号的方法及装置
Sun et al. Point-of-interest recommendation for users-businesses with uncertain check-ins
Pang et al. Intercity simulation of human mobility at rare events via reinforcement learning
CN117633371B (zh) 基于多注意力机制的推荐方法、设备和可读存储介质
CN116110232B (zh) 一种基于分层动态残差图卷积网络的交通流量预测方法
Luan et al. An efficient target tracking approach through mobile crowdsensing
Chen et al. A Multi-Context Aware Human Mobility Prediction Model Based on Motif-Preserving Travel Preference Learning
CN112883292B (zh) 用户行为推荐模型建立及基于时空信息的位置推荐方法
CN115510333A (zh) 一种基于时空感知并结合局部和全局偏好的poi预测方法
Smirnov et al. Tourist attraction recommendation service: an approach, architecture and case study
Zhang et al. Graph-Enhanced Spatio-Temporal Interval Aware Network for Next POI Recommendation in Mobile Environment
Yuan et al. A novel learning approach for citywide crowd flow prediction
CN117763300B (zh) 基于时态图转换器和偏好波动的智能程序推荐方法
Peng et al. A node selection paradigm for crowdsourcing service based on region feature in crowd sensing
CN117744950B (zh) 出行需求分析方法、装置、设备及存储介质
CN118656547B (zh) 基于用户画像的智慧景区内路线推荐方法及系统
Li et al. Construction and Adaptability Analysis of User’s Preference Model Based on Check-in Data in LBSN
Su et al. Check for TSWNN+: Check-in Prediction Based on Deep Learning and Factorization Machine Chang Su, Ningning Liu, Xianzhong Xie), and Shaowen Peng College of Computer Science and Technology, Chongqing University of Posts
CN117874342A (zh) 一种结合用户长短期偏好的下一个兴趣点推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination