CN115827898A

CN115827898A - 一种面向用户意图的时空知识图谱构建方法

Info

Publication number: CN115827898A
Application number: CN202211692521.9A
Authority: CN
Inventors: 张莹; 张心怡; 潘璇; 蔡祥睿; 袁晓洁
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2022-12-28
Filing date: 2022-12-28
Publication date: 2023-03-21

Abstract

本发明属于数据挖掘技术领域，具体涉及基于位置服务的社交网络时空数据，特别是一种面向用户意图的时空知识图谱构建方法。该方法包括如下步骤：第1步、数据采集并对其进行预处理，进而构建能够直接输入模型的用户、地点、类别、时间槽和地理位置编码的ID；第2步、利用预处理后的数据建立访问序列向量，构建用户出行意图向量；第3步、构建时空知识图谱模型，生成对应的三元组(u,(r_seq,r_pur),v)，用于记录用户u在移动行为r_seq后，根据出行意图目的r_pur，进行了位置地点v的访问；第4步、根据给定用户的历史访问序列和出行意图进行位置预测。

Description

一种面向用户意图的时空知识图谱构建方法

技术领域

本发明属于数据挖掘技术领域，具体涉及基于位置服务的社交网络时空数据，特别是一种面向用户意图的时空知识图谱构建方法。

背景技术

随着智能设备的日益发展和普及，移动通讯已经渗透到日常生活中的各方各面，人们可以时时刻刻在社交网络上分享经历或者获取需要的信息。通过使用具有GPS定位、3/4/5G/Wifi信号感知功能的智能移动终端，获取并记录当下的位置坐标就变得简单而又方便，许多用户喜欢以“签到”的形式发布他们的物理位置。而许多移动终端的应用程序，如打车出行、外卖配送以及网上购物等，都需要用户提供个人的位置信息。因此在基于位置服务社交网络中，大量的用户足迹数据正在被生成和收集，此类数据中包含了丰富的时空属性，反映了人群多样的移动行为规律。这些数据被广泛地应用于智慧城市、移动计算和轨迹预测等领域中，吸引了学术界和工业界研究者的热切关注。时空数据所承载的语义信息反映出了用户在活动过程中的出行目的，也就是用户在不同位置之间移动的驱动因素。因此，建模和学习这些行为的变化模式可以有效地帮助人们进行移动位置预测，从而优化生活中各类位置感知的服务和应用，如公共卫生防疫、位置推荐、路线规划和用户行为预测等。

位置预测是时空数据挖掘中一个常见而重要的问题分支，其目标是根据用户的历史访问记录以及其他相关信息，捕获用户各种各样不同形式的移动行为以及个人访问偏好，由此来预测该用户未来可能访问位置。位置预测包含一系列子任务，如传统位置预测、下一个访问位置预测、轨迹预测、已知区域的位置预测等。这些任务主要学习全部位置候选集上的偏好，忽略了用户当下的出行意图以及不同类型地点的个性化特征，而用户通常会根据希望访问的目标过滤掉与选择类型无关的位置。

除此之外，时空数据的多源异构性、用户签到记录的分布稀疏性以及移动行为模式的复杂性，使位置预测方法具有一定的局限性。时空属性利用度不高、挖掘程度不足的问题导致现有模型的数据结构无法完整地展现用户的行为规律，从而导致预测结果不甚理想。因此，如何更好地利用时空属性以及如何解决数据稀疏性，仍旧是位置预测中不可忽视的关键问题。知识图谱是当下人工智能主流的分支技术，它以三元组(头实体、关系、尾实体)的形式对实体及其关系的结构化信息进行编码。基于翻译的知识图谱模型满足三角不等式的条件，能够极大程度地缓解数据稀疏性问题。在位置预测场景下，用户和位置均可被看作实体，时空上下文可以被建模为在用户和位置实体上操作的翻译向量，然而当前基于知识图谱的位置预测模型无法融合用户的出行意图。

综上所述，面向用户意图的时空知识图谱构建是一个创新的研究思路，具有重要的研究意义和应用价值。

发明内容

本发明的目的是从现实生活中位置预测任务的实际应用出发，针对用户出行意图的需求和个体移动行为模式的多样性，提出一种融合时空信息的移动行为知识图谱构建方法。该方法以基于翻译的知识图谱为框架，同时考虑用户出行意图与移动行为规律，进而实现提高预测用户未来访问位置准确率的目的。

面向用户意图的时空知识图谱构建方法，该方法构建一个联合时空信息的知识图谱移动行为图谱，首先将地理社交网络中的时空数据形成融合多元属性的图谱表示，同时捕获用户的出行意图与移动行为模式规律，通过注意力网络结合这两部分以生成统一的偏好特征，并基于此特征与历史访问记录对用户未来可能访问的位置进行预测。

为实现上述目的，本发明提供了如下技术方案：

一种面向用户意图的时空知识图谱构建方法，具体步骤如下：

第1步、数据采集并对其进行预处理，进而构建能够直接输入模型的用户、地点、类别、时间槽和地理位置编码的ID；

第2步、利用预处理后的数据建立访问序列向量，构建用户出行意图向量；

第3步、构建时空知识图谱模型，生成对应的三元组(u,(r_seq,r_pur),v)，用于记录用户u在移动行为r_seq后，根据出行意图目的r_pur，进行了位置地点v的访问；

第4步、根据给定用户的历史访问序列和出行意图进行位置预测。

本技术方案进一步的优化，所述第1步具体步骤为，

第1.1步、数据采集，从基于位置服务的社交网络中获得数据；

第1.2步、数据处理，在数据采集之后，需要对原始数据进行预处理，预处理后的签到记录涉及的属性信息包括：用户ID、地点ID、类别ID、时间槽ID、地理位置向量；

第1.3步、数据重构，

定义1：时空知识图谱节点的嵌入向量，定义如下：

集合U＝{u₁,u₂,…,u_|U|}，V＝{v₁,v₂,…,v_|V|}，和C＝{c₁,c₂,…,c_|C|}分别表示用户、地点和地点类别的向量集合，其中，向量

和

d^u、d^v、d^c分别为三种向量的维数；

定义2：每个地点代表一个特定的地理位置，每个地点

都隶属于一个类别

定义3：签到记录，每一条签到活动为一个三元组(u,v,t)，代表用户u在时间t访问位置v；

定义4：签到序列，签到序列

是一组按时间顺序排列的特定用户的签入记录。

本技术方案进一步的优化，所述第2步具体步骤为，

第2.1步、利用预处理后的历史签到记录建立访问序列向量

采用个性化注意力来捕捉用户对不同历史签到的差别关注，对于用户签到序列中的每个记录，定义如下：

其中v_i和t_i分别代表该条记录s中用户访问的地点和时间，concat(·)为拼接函数，w表示训练的参数，loc(·)是地理编码方法；

由于一个用户历史记录数量过于庞大且无法反映当下用户的移动性，截取了最近的n个固定历史记录窗口，给定最近的签到记录

用户当下的历史记录可以唯一被编码为：

其中，f(·)表示聚合操作，用于将L条历史记录聚合成一个向量表示，α表示与用户无关的可训练向量，以获取全局转移偏差；

第2.2步、构建用户出行意图向量

用户决定出行目标往往是选择一个类型，而数据集中每个位置均拥有一个所属的类别c_i，恰好与用户出行目的需求匹配，因此直接将其作为用户出行意图向量即可，类别表示如下：

其中，n_c代表了用户出行意图向量的数量，d表示向量维度，因此，用户出行目的r_pur可以表示为：

r_pur＝c_i。

本技术方案进一步的优化，所述第3步具体步骤为，

第3.1步、构建时空知识图谱模型

基于翻译的知识图谱模型是将知识图谱中的实体和关系看成两个矩阵，实体矩阵结构为n×d，其中n表示实体数量，d表示每个实体向量的维度，矩阵中的每一行代表了一个实体的词向量；而关系矩阵结构为r×d，其中r代表关系数量，d表示每个关系向量的维度模型训练后模型的理想状态，从实体矩阵和关系矩阵中各自抽取一个向量，进行L2范数运算：

a_i可以表示任意一个向量；

知识图谱模型将三元组(h,r,t)嵌入到满足h+r≈t的过渡空间中，其中h、r、t表示头、关系和尾实体，在移动行为学习场景中，用户和位置均可以被视为“实体”，因此，用户u和位置v的关系被定义为：

为了避免过拟合和学习模型参数值过大的问题，添加约束的规范嵌入：

v，r，有||u||₂≤1，||v||₂≤1和||r||₂≤1；

根据上述代表用户移动行为的访问序列向量和出行目的的用户出行意图向量，可以生成对应的三元组(u,(r_seq,r_pur),v)，用于记录用户u在移动行为r_seq后，根据出行意图目的r_pur，进行了位置地点v的访问；

第3.2步、用户签到行为和出行目的表示

为了捕捉两个关系的重要性，应用关系级注意力来计算权重的影响：

其中，MLP_r(·)是两层神经网络，输入用户向量和关系向量的拼接，然后得到用户对该关系的重视程度；

第3.3步、用户位置预测学习目标

给定定义的分数函数f_r(u,v)，用户位置预测学习的目标为：

其中γ是边距，D和D’是三元组正负样本的集合，而u,u′和v,v′分别代表正/负用户以及正/负地点，负样本通过随机替换正样本中的用户或者地点得到。

本技术方案进一步的优化，所述第4步具体步骤为，

根据给定用户u的历史访问序列和出行意图，预测用户u访问类别c的位置v_c的概率为：

通过计算类别c下所有位置的概率，可以得到用户对各个地点的感兴趣概率，从而得到它可能最感兴趣的n个地点，即作为位置预测结果返回。

区别于现有技术，上述技术方案具有如下有益效果：

1)本发明开创性地提出了一种面向用户出行意图的时空知识图谱构建方法，相比以往将签到记录以矩阵形式或图结构建模位置预测模型的输入，本发明利用知识图谱独特的三元组形式表征每一条记录，极大地缓解了数据稀疏性问题。

2)本发明分别针对地理位置进行了独特的编码和解析，该编码可以唯一表示地球上任何一个位置，且距离越近的地点编码序列越相似，比以往模型在经纬度位置捕捉方面更加精准，便于拟合用户活动范围围绕一个位置中心的特点。

3)本发明考虑用户移动行为的时间周期性，将时间建模为24*7个向量，独立表示一周中每天的24小时的特征，在时间属性地覆盖方面更加全面。

4)考虑用户出行意图，本发明更精准地匹配现实需求。利用移动行为图谱建模注意力网络和相应的位置预测模型，实现了面向用户出行目标的行为移动图谱构建，相关实验证明了该模型能提高位置预测的准确度。

附图说明

图1为面向用户意图的时空知识图谱示意图；

图2为用于位置预测的知识图谱联合注意力网络模型框架示意图；

图3为面向用户意图的时空知识图谱构建方法的流程图；

图4为位置服务数据集Foursquare中纽约、东京和伊斯坦布尔城市用户统计信息；

图5为序列感知的个性化注意力网络示意图；

图6为关系级别的注意力学习示意图；

图7为三个城市位置预测结果比较示意图。

具体实施方式

为详细说明技术方案的技术内容、构造特征、所实现目的及效果，以下结合具体实施例并配合附图详予说明。

时空知识图谱的构建主要包括两个部分，一是利用时空数据构建用户移动行为的图谱表示，参阅图1所示，为面向用户意图的时空知识图谱示意图；二是构建基于时空知识图谱的位置预测模型，该模型由基于翻译的知识图谱和序列感知的注意力网络组成，模型的框架如图2所示，为用于位置预测的知识图谱联合注意力网络模型框架示意图。

从用户签到数据的收集直至最后位置预测结果的生成一共分为4个步骤，其流程图如图3所示，为面向用户意图的时空知识图谱构建方法流程图，以下结合具体数据集对本专利的实现流程做进一步说明。

第1步、位置服务数据的收集和预处理

1.1数据采集

以基于位置服务社交网络Foursquare中三个城市(纽约、东京和伊斯坦布尔)的数据作为模型进行训练和预测的对象，提取其用户签到记录作为构建移动行为图谱的原始数据。其中Foursquare数据使用的是Dingqi Yang等人提供的数据集，该数据集提供了从2012年4月至2014年1月的用户签到数据，选取了其中三个城市的数据作为研究对象。参阅图4所示，为三个城市的用户数据情况示意图。

1.2数据处理

在数据采集之后，需要对原始数据进行预处理，以输入至模型中。由于面向用户意图的时空知识图谱是以用户为单位构建的，因此签到记录可以使用用户ID分组。具体流程如下所述：

-签到时间根据所选择的粒度切分成不同的时间区间，也就是时间槽。每个具体时间能映射到相应的时间槽中，最终可以用时间槽ID表示签到的具体时间。

-签到地点所在的位置信息以一串唯一的编码序列表示，根据获取到数据中全部签到地点涉及的经纬度。分别将经度和纬度输入编码器，进而得到一串唯一的序列表示，位置越相近的位置，序列越相似。

-经过预处理后的签到记录涉及的属性信息包括：用户ID、地点ID、类别ID、时间槽

ID、地理位置向量。

每个数据集中，按照上述的方法划分时间槽并得到地理位置向量，具体方式为将时间均以周为周期划分成24*7＝168个时间槽，将用户签到记录中的具体访问时间映射至时间槽中，以对应的时间槽ID表示签到时间信息；将经纬度输入编码器，生成十二位的位置序列，再将时间序列输入神经网络中生成唯一的向量以表示位置信息。

1.3数据重构

三个数据集中，训练集和测试集的比例分别为80％和20％，并且为了保障预测未来访问地点的任务需求，出现在测试集中的访问记录，其地点不会出现在训练集中，并且访问时间均在训练集之后。

定义1：时空知识图谱节点的嵌入向量，定义如下：

集合U＝{u₁,u₂,…,u_|U|}，V＝{v₁,v₂,…,v_|V|}，和C＝{c₁,c₂,…,c_|C|}分别表示用户，地点和地点类别(用户意向)的向量集合。其中，向量

和

d^u、d^v、d^c分别为三种向量的维数。

定义2：每个地点代表一个特定的地理位置(例如，XX餐厅或者XX博物馆)。每个地点

都隶属于一个类别

定义3：签到记录。每一条签到活动为一个三元组(u,v,t)，代表用户u在时间t访问位置v。

定义4：签到序列。签到序列

是一组按时间顺序排列的特定用户的签入记录。

第2步、建立序列访问向量和出行意图向量

在本发明考虑的面向时空移动行为建模场景中，每个用户对应一组图谱，按照步骤1的设置，每个数据集中每个用户的信息是由该用户所有的签到记录组成，而在每条记录中用户访问的历史序列表示和用户出行意图则为用户画像不可或缺的一部分，因此问题关键在于如何更好地结合历史轨迹中的时空上下文以及用户的意图。

因此，该部分将从：历史访问向量的构建、用户出行意图向量的构建两个部分进行叙述。

第2.1步、利用预处理后的历史签到记录建立访问序列向量

用户访问的顺序规律性对于学习其个性化偏好具有重要意义，时间越近的历史记录，对用户位置预测的结果影响越大，即历史记录对用户当下访问的影响与间隔时间呈负相关。受项目推荐字段中用户-项目交互表示的成功启发，这里考虑历史序列行为，构造一个自适应关系的向量。

注意力机制是在计算能力有限的情况下，将计算资源分配给更重要的任务，同时解决信息超载问题的一种资源分配方案。在神经网络学习中，一般而言模型的参数越多则模型的表达能力越强，模型所存储的信息量也越大，但这会带来信息过载的问题。那么通过引入注意力机制，在众多的输入信息中聚焦于对当前任务更为关键的信息，降低对其他信息的关注度，甚至过滤掉无关信息，就可以解决信息过载问题，并提高任务处理的效率和准确性。

通过采用个性化注意力，模型可以捕捉用户对不同历史签到的差别关注，从而更完整地学习用户历史访问序列对位置预测的影响，整体处理流程如图5所示。需按照如下方法构造用户签到序列中的每个记录：

其中v_i和t_i分别代表该条记录s中用户访问的地点和时间，concat(·)为拼接函数，w表示训练的参数。loc(·)是地理编码方法。这里采用了开放位置代码的编码方法。首先将经纬度位置转换为一串字符序列，接着利用循环神经网络对该序列学习，得到唯一的n维向量编码作为地理位置的表示。

现实中存在许多用户，访问了成百上千的地点，时间久远的历史记录可能并不具有参考价值，这就是经典的长尾问题。由于一个用户历史记录数量过于庞大且无法反映当下用户的移动性，因此历史序列截取了最近的n个固定历史记录窗口。给定最近的签到记录

用户当下的历史记录可以唯一被编码为：

其中，f(·)表示聚合操作，用于将L条历史记录聚合成一个向量表示，α表示与用户无关的可训练向量，以获取全局转移偏差，使结果更为准确。聚合操作可以选择多种不同的方式。为了捕捉不同顺序的历史记录的不同重要性，采用了自适应和位置感知的个性化注意机制，整体处理流程如图5所示，它能够兼顾位置项链和序列顺序，最终能够得到用户的动态偏好。

第2.2步、构建用户出行意图向量

在用户出行之前，总会有最终的目的，例如，当下电影《哈利波特》重映，小明想寻找影院，所以位置预测问题只需要考虑影院类型的地点。这一场景在现实生活中得到了广泛的应用，美团、大众点评等移动应用程序均已包含了大量位置类型信息的选择，并且都放在了显著的位置，以供用户事先进行选择。

用户决定出行目标往往是选择一个类型，例如：餐厅、影院、酒吧等等。而数据集中每个位置均拥有一个所属的类别c_i，恰好与用户出行目的需求匹配。因此直接将其作为用户出行意图向量即可，类别集合表示如下：

r_pur＝c_i

第3步、挖掘时空知识图谱的用户偏好与移动行为规律

知识图谱主要目标是用来描述真实世界中存在的各种实体和概念，以及他们之间的关系，因此可以认为是一种语义网络。其基本组成单位是“实体—关系—实体”三元组，以及实体及其相关属性的键值对，实体间通过关系相互联结，构成网状的知识结构。

第3.1步、构建时空知识图谱

基于翻译的知识图谱(TranE)是将知识图谱中的实体和关系看成两个矩阵。实体矩阵结构为n×d，其中n表示实体数量，d表示每个实体向量的维度，矩阵中的每一行代表了一个实体的词向量；而关系矩阵结构为r×d，其中r代表关系数量，d表示每个关系向量的维度模型训练后模型的理想状态，从实体矩阵和关系矩阵中各自抽取一个向量，进行L2范数运算：

a_i可以表向量a的第i个维度上的数值。得到的结果近似于实体矩阵中的另一个实体的向量，从而达到通过词向量表示知识图谱中已存在的三元组的关系。

TransE是各种基于知识图谱技术中的典型方法，它将三元组(h,r,t)嵌入到满足h+r≈t的过渡空间中，其中h、r、t表示头、关系和尾实体。在移动行为学习场景中，用户和位置均可以被视为“实体”。因此，用户u和位置v的关系被定义为：

r代表用户和地点之间的关系，即时空上下文，下文将详细描述。为了避免过拟合和学习模型参数值过大的问题，添加约束的规范嵌入：

v，r，有||u||₂≤1，||v||₂≤1和||r||₂≤1。

值得注意的是，当下有各种基于翻译的方法可以建模不同的关系模式，例如对称/非对称、组合和反演等等。由于本发明主要关注于利用历史记录序列和用户出行意图进行移动行为建模。因此，问题关键是掌握模型中的关系向量r，将其编码为用户的连续签到行为和用户出行意图的融合。

根据上述代表用户移动行为的访问序列向量和出行目的的用户出行意图向量，可以生成对应的三元组(u,(r_seq,r_pur),v)，用于记录用户u在移动行为r_seq后，根据出行意图目的r_pur，进行了位置地点v的访问。对于r_seq,r_pur信息的融合，则是下一步需要考虑的操作。

第3.2步、用户签到行为和出行目的表示

在本发明考虑的面向时空移动行为图谱建模场量中，每个用户对应一组图谱，按照步骤1的设置，每个数据集中每个用户的信息图谱是由该用户所有的签到记录组成，而在每条记录中，用户和地点可以分别被看作是知识图谱的头尾节点,用户访问的历史序列表示和用户出行意图可作为三元组的关系，因此问题构建时空知识图谱的关键在于如何更好地结合历史轨迹中的时空上下文以及用户的意图。

其中，MLP_r(·)是两层多层感知机，输入用户向量和关系向量的拼接，从而得到用户对该关系的重视程度。rⁱ代表的是访问时序向量或出行意图向量，通过计算二者的权重来获得用户对两者的关注程度。最典型的MLP包括三层结构：输入层、隐藏层和输出层，MLP神经网络不同层之间是全连接的(全连接：上一层的任何一个神经元与下一层的所有神经元都有连接)。

第3.3步、用户位置预测学习目标

给定定义的分数函数f_r(u,v)，用户位置预测学习的目标(损失函数)为：

其中γ是边距，D和D’是三元组正负样本的集合，而u,u′和v,v′分别代表正/负用户以及正/负地点，负样本通过随机替换正样本中的用户或者地点得到。训练目标为实现正负样本距离最大化，损失函数收敛，代表模型训练完毕。

第4步、根据新用户历史记录进行位置预测

根据给定用户u的历史访问序列和出行意图，本发明可以预测用户u访问类别c的位置v_c的概率为：

在预测阶段，每个用户的历史签到记录首先被转化为翻译向量；然后将用户出行意图作为网络的输入，经过注意力机制、循环神经网络和基于知识图谱的位置预测网络，最终得到地点的概率分布作为位置预测结果。

更新后的节点向量进一步作为位置预测网络的输入，按照上述方法，先对每个图谱节点向量添加包含图谱所有节点的注意力信息，然后所有的图谱节点累加起来作为图谱整体向量表示，之后分别与所有地点向量相乘，其乘积最后通过计算TransE模型的分数函数作为位置预测结果。

模型在训练阶段，对于每一个用户对应的签到记录，将训练数据中的签到时间发生在构建图谱记录之后的所有记录的地点作为真实值，以知识图谱三元组的方式表示。整体模型利用MarginLoss作为目标函数。本发明提出的位置预测模型在Foursquare三个城市数据集中对比了6种位置预测模型，并将本模型的变种(不包含用户出行意图、LSTM/RNN替换个性化注意力网络)的方法作为比较模型，其预测结果通过精确率、召回率、平均精度均值和归一化折扣累计收益4种评估指标评估。结果比较如图7所示，每行对应一种评估指标，其中左边为NYC数据集的结果，中间为TKY数据集的结果，右边为IST数据集的结果。每个结果对应的模型如图7所示，其中六种比较模型分别为SAE-NAD，LGLMF，APOIR，STA，SUCP和ContextsPOI，最后一种表示本发明提出的面向用户意图的时空知识图谱的位置预测模型。从图中可以看出，本发明提出的模型的性能表现均优于比较模型，印证了本发明提高了位置预测任务上的预测效果。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。