CN116450850A

CN116450850A - 一种基于序列编码器的时空知识图谱补全方法

Info

Publication number: CN116450850A
Application number: CN202310407405.6A
Authority: CN
Inventors: 贾玮; 马宗民; 汤闻易; 丁辉; 张阳
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2023-04-17
Filing date: 2023-04-17
Publication date: 2023-07-18

Abstract

本发明公开了一种基于序列编码器的时空知识图谱补全方法。本发明属于知识图谱推理领域。本发明被运用到时空知识图谱补全任务中，主要针对海量时空RDF数据知识补全。为解决该问题，该方法包括两个步骤：时空感知关系表示和最终评分函数评估。第一阶段将时空信息分解成不同的标记，并利用LSTM获得时空感知关系的表示；第二个利用评分函数对实体和关系的表示进行更新，从而预测缺失的实体。本发明的主要用途是对时空知识图谱补全，从而使得时空知识图谱更加完整。

Description

一种基于序列编码器的时空知识图谱补全方法

技术领域

本发明涉及一种时空知识图谱补全方法，特别是一种基于序列编码器的时空知识图谱补全方法。

背景技术

近年来，大量的知识图谱不断涌现，如DBpedia，YAGO和Freebase等。这些知识图谱被建模为多关系图，其中节点表示实体，边表示两个实体之间的关系。由于知识图谱能够以结构化知识表示丰富的语义因袭，因此被应用于各种场景，包括信息提取，智能问答和推荐系统等。然而，大多数的知识图谱存在不完整性。例如，在Freebase中，超过70％的人未知其出生地点。因此，知识图谱补全，即自动预测知识图谱中缺失的实体，是一项至关重要的研究任务。

现有的知识图谱补全模型主要分为两类：静态知识图谱补全和时态知识图谱补全。具体而言，静态知识图谱中的一个事实被建模为RDF三元组，即(主语、谓语、宾语)，其中主语和宾语也称为头实体和尾实体。然而，静态知识图谱补全忽略了时间信息，无法捕捉事实的时间有效性。因此，知识图谱补全任务的最新进展已扩展到更具挑战性的时态知识图谱领域。通常，时态知识图谱中的时间事实被建模为(主语、谓语、宾语、时间戳)。大部分现有的时态知识图谱补全模型将时间信息编码成关系或将时态知识图谱视为一系列快照。尽管现有的方法已经在时态知识图谱补全方面展现了一定的有效性，但它们忽略了事实的空间信息。在现实生活中，大量的实体和关系包含空间和时间信息，即事实会随着时空的变化而发生变化。例如，在空管领域中，航班A的始发地是B1，时间C1和位置(D1，D2)，其中D1和D2分别表示经度和纬度。然后，该航班A的目的地是B2，时间C2和位置(D3，D4)。可以注意到，知识图谱可以随着时间和地点的变化而变化。因此，将时间和空间信息整合到知识图谱的实体和关系中具有重要意义。然而，目前关于时空知识图谱补全的研究却很少。因此，解决时空知识图谱补全具有重要的研究价值。

发明内容

发明目的：本发明所要解决的技术问题是针对现有技术的不足，提供一种基于序列编码器的时空知识图谱补全方法。

为了解决上述技术问题，本发明公开了一种基于序列编码器的时空知识图谱补全方法，包括以下步骤：

步骤1，构建时空RDF数据模型，具体如下：

(s,p:<tp,lp>,o)

其中s和o为头实体和尾实体，p为关系，tp和lp为附加在关系上的时间信息和空间信息；

其中，时间信息的形式为：yyyy-mm-dd-hh-MM，表示yyyy年mm月dd日hh时MM分；

空间信息的格式为：经度，纬度，表示具体的经度值和纬度值；

当关系具有时空属性时，将时间信息和空间信息附加在关系上。

步骤2，对时空信息进行分解，得到年、月、日、时、分、经度和纬度词项，其中，时间信息分解为50个令牌，具体方法如下：

步骤2-1，对时间信息中的年份进行分解：将年份yyyy中每个字符分解为0-9，得到年词项；

步骤2-2，对时间信息中的月份进行分解：将月份mm中每个字符分解为10-19，得到月词项；

步骤2-3，对时间信息中的日期进行分解：将日期dd中每个字符分解为20-29，得到日词项；

步骤2-4，对时间信息中的时进行分解：将时hh中每个字符分解为30-39，得到时词项；

步骤2-5，对时间信息中的分进行分解：将分MM中每个字符分解为40-49，得到分词项；

步骤2-6，对空间信息进行分解：经度和纬度分别在数值上加上50作为经度词项和纬度词项。

步骤3，根据上述词项，进行时空感知的关系编码，得到时空感知关系表示，具体包括：

步骤3-1，将关系以及年、月、日、时、分、经度和纬度词项拼接为一个序列，并对齐向量进行随机初始化；

步骤3-2，利用递归神经网络对上述经过初始化的序列进行编码，得到时空感知的关系表示，具体方法包括：

将步骤3-1中经过初始化的序列输入到LSTM模型中，并采用LSTM模型的输出作为时空感知关系的嵌入特征，完成编码；其中LSTM模型的计算方法如下：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t·tanh(c_t)

其中，i_t，f_t和o_t分别是输入门限，遗忘门限和输出门限；W_i，W_f和W_o分别是输入门限，遗忘门限和输出门限的权重参数；b_i，b_f和b_o分别是输入门限，遗忘门限和输出门限的偏置参数；记忆单元c_t根据历史记忆c_t-1和当前记忆更新参数；σ是sigmoid函数，tanh()是双曲正切函数；b_c是记忆单元的偏置参数，x_t是序列第t个数值，h_t-1是LSTM模型处理第t-1个数值时的隐藏状态，h_t是LSTM模型在处理第t个数值时的隐藏状态。

步骤4，补全知识图谱：对于知识图谱中缺失项，利用时空RDF数据模型中头实体的表示、时空感知关系表示以及尾实体的表示三者之间的关系的先验知识，得到缺失项的表示，设计基于L1距离的评分函数，利用评分函数对缺失项的表示的特征进行排序，选择特征空间中L1距离最小的结果作为补全结果。

所述的补全知识图谱，具体包括：

步骤4-1，构建补全模型，用于时空知识图谱补全；根据头实体的表示+尾实体的表示＝时空感知关系表示的先验知识，构建评分函数；

所述的补全模型基于TransE模型构建而成。

所述的构建评分函数，具体如下：

f(s,r:<t,l>,o)＝||e_s+e_rtl-e_o||₁

其中，s代表头实体，r代表关系，o代表尾实体，t代表时间关系，l代表空间关系，e_s代表头实体的特征表示，e_rtl代表时空感知关系的特征表示，e_o代表尾实体的特征表示，||||₁代表L1距离函数，即坐标差值绝对值的和。

步骤4-2，训练所述补全模型，利用交叉熵损失函数来更新实体和关系的向量，具体方法如下：

使用交叉熵作为训练时的目标函数L，具体如下：

其中，F⁺代表由知识图谱中存在关系的实体对组成的正样本训练数据集；F^-代表由知识图谱中任意两个无关系实体对组成的负样本训练数据集；y代表实体对之间有关系的真实概率；代表补全模型输出的实体对之间有关系的预测概率，计算方法如下：

其中，sigmoid表示sigmoid函数，softmax函数为：

其中，e表示自然对数的底，z_j表示输入特征向量z的第j个数值，K为特征向量的数值数量。

步骤4-3，使用训练好的补全模型进行预测，利用L1距离来匹配关系中缺失的头实体或尾实体，完成时空知识图谱补全，具体方法如下：

区分知识图谱中缺失的项目，所述缺失的项目为头实体s，关系r或尾实体o中的一项，将不缺失的项目投影到预设维数的特征空间，使用步骤4-1所述的评分函数对每一个备选的缺失项目进行评分，选择得分最高的填入缺失项目中，即完成补全操作。

有益效果：

本发明结合时空数据特点，设计了时空RDF数据模型，并将时空信息附件在关系上。本发明利用递归神经网络有效地学习到时空感知关系的嵌入，并通过评分函数得到实体和关系的最终表示，从而实现了时空知识图谱补全。

附图说明

下面结合附图和具体实施方式对本发明做更进一步的具体说明，本发明的上述和/或其他方面的优点将会变得更加清楚。

图1为本发明所述的一种基于序列编码器的时空知识图谱补全方法的流程图。

图2为本发明所述的时空感知的关系编码的示意图。

图3为本发明与现有模型在OpenSky数据集上效果对比示意图。

图4为本发明与现有模型在YAGO数据集上效果对比示意图。

具体实施方式

本发明设计了一种基于序列编码器的时空知识图谱补全方法，其主要包含两个步骤：时空感知关系编码和最终评分函数评估。第一阶段将时空信息分解成不同的标记，并利用LSTM获得时空感知关系的表示；第二个利用评分函数对实体和关系的表示进行更新。本发明的主要用途是解决时空知识图谱补全任务，从而使得时空知识图谱更加完整，从而为下游任务服务，比如智能问答、推荐系统等应用。

本方法基于时空数据，建模时空RDF数据模型，然后对时空数据进行分解，并利用递归神经网络获得时空感知的关系嵌入，最后设计评分函数解决时空知识图谱补全任务。本发明具体的技术方案包括以下内容：

(1)时空RDF数据模型

为了更好地表示时空数据，本方法采用的是将时间信息和空间信息添加在谓语的时空RDF模型。针对该时空RDF数据，要对其进行如下分析：

1)时空RDF数据模型为(s,p:<t_p,l_p>,o)，其中s和o为头实体和尾实体，p为关系，t_p和l_p为附加在关系上的时间信息和空间信息；

2)当关系具有时空属性时，时间信息和空间信息附加在关系上。

(2)时空信息分解

本发明考虑时空信息的特点，需要对时空信息进行如下分解：

1)时间信息分解-年份：将年份yyyy中每个字符分解为0-9；

2)时间信息分解-月份：将月份mm中每个字符分解为10-19；

3)时间信息分解-日期：将日期dd中每个字符分解为20-29

4)时间信息分解-时：将时hh中每个字符分解为30-39；

5)时间信息分解-分：将分MM中每个字符分解为40-49；

6)空间信息分解：由于时间信息共占50个词项，所以经度和纬度分别在其数值上加上50作为其经度词项和纬度词项。

(3)时空感知的关系编码

本发明利用递归神经网络对时空感知的关系进行表示学习，其步骤大致如下：

1)将关系、年、月、日、时、分、经度和纬度词项使用随机初始化的向量投影到特定维度的特征空间中；

2)将上述信息当做一个序列，依次输入到递归神经网络(例如，LSTM)，实现对序列信息进行编码，并将模型的输出当做时空感知的关系表示。

(4)评分函数，

为了刻画事实三元组的内部关联性，设计了如下所示的评分函数：

1)利用头实体的表示＝尾实体的表示-时空感知的关系的表示来构建评分函数；

2)利用交叉熵损失函数来对更新实体和关系的向量；

得到实体和关系的表示后，利用L1距离来预测缺失的头实体或尾实体，从而解决时空知识图谱补全任务。

实施例1：

如图1所示是本发明所述的一种基于序列编码器的时空知识图谱补全方法的流程图。其具体流程描述如下：

(1)时空知识图谱输入

根据时空RDF数据模型，将时空数据转为(s,p:<t_p,l_p>,o)，其中s和o为头实体和尾实体，p为关系，t_p和l_p为附加在关系上的时间信息和空间信息。时间信息的形式为“yyyy-mm-dd-hh-MM”,表示具体的某年某月某日某时某分；空间信息的格式为“经度，纬度”，表示具体的经度值和纬度值；当关系具有时空属性时，时间信息和空间信息附加在关系上。

(2)时空感知的关系编码

该阶段旨在将时空信息分解为时空标记序列并将其嵌入到关系表示中。本发明将时间信息分解为50个令牌。其中，年、月、日、小时和分钟的令牌范围分别为0到9、10到19、20到29、30到39和40到49。因此，每个时间信息的序列标记的长度设置为12，其中年、月、日、小时和分钟的长度分别为4、2、2、2和2。然后，本发明将空间信息分解为两个标记即经度和纬度。因为时间标记的数量是50，所以本发明将经度和纬度分别加上50来表示最终的空间信息。比如对于知识(B-2006,destination:<2019-07-31 00:10,(18,23)>,EDDM)，编码模型将时间信息2019-07-31 00:10按照单个数字拆分成数字序列：[2,0,1,9,0,7,3,1,0,0,1,0]，然后分别根据年、月、日、小时和分钟的编码规则将数字序列用下列令牌表示：[2,0,1,9,10,17,23,21,30,30,41,40]，即编码模型对时间信息用0-49的数字进行编码，规定年月日用不同数字表示的原因是让模型能够区分年月日。将空间信息用令牌[68,73](68＝18+50，73＝23+50)表示。

为了学习时空感知的关系表示，本发明该阶段的主要思想是将关系、时间信息和空间信息视为序列标记，作为RNN的输入。如图2所示，使用随机初始化的向量将时空关系序列投影到统一的指定维度(此处为200维)特征空间中，并将投影后的特征表示依次输入到LSTM(Long short-term memory)模型(参考文献Hochreiter S,Schmidhuber J.Longshort-term memory[J].Neural computation,1997,9(8):1735-1780.)中，并采用模型的输出作为时空感知关系的嵌入特征。

LSTM的计算公式如下：

i_t＝σ(W_i·[h_t-1,x_t]+b_i)

f_t＝σ(W_f·[h_t-1,x_t]+b_f)

o_t＝σ(W_o·[h_t-1,x_t]+b_o)

h_t＝o_t·arnh(c_t)

其中，i_t，f_t，o_t分别是输入门限，遗忘门限和输出门限；W_i，W_f，W_o分别是上述门限的可训练权重参数；b_i，b_f，b_o分别是上述门限的可训练偏置参数；记忆单元c_t根据历史记忆c_t-1和当前记忆更新参数；σ是sigmoid函数/>tanh是双曲正切函数。

(3)评分函数

本发明基于TransE(Translation embedding)模型(参考文献Bordes A,UsunierN,Garcia-Duran A,et al.Translating embeddings for modeling multi-relationaldata[J].Advances in neural information processing systems,2013,26.)，根据头实体表示+时空感知的关系表示＝尾实体表示的先验知识，设计了如下评分函数：

f(s,r:<t,l>,o)＝||e_s+e_rtl-e_o||₁。

在训练补全模型时，知识图谱补全问题可以等价为预测正确与否的二分类问题，因此使用交叉熵作为训练时的目标函数，公式如下：

其中，F⁺代表由知识图谱中存在关系的实体对组成的正样本训练数据集；F^-代表由知识图谱中任意两个无关系实体对组成的负样本训练数据集；y代表实体对之间有关系的真实概率；代表补全模型输出的实体对之间有关系的预测概率，计算

方法如下：

其中，sigmoid函数为softmax函数为/>j＝1,…,K

在使用补全模型预测时，寻找知识图谱中缺失的项目，比如有头实体s，关系r，缺少尾实体o，将头实体和关系投影到200维的特征空间，使用评分函数

f(s,r:<t,l>,o)＝||e_s+e_rtl-e_o||₁对每一个可能的尾实体进行评分，选择得分最高的尾实体填入缺失项目中。

实施例2：

一、数据集与实验设置

在该实施例中，使用两个不同类型的公开数据集OpenSky和YAGO。其中，OpenSky数据集涉及空中交通情况，包含了很多的特征信息，比如航班编码、始发地、目的地、经度、纬度等。为了更好地验证本文所提方法的性能，实验从flightlist_20190801-20190831.csv文件中提取了2019年8月1日至2019年7月7日这一个周的信息来进行实验。对于YAGO数据集，实验采用了包含时间信息和空间信息的YAGO 2.0.0_core。这两个数据集的统计信息如表1所示。

表1实验数据集详细信息

本发明采用知识图谱补全常用的四个评估标准Hits@1，Hits@3，Hits@10和MRR(Mean Reciprocal Ranks)来评估模型性能。其中，MRR是正确实体排名倒数的平均值，Hits@1，Hits@3和Hits@10是正确实体排在第一、前三和前十所占的百分比。通常来讲，MRR，Hits@1，Hits@3和Hits@10越高，模型的性能越好。

本发明与TA-TransE作比较。

二、知识图谱补全结果

图3和图4分别展示了本发明STSE与对比模型TA-TransE在OpenSky和YAGO数据集上在实体对齐任务上的实验结果。结合图3和图4，可以观察到本发明所提出的STSE在两个数据集上都获得了比TA-TransE更好的性能。原因可能是将空间信息和时间信息相结合可以为KGC任务提供更多有用的信息，这证明了考虑空间信息的优势。此外，如图3所示，对于YAGO数据集，STSE在Hits@3指标上比TA-TransE展现出巨大的优势。通过结合图3和图4，我们可以观察到STSE在OpenSky上的性能优于YAGO。原因可能是OpenSky的规模远大于YAGO。总体来说，我们可以得出如下结论，将时间信息和空间信息一起考虑可以提高时空知识图谱补全的性能。

此外，为了有一个更深层次的理解，STSE和TA-TransE模型的性能通过头部实体预测和尾部实体预测进行评估，如表2所示。从表2中，我们有两个观察结果。首先，对于STSE和TA-TransE模型，尾部实体预测的性能优于头部实体预测。通过分析这两个数据集，我们发现OpenSky的头部实体和尾部实体的数量分别为50431和8917。在YAGO数据集中，头部实体和尾部实体的数量分别为8389和2287。因此，原因可能是实体的数量可能会影响结果，而实体的数量越少，同一模型的性能越好。其次，在OpenSky数据集上，TA-TransE和STSE获得了相似的结果。此外，在YAGO数据集上，STSE在头部和尾部实体预测方面的表现优于TA-TransE。这一结果证明，将时间和空间信息结合在一起可以提高性能。

表2头尾实体预测结果

实施例3：

一种基于序列编码器的时空知识图谱补全方法具体采取如下步骤：

S1：从OpenSky数据库中20190701到20190731的数据中抽取航班事实，构建知识图谱，其中每一条三元组的格式为[头实体：航班注册号，关系：(目的地或出发地，yyyy-mm-dd-hh-MM，经度，维度)，尾实体：目的地或出发地的机场编号]；

S2：将三元组关系中包含的时空信息分解，得到年、月、日、时、分、经度和纬度词项的令牌表示；

S3：将上述词项的令牌表示使用随机生成的投影向量投影到指定维度的特征空间，得到时空感知关系表示，同时将头实体、尾实体也使用随机生成的投影向量投影到该特征空间中；

S4：使用LSTM神经网络对时空感知关系建模，并根据头实体的特征+时空关系特征＝尾实体的特征这一先验知识对LSTM神经网络的参数进行训练，得到时空知识图谱补全模型。对于知识图谱中某一缺失的三元组，比如[？,目的地:<2019-07-31 00:10,(18,23)>,EDDM]，首先将“目的地:<2019-07-31 00:10,(18,23)>”中的项目分解编码并投影到前述特征空间，并根据训练好的LSTM模型得到时空感知关系特征e_rtl，然后将“EDDM”投影到该特征空间得到尾实体特征e_o，最后根据评分函数f(s,r:<t,l>,o)＝||e_s+e_rtl-e_o||₁对知识图谱中出现的所有头实体进行评分，选择得分最高的头实体补全该三元组。

具体实现中，本申请提供计算机存储介质以及对应的数据处理单元，其中，该计算机存储介质能够存储计算机程序，所述计算机程序通过数据处理单元执行时可运行本发明提供的一种基于序列编码器的时空知识图谱补全方法的发明内容以及各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory，ROM)或随机存储记忆体(random access memory，RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术方案可借助计算机程序以及其对应的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序即软件产品的形式体现出来，该计算机程序软件产品可以存储在存储介质中，包括若干指令用以使得一台包含数据处理单元的设备(可以是个人计算机，服务器，单片机，MUU或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本发明提供了一种基于序列编码器的时空知识图谱补全方法的思路及方法，具体实现该技术方案的方法和途径很多，以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims

1.一种基于序列编码器的时空知识图谱补全方法，其特征在于，包括以下步骤：

步骤1，构建时空RDF数据模型；

步骤2，对时空信息进行分解，得到年、月、日、时、分、经度和纬度词项；

步骤3，根据上述词项，进行时空感知的关系编码，得到时空感知关系表示；

2.根据权利要求1所述的一种基于序列编码器的时空知识图谱补全方法，其特征在于，步骤1中所述的时空RDF数据模型，具体如下：

(s,p:<tp,lp>,o)

3.根据权利要求2所述的一种基于序列编码器的时空知识图谱补全方法，其特征在于，步骤2中所述的对时空信息进行分解，其中，时间信息分解为50个令牌，具体方法如下：

4.根据权利要求3所述的一种基于序列编码器的时空知识图谱补全方法，其特征在于，步骤3中所述的的时空感知的关系编码，具体包括：

步骤3-2，利用递归神经网络对上述经过初始化的序列进行编码，得到时空感知的关系表示。

5.根据权利要求4所述的一种基于序列编码器的时空知识图谱补全方法，其特征在于，步骤3-2中所述的利用递归神经网络对上述经过初始化的序列进行编码，具体方法包括：

i_t＝σ(W_i·[h_t-1，x_t]+b_i)

f_t＝σ(W_f·[h_t-1，x_t]+b_f)

o_t＝σ(W_o·[h_t-1，x_t]+b_o)

h_t＝o_t·tanh(c_t)

6.根据权利要求5所述的一种基于序列编码器的时空知识图谱补全方法，其特征在于，步骤4中所述的补全知识图谱，具体包括：

步骤4-2，训练所述补全模型，利用交叉熵损失函数来更新实体和关系的向量；

步骤4-3，使用训练好的补全模型进行预测，利用L1距离来匹配关系中缺失的头实体或尾实体，完成时空知识图谱补全。

7.根据权利要求6所述的一种基于序列编码器的时空知识图谱补全方法，其特征在于，步骤4-1中所述的补全模型基于TransE模型构建而成。

8.根据权利要求7所述的一种基于序列编码器的时空知识图谱补全方法，其特征在于，步骤4-1中所述的构建评分函数，具体如下：

f(s，r：<t，l>，o)＝||e_s+e_rtl-e_o||₁

其中，s代表头实体，r代表关系，o代表尾实体，t代表时间关系，l代表空间关系，e_s代表头实体的特征表示，e_rtl代表时空感知关系的特征表示，e_o代表尾实体的特征表示，|| ||₁代表L1距离函数，即坐标差值绝对值的和。

9.根据权利要求8所述的一种基于序列编码器的时空知识图谱补全方法，其特征在于，步骤4-2中所述的训练所述补全模型，具体方法如下：

使用交叉熵作为训练时的目标函数L，具体如下：

其中，sigmoid表示sigmoid函数，softmax函数为：

10.根据权利要求9所述的一种基于序列编码器的时空知识图谱补全方法，其特征在于，步骤4-3中所述的使用训练好的补全模型进行预测，具体方法如下：