CN114860854A

CN114860854A - 基于注意力机制的时序知识图谱推理方法、装置和设备

Info

Publication number: CN114860854A
Application number: CN202210482447.1A
Authority: CN
Inventors: 张骁雄; 杨琴琴; 刘浏; 刘姗姗; 田昊; 丁鲲; 蒋国权; 刘茗
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2022-08-05

Abstract

本申请涉及一种基于注意力机制的时序知识图谱推理方法、装置、计算机设备和存储介质。所述方法包括：通过构建时序知识图谱中每个时间段的知识图谱快照，得到每个时间段内每个实体的邻域信息；通过邻域聚合器对多个实体的全部关系对应的邻域信息进行聚合，得到每个实体的邻域特征表示；通过基于注意力机制的时序事件编码器根据目标实体在当前时刻的邻域特征表示和历史时刻的邻域特征表示确定包含多头信息的注意力权重矩阵，进而有选择地关注历史信息的时间实体表示序列，得到目标实体在当前时刻由时序事件编码器更新后的隐向量表示；通过前馈神经网络和多分类层网络根据隐向量表示对时序事件编码器进行编码打分，实现时序知识图谱推理。

Description

基于注意力机制的时序知识图谱推理方法、装置和设备

技术领域

本申请涉及知识图谱技术领域，特别是涉及一种基于注意力机制的时序知识图谱推理方法、装置、计算机设备和存储介质。

背景技术

近年来，知识图谱(Knowledge Graph，KG)作为结构化的语义知识库，用符号形式化的方式描述物理世界中概念及其相互关系，成为学界和业界的研究热点。然后，随着时间的推移，新的知识可能来源于各种新闻媒体以及社交软件中快速产生且不断演化的数据，需要将其不断的添加到KG当中，进而反映随时间推移知识库的演化发展。因此，如何记录随时间变化的事实以及研究其变化的趋势，具有重要意义。上述背景下的数据驱动的时序KG的知识推理，可以更具现有的KG和实时掌握知识变化的趋势。现有的模型的推理大体都是根据需推断的时间之前的真实事实进行推理的，例如最新的外推时序推理的模型Know-Evolve，和其扩展模型DyRep。这些方法可以持续推理未来事件图的事实，然而，却无法模拟循环事件的发生以及关键事实对未来事件的影响推断。Jin提出循环事件网络(RecurrentEvent Network,RE-NET)，能较好地解决现有动态图谱模型难以对多个时间点上高并发事件进行推理的问题，并对动态图谱在全时间域内的时间相关性进行建模，但是在历史推理依赖RNN及其变体LSTM及其变体来模拟历史演变规律，并依赖于多关系邻域聚合并发事件的实体表示。然而，尽管可以很好的解释历史发展变化的规律，但是这些方法不能正确的根据具体的预测问题解释与之相关的推理历史依据，而且缺乏面临长历史依赖时历史推理能力变差的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升时序知识图谱推理效果的基于注意力机制的时序知识图谱推理方法、装置、计算机设备和存储介质。

一种基于注意力机制的时序知识图谱推理方法，所述方法包括：

获取待推理的时序知识图谱，根据所述时序知识图谱中知识的时间标注，构建每个时间段的知识图谱快照，并进一步得到每个时间段内每个实体的邻域信息；

通过邻域聚合器对多个实体的全部关系对应的所述邻域信息进行聚合，得到每个实体的邻域特征表示；

将所述时序知识图谱中各个时间段各个实体的邻域特征表示输入基于注意力机制的时序事件编码器中；所述基于注意力机制的时序事件编码器根据目标实体在当前时刻的邻域特征表示和历史时刻的邻域特征表示确定包含多头信息的注意力权重矩阵，通过所述注意力权重矩阵有选择地关注历史信息的时间实体表示序列，得到所述目标实体在当前时刻由时序事件编码器更新后的隐向量表示；

通过前馈神经网络和多分类层网络根据所述隐向量表示对所述时序事件编码器进行编码打分，实现时序知识图谱推理。

在其中一个实施例中，还包括：通过邻域聚合器对多个实体的全部关系对应的所述邻域信息进行聚合，得到每个实体的邻域特征表示；所述邻域聚合器为多关系邻域聚合器、注意力聚合器或平均池化聚合器；

所述多关系邻域聚合器的模型结构为：

其中，

表示所述多关系邻域聚合器输出的实体的邻域特征表示，

表示实体s的关系r在时刻t的邻居节点集合，c_s表示实体s的在图中边的数量，用来作为归一化因子，l表示当前聚合器的层数，W_r表示实体o和s之间与关系相关的可训练参数，W_o表示实体s自循环的可训练参数，h_o，h_s分别表示实体o，s的嵌入向量通过多关系聚合器得到的中间层数的隐表示；

所述注意力聚合器的模型结构为：

其中，

表示所述注意力聚合器输出的实体的邻域特征表示，a_o＝softmax(v^Ttanh(W(e_s:e_r:(h_o+h_r))))，e_s表示当前预测实体嵌入向量，e_r表示当前预测关系r的嵌入向量，h_r表示实体e_s和e_r邻域信息对应的关系向量，e_o表示实体o的可嵌入向量表示，softmax(·)为归一化指数函数，v^T表示权值，W(·)表示可训练参数，tanh(·)表示tanh激活函数；

所述平均池化聚合器的模型结构为：

其中，

表示所述平均池化聚合器输出的实体的邻域特征表示。

在其中一个实施例中，还包括：获取目标实体在当前t时刻的邻域特征表示g_i,t；

获取所述目标实体在每个时间步长历史时刻的邻域特征表示g_i,t′，t′∈{t-τ,…,t}；

根据g_i,t和g_i,t′确定包含多头信息的注意力权重矩阵，并进一步确定所述目标实体在当前t时刻由时序事件编码器更新后的隐向量表示：

e_ij＝q_ij-(λ_zΔt+b_z)+M_ij

其中，W_q,W_k,

表示预设的线性投影矩阵，

表示包含多头信息的注意力矩阵权重，

矩阵是掩码矩阵，Δt＝T-t′，Δt为当前事件发生时间和预测任务时间的时间差，T表示当前预测任务对应的时间，|E|表示实体集合，q_ij表示实体j对于实体i的注意力分布值，d表示输入信息的维度，λ_z表示历史隐表示随时间衰减参数，b_z表示衰减偏置，i,j,k为时间索引，j,k∈t′，h_i,t为所述目标实体在当前t时刻由时序事件编码器更新后的隐向量表示。

在其中一个实施例中，还包括：通过前馈神经网络对实体及关系在当前t时刻由时序事件编码器更新后的隐向量表示进行解码；

通过softmax激活函数输出需要预测的实体或关系的概率分布。

在其中一个实施例中，还包括：根据实体的所述隐向量表示，得到关于实体历史信息的全局信息和局部信息；

根据所述全局信息和所述局部信息通过前馈神经网络和多分类层网络根据所述隐向量表示对所述时序事件编码器进行编码打分，实现时序知识图谱推理。

在其中一个实施例中，还包括：根据所述全局信息和所述局部信息通过前馈神经网络和多分类层网络根据所述隐向量表示对所述时序事件编码器进行编码打分，实现时序知识图谱推理；所述时序知识图谱推理包括给定一个t时刻的头实体和关系预测尾实体，以及给定一个t时刻的实体s预测关系。

在其中一个实施例中，由所述邻域聚合器、所述基于注意力机制的时序事件编码器、所述前馈神经网络和多分类层网络构成时序知识图谱推理模型，由所述时序知识图谱推理模型实现时序知识图谱推理之前，包括：通过Adam算法和预设的损失函数对所述时序知识图谱推理模型进行训练；其中，所述预设的损失函数为多分类的交叉熵损失函数，表示如下：

其中，p(o_t|s_t,r_t)表示根据头实体s_t和关系r_t出现尾实体o_t的概率，p(r_t|s_t)表示由实体s_t得到关系r_t的概率，logp(s_t)表示t时刻s实体的置信分数，λ₁表示实体预测的权重值，λ₂表示关系预测任务权重值。

一种基于注意力机制的时序知识图谱推理装置，所述装置包括：

预处理模块，用于获取待推理的时序知识图谱，根据所述时序知识图谱中知识的时间标注，构建每个时间段的知识图谱快照，并进一步得到每个时间段内每个实体的邻域信息；

邻域聚合器模块，用于通过邻域聚合器对多个实体的全部关系对应的所述邻域信息进行聚合，得到每个实体的邻域特征表示；

时序事件编码器模块，用于将所述时序知识图谱中各个时间段各个实体的邻域特征表示输入基于注意力机制的时序事件编码器中；所述基于注意力机制的时序事件编码器根据目标实体在当前时刻的邻域特征表示和历史时刻的邻域特征表示确定包含多头信息的注意力权重矩阵，通过所述注意力权重矩阵有选择地关注历史信息的时间实体表示序列，得到所述目标实体在当前时刻由时序事件编码器更新后的隐向量表示；

解码预测模块，用于通过前馈神经网络和多分类层网络根据所述隐向量表示对所述时序事件编码器进行编码打分，实现时序知识图谱推理。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

上述基于注意力机制的时序知识图谱推理方法、装置、计算机设备和存储介质，通过构建时序知识图谱中每个时间段的知识图谱快照，得到每个时间段内每个实体的邻域信息；通过邻域聚合器对多个实体的全部关系对应的邻域信息进行聚合，得到每个实体的邻域特征表示；通过基于注意力机制的时序事件编码器根据目标实体在当前时刻的邻域特征表示和历史时刻的邻域特征表示确定包含多头信息的注意力权重矩阵，通过注意力权重矩阵有选择地关注历史信息的时间实体表示序列，得到目标实体在当前时刻由时序事件编码器更新后的隐向量表示；通过前馈神经网络和多分类层网络根据隐向量表示对时序事件编码器进行编码打分，实现时序知识图谱推理。本发明提出基于注意力机制的时序知识图谱推理方法，融合并发事件实体对应关系下实体和关系的信息，使用多头注意力机制进行时序化推理，提升了时序知识图谱推理效果。

附图说明

图1为一个实施例中基于注意力机制的时序知识图谱推理方法的流程示意图；

图2为一个实施例中基于注意力机制的时序知识图谱推理方法的算法结构示意图；

图3为一个实施例中基于注意力机制的时序知识图谱推理装置的结构框图；

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基于注意力机制的时序知识图谱推理方法，包括以下步骤：

步骤102，获取待推理的时序知识图谱，根据时序知识图谱中知识的时间标注，构建每个时间段的知识图谱快照，并进一步得到每个时间段内每个实体的邻域信息。

时序知识图谱被定义为节点之间带有时间标签的有向图，为引入时间的维度信息，时序知识图谱中的事件被定义为四元组的形式：(头实体，关系，尾实体，时间)，用符号可以表示为(h,r,t,τ)。时序知识图谱的推理一般是在四元组的基础上，给定一个缺失一个条件的四元组的推理任务，根据现有的四元组数据信息推理这一缺失条件的可能性。由于时序知识图谱是由不同时刻下的知识图谱组成的序列图谱，把初始时刻的KG记作G₀，随时间的推移，整个时序知识图谱表示如下：

G₀→G₁→G₂→…→G_T→G_T+1→…

其中，G_T(0≤T≤N)表示T时刻的KG。G_T是T时刻实体和关系组成的有向图，表示为G_T＝(E_T,R_T)其中，

表示为节点集合，

表示关系结合，任何一条有向边表示一个三元组(h,r,t)(h,t∈E_T和r∈R_T)，因此GT也可以看做是一个三元组的集合。

为获取事件在不同时间、不同关系下的动态关系，本发明提出了基于注意力机制的时序知识图谱推理模型Attn-Net。

将实体和关系进行嵌入，通过构建时序知识图谱快照，获取每个时间段实体的邻域信息。

步骤104，通过邻域聚合器对多个实体的全部关系对应的邻域信息进行聚合，得到每个实体的邻域特征表示。

邻域聚合器用于提取目标实体在多关系下的隐藏特征，并聚合同一时间戳下的邻域信息，得到每个实体的邻域特征表示。

步骤106，将时序知识图谱中各个时间段各个实体的邻域特征表示输入基于注意力机制的时序事件编码器中。

基于注意力机制时序事件编码器用于捕获跨时间实体的时间依赖关系，多头注意力机制使用最后一个历史时刻的隐表示和前文历史信息做注意力，融合前文历史信息作为时序事件编码器最后的输出。基于注意力机制的时序事件编码器根据目标实体在当前时刻的邻域特征表示和历史时刻的邻域特征表示确定包含多头信息的注意力权重矩阵，通过注意力权重矩阵有选择地关注历史信息的时间实体表示序列，得到目标实体在当前时刻由时序事件编码器更新后的隐向量表示。

具体地，时序事件编码器通过建模整个图谱的联合概率捕捉事件在时间上和预测任务上的相关性。为通过历史信息有选择地强化预测任务相关的历史信息，本发明的时序编码器使用基于多头注意力机制的神经网络结构。整合历史信息的其中一种方式是有选择地关注历史信息的时间实体表示序列。本发明使用以下的方程式，在每个时间步长t′∈{t-τ,…,t}，根据时间依赖表示的实体嵌入向量h_i,t′生成最后的t时刻的隐表示向量，最终定义注意力时间编码器Attn如下：

e_ij＝q_ij-(λ_zΔt+b_z)+M_ij

其中，W_q,W_k,

表示预设的线性投影矩阵，

表示包含多头信息的注意力矩阵权重，

矩阵是掩码矩阵，Δt＝T-t′，Δt为当前目标事件发生时间和预测任务时间的时间差，T表示当前预测任务对应的时间，t’是t’<T，t是<T时刻的历史时间集合，|E|表示实体集合，q_ij表示实体j对于实体i的注意力分布值，d表示输入信息的维度，λ_z表示历史隐表示随时间衰减参数，b_z表示衰减偏置，i,j,k为时间索引，j,k∈t′，h_i,t为目标实体在当前t时刻由时序事件编码器更新后的隐向量表示。

其中g_i,t可以换成g_i,t'，g_i,t',t′∈{t-τ,…,t}作为整个历史时刻的隐表示，使用自注意力机制进行历史编码，将序列的历史时刻的实体隐表示和前文做自注意力得到时序化的编码向量，最后使用mean-pooling策略对其进行信息融合，最终得到整个历史图上的演变信息表示。

由于不同实体的历史信息长度不同的问题，需要对没有历史信息的部分进行掩码操作，使得注意力不计算没有历史信息的部分。最后注意力模型可以被设置为多头。

步骤108，通过前馈神经网络和多分类层网络根据隐向量表示对时序事件编码器进行编码打分，实现时序知识图谱推理。

根据多头注意力输出结果，使用全连层进行特征提取，最后使用逻辑回归(softmax)激活函数输出需要预测的实体或关系的概率分布。对于实体预测和关系预测，Attn-Net可以是一个多分类任务，每类分别对应一个实体或关系对象。给定一个t时刻(s,r)预测尾实体，其尾实体向量分类是与头实体s在t时刻前的尾实体密切相关，同理给定一个t时刻的实体s预测关系也可看成多分类任务。

具体地，Attn-Net可以捕获实体和关系在整个历史时段的语义表示，为更好的表示预测实体的置信分数，将头实体和关系以及尾实体编码通过前馈神经网络进行解码，最后使用softmax得到尾实体概率分数。基于以上表示，

p(o_t|s,r,G_t-m:t-1)＝σ(FFNN(e_s:e_r:h_t-1(s,r)))

其中e_s,

为头实体和关系实体的嵌入表示，

为s在t-1时刻头实体和关系的在时序编码器更新后的隐表示向量。

同样的，预测头实体和关系的概率可以表示为以下：

p(r_t|s,G_t-m:t-1)＝σ(FFNN(e_s:h_t-1(s)))

p(s_t|G_t-m:t-1)＝σ(FFNN(H_t-1))

其中，h_t-1(s)为头实体s在过去的局部信息表示，

为全局图的G_t-1图邻域聚合器表示。

为了总结整个图对当前实体预测的影响，保留全局信息的表示H_t以丰富当前时刻的历史信息表示，全局信息嵌入呈现了实体所在的图的整体变化趋势，局部信息h_t主要关注具体实体的结构表示信息。全局信息和局部信息分别关注了历史信息变化的不同层面。

为全局图的G_t-1图邻域聚合器表示。全局表示H_t-1和局部表示信息通过时序事件编码器得到跨时间的演化表示，表示如下：

H_t＝GRU(g(G_t),H_t-1)

G是上述提到的聚合器函数，

表示实体s在t时刻相关联的事件，Attn指的是基于注意力机制的时序编码器，Attn¹、Attn²使用1和2来区分使用了两次Attn，而不是只用一个Attn进行训练。在全局信息表示当中，使用GRU来更新表示，将全局表示的计算定义为

使用了最大池化操作捕捉全局图的特征表示。h_t(s)为预测任务中实体s的嵌入向量，h_t(s,r)表示预测任务中实体和关系嵌入向量拼接。

上述基于注意力机制的时序知识图谱推理方法中，通过构建时序知识图谱中每个时间段的知识图谱快照，得到每个时间段内每个实体的邻域信息；通过邻域聚合器对多个实体的全部关系对应的邻域信息进行聚合，得到每个实体的邻域特征表示；通过基于注意力机制的时序事件编码器根据目标实体在当前时刻的邻域特征表示和历史时刻的邻域特征表示确定包含多头信息的注意力权重矩阵，通过注意力权重矩阵有选择地关注历史信息的时间实体表示序列，得到目标实体在当前时刻由时序事件编码器更新后的隐向量表示；通过前馈神经网络和多分类层网络根据隐向量表示对时序事件编码器进行编码打分，实现时序知识图谱推理。本发明提出基于注意力机制的时序知识图谱推理方法，融合并发事件实体对应关系下实体和关系的信息，使用多头注意力机制进行时序化推理，提升了时序知识图谱推理效果。

在其中一个实施例中，还包括：通过邻域聚合器对多个实体的全部关系对应的邻域信息进行聚合，得到每个实体的邻域特征表示；邻域聚合器为多关系邻域聚合器、注意力聚合器或平均池化聚合器；多关系邻域聚合器的模型结构为：

其中，

表示多关系邻域聚合器输出的实体的邻域特征表示，

表示实体s的关系r在时刻t的邻居节点集合，c_s表示实体s的在图中边的数量，用来作为归一化因子，l表示当前聚合器的层数，W_r表示实体o和s之间与关系相关的可训练参数，W_o表示实体s自循环的可训练参数，h_o，h_s分别表示实体o，s的嵌入向量通过多关系聚合器得到的中间层数的隐表示；注意力聚合器的模型结构为：

其中，

表示注意力聚合器输出的实体的邻域特征表示，a_o＝softmax(v^Ttanh(W(e_s:e_r:(h_o+h_r))))，e_s表示当前预测实体嵌入向量，e_r表示当前预测关系r的嵌入向量，h_r表示实体e_s和e_r邻域信息对应的关系向量，eo表示实体o的可嵌入向量表示，softmax(·)为归一化指数函数，v^T表示权值，W(·)表示可训练参数，tanh(·)表示tanh激活函数；平均池化聚合器的模型结构为：

其中，

表示平均池化聚合器输出的实体的邻域特征表示。

在以上三个邻域聚合器中，多关系邻域聚合器效果最好。

在其中一个实施例中，还包括：根据实体的隐向量表示，得到关于实体历史信息的全局信息和局部信息；根据全局信息和局部信息通过前馈神经网络和多分类层网络根据隐向量表示对时序事件编码器进行编码打分，实现时序知识图谱推理。

在其中一个实施例中，如图2所示，由邻域聚合器、基于注意力机制的时序事件编码器、前馈神经网络和多分类层网络构成时序知识图谱推理模型Attn-Net。其中，邻域聚合器为多关系邻域聚合器，前馈神经网络为全连接解码层。由时序知识图谱推理模型实现时序知识图谱推理之前，包括：通过Adam算法和预设的损失函数对时序知识图谱推理模型进行训练；其中，预设的损失函数为多分类的交叉熵损失函数，表示如下：

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本发明中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在其中一个具体实施例中，为了评估本发明提出的方法，使用了常用的公开数据集WIKI和YAGO，YAGO数据集和WIKI都是大型的开源数据库，事件之间的时间间隔为一年。数据都包含头实体、关系、尾实体和事件发生的时间戳信息。按照8:1:1的比例划分训练集、验证集和测试集。

数据集的统计情况如下表1所列。

表1数据集统计

Table 1 Dataset Statistics

使用知识图谱推理中常用的两个指标：平均倒数排名(Mean ReciprocalRanking,MRR)和HITS@n,。HITS@n是指在实体预测中排名小于等于n的三元组的平均占比。该指标数值越低，表明正确实体在候选实体列表中排名越靠前，模型预测越准确。两个指标的具体的计算方法如下：

其中，N表示预测结果中总个数，rank表示预测结果中在实际输出中的排名。

其中，N表示预测结果的总个数，right表示预测结果中排名在前k的个数。

为了验证所提Attn-Net模型的性能，本发明采用的对比模型如下：

(1)HyTE：将加入时间戳的三元组(h,r,t,[Ts,Te])将时间表示为超平面，将三元组投影于这些超平面上，分别得到投影向量；

(2)R-GCN：静态的多关系图卷积模型；

(3)R-GCRN+MLP:通过将GCRN结合MLP解码器预测未来事实；

(4)RE-Net：通过基于RNN事件编码器和邻域聚合器对事件序列进行建模。

实验结果如下：

Attn-Net模型在数据集上的实验效果如表2表3所列。从表2和表3的实验结果可以发现：1)Attn-Net的效果总体上优于以往的时序推理模型。2)注意力机制对于时序知识推理的有效性得到了验证，在WIKI和YAGO两个公开数据集上，Attn-Net在Mean Rank指标上取得了一致的提升；同时，Attn-Net通过在RE-NET的基础上进一步考虑了聚合器中融合关系表示的重要性，总体上达到了最佳效果。3)在YAGO公开数据集上，Attn-Net不如Attn-Net(mean)的整体提升效果，在YAGO数据集上Attn-Net(mean)在Hit(@10)要高于Attn-Net1％。这说明平均池化策略更有助于融合精准的预测表示。

实验结果如下表2，在YAGO数据集上，Attn-Net在实体预测任务上的实验结果均最高，对比RE-Net，Attn-Net(mean)在MRR指标上有均有1.5％的提升，在Hit@3与Hit10上分别提升了1.3％和0.8％。这表明Transformer中decoder自注意力进行编码之后，再使用meanpooling策略融合每个历史信息的演变信息，可以进一步得到提升，并且更快的收敛到最优值。这是因为Attn-Net在时序事件编码时，可以有效的提出与推理相关的重要历史信息，RE-Net使用GRU进行循环事件建模推理时，与当前推理任务无关的历史信息影响最终结果的表征表示，导致预测精度下降。由此表明，mean策略和注意力机制对推理任务具有一定的提升效果。能够在整体上提高模型的推理能力。Attn-Net在对历史信息建模推理可以提升时序知识图谱对实体预测的准确度。

表2 YAGO数据集上实体预测实验结果

Table 2Experimental results of entity prediction on Yago dataset

如表2，YAGO数据集中，HyTE^[12]是属于静态的四元组推理方法，忽略实体时间之间的相互作用，所以在YAGO数据集上的推理效果较差，Attn-Net在实体预测任务上的实验结果均最高。对比RE-Net，Attn-Net在MRR有1.5％的提升，在Hit@3和His@10指标上均的提升，说明注意力编码器整体的预测效果都有提高。证明了注意力机制运用在时序序列编码器上的有效性。

如表3所示，Attn-Net(mean)对比RE-Net在MRR提升了2％，说明基于注意力的时序推理在WIKI数据集上整体上得到了优化。在Hit@3和Hit@10的提升效果不是很明显，说明在WIKI数据集上注意力的作用使得预测的整体排名有所提升，但是还没有达到一个较好的一个推理状态。

表3 WIKI数据集上实体预测实验结果

Table 3 Experimental results of entity prediction on WIKI dataset

在一个实施例中，如图3所示，提供了一种基于注意力机制的时序知识图谱推理装置，包括：预处理模块302、邻域聚合器模块304、时序事件编码器模块306和解码预测模块308，其中：

预处理模块302，用于获取待推理的时序知识图谱，根据时序知识图谱中知识的时间标注，构建每个时间段的知识图谱快照，并进一步得到每个时间段内每个实体的邻域信息；

邻域聚合器模块304，用于通过邻域聚合器对多个实体的全部关系对应的邻域信息进行聚合，得到每个实体的邻域特征表示；

时序事件编码器模块306，用于将时序知识图谱中各个时间段各个实体的邻域特征表示输入基于注意力机制的时序事件编码器中；基于注意力机制的时序事件编码器根据目标实体在当前时刻的邻域特征表示和历史时刻的邻域特征表示确定包含多头信息的注意力权重矩阵，通过注意力权重矩阵有选择地关注历史信息的时间实体表示序列，得到目标实体在当前时刻由时序事件编码器更新后的隐向量表示；

解码预测模块308，用于通过前馈神经网络和多分类层网络根据隐向量表示对时序事件编码器进行编码打分，实现时序知识图谱推理。

邻域聚合器模块304还用于通过邻域聚合器对多个实体的全部关系对应的邻域信息进行聚合，得到每个实体的邻域特征表示；邻域聚合器为多关系邻域聚合器、注意力聚合器或平均池化聚合器；多关系邻域聚合器的模型结构为：

其中，

表示多关系邻域聚合器输出的实体的邻域特征表示，

其中，

其中，

表示平均池化聚合器输出的实体的邻域特征表示。

时序事件编码器模块306还用于获取目标实体在当前t时刻的邻域特征表示g_i,_t；获取目标实体在每个时间步长历史时刻的邻域特征表示g_i,t′，t′∈{t-τ,…,t}；根据g_i,t和g_i,t′确定包含多头信息的注意力权重矩阵，并进一步确定目标实体在当前t时刻由时序事件编码器更新后的隐向量表示：

e_ij＝q_ij-(λ_zΔt+b_z)+M_ij

其中，W_q,W_k,

表示预设的线性投影矩阵，

表示包含多头信息的注意力矩阵权重，

矩阵是掩码矩阵，Δt＝T-t′，Δt为当前事件发生时间和预测任务时间的时间差，T表示当前预测任务对应的时间，|E|表示实体集合，q_ij表示实体j对于实体i的注意力分布值，d表示输入信息的维度，λ_z表示历史隐表示随时间衰减参数，b_z表示衰减偏置，i,j,k为时间索引，j,k∈t′，h_i,t为目标实体在当前t时刻由时序事件编码器更新后的隐向量表示。

解码预测模块308还用于通过前馈神经网络对实体及关系在当前t时刻由时序事件编码器更新后的隐向量表示进行解码；通过softmax激活函数输出需要预测的实体或关系的概率分布。

解码预测模块308还用于根据实体的隐向量表示，得到关于实体历史信息的全局信息和局部信息；根据全局信息和局部信息通过前馈神经网络和多分类层网络根据隐向量表示对时序事件编码器进行编码打分，实现时序知识图谱推理。

解码预测模块308还用于根据全局信息和局部信息通过前馈神经网络和多分类层网络根据隐向量表示对时序事件编码器进行编码打分，实现时序知识图谱推理；时序知识图谱推理包括给定一个t时刻的头实体和关系预测尾实体，以及给定一个t时刻的实体s预测关系。

关于基于注意力机制的时序知识图谱推理装置的具体限定可以参见上文中对于基于注意力机制的时序知识图谱推理方法的限定，在此不再赘述。上述基于注意力机制的时序知识图谱推理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于注意力机制的时序知识图谱推理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于注意力机制的时序知识图谱推理方法，其特征在于，所述方法包括：

将所述时序知识图谱中各个时间段各个实体的邻域特征表示输入基于注意力机制的时序事件编码器中；所述基于注意力机制的时序事件编码器用于根据目标实体在当前时刻的邻域特征表示和历史时刻的邻域特征表示确定包含多头信息的注意力权重矩阵，通过所述注意力权重矩阵有选择地关注历史信息的时间实体表示序列，得到所述目标实体在当前时刻由时序事件编码器更新后的隐向量表示；

2.根据权利要求1所述的方法，其特征在于，通过邻域聚合器对多个实体的全部关系对应的所述邻域信息进行聚合，得到每个实体的邻域特征表示，包括：

通过邻域聚合器对多个实体的全部关系对应的所述邻域信息进行聚合，得到每个实体的邻域特征表示；所述邻域聚合器为多关系邻域聚合器、注意力聚合器或平均池化聚合器；

所述多关系邻域聚合器的模型结构为：

其中，

表示所述多关系邻域聚合器输出的实体的邻域特征表示，

所述注意力聚合器的模型结构为：

其中，

表示所述注意力聚合器输出的实体的邻域特征表示，a_o＝softmax(v^Ttanh(W(e_s:e_r:(h_o+h_r))))，e_s表示当前预测实体嵌入向量，e_r表示当前预测关系r的嵌入向量，h_r表示实体e_s和e_r邻域信息对应的关系向量，eo表示实体o的可嵌入向量表示，softmax(·)为归一化指数函数，v^T表示权值，W(·)表示可训练参数，tanh(·)表示tanh激活函数；

所述平均池化聚合器的模型结构为：

其中，

表示所述平均池化聚合器输出的实体的邻域特征表示。

3.根据权利要求2所述的方法，其特征在于，将所述时序知识图谱中各个时间段各个实体的邻域特征表示输入基于注意力机制的时序事件编码器中；所述基于注意力机制的时序事件编码器根据目标实体在当前时刻的邻域特征表示和历史时刻的邻域特征表示确定包含多头信息的注意力权重矩阵，通过所述注意力权重矩阵有选择地关注历史信息的时间实体表示序列，得到所述目标实体在当前时刻由时序事件编码器更新后的隐向量表示，包括：

获取目标实体在当前t时刻的邻域特征表示g_i,t；

e_ij＝q_ij-(λ_zΔt+b_z)+M_ij

其中，W_q,W_k,

表示预设的线性投影矩阵，

表示包含多头信息的注意力矩阵权重，

矩阵是掩码矩阵，Δt＝T-t′，Δt为当前目标事件发生时间和预测任务时间的时间差，T表示当前预测任务对应的时间，|E|表示实体集合，q_ij表示实体j对于实体i的注意力分布值，d表示输入信息的维度，λ_z表示历史隐表示随时间衰减参数，b_z表示衰减偏置，i,j,k为时间索引，j,k∈t′，h_i,t为所述目标实体在当前t时刻由时序事件编码器更新后的隐向量表示。

4.根据权利要求3所述的方法，其特征在于，通过前馈神经网络和多分类层网络根据所述隐向量表示对所述时序事件编码器进行编码打分，实现时序知识图谱推理，包括：

通过前馈神经网络对实体及关系在当前t时刻由时序事件编码器更新后的隐向量表示进行解码；

通过softmax激活函数输出需要预测的实体或关系的概率分布。

5.根据权利要求4所述的方法，其特征在于，通过前馈神经网络和多分类层网络根据所述隐向量表示对所述时序事件编码器进行编码打分，实现时序知识图谱推理，包括：

根据实体的所述隐向量表示，得到关于实体历史信息的全局信息和局部信息；

6.根据权利要求5所述的方法，其特征在于，根据所述全局信息和所述局部信息通过前馈神经网络和多分类层网络根据所述隐向量表示对所述时序事件编码器进行编码打分，实现时序知识图谱推理，包括：

根据所述全局信息和所述局部信息通过前馈神经网络和多分类层网络根据所述隐向量表示对所述时序事件编码器进行编码打分，实现时序知识图谱推理；所述时序知识图谱推理包括给定一个t时刻的头实体和关系预测尾实体，以及给定一个t时刻的实体s预测关系。

7.根据权利要求6所述的方法，其特征在于，由所述邻域聚合器、所述基于注意力机制的时序事件编码器、所述前馈神经网络和多分类层网络构成时序知识图谱推理模型，由所述时序知识图谱推理模型实现时序知识图谱推理之前，包括：

通过Adam算法和预设的损失函数对所述时序知识图谱推理模型进行训练；其中，所述预设的损失函数为多分类的交叉熵损失函数，表示如下：

8.一种基于注意力机制的时序知识图谱推理装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。