CN112035672A

CN112035672A - 一种知识图谱补全方法、装置、设备以及存储介质

Info

Publication number: CN112035672A
Application number: CN202010728082.7A
Authority: CN
Inventors: 傅向华; 谢文豪
Original assignee: Shenzhen Technology University
Current assignee: Shenzhen Technology University
Priority date: 2020-07-23
Filing date: 2020-07-23
Publication date: 2020-12-04
Anticipated expiration: 2040-07-23
Also published as: CN112035672B

Abstract

本发明属于知识图谱处理技术领域，尤其涉及一种知识图谱补全方法、装置、设备以及存储介质，本发明通过预设的关联信息抽取模型从知识图谱的实体描述文本信息中抽取知识图谱中实体与关系之间的语义关联信息，将语义关联信息与知识图谱进行关联与重构，通过深度Bi‑GRU网络以及预设的关联强化模型对实体描述文本输入序列进行编码，得到编码后的实体关联序列信息，通过单向GRU网络对实体关联序列信息进行解码，对解码后的知识图谱中的每个候选实体进行综合评分，依次将实体描述文本数据集中的每个实体链接到知识图谱中综合评分最高的候选实体，以补全知识图谱，从而增强已有知识图谱的语义关联信息。

Description

一种知识图谱补全方法、装置、设备以及存储介质

技术领域

本发明属于知识图谱处理技术领域，尤其涉及一种知识图谱补全方法、装置、设备以及存储介质。

背景技术

随着互联网使用者数量的不断增加，网络中的数据量也呈现出指数增长趋势，但由于网络数据具有规模庞大、异质多源和结构松散等特点，使得人们从网络数据中获取有用的数据信息变得异常困难，在这种背景下，知识图谱技术于2012年由Google正式提出，并受到了研究者们的广泛关注。

其中，知识图谱补全任务是知识图谱技术中的一个主要研究方向，通过对现有的知识图谱补全，使得人们从网络数据中获取有用的数据信息变得简单。现有的知识图谱补全任务主要的方法大多是先将知识图谱中实体与关系的语义信息转换成密集的低维向量，然后通过翻译模型、复杂关系建模以及多源信息融合等知识图谱补全模型，在低维向量空间中利用知识图谱的结构特征高效地计算知识图谱中实体与关系的复杂语义关联，进而对已有知识图谱进行补全，但现有知识图谱补全模型大多都是利用已知实体来补全知识图谱中缺失的事实关系对，若实体是未知，例如通过引入外界新的实体来扩展知识图谱的规模，导致现有的知识图谱补全模型的准确率低，使得现有知识图谱补全模型可扩展性较差。另外，现有的知识图谱补全模型没有考虑到知识图谱中实体与关系之间的语义关联性，并且当知识图谱中实体或关系具有多源信息时仅通过单一的递归神经网络或者卷积神经网络进行特征提取操作，没有根据知识图谱的独特性质对其进行特征抽取，从而导致通过现有的知识图谱补全模型提取到的语义特征信息不准确，并且会对已有的知识图谱过多地引入语义噪声。

发明内容

本发明的目的是提供一种知识图谱补全方法、装置、设备以及存储介质，旨在解决由于现有知识图谱补全模型从外界引入新的实体来扩展已有的知识图谱规模，导致现有的知识图谱补全模型准确率低，可扩展性较差的问题。

一方面，本发明提供了一种知识图谱补全方法，所述方法包括下述步骤：

接收输入的知识图谱补全请求，根据所述知识图谱补全请求使用预设的关联信息抽取模型从所述知识图谱的实体描述文本信息中抽取所述知识图谱中实体与关系之间的语义关联信息；

将所述语义关联信息与所述知识图谱进行关联，对关联后的所述知识图谱进行重构，以得到重构后的知识图谱；

将重构后的所述知识图谱和预设的实体描述文本数据集组合成实体数据连接矩阵，并对所述实体数据连接矩阵进行序列化表示，得到实体描述文本输入序列；

通过深度Bi-GRU网络以及预设的关联强化模型对所述实体描述文本输入序列进行编码，得到编码后的实体关联序列信息；

通过单向GRU网络对所述实体关联序列信息进行解码，对解码后的所述知识图谱中的每个候选实体进行综合评分；

依次将所述实体描述文本数据集中的每个实体链接到所述知识图谱中综合评分最高的所述候选实体，以补全所述知识图谱。

优选地，接收输入的知识图谱补全请求，根据所述知识图谱补全请求使用预设的关联信息抽取模型从所述知识图谱的实体描述文本信息中抽取所述知识图谱中实体与关系之间的语义关联信息的步骤，包括：

将所述知识图谱中的实体以及实体描述文本信息映射为所述实体以及所述实体对应关系的三元组；

通过预设的抽取计算公式对所述三元组进行关系触发词的定位、词嵌入元组拼接、语义关联配对以及词嵌入元组评分处理，得到目标实体与关系之间的第一语义关联信息；

通过双通道全卷积神经网络将所述第一语义关联信息与所述知识图谱的实体描述文本信息进行相邻词语义融合，得到所述语义关联信息。

进一步优选地，通过预设的抽取计算公式对所述三元组进行关系触发词的定位、词嵌入元组拼接、语义关联配对以及词嵌入元组评分处理，得到目标实体与关系之间的第一语义关联信息的步骤，包括：

通过余弦相似度公式从所述三元组的头尾实体描述文本信息中获取关系触发词；

依次将所述头尾实体描述文本信息中的每个词与所述关系触发词、以及所述词对应所述关系触发词的位置拼接成词嵌入元组；

对所述目标实体、所述目标实体对应的关系以及所述目标实体与所述目标实体对应的关系的位置信息进行拼接，得到参考元组；

通过深度记忆网络对所述词嵌入元组以及所述参考元组进行语义关联配对，并通过所述深度记忆网络的softmax层为输出的每个词嵌入元组对参考元组的贡献分数进行评分，得到目标实体与关系之间的第一语义关联信息。

进一步优选地，通过双通道全卷积神经网络将所述第一语义关联信息与所述知识图谱的实体描述文本信息进行相邻词语义融合，得到所述语义关联信息的步骤，包括：

将所述第一语义关联信息与所述知识图谱的实体描述文本信息的位置信息进行关联，得到实体的关联信息矩阵；

对所述实体的关联信息矩阵使用Attention机制进行多语义选择，得到多语义选择后的输入信息矩阵；

通过所述双通道全卷积神经网络的两层卷积以及一层正则化、双通道提取层、共享全连接层以及合并层对所述输入信息矩阵进行处理，以得到所述语义关联信息。

优选地，将重构后的所述知识图谱和预设的实体描述文本数据集组合成实体数据连接矩阵，并对所述实体数据连接矩阵进行序列化表示，得到实体描述文本输入序列的步骤，包括：

通过所述预设的关联信息抽取模型从所述预设的实体描述文本数据集中提取出所述预设的实体描述文本数据集中的实体与关系之间的第二语义关联信息；

将所述第二语义关联信息与所述预设的实体描述文本数据集进行关联，对关联后的所述预设的实体描述文本数据集进行重构，以得到重构后的所述实体描述文本数据集；

将重构后的所述知识图谱以及重构后的所述实体描述文本数据集共同组合成实体数据连接矩阵，并对所述实体数据连接矩阵进行序列化表示，得到实体描述文本输入序列。

优选地，通过深度Bi-GRU网络以及预设的关联强化模型对所述实体描述文本输入序列进行编码，得到编码后的实体关联序列信息的步骤，包括：

通过所述深度Bi-GRU网络建立所述知识图谱中每个三元组的局部结构化信息与所述预设的实体描述文本数据集之间的关联性；

根据Attention机制以及所述知识图谱中每个三元组的邻居结构信息建立所述知识图谱中全局结构化信息与所述预设的实体描述文本数据集之间的关联性。

优选地，通过单向GRU网络对所述实体关联序列信息进行解码，对解码后的所述知识图谱中的每个候选实体进行综合评分的步骤，包括：

通过余弦相似度模型以及基于翻译模型的评分函数计算每个候选实体的综合评分。

另一方面，本发明还提供了一种知识图谱补全装置，所述装置包括：

关联信息获取单元，用于接收输入的知识图谱补全请求，根据所述知识图谱补全请求使用预设的关联信息抽取模型从所述知识图谱的实体描述文本信息中抽取所述知识图谱中实体与关系之间的语义关联信息；

图谱重构单元，用于将所述语义关联信息与所述知识图谱进行关联，对关联后的所述知识图谱进行重构，以得到重构后的知识图谱；

输入序列获取单元，用于将重构后的所述知识图谱和预设的实体描述文本数据集组合成实体数据连接矩阵，并对所述实体数据连接矩阵进行序列化表示，得到实体描述文本输入序列；

序列信息获取单元，用于通过深度Bi-GRU网络以及预设的关联强化模型对所述实体描述文本输入序列进行编码，得到编码后的实体关联序列信息；

候选实体评分单元，用于通过单向GRU网络对所述实体关联序列信息进行解码，对解码后的所述知识图谱中的每个候选实体进行综合评分；

知识图谱补全单元，用于依次将所述实体描述文本数据集中的每个实体链接到所述知识图谱中综合评分最高的所述候选实体，以补全所述知识图谱。

另一方面，本发明还提供了一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。

另一方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。

本发明在接收到知识图谱补全请求后，使用预设的关联信息抽取模型从知识图谱的实体描述文本信息中抽取知识图谱中实体与关系之间的语义关联信息，将语义关联信息与知识图谱进行关联，对关联后的知识图谱进行重构，以得到重构后的知识图谱，将重构后的知识图谱和预设的实体描述文本数据集组合成实体数据连接矩阵，并对实体数据连接矩阵进行序列化表示，得到实体描述文本输入序列，通过深度Bi-GRU网络以及预设的关联强化模型对实体描述文本输入序列进行编码，得到编码后的实体关联序列信息，通过单向GRU网络对实体关联序列信息进行解码，对解码后的知识图谱中的每个候选实体进行综合评分，依次将实体描述文本数据集中的每个实体链接到知识图谱中综合评分最高的候选实体，以补全知识图谱，从而增强了已有知识图谱的语义关联信息，弥补了实体与关系之间缺失的语义信息，解决了现有知识图谱补全模型准确性低，可扩展性差等问题。

附图说明

图1是本发明实施例一提供的知识图谱补全方法的实现流程图；

图2是本发明实施例二提供的知识图谱补全装置的结构示意图；以及

图3是本发明实施例三提供的计算设备示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的知识图谱补全方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，接收输入的知识图谱补全请求，根据知识图谱补全请求使用预设的关联信息抽取模型从知识图谱的实体描述文本信息中抽取知识图谱中实体与关系之间的语义关联信息。

本发明实施例适用于使用知识图谱的问答系统或推荐系统，尤其适用于通过引入外界文本信息对知识图谱进行补全的问答系统或推荐系统，以便通过该问答系统或该推荐系统精确地向用户提供用户感兴趣的内容。在本发明实施例中，知识图谱可以通过现有的网络数据进行构建，知识图谱包括实体、关系以及实体描述文本信息，其中实体可以是现实世界中的事物，例如人、地名、公司、电话、动物等，关系可以是不同实体之间的某种联系，例如父子、位于、国籍等，实体描述文本信息可以是一段对该实体进行具体描述的文本信息，在本发明实施例中，从知识图谱的实体描述文本信息中抽取知识图谱中实体与关系之间的语义关联信息，其中该语义关联信息为从当前知识图谱的实体描述文本信息中挖掘出新的实体，以用于补全已有知识图谱中缺失的三元组，例如，给定某个人物知识图谱中缺失的三元组，如(姚明，国籍，)，可以从姚明的实体描述文本信息或与姚明相关联的其它实体描述文本信息中推测出姚明的国籍为中国，以通过推测出的实体对缺失的三元组进行补全，得到完整的三元组，如(姚明，国籍，中国)，从而完善已有的人物知识图谱。

当根据知识图谱补全请求使用预设的关联信息抽取模型从知识图谱的实体描述文本信息中抽取知识图谱中实体与关系之间的语义关联信息时，优选地，使用预设的关联信息抽取模型从知识图谱的实体描述文本信息中抽取知识图谱中实体与关系之间的语义关联信息的步骤具体包括：

(1)、将知识图谱中的实体以及实体描述文本信息映射为实体以及实体对应关系的三元组，以得到当前知识图谱中的实体与当前关系相关的语义信息。

优选地，当将知识图谱中的实体以及实体描述文本信息映射为实体以及实体对应关系的三元组时，通过预设的映射向量公式将知识图谱中的实体以及实体描述文本信息，映射为实体以及实体对应关系的三元组，从而将实体相关信息(实体本身，实体描述信息)从实体空间映射到对应三元组中的关系空间中，使得知识图谱中的实体仅具有与当前关系相关的语义信息，其中，映射向量公式为：

h′＝M_rhsh,t′＝M_rtst；

h′_d＝M_rhsh_d,t′_d＝M_rtst_d；

其中，h为头实体向量，r为关系向量，t为尾实体向量，h′、t′分别为映射后的头尾实体向量，对于关系和头/尾实体而言，分别对应设定了映射关系向量r_p以及头尾实体的映射向量h_p、t_p，M_rhs和M_rts分别对应头尾实体的整体映射向量，h_d、t_d分别对应头尾实体的描述文本信息，h′_d、t′_d分别对应映射后头尾实体的描述文本向量，h,h_p,t,

h_d,

r,

σ表示协方差计算公式，I表示单位向量，并且

m、n分别为关系和实体的维度，从而将实体与关系的协方差矩阵作为衡量实体与关系之间语义关联性的依据，并利用单位矩阵I进行维度调整。

(2)、通过预设的抽取计算公式对三元组进行关系触发词的定位、词嵌入元组拼接、语义关联配对以及词嵌入元组评分处理，得到目标实体与关系之间的第一语义关联信息。

优选地，通过预设的抽取计算公式对三元组中的头尾实体描述文本信息进行关系触发词的定位、词嵌入元组拼接、语义关联配对以及词嵌入元组评分处理，以增强三元组中实体与关系之间的语义关联性，该抽取计算公式为：

其中，e表示实体，r表示两实体之间的关系，t表示目标实体，目标实体则为最终被预测的实体，因为该抽取计算公式是通过从三元组中已知的某个实体和关系，进而预测另一个实体，因此被预测的另一个实体就是目标实体，

和τ各自表示实体描述文本的词向量表示和关系的词向量表示函数，

表示实体描述文本的词矩阵表示，

中每一行代表一个k维的词向量，

表示关系主题下的综合语义矩阵，

表示目标实体的表示矩阵，○表示

中每行与预设的SAIE函数进行矩阵相乘，SAIE函数用于计算

中的每一个词与该词关联的语义关联信息。

进一步地，通过

函数计算M_φ(e)中的每一个词与该词关联的语义关联信息，包括：

A、通过余弦相似度公式从三元组的头尾实体描述文本信息中获取关系触发词；

优选地，通过余弦相似度计算公式从三元组中的实体描述文本中寻找出与关系词所表现出的语义信息最相近的词作为关系触发词，从而快速、准确地得到关系触发词，余弦相似度计算公式为：

其中，

中第i个词的余弦相似度是

中第i个词与M_τ(r)中τ(r)关系词嵌入矩阵之间的相似度得分，r_max是

中相似度最高的词向量表示，同时也是实体描述文本中的关系触发词。

B、依次将头尾实体描述文本信息中的每个词与关系触发词、以及词对应关系触发词的位置拼接成词嵌入元组；

优选地，当依次将头尾实体描述文本信息中的每个词与关系触发词、以及词对应关系触发词的位置拼接成词嵌入元组时,计算头尾实体描述文本信息中每个词相对关系触发词的位置，并将该词与关系触发词、以及该词对应关系触发词的位置三者进行拼接，得到词嵌入元组，以使得在提取目标实体和关系词之间的语义关联信息时可以同时将实体词与关系词关联起来进行语义分析，而不是单一地考虑实体描述文本中的单个词。

C、对目标实体、目标实体对应的关系以及目标实体与目标实体对应的关系的位置信息进行拼接，得到参考元组；

作为示例地，例如，可以将三元组中目标实体对应的关系、目标实体记为(r₀,t₀)，并将目标实体与目标实体对应的关系的位置信息设置为0，对目标实体、目标实体对应的关系以及目标实体与目标实体对应的关系的位置信息进行拼接，以得到参考元组，这里将参考元组标记为q₀，q₀＝[r₀；t₀；0]，

以作为在提取目标实体和关系词之间的语义关联信息时的语义关联配对参数。

D、通过深度记忆网络对词嵌入元组以及参考元组进行语义关联配对，并通过深度记忆网络的softmax层，为每个词嵌入元组对参考元组的贡献分数进行评分，得到目标实体与关系之间的第一语义关联信息。

优选地，当通过深度记忆网络对词嵌入元组以及参考元组进行语义关联配对时，通过深度记忆网络的双向注意力机制模型计算每个词嵌入元组对参考元组所做的贡献，并对所有词嵌入元组所做的贡献得分与词嵌入元组的乘积进行累加，从而计算出每个词嵌入元组对参照元组的贡献分数，其中，双向注意力机制模型为：

其中，BiLSTM为两个双向LSTM的计算结果，

表示第i个词嵌入元组经过双向BiLSTM编码t时刻的输出结果，并且

q表示参考元组表示，

p_i表示第i个词嵌入元组对参考元组所做的贡献，

表示将所有词嵌入元组对参考元组所做的贡献得分与词嵌入元组进行乘积的累加。

当通过深度记忆网络对词嵌入元组以及参考元组进行语义关联配对时，另一优选地，通过深度记忆网络的独立全连接模型处理输入的参考元组的原始信息，以增强每个词嵌入元组对参照元组贡献分数，独立全连接模型为：

其中，

将双向注意力机制模型的计算结果和独立全连接模型的计算结果进行累加，以作为深度记忆网络的中间层输出，从而计算每个词嵌入元组对参考元组的贡献分数更加精准。另外，将深度记忆网络的softmax层作为深度神经网络最后一层，计算每个词嵌入元组对参考元组贡献分数的评分，深度记忆网络的最后一层输出为：

通过上述步骤A-D，最终可得到：

从而计算得到M_φ(e)中的每一个词与该词关联的语义关联信息。

(3)、通过双通道全卷积神经网络对第一语义关联信息与知识图谱的实体描述文本信息进行相邻词语义融合，以实现第一语义关联信息与知识图谱的实体描述文本信息阶梯式融合，得到知识图谱中实体与关系之间的语义关联信息。其中，相邻词语义融合是指在分析实体的语义关联信息时，需对该实体与相邻的实体或关系进行综合考虑，以提供更加精确的语义支撑，例如，给定某个知识图谱的实体描述文本信息为“I like apples.”，若将“I”和“like”分开来分析将会得到不相干的语义信息，而将这两个词组合在一起进行分析则会为后面的“apples”提供语义支撑。

双通道全卷积神经网络(这里可记为TSF)是由多个子双通道全卷积神经网络(这里可记为Sub_TSF)组合而成，其中，每个Sub_TSF包括预设的Attention层、两层卷积、一层正则化、双通道提取层、共享全连接层以及合并层，从而在通过双通道全卷积神经网络对第一语义关联信息与知识图谱的实体描述文本信息进行相邻词语义融合时，提取出知识图谱中实体描述文本信息中相邻词在不同层级上所表现的语义特征信息。

优选地，当通过双通道全卷积神经网络对第一语义关联信息与知识图谱的实体描述文本信息进行相邻词语义融合时，通过双通道全卷积神经网络对第一语义关联信息与知识图谱的实体描述文本信息进行相邻词语义融合的步骤具体包括：

A、将第一语义关联信息与知识图谱的实体描述文本信息的位置信息关联，得到实体的关联信息矩阵。

优选地，当将第一语义关联信息与实体描述文本信息的位置信息关联时，双通道全卷积神经网络的输入由两部分拼接而成，第一部分为第一语义关联信息对应的语义关联信息矩阵，第二部分为知识图谱的实体描述文本信息的位置信息，将知识图谱的实体描述文本信息的位置信息与关联信息矩阵关联，以得到实体的关联信息矩阵，其中，知识图谱的实体描述文本信息的位置信息包括实体描述文本信息中每个词的相对位置和绝对位置信息，知识图谱的实体描述文本信息的位置信息可通过相对位置编码策略对实体描述文本中的每个词的位置信息进行编码获得。

B、对实体的关联信息矩阵使用Attention机制进行多语义选择，得到多语义选择后的输入信息矩阵。

优选地，当对实体的关联信息矩阵使用Attention机制进行多语义选择时，将实体的关联信息矩阵输入到预设的RS_Encode模型中，通过RS_Encode模型进行多语义选择，其中预设的RS_Encode模型为：

表示实体的关联信息矩阵，从而在对第一语义关联信息与知识图谱的实体描述文本信息进行相邻词语义融合时，若一种关系存在多种语义表示，则在每一级的特征融合中可通过基于关系的Attention机制动态适应关系实现多语义选择。

进一步地，当将实体的关联信息矩阵输入到RS_Encode模型中，通过RS_Encode模型进行多语义选择，具体包括：

a、根据多头注意力模型原理，令

计算第一语义关联信息矩阵缩放的点乘注意力结果，多头注意力模型公式为：

其中，

是第一语义关联信息矩阵，

k为调节因子，调节因子主要用于在第一语义关联信息与知识图谱的实体描述文本信息进行相邻词语义融合时防止梯度爆炸等问题。

b、获取知识图谱中实体与关系的映射矩阵，将知识图谱中实体与关系、以及知识图谱中实体与关系的映射矩阵作为实体文本关联信息输入到基于关系的语义空间矩阵中进行计算，以得到多语义空间矩阵。

c、通过预设的语义信息计算公式计算每个语义空间矩阵中注意力结果，以得到每个语义空间矩阵中的语义信息，具体语义信息计算公式为：

其中，

RHT为多语义空间矩阵，Attention()表示获取缩放的点乘注意力结果，head_i表示每个语义空间矩阵中的语义信息。

d、将每个语义空间矩阵中的语义信息进行合并，并通过线性变换矩阵进行线性变换，以得到合并结果集。

e、在得到合并结果集之后，利用残差网络的短连接模型对该合并结果集进行合并以及正则化，得到第一层多头注意力机制的输出结果，残差网络的短连接模型为：

其中，AN为第一层多头注意力的输出结果，

a^l为第l层网络的输出表示，u^l表示第l层的平均输出结果，H表示网络总层数。

f、将第一层多头注意力机制的输出结果通过两个前馈神经网络模型(可记为FFN)进行非线性变换，FFN包括ReLU激活函数和线性激活函数，这里将第一层多头注意力的输出结果表示为AN，从而通过FFN得到非线性变换后的AN，前馈神经网络模型具体为：

FFN(AN)＝[max(0,AN*W₁+b₁)]*W₂+b₂；

其中，AN为第一层多头注意力的输出结果，W₁，b₁为第一层全连接层参数，W₂,b₂为第二层全连接层参数，max为ReLU函数，

g、在通过FFN得到非线性变换后的AN之后，利用残差网络的短连接模型将非线性变换后的AN与AN进行拼接以及正则化，从而通过设计基于关系的多头注意力机制动态适应关系解决了在每一级的语义融合中的多语义选择问题。

C、通过预设的语义融合模型从每个Sub_TSF中提取知识图谱中实体描述文本信息中相邻词在不同层级上所表现的语义特征信息，具体语义融合模型为：

DCB＝LayerNorm(Con(Con(RS)))

MLP(x)＝W₂f(W₁x+b₁)+b₂

其中，

表示实体描述文本信息的位置信息编码，

表示第一语义关联信息，并且

为TSF的实体的关联信息矩阵，且

Con表示卷积操作，RS_Encode为双通道全卷积神经网络中Attention层的整体函数表示，avg_pool和max_pool分别为均值池化和最大值池化操作，MLP函数为全连接函数，W₁和W₂为权重系数，b₁和b₂为偏置系数，

D、在提取出知识图谱中实体描述文本信息中相邻词在不同层级上所表现的语义特征信息之后，将每个子双通道全卷积神经网络Sub_TSF的语义特征信息进行组合，得到一个多维矩阵，并通过双通道全卷积神经网的mean_pool层将该多维矩阵压缩成一维矩阵，从而得到知识图谱中实体与关系之间的语义关联信息。

在步骤S102中，将语义关联信息与知识图谱进行关联，对关联后的知识图谱进行重构，以得到重构后的知识图谱。

在本发明实施例中，在将语义关联信息与知识图谱进行关联时，优选地，获取缺失的三元组，根据语义关联信息将目标实体添加到缺失的三元组中，以构成完整的三元组，例如，某个缺失的三元组如(h，r，)，h表示头实体，r表示关系，根据使用关联信息抽取模型从知识图谱的实体描述文本信息中抽取知识图谱中目标实体与关系之间的语义关联信息t_r，从而可得到缺失的三元组中的尾实体为t，将尾实体t与缺失的三元组(h，r，)进行关联，最终得到完整的三元组(h，r，t)。在对关联后的知识图谱进行重构时，优选地，从头实体描述文本中提取尾实体与关系之间的语义关联信息，从尾实体描述文本中提取头实体与关系之间的语义关联信息，将尾实体与关系之间的语义关联信息与头实体与关系之间的语义关联信息添加到三元组中，例如，给定某个已有的三元组(h，r，t)，从头实体描述文本中提取尾实体与关系之间的语义关联信息，记为h_r，从尾实体描述文本中提取出头实体与关系之间的语义关联信息，记为t_r，将h_r与t_r与已有的三元组进行重构，即原始三元组就变为了(h，h_r，r，t_r，t)，从而实现对关联后的知识图谱进行重构。

在步骤S103中，将重构后的知识图谱和预设的实体描述文本数据集组合成实体数据连接矩阵，并对实体数据连接矩阵进行序列化表示，得到实体描述文本输入序列。

在本发明实施例中，在重构后的知识图谱和预设的实体描述文本数据集组合成实体数据连接矩阵之前，优选地，通过关联信息抽取模型从实体描述文本数据集中提取出实体描述文本数据集中实体与关系之间的第二语义关联信息，将第二语义关联信息与实体描述文本数据集进行关联，对关联后的实体描述文本数据集进行重构，得到重构后的实体描述文本数据集，具体如何获取第二语义关联信息以及如何对实体描述文本数据集进行重构可参考前述步骤S101-S102的描述，在此不再赘述。

当将重构后的知识图谱和预设的实体描述文本数据集组合成实体数据连接矩阵时，优选地，获取重构后的实体描述文本数据集，将重构后的知识图谱和实体描述文本数据集组合成实体数据连接矩阵，从而完成对知识图谱和外界文本信息的预处理。

在步骤S104中，通过深度Bi-GRU网络以及预设的关联强化模型对实体描述文本输入序列进行编码，得到编码后的实体关联序列信息。

在本发明实施例中，Bi-GRU网络包括两个平行的GRU网络层，即前向GRU网络层和后向GRU网络层，通过深度Bi-GRU网络以及预设的关联强化模型对实体描述文本输入序列进行编码具体包括：

A、通过深度Bi-GRU网络对实体描述文本输入序列进行编码，以通过深度Bi-GRU网络建立知识图谱中每个三元组的局部结构化信息与实体描述文本数据集之间的关联性。

优选地，当通过深度Bi-GRU网络对实体描述文本输入序列进行编码时，获取实体描述文本输入序列中的每个单词，通过前向GRU网络层对实体描述文本输入序列中的第一个单词到最后一个单词的上下文信息进行编码，从而得到知识图谱中三元组的反向局部结构化信息与外界文本信息之间传递的依赖信息，这里记为

通过后向GRU网络层对实体描述文本输入序列中的最后一个单词到第一单词的上下文信息进行编码，从而得到知识图谱中三元组的正向局部结构化信息与外界文本信息之间传递的依赖信息，这里记为

将

和

进行关联，以建立知识图谱中每个三元组的局部结构化信息与实体描述文本数据集之间的关联性，进而得到编码后的短序列信息，以用于建立实体与关系在整个知识图谱中全局结构关联性的输入序列。

为便于理解，例如，实体描述文本输入序列可以表示为W＝{w₁,...w_t,w_t+1,...w_n}，其中，

表示与实体描述文本输入序列中第t个词相对应的一个d维的词向量，n表示实体描述文本输入序列的长度，获取实体描述文本输入序列中每个单词w_t，通过前向GRU网络层对w₁到w_n的上下文信息进行编码，记为

通过后向GRU网络层对w_n到的w₁上下文信息进行编码，记为

将

与

这两个向量进行连接得到

得到编码后的短序列信息，其中，编码后的短序列信息可记为[h,h_r,r,t_r,t]，h表示头实体，h_r表示头实体与关系的语义关联信息，r表示关系，t_r表示尾实体与关系的语义关联信息，t表示尾实体。

B、通过预设的关联强化模型对实体描述文本输入序列进行编码，从而建立实体与关系在整个知识图谱中的全局结构关联性。

优选地，当通过预设的关联强化模型对实体描述文本输入序列进行编码时，根据Attention机制以及知识图谱中每个三元组的邻居结构信息建立实体与关系在整个知识图谱中全局结构化信息的关联性，具体包括：

a、根据短序列信息，获取短序列信息的头尾实体的邻居结构信息，根据邻居结构信息，通过预设的邻居权重规则为短序列信息中的每个头尾实体的位置增添额外的权重信息，预设的邻居权重规则包括：a.1、对于头尾实体的位置权重而言，若头尾实体的直接邻居数大于实体邻居阈值或者存在与当前关系相同路径的实体邻居，则为该头尾实体的置信度设置较高的权重，以得到足够的重视，否则不予以处理；a.2、对于短序列中头实体与关系的语义关联信息和尾实体与关系的语义关联信息的位置权重而言，若头尾实体的直接邻居同时也在各自对应的描述文本信息中出现，则为该头尾实体的置信度设置最高的权重，如果不存在，则不进行处理；a.3、对于关系而言，如果关系的邻居数(关系所在三元组的数目)大于关系邻居阈值，则为当前关系增加权重信息，如果不存在则不做处理，从而根据邻居结构信息通过预设的邻居权重规则为短序列信息中的每个位置增添额外的权重信息。

当根据邻居结构信息通过预设的邻居权重规则为短序列信息中的每个头尾实体的位置增添额外的权重信息时，优选地，通过翻译原理为短序列信息中的每个位置增添额外的权重信息。

b、通过Attention模型计算短序列信息中的每个头尾实体位置权重的注意力概率，从而在短序列中突出每部分元素对整体输入序列的重要程度，Attention模型具体为：

h_Nt＝U_atanh(U_ah_N+U_ch_t+b_a)

其中，U_a,U_b,U_c均表示注意力机制的权值矩阵，b_a表示注意力机制的偏置向量值，h′_t表示第t个元素的新的特征输出，

表示超参数矩阵，该超参数矩阵

中的每一个参数值可根据实体关系的邻居信息以及实体的描述信息计算得出，将超参矩阵

与常规Attention机制的特征输出相乘，得到新的特征输出，进而得到编码后的实体关联序列信息。

在步骤S105中，通过单向GRU网络对实体关联序列信息进行解码，对解码后的知识图谱中的每个候选实体进行综合评分。

在本发明实施例中，在通过单向GRU网络对实体关联序列信息进行解码，对解码后的知识图谱中的每个候选实体进行综合评分时，优选地，将实体关联序列信息还原成元组，并为每个元组之间进行两两配对，以得到两个元组的相似度得分，当为每个元组之间进行两两配对时，进一步优选地，通过余弦相似度模型计算每个元组之间进行两两配对的相似度得分，从而得到实体描述文本数据集中的每个实体与知识图谱中每个候选实体之间配对的综合评分，例如，通过余弦相似度模型计算两个元组的相似度得分，得到新的序列特征h′_t＝{h₁,h₂,...,h_n}，其中h_n是前n个向量迭加之后得到的平均值，将实体关联序列信息导入相似度模型中，得到输出特征值h_n，余弦相似度模型为：

其中，a_Nt表示实体关联序列信息中第t个元素对第N个元素的注意力概率。

当为每个元组之间进行两两配对时，另一优选地，通过采用基于翻译模型的评分函数计算知识图谱中的每个候选实体的综合评分。

当为每个元组之间进行两两配对时，另一优选地，结合余弦相似度模型以及基于翻译模型的评分函数计算知识图谱中的每个候选实体的综合评分。

当通过单向GRU网络对实体关联序列信息进行解码时，另一优选地，为了加快单向GRU网络的训练速度，通过预设的目标函数加快单向GRU网络的训练速度，优化器采用Adagrad算法，预设的目标函数为：

其中，p_c是阻断概率因子，该p_c从均匀概率分布U[0,1]中获取的，具体实施过程为：当p_c>0.5时，保持输入的尾实体t不变，改变在头实体上的正样本和负样本，同理，当p_c≤0.5时，保持输入的头实体h不变，改变在尾实体上的正样本和负样本。E⁺,E^-分别是从正负样本的目标分布P⁺,P^-中获取的正负实体集合，P⁺,P^-采用简单的均匀分布获得。当p_c≤0.5时，P⁺是实体在

中的均匀分布，P^-是实体在

中的均匀分布。当p_c>0.5时，P⁺是实体在

中的均匀分布，P^-是实体在

中的均匀分布。

在对解码后的知识图谱中的每个候选实体进行综合评分之后，通过单向GRU网络中的softmax层对知识图谱中的每个候选实体进行输出，从而在三元组预测任务中将实体描述文本数据集中的实体与候选实体进行匹配成三元组时，匹配正确的三元组将会被设置为很高的评分，匹配错误的三元组将会被设置为很低的评分，从而在知识图谱补全时使得知识图谱中每个实体能够准确地链接到正确的外界实体。

在步骤S106中，依次将实体描述文本数据集中的每个实体链接到知识图谱中综合评分最高的候选实体，以补全知识图谱。

在本发明实施例中，依次将实体描述文本数据集中的每个实体链接到知识图谱中综合评分最高的候选实体，以补全知识图谱，使得人们可以从规模庞大、异质多源和结构松的网络数据中获取有用的数据信息变得简单，另外，本发明实施例是也适用于通过引入外界文本信息对知识图谱进行补全的问答系统或推荐系统，通过该问答系统或该推荐系统更能精确地向用户提供用户感兴趣的内容。

在本发明实施例中通过接收输入的知识图谱补全请求，根据知识图谱补全请求使用预设的关联信息抽取模型从知识图谱的实体描述文本信息中抽取知识图谱中实体与关系之间的语义关联信息，将语义关联信息与知识图谱进行关联，对关联后的知识图谱进行重构，以得到重构后的知识图谱，将重构后的知识图谱和预设的实体描述文本数据集组合成实体数据连接矩阵，并对实体数据连接矩阵进行序列化表示，得到实体描述文本输入序列，通过深度Bi-GRU网络以及预设的关联强化模型对实体描述文本输入序列进行编码，得到编码后的实体关联序列信息，通过单向GRU网络对实体关联序列信息进行解码，对解码后的知识图谱中的每个候选实体进行综合评分，依次将实体描述文本数据集中的每个实体链接到知识图谱中综合评分最高的候选实体，以补全知识图谱，从而增强了已有知识图谱的语义关联信息，弥补了实体与关系之间缺失的语义信息，解决了现有知识图谱补全模型准确性低，可扩展性差等问题。

实施例二：

图2示出了本发明实施例二提供的知识图谱补全装置的结构示意，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

关联信息获取单元21，用于接收输入的知识图谱补全请求，根据知识图谱补全请求使用预设的关联信息抽取模型从知识图谱的实体描述文本信息中抽取知识图谱中实体与关系之间的语义关联信息。

图谱重构单元22，用于将语义关联信息与知识图谱进行关联，对关联后的知识图谱进行重构，以得到重构后的知识图谱。

输入序列获取单元23，用于将重构后的知识图谱和预设的实体描述文本数据集组合成实体数据连接矩阵，并对实体数据连接矩阵进行序列化表示，得到实体描述文本输入序列。

序列信息获取单元24，用于通过深度Bi-GRU网络以及预设的关联强化模型对实体描述文本输入序列进行编码，得到编码后的实体关联序列信息。

候选实体评分单元25，用于通过单向GRU网络对实体关联序列信息进行解码，对解码后的知识图谱中的每个候选实体进行综合评分。

候选实体评分单元26，用于依次将实体描述文本数据集中的每个实体链接到知识图谱中综合评分最高的候选实体，以补全知识图谱。

在本发明实施例中，知识图谱补全装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。

实施例三：

图3示出了本发明实施例三提供的计算设备的结构，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

本发明实施例的计算设备3包括处理器30、存储器31以及存储在存储器31中并可在处理器30上运行的计算机程序32。该处理30执行计算机程序32时实现上述知识图谱补全方法实施例中的步骤，例如图1所示的步骤S101至S106。或者，处理器30执行计算机程32时实现上述各装置实施例中各单元的功能，例如图2所示单元21至26的功能。

实施例四：

在本发明实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述方法实施例中的步骤，例如，图1所示的步骤S101至S106。或者，该计算机程序被处理器执行时实现上述装置实施例中各单元的功能，例如图2所示单元21至26的功能。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种知识图谱补全方法，其特征在于，所述方法包括下述步骤：

2.根据权利要求1所述方法，其特征在于，接收输入的知识图谱补全请求，根据所述知识图谱补全请求使用预设的关联信息抽取模型从所述知识图谱的实体描述文本信息中抽取所述知识图谱中实体与关系之间的语义关联信息的步骤，包括：

3.根据权利要求2所述方法，其特征在于，通过预设的抽取计算公式对所述三元组进行关系触发词的定位、词嵌入元组拼接、语义关联配对以及词嵌入元组评分处理，得到目标实体与关系之间的第一语义关联信息的步骤，包括：

4.根据权利要求2所述方法，其特征在于，通过双通道全卷积神经网络将所述第一语义关联信息与所述知识图谱的实体描述文本信息进行相邻词语义融合，得到所述语义关联信息的步骤，包括：

5.根据权利要求1所述方法，其特征在于，将重构后的所述知识图谱和预设的实体描述文本数据集组合成实体数据连接矩阵，并对所述实体数据连接矩阵进行序列化表示，得到实体描述文本输入序列的步骤，包括：

通过所述关联信息抽取模型从所述预设的实体描述文本数据集中提取出所述预设的实体描述文本数据集中的实体与关系之间的第二语义关联信息；

6.根据权利要求1所述方法，其特征在于，通过深度Bi-GRU网络以及预设的关联强化模型对所述实体描述文本输入序列进行编码，得到编码后的实体关联序列信息的步骤，包括：

7.根据权利要求1所述方法，其特征在于，通过单向GRU网络对所述实体关联序列信息进行解码，对解码后的所述知识图谱中的每个候选实体进行综合评分的步骤，包括：

8.一种知识图谱补全装置，其特征在于，所述装置包括：

9.一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。