CN110347847A

CN110347847A - 基于神经网络的知识图谱补全方法

Info

Publication number: CN110347847A
Application number: CN201910663022.9A
Authority: CN
Inventors: 滕飞; 钟文; 马征
Original assignee: Southwest Jiaotong University
Current assignee: Southwest Jiaotong University
Priority date: 2019-07-22
Filing date: 2019-07-22
Publication date: 2019-10-18
Anticipated expiration: 2039-07-22
Also published as: CN110347847B

Abstract

本发明实施例提供的一种基于神经网络的知识图谱补全方法，涉及自然语言处理技术领域，其包括：S1、在嵌入层将知识图谱K中的三元组(s，r，o)转换为句子[s r o]，利用向量表示技术把句子[s r o]转换为k维稠密向量表示形式x_i＝[v_s，v_r，v_o]；S2、在循环层利用BiLSTM网络从输入特征向量x_i中学习句子的长期依赖性，得到循环层特征向量h_RNN；S3、在卷积层利用卷积神经网络从特征向量h_RNN中学习局部结构信息，得到卷积层特征向量h_CNN；S4、在全连接层将卷积层特征向量h_CNN转化为每一个三元组(s，r，o)的得分。该知识图谱补全方法在不依靠任何外部数据的情况下，利用循环和卷积神经网络捕获知识图谱中事实的长期依赖性和局部结构信息，同时保留实体和关系的传递特征，学习能力更高。

Description

基于神经网络的知识图谱补全方法

技术领域

本发明涉及自然语言处理技术领域，具体而言，涉及一种基于神经网络的知识图谱补全方法。

背景技术

随时大数据时代的到来，知识图谱逐渐成为当前的研究热点。知识图谱用于存储真实世界的结构化事实，其本质是语义网络，用节点表示实体，边表示实体之间的关系。知识图谱广泛用于许多场景，如语义搜索、智能问答、辅助决策等。但是，知识图谱面临严重的数据稀疏和数据缺失等问题。近年来，已经提出了许多知识图谱补全方法来填补缺失的事实。

传统的知识图谱补全模型主要是分为两类：一是浅层结构的嵌入模型，二是使用神经网络的深层结构嵌入模型。其中浅层结构的嵌入模型将关系视为向量空间中实体之间的翻译，最著名的论文是在2013年的国际机器学习顶级会议中的《Translatingembeddings for modeling multi-relational data》，正确事实的尾实体嵌入约等于头实体嵌入加上关系嵌入。该类模型仅将实体和关系嵌入视为固定维度的向量，因此它们无法在嵌入的不同维度中学习特征。而深层结构的嵌入模型通过神经网络来学习实体和关系嵌入的更丰富特征，最近发表于2018年国际人工智能顶级会议上的《Convolutional 2Dknowledge graph embeddings》通过2D卷积层改变实体和关系的嵌入，实体嵌入被连接成输入矩阵，经过卷积操作后输出特征映射张量，这些特征映射张量通过线性变换以获得分数。另一篇发表于2018年计算语言学协会北美年会上的《A novel embedding model forknowledge base completion based on convolutional neural network》用1D卷积代替2D卷积，将每个事实转换为3列矩阵，并从同一维度中提取嵌入之间的全局关系，它仅使用形状为1×3的滤波器，并不能很好地利用卷积运算的优点。

然而，上述模型忽略了知识图谱中的事实来自文本，只是在没有上下文信息的情况下嵌入知识图谱的部分事实，因此特征学习能力仍然不足。

发明内容

本发明实施例在于提供一种基于神经网络的知识图谱补全方法，其能够缓解上述问题。

本发明提供一种基于神经网络的知识图谱补全方法，定义知识图谱K＝{E，R，T}，E代表实体，R代表实体之间的关系集合，T＝(s，r，o)为三元组，T代表知识图谱K中若干正确的事实，s∈E表示主语，o∈E表示宾语，r∈R表示主语和宾语之间的关系，所述知识图谱补全方法包括以下步骤：

S1、在嵌入层将知识图谱K中的三元组(s，r，o)转换为句子[s r o]，利用向量表示技术把句子[s r o]转换为k维稠密向量表示形式x_i＝[v_s，v_r，v_o]，其中x_i表示由知识图谱K中第i个三元组转换而成的句子特征向量，v_s，v_r，v_o分别表示s，r，o的k维向量；

S2、在循环层利用BiLSTM网络从输入特征向量x_i中学习句子的长期依赖性，得到循环层特征向量h_RNN；

S3、在卷积层利用卷积神经网络从循环层特征向量h_RNN中学习局部结构信息，得到卷积层特征向量h_CNN；

S4、在全连接层将卷积层特征向量h_CNN转化为每一个三元组(s，r，o)的得分。

在本发明实施例中，通过将三元组转换为具有上下文信息的句子，在此基础上采用Sentence-RCNN网络来学习其中的长期依赖性和局部结构信息，可以解决特征学习不足导致的补全效果差的问题。

可选地，步骤S2的具体方法为：

S21、基于LSTM的循环神经网络利用输入门i_t、遗忘门f_t和输出门o_t控制信息流，各门均通过使用当前输入x_i，前一步骤产生的状态h_i-1和当前状态输出后产生的状态c_i-1来确定是否接受输入和忘记之前存储的信息，t代表第t个序列片段；LSTM由五部分组成，计算方式分别如下：

i_t＝σ(w_xix_t+w_hih_t-1+w_cic_t-1+b_i) (1)

f_t＝σ(w_xfx_t+w_hfh_t-1+w_cfc_t-1+b_f) (2)

o_t＝σ(w_xox_t+w_hoh_t-1+w_coc_t-1+b_o) (3)

c_t＝i_ttanh(w_xcx_t+w_hch_t-1+w_ccc_t-1+b_c)+f_tc_t-1 (4)

h_t＝o_ttanh(c_t) (5)

其中，式(1)、(2)、(3)中σ(·)代表sigmoid函数；

式(1)中w_xi，w_hi，w_ci为输入门i_t中需要学习的权重矩阵，b_i表示输入门i_t中的偏置向量；

式(2)中w_xf，w_hf，w_cf为遗忘门f_t中需要学习的权重矩阵，b_f表示遗忘门f_t中的偏置向量；

式(3)中w_xo，w_ho，w_co为输出门o_t中需要学习的权重矩阵，b_o表示输出门o_t中的偏置向量；

式(4)中c_t为当前时刻的候选状态，w_xc，w_hc，w_cc为c_t中需要学习的权重矩阵，b_c表示c_t中的偏置向量；

式(5)中，通过将非线性变换后的c_t与输出门o_t进行点积操作，得到当前时刻的隐藏状态输出h_t；

S22、LSTM网络按时间顺序处理特征向量x_i，忽略了未来的文本信息，而BiLSTM网络通过引入循环层来扩展LSTM网络；BiLSTM网络包含用于左和右序列上下文特征学习的两个子LSTM网络，该网络通过不同数量隐藏单元β的前向传播和后向传播，获得前向隐藏状态和后向隐藏状态最后输出循环层特征向量h_RNN：

其中是LSTM网络学习在不同方向特征向量x_i后得到的隐藏状态，计算过程如S21，：表示连接操作，输出循环层特征向量h_RNN包含了输入句子[s r o]的长期依赖性。

可选地，步骤S3的具体方法为：

卷积层在循环层特征向量h_RNN上应用卷积从句子的每个部分获得局部结构信息；h_RNN被送到该层，其中形状为N×3(N∈{1，2，3，...})的不同过滤器γ通过在h_RNN的每一行上连续操作来生成不同的特征映射，在此层中，特征映射h_CNN根据如下公式生成：

h_CNN＝ReLU(γ·h_RNN+b) (8)

其中b∈R是偏置项，·是点积；卷积层特征向量h_CNN学习了输入句子[s r o]的长期依赖性和局部结构信息。

可选地，步骤S4的具体方法为：

在全连接层将卷积层特征向量h_CNN连接成单个向量，然后通过与权重向量点积，得到句子[s r o]的得分，Sentence-RCNN得分函数f[s r o]定义如下：

f[s r o]＝concat(σ(γ*(β#[v_s，v_r，v_o])))·w (9)

其中·表示点积，#表示循环运算层，*表示卷积运算层；

非线性逻辑sigmoid函数用于获得句子是否为正确的概率预测：

p＝Sigmoid(f[s r o])p∈[0，1] (10)

对于训练模型参数，在分数上采用逻辑sigmoid函数，Sentence-RCNN使用自适应矩算法来训练三元组，其损失函数L计算公式如下：

其中，第一项是经验风险，第二项是正则化项，λ是L2正则化的超参数，用于调整经验风险和正则化之间的关系以平衡经验风险与模型复杂度；w是L2正则化的权重向量；l_(s，r，o)为样例的标签，正例则为1，负例则为-1；K′是标签为-1的负例的集合，负例是通过破坏K中的正例而产生的。

可选地，负例的构造方法具体包括以下步骤：

S411、采用不同的概率替换主语或者宾语以获得负例，对于1-N、N-1和N-N的关系，通过提供更多机会来取代连接实体少的一侧；

S412、在所有具有关系r的三元组中，统计两个数据：1)所有连接关系r的实体，表示为E_C；2)未连接到关系r的候选实体，表示为E_NC＝E-E_C；

S413、知识图谱中的三元组(s，r，o)为正例，而训练过程中所需负例三元组(s′，r，o′)由正例(s，r，o)构成，从(s，r，o)中关系r的E_NC中选择被破坏的实体s′或o′，继而减少了产生错误负例的可能性。

在本发明实施例中，负例的构造方法可减少训练过程中产生错的负例，从而提高模型学习性能。

可选地，步骤S411的具体方法为：

在关系r的所有三元组中，得到两个统计：1)每个主语连接的平均宾语数量，表示为t_s；2)每个宾语连接的平均主语数量，表示为t_o；

然后根据伯努利分布参数对每个正例的关系r进行采样，以概率替换三元组的主语，以概率替换三元组的宾语。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举本发明实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1是本发明知识图谱补全框架Sentence-RCNN示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

在WN18RR和FB15k-237上通过对比实验验证。这两个公开的知识图谱补全数据集分别由WordNet和Freebase知识库中抽取的信息构成，并且测试数据集不具有反向关系，表1列出了它们的统计数据。

表1

数据集	实体数	关系数	训练集	验证集	测试集
						WN18RR	40943	11	86835	3034	3134
FB15k-237	14541	237	272115	17535	20466

由于FB15k-237具有大量关系，因此以WN18RR(11个关系)为例来介绍本发明提出的基于Sentence-RCNN的知识图谱补全方法。

如图1所示，知识图谱补全具体步骤如下：

S1、在嵌入层将数据集WN18RR中的86835个事实三元组(s，r，o)转换为句子[s ro]，利用向量表示技术将把句子转换为k维稠密向量表示形式x_i＝[v_s，v_r，v_o]；

S2、在循环层利用BiLSTM从输入特征向量x_i中学习句子的长期依赖性，得到特征向量h_RNN；

i_t＝σ(w_xix_t+w_hih_t-1+w_cic_t-1+b_i) (1)

f_t＝σ(w_xfx_t+w_hfh_t-1+w_cfc_t-1+b_f) (2)

o_t＝σ(w_xox_t+w_hoh_t-1+w_coc_t-1+b_o) (3)

c_t＝i_ttanh(w_xcx_t+w_hch_t-1+w_ccc_t-1+b_c)+f_tc_t-1 (4)

h_t＝o_ttanh(c_t) (5)

其中，式(1)、(2)、(3)中σ(·)代表sigmoid函数；

S22、LSTM网络按时间顺序处理特征向量x_i，忽略了未来的文本信息，而BiLSTM网络通过引入循环层来扩展LSTM网络。BiLSTM网络包含用于左和右序列上下文特征学习的两个子LSTM网络，该网络通过不同数量隐藏单元β的前向传播和后向传播，获得前向隐藏状态和后向隐藏状态最后输出循环层特征向量h_RNN：

S3、卷积层在循环层特征向量h_RNN上应用卷积从句子的每个部分获得局部结构信息。h_RNN被送到该层，其中形状为N×3(N∈{1，2，3，...})的不同过滤器γ通过在h_RNN的每一行上连续操作来生成不同的特征映射，在此层中，特征映射h_CNN根据如下公式生成：

h_CNN＝ReLU(γ·h_RNN+b) (8)

S4、在全连接层将卷积层特征向量h_CNN连接成单个向量，然后通过与权重向量点积，得到句子[s r o]的得分，Sentence-RCNN得分函数f[s r o]定义如下：

f[s r o]＝concat(σ(γ*(β#[v_s，v_r，v_o])))·w (9)

其中·表示点积，#表示循环运算层，*表示卷积运算层；

非线性逻辑sigmoid函数用于获得句子是否为正确的概率预测：

p＝Sigmoid(f[s r o])p∈[0，1] (10)

负例对于训练嵌入模型至关重要，目前很少有研究者关注如何生成正确的负例，传统技术的模型从知识图谱所有实体中随机选择替换实体构造负例，由于实体的数量远大于关系数量，因此很容易选择正确的实例作为负例。因此，为了消除无关的实体，降低了错误负例的可能性，本发明中提出了负例的构造方法，具体包括以下步骤：

S411、采用不同的概率替换主语或者宾语以获得负例，对于1-N、N-1和N-N的关系，通过提供更多机会来取代连接实体少的一侧，具体而言，在关系r的所有三元组中，得到两个统计：1)每个主语连接的平均宾语数量，表示为t_s；2)每个宾语连接的平均主语数量，表示为t_o。然后根据伯努利分布参数对每个正例的关系r进行采样，以概率替换三元组的主语，以概率替换三元组的宾语。

S412、在所有具有关系r的三元组中，统计两个数据：1)所有连接关系r的实体，表示为E_C；2)未连接到关系r的候选实体，表示为E_NC＝E-E_C。

S413、WN18RR的三元组(s，r，o)为正例，而训练过程中所需负例三元组(s′，r，o′)由正例(s，r，o)构成，从(s，r，o)中关系r的E_NC中选择被破坏的实体s′或o′，继而减少了产生错误负例的可能性。

数据集WN18RR的E_C和B的统计细节见表2。参数E_C表示一些关系连接了大多数的实体，而其他实体仅连接很少的实体。B的变化反映了关系的映射属性的差异，即，1-N，N-1和N-N。

表2

Relation	E<sub>C</sub>	B
			hypernym	36762	0.7817
derivationally_related_form	16737	0.4998
			instance_hypernym	3034	0.8592
also_see	1061	0.4732
			member_meronym	8173	0.2965
synset_domain_topic_of	3447	0.9058
			has_part	5444	0.3314
member_of_domain_usage	659	0.4038
			member_of_domain_region	1042	0.1155
verb_group	1038	0.4994
			similar_to	82	0.5032

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于神经网络的知识图谱补全方法，其特征在于，定义知识图谱K＝{E,R，T}，E代表实体，R代表实体之间的关系集合，T＝(s，r，o)为三元组，T代表知识图谱K中若干正确的事实，s∈E表示主语，o∈E表示宾语，r∈R表示主语和宾语之间的关系，该方法包括以下步骤：

S3、在卷积层利用卷积神经网络从特征向量h_RNN中学习局部结构信息，得到卷积层特征向量h_CNN；

2.根据权利要求1所述基于神经网络的知识图谱补全方法，其特征在于，步骤S2的具体方法为：

S21、基于LSTM网络的循环神经网络利用输入门i_t、遗忘门f_t和输出门o_t控制信息流，各门均通过使用当前输入x_i，前一步骤产生的状态h_i-1和当前状态输出后产生的状态c_i-1来确定是否接受输入和忘记之前存储的信息，t代表第t个序列片段；LSTM网络由五部分组成，计算方式分别如下：

i_t＝σ(w_xix_t+w_hih_t-1+w_cic_t-1+b_i) (1)

f_t＝σ(w_xfx_t+w_hfh_t-1+w_cfc_t-1+b_f) (2)

o_t＝σ(w_xox_t+w_hoh_t-1+w_coc_t-1+b_o) (3)

c_t＝i_ttanh(w_xcx_t+w_hch_t-1+w_ccc_t-1+b_c)+f_tc_t-1 (4)

h_t＝o_ttanh(c_t) (5)

其中，式(1)、(2)、(3)中σ(·)代表sigmoid函数；

式(2)中w_xf，wh_f，w_cf为遗忘门f_t中需要学习的权重矩阵，b_f表示遗忘门f_t中的偏置向量；

3.根据权利要求2所述基于神经网络的知识图谱补全方法，其特征在于，步骤S3的具体方法为：

h_CNN＝ReLU(γ·h_RNN+b) (8)

4.根据权利要求3所述基于神经网络的知识图谱补全方法，其特征在于，步骤S4的具体方法为：

f[s r o]＝concat(σ(γ*(β#[v_s，v_r，v_o])))·w (9)

其中·表示点积，#表示循环运算层，*表示卷积运算层；

非线性逻辑sigmoid函数用于获得句子是否为正确的概率预测：

p＝Sigmoid(f[s r o])p∈[0，1] (10)

其中，第一项是经验风险，第二项是正则化项，L2是正则化项，即损失函数L的第二项，λ是L2正则化的超参数，用于调整经验风险和正则化之间的关系以平衡经验风险与模型复杂度；w是L2正则化的权重向量；l_(s，r，o)为样例的标签，正例则为1，负例则为-1；K′是标签为-1的负例的集合，负例是通过破坏K中的正例而产生的。

5.根据权利要求4所述基于神经网络的知识图谱补全方法，其特征在于，负例的构造方法具体包括以下步骤：

S413、知识图谱中的三元组(s，r，o)为正例，而训练过程中所需负例三元组(s′，r，o′)由正例(s，r，o)构成，从(s，r，o)中关系r的E_NC中选择被破坏的实体s′或0′，继而减少了产生错误负例的可能性。

6.根据权利要求5所述基于神经网络的知识图谱补全方法，其特征在于，步骤S411的具体方法为：