CN113010690A

CN113010690A - 一种基于文本信息增强实体嵌入的方法

Info

Publication number: CN113010690A
Application number: CN202110334949.5A
Authority: CN
Inventors: 陆以勤; 洪炜妍; 覃健诚; 谢树禄; 李智鹏; 陈帅豪; 陈嘉睿
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-06-22
Anticipated expiration: 2041-03-29
Also published as: CN113010690B

Abstract

本发明公开了一种基于文本信息增强实体嵌入的方法，包括预训练知识图谱嵌入模型，得到实体向量和关系向量；将实体向量和关系向量分别加载到实体嵌入矩阵和关系嵌入矩阵中，得到实体结构嵌入以及关系结构嵌入；预训练词向量模型，得到词向量；查询词嵌入矩阵，得到实体描述词向量和关系词向量；将实体描述词向量输入到BiLSTM网络中，在BiLSTM网络的输出层中引入点积注意力；对关系词向量取平均得到关系嵌入；将实体结构嵌入投影到关系空间，得到实体结构嵌入投影，再将实体描述嵌入和实体结构嵌入投影相加，得到实体嵌入。本发明利用网络安全知识库中附带的文本信息来增强实体的表示能力，进而提高实体链接预测的准确率。

Description

一种基于文本信息增强实体嵌入的方法

技术领域

本发明涉及知识图谱补全技术领域，具体涉及一种基于文本信息增强实体嵌入的方法。

背景技术

由于国内外缺乏全自动构建知识图谱的技术，现今大多数知识图谱都是通过半自动的技术来构建，这就导致知识图谱的不完整，给诸如知识问答、网页搜索等知识图谱上层应用带来巨大挑战。知识图谱由众多节点和边构成，节点即为实体，边即为实体间存在的关系，将这些实体和关系映射到一个低维连续的向量空间的技术被称为知识表示学习。知识表示学习技术一般是利用事实三元组这一类结构信息来表示实体和关系，但由于知识图谱的稀疏和不完整，得到的实体和关系嵌入往往表示能力不强。最近，有学者将目光投放在知识库中附带的文本信息上，这一类文本包括实体描述、实体名称和实体类型等信息，并且有研究表明，这类文本信息能够帮助发现新的关系以及提供更精准的表示。

利用文本信息改进实体嵌入的技术一般包括了两个过程：对文本信息进行编码和利用文本嵌入对实体语义进行增强。以往文本信息编码大多是基于主题模型。然而，采用主题模型得到的文本嵌入包含较少的语义信息。随着近年来诸如Word2Vec、Glove、Transformer和BERT等词向量模型的发展，越来越多的研究选择词向量模型作为预训练模型，以获取包含更为丰富的语义信息的文本嵌入。因为词嵌入和知识图谱嵌入处于不同的向量空间，不能直接进行计算操作，所以利用文本嵌入对实体语义进行增强这一过程首先要将文本嵌入和知识图谱嵌入统一到同一个向量空间。目前，一些研究把实体或关系表示成文本嵌入的线性变换，具体来说，他们先将文本嵌入映射到实体的向量空间再与原始的实体嵌入相加。还有一些研究是设计一个对齐模型，把文本嵌入和实体嵌入对齐到同一个语义空间，从而将两者联合到一起。

由上述分析可知，要利用文本信息增强原有实体的表示能力必须将实体嵌入和文本嵌入统一到同一个语义空间。针对这一问题，一些现有技术是把生成的文本嵌入直接映射到实体的语义空间，这一做法可以将实体相关的语义提取出来，但忽略了关系语义。事实上，实体和关系之间存在相互作用，同一实体对于不同的关系而表现出不一样的属性。在一个事实三元组中，关系只关注头实体的某一属性，实体的其余属性对于该关系来说属于无关信息，所以从实体描述提取的信息应该是与关系相关的语义。还有一些做法是将实体描述投影到关系空间，得到实体描述嵌入，然后直接与原始的实体嵌入相加。这种做法只是增强了实体描述中与关系相关的部分，没有对实体的结构信息进行处理。由于文本嵌入和知识图谱嵌入处于两个不同的语义空间，如果直接相加可能会将一些无关的语义引入到原来的实体表示当中，反而会削弱原有的语义。因此，现有技术得到的实体表示大都比较片面

发明内容

本发明的目的是为了克服以上现有技术存在的不足，提供了一种提高实体链接预测的准确率的基于文本信息增强实体嵌入的方法。

本发明的目的通过以下的技术方案实现：

一种基于文本信息增强实体嵌入的方法，包括：

S1，采用网络安全数据集预训练知识图谱嵌入模型，得到实体向量和关系向量；将实体向量和关系向量分别加载到实体嵌入矩阵和关系嵌入矩阵中，分别得到实体结构嵌入e_s和关系结构嵌入r_s；

S2，预训练词向量模型，得到词向量；采用词向量初始化词嵌入矩阵；

S3，根据实体描述以及关系中每个词的索引查询词嵌入矩阵，得到实体描述词向量和关系词向量；

S4，将实体描述词向量输入到BiLSTM网络中，在BiLSTM网络的输出层中引入点积注意力；对关系词向量取平均得到关系嵌入；将每一时刻BiLSTM网络的输出与关系嵌入做匹配，得到每一时刻的输出对于关系的权重；将权重分配到每个BiLSTM网络的输出，得到对关系加权后的实体描述嵌入；

S5，将预训练得到的实体结构嵌入e_s投影到关系空间，得到实体结构嵌入投影e_⊥，再将实体描述嵌入和实体结构嵌入投影相加，得到实体嵌入e。

优选地，BiLSTM网络的输出

优选地，实体描述来自网络安全知识库中附带的文本信息。

优选地，关系嵌入

表示为：

其中

表示关系词向量，m表示关系文本的长度。

优选地，每一时刻的输出对于关系嵌入的权重为：

其中

用于计算每一时刻输出对于关系的重要性评分。

优选地，对关系加权后的实体描述嵌入为：

其中V_r表示单层神经网络，ReLU表示激活函数。

优选地，将预训练得到的实体结构嵌入e_s投影到关系空间，得到实体结构嵌入投影e_⊥，投影表达式为：

e_⊥＝e_sM_r。

其中M_r表示关系投影矩阵。

优选地，实体嵌入e表示为：

e＝e_d+e_⊥。

优选地，所述的基于文本信息增强实体嵌入的方法，还包括：对知识图谱嵌入模型进行优化；具体为：随机替换网络安全训练集中的头实体或者尾实体，生成负样本集合；将负样本集合输入知识图谱嵌入模型进行训练；根据评分函数计算正负样本的得分，使用Adam优化算法调整知识图谱嵌入模型参数直至模型收敛。

优选地，知识图谱嵌入模型的损失函数为：

其中γ是分离正负样本的边界值，f(e_h,r_s,e_t)为基线模型的评分函数。

本发明相对于现有技术具有如下优点：

本发明利用网络安全知识库中附带的文本信息来增强实体的表示能力，进而提高实体链接预测的准确率。考虑到实体描述中可能存在长句子，本本发明在编码实体描述这一过程中采用的是BiLSTM模型。另外，为了加快模型收敛和降低过拟合，对知识图谱嵌入模型以及词向量模型进行预训练。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明的基于文本信息增强实体嵌入的方法的流程示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

本发明主要适用于网络安全领域中的知识表示学习，通过利用网络安全知识库中的文本信息，提高模型在实体链接预测任务上的准确率。

参见图1、一种基于文本信息增强实体嵌入的方法，包括：

S1，采用网络安全数据集预训练知识图谱嵌入模型，得到实体向量和关系向量，这能加快模型收敛；将实体向量和关系向量分别加载到实体嵌入矩阵和关系嵌入矩阵中，分别得到实体结构嵌入e_s和关系结构嵌入r_s；

S2，采用英文维基百科语料集预训练词向量模型，得到词向量；采用词向量初始化词嵌入矩阵；

S3，根据实体描述(x₁，x₂，…，x_n)以及关系(y₁，y₂，…，y_m)中每个词的索引查询词嵌入矩阵，得到实体描述词向量

和关系词向量

实体描述是从网络安全数据库中抽取得到；实体描述来自网络安全知识库中附带的文本信息，实体描述是一个长句子，且有用信息分布在句子的不同位置。

S4，将实体描述词向量输入到BiLSTM网络中，在BiLSTM网络的输出层中引入点积注意力；BiLSTM网络的输出

这里把前向和后向的输出按照维度拼接在一起，使得输出向量维度和关系词向量的维度相同。

通过对关系词向量取平均得到关系嵌入；关系嵌入

表示为：

其中

表示关系词向量，m表示关系文本的长度。

接着将每一时刻BiLSTM网络的输出与关系嵌入做匹配，即采用点积注意力计算实体描述词向量和关系嵌入的相似程度得分，得到每一时刻的输出对于关系的权重；每一时刻的输出对于关系嵌入的权重为：

其中

用于计算每一时刻输出对于关系的重要性评分。

将权重分配到每个BiLSTM网络的输出，得到对关系加权后的实体描述嵌入；对关系加权后的实体描述嵌入为：

其中V_r∈R^w×d表示单层神经网络，ReLU(·)表示非线性激活层，激活函数采用线性整流函数。

由于需要从网络安全实体描述中提取和关系相关的语义，而注意力机制可以使BiLSTM网络集中关注输入序列中与关系语义相关的部分。本发明首先查询词嵌入矩阵得到实体描述的词向量和关系的词向量，然后把实体描述的词向量输入到BiLSTM网络得到网络的输出，并且通过对关系序列取平均得到关系嵌入，接着对BiLSTM网络每个时刻的输出和关系做匹配操作，这样一些和关系相关的特征就会得到较高权重，其中在网络输出与关系的匹配上采用的是点积注意力。

把实体描述嵌入和实体结构嵌入统一到关系空间。通过引入注意力机制增强实体描述中和特定关系相关的语义，但如果处理后的实体描述嵌入直接和原始实体嵌入相加，会模糊掉特定关系方向的语义。为此，先把原始的实体嵌入投影到关系空间，得到实体结构嵌入投影，再与实体描述嵌入相加，形成最终的实体嵌入。具体如步骤S5。

S5，引入关系投影矩阵M_r∈R^d×d，将预训练得到的实体结构嵌入e_s投影到关系空间，得到实体结构嵌入投影e_⊥，投影表达式为：

e_⊥＝e_sM_r。

再将实体描述嵌入和实体结构嵌入投影相加，得到实体嵌入e。实体嵌入e表示为：

e＝e_d+e_⊥。

在本实施例，所述的基于文本信息增强实体嵌入的方法，还包括：对知识图谱嵌入模型进行优化；具体为：

把网络安全训练集中的三元组记为(e_h，r_s，e_t)∈Δ，随机替换网络安全训练集中的头实体或者尾实体，生成负样本集合，记为(e_h′，r_s，e_t′)∈Δ′；将负样本集合输入知识图谱嵌入模型进行训练；本方案将头尾实体替换为增强后的头尾实体嵌入，根据评分函数f(e_h，r_s，e_t)计算正负样本的得分，使用Adam优化算法调整知识图谱嵌入模型参数直至模型收敛。知识图谱嵌入模型的损失函数为：

其中γ是分离正负样本的边界值，f(e_h，r_s，e_t)为基线模型(改进前的知识图谱嵌入模型)的评分函数。

在本实施例，把训练好的知识图谱嵌入模型应用到实体链接预测任务当中，预测缺失的头实体或者尾实体，以正确实体的平均排名(Mean Rank)和正确结果位于前十(Hits@10)的百分比作为评价指标，其中测试数据来自网络安全数据集。

综上，本发明提出一种融合注意力机制和关系空间投影的利用文本信息增强实体嵌入的方法，把实体描述嵌入和实体结构嵌入统一到同一个语义空间，增强相关语义，削弱无关语义。由于同一实体对于不同关系而表现出不一样的属性，在一个事实三元组中，关系只关注头实体的某一属性，所以从实体描述中提取的信息应该是与关系相关的语义。该方法采用BiLSTM(Bi-directional Long Short Term Memory)模型进行文本编码以期从实体描述中获取更为丰富的语义信息，然后通过在网络的输出层引入注意力机制来提取与三元组中关系相关的语义；对于实体结构嵌入部分，引入关系投影矩阵来获取相关语义，最后联合两部分的嵌入作为增强后的嵌入表示。此方法可以利用知识库中附带的实体描述信息来改善知识图谱嵌入表示的效果，提升知识图谱链接预测的准确率。

上述具体实施方式为本发明的优选实施例，并不能对本发明进行限定，其他的任何未背离本发明的技术方案而所做的改变或其它等效的置换方式，都包含在本发明的保护范围之内。