CN113360675A

CN113360675A - 一种基于互联网开放世界的知识图谱特定关系补全方法

Info

Publication number: CN113360675A
Application number: CN202110713908.7A
Authority: CN
Inventors: 李超; 关哲林; 石会昌; 邓经纬
Original assignee: Zhongguancun Smart City Industrial Technology Innovation Strategic Alliance
Current assignee: Zhongguancun Smart City Industrial Technology Innovation Strategic Alliance
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-09-07
Anticipated expiration: 2041-06-25
Also published as: CN113360675B

Abstract

本发明提出了一种基于互联网开放世界的知识图谱特定关系补全的方法，包括：通过搜索引擎获取与三元组相关的网页，剔除不相关的网页内容后留下网页正文。对百科类网页和官网类网页，人工设计模式从网页中抽取候选尾实体列表。对于新闻类网页，首先进行分词，并采用词嵌入方法表示正文，再计算与关系向量的余弦相似度抽取出与三元组相关的上下文，再利用CNN进行实体关系抽取，形成候选尾实体列表。最后，将各类网页产生的候选实体列表合并，在知识图谱中提取与三元组相关的子图，结合子图特征确定最终的候选实体。本发明充分利用开放世界的互联网信息，弥补传统方法中信息来源单一的缺点，能够解决开放世界的知识图谱补全问题。

Description

一种基于互联网开放世界的知识图谱特定关系补全方法

技术领域

本发明涉及自然语言处理和知识图谱领域，提出了一种基于互联网开放世界的知识图谱特定关系补全的方法，对于稀疏的图谱也有良好的效果。

背景技术

知识图谱作为一种语义网络，具有极强的表达能力和建模灵活性，而且其表示方法对计算机友好，因此在各个领域均有重要作用，如智能问答、信息抽取、信息搜索、个性化推荐等。然而由于在知识图谱的构建过程中常采用自动化方法，它们往往存在数据质量问题，数据的缺失就是其中之一。Denis Krompa对一些开源的大型知识库进行了统计，在“Freebase”中，有71％的人的实体缺失了“出生地”属性值，而在“DBpedia”中这个数值为66％。知识图谱作为各类应用的底层工具，数据缺失问题会严重影响应用的最终效果，因此对知识图谱进行补全是有必要的。

知识图谱补全，即对图谱中的缺失三元组(头实体，关系，尾实体)进行补全。由于头实体缺失的场景较少，一般来说指的是尾实体缺失的补全。给定一个知识图谱G＝(E,R,T)，其中E表示实体集合，R表示关系集合，T表示三元组集合<h,r,t>。最初的知识图谱补全方法关注于利用知识图谱的内部信息来推理完成补全，称为封闭世界的知识图谱补全。即找到一个新的三元组集合T′：

封闭世界的知识图谱补全的方法基本可分为三类。第一类是概率图模型，如马尔可夫逻辑网；第二类是路径排序算法，即通过路径来预测实体间的潜在关系；第三类是基于表示学习的模型，该类方法将实体向量映射到关系决定的空间，之后通过向量运算推断缺失关系。

封闭世界的知识图谱补全的方法能得到的信息是有限的，随着存在于互联网上的数据的快速增长，通过程序从互联网上抽取信息进行补全变得可行。这种从外部世界获取信息进行补全的模型，称为开放世界的知识图谱补全方法。Baoxu Shi首先提出了开放世界的知识图谱补全的详细定义，即找到一个新的三元组集合T′：

其中Eⁱ为实体超集。为了解决开放世界的知识图谱补全的问题，研究者们提出了一些有效的模型，典型的有ConMask模型、OWE模型、MIA模型等。

Baoxu Shi等提出了ConMask模型，它首先使用依赖关系的内容遮蔽来选择相关文本描述中与给定关系相关的词，之后训练一个全卷积神经网络从描述文本中提取基于词的目标实体的嵌入，最后将这个嵌入与图谱中现有的目标候选实体做比较生成排序列表。但该模型依赖于长文本描述，且难以定位候选实体。

Haseeb Shah等提出了OWE模型，将从知识图谱中学习到的规则链接预测模型与从文本语料库中学习到的单词嵌入相结合。在独立训练两者之后，模型习得一种转换，将一个实体的名称与描述的嵌入映射到基于图的嵌入空间中。该模型利用了完整的知识图谱结构，不依赖于长文本，具有很高的扩展性。但该模型训练成本高昂，对原始数据有着很高的质量要求。

LeiNiu等提出了MIA模型，该模型相较于ConMask能充分利用实体描述中的语义信息，它引入了多个候选尾部实体描述之间的交互，使其能够探索多个尾部实体描述之间的隐藏关系，并使用这些关系来形成它们之间的交互，增强它们的表示。该模型收敛能力强，效果好，但非常依赖实体描述的丰富性，对于信息缺乏的描述文本效果很差。

以上针对开放世界的知识图谱补全的方法，都能够达成开放世界的知识图谱补全的目标。但是它们的实体描述文本的来源单一，这些文本都来自实体对应的Wikipedia的词条。对于大多数图谱而言，图谱内的实体没有对应的词条(Wikipedia、百度百科等)，其相关的信息分散在互联网不同的网页中，还没有模型能够处理如何从分散的互联网网页中抽取信息补全知识图谱的问题。

发明内容

为了解决上述的问题，本发明对开放世界的知识图谱补全方法进行了深入研究，提出了一种基于互联网开放世界的知识图谱特定关系补全的方法，以克服现有技术无法从分散的互联网网页中获取信息进行知识图谱补全的问题。

本发明通过搜索引擎获取与三元组相关的网页，剔除不相关的网页内容后留下网页正文。所述搜索引擎包括百度、谷歌等；对百科类网页和官网类网页，人工设计模式从网页中抽取候选尾实体列表。对于新闻类网页，首先进行分词，并采用词嵌入方法表示正文，再计算与关系向量的余弦相似度抽取出与三元组相关的上下文，再利用CNN进行实体关系抽取，形成候选尾实体列表。最后，将各类网页产生的候选实体列表合并，在知识图谱中提取与三元组相关的子图，结合子图特征确定最终的候选实体。

本发明的技术方案是：

步骤S1：选定待补全的三元组的类型<H，R，T>。将图谱中完整的该类三元组划分为训练集、验证集和测试集，缺失尾实体T的三元组留待补全。

步骤S2：将训练集中的三元组作为关键词依次输入百度搜索引擎，每个关键词获取前K₁有效网页。

步骤S3：对于步骤S2获得的网页可分为两种，百科类、官网类网页为第一种，其他网页为第二种(主要是新闻类网页)。使用“行块分布算法”A₁从网页中提取正文。

步骤S4：利用中文实体关系抽取方法从正文中抽取出带评分的候选尾实体列表，评分阈值为Score₁，列表大小为K₂。限定抽取的关系类型为待补全的三元组的关系类型。

步骤S5：在知识图谱中提取与三元组紧密相关的子图，结合子图的一些拓扑信息，确定候选尾实体列表中的最终结果。

步骤S6：在测试集上完成模型的测试与优化。

步骤S7：将图谱中缺失尾实体的三元组依次输入百度搜索引擎，关键词为“头实体名称关系名称”，获取前K₁个有效网页。重复步骤S3、S4、S5，抽取出尾实体。

进一步的，步骤S3中的行块分布算法A₁的具体步骤如下：

步骤S31：预处理，剔除网页HTML标签，去掉所有的无效字符(\n，\t，\r等)。然后依据“\n”分行，得到一个包含有空白的粗糙正文块。

步骤S32：以s_i表示HTML中第i行的字符数，t_i表示正文块中第i行的字符数(即HTML对应行剔除网页标签后的文本字符数)，size表示HTML行数，最大化公式(1)如下：

其中m和n表示行数，小于行m和大于行n的文本即为网页正文。

进一步的，当网页类型为第一种时，所述步骤S4具体包括：

步骤S41a：在步骤S3得到的正文中抽取所有头实体与尾实体的共现情况，观察统计后人工设计模式进行尾实体抽取。

进一步的，当网页类型为第二种时，所属步骤S4具体包括：

步骤S41b：在步骤S3得到的正文中借鉴ConMask模型中内容遮蔽的思想从正文中抽取相关上下文。该方法通过为文本分配依赖关系的相似性分数来屏蔽不相关的单词，计算公式如下公式(2)所示：

其中e是一个实体，r是一个关系，

返回一段文本的词向量表示，ψ返回一个关系的名称的词向量表示。

是e的描述矩阵，每一行表示一个在

中的单词的k维向量。W_ψ(r)∈R^|ψ(r)|*k是r的名称矩阵，每一行表示在关系ψ(r)的名称中的一个单词的k维向量。f_[i]表示一段文本中第i个单词的向量与关系名称中所有单词向量(关系名称可能为多个单词)的余弦相似度的最大值。找出文本中具有最高f值的前K₃个单词，取每个单词所在的完整句子，合并，即为相关上下文。

步骤S42b：在步骤S41b得到的上下文中使用基于CNN的实体关系抽取方法，抽取候选尾实体，从K₁个有效网页中抽取出K₂x候选实体，形成候选尾实体列表。首先，使用工具将句子分词为{w₁，w₂，...，w_n}，每个单词对应一个d₁维的词向量，此时每个句子就是一个n*d₁的词向量矩阵。再将每个词到实体e₁和e₂的距离分别表示为p₁维和p₂维的向量。然后将句子对应的词向量矩阵与位置向量矩阵连接起来，作为该句子的特征向量表示V∈R^n*d，其中d＝d₁+p₁+p₂。

步骤S43b：将句子表示为矩阵V后，将V输入CNN。网络的输出是一个K₄维的向量y∈R(0，1)^k，其中y的第k维的值y_k表示实体关系为关系k的概率，满足∑_ky_k＝1。依次判定一个句子中是否含有待抽取的关系类型，若有，将该关系对应的尾实体抽取。多个网页的多个句子的抽取结果合并为候选尾实体列表。

本发明的有益效果在于：知识图谱补全对于维护图谱质量、提升上层应用的效果有着重要的作用。但很多图谱缺失的实体分散在互联网网页中，而传统的开放世界的知识图谱补全方法无法利用这些信息，限制了其应用场景。针对上述缺点，本发明提出了一种基于互联网开放世界的知识图谱特定关系补全方法，包括正文抽取、模式设计、上下文抽取、实体关系抽取模块，能够从分散的互联网网页中提取实体加入到知识图谱，具有广泛的适用性。

附图说明

通过参考附图能更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，在附图中：

图1为本发明流程图；

图2为两种网页特点的对比；

图3为一个网页的“行块分布”情况，横轴表示行块，纵轴表示行块的长度；

图4为从一段正文中抽取到的上下文的示意图，分词颜色越深表示与关系名称的相似度越高；

图5为CNN的网络结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点表达地更加清楚明白，以下结合附图和具体实施步骤对本发明进行详细描述，但不作为对本发明的限定；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的；

下面结合附图和实施例对本发明的技术方案做进一步的说明。

步骤S1：如图1所示为知识图谱补全的整体流程图，以下步骤以补全缺失“单位”的<专家，就职，单位>类三元组为例进行说明。将图谱中完整的<专家，就职，单位>类三元组按8：1：1的比例划分训练集、验证集和测试集。

步骤S2：关键词的形式为“专家名称就职单位名称”，如“李未就职北京航空航天大学”。百度返回的网页中可能存在空白网页，或者网页中不存在头实体或尾实体，这样的网页是无效网页，只计算有效网页数量。

步骤S3：观察图2所示的各类网页，发现网页的链接和内容都能帮助判断网页类型，判断顺序如下。若链接中包含“baike”字符串则为百科类网页；若链接中包含“edu.cn”则为官网类网页；若包含“sohu”、“people”等则为新闻类网页；若网页中包含“邮箱”、“地址”等则为官网类网页；其他均为第二类网页。

在实施时，根据网页结果收集新闻类网站的链接，建立官网类网页的链接集合和新闻类网页的链接集合，若是后续收集到的网页链接包含集合中的某个链接，则可以直接判定网页的所属类型。

在实施时，步骤S3中的“行块分布算法”A₁的具体步骤如下：

步骤S31：由于不同网页之间的结构多种多样，无法用统一的正则表达式进行预处理，因此使用“行块分布算法”提取正文。首先使用正则表达式去除网页标签、脚本内容，保留去除后的空白位置信息。正则表达式为：“<！--.*？-->”，“<{0}.*？>([\s\S]*？)<\/{0}>”，“<[\s\S]*？>|[\t\r\f\v]”。然后依据“\n”分行，得到一个包含有空白行的粗糙正文块。

步骤S32：行块i的定义是从第i行到第i+blockSize行的文本，行块i的长度是该行块去掉所有空白符后的字符总数。计算出行块长度基于行号的分布函数。然后根据公式1求出正文文本的开始行n与结束行m。小于行m和大于行n的文本即为网页正文。如图3所示为一个网页中行块的分布情况，其中横轴表示第i个行块，纵轴表示该行块的长度。

步骤S4：。评分阈值Score₁的值为0.7，K₂的值为5。若评分大于阈值的候选实体个数大于K₂，则取前K₂个实体组成候选实体列表。限定抽取的关系类型为待补全的三元组的关系类型。

在具体实施时，当抽取的网页为第一类时，步骤S4如下所示：

步骤S41a：在步骤S3得到的正文中筛选出第一类网页，分批次进行这些网页的模式设计。将这些网页分为10批次，首先自动抽取第一批次中所有头实体与尾实体的共现情况，观察统计后人工设计模式。以图2中的百科类和官网类网页为例，可以提取出如下的模式：“($头实体)[.*？]<$机构名称>[.*？][。|！|？|；]”，“($头实体)[.*？]<$机构名称>[.*？\n]”。第一批次的模式设计完毕后，在第二批次的正文中利用其抽取尾实体，如果某个网页没有抽取出尾实体，再抽取该网页中头实体与尾实体的共现情况并设计模式，将第二批次和第一批次的模式利用在第三批次的正文中。以此类推，完成第一类网页的目标尾实体抽取。

当抽取的网页为第二类时，步骤S4如下所示：

步骤S41b：使用哈工大LTP工具对正文文本进行分词，使用在百度百科语料库上训练的300维Word2vec中文词向量作为正文中的词向量表示。假设正文长度N，则该正文被表示为一个词向量矩阵W∈R^N*k，k＝300表示词向量维度。假设“就职”的词向量表示为X_r，使用公式2计算正文中所有单词向量与X_r的余弦相似度，在中文情况下，公式(2)可以简化为公式(3)：

f_[i]表示正文中第i个单词的向量与关系向量的余弦相似度。找出文本中具有最高f值的前K₃个单词，取每个单词所在的完整句子，合并，即为相关上下文。如图4所示为从一个正文中抽取上下文的示意图。

步骤S42b：依然使用步骤S41b中的分词结果和向量表示，假设句子分词为n个词，每个句子就是一个n*d₁的词向量矩阵，d₁＝300。然后再计算每个词到头实体e₁和尾实体e₂的距离，两个词的距离表示句子分词后这两个词中间的词语数量。将每个词到实体e₁和e₂的距离分别表示为p₁维和p₂维的向量。然后将句子对应的词向量矩阵与位置向量矩阵连接起来，作为该句子的特征向量表示V∈R^n*d，其中d＝d₁+p₁+p₂。

步骤S43b：将句子表示为矩阵V后，将V输入CNN。CNN的网络结构如图5所示。网络的输入是矩阵V，之后是一个卷积层，卷积核宽度为d，高度为h。则每个卷积核h*d个参数，这些参数随机初始化。将卷积核与V的第一行相接，按照高度向下滑动，直至矩阵最后一行。卷积操作如下公式(4)所示：

C_k＝f(W_k*V[i：j]+b) (4)

其中W_k表示卷积核参数，V[i：j]表示V的第i到第j行，b表示偏置，f为激励函数relu。经过卷积后，从中输入矩阵得到一个特征图C。

卷积层之后是池化层，采用最大池化，得到m维向量h，m的大小与句子长度n无关。由于训练样本较少，为防止出现过拟合的情况，网络训练时采用dropout技术，以一定的概率关闭一些隐藏层神经元。令r∈R^m表示概率为p的伯努利随机变量向量，将h与p按位相乘，得到向量g。

池化层之后是全连接层，其输出是K₄维向量y∈R(0，1)^k，令K₄＝2，即只存在两种关系“就职”关系和“其他”关系。对于待补全的其他种类的关系，分别训练各自的网络。这样虽然过程比较复杂，但可以提升准确率。

网络训练时采用的损失函数为：

其中N表示样本的数量，o_i表示输出的分类i，x_i表示样本，θ表示参数集合，p为条件概率

ml是总的分类个数，o是最后CNN的输出结果，采用梯度下降法最小化损失函数。

依次判定文本中的多个句子中是否含有“就职”关系类型，若有则将对应的尾实体抽取。多个网页的多个句子的抽取结果合并，取前K₂个组成候选尾实体列表。

步骤S5：抽取出候选尾实体列表后，提取知识图谱以头实体为中心的4层深度的子图G₁，假设头实体是“专家1”，G₁中存在“专家1-论文1-专家2-单位2”类似的路径，那么有可能“单位2”就是“专家1”的单位，因为合作发表一篇论文的作者大概率就是同一单位的。如果候选尾实体列表中存在某个实体，它出现在子图G₁中，那么该实体即为三元组中缺失的尾实体。如果存在多个这样的候选实体，则选取评分最高的。

步骤S6：主要是测试、优化方法中的超参数，包括K₁、K₂、K₃、K₄、Score₁。

步骤S7：由于不存在验证集，需要通过人工评定确定最终补全的三元组是否为真，并统计正确率。

显然，通过上述7个步骤，本发明可以利用分散于互联网上的信息发现新的实体并加入知识图谱。本说明未详细阐述的部分属于本领域的公知技术。

Claims

1.一种基于开放互联网世界的知识图谱特定关系补全方法，其特征在于，包括如下步骤：

步骤S1：选定待补全的三元组的类型＜H，R，T＞，将知识图谱中完整的该类三元组划分为训练集、验证集和测试集，缺失尾实体T的三元组作为“补全集”留待补全；

步骤S2：将训练集中的三元组作为关键词依次输入网页搜索引擎，每个关键词获取前K₁有效网页；

步骤S3：使用“行块分布算法”从步骤S2获得的网页中提取正文；

步骤S4：利用中文实体关系抽取方法从正文中抽取出带评分的候选实体列表；

步骤S5：在知识图谱中提取与三元组相关的子图，结合子图特征确定最终尾实体；

步骤S6：在测试集上完成模型的测试与优化，包括测试、优化方法中的超参数；

步骤S7：利用训练好的模型补全“补全集”中的三元组。

2.根据权利要求1所述的一种基于开放互联网世界的知识图谱特定关系补全方法，其特征在于，所述步骤S3具体包括：

步骤S31：使用正则表达式对网页进行预处理，去掉所有的无用字符，保留去除后的空白位置信息，得到一个包含有空白的粗糙正文块；

步骤S32：行块i的定义是从第i行到第i+blockSize行的文本，行块i的长度是该行块去掉所有空白符后的字符总数，blockSize是行块的大小，即一个行块有几行文本；计算出行块长度基于行号的分布函数；以s_i表示HTML中第i行的字符数，t_i表示正文块中第i行的字符数，size表示HTML行数，最大化公式(1)如下：

其中m和n表示行数，小于行m和大于行n的文本即为网页正文。

3.根据权利要求1所述的一种基于开放互联网世界的知识图谱特定关系补全方法，其特征在于，当步骤S2获取的网页为百科类或官网类时，步骤S4具体包括：

步骤S41a：在步骤S3得到的正文中自动抽取所有头实体与尾实体的共现情况，观察统计后人工设计模式进行尾实体抽取。

4.根据权利要求1所述的一种基于开放互联网世界的知识图谱特定关系补全方法，其特征在于，当步骤S2获取的网页为新闻类时，步骤S4具体包括：

步骤S41b：使用哈工大LTP工具对正文文本进行分词，使用在百度百科语料库上训练的k维Word2vec中文词向量作为正文中的词向量表示；假设正文长度为N，则该正文被表示为一个词向量矩阵W∈R^N*k，k表示词向量维度；假设待处理的关系词向量表示为X_r，使用公式(2)计算正文中所有单词向量与X_r的余弦相似度：

f_[i]表示正文中第i个单词的向量与关系向量X_r的余弦相似度，找出文本中具有最高f值的前K₃个单词，取每个单词所在的完整句子，合并，即为相关上下文；

步骤S42b：依然使用步骤S41b中的分词结果和向量表示，假设句子分词为n个词，每个句子就是一个n*d₁的词向量矩阵，d₁＝k；然后再计算每个词到头实体e₁和尾实体e₂的距离，两个词的距离表示句子分词后这两个词中间的词语数量；将每个词到实体e₁和e₂的距离分别表示为p₁维和p₂维的向量；然后将句子对应的词向量矩阵与位置向量矩阵连接起来，作为该句子的特征向量表示V∈R^n*d，其中d＝d₁+p₁+p₂；

步骤S43b：使用CNN进行中文实体关系抽取，CNN的输入是矩阵V，之后是一个卷积层，卷积核宽度为d，卷积核的高度为h；则每个卷积核包含h*d个参数，设置多个卷积核；这些参数随机初始化，将卷积核与V的第一行相接，按照高度向下滑动，直至矩阵最后一行，卷积操作如下公式(3)所示：

C_k＝f(W_k*V[i：j]+b) (3)

其中W_k表示卷积核参数，V[i：j]表示V的第i到第j行，b表示偏置，f为激励函数relu，经过卷积后，从输入矩阵得到一个特征图C；

卷积层之后是池化层，采用最大池化，得到m维向量h，m的大小与句子长度n无关，网络训练时采用dropout技术，以一定的概率关闭一些隐藏层神经元，令r∈R^m表示概率为p的伯努利随机变量向量，将h与p按位相乘，得到向量g；

池化层之后是全连接层，其输出是K₄维向量y∈R(0，1)^k，其中y的第k维的值y_k表示实体关系为关系k的概率，满足∑_ky_k＝1；依次判定一个句子中是否含有待抽取的关系类型，若有，将该关系对应的尾实体抽取，多个网页的多个句子的抽取结果合并为候选尾实体列表；

网络训练时采用的损失函数为公式(4)：

5.根据权利要求1所述的一种基于开放互联网世界的知识图谱特定关系补全方法，其特征在于，步骤S5具体包括：

提取知识图谱以头实体为中心的4层深度的子图G₁，假设头实体是“A1”，G₁中存在“A1-R1-A2-R2-B1”路径，那么有可能“B1”也是“A1”的所属属性信息；如果候选尾实体列表中存在某个实体，它出现在子图G₁中，那么该实体即为三元组中缺失的尾实体；如果存在多个这样的候选实体，则选取评分最高的。

6.根据权利要求1所述的一种基于开放互联网世界的知识图谱特定关系补全方法，其特征在于，步骤S7具体包括：

将“补全集”中的三元组依次输入网页搜索引擎，根据关键词获取前K₁个有效网页；重复步骤S3、S4、S5，抽取出尾实体，由于不存在验证集，需要通过人工评定确定最终补全的三元组是否为真，并统计正确率。