CN112417170A

CN112417170A - 面向不完备知识图谱的关系链接方法

Info

Publication number: CN112417170A
Application number: CN202011318513.9A
Authority: CN
Inventors: 胡伟; 赵耀; 丁基伟
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2020-11-23
Filing date: 2020-11-23
Publication date: 2021-02-26
Anticipated expiration: 2040-11-23
Also published as: CN112417170B

Abstract

本发明公开了一种面向不完备知识图谱的关系链接方法，包括以下步骤：对输入的自然语言问句进行关键词提取、命名实体和类型识别与消歧，得到实体与类型链接列表；进行依存分析，获得问句对应的语义依存树，然后进行语义化搜索，判断树中任意实体类型对之间是否存在直接依存关系，得到过滤的实体类型对集合；在知识图谱中枚举所有以过滤出的实体和类型为头节点，且长度小于阈值的关系路径，得到候选关系路径列表；分别利用预训练的语言模型和知识图谱表示学习模型，将问句和候选关系路径转化为向量表示，进行相似度比较，选取相似度最高的候选关系路径作为最终的关系链接结果。本发明实现了对自然语言问句关系的鲁棒准确链接。

Description

面向不完备知识图谱的关系链接方法

技术领域

本发明涉及知识图谱和自然语言处理技术领域，尤其涉及一种面向不完备知识图谱的关系链接方法，具体是一种基于表示学习的面向不完备知识图谱的关系链接方法，特别是一种通过将自然语言问句和候选关系路径转化为向量进行相似度计算来实现面向关系路径的关系链接方法。

背景技术

随着互联网的发展，网络数据内容呈现爆炸式增长的态势。由于互联网内容的大规模、异质多元、组织结构松散的特点，给人们有效获取信息和知识提出了挑战。知识图谱(Knowledge Graph)以其强大的语义处理能力和开放组织能力，为互联网时代的知识化组织和智能应用奠定了基础。知识图谱旨在描述真实世界中存在的各种实体或概念及其相互关系。其中，每个实体或概念用一个全局唯一确定的统一资源标识符来标识。每个属性-值对用来刻画实体的内在特性，而关系用来链接两个实体，刻画它们之间的关联。知识图谱也可以被看作是一张巨大的图，图中的节点表示实体或概念，而图中的边则由属性或关系构成。现在比较流行的知识图谱有DBpedia、Wikidata、Freebase、YAGO等，然而这些知识图谱仍然是不完备的。

自然语言处理(natural language processing)是研究人类用自然语言与计算机之间进行通信的技术，属于语言学、计算机科学、认知科学等相关学科的交叉学科，涉及范围广泛。此领域研究人与计算机交互的语言问题，探讨如何处理及运用自然语言，特别是如何编程计算机以成功处理大量的自然语言数据。处理自然语言的关键是要让计算机“理解”自然语言，自然语言处理的关键技术包括自然语句的分词、词性标注、命名实体识别、指代消解、句法依存分析等，可用于处理语音识别、文本分类、信息检索和智能问答等下游任务。

关系链接(relation linking)是帮助在自然语言问句和知识图谱之间建立映射关系的一种技术，旨在将自然语言问句中表达关系的单词短语链接到知识图谱中对应的边上。相似地，实体链接技术是将自然语言问句中的实体词汇链接到知识图谱中对应的节点上。实体链接技术已经成为较为成熟的研究，然而关系链接技术却很少受到关注。

发明内容

发明目的：针对上述现有技术存在的问题和不足，本发明的目的是提供一种面向不完备知识图谱的关系链接方法。在关系链接过程中，使用知识图谱和自然语言处理技术对自然语言问句和候选关系路径进行向量转化，从而实现对自然语言问句关系的鲁棒准确链接。

技术方案：为实现上述发明目的，本发明采用的技术方案为一种面向不完备知识图谱的关系链接方法，包括以下步骤：

(1.1)对于输入的一个自然语言问句，提取所述自然语言问句中的关键词，进行命名实体识别与消歧、类型识别与消歧，生成实体与类型链接列表；

(1.2)基于所述步骤(1.1)得到的实体与类型链接列表，进行依存分析，获得所述自然语言问句所对应的语义依存树，然后根据规则将所述语义依存树转化为有向图，并在所述有向图中进行语义化搜索，得到过滤实体类型对集合；

(1.3)基于所述步骤(1.2)得到的实体类型对集合，在知识图谱中枚举所有以过滤出的实体和类型为头节点，且长度小于阈值的关系路径，得到候选关系路径列表；

(1.4)基于所述步骤(1.3)得到的候选关系路径列表，分别利用预训练的语言模型和知识图谱表示学习模型，将所述自然语言问句和候选关系路径转化为向量表示，并进行相似度比较，选取相似度最高的候选关系路径作为最终的关系链接结果。

进一步的，所述步骤(1.2)包括以下步骤：

(2.1)基于所述步骤(1.1)得到的实体与类型链接列表，进行依存分析，得到所述自然语言问句对应的语义依存树；

(2.2)基于所述步骤(2.1)得到的语义依存树，根据依存关系的名称将依存树建图为有向图，所述有向图中边的方向与权值由依存关系决定；

(2.3)基于所述步骤(2.2)得到的有向图，进行语义化搜索，判断任意实体类型对之间是否存在直接依存关系，若某实体类型对之间存在直接依存关系，则将该实体类型对加入候选集合；遍历完毕所有实体类型对之后，将候选集合作为过滤实体类型对集合。

进一步的，所述步骤(1.4)包括以下步骤：

(3.1)基于所述步骤(1.1)的输入的自然语言问句，利用预训练的语言模型将所述自然语言问句转化为问句向量；

(3.2)基于所述步骤(1.3)得到的候选关系路径列表，利用预训练的知识图谱表示学习模型，将所述候选关系路径上的关系及实体转化为向量，并通过向量运算得到关系路径向量；

(3.3)基于所述步骤(3.1)得到的问句向量和所述步骤(3.2)得到的关系路径向量，进行相似度评分，得到相似度列表；

(3.4)对所述步骤(3.3)得到的相似度列表进行排序，选择相似度评分最高的路径作为最终的关系链接结果。

有益效果：(1)使用知识图谱和自然语言处理技术对输入的自然语言问句进行处理，枚举关系路径作为候选项，可以增加有效关系候选项数量的同时有效减少无效候选项的数量，提高了关系链接的效率；(2)基于表示学习的方式对自然语言问句和候选关系路径进行相似度比较，可以捕获更多的语义信息，利于机器的理解和处理，并且提高了关系链接的鲁棒性和准确率。

附图说明

图1是本发明的整体处理流程图；

图2是本发明定义的路径排序模型示意图。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实施例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

本发明面向三元组结构的不完备的知识图谱(下文简称为“知识图谱”)，提出了一种通过基于自然语言问句枚举候选关系路径，将自然语言问句和候选关系路径转化为向量进行相似度计算，实现面向关系路径的关系链接方法。

在知识图谱中存在很多事实，它们被表示为单个三元组的形式，例如“动漫人物钢铁侠的出生地是纽约”，在知识图谱中表示为<"钢铁侠","出生地","纽约">。而知识图谱通常是不完备的，即缺失了许多事实。例如，假如在知识图谱中存在<"钢铁侠","出生地","纽约">和<"纽约","城市位于","美国">两个事实，但可能会缺失<"钢铁侠","国籍","美国">这条事实。因此，对于自然语言问句“钢铁侠的国籍是美国吗？”，关系链接技术无法将“国籍”链接到知识图谱中的某条边上，而只能将“国籍”通过“出生在某个地方，该地方是位于美国的城市”的关系路径进行链接。因此，本发明以关系路径为例，但方法也同样适用于单条关系。

本发明公开了一种基于表示学习的面向不完备知识图谱的关系链接方法，包括以下步骤：首先对用户输入的自然语言问句进行实体和类型的链接，实现关键词提取、命名实体识别与消歧、类型识别与消歧，得到实体与类型链接列表；接下来使用语义解析技术对问句进行依存分析，获得问句所对应的语义依存树，然后进行语义化搜索，判断树中任意实体类型对之间是否存在直接依存关系，得到过滤的实体类型对集合及它们之间的关系路径名称；然后在知识图谱中枚举所有以过滤出的实体和类型为头节点，且长度小于3的关系路径，得到候选关系路径列表；最后分别利用预训练的语言模型和知识图谱表示学习模型，将自然语言问句和候选关系路径转化为向量表示，进行相似度比较，选取相似度最高的候选关系路径作为最终的关系链接结果。本发明实现了对自然语言问句关系的快速准确的链接。

本发明的完整流程如图1所示，包括4个部分：根据用户输入的自然语言问句进行自然语言处理实现关键词提取以及命名实体和类型链接得到实体与类型链接列表，基于所得到的实体与类型链接列表运用语义解析技术进行依存分析得到依存树并进行语义化搜索和实体类型对过滤，再基于得到的实体类型对列表枚举所有候选关系路径，最后利用预训练的语言模型和知识图谱表示学习模型将自然语言问句和候选关系路径转化为向量表示进行相似度比较和排序得到最终的关系链接结果。

具体的实施方式分别说明如下：

1.根据用户输入的自然语言问句进行自然语言处理实现关键词提取以及命名实体和类型链接得到实体与类型链接列表

对于输入的一个自然语言问句(简称问句)，首先对问句进行自然语言处理，使用开源工具，包括但不限于Falcon、EARL，对问句进行关键词提取、实体和类型链接。

在这个过程中，为了提高其中的类型链接的准确率，在开源工具对问句处理完毕后，加入一些类型列表(DBpedia具有的所有类型的列表)对链接结果进行二次校验，将原本开源工具进行类型链接时可能产生的链接错误(主要是开源工具无法识别或者过度识别的一些名词短语)加以解决，尽可能提高类型链接的准确度。

2.根据所得到的实体与类型链接列表运用语义解析技术进行依存分析得到依存树并进行语义化搜索和实体类型对过滤

使用开源工具，包括但不限于Stanford CoreNLP、Stanza，对用户输入的自然语言问句进行处理，生成问句的依存分析树。

考虑到依存分析树中的节点时以单个字词为基本单位，而实体和类型链接的基本单位是词组短语，因此需要将依存分析树中构成同一个实体或者类型短语的节点融合为一个节点，从而获得新的依存分析树。之后利用人工规则将依存分析树转化为一个有向图，进行语义化搜索，判断树中任意实体类型对之间是否存在直接依存关系，得到实体类型对集合。

建图及语义化搜索的过程如下：

(1)首先将依存关系的名称分为两大类，将sub、nsubj、nsubjpass、csubj、csubjpass、xsubj、poss、partmod八种关系统称为主语依存关系，将obj、pobj、dobj、iobj四种关系成为宾语依存关系。同时建立一个没有任何节点的空图。

(2)遍历依存树中的所有依存关系，记为<node₁,r,node₂>。统计依存树中node₁和node₂在实体类型对集合中的个数，记为w，例如node₁在并且node₂不在的话则为1，二者都不在的话记为0。下面进行分类讨论，如果r属于主语依存关系，则在新图中添加一条由node₁指向node₂，且权重为w的有向边；如果r属于宾语依存关系，则添加一条由node₂指向node₁，且权重为w的有向边；否则的话同时添加上述两条有向边。

(3)考虑到构建的新图一定是一个连通图，因此利用最短路径求解算法(如Floyd算法)，更新图中所有节点之间的最短距离。假设节点间最短距离等于2代表所述节点对之间存在直接依存关系。遍历所述图中的任意节点对，如果所述节点对之间的最短距离长度等于2，那么就利用回溯算法得到两者之间的最短路径的具体名称，得到过滤的实体类型对集合及它们之间的关系路径名称。

例如“钢铁侠的国籍是美国吗？”问句得到的实体类型对集合为<"钢铁侠","美国">，以及它们之间的关系路径名称<"国籍">。

3.基于得到的实体类型对列表枚举所有候选关系路径

由于在前述步骤中已经利用开源工具对实体和类型进行了链接，可以直接枚举所有以过滤出的实体和类型为头节点，且长度小于3的关系路径。所有以过滤出的实体和类型为头节点，长度为1或者为2的关系路径都将被加入到候选关系路径集合中。

一般的，以一个实体或类型为头节点的关系路径是无穷多的，这些路径往往表达了不同的含义。但如果路径长度超过了某个阈值，该路径的语义表达就会变得没有具体的含义。因此，在一定的长度范围内，路径的距离越长，表达的含义越丰富。

对于知识图谱而言，由于包含了海量的实体、类型、关系等信息，如何进行有效的存储和管理是其面临的一大问题。现有的知识库大多以RDF三元组的形式进行存储，而SPARQL则是对于此类存储方式的查询语言。通过构建与SQL类似的查询语句，可以方便的进行关系路径的枚举。例如通过查询语句"Select？hwhere{？h？r？t.}"，可以枚举知识图谱中所有的三元组。

4.利用预训练的语言模型和知识图谱表示学习模型将自然语言问句和候选关系路径转化为向量表示进行相似度比较和排序得到最终的关系链接结果

基于用户输入的自然语言问句和前述处理得到的实体类型对集合及它们之间的关系路径名称，利用预训练的语言模型(如BERT、RoBERTa等)可以将自然语言层面的语义信息转化为低维向量；同时基于枚举的知识图谱中的关系路径，利用预训练的知识图谱表示学习模型(如TransE、RotatE等)可以将知识图谱层面的语义信息转化为另一种低维向量，考虑二者的相似程度，选出最合适的关系路径链接结果。

如图2所示，首先基于前述步骤得到的实体类型对集合及它们之间的关系路径名称，利用预训练语言模型进行转化得到问句向量。为了引入更多的先验知识，利用外部词典，包括但不限于PATTY、Paraphrase，引入与当前用户输入问句最相关的m＝10个释义项{p₁,...,p_m}。释义项与问句的相似度可以通过word2vec向量计算等方式进行计算，然后同样利用预训练语言模型将它们同样转为向量，与问句向量融合得到最终的问句表示q。

基于枚举得到的所有候选关系路径，利用预训练知识图谱表示学习模型进行向量转化。由于预训练知识图谱模型本身包含了关系的转移信息，如r₁+r₂＝r，r+r^-1＝0，因此可以直接利用该模型进行语义的叠加，如“出生地+城市位于＝国籍”。本发明将候选关系的数量为n＝20，则经过向量转化后，所有候选关系路径被表示为{path₁,...,path₂₀}的20个维度相同的关系路径向量。

一般的，自然语言问句中的关系表述和知识图谱中的关系表述存在一定的相似性，直接利用字符串匹配的方式进行相似度比较可以取得一定的效果。但是由于自然语言表述的多样性，不同的单词能够表达相似的含义，甚至通过单词的组合叠加也能表达同样的含义。神经网络的方式则可以更好的捕捉到语义上的相似于差异，通过将单词映射到低维空间中，将单词字符串的对比转化为向量之间的加减运算。类似的，在知识图谱中也可以通过类似的方式进行语义上的映射。

分别计算问句表示q和所有候选关系路径表示{path₁,...,path₂₀}的相似度，得到相似度评分列表。每一条关系路径表示记为path_i，则对于问句表示q和候选关系路径表示path_i的相似度评分S(q,path_i)计算即为：

S(q,path_i)＝(q·path_i)/(||q||*||path_i||)∈[0,1]

相似度评分S(q,path_i)数值越大，说明问句和关系路径表达的语义越相似；反之亦然。然后对该列表进行排序，选择相似度评分最高的路径作为最终的关系链接结果。

本发明不同于字符串匹配的关系链接方法，而是以基于向量表示计算的关系路径链接方法。面向缺失事实的不完备知识图谱，实现了从自然语言问句到知识图谱候选关系路径的枚举与转换，又以基于相似度计算的方式实现基于表示学习的关系路径选择，能够比字符串匹配的关系链接方法得到含义更为鲁棒和准确的关系路径链接结果。

Claims

1.一种面向不完备知识图谱的关系链接方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的面向不完备知识图谱的关系链接方法，其特征在于，所述步骤(1.2)包括以下步骤：

3.根据权利要求1所述的面向不完备知识图谱的关系链接方法，其特征在于，所述步骤(1.4)包括以下步骤：