CN114443855A

CN114443855A - 一种基于图表示学习的知识图谱跨语言对齐方法

Info

Publication number: CN114443855A
Application number: CN202210020693.5A
Authority: CN
Inventors: 李昌赫; 张华平; 商建云
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2022-01-10
Filing date: 2022-01-10
Publication date: 2022-05-06

Abstract

本发明涉及一种基于图表示学习的知识图谱跨语言对齐方法，属于自然语言处理技术领域。在知识图谱构建阶段，通过爬取网站数据作为来源。然后，过滤筛选多语言实体并抽取其结构化数据组成三元组，构建知识图谱。在对齐阶段，通过图表示学习，将不同来源的知识图谱生成对应的嵌入矩阵，在图嵌入基础上，依靠已对齐实体，将不同语言知识图谱中的实体合并到统一的空间中，并根据实体在联合语义空间中的距离进行对齐。本方法充分利用了知识图谱结构信息，通过图表示学习方法将不同语言知识图谱中的实体合并到统一的空间中，并根据实体在联合语义空间中的距离进行对齐，保证了融合后的数据更准确全面，提高了在跨语言领域进行快速分析和智能搜索的效率。

Description

一种基于图表示学习的知识图谱跨语言对齐方法

技术领域

本发明涉及一种知识图谱跨语言对齐方法，具体涉及一种基于图表示学习的知识图谱跨语言对齐方法，属于自然语言处理技术领域。

背景技术

知识图谱，作为一种以图的形式表现客观世界中概念和实体及实体之间关系的知识库，其本质上是一种大规模的语义网络，能够将海量数据组织为一张互相关联的网络图。自移动互联网崛起以来，信息呈爆炸式增长，大规模的知识图谱层出不穷，导致各类知识图谱之间存在知识重复、知识间的关联不明确等问题，影响了知识图谱在语义级别的综合集成。典型的多语言知识图谱有：DBpedia、YAGO和Freebase等。各知识图谱中包含大量的知识描述，但是，由于数据来源存在差异，数据语种不同，实际上很难构造一个包含全面事实的知识图谱。

实体对齐，在机器翻译、问答系统和信息检索等领域也被描述为实体匹配或实体解析。实体对齐任务的目标，是识别出不同知识图谱之间指代的对象是否为现实世界中同一事物的实体对。知识图谱的实体对齐技术可以实现知识的连接，将同类知识图谱融合为规模更大、质量更权威的领域知识图谱，并为下游应用提供知识保障。

知识图谱的跨语言对齐任务，通常需要进行复杂的计算。传统的跨语言实体对齐方法，通常采用基于人工定义特征的方法，这不仅需要消耗大量的人力，而且很难迁移到实际的应用场景。近年来出现的知识图谱跨语言对齐方法，大多主要关注于编码三元组信息，但对于知识图谱的结构信息没有充分利用。此外，跨语言实体对齐的标签数据难以获得。因此，如何在大量未标注文本上进行预训练，并发挥少量标签数据的最大价值，对于大规模知识图谱的发展、融合有重要意义。

在针对知识图谱跨语言对齐方面，目前很多方法是面向文本数据，计算文本之间的相似度，或者是基于翻译模型的思想对知识图谱进行嵌入。这些方法没有充分利用知识图谱的结构信息，不能在知识图谱跨语言对齐层面取得比较好的效果。

发明内容

本发明的目的在于针对当前知识图谱跨语言数据信息源众多、内容繁杂，而现有的知识图谱跨语言对齐技术不能充分利用图结构信息、无法准确高效的融合足够丰富的跨语言数据等技术问题，创造性地提出一种基于图表示学习的知识图谱跨语言对齐方法。

本发明的创新点在于：在知识图谱构建阶段，通过爬取网站数据作为来源。然后，过滤筛选多语言实体并抽取其结构化数据组成三元组，构建知识图谱。在对齐阶段，通过图表示学习，将不同来源的知识图谱生成对应的嵌入矩阵，在图嵌入的基础上，依靠已对齐实体，将不同语言知识图谱中的实体合并到统一的空间中，并根据实体在联合语义空间中的距离进行对齐。

本发明是通过以下技术方案实现的。

一种基于图表示学习的知识图谱跨语言对齐方法，包括以下步骤：

步骤1：获取多语言数据。

其中，获取多语言数据包括各类百科类网站的数据；

具体地，步骤1包括以下步骤：

步骤1.1：爬取百科类多语言网站数据，并以html格式存到本地；

步骤1.2：对步骤1.1中爬取到的数据进行分类，去除脏数据(Dirty Read，是指源系统中的数据不在给定的范围内或对于实际业务毫无意义，或是数据格式非法，以及在源系统中存在不规范的编码和含糊的业务逻辑)。

其中，对数据进行分类的原因在于：爬取到的数据通常包含一些非实体数据，此类数据会影响后续知识图谱的构建。

具体地，对数据进行分类，可以采用以下方法：

第一步：遍历步骤1.1得到的存到本地的数据，得到包含所有数据的实体名称的列表。

第二步：根据第一步得到的数据实体名称列表，随机抽取M条数据，将这M条数据进行人工标注，划分为训练集及验证集。

第三步：使用Bert模型对第二步中得到的训练集进行预训练微调，在验证集进行交叉验证，当准确度达到90％以上后，将第二步中得到的全部M条数据输入到Bert模型中进行训练，得到完整的预训练模型。

第四步：使用第三步中得到的预训练模型，对第一步中得到的包含所有数据实体名称的列表进行分类，去除掉爬取结果中的脏数据，得到最终的包含数据实体名称的列表。

第五步：根据最终的包含数据实体名称的列表，对步骤1.1中得到的存在本地的html数据进行筛选保存。

步骤2：解析根据步骤1得到的html格式的多语言数据，处理成三元组类型的json格式数据。

由于原始的html数据的形式存在较大差异，如果不转化为一个统一的格式，将不利于存储，也不适用于后续知识图谱的构建、

具体地，步骤2包括以下步骤：

首先，利用bs4库，对步骤1得到的html格式的多语言数据进行遍历，找到其中的表格信息；

然后，根据上述的表格信息，抽取其中的文字内容，根据数据实体名称建立实体—关系—实体三元组；

最后，将上述得到的三元组，存储为json格式数据文件，保存在本地，并对一部分三元组进行打标，得到种子对齐实体。

步骤3：根据步骤2得到的json格式数据建立多语言知识图谱。

具体地，步骤3包括以下步骤：

步骤3.1：针对爬到的不同来源的数据建立索引；

步骤3.2：根据步骤3.1建立的索引，对不同来源的数据分别构建知识图谱；

具体地，建立知识图谱，可以采用以下方法：

第一步：根据步骤2得到的json格式数据文件，遍历每种语言数据的三元组，得到其头节点、关系、尾节点。

第二步：根据第一步得到的头节点、关系和尾节点，针对数据实体名称建立字段，得到每种语言数据的全部属性信息。

第三步：根据步骤3.1建立的索引，找到不同来源的数据，对于同一来源的数据，利用py2neo库进行标记，并将第二步得到的数据导入关系型数据库Neo4j，根据不同数据源和语种，分别建立知识图谱。

步骤4：根据步骤3得到的不同来源的多语言知识图谱，嵌入到统一的向量空间。

其中，嵌入到统一向量空间的原因在于：将知识图谱中的实体、关系等组件转化到连续的向量空间中，表示为稠密低维向量，与简单的独热编码相比，图表示学习维度更低，不容易受到稀疏数据的影响，能够提高计算效率，更好地表达知识图谱对象间的语义信息，空间中两个对象距离越近说明它们的相似度越大。

具体地，步骤4包括以下步骤：

步骤4.1：关系嵌入；

其中，对于由步骤3得到的每种不同来源的知识图谱，都分别进行关系嵌入；

具体地，关系嵌入的步骤如下：

第一步：根据步骤3得到的每种不同来源的知识图谱，按照其实体—关系—实体的结构，建立知识图谱的邻接矩阵A。

第二步：为第一步得到的邻接矩阵添加自环I，I为单位矩阵，得到矩阵

第三步：计算第二步得到的矩阵

的对角度矩阵

第四步：随机初始化网络的权重矩阵W。

第五步：计算第二步得到的矩阵

的特征矩阵H⁽ⁱ⁾。

第六步：基于式(1)，根据第五步得到的当前层的特征矩阵H⁽ⁱ⁾，计算该层的输出H⁽ⁱ ⁺¹⁾，H⁽ⁱ⁺¹⁾即为知识图谱的关系嵌入表达形式。

其中，σ表示激活函数。

步骤4.2：嵌入空间变换；

其中，嵌入空间变换的目的，是将不同来源的知识图谱嵌入到统一的向量空间，来提升图表示学习中实体相似性的评价；

具体地，嵌入空间变换的步骤如下：

第一步：随机初始化网络的权重矩阵M。

第二步：将步骤2中得到的种子对齐实体和根据步骤4.1得到的各种不同来源的知识图谱的关系嵌入表达输入到全连接层中，训练矩阵M。

第三步：根据第二步得到的矩阵M，将不同来源的知识图谱编码进一个统一的嵌入空间中。

步骤5：在向量空间中计算实体之间的距离并对齐。

具体地，步骤5包括以下步骤：

第一步：根据步骤3得到的多语言知识图谱，遍历其中某一种数据来源的知识图谱中的实体。

第二步：根据步骤4得到的向量空间，对上述每个实体进行映射，得到每个实体的向量表达形式。

第三步：遍历所有其他数据来源知识图谱中实体的向量表达形式，将第二步中得到的每个实体的向量表达形式与其进行余弦相似度计算，将计算结果存入结果表中。

第四步：将上述结果表进行降序排序，得分最高的即为第一步中所选知识图谱的各实体的对齐实体。

第五步：将第四步得到的对齐实体，加入到第一步中所选的知识图谱中，得到最终的知识图谱跨语言对齐结果。

有益效果

本发明方法，与现有技术相比，具有以下优点：

1.本方法充分利用了知识图谱结构信息，通过图表示学习方法将不同语言知识图谱中的实体合并到统一的空间中，并根据实体在联合语义空间中的距离进行对齐，保证了融合后的数据更准确、全面。

2.本方法提供了从海量文本数据中抽取结构化知识的手段，并对多语言数据进行进一步的整合分析，规范各语言实体数据的统一描述和组织关联，展示数据之间的结构化关系，提高了在跨语言领域进行快速分析和智能搜索的效率。

附图说明

图1是本发明方法的整体流程；

图2是本发明方法的数据获取流程图；

图3是本发明方法的数据处理并建立多语言知识图谱的流程图；

图4是本发明方法依托的图表示学习模型的详细架构。

图5是本发明方法的系统架构。

具体实施方式

为了使本发明的目的，技术方案及优点更加清楚明白，以下结合附图通过具体实施例，对本发明进一步详细说明。应当理解，此处所描述的具体实施例，仅仅用以解释本发明，并不用于限定本发明。

实施例

本实施例描述了本发明所述方法的一个具体实施例。

实施示意图如图1整体流程所示，图4是本发明一种基于图表示学习的知识图谱跨语言对齐方法依托的图表示学习模型的详细架构。本发明具体实施时，步骤1中获取数据集是从各百科类网站采集的多语言数据，清洗后保存在Neo4j图数据库中。

使用本发明提出的方法，对图数据库中的多语言数据进行知识图谱构建，将构建好的知识图谱通过图表示学习嵌入到向量空间中，再通过预先标记好的种子对齐实体将多源知识图谱处理到统一向量空间中，在此空间内进行实体相似度计算并对齐，保存在图数据库中，用户可通过数据库自带展示界面进行查看。

图2是本发明一种基于图表示学习的知识图谱跨语言对齐方法的数据获取流程。

按照本发明中介绍的步骤1，从各个百科类网站爬取数据，将爬取到的html数据全部存入本地，对数据进行分类清洗，去除脏数据。

图3是本发明一种基于图表示学习的知识图谱跨语言对齐方法的数据处理流程。

按照本发明中介绍的步骤2，读取本地文件夹中的全部html文件，对html数据进行解析，将索引更新到表1中，抽取其中的关系三元组，转换为json格式，更新到表2中。

为了利用图表示学习方法进行实体对齐，需要先构建知识图谱。按照本发明中介绍的步骤3，将多源json格式数据导入图数据库neo4j，在图数据库中为每种来源的数据进行属性标记，根据不同来源构建不同的知识图谱，将相关信息同步到neo4j中，输入到图表示学习所用到的图卷积神经网络模型中。

表1索引表

表2 json数据表

图4是本发明一种基于图表示学习的知识图谱跨语言对齐方法依托的图表示学习模型的详细架构。

为了更好的利用知识图谱的图结构信息，按照本发明中介绍的步骤4.1在进行知识表示学习时，需要首先对数据中的属性信息进行抽取，将抽取后的实体—属性—属性值三元组加入到向量空间矩阵中，将不同知识图谱来源的向量空间矩阵分别输入到图卷积神经网络中，获取到来自不同向量空间矩阵的嵌入数据，按照本发明中介绍的步骤4.2，利用本发明中介绍的步骤2中得到的预先对齐的种子对齐实体，将将不同来源的知识图谱嵌入到统一的向量空间，来提升图表示学习后，实体对齐的准确度。

图5是本发明所述一种基于图表示学习的知识图谱跨语言对齐方法的系统架构。

首先，按照本发明中介绍的步骤1进行数据获取，按照本发明中介绍的步骤2进行数据预处理后，按照本发明中介绍的步骤3构建多语言知识图谱并加入到neo4j图数据库中。

然后，读取图数据库中的全部多语言知识图谱，按照本发明中介绍的步骤4，将不同语言的知识图谱嵌入到不同的向量空间，并利用步骤2得到的种子对齐实体来统一向量空间。

最后，按照本发明中介绍的步骤5，在统一的向量空间中计算实体间的相似度，对不同语言的知识图谱自动进行融合，同时由于基于图表示学习的实体对齐的有效性，能够保证融合后的跨语言知识图谱更准确且信息丰富充足。

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种基于图表示学习的知识图谱跨语言对齐方法，其特征在于，包括以下步骤：

步骤1：获取多语言数据，包括以下步骤：

首先，爬取百科类多语言网站数据，并以html格式存到本地；

然后，对爬取到的数据进行分类，去除脏数据；

步骤2：解析根据步骤1得到的html格式的多语言数据，处理成三元组类型的json格式数据；

步骤3：根据步骤2得到的json格式数据建立多语言知识图谱，包括以下步骤：

步骤3.1：针对爬到的不同来源的数据建立索引；

步骤4：根据步骤3得到的不同来源的多语言知识图谱，嵌入到统一的向量空间，包括以下步骤：

步骤4.1：关系嵌入，其中，对于由步骤3得到的每种不同来源的知识图谱，都分别进行关系嵌入；

步骤4.2：嵌入空间变换，方法如下：

第一步：随机初始化网络的权重矩阵M；

第二步：将步骤2中得到的种子对齐实体和根据步骤4.1得到的各种不同来源的知识图谱的关系嵌入表达输入到全连接层中，训练矩阵M；

第三步：根据第二步得到的矩阵M，将不同来源的知识图谱编码进一个统一的嵌入空间中；

步骤5：在向量空间中计算实体之间的距离并对齐。

2.如权利要求1所述的一种基于图表示学习的知识图谱跨语言对齐方法，其特征在于，步骤1中对数据进行分类，采用以下方法：

第一步：遍历存到本地的数据，得到包含所有数据的实体名称的列表；

第二步：根据第一步得到的数据实体名称列表，随机抽取M条数据，将这M条数据进行人工标注，划分为训练集及验证集；

第三步：使用Bert模型对第二步中得到的训练集进行预训练微调，在验证集进行交叉验证，当准确度达到90％以上后，将第二步中得到的全部M条数据输入到Bert模型中进行训练，得到完整的预训练模型；

第四步：使用第三步中得到的预训练模型，对第一步中得到的包含所有数据实体名称的列表进行分类，去除掉爬取结果中的脏数据，得到最终的包含数据实体名称的列表；

第五步：根据最终的包含数据实体名称的列表，对存在本地的html数据进行筛选保存。

3.如权利要求1所述的一种基于图表示学习的知识图谱跨语言对齐方法，其特征在于，步骤2包括以下步骤：

首先，对步骤1得到的html格式的多语言数据进行遍历，找到其中的表格信息；

4.如权利要求1所述的一种基于图表示学习的知识图谱跨语言对齐方法，其特征在于，步骤3中，建立知识图谱采用以下方法：

第一步：根据步骤2得到的json格式数据文件，遍历每种语言数据的三元组，得到其头节点、关系、尾节点；

第二步：根据第一步得到的头节点、关系和尾节点，针对数据实体名称建立字段，得到每种语言数据的全部属性信息；

5.如权利要求1所述的一种基于图表示学习的知识图谱跨语言对齐方法，其特征在于，步骤4.1中，关系嵌入的步骤如下：

第一步：根据步骤3得到的每种不同来源的知识图谱，按照其实体—关系—实体的结构，建立知识图谱的邻接矩阵A；

第三步：计算第二步得到的矩阵

的对角度矩阵

第四步：随机初始化网络的权重矩阵W；

第五步：计算第二步得到的矩阵

的特征矩阵H⁽ⁱ⁾；

第六步：基于式(1)，根据第五步得到的当前层的特征矩阵H⁽ⁱ⁾，计算该层的输出H⁽ⁱ⁺¹⁾，H⁽ⁱ⁺¹⁾即为知识图谱的关系嵌入表达形式；

其中，σ表示激活函数。

6.如权利要求1所述的一种基于图表示学习的知识图谱跨语言对齐方法，其特征在于，步骤5包括以下步骤：

第一步：根据步骤3得到的多语言知识图谱，遍历其中某一种数据来源的知识图谱中的实体；

第二步：根据步骤4得到的向量空间，对上述每个实体进行映射，得到每个实体的向量表达形式；

第三步：遍历所有其他数据来源知识图谱中实体的向量表达形式，将第二步中得到的每个实体的向量表达形式与其进行余弦相似度计算，将计算结果存入结果表中；

第四步：将上述结果表进行降序排序，得分最高的即为第一步中所选知识图谱的各实体的对齐实体；