CN113722502B

CN113722502B - 基于深度学习的知识图谱构建方法、系统及存储介质

Info

Publication number: CN113722502B
Application number: CN202110903706.9A
Authority: CN
Inventors: 李劲; 齐文; 郭玮; 苏力强
Original assignee: Shenzhen Research Institute Tsinghua University
Current assignee: Shenzhen Research Institute Tsinghua University
Priority date: 2021-08-06
Filing date: 2021-08-06
Publication date: 2023-08-01
Anticipated expiration: 2041-08-06
Also published as: CN113722502A

Abstract

本发明公开了一种基于深度学习的知识图谱构建方法、系统及存储介质，基于深度学习的知识图谱构建方法包括：获取已构建知识图谱；提取已构建知识图谱中的实体信息以及实体信息关联的关系信息；根据预设数据集合与实体信息、关系信息确定实体信息、关系信息关联的多个相关信息，预设数据集合包括：实体信息、关系信息与相关信息的匹配信息；根据预设非监督深度学习模型计算多个相关信息与实体信息、关系信息的可信度以得到多个可信度；根据多个可信度的排序顺序将相关信息添加至已构建知识图谱中实体信息和关系信息的关系结构中。本发明根据多个可信度的排序顺序确定可以添加至已构建知识图谱的相关信息，以提高已构建知识图谱的完善性和准确性。

Description

基于深度学习的知识图谱构建方法、系统及存储介质

技术领域

本发明涉及深度学习的技术领域，尤其是涉及一种基于深度学习的知识图谱构建方法、系统及存储介质。

背景技术

知识图谱(Knowledge Graph)通常指可揭示实体之间的关系的语义网络，其基于数据挖掘、信息处理、图形绘制等手段，利用可视化的图谱将复杂的知识领域形象地展示出来，可在一定程度上体现知识领域的发展规律。

随着大数据时代的发展，人们对于知识图谱的要求不再是简单的关系链，对知识图谱的完备度、准确性也有了较高的要求，但是相关技术中的知识图谱构建成本高且完备性较难保证，导致知识推理计算的准确度较低。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种基于深度学习的知识图谱构建方法，能够提高知识图谱的准确性和完整性。

本发明还提出一种基于深度学习的知识图谱构建系统。

本发明还提出一种计算机可读存储介质。

第一方面，本发明的一个实施例提供了基于深度学习的知识图谱构建方法，包括：

获取已构建知识图谱；

提取所述已构建知识图谱中的实体信息以及实体信息关联的关系信息；

根据预设数据集合与所述实体信息、所述关系信息确定所述实体信息、所述关系信息关联的多个相关信息，所述预设数据集合包括：所述实体信息、所述关系信息与所述相关信息的匹配信息；

根据预设非监督深度学习模型计算多个所述相关信息与所述实体信息、所述关系信息的可信度以得到多个可信度；

根据所述多个可信度的排序顺序将所述相关信息添加至所述已构建知识图谱中所述实体信息和所述关系信息的关系结构中。

本发明实施例的基于深度学习的知识图谱构建方法至少具有如下有益效果：通过获取已构建知识图谱中的实体信息和关系信息，然后根据实体信息和关系信息在预设数据集合查找关联的相关信息，并以预设非监督深度学习模型计算多个相关信息与实体信息、关系信息的可信度，然后根据多个可信度的排序顺序确定可以添加至已构建知识图谱的相关信息，以提高已构建知识图谱的完善性和准确性。

根据本发明的另一些实施例的基于深度学习的知识图谱构建方法，所述预设数据集合的构建方法包括：

采集第三方平台与所述实体信息相关的语句；

根据所述语句拆分成与所述实体信息、所述关系信息相关的所述相关信息；

建立所述实体信息、所述关系信息与所述相关信息的映射关系以得到所述匹配信息，并将所述匹配信息存储至所述预设数据集合。

根据本发明的另一些实施例的基于深度学习的知识图谱构建方法，还包括：

将所述可信度低于预设阈值的所述相关信息滤除。

根据本发明的另一些实施例的基于深度学习的知识图谱构建方法，所述根据所述多个可信度的排序顺序将所述相关信息添加至所述已构建知识图谱中所述实体信息和所述关系信息的关系结构中，包括：

根据所述多个可信度的排序顺序，获取最高所述可信度的所述相关信息；

将所述相关信息添加至所述已构建知识图谱中所述实体信息和所述关系信息的所述关系结构中。

获取训练数据集合，所述训练数据集合包括：所述实体信息、所述关系信息与不同所述可信度的所述相关信息；

将所述训练数据集合代入所述预设非监督深度学习模型以调节所述预设非监督深度学习模型的参数以得到优化后的所述预设非监督深度学习模型。

根据本发明的另一些实施例的基于深度学习的知识图谱构建方法，所述预设非监督深度学习模型为屏蔽语言模型。

第二方面，本发明的一个实施例提供了基于深度学习的知识图谱构建系统，包括：

获取模块，用于获取已构建知识图谱；

提取模块，用于提取所述已构建知识图谱中的实体信息以及实体信息关联的关系信息；

匹配模块，用于根据预设数据集合与所述实体信息、所述关系信息确定所述实体信息、所述关系信息关联的多个相关信息，所述预设数据集合包括：所述实体信息、所述关系信息与所述相关信息的匹配信息；

计算模块，用于根据预设非监督深度学习模型计算多个所述相关信息与所述实体信息、所述关系信息的可信度以得到多个可信度；

添加模块，用于根据所述多个可信度的排序顺序将所述相关信息添加至所述已构建知识图谱中所述实体信息和所述关系信息的关系结构中。

本发明实施例的基于深度学习的知识图谱构建系统，至少具有如下有益效果：通过获取已构建知识图谱中的实体信息和关系信息，然后根据实体信息和关系信息在预设数据集合查找关联的相关信息，并以预设非监督深度学习模型计算多个相关信息与实体信息、关系信息的可信度，然后根据多个可信度的排序顺序确定可以添加至已构建知识图谱的相关信息，以提高已构建知识图谱的完善性和准确性。

第三方面，本发明的一个实施例提供了计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如第一方面所述的基于深度学习的知识图谱构建方法。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书以及附图中所特别指出的结构来实现和获得。

附图说明

图1是本发明实施例中基于深度学习的知识图谱构建方法的一具体实施例流程示意图；

图2是本发明实施例中基于深度学习的知识图谱构建方法的另一具体实施例流程示意图；

图3是本发明实施例中基于深度学习的知识图谱构建方法的另一具体实施例流程示意图；

图4是本发明实施例中基于深度学习的知识图谱构建方法的另一具体实施例流程示意图；

图5是本发明实施例中基于深度学习的知识图谱构建方法的另一具体实施例流程示意图；

图6是本发明实施例中基于深度学习的知识图谱构建系统的一具体实施例模块框图。

附图标记：100、获取模块；200、提取模块；300、匹配模块；400、计算模块；500、添加模块。

具体实施方式

以下将结合实施例对本发明的构思及产生的技术效果进行清楚、完整地描述，以充分地理解本发明的目的、特征和效果。显然，所描述的实施例只是本发明的一部分实施例，而不是全部实施例，基于本发明的实施例，本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例，均属于本发明保护的范围。

在本发明的描述中，如果涉及到方位描述，例如“上”、“下”、“前”、“后”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。如果某一特征被称为“设置”、“固定”、“连接”、“安装”在另一个特征，它可以直接设置、固定、连接在另一个特征上，也可以间接地设置、固定、连接、安装在另一个特征上。

在本发明实施例的描述中，如果涉及到“若干”，其含义是一个以上，如果涉及到“多个”，其含义是两个以上，如果涉及到“大于”、“小于”、“超过”，均应理解为不包括本数，如果涉及到“以上”、“以下”、“以内”，均应理解为包括本数。如果涉及到“第一”、“第二”，应当理解为用于区分技术特征，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。

随着互联网技术的发展，知识图谱也从人工制作转换成计算机程序自动生成的方式，但是传统计算机程序根据自动采集的信息构建信息资料库，然后根据信息资料库内的信息进行数据分析以确定语句中的实体信息和关系信息，然后根据实体信息和实体信息对应的关系信息自动搭建成知识图谱。但是根据一次性搭建完成的知识图谱的完整性和准确性偏低，因此需要不断加强知识图谱以构建更加完善且准确的知识图谱。

基于此，本申请公开了一种基于深度学习的知识图谱构建方法、系统及存储介质，能够根据训练好的非监督深度学习模型加强已构建知识图谱，以得到更加完善且准确的知识图谱。

第一方面，参照图1，图1是本发明实施例中基于深度学习的知识图谱构建方法的一具体实施例流程示意图。本发明实施例公开了一种基于深度学习的知识图谱构建方法，包括：

S100、获取已构建知识图谱；

S200、提取已构建知识图谱中的实体信息以及实体信息关联的关系信息；

S300、根据预设数据集合与实体信息、关系信息确定实体信息、关系信息关联的多个相关信息，预设数据集合包括：实体信息、关系信息与相关信息的匹配信息；

S400、根据预设非监督深度学习模型计算多个相关信息与实体信息、关系信息的可信度以得到多个可信度；

S500、根据多个可信度的排序顺序将相关信息添加至已构建知识图谱中实体信息和关系信息的关系结构中。

为了提高知识图谱的完整性和准确性，通过获取已构建知识图谱，然后在已构建知识图谱中提取实体信息以及与实体信息相关联的关系信息，然后在预设数据集合找到与实体信息、关系信息匹配的相关信息，然后采用预设非监督深度学习模型计算每一个相关信息与实体信息、关系信息的可信度以得到多个可信度，将相关信息对应的可信度按照顺序排序以确定可以添加到已构建知识图谱中的相关信息，然后将确定的相关信息添加至已构建知识图谱中实体信息和关系信息的关系结构，以完善实体信息和关系信息的关系结构，从而提高已构建知识图谱的准确性和完整性。

参照图2，在一些实施例中，其中，预设数据集合存储实体信息、关系信息和相关信息的匹配信息，因此需要所采集的相关信息是否能够完善已构建知识图谱取决于预设数据集合中存储的相关信息是否丰富。因此，预设数据集合的构建方法包括：

S610、采集第三方平台与实体信息相关的语句；

S620、根据语句拆分成与实体信息、关系信息相关的相关信息；

S630、建立实体信息、关系信息与相关信息的映射关系以得到匹配信息，并将匹配信息存储至预设数据集合。

通过采集第三方平台与实体信息相关的语句，然后将语句拆分成与实体信息、关系信息相关的相关信息以重新得到多个相关信息，并将多个相关信息与实体信息、关系信息建立映射关系以得到匹配信息，并将匹配信息存储至预设数据集合。其中，预设数据集合根据预设时间间隔周期定时更新，所以根据预设时间间隔周期采集第三方平台更新与实体信息相关的语句，以获取与预设数据集合中不同的相关信息，以不断提高预设数据集合的完整性，从而提高已构建知识图谱的准确性、完整性。

具体地，已构建知识图谱中的实体信息为周杰伦，关系信息为是喜欢，相关信息为作曲，所提取的实体信息为周杰伦，然后按照预设时间间隔周期通过第三方平台获取与周杰伦关联的语句。其中，第三方平台包括：微博、百度、网易云、facebook等，以通过第三方平台采集与周杰伦相关的语句，如“周杰伦喜欢奶茶”、“周杰伦喜欢坦钢琴”、“周杰伦喜欢打篮球”。然后通过分析语句与“周杰伦”、“喜欢”相关的相关信息为“奶茶”、“弹钢琴”、“打篮球”，然后将相关信息“奶茶”、“弹钢琴”、“打篮球”与实体信息“周杰伦”、关系信息“喜欢”建立映射关系以得到对应的匹配信息，然后将匹配信息存储至预设数据集合，从而不断完善和充足预设数据集合。

参照图3，在一些实施例中，基于深度学习的知识图谱构建方法，还包括：

S700、将可信度低于预设阈值的相关信息滤除。

由于需要根据相关信息的可信度的排序顺序确定完成已构建知识图谱的相关信息，因此在按照可信度排序前将可信度低于预设阈值的相关信息滤除，则减少不满足修改已构建知识图谱要求的相关信息过滤掉，从而减少相关信息的筛查步骤，以简化相关信息的筛查，从而提高已构建知识图谱修改的效率。

具体地，若计算得到多个相关信息与实体信息、关系信息的可信度分别为0.2、0.4、0.6、0.8、0.9。若预设阈值为0.5，则将低于0.5的相关信息删除，只需要根据可信度为0.6、0.8、0.9的相关信息进行筛选，以确定可以完成已构建知识图谱的相关信息，使得相关信息的筛查步骤更加快速和简易。

参照图4，在一些实施例中，步骤S500包括：

S510、根据多个可信度的排序顺序，获取最高可信度的相关信息；

S520、将相关信息添加至已构建知识图谱中实体信息和关系信息的关系结构中。

通过选取可信度最高的相关信息，并将可信度最高的相关信息添加至已构建知识图谱中实体信息和关系信息的关系结构中，以提高已构建知识图谱的完整性和准确性。

具体地，若实体信息为“周杰伦”，关系信息为“喜欢”，而根据实体信息、关系信息在预设数据集合查找与之关联的多个相关信息分别为“弹钢琴”、“奶茶”、“林俊杰”，然后根据预设非监督深度学习模型计算相关信息为“弹钢琴”、“奶茶”与“周杰伦”+“喜欢”的可信度，若“奶茶”的可信度为0.9，而“作曲”的可信度为0.8，“林俊杰”的可信度为0.4，根据预设阈值将可信度低于预设阈值的相关信息过滤掉，剩余相关信息为“奶茶”、“弹钢琴”，且根据可信度的排序顺序选择可信度最高，因此确定可信度为0.9的“奶茶”增加到已构建知识图谱的实体信息、关系信息对应的关系结构中，以在原本“周杰伦”+“喜欢”+“作曲”的关系结构中增加“周杰伦”+“喜欢”+“奶茶”。通过获取可信度最高的相关信息增加到已构建知识图谱的关系结构中，以提升已构建知识图谱的准确性和完善性。

参照图5，在一些实施例中，基于深度学习的知识图谱构建方法，还包括：

S800、获取训练数据集合，训练数据集合包括：实体信息、关系信息与不同可信度的相关信息；

S900、将训练数据集合代入预设非监督深度学习模型以调节预设非监督深度学习模型的参数以得到优化后的预设非监督深度学习模型。

通过训练数据集合中的信息代入到预设非监督深度学习模型，主要通过根据预设非监督深度学习模型计算不同可信度的相关信息与实体信息、关系信息的可信度，以根据已知的可信度和计算得到可信度相互逼近以调节预设非监督深度学习模型的参数，从而保证调节得到预设非监督深度学习模型符合该实体信息、关系信息，以提高预设非监督深度学习模型计算的准确性，从而提高根据预设非监督深度学习模型计算相关信息与实体信息、关系信息的可信度的准确性，则对已构建知识图谱的优化更加准确和完整。

其中，预设非监督深度学习模型为屏蔽语言模型。在屏蔽语言建模中，我们通常屏蔽给定句子中特定可信度的单词，模型期望基于该句子中的其他单词预测这些被屏蔽的单词。因此，通过给定可信度的相关信息去调节屏蔽语言模型的参数以得到优化的屏蔽语言模型，则可以提高屏蔽语言模型计算出相关信息与实体信息、关系信息的可信度的准确性。

下面参考图1至图5以一个具体的实施例详细描述根据本发明实施例的基于深度学习的知识图谱构建方法。值得理解的是，下述描述仅是示例性说明，而不是对发明的具体限制。

在已构建知识图谱中获取实体信息、与实体信息关联的关系信息，根据实体信息和关系信息在预设数据集合中查找相对应的多个相关信息，然后通过屏蔽语言模型计算多个相关信息与实体信息、关系信息的可信度，然后根据多个可信度的排序顺序确定最高可信度的相关信息，并将最高可信度的相关信息增加到已构建知识图谱的实体信息、关系信息对应的关系结构中，从而提高已构建知识图谱的完整性和准确性，且自动完善已构建知识图谱，则知识图谱的实时变化，以便于用户能够查看最新的知识图谱。

第二方面，参照图6，本发明实施例公开了一种基于深度学习的知识图谱构建系统，包括：获取模块100、提取模块200、匹配模块300、计算模块400和添加模块500；获取模块100用于获取已构建知识图谱；提取模块200用于提取已构建知识图谱中的实体信息以及实体信息关联的关系信息；匹配模块300用于根据预设数据集合与实体信息、关系信息确定实体信息、关系信息关联的多个相关信息，预设数据集合包括：实体信息、关系信息与相关信息的匹配信息；计算模块400用于根据预设非监督深度学习模型计算多个相关信息与实体信息、关系信息的可信度以得到多个可信度；添加模块500用于根据多个可信度的排序顺序将相关信息添加至已构建知识图谱中实体信息和关系信息的关系结构中。

通过匹配模块300根据实体信息、关系信息在预设数据集合中查找相关联的多个相关信息，然后计算模块400计算多个相关信息与实体信息、关系信息的可信度，且根据多个可信度的排序顺序确定添加已构建知识图谱中实体信息和关系信息的关系结构中的相关信息，以通过不断完善已构建知识图谱的关系结构，从而提高知识图谱的完整性和准确性。

第三方面，本发明实施例还公开了一种计算机可读存储介质，计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如第一方面所述的基于深度学习的知识图谱构建方法。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

上面结合附图对本发明实施例作了详细说明，但是本发明不限于上述实施例，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。此外，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

Claims

1.一种基于深度学习的知识图谱构建方法，其特征在于，包括：

获取已构建知识图谱；

根据预设数据集合与所述实体信息、所述关系信息确定所述实体信息、所述关系信息关联的多个相关信息，所述预设数据集合包括：所述实体信息、所述关系信息与所述相关信息的匹配信息；其中，所述预设数据集合通过采集第三方平台与所述实体信息相关的语句文本构建；

根据预设非监督深度学习模型计算多个所述相关信息与所述实体信息、所述关系信息的可信度以得到多个可信度；其中，所述预设非监督深度学习模型为屏蔽语言模型，在屏蔽语言建模中，屏蔽给定句子中特定可信度的单词，模型期望基于该句子中的其他单词预测这些被屏蔽的单词，通过给定可信度的相关信息去调节屏蔽语言模型的参数以得到优化的屏蔽语言模型，以通过优化后的屏蔽语言模型计算出所述相关信息与所述实体信息、所述关系信息的可信度；

2.根据权利要求1所述的基于深度学习的知识图谱构建方法，所述预设数据集合的构建方法包括：

采集第三方平台与所述实体信息相关的语句；

3.根据权利要求1所述的基于深度学习的知识图谱构建方法，其特征在于，还包括：

将所述可信度低于预设阈值的所述相关信息滤除。

4.根据权利要求1或3所述的基于深度学习的知识图谱构建方法，其特征在于，所述根据所述多个可信度的排序顺序将所述相关信息添加至所述已构建知识图谱中所述实体信息和所述关系信息的关系结构中，包括：

5.根据权利要求1所述的基于深度学习的知识图谱构建方法，其特征在于，还包括：

6.一种基于深度学习的知识图谱构建系统，其特征在于，包括：

获取模块，用于获取已构建知识图谱；

匹配模块，用于根据预设数据集合与所述实体信息、所述关系信息确定所述实体信息、所述关系信息关联的多个相关信息，所述预设数据集合包括：所述实体信息、所述关系信息与所述相关信息的匹配信息；其中，所述预设数据集合通过采集第三方平台与所述实体信息相关的语句文本构建；

计算模块，用于根据预设非监督深度学习模型计算多个所述相关信息与所述实体信息、所述关系信息的可信度以得到多个可信度；其中，所述预设非监督深度学习模型为屏蔽语言模型，在屏蔽语言建模中，屏蔽给定句子中特定可信度的单词，模型期望基于该句子中的其他单词预测这些被屏蔽的单词，通过给定可信度的相关信息去调节屏蔽语言模型的参数以得到优化的屏蔽语言模型，以通过优化后的屏蔽语言模型计算出所述相关信息与所述实体信息、所述关系信息的可信度；

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至5任一项所述的基于深度学习的知识图谱构建方法。