CN113935486A

CN113935486A - 一种知识图谱的建立方法、计算机设备和存储介质

Info

Publication number: CN113935486A
Application number: CN202111536708.5A
Authority: CN
Inventors: 张正义; 傅晓航; 刘晗喆; 林方
Original assignee: Zhongke Yuchen Technology Co Ltd
Current assignee: Zhongke Yuchen Technology Co Ltd
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2022-01-14
Anticipated expiration: 2041-12-16
Also published as: CN113935486B

Abstract

本发明涉及一种知识图谱的建立方法、计算机设备和存储介质，所述方法包括获取目标文本，目标文本是指存储同一指定领域对应的相关信息的文件，并基于目标文本，获取目标文本的主实体和主实体对应的所有副实体；基于目标文本的文本信息，获取目标语句集；遍历目标语句集且获取每一目标语句向量中所有主实体和副实体之间的目标字符距离，构建成目标字符距离列表，从目标字符距离列表中获取最小字符距离对应的主实体作为目标文本的第一实体，同时，获取第一实体对应的所有目标语句中副实体均作为目标文本的第二实体；根据第一实体和第二实体，构建知识图谱。本发明能够在本文中准确获取实体并提高知识图谱的构建效率。

Description

一种知识图谱的建立方法、计算机设备和存储介质

技术领域

本发明涉及信息处理技术领域，尤其涉及一种知识图谱的建立方法、计算机设备和存储介质。

背景技术

在信息技术发展的时代，许多文本或者信息文以pdf、word等数字格式为载体的机器进行可显示，随着数据量的增加，大多数据采取知识图谱的方式进行显示，可以直观的观察到数据的规律，知识图谱(Knowledge Graph)通常指可揭示实体之间的关系的语义网络，其基于数据挖掘、信息处理、图形绘制等手段，利用可视化的图谱将复杂的知识领域形象地展示出来，可在一定程度上体现知识领域的发展规律。

现有技术中，需要构建三元组以完成知识图谱的构建，但是现有的文本中提取出三元组的两个实体和两个实体之间的关系，需要对数据进行标注，对数据标注分为人工标注数据或者自动标注数据，人工标注数据效率较低，具有一定的主观性，会使得数据的标注不准确，影响到知识图谱的构建；而自动标注时，现有模型无法准确的标注数据，导致实体确定不准确，影响到知识图谱的构建。

因此，如何在文本中准确获取实体，并提高知识图谱的构建效率成为亟待解决的技术问题。

发明内容

本发明目的在于，提供一种知识图谱的建立方法、计算机设备和存储介质，能够在文本中准确获取实体，并提高知识图谱的构建效率。

本发明一方面提供了一种知识图谱的建立方法，所述方法包括如下步骤：

S101、获取目标文本，所述目标文本是指存储同一领域对应的相关信息的文件，并基于所述目标文本，获取所述目标文本的主实体和在所述目标文本中所述主实体对应的所有副实体；

S103、基于所述目标文本的文本信息，获取目标语句集A=（A₁，A₂，A₃，……，A_m），A_i是指第i个目标语句向量，i=1……m，m为目标语句向量数量；

S105、遍历A且获取每一A_i中所有主实体和副实体之间的目标字符距离，构建成目标字符距离列表，并从所述目标字符距离列表中获取最小字符距离对应的主实体作为所述目标文本的第一实体，同时，从A中获取第一实体对应的所有目标语句中副实体均作为所述目标文本的第二实体；

S107、根据所述目标文本的第一实体和所述目标文本的所有第二实体，构建成所述目标文本的所有三元组，并基于所述目标文本的所有三元组，构建目标文本的知识图谱。

本发明另一方面提供了一种计算机设备，包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述知识图谱的建立方法。

本发明另一方面提供了一种计非瞬时性计算机可读存储介质，所述计非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述知识图谱的建立方法。

本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案，本发明提供的一种获取目标位置的数据处理系统可达到相当的技术进步性及实用性，并具有产业上的广泛利用价值，其至少具有下列优点：

本发明获取目标文本，所述目标文本是指存储同一领域对应的相关信息的文件，并基于所述目标文本，获取所述目标文本的主实体和所述主实体对应的所有副实体；基于所述目标文本的文本信息，获取目标语句集；遍历目标语句集且获取每一目标语句向量中所有主实体和副实体之间的目标字符距离，构建成目标字符距离列表，并从所述目标字符距离列表中获取最小字符距离对应的主实体作为第一实体，同时，将第一实体距离最近的副实体作为第二实体；根据第一实体和第二实体，构建成三元组，并基于三元组，构建知识图谱；可见，本发明中针对同一领域的文本中确定出主实体，并根据存在主实体的语句，以确定出该语句对应的三元组，进而实现在本文中准确获取实体，提高知识图谱的构建效率的技术效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

图1为本发明实施例提供的知识图谱的建立方法的流程图；

图2为本发明另一实施例提供的知识图谱的建立方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供的方法可以应用于任意具有数据处理能力的计算机设备，该计算机设备可以是终端或服务器，计算机设备在执行本发明实施例提供的数据库的索引表建立方法时，可以是独立执行，也可以通过集群协作的方式执行。

本实施例提供一种知识图谱的建立方法，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行（例如并行处理器或者多线程处理的环境）。具体的如图1所示，所述方法可以包括如下步骤：

S101、获取目标文本，所述目标文本是指存储同一领域对应的相关信息的文件，并基于所述目标文本，获取所述目标文本的主实体和在所述目标文本中所述主实体对应的所有副实体。

具体地，S101步骤中，通过infobox平台（information box，是一个新型的基于高校的本地化分类信息平台）对所述目标文本进行处理，得到所述目标文本的主实体和所述主实体对应的所有副实体。

进一步地，所述主实体是指同一指定领域描述的同一事物或者事件。

进一步地，所述副实体是指与所述主实体存在关联关系的实体。

S103、基于所述目标文本的文本信息，获取目标语句集A=（A₁，A₂，A₃，……，A_m），A_i是指第i个目标语句向量，i=1……m，m为目标语句向量数量。

具体地，S103步骤中还包括如下步骤：

遍历所述目标文本且获取所述目标文本中所有关键词，并根据预设的关键词列表，将所述目标文本的所有关键词替换为目标词，生成中间文件；

对所述中间文件按照预设的语句划分规则进行划分，生成m个目标语句；

将每一目标语句中主实体标记为1且所述目标语句中副实体标记为-1，并将主实体与主实体之间的字符、主实体与副实体之间的字符、以及副实体与副实体之间的每个字符均设置为0，以构建成目标语句向量。

进一步地，所述关键词是指目标文本中的代词、所述主实体对应的近义词或和所述主实体对应的同义词中一种或者多种组合。

具体地，所述目标词是指基于所述指定领域，从预设的词数据库中获取的目标文本对应的领域的所有词。

具体地，本领域技术人员可以根据需求设定预设的语句划分规则，在此不再赘述。

在一些实施例中，遍历m个所述目标语句向量且当A_i中无-1或者1时，从所述目标语句集中删除所述目标语句向量，构建成中间数据集，能够优化数据量，提高数据的处理效率；

遍历所述中间数据集且当所述中间数据集中任一目标语句向量中标记0的字符数量≤预设的字符数量阈值时，从所述中间数据集中删除所述目标语句向量，构建成目标数据集。

进一步地，所述预设的字符数量阈值范围为1至3，优先地，预设的字符数量阈值为1，通过上述方法能够避免误将副实体标注为主实体，提高三元组确定的准确性。

S105、遍历A且获取每一A_i中所有主实体和副实体之间的目标字符距离，构建成目标字符距离列表，并从所述目标字符距离列表中获取最小字符距离对应的主实体作为所述目标文本的第一实体，同时，从A中获取第一实体对应的所有目标语句中副实体均作为所述目标文本的第二实体。

在一个实施例中，遍历所述中间数据集且获取所述中间数据集中每一目标语句向量的所有主实体和副实体之间的目标字符距离，构建成目标字符距离列表，并从所述目标字符距离列表中获取最小字符距离对应的主实体作为所述目标文本的第一实体，同时，从所述中间数据集中获取第一实体对应的所有目标语句中副实体均作为所述目标文本的第二实体。

具体地，S105步骤还包括如下步骤：

将任一A_i中相邻的主实体和副实体之间标记为0的字符数量作为目标字符距离；

当A_i中的s个所述目标字符距离相等时，获取s个所述目标字符距离对应的所有主实体作为中间实体且s个所述中间实体一致时，将所述中间实体作为第一实体，可以理解为：所述中间实体一致的情况是指在s个所述中间实体中，所有的所述中间实体之间为同义词或近义词；

当s个所述中间实体不一致时，获取每一所述中间实体的TF值，并将最大TF值对应的所述中间实体作为第一实体，可以理解为：通过遍历目标文本，确定所述中间实体的TF值，而本领域技术人员能够采取现有的技术确定出TF值，在此不再赘述，其中，TF-IDF（termfrequency–inverse document frequency，词频-逆向文件频率）是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

进一步地，所述第一实体可以理解为所述目标文本对应的领域描述的事物，能够基于第一实体准确的确定出目标语句对应的三元组，进而提高了目标文本对应的所有三元组的准确性，实现知识图谱的构建。

S107、根据所述目标文本的第一实体和所述目标文本的所有第二实体，构建成所述目标文本的所有三元组，并基于所述目标文本的所有三元组，构建目标文本的知识图谱，其中，本领域技术人员知晓三元组构建知识图谱的方法，在此不再赘述。

本实施例中通过获取目标文本，所述目标文本是指存储同一领域对应的相关信息的文件，并基于所述目标文本，获取所述目标文本的主实体和所述主实体对应的所有副实体；基于所述目标文本的文本信息，获取目标语句集；遍历目标语句集且获取每一目标语句向量中所有主实体和副实体之间的目标字符距离，构建成目标字符距离列表，并从所述目标字符距离列表中获取最小字符距离对应的主实体作为第一实体，同时，将第一实体距离最近的副实体作为第二实体；根据第一实体和第二实体，构建成三元组，并基于三元组，构建知识图谱，能够针对同一领域的文本中确定出主实体，并根据存在主实体的语句，以确定出该语句对应的三元组，进而实现在本文中准确获取实体，提高知识图谱的构建效率的技术效果。

在另一个实施例中，所述方法还包括如下步骤如图2所示：

S109、将目标文本对应的所有三元组作为训练数据集且根据所述训练数据集对知识图谱模型进行训练，以根据所述知识图谱模型，获取除目标文本之外的其他文本对应的知识图谱。

具体地，S109步骤还包括如下步骤：

基于所述目标文本的所有三元组，构建成所述目标文本的训练数据，并根据n个所述目标文本的训练数据，构建成训练数据集，以根据所述训练数据集训练知识图谱模型，其中，本领域技术人员能够知晓训练模型的方法，在此不再赘述；

获取测试数据集且基于所述知识图谱模型，构建测试数据集中任一文本对应的知识图谱，本领域技术人员能够知晓根据知识图谱模型生成知识图谱的方法，在此不再赘述。

具体地，所述测试数据集中文本是除目标之外的文本且也为为存储同一领域对应的相关信息的文件。

本实施例中能够优化知识图谱模型，简化知识图谱的构建，提高知识图谱的构建效率的技术效果。

本发明的实施例还提供了一种计算机设备，包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的方法。

本发明实施例的计算机设备以多种形式存在，包括但不限于：

(1)移动通信设备：这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要样本，这类终端包括：智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)移动个人计算机设备：这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性，这类终端包括：PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备：这类设备可以显示和播放多媒体内容，该类设备包括：音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器：提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

本发明的实施例还提供了一种非瞬时性计非瞬时性计算机可读存储介质，该存储介质可设置于计算机设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和计算机设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种知识图谱的建立方法，其特征在于，所述方法包括如下步骤：

S101、获取目标文本，所述目标文本是指存储同一指定领域对应信息的文本，并基于所述目标文本，获取所述目标文本的主实体和在所述目标文本中所述主实体对应的所有副实体；

S105、遍历A且获取每一A_i中所有主实体和每一所述主实体对应的所有副实体之间的目标字符距离，构建成目标字符距离列表，并从所述目标字符距离列表中获取最小字符距离对应的主实体作为所述目标文本的第一实体，同时，从A中获取第一实体对应的所有目标语句中副实体均作为所述目标文本的第二实体；

2.根据权利要求1所述的知识图谱的建立方法，其特征在于，S101步骤中，通过infobox平台对所述目标文本进行处理，得到所述目标文本的主实体和所述主实体对应的所有副实体。

3.根据权利要求1所述的知识图谱的建立方法，其特征在于，S103步骤中还包括如下步骤：

将所述中间文件按照预设的语句划分规则进行划分，生成m个目标语句；

4.根据权利要求3所述的知识图谱的建立方法，其特征在于，所述目标词是指基于所述指定领域，从预设的词数据库中获取的目标文本对应的领域的所有词。

5.根据权利要求3所述的知识图谱的建立方法，其特征在于，S105步骤还包括如下步骤：

将每一A_i中相邻的主实体和副实体之间的标记为0的字符数量作为目标字符距离；

当A_i中的s个所述目标字符距离相等时，获取s个所述目标字符距离对应的所有主实体作为中间实体且s个所述中间实体一致时，将所述中间实体作为第一实体；

当s个所述中间实体不一致时，获取每一所述中间实体的TF值，并将最大TF值对应的所述中间实体作为第一实体。

6.根据权利要求5所述的知识图谱的建立方法，其特征在于，所述中间实体一致是指在s个所述中间实体中，所有的所述中间实体之间为相同词或相近词。

7.根据权利要求1所述的知识图谱的建立方法，其特征在于，所述方法还包括如下步骤：

8.一种计算机设备，其特征在于，包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1-7中任一项所述的知识图谱的建立方法。

9.一种非瞬时性计非瞬时性计算机可读存储介质，所述计非瞬时性计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-7任一项所述的知识图谱的建立方法。