CN115048536A

CN115048536A - 知识图谱生成方法、装置、计算机设备和存储介质

Info

Publication number: CN115048536A
Application number: CN202210794709.8A
Authority: CN
Inventors: 赵永国; 杨荣霞; 曹熙; 张仙梅; 曾祥清; 黎名航
Original assignee: China Southern Power Grid Big Data Service Co ltd
Current assignee: China Southern Power Grid Big Data Service Co ltd
Priority date: 2022-07-07
Filing date: 2022-07-07
Publication date: 2022-09-13

Abstract

本申请涉及一种知识图谱生成方法、装置、计算机设备、存储介质和计算机程序产品。方法包括：获取目标领域的待构建文本；将待构建文本输入至目标领域对应的预训练的关系提取分类器中，得到待构建文本中的实体关系；实体关系为关系提取分类器根据待构建文本对应的文本矩阵进行实体关系提取得到的；文本矩阵为关系提取分类器根据待构建文本中的文本所对应的位置向量对待构建文件进行矩阵化处理得到的；根据实体关系确定目标图谱节点的描述信息；根据目标图谱节点的描述信息生成待构建文本对应的目标知识图谱；目标知识图谱用于供目标对象获取待构建文本中任一实体的关联关系。采用本方法能够提高目标实体关联关系的获取效率。

Description

知识图谱生成方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种知识图谱生成方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

大数据时代，数据爆发性增长，海量的、各种类型的数据在快速产生。这些庞大复杂的数据信息，可以构成大量的文本资料。

然而，由于文本资料中文本数据众多，当需要获取目标领域中目标实体的关联关系时需要花费大量时间翻阅目标领域中的文本资料，导致无法高效获取目标实体的关联关系。

因此，相关技术中存在着无法在目标领域的文本资料中高效获取目标实体的关联关系的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高目标实体关联关系的获取效率的知识图谱生成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种知识图谱生成方法。所述方法包括：

获取目标领域的待构建文本；

将所述待构建文本输入至所述目标领域对应的预训练的关系提取分类器中，得到所述待构建文本中的实体关系；所述实体关系为所述关系提取分类器根据所述待构建文本对应的文本矩阵进行实体关系提取得到的；所述文本矩阵为所述关系提取分类器根据所述待构建文本中的文本所对应的位置向量对所述待构建文件进行矩阵化处理得到的；

根据所述实体关系确定目标图谱节点的描述信息；

根据所述目标图谱节点的描述信息生成所述待构建文本对应的目标知识图谱；所述目标知识图谱用于供目标对象获取所述待构建文本中任一实体的关联关系。

在其中一个实施例中，所述根据所述实体关系确定目标图谱节点的描述信息，包括：

确定所述实体关系对应的主体名称、实体动作信息和实体描述信息；

根据所述主体名称、所述实体动作信息和所述实体描述信息确定各所述目标图谱节点对应的节点名称以及各所述目标图谱节点之间的指向关系；

根据所述节点名称和所述指向关系得到所述目标图谱节点的描述信息。

在其中一个实施例中，所述根据所述目标图谱节点对应的描述信息生成所述待构建文本对应的目标知识图谱，包括：

根据各所述目标图谱节点对应的描述信息，在所述目标图谱节点中筛选出目标图谱根节点，并确定所述目标图谱根节点对应的实体标识；

基于节点关系描述矩阵，根据所述实体标识，获取与所述目标图谱根节点直接关联的至少一个目标图谱节点对应的第一实体数据；

对所述第一实体数据和所述实体标识对应的第二实体数据进行页面元素渲染，得到所述目标知识图谱。

在其中一个实施例中，所述方法还包括：

获取所述目标领域中标注有关联关系的目标实体三元组，并将所述目标实体三元组与目标语料库中的语料进行文本对齐以构建样本语料集；所述目标语料库为与所述目标领域对应的语料库；

根据预设语料划分比例，将所述样本语料集划分为训练样本语料集和测试样本语料集；

根据所述训练样本语料集对待训练的关系提取分类器进行训练，得到训练后的关系提取分类器；

根据所述测试样本语料集对所述训练后的关系提取分类器进行测试，若所述训练后的关系提取分类器满足测试通过条件，得到所述预训练的关系提取分类器。

在其中一个实施例中，所述获取所述目标领域中标注有关联关系的目标实体三元组，包括：

对所述目标领域中的样本文本进行词语分类处理，确定所述样本文本中的非结构化文本；

对所述非结构化文本进行标引，以对所述样本文本进行句法分析以确定所述样本文本中各文本句子的依赖性；

根据各所述文本句子的依赖性对各所述文本句子中的词语进行逻辑关联关系标注，构建所述目标实体三元组。

在其中一个实施例中，所述对所述目标领域中的样本文本进行词语分类处理，确定所述样本文本中的非结构化文本，包括：

采用预设分词方法对所述样本文本进行分词处理，得到分词后样本文本；

根据所述样本文本的文本数量和所述分词后样本文本的分词数量，构造样本文本矩阵；

基于所述样本文本矩阵，采用K均值算法对所述分词后样本文本进行文本聚类处理，得到聚类后样本文本；

根据所述聚类后样本文本对应的文本类簇确定所述样本文本中的非结构化文本。

第二方面，本申请还提供了一种知识图谱生成装置。所述装置包括：

获取模块，用于获取目标领域的待构建文本；

输入模块，用于将所述待构建文本输入至所述目标领域对应的预训练的关系提取分类器中，得到所述待构建文本中的实体关系；所述实体关系为所述关系提取分类器根据所述待构建文本对应的文本矩阵进行实体关系提取得到的；所述文本矩阵为所述关系提取分类器根据所述待构建文本中的文本所对应的位置向量对所述待构建文件进行矩阵化处理得到的；

确定模块，用于根据所述实体关系确定目标图谱节点的描述信息；

生成模块，用于根据所述目标图谱节点的描述信息生成所述待构建文本对应的目标知识图谱；所述目标知识图谱用于供目标对象获取所述待构建文本中任一实体的关联关系。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取目标领域的待构建文本；

根据所述实体关系确定目标图谱节点的描述信息；

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取目标领域的待构建文本；

根据所述实体关系确定目标图谱节点的描述信息；

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取目标领域的待构建文本；

根据所述实体关系确定目标图谱节点的描述信息；

上述知识图谱生成方法、装置、计算机设备、存储介质和计算机程序产品，通过获取目标领域的待构建文本；将待构建文本输入至目标领域对应的预训练的关系提取分类器中，得到待构建文本中的实体关系；实体关系为关系提取分类器根据待构建文本对应的文本矩阵进行实体关系提取得到的；文本矩阵为关系提取分类器根据待构建文本中的文本所对应的位置向量对待构建文件进行矩阵化处理得到的；根据实体关系确定目标图谱节点的描述信息；根据目标图谱节点的描述信息生成待构建文本对应的目标知识图谱；目标知识图谱用于供目标对象获取待构建文本中任一实体的关联关系；如此，将目标领域的待构建文本抽象成知识图谱，便于目标对象快速地了解待构建文本中的内容，从而可以在目标领域的文本资料中快速获取到目标实体的关联关系，提高了目标实体关联关系的获取效率。

附图说明

图1为一个实施例中一种知识图谱生成方法的流程示意图；

图2为一个实施例中根据实体关系确定目标图谱节点的描述信息步骤的流程示意图；

图3为另一个实施例中一种知识图谱生成方法的流程示意图；

图4为一个实施例中一种知识图谱生成装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本申请实施例提供的知识图谱生成方法，可以应用于计算机设备。其中，计算机设备可以是终端或服务器。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图1所示，提供了一种知识图谱生成方法，以该方法应用于计算机设备为例进行说明，包括以下步骤：

步骤S110，获取目标领域的待构建文本。

具体实现中，计算机设备可以获取到目标领域的待构建文本。例如，目标领域的待构建文本可以是电力领域的电力调度规章文本。在电力领域，电力调度作为一种重要的现代化监测、控制、管理手段，其主要通过电力调度规章文本进行表述。

步骤S120，将待构建文本输入至目标领域对应的预训练的关系提取分类器中，得到待构建文本中的实体关系。

其中，实体关系为关系提取分类器根据待构建文本对应的文本矩阵进行实体关系提取得到的。

其中，文本矩阵为关系提取分类器根据待构建文本中的文本所对应的位置向量对待构建文件进行矩阵化处理得到的。

具体实现中，计算机设备可以将待构建文本输入至目标领域对应的预训练的关系提取分类器中，以得到待构建文本中的实体关系。具体来说，关系提取分类器可以根据待构建文本中的文本所对应的位置向量对待构建文件进行矩阵化处理，得到待构建文本对应的文本矩阵，并基于该文本矩阵提取待构建文本中的实体关系。

步骤S130，根据实体关系确定目标图谱节点的描述信息。

其中，目标图谱节点的描述信息可以为目标图谱节点的属性信息，包括各目标图谱节点对应的节点名称以及各目标图谱节点之间的指向关系。

具体来说，计算机设备可以根据待构建文本中的实体关系确定用于构建目标知识图谱的目标图谱节点的描述信息，如各目标图谱节点对应的节点名称以及各目标图谱节点之间的指向关系。

步骤S140，根据目标图谱节点的描述信息生成待构建文本对应的目标知识图谱。

其中，目标知识图谱用于供目标对象获取待构建文本中任一实体的关联关系。

其中，目标知识图谱的形式可以为矩阵形或者树形。

具体实现中，计算机设备可以根据目标图谱节点对应的描述信息，获取目标图谱节点对应的实体数据，并在页面上进行渲染，生成待构建文本对应的目标知识图谱，以供目标对象获取待构建文本中任一实体的关联关系。

例如，若待构建文本为电力领域的电力调度规章文本，如此，将电力调度规章文本抽象成知识图谱，便于目标对象快速地了解电力调度规章的内容，尤其在出现紧急情况时，便于目标对象快速地了解规章内容以及快读地制定针对电力调度的应急方案。

上述知识图谱生成方法中，通过获取目标领域的待构建文本；将待构建文本输入至目标领域对应的预训练的关系提取分类器中，得到待构建文本中的实体关系；实体关系为关系提取分类器根据待构建文本对应的文本矩阵进行实体关系提取得到的；文本矩阵为关系提取分类器根据待构建文本中的文本所对应的位置向量对待构建文件进行矩阵化处理得到的；根据实体关系确定目标图谱节点的描述信息；根据目标图谱节点的描述信息生成待构建文本对应的目标知识图谱；目标知识图谱用于供目标对象获取待构建文本中任一实体的关联关系；如此，将目标领域的待构建文本抽象成知识图谱，便于目标对象快速地了解待构建文本中的内容，从而可以在目标领域的文本资料中快速获取到目标实体的关联关系，提高了目标实体关联关系的获取效率。

在一个实施例中，如图2所示，步骤S130包括：

步骤S210，确定实体关系对应的主体名称、实体动作信息和实体描述信息。

具体实现中，计算机设备可以确定实体关系对应的主体名称、实体动作信息和实体描述信息。

步骤S220，根据主体名称、实体动作信息和实体描述信息确定各目标图谱节点对应的节点名称以及各目标图谱节点之间的指向关系。

具体实现中，计算机设备可以根据实体关系对应的主体名称、实体动作信息和实体描述信息，确定目标图谱节点的属性信息，包括各目标图谱节点对应的节点名称以及各目标图谱节点之间的指向关系。

步骤S230，根据节点名称和指向关系得到目标图谱节点的描述信息。

具体实现中，计算机设备可以将各目标图谱节点对应的节点名称以及各目标图谱节点之间的指向关系，作为目标图谱节点的描述信息。

本实施例的技术方案，通过确定实体关系对应的主体名称、实体动作信息和实体描述信息；根据主体名称、实体动作信息和实体描述信息确定各目标图谱节点对应的节点名称以及各目标图谱节点之间的指向关系；根据节点名称和指向关系得到目标图谱节点的描述信息；如此可以根据实体关系对应的主体名称、实体动作信息和实体描述信息准确生成目标图谱节点的描述信息，从而可以根据目标图谱节点的描述信息准确生成待构建文本对应的目标知识图谱。

在一个实施例中，根据目标图谱节点对应的描述信息生成待构建文本对应的目标知识图谱，包括：根据各目标图谱节点对应的描述信息，在目标图谱节点中筛选出目标图谱根节点，并确定目标图谱根节点对应的实体标识；基于节点关系描述矩阵，根据实体标识，获取与目标图谱根节点直接关联的至少一个目标图谱节点对应的第一实体数据；对第一实体数据和实体标识对应的第二实体数据进行页面元素渲染，得到目标知识图谱。

具体实现中，计算机设备在根据目标图谱节点对应的描述信息生成待构建文本对应的目标知识图谱的过程中，计算机设备可以根据各目标图谱节点对应的描述信息，在目标图谱节点中筛选出目标图谱根节点，并确定目标图谱根节点对应的节点标识，根据该节点标识在预先构建的事实表达库中查找以获取对应的实体数据，此处，一个实体数据对应一个事实，所有的实体数据构成事实表达库，由于在知识图谱中涉及的实体以及实体间的关系较为复杂，因此，所述事实表达库比如选用图数据库。其中，实体数据可以为实体关系数据，也可以是实体属性数据，该实体数据包括了目标图谱根节点对应的实体标识。

然后，计算机设备可以基于节点关系描述矩阵，根据实体标识，获取与目标图谱根节点直接关联的至少一个目标图谱节点对应的第一实体数据。具体来说，节点关系描述矩阵直观地记录了实体之间的关系，为便于理解，简单的举例说明，比如，所述节点关系描述矩阵的首行和首列分别为实体标识，按照行列交叉的方式，如果两个实体具有关联关系，则位于行方向上的实体标识与位于列方向上的实体标识对应在行列交叉的矩阵元素为1，否则为0。当然，此处仅仅是示例，并非唯一性限定。

具体地，在确定与目标图谱根节点具有直接关联的至少一个目标图谱节点对应的第一实体数据时，具体可以使用目标图谱根节点对应的实体数据中的实体标识在节点关系描述矩阵进行查找即可。

然后，计算机设备可以将目标图谱根节点对应的实体标识所属的实体数据作为目标图谱根节点对应的实体标识所对应的第二实体数据，并对第一实体数据和第二实体数据进行页面元素渲染，在网页界面上展示与目标图谱根节点直接关联的至少一个目标图谱节点，得到目标知识图谱。

本实施例的技术方案，通过根据各目标图谱节点对应的描述信息，在目标图谱节点中筛选出目标图谱根节点，并确定目标图谱根节点对应的实体标识；基于节点关系描述矩阵，根据实体标识，获取与目标图谱根节点直接关联的至少一个目标图谱节点对应的第一实体数据；对第一实体数据和实体标识对应的第二实体数据进行页面元素渲染，得到目标知识图谱；如此，可以根据目标图谱根节点对应的实体数据和与目标图谱根节点直接关联的至少一个目标图谱节点对应的实体数据，渲染生成目标知识图谱，提高了目标知识图谱的可靠性。

在一个实施例中，方法还包括：获取目标领域中标注有关联关系的目标实体三元组，并将目标实体三元组与目标语料库中的语料进行文本对齐以构建样本语料集；目标语料库为与目标领域对应的语料库；根据预设语料划分比例，将样本语料集划分为训练样本语料集和测试样本语料集；根据训练样本语料集对待训练的关系提取分类器进行训练，得到训练后的关系提取分类器；根据测试样本语料集对训练后的关系提取分类器进行测试，若训练后的关系提取分类器满足测试通过条件，得到预训练的关系提取分类器。

具体实现中，计算机设备可以获取目标领域中标注有关联关系的目标实体三元组，并将目标实体三元组与目标语料库中的语料进行文本对齐以构建样本语料集；其中，目标语料库为与目标领域对应的语料库。

其中，计算机设备可以通过预设的查询接口从目标领域词典中获取已标注好的目标领域词汇，以从中获取目标实体三元组。

具体地，目标领域词典可以以json(JavaScript Object Notation,JS对象简谱，是一种轻量级的数据交换格式)格式展现。以json格式展现仅仅是示例，并非唯一性限定。

具体地，通过预设的查询接口从目标领域词典中获取已标注好的目标领域词汇，以从中获取目标实体三元组，包括：对获取的词汇进行滤噪处理，滤噪处理包括去重处理，和/或,去除获取的词汇中与目标领域无关的词汇；统计滤噪处理后的词汇的频率，保留频率大于预设频率的词汇，以从保留的词汇中获取目标实体三元组。

然后，计算机设备可以根据预设语料划分比例，将样本语料集划分为训练样本语料集和测试样本语料集；比如训练样本语料集占样本语料集的80％，测试样本语料集占样本语料集的20％。然后，计算机设备可以根据训练样本语料集对待训练的关系提取分类器进行训练；具体地，可以对训练样本语料集进行向量化得到训练样本语料向量集，基于训练样本语料向量集对待训练的关系提取分类器进行训练，得到训练后的关系提取分类器。

然后，计算机设备可以根据测试样本语料集对训练后的关系提取分类器进行测试，若训练后的关系提取分类器满足测试通过条件，得到预训练的关系提取分类器。具体地，如果使用训练后的关系提取分类器对目标语料库进行实体关系提取，提取到的实体关系与测试样本语料集对应的实体关系的近似度超过预设的近似度阈值，则判定训练后的关系提取分类器满足测试通过条件，得到预训练的关系提取分类器；否则继续基于训练样本语料集对训练后的关系提取分类器进行训练，直至训练后的关系提取分类器满足测试通过条件。

本实施例的技术方案，通过获取目标领域中标注有关联关系的目标实体三元组，并将目标实体三元组与目标语料库中的语料进行文本对齐以构建样本语料集；目标语料库为与目标领域对应的语料库；根据预设语料划分比例，将样本语料集划分为训练样本语料集和测试样本语料集；根据训练样本语料集对待训练的关系提取分类器进行训练，得到训练后的关系提取分类器；根据测试样本语料集对训练后的关系提取分类器进行测试，若训练后的关系提取分类器满足测试通过条件，得到预训练的关系提取分类器；如此，通过样本语料集中的训练样本语料集对待训练的关系提取分类器进行训练，得到训练后的关系提取分类器；根据测试样本语料集对训练后的关系提取分类器进行测试，直到训练后的关系提取分类器满足测试通过条件，得到预训练的关系提取分类器；从而可以提高预训练的关系提取分类器进行实体关系提取时的准确率。

在一个实施例中，获取目标领域中标注有关联关系的目标实体三元组，包括：对目标领域中的样本文本进行词语分类处理，确定样本文本中的非结构化文本；对非结构化文本进行标引，以对样本文本进行句法分析以确定样本文本中各文本句子的依赖性；根据各文本句子的依赖性对各文本句子中的词语进行逻辑关联关系标注，构建目标实体三元组。。

其中，样本文本可以为任意结构或者格式的文本，比如为对纸质文档进行ocr(Optical Character Recognition，光学字符识别)识别得到的文本，或者，为网页文本。

其中，结构化文本可以为样本文本中的各级标题，如一级标题和二级标题。

具体实现中，计算机设备在获取目标领域中标注有关联关系的目标实体三元组的过程中，计算机设备可以对目标领域中的样本文本进行词语分类处理，确定样本文本中的结构化文本和非结构化文本。

然后，计算机设备可以对结构化文本中的各级标题内容进行逻辑关联关系提取，得到具有上下位逻辑关系的各级标题，并对各级标题进行逻辑关联关系标注。具体来说，各级标题可以包括一级标题、二级标题等，上下位逻辑关系可以包括一级标题和二级标题在内容上的上下位逻辑关系。通过逻辑关联关系提取的提取，可以将具有明显上下位关系的一级标题和二级标题快速地标注出来。在对具有上下位逻辑关系的标题进行逻辑关联关系标注时，可以以成对的方式，例如，标注任一一级标题以及该一级标题下的二级标题为一对。其中，非结构化文本可以为二级标题下的文本内容。

然后，计算机设备可以对非结构化文本进行标引，以对样本文本进行句法分析以确定样本文本中各文本句子的依赖性；根据各文本句子的依赖性对各文本句子中的词语进行逻辑关联关系标注，构建目标实体三元组。

具体来说，计算机设备可以对非结构化文本进行标引以对样本文本进行句法分析；例如，计算机设备可以确定样本文本中独立的句子成分，被单向依赖的句子成分，具有双向依赖的句子成分，对独立的句子成分，被单向依赖的句子成分，具有双向依赖的句子成分进行分词以及词性分析；其中，单向依赖比如：A依赖类。

然后，计算机设备可以根据句法分析的结果构建依存句法分析图，实现对样本文本中各文本句子中的词语进行逻辑关联关系标注。具体来说，计算机设备通过句法分析器实现基于句法分析，根据句法分析的结果构建依存句法分析图；该句法分析器可以通过词语组合分析得到句法结构，句法分析器可以为完全句法分析器或局部句法分析器。

最后，计算机设备可以基于依存句法分析和语义角色标注，根据依存句法分析图构建目标实体三元组。

其中，计算机设备在确定样本文本中独立的句子成分，被单向依赖的句子成分，具有双向依赖的句子成分，以构建目标实体三元组的过程中，计算机设备对于样本文本中长度大于设定长度阈值的长句进行断句，将并列的名词，并列的动词拆分成单独的词作为独立的句子成分。

其中，若补充的内容为名词短语，直接将该名词短语作为知识填充到目标实体三元组中，若补充的内容为句子，在对该句子进行关系抽取后加入到目标实体三元组中。

此处，需要说明的是，补充的内容还有可能是标点符号，则不用添加到目标实体三元组中。

具体地，上述实施例中，目标实体三元组的结构可以为《实体，实体动作，实体描述》。其中，实体是本体、实例及关系的整合，比如“人”是本体框中的一个概念，概念中也规定了相关属性比如“性别”，小明是一个具体的人，叫做实例，所以小明也有性别，小明以及体现小明的本体概念“人”以及相关属性，叫做一个实体(简单的说就是：本体+实例)。

具体地，在执行加入到目标实体三元组中的步骤时，可以分析该句子与目标实体三元组中已有句子是否存在定中关系，若存在定中关系，则将该句子添加到目标实体三元组中。

具体地，分析该句子与目标实体三元组中已有句子是否存在定中关系，可以包括：通过分析该句子与依存句法分析图中每个分析结果是否存在定中关系，确定该句子与目标实体三元组中已有句子是否存在定中关系，从而保证方案实施的有序性，提高数据处理的效率。

本实施例的技术方案，通过对目标领域中的样本文本进行词语分类处理，确定样本文本中的非结构化文本；对非结构化文本进行标引，以对样本文本进行句法分析以确定样本文本中各文本句子的依赖性；根据样本文本中文本句子的依赖性对各文本句子中的词语进行逻辑关联关系标注，构建目标实体三元组；如此，可以根据样本文本中文本句子的依赖性对各所述文本句子中的词语进行逻辑关联关系标注，以构建目标实体三元组，提高了知识图谱的构建有序性，从而提高知识图谱的构建效率。

在一个实施例中，对目标领域中的样本文本进行词语分类处理，确定样本文本中的非结构化文本，包括：采用预设分词方法对样本文本进行分词处理，得到分词后样本文本；根据样本文本的文本数量和分词后样本文本的分词数量，构造样本文本矩阵；基于样本文本矩阵，采用K均值算法对分词后样本文本进行文本聚类处理，得到聚类后样本文本；根据聚类后样本文本对应的文本类簇确定样本文本中的非结构化文本。

具体实现中，计算机设备在对目标领域中的样本文本进行词语分类处理，确定样本文本中的非结构化文本的过程中，计算机设备可以通过jieba(一种中文分词库)结巴分词法对样本文本进行中文分词处理，得到分词后样本文本；然后，对分词后样本文本进行tf-idf(term frequency–inverse document frequency，词频-逆向文件频率)计算，以根据样本文本的数量和分词后样本文本的分词数量，构造N*M样本文本矩阵(N个文本，M个分词)；然后，基于该样本文本矩阵，使用K-means(K均值)算法对分词后样本文本进行文本聚类处理，并对分词后样本文本进行降维处理，得到按文本类簇归类的聚类后样本文本；最后，根据聚类后样本文本对应的文本类簇确定样本文本中的非结构化文本和结构化文本。

本实施例的技术方案，通过采用预设分词方法对样本文本进行分词处理，得到分词后样本文本；根据样本文本的文本数量和分词后样本文本的分词数量，构造样本文本矩阵；基于样本文本矩阵，采用K均值算法对分词后样本文本进行文本聚类处理，得到聚类后样本文本；根据聚类后样本文本对应的文本类簇确定样本文本中的非结构化文本；如此，可以准确地确定样本文本中的非结构化文本和结构化文本，从而可以根据该分类结果准确构造目标实体三元组以获取准确率较高的关系提取分类器。

在另一个实施例中，如图3所示，提供了一种知识图谱生成方法，以该方法应用于计算机设备为例进行说明，包括以下步骤：

步骤S302，获取目标领域的待构建文本。

步骤S304，将待构建文本输入至目标领域对应的预训练的关系提取分类器中，得到待构建文本中的实体关系。

步骤S306，确定实体关系对应的主体名称、实体动作信息和实体描述信息。

步骤S308，根据主体名称、实体动作信息和实体描述信息确定各目标图谱节点对应的节点名称以及各目标图谱节点之间的指向关系。

步骤S310，根据节点名称和指向关系得到目标图谱节点的描述信息。

步骤S312，根据目标图谱节点的描述信息生成待构建文本对应的目标知识图谱。

需要说明的是，上述步骤的具体限定可以参见上文对一种知识图谱生成方法的具体限定。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的一种知识图谱生成方法的知识图谱生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个知识图谱生成装置实施例中的具体限定可以参见上文中对于一种知识图谱生成方法的限定，在此不再赘述。

在一个实施例中，如图4所示，提供了一种知识图谱生成装置，包括：获取模块410、输入模块420、确定模块430和生成模块440，其中：

获取模块410，用于获取目标领域的待构建文本。

输入模块420，用于将所述待构建文本输入至所述目标领域对应的预训练的关系提取分类器中，得到所述待构建文本中的实体关系；所述实体关系为所述关系提取分类器根据所述待构建文本对应的文本矩阵进行实体关系提取得到的；所述文本矩阵为所述关系提取分类器根据所述待构建文本中的文本所对应的位置向量对所述待构建文件进行矩阵化处理得到的。

确定模块430，用于根据所述实体关系确定目标图谱节点的描述信息。

生成模块440，用于根据所述目标图谱节点的描述信息生成所述待构建文本对应的目标知识图谱；所述目标知识图谱用于供目标对象获取所述待构建文本中任一实体的关联关系。

在其中一个实施例中，所述确定模块430，具体用于确定所述实体关系对应的主体名称、实体动作信息和实体描述信息；根据所述主体名称、所述实体动作信息和所述实体描述信息确定各所述目标图谱节点对应的节点名称以及各所述目标图谱节点之间的指向关系；根据所述节点名称和所述指向关系得到所述目标图谱节点的描述信息。

在其中一个实施例中，所述生成模块440，具体用于根据各所述目标图谱节点对应的描述信息，在所述目标图谱节点中筛选出目标图谱根节点，并确定所述目标图谱根节点对应的实体标识；基于节点关系描述矩阵，根据所述实体标识，获取与所述目标图谱根节点直接关联的至少一个目标图谱节点对应的第一实体数据；对所述第一实体数据和所述实体标识对应的第二实体数据进行页面元素渲染，得到所述目标知识图谱。

在其中一个实施例中，所述装置还包括：构建模块，用于获取所述目标领域中标注有关联关系的目标实体三元组，并将所述目标实体三元组与目标语料库中的语料进行文本对齐以构建样本语料集；所述目标语料库为与所述目标领域对应的语料库；划分模块，用于根据预设语料划分比例，将所述样本语料集划分为训练样本语料集和测试样本语料集；训练模块，用于根据所述训练样本语料集对待训练的关系提取分类器进行训练，得到训练后的关系提取分类器；测试模块，用于根据所述测试样本语料集对所述训练后的关系提取分类器进行测试，若所述训练后的关系提取分类器满足测试通过条件，得到所述预训练的关系提取分类器。

在其中一个实施例中，所述构建模块，具体用于对所述目标领域中的样本文本进行词语分类处理，确定所述样本文本中的非结构化文本；对所述非结构化文本进行标引，以对所述样本文本进行句法分析以确定所述样本文本中各文本句子的依赖性；根据各所述文本句子的依赖性对各所述文本句子中的词语进行逻辑关联关系标注，构建所述目标实体三元组。

在其中一个实施例中，所述构建模块，具体用于采用预设分词方法对所述样本文本进行分词处理，得到分词后样本文本；根据所述样本文本的文本数量和所述分词后样本文本的分词数量，构造样本文本矩阵；基于所述样本文本矩阵，采用K均值算法对所述分词后样本文本进行文本聚类处理，得到聚类后样本文本；根据所述聚类后样本文本对应的文本类簇确定所述样本文本中的非结构化文本。

上述一种知识图谱生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种知识图谱生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种知识图谱生成方法，其特征在于，所述方法包括：

获取目标领域的待构建文本；

根据所述实体关系确定目标图谱节点的描述信息；

2.根据权利要求1所述的方法，其特征在于，所述根据所述实体关系确定目标图谱节点的描述信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述根据所述目标图谱节点对应的描述信息生成所述待构建文本对应的目标知识图谱，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述获取所述目标领域中标注有关联关系的目标实体三元组，包括：

6.根据权利要求5所述的方法，其特征在于，所述对所述目标领域中的样本文本进行词语分类处理，确定所述样本文本中的非结构化文本，包括：

7.一种知识图谱生成装置，其特征在于，所述装置包括：

获取模块，用于获取目标领域的待构建文本；

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。