CN117291265A

CN117291265A - 一种基于文本大数据的知识图谱构建方法

Info

Publication number: CN117291265A
Application number: CN202311582684.6A
Authority: CN
Inventors: 董爱平; 戴晔; 李彩荣; 刘世闻; 王飞; 顾璇; 严典范
Original assignee: Jiangsu Fengyun Technology Service Co ltd
Current assignee: Jiangsu Fengyun Technology Service Co ltd
Priority date: 2023-11-24
Filing date: 2023-11-24
Publication date: 2023-12-26
Anticipated expiration: 2043-11-24
Also published as: CN117291265B

Abstract

本申请提供一种基于文本大数据的知识图谱构建方法，知识图谱本体结构包含实体、属性及实体间关系，所述方法包括：获取文本数据集，其中，文本数据集包含多条文本信息；利用预设的知识抽取模型对文本数据集中的文本信息进行知识抽取，提取出实体、属性及实体间关系，其中，知识抽取模型用于对文本信息进行分词、编码、解码、序列标注和知识抽取；基于抽取的知识进行知识融合和存储，完成知识图谱的构建。这样的方式可以有效降低垂直领域的知识抽取过程中的数据计算量，从而高效实现垂直领域知识图谱的构建。

Description

一种基于文本大数据的知识图谱构建方法

技术领域

本申请涉及大数据领域，具体而言，涉及一种基于文本大数据的知识图谱构建方法。

背景技术

在数据大量增长的形势下，文本数据也占有不小的比例，且文本数据的知识密度高，具有很强的挖掘价值。例如，可以通过对数据的挖掘实现横向领域或某一垂直领域的知识图谱的构建，从而利用构建的知识图谱完成更贴近实际的应用，例如智能问答软件。

现有的基于文本大数据的知识图谱构建方式，通常是采用Bert-BGRU-CRF联合的模型，整体处理过程复杂，数据处理过程中计算量极大，运行效率低，难以应用于垂直领域知识图谱的高效构建。

发明内容

本申请实施例的目的在于提供一种基于文本大数据的知识图谱构建方法，以高效地实现垂直领域知识图谱的构建。

为了实现上述目的，本申请的实施例通过如下方式实现：

第一方面，本申请实施例提供一种基于文本大数据的知识图谱构建方法，知识图谱本体结构包含实体、属性及实体间关系，所述方法包括：获取文本数据集，其中，文本数据集包含多条文本信息；利用预设的知识抽取模型对文本数据集中的文本信息进行知识抽取，提取出实体、属性及实体间关系，其中，知识抽取模型用于对文本信息进行分词、编码、解码、序列标注和知识抽取；基于抽取的知识进行知识融合和存储，完成知识图谱的构建。

结合第一方面，在第一方面的第一种可能的实现方式中，知识抽取模型包括分词单元、编码单元、解码单元、抽取单元，利用预设的知识抽取模型对文本数据集中的文本信息进行知识抽取，提取出实体、属性及实体间关系，包括：利用分词单元对文本信息进行分词，得到分词结果；利用编码单元对分词结果进行特征提取和重编码，得到文本重编码结果；利用解码单元对文本重编码结果进行解码，得到解码结果；利用抽取单元对解码结果进行标签概率计算，得到标签序列，并对标签序列进行重排序，最终确定出实体、属性及实体间关系。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，采用HanLP工具作为文本信息的分词单元，利用分词单元对文本信息进行分词，得到分词结果，包括：

对文本信息进行分词：

，

其中，为输入的文本信息，/>表示文本信息/>的分词结果，/>对应文本信息/>的语义依赖树，呈有向无环图，/>为节点集合，/>为边集。

结合第一方面的第二种可能的实现方式，在第一方面的第三种可能的实现方式中，利用编码单元对分词结果进行特征提取和重编码，得到文本重编码结果，包括：

对分词结果进行向量化，对于分词结果中的第/>个词语/>，假设由/>个单字组成，单字分别由/>表示，则词语/>的特征值/>为：

，

则：，

其中，为文本信息/>的特征向量；

使用图卷积神经网络对特征向量进行重编码，最终得到文本重编码结果：

，

；

其中，为文本重编码结果，图卷积神经网络共有/>层，每层/>个单元，/>为图卷积神经网络的第/>层中每个单元的输出构成的序列向量，/>为图卷积神经网络的第/>层中第/>个单元的输出，/>为图卷积神经网络的第/>层中第/>个单元与第/>层中第/>个单元之间的权重，/>为图卷积神经网络的第/>层中第/>个单元的输出，/>为图卷积神经网络的第/>层中第/>个单元的偏置项，/>为图卷积神经网络的输入。

结合第一方面的第三种可能的实现方式，在第一方面的第四种可能的实现方式中，采用LSTM作为解码单元，利用解码单元对文本重编码结果进行解码，得到解码结果，包括：

采用LSTM对文本重编码结果进行解码：

，

其中，为第/>个时间步的输出门，/>为激活函数，/>、/>和/>为权重，分别控制当前输入对输出门的影响程度、前一时刻的隐藏状态对输出门的影响程度和当前时刻的LSTM单元状态对输出门的影响程度，/>，/>为当前时间步的LSTM单元状态，/>为偏置向量，用于调整输出门的输出值；/>为第/>个时间步的LSTM最终输出，/>为解码结果。

结合第一方面的第四种可能的实现方式，在第一方面的第五种可能的实现方式中，采用全连接层和改进的softmax函数构建抽取单元，全连接层与解码单元连接，标签模型采用四元组，利用抽取单元对解码结果进行标签概率计算，得到标签序列，包括：

采用全连接层对解码器的输出进行线性变换，得到向量/>：

，

其中，为与标签数量相关的向量，/>权重矩阵，/>为偏置项，/>；

采用改进的softmax函数计算标签的概率：

，

其中，为从随机噪声分布中采样的变量，/>为控制噪声大小的控制参数，/>为第个四元组，四元组/>中/>为词语位置标签，表示词语在句子中的位置；/>为指标类型标签，表示词语的属性类型；/>为主宾类型标签，表示词语的词性；/>为关系类型标签，表示句子中三元组的关系类型；/>为标签序列。

结合第一方面的第五种可能的实现方式，在第一方面的第六种可能的实现方式中，对标签序列进行重排序，最终确定出实体、属性及实体间关系，包括：对标签序列中的各词对应的词语位置标签/>和主宾类型标签/>进行分析，确定出实体；对标签序列/>中的各词对应的关系类型标签/>进行分析，确定出实体间关系；对标签序列/>中的各词对应的指标类型标签/>计算TF-IDF值，按照TF-IDF值对指标类型标签/>进行重排序，确定出属性。

结合第一方面的第六种可能的实现方式，在第一方面的第七种可能的实现方式中，对标签序列中的各词对应的指标类型标签/>计算TF-IDF值，按照TF-IDF值对指标类型标签/>进行重排序，确定出属性，包括：

对于标签序列中的各词对应的指标类型标签/>采用以下公式计算TF-IDF值：

，

其中，为标签序列/>中的第/>个词对应的指标类型标签，/>为指标类型标签在与第/>个实体在文本信息/>中共同出现的频次，/>为指标类型标签/>与文本信息/>中所有实体在文本信息/>中共同出现的频次，/>为指标类型标签/>在整个语料库中出现的总频次，/>为指标类型标签/>在文本信息/>中出现的总频次；

利用TF-IDF值对指标类型标签进行重排序，以确定出属性。

结合第一方面，在第一方面的第八种可能的实现方式中，基于抽取的知识进行知识融合和存储，完成知识图谱的构建，包括：对抽取的知识进行知识融合；采用Neo4j图数据库对知识融合后的知识进行存储。

结合第一方面的第八种可能的实现方式，在第一方面的第九种可能的实现方式中，对抽取的知识进行知识融合，包括：采用基于字符串相似度的Jaccard算法实现实体对齐和实体消歧，完成知识融合。

有益效果

1.本方案通过设计的知识抽取模型对文本数据集中的文本信息进行知识抽取（利用分词单元对文本信息进行分词，得到分词结果；利用编码单元对分词结果进行特征提取和重编码，得到文本重编码结果；利用解码单元对文本重编码结果进行解码，得到解码结果；利用抽取单元对解码结果进行标签概率计算，得到标签序列，并对标签序列进行重排序，最终确定出实体、属性及实体间关系），提取出实体、属性及实体间关系，进一步进行知识融合和存储，完成知识图谱的构建。这样的方式可以有效降低垂直领域的知识抽取过程中的数据计算量，从而高效实现垂直领域知识图谱的构建。

2.编码时引入图卷积，解码时利用LSTM实现，可以实现编解码的错时同步运行，提高运行效率。而在解码单元后连接全连接层，使用改进的softmax函数计算标签的概率，将解码输出映射为四元组标签相关的向量，以便构建标签序列。之后通过对标签序列的分析即可高效准确地确定出三元组（实体、属性、实体间关系），并且，在对属性（对应指标类型标签）进行分析地过程中，进一步计算TF-IDF值进行重排序，以便确定出属性，这样确定的属性，还可以反映有效性和重要性，在垂直领域的知识图谱（垂直领域内，知识图谱中实体的属性数量繁多、精细，且通常属性重要性差异不小，传统的知识图谱罗列属性的方式无法反映属性重要性）中，能够更可靠地形成更具知识反映能力的知识图谱。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为知识抽取模型的示意图。

图2为基于文本大数据的知识图谱构建方法的流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

本方案中的文本大数据的知识图谱构建方案，关键步骤（即知识抽取）主要依赖于知识抽取模型，因此，为了便于对本方案的理解，此处先对设计的知识抽取模型进行介绍。

请参阅图1，图1为知识抽取模型的示意图。

在本实施例中，知识抽取模型被设计为包含分词单元、编码单元、解码单元、抽取单元，通过将文本信息输入分词单元，利用分词单元对文本信息进行分词，得到分词结果；利用编码单元对分词结果进行特征提取和重编码，得到文本重编码结果；利用解码单元对文本重编码结果进行解码，得到解码结果；利用抽取单元对解码结果进行标签概率计算，得到标签序列，并对标签序列进行重排序，最终确定出实体、属性及实体间关系。

示例性的，采用HanLP工具（HanLP是一系列模型与算法组成的NLP工具包，目标是普及自然语言处理在生产环境中的应用，HanLP主要功能包括分词、词性标注、关键词提取、自动摘要、依存句法分析、命名实体识别、短语提取、拼音转换、简繁转换等）作为文本信息的分词单元，利用分词单元对文本信息进行分词，得到分词结果，包括：

对文本信息进行分词：

，（1）

，（2）

，（3）

其中，为输入的文本信息，/>表示文本信息/>的分词结果，/>对应文本信息/>的语义依赖树（呈有向无环图），/>为节点集合，/>为边集。

而编码单元可以采用图卷积神经网络，以便利用编码单元对分词结果进行特征提取和重编码，得到文本重编码结果。

示例性的，可以利用编码单元对分词结果进行向量化，对于分词结果中的第/>个词语/>，假设由/>个单字组成，单字分别由/>表示，则词语/>的特征值/>为：

，（4）

则：，（5）

其中，为文本信息/>的特征向量。

向量化后，可以使用图卷积神经网络对特征向量进行重编码，最终得到文本重编码结果：

，（6）

，（7）

，（8）

；（9）

可以采用LSTM（Long Short-Term Memory，长短期记忆网络）作为解码单元，那么，对于文本重编码结果的解码，可以采用以下方式进行：

利用LSTM对文本重编码结果进行解码：

，（10）

，（11）

，（12）

本实施例中，知识图谱本体结构设计为包含实体、属性及实体间关系，而标签模型采用四元组，/>为词语位置标签，表示词语在句子中的位置；/>为指标类型标签，表示词语的属性类型；/>为主宾类型标签，表示词语的词性；/>为关系类型标签，表示句子中三元组的关系类型。

抽取单元的构建，可以采用全连接层和改进的softmax函数实现，利用全连接层与解码单元连接。

示例性的，可以采用全连接层对解码器的输出进行线性变换，得到向量/>：

，（13）

其中，为与标签数量相关的向量（例如，针对四元组标签，向量包含词语对应的四个标签），/>为权重矩阵，/>为偏置项，/>。

然后，采用改进的softmax函数计算标签的概率：

，（14）

，（15）

，（16）

其中，为从随机噪声分布中采样的变量，/>为控制噪声大小的控制参数，/>为第个四元组，四元组/>中/>为词语位置标签，表示词语在句子中的位置；/>为指标类型标签，表示词语的属性类型；/>为主宾类型标签，表示词语的词性；/>为关系类型标签，表示句子中三元组的关系类型；/>为标签序列。公式（15）表示四元组的构成，每四个标签形成一个四元组。

得到标签序列后，可以利用抽取单元对标签序列中的各词对应的词语位置标签和主宾类型标签/>进行分析，确定出实体（例如主语型实体和宾语型实体）。以及，可以对标签序列/>中的各词对应的关系类型标签/>进行分析，确定出实体间关系。还可以对标签序列/>中的各词对应的指标类型标签/>计算TF-IDF值，按照TF-IDF值对指标类型标签/>进行重排序，确定出属性（可以一定程度上揭示属性的有效性和重要性）。

具体的，对于标签序列中的各词对应的指标类型标签/>，采用以下公式计算TF-IDF值：/>，（17）

其中，为标签序列/>中的第/>个词对应的指标类型标签，/>为指标类型标签在与第/>个实体在文本信息/>中共同出现的频次，/>为指标类型标签/>与文本信息/>中所有实体在文本信息/>中共同出现的频次，/>为指标类型标签/>在整个语料库中出现的总频次，/>为指标类型标签/>在文本信息/>中出现的总频次。

然后便可以利用TF-IDF值对指标类型标签进行重排序（例如按照概率从大到小排列），在确定出属性的同时，可以通过其对应的概率大小，形成包含权重的属性（后期构建图谱时还可以利用权重为属性划分占比区域，直观反映属性的重要性）。

至此，即完成了对知识抽取模型的介绍。以下将对利用此知识抽取模型实现的基于文本大数据的知识图谱构建方法进行介绍。知识抽取模型可以配置在服务器内，通过服务器运行基于文本大数据的知识图谱构建方法。

请参阅图2，图2为基于文本大数据的知识图谱构建方法的流程图。在本实施例中，基于文本大数据的知识图谱构建方法可以包括步骤S10、步骤S20和步骤S30。

首先，服务器可以运行步骤S10。

步骤S10：获取文本数据集，其中，文本数据集包含多条文本信息。

在本实施例中，服务器可以获取文本数据集，文本数据集可以包含多条文本信息。此处，对于文本数据的获取，可以是来源于存储的文本文档，也可以是通过对PDF进行转档、对图片进行识别的方式获得的文档。而每个文档视为一个文本数据，而对文本数据进行分句（例如采用自然语言工具包NLTK实现分句），可以得到以句子为单位的文本信息（分句后的文本信息，也可以具有标识，反映该文本信息来源的文本数据）。

得到文本数据集后，服务器可以运行步骤S20。

步骤S20：利用预设的知识抽取模型对文本数据集中的文本信息进行知识抽取，提取出实体、属性及实体间关系，其中，知识抽取模型用于对文本信息进行分词、编码、解码、序列标注和知识抽取。

在本实施例中，服务器可以将文本信息输入预设的知识抽取模型中，利用知识抽取模型的分词单元对文本信息进行分词，得到分词结果；利用编码单元对分词结果进行特征提取和重编码，得到文本重编码结果；利用解码单元对文本重编码结果进行解码，得到解码结果；利用抽取单元对解码结果进行标签概率计算，得到标签序列，并对标签序列进行重排序，最终确定出实体、属性及实体间关系。具体的知识抽取过程可以参阅前文介绍，此处不再赘述。

抽取出实体、属性及实体间关系后，服务器可以运行步骤S30。

步骤S30：基于抽取的知识进行知识融合和存储，完成知识图谱的构建。

在本实施例中，服务器可以对抽取的知识进行知识融合，以便提高知识的准确性。例如，可以采用基于字符串相似度的Jaccard算法实现实体对齐和实体消歧，完成知识融合。

完成知识融合后，服务器可以采用Neo4j图数据库对知识融合后的知识进行存储，从而完成知识图谱的构建。

综上所述，本申请实施例提供一种基于文本大数据的知识图谱构建方法，通过设计的知识抽取模型对文本数据集中的文本信息进行知识抽取（利用分词单元对文本信息进行分词，得到分词结果；利用编码单元对分词结果进行特征提取和重编码，得到文本重编码结果；利用解码单元对文本重编码结果进行解码，得到解码结果；利用抽取单元对解码结果进行标签概率计算，得到标签序列，并对标签序列进行重排序，最终确定出实体、属性及实体间关系），提取出实体、属性及实体间关系，进一步进行知识融合和存储，完成知识图谱的构建。这样的方式可以有效降低垂直领域的知识抽取过程中的数据计算量，从而高效实现垂直领域知识图谱的构建。编码时引入图卷积，解码时利用LSTM实现，可以实现编解码的错时同步运行，提高运行效率。而在解码单元后连接全连接层，使用改进的softmax函数计算标签的概率，将解码输出映射为四元组标签相关的向量，以便构建标签序列。之后通过对标签序列的分析即可高效准确地确定出三元组（实体、属性、实体间关系），并且，在对属性（对应指标类型标签）进行分析地过程中，进一步计算TF-IDF值进行重排序，以便确定出属性，这样确定的属性，还可以反映有效性和重要性，在垂直领域的知识图谱（垂直领域内，知识图谱中实体的属性数量繁多、精细，且通常属性重要性差异不小，传统的知识图谱罗列属性的方式无法反映属性重要性）中，能够更可靠地形成更具知识反映能力的知识图谱。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述仅为本申请的实施例而已，并不用于限制本申请的保护范围，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于文本大数据的知识图谱构建方法，其特征在于，知识图谱本体结构包含实体、属性及实体间关系，所述方法包括：

获取文本数据集，其中，文本数据集包含多条文本信息；

利用预设的知识抽取模型对文本数据集中的文本信息进行知识抽取，提取出实体、属性及实体间关系，其中，知识抽取模型用于对文本信息进行分词、编码、解码、序列标注和知识抽取；

基于抽取的知识进行知识融合和存储，完成知识图谱的构建。

2.根据权利要求1所述的基于文本大数据的知识图谱构建方法，其特征在于，知识抽取模型包括分词单元、编码单元、解码单元、抽取单元，利用预设的知识抽取模型对文本数据集中的文本信息进行知识抽取，提取出实体、属性及实体间关系，包括：

利用分词单元对文本信息进行分词，得到分词结果；

利用编码单元对分词结果进行特征提取和重编码，得到文本重编码结果；

利用解码单元对文本重编码结果进行解码，得到解码结果；

利用抽取单元对解码结果进行标签概率计算，得到标签序列，并对标签序列进行重排序，最终确定出实体、属性及实体间关系。

3.根据权利要求2所述的基于文本大数据的知识图谱构建方法，其特征在于，采用HanLP工具作为文本信息的分词单元，利用分词单元对文本信息进行分词，得到分词结果，包括：

对文本信息进行分词：

，

4.根据权利要求3所述的基于文本大数据的知识图谱构建方法，其特征在于，利用编码单元对分词结果进行特征提取和重编码，得到文本重编码结果，包括：

，

则：，

其中，为文本信息/>的特征向量；

，

；

其中，为文本重编码结果，图卷积神经网络共有/>层，每层/>个单元，

为图卷积神经网络的第/>层中每个单元的输出构成的序列向量，/>为图卷积神经网络的第/>层中第/>个单元的输出，/>为图卷积神经网络的第/>层中第/>个单元与第/>层中第/>个单元之间的权重，/>为图卷积神经网络的第/>层中第/>个单元的输出，/>为图卷积神经网络的第/>层中第/>个单元的偏置项，/>为图卷积神经网络的输入。

5.根据权利要求4所述的基于文本大数据的知识图谱构建方法，其特征在于，采用LSTM作为解码单元，利用解码单元对文本重编码结果进行解码，得到解码结果，包括：

采用LSTM对文本重编码结果进行解码：

，

6.根据权利要求5所述的基于文本大数据的知识图谱构建方法，其特征在于，采用全连接层和改进的softmax函数构建抽取单元，全连接层与解码单元连接，标签模型采用四元组，利用抽取单元对解码结果进行标签概率计算，得到标签序列，包括：

采用全连接层对解码器的输出进行线性变换，得到向量/>：

，

其中，为与标签数量相关的向量，/>为权重矩阵，/>为偏置项，/>；

采用改进的softmax函数计算标签的概率：

，

其中，为从随机噪声分布中采样的变量，/>为控制噪声大小的控制参数，/>为第/>个四元组，四元组/>中/>为词语位置标签，表示词语在句子中的位置；/>为指标类型标签，表示词语的属性类型；/>为主宾类型标签，表示词语的词性；/>为关系类型标签，表示句子中三元组的关系类型；/>为标签序列。

7.根据权利要求6所述的基于文本大数据的知识图谱构建方法，其特征在于，对标签序列进行重排序，最终确定出实体、属性及实体间关系，包括：

对标签序列中的各词对应的词语位置标签/>和主宾类型标签/>进行分析，确定出实体；

对标签序列中的各词对应的关系类型标签/>进行分析，确定出实体间关系；

对标签序列中的各词对应的指标类型标签/>计算TF-IDF值，按照TF-IDF值对指标类型标签/>进行重排序，确定出属性。

8.根据权利要求7所述的基于文本大数据的知识图谱构建方法，其特征在于，对标签序列中的各词对应的指标类型标签/>计算TF-IDF值，按照TF-IDF值对指标类型标签/>进行重排序，确定出属性，包括：

，

其中，为标签序列/>中的第/>个词对应的指标类型标签，/>为指标类型标签/>在与第/>个实体在文本信息/>中共同出现的频次，/>为指标类型标签/>与文本信息/>中所有实体在文本信息/>中共同出现的频次，/>为指标类型标签/>在整个语料库中出现的总频次，/>为指标类型标签/>在文本信息/>出现的总频次；

利用TF-IDF值对指标类型标签进行重排序，以确定出属性。

9.根据权利要求1所述的基于文本大数据的知识图谱构建方法，其特征在于，基于抽取的知识进行知识融合和存储，完成知识图谱的构建，包括：

对抽取的知识进行知识融合；

采用Neo4j图数据库对知识融合后的知识进行存储。

10.根据权利要求9所述的基于文本大数据的知识图谱构建方法，其特征在于，对抽取的知识进行知识融合，包括：

采用基于字符串相似度的Jaccard算法实现实体对齐和实体消歧，完成知识融合。