CN116737967A

CN116737967A - 一种基于自然语言的知识图谱构建和完善系统及方法

Info

Publication number: CN116737967A
Application number: CN202311020426.9A
Authority: CN
Inventors: 孙兆洋; 隋媛
Original assignee: China National Institute of Standardization
Current assignee: China National Institute of Standardization
Priority date: 2023-08-15
Filing date: 2023-08-15
Publication date: 2023-09-12
Anticipated expiration: 2043-08-15
Also published as: CN116737967B

Abstract

本发明公开了一种基于自然语言的知识图谱构建和完善系统及方法，具体涉及知识图谱技术领域，对文本进行预处理，通过机器学习方法判断边界位置，将得到的分词结果合并成最终的分词序列，利用大规模标注好的训练语料进行学习，通过训练模型识别句子中每个词与其依赖词之间的关系，利用TF‑IDF算法结合词频和逆文档频率，进行文本相似度计算，评估一个词在文本集合中的重要性指标，根据实体和属性的定义，从文本中提取相关的特征，建立起知识图谱的基本框架，通过定期进行质量控制，检查知识图谱中的数据准确性，纠正错误，根据已知的规则，构建知识库，应用逻辑推理规则进行推断，能够将大量散乱的知识进行结构化组织和管理。

Description

一种基于自然语言的知识图谱构建和完善系统及方法

技术领域

本发明涉及知识图谱技术领域，更具体地说，本发明涉及一种基于自然语言的知识图谱构建和完善系统及方法。

背景技术

大数据时代的到来，使得人工智能技术取得了前所未有的长足进步。同时，随着人工智能对数据处理和理解需求逐日增加，知识图谱升温，融合知识图谱与深度学习，已然成为人工智能进一步发展的重要思路之一。

知识图谱本质上是基于语义网络的知识库，旨在描述客观世界的概念、实体、事件及其之间的关系。2013年以后知识图谱开始在学术界和业界普及，并在搜索、智能问答、情报分析、金融等领域应用中发挥重要作用。知识图谱通常是基于静态的实体、关系和属性的表示，缺乏对上下文和推理的建模能力。这意味着在处理复杂的自然语言文本时，无法准确地捕捉到上下文信息和进行推理推断。

发明内容

为了克服现有技术的上述缺陷，本发明的实施例提供一种基于自然语言的知识图谱构建和完善系统及方法，通过自然语言处理技术，识别文本中的实体，理解文本中的实体关系和上下文含义，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案，一种基于自然语言的知识图谱构建和完善方法，具体包括以下步骤：

101、通过自然语言处理技术，识别文本中的实体，理解文本中的实体关系和上下文含义；

102、分析文本中的语义关系，提取出实体之间的关系；

103、从文本中提取出与实体相关的属性信息，包括实体的特征、属性值；

104、根据实体、关系和属性的信息构建知识图谱，将它们以节点和边的形式组织起来，形成一个有向图结构；

105、通过定期进行质量控制，检查知识图谱中的数据准确性和一致性，纠正错误和异常数据；

106、利用已构建的知识图谱进行推理和查询操作，回答关于实体、关系和属性的各种问题，进行语义搜索和推理。

在一个优选地实施方式中，所述步骤101中，首先对文本进行预处理，去除标点符号、特殊字符，利用词典进行精确匹配，找出文本中存在的词语，按照最大匹配原则，从文本中找出最长的词语，对于词典中不存在的词语，通过机器学习方法判断边界位置，将得到的分词结果合并成最终的分词序列，具体包括以下内容：

S1、数据准备：准备一份标注好的中文分词数据集作为训练数据，包括输入的文本以及对应的分词标签，标签表示每个词语的边界位置，B表示词语起始位置，I表示词语中间位置，O表示词语外；

S2、特征提取：从训练数据中提取特征，包括字向量、词性、上下文信息用于训练模型，使用词嵌入技术将词转化为向量表示，随机取出两个词向量x和y，x的词向量表示为，y的词向量表示为/>，对于词向量x和y,通过计算两个向量之间的直线距离，表示词向量之间的相似度，具体计算公式如下：

其中，P表示点与点/>之间的欧氏距离；|X|为点/>到原点的欧氏距离，欧氏距离的计算结果越接近于0，表示两个向量越相似；

S3、训练模型：选择感知机机器学习算法，构建模型并进行训练，训练过程中，将输入的特征作为模型的输入，输出预测的边界标签，具体包括以下步骤：

步骤1、感知机接受输入向量 x，并将其与权重向量 w 进行线性加权求和，通过激活函数进行判断输出结果，线性加权求和公式具体如下：

其中，S表示求和的结果，表示权重，/>表示对应的数值。

阶跃函数是一种常用的激活函数，将输入值映射到两个离散的输出值之一，阶跃函数定义如下：

阶跃函数在输入达到一个临界点时产生突变，从 0 突变为 1 、从 1 突变为 0。

步骤2、初始化权重向量 w 和偏置 b，对于每个样本 (x, y)，计算预测输出值，具体公式如下：

其中，x表示输入特征向量，y表示标签（1或-1），表示学习率；预测正确/>，继续下一个样本，预测错误/>，更新权重向量和偏置，继续对当前样本进行迭代更新直到预测正确；

S4、分词预测：使用训练好的模型对新的文本进行预测，将待分词的文本转换为字符级别的序列，并输入到模型中，获取每个字符的边界标签，根据模型预测的边界标签，将连续的字符组合成词语，遇到词语的起始位置标签为起始标签，遇到词语的结束位置标签为结束标签，将起始标签和结束标签之间的字符组合成一个完整的词语。将输入的文本转化为特征向量，然后利用模型进行预测，得到每个词语的边界标签，实现分词。

S5、实体类别：将标注了需要识别的实体的位置和类别的数据，用于模型的训练和评估，提高实体识别的准确性，使用标注数据对实体识别模型进行训练，并进行预测，在预测阶段，模型会根据已学习到的规律，自动识别出文本中的实体，并给予它们相应的标签，对于实体识别的结果进行后处理，通过编辑距离算法，进行插入、删除和替换操作，统计一个字符串转换到另一个字符串所需的最少操作次数，度量两个实体之间的相似性，视为同一实体进行合并，基本步骤如下：

步骤1、创建一个大小为（m+1）×（n+1）的二维矩阵，其中m和n分别表示两个字符串的长度；

步骤2、将第一行和第一列初始化为0到m或n的值，表示一个空字符串与另一个字符串的编辑距离；

步骤3、从左上角开始，逐行、逐列地填充动态规划矩阵，对于每个位置（i，j）：

（1）dp[i][j]= dp[i-1][j-1]，第一个字符串的第i个字符与第二个字符串的第j个字符相等，当前位置的值等于左上角位置的值；

（2）dp[i][j]= dp[i-1][j-1]+ 1，当前位置的值等于左上角位置的值加1，表示替换操作；

（3）dp[i][j]= min(dp[i][j-1]+1, dp[i-1][j]+1)，当前位置的值等于左边位置的值加1，表示删除操作；上方位置的值加1，表示插入操作；取两者的最小值；

步骤4、返回最终结果，最终的编辑距离dp[m][n]，为动态规划矩阵的右下角值。

在一个优选地实施方式中，所述步骤102中，使用标注好的训练数据对关系抽取模型进行训练，通过训练模型识别句子中每个词与其依赖词之间的关系，具体包括以下内容：

S1、通过TF-IDF算法结合词频和逆文档频率，进行文本相似度计算，评估一个词在文本集合中的重要性指标，具体步骤如下：

步骤1、计算词频，具体公式如下：

其中，TF表示词频，n表示某个词在文章中出现的次数，N表示文章的总词数。

步骤2、计算逆文档频率，具体公式如下：

其中，IDF表示逆文档频率，表示语料库的文档总数，/>表示包含该词的文档数。

步骤3、计算TF-IDF，具体公式如下：

其中，TF表示词频，IDF表示逆文档频率，计算出文档的每个词的TF-IDF值，按降序排列，取排在最前面的几个词。

在一个优选地实施方式中，所述步骤103中，针对每个识别出的实体，定义一组属性，包括实体的描述、性质、状态、特征信息，根据实体和属性的定义，从文本中提取相关的特征，使用关键词匹配技术进行特征提取，根据已有的标注数据进行模型训练，具体包括以下内容：

S1、关键词匹配：将待匹配的文本进行分词处理，将文本切分为一个个单词、短语，将分词后的文本与关键词列表，通过Trie树算法进行匹配，根据关键词匹配的结果，标记匹配到的关键词；

S2、Trie树是一种多叉树的数据结构，用于高效地存储和查找字符串集合，利用字符串的公共前缀来节省存储空间，并提供快速的字符串查找操作,，具体步骤如下：

步骤1、将每个字符串拆分为一个个字符，按照顺序构建成树的节点，从根节点开始，每个节点表示一个字符，从根节点到叶子节点的路径为一个完整的字符串。

步骤2、节点结构：每个节点包含一个字符、指向子节点的指针数组以及一个标记表示该节点为一个字符串的结束；

步骤3、插入操作：从根节点开始，按照字符串的字符顺序逐级插入节点，直至字符串的最后一个字符，字符对应的子节点已存在，继续向下插入，不存在创建新的节点；

步骤4、查找操作：从根节点开始，按照目标字符串的字符顺序逐级匹配节点，所有字符成功匹配，并且最后一个字符所在的节点标记字符串的结束，表示查询成功；

步骤5、前缀匹配：查找具有指定前缀的所有字符串，从根节点开始匹配前缀，直到前缀字符串的最后一个字符。

在一个优选地实施方式中，所述步骤104中，基于实体识别和关系抽取模块，通过识别出实体以及实体之间的关系，建立起知识图谱的基本框架，具体包括以下内容：

S1、将不同来源的信息进行链接和融合，利用异常检测和统计分析方法，识别知识图谱中的异常数据和不一致情况，消除同一实体的冗余信息，建立更完整和一致的知识图谱，通过计算关系之间的相关性指标，比较关系的频率来检测冗余信息，根据皮尔逊相关系数，衡量两个连续变量之间线性相关程度的统计指标，具体计算公式如下：

其中，X和Y分别表示两个变量的取值，和/>分别表示两个变量的均值，Σ表示求和运算，r表示皮尔逊相关系数，取值范围在-1到1之间，表示两个变量之间的相关性强度和方向，皮尔逊相关系数的解释如下：

r = 1：表示两个变量完全正相关，呈现出完全线性关系，随着一个变量的增加，另一个变量也会相应增加；

r = 0：表示两个变量之间没有线性相关性；

r = -1：表示两个变量完全负相关，呈现出完全线性关系，随着一个变量的增加，另一个变量会相应减少。

S2、通过在知识图谱中的实体和关系建立索引，能够快速根据条件检索到相关的节点和边，方便高效的查询和检索，具体步骤如下：

步骤1、实体索引：选择多个属性作为索引键，通过将这些属性的值与实体节点进行映射，快速定位相关的实体节点；

步骤2、关系索引：选择多个属性作为索引键，通过将这些属性的值与关系边进行映射，快速定位相关的关系边；

S3、从文本中抽取得到的实体和关系进行结构化表示，存储在关系数据库中，关系数据库是一种以关系模型为基础的数据库管理系统，使用表格组织和存储数据，其中每个表格包含行和列。

在一个优选地实施方式中，所述步骤105中，随着新的数据源的出现和原有数据的变化，需要及时更新和修正知识图谱的内容，通过定期进行质量控制，检查知识图谱中的数据准确性和一致性，纠正错误和异常数据，具体包括以下内容：

S1、异常检测：基于孤立森立方法，识别知识图谱中的异常实体，异常检测算法可以基于数据的分布模式，标识出与其他实体、关系不符合的异常点，具体步骤如下：

步骤1、造随机树：随机从数据集中选择一个特征和一个分割值，将数据集划分为两个子集，递归地重复这个过程，直到每个子集中只有一个数据点；

步骤2、确定路径长度：通过统计在构造的随机树中，从根节点到达数据点所经过的边数，衡量数据点的异常程度；

步骤3、构造异常得分：采用平均路径长度作为异常得分的度量，通过比较数据点的路径长度与随机生成的样本路径长度的平均水平，判断数据点是否为离群点，异常公式如下：

其中，E(h(x))表示根节点到外部节点x的路径长度h(x)的平均值，c(n)表示给定n的h(x)的平均值，用于规范化h(x)，取值范围在0到1之间。

观测的得分接近1时，识别出异常，将数据点标识为离群点。

S2、知识图谱补全：利用机器学习方法进行知识图谱补全，通过实体链接和知识图谱对齐，使用实体链接模型来识别同一实体在不同数据源中的对应关系，进而丰富知识图谱中的属性信息，具体包括以下步骤：

步骤1、三元组补全：根据已知的实体和关系，预测出知识图谱中未被完整表示的实体-关系-实体；

步骤2、利用深度神经网络进行实体链接，在命名实体识别和实体链接任务中，使用端到端的BiLSTM模型，利用前向和后向两个方向的上下文信息，同时考虑过去和未来的上下文信息，在序列标注任务中，BiLSTM能够对输入序列进行双向建模，更好地捕捉序列中的语义和上下文关系。

在一个优选地实施方式中，所述步骤106中，知识推理和查询是人工智能领域中的重要任务，涉及对知识进行推理和提取信息的能力，具体包括以下内容：

S1、知识推理：根据一组已知的规则，使用一系列事实和规则构建知识库，应用逻辑推理规则进行推断；

S2、知识查询：根据用户提供的查询条件，在知识库中检索相关的信息，包括关键词搜索、问题回答、信息检索，将输入文本转化为向量表示，计算它们之间的相似性得分，对于两个点 P=(p1, p2, ..., pn) 和 Q=(q1, q2, ..., qn)，具体计算公式如下：

其中，p1、p2、...、pn 和 q1、q2、...、qn 分别表示两个点在每个维度上的坐标。

根据计算得到的相关性得分，为每个输入元素分配一个权重，将每个输入元素与其对应的权重进行加权求和，聚合信息生成最终的表示向量，使得模型更加关注重要的文本部分，降低对无关信息的影响，对于向量，对应的权重向量为 />，权重加权求和的公式如下：

其中，表示第 i 个元素的权重，/> 表示向量 X 中的第 i 个元素。

本发明的技术效果和优点：

本发明通过对文本进行预处理，通过机器学习方法判断边界位置，将得到的分词结果合并成最终的分词序列，利用大规模标注好的训练语料进行学习，通过训练模型识别句子中每个词与其依赖词之间的关系，利用TF-IDF算法结合词频和逆文档频率，进行文本相似度计算，评估一个词在文本集合中的重要性指标，根据实体和属性的定义，从文本中提取相关的特征，建立起知识图谱的基本框架，通过定期进行质量控制，检查知识图谱中的数据准确性，纠正错误，根据已知的规则，构建知识库，应用逻辑推理规则进行推断，能够将大量散乱的知识进行结构化组织和管理。

附图说明

图1为本发明的系统流程图。

图2为本发明的系统结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本实施例提供了如图1所示一种基于自然语言的知识图谱构建和完善方法，具体包括以下步骤：

102、分析文本中的语义关系，提取出实体之间的关系；

如图2本实施例提供一种基于自然语言的知识图谱构建和完善系统，具体包括实体识别模块、关系抽取模块、属性提取模块、图谱构建模块、更新维护模块、知识推理和查询模块；

实体识别模块：对文本进行预处理，通过机器学习方法判断边界位置，将得到的分词结果合并成最终的分词序列，构建模型进行训练，训练过程中，将输入的特征作为模型的输入，输出预测的边界标签；

关系抽取模块：使用标注好的训练数据对关系抽取模型进行训练，通过训练模型识别句子中每个词与其依赖词之间的关系，利用TF-IDF算法结合词频和逆文档频率，进行文本相似度计算，评估一个词在文本集合中的重要性指标；

属性提取模块：针对每个识别出的实体，定义一组属性，根据实体和属性的定义，从文本中提取相关的特征，使用关键词匹配技术进行特征提取，根据已有的标注数据进行模型训练；

图谱构建模块：基于实体识别和关系抽取模块，通过识别出实体以及实体之间的关系，建立起知识图谱的基本框架；

更新维护模块：随着新的数据源的出现和原有数据的变化，需要及时更新和修正知识图谱的内容，通过定期进行质量控制，检查知识图谱中的数据准确性和一致性，纠正错误和异常数据；

知识推理和查询模块：根据已知的规则，构建知识库，应用逻辑推理规则进行推断，通过用户提供的查询条件，在知识库中检索相关的信息，将输入文本转化为向量表示，计算它们之间的相似性得分。

进一步的，首先对文本进行预处理，去除标点符号、特殊字符，利用词典进行精确匹配，找出文本中存在的词语，按照最大匹配原则，从文本中找出最长的词语，对于词典中不存在的词语，通过机器学习方法判断边界位置，将得到的分词结果合并成最终的分词序列，具体包括以下内容：

其中，S表示求和的结果，表示权重，/>表示对应的数值。

102、分析文本中的语义关系，提取出实体之间的关系；

进一步的，使用标注好的训练数据对关系抽取模型进行训练，通过训练模型识别句子中每个词与其依赖词之间的关系，具体包括以下内容：

步骤1、计算词频，具体公式如下：

步骤2、计算逆文档频率，具体公式如下：

步骤3、计算TF-IDF，具体公式如下：

进一步的，针对每个识别出的实体，定义一组属性，包括实体的描述、性质、状态、特征信息，根据实体和属性的定义，从文本中提取相关的特征，使用关键词匹配技术进行特征提取，根据已有的标注数据进行模型训练，具体包括以下内容：

进一步的，基于实体识别和关系抽取模块，通过识别出实体以及实体之间的关系，建立起知识图谱的基本框架，具体包括以下内容：

S1、将不同来源的信息进行链接和融合，利用异常检测和统计分析方法，识别知识图谱中的异常数据和不一致情况，消除同一实体的冗余信息，建立更完整和一致的知识图谱，具体步骤如下：

步骤1、通过计算关系之间的相关性指标，比较关系的频率来检测冗余信息，根据皮尔逊相关系数，衡量两个连续变量之间线性相关程度的统计指标，具体计算公式如下：

r = 0：表示两个变量之间没有线性相关性；

进一步的，随着新的数据源的出现和原有数据的变化，需要及时更新和修正知识图谱的内容，通过定期进行质量控制，检查知识图谱中的数据准确性和一致性，纠正错误和异常数据，具体包括以下内容：

观测的得分接近1时，识别出异常，将数据点标识为离群点。

106、利用已构建的知识图谱进行推理和查询操作，回答关于实体、关系和属性的各种问题，进行语义搜索和推理；

进一步的，知识推理和查询是人工智能领域中的重要任务，涉及对知识进行推理和提取信息的能力，具体包括以下内容：

根据计算得到的相关性得分，为每个输入元素分配一个权重，将每个输入元素与其对应的权重进行加权求和，聚合信息生成最终的表示向量，使得模型更加关注重要的文本部分，降低对无关信息的影响，对于向量，对应的权重向量为/> ，权重加权求和的公式如下：

其中，表示第 i 个元素的权重，/>表示向量 X 中的第 i 个元素。

本发明中的公式是去除量纲取其数值计算，通过采集大量数据进行软件模拟得到最接近真实情况的一个公式，公式中的预设比例系数由本领域的技术人员根据实际情况设定或者通过大量数据模拟获取。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

最后：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于自然语言的知识图谱构建和完善方法，其特征在于：具体包括以下步骤：

102、分析文本中的语义关系，提取出实体之间的关系；

2.根据权利要求1所述的一种基于自然语言的知识图谱构建和完善方法，其特征在于：所述步骤101中，对文本进行预处理，通过机器学习方法判断边界位置，将得到的分词结果合并成最终的分词序列，构建模型进行训练，训练过程中，将输入的特征作为模型的输入，输出预测的边界标签，具体计算公式如下：

；

其中，P表示点与点/>之间的欧氏距离；|X|为点/>到原点的欧氏距离，欧氏距离的计算结果越接近于0，表示两个向量越相似。

3.根据权利要求1所述的一种基于自然语言的知识图谱构建和完善方法，其特征在于：所述步骤102中，使用标注好的训练数据对关系抽取模型进行训练，通过训练模型识别句子中每个词与其依赖词之间的关系，利用TF-IDF算法结合词频和逆文档频率，进行文本相似度计算，评估一个词在文本集合中的重要性指标，逆文档频率具体公式如下：

；

4.根据权利要求1所述的一种基于自然语言的知识图谱构建和完善方法，其特征在于：所述步骤103中，针对每个识别出的实体，定义一组属性，根据实体和属性的定义，从文本中提取相关的特征，使用关键词匹配技术进行特征提取，根据已有的标注数据进行模型训练。

5.根据权利要求1所述的一种基于自然语言的知识图谱构建和完善方法，其特征在于：所述步骤104中，基于实体识别和关系抽取模块，通过识别出实体以及实体之间的关系，建立起知识图谱的基本框架，皮尔逊相关系数公式如下：

；

其中，X和Y分别表示两个变量的取值，和/>分别表示两个变量的均值，Σ表示求和运算，r表示皮尔逊相关系数，取值范围在-1到1之间。

6.根据权利要求1所述的一种基于自然语言的知识图谱构建和完善方法及方法，其特征在于：所述步骤105中，随着新的数据源的出现和原有数据的变化，需要及时更新和修正知识图谱的内容，通过定期进行质量控制，检查知识图谱中的数据准确性和一致性，纠正错误和异常数据；异常公式如下：

；

7.根据权利要求1所述的一种基于自然语言的知识图谱构建和完善方法，其特征在于：所述步骤106中，根据已知的规则，构建知识库，应用逻辑推理规则进行推断，通过用户提供的查询条件，在知识库中检索相关的信息，将输入文本转化为向量表示，计算它们之间的相似性得分，对于两个点 P=(p1, p2, ..., pn) 和 Q=(q1, q2, ..., qn)，具体计算公式如下：

；

8.一种基于自然语言的知识图谱构建和完善系统应用于权利要求1-7任一所述的一种基于自然语言的知识图谱构建和完善方法，其特征在于：包括：

实体识别模块、关系提取模块、属性提取模块、图谱构建模块、更新维护模块，以及知识推理和查询模块；

关系抽取模块：使用标注好的训练数据对关系抽取模型进行训练，通过训练模型识别句子中每个词与其依赖词之间的关系，利用TF-IDF算法结合词频和逆文档频率，进行文本相似度计算；