CN115757815A

CN115757815A - 知识图谱的构建方法、装置及存储介质

Info

Publication number: CN115757815A
Application number: CN202211382345.9A
Authority: CN
Inventors: 周玉; 翟飞飞; 邓彪
Original assignee: Beijing Zhongkefan Language Technology Co ltd
Current assignee: Beijing Zhongkefan Language Technology Co ltd
Priority date: 2022-11-04
Filing date: 2022-11-04
Publication date: 2023-03-07

Abstract

本发明公开一种知识图谱的构建方法、装置及存储介质，属于信息抽取和知识图谱技术领域。该知识图谱的构建方法，包括以下步骤：S1、对原始文本进行抽取，得到候选三元组集合；S2、对所述候选三元组集合进行校验，所述校验包括判断出精选三元组，所述精选三元组作为构成知识图谱的三元组元素，形成精选三元组集合；S3、以精选三元组的头实体和尾实体作为命名实体识别的标准答案，训练并更新命名实体识别模型；S4、利用所述命名实体识别模型对原始文本的句子进行实体识别，自动标注出其中的实体，抽取三元组。该方法实现了从文本中构建出高质量的知识图谱。

Description

知识图谱的构建方法、装置及存储介质

技术领域

本发明涉及信息抽取和知识图谱技术领域，具体涉及一种知识图谱的构建方法、装置及存储介质。

背景技术

知识图谱的数据结构由“头实体-关系-尾实体”的三元组构成(例如，“姚明-出生于-上海”)，它能够可视化地呈现实体之间的关联关系，从而帮助自然语言理解、问答推理等下游任务。然而，大规模知识图谱的构建通常需要耗费巨大的人力和时间，特别是一些垂直领域，因为缺少专业的领域内人员，因此无法直接构建大规模图谱，也缺乏标注数据以训练实体关系的抽取模型。因此，如何在这种情况下，从文本中进行知识挖掘，继而从无到有地建设高质量的知识图谱，是知识图谱构建与应用的一个重要问题。

发明内容

本发明的目的在于克服上述技术不足，提供一种基于校验环节的知识图谱的构建方法、装置及存储介质，解决现有技术中如何从文本中构建高质量的知识图谱。

为达到上述技术目的，本发明的技术方案提供一种基于校验环节的知识图谱的构建方法，包括以下步骤：

S1、对原始文本进行抽取，得到候选三元组集合，所述候选三元组集合中的三元组包括头实体、关系和尾实体；

S2、对所述候选三元组集合进行校验，所述校验包括判断出精选三元组，所述精选三元组作为构成知识图谱的三元组元素，形成精选三元组集合；

S3、以精选三元组的头实体和尾实体作为命名实体识别的标准答案，训练并更新命名实体识别模型；

S4、利用所述命名实体识别模型对原始文本的句子进行实体识别，自动标注出其中的实体，抽取三元组。

进一步地，在步骤S1之前，还包括对原始文本进行预处理，包括：将原始文本进行句子切分、短语句法分析，得到文本中每个句子的句法分析结果。

进一步地，在步骤S2中，所述精选三元组的判断包括：计算三元组中头实体和尾实体的置信度，若头实体的置信度大于0.7且尾实体置信度大于0.7，则判断该三元组为精选三元组。

进一步地，在步骤S2中，所述置信度由以下步骤得到：将三元组所在句子w输入命名实体识别模型，模型会输出w中每个字符被判断为实体起始位、实体中间位、实体结束位、非实体字符的概率，分别记p^s，p^m，p^e，p^o，且有p^s+p^m+p^e+p^o＝1；将头实体或者尾实体所对应的实体字符标签序列的概率平均，得到头实体或者尾实体的置信度。

进一步地，在步骤S2中，一个头实体或者尾实体所对应的字符串长度为N，记作{w_i，w_i+1，…，w_i+N}，则其置信度可由下列公式计算得到：

进一步地，在步骤S2中，所述校验还包括过滤三元组，将过滤的三元组作为过滤三元组集合。

进一步地，在步骤S3中，训练并更新所述命名实体识别模型包括：将步骤S2的精选三元组集合中的精选三元组作为正样本，将过滤三元组集合中固定过滤三元组作为负样本合并，作为命名实体识别模型的训练数据，在训练过程中，将正样本和负样本，输入基于BERT+CRF的命名实体识别模型，迭代后，停止训练，得到新的命名实体识别模型。

此外，本发明还提出一种知识图谱的构建装置，包括：

第一抽取单元，用于对原始文本进行抽取，得到候选三元组集合，所述三元组集合中的三元组包括头实体、关系和尾实体；

校验单元，对所述候选三元组集合进行校验，所述校验包括判断出精选三元组，所述精选三元组作为构成知识图谱的三元组元素，形成精选三元组集合；

训练单元，用于以精选三元组的头实体和尾实体作为命名实体识别的标准答案，训练并更新命名实体识别模型；

第二抽取单元，用于利用所述命名实体识别模型对原始文本的句子进行实体识别，自动标注出其中的实体，抽取三元组。

进一步地，本发明提出一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述知识图谱的构建方法的步骤。

与现有技术相比，本发明的有益效果包括：对原始文本进行抽取，得到候选三元组集合，所述候选三元组集合中的三元组包括头实体、关系和尾实体；对所述候选三元组集合进行校验，所述校验包括判断出精选三元组，所述精选三元组作为构成知识图谱的三元组元素，形成精选三元组集合；以精选三元组的头实体和尾实体作为命名实体识别的标准答案，训练并更新命名实体识别模型；利用所述命名实体识别模型对原始文本的句子进行实体识别，自动标注出其中的实体，抽取三元组，在知识图谱构建过程中，加入了校验步骤，对抽取结果进行筛选，使得所抽取的三元组更符合知识图谱定义，优化了抽取效果。同时，增加了实体识别的模型更新回路，使得在知识图谱构建的过程中，能够不断地优化实体识别模型，继而增强抽取和校验效果，得到更加精准的三元组，实现了从文本中构建出高质量的知识图谱。

附图说明

图1是本发明具体实施方式中提出的一种基于校验环节的知识图谱的构建方法的流程图；

图2是本发明具体实施方式中提出的一种基于校验环节的知识图谱的构建装置的结构框图。

具体实施方式

结合图1，本具体实施方式提供一种基于校验环节的知识图谱的构建方法，包括以下步骤：

S0、对原始文本进行预处理，包括：将原始文本进行句子切分、短语句法分析，得到文本中每个句子的句法分析结果；

S2、对所述候选三元组集合进行校验，所述校验包括判断出精选三元组，所述精选三元组作为构成知识图谱的三元组元素，形成精选三元组集合；所述精选三元组的判断包括：计算三元组中头实体和尾实体的置信度，若头实体的置信度大于0.7且尾实体置信度大于0.7，则判断该三元组为精选三元组；所述置信度由以下步骤得到：将三元组所在句子W输入命名实体识别模型，模型会输出W中每个字符被判断为实体起始位、实体中间位、实体结束位、非实体字符的概率，分别记p^s，p^m，p^e，p^e，且有p^s+p^m+p^e+p^o＝1；将头实体或者尾实体所对应的实体字符标签序列的概率平均，得到头实体或者尾实体的置信度；一个头实体或者尾实体所对应的字符串长度为N，记作{w_i，w_i+1，…，w_i+N}，则其置信度可由下列公式计算得到：

所述校验还包括过滤三元组，将过滤的三元组作为过滤三元组集合；

S3、以精选三元组的头实体和尾实体作为命名实体识别的标准答案，训练并更新命名实体识别模型；训练并更新所述命名实体识别模型包括：将步骤S2的精选三元组集合中的精选三元组作为正样本，将过滤三元组集合中固定过滤三元组作为负样本合并，作为命名实体识别模型的训练数据，在训练过程中，将正样本和负样本，输入基于BERT+CRF的命名实体识别模型，迭代后，停止训练，得到新的命名实体识别模型；

结合图2，本具体实施方式还提出一种知识图谱的构建装置，包括：

进一步地，本具体实施方式还提出一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述知识图谱的构建方法的步骤。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

实施例1

本实施例提出一种基于校验环节的知识图谱的构建方法，包括以下步骤：

S1、采用基于句法标签的规则，或者采用人工定制的正则表达式，对原始文本中的每个句子W＝{w₁，w₂，…，w_n}进行三元组抽取，得到候选三元组集合，所述候选三元组集合中的三元组包括头实体、关系和尾实体；主要抽取的句法标签规则为：NP/NN/NR-VE/VC/VV-NP/NN/NR，将句子中该标签下的字符串作为头实体e1、关系r、尾实体e2；

S2、利用在通用领域训练好的基于BERT+CRF的命名实体识别模型作为初始模型，判断所抽取的候选三元组中e1、e2是否是命名实体；具体地，对所述候选三元组集合进行校验，所述校验包括判断出精选三元组，所述精选三元组作为构成知识图谱的三元组元素，形成精选三元组集合；所述精选三元组的判断包括：计算三元组中头实体和尾实体的置信度，若头实体的置信度大于0.7且尾实体置信度大于0.7，则判断该三元组为精选三元组；所述置信度由以下步骤得到：将三元组所在句子W输入命名实体识别模型，模型会输出W中每个字符被判断为实体起始位、实体中间位、实体结束位、非实体字符的概率，分别记p^s，p^m，p^e，p^o，且有p^s+p^m+p^e+p^o＝1；将头实体或者尾实体所对应的实体字符标签序列的概率平均，得到头实体或者尾实体的置信度；一个头实体或者尾实体所对应的字符串长度为N，记作{w_i，w_i+1，…，w_i+N}，则其置信度可由下列公式计算得到：

所述校验还包括过滤三元组，将过滤的三元组作为过滤三元组集合；将满足e1实体置信度>0.7且e2实体置信度＞0.7的三元组加入精选三元组集合A，作为知识图谱的三元组元素；未被选入精选三元组集合的，则加入过滤三元组集合B中；

置信度的计算，例如，若e₁＝{w₂，w₃，w₄，w₅}，则e1的实体字符标签序列为{s，m，m，e}，因此其被判断为命名实体的置信度计算为：

类似地，可以得到e2被判断为实体的置信度。

S3、重复步骤S1～S2，直至精选三元组集合A和过滤三元组集合B中的三元组数量均达到1,000条，从三元组集合A中和B中，各抽取最新的1000条样本，对于A中的样本，将每个样本的e1和e2实体字段，在其对应的原始文本句子中标出，并将该句子作为一条正样本；对于B中的样本，将每个样本的e1和e2实体字段，在其对应的原始文本句子中标出，并将该句子作为一条负样本，将正样本集合和负样本集合合并，作为命名实体识别模型的训练数据，在训练过程中，将正样本和负样本，输入基于BERT+CRF的命名实体识别模型，迭代5代后，停止训练，得到新的命名实体识别模型；

S4、利用所述命名实体识别模型用训练完毕的命名实体识别模型，替代步骤S2中的初始模型，采取与步骤S2相同的方法，自动地对候选三元组中的e1、e2是否是命名实体作出判断对原始文本的句子进行实体识别，自动标注出其中的实体，抽取三元组，重复步骤S2～S4，扩大知识图谱的三元组集合规模。

本发明与完全基于实体关系抽取模型的构建方法相比，能够在无数据标注的情况下基于规则生成部分三元组，解决了模型在迁移到新领域时的冷启动问题。与完全基于规则的构建方法相比，在知识图谱构建过程中，加入了校验步骤，对抽取结果进行筛选，使得所抽取的三元组更符合知识图谱定义，优化了规则抽取效果。同时，增加了实体识别的模型更新回路，使得在知识图谱构建的过程中，能够不断地优化实体识别模型，继而增强抽取和校验效果，得到更加精准的三元组。

本发明使得在处理一个无标注数据的新领域文本时，能够快速地抽取三元组构建知识图谱而不需要大量的人工标注；另一方面，又创新性地加入了基于命名实体识别模型的校验环节，借助命名实体识别模型校验所抽取的三元组结果是否可加入知识图谱。无论是否加入，被模型校验的结果，均被用于构造命名实体识别的训练样本，在样本积累到一定程度后再对命名实体识别模型进行更新。如此，形成了基于命名实体模型的“校验-更新”闭环，从而稳步提升了最终的三元组抽取效果。

以上所述本发明的具体实施方式，并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形，均应包含在本发明权利要求的保护范围内。

Claims

1.知识图谱的构建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的知识图谱的构建方法，其特征在于，在步骤S1之前，还包括对原始文本进行预处理，包括：将原始文本进行句子切分、短语句法分析，得到文本中每个句子的句法分析结果。

3.根据权利要求1所述的知识图谱的构建方法，其特征在于，在步骤S2中，所述精选三元组的判断包括：计算三元组中头实体和尾实体的置信度，若头实体的置信度大于0.7且尾实体置信度大于0.7，则判断该三元组为精选三元组。

4.根据权利要求3所述的知识图谱的构建方法，其特征在于，在步骤S2中，所述置信度由以下步骤得到：将三元组所在句子w输入命名实体识别模型，模型会输出w中每个字符被判断为实体起始位、实体中间位、实体结束位、非实体字符的概率，分别记p^s，p^m，p^e，p^o，且有p^s+p^m+p^e+p^o＝1；将头实体或者尾实体所对应的实体字符标签序列的概率平均，得到头实体或者尾实体的置信度。

5.根据权利要求4所述的知识图谱的构建方法，其特征在于，在步骤S2中，一个头实体或者尾实体所对应的字符串长度为N，记作{w_i，w_i+1，...，w_i+N}，则其置信度可由下列公式计算得到：

6.根据权利要求1所述的知识图谱的构建方法，其特征在于，在步骤S2中，所述校验还包括过滤三元组，将过滤的三元组作为过滤三元组集合。

7.根据权利要求6所述的知识图谱的构建方法，其特征在于，在步骤S3中，训练并更新所述命名实体识别模型包括：将步骤S2的精选三元组集合中的精选三元组作为正样本，将过滤三元组集合中固定过滤三元组作为负样本合并，作为命名实体识别模型的训练数据，在训练过程中，将正样本和负样本，输入基于BERT+CRF的命名实体识别模型，迭代后，停止训练，得到新的命名实体识别模型。

8.一种知识图谱的构建装置，其特征在于，包括：

9.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的知识图谱的构建方法的步骤。