CN111914550B

CN111914550B - 一种面向限定领域的知识图谱更新方法及系统

Info

Publication number: CN111914550B
Application number: CN202010683880.2A
Authority: CN
Inventors: 何婷婷; 张淼; 张鼎皓; 田雨亭; 汤丽
Original assignee: Central China Normal University
Current assignee: Central China Normal University
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2023-12-15
Anticipated expiration: 2040-07-16
Also published as: CN111914550A

Abstract

本发明提供一种面向限定领域的知识图谱更新方法及系统，包括输入限定领域问答语料，通过分词抽取语料中句子的候选实体，并利用词频词典筛除分词结果中的常用功能词，得到候选实体集；根据限定领域知识图谱构建倒排索引词典，得到各候选实体分别的相似词汇集；将候选实体和相应相似词汇集训练成词向量，计算余弦相似度，从而判定候选实体的类型；利用训练好的Bert文本分类模型获取候选实体集中候选实体两两之间的关系；根据判定所得候选实体类型和候选实体间关系更新到知识图谱中。本发明提供了一种效率更高的知识图谱更新方法，可以根据图谱内已有实体识别新出现的实体类型，有效地提高了知识图谱更新的速度和准确性。

Description

一种面向限定领域的知识图谱更新方法及系统

技术领域

本发明属于数据处理技术领域，特别涉及一种教育领域的知识图谱更新方法及系统。

背景技术

随着社会飞速发展，当前已经进入信息爆炸时代，每天都有海量信息产生。如何从海量数据中获取有价值的信息称为一个难题，知识图谱因此应运而生。知识图谱以结构化的形式描述客观世界中概念、实体及其关系，其基本组成单位是“实体-关系-实体”三元组，以及实体及其相关属性-值对。实体间通过关系相互联结，构成网状的知识结构。目前知识图谱的构建过程一般为：对原始数据进行预处理，将其转化为结构化数据，再进行实体对齐，知识融合，知识推理等，构建形成一个完整的知识图谱。知识图谱不仅可以用于信息挖掘，还可以用于技术改进，例如专利《一种新型干法水泥熟料生产热耗知识图谱的构建方法》(授权号CN110263185B)。

知识图谱由于数据的不完整、知识内容的更替变化，也需要进行不断更新。

专利CN110287334A通过利用BERT-BiGRU-CRF模型从语料中进行实体识别和属性识别，从而创建学校领域知识图谱。该方法有效提升实体识别和属性识别的准确率，但是过度依赖模型需要大量标注好语料，增加人工成本。此外，该方法会出现实体未对齐、实体之间关系缺乏等问题，从而导致知识图谱内部冗杂、整体关联性不够。

专利CN110390023A在建立知识图谱主要分为两步，分别是从不同来源数据中抽取知识三元组、对抽取的知识三元组进行知识融合和对齐。首先，数据源的复杂会让知识三元组抽取结果出现重复冗余情况，从而给第二步的知识融合和对齐带来繁重工作量；其次，企业经营领域的知识关系类型有限，而用模型获取新的知识三元组关系时没有利用前面已经识别出的关系类型，从而导致资源数据的浪费。

针对文本数据的知识图谱更新技术长时间内存在着效率低、准确性差的特点，本领域亟待提供新的技术方案。

发明内容

本发明提供了一种面向限定领域的知识图谱自动更新方法及系统。

本发明提供一种面向限定领域的知识图谱更新方法，包括以下步骤：

步骤S1、输入限定领域问答语料，其中包括语料M₁；

步骤S2、通过分词抽取语料M₁中一条句子l的候选实体，并利用词频词典筛除分词结果中的常用功能词，得到候选实体集A；

步骤S3、根据现有的限定领域知识图谱构建倒排索引词典，得到步骤S2所得各候选实体分别的相似词汇集；

步骤S4、将步骤S2所得候选实体和步骤S3所得相应相似词汇集训练成词向量，计算余弦相似度，从而判定候选实体的类型；

步骤S5、利用训练好的Bert文本分类模型获取候选实体集A中候选实体两两之间的关系；步骤S6、根据步骤S4判定所得候选实体类型和步骤S5获得的候选实体间关系更新到知识图谱中；

步骤S7、对语料M₁中其他句子重复上述步骤S2～S6直到更新处理完。

而且，步骤S3中，构建倒排索引词典实现方式如下，

获取现有的限定领域知识图谱内所有实体；

将所有实体名分解成字的形式；

将每个字和所有包含该字的实体进行一对多映射得到倒排索引词典。

而且，步骤S4中，判定候选实体的类型实现方式如下，

将实体a_i和集合B＝{b₁,b₂,b₃......b_m}转换成词向量，并分别计算候选实体a_i的向量和b₁,b₂,b₃......b_m的向量之间余弦相似度sim＝{c_i1,c_i2,c_i3......c_im}，

预先设置两个阈值d₁、d₂，d₁<d₂，

若相似度c_ij达到阈值d₂，则判定候选实体a_i与实体b_j为同一实体；

若相似度c_ij小于d₂且大于等于d₁，则判定为候选实体a_i与实体b_j同类型实体；若有多个c_ij满足小于d₂且大于等于d₁，则取最大的那个；

若相似度集合sim全部小于d₁，则判定候选实体a_i为新型实体。

而且，设步骤S1输入限定领域问答语料中还包括语料M₂，所述阈值d₁、d₂获得方法为，在执行步骤S4之前，预先进行如下操作，

1)随机初始化d₁、d₂；

2)对语料M₂中每条句子进行S2～S4操作；

3)使用互信息的方法更新d₁、d₂，

准确率变化率若因新型实体与同类型实体之间判别错误引起，则d₂根据准确率变化率所含信息熵进行相应的增加或减少；

准确率变化率若因同一实体与同类型实体之间判别错误引起，则d₁根据准确率变化率所含信息熵进行相应的增加或减少。

而且，步骤S5中，所述Bert文本分类模型识别流程如下：

1)获取知识图谱中所有存在的关系集合F＝{f₁,f₂,f₃......f_t}，t为知识图谱内关系总数量,；

2)将候选实体集A中的一对实体分别和关系集合F＝{f₁,f₂,f₃......f_t}中每一条关系组合，还原成自然语言文本集合W＝{w₁,w₂,w₃......w_t}；

3)利用训练好的Bert文本分类模型，分别计算w₁,w₂,w₃......w_t和语料M₁中正在处理的句子l的相似度，相似度最高所对应的自然语言文本w_k包含的关系即为实体间关系；

4)重复上述过程，直到候选实体集A中每一对候选实体识别完毕。

而且，设步骤S1输入限定领域问答语料中还包括语料M₃，Bert文本分类模型训练方法为，将训练集M₃中每条语料中包含的正确的实体间关系作为正例标注，再随机选择三个错误实体关系作为负例标注；将所有语料标注好后输入给模型训练。

而且，步骤S6的实现方式为，步骤S4中判定为同一实体的候选实体，直接将候选实体与知识图谱中同一实体融合；判定为同类型实体或新型实体的候选实体，则在知识图谱中创建相应实体；实体融合或创建好之后，将S5得到的两两候选实体间关系相应添加到知识图谱中。

本发明提供一种面向限定领域的知识图谱更新系统，用于实现如上所述面向限定领域的知识图谱更新方法。

本发明基于已有知识图谱内容，可以高效准确的识别新添加实体之间的关系以及新添加实体与已有实体的关系。并且新实体添加的准确性会随着知识图谱规模的扩大而不断提高。

相比于现有技术，本专利具有以下优点：

一、使用而不过度依赖深度学习模型。只在关系识别训练时需要部分简单语料标注工作，节约人工成本。

二、步骤简洁高效。通过计算实体和相似词汇集之间的相似度去判定实体类型，从而实现一般的知识图谱更新方法中实体获取、实体融合两个步骤的效果。

三、准确性高。充分利用知识图谱已有的结点和关系获取新知识，而不仅仅依赖深度学习模型。

四、持续性强。本方法在知识更新中持续利用图谱内已存在知识，因此新实体添加的准确性会随着知识图谱的完善而不断提高。有效解决其他知识图谱更新方法中因规模扩大而准确率不足、成本增加的缺陷。

附图说明

图1为本发明实施例中的流程图。

具体实施方法

以下结合附图和实施例具体说明本发明的技术方案。

参见图1，本发明实施例提供了一种面向限定领域的知识图谱自动更新方法，包括步骤如下：

S1、输入限定领域问答语料。

具体实施时，可预先收集获取指定的限定领域相应问答语料。本发明适用于多种领域，例如教育领域、医学领域、化学领域等。

实施例中，语料M来源于该领域论坛的问答记录以及贴吧问答数据，由若干条句子l₁，l₂，l₃......l_u(u为句子数量)构成。语料根据用途按比例6：1：3分为三部分：第一部分M₁用于通过本方法(步骤S2～S7)更新到知识图谱中；第二部分M₂用来训练获取S4中最佳阈值；第三部分M₃用来训练步骤S5中所述Bert文本分类模型。每个部分都包含相应比例的多条句子。

S2、通过分词抽取语料M₁中一条句子l的候选实体，并利用词频词典筛除候选实体中可能存在的常用功能词：

实施例利用jieba分词技术处理语料得到候选实体集A＝{a₁,a₂,a₃......a_n}，其中n为实体的数量。再利用词频字典(开源中文词频词典)将候选实体集A中词频大于预先设置的阈值(实施例优选采用词典中频率排名第一百的词频值)的功能词筛除掉，得到最终的候选实体集A。

jieba分词技术为Python中文分词组件，用于对中文文本进行分词，本发明不予赘述。

S3、构建倒排索引词典，得到步骤S2所得各候选实体分别的相似词汇集：

利用根据知识图谱创建的倒排索引词典，得到候选实体集中实体a_i(i表示从1到n任意一个数字)的相似实体集合B＝{b₁,b₂,b₃......b_m}(m为实体a_i的相似实体的数量)。

所述倒排索引词典创建方法如下：获取现有的限定领域知识图谱内所有实体；将所有实体名分解成字的形式；将每个字和所有包含该字的实体进行一对多映射得到倒排索引词典(例如‘白’对应的是知识图谱内存在的李白、白居易等所有名字带‘白’的实体)。

S4、将步骤S2所得候选实体和步骤S3所得相应相似词汇集训练成词向量，计算他们之间的余弦相似度，从而判定候选实体的类型：

实施例利用word2vec技术将实体a_i和集合B＝{b₁,b₂,b₃......b_m}转换成词向量，并分别计算候选实体a_i的向量和b₁,b₂,b₃......b_m的向量之间余弦相似度sim＝{c_i1,c_i2,c_i3......c_im}。

设置两个阈值d₁、d₂(d₁<d₂)，

若相似度c_ij(j表示从1到m任意一个数字)达到阈值d₂，则判定候选实体a_i与实体b_j为同一实体；

若相似度c_ij小于d₂且大于等于d₁，则判定为候选实体a_i与实体b_j同类型实体(若有多个c_ij达到，则取最大的那个)；

word2vec是将词转换成向量的现有神经网络模型，本发明不予赘述。

优选地，所述阈值d₁、d₂获得方法为，在执行步骤S4之前，预先进行如下操作：

1)随机初始化d₁、d₂；

2)对语料M₂中每条句子进行S2～S4操作；

3)使用互信息的方法更新d₁、d₂：

具体的，准确率变化率若因新型实体与同类型实体之间判别错误(新型实体判成同类型实体或同类型实体判成新型实体)引起，则d₂根据准确率变化率所含信息熵进行相应的增加或减少；准确率变化率若因同一实体与同类型实体之间判别错误(同一实体判成同类型实体或同类型实体判成同一实体)引起，则d₁根据准确率变化率所含信息熵进行相应的增加或减少，

4)重复上述步骤2)-3)直到实体判别结果达到最高准确率。

S5、利用训练好的Bert文本分类模型获取候选实体两两之间的关系：

实施例中，Bert文本分类模型使用S1中提及的语料M₃训练，然后利用训练好的Bert文本分类模型去识别实体集A中两两实体间的关系。

所述Bert文本分类模型训练方法如下：将训练集M₃中每条语料中包含的正确的实体间关系作为正例标注，再随机选择三个错误实体关系作为负例标注；将所有语料标注好后输入给模型训练。

所述Bert文本分类模型识别流程如下：

1)获取知识图谱中所有存在的关系集合F＝{f₁,f₂,f₃......f_t}(t为知识图谱内关系总数量)；

2)将候选实体集A中的一对实体分别和关系集合F＝{f₁,f₂,f₃......f_t}中每一条关系组合还原成自然语言文本集合W＝{w₁,w₂,w₃......w_t}(例如：一对实体是杜甫、孟浩然，关系f是朋友，还原成某条自然语言文本w即为杜甫的朋友是孟浩然)；

S6、步骤S4中判定为同一实体的候选实体，直接将候选实体与知识图谱中同一实体融合；判定为同类型实体或新型实体的候选实体，则在知识图谱中创建相应实体。实体融合或创建好之后，将S5得到的两两候选实体间关系相应添加到知识图谱中。

S7、重复上述步骤S2～S6直到处理完语料M₁中所有句子。具体实施时，后续新增的限定领域问答语料均可按此更新到知识图谱中。

本发明基于已有知识图谱内容，步骤简洁、高效准确的识别新添加实体之间的关系以及新添加实体与已有实体的关系。具体体现在：步骤S3建立的倒排索引词典将待处理的新实体和图谱内存在的实体关联起来，降低了数据成本；步骤S4计算实体和相似词汇集之间的相似度去判定实体类型，从而实现一般的知识图谱更新方法中实体获取、实体融合两个步骤的效果，且避免了其他知识图谱更新方法过度依赖深度学习模型的问题；步骤S5中使用Bert文本分类模型并充分利用知识图谱已存在关系识别新实体间关系，不仅提升了模型准确率，也大大降低了标注训练集的工作量；步骤S6根据实体判定结果添加实体，不但建立起新实体间关系，还建立新实体和已有实体关系。此外，本方法中新实体添加的准确性会随着知识图谱规模的扩大而不断提高，有效解决其他知识图谱更新方法中因规模扩大而准确率不足的缺陷。

具体实施时，可采用软件方式实现流程的自动运行，也可以采用模块化方式实现，例如分为数据获取模块：收集获取该领域问答语料；实体提取模块：提取并筛选语料中的实体；实体判别模块：计算并判定实体的类型；关系抽取模块：获取语料中两两实体之间的关系；图谱更新模块：将实体和实体间的关系更新到知识图谱中。运行方法的系统装置，例如存储本发明技术方案相应计算机程序的计算机可读存储介质，以及包括运行相应计算机程序的计算机设备，也应当在本发明的保护范围内。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种面向限定领域的知识图谱更新方法，其特征在于，包括以下步骤：

步骤S1、输入限定领域问答语料，其中包括语料M₁；

判定候选实体的类型实现方式如下，

预先设置两个阈值d₁、d₂，d₁<d₂，

若相似度集合sim全部小于d₁，则判定候选实体a_i为新型实体；

步骤S5、利用训练好的Bert文本分类模型获取候选实体集A中候选实体两两之间的关系；

步骤S6、根据步骤S4判定所得候选实体类型和步骤S5获得的候选实体间关系更新到知识图谱中；

2.根据权利要求1所述面向限定领域的知识图谱更新方法，其特征在于：步骤S3中，构建倒排索引词典实现方式如下，

获取现有的限定领域知识图谱内所有实体；

将所有实体名分解成字的形式；

3.根据权利要求1所述面向限定领域的知识图谱更新方法，其特征在于：设步骤S1输入限定领域问答语料中还包括语料M₂，所述阈值d₁、d₂获得方法为，在执行步骤S4之前，预先进行如下操作，

1)随机初始化d₁、d₂；

2)对语料M₂中每条句子进行S2～S4操作；

3)使用互信息的方法更新d₁、d₂，

4.根据权利要求1所述面向限定领域的知识图谱更新方法，其特征在于：步骤S5中，所述Bert文本分类模型识别流程如下：

5.根据权利要求4所述面向限定领域的知识图谱更新方法，其特征在于：设步骤S1输入限定领域问答语料中还包括语料M₃，Bert文本分类模型训练方法为，将训练集M₃中每条语料中包含的正确的实体间关系作为正例标注，再随机选择三个错误实体关系作为负例标注；将所有语料标注好后输入给模型训练。

6.根据权利要求2或3或或5所述面向限定领域的知识图谱更新方法，其特征在于：步骤S6的实现方式为，步骤S4中判定为同一实体的候选实体，直接将候选实体与知识图谱中同一实体融合；判定为同类型实体或新型实体的候选实体，则在知识图谱中创建相应实体；实体融合或创建好之后，将S5得到的两两候选实体间关系相应添加到知识图谱中。

7.一种面向限定领域的知识图谱更新系统，其特征在于：用于实现如权利要求1至6所述面向限定领域的知识图谱更新方法。