CN116992040A

CN116992040A - 基于概念图的知识图谱补全方法和系统

Info

Publication number: CN116992040A
Application number: CN202310498632.4A
Authority: CN
Inventors: 宋胜利; 郭雪萌; 来成恩; 胡光能
Original assignee: Xidian University
Current assignee: Xidian University
Priority date: 2023-05-05
Filing date: 2023-05-05
Publication date: 2023-11-03

Abstract

本发明提供了一种基于概念图的知识图谱补全方法和系统，方法包括以下步骤：通过分割算法抽取半结构化数据获取实体的上位关系，生成显式概念知识；通过神经网络方法抽取非结构化文本获取概念的上下位关系，生成隐式概念知识；对概念知识从不相容概念维度和命名实体识别维度进行概念验证，将错误的概念知识进行过滤，完成概念图的构建；使用基于图遍历的规则挖掘方法，挖掘概念图中丰富的上下位信息，探索更大范围的三元组；通过基于路径游走的知识补全方法实现对常识知识图谱的概念补全。系统包括概念图构建单元和图谱补全单元。解决了新生成节点缺乏新颖性，模型的性能和应用场景受限，图谱的准确性和质量较低的问题。

Description

基于概念图的知识图谱补全方法和系统

技术领域

本发明涉及人工智能技术领域，具体而言，涉及一种基于概念图的知识图谱补全方法。

背景技术

知识图谱因其独特的知识结构组织和强大的语义处理能力，在人工智能领域下的众多应用中发挥出的作用愈发强大，而知识图谱本身所广泛存在的数据稀疏问题也随之变得愈发明显和尖锐，因此知识图谱的补全成为了知识图谱技术的热点研究问题。在国际人工智能界一直公认常识性知识的处理是人工智能的核心难题，有无常识是人和计算机的最根本区别，把常识问题能否解决与人工智能能否实现联系起来。所谓常识是相对于专业知识而言的，专业知识又称为领域知识，被广泛应用于各类专家系统和领域软件之中，而常识知识是人类普遍知道的知识，可用于所有的领域，是通过人类社会长期验证使用的众所周知、不言自明的知识。人类积累的专业知识虽浩如烟海，但比起常识知识来，还只是冰山一角，常识知识范围之广袤，是专业知识所不可比拟的。有关常识问题的各种理论研究大大推动了常识补全研究的发展，其中某些研究已经向实用方面发展。

现有申请号为202211247682.7的中国发明专利公开了一种基于3D卷积的知识图谱自适应补全方法及设备，方法包括基于知识库数据提取三元组信息；基于所述三元组集合构建头实体向量、关系向量、尾实体向量；将所述关系向量重塑为3D矩阵；以及将所述头实体向量拆分为数个块向量，并将拆分的任一块向量重塑为3D卷积的滤波器；将所述3D矩阵作为卷积层的输入，基于构造的滤波器对输入进行卷积，以基于任一所述滤波器生成对应的卷积特征图；将各卷积特征图展平并堆叠成一个目标向量；利用全连接层将所述目标向量投影到关系向量的向量空间，并与尾实体向量进行内积，以获得知识向量；利用所述知识向量对知识图谱进行补全。但3D卷积模型训练需要更多的计算资源，在训练过程中容易出现过拟合的情况，导致方法在训练集上表现很好，但在测试集上表现很差，导致模型倾向于产生与训练集相似的样本。

现有申请号为202211234641.4的中国发明专利公开了一种知识图谱补全模型的训练方法和装置，方法包括：将三元组查询训练数据集转化为搜索查询训练数据集；构建与每条搜索查询训练数据对应的正例文档和负例文档，得到正例文档集和负例文档集；利用搜索查询训练数据集、正例文档集和负例文档集对知识检索模块进行预训练，以使知识检索模块能够输出与每条三元组查询训练数据相关的多个文档；将该多个文档与对应的搜索查询训练数据进行拼接后输入到阅读理解模块中，以预测该条三元组查询训练数据的尾实体，并将预测的尾实体与正确尾实体之间的交叉熵作为损失函数优化模型参数，以得到训练好的补全模型。但是该方案中仅考虑了查询和文档的文本信息，而没有考虑其他的语义信息，如结构信息、知识关系等，限制模型的性能和应用场景。

现有申请号为202210710090.8的中国发明专利公开了种结合子图结构和关系类型的知识图谱补全方法，包括首先对知识图谱正样本数据进行预处理，将原知识图谱转换为关系图，通过负采样操作扩充样本数据，并为每个样本抽取一个样本子图；然后随机初始化关系的初始特征，并根据位置信息设置实体的初始特征；然后通过图自编码器优化关系特征,并利用图神经网络提取子图的结构信息从而更新实体特征，并训练该模型；在执行具体的补全任务时，在得到候选三元组的嵌入特征后，通过评分函数计算三元组得分，最后根据得分排序结果完成补全任务。其使用负采样技术扩充正样本数据，但是在负采样时往往只能选择与当前实体没有关系的实体作为负样本，这种负样本的选择可能会导致偏差问题，影响模型的泛化能力。

发明内容

本发明旨在至少解决现有技术中主要存在新生成节点缺乏新颖性，模型的性能和应用场景受限，图谱的准确性和质量较低的技术问题之一。

为此，本发明第一方面提供了一种基于概念图的知识图谱补全方法。

本发明第二方面提供了一种基于概念图的知识图谱补全系统。

本发明提供了一种基于概念图的知识图谱补全方法，包括以下步骤：

S1、通过分割算法抽取半结构化数据获取实体的上位关系，生成显式概念知识；通过神经网络方法抽取非结构化文本获取概念的上下位关系，获得实体的概念，并挖掘语义中的隐性表示，从而生成隐式概念知识；

S2、对S1所生成的概念知识从不相容概念维度和命名实体识别维度进行概念验证，将错误的概念知识进行过滤提高概念图谱的质量，完成概念图的构建；

S3、使用基于图遍历的规则挖掘方法，挖掘概念图中丰富的上下位信息，获取更多现实世界中涉及常识概念的实体及其关系，探索更大范围的三元组；

S4、通过基于路径游走的知识补全方法实现对常识知识图谱的概念补全。

根据本发明上述技术方案的基于概念图的知识图谱补全方法，还可以具有以下附加技术特征：

在上述技术方案中，所述通过分割算法抽取半结构化数据获取实体的上位关系，生成显式概念知识，包括：

获取概念实体和概念实体对应的单词序列；

将单词序列中最后的三个词作为候选项窗口；

利用点互信息来评价词与词之间相连后是一个上位词的概率；

如果候选项窗口中后两个词相连后的点互信息比前两个词相连后的点互信息大，则将后面两个词进行级联作为整体；如果候选项窗口中后两个词相连后的点互信息比前两个词相连后的点互信息小，则舍弃第三个词；

将候选项窗口向前滑动一个单词单位重新得到三个候选项，重复上一步，直至单词序列中最前侧的一个词出现在候选项窗口中；

若候选项窗口中前两个词相连后的点互信息比后两个词相连后的点互信息大，则将前面两个词进行级联作为整体，将候选项窗口向后滑动一个单词单位；

判断单词序列长度，当单词序列长度为2时，如果这两个单词相连后的点互信息大于设定阈值，则将这两个单词进行级联后输出作为该实体的概念知识；如果这两个单词相连后的点互信息小于设定阈值，则将靠后的单词作为该实体的概念知识；将两个单词相连后的点互信息作为概念知识的可信度。

在上述技术方案中，所述通过神经网络方法抽取非结构化文本获取概念的上下位关系，获得实体的概念，并挖掘语义中的隐性表示，从而生成隐式概念知识，包括：

构建包含所有单词表示、开始符号表示、未知符号表示的词典；

根据词典将输入单词转换成对应的id，然后使用预训练单词嵌入向量来初始化向量；

基于字符和基于单词的表示作为输入，使用具有最大池函数的卷积神经网络来提取每个单词的特征向量；

将单词嵌入和字符嵌入进行级联，获得嵌入矩阵

将嵌入矩阵送入一层双向LSTM来获得单词的隐向量；

使用单词的隐向量进行概念知识序列预测。

在上述技术方案中，所述使用单词的隐向量进行概念知识序列预测，包括：

使用一层的长短期记忆网络对单词的隐向量进行处理获得解码器特征向量s，在每一个训练阶段，长短期记忆网络根据上一时序词的单词嵌入特征w_t-1和上一时序的上下文特征s_t-1和上一时序预测的目标单词特征y_t-1来预测t时序的生成的概念知识单词e_t，计算方法为：

s_t＝LSTM(w_t-1,y_t-1,s_t-1)

e_t＝softmax(W_ds_t+b_d)

其中，W_d为权重矩阵，b_d为偏差值。

在上述技术方案中，对S1所生成的概念知识从不相容概念维度进行概念验证，包括：

使用基于transformer的预训练模型作为识别器对概念图中不相容的概念进行识别；

其中，预训练模型在大规模语料上采用掩码语义方式进行预训练，将语料中的某一个词或者短语进行剔除，然后作为正确答案进行预测。

在上述技术方案中，所述预训练模型采用多层transformer架构；

所述预训练模型的训练设定包括：

使用[SEP]特殊字符将两个句子分隔开来，并且使用一个特殊句子IDs来标识单词属于哪个句子；

将概念图中的上位词c₁及其邻接节点的组合作为第一个句子，将概念图中的上位词c₂及其邻接节点的组合作为第二个句子，在第一个句子前面引入[CLS]来表示两个上位词c₁和c₂是否是不相容节点；

将预训练模型最后一层的[CLS]输出特征作为最后的嵌入特征表达，然后在它后面接入一层全连接网络使用交叉熵损失函数来进行二元分类，从而得到概念图中上位词的不相容对；

如果某一实体e的上位词既有c₁也存在c₂，则通过计算该实体e和c₁、c₂的相似度，将相似度大的作为正确概念知识，将相似度小的概念知识作为错误知识进行过滤；其中，实体e的嵌入表示来自在大规模语料上采用掩码语义方式进行预训练的预训练模型的词表表示，方法如下：

e_p＝vocab(e)

上位词c₁和c₂的嵌入表示通过将邻接实体的嵌入表示进行聚集得到，方法如下：

其中，e_i是上位词c对应的所有下位词，通过将下位词节点的嵌入表示进行聚集，得到了关于上位词c的特征嵌入表示；

将实体e和c₁、c₂的特征嵌入使用余弦相似度计算，方法如下：

similar＝cos(e_p，c_p)。

在上述技术方案中，对S1所生成的概念知识从命名实体识别维度进行概念验证，包括：

从语料中进行命名实体识别，采用基于预训练模型的命名实体算法，包括：已知一段文本T，命名实体识别的目标为从文本T中检测出实体集合，并将它们分类成预定义的类别；将该工作定义为一个序列标注问题，让T＝{t₁,t₂,…,t_n}表示一个大小为n的输入，y＝{y₁,y₂,…,y_n}为对应的序列；

将预训练模型作为文本的编码器，对于一个大小为n的序列T＝{t₁,t₂,…,t_n}，两个特殊的字符被插入到文本训练T中，将[CLS]加入到开始，[SEP]加入到文本的最后，来获得预训练模型的输出T_o＝{t₀,t₁,t₂,…,t_n,t_n+1}，最后将T_o送入到CRF层来得到所有的命名实体；

利用命名实体进行概念知识真实性的验证，包括：使用s(H)来表示上位词H作为命名实体的支持度，s(H)＝NE(H)/total(H)，其中NE(H)表示H作为命名实体出现的次数，total(H)表示H出现的全部次数；设定噪声阈值α，并且过滤出那些支持度大于该阈值α的概念知识。

在上述技术方案中，所述使用基于图遍历的规则挖掘方法，挖掘概念图中丰富的上下位信息，获取更多现实世界中涉及常识概念的实体及其关系，探索更大范围的三元组，包括：

将原子定义为一个具有主语和谓语两个变量的关系/事实；

将规则定义为由一个头部和一个主体组成，其中头部是一个原子，主体是一个原子集合；如果主体中所有的原子都出现在知识图谱中，那么该规则就可以称作是一个规则实例；规则的置信度用来衡量一个规则的普遍性和通用性，规则的置信度越大，则表示该规则通用性越强，说明该规则是一个常识规则；规则的置信度通过该规则在知识图谱中存在的规则实例的数量表示；

将常识知识图谱和概念图作为输入，从中进行规则的挖掘，得到补全规则集作为输出；其中，对于常识知识图谱中的每一个常识事实三元组，使用实体检测模型进行实体检测，识别出其中头节点和尾节点中的实体，这些实体是常识知识补全的锚点；之后找到常识三元组中除了实体不同，其他完全相同的常识事实三元组作为常识图谱补全的启发样例；利用概念图，发现启发样例不同实体之间的关系，进而抽象化作为补全的规则，从而达到规则挖掘的目的。

在上述技术方案中，所述通过基于路径游走的知识补全方法实现对常识知识图谱的概念补全，包括：

将常识知识图谱、概念图和步骤S3中挖掘出的补全规则集作为输入，将补全后的常识知识图谱作为输出；其中，对于常识知识图谱中的每一个常识事实三元组，通过实体检测方法识别出其头实体和尾实体中所有的实体组成实体集；对实体集中每一个实体ent1，利用补全规则集在概念图中进行路径游走，发现实体ent2，将常识事实三元组中的实体ent1替换成实体ent2，引入常识知识图谱中，将其作为新补全的事实三元组，最终得到补全后的常识知识图谱M′(Vc′,Ec′)。

本发明还提供了一种基于概念图的知识图谱补全系统，，采用如上述任一技术方案中所述的方法进行知识图谱补全，包括概念图构建单元和图谱补全单元；

所述概念图构建单元包括生成模块和验证模块；

所述生成模块用于通过分割算法抽取半结构化数据获取实体的上位关系，生成显式概念知识；通过神经网络方法抽取非结构化文本获取概念的上下位关系，获得实体的概念，并挖掘语义中的隐性表示，从而生成隐式概念知识；

所述验证模块用于对生成模块生成的概念知识从不相容概念维度和命名实体识别维度进行概念验证，将错误的概念知识进行过滤提高概念图谱的质量，完成概念图的构建；

所述图谱补全单元用于基于图遍历的规则挖掘方法，挖掘概念图中丰富的上下位信息，获取更多现实世界中涉及常识概念的实体及其关系，探索更大范围的三元组，再通过基于路径游走的知识补全方法实现对常识知识图谱的概念补全。

综上所述，由于采用了上述技术特征，本发明的有益效果是：

基于数据驱动的概念图构建模型对不同结构的文本信息提出了概念生成方法，并从多维度进行验证清洗，可以解决现有概念空间有限、概念粗粒度以及难以挖掘隐式语义概念等问题，基于概念的知识图谱补全方法有助于识别出具有新颖性和多样性的实体以及关系，扩大常识知识的覆盖面。

具体地，本发明从半结构数据中生成显式概念知识，从非结构化文本中生成隐式概念知识，提高了概念图的覆盖率。本发明采用不相容概念检测和命名实体验证，对生成的概念进行清洗过滤，提高概念图得到准确率。本发明通过概念图对常识知识图谱进行补全，设计基于图遍历的规则挖掘方法，自动挖掘概念图中的上下位关系，利用外部知识库，生成多样性和新颖性的常识知识节点。

其中，爬取的数据源是高质量语料的维基百科和百度百科，其语料的真实性经过了用户的检验。通过神经网络构建概念图谱，可以更好的获得同一实体在不同段落中不同的语义信息，从而准确的从该段落中生成实体及其上位词。对生成的常识概念使用神经网络和关于命名实体在常识概念中的特点进行验证，消除了大量的错误常识。

本发明的附加方面和优点将在下面的描述部分中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一个实施例的基于概念图的知识图谱补全方法的框架图；

图2是本发明一个实施例的基于概念图的知识图谱补全方法中基于神经网络的概念知识生成模型的示意图；

图3是本发明一个实施例的基于概念图的知识图谱补全方法中不相容概念识别模型的示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其它不同于在此描述的方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

下面参照图1至图3来描述根据本发明一些实施例提供的基于概念图的知识图谱补全方法。

本申请的一些实施例提供了一种基于概念图的知识图谱补全方法。

本发明第一个实施例提出了一种基于概念图的知识图谱补全方法，其主要包括以下步骤：通过分割算法抽取维基百科中半结构化数据生成显式概念知识，通过神经网络方法抽取非结构化文本生成隐式概念知识，从不相容概念、命名实体识别和语法规则三个维度进行概念验证，将错误的概念知识进行过滤提高概念图谱的质量，完成概念图的构建。使用基于图遍历的规则挖掘方法，挖掘概念图中丰富的上下位信息，获取更多现实世界中涉及常识概念的实体及其关系，探索更大范围的三元组，再通过基于路径游走的知识补全方法实现对常识知识图谱的概念补全。可以理解的是，本实施例中，数据源来自网络信息收集平台，网络信息收集平台可以为多种，本说明书中，以维基百科和百度百科为例。

如图1所示，该方法主要分为概念图构建和图谱补全两个单元，概念图构建单元又包括生成模块和验证模块。

对于概念生成。常识概念可以为计算机理解人类思维，使其具备常识推理能力提供知识支撑。本实施例提出一种常识概念生成模型，利用短语之间的点互信息和深度神经网络的概念知识生成算法，从维基百科等公开的非结构化数据进行常识概念抽取。首先，介绍该方法中的标题概念知识生成和摘要概念知识生成，即显式概念知识生成和隐式概念知识生成。

1、基于分割算法的显式概念知识生成

维基百科等的语料中蕴含着丰富的概念上下位关系，针对维基百科中内容进行抽取可以生成大规模概念图谱。本实施例设计了基于分割算法的显式概念知识生成。

基于分割算法的概念知识生成主要从维基百科标题中获取实体的上位关系，算法的输入是一个已消歧的实体，用e(x)表示，其中e是实体名称，x是名词复合词。让x＝(x₁,x₂,…,x_n)是长度为n的单词序列。算法的输出就是输入实体的上位词。让表示字符串的级联操作。算法以单词序列最右边三个元素为开始，从右至左遍历单词序列。可以理解的是，单词序列的前侧和后侧可由人为进行规定，既可将单词序列的左边规定为前侧，也可将单词序列的右边规定为前侧。具体算法规则如下：

输入：实体和其对应的单词序列e(x)

输出：实体及其上位词

开始

i＝n-1

步骤1：已知(x_i-1,x_i,…,x_i+1)，如果PMI(x_i-1,x_i)<PMI(x_i,x_i+1)成立，那么算法进行步骤2，否则调到步骤3；

步骤2：将序列右侧的两个单词进行级联得到然后将滑动窗口向左移动一个单词，获得/>进行步骤1；

步骤3：将滑动窗口向左移动一个单词，获得(x_i-2，x_i-1，x_i)，进行步骤1；

步骤4：当最左侧的元素x₁位于滑动窗口中时，序列(x₁，x₂，x₃)满足PMI(x₁,x₂)>PMI(x₂,x₃)，那么将x₁，x₂进行级联并且将窗口向右移动得到当单词序列长度为2时，如果PMI(x_i-1,x_i)大于某一个阈值时，则将这两个序列进行级联得到最终的概念实体x，否则将后者作为最终的概念实体x；

将概念实体x的点互信息值作为该概念知识的可信度。

其中，首先获取概念实体和概念实体对应的单词序列；将单词序列中最后的三个词作为候选项窗口；利用点互信息来评价词与词之间相连后是一个上位词的概率；如果候选项窗口中后两个词相连后的点互信息比前两个词相连后的点互信息大，即PMI(x_i-1,x_i)<PMI(x_i,x_i+1)，那么说明后两个词相连后是上位词的概率比前两个词相连后是上位词的概率要大，则将后面两个词进行级联作为整体；如果候选项窗口中后两个词相连后的点互信息比前两个词相连后的点互信息小，即PMI(x_i-1,x_i)>PMI(x_i,x_i+1)，那么说明后面两个词不能进行级联，则舍弃第三个词；

将候选项窗口向左滑动一个单词单位重新得到三个候选项，重复上一步，直至单词序列中最前侧的一个词出现在候选项窗口中；

当最左侧的元素x₁位于滑动窗口中时，若候选项窗口中前两个词相连后的点互信息比后两个词相连后的点互信息大，即序列(x₁，x₂，x₃)满足PMI(x₁,x₂)>PMI(x₂,x₃)，那么将x₁，x₂进行级联并且将窗口向右移动得到

判断单词序列长度，当单词序列长度为2时，如果这两个单词相连后的点互信息PMI(x_i-1,x_i)大于设定阈值，则将这两个单词进行级联后输出作为该实体的概念知识；如果这两个单词相连后的点互信息小于设定阈值，则将靠后的单词作为该实体的概念知识；将两个单词相连后的点互信息作为概念知识的可信度。

点互信息的计算方式如下：

其中，p(x)表示x在语料库中出现的概率(出现次数除以总词数N)；p(x,y)表示x跟y在一句话中同时出现的概率(x跟y同时出现的次数除以N的平方)；p(x|y)表示在y出现的情况下x出现的条件概率；p(y|x)表示在x出现的情况下y出现的条件概率。PMI(x,y)越大表示x的正向情感倾向就越明显。

需要说明的是，本实施例中示出的分割算法还可以替换为图分割算法，将数据表示为图的形式，然后通过划分图中的节点或边来实现数据分割的目的。

2、基于神经网络的隐式概念知识生成

神经网络方法用于从百科中的描述性文本中获取概念的上下位关系，实体的抽象中获得实体的概念，并挖掘语义中的隐性表示。图2示出了一些实施例中基于神经网络的概念知识生成的基本架构，该模型由两部分组成：编码器和解码器。编码器模块包括嵌入层和双向长短期记忆网络。解码器模块包括注意力层和长短期记忆网络概念知识生成网络。

本实施例中首先构造了一个词典V，该词典包含了所有单词的表示，开始符号(SOS)的表示，未知符号(UNK)的表示。

嵌入层包括单词嵌入层和字符嵌入层。给定一个包含n个单词的句子x＝(x₁,x₂,…,x_n)和对应的目标概念知识{(y_s1,y_e1),(y_s2,y_e2),…,(y_sn,y_en)}。本实施例首先根据词典V将输入单词转换成对应的id，然后使用预训练单词嵌入向量来初始化这些向量，公式如下所示：

其中Word表示了单词的嵌入。由于NLP单词标记工具经常受到分割的影响严重影响概念提取性能。为了解决这个问题，本实施例采取基于字符和基于单词的表示作为输入，使用具有最大池函数的卷积神经网络来提取每个单词的特征向量，公式如下所示：

将单词嵌入和字符嵌入进行级联，获得嵌入矩阵作为输入表示w＝(w₁,w₂,…,w_n)。

由于双向LSTM对于句子特征提取有很强的能力，本实施例将单词嵌入送入一层双向LSTM来获得单词的隐向量。公式如下所示：

h_i＝BiLSTM(w_i)

解码器使用编码器中BiLSTM得到的单词隐向量来进行概念知识序列预测，为了预测概念知识使用一层的长短期记忆网络来获得解码器特征向量s，在每一个训练阶段，长短期记忆网络根据上一时序词的单词嵌入特征w_t-1和上一时序的上下文特征s_t-1和上一时序预测的目标单词特征y_t-1来预测t时序的生成的概念知识单词e_t。公式如下所示：

s_t＝LSTM(w_t-1,y_t-1,s_t-1)

e_t＝softmax(W_ds_t+b_d)

其中，W_d为权重矩阵，b_d是一个偏差。通过解码器，生成了关于输入文本的对应的隐式概念知识。

经过基于分割算法和神经网络算法对维基百科中的标题和摘要进行抽取后，存在着大量的错误概念知识，将这些错误的概念知识进行过滤可以提高概念图谱的质量。本实施例提出一种常识概念验证模型，利用短语之间的不相容概念和命名实体识别的特殊性进行常识概念的验证。

1、不相容概念检测

比如歌手和演员这两个概念是兼容的，因为它们有一些共同的实体。在某些情况下，有两个概念是不相容的，如人和书没有共享实体。因此，本实施例通过检测不兼容的概念对来实现isA关系过滤错误。基于神经网络的不相容概念检测由不相容概念识别和错误概念知识检测两个部分组成。

图3示出了本实施例中不相容概念识别模型，其中，使用广泛使用的基于transformer的预训练模型，如BERT作为识别器。其中预训练模型BERT在大规模语料上采用掩码语义方式进行预训练，将语料中的某一个词或者短语进行剔除，然后作为正确答案进行预测。使用这种形式的自监督训练方法可以很好的捕捉到概念中的语义含义，并且赋予同一个单词在不同语境下可以表达不同意思的能力。BERT采用多层transformer架构，可以更好的在大预料中捕捉到任务相关的特征。本实施例采用一个通用的训练设定，其中使用[SEP]特殊字符将两个句子分隔开来，并且使用一个特殊句子IDs来标识单词属于哪个句子。本发明将概念知识中的上位词c₁及其邻接节点的组合作为第一个句子，将概念知识中的上位词c₂及其邻接节点的组合作为第二个句子，在第一个句子前面引入[CLS]来表示两个上位词c₁和c₂是否是不相容节点。本实施例将最后一层的BERT[CLS]输出特征作为最后的嵌入特征表达，然后在它后面接入一层全连接网络来进行二元分类。在模型中的所有参数，除了那些在最后一层的全连接层，都可以从预训练模型里面进行初始化，基于输出s使用如下交叉熵损失函数：

得到了关于概念图谱中上位词的不相容对，如果某一实体e的上位词既有c₁也存在c₂，那么本发明通过计算该实体e和c₁、c₂的相似度，将相似度大的作为正确概念知识，将相似度小的概念知识作为错误知识进行过滤。其中，实体e的嵌入表达来自在大规模语料上采用掩码语义方式进行预训练的BERT的词表表示，上位词c₁和c₂的嵌入表示通过将邻接实体的嵌入表示进行聚集得到。

e_p＝vocab(e)

similar＝cos(e_p,c_p)

其中e_i是上位词c对应的所有下位词，通过将下位词节点的嵌入表示进行聚集，得到了关于上位词c的特征嵌入，并且将实体e和c₁、c₂的特征嵌入使用余弦相似度计算。

2、命名实体识别验证

上位词是否为命名实体在检测错误的概念知识关系中起着重要作用，因为命名实体通常不能是实体的上位词。例如，对于概念知识isA(iPhone，美国)，由于iPhone是美国的上位词，所以该概念知识是错误的isA关系。本实施例提出一个基于命名实体识别的概念验证算法，首先是从语料中进行命名实体的识别，然后是利用命名实体进行概念知识真实性的验证。

对于从语料中进行命名实体识别，本发明采用基于BERT的命名实体算法。任务描述：已知一段文本T，命名实体识别的目标就是从文本T中检测出实体集合，并将它们分类成预定义的类别，具体的有人、地点、组织、其他这四种类型。本实施例将该工作定义为一个序列标注问题，让T＝{t₁，t₂，…，t_n}表示一个大小为n的输入，y＝{y₁,y₂，…，y_n}为对应的序列。

由于BERT拥有对同一单词在不同上下文学习不同的表达的能力，所以本发明将BERT作为文本的编码器，对于一个大小为n的序列T＝{t₁，t₂，…，t_n}，两个特殊的字符被插入到文本训练T中，将[CLS]加入到开始，[SEP]加入到文本的最后，来获得BERT的输出T_o＝{t₀，t₁，t₂，…，t_n，t_n+1}，最后将T_o送入到CRF层来得到所有的命名实体。

对于利用命名实体进行概念知识真实性的验证。本实施例使用s(H)来分别表示上位词H作为命名实体的支持度，特别的，s(H)＝NE(H)/total(H)，其中NE(H)表示H作为命名实体出现的次数，total(H)表示H出现的全部次数。我们设定一个噪声阈值α，并且过滤出那些支持度大于该阈值α的知识，这样，就完成了基于命名实体识别的概念验证。

概念图中包含了丰富的上下位知识，对常识知识的文本理解十分有益，因为常识知识文本包含的信息较少，合理的利用上下位知识可以丰富常识知识语境信息，提升常识知识图谱的覆盖面。具体地，上下位知识可用于实例化常识知识中的概念以及抽象化(或概念化)图谱中的实体，以达到扩展常识知识图谱的目的。

1、基于图遍历的规则挖掘

规则集的完备和可靠是对常识知识图谱进行补全的必要前提。规则的完备性可以提高知识图谱补全的丰富性，规则的可靠性可以保证知识图谱补全的真实性。提高规则集中规则的数量和质量可以提高知识图谱补全的效果，获得更完整更真实的常识知识。之前的工作通常使用人工定义的规则集对知识图谱进行补全，这些规则集往往依赖于人的先验知识和对数据的观察理解能力，消耗了大量的人力和时间，并且定义的规则集具有稀疏性和特殊性，严重限制了基于规则的常识知识图谱的补全研究发展。由于人工定义的规则集的不完备性和非移植性，我们提出一个基于图遍历的规则挖掘方法来获得可靠的大量的规则集，进而对常识知识图谱进行补全。

(1)概念定义

为了方便描述，本实施例对相关概念做出定义：

定义1：原子是一个具有主语和谓语两个变量的关系/事实。

定义2：规则由一个头部和一个主体组成，其中头部是一个原子，主体是一个原子集合。本发明使用r(x，y)表示头部，{B₁，...，B_n}表示主体。

如果主体中所有的原子都出现在知识图谱中，那么该规则就可以称作是一个规则实例。例如要挖掘实体可乐和实体奶茶在概念图谱中的一个规则，则可以通过isA(奶茶，水)，isA(可乐，水)这一规则实例，抽象获得规则

规则的置信度用来衡量一个规则的普遍性和通用性，规则的置信度越大，则表示该规则通用性越强，说明该规则是一个常识规则。规则的置信度通过该规则在知识图谱中存在的规则实例的数量表示。

(2)规则集的挖掘

给出常识知识图谱M(V_c，E_c)和概念图谱G＝(V，E)，V_c，V分别表示常识知识图谱和概念图中的所有节点，E_c，E分别表示常识知识图谱和概念图中的所有事实三元组，本发明利用基于图遍历的方法对规则集进行挖掘，具体算法步骤如下：

具体地，本实施例将常识知识图谱和概念图作为输入，从中进行规则的挖掘，得到补全规则集作为输出。对于常识知识图谱中的每一个常识事实三元组，其使用实体检测模型进行实体检测，识别出其中头节点和尾节点中的实体，这些实体是常识知识补全的锚点。之后找到常识三元组中除了实体不同，其他完全相同的常识事实三元组作为常识图谱补全的启发样例。利用概念图，发现启发样例不同实体之间的关系，进而抽象化作为补全的规则，从而达到规则挖掘的目的。

在进行规则挖掘时，找到启发样例间不同实体之间的相连的路径作为一个规则实例，并且使用变量对规则实例中的实体进行抽象化，得到候选规则如果候选规则已经出现在规则集中，那么该候选规则的权重+1，否则，将该规则引入到规则集中，将其权重设置为1。在挖掘出所有候选规则后，计算规则的置信度，其计算公式为：规则置信度＝规则权重/规则总数。

由于某些规则仅仅在某些启发样例中的实体间成立，在其他大部分实体中不成立，这些规则的引入，将导致规则集的可靠性大大降低，为了提高常识知识图谱补全规则集的质量，本发明将规则置信度小于预先设定的阈值α候选规则剔除，保留规则置信度大于阈值α的候选规则。

2、基于路径游走的知识补全

常识知识图谱补全的关键问题在于找到可用于补全的常识事实三元组以及确定补全之后的新的常识事实三元组，在常识知识图谱补全过程中透明性，可解释性对于补全后的常识知识图谱的合理性直接相关。为了提高常识知识图谱补全过程中的透明性和可解释下，本发明利用补全规则集，提出一个基于路径游走的知识图谱补全方法，具体算法步骤如下：

具体地，本实施例将常识知识图谱、概念图和挖掘出的补全规则集Rules作为输入，将补全后的常识知识图谱作为输出。具体来说，对于常识知识图谱中的每一个常识事实三元组，通过实体检测方法识别出其头实体和尾实体中所有的实体组成实体集ents。实体集中每一个实体ent1，利用补全规则集在概念图谱中进行路径游走，发现实体ent2，将常识事实三元组中的实体ent1替换成实体ent2，引入常识知识图谱中，将其作为新补全的事实三元组。最终得到补全后的常识知识图谱M′(Vc′,Ec′)。

本发明第二个实施例提出了一种基于概念图的知识图谱补全系统，采用如上述任一实施例中所述的方法进行知识图谱补全，包括概念图构建单元和图谱补全单元；

所述概念图构建单元包括生成模块和验证模块；

如表1所示，利用本实施例所提出的一种基于概念图的知识图谱补全系统从11,532个网页中提取出19,345个段落，并抽取出35,346个概念知识，其中包括1,293个上位词，包括5,275下位词实体。为了评估常识概念的准确性，本发明从35,346个概念知识中，随机抽取800个概念知识，通过人工检测这些概念知识是否为正确的常识概念。经过人工评价，发现其中有772个知识是正确的常识概念，28个知识是错误的常识概念，概念图谱构建的准确率达到96.5％。

表1概念知识图谱构造

网页数量	11,532
		段落数量	19,345
下位词数量	5,275
		上位词数量	1,293
概念数量	35,346
		准确率	96.5％

为了证明模型中各个组成模块是合理且有效的，本实施例对概念生成模型和概念验证模型分别进行消融实验，去掉了模型的各个组成模块，实验结果如表2和3所示。

如表2所示，在概念知识生成模型中，各模块都取得了较好的效果，模型在不使用分割算法或神经网络算法时，各个数据都有较大幅度下降。与分割算法相比，神经网络算法生成的概念知识上下位词数量和概念数量更大，因为分割算法从半结构化数据中生成概念，只能获取显式的概念知识，其规模受限于百科自身的规模，而神经网络算法对开放式文本进行抽取，概念知识范围更广，并且可以对隐式的概念进行抽取。两种模型联合使用可同时挖掘百科网页中的显式概念和隐式概念，大幅度提高模型的概念覆盖率。

表2概念生成模型的消融实验

如表3所示，在概念知识验证模型中，各模块都取得了较好的效果，模型在不使用不相容概念检测或命名实体验证时，各个数据都有较大幅度下降。不相容概念检测需要更多的上下位概念特征以及约束，因此检测出来的错误概念数量比命名实体验证少，但准确度高于命名实体验证。两者相结合采取不同的验证方法能够有效发现不同的错误类型，提高模型的概念准确率。

表3概念验证模型的消融实验

模型	错误概念知识数量	准确度
			概念验证模型	4,408	92.75％
w/o不相容概念检测	2,532	89.5％
			w/o命名实体验证	1,876	91.0％

如表4所示，实验通过设置不同的参数，挖掘到了不同数量的规则集，其中l表示挖掘出规则的最长长度，其中l＝2，3，5，7。α表示置信度阈值，用来衡量规则是否具有通用性，其中α＝0.5，0.6，0.7，0.8。

表4参数对规则挖掘的影响

参数配置	l＝2	l＝3	l＝5	l＝7
					α＝0.5	41	56	69	112
α＝0.6	34	43	57	88
					α＝0.7	18	31	34	51
α＝0.8	12	17	21	27

在不同参数下模型挖掘出所有规则的数量不同，其中在l＝7，α＝0.5的条件下，挖掘出的规则数量最多为112条，在l＝2，α＝0.8的条件，挖掘出的规则数量最少为12条。在置信度一定的情况下，规则数量会随着游走的最大路径的长度而增大，并且在长度一定的条件下，规则数量随着置信度阈值的增大而减少。在置信度α＝0.5到α＝0.8的条件下，对比不同长度下规则的增长情况，发现规则长度增加后，其中大量非通用性的规则被挖掘进入规则集中。例如，在置信度α＝0.5的情况下，最大游走长度为7的规则集相比最大长度为5的规则集中新增了53条规则，在置信度α＝0.8的情况下，最大游走长度为7的规则集相比最大长度为5的规则集中新增了6条规则。

实验使用置信度阈值为0.8，最大规则长度为4的规则集进行常识知识图谱补全。COMET模型和本实施例的CKCC模型对来自ASER和ATOMIC的测试集进行补全生成三元组，并对结果应用各种度量，如表5所示。

表5常识知识概念补全结果分析

对于实验结果的评估分析，需要设定相应的评价指标，常识知识概念补全实验分别从多样性和新颖性两方面对补全后的常识知识图谱进行评价。对于多样性采用指标Dist-1、Dist-2和Dist-N进行评估，其中Dist-1表示每个节点的不同单词的数量，Dist-2表示每个节点的不同二元组数，Dist-N表示每个节点的不同节点数，由于生成的三元组的数量不同，结果都按节点数进行规范化。对于新颖性采用指标N/TN和N/UN进行评估，N/TN表示所有产生的节点中新颖的节点的比例，即不存在于训练集中的节点的比例，N/UN表示新的不同节点在所有不同节点中的比例。此外，由于生成方法可以产生本质上具有相同意义但在形式上略有变化的节点，通过删除结构词如限定词、助动词、代词等对产生的节点规范化。对于规范化后的指标，分别表示为Dist-N-Norm、N/TN-Norm和N/UN-Norm。

如表5所示，CKCC模型在ASER和ATOMIC数据集上都取得了不错的效果，在对常识知识图谱覆盖率的提升方面具有一定的优势。从多样性结果中可以清楚地看出，CKCC模型的Dist-1、Dist-2和Dist-N指标结果得到大幅度提升，因为在给定特点的头节点和关系的情况下，COMET模型大多数生成的三元组是彼此相似的，不同的节点、单词和二元组的数量都是相对较低的。新颖性指标结果N/TN和N/UN的提升也进一步表明，COMET模型生成的节点通常也与在训练集中的节点相似。此外，相比于COMET模型原始的多样性和新颖性指标，当对生成三元组进行规范化后，Dist-N-Norm、N/TN-Norm和N/UN-Norm指标结果急剧下降，这表明COMET模型可能会产生略微不同的节点来相互解释，而CKCC的情况不同，由于生成的节点大多讨论不同的实体，结果通常是多样的和新颖的。

在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或实例。而且，描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于概念图的知识图谱补全方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于概念图的知识图谱补全方法，其特征在于，所述通过分割算法抽取半结构化数据获取实体的上位关系，生成显式概念知识，包括：

获取概念实体和概念实体对应的单词序列；

将单词序列中最后的三个词作为候选项窗口；

3.根据权利要求1所述的基于概念图的知识图谱补全方法，其特征在于，所述通过神经网络方法抽取非结构化文本获取概念的上下位关系，获得实体的概念，并挖掘语义中的隐性表示，从而生成隐式概念知识，，包括：

将单词嵌入和字符嵌入进行级联，获得嵌入矩阵

将嵌入矩阵送入一层双向LSTM来获得单词的隐向量；

使用单词的隐向量进行概念知识序列预测。

4.根据权利要求3所述的基于概念图的知识图谱补全方法，其特征在于，所述使用单词的隐向量进行概念知识序列预测，包括：

s_t＝LSTM(w_t-1，y_t-1，s_t-1)

e_t＝softmax(W_ds_r+b_d)

其中，W_d为权重矩阵，b_d为偏差值。

5.根据权利要求1所述的基于概念图的知识图谱补全方法，其特征在于，对S1所生成的概念知识从不相容概念维度进行概念验证，包括：

6.根据权利要求5所述的基于概念图的知识图谱补全方法，其特征在于，所述预训练模型采用多层transformer架构；

所述预训练模型的训练设定包括：

e_p＝vocab(e)

similar＝cos(e_p,c_p)。

7.根据权利要求1所述的基于概念图的知识图谱补全方法，其特征在于，对S1所生成的概念知识从命名实体识别维度进行概念验证，包括：

从语料中进行命名实体识别，采用基于预训练模型的命名实体算法，包括：已知一段文本T，命名实体识别的目标为从文本T中检测出实体集合，并将它们分类成预定义的类别；将该工作定义为一个序列标注问题，让T＝{t₁，t₂，…，t_n}表示一个大小为n的输入，y＝{y₁，y₂，…，y_n}为对应的序列；

将预训练模型作为文本的编码器，对于一个大小为n的序列T＝{t₁，t₂，…，t_n}，两个特殊的字符被插入到文本训练T中，将[CLS]加入到开始，[SEP]加入到文本的最后，来获得预训练模型的输出T_o＝{t₀，t₁，t₂，…，t_n，t_n+1}，最后将T_o送入到CRF层来得到所有的命名实体；

8.根据权利要求1所述的基于概念图的知识图谱补全方法，其特征在于，所述使用基于图遍历的规则挖掘方法，挖掘概念图中丰富的上下位信息，获取更多现实世界中涉及常识概念的实体及其关系，探索更大范围的三元组，包括：

将原子定义为一个具有主语和谓语两个变量的关系/事实；

9.根据权利要求1所述的基于概念图的知识图谱补全方法，其特征在于，所述通过基于路径游走的知识补全方法实现对常识知识图谱的概念补全，包括：

10.一种基于概念图的知识图谱补全系统，其特征在于，采用如权利要求1至9中任一项所述的方法进行知识图谱补全，包括概念图构建单元和图谱补全单元；

所述概念图构建单元包括生成模块和验证模块；