CN118069868A

CN118069868A - 一种融合llm大模型的知识图谱的纠错方法

Info

Publication number: CN118069868A
Application number: CN202410387475.4A
Authority: CN
Inventors: 李媛媛; 朱洵; 郭林盛; 王林海; 殷浩然; 闫世泽
Original assignee: Shanghai University of Engineering Science
Current assignee: Shanghai University of Engineering Science
Priority date: 2024-04-01
Filing date: 2024-04-01
Publication date: 2024-05-24

Abstract

本发明涉及一种融合LLM大模型的知识图谱的纠错方法及装置，属于人工智能技术领域，包括以下步骤：获取知识图谱数据，并构建错误检测模型的训练数据；构建知识图谱错误检测模型用于检测错误的三元组；使用带有正负样本的训练数据对错误检测模型进行训练；构建知识图谱纠错模型；使用错误检测模型检测错误三元组，并将其传递给纠错模型，由纠错模型修复错误三元组，创建一个检错网络比较修复前后的三元组，评估纠错模型的性能。将知识图谱输入通过评估的纠错模型，由纠错模型对知识图谱进行纠错。本发明通过结合LLM大模型，在对知识图谱的错误检测和纠错上性能更好，能大大减少人工检测的工作量。

Description

一种融合LLM大模型的知识图谱的纠错方法

技术领域

本发明属于人工智能技术领域，具体涉及一种融合LLM大模型的知识图谱的纠错方法。

背景技术

知识图谱通过将现实世界的断言组织成三元组形式(头部实体、关系、尾部实体)来有效组织信息，但由于原始数据的噪声和提取算法的不完善，常常会包含许多错误，因此需要对其进行错误检测并纠错。

传统的错误检测方法分为基于规则和基于嵌入两种。基于规则的方法检测违反预定义规则的三元组，但这种方法缺乏泛化性。基于嵌入的方法则尝试通过负抽样训练模型进行无监督错误检测，但这种策略往往无法捕捉到真实KG错误的复杂模式。

现有知识图谱纠错方法有时可能错误地标记正确的信息为错误，或者未能识别实际的错误(即假阴性和假阳性)，某些方法依赖于特定的规则或模型，这可能限制它们处理未知或新颖错误类型的能力。并且知识图谱中的信息往往具有一定的模糊性和不确定性，而现有的纠错方法可能难以有效处理这些情况，如模糊的实体边界或多义性问题。

因此目前知识图谱纠错一般仍然需要用户或领域专家的参与来验证和纠正错误，增加了时间消耗和成本。

发明内容

本发明的目的是针对现有技术中存在的问题，提供一种融合LLM大模型的知识图谱的纠错方法，来对生成的图谱的错误实时检错纠错，减少人工检测的工作量，提高知识图谱的准确性和实用性。

技术方案如下：

一种融合LLM大模型的知识图谱的纠错方法，包括以下步骤：

步骤1：获取知识图谱数据，包括实体、关系和三元组，并随机引入一些错误三元组作为正负样本构建错误检测模型的训练数据；

步骤2：构建知识图谱错误检测模型用于检测错误的三元组，错误检测模型使用嵌入技术将实体和关系嵌入到低维向量空间中，在错误检测模型输入三元组的嵌入向量后能输出错误的概率；

步骤3：使用步骤1中带有正负样本的训练数据对步骤2中构建的错误检测模型进行训练；

步骤4：使用带有错误的知识图谱作为输入，带有正确的知识图谱作为目标构建知识图谱纠错模型；

步骤5：使用错误检测模型检测错误三元组，并将其传递给纠错模型，由纠错模型修复错误三元组，创建一个检错网络比较修复前后的三元组，评估纠错模型的性能。

步骤6：将知识图谱输入通过评估的纠错模型，由纠错模型对知识图谱进行纠错。

进一步的，步骤1中对给定知识图谱中的一个三元组(h，r，t)，将头/尾实体与其关系r不匹配的定义为关系错误的三元组；将头/尾实体本身错误的定义为实体错误的三元组；对于任意两个三元共享实体，即T1＝(h1，r1，t1)∩T2＝(h2，r2，t2)，将h1＝h2⊕h1＝t2定义为共享头部实体，t1＝h2⊕t1＝t2定义为共享尾部实体。

进一步的，步骤1中通过将三元组的头h或尾t实体替换为一个随机的三元组或/>来生成负三元组：/>

进一步的，步骤2中错误检测模型检测知识图谱中错误的三元组步骤如下：

步骤21：将原知识图谱中对应的三元组(h，r，t)转换为三元图的实例，并在在原知识图谱中随机初始化实体和关系的嵌入；

步骤22：采用一个局部信息建模层，即一组Bi-LSTM单元，来学习每个三元组中的局部关系结构，输出三元组嵌入q_i作为初始的三元组嵌入在知识图谱中：

步骤23：基于相邻三元组e的加权聚合来更新嵌入表示{q1，q2，...，qm}，计算三元组和其相邻三元组j之间的权值其中/>表示三元组i对三元组j的重要性，是一个可学习的线性增广矩阵，用于将初始三元表示投影到相同的向量空间中，是注意函数：/>

步骤24：用softmax函数对不同三元组的注意系数进行标准化得到：并引入了一个超参数/>作为阈值，以阻止来自潜在异常三元组的信息：/>

步骤25：用一个sigmoid函数计算共享头部实体图中最终的错误感知三重表示：

步骤26：更新共享尾部实体的三元组q_i嵌入：

步骤27：采用平方欧氏距离来测量每个三元组在平移假设下的不一致性，并定义知识图谱嵌入损失为：其中，E(h，r，t)＝||e_h+e_r-e_t||₂是基于翻译假设的翻译嵌入模型的分数，γ＞0为边缘的超参数，/>为采样的正三元组集；

步骤28：定义最终的置信度分数函数：C(h，r，t)＝σ(sim(x_i，z_i)-λ·E(h，r，t))，其中E(h，r，t)＝||e_h+e_r-e_t||₂反映了三元组内部的自我矛盾程度，而sim(x_i，z_i)衡量了来自共享头部实体图和共享尾部实体图的相同样本的三元组表示的一致性，采用权衡参数λ来平衡这两个学习信号对错误检测的贡献，然后使用sigmoid函数Sig(x)＝(1+e^-x)^-1将分数映射到[0，1]的范围内；

步骤29：将目标知识图谱中的所有三元组根据它们的置信度分数按升序排列，通过下式：和/>得到三元组错误的概率，其中Precision@K表示在可信度最低的前K个三元组中发现的假三元组的百分比，Recall@K表示已识别的假三元组占全部错误三元组的百分比。

进一步的，步骤4中知识图谱纠错模型构建包括如下步骤：

步骤41：使用LLM大模型作为基础模型；

步骤42：使用大规模语料对基础模型进行预训练，并在预训练任务中引入知识图谱相关的目标，以提高模型对知识图谱的理解；

步骤43：使用知识图谱纠错任务微调预训练的基础模型，使其更好地适应知识图谱纠错的特定任务；

步骤44：引入跨实体和关系的全局上下文，使基础模型可以充分理解实体和关系的上下文信息；

步骤45：在基础模型中引入(Graph Convolutional Networks，GCN)，用图卷积网络来表示文本数据的图结构，将文本中的单词作为节点，根据单词之间的关系构建边，学习捕捉不同单词之间的语义信息，从而更好地表示文本的结构信息，使模型能够更好地理解实体和关系之间的关联；在基础模型中引入注意力机制，来帮助模型更好地理解文本中不同部分的重要性，加强对知识图谱中错误部分的关注，增加模型的可解释性；将基础模型、图卷积网络和注意力机制进行联合训练，使三个组件相互影响并相互补充，提高纠错的准确性和效果；

步骤46：采用准确率评估基础模型性能，准确率ACC＝正确纠正错误数量/总错误数量。

更进一步的，步骤43中知识图谱纠错任务包括实体标注的错误修正和关系标注的错误修正，步骤如下：

步骤431：定义与任务相关的损失函数，以衡量模型在任务上的性能，损失函数选用纠错模型的预测值与真实值之间距离的平方和：

步骤432：进行模型的迭代，在每个迭代中，使用数据集的一部分，通过反向传播算法更新模型的参数，并保持预训练模型的一部分权重固定，只更新与任务相关的权重；

步骤433：根据Adam算法自适应调节学习率；

步骤434：使用一个独立的验证集来评估模型的性能，并根据验证集上的性能，调整模型的学习率和微调的轮数。

进一步的，步骤5中检错网络包括输入层、嵌入层、编码器层，其中输入层接收原始的知识图谱数据，嵌入层将输入的实体、关系和属性等信息转换为向量形式，编码器层为转换器结构并通过堆叠多个编码器层来对输入的知识图谱数据进行特征提取和表示学习，检错层尝试检测知识图谱中可能存在的错误；整个检错网络通常采用监督学习的方式进行训练，通过与标注好的正确知识图谱数据进行对比，来优化检错网络的参数，使其能够更准确地检测知识图谱中的错误。

有益效果：

1)本发明通过结合LLM大模型，在对知识图谱的错误检测和纠错上性能更好，能大大减少人工检测的工作量。

2)通过知识图谱弥补了大模型文本生成的事实错误性，提高了模型的准确率。

附图说明

图1为本发明方法的框架示意图。

图2为检错网络的结构示意图。

图3为在工业数据集上根据不同的K值得到K值下的Precision和Recall的置信度分数。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明，术语“上”、“下”、“前”、“后”、“左”、“右”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制：

如图1所示一种融合LLM大模型的知识图谱的纠错方法，包括以下步骤：

步骤1中对给定知识图谱中的一个三元组(h，r，t)，将头/尾实体与其关系r不匹配的定义为关系错误的三元组；将头/尾实体本身错误的定义为实体错误的三元组；对于任意两个三元共享实体，即T1＝(h1，r1，t1)∩T2＝(h2，r2，t2)，将h1＝h2⊕h1＝t2定义为共享头部实体，t1＝h2⊕t1＝t2定义为共享尾部实体。

步骤1中通过将三元组的头h或尾t实体替换为一个随机的三元组或/>来生成负三元组：/>

步骤2中错误检测模型检测知识图谱中错误的三元组步骤如下：

步骤24：用softmax函数对不同三元组的注意系数进行标准化：并引入了一个超参数/>作为阈值，以阻止来自潜在异常三元组的信息：/>

步骤26：更新共享尾部实体的三元组q_i嵌入：

步骤4中知识图谱纠错模型构建包括如下步骤：

步骤41：使用LLM大模型作为基础模型；

步骤45：在基础模型中引入(Graph Convolutional Networks,GCN)，用图卷积网络来表示文本数据的图结构，将文本中的单词作为节点，根据单词之间的关系构建边，学习捕捉不同单词之间的语义信息，从而更好地表示文本的结构信息，使模型能够更好地理解实体和关系之间的关联；在基础模型中引入注意力机制，来帮助模型更好地理解文本中不同部分的重要性，加强对知识图谱中错误部分的关注，增加模型的可解释性；将基础模型、图卷积网络和注意力机制进行联合训练，使三个组件相互影响并相互补充，提高纠错的准确性和效果；

步骤43中知识图谱纠错任务包括实体标注的错误修正和关系标注的错误修正，步骤如下：

步骤433：根据Adam算法自适应调节学习率；

如图2所示的检错网络包括输入层、嵌入层、编码器层，其中输入层接收原始的知识图谱数据，嵌入层将输入的实体、关系和属性等信息转换为向量形式，编码器层为转换器结构并通过堆叠多个编码器层来对输入的知识图谱数据进行特征提取和表示学习，检错层尝试检测知识图谱中可能存在的错误；整个检错网络通常采用监督学习的方式进行训练，通过与标注好的正确知识图谱数据进行对比，来优化检错网络的参数，使其能够更准确地检测知识图谱中的错误。

以上所述仅为本发明的较佳实施例而已，并不用于限制本发明，凡在本发明的原则和精神之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种融合LLM大模型的知识图谱的纠错方法，其特征在于：包括以下步骤：

2.如权利要求1所述的融合LLM大模型的知识图谱的纠错方法，其特征在于：所述的步骤1中对给定知识图谱中的一个三元组(h，r，t)，将头/尾实体与其关系r不匹配的定义为关系错误的三元组；将头/尾实体本身错误的定义为实体错误的三元组；对于任意两个三元共享实体，即T1＝(h1，r1，t1)∩T2＝(h2，r2，t2)，将h1＝h2⊕h1＝t2定义为共享头部实体，t1＝h2⊕t1＝t2定义为共享尾部实体。

3.如权利要求1所述的融合LLM大模型的知识图谱的纠错方法，其特征在于：所述的步骤1中通过将三元组的头h或尾t实体替换为一个随机的三元组或/>来生成负三元组：

4.如权利要求1所述的融合LLM大模型的知识图谱的纠错方法，其特征在于：所述的步骤2中错误检测模型检测知识图谱中错误的三元组步骤如下：

步骤23：基于相邻三元组e的加权聚合来更新嵌入表示{q1,q2,...,qm}，计算三元组和其相邻三元组j之间的权值其中/>表示三元组i对三元组j的重要性，是一个可学习的线性增广矩阵，用于将初始三元表示投影到相同的向量空间中，是注意函数：/>

步骤26：更新共享尾部实体的三元组q_i嵌入：

步骤28：定义最终的置信度分数函数：C(h，r，t)＝σ(sim(x_i，z_i)-λ·E(h，r，t))，其中E(h，r，t)＝||e_h+e_r-e_t||₂反映了三元组内部的自我矛盾程度，而sim(x_i，z_i)衡量了来自共享头部实体图和共享尾部实体图的相同样本的三元组表示的一致性，采用权衡参数λ来平衡这两个学习信号对错误检测的贡献，然后使用sigmoid函数Sig(x)＝(1+e^-x)^-1将分数映射到[0,1]的范围内；

5.如权利要求1所述的融合LLM大模型的知识图谱的纠错方法，其特征在于：所述的步骤4中知识图谱纠错模型构建包括如下步骤：

步骤41：使用LLM大模型作为基础模型；

6.如权利要求5所述的融合LLM大模型的知识图谱的纠错方法，其特征在于：所述的步骤43中知识图谱纠错任务包括实体标注的错误修正和关系标注的错误修正，步骤如下：

步骤433：根据Adam算法自适应调节学习率；

7.如权利要求1所述的融合LLM大模型的知识图谱的纠错方法，其特征在于：所述的步骤5中检错网络包括输入层、嵌入层、编码器层，其中输入层接收原始的知识图谱数据，嵌入层将输入的实体、关系和属性等信息转换为向量形式，编码器层为转换器结构并通过堆叠多个编码器层来对输入的知识图谱数据进行特征提取和表示学习，检错层尝试检测知识图谱中可能存在的错误；整个检错网络通常采用监督学习的方式进行训练，通过与标注好的正确知识图谱数据进行对比，来优化检错网络的参数，使其能够更准确地检测知识图谱中的错误。