CN117875424B

CN117875424B - 一种基于实体描述和对称关系的知识图谱补全方法及系统

Info

Publication number: CN117875424B
Application number: CN202410269305.6A
Authority: CN
Inventors: 李志飞; 李晨; 张龑; 张淼; 肖奎; 王时绘
Original assignee: Hubei University
Current assignee: Hubei University
Priority date: 2024-03-11
Filing date: 2024-03-11
Publication date: 2024-05-24
Anticipated expiration: 2044-03-11
Also published as: CN117875424A

Abstract

本发明提供一种基于实体描述和对称关系的知识图谱补全方法及系统，涉及知识图谱技术领域，包括：S1：获取知识图谱，对知识图谱进行预处理，获得三元组集合和实体描述集合；S2：通过知识图谱嵌入模型对三元组集合进行实体与关系建模，获得对称关系集合；S3：通过编码器对三元组集合、对称关系集合和实体描述集合进行编码，获得编码向量集合；S4：通过解码器对编码向量集合进行解码，获得候选解集合；S5：对候选解集合进行评分和排序，获得最优解，将最优解作为补全后的知识图谱。本发明对知识图谱中的关系结构进行挖掘获得对称关系集合，处于对称关系位置的实体通常是相似或是相关的，因此对称关系集合可以提高知识图谱补全的准确性和效率。

Description

一种基于实体描述和对称关系的知识图谱补全方法及系统

技术领域

本发明涉及知识图谱技术领域，尤其涉及一种基于实体描述和对称关系的知识图谱补全方法及系统。

背景技术

随着互联网的快速发展，信息量呈指数级增长，信息的获取和管理变得越来越困难。知识图谱通过将知识形式化为图结构，能够更好地表示知识之间的关系和语义信息，支持机器运行知识推理与决策。知识图谱的建立不仅可以为人们提供更好的信息获取的工具，也为机器的智能化应用奠定了基础。知识图谱本质上是一种语义网络，是对现实世界中事物及其关系对的形式化描述。现实世界中存在着大量实体和概念，它们之间的关系复杂多样，相应地，大规模的知识图谱也通常包括数千万个实体和数亿个关系。因此知识图谱也已经成为了许多人工智能应用的重要知识来源，如信息提取、智能问答、大数据推荐、事实核查等。

知识图谱的构建是一个庞大而复杂的任务，其需要依赖人工标注和自动抽取等技术，然而由于信息源的限制和获取知识的难度，构建出的知识图谱往往面临着不完整的问题。同时由于现实世界中的知识是动态变化的，新的实体、属性和关系的不断出现，使得旧的知识可能被修正或者删除，因此知识图谱需要能够及时跟踪和更新这些变化以保证知识的准确性和时效性。因此知识图谱补全技术应运而生，此技术提高了知识图谱的完整性、准确性和应用价值，推动了知识图谱应用的发展和智能化技术的创新。然而由于知识图谱融合了现实世界中的实体与关系，使得其复杂性加剧，而现有的知识图谱补全模型使用的是原始的知识图谱元素来学习低维表示，称之为知识图谱嵌入。现有的主流方法包括张量分解模型、几何模型以及深度学习模型。这些模型都被广泛地应用在知识图谱补全技术领域。

然而在大多数知识图谱中，实体和关系通常只有简单的描述，缺乏涵盖丰富语义的信息描述。现有的知识图谱嵌入的方法忽略了观测到的特性，并且只根据语义来进行知识图谱补全往往可能是不准确的。

发明内容

有鉴于此,本发明的目的在于提供一种可以解决现有的知识图谱补全方法不够准确问题的基于实体描述和对称关系的知识图谱补全方法。

本发明提供了一种基于实体描述和对称关系的知识图谱补全方法，包括：

S1：获取知识图谱，对知识图谱进行预处理，获得三元组集合和实体描述集合；

S2：通过知识图谱嵌入模型对三元组集合进行实体与关系建模，获得对称关系集合；

S3：通过编码器对三元组集合、对称关系集合和实体描述集合进行编码，获得编码向量集合；

S4：通过解码器对编码向量集合进行解码，获得候选解集合；

S5：对候选解集合进行评分和排序，获得最优解，将最优解作为补全后的知识图谱。

优选的，三元组集合中三元组S的表达式为：

其中，表示头实体，/>表示关系，/>表示尾实体。

优选的，步骤S2具体为：

S21：将三元组集合分为训练集和测试集，对训练集进行特征提取，获得实体描述；对实体描述进行标注，获得标注的实体描述数据，标注的实体描述数据包括多条路径，每条路径包括多个三元组；

S22：通过标注的实体描述数据对知识图谱嵌入模型进行训练，获得训练好的知识图谱嵌入模型；

S23：通过训练好的知识图谱嵌入模型对三元组集合中各实体之间的关系进行遍历，提取对称关系，将所有的对称关系作为对称关系集合。

优选的，步骤S22具体为：

S221：提取标注的实体描述数据中的对称关系，对称关系的表达式为：

其中，i表示路径的编号，表示第/>条路径上的对称关系，/>表示对称关系/>中的开始实体，/>表示对称关系/>中的结束实体，/>表示两个实体之间关系的路径，n表示路径i中的实体总数，/>表示路径i上的第n个实体；

S222：设置目标实体集，从目标实体集中抽取个实体作为正实体集合，正实体集合/>的表达式为：

其中，u表示实体的编号，表示路径i上的第u个正实体，/>表示正实体/>的实体对，/>表示路径i上的第u个实体，/>表示给定的开始实体，k表示正实体的总数；

S223：通过正实体集合和对称关系对知识图谱嵌入模型进行训练，获得损失函数，损失函数的表达式为：

其中，表示欧几里得范数，/>表示第i个正实体的嵌入，/>表示第i个正实体的嵌入的对比对，/>表示均方误差损失函数；

S224：重复步骤S221-S223直至损失函数的值小于预设值，获得训练好的知识图谱嵌入模型。

优选的，步骤S3具体为：

S31：将三元组集合、对称关系集合和实体描述集合作为输入序列，输入序列中的每个单词包括：开始实体、关系、结束实体、实体描述和对称关系；

S32：构建编码器，编码器包括：位置编码层、第一注意力机制层、第一前馈神经网络和池化层；

S33：输入序列中的各单词依次经过位置编码层、第一注意力机制层、第一前馈神经网络和池化层进行编码，获得编码向量集合。

优选的，步骤S4具体为：

S41：构建解码器，解码器包括：第二注意力机制层、第二前馈神经网络、全连接层和函数层；

S42：编码向量集合中的各编码向量依次经过第二注意力机制层、第二前馈神经网络、全连接层和函数层进行解码，获得各编码向量对应的下一个符号的概率分布，将所有的概率分布作为候选解集合。

一种存储介质，所述存储介质存储指令及数据用于实现所述的基于实体描述和对称关系的知识图谱补全方法。

一种基于实体描述和对称关系的知识图谱补全系统，包括：处理器及存储介质；所述处理器加载并执行存储介质中的指令及数据用于实现所述的基于实体描述和对称关系的知识图谱补全方法。

本发明具有以下有益效果：

通过知识图谱嵌入模型对三元组集合进行实体与关系建模，对知识图谱中的关系结构进行挖掘获得对称关系集合，处于对称关系位置的实体通常是相似或是相关的，因此对称关系集合可以提高知识图谱补全的准确性和效率，通过对三元组集合和对称关系集合进行编码与解码，最终获得更加精确的补全后的知识图谱。

附图说明

图1为本发明实施例方法流程图；

图2为对称关系集合提取示意图；

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，本发明提供一种基于实体描述和对称关系的知识图谱补全方法，包括：

进一步的，对于知识图谱进行数据的预处理，给每一个实体加上实体描述，然后再将三元组的信息以及实体描述的信息在嵌入低维向量时共同嵌入；

预处理的步骤如下：

对收集到的数据文本进行清理和预处理，包括去除噪声、标点符号、停用词等，并将文本数据划分为训练集与测试集；

在训练集中，将数据集中的数据进行特征提取，构建实体描述；

对构建的实体描述标识并标记以供机器识别；

基于标注的实体描述数据，利用预训练的BART模型进行训练，以提高模型的性能。此模型的损失函数原则如下：

其中表示掩盖的词的总数，/>表示被掩码后的标记，/>表示模型对应于/>的预测结果，/>表示的是模型的概率分布，i为训练样本的编号；

三元组集合中三元组S的表达式为：

其中，表示头实体，/>表示关系，/>表示尾实体。

进一步的，步骤S2具体为：

具体的，使用RotetE知识图谱嵌入模型，对实体与关系进行建模并获取知识图谱的对称结构信息，具体建模原则如下：

其中，代表哈德曼积，/>表示欧几里得范数，/>表示实体与关系的模型；

具体的，从知识图谱中提取出的对称关系集合如图2所示；

（张三，喜欢，足球），（李四，喜欢，足球）两个三元组构成一个对称关系；

（张三，饲养，宠物狗），（王五，饲养，宠物狗）两个三元组构成一个对称关系；

（张三，喜欢，跑步），（陈六，不喜欢，跑步），（小明，喜欢，跑步）三个三元组构成一个对称关系。

进一步的，步骤S22具体为：

进一步的，步骤S3具体为：

具体的，为输入序列中的每个单词添加位置编码的向量，以捕捉单词在序列中的相对位置编码；

第一注意力机制层使用的多层的自注意力机制以及前馈层神经网络层来编码输入的序列，其具体的计算公式如下：

其中，/>，/>分别代表的是查询矩阵，键矩阵以及值矩阵；在Transformer模型中，每个输入都会经过一个线性变换来得到查询、键以及值的表示；

此发明在编码层中使用了掩码机制，以便模型在处理序列时只用关注当前的位置之前的信息，并且不会受到未来标记的干扰。同时，如果输入长度不同的输入序列，此编码器将会对较短的序列进行填充；

对编码层的输出进行池化操作，将序列转化为固定长度的向量表示；此发明中使用的是全局平均池化的方法；

对于最终的编码层输出的编码向量，将其进行保存用于下游的生成任务。

进一步的，步骤S4具体为：

具体的，解码器使用自身的注意力机制通过计算当前位置与其他位置的相似度得到一个注意力分布，然后将输入序列的编码信息结合起来，其中解码器的自注意力的计算公式如下：

其中，/>，/>分别代表是查询矩阵，键矩阵以及值矩阵，/>为归一化函数。

解码器使用一个编码器-解码器注意力机制的第二注意力机制层，将上下文向量和词嵌入向量融合，形成一个新的向量表示，这个表示中包括了输入序列中的语义和位置信息，以及当前时间步的上下文，以便模型理解每一个单词的语义和位置信息；

融合后的向量会通过一个前馈神经网络，由多个全连接层组成，进行进一步的非线性变换，有助于模型对输入进行更复杂的表示和处理，其中具体的计算公式如下：

其中是输入向量，/>和/>分别是均值和方差，/>和/>是学习到的缩放和偏移参数，/>是一个用于稳定计算的极小数；

解码器使用一个循环结构来产生下一个输出，在每一个时间步，解码器会根据当前位置的输入和所有之前生成的输出来预测下一个位置的输出；

此发明的输出层是一个全连接层加上一个函数，它将前馈神经网络的输出映射到一个概率分布，用来预测下一给单词的概率；解码器将会根据这个概率分布来选择下一个生成的单词，其中全连接层的具体公式如下：

其中是激活函数，/>是输入向量，/>是输入层到隐藏层的权重矩阵，/>是隐藏层的偏置向量，/>是隐藏层到输出层的权重矩阵，/>是输出层的偏置向量。

对于解码器中生成的候选集，由于BART模型灵活的自回归能力，可能会产生数据集中不存在的实体，因此给定一个前缀约束来控制解码器在给定前缀序列的情况下生成的有效令牌；

具体的，在生成输出前，解码器会生成一个初始的特殊标记，作为第一个输入；

解码器会根据之前的隐藏状态和输入的单词，计算注意力分数，加权获取上下文向量；其计算公式如下：

其中表示前缀约束对原始输入的加权平均表示，/>代表矩阵乘法，/>为原始输入，A是一个由编码器输出和解码器隐藏状态计算得到的权重矩阵；

解码器会生成一个概率分布，用于预测下一个单词的概率；并将前缀约束的加权平均表示与原始输入的表示进行拼接，得到最终的输入的表示，其具体计算公式如下：

其中，表示拼接操作，/>表示最终输入的表示，/>为原始输入；

在生成输出后，解码器会检查生成的单词与给定前缀匹配，如果匹配成功，则保留这个单词，如果匹配不成功，则剔除掉这个单词。

进一步的，步骤S5具体为：

对于候选解集合中的每个解利用波束搜索算法对其进行评分和排序，具体来说，对于候选解集合中的每个解，会根据当前解的最后一个生成的符号，利用解码器模型生成下一个符号的概率分布，综合生成概率，计算候选解的分数；根据候选解的分数，将候选解加入波束队列中；最后对于波束队列，根据候选解的分数进行排序，并保留分数最高的k个候选解，作为下一轮搜索的候选解集合；最终会根据搜索的结果，选择得分最高的候选解作为最终的输出结果，其中，候选解的得分计算原则如下：

其中表示对所有对数概率值进行求和操作，/>表示分布操作，如果当前假设当前候选解的长度为t，已经生成了/>个符号，表示为/>，接下来要根据当前候选解的最后一个符号/>，计算生成下一个符号的概率分布，并得到每个符号的对数概率值。

一种基于实体描述和对称关系的知识图谱补全系统，包括：处理器及存储介质；所述处理器加载并执行所述存储介质中的指令及数据用于实现所述的基于实体描述和对称关系的知识图谱补全方法。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。词语第一、第二、以及第三等的使用不表示任何顺序，可将这些词语解释为标识。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于实体描述和对称关系的知识图谱补全方法，其特征在于，包括：

S5：对候选解集合进行评分和排序，获得最优解，将最优解作为补全后的知识图谱；

三元组集合中三元组S的表达式为：

其中，表示头实体，/>表示关系，/>表示尾实体；

步骤S2具体为：

S23：通过训练好的知识图谱嵌入模型对三元组集合中各实体之间的关系进行遍历，提取对称关系，将所有的对称关系作为对称关系集合；

步骤S22具体为：

其中，u表示实体的编号，表示路径i上的第u个正实体，/>表示正实体/>的实体对，表示路径i上的第u个实体，/>表示给定的开始实体，k表示正实体的总数；

2.根据权利要求1所述的基于实体描述和对称关系的知识图谱补全方法，其特征在于，步骤S3具体为：

3.根据权利要求1所述的基于实体描述和对称关系的知识图谱补全方法，其特征在于，步骤S4具体为：

4.一种存储介质，其特征在于：所述存储介质存储指令及数据用于实现权利要求1~3任一项所述的基于实体描述和对称关系的知识图谱补全方法。

5.一种基于实体描述和对称关系的知识图谱补全系统，其特征在于：包括：处理器及存储介质；所述处理器加载并执行存储介质中的指令及数据用于实现权利要求1~3任一项所述的基于实体描述和对称关系的知识图谱补全方法。