CN116304089A

CN116304089A - 一种融合权重与时态信息的知识图谱补全方法

Info

Publication number: CN116304089A
Application number: CN202310196958.1A
Authority: CN
Inventors: 陶皖; 马志远; 汪睿思; 张强; 马靖; 叶晓珍; 高颖; 谭淑; 吴艳飞
Original assignee: Anhui Polytechnic University
Current assignee: Anhui Polytechnic University
Priority date: 2023-03-03
Filing date: 2023-03-03
Publication date: 2023-06-23

Abstract

本发明公开了一种融合权重与时态信息的知识图谱补全方法，涉及自然语言处理应用技术领域，该方法如下：处理时序知识图谱四元组内容；在权重学习模块，借助权重计算方式，预训练编码器和注意力机制，完善数据嵌入表示；结合文本信息处理方式，改善注意力机制捕获事物变化能力，构建时序注意力机制模块；融合两部分模块，共同学习知识图谱原有数据，基于训练数据推理测试数据部分，得到能够推理和补全知识图谱缺失内容的模型，可提升所产生的知识图谱的完整性，进而带动提高表示正确性，降低错误率，提升时态信息知识图谱补全任务的性能效率表现的效果。

Description

一种融合权重与时态信息的知识图谱补全方法

技术领域

本发明涉及自然语言处理应用技术领域，更具体地，本发明涉及一种融合权重与时态信息的知识图谱补全方法。

背景技术

知识图谱将世界知识表示成结构化的三元组形式，是一种重要的信息存储方式。但多数已有的知识图谱由于一些原因面临着比较严重的不完备的问题。例如，在知识图谱Freebase中，有大量事实缺少发生的时间信息，这限制了知识图谱在下游人工智能任务（如机器翻译、智能问答等）上的应用。

为了缓解知识图谱不完备的问题，知识图谱自动补全任务被提出。知识图谱补全（Knowledge Graph Completion，KGC）旨在通过了解原有知识的基础上，对知识图谱中缺失的知识进行预测并加入原有图谱中，使知识图谱知识更加完整。知识图谱补全为知识图谱的下游应用（知识问答，关系预测，文本翻译及多模态信息处理等）提供更全面的知识内容。

随着现实世界的事物发展，知识图谱内所记录的事实也应当随时间改变，呈现一种动态演化性质，以更加符合自然规律。自2016年，针对蕴含时态信息的知识图谱（Temporal Knowledge Graph，TKG）的研究逐步展开。

知识图谱包含多种数据类型，其中节点和关系的属性种类复杂。但进行知识图谱补全任务时，难以有效获取目标节点的局部邻居信息，得到合适的数据嵌入表示，同时，由于事实随时间变化，事实间相互影响并共同改变的趋势难以捕获，庞大数据间驳杂的交互关系进一步增加了补全任务的难度。

发明内容

本发明提供一种融合权重与时态信息的知识图谱补全方法，采集权重信息与时态变化信息来优化补全任务性能，以提高知识图谱内容完整性与可靠性。

为了实现上述目的，本发明提供如下技术方案。

一种融合权重与时态信息的知识图谱补全方法，包括：

构建四元组数据集，并将原有知识图谱转化为按时序划分的静态知识图谱子图，构建四元组数据形式，将时间以时间戳方式融入原有事实三元组；

所述四元组数据形式：s = (p， q， r， t)；

其中，s表示一件事实，p表示该事实中的头实体，q表示该事实中的尾实体，r表示两个实体间存在的关系，t表示该事实发生的时间，以时间戳形式存储；构建基于多来源数据库的实验数据集，按时序关系划分训练数据与测试数据，使用公开大型数据集中的部分数据作为实验数据；按照时间顺序设立时间节点，按照时间节点划分事实，构成多个静态知识子图；

将时序关系上最后一张子图作为各自数据集中的测试数据，将其余子图归为训练数据；利用预训练模型和注意力机制、权重学习方式相融合，共同对知识图谱数据进行嵌入强化学习，将预训练模型BERT作为编码器，对原有知识图谱数据进行编码表示；使用注意力机制对目标数据进行基础的嵌入表示学习；通过权重计算，根据所选目标实体与其邻居实体间相互影响的数据（距离、交互次数等）来分配合适权重；将基础嵌入表示与已包含权重的信息进行结合，获得含权重的强化嵌入表示；构建时序注意力机制，利用注意力机制和借鉴文本处理方式，使用位置信息模拟时间先后顺序，优化模型推测事实变化的能力，利用注意力机制学习含时序排列的静态知识子图；基于时间顺序为不同子图分配位置信息，有序输入上述注意力机制；通过位置信息模拟文本的顺序处理方式，训练融合权重与时态信息的知识图谱补全模型捕获事实演化能力；将多种数据源构成的数据集用于模型方法，持续地学习知识图谱信息，不断优化模型参数，调整模型性能，以得到训练好的知识图谱补全模型，获得补全的知识图谱，将多种数据集作为模型实验数据，不同数据集内数据不可交叉使用；将训练后模型继续用于其他数据集进行训练，持续学习，更新模型参数，优化模型性能。

不同于已有知识图谱补全方法，本发明提供的融合权重与时态信息的知识图谱补全方法具有如下优点：

（1）利用针对不同节点邻居的不同重要性来计算和分配合适的权重，以适当的方式结合局部信息，捕获潜在语义关联和隐式结构模式，并通过获取高阶邻居关系的影响进一步提升嵌入表示质量，从基础的实体信息获取出发来研究补全任务的发展，侧重于改进节点嵌入表示，提高表示正确性，降低错误率；

（2）以时间戳为基础记录形式的事实四元组来表示时态知识图谱，使用已有数据模拟现实世界事物的变化趋势，利用时序注意力机制等框架结合文本处理的方式，与融合权重信息方法相结合，对蕴含时间信息的事实进行学习，模拟数据动态演化，获取历史信息的不同影响，提升时态信息知识图谱补全任务的性能效率表现。

附图说明

图1为本发明所述知识图谱补全方法流程示意图；

图2为本发明所述知识图谱补全模型的训练方法流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的方法可以在当下常见的机器学习框架（Pytorch、Tensorflow等）内实施，可以部署在Windows和Linux等系统中。

本发明的目的是，针对拥有潜在相互影响的事实关系提供一种融合权重与时态信息的知识图谱补全模型的训练方法，并利用训练好的模型进行知识图谱的补全。利用该模型，对于每个缺失的知识，都可以被检索到与之相关的文本数据，并融合局部语义信息和时序信息来生成最终的答案，即完成缺失知识的补全。

其中，如图1所述，一种融合权重与时态信息的知识图谱补全方法，包括：

构建四元组数据集，并将原有知识图谱转化为按时序划分的静态知识图谱子图；

构建基于多来源数据库的实验数据集，按时序关系划分训练数据与测试数据；

利用预训练模型和注意力机制、权重学习方式相融合，共同对知识图谱数据进行嵌入强化学习；构建时序注意力机制，利用注意力机制和借鉴文本处理方式，使用位置信息模拟时间先后顺序，优化模型推测事实变化的能力；将多种数据源构成的数据集用于模型方法，持续地学习知识图谱信息，不断优化模型参数，调整模型性能，以得到训练好的知识图谱补全模型，获得补全的知识图谱。

本发明还提供了一种融合权重信息的知识图谱补全方法，包括：搜集时间信息，按时间顺序组织事实三元组，构建时序知识图谱；将时间信息以时间戳方式加入对应事实三元组，以四元组形式将相同时间下的事实共同构成知识图谱子图；将不同知识图谱子图按时间顺序排列，要求所有子图数据融合后能够反映原有知识图谱的全部数据；将时间排序上最后一张知识图谱子图作为测试数据，其余时序知识图谱子图作为训练数据；基于不同时间节点下的知识图谱子图内的数据，分别构建训练数据和测试数据；通过数据集内数据构建实体节点与关系边的语义网络；通过预训练模型对训练数据进行初始嵌入表示学习；针对目标节点，计算其不定阶数邻居节点与目标间的距离、元素级信息和多邻居间的影响程度并计算权重；

使用注意力机制对目标节点及其局部邻居进行信息抓取，获得嵌入表示；将目标节点初始嵌入表示与权重信息结合，将邻居信息以权重数据分配，融合进嵌入表示，得到优化后的嵌入表示；使用注意力机制对不同时间下目标嵌入表示进行学习，初步获取实时变化趋势；模拟文本按顺序输入模型的处理方式，对不同时间的数据分配相应时序位置权重；按时序权重对不同时间对应的嵌入表示进行融合，与上述注意力机制融合，构建时序注意力机制；提取目标事实节点在测试数据上的四元组形式，将其中缺少单一元素的四元组作为测试问题；针对不同目标事实节点分别进行训练，直到学习全部训练数据，得到训练后的知识图谱补全模型；

使用该模型进行预测任务，计算模型的预测性能，依据测试标准设定参数阈值，重复训练过程，不断根据测试结果调整模型参数，得到训练好的知识图谱补全模型，同过训练后模型进行推理，得出符合标准的补全知识图谱。

如图2所示，本发明实施例提供了一种融合权重与时态信息的知识图谱补全模型的训练方法，包括：

S101，数据处理模块，构建训练数据和测试数据，对已有知识图谱的数据进行简单分类，按时间顺序划分事实，组织时序知识图谱子图；

S102，权重学习模块，使用预训练模型对训练数据进行预处理，使用注意力机制和权重计算方法，获取优化的实体与关系的嵌入表示；

S103，时态预测模块，使用注意力机制，融合时序距离等信息分配的权重，构成时序注意力机制，得到潜在的事实演化趋势；

S104，融合训练模块，用数据处理模块得到的训练集和测试集对融合方法进行训练，优化参数表现，以使该方法能够根据原有数据推测出缺失信息；

S105，参数优化模块，基于不同数据集处理并得到不同训练数据和测试数据，将模型用于多数据集上进行学习，使用损失函数等方式持续学习并自动优化参数，以得到训练好的知识图谱补全模型。

进一步地，在所述数据处理模块中，构建训练数据和测试数据包括：通过处理原有知识图谱，按时间划分事实，相同时间的事实构成一张静态知识图谱子图；按时间顺序排列所有静态子图，构成时序知识图谱；将时序上最后时间对应的子图设为测试数据，将其余子图设为训练数据；对于不同数据集，全部按照时间戳形式构建四元组，数据以四元组形式输入模型中；不同数据源划分出的训练数据和测试数据不可交叉使用。

进一步地，在所述权重学习模块中，所述预训练模型、注意力机制和权重学习包括：

对于数据处理模块得到的数据，首先使用预训练模型得到初始嵌入表示；预训练模型使用BERT等高性能模型作为编码器，优化基础表示形式；将目标实体对应的三元组及其局部信息送入注意力机制，得到基础的目标实体的嵌入表示；计算目标实体与不定阶数邻居信息间的距离和节点密集程度，计算目标实体与邻居信息元素级信息交叉程度，以此分配权重；其中，对不定阶数邻居设定合理阈值来确定最大阶数，优化模型训练效率，通过邻居与目标实体交互时间长短来自动调整需要交互的邻居阶数，准确结合局部信息；计算权重影响的目标实体的优化嵌入表示，将基础嵌入表示与优化嵌入表示融合，得到融合权重的实体嵌入表示；

其中，注意力机制使用广泛使用的Transformer框架中的编码器部分。

进一步地，在所述时态预测模块中，注意力机制和时序自适应权重的使用包括：对于权重学习模块中得到的融合权重的实体嵌入表示，使用注意力机制进行学习，得到部分模型参数；将权重学习模块中得到的实体数据，按时序进行划分，使用位置信息模拟时间顺序，并与实体表示结合，得到结合后的嵌入表示；其中，使用位置信息模拟时间顺序表示为，将时间节点上先发生的事实分配优先输入的位置信息，时间节点上较后发生的事实分配较后输入的位置信息，以此模拟文本按序输入（从左到右）的处理方式，有序学习训练数据；将结合位置信息的嵌入表示输入到上述注意力机制中，构建时序注意力机制，学习时序演化趋势，调整模型参数，得到训练后的模型；其中，注意力机制将模拟文本处理顺序，针对某一目标实体，按时间顺序将其对应的融合局部权重信息与位置信息的嵌入表示输入注意力机制中，位置信息可以作为注意力机制识别输入顺序的标识，位置信息如（1，2，3…10）中，位置1对应最早发生的时间节点，并最先输入注意力机制，位置10对应的数据即为最后发生的事实作最后输入，针对某一时间点上的目标实体，可以根据位置信息自动调整时序权重，距离目标时间节点时间较久的节点数据分配较低权重，时间较短和近期发生的数据分配较高权重，反应不同时间数据对目标时间节点实体的不同重要程度，如位置8上某一实体作为学习的目标实体，则位置10对应数据将比位置1对应数有着更重要的影响，以此有选择地结合时间信息，模拟人的阅读顺序与特性，带有遗忘性地学习事实动态演化趋势，使模型得到预测推理能力。

进一步地，在上述融合训练模块中，将权重学习模块和时态预测模块进行融合过程包括：将融合权重学习模块得到的优化后的实体嵌入表示输入时态预测模块，时态预测模块学习并模拟事物演化趋势，训练推测能力；将训练数据全部输入到权重学习模块与时态预测模块中，训练知识图谱补全模型；将测试数据单独处理，挑选测试数据中的某一目标实体对应的事实四元组作为提出的问题，或将整个测试用知识图谱子图作为提出的问题，输入到训练模型中，使得模型基于问题输出推测的答案；调整问题四元组，基于真实数据改进测试问题，并防止过拟合；其中，将测试数据中缺失部分和不完整的四元组信息不作为用于测试的问题。

进一步地，在所述参数优化模块中，不同数据集的使用和损失函数用于参数优化包括：使用多种大型开源数据集中的部分数据作为实验数据，如ICEWS，GDELT，YAGO，WIKIDATA等，分别进行模型的训练与性能测试；使用二元交叉熵（BCE）损失和梯度下降方法来优化模型参数和性能，对于性能较差的模型将进行较大参数修正；其中，模型性能测试部分将使用常见统一评价指标（Hits@n、HR、HRR），将实验所得模型性能与他人结果对比，并进行优化；将不同数据集训练后的模型用于其他数据集的训练，持续学习不同数据，提升模型性能；其中，持续学习可能导致模型参数量提升，同时导致补全模型性能下降，使用阈值处理方式，对学习不同数据集后性能变化超过阈值的模型先终止学习，符合阈值的模型继续学习，得到符合阈值标准要求的补全知识图谱。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种融合权重与时态信息的知识图谱补全方法，其特征在于，包括：构建四元组数据集，并将原有知识图谱转化为按时序划分的静态知识图谱子图；构建基于多来源数据库的实验数据集，按时序关系划分训练数据与测试数据；利用预训练模型和注意力机制、权重学习方式相融合，共同对知识图谱数据进行嵌入强化学习；构建时序注意力机制，利用注意力机制和借鉴文本处理方式，使用位置信息模拟时间先后顺序，优化模型推测事实变化的能力；将多种数据源构成的数据集用于模型方法，持续地学习知识图谱信息，不断优化模型参数，调整模型性能，以得到训练好的知识图谱补全模型，获得补全的知识图谱。

2.如权利要求1所述的融合权重与时态信息的知识图谱补全方法，其特征在于，所述构建四元组数据集，并将原有知识图谱转化为按时序划分的静态知识图谱子图包括：构建四元组数据形式，将时间以时间戳方式融入原有事实三元组；所述四元组数据形式：s = (p，q， r， t)；其中，s表示一件事实，p表示该事实中的头实体，q表示该事实中的尾实体，r表示两个实体间存在的关系，t表示该事实发生的时间，以时间戳形式存储。

3.如权利要求1所述的融合权重与时态信息的知识图谱补全方法，其特征在于，所述构建基于多来源数据库的实验数据集包括：使用公开大型数据集中的部分数据作为实验数据；按照时间顺序设立时间节点，按照时间节点划分事实，构成多个静态知识子图；将时序关系上最后一张子图作为各自数据集中的测试数据，将其余子图归为训练数据；针对某一目标实体，将其处于时序上最后一张子图上的缺失某一信息的四元组作为测试问题，统计预测缺失信息的准确率，计算知识图谱补全模型性能。

4.如权利要求1所述的融合权重与时态信息的知识图谱补全方法，其特征在于，所述对知识图谱数据进行嵌入强化学习包括：将预训练模型BERT作为编码器，对原有知识图谱数据进行编码表示；使用注意力机制对目标数据进行基础的嵌入表示学习；通过权重计算，根据所选目标实体与其邻居实体间相互影响的数据（距离、交互次数等）来分配合适权重；将基础嵌入表示与已包含权重的信息进行结合，获得含权重的强化嵌入表示。

5.如权利要求1所述的融合权重与时态信息的知识图谱补全方法，其特征在于，所述构建时序注意力机制包括：利用注意力机制学习含时序排列的静态知识子图；基于时间顺序为不同子图分配位置信息，有序输入上述注意力机制；通过位置信息模拟文本的顺序处理方式，训练融合权重与时态信息的知识图谱补全模型捕获事实演化能力。

6.如权利要求1所述的融合权重与时态信息的知识图谱补全方法，其特征在于，所述将多种数据源构成的数据集用于模型方法包括：将多种数据集作为模型实验数据，不同数据集内数据不可交叉使用；将训练后模型继续用于其他数据集进行训练，持续学习，更新模型参数，优化模型性能。

7.一种融合权重与时态信息的知识图谱补全模型的训练方法，包括：

8.如权利要求7所述的融合权重与时态信息的知识图谱补全模型的训练方法，在所述权重学习模块中，所述预训练模型、注意力机制和权重学习包括：

S1021，对于数据处理模块得到的数据，首先使用预训练模型得到初始嵌入表示；

S1022，预训练模型使用BERT等高性能模型作为编码器，优化基础表示形式；

S1023，将目标实体对应的三元组及其局部信息送入注意力机制，得到基础的目标实体的嵌入表示；

S1024，计算目标实体与不定阶数邻居信息间的距离和节点密集程度，计算目标实体与邻居信息元素级信息交叉程度，以此分配权重；

S1025，计算权重影响的目标实体的优化嵌入表示，将基础嵌入表示与优化嵌入表示融合，得到融合权重的实体嵌入表示。

9.如权利要求7所述的融合权重与时态信息的知识图谱补全模型的训练方法，在所述时态预测模块中，注意力机制和时序自适应权重的使用包括：

S1031，对于权重学习模块中得到的融合权重的实体嵌入表示，使用注意力机制进行学习，得到部分模型参数；

S1032，将权重学习模块中得到的实体数据，按时序进行划分，使用位置信息模拟时间顺序，并与实体表示结合，得到结合后的嵌入表示；

S1033，将结合位置信息的嵌入表示输入到上述注意力机制中，构建时序注意力机制，学习时序演化趋势，调整模型参数，得到训练后的模型。

10.如权利要求7所述的融合权重与时态信息的知识图谱补全模型的训练方法，在所述融合训练模块中，将权重学习模块和时态预测模块进行融合过程包括：

S1041，将融合权重学习模块得到的优化后的实体嵌入表示输入时态预测模块，时态预测模块学习并模拟事物演化趋势，训练推测能力；

S1042，将训练数据全部输入到权重学习模块与时态预测模块中，训练知识图谱补全模型；

S1043，将测试数据单独处理，挑选测试数据中的某一目标实体对应的事实四元组作为提出的问题，或将整个测试用知识图谱子图作为提出的问题，输入到训练模型中，使得模型基于问题输出推测的答案；

S1044，调整问题四元组，基于真实数据改进测试问题，并防止过拟合。