CN116662478A

CN116662478A - 基于知识图谱嵌入与路径信息的多跳检索方法和系统

Info

Publication number: CN116662478A
Application number: CN202310371221.9A
Authority: CN
Inventors: 才华; 孟令鑫; 付强; 马智勇; 王伟刚; 李英超
Original assignee: Changchun University of Science and Technology
Current assignee: Changchun University of Science and Technology
Priority date: 2023-04-10
Filing date: 2023-04-10
Publication date: 2023-08-29

Abstract

本发明提供了基于知识图谱嵌入与路径信息的多跳检索方法和系统，本方法首先是获得自然语言问句、问句的主体实体、问句的答案和答案的关系路径；其次，对知识图谱中所有实体和关系进行嵌入表示；再次，对自然语言问句进行问题嵌入；之后，对关系路径进行路径嵌入；然后，使用主体实体嵌入、问题嵌入和问题答案嵌入进行拼接；将上述拼接向量与自然问句嵌入送入关系记忆网络，得到重映射的问题嵌入；最后，将重映射的问题嵌入和主体实体嵌入送入评分函数，并选择得分最高的实体作为预测结果；本发明用于增强检测知识图谱多跳问答检索中问句嵌入与实体嵌入之间潜在的依赖关系以及引入多路径评分来增加检索系统的鲁棒性。

Description

基于知识图谱嵌入与路径信息的多跳检索方法和系统

技术领域

本发明属于基于知识图谱的问答检索技术领域，具体涉及了一种基于知识图谱嵌入与路径信息的多跳检索方法和系统。

背景技术

随着互联网的快速发展，人类进入了信息化的时代。但是在日常生活中还是在工作时，人们在面对网络上的呈现出爆炸式增长的信息时往往束手无措。同时互联网上的信息往往是多元化、碎片化、结构松散的，因此如何存储并利用这些信息成为了物联网发展的一大难题。同时传统的搜索引擎给用户提供的往往不是一个精准而简短的答案，而是一系列的网络列表。于是人们更加倾向于更加符合人类语言习惯的问答系统，通过理解用户输入自然语言问句通过加工、检索和处理等操作，返回给用户精准答案。因此问答系统是具有重要的意义的一个人工智能领域的研究方向。

随着知识图谱(Knowledge Graph,KB)的发展为问答系统提供了一个新的研究内容。知识图谱是一种具有结构化信息的知识库，可以视作一种网络结构的有向图。知识图谱的基本元素一般为三元组，每一个三元组由实体与关系组成用来记录记录一条知识，其中实体一般为生活中的具体的名词与事物或者抽象的概念等，关系一般指两个实体之间的相关联的属性描述。三元组的表现形式一般为(h,r,t)，其中h为头实体，r为关系，t为尾实体。知识图谱问答(Knowledge base question answering，KBQA)，正是利用了知识图谱的结构性强、关联性好的优点，能够更好的将用户的问题关键词进行查询与推理，得到更加精准的答案。

但是早期的单跳检索，已经不在能满足人们的日常需求，而是更倾向于多跳问答。它的任务是对知识图谱进行多步推理，然后推断出包含多跳关系的问题的答案。

但是在知识图谱上进行多跳检索时，知识图谱往往是具有不完整性和稀疏性的，这也就意味着可能会出现因为两个实体之间缺少关系路径的链接而无法得到正确答案的情况。为了处理知识图谱的不完整性，在链接预测的领域中人们已经进行了大量的相关研究。其中知识图谱的嵌入工作是利用将实体与关系通过映射的方法将其表示为高纬度的稠密向量，用于解决上述的知识图谱的稀疏与不完整的问题。最早提出的基于距离的嵌入模型为TransE模型，其基本思想是利用头实体、尾实体和关系之间可能存在的潜在关系h+r≈t来计算实体之间的距离。后续的基于基于距离的嵌入模型还有TransR、TransD、RotatE等。近年来随着深度学习的发展，人们又对基于深度学习的知识图谱嵌入模型展开了研究，如基于CNN网络的ConvE、ConvKB模型，基于图网络的R-GCN、SACN模型等。

知识图谱嵌入模型设计的初衷就是用于链接预测任务，其所生成的向量往往暗含着实体与实体之间的关联，能够更很好的辅助知识图谱的知识多跳检索。最早开展知识图谱嵌入模型应用到多跳问答中工作的是Saxena等人在2020年ACL会议上所提出的EmbedKGQA模型。它首先将问题通过预训练语言模型Roberta映射到向量空间，与将ComplEx嵌入模型产生的主体实体、答案实体的嵌入向量进行评分函数来得到答案实体。但是EmbedKGQA模型存在着一些问题：首先，在问题嵌入所产生的向量与知识图谱嵌入所产生的向量是分别通过两个不同的网络所得到的，这也就意味着上述的两种向量没有在同一个空间进行映射，而且没有分析两者之间的潜在依赖关系；其次，在EmbedKGQA模型中的评分函数中使用的为ComplEx评分函数，比较单一的评分方式，在面对多问题答案时可能会出现遗漏的情况，降低了模型的鲁棒性。

发明内容

有鉴于此，本发明的目的在于提供一种基于知识图谱嵌入与路径信息的多跳检索方法和系统，用于增强检测知识图谱多跳问答检索中问句嵌入与实体嵌入之间潜在的依赖关系以及引入多路径评分来增加检索系统的鲁棒性。

为实现上述目的，本发明提供如下技术方案：一种基于知识图谱嵌入与路径信息的多跳检索方法，包括以下步骤：

S1：构建数据集中的知识图谱G，处理数据集中的问答检索数据；定义知识图谱G中的三元组K表示为(h,r,t)，其中h,t∈E分别表示主体实体和客体实体，它们之间的关系为r∈R；对于数据集中问答检索数据进行处理，获取自然语言问句q、主体实体h和问题答案a；

S2：将已有的S1中的知识图谱进行知识图谱嵌入；使用嵌入模型对于每一个实体e∈E和关系r∈R进行嵌入映射，生成固定维度的实体嵌入向量e_e∈R^d和关系嵌入向量e_r∈R^d；

S3：利用S2中所生成的知识图谱嵌入向量，通过查询的方式获取S1中主体实体h与问题答案a的向量嵌入表示e_h与e_a；

S4：将S1所提及的自然语言问句进行问题嵌入，利用预训练自然语言模型将自然语言问句q进行映射嵌入得到固定维度的向量e_q∈C^d；

S5：将S1中的自然语言问句中的主体实体h与问题答案a在知识图谱G上进行链路查询，获得两者之间的链路连接；

S6：对S5中的所获取的路径嵌入P＝p₁,p₂,...,p_i中的每一个路径p＝(r₁,r₂,...,r_l)进行路径嵌入得到关系路径嵌入向量e_p；

S7：将S3中的主体实体嵌入向量e_h、问题答案嵌入向量e_a的表示与S6中的关系路径嵌入向量e_p进行拼接，得到一个包含了包含答案路径信息的嵌入向量e_x；

S8：将S4中的自然语言问句嵌入向量e_q与S7中包含答案路径信息的嵌入向量e_x送入到关系记忆嵌入模块，用于分析问句嵌入与实体嵌入之间潜在的依赖关系，并得到重映射的问题嵌入向量

S9：将e_h和e_a送入评分模块中进行评分计算，并引入路径评分，选择与计算最终得到终答案a_ans。

进一步的，S2中，使用ComplEx模型进行知识图谱嵌入模型。

进一步的，S4中，所述自然语言问句q输入到预训练的自然语言模型RoBERTa中进行训练微调，得到一个问句的初步嵌入向量，再通过全连接网络层，生成得到问题q的嵌入向量e_q∈C^d。

进一步的，S5中，所述链路连接是三元组的实体之间通过关系相连接，在问答检索任务中如果主体实体与问题答案存在知识图谱上的关系连接，则对当前关系的路径进行记录，记录为一个路径p＝(r₁,r₂,...,r_l)，将主体实体h与问题答案a所有的路径进行记录为P＝p₁,p₂,...,p_i，在利用深度学习的思想，在进行路径采样时设置以下三个评分机制：当主体实体能够到达答案实体时，进行正向评分：

当路径长度短时能够更加高效的进行处理，进行正向评分：

为了寻找多样化的路径，使用当前路径与现有路径之间的余弦相似度来定义多样化的评分机制：

进一步的，S6中，在进行对路径P＝p₁,p₂,...,p_i进行路径嵌入时，基于张量分解的知识图谱嵌入模型中，存在着每个三元组的值可以通过主体实体嵌入向量h和客体实体嵌入向量t、与关系矩阵M_r的乘积来计算，期望满足式子：h·M_rt＝1。所以关系路径嵌入向量e_p在基于张量分解的式子中对于每一个路径p＝(r₁,r₂,...,r_l)满足约束：

其中P表示包含从主体实体h到问题答案a或者候选实体h的路径序列中的所有关系的集合。表示第i个关系r_i在集合P中的嵌入。

进一步的，S8中，所述关系记忆嵌入模块是使用基于关系记忆的嵌入网络，对自然语言问句嵌入向量e_q进行处理。其中关系记忆嵌入模块网络的内存M由N行组成，每行是一个内存槽。关系记忆嵌入模块中使用M^(t)表示内存的步骤，以及表示时间步骤t中的第i个内存槽。遵循x_t更新/>使用多头自注意机制:

式中，H为注意头数，为向量拼接操作。对于第h个头，W^h,V∈R^n×k是一个值投影矩阵，其中n是头的大小，k＝nH。/>和α_i,N+1,h注意力权重，使用softmax函数在比例点积上计算，如下所示:

其中W^h,Q∈R^n×k，W^h,K∈R^n×k分别为查询投影矩阵和键投影矩阵。x_t和之间的残差连接提供给多层感知器，然后通过内存门控生成编码向量y_t∈R^k来表示时间步长t，下一个内存槽/>来表示时间步长(t+1)。

进一步的，S9中，将重映射的问题嵌入向量和主体实体嵌入向量e_h、候选问题答案嵌入向量e_a送入评分模块中进行评分计算。并引入中关系路径嵌入向量e_p，设置评分函数进行路径评分。最终的评分函数为：

基于知识图谱嵌入与路径信息的多跳检索系统

与现有技术相比，本发明具备以下有益效果：

本发明的有益效果在于：本发明采用一种基于知识图谱嵌入与路径信息的多跳检索方法和系统，一方面引入了基于关系记忆的嵌入网络，解决了自然语言问句嵌入与知识图谱嵌入使用不同网络而导致的映射空间不同，并考虑了两者之间存在的潜在依赖关系；另一方面引入了知识图谱的路径信息，丰富评分函数，从而提高智能问答检索系统的准确性和鲁棒性。

附图说明

图1本发明系统架构示意图。

图2本发明系统流程图。

图3本发明关系记忆嵌入模块示意图。

具体实施方式

需要说明的是，在本发明的描述中术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作。

在本发明中，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”等应做广义理解，例如，“固定”可以是固定连接，也可以是可拆卸连接，或成一体；连接可以是机械连接，也可以是电连接；相连可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

系统如以下几个部分组成：知识图谱嵌入模块、问题嵌入模块、路径采集模块、路径嵌入模块、关系记忆嵌入模块、答案评分模块和答案选择模块。

知识图谱嵌入模块，将知识图谱中的实体和关系转化为数值向量，使得这些向量能够表示知识图谱中的结构信息和语义信息。

问题嵌入模块，通过使用预训练语言模型将自然语言问题进行向量表示；将问题和知识图谱中的信息进行匹配，实现更高效的信息检索和问答。

路径采集模块，在知识图谱中抽取主体实体与答案之间的关系路径，这些路径可以用来表示实体之间的关系，并且用来解决知识图谱推理问题。

路径嵌入模块，通过对不同类型的知识图谱嵌入方法，选用对应的路径嵌入方式建立一个向量空间，从而获得路径嵌入向量来表示在实体之间的关系。

关系记忆嵌入模块，通过将输入的嵌入向量信息存储在记忆中，让模型在处理新的输入时记住之前学到的关系，更好的分析潜在的依赖关系。

一种基于知识图谱嵌入与路径信息的多跳检索方法，包括以下步骤：

步骤一：对于知识图谱问答检索数据集的预处理。首先，对于数据集中的知识图谱进行构建，定义知识图谱G中的三元组K表示为(h,r,t)，其中h,t∈E分别表示头实体和尾实体，它们之间的关系为r∈R；其次，对于数据集中问答检索数据进行处理，获取自然语言问句q、主体实体h和问题答案a。

步骤二：将已有的步骤一中的知识图谱进行知识图谱嵌入。使用嵌入模型对于每一个实体e∈E和关系r∈R进行嵌入映射，生成固定维度的实体嵌入向量e_e∈R^d和关系嵌入向量e_r∈R^d。

具体而言，使用ComplEx模型进行知识图谱嵌入模型。ComplEx模型是一种基于张量分解的嵌入网络模型，能够将关系和实体嵌入映射到复数空间。对于步骤一所提及的h,t∈E和r∈R生成对应的嵌入e_h,e_r,e_t∈C^d，在训练时使用评分函数：

使得对于所有真三元组φ(h,r,t)＞0，对于假三元组φ(h′,r′,t′)＜0。Re表示复数的实部。

步骤三：利用步骤二中所生成的知识图谱嵌入向量，通过查询的方式获取步骤一中主体实体h与问题答案a的向量嵌入表示e_h与e_a。

步骤四：将步骤一所提及的自然语言问句进行问题嵌入。利用预训练自然语言模型将自然语言问句q进行映射嵌入得到固定维度的向量e_q∈C^d。

具体而言，将自然语言问句q输入到预训练的自然语言模型RoBERTa中进行训练微调，得到一个问句的初步嵌入向量，再通过全连接网络层，生成得到问题q的嵌入向量e_q∈C^d。

步骤五：查询获取自然语言问句中的主体实体h与问题答案a在知识图谱G之间的链路连接。三元组的实体之间通过关系相连接，在问答检索任务中如果主体实体与问题答案存在知识图谱上的关系连接，则对当前关系的路径进行记录，记录为一个路径p＝(r₁,r₂,...,r_l)，将主体实体h与问题答案a所有的路径进行记录为P＝p₁,p₂,...,p_i。

具体而言，在利用深度学习的思想，在进行路径采样时设置以下三个评分机制：当主体实体能够到达答案实体时，进行正向评分：

当路径长度短时能够更加高效的进行处理，进行正向评分：

步骤六：对步骤五中的所获取的路径嵌入P＝p₁,p₂,...,p_i中的每一个路径p＝(r₁,r₂,...,r_l)进行路径嵌入得到关系路径嵌入向量e_p。

具体而言，在基于张量分解的知识图谱嵌入模型中，存在着每个三元组的值可以通过头部实体嵌入向量h和尾部实体嵌入向量t、与关系矩阵M_r的乘积来计算，期望满足式子：h·M_rt＝1。所以在基于张量分解的式子中对于路径满足约束：

其中，其中P表示包含从主体实体h到问题答案a或者候选实体h的路径序列中的所有关系的集合。表示第i个关系r_i在集合P中的嵌入。

步骤七：将步骤三中的主体实体嵌入向量e_h、问题答案嵌入向量e_a的表示与步骤六中的关系路径嵌入向量e_p进行拼接，得到一个包含了包含答案路径信息的嵌入向量e_x。

步骤八：将步骤四中的自然语言问句嵌入向量e_q与步骤七中包含答案路径信息的嵌入向量e_x送入到关系记忆嵌入模块，用于分析问句嵌入与实体嵌入之间潜在的依赖关系，并得到重映射的问题嵌入向量具体而言，使用一种基于关系记忆的嵌入网络，假设内存M由N行组成，其中每行是一个内存槽。使用M^(t)表示内存的步骤，以及/>表示时间步骤t中的第i个内存槽。遵循x_t更新/>使用多头自注意机制:

步骤九：将e_h和e_a送入评分模块中进行评分计算，并引入路径评分。尽管选择与计算最终得到终答案a_ans。

具体而言，将步骤八中的重映射的问题嵌入向量和主体实体嵌入向量e_h、候选问题答案嵌入向量e_a送入评分模块中进行评分计算。并引入步骤六中关系路径嵌入向量e_p，设置评分函数进行路径评分。最终的评分函数为：

评分函数由两部分组成，左半部分为ComplEx评分函数，具体细节如步骤二所示。

右半部分路径评分函数为。其中sim(e_p,e_q)表示问题嵌入向量和路径嵌入向量之间的相似度，选择余弦距离函数来计算相似度。α为超参数，表示三元关系和路径问题相关性之间权衡的权重。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本区域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所做的任何修改，等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于知识图谱嵌入与路径信息的多跳检索方法，其特征在于，包括以下步骤：

S7：将S3中的主体实体嵌入向量e_h、问题答案嵌入向量e_a的表示与S6中的关系路径嵌入向量e_p进行拼接，得到一个包含答案路径信息的嵌入向量e_x；

2.如权利要求1所述的一种基于知识图谱嵌入与路径信息的多跳检索方法，其特征在于，S2中，使用ComplEx模型进行知识图谱嵌入模型。

3.如权利要求1所述的一种基于知识图谱嵌入与路径信息的多跳检索方法，其特征在于，S4中，所述自然语言问句q输入到预训练的自然语言模型RoBERTa中进行训练微调，得到一个问句的初步嵌入向量，再通过全连接网络层，生成得到问题q的嵌入向量e_q∈C^d。

4.如权利要求1所述的一种基于知识图谱嵌入与路径信息的多跳检索方法，其特征在于，S5中，所述链路连接是三元组的实体之间通过关系相连接，在问答检索任务中如果主体实体与问题答案存在知识图谱上的关系连接，则对当前关系的路径进行记录，记录为一个路径p＝(r₁,r₂,...,r_l)，将主体实体h与问题答案a所有的路径进行记录为P＝p₁,p₂,...,p_i，在利用深度学习的思想，在进行路径采样时设置以下三个评分机制：当主体实体能够到达答案实体时，进行正向评分：

当路径长度短时能够更加高效的进行处理，进行正向评分：

5.如权利要求4所述的一种基于知识图谱嵌入与路径信息的多跳检索方法，其特征在于，S6中，在进行对路径P＝p₁,p₂,...,p_i进行路径嵌入时，基于张量分解的知识图谱嵌入模型中，存在着每个三元组的值可以通过主体实体嵌入向量h和客体实体嵌入向量t、与关系矩阵M_r的乘积来计算，期望满足式子：h^·M_rt＝1。所以关系路径嵌入向量e_p在基于张量分解的式子中对于每一个路径p＝(r₁,r₂,...,r_l)满足约束：

6.如权利要求5所述的一种基于知识图谱嵌入与路径信息的多跳检索方法，其特征在于，S8中，所述关系记忆嵌入模块是使用基于关系记忆的嵌入网络，对自然语言问句嵌入向量e_q进行处理，其中关系记忆嵌入模块网络的内存M由N行组成，每行是一个内存槽，关系记忆嵌入模块中使用M^(t)表示内存的步骤，以及表示时间步骤t中的第i个内存槽，遵循x_t更新/>使用多头自注意机制:

式中，H为注意头数，为向量拼接操作；对于第h个头，W^h,V∈R^n×k是一个值投影矩阵，其中n是头的大小，k＝nH，/>和α_i,N+1,h注意力权重，使用softmax函数在比例点积上计算，如下所示:

其中W^h,Q∈R^n×k，W^h,K∈R^n×k分别为查询投影矩阵和键投影矩阵，x_t和之间的残差连接提供给多层感知器，然后通过内存门控生成编码向量y_t∈R^k来表示时间步长t，下一个内存槽/>来表示时间步长(t+1)。

7.如权利要求6所述的一种基于知识图谱嵌入与路径信息的多跳检索方法，其特征在于，S9中，将重映射的问题嵌入向量和主体实体嵌入向量e_h、候选问题答案嵌入向量e_a送入评分模块中进行评分计算，引入中关系路径嵌入向量e_p，设置评分函数进行路径评分。最终的评分函数为：

8.一种实现如权利要求1-7所述方法的系统，其特征在于，包括：知识图谱嵌入模块、问题嵌入模块、路径采集模块、路径嵌入模块、关系记忆嵌入模块、答案评分模块和答案选择模块；其中

知识图谱嵌入模块，将知识图谱中的实体和关系转化为数值向量；

问题嵌入模块，使用预训练语言模型将自然语言问题进行向量表示；将问题和知识图谱中的信息进行匹配，实现更高效的信息检索和问答；

路径采集模块，在知识图谱中抽取主体实体与答案之间的关系路径，用来表示实体之间的关系，用来解决知识图谱推理问题；

路径嵌入模块，对不同类型的知识图谱嵌入方法，选用对应的路径嵌入方式建立一个向量空间，获得路径嵌入向量来表示在实体之间的关系；

关系记忆嵌入模块，将输入的嵌入向量信息存储在记忆中，分析依赖关系。