CN115525742A

CN115525742A - 一种基于表示学习的知识图谱问答方法

Info

Publication number: CN115525742A
Application number: CN202110706443.2A
Authority: CN
Inventors: 何小海; 朱晗; 卿粼波; 吴天波; 陈洪刚; 吴小强; 滕奇志
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-06-24
Filing date: 2021-06-24
Publication date: 2022-12-27

Abstract

本发明公开一种基于表示学习的知识图谱问答方法研究。模型可大致分为问题嵌入、关系筛选、向量融合、答案预测四个模块，几个模块之间相互联系。在已有知识表示学习模型的基础上，本发明提出了基于向量融合表示的答案预测方法，以问题嵌入模块为基础、关系筛选和向量融合模块为核心，通过答案预测模块输出结果，实现了端到端的知识图谱问答流程。近年来，知识图谱已经作为一种基础数据服务被广泛地应用在更多的垂直领域中支撑行业上层智能应用的建设。本文基于表示学习的特性和优势，结合医学背景的特点和应用落地的需求，设计并实现了基于医学知识图谱的问答系统，并将在智能问诊，辅助临床诊断方面有广阔的应用前景。

Description

一种基于表示学习的知识图谱问答方法

技术领域

本发明设计了一种基于表示学习的知识图谱问答方法，涉及深度学习技术、表示学习技术、自然语言处理技术领域。

背景技术

2012年5月，Google提出了知识图谱(Knowledge Graph)的概念，标志着知识图谱的诞生。随着Freebase、DBpedia、YAGO等大规模知识图谱的发展，衍生出了许多基于知识图谱的下游任务，如语义搜索、智能推荐、自动问答等，自动问答主要依赖的先验知识为知识图谱中大量的包含实体及关系的三元组，这些三元组是组成知识图谱的核心信息，通过错综复杂的连接关系构成知识图谱。知识图谱问答(Knowledge Graph QuestionAnswering,KGQA)的核心目标就是分析问题的语义，从这些三元组中挖掘出与问题最匹配的答案信息。

知识图谱问答有多种实现方式。近年来，随着深度学习的演进和普及，越来越多的知识图谱问答将答案预测流程映射到向量空间中求解，其中，基于表示学习的方法是实现知识图谱问答的重要手段之一。在许多任务中，解决问题的难易程度取决于信息的表示方式，这也是表示学习的理论依据。一个好的表示往往可以减弱后续任务的难度，而后续任务实现的好坏可以反过来对选择哪种表示做出指示。在知识图谱中，表示学习通过深度神经网络和某些特定的映射方法，将知识图谱的三元组信息嵌入到统一的低维向量空间，并在向量空间中对问题进行求解。相比于需要引入大量人工规则和辅助标注信息的传统方法，基于表示学习的方法能自主地从图谱数据中学习到相应的隐含信息，并能够较为理想地预测更加复杂的问题。

近年来，AI落地的呼声与日俱增，知识图谱已经作为一种基础数据服务被广泛地应用在更多的垂直领域中支撑行业上层智能应用的建设。以医学领域为例，随着大数据技术的不断发展，海量的医学信息出现在了多种形式的信息载体上，在这样的数字化背景下，如何有效地提取、存储和应用这些医学信息，提高它们的利用效率变得至关重要。

发明内容

本文基于表示学习的特性和优势，在开放域知识图谱问答中取得了一些进展，并借鉴其中具有迁移能力的方法，结合医学背景的特点和应用落地的需求，构建了医学知识图谱问答所需的子模块和数据集，设计并实现了基于医学知识图谱的问答系统。该系统在确保问答准确率的同时，具有较高的答案检索效率，为辅助医生信息查询和临床诊断提供了帮助，是实现智能问诊的重要基础。

本发明基于表示学习的方法和查询图的思路，提出了基于向量融合表示的答案预测方法，结合知识表示学习方法，构建了端到端的知识图谱问答模型，在单跳和多跳问答数据集上都能进行训练并回答相应跳数的问题。

MetaQA数据集是目前公开的一个大规模的多跳知识图谱问答数据集，在通用语料的电影领域中有超过40万个问题，分为单跳、2跳和3跳的问答对，同时提供了一个包含约13.5万条三元组、4.3万个实体的三元组集合构成的知识图谱。我们的模型在多跳问答基准数据集MetaQA上取得了较好的测试结果，并通过对向量融合策略的消融实验分析，验证了该方法的合理性。

本发明通过以下技术方案来实现上述目的：

1、步骤(一)中将输入的自然语言问句q映射为表示学习空间的问题向量v_q，供后续模块使用；

2、步骤(二)、(三)中从输入的问题筛选出与之可能相关的所有关系，得到关系集合R，作为三元组编码器的输入之一，为向量融合模块提供基础：

(1)先将问题q中的主语实体h送入查询图生成器，查询图生成器将对知识图谱中的所有关系进行初步筛选，生成关系候选集R₀；

(2)将q通过RoBERTa后，由公式(1)得到q₀，将其与R₀中的r计算点积，然后用Sigmoid函数，如下公式(2)得出它们的相似度分数s，将相似度分数s大于0.5的关系构成一个

集合，记为R₁；

q₀＝RoBERTa(q) (1)

(3)对答案候选集中的每个候选答案实体a，筛选主语实体h到a之间的最短关系路径，将所有最短路径中包含的关系构成另一个集合，记为R₂，对R₁和R₂取交集运算，见公式(3)，得到所需的关系集合R；

R＝R₁∩R₂ (3)

3、步骤(四)中本发明提出了向量融合的方法v_q和关系集合R进行有机融合，先对R中的每个关系进行编码，通过Pos-Att-complex编码器得到关系向量的集合V_R，对V_R中的所有关系向量计算了均值，然后将其与v_q相加，完成关系和问题向量的融合表示，输出的融合表示向量为v_r'；

4、步骤(五)中将答案候选集A中的所有实体以及主语实体h输入Pos-Att-complex编码器，得到候选答案向量的集合V_A和头实体向量v_h。将V_A中的每个向量与v_h、v_r'组合构成三元组编码，送入Pos-Att-complex解码器，对三元组进行打分，如公式(5)所示。

附图说明

图1是知识图谱问答模型结构。

图2是问题嵌入模块。

图3是关系筛选模块。

具体实施方式

下面结合附图对本发明作进一步说明：

图1为知识图谱问答模型结构。模型可大致分为问题嵌入、关系筛选、向量融合、答案预测四个模块，几个模块间有机联系，结合Pos-Att-complex编码器和解码器，共同完成知识图谱问答的任务。

问题嵌入模块的目标是将输入的自然语言问句q映射为表示学习空间的问题向量v_q，供后续模块使用。如图2所示，首先将问题q通过RoBERTa做词嵌，得到维度为768的词向量，然后输入到N层的线性层中，进一步学习问题的表示。线性层中的维度为512，每层线性层之间通过ReLU激活函数连接，赋予网络非线性变换的能力。在线性层的最后，通过一层工厂层，将特征向量的维度转换为三元组嵌入的维度，得到问题嵌入向量v_q。

关系筛选模块为从输入的问题筛选出与之可能相关的所有关系，得到关系集合R，作为三元组编码器的输入之一，为向量融合模块提供基础。具体流程如图3所示，首先将问题q中的主语实体h送入查询图生成器，查询图生成器将对知识图谱中的所有关系进行初步筛选，生成关系候选集R₀。生成步骤为：以h为中心节点，不限制跳数地遍历所有与h有关联的关系链，直到没有节点可以扩展出新的关系链，得到这些关系的集合R₀。得到R₀后，还要对其做进一步筛选，使输出到后续模块的信息尽可能地精确。一方面，对R₀中的每个关系r，计算问题q和r的语义相似度，将相似度分数s大于0.5的关系构成一个集合，记为R₁。另一方面，对答案候选集中的每个候选答案实体a，筛选主语实体h到a之间的最短关系路径，将所有最短路径中包含的关系构成另一个集合，记为R₂。至此，R₁包含了与问题q可能有关的所有关系，R₂包含了主语实体h到所有可能答案的路径中的关系，而本轮问答最有可能涉及到的关系应该处于两者的交集中，因此对R₁和R₂取交集运算，得到所需的关系集合R。

在向量融合模块中，首先对R中的每个关系进行编码，通过Pos-Att-complex编码器得到关系向量的集合V_R。为了表示关系集合中的向量，并与问题向量较好地融合，对V_R中的所有关系向量计算均值，然后将其与v_q相加，完成关系和问题向量的融合表示。

答案预测模块通过计算答案预测的分数输出得分最高的答案。计算方式如公式(5)所示。在训练过程中，模型将对所有候选答案输出一个答案预测分数，得到一个分数向量，而标签中的分数向量只有0和1，分别代表错误和正确答案。在计算损失时，对这两个向量计算二元交叉熵(BinaryCross-entropy,BCE)损失，并在一个batch内求平均。

为体现问答模型应对缺失链接的能力，用类似dropout的方式将知识图谱的三元组以50％的概率进行了随机删除，得到了缺失图谱下的1～3跳数据集，与原数据集扩展得到6个数据集。模型将在这6个数据集上开展实验，分别用n-full和n-half表示完整图谱和缺失图谱下的n跳数据集。

在6个数据集上完成训练后，将保存6个模型，依次在6个测试集上计算问答的准确率，将测试结果与近几年公开的模型对比，其测试结果如表一所示：

表一

结果表明，本文提出的基于向量融合表示的答案预测方法在完整知识图谱上的问答测试指标接近公开的最好结果，在缺失图谱的问答数据集上的测试结果超过了近几年的模型。

为了验证向量融合策略的有效性，进行了消融实验，在其他条件不变的情况下取消向量融合，直接将问题嵌入向量v_q当做v_r'输入Pos-Att-complex解码器，在相同实验环境下训练模型，其测试结果如表二所示：

表二

可以看出，当取消向量融合时，模型在1-half和2-half数据集上的结果与原始模型相同，在其他数据集上的准确率均出现了不同程度的下降，验证了向量融合策略的有效性。其中，在完整图谱的问答数据集上降幅更大，说明向量融合策略在n-full数据集上的重要性更强，在缺失链接场景下的n-half数据集上的影响略微小一些。

Claims

1.一种基于表示学习的知识图谱问答方法研究，其特征在于包括以下步骤：

步骤一：将问题q通过RoBERTa做词嵌得到的词向量，输入到线性层，每层线性层之间通过ReLU激活函数连接，最后通过一层工厂层，将特征向量的维度转换为三元组嵌入的维度，得到问题嵌入向量v_q；

步骤二：将问题q中的主语实体h送入查询图生成器，查询图生成器将对知识图谱中的所有关系进行初步筛选，生成关系候选集R₀，对R₀中的每个关系r，计算问题q和r的语义相似度，将相似度分数s大于0.5的关系构成一个集合，记为R₁；

步骤三：对答案候选集中的每个候选答案实体a，筛选主语实体h到a之间的最短关系路径，将所有最短路径中包含的关系构成另一个集合，记为R₂，再对R₁和R₂取交集运算，得到所需的关系集合R；

步骤四：对R中的每个关系进行编码，通过Pos-Att-complex编码器得到关系向量的集合V_R，对V_R中的所有关系向量计算了均值，然后将其与v_q相加，完成关系和问题向量的融合表示，模块输出的融合表示向量为v_r'；

步骤五：将答案候选集A中的所有实体以及主语实体h输入Pos-Att-complex编码器，将得到候选答案向量的集合V_A和头实体向量v_h，将V_A中的每个向量与v_h、v_r'组合构成三元组编码，送入Pos-Att-complex解码器，对三元组进行打分，取分数最高的那条三元组对应的尾实体，即为预测的答案；

步骤六：预测分数向量为p，标签分数向量为y，索引i处的损失loss(p_i,y_i)计算二元交叉熵，同时为减小过拟合带来的影响，引入正则化的策略，将loss与标签分数向量的L3范数加权。

2.根据权利要求1所述的基于表示学习的知识图谱问答方法，其特征在于步骤二中，提出了在知识图谱中筛选与问题q相关关系的方法，以问题q中的主语实体h为中心节点，不限制跳数地遍历所有与h有关联的关系链，直到没有节点可以扩展出新的关系链，得到这些关系的集合R₀，对R₀中的每个关系r与q通过RoBERTa后得到q₀计算点积，然后用Sigmoid函数得出它们的相似度分数s，将相似度分数s大于0.5的关系构成一个集合R₁。

3.根据权利要求1所述的基于表示学习的知识图谱问答方法，其特征在于步骤三中，提出了进一步筛选关系的方法，筛选出包含了主语实体h到所有可能答案的路径中的关系R₂，对R₁和R₂取交集运算，得到所需的关系集合R。

4.根据权利要求1所述的一种基于注意力位置联合编码的三元组分类方法，其特征在于步骤四中，通过在向量融合模块中对R中的每个关系进行编码，输入Pos-Att-complex编码器得到关系向量的集合V_R并计算向量的均值，然后将其与问题向量v_q相加，完成关系和问题向量的融合表示。