CN113590799A

CN113590799A - 一种基于多视角推理的弱监督知识图谱问答方法

Info

Publication number: CN113590799A
Application number: CN202110935495.7A
Authority: CN
Inventors: 胡楠; 漆桂林
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2021-11-02
Anticipated expiration: 2041-08-16
Also published as: CN113590799B

Abstract

本发明公开了一种基于多视角推理的弱监督知识图谱问答方法，主要通过解决知识图谱问答在弱监督条件下的长路径推理和伪路径问题。首先利用自然语言问题中涉及的知识图谱实体获取知识图谱子图。然后，利用知识图谱表示学习算法将知识图谱三元组映射为向量表示，同时在预训练语言模型的基础上将问题和子图中的关系映射为向量表示。接着，计算问题的向量表示与关系向量表示的语义匹配度和问题向量表示在知识图谱三元组中的结构匹配度。最后，通过监督学习的方法先优化与问题语义相似的关系，再优化与问题语义最相近的关系，得到一种在弱监督条件下的知识图谱问答核心路径推理模型。

Description

一种基于多视角推理的弱监督知识图谱问答方法

技术领域

本发明涉及一种基于多视角推理的弱监督知识图谱问答方法，属于自然语言处理技术领域。

背景技术

随着DBpedia、Freebase和WikiData等知识图谱的发展，它们的规模变得非常庞大。没有专业知识的普通人想要从大规模的知识图谱中查找知识是很困难的事情，于是人们越来越重视寻找有效便捷的方法来获取这些宝贵的知识资源。知识图谱问答又称知识库问答（KnowledgeBaseQuestionAnswering，KBQA），它以自然语言作为查询语言，是一种非常人性化的解决方案，使得它成为了近年来的研究热点。尽管有大量的研究，但KBQA仍然是具有挑战的任务，即使在研究得很好的领域，如英语中的开放领域KBQA，现有的方法也很难与人类对问题的理解相匹配。KBQA存在的挑战包括：1）表达差异，即自然语言问题的表达形式可能与KB中表达形式完全不同，导致自然语言问题到KB的映射变得困难；2）歧义，同一个词汇可能代表不同的实体，如“苹果”可能是水果，也可能是手机品牌。此外，由于训练数据的标注成本昂贵并且可能涉及专业知识来构造查询形式，尤其是在一些非英语的低资源语言上和一些专业的领域如法律或生物医学，它们给数据标注带来额外的成本。所以最近一些工作考虑在只给定问题和最终答案的这种弱监督情况下进行问答，因为只获取最终答案相比需要构造查询形式来说是更简单的。

KBQA中有两个关键的子任务，分别是实体链接（EntityLinking，EL）和路径推理（PathReasoning，PR）。EL的目的将自然语言问题链接到KB中的实体，它通常涉及两个步骤，主语检测和实体消歧。首先通过主语检测识别出自然语言问题中的主语提及，它近似于KB实体的名称，然后将主题提及链接到KB中获得候选主语实体，然后利用实体消歧方法对候选主语实体进行筛选。PR的目的是将自然语言问题映射到KB中的路径上，路径由一跳或者多跳关系组成。通过这条路径能够从KB中检索出问题的答案。

随着人工智能技术的发展，利用神经网络进行KBQA的方法也得到了发展并且展现出了光明的前景。一般来说，目前最流行的KBQA方法主要分为两类：基于语义分析和基于信息检索。基于语义分析的方法首先设计一个语义解析器将问题映射到逻辑形式，例如λ-DCS、可执行SPARQL或SQL查询、基于图结构的查询。然后利用一个执行模块来执行知识库中的查询。基于信息检索的方法首先标识主题实体，然后从知识图谱中检索距离主题实体一跳或多跳的子图作为候选答案，接下来设计各类特征将候选答案映射到低维的向量空间中，然后进行比较排序。

发明内容

本发明从现有KBQA工作在弱监督条件下，面对多跳的复杂问题难以正确理解问题语义进行推理的情况出发，依据多个角度的匹配约束，基于神经模型自身的迭代训练过程提出了一种基于多视角推理的弱监督知识图谱问答方法。该方法首先从文本语义匹配和知识图谱结构匹配两个角度逐步地对齐问题与路径，然后再利用两阶段优化方法，先优化与问题相似的路径再优化与问题最匹配的路径来训练模型。这样提出的路径推理模型能够更加准确地理解问题语义，推理出合理的通往答案的知识图谱路径而不是伪路径。

本方案公开了一种新的基于多视角推理的弱监督知识图谱问答方法，主要用于开放领域的知识图谱问答任务。本方案首先利用实体链接算法获取自然语言问题中涉及的知识图谱实体，然后检索以该实体为中心的知识图谱子图。然后，利用知识图谱表示学习算法将知识图谱三元组映射到低维空间的向量表示，同时在预训练语言模型的基础上将问题和子图中的关系进行编码，映射为向量表示。接着，计算问题的向量表示与关系向量表示的语义匹配度和问题向量表示在知识图谱三元组中的结构匹配度。最后，通过监督学习的方法先优化与问题语义相似的关系，再优化与问题语义最相近的关系，得到一种在弱监督条件下的知识图谱问答核心路径推理模型。该方案依据自然语言问题和知识图谱的语义和结构匹配信息，提出从多视角推理知识图谱问答的核心路径，并进行两个阶段的监督学习优化。

为了实现上述目的，本发明的技术方案如下：一种基于多视角推理的弱监督知识图谱问答方法，具体步骤如下：

步骤1）通过实体链接算法将自然语言问题链接到知识图谱中的实体，并使用实体查询知识图谱获取以该实体为中心的问题对应子图；

步骤2）通过知识图谱表示学习算法TransE将知识图谱中的三元组映射到向量空间，学习每个实体和关系和向量表示；

步骤3）通过预训练模型BERT获取自然语言问题的句子向量表示和步骤1）中子图的每个关系向量表示；

步骤4）通过步骤3）中的句子向量表示获取特定部分语义向量；

步骤5）通过计算步骤4）给出的特定部分语义向量与步骤3）给出的关系向量的相似度得分，以及特定部分语义向量在步骤2）中学习到的知识图谱表示学习算法的得分；

步骤6）利用步骤5）给出的相似度得分和表示学习算法得分计算在步骤1）中子图里的每条推理路径的联合推理概率；

步骤7）在大量数据上，通过mini-batch梯度下降的方式来训练初始模型，利用核采样算法选择步骤6）给出的概率和大于阈值的推理路径集合来计算损失分数更新参数，获得经过第一阶段优化的核心路径推理模型；

步骤8）在大量数据上，通过mini-batch梯度下降的方式来训练通过步骤7）给出的模型，通过步骤6）的模型概率计算公式，计算得到步骤7）核采样路径中概率最大的路径，利用该路径来计算损失分数更新参数，获得第二阶段优化的核心路径推理模型。

其中，在步骤1）利用实体链接算法将自然语言问题链接到知识图谱中的实体，然后利用实体在知识图谱中检索，获取T跳以内的子图。

步骤2）中，通过知识图谱表示学习算法TransE将知识图谱中的实体和关系映射到低维的向量空间中，获得每个实体和关系和向量表示。对于知识图谱中的正确三元组（h，l，t）和负采样的错误三元组（h’，l，t’），可以通过代价函数在每个mini-batch更新的实体h、t和关系l的向量：

；

d()表示距离计算函数。

步骤3）通过预训练模型BERT获取自然语言问题q的句子向量表示E_q和步骤1）中子图的每个关系r的向量表示E_r。自然语言问题q和关系r都由多个单词组成，E_q和E_r为单词向量之和取平均。

步骤4）在步骤3）的基础上，利用给出的句子向量表示获取特定部分语义向量。特定部分语义向量表示C_t第t步推理关注的问题特定语义信息，它由一个记忆单元决定：

；

将获得第t步的特定部分语义向量C_t。其中W_z、W_r和W为随机初始化的权重矩阵，sigmoid和tanh为非线性激活函数。

步骤5）使用点积计算步骤4）给出的特定部分语义向量C_t与步骤3）给出的关系向量E_r的相似度得分S_m：

；

以及特定部分语义向量C_t在步骤2）中学习到的知识图谱表示学习算法TransE里的三元组得分S_φ：

；

其中φ()表示TransE计算三元组的得分函数，E_ei和E_ej是三元组的头实体向量和尾实体向量，V_q是随机初始化的转换矩阵M_c和C_t的点积结果。

步骤6）利用步骤5）给出的相似度得分S_m和表示学习算法得分S_φ可以计算步骤1）子图中的所有路径的得分，然后根据归一化概率获得每一条路径p_i的相似度得分概率P_m(p_i)和表示学习算法得分概率P_φ(pi)：

；

其中|p_i|表示路径p_i的跳数，然后每一条路径p_i的联合概率P(p_i)为：

；

步骤7）利用核采样算法在步骤6）的模型概率计算基础上，获取所有可能的路径集合P_top-p，其中的所有路径的概率和需大于设定的概率阈值Prob。然后通过构造一个路径数量最少的路径集合P_t，该集合属于集合P_top-p，即满足所有路径概率和大于Prob：

；

其中|P_top-p|表示路径集合P_top-p里的路径数量，它需满足：

；

然后在大量数据上，通过mini-batch梯度下降的方式来训练初始模型，利用负对数似然来计算联合概率损失函数来更新参数，获得第一阶段优化的路径推理模型：

；

步骤8）通过步骤6）模型概率计算公式，计算步骤7）中的核采样路径的概率，得到概率最大的那条路径p_k：

；

然后利用该路径p_k获取最佳路径集合p_best，对于每一条路径

，它的关系名称与p_k完全一样。然后在大量数据上，通过mini-batch梯度下降的方式来训练步骤7）给出的第一阶段优化的路径推理模型，利用负对数似然计算联合概率的损失函数来更新参数，获得第二阶段优化的路径推理模型：

。

相对于现有技术，本发明的优点如下：

1）本发明提出了从文本匹配和知识图谱结构匹配两个角度来对齐问题和知识图谱路径，相比于传统方法，这两个角度的对齐可以更好地保证在弱监督的条件下，使得对齐更加精准。文本匹配是从问题文本和知识图谱关系文本的语义上进行对齐，这能够保证语义上的表述一致。知识图谱结构匹配是将问题向量代替知识图谱三元组中的关系向量，利用知识图谱表示学习算法计算新的三元组分数，这充分利用了图结构上约束，两个角度的联合对齐有利于模型更加准确地理解问题语义；

2）本发明在知识图谱问答领域运用了预训练语言模型对问题和知识图谱关系进行编码，预训练语言模型可以在较少的训练数据上达到更好地效果，同时，预训练语言模型使用大型的无监督语料进行训练，可以更好的编码输入的文本，获取更加鲁棒的向量特征，对于提升模型的泛化性具有重要意义；

3）本发明提出了逐步推理对齐问题和知识图谱路径，将回答问题的过程按照人类思考的过程来处理，逐步解析复杂问题，并设计了一个记忆单元来存储每一步的信息，在之后的推理过程中回忆历史信息来帮助选择当前步中应该更加关注问题的哪个特定部分语义，这种方法有利于帮助正确并且合理地推理回答路径，让答案的生成更加具有可解释性；

4）本发明提出了一种两阶段优化模型的方法，针对解决弱监督条件下缺乏中间路径监督信息的问题。这个问题导致直接推理出正确路径是困难的，并且通往答案的路径往往不止一条，传统方法极容易通过与问题语义无关的伪路径来找到的答案，学习这种伪路径会对模型造成误导。本发现提出第一阶段选择与问题语义相近的路径来优化模型，第二阶段再选择与问题语义最匹配的路径来优化模型，这种方法能有效缓解伪路径的问题，让推理过程更加合理；

5）本发明提出了利用核采样算法来采样路径，选择模型概率之和大于设定的概率阈值的最小路径集合，将这些路径视为与问题语义相近的路径。以前的路径采样方法容易受到前期训练概率分布变化大的影响，导致采样有效性低，忽略了正确路径或者是带来了很多噪声路径。本发明采样方法能够有效提高采样的质量，利于训练模型推理知识图谱路径。

附图说明

图1是知识图谱问答系统流程图；

图2是路径推理模型架构图；

图3是伪路径问题示例图；

图4是路径推理过程图A；

图5是路径推理过程图B。

具体实施方式

以下结合实施例和说明书附图，详细说明本发明的实施过程。整个知识图谱问答系统流程参见图1，分为三个步骤：节点检测、路径推理和答案约束。

实施例1：本发明解决的场景是弱监督知识图谱问答中的伪路径情况，参见图3。本发明的模型结构图参见图2，本发明是一种基于多视角推理的弱监督知识图谱问答方法，本发明用于解决弱监督知识图谱问答中的伪路径问题，包括以下几个步骤：

步骤1）利用实体链接算法将自然语言问题链接到知识图谱中的实体，然后利用实体在知识图谱中检索，以该实体为中心获取T跳以内的子图。

；

然后可以获得一个三元组的距离函数也称得分函数为：

；

步骤3）通过预训练模型BERT获取自然语言问题q的句子向量表示E_q和步骤1）中子图的每个关系r的向量表示E_r。自然语言问题q和关系r都由多个单词组成，E_q和E_r为单词向量之和取平均。例如一个自然语言问题

那么句子向量表示为各个BERT编码的各个单词向量的和取平均值，

。

步骤4）在步骤3）的基础上，利用给出的句子向量表示获取特定部分语义向量。特定部分语义向量表示每一步推理关注的问题特定语义信息，它由一个记忆单元决定，记忆单元通过一个更新门z_t和一个重置门r_t来选择每一步遗忘和保留的历史以及当前语义信息：

；

将获得每一步的特定部分语义向量C_t，当t=0时即C₀为随机初始化向量。

步骤5）中使用点积来计算步骤4）给出的特定部分语义向量C_t与步骤3）给出的关系向量E_r的相似度得分S_m：

；

；

其中φ()表示TransE计算三元组的得分函数，E_ei和E_ej是三元组的头实体向量和尾实体向量。

步骤6）利用步骤5）给出的相似度得分S_m和表示学习算法得分S_φ可以计算步骤1）子图中的所有路径的得分，然后根据归一化概率获得每一条路径p_i的相似度得分概率P_m(p_i)和表示学习算法得分概率P_φ(pi):

；

；

；

其中|P_top-p|表示路径集合P_top-p里的路径数量，它需满足：

；

；

；

然后利用该路径p_k获取最佳路径集合p_best，对于每一条路径

，它的关系名称与p_k完全一样，然后在大量数据上，通过mini-batch梯度下降的方式来训练步骤7）给出的第一阶段优化的路径推理模型，利用负对数似然计算联合概率的损失函数来更新参数，获得第二阶段优化的路径推理模型：

；

传统的梯度下降，每次梯度下降都是对所有的训练数据进行计算平均梯度，这种梯度下降法叫做full-batch梯度下降法。考虑一种情况，当训练数据量在千万级别时，一次迭代需要等待多长时间，会极大的降低训练速度。如果选择介于合适的bath size数据量进行训练，称为mini-batch 梯度下降。

随机梯度下降的劣势每次训练的不能保证使用的是同一份数据，所以每一个batch不能保证都下降，整体训练loss变化会有很多噪声，但是整体趋势是下降的，随后会在最优值附近波动，不会收敛。

在训练过程中，使用精确度p，召回率r和平衡指标F1来观察训练情况：

；

设置了验证集，在每轮训练结束时观察当前训练的模型收敛情况，防止出现在训练集上的过拟合，由于验证集上的数据没有在训练中出现，所以模型在验证集上的效果可以衡量模型的泛化性。

在训练的过程中，Bert的参数维持其原有设置，知识图谱嵌入维度为100（经过测试后的最佳大小）。batch的大小为32（经过测试的最佳大小），采用dropout=0.5的设置来避免过拟合。设置early-stop在验证集指标5轮没有提升时停止训练。

本实施例使用了评估方法为Held-out，将整个标注数据按照7:3进行划分，其中70%用于训练，30%用于测试。这两个集合没有任何交集。得到训练模型后，对测试集上的数据进行路径推理，推理计算得到概率最大的路径即是正确路径，推理过程示例参见图4和图5。

需要说明的是上述实施例，并非用来限定本发明的保护范围，在上述技术方案的基础上所作出的等同变换或替代均落入本发明权利要求所保护的范围。

Claims

1.一种基于多视角推理的弱监督知识图谱问答方法，其特征在于，该方法包含以下步骤：

步骤1）将自然语言问题链接到知识图谱中的实体，并通过实体查询知识图谱获取问题对应的子图；

步骤4）通过步骤3）中的句子向量表示获取部分语义向量；

步骤5）通过计算步骤4）给出的部分语义向量与步骤3）给出的关系向量的相似度得分，以及部分语义向量在步骤2）中学习到的知识图谱表示学习算法的得分；

2.根据权利要求1所述的基于多视角推理的弱监督知识图谱问答方法，其特征在于，步骤1）中将自然语言问题利用实体链接算法链接到知识图谱中的实体，然后利用实体在知识图谱中检索，获取T跳以内的子图。

3.根据权利要求1所述的基于多视角推理的弱监督知识图谱问答方法，其特征在于，步骤2）中，通过知识图谱表示学习算法TransE将知识图谱中的实体和关系映射到低维的向量空间中，获得每个实体和关系和向量表示，对于知识图谱中的正确三元组（h，l，t）和负采样的错误三元组（h’，l，t’），通过代价函数在每个mini-batch更新的实体h、t和关系l的向量：

d()表示距离计算函数。

4.根据权利要求1所述的基于多视角推理的弱监督知识图谱问答方法，其特征在于，步骤3）通过预训练模型BERT获取自然语言问题q的句子向量表示E_q和步骤1）中子图的每个关系r的向量表示E_r，自然语言问题q和关系r都由多个单词组成，E_q和E_r为单词向量之和取平均。

5.根据权利要求1所述的基于多视角推理的弱监督知识图谱问答方法，其特征在于，步骤4）对步骤3）中的句子向量表示E_q获取部分语义向量C_t，部分语义向量C_t表示第t步推理关注的问题语义信息，它由一个记忆单元决定，部分语义向量C_t的计算公式为：

其中W_z、W_r和W为随机初始化的权重矩阵，sigmoid和tanh为非线性激活函数。

6.根据权利要求1所述的基于多视角推理的弱监督知识图谱问答方法，其特征在于，步骤5）使用点积计算步骤4）给出的部分语义向量C_t与步骤3）给出的关系向量E_r的相似度得分S_m：

；

以及部分语义向量C_t在步骤2）中学习到的知识图谱表示学习算法TransE里的三元组得分S_φ：

7.根据权利要求1所述的基于多视角推理的弱监督知识图谱问答方法，其特征在于，步骤6）利用步骤5）给出的相似度得分S_m和表示学习算法得分S_φ计算步骤1）子图中的所有路径的得分，然后根据归一化概率获得每一条路径p_i的相似度得分概率P_m(p_i)和表示学习算法得分概率P_φ(pi):

。

8.根据权利要求1所述的基于多视角推理的弱监督知识图谱问答方法，其特征在于，步骤7）利用核采样算法选择步骤6）给出的概率和大于阈值Prob的路径集合P_top-p，然后通过构造一个路径数量最少的路径集合P_t，其中的所有路径概率和大于Prob：

；

其中|P_top-p|表示路径集合P_top-p里的路径数量，它需满足：

；

。

9.根据权利要求1所述的基于多视角推理的弱监督知识图谱问答方法，其特征在于，步骤8）通过步骤6）模型概率计算公式，计算步骤7）中的核采样路径的概率，得到概率最大的那条路径p_k：

；

然后利用该路径p_k获取最佳路径集合p_best，对于每一条路径

；它的关系名称与p_k完全一样，然后在大量数据上，通过mini-batch梯度下降的方式来训练步骤7）给出的第一阶段优化的路径推理模型，利用负对数似然计算联合概率的损失函数来更新参数，获得第二阶段优化的路径推理模型：

。