CN113722510B

CN113722510B - 一种基于图神经网络的知识图谱复杂问题生成方法及系统

Info

Publication number: CN113722510B
Application number: CN202111068700.0A
Authority: CN
Inventors: 丁鲲; 刘茗; 毕胜; 刘姗姗; 陈佳敏; 张骁雄; 张慧; 蒋国权; 钱璟
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2024-04-05
Anticipated expiration: 2041-09-13
Also published as: CN113722510A

Abstract

本发明公开了一种基于图神经网络的知识图谱复杂问题生成方法及系统，属于自然语言处理领域。所述方法包括将输入的带权值的知识图谱子图进行重构，转换成有向无权的知识图谱子图；初始化所述有向无权的知识图谱子图中的向量表示；利用Bi‑MHDGT图神经网络对有向无权的知识图谱子图进行编码，结合有向无权的知识图谱子图结构信息更新节点的向量表示；根据更新后的节点向量表示，使用GRU网络进行解码，并使用注意力机制和复制机制，生成复杂问题。本发明方法能有效提升对输入知识图谱子图的编码能力，准确提取生成问题所需的复杂关系信息，实现生成复杂问题的目的。

Description

一种基于图神经网络的知识图谱复杂问题生成方法及系统

技术领域

本发明属于自然语言处理领域，具体涉及一种基于图神经网络的知识图谱复杂问题生成方法及系统。

背景技术

随着万维网技术的飞速发展，互联网上的网页数量呈几何倍数的增长。借助互联网，人们能够更加便捷地获取大量网页信息，但是传统的万维网缺乏对网页的形式化组织，没有明确的语义信息，使得计算机难以理解这些信息，人们也无法有效从海量的信息中获取所需信息。为此Google于2012年提出了知识图谱(KnowledgeGraph，KG)的概念，将知识结构化表示成形式为<头实体，关系，尾实体>的三元组数据，如<张三，妻子，李四>，并通过融合基于知识图谱的问答技术提升搜索引擎的能力，使人与计算机更好地协同。基于知识图谱的问答技术广泛应用于现有主流搜索引擎，对用户搜索的问题实现精准返回所需信息，以更友好的方式满足用户的需求，在不需要学习SPARQL等复杂查询语言的情况下，以一种可访问的、自然的方式从知识图谱中检索问题。但是现有基于知识图谱的问答无法回答“张三的妻子毕业于哪所学校？”这种包含多跳关系的复杂问题。这主要是因为相关数据集的缺失，限制了复杂问题的知识图谱问答研究的进展，而标注这类复杂数据需要大量人力物力，难以得到足够规模的高质量问答数据集。这使得本发明提出的知识图谱复杂问题生成具有重要意义，可以用于大规模自动构建复杂问题数据集。

基于知识图谱的问题生成(Question Generation over Knowledge Graph，KGQG)以知识图谱(Knowledge Graph，KG)子图和目标答案实体作为输入，目标生成可以被给定知识图谱子图回答，并以给定目标答案实体为答案的自然语言表述问题。知识图谱复杂问题生成基于一个更符合实际情况的设定，认为输入知识图谱子图可以包含多个三元组，而以往基于单个三元组生成问题属于知识图谱问题生成任务的一种特殊情况。知识图谱复杂问题生成更具有普适性，囊括知识图谱问题生成任务的各种情况。而在复杂问题场景，输入的知识图谱子图为复杂的非欧式空间结构数据，现有大部分方法将子图转化成序列进行处理，无法有效编码子图的结构信息。少部分通过图神经网络的方法也无法有效学习节点之间的长期依赖关系，无法有效编码子图中涉及的多跳关系，无法确保生成问题包含期望的复杂关系。

发明内容

技术问题：针对知识图谱复杂问题生成的研究，难以有效编码输入的知识图谱子图，生成包含复杂关系信息的问题，提供一种基于图神经网络的知识图谱复杂问题生成方法及系统。

技术方案：一方面，本发明提供一种基于图神经网络的知识图谱复杂问题生成方法，包括：

S1：将输入的带权值的知识图谱子图进行重构，转换成有向无权的知识图谱子图；

S2：初始化所述有向无权的知识图谱子图中的向量表示；所述带权值的知识图谱子图由多个三元组构成，每个三元组包括主语、谓语、宾语，主语和宾语作为实体节点，而谓语作为边连接实体节点，构成一个子图：

其中，V是实体节点集合，E是关系边集合；

所述有向无权的知识图谱子图表示为：

其中，V＝{v₁,v₂,…,v_N}，N是节点的数目，调整顺序让V1表示全局关系节点，是邻接矩阵，记录子图N个节点之间的连通关系；

S3：利用Bi-MHDGT图神经网络对有向无权的知识图谱子图进行编码，结合有向无权的知识图谱子图结构信息更新节点的向量表示；

根据有向无权的知识图谱子图的邻接矩阵信息，在图神经网络的每一层，节点能根据经过该层层数以内跳数的节点的信息更新表示，并引入额外的嵌入表示向量标识不同节点之间的距离；其中，子图中节点i的更新方式为：

其中，是节点i第l层的向量表示，初始化/> 表示节点i的l跳内节点集合，W_v表示可学习的参数矩阵，α_ij表示节点i和节点j之间的权重系数，α_ij的计算如下式所示：

其中，hop_ij表示节点i和节点j之间跳数的向量表示，和W_k是可学习的参数矩阵，softmax是激活函数，最后α_ij计算过程包括两部分，(a)部分与Transformer网络的注意力计算过程一致，(b)部分表示节点i对节点j的关系偏向；

分别对节点的出边和入边编码得到节点的出边编码和入边编码；

最后经过L层图神经网络的编码，得到有向无权的知识图谱子图节点的表示；

S4：根据更新后的节点向量表示，使用GRU网络进行解码，并使用注意力机制和复制机制，生成复杂问题；

使用GRU网络进行解码，生成问题文本序列，GRU的初始隐藏状态为全局关系的向量表示，在每一个时间步t根据当前输入和编码器输出的节点向量表示H预测当前时间步的输出，其初始输入为自定义标识符“sos”，后续时间步的输入为前一个时间步的输出y_t-1；

利用注意力机制，在每一个时间步解码器注意到编码器输出的H＝{h₁,h₂,…,h_N}中不同信息，得到当前时间步的上下文信息向量c_t，计算公式如下：

其中，α_tj的计算公式如下：

其中，a表示注意力计算函数；

然后，预测词典分布P_vocab，公式如下所示：

P_vocab＝softmax(tanh(W*[s_t∥c_t∥y_t-1]+b)

其中，W和b是可学习参数，tanh是激活函数；

然后，确定当前时间步生成问题词语的概率分布：

p(y_t∣y_＜t)＝p_gen*P_vocab+(1-p_gen)*P_copy

其中，p_gen表示直接从词典中生成当前时间步的生成问题词语的概率，P_copy表示利用复制机制从输入子图中复制一个节点当作当前时间步的生成问题词语的概率；

最后，通过softmax函数求得概率最高的词语作为时间步输出的y_t。

进一步地，所述步骤S1中将带权值的知识图谱子图进行重构，转换成有向无权的知识图谱子图的方法包括：

将带属性的关系边转化成为一个节点，同时添加两条有向边连接头实体节点和尾实体节点；

添加全局关系节点，并通过边连接所有关系节点；

对每个节点增加自循环边连接自身。

进一步地，所述步骤S2中初始化所述有向无权的知识图谱子图中的向量表示的方法包括：对有向无权的知识图谱子图中的实体节点和关系节点进行初始化向量表示。

进一步地，对有向无权的知识图谱子图中的实体节点进行初始化向量表示的方法为：

通过一个可学习的嵌入表示矩阵E_entity将实体节点映射为向量；

使用one-hot向量标记实体节点中的答案实体，再通过另一个嵌入表示矩阵E_answer将该one-hot向量映射为与E_entity维度相同的向量，然后相加得到实体节点的初始化向量表示。

进一步地，对有向无权的知识图谱子图的关系节点进行初始化向量表示的方法为：

将关系节点包含的领域、类型和主题信息表示成一个序列{r¹,r²,r³}，然后使用Bi-GRU网络对其进行编码，计算过程如下：

其中，和/>分别表示前向GRU网络和后向GRU网络的时间步t隐藏状态，最后将前向GRU网络和后向GRU的最后隐藏状态串联结果/>作为关系节点的初始化向量表示。

进一步地，所述方法还包括对步骤S1～S4所构成的模型进行优化，优化的方法为，定义损失函数，通过最小化损失函数，使得模型达到最优。

进一步地，所述的损失函数为：

其中，其中表示输入的知识图谱子图，a表示答案实体，θ_qg表示模型所有的参数，t表示序号。

另一方面，本发明提供一种基于图神经网络的知识图谱复杂问题生成系统，用于实现所述的基于图神经网络的知识图谱复杂问题生成方法，包括：

重构单元，用于将输入的带权值的知识图谱子图进行重构，转换成有向无权的知识图谱子图；

初始化单元，用于初始化所述有向无权的知识图谱子图中的向量表示；

编码单元，用于利用Bi-MHDGT图神经网络对有向无权的知识图谱子图进行编码，结合有向无权的知识图谱子图结构信息更新节点的向量表示；

生成单元，用于根据更新后的节点向量表示，使用GRU网络进行解码，并使用注意力机制和复制机制，生成复杂问题。

有益效果：相比于现有的知识图谱问题生成方法，本发明考虑到了针对复杂问题情况，设计了一种基于图神经网络方法，能在有效利用输入子图的结构信息的同时，学习节点之间的长期依赖信息，提升对多跳复杂关系的提取能力；另外通过在解码过程中使用注意力机制和复制机制，能够解决知识图谱问题生成任务中普遍存在的未登录词问题。

并且，经实验验证，本发明提出的图神经网络方法能有效提升对知识图谱复杂问题场景输入子图的编码能力，有效提取生成问题所需的关系信息，保证了生成问题的复杂性。另外，在解码过程使用注意力机制和复制机制，有效解决未登录词问题，可以生成更高质量的问题，包含期望的复杂关系。

附图说明

图1为本发明的实施例中基于图神经网络的知识图谱复杂问题生成方法的流程图；

图2为本发明的实施例中知识图谱复杂问题任务实施示例图；

图3为本发明的实施例中输入知识图谱子图重构示例。

具体实施方式

下面结合实施例和说明书附图对本发明作进一步的说明。图1示出了本发明的一个实施例中基于图神经网络的知识图谱复杂问题生成方法的流程图方法的流程图，结合图1所示，本发明的方法包括以下步骤：

结合图2所示的示例中，输入子图多个三元组构成，每个三元组可以表示为<subject，predicate，object>，分别表示主语、谓语、宾语，主语和宾语作为实体(entity)节点，而关系(谓语)作为边连接实体节点，构成一个子图其中V是实体节点集合，E是关系边集合。该子图为带权值图，而现有的大多数图神经网络对这种图编码时边将有相同的向量表示。实际上，关系边所具有的隐藏信息应该是跟它在图中所处的位置有关的。

根据给定不同答案，可以生成不同问题，如给定答案实体“lisi”可以生成问题“Whoiszhangsan’swife？”。在知识图谱复杂问题生成场景，输入子图为带权值图，而现有图神经网络无法有效处理，为此，本发明的实施例中在对子图编码之前先将子图重构为有向无权图。

子图重构的思路如图3所示，左侧的带权值图重构为如右侧所示有向无权图。具体方法为：将带属性的关系边转化成为一个节点，同时添加两条有向边连接头实体节点和尾实体节点；添加全局关系节点“global”，并通过边连接所有关系节点，用来聚集问题生成所需的多跳复杂关系信息；同时为了让节点能够结合自身信息，对每一个节点都添加一条自循环边。

S2：初始化所述有向无权的知识图谱子图中的向量表示；

重构后的子图可以表示为其中V＝{v₁,v₂,…,v_N}，N是节点的数目，调整顺序让V₁表示全局关系节点。/>是邻接矩阵，记录子图N个节点之间的连通关系。在本发明的实施例中，对于有向无权的知识图谱子图中的实体节点，通过一个可学习的嵌入表示矩阵E_entity将实体节点映射为向量X^e，同时使用one-hot向量标记实体节点中的答案实体，再通过另一个嵌入表示矩阵E_answer将该one-hot向量映射为与X^e维度相同的向量X^a，然后相加得到实体节点最终初始化向量表示。

对于有向无权的知识图谱子图中的关系节点，将关系节点包含的领域、类型和主题信息表示成一个序列{r¹,r²,r³}，如关系谓词“spouse”在Freebase知识图谱中对应“people.marriage.spouse”，包含“人”、“婚姻”和“配偶”三部分信息，可以表示为序列{people,marriage,spouse}，然后使用Bi-GRU网络对其进行编码，计算过程如下：

其中和/>分别表示前向GRU和后向GRU网络的时间步t隐藏状态，最后将前向GRU网络和后向GRU的最后隐藏状态串联结果作为关系节点的初始化向量表示，即最后节点的向量表示初始化为X＝X^a+X^e+X^r，作为后续图神经网络的输入。

S3：利用Bi-MHDGT图神经网络对有向无权的知识图谱子图进行编码，结合有向无权的知识图谱子图结构信息更新节点的向量表示。

在使用图神经网络对输入子图编码，更新子图节点的向量表示过程中，不同于以往方法每个节点只能聚集一阶邻居节点信息更新自身表示，无法有效学习节点之间的长期依赖关系。在本发明的实施例中，用双向多跳依赖Graph Transformer(BidirectionalMulti-Hop Dependency Graph Transformer，Bi-MHDGT)图神经网络对有向无权的知识图谱子图进行编码，根据有向无权的知识图谱子图的邻接矩阵信息，在图神经网络的每一层，节点能根据经过该层层数以内跳数的节点的信息更新表示，并通过引入额外的嵌入表示向量标识不同节点之间的距离，在实现节点之间的长期信息交互的同时，有效利用子图的结构信息。如图3右侧重构后的有向无权的知识图谱子图中，在第2层图神经网络编码过程中，节点“lisi”能同时根据节点“zhangsan”和“spouse”的信息更新自身向量表示，而不是仅仅根据相邻的“spouse”。具体的子图中节点i的更新方式如下式所示：

其中，是节点i第l层的向量表示，初始化/> 表示节点i的l跳内节点集合，W_v是可学习的参数矩阵，α_ij表示节点i和节点j之间的权重系数，α_ij的计算如下式所示：

其中，hop_ij表示节点i和节点j之间跳数的向量表示，和W_k表示可学习的参数矩阵，softmax是激活函数，最后α_ij计算过程包括两部分，(a)部分与Transformer网络的注意力计算过程一致，(b)部分表示节点i对节点j的关系偏向。

因为知识图谱复杂问题生成中输入的子图是有向图，节点的信息只能通过边进行传递，此时节点信息只能从一个方向传递，头节点无法获取尾结点的信息，因此，在本发明的实施例中，分别对节点的出边和入边编码得到节点的出边编码和入边编码，使得节点信息可以反向传递，得到节点的双向信息。

最后经过L层图神经网络的编码，得到有向无权的知识图谱子图节点的表示H＝{h₁,h₂,…,h_N}，N是节点的数目，L是自定义层数，其中h₁是全局关系节点的向量表示，作为解码层的初始隐藏状态输入。

S4：根据更新后的节点向量表示，使用注意力机制和复制机制进行解码，生成复杂问题。

在本发明的实施例中，解码使用GRU网络实现，目标生成问题文本序列Y＝{y₁,y₂,…,y_T}，T是问题文本的长度。GRU的初始隐藏状态为全局关系的向量表示，即s₀＝h₁。在每一个时间步t根据当前输入和编码器输出的节点向量表示H预测当前时间步的输出。其实初始输入为自定义标识符“sos”，后续时间步的输入为前一个时间步的输出y_t-1。

通过注意力机制，在每一个时间步解码器注意到编码器输出的H＝{h₁,h₂,…,h_N}中不同信息，得到当前时间步的上下文信息向量c_t，计算公式如下：

其中，α_tj的计算如下式所示：

其中，a表示注意力计算函数，用于计算输入的两个向量相关性，通过线性层实现。

然后预测词典分布P_vocab，公式如下所示：

P_vocab＝softmax(tanh(W*[s_t∥c_t∥y_t-1]+b)

其中，W和b是可学习参数，tanh是激活函数。

P_vocab是关于问题词语的概率分布，无法生成未登录词。在当前时间步的生成问题词语就有一定概率直接从词典中生成，也有一定概率从输入中复制，在本发明的实施例中，直接生成的概率p_gen计算过程如下式所示：

p_gen＝σ(W_gen[s_t∥c_t∥y_t-1]+b_gen)

W_gen和b_gen是可学习参数矩阵，σ是激活函数sigmoid。

在本发明的实施例中，使用复制机制，可以从输入子图中复制一个节点到最终生成问题文本中，这个从输入中复制的概率分布P_copy就是注意力权重序列α_t＝(α_t1,α_t2,…,α_tN)，计算过程如上α_tj的计算公式。

从而可得到最后当前时间步生成问题词语的概率分布为：

p(y_t∣y_＜t)＝p_gen*P_vocab+(1-p_gen)*P_copy

然后通过softmax函数求得概率最高的词语作为时间步输出的y_t。

在本发明的实施例中，为了使得步骤S1～S4整个过程构成的模型能够更好的提升生成问题的质量，还定义了损失函数，通过最小化损失函数，优化模型。

知识图谱复杂问题生成的目标就是最大化生成问题文本序列Y＝{y₁,y₂,…,y_T}的概率，本发明的实施例中，定义如下损失函数：

其中，a分别是输入的知识图谱子图和答案实体，θ_qg表示模型所有的参数，通过最小化损失函数/>优化调整参数θ_qg，使模型能生成更高质量的复杂问题。

此外，在本发明的实施例中，还提供一种基于图神经网络的知识图谱复杂问题生成系统，用以实现本发明的实施例中，所提出的图神经网络的知识图谱复杂问题生成方法，该系统包括重构单元、初始化单元、编码单元和生成单元，其中：

编码单元，用于利用Bi-MHDGT图神经网络对有向无权的知识图谱子图进行编码，结合知识图谱子图结构信息更新节点的向量表示；

对于各个单元具体如何实现相应的功能，与上述实施例中本发明关于生成方法的描述相同，此处就不再赘述。

上述实施例仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和等同替换，这些对本发明权利要求进行改进和等同替换后的技术方案，均落入本发明的保护范围。

Claims

1.一种基于图神经网络的知识图谱复杂问题生成方法，其特征在于，包括：

其中，V是实体节点集合，E是关系边集合；

所述有向无权的知识图谱子图表示为：

S3：利用Bi-MHDGT图神经网络对有向无权的知识图谱子图进行编码，结合有向无权的知识图谱子图结构信息更新节点的向量表示：

根据有向无权的知识图谱子图的邻接矩阵信息，在图神经网络的每一层，节点能根据经过该层层数以内跳数的节点的信息更新表示，并引入额外的嵌入表示向量标识不同节点之间的距离；其中，有向无权的知识图谱子图中节点i的更新方式为：

S4：根据更新后的节点向量表示，使用GRU网络进行解码，并使用注意力机制和复制机制，生成复杂问题：

利用注意力机制，在每一个时间步解码器注意到编码器输出的H＝{h₁，h₂，...，h_N}中不同信息，得到当前时间步的上下文信息向量c_t，计算公式如下：

其中，α_tj的计算公式如下：

其中，a表示注意力计算函数；

然后，预测词典分布P_vocab，公式如下所示：

P_vocab＝softmax(tanh(W*[s_t||c_t||y_t-1]+b)

其中，W和b是可学习参数，tanh是激活函数；

然后，确定当前时间步生成问题词语的概率分布：

p(y_t|y_＜t)＝p_gen*P_vocab+(1-p_gen)*P_copy

2.根据权利要求1所述的方法，其特征在于，所述步骤S1中将带权值的知识图谱子图进行重构，转换成有向无权的知识图谱子图的方法包括：

添加全局关系节点，并通过边连接所有关系节点；

对每个节点增加自循环边连接自身。

3.根据权利要求1所述的方法，其特征在于，所述步骤S2中初始化所述有向无权的知识图谱子图中的向量表示的方法包括：对有向无权的知识图谱子图中的实体节点和关系节点进行初始化向量表示。

4.根据权利要求3所述的方法，其特征在于，对有向无权的知识图谱子图中的实体节点进行初始化向量表示的方法为：

5.根据权利要求3所述的方法，其特征在于，对有向无权的知识图谱子图的关系节点进行初始化向量表示的方法为：

将关系节点包含的领域、类型和主题信息表示成一个序列{r¹，r²，r³}，然后使用Bi-GRU网络对其进行编码，计算过程如下：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述方法还包括对步骤S1～S4所构成的模型进行优化，优化的方法为，定义损失函数，通过最小化损失函数，使得模型达到最优。

7.根据权利要求6所述的方法，其特征在于，所述的损失函数为：

8.一种基于图神经网络的知识图谱复杂问题生成系统，用于实现权利要求1-7任一项所述的基于图神经网络的知识图谱复杂问题生成方法，其特征在于，包括：