CN113779219B

CN113779219B - 一种结合文本双曲分段知识嵌入多重知识图谱的问答方法

Info

Publication number: CN113779219B
Application number: CN202111069945.5A
Authority: CN
Inventors: 苏依拉; 吕苏艳; 梁衍锋; 崔少东; 仁庆道尔吉; 吉亚图
Original assignee: Inner Mongolia University of Technology
Current assignee: Inner Mongolia University of Technology
Priority date: 2021-09-13
Filing date: 2021-09-13
Publication date: 2023-07-21
Anticipated expiration: 2041-09-13
Also published as: CN113779219A

Abstract

一种结合文本双曲分段知识嵌入多重知识图谱的问答方法，利用双曲分段嵌入模型，实现知识图谱中实体和关系的初始化，所述实体包括头实体和尾实体；针对自然语言提出的问题，利用RoBERTa模型进行问题嵌入，并构建异构图，融合与问题相关的知识图谱与文本；利用文本中的语义信息丰富知识图谱中实体嵌入的表示，并将文本作为超边，补充不完整知识图谱中的关系；将结合文本的实体嵌入、问题嵌入和候选答案构建新三元组，并采用评分函数进行打分，实现知识图谱问答。本发明可大大提升知识图谱问答的质量，获得更加精准的答案。

Description

一种结合文本双曲分段知识嵌入多重知识图谱的问答方法

技术领域

本发明属于人工智能技术领域，涉及知识图谱问答，特别涉及一种结合文本双曲分段知识嵌入多重知识图谱的问答方法。

背景技术

近年来，大规模知识图谱的发展为回答开放域问题提供了丰富的资源。基于知识图谱来回答自然语言问题已经成为的一种热门趋势。

大多数早期的知识图谱问答采用的是传统的基于语义分析的方法。该类方法使用字典、规则和机器学习，将自然语言问句映射成一种语义表示或逻辑表达式或查询图。基于语义解析的方法通常使用分类模型进行关系的预测，但由于知识图谱中包含数十万种关系，训练集难以覆盖如此庞大规模的关系，使得基于语义解析的方法在知识图谱问答上受到限制。再后来出现了基于信息检索的方法，该类方法首先根据问题得到若干个候选实体，从知识图谱中抽取与候选实体相连的关系作为候选查询路径，再使用文本匹配模型，选择出与问题相似度最高的候选查询路径，到知识图谱中检索答案。此方法需自定义构建特征且对复杂问题处理效果不好。

最近，越来越多的基于神经网络的方法已经被证明是有效的知识图谱问答任务。这些方法只需要简单地查询知识图谱，不需要额外的语法知识和词典，并且隐式地完成了候选答案的搜索和排序功能。然而怎样真正的理解问题并且缩小自然语言和知识图谱的结构化语义之间的差距仍然是非常具有挑战性的。

另外，基于神经网络的知识图谱问答中通常需要通过知识嵌入模型来学习三元组中实体和关系的表示，虽然近年来对知识图谱嵌入问题进行了大量的研究，但现有的研究并没有在模型复杂性(参数的数量)和模型表达性(语义信息捕获性能)之间做出适当的权衡，同时，也不容易保持知识图谱的多重层次结构。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供一种结合文本双曲分段知识嵌入多重知识图谱的问答方法。

为了实现上述目的，本发明采用的技术方案是：

一种结合文本双曲分段知识嵌入多重知识图谱的问答方法，包括如下步骤：

步骤1，利用双曲分段嵌入模型，实现知识图谱中实体和关系的初始化，所述实体包括头实体和尾实体；

步骤2，针对自然语言提出的问题，利用RoBERTa模型进行问题嵌入，并构建异构图，融合与问题相关的知识图谱与文本；

步骤3，利用文本中的语义信息丰富知识图谱中实体嵌入的表示，并将文本作为超边，补充不完整知识图谱中的关系；

步骤4，将结合文本的实体嵌入、问题嵌入和候选答案构建新三元组，并采用评分函数进行打分，实现知识图谱问答。

进一步地，所述步骤1中，先训练双曲几何嵌入模型，再训练双曲分段嵌入模型，所述双曲分段嵌入模型是将双曲实体或双曲关系嵌入分割成不同片段，并对其进行多线性点积。

进一步地，所述双曲几何嵌入模型的训练中，采用具有负曲率c的m维庞加莱球模型建模知识图谱，在庞加莱球模型上点X与点Y之间的距离d(X,Y)用双曲空间距离公式表示为：

其中，arccos h(.)表示反双曲余弦函数，‖.‖表示L₂范数；

知识图谱用三元组(h,r,t)表示，其中h代表头实体，t代表尾实体，r代表头实体和尾实体之间的关系，(h,r,t)∈V×R×V，V,R均表示实体数据集，对头实体h运用Rotation与Reflection参数进行旋转和映射，公式表示如下：

其中，Rot表示旋转，Ref表示映射；P代表庞加莱求模型；代表庞加莱球模型双曲实体嵌入的旋转值，/>代表庞加莱球模型双曲关系嵌入的映射值；Θ_r,Φ_r均表示关系专用参数；/>表示双曲头实体嵌入；

然后利用双曲注意力机制将和/>结合并应用于双曲变换公式，表示如下：

其中，Q(p,r)表示查询嵌入，即双曲头实体嵌入的旋转和反射逻辑编码模式与双曲关系嵌入进行逻辑运算的值，Att代表双曲注意力机制；代表双曲关系嵌入，通过双曲嵌入模型获取，r∈R；a^r表示有关关系的双曲注意力机制的载体；/>是一个逻辑运算符号，它表示先进行异或运算，再取其补集；

最后通过双曲空间距离公式将查询嵌入与双曲尾实体嵌入进行比较，得到评分函数s(p,r,t)，如下式所示：

其中，表示双曲尾实体嵌入，/>表示Q(p,r)与/>之间距离的补集；b_h,b_t表示在评分函数中作为边界值的实体偏差。

进一步地，所述双曲分段嵌入模型的训练中，是将双曲头实体嵌入和双曲尾实体嵌入的双曲关系嵌入划分奇偶段：首先，假设双曲关系嵌入/>为d维，将双曲关系嵌入/>的d维嵌入均匀划分为k段；其次，将双曲关系嵌入/>分为奇数段和偶数段来保持关系的对称性和反对称性质；最后，使用w_x,y来确定候选答案所落的位置，当x为偶数时，w_xy＝y，当x为奇数时，w_x,y＝(x+y)％k。

进一步地，所述步骤2中，首先，使用RoBERTa模型将问题嵌入到多维向量中；其次，通过若干完全连接的线性层，并通过ReLU激活，最终将问题投射到固定的维向量空间中实现问题嵌入；然后，使用两个并行管道即知识图谱和文档，检索问题子图；最后将检索到的实体和文档与实体链接L结合起来，生成一个完全连接的图，即所述的异构图。

进一步地，所述步骤3中，以查询编码、文本编码和知识图谱编码为输入，在结合文本推理的知识图谱中，输入部分利用文本信息，通过丰富实体嵌入和添加超边来改进不完整知识库，并将图卷积网络(Graph Convolution Network，GCN)和异构图卷积网络(Heterogeneous Graph Convolution Network，HGCN)应用于推理。

进一步地，在结合文本推理的知识图谱中，运用GCN来丰富知识图谱中的实体，并采用HGCN对超图格式的文本进行编码，将纯文本视为连接文本之间实体的超边。

进一步地，所述步骤4中，将结合文本的实体，问题与候选答案嵌入再次运用双曲分段嵌入模型进行训练，该模型通过最小化分数的sigmoid函数与目标标签之间的二值交叉熵损失函数来学习，其中目标标签为1的是正确的回答，目标标签为0的是不正确的回答。训练完成后，模型根据所有可能的实体/问题对，对所有可能的候选答案运用步骤1中的分段评分函数进行打分，选择分数最高的候选答案为最终答案。

与现有技术相比，本发明利用双曲分段知识嵌入模型，在不牺牲模型复杂性的基础上，充分发挥模型的表达性，从而捕获更多语义信息，同时，保持知识图谱的多层层次结构。并加入文本做为额外信息来缩短自然语言和知识图谱的结构化语义之间的差距，从而提升知识图谱问答的质量。

附图说明

图1是本发明实施例的整体流程示意图。

图2是本发明实施例构建的异构图结构。

图3是本发明实施例结合文本的知识图谱问答模型。

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

本发明为一种结合文本双曲分段知识嵌入多重知识图谱的问答方法，参考图1，在一个实施例中，其包含了如下的具体步骤：

步骤1，利用双曲分段嵌入模型，实现知识图谱中实体(头实体和尾实体)和关系的初始化。

具体地，先训练得到双曲几何嵌入模型，再训练得到双曲分段嵌入模型，步骤如下：

1、双曲几何嵌入模型训练。

双曲几何是一类具有常数负曲率的非欧几何，本发明采用具有负曲率c的m维庞加莱球模型建模知识图谱，庞加莱球模型公式表示为：

其中P^m,c表示采用具有负曲率c的m维的庞加莱球模型的数值，c<0；x表示庞加莱球模型上的点，表示实体集合，/>表示m维实体向量空间；‖.‖表示L₂范数。

假设在庞加莱球模型上点X与点Y之间的距离用d(X,Y)表示，当其中某个点从原点方向向球边界移动时，d(X，Y)呈指数级增加，从而为嵌入学习提供了更大的空间，点X和点Y之间的距离可以用双曲空间距离公式表示为：

其中，arccos h(.)表示反双曲余弦函数。

知识图谱一般用三元组(h,r,t)表示，其中h代表头实体，t代表尾实体，r代表头实体和尾实体之间的关系，(h,r,t)∈V×R×V，V,R表示实体数据集。

首先，对头实体h运用Rotation与Reflection参数进行旋转和映射，公式表示如下：

其中，Rot表示旋转，Ref表示映射；p代表庞加莱求模型；代表庞加莱球模型双曲实体嵌入的旋转值，/>代表庞加莱球模型双曲关系嵌入的映射值；Θ_r,Φ_r均表示关系专用参数；/>表示双曲头实体嵌入。

然后，利用双曲注意力机制将和/>结合起来并应用于双曲变换公式，此变换公式的目的在于能够在知识图谱多重层次结构的各个层次之间捕捉树形结构，以此来捕获更多的语义关系，公式表示如下：

最后，通过双曲空间距离公式将查询嵌入与双曲尾实体嵌入进行比较，得到评分函数s(p,r,t)，如下式所示：

2、双曲分段嵌入模型训练。

双曲几何嵌入之后需要进行分段嵌入操作，分段嵌入是将双曲实体或双曲关系嵌入分割成不同片段，并对其进行多线性点积。这有利于语义特征向量的充分交互。多线性点积的公式如下所示：

表示多线性点积；/>表示双曲关系嵌入的第x段；/>表示双曲头实体嵌入第x段的；/>表示双曲尾实体嵌入第x段。

分段嵌入的具体操作为将双曲头实体嵌入和双曲尾实体嵌入的双曲关系嵌入划分奇偶段。

首先，假设双曲关系嵌入为d维，将双曲关系嵌入/>的d维嵌入均匀划分为k段，每个段的维数为d/k。此时双曲关系嵌入/>可如下表示：

其中，是双曲关系嵌入/>的第x段，如果x是奇数，/>就是奇数段，如果x是偶数，/>就是关系嵌入的偶数段。

此时，包含分段的多线性点积公式如下表示：

其中，x,y,w分别表示双曲关系嵌入双曲头实体嵌入/>双曲尾实体嵌入/>的某一分段数。

其次，将双曲关系嵌入分为奇数段和偶数段来保持关系的对称性和反对称性质。定义函数/>s_x,y如下所示：

表示s_x,y的求和，/>表示第y段双曲头实体嵌入，/>表示第w段双曲尾实体嵌入；s_x,y表示每个多线性点积项/>的正负值，如果/>是偶数段，s_x,y为正，此时函数/>中/>的偶数和对应等于对应函数/>中/>的偶数和。因此，三元组可以通过双曲关系嵌入/>的偶数段来模拟对称关系；如果/>是奇数段，s_x,y函数可以为正也可以为负，这取决于x+y是否≥k，如果/>是奇数且x+y≥k，则函数s_x,y为负，此时，函数/>中的奇数和不等于函数/>中的奇数和。因此，函数/>支持双曲关系嵌入/>奇数段的反对称关系。

最后，使用w_x,y来确定候选答案所落的位置，当x为偶数时，w_xy＝y，当x为奇数时，w_x,y＝(x+y)％k。此方式使多线性点积的参数由以往的k³减少为k²，时间复杂度变为O(kd)，空间复杂度为0(d)，达到了降低时间、空间复杂度的目的。

双曲分段嵌入模型的评分函数如下所示：

其中，

其中，为双曲尾实体嵌入，也即候选答案，k为总分段数，s_x，y表示对称关系或非对称关系，当s_x,y＝1表示对称关系，s_x,y＝-1表示反对称关系，w_x,y用来确定候选答案(尾实体)的段落数，/>表示候选答案(尾实体)落在的段落数。运用此评分函数模型就能把候选答案选出。

综上所述，双曲分段嵌入模型就是利用双曲嵌入和分段嵌入的优势对实体和关系嵌入的初始化表示进行优化，使其在充分进行语义交互的同时，不增加模型的复杂性。

步骤2，针对自然语言提出的问题，利用RoBERTa模型进行问题嵌入，并构建异构图，融合与问题相关的知识图谱与文本。

构建异构图的目的是从同时包含相关知识图谱和文本的问题子图中提取答案。从而将知识图谱与文本融合，以利用两个信息源之间丰富的关系结构。

为了实现这种融合，本发明提出了一种异构图，如图2所示，针对提出的问题Q“谁在《恶搞之家》中为梅格配音？”。首先使用RoBERTa模型将问题Q嵌入到768维向量中。然后通过4个完全连接的线性层，并通过ReLU激活，最终将问题投射到固定的维向量空间中实现问题嵌入。其次，使用两个并行管道(知识图谱和文档)检索问题子图G_q：一个管道在知识图谱K上返回一组实体“梅格.格里芬”、“《居家男人》”、“莱西.沙伯特”、“米娜.古妮丝”，另一个管道在语料库D上返回两组文档D1，D2。然后，将检索到的实体和文档与实体链接L结合起来，生成一个完全连接的图。

在该异构图中：

1、针对知识图谱的检索。

为了从知识库中检索相关实体，首先在问题Q上执行实体链接，生成一组种子实体，记为S_q，图1中“梅格.格里芬”和“《居家男人》”就是问题Q执行实体链接后生成的种子实体。接下来，围绕这些种子实体运用个性化网页排名算法(Personalized PageRank，PPR)，以识别可能是问题答案的其他实体，经识别后又得到了“莱西.沙伯特”和“米娜.古妮丝”。S_q周围的边权重与所有相同类型的边是相等的，并且它们是被加权的，这使得与问题相关的边比那些不相关的边获得更高的权重。具体来说，对词向量进行平均，从关系的表面形式计算出关系向量v(r)，从问题中涉及到的实体计算出问题向量v(q)，并使用这些向量之间的余弦相似度作为边缘权重。在运行PPR算法之后，通过PPR得分保留排名最靠前的E实体v(1),…,v(E)，以及它们之间的任何边，并将它们添加到问题子图G_q里。

2、针对文本的检索。

本发明使用维基百科作为语料库，在句子级检索文本，具体分两步执行文本检索：首先，使用加权词袋模型检索前5篇最相关的维基百科文章；然后安装一个插件Lucene将这些文章中以句子形式出现的文本编入索引，根据问题中出现的实体向量，检索排名最靠前的文本D₁,…,D₄。本发明将检索到的文本D₁,D₂以及与之链接的任何实体添加到问题子图G_q中。

综上所述，步骤2中通过检索方式得到与问题相关的知识图谱和文本中的实体，以此来构建问题子图G_q，从而利用两个信息源之间丰富的关系结构，来提高回答问题的准确性。

步骤3，利用文本中的语义信息丰富知识图谱中实体嵌入的表示，并将文本作为超边，补充不完整知识图谱中的关系。

如图3所示，本发明实施例中，问答模型采用了编码器输入部分、图卷积网络(Graph Convolution Network，GCN)以及异构图卷积网络(Heterogeneous GraphConvolution Network，HGCN)的架构。其中，在编码器的输入部分分为查询编码、文本编码和知识图谱编码；在结合文本推理的知识图谱部分，利用文本信息，通过丰富实体嵌入和添加超边来改进不完整知识库，并将图卷积网络和异构图卷积网络应用于推理。具体说明如下：

1、查询和文本编码部分。

查询编码用来查询文本和知识图谱中所出现的与问题相关的实体，本发明令作为查询q和文档d∈D的嵌入矩阵，其中n为嵌入维数。采用双-长短时记忆网络分别对查询和文档进行编码，并且获得隐藏层/>和/>其中h是双-长短时记忆网络中隐藏层的维数。然后利用注意机制计算查询h_q和文档h_d的表示，公式如下式所示。

其中，T表示矩阵转置，f_q是将1维转化为n维的线性网络，f_d是将|q|维转化为1维的线性网络。

2、知识图谱编码器部分。

在该部分，本发明通过步骤1训练的知识嵌入来初始化每一个实体v∈V。并且通过语义向量和双曲分段知识嵌入对关系进行初始化。具体来说，对于关系r∈ε和关系嵌入/>本发明将其标记为r＝(w₁,w₂,…w_|r|)，然后输入到双-长短时记忆网络层进行词嵌入，从而得到隐藏层状态/>然后计算表示层h_r，公式如下式所示。

其中，[；]表示列连接，f_r1表示一个线性网络,它将2h维转化为1维，f_r2将2h+n维转化成n维。

3、结合文本推理的知识图谱部分。

首先，运用GCN来丰富知识图谱中的实体：本发明构造了一个二进制矩阵M，表示实体文档d中实体v的跨度，并将信息从文档传递到实体，形成文本感知的实体嵌入x′_v，然后连接x_v作为初始节点状态h_v ⁽⁰⁾。

h_v ⁽⁰⁾＝f_v([x_v；x′_v])∈R^h×1

其中，D_v是实体v的连接文档，代表d维隐藏层向量的矩阵转置，f_v将h+n维向量转换为h维向量。然后，该模型通过聚合连接实体特征来学习实体表示,公式如下式所示：

其中，W1，W2属于可学习参数；N_v表示实体v的相邻三元组集合；f_a将2h维转化为h维；l₁代表当前模型的层数；σ表示sigmoid函数。

其次，是用于超图格式文本的HGCN，HGCN模型将纯文本视为连接文本之间实体的超边，以弥补知识图谱中关系的不足。采用HGCN对超图格式的文本进行编码。更重要的是，双步骤注意力机制抓住了不同实体和文档的重要性。形式上，在第二层，模型首先将实体特征转移到连接的超边上，形成文档表示，公式如下式所示。

其中，W₃和是可学习参数，/>和N_d表示文档d的连接实体集，然后，该模型收集文档信息，更新连接的实体状态。

其中，W₅和是可学习参数。

具体地，在L₁GCN层和L₂HGCN层之后，进行挑选候选答案的操作，将结合文本的实体，问题，与候选答案嵌入再次运用双曲分段嵌入模型进行训练。该模型通过最小化分数的sigmoid函数与目标标签之间的二值交叉熵损失函数来学习，其中目标标签为1的是正确的回答，目标标签为0的是不正确的回答。训练完成后，模型根据所有可能的实体/问题对，对所有可能的候选答案运用步骤1中的分段评分函数进行打分，选择分数最高的候选答案为最终答案。

综上，再次结合图1，当提出问题“谁饰演了变形女上司的儿子”，将此问题送入问题嵌入模型中得到问题嵌入；针对此问题，从知识图谱和文本结合来构建问题子图，问题子图所涉及的实体和关系有“变形女”、“变形女”的“上司”“万磁王”、“万磁王”的“儿子”“快银”，以及“快银”的“饰演者”“伊万.彼得斯”。采用双曲分段知识嵌入模型初始化知识图谱；同时采用查询编码将文本中的实体与知识图谱中的进行实体链接。接着，运用图神经网络来丰富知识图谱中的实体；运用异构神经网络模型将纯文本视为连接文本之间实体的超边。最后，预测答案部分是将结合文本的实体嵌入，问题嵌入，候选答案嵌入构造的新三元组，采用分段评分函数进行打分，挑选出最高分的答案为最终答案，从图中可以看出候选答案伊万·彼得斯得分6.5，是最高的，所以最终答案是伊万·彼得斯。

由此可见，本发明大大提升了知识图谱问答的质量，能够获得更加精准的答案。

Claims

1.一种结合文本双曲分段知识嵌入多重知识图谱的问答方法，其特征在于，包括如下步骤：

步骤4，将结合文本的实体嵌入、问题嵌入和候选答案构建新三元组，并采用评分函数进行打分，实现知识图谱问答；

所述步骤1中，先训练双曲几何嵌入模型，再训练双曲分段嵌入模型，所述双曲分段嵌入模型是将双曲实体或双曲关系嵌入分割成不同片段，并对其进行多线性点积；

所述双曲几何嵌入模型的训练中，采用具有负曲率c的m维庞加莱球模型建模知识图谱，在庞加莱球模型上点X与点Y之间的距离d(X,Y)用双曲空间距离公式表示为：

其中，arccosh(.)表示反双曲余弦函数，‖.‖表示L₂范数；

其中，表示双曲尾实体嵌入，/>表示Q(p,r)与/>之间距离的补集；b_h,b_t表示在评分函数中作为边界值的实体偏差；

所述双曲分段嵌入模型的训练中，是将双曲头实体嵌入和双曲尾实体嵌入的双曲关系嵌入划分奇偶段：首先，假设双曲关系嵌入/>为d维，将双曲关系嵌入/>的d维嵌入均匀划分为k段；其次，将双曲关系嵌入/>分为奇数段和偶数段来保持关系的对称性和反对称性质；最后，使用w_x,y来确定候选答案所落的位置，当x为偶数时，w_xy＝y，当x为奇数时，w_x,y＝(x+y)％k。

2.根据权利要求1所述结合文本双曲分段知识嵌入多重知识图谱的问答方法，其特征在于，所述步骤2中，首先，使用RoBERTa模型将问题嵌入到多维向量中；其次，通过若干完全连接的线性层，并通过ReLU激活，最终将问题投射到固定的维向量空间中实现问题嵌入；然后，使用两个并行管道即知识图谱和文档，检索问题子图；最后将检索到的实体和文档与实体链接L结合起来，生成一个完全连接的图，即所述的异构图。

3.根据权利要求2所述结合文本双曲分段知识嵌入多重知识图谱的问答方法，其特征在于，所述步骤3中，以查询编码、文本编码和知识图谱编码为输入，在结合文本推理的知识图谱中，输入部分利用文本信息，通过丰富实体嵌入和添加超边来改进不完整知识库，并将图卷积网络(Graph Convolution Network，GCN)和异构图卷积网络(Heterogeneous GraphConvolution Network，HGCN)应用于推理。

4.根据权利要求3所述结合文本双曲分段知识嵌入多重知识图谱的问答方法，其特征在于，在结合文本推理的知识图谱中，运用GCN来丰富知识图谱中的实体，并采用HGCN对超图格式的文本进行编码，将纯文本视为连接文本之间实体的超边。

5.根据权利要求1所述结合文本双曲分段知识嵌入多重知识图谱的问答方法，其特征在于，所述步骤4中，将结合文本的实体，问题与候选答案嵌入再次运用双曲分段嵌入模型进行训练，该模型通过最小化分数的sigmoid函数与目标标签之间的二值交叉熵损失函数来学习，其中目标标签为1的是正确的回答，目标标签为0的是不正确的回答；训练完成后，模型根据所有可能的实体/问题对，对所有可能的候选答案运用步骤1中的分段评分函数进行打分，选择分数最高的候选答案为最终答案。