CN110232113B

CN110232113B - 一种提高知识库问答准确度的方法及系统

Info

Publication number: CN110232113B
Application number: CN201910292426.1A
Authority: CN
Inventors: 王元卓; 靳小龙; 程学旗; 席鹏弼; 仇韫琦
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2019-04-12
Filing date: 2019-04-12
Publication date: 2021-03-26
Anticipated expiration: 2039-04-12
Also published as: CN110232113A

Abstract

本发明提出一种提高知识库问答准确度的方法及系统，包括：获取待回答的用户问句，提取该用户问句中的主题实体，以该主题实体检索知识库，将得到的每一个候选答案的路径信息作为候选路径，并预处理该用户问句，得到该用户问句的向量表示；利用该向量表示对该候选路径上的每一步关系利用注意力机制进行打分，得到该候选路径上的每一步关系的关系置信度，并将该候选路径上所有的关系置信度求和，得到关系路径的路径置信度；将所有候选路径根据其置路径置信度进行排序，输出路径置信度最高的候选路径作为该用户问句的回答结果。本发明增强了中间结点在整个关系推断中的作用，提高了关系推断的准确率。

Description

一种提高知识库问答准确度的方法及系统

技术领域

本发明涉及互联网技术领域和大数据分析中的关系推断领域，并特别涉及一种基于路径信息的关系推断的知识库问答方法及系统。

背景技术

知识库问答系统是自然语言处理领域的研究热点，用户输入一个完整而口语化的问句，系统通过在结构化的知识库中查询即可返回明确的答案字串。知识库中的知识通常以三元组的形式存储，即(头实体，关系，尾实体)。一般而言，知识库问答系统包含两个核心模块，即主题实体推断模块和关系推断模块。其中主题实体推断是将用户问题中用户感兴趣的实体找出，并链接到知识库中对应的实体；关系推断是根据用户问题，推断出从主题实体到最终答案所需要的所有知识库中的关系。根据回答用户问题所需要的知识库中的三元组的数量，用户问题可以被分为单关系问题和多关系问题：单关系问题仅需要一个三元组即可得到最终的答案，而多关系问题需要多个三元组才能得到最终答案。

现有的关系推断技术主要分为两种，一种是基于嵌入的方法，一种是基于语义解析的方法。基于嵌入的方法通过将用户问句和知识库中的实体、关系转变为低维稠密的向量，从而通过计算向量间的相似度得到用户问句对应的知识库中关系；基于语义解析的方法通过将用户问句转变为结构化的查询语句，得到用户问句对应的关系的结构化表示。基于语义解析的方法因为需要学习如何构造结构化的查询语句，往往需要大量的人工标注的数据，这一类标注数据需要标注人员熟悉掌握相应的语言学知识，代价昂贵。基于嵌入的方法忽视关系推断步骤，将单关系问题和多关系问题统一对待，将在知识库中与主题实体相连的两跳以内的所有结点都视为候选答案，没有显示建模多关系问题里中间结点对关系推断的最终影响，这种将所有结点编码作为编码候选答案的方法类似于信息检索，在处理多关系问题时没有充分利用问题和知识库中信息，使得关系推断的结果相对模糊。例如在典型的多关系问题“AAA的妻子的身高是多少？”，传统方法的方法首先将知识库中与“AAA”相连的两跳以内的所有结点取出，最后计算编码后的结点与问句的相似度，但是这里问的不是AAA的身高，也不是其父母或队友的身高，而是他妻子BBB的身高，传统方法返回的结点很有可能是AAA或其相关人物的身高，而非其妻子BBB的身高。

发明内容

发明人在进行多关系问答中的研究时，发现如果显示建模中间结点在整个关系推断中的作用，将中间结点的作用量化并加入到模型优化环节，能显著地提高知识库问答系统对于回答多关系问题的准确性。

本发明的目的是解决上述现有技术的未能显示建模中间结点对关系推断的影响问题，在处理多关系问题时，利用主题实体到答案结点的路径信息，采用注意力机制对路径中的关系进行打分，并通过计算中间结果与中间结点的相似度得到该路径的置信度，最终得到对该候选关系路径的打分，通过所有候选关系路径排序，输出排名最高的关系路径作为回答结果。

针对现有技术的不足，本发明提出一种提高知识库问答准确度的方法，其中包括：

步骤1、获取待回答的用户问句，提取该用户问句中的主题实体，以该主题实体检索知识库，将得到的每一个候选答案的路径信息作为候选路径，并预处理该用户问句，得到该用户问句的向量表示；

步骤2、利用该向量表示对该候选路径上的每一步关系利用注意力机制进行打分，得到该候选路径上的每一步关系的关系置信度，并将该候选路径上所有的关系置信度求和，得到关系路径的路径置信度；

步骤3、将所有候选路径根据其置路径置信度进行排序，输出路径置信度最高的候选路径作为该用户问句的回答结果。

所述的提高知识库问答准确度的方法，其中步骤1中该预处理包括：

步骤11、将该用户问句中主题实体用占位符代替并去除该用户问句中的标点符号，得到预处理问句；

步骤13、从预设的词嵌入矩阵中获取该预处理问句中的每一个词的低维稠密向量，并将该低维稠密向量输入双向门控循环单元中，得到该用户问句中每一个词的隐藏状态向量；

步骤14、根据该用户问题包含的三元组数目，设定该三元组数目个的线性层，隐藏状态向量经过对应的线性层，得到该向量表示。

所述的提高知识库问答准确度的方法，其中步骤2中该关系置信度的确定过程包括：

步骤21、利用关系嵌入矩阵与实体嵌入矩阵，将得到该候选路径中关系和实体的低维稠密向量，分别作为关系向量和实体向量；

步骤22、对每个词的隐藏状态向量与关系向量求相似度，将所有求得的第一相似度输入至SoftMax层，得到每个词在该关系向量下的权重；

步骤23、在该权重下通过对每个词的向量加权求和，得到在该关系向量下的语义表示，并利用该语义表示与该关系向量求相似度，得到第二相似度；

步骤24、从该实体嵌入矩阵中获得头实体的低维稠密向量，并利用该关系向量与该第二相似度分数，求得中间结果，并将该中间结果与实体的余弦相似度作为该关系置信度。

所述的提高知识库问答准确度的方法，其中该步骤22得到每个词在该关系向量下的权重的具体过程包括：

问句中第i个词的权重

其中exp代表以自然常数e为底的指数函数，N为输入问句的长度，β_i＝W·(r₁⊙w_i)+b，β_j＝W·(r₁⊙w_j)+b，W,b为待学习参数，w_j和w_i分别为用户问句第j个和第i个词的经过双向门控循环单元和第一个线性层后的向量，⊙为向量点乘，W₁,b₁为第一个线性层的参数。

所述的任意一种提高知识库问答准确度的方法，其中通过主题实体识别工具提取该主题实体。

本发明还提出了一种提高知识库问答准确度的系统，其中包括：

模块1、获取待回答的用户问句，提取该用户问句中的主题实体，以该主题实体检索知识库，将得到的每一个候选答案的路径信息作为候选路径，并预处理该用户问句，得到该用户问句的向量表示；

模块2、利用该向量表示对该候选路径上的每一步关系利用注意力机制进行打分，得到该候选路径上的每一步关系的关系置信度，并将该候选路径上所有的关系置信度求和，得到关系路径的路径置信度；

模块3、将所有候选路径根据其置路径置信度进行排序，输出路径置信度最高的候选路径作为该用户问句的回答结果。

所述的提高知识库问答准确度的系统，其中模块1中该预处理包括：

模块11、将该用户问句中主题实体用占位符代替并去除该用户问句中的标点符号，得到预处理问句；

模块13、从预设的词嵌入矩阵中获取该预处理问句中的每一个词的低维稠密向量，并将该低维稠密向量输入双向门控循环单元中，得到该用户问句中每一个词的隐藏状态向量；

模块14、根据该用户问题包含的三元组数目，设定该三元组数目个的线性层，隐藏状态向量经过对应的线性层，得到该向量表示。

所述的提高知识库问答准确度的系统，其中模块2中该关系置信度的确定过程包括：

模块21、利用关系嵌入矩阵与实体嵌入矩阵，将得到该候选路径中关系和实体的低维稠密向量，分别作为关系向量和实体向量；

模块22、对每个词的隐藏状态向量与关系向量求相似度，将所有求得的第一相似度输入至SoftMax层，得到每个词在该关系向量下的权重；

模块23、在该权重下通过对每个词的向量加权求和，得到在该关系向量下的语义表示，并利用该语义表示与该关系向量求相似度，得到第二相似度；

模块24、从该实体嵌入矩阵中获得头实体的低维稠密向量，并利用该关系向量与该第二相似度分数，求得中间结果，并将该中间结果与实体的余弦相似度作为该关系置信度。

所述的提高知识库问答准确度的系统，其中该模块22得到每个词在该关系向量下的权重的具体过程包括：

问句中第i个词的权重

所述的提高知识库问答准确度的系统，其中通过主题实体识别工具提取该主题实体。

与已有技术相比，本发明方法具有以下优点：

一是充分利用问句与知识库中信息，取得关系路径中每一步关系与问句的相关度；二是利用相关度产生了每一步关系的置信度，这个过程是端到端的，在训练中能够保证没有误差传递。本发明增强了中间结点在整个关系推断中的作用，提高了关系推断的准确率。

附图说明

图1为整体流程图；

图2为输入步骤流程图；

图3为推理步骤流程图；

图4为输入步骤语言模型详细介绍图；

图5为推理步骤模型详细介绍图。

具体实施方式

本发明提出的知识库多关系问题关系推断方法包括以下步骤：

1)通过主题实体识别工具得到用户问句的主题实体，并得到所有的候选答案的路径信息，该候选答案是从主题实体出发，在知识库内与主题实体通过n跳关系相连接的所有结点，路径信息即为主题实体与候选实体之间的n跳关系路径。例如，AAA的女儿的出生日期。这个问题中，主题实体是AAA，答案是2010年5月22日，那路径信息就是AAA(父女关系)CCC(生日)2010年5月22日；

2)针对用户输入的问句，通过先对问句进行去除标点符号及小写转化预处理，并将主题实体在问句中的提及用“<e>”代替，通过查询预训练的词嵌入矩阵，得到问句中每个词的低维稠密向量，并依次输入一个Bi-GRU(双向门控循环单元)，得到每个词的隐藏状态；

3)针对一个给定的候选答案的路径信息，若该路径长度为n，对路径中的每步的关系都利用注意力机制进行打分，判断当前关系与用户问句的相关度，并通过这个打分计算一个中间结果，利用这个中间结果与当前的中间或最终结点的相似度作为该关系的置信度，所有的置信度之和为该候选关系路径的打分；

4)对用户问句的所有候选关系路径按照打分进行排序，并输出排名靠前的关系路径作为回答结果。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

本发明提出了一种基于路径信息的知识库多关系问题关系推断方法，方法的整体流程如图1所示。方法主要有输入步骤、推理步骤、输出步骤这三个步骤，该输入步骤采用了一个双向的GRU和线性层，将用户问句的每个词都转化为一个低维稠密的向量；推理步骤将与用户问句中的主题实体相连的n跳以内的结点取出作为候选答案，以主题实体到候选答案的关系路径作为输入，通过对路径中的关系的置信度打分，得到这个路径下该候选关系路径的最终得分；最后答案单元对所有的候选关系路径打分，并输出排名最高的作为回答结果。其中路径是所有关系按照对应顺序的组合，不单单是某一个关系。结合图1描述该方法的整体流程步骤。

模型工作阶段：

输入步骤S1，预处理用户问句，得到相应的向量表示作为推理输入；

推理步骤S2，利用输入步骤S1产生的向量表示对候选路径上的每一步关系打分得到其置信度，并将所有的关系的置信度求和得到关系路径的置信度；

输出步骤S3，对所有候选路径根据其置信度进行排序，输出最高的关系路径作为关系推断的结果。

其中，步骤S1包含多个子步骤，具体地如图2所示有：

S101、将用户问句中的主题实体e₀在用户问句中的提及用占位符“<e>”代替，提及(mention)是指这个主题实体在该用户问句下的表述，这个表述不一定与知识库中存储的实体名称完全一致，比如知识库中存储的是XXX，用户问句中的表述是XXX的昵称或者XXX的职称，这里的表述就是知识库中的实体“XXX”在用户问句中的提及(mention)；。

S102、去除问句中的标点符号(不包括第一步替换的“<e>”)，例如问句末尾的问号、句号等，在问句为英文的情况下对问句中的词进行小写转化等。

S103、从预训练好的词嵌入矩阵中获取用户问句中的每一个词的低维稠密向量，并输入进双向的GRU中，得到与用户问句长度一致的一系列隐藏状态向量{h₁,h₂,…,h_N}，N为问句长度，h_N代表第N个隐藏状态向量，隐藏状态是神经网络模型的输出向量，具体如图4所示。

S104、根据用户问题所需要的三元组数目，或设定的最大的三元组数目，设定相应个数的线性层，调用推理单元对路径中每个关系打分前，用户问句的隐藏状态向量都要经过对应的线性层。本发明采取的数据集和参照对比的方法都是基于问题所需要的三元组数目已知的条件。但是实际上问题所要的三元组个数肯定是未知的，本发明只需要预先训练一个判别器，然后先判别用户问句所需要的三元组数目即可。经过不同线性层的目的就是让模型在不同的推理步骤下关注用户问句的不同方面，比如AAA女儿的出生日期，在第一步推理应该关注的是父女关系而不是出生日期，第二步推理关注的才是出生日期。每一个线性层对应一个推理步骤，一个推理步骤对应问句所要的三元组中的一个。用户问句的向量表示是在S103中将预训练好的词嵌入输入神经网络双向GRU得到的。

步骤S2包含多个子步骤，具体地如图3、图5所示有：

S201、针对路径中的第一步关系r₁和实体e₁，本发明首先从利用TransE(翻译向量表达)模型预训练好的关系嵌入矩阵与实体嵌入矩阵中获得关系r₁和实体e₁对应的低维稠密向量r₁,

S202、对问句的每个词经过第一个线性层的隐藏状态向量与关系向量r₁求相似度，然后将所有得到的相似度传入一个柔性最大值传输函数(SoftMax)层，得到每个词在关系向量r₁下的权重。形式化地，问句中第i个词的权重

其中N为输入问句的长度，β_j＝W·(r₁⊙w_j)+b，W,b为待学习参数，w_j＝W₁·h_j+b₁为用户问句第j个词的经过双向GRU和第一个线性层后的向量，⊙为向量点乘，W₁,b₁为第一个线性层的参数。

S203、在这个权重下通过对问题词(句中每个词)的向量加权求和，得到在关系向量r₁下的语义表示

w_i即为问句的第i个词的向量，并利用该语义表示与关系向量r₁求相似度分数

S204、从预训练好的实体嵌入矩阵中获得实体e₀,e₁的低维稠密向量e₀,e₁。向量都是加粗表示的，两个实体都是路径信息中已经显示的，比如AAA(父女关系)CCC(出生日期)X年X月X日；这个路径已经在第1步得到，其中的实体就是AAA、CCC、X年X月X日。这里的日期是字符串，当做实体处理。并利用关系向量r₁与相似度分数

求得中间结果

并通过该中间结果与e₁的余弦相似度求得关系r₁的置信度

如此计算置信度的原因是根据TransE的思想，对于一个三元组，头实体的语义+关系的语义＝尾实体的语义，如“《某电影》”的语义+“导演”的语义＝“导演名”的语义。在这种设定下，我们有e₁＝e₀+r₁，因此如果关系r₁确实是问句所关心的第一跳关系，那么

就会趋于1，如此

也会近似等于e₁。

S205、将{h₁,h₂,…,h_N}输入第二个线性层，得到对应的词的向量，并针对候选答案路径中的第二步关系r₂和实体e₂重复步骤S2的(1)至(4)，需要注意的是，在算第二步的中间结果时，

最终我们得到第二步关系r₂的置信度C(e₂；q)。

S206、通过将这两步的置信度加和，我们得到该路径的置信度C(path；q)＝C(e₁；q)+C(e₂；q)。

步骤S3、输出步骤获取最终答案，具体地有：通过对步骤S2算出的路径的置信度排序，我们得到排名最高的路径。需要注意的是，在不知道问题到底需要几个三元组回答时，我们会设置一个最大路径长度，比如说2，同时引入空关系和空实体，对所有三元组进行路径长度补全，即在第一个三元组后加入空关系和空实体。如果排名最高的路径中第二个实体是空实体，我们返回第一步关系作为最终关系路径，否则返回整体的关系路径作为最终答案。

与已有技术相比，本发明方法在WorldCup2014语料的测试集上取得了优异的结果，在单跳问题的关系推断准确率提高了2.9％，在两跳关系问题中，单路径问题的关系推断准确率上提高了5.9％，多路径问题的关系推断准确率提高了19.2％。

以下为与上述方法实施例对应的系统实施例，本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在上述实施方式中。

问句中第i个词的权重

Claims

1.一种提高知识库问答准确度的方法，其特征在于，包括：

步骤3、将所有候选路径根据其置路径置信度进行排序，输出路径置信度最高的候选路径作为该用户问句的回答结果；

其中步骤1中该预处理包括：

步骤14、根据该用户问句包含的三元组数目，设定线性层数量与该三元组数目相同，隐藏状态向量经过对应的线性层，得到该向量表示；

步骤2中该关系置信度的确定过程包括：

步骤24、从该实体嵌入矩阵中获得头实体的低维稠密向量，并利用该关系向量与该第二相似度，求得中间结果，并将该中间结果与实体的余弦相似度作为该关系置信度。

2.如权利要求1所述的提高知识库问答准确度的方法，其特征在于，该步骤22得到每个词在该关系向量r₁下的权重的具体过程包括：

问句中第i个词的权重

3.如权利要求1或2所述的提高知识库问答准确度的方法，其特征在于，通过主题实体识别工具提取该主题实体。

4.一种提高知识库问答准确度的系统，其特征在于，包括：

模块3、将所有候选路径根据其置路径置信度进行排序，输出路径置信度最高的候选路径作为该用户问句的回答结果；

其中模块1中该预处理包括：

模块14、根据该用户问句包含的三元组数目，设定线性层数量与该三元组数目相同，隐藏状态向量经过对应的线性层，得到该向量表示；

模块2中该关系置信度的确定过程包括：

模块24、从该实体嵌入矩阵中获得头实体的低维稠密向量，并利用该关系向量与该第二相似度，求得中间结果，并将该中间结果与实体的余弦相似度作为该关系置信度。

5.如权利要求4所述的提高知识库问答准确度的系统，其特征在于，该模块22得到每个词在该关系向量r₁下的权重的具体过程包括：

问句中第i个词的权重

6.如权利要求4或5所述的提高知识库问答准确度的系统，其特征在于，通过主题实体识别工具提取该主题实体。