CN106649514A

CN106649514A - 用于受人启发的简单问答（hisqa）的系统和方法

Info

Publication number: CN106649514A
Application number: CN201610900531.5A
Authority: CN
Inventors: 李磊; 徐伟; 戴自航
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2015-10-16
Filing date: 2016-10-14
Publication date: 2017-05-10
Anticipated expiration: 2036-10-14
Also published as: JP6348554B2; US10606846B2; KR101950985B1; EP3156949A2; CN106649514B; JP2017076403A; US20170109355A1; EP3156949A3; KR20170045135A

Abstract

本文描述的是用于确定如何自动回答像“哈利·波特在哪上学？”的问题的系统和方法。精心构建的知识图提供丰富事实来源。然而，这种精心构建的知识图在回答用自然语言提出的事实问题方面仍有挑战，因为问题能够以多种多样的方式提出。本文提出的是用于受人启发的简单问答(HISQA)的系统和方法的实施方式，即，基于深度神经网络使用知识图来进行自动问答的方法。受到在这个任务中人类自然动作的启发，实施方式首先经由事物链接查找正确事物，然后寻找恰当关系以回答所述问题，这两个步骤都通过深度门限循环网络和神经嵌入机制实现。

Description

用于受人启发的简单问答(HISQA)的系统和方法

技术领域

本公开大体上涉及计算技术，更具体地涉及用于自动回答用自然语言提出的问题并改进人机交互的系统和方法。

背景技术

存在关于如何自动回答诸如“哈利·波特在哪上学？”的问题的技术问题。精心构建的知识图提供丰富事实来源。然而，这种精心构建的知识图在回答用自然语言提出的基于事实的问题方面仍有挑战，因为问题能够以多种多样的方式提出。

因此，需要的是提供更有效且更准确的方式来自动回答问题的系统和方法。

发明内容

本申请的目的在于提供一种用于为查询提供答案的计算机实施的方法以及用于识别问题中的话题的计算机实施的方法。

根据一个方面，提供了用于为查询提供答案的计算机实施的方法，该方法可包括：接收具有一个或多个词语的查询，所述一个或多个词语包括描述所述查询的话题的主题组块；查询数据库以查找至少一个候选主题，所述至少一个候选主题的名称或别名具有与所述主题组块相同的表面形式；查询数据库以查找一个或多个关系矢量，所述一个或多个关系矢量表达与所述至少一个候选主题关联的一个或多个关系；确定所述一个或多个关系的排名分数，所述排名分数中的每个表示所述查询与对应关系之间的语义相似性；在所述一个或多个关系中选择具有最高排名分数的关系作为预测关系，并且选择所述至少一个候选主题作为预测话题；以及利用所述预测关系和所述预测话题查询数据库以查找所述查询的答案。

根据另一个方面，提供了用于识别问题中的话题的计算机实施的方法，该方法可包括：接收具有一个或多个词语的查询，所述一个或多个词语包括所述查询问题的话题；将所述一个或多个词语转换成一个或多个嵌入，每个嵌入是表达对应词语的矢量；预测所述一个或多个嵌入中的每个是所述话题的一部分的概率；将所述一个或多个嵌入中的概率高于阈值的一些嵌入选择作为所述话题；以及将与所选择的嵌入对应的一个或多个词语组合为所述话题。

根据又一个方面，提供了用于为查询提供答案的计算机实施的方法，该方法可包括：接收具有一个或多个词语的输入查询；使用神经网络模型识别所述输入查询的主题组块，所述主题组块描述所述输入查询的话题；使用所述主题组块查询数据库以识别名称或别名具有与所述主题组块相同的表面形式的至少一个候选主题；在与所述至少一个候选主题关联的一个或多个关系中选择预测关系，并且选择所述至少一个候选主题作为预测话题；以及利用所述预测关系和所述预测话题查询数据库以查找所述查询的答案。

附图说明

将参考本发明的实施方式，这些实施方式的示例可在附图中示出。附图旨在是说明性的，而非进行限制。虽然本发明在这些实施方式的上下文中进行总体描述，但是应理解，这些描述不旨在将本发明的范围限制于这些具体实施方式。附图中的项目未按比例绘制。

图1概述根据本公开实施方式的系统的示例。在实施方式中，系统包括五个步骤：1)主题标记；2)候选主题查找；3)候选关系排名；4)事物消岐；以及5)查询的生成和执行。

图2示出根据本公开实施方式的主题标记的完整模型，其中使用基于词语嵌入(word embedding)和循环神经网络(包括基础RNN及其变型，诸如双向RNN、双向长短期存储器(LSTM)和堆叠双向门限循环单元(GRU))的顺序标记模型来识别主题字串。

图3示出根据本公开实施方式的用于主题标记的例示过程的流程图。

图4示出根据本公开实施方式的用于识别描述输入问题的主题的主题组块的例示过程的流程图。

图5示出根据本公开实施方式的用于为来自数据库的与问题对应的候选关系排名的模型的示例。使用堆叠双向GRU的示例性模型被用来针对问题计算连续数值化的矢量表达(问题-嵌入)。在这个步骤中也可使用其它RNN单元(诸如双向RNN和双向LSTM)。

图6示出根据本公开实施方式的用于关系排名的例示过程的流程图。

图7示出根据本公开实施方式的用于在k维矢量空间中生成表达输入问题的问题矢量的例示过程的流程图。

图8示出根据本公开实施方式的用于对候选主题消岐以产生预测主题和预测关系的例示过程的流程图。

图9描绘根据本公开实施方式的示例性系统图。

图10描绘根据本公开实施方式的受人启发的简单问答(HISQA)主题和关系模型的示例图。

图11示出根据本公开实施方式的用于为输入查询提供答案的例示过程的流程图。

图12描绘根据本公开实施方式的计算设备/信息处理系统的简化框图。

具体实施方式

在以下描述中，出于解释目的，阐明具体细节以提供对本发明的理解。然而，将对本领域技术人员显而易见的是，可在没有这些细节的情况下来实践本发明。此外，本领域技术人员将认识到，本发明的下述实施方式可通过多种方式实施，诸如程序、装置、系统、设备或在有形计算机可读介质上的方法。

图示中示出的组件或模块例示本发明的示例性的实施方式，并且意图避免使本发明模糊。还应理解，在本论述的全文中，组件可描述为单独功能性单元(可包括子单元)，但是本领域技术人员将认识到，各种组件或其部分可划分成单独组件，或者可整合在一起，包括整合在单个系统或单个组件内。应当注意，本文论述的功能或操作可实施为组件。组件可通过软件、硬件、或它们的组合实施。

此外，附图内的组件或系统之间的连接不旨在限于直接连接。相反，在这些组件之间的数据可由中间组件修改、改换格式、或以其它方式改变。另外，可以使用额外或更少的连接。还应注意，术语“联接”、“连接”、或“通信联接”应理解为包括直接连接、通过一个或多个中间设备来进行的间接连接、以及无线连接。

在本说明书中提到的“一个实施方式”、“优选实施方式”、“实施方式”、“多个实施方式”表示结合实施方式所描述的具体特征、结构、特性或功能包括在本发明的至少一个实施方式中，并且可以在多于一个实施方式中。另外，在本说明书的多处出现以上所提到的短语并不一定全都是指相同的一个或多个实施方式。

在本说明书的多处使用某些术语的目的在于例示，而不应被理解为限制。服务、功能或资源不限于单个服务、功能或资源；使用这些术语可指相关服务、功能或资源的可分布或集中的组合。

术语“包括(include、including、comprise、comprising)”应理解为开放式的术语，并且其后列出的任何内容都是示例，而不意味着限于所列项目。本文所使用的任何标题仅是为了组织目的，而不用于限制说明书或权利要求的范围。

本专利文件所提到的每个参考文献以引用的方式将其全文并入本文。

本领域技术人员应认识到：(1)某些步骤可选择性地执行；(2)步骤可不限于本文所阐述的特定顺序；(3)某些步骤可按照不同顺序执行；以及(4)某些步骤可同时进行。

A介绍

开放领域问答(QA)目标在于提供用自然语言表述的问题的准确答案，而不限制领域。近来，将来自所有领域的提取事实存储为统一化三元组的大规模知识图(KG)(诸如Freebase)为QA系统提供使用结构化数据推断答案的机会。在这种情况下，QA系统核心任务可制定为将呈自然语言的问题与KG中的信息化三元组匹配，并且基于这样的三元组推断答案。

在所有种类的问题中，存在仅需要KG中的一个事实(即三元组)作为答案证据的问题类型，在本文件中将其称为“简单问题”。典型示例可为“弗兰·德莱切尔出生地点在哪(Where was Fran Drescher born？)”。

虽然足够简单，但是回答此类问题仍有未解决的困难。恰恰相反，简单问题就是社区QA网站中出现的最常见类型的问题。

在本文件中，通过在这项任务中人类行为的启发，提出用于回答简单问题的新颖系统的实施方式。与一般执行整体组块生成和事物链接的大多数的现有方法不同，本文中的系统实施方式首先进行学习以准确识别问题的描述相关事物的部分，就像人在面对新的问题时首先将要做的那样。基于识别出的语言组块，系统搜索KG以查找具有相同表面形式的别名的候选事物。另外，相较于训练系统直接对不同事物消岐，利用每个事物所具有的关系来决定更可能出现在问题情景中的内容。在直观上，人会通过理解问题中提到的内容(关系)以及事物是否可通过这样的方式提及(具有所述关系)来对具有相同名称的事物消岐。以人类处理“弗兰·德莱切尔出生地点在哪？”的问题的过程为例。虽然可能并不了解“弗兰·德莱切尔”是谁或是什么，但可了解，它无疑是这个问题中的相关事物。然后，可搜索数据库来查找姓名“弗兰·德莱切尔”。假设存在两个带这个名称的事物：一个事物是作者，而另一事物是电视节目。由于可能相当确信问题是在询问人的出生地点，则会选择作者事物，并且可检查其对应的性质(关系)。

通过在该系统的实施方式中扩展利用连续嵌入和堆叠双向门限循环单元-循环神经网络(GRU-RNN)来作为子模块，在所有子模块上获得了优良性能，从而针对简单问答共同形成强大但直观的神经管线(pipeline)。

本文件的其余部分如下组织。在章节B中论述先前工作之后，章节C在形式上限定技术问题并且介绍该系统的实施方式。随后，章节D具体描述每个子模块，然后在章节E中具体描述训练技术。知识图的细节呈现在章节F中。章节G提供一些结论，并且章节H公开一些示例性系统实施方式。

B相关工作

对知识库(KB)支持的QA的研究已从早期特定领域QA发展成基于大规模KG的开放领域QA。重要研究方向已着眼于将自然语言问题转换成针对KG的结构化查询的问题语义解析。最新进展包括使用远程监督、利用释义、以及要求少量问题-回答对。相比之下，另一研究方向已提出为利用连续嵌入表达问题和KG元素两者，然后使用相似性测量决定最佳匹配。若干方法间的主要差异在于用于嵌入问题和KG元素的模型。虽然至少一种方法使用更简单的模型(其基本为单层结构)形成问题嵌入和知识嵌入，然而至少另一方法提出深度卷积神经网络(CNN)来完成任务。本文中的方法实施方式属于此类，但是利用基于RNN的模型构建问题嵌入。更重要地，在实施方式中使用新颖的事物链接方案。在先前的工作中，通常通过以下方式实现事物链接：首先根据问题生成所有可能N元(N-Gram)，随后利用排名模型为匹配任何所生成的N元的所有事物排名。相较而言，在实施方式中，首先顺序标记以定位准确主题字串，从而显著减少候选事物数量，然后利用主题与关系之间的隐含约束来启发式地为候选项排名。

从表达学习(representation learning)的角度出发，实施方式还涉及组合神经嵌入和连续知识库嵌入。对组合神经嵌入的研究是起源于巴尔迪(Baldi)等人在名称为“Exploiting the past and the future in protein secondary structure prediction(在蛋白质二级结构预测中探索过去和未来)”，Bioinformatics(生物信息学),15(11):937-946,1999的技术文献中论述的神经概率语言模型，然后就是基于CNN的模型、基于递归神经网络的模型、以及基于RNN的模型。对于连续知识库嵌入，大部分的工作是着眼于知识库补全的任务，其中嵌入空间中的转换可建模为数学运算。

C概述

在实施方式中，利用外部构建的知识图κ，其以主题-关系-对象的三元组(s,r,o)形式组织知识，其中s,o∈ε是事物，而是二元关系。针对κ以(s,r,？)形式的查询将会返回所有对象o_i∈ε，使得(s,r,o_i)是κ中的有效的三元组。因此，回答简单问题q可制定为查找s∈ε、使得查询(s,r,？)提供问题q的准确答案。在使用相同示例“弗兰·德莱切尔出生地点在哪？”情况下，这个问题可匹配至查询(弗兰·德莱切尔，出生地点，？)。一个示例性知识图是公共开放的Freebase。

基于该规则，本系统的实施方式核心在于用于查找s和r两者的最佳匹配的神经管线。概括地说，系统包括两个可训练的模块(主题标记和关系排名)以及一个基于规则的模块(联合消岐)。两个可训练的模块学习缩小未结构化的语言与结构语言之间的差距，同时基于规则的模块基于更早前的结果作出最终决定。图1概述系统实施方式。如图1中描绘的实施方式所述，先从(1)主题标记开始，系统首先生成(2)候选主题，然后(3)为候选关系排名，随后，其结果组合以执行联合(4)消岐，并且产生最终(5)预测和答案生成。

在实施方式中，管线始于可训练的主题标记系统，其识别描述问题中的话题的组块c。基于语言组块c，系统发布查询，从而获得别名与识别出的组块具有相同表面形式的所有事物。这个事物集z称为候选主题，标记为在基本上，可以假设正确主题别名中的一个应出现于问题之中。这个假设是合理的，因为现代KG确实包括人们以别名提及事物时的大多数的方式(但应注意，可使用可以改善这个过程的更复杂的近似匹配方案)。在给定假设情况下，如果主题标记是正确的，则正确主题必然在候选主题内，或公式化为

在实施方式中，系统将会尝试识别正确关系r。应当注意，系统不一定从所有可能关系R中检索r，因为所获得的候选主题将关系搜索空间限制为与候选主题相关的那些关系。因此，对于每个候选主题系统查询主题中涉及的所有关系，其标记为并将它们全都集中到候选关系列表中。例如，在知识图中，每个候选主题表达为节点，而关系表达是与候选主题相关的边缘。另外，确保正确关系在候选关系内，或公式化为随后，关系排名系统可训练成为中的关系评分，其中较高分数表示有较大的可能性是正确关系。

最后，另一模块基于候选主题和关系排名分数两者应用简单且启发式的联合消岐，从而产生该系统的最终预测。

D模型实施方式

1.主题标记

在实施方式中，主题标记目标在于识别词语中描述自然问题中的相关主题的组块。在实施方式中，主题标记制定为顺序标记问题。基本上，对于问题中的每个表征(token)，进行对这个表征是否是主题组块的一部分的二元化分类。为了完整起见，简略评述堆叠双向GRU-RNN，其中堆叠双向GRU-RNN是这个模块的核心模型。

首先，双向RNN是修改过的循环神经网络，其对两个不同的循环隐层呈现出正向和反向的每个输入序列，该不同的循环隐层都被连接至相同的输出层。有益地，双向RNN能够采集过去和未来的完整情景信息从而作出预测。其次，非常类似于长短期存储器(LSTM)，门限循环单元(GRU)是针对RNN的特殊单元设计。利用可训练的门和恒定误差传输(ConstantError Carousel)(CEC)，GRU很少发生梯度消失问题，并且能够学习长期依赖关系。相较于LSTM，GRU能够以更简单的设计和更少参数实现相似性能。最后，由于深度已表现出在理论上和经验上对于神经网络成功是重要的，因此，将更多的层添加至RNN(其将先前层的输出作为输入)可改善RNN的性能。在增加RNN的深度的许多可能方式中，广泛使用的惯用手段仅仅是将若干层堆叠起来。

在实施方式中，以上所提到的所有三个概念可组合以形成堆叠双向GRU-RNN。结构在一定程度上与格雷夫(Graves)等人在名称为“Speech recognition with deeprecurrent neural networks(利用深度循环神经网络来进行的语音识别)”,Acoustics,Speech and Signal Processing(声学、语音和信号处理)(ICASSP),IEEE国际会议,第6645-6649页,IEEE,2013的技术文献中论述的以及黄(Huang)等人在名称为“Bidirectional lstm-crf models for sequence tagging(用于顺序标记的双向LSTM-CRF模型)”，ArXiv预印本，ArXiv:1508.01991,2015的技术文献中论述的结构类似，不同之处在于使用GRU而非LSTM。在该文件的其余部分中，堆叠双向GRU-RNN简写为S-Bi-GRU。

图2示出根据本公开实施方式的主题标记的完整模型200(其与图1中的主题建模105相同)，其中基于词语嵌入和循环神经网络(包括基础RNN及其变型，诸如双向RNN、双向LSTM和堆叠双向GRU)的顺序标记模型用于识别主题字串。在实施方式中，所述模型包括：嵌入层210，所述嵌入层210将离散输入序列转换成连续矢量序列(词语嵌入)；S-Bi-GRU 212，所述S-Bi-GRU 212学习产生特征以用于分类；以及逻辑回归(二元化分类)层214，所述逻辑回归层214基于S-Bi-GRU层212所产生的特征预测每个表征是主题组块的一部分的概率。在实施方式中，通过使用标准负对数损失(Negative Log Loss，NLL)，所述模型是完全可求导的，因此可以直接通过反向传播进行训练。

在模型训练后，问题被馈送以获得每个表征是主题组块的一部分的概率。在实施方式中基于概率设定阈值，并且概率高于阈值的所有表征被组合成预测主题字串。在该系统的实施方式中，可使用相对测量值而非绝对阈值。在实施方式中，首先选择具有最高概率的表征，然后将选择扩展到两侧，直到概率相对于相邻内部表征降低了超过某百分比为止。经验上，这个方法略微更佳。

基于所选主题组块，可通过向KG查询名称或别名具有相同表面形式(即，相同拼法)的事物来获得候选主题。然而，在实施方式中，如果未找到匹配事物(5％)，则仅使用Freebase Suggest API来建议使用所选择的组块的事物。在此之后，可存在一个或多个事物以作为候选主题。为了便于引用，仅具有一个事物的情况称为单主题的情况，而具有多个事物的其它情况称为多主题的情况。

图3示出根据本公开实施方式的用于主题标记的例示过程的流程图240。在步骤242，接收具有一个或多个词语的输入查询。在当前示例中，在输入查询中可包括句子“弗兰·德莱切尔出生地点在哪？”。然后，在步骤244，输入查询可解析成五个词语202(弗兰、德莱切尔、出生、地点、在哪)，并且每个词语可输入至主题标记模型201，所述主题标记模型201包括嵌入层210、堆叠双向GRU-RNN 212和逻辑回归层214。在实施方式中，主题标记模型201识别主题组块。在当前示例中，如图1所示，主题标记200识别“弗兰·德莱切尔”作为主题组块。然后，在步骤246，具有主题组块的查询被发送至知识库(诸如知识图)，从而获得一个或多个候选主题事物(或者，等同地，候选主题)，如图1中的箭头109所指。在实施方式中，每个候选主题的名称或别名具有与主题组块相同的表面形式(即，拼写)。在当前示例中，找到两个事物(作者和电视连续剧)作为候选主题。

图4示出根据本公开实施方式的步骤244的详细过程。在步骤2442，嵌入层210将输入查询中的一个或多个词语转换成一个或多个嵌入，其中每个嵌入是表达对应词语的矢量。然后，在步骤2444，通过使用堆叠双向GRU-RNN 212分别生成与该一个或多个嵌入对应的一个或多个表征以及每个表征是否是主题组块的一部分的二元化分类特征。然后，在步骤2446，基于分类特征，逻辑回归层214预测每个表征是主题组块的一部分的概率。在当前示例中，输入问题中的五个词语“弗兰”、“德莱切尔”、“出生”、“地点”、“在哪”分别具有0.986、0.975、0.103、0.003、0.002的概率。在步骤2448，所述表征的概率高于阈值的一些表征可组合为主题组块。在下文中，术语“表征中的一些”是指表征中的一个或多个。在当前示例中，两个表征“弗兰”和“德莱切尔”被组合为主题组块。

2.关系排名

在实施方式中，关系排名模块目标在于识别用自然语言提出的问题所暗含的正确关系。在实施方式中，如模块名称所示，不同于使用分类来选择最佳关系，这个技术问题被制定为排名问题。基本上，如果候选关系在语义上更类似于问题，则它应具有更高排名。在本发明的实施方式中，采用嵌入方法测量关系与问题之间的语义相似性。首先，KG中的每个关系r被表达为k维连续矢量E(r)。然后，针对每个问题q，使用另一基于S-Bi-GRU的模型将该问题q嵌入至相同k维矢量空间以作为E(q)。由于关系和问题都被表达为相同维度的矢量，所以可使用一些距离度量来直接计算它们的语义相似性。在此，仅利用点积。

图5示出根据本公开实施方式的用于为来自数据库的与问题对应的候选关系排名的模型300的示例。如所描绘的，嵌入层302将问题中词语嵌入到矢量。在当前示例中，嵌入303a-303n分别是五个词语“弗兰”、“德莱切尔”、“出生”、“地点”、“在哪”的矢量表达。来自基于S-Bi-GRU的模型304的所有层的最终状态被组合形成问题嵌入(或者，等同地，问题矢量)308。S-Bi-GRU已被简化来避免杂讯。如附图的下半部所示，在基于S-Bi-GRU的模型304处理问题的嵌入序列后，所有的堆叠层的最终步骤隐输出矢量组合在一起以形成长矢量306，其本质上为该问题的神经表达。

在双向RNN情况下，最终步骤既表示第一步骤也表示最后步骤。然而，由于S-Bi-GRU 304的层的隐含大小或数量可以变化，因此长矢量306的维度可不同于关系嵌入的维度，因此无法直接用作问题嵌入。作为解决方案，在实施方式中，添加另一线性投影层307来确保它们维度匹配。因此，问题q与关系r之间的排名分数(语义的相似性分数)可写为RS(q,r)＝E(q)^TE(r)。在实施方式中，KG中的每个关系r被表达为k维连续矢量E(r)314。针对每个问题q，线性投影层307将长矢量306投影成k维问题矢量E(q)308，使得问题矢量E(q)308和关系矢量E(r)314具有相同维度。在实施方式中，执行关系矢量E(r)314与问题矢量E(q)308的点积316从而得到排名分数。

最后，在实施方式中，为了训练排名模型，需要正匹配和负匹配两者。由于正匹配是直接与数据集一起出现，因此使用负采样获得负匹配。本文件的章节E.1详细解释了负采样。因此，利用正对和负对两者，可使用一些排名损失来训练基于S-Bi-GRU的模型304。在实施方式中，使用裕度排名损失：

L(q,r,r′)＝[γ–RS(q,r)+RS(q,r′)]

其中，r表示正匹配，表示r′负匹配，以及γ是预定裕度。

图6示出根据本公开实施方式的用于关系排名的例示过程的流程图340。在步骤342，接收查询，所述查询包括具有一个或多个词语的问题。然后，在步骤344，问题嵌入模型301可使用输入查询在k维矢量空间中生成问题矢量E(q)308。

在步骤346，查询数据库以获得在k维矢量空间中表达候选关系的关系矢量314。在实施方式中，针对246中确定的每个候选主题，在数据库中搜索表达与候选主题关联的所有关系的关系矢量314。在当前示例中，如图1所示，针对候选主题事物1的候选关系包括“出生地点”、“国籍”、“父母”、“电影”等等。类似地，针对候选主题事物2的候选关系包括“名称”、“类型”、“集数”、“季数”等等。随后，基于问题矢量308与每个关系矢量314之间的点积，在步骤348，确定每个候选关系的排名分数318。在实施方式中，每个排名分数318可以是标量，并且表示问题与对应关系之间的语义相似性。

图7示出根据本公开实施方式的步骤344的详细过程。在步骤3442，嵌入层302将输入问题中的一个或多个词语转换成一个或多个嵌入303，其中每个嵌入是表达对应词语的矢量。在步骤3444，S-Bi-GRU生成作为查询问题的神经表达的矢量306。随后，在步骤3446，如果矢量306不是k维矢量，则线性投影层307将矢量306投影到k维矢量空间之中从而获得问题矢量308。

返回参考图1，每个箭头110表示：在步骤346，将对候选关系的查询发送至数据库。在当前示例中，如图1所示，事物1的候选关系“出生地点”的排名分数为0.543，并且事物1的候选关系“国籍”的排名分数为0.404。在图1中，关系排名115示出关系及其针对每个事物的排名分数的列表。

3.联合消岐

在实施方式中，在获得对候选关系的排名分数后，使用该模块以对候选主题消岐(如果存在多个候选主题的话)，并且产生主题和关系两者的最终预测。

在实施方式中，针对单主题的情况下，由于并不存在要消岐的候选主题，因此直接选择唯一主题作为预测主题，然后具有最高分数的关系将是预测关系。

在实施方式中，针对多主题的情况，使用基于启发式的模型执行联合消岐。联合消岐的核心思想在于，如果某关系在语义上更类似于问题，则正确主题将更有可能具有与问题类似的这个关系。概念上，它是与事物相关的关系的语义并限定事物语义。基于这个概念，使用主题的所有关系的排名分数决定哪个候选主题更为正确。例如，对候选主题的排名分数可限定为然而，这可偏向具有更多关联的候选主题。另外，具有低分数的关系可能带来不希望存在的噪声。因此，在实施方式中，仅考虑到具有前N排名分数的候选关系。在此，N是待选择的超参数。通过使用表示前N候选关系，候选主题的排名分数可重写为

在实施方式中，为了预测，具有最高排名分数的候选主题可被预测为正确主题，即，

然后将与预测主题相关的所有候选关系中的具有最高排名分数的候选关系预测为正确关系。

应当注意，当N≥3时，预测的量级可以是重要的，因为在这种情况下，在所有候选关系中具有最高分数的关系可不与预测主题相关。

参考图1，如箭头120所指，针对当前示例假设超参数N是2的情况下执行联合消岐。候选主题事物1和事物2的排名分数130分别为0.947和0.239。由于事物1具有最高排名分数，因此事物1被预测为正确主题，如箭头125所指。另外，由于候选关系“出生地点”具有最高排名分数，所以这个关系被预测为正确关系。

在实施方式中，结构化查询基于预测主题和预测关系生成并被发送至KG服务器。然后，KG服务器执行结构化查询从而获得对象，即，问题答案。在实施方式中，KG包括呈N-三元组RDF格式的数据，并且每个RDF三元组具有(主题，关系，对象)的形式。

图8示出根据本公开实施方式的用于对候选主题消岐以产生预测主题和预测关系的例示过程的流程图370。在步骤372，针对输入查询确定是否存在多于一个候选主题。如果仅有一个候选主题，则在步骤374，选择这个候选主题作为预测主题。随后，在步骤376，在与预测主题关联的所有关系中选择具有最高排名分数的关系作为预测关系。

如果针对输入查询存在多于一个候选主题，则过程转至步骤380。在步骤380，针对每个候选主题对前N排名分数相加。然后，选择具有前N排名分数的最高总和的候选主题作为预测主题。随后，过程转至步骤376，从而选择预测关系。

E.训练

如章节D所论述的，在实施方式中，两个可训练的模型都是完全可求导的，并且可由标准(小批量)随机梯度下降(SGD)训练。然而，为了充分利用本文所公开的系统的实施方式的功能，可使用额外技术来加速训练并且改善收敛。在这个章节中介绍一些训练技术，这些训练技术在实施方式中改善最终性能。

1.小批量负采样

在实施方式中，当训练关系排名模型时，针对每个(q,r,r′)三元组，系统计算首先计算它们的嵌入E(q)、E(r)和E(r′)，然后计算对应点积E(q)^TE(r)、E(q)^TE(r′)。然而，由于每个问题只能具有一个正匹配，但有数千个负匹配，因此，如果系统针对每个可能(q,r,r′)简单地执行上述计算，则它将因为重复计算相同E(q)^TE(r)和E(q)^TE(r′)而浪费掉许多资源。因此，如果希望使用许多(或甚至是全部)负匹配，则训练时间可长到无法实现。由于更多的负样本通常造成更好的性能，因此在实施方式中，提出使用小批量负采样减缓重复计算问题。基本上，针对每个正问题关系对(q,r),，不同于一次采样一个负关系，而是采样小批量的b个负关系{r1′,…,rb′}。然后，仅针对b个负样本计算一次正部。另外，通过有效的存储操作，对不同的负样本执行循环以转换成更GPU友好的大密度的矩阵乘法。此外，在实施方式中，这项技术与矢量化计算组合，其中，小批量的(q,r,{r1′,…,rb′})三元组并行计算。因此，利用有限的负采样来训练模型不仅可行而且快速。

2.具有动量时刻表(Momentum Schedule)的AdaGrad

作为深度神经网络的默认最佳算法，随机梯度下降(SGD)已成功应用于不同的问题。然而，为了充分利用SGD，在实施方式中可人为地调谐初始学习速率和退火时刻表。

相比之下，作为SGD变型的AdaGrad具有基于先前梯度来自行调谐(减小)学习速率的优点。因此，仅需要调谐AdaGrad的全局学习速率，这样在实践中容易得多。此外，AdaGrad基于参数空间的几何逐个元素地调整学习速率，因此使得模型能够尤其注意不频繁出现的(稀少)特征。因此，当用AdaGrad来取代SGD时，主题标记模型和关系排名模型都可稳定地实现更好且更一致的性能(例如，在实验中，在若干次实验之间的性能差异在0.5％内)。

虽然AdaGrad是非常强大的，但是它会基于先前梯度幅度持续降低学习速率。因此，模型学习得越快，学习速率降低得越快。因此，训练通常快速减慢。为了克服这个缺点，在实施方式中，提出将AdaGrad与动量组合，这可使得AdaGrad能够累积地在正确的方向上得到进一步发展。在每个参数更新过程中，使用调整后的梯度累积速度

其中g_t，υ_t，ρ_t分别是在时间步长t处的梯度、累积速度和动量率，并且所有数学运算在此是逐个元素进行的。然后，使用累积速度执行更新

θ_t＝θ_t-1+υ_t (4)

其中θ_t是在时间步长t处的参数。

经验上，针对主题标记模型，将AdaGrad与动量组合能够使用短得多的训练时间得到相同性能。然而，针对关系排名，直接添加动量导致损失从训练开始就剧烈振荡。因此，训练损失极缓慢地下降，从而使得性能更差。推测出这是因为开始时的噪声梯度而造成的。作为补救，在实施方式中，提出使用动量时刻表，这会在开始时停用动量，并且在若干个时期后或在训练损失达到某个水平时开始逐渐增加动量。直观地，期望在早期阶段中避免噪声梯度，而在稍后使用更有效的梯度形成动量。在这项工作中，这个策略称为具有动量时刻表的AdaGrad。

通过使用具有动量时刻表的AdaGrad，使用相同训练时间对关系排名模型实现低得多的训练损失，从而在有效集上实现了3.0％+的性能提升。

3.Dropout

被视为是有用的另一技术是将竖直Dropout应用于S-Bi-GRU。在实施方式中，Dropout被应用于每个Bi-GRU层的输入信号，在图2中，由“RNN”组件前的点划线表示。在发明人进行的实验中，使用Dropout通常需要更长时间训练来收敛至相同的损失水平。但是一旦收敛，则模型在有效集上始终具有更好性能。因此，在实施方式中，对主题标记模型和关系排名模型都并入了Dropout。

4.预训练的词语嵌入

类似先前的观察，使用预训练的词语嵌入帮助实现更好性能。在发明人进行的实验中，当使用300d Glove(可在nlp.stanford.edu/projects/glove/获取)以将词语嵌入初始化时，性能趋于始终优于随机初始化嵌入的情况下的性能，其中，300d Glove是用于获得词语的矢量表达的无监督的学习算法，由加利福尼亚州斯坦福市斯坦福大学(StanfordUniversity,Stanford,CA)开发。

5.调谐模型结构和超参数

在本工作的实施方式中，针对主题标记模型的子结构使用不同设定。以下是在实际的数据集上训练模型的指南。利用其它的数据集，可应用具有略微不同超参数设定(例如，学习速率)的类似调谐步骤。

就词语嵌入层来说，由于它使用了预训练的GloVe来作为初始化，因此在实施方式中略微精调了参数。因此，在实施方式中，没有使用强大的具有动量的AdaGrad，而是将标准SGD与小初始学习速率(0.001)一起使用，并且在每个时期后对学习速率(乘以0.85)退火。对于S-Bi-GRU，在每层中使用具有128个单元的两个层。在实施方式中，在训练过程中S-Bi-GRU和逻辑回归层的参数都被随机地初始化，并通过具有动量(ρt＝0.8)的AdaGra(η＝0.01)来训练。另外，可将竖直Dropout(0.5)应用于S-Bi-GRU。

在实施方式中，为了训练关系排名模型，词语嵌入层使用与主题标记模型中的相同的设定(即，在这个实施方式中，这两个模型不共享词语嵌入)。在实施方式中，针对S-Bi-GRU使用略大的结构，具有256个单元的两个层。在训练过程中，S-Bi-GRU和线性投影层都可通过具有动量时刻表的AdaGrad(η＝0.005)来训练，其中动量率以0.3来增加，直至在3个时期后达到0.9为止。另外，在实施方式中，可将较弱的Dropout(0.3)应用于S-Bi-GRU。在实施方式中，针对关系嵌入仅使用了128个矢量。在训练过程中，每个关系嵌入被约束为保持在单位球内，即，由于存在约束，可使用较小学习速率(0.001)来确保更精细的搜索。

F.知识图

在本工作的实施方式中，最新Freebase转储数据用作KG的数据源。转储数据包含多于3B个事实，其中每个事实以N三元组RDF的格式制备。每个RDF三元组具有(主题，关系，对象的)形式，正如章节A介绍的那样。

应当注意，虽然这个章节提到一个示例性数据源，即，Freebase，但是本公开可用于其它的知识图。例如，如果用不同语言的知识图(诸如，汉语的知识图)来替换Freebase知识图，并且用呈这种语言的问答对来训练，则所得系统也能够以这种语言来回答问题。

在实施方式中，为了存储KG，利用图数据库(诸如Cayley或Virtuoso，两者均为开源软件)，所述图数据库可将N三元组RDF数据直接加载到其存储中。另外，可通过经Gremlin启发的方式来容易地查询Cayley。可通过SPARQL的方式(SPARQL是www.w3.org/TR/rdf- sparql-query中指定的针对图数据库的查询语言并由万维网联盟制定为标准)来容易地查询Virtuoso。具有相同能力的任何其它图数据库可用作为替代品。

G.一些结论

本文提出的是用于简单问答的新颖且不显而易见的架构的系统和方法的实施方式。利用独特的主题标记模块，排除了先前系统中出现的大部分噪声信息，并且事物链接问题被简化成消岐问题。利用恰当的训练技术，可获得强大的基于S-Bi-GRU的排名模型以将自然语言与结构化关系匹配。此外，在实施方式中，通过利用主题与关系之间的隐含规律，启发式的消岐方法实现了非常具有竞争性的性能。通过将子模块组合在一起，神经管线实施方式在“简单问题”数据集上胜过了先前系统。

H.系统实施方式

图9描绘根据本公开实施方式的示例性系统图。如图9中描绘的实施方式所示，系统400可包括：自然语言查询接口406，接收输入查询；预处理器级408，执行输入查询的表征化和索引化，即，将查询(诸如“弗兰·德莱切尔出生地点在哪？”)翻译成数字序列，其中每个词语根据预建词典(词典是词语或表征向整数索引的映射)映射至整数值；根据本文所公开的实施方式(章节D)的HISQA主题和关系模型410；查询生成器416，根据在先前步骤中通过模型找到的主题和关系使用图遍历语言(诸如Gremlin)生成结构化查询；知识图服务器414，与查询生成器416和模型410接口从而执行结构化查询，进而获得答案(如章节F)；以及答案呈现模块412，在文本或html页面中输出并且展示结果。在实施方式中，系统400还可包括训练系统(其可离线完成)，所述训练系统可访问标记的Q/A数据集402从而训练HISQA模型410，如上所述(章节E)。该查询生成器产生的示例性问题的示例性结构化查询可为“SELECT？object WHERE{<entity_for_fran_drescher><place_of_birth_for_person>？object}”。

图10描绘根据本公开实施方式的受人启发的简单问答(HISQA)主题和关系模型410的示例图。如所描绘的，输入问题449被发送至主题标记模型450，其中主题标记模型450识别描述输入问题的话题的主题组块。在实施方式中，问题449可表征化并索引化，即，问题(诸如“弗兰·德莱切尔出生地点在哪？”)可转换成数字序列，其中每个词语根据预建词典映射至整数值。通过使用主题组块，查询数据库452来查找名称或别名具有与主题组块相同的表面形式的一个或多个候选主题事物。

关系排名模型454使用问题449生成问题矢量。关系排名模型454还查找表达与候选主题事物关联的一个或多个关系的一个或多个关系矢量，并且通过执行问题矢量与一个或多个关系矢量之间的点积确定一个或多个关系的排名分数。

可作为计算机软件、硬件或固件的联合消岐456在候选主题事物和一个或多个关系中选择预测主题事物和关系。通过使用预测主题事物和关系，查询数据库458来查找问题449的答案460。

图11示出根据本公开实施方式的用于为输入查询提供答案(或者，等同地，对象)的例示过程的流程图500。在步骤502，接收输入查询，其中输入查询可包括受人启发的问题。然后，在步骤504，主题标记模型204识别该查询的主题组块。然后，在步骤506，通过使用主题组块查询数据库从而查找一个或多个候选主题。

在步骤508，针对每个候选主题，生成关系的排名分数。在实施方式中，问题嵌入模型301生成可以是k维矢量的问题嵌入308。针对每个候选主题，从数据库中搜索对应于与候选主题关联的所有关系的关系矢量314。然后，针对每个候选主题，执行与候选主题关联的关系矢量314与问题嵌入308之间的点积来确定关系矢量的排名分数。在实施方式中，针对每个候选主题，具有最高排名分数的关系被识别为该候选主题的正确关系。

在步骤510，如果存在多于一个候选主题，则执行对候选主题的消岐，从而选择候选主题中的一个作为最终预测主题。在实施方式中，针对每个候选主题，将前N排名分数相加。然后，选择前N排名分数的总和最高的候选主题作为预测主题。在步骤512，在与预测主题关联的关系中选择具有最高排名分数的关系作为最终预测关系。

在步骤514，查询数据库来查找与预测主题和预测关系关联的对象。在实施方式中，数据库中的数据以主题-关系-对象三元组的形式组织。

在实施方式中，本专利文件的方面可涉及到或实施于信息处理系统/计算系统。出于本公开的目的，计算系统可包括出于商业、科学、控制或其它目的可操作来计算、运算、确定、归类、处理、传输、接收、检索、创作、路由、交换、存储、显示、通信、显现、检测、记录、再现、处理或利用任何形式信息、智能或数据的任何设备或设备的组合。例如，计算系统可以是个人计算机(例如，膝上型计算机)、平板电脑、平板手机、个人数字助理(PDA)、智能手机、智能手表、智能包装、服务器(例如，刀片式服务器或机架式服务器)、网络存储设备或任何其它合适设备，并且可在大小、形状、性能、功能和价格方面有所不同。计算系统可包括随机存取存储器(RAM)、一个或多个处理资源(诸如中央处理单元(CPU)或硬件或软件控制逻辑)、ROM和/或其它类型的存储器。计算系统中的附加组件可包括一个或多个磁盘驱动器、用于与外部设备通信的一个或多个网络端口、以及各种输入/输出(I/O)设备(诸如键盘、鼠标、触摸屏和/或视频显示器)。计算系统还可包括可操作来在各种硬件组件之间传输通信的一个或多个总线。

图12描绘根据本公开实施方式的计算设备/信息处理系统(或计算系统)的简化框图。应当理解，系统600所示出的功能可操作来支持各种信息处理系统的实施方式，但应理解，信息处理系统可不同地配置并且包括不同组件。

如图12所示，系统600包括提供计算资源并且控制计算机的一个或多个中央处理单元(CPU)601。CPU 601可通过微处理器等实施，并且还可包括一个或多个图形处理单元(GPU)617和/或用于数学计算的浮点运算协处理器。系统600还可包括系统存储器602，该系统存储器602可以以随机存取存储器(RAM)、只读存储器(ROM)或这两者的形式存在。

还可提供多个控制器和外围设备，如图12所示。输入控制器603表示至各种输入设备604的接口，诸如键盘、鼠标或触笔。还可存在扫描仪控制器605，其与扫描仪606通信。系统600还可包括存储控制器607，其与一个或多个存储设备608连接，每个存储设备608包括存储介质(诸如磁带或磁盘，或光学介质)，其可用于记录用于操作系统、设施和应用的指令的程序，所述程序可包括实施本发明的各方面的程序实施方式。存储设备608还可用于存储根据本发明的处理数据或是将要处理的数据。系统600还可包括显示控制器609用以提供至显示设备611的连接，所述显示设备611可以是阴极射线管(CRT)、薄膜晶体管(TFT)显示器、或其它类型的显示器。计算系统600还可包括用于与打印机613通信的打印机控制器612。通信控制器614可与一个或多个通信设备615连接，这使系统600能够通过多种网络的任一者或通过任何合适电磁载波信号(包括红外信号)来连接至远程设备，该多种网络包括互联网、云资源(例如，以太云网、以太网光纤通道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网络(SAN)。

在例示系统中，所有主要系统组件可连接至总线616，所述总线616可表示多于一个物理总线。然而，各种系统组件可在物理上彼此接近或不接近。例如，输入数据和/或输出数据可从一个物理位置远程地传输到另一物理位置。另外，实施本发明的各方面的程序可经由网络从远程位置(例如，服务器)访问。此类数据和/或程序可通过多种机器可读介质的任一者来传达，包括但不限于：磁性介质，诸如硬盘、软盘和磁带；光学介质，诸如CD-ROM和全息设备；磁光介质；以及硬件设备，所述硬件设备被具体配置成存储或存储并执行程序代码，诸如专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、以及ROM和RAM设备。

本发明的实施方式可利用用于一个或多个处理器或处理单元以致使步骤执行的指令在一个或多个非暂态计算机可读介质上编码。应当注意，该一个或多个非暂态计算机可读介质应当包括易失性存储器和非易失性存储器。应当注意，可替代的实施方案是可行的，包括硬件实施方式或软件/硬件实施方式。硬件实施的功能可使用ASIC、可编程阵列、数字信号处理电路等等来实现。因此，任何权利要求中的术语“装置”意在涵盖软件实施方式和硬件实施方式两者。类似地，如本文使用的术语“计算机可读媒介或介质”包括具有实施在其上的指令程序或它们组合的软件和/或硬件。利用所构想的这些可替代实施方式，应当理解，附图以及所附描述提供本领域技术人员编写程序代码(即，软件)和/或制造电路(即，硬件)所需要的功能信息，从而执行所需处理。

应当注意，本发明的实施方式还可涉及具有非暂态有形计算机可读介质的计算机产品，该非暂态有形计算机可读介质在其上具有计算机代码以执行各种计算机实施的操作。介质和计算机代码可以是出于本发明的目的专门设计和构造的介质和计算机代码，或者它们可以是相关领域技术人员已知或可获取的介质和计算机代码。有形计算机可读介质的示例包括但不限于：磁性介质，诸如硬盘、软盘和磁带；光学介质，诸如CD-ROM和全息设备；磁光介质；以及硬件设备，所述硬件设备被具体配置成存储或存储并执行程序代码，诸如专用集成电路(ASIC)、可编程逻辑器件(PLD)、闪存设备、以及ROM和RAM设备。计算机代码的示例包括机器代码(诸如编译器产生的代码)以及包含由计算机使用解译器来执行的更高级代码的文件。本发明的实施方式可完全或部分地实施为可在由处理设备执行的程序模块中的机器可执行指令。程序模块的示例包括库、程序、例程、对象、组件和数据结构。在分布式计算环境中，程序模块可物理上位于本地的、远程的或两者的设施中。

本领域技术人员将理解，计算系统或编程语言对本发明的实践均不重要。本领域技术人员还理解，多个上述元件可物理和/或功能上划分成子模块或可物理和/或功能上组合在一起。

本领域技术人员将理解，先前示例以及实施方式仅是示例性的，而非限制本公开的范围。预期的是，本领域技术人员在阅读本说明书并研究附图后而明显的本公开的所有排列、增强、等同、组合和改善包括在本公开的真实精神和范围内。还应注意，随附权利要求中的要素可不同地布置，包括具有多个从属、配置和组合。例如，在实施方式中，各权利要求的主题可与其它权利要求组合。

Claims

1.用于为查询提供答案的计算机实施的方法，所述方法包括：

接收具有一个或多个词语的查询，所述一个或多个词语包括描述所述查询的话题的主题组块；

查询数据库以查找至少一个候选主题，所述至少一个候选主题的名称或别名具有与所述主题组块相同的表面形式；

查询数据库以查找一个或多个关系矢量，所述一个或多个关系矢量表达与所述至少一个候选主题关联的一个或多个关系；

确定所述一个或多个关系的排名分数，所述排名分数中的每个表示所述查询与对应关系之间的语义相似性；

在所述一个或多个关系中选择具有最高排名分数的关系作为预测关系，并且选择所述至少一个候选主题作为预测话题；以及

利用所述预测关系和所述预测话题查询数据库以查找所述查询的答案。

2.如权利要求1所述的计算机实施的方法，还包括：

将所述一个或多个词语转换成一个或多个嵌入，所述嵌入中的每个是表达对应词语的矢量；

预测所述一个或多个嵌入中的每个是所述主题组块的一部分的概率；以及

将所述一个或多个嵌入中的概率高于阈值的一些嵌入选择作为所述预测话题；以及

将与所选择的嵌入对应的一个或多个词语组合为所述主题组块。

3.如权利要求2所述的计算机实施的方法，其中，预测概率的步骤包括：

分别生成与所述一个或多个嵌入对应的一个或多个表征以及每个表征是否是所述主题组块的一部分的二元化分类特征；以及

基于所述二元化分类特征，预测每个表征是所述主题组块的一部分的概率。

4.如权利要求1所述的计算机实施的方法，还包括：

将所述一个或多个词语转换成一个或多个嵌入，每个嵌入是表达对应词语的矢量；以及

使用所述一个或多个嵌入，生成作为所述查询的神经表达的问题矢量。

5.如权利要求4所述的计算机实施的方法，还包括：

如果所述问题矢量的维度不同于所述一个或多个关系矢量的维度，则将所述问题矢量投影成维度与所述一个或多个关系矢量的维度相同的矢量。

6.如权利要求4所述的计算机实施的方法，其中，确定所述一个或多个关系的排名分数的步骤包括：

执行所述问题矢量与所述一个或多个关系矢量之间的点积。

7.如权利要求1所述的计算机实施的方法，其中，所述至少一个候选主题包括多个候选主题，所述方法还包括：

对所述多个候选主题消岐，从而在所述多个候选主题中选择所述预测主题。

8.如权利要求7所述的计算机实施的方法，其中对所述多个候选主题消岐的步骤包括：

针对每个候选主题，将所述排名分数中的前N排名分数相加，N是整数；以及

选择前N排名分数的总和最高的候选主题作为所述预测话题。

9.用于识别问题中的话题的计算机实施的方法，所述方法包括：

接收具有一个或多个词语的查询问题，所述一个或多个词语包括所述查询问题的话题；

将所述一个或多个词语转换成一个或多个嵌入，每个嵌入是表达对应词语的矢量；

预测所述一个或多个嵌入中的每个是所述话题的一部分的概率；

将所述一个或多个嵌入中的概率高于阈值的一些嵌入选择作为所述话题；以及

将与所选择的嵌入对应的一个或多个词语组合为所述话题。

10.如权利要求9所述的计算机实施的方法，其中，预测概率的步骤包括：

分别生成与所述一个或多个嵌入对应的一个或多个表征以及每个表征是否是所述话题的一部分的二元化分类特征；以及

基于所述二元化分类特征，预测每个表征是所述话题的一部分的概率。

11.如权利要求10所述的计算机实施的方法，其中，生成一个或多个表征的步骤使用基础循环神经网络、双向循环神经网络、双向长短期存储器和堆叠双向门限循环单元循环神经网络中的至少之一来执行。

12.如权利要求9所述的计算机实施的方法，其中，所述阈值针对所选择的最高概率确定。

13.用于为查询提供答案的计算机实施的方法，所述方法包括：

接收具有一个或多个词语的输入查询；

使用神经网络模型识别所述输入查询的主题组块，所述主题组块描述所述输入查询的话题；

使用所述主题组块查询数据库以识别名称或别名具有与所述主题组块相同的表面形式的至少一个候选主题；

在与所述至少一个候选主题关联的一个或多个关系中选择预测关系，并且选择所述至少一个候选主题作为预测话题；以及

14.如权利要求13所述的计算机实施的方法，其中，识别主题组块的步骤包括：

15.如权利要求14所述的计算机实施的方法，其中预测概率的步骤包括：

16.如权利要求15所述的计算机实施的方法，其中在一个或多个关系中选择预测关系的步骤包括：

查询数据库以查找与所述至少一个候选主题关联的一个或多个关系；以及

确定所述一个或多个关系的排名分数，所述排名分数中的每个表示所述输入查询与对应关系之间的语义相似性；以及

在所述一个或多个关系中选择具有最高排名分数的关系作为所述预测关系。

17.如权利要求16所述的计算机实施的方法，其中，确定所述一个或多个关系的排名分数的步骤包括：

查询数据库以查找一个或多个关系矢量，所述一个或多个关系矢量分别表达所述一个或多个关系；

生成表达所述输入查询的问题矢量，所述问题矢量具有与所述一个或多个关系矢量相同的维度；以及

执行所述问题矢量与所述一个或多个关系矢量之间的点积以确定所述一个或多个关系的排名分数。

18.如权利要求17所述的计算机实施的方法，其中，生成所述问题矢量的步骤包括：

使用所述一个或多个嵌入和循环神经网络生成作为所述查询的神经表达的矢量；

如果作为所述查询的神经表达的所述矢量的维度不同于所述一个或多个关系矢量的维度，则将所述矢量投影成维度与所述一个或多个关系矢量的维度相同的所述问题矢量；以及

如果作为所述查询的神经表达的所述矢量的维度与所述一个或多个关系矢量的维度相同，则将所述矢量作为所述问题矢量。

19.如权利要求18所述的计算机实施的方法，其中，所述循环神经网络包括基础循环神经网络、双向循环神经网络、双向长短期存储器和堆叠双向门限循环单元循环神经网络中的至少之一。

20.如权利要求16所述的计算机实施的方法，当在使用所述主题组块来查询数据库的步骤中发现多个候选主题时，所述方法还包括：

针对所述候选主题中的每个，将所述排名分数中的前N排名分数相加，N是整数；以及

选择前N排名分数的总和最高的候选主题作为所述预测话题。