CN104915340B

CN104915340B - 自然语言问答方法及装置

Info

Publication number: CN104915340B
Application number: CN201410085902.XA
Authority: CN
Inventors: 邹磊; 刘婷婷; 路彦雄; 刘怀军; 黄睿哲
Original assignee: Peking University; Tencent Technology Shenzhen Co Ltd
Current assignee: Peking University; Tencent Technology Shenzhen Co Ltd
Priority date: 2014-03-10
Filing date: 2014-03-10
Publication date: 2019-09-10
Anticipated expiration: 2034-03-10
Also published as: US10210245B2; CN104915340A; EP3117345A1; US20190146985A1; WO2015135455A1; US20160328467A1; EP3117345A4; US10956464B2

Abstract

本发明实施例公开了一种自然语言问答方法及装置，属于信息检索和处理领域。所述方法包括：获取自然语言问句N；将所述自然语言问句N转换为查询语义图Q^s，所述查询语义图Q^s中的每条边代表所述自然语言问句N中的一个语义关系；在RDF图G中查找与所述查询语义图Q^s匹配的子图；根据所述子图得到所述自然语言问句N的答案。本发明实施例解决了在问题理解阶段需要耗费很大的计算量来消歧的问题；达到了提供了一种全新的自然语言问答机制，将自然语言问句N转换为查询语义图Q^s时不需要消歧，消歧过程在查找与查询语义图Q^s匹配的子图的过程中自然完成的效果。

Description

自然语言问答方法及装置

技术领域

本发明实施例涉及信息检索和处理领域，特别涉及一种自然语言问答方法及装置。

背景技术

问答系统是信息检索系统的一种高级形式。它能用准确、简洁的自然语言回答用户用自然语言提出的问题。

RDF（Resource Description Framework，资源描述框架）资源库是实现问答系统的一个基础。RDF资源库，也称知识库，通常包括大量的便于计算机识别和理解的三元组。每个三元组表示为主体、谓词和客体，比如主体“《演员的自我修养》”、谓词“类别”和客体“书籍”。目前的问答系统主要包括两个阶段：问题理解阶段和查询执行阶段。在问题理解阶段，问答系统首先将自然语言问句N翻译为SPARQLs查询语句，SPARQLs是一种用于在RDF资源库中执行查询的语言；然后在查询执行阶段，问答系统将SPARQLs查询语句输入SPARQLs搜索引擎在RDF资源库中搜索出自然语言问句N的答案。

如图1所示，当一个自然语言问句“谁嫁给了那个在费城中出演的演员？”输入到问答系统后，问答系统首先将该自然语言问句翻译成SPARQLs查询语句12：

“?x主演费城_(电影)；

?x类型演员；

?x配偶?y”，

然后，SPARQLs搜索引擎14输出查询结果16：“?y=梅拉妮·格里菲斯”。

在实现本发明实施例的过程中，发明人发现背景技术至少存在以下问题：由于自然语言具有歧义性，比如短语“费城”可能是指费城（城市）、费城（电影）和费城_76人队，上述技术在将自然语言问句N翻译到SPARQLs查询语句12的过程中，需要根据自然语言问句N的语义来消除歧义。而消歧并不是一项简单的任务，不仅需要耗费很大的计算量，而且如果消歧失败的话，还会干扰结果的正确性。

发明内容

为了解决在问题理解阶段需要耗费很大的计算量来消歧的问题，本发明实施例提供了一种自然语言问答方法及装置。所述技术方案如下：

第一方面，提供了一种自然语言问答方法，所述方法包括：

获取自然语言问句N；

将所述自然语言问句N转换为查询语义图Q^s，所述查询语义图Q^s中的每条边代表所述自然语言问句N中的一个语义关系；

在资源描述框架RDF图G中查找与所述查询语义图Q^s匹配的子图；

根据所述子图得到所述自然语言问句N的答案。

可选地，所述将所述自然语言问句N转换为查询语义图Q^s，包括：

发现所述自然语言问句N中的关系短语；

发现每个所述关系短语的伴随参数；

构建查询语义图Q^s，所述查询语义图Q^s中的每条边对应一个所述关系短语，所述查询语义图Q^s中的每个顶点对应一个所述伴随参数。

可选地，所述发现所述自然语言问句N中的关系短语，包括：

从所述自然语言问句中分析出句法依赖树Y；

根据预设的关系短语字典，查询所述关系短语字典中存在于所述句法依赖树Y的关系短语；其中，所述关系短语字典中的关系短语存在于所述句法依赖树Y，当且仅当所述句法依赖树Y中存在一个相连子树y满足如下两个条件：

条件1：在所述相连子树y中的每个节点包括所述关系短语的一个词，且所述相连子树y包括所述关系短语的所有词；

条件2：无法在所述句法依赖树Y中找到一个子树y`，所述子树y`也满足所述条件1且所述相连子树y是所述子树y`的子树。

可选地，所述发现每个所述关系短语的伴随参数，包括：

对于每个所述关系短语在所述句法依赖树Y中所对应的所述相连子树y，通过主体类语义关系和客体类语义关系在所述相连子树y中发现所述关系短语的伴随参数；

所述主体类语义关系包括：主语，名词性主语，被动式名词性主语，从句型主语，被动式从句主语，控制性主语，所有格修饰符；

所述客体类语义关系包括：宾语，介词性宾语，直接宾语，间接宾语。

可选地，所述在RDF图G中查找与所述查询语义图Q^s匹配的子图，包括：

设所述查询语义图Q^s包括n个顶点{v₁，…，v_n}，所述查询语义图Q^s中的每条顶点v_i对应一个伴随参数，i=1，…，n，获取每个伴随参数所对应的候选列表

所述查询语义图Q^s中的每条边v_iv_j对应一个关系短语1≤i≠j≤n，获取每个关系短语所对应的候选列表

根据所述候选列表和候选列表在所述RDF图G中查找与所述查询语义图Q^s匹配的子图。

可选地，所述获取每个伴随参数所对应的候选列表包括：

通过实体链接技术获取每个伴随参数arg_i所对应的候选列表每个伴随参数arg_i的候选列表包括了所述伴随参数arg_i到所述RDF图G中的至少一个候选实体或候选类别的映射，每个映射对应有一个置信度且每个候选列表中的各个映射按照置信度由高到低排序。

可选地，所述获取每个关系短语所对应的候选列表包括：

通过预先设置的释义字典获取每个关系短语的候选列表每个关系短语的候选列表包括了所述关系短语到所述RDF图G中的至少一个候选谓词或候选谓词路径的映射，每个映射对应有一个置信度且每个候选列表中的各个映射按照置信度由高到低排序。

可选地，所述根据所述候选列表和候选列表在所述RDF图G中查找与所述查询语义图Q^s匹配的子图，包括：

在所述RDF图G中查询包括顶点{u₁，…，u_n}且满足预设条件的子图，所述预设条件包括如下三个条件：

条件1：如果所述v_i映射到所述RDF图G中的一个实体u_i，i=1，…，n，所述u_i必须属于所述候选列表

条件2：如果所述v_i映射到所述RDF图G中的一个类别c_i，i=1，…，n，所述u_i是一个类别为所述c_i的实体，且所述c_i必须属于所述候选列表

条件3：对于每一个边v_iv_j∈Q^s，u_iu_j∈G或u_ju_i∈G，所述边v_iv_j所对应的谓词或谓词路径P_ij映射到所述候选列表中的u_iu_j或u_ju_i。

可选地，所述通过预先设置的释义字典获取每个关系短语的候选列表之前，还包括：

设字典T={rel₁，…，rel_n}，1，…，n，其中每个rel_i是一个所述关系短语，根据每个所述关系短语rel_i所对应的支持实体集Sup（rel_i）将所述关系短语rel_i映射到所述RDF图G中的谓词或谓词路径L；

计算所述关系短语reli映射到每个所述谓词或谓词路径L的置信度；

根据所述置信度查找前k个最大可能的谓词/谓词路径形成在所述RDF图G中的连续谓词边，所述连续谓词边具有与所述关系短语rel_i相同的语义；

根据所述关系短语rel_i和所述连续谓词边构建所述释义字典。

可选地，所述计算所述关系短语rel_i映射到每个所述谓词或谓词路径L的置信度，包括：

对于每个所述关系短语rel_i，设与所述关系短语rel_i相应的支持实体集为Sup（rel_i）：

对于所述Sup（rel_i）中的每一个实体对在所述RDF图G中找到在所述实体对之间的所有的简单路径，表示为

令

对于谓词或谓词路径L，计算所述L在所述PS(rel_i)中的tf值的如下:

计算所述L在所述字典T={rel₁，…，rel_n}中的idf值如下:

计算所述L的tf-idf值如下:

tf-idf(L,PS(rel_i),T)=tf(L,PS(rel_i))×idf(L,T)

将所述tf-idf值作为所述关系短语rel_i映射到所述谓词或谓词路径L的置信度。

第二方面，提供了一种自然语言问答装置，所述装置包括：

问句获取模块，用于获取自然语言问句N；

问句转换模块，用于将所述自然语言问句N转换为查询语义图Q^s，所述查询语义图Q^s中的每条边代表所述自然语言问句N中的一个语义关系；

子图匹配模块，用于在资源描述框架RDF图G中查找与所述查询语义图Q^s匹配的子图；

答案生成模块，用于根据所述子图得到所述自然语言问句N的答案。

可选地，所述问句转换模块，包括：

短语发现单元、参数发现单元和语义图构建单元；

所述短语发现单元，用于发现所述自然语言问句N中的关系短语；

所述参数发现单元，用于发现每个所述关系短语的伴随参数；

所述语义图构建单元，用于构建查询语义图Q^s，所述查询语义图Q^s中的每条边对应一个所述关系短语，所述查询语义图Q^s中的每个顶点对应一个所述伴随参数。

可选地，所述短语发现单元，包括：

句法分析子单元，用于从所述自然语言问句中分析出句法依赖树Y；

短语查询子单元，用于根据预设的关系短语字典，查询所述关系短语字典中存在于所述句法依赖树Y的关系短语；其中，所述关系短语字典中的关系短语存在于所述句法依赖树Y，当且仅当所述句法依赖树Y中存在一个相连子树y满足如下两个条件：

可选地，

所述参数发现单元，用于对于每个所述关系短语在所述句法依赖树Y中所对应的所述相连子树y，通过主体类语义关系和客体类语义关系在所述相连子树y中发现所述关系短语的伴随参数；

可选地，所述子图匹配模块，包括：

第一列表获取单元，用于设所述查询语义图Q^s包括n个顶点{v₁，…，v_n}，所述查询语义图Q^s中的每条顶点v_i对应一个伴随参数，i=1，…，n，获取每个伴随参数所对应的候选列表

第二列表获取单元，用于所述查询语义图Q^s中的每条边v_iv_j对应一个关系短语1≤i≠j≤n，获取每个关系短语所对应的候选列表

子图匹配单元，用于根据所述候选列表和候选列表在所述RDF图G中查找与所述查询语义图Q^s匹配的子图。

可选地，所述第一列表获取单元，用于通过实体链接技术获取每个伴随参数arg_i所对应的候选列表每个伴随参数arg_i的候选列表包括了所述伴随参数arg_i到所述RDF图G中的至少一个候选实体或候选类别的映射，每个映射对应有一个置信度且每个候选列表中的各个映射按照置信度由高到低排序。

可选地，所述第二列表获取单元，用于通过预先设置的释义字典获取每个关系短语的候选列表每个关系短语的候选列表包括了所述关系短语到所述RDF图G中的至少一个候选谓词或候选谓词路径的映射，每个映射对应有一个置信度且每个候选列表中的各个映射按照置信度由高到低排序。

可选地，所述子图匹配单元，用于在所述RDF图G中查询包括顶点{u₁，…，u_n}且满足预设条件的子图，所述预设条件包括如下三个条件：

可选地，所述装置，还包括：

路径映射模块，用于设字典T={rel₁，…，rel_n}，1，…，n，其中每个rel_i是一个所述关系短语，根据每个所述关系短语rel_i所对应的支持实体集Sup（rel_i）将所述关系短语rel_i映射到所述RDF图G中的谓词或谓词路径L；

置信度计算模块，用于计算所述关系短语rel_i映射到每个所述谓词或谓词路径L的置信度；

路径查找模块，用于根据所述置信度查找前k个最大可能的谓词/谓词路径形成在所述RDF图G中的连续谓词边，所述连续谓词边具有与所述关系短语rel_i相同的语义；

字典构建模块，用于根据所述关系短语rel_i和所述连续谓词边构建所述释义字典。

可选地，所述置信度计算模块，包括：

路径查找单元，用于对于每个所述关系短语rel_i，设与所述关系短语rel_i相应的支持实体集为Sup（rel_i）：

令

tf值计算单元，用于对于谓词或谓词路径L，计算所述L在所述PS(rel_i)中的tf值的如下:

idf值计算单元，用于计算所述L在所述字典T={rel₁，…，rel_n}中的idf值如下:

Tf-idf值计算单元，用于计算所述L的tf-idf值如下:

tf-idf(L,PS(rel_i),T)=tf(L,PS(rel_i))×idf(L,T)

将所述tf-idf值作为所述关系短语reli映射到所述谓词或谓词路径L的置信度。

本发明实施例提供的技术方案带来的有益效果是：

通过将自然语言问句N转换为查询语义图Q^s，在RDF图G中查找与查询语义图Q^s匹配的子图，根据子图得到自然语言问句N的答案；解决了在问题理解阶段需要耗费很大的计算量来消歧的问题；达到了提供了一种全新的自然语言问答机制，将自然语言问句N转换为查询语义图Q^s时不需要消歧，消歧过程在查找与查询语义图Q^s匹配的子图的过程中自然完成的效果。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是背景技术提供的自然语言问答方法的方法流程图；

图2A是本发明一个实施例提供的自然语言问答方法的方法流程图；

图2B是图2A所示实施例在一个实际应用中的实施示意图；

图3A是本发明另一实施例提供的自然语言问答方法的方法流程图；

图3B至图3E是图3A所示实施例在一个实际应用中的实施示意图；

图4是本发明一个实施例提供的自然语言问答装置的结构示意图；

图5是本发明另一实施例提供的自然语言问答装置的结构示意图；

图6是本发明一个实施例提供的服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了全新的自然语言问答机制。与背景技术采用SPARQLs查询语句和SPARQLs搜索引擎来获取自然语言问句N的答案不同的是，本发明实施例采用查询语义图Q^s和RDF图G来获取自然语言问句N的答案。具体如下：

请参考图2A，其示出了本发明一个实施例提供的自然语言问答方法的方法流程图。该自然语言问答方法应用于服务器中，该方法包括：

步骤202，获取自然语言问句N；

自然语言问句N是用户使用自然语言向问答系统提出的问题。

例如，自然语言问句N为“谁嫁给了一个在费城中出演的演员？”。

步骤204，将自然语言问句N转换为查询语义图Q^s，查询语义图Q^s中的每条边代表自然语言问句N中的一个语义关系；

自然语言问句N中包括至少一个语义关系，查询语义图Q^s用于等价地表示该自然语言问句N中的语义关系。一个语义关系是一个三元组<rel_i，arg₁，arg₂>，其中，rel_i是一个关系短语，arg₁和arg₂是关系短语的两个伴随参数。一个语义关系表示两个实体之间的关系，或者一个实体的属性值。

查询语义图Q^s中的每条边代表自然语言问句N中的一个语义关系。查询语义图Q^s中的每条边对应一个语义关系中的关系短语，每条边上的两个顶点分别对应一个伴随参数。

结合参考图2B，自然语言问句N“谁嫁给了那个在费城中出演的演员？”转换后得到的查询语义图Q^s包括两个边：第一个边v₁v₂代表的语义关系为<嫁给了，谁，演员>，其中，“嫁给了”是关系短语，“谁”和“演员”是关系短语“嫁给了”的两个伴随参数；而第二个边v₂v₃代表的语义关系为<出演，那个，费城>，其中，“出演”是关系短语，“那个”和“费城”是关系短语“出演”的两个伴随参数。由于“演员”和“那个”指的是同一个实体，所以共用同一个顶点，这是目前已经有较多研究的“指代关系消解”问题，对此不再赘述。

步骤206，在RDF图G中查找与查询语义图Q^s匹配的子图；

RDF图G是以图来表示的RDF资源库。

例如，在图2B中，假设给出的RDF图G包括了与“费城”、“费城（电影）”、“费城_76人”和“演员”等有关的三元组，如框22中所示。然后服务器通过子图匹配技术，在RDF图G中查找出与查询语义图Q^s匹配的子图，如框24中所示。

步骤208，根据该子图得到自然语言问句N的答案。

由于该子图与查询语义图Q^s匹配，所以该子图中包括了自然语言问句N的答案。

例如，通过子图24中与查询语义图Q^s中的疑问词“谁”相对应的节点u₁“梅拉妮·格里菲斯”来得出自然语言问句N的答案26。

综上所述，本实施例提供的自然语言问答方法，通过将自然语言问句N转换为查询语义图Q^s，在RDF图G中查找与查询语义图Q^s匹配的子图，根据子图得到自然语言问句N的答案；解决了在问题理解阶段需要耗费很大的计算量来消歧的问题；达到了提供了一种全新的自然语言问答机制，将自然语言问句N转换为查询语义图Q^s时不需要消歧，消歧过程在查找与查询语义图Q^s匹配的子图的过程中自然完成的效果。

请参考图3A，其示出了本发明另一实施例提供的自然语言问答方法的方法流程图。该自然语言问答方法应用于服务器中，该方法包括：

步骤301，获取自然语言问句N；

服务器可以直接获取用户提出的自然语言问句N。或者，服务器获取用户通过终端提出的自然语言问句N。

例如：用户使用手机上的麦克风输入语音形式的自然语言问句N，然后手机将该语音形式的自然语言问句N通过有线网络或者无线网络传输至服务器，服务器将该语音形式的自然语言问句N通过语音识别技术识别为文字形式的自然语言问句N，最终获取到该自然语言问句N。

为了简化描述，本文中将一直以自然语言问句N为“谁嫁给了那个在费城中出演的演员？”来举例说明。（注：实际实验时采用的是英文问句“who was married to an actorthat played in Philadelphia”，本文中部分例子限于句式限制，仍然使用原英文问句来讨论）

步骤302，将自然语言问句N转换为查询语义图Q^s；

服务器将获取到的自然语言问句N转换为语义等价的查询语义图Q^s。查询语义图Q^s中的每条边代表自然语言问句N中的一个语义关系。查询语义图Q^s中的每条边对应一个语义关系中的关系短语，每条边上的两个顶点分别对应该边上的关系短语的一个伴随参数。

本步骤可以包括如下子步骤，如图3B所示：

302a，发现自然语言问句N中的关系短语；

302b，发现每个关系短语的伴随参数；

302c，构建查询语义图Q^s，查询语义图Q^s中的每条边对应一个关系短语，查询语义图Q^s中的每个顶点对应一个伴随参数。

在子步骤302a中，服务器先从自然语言问句N中分析出句法依赖树Y，然后服务器根据预设的关系短语字典，查询关系短语字典中存在于句法依赖树Y的关系短语。服务器可以通过斯坦福大学提供的句法剖析器来得到自然语言问句N的句法依赖树Y。

其中，关系短语字典中的关系短语存在于句法依赖树Y，当且仅当句法依赖树Y中存在一个相连子树y满足如下两个条件：

条件1：在相连子树y中的每个节点包括关系短语的一个词，且相连子树y包括关系短语的所有词；

条件2：无法在句法依赖树Y中找到一个子树y`，子树y`也满足条件1且相连子树y是子树y`的子树。

换句话说，子步骤302a的任务是：给定一个自然语言问句N的句法依赖树Y和一个关系短语字典T={rel₁，…，rel_n}，服务器的目标是找出关系短语字典T中存在于句法依赖树Y的关系短语。

实现子步骤302a的任务的算法基本思想是：

对于Y中的每个节点w_i，找到候选模式列表PL_i，然后在PL_i中检测是否存在一个根为w_i的子树包括相同于关系短语的所有词。具体来讲，采用一种深度优先搜索策略，探测根为w_i的每条路径，若不存在任何一个关系短语包括词w’和沿节点w’到节点w_i的路径上的所有词（w’是w_i的一个子节点），则搜索分支将停止在节点w’。本文使用rel[w]表示根为w_i的子树上的一个词w’存在于关系短语rel上。

具体算法如下：

参考图3C，以自然语言问句N“who was married to an actor that played inPhiladelphia”为例，服务器通过上述算法，可以从句法分析树Y中找出关系短语“wasmarried to”(嫁给了)和关系短语“played in”（出演）的出现位置。关系短语“was marriedto”(嫁给了)在句法分析树Y中对应包括：“was”节点、“married”节点和“to”节点共3个节点的相连子树；关系短语“played in”（出演）在句法分析树Y中对应包括：“played”节点和“in”节点共2个节点的相连子树。

在子步骤302b中，对于每个关系短语在句法依赖树Y中所对应的相连子树y，通过主体类语义关系和客体类语义关系在相连子树y中发现关系短语的伴随参数；

主体类语义关系包括：主语subj，名词性主语nsubj，被动式名词性主语nsubjpass，从句型主语csubj，被动式从句主语csubjpass，控制性主语xsubj，所有格修饰符poss；

客体类语义关系包括：宾语obj，介词性宾语pobj，直接宾语dobj，间接宾语iobj。

也即，服务器在找到一个关系短语rel的相连子树y后，通过检查相连子树y中每个节点w和它的子节点之间是否存在主体类关系来识别伴随参数arg₁。类似地，伴随参数arg₂可以通过客体类关系来识别。如果对于一个伴随参数，存在不止一个候选项时，服务器选择与该关系短语rel最近的一个候选项作为该伴随参数。

例如，在图3C中，对于关系短语“was married to”(嫁给了)，根据主体类语义关系在“married”节点的子节点中识别出伴随参数“who”（谁），根据客体类语义关系在“to”节点的子节点中识别出伴随参数“actor”（演员）。同理，对于关系短语“played in”(出演)，根据主体类语义关系在“played”节点的子节点中识别出伴随参数“that”（那个），根据客体类语义关系在“in”节点的子节点中识别出伴随参数“Philadelphia”（费城）。

另外，如果服务器通过主体类关系和客体类关系没有识别出一个关系短语的伴随参数arg₁和arg₂，服务器还通过如下的启发式规则识别伴随参数：

规则1：通过一些常用词扩展关系短语的出现位置t，如介词、助词，通过新增加的树节点来识别主体类关系或客体类关系；

规则2：如果t的根节点在Y中的父亲节点存在主体类关系或客体类关系，则添加根节点为arg1；

规则3：如果t的根节点的父亲节点与它的孩子节点存在主体类关系，添加孩子节点为arg1；

规则4：如果arg1和arg2中的一个是空的，添加最近的疑问词或者在t中的第一个名词性短语为arg1或arg2。

如果仍然无法找到伴随参数arg₁和arg₂，服务器进一步地丢弃该关系短语。

在子步骤302c中，服务器根据从自然语言问句N中识别出的关系短语，以及每个关系短语对应的伴随参数，构建查询语义图Q^s，该查询语义图Q^s中的每条边对应一个关系短语，查询语义图Q^s中的每个顶点对应一个伴随参数。

如果两个伴随参数指代同一实体，则在查询语义图Q^s中共用同一个顶点。

至此，服务器完成自然语言问句N至查询语义图Q^s的转换。然后，服务器需要找出查询语义图Q^s中每个顶点和每条边在RDF图G中的候选项。如下：

步骤303，获取每个伴随参数所对应的候选列表

设查询语义图Q^s包括n个顶点{v₁，…，v_n}，查询语义图Q^s中的每条顶点v_i对应一个伴随参数，i=1，…，n，服务器获取每个伴随参数所对应的候选列表

具体地，服务器通过实体链接技术获取每个伴随参数arg_i所对应的候选列表每个伴随参数arg_i的候选列表包括了伴随参数arg_i到RDF图G中的至少一个候选实体或候选类别的映射，每个映射对应有一个置信度且每个候选列表中的各个映射按照置信度由高到低排序。

例如，结合参考图3D，自然语言问句N“谁嫁给了那个在费城中出演的演员？”所对应的查询语义图Q^s包括3个顶点：顶点v₁、顶点v₂和顶点v₃；

顶点v₁所对应的伴随参数是疑问词“谁”，服务器将RDF图中的所有实体都作为顶点v₁的候选列表。

顶点v₂所对应的伴随参数是“演员”，服务器将RDF图中的实体“演员”、实体“演员的自我修养”以及实体“安东尼奥班达拉斯”都作为顶点v₂的候选列表，并按照置信度排列。其中，实体“安东尼奥班达拉斯”的类别是“演员”。

顶点v₃所对应的伴随参数是“费城”，服务器将RDF图中的实体“费城”、实体“费城（电影）”以及实体“费城_76人”都作为顶点v₃的候选列表，并按照置信度排列。其中，实体“费城_76人”是一只篮球队的名称。

步骤304，获取每个关系短语所对应的候选列表

查询语义图Q^s中的每条边v_iv_j对应一个关系短语1≤i≠j≤n，服务器获取每个关系短语所对应的候选列表

具体地，服务器可以预先构建一个释义字典，该释义字典包括了关系短语到RDF图G中的至少一个候选谓词或候选谓词路径的映射，且每个映射都有自己的一个置信度。

然后，服务器通过该释义字典获取查询语义图Q^s中的每个关系短语的候选列表每个关系短语的候选列表包括了关系短语到RDF图G中的至少一个候选谓词或候选谓词路径的映射，每个映射对应有一个置信度且每个候选列表中的各个映射按照置信度由高到低排序。

例如，结合参考图3D，自然语言问句N“谁嫁给了那个在费城中出演的演员？”所对应的查询语义图Q^s包括2个边：边v₁v₂和边v₂v₃；

边v₁v₂所对应的关系短语是“嫁给了”，服务器将RDF图中的谓词“配偶”作为边v₁v₂的候选列表。

边v₂v₃所对应的关系短语是“出演”，服务器将RDF图中的谓词“效力团队”（注：效力和出演在英文中都用play表示）、谓词“主演”和谓词“导演”作为边v₂v₃的候选列表。

需要说明的是，在步骤303和步骤304中，服务器并不消除歧义，这是与背景技术不同的一点。比如，虽然实体“费城_76人”明显与自然语言问句N无关，但是服务器对该歧义暂不处理。

步骤305，根据候选列表和候选列表在RDF图G中查找与查询语义图Q^s匹配的子图。

服务器在RDF图G中查询包括顶点{u₁，…，u_n}且满足预设条件的子图，该预设条件包括如下三个条件：

条件1：如果v_i映射到RDF图G中的一个实体u_i，i=1，…，n，u_i必须属于候选列表

条件2：如果v_i映射到RDF图G中的一个类别c_i，i=1，…，n，u_i是一个类别为c_i的实体，且c_i必须属于候选列表

条件3：对于每一个边v_iv_j∈Q^s，u_iu_j∈G或u_ju_i∈G，边v_iv_j所对应的谓词或谓词路径P_ij映射到候选列表中的u_iu_j或u_ju_i。

服务器可以通过top-k算法来在RDF图G中查询与查询语义图Q^s匹配的子图。top-k算法可以找出前K个最大可能的匹配子图，每个匹配子图都有一个得分，该得分来源于该匹配子图中每条边和每个顶点上的置信概率。定义该分数如下：

设一个查询语义图Q^s有n个顶点{v₁,...,v_n}，在RDF图G中包含n个顶点{u₁,...,u_n}的子图是Q^s的一个匹配，则匹配评分如下：

其中，arg_i是顶点v_i的伴随参数，u_i是在RDF图G中的一个实体或者一个类，是边v_iv_j的关系短语，P_ij是边u_iu_j或u_ju_i上的谓词。

服务器还可以根据如下启发式方法优化上述top-k算法的搜索空间：

第一种剪枝方法是尽可能减少每个候选列表列表中的候选项，如果一个属于的顶点u_i不可能属于与查询语义图Q^s匹配的任一子图，则服务器直接过滤该顶点。

第二种方法是尽可能早地通过top-k匹配分数阈值来结束搜索过程。

基本思想是：为每个每个候选列表设置一个浮标。对于查询语义图Q^s中的每个顶点v_i，设置p_i指向候选列表对于查询语义图Q^s中的每个边v_iv_j，设置p_ij指向候选列表

为了方便表述，我们用p_i表示由指针p_i所指向的RDF图G中的节点。开始时，所有的指针都是指向候选列表的投。对每个节点p_i，调用任何一种子图同构算法，例如VF2算法，找到包括节点p_i的查询语义图的子图匹配。在这个过程中，采用一一轮流的方式考虑p_i指针所对应的节点，i=1,…,|V(Qs)|。根据新找到的子图匹配，我们更新目前阈值θ。另外，对于未被发现的子图匹配，我们可以根据下面的公式计算它们匹配得分的上限值Upperbound。

如果θ>upperbound,意味着所有未被发现的子图匹配，它们的得分值不可能超过目前已经发现的子图匹配得分。也就是说，服务器已经知道了top-k匹配。因此，服务器可以终结算法运行。否则，服务器把所有的指针在所对应的队列中向前走一步，重复以上的操作。

服务器采用的top-k算法可以如下：

例如，在图3E中，服务器可以在RDF图G中找到包括顶点U₁、U₂、U₃和C₁的子图是查询语义图Q^s的一个匹配结果。在Q^s中的顶点v₃“费城”被映射到一个实体U₃<费城>；顶点V₂“演员”被映射到一个实体U₂<安东尼奥班德拉斯>，该实体U₂<安东尼奥班德拉斯>的类别是<演员>；顶点V₁“谁”被映射到一个实体U₁<梅拉尼格里菲斯>，此外，两个关系短语：“嫁给了”和“出演”在Q^s中的所在边被映射到了谓词<配偶>和<主演>分别所在的边。

步骤306，根据该子图得到自然语言问句N的答案。

通常来讲，服务器通过子图中与查询语义图Q^s中的疑问词相对应的节点来得出自然语言问句N的答案。

显然，实体U₁<梅拉尼格里菲斯>是自然语言问句N的一个答案。需要注意的是，虽然在步骤303和步骤304中，服务器并未进行歧义消除，但由于如果查询语义图Q^s的一个顶点到一个实体的映射是存在歧义的，事实上在子图匹配过程中并不会查找到包含该歧义实体的匹配子图。也即，在查找到的与查询语义图Q^s匹配的子图中并不会包含存在歧义的实体，所以消除歧义这个过程在子图匹配过程中自然而然地完成了，并不需要服务器单独进行消歧。

本实施例提供的自然语言问答方法，还通过提供四条启发式规则来查找伴随参数，提高了伴随参数的查找成功率，提高了自然语言问句N的理解准确率。

本实施例提供的自然语言问答方法，还通过提供两种优化方法来优化服务器在子图匹配时的搜索空间，提高了子图匹配的搜索效率。

需要补充说明的是，在上述实施例中，服务器还需要事先构建释义字典。

也即，服务器通过预先设置的释义字典获取每个关系短语的候选列表之前，还包括：

1、设字典T={rel₁，…，rel_n}，1，…，n，其中每个rel_i是一个关系短语，根据每个关系短语rel_i所对应的支持实体集Sup（rel_i）将关系短语rel_i映射到RDF图G中的谓词或谓词路径L。

其中，关系短语的支持实体集可以通过现有的Patty和ReVerb系统提供。这些支持实体集是很多NLP（Neuro-Linguistic Programming，神经语言程序学）语义关系提取的已有研究成果。

其中，谓词路径是指由至少两个连续的简单路径所构成的谓词边。比如，A指向B的谓词是“父亲”，B指向C之间的谓词是“父亲”，那么A指向C的两个简单路径构成的谓词边代表了谓词“爷爷”。目前的技术在挖掘关系短语至谓词的映射时，只考虑简单路径，但是鉴于很多关系短语无法解释成单一谓词，本实施例中创新地提出了采用连续的谓词边来解释诸如“爷爷”、“叔叔”之类的复杂谓词。

但是，由于发明人在分析连续的谓词边时，发现会引入很多噪声。也即，对于某一个复杂谓词，分析出的很多符合特征的连续谓词边与该复杂谓词的实际含义并不相同，发明人还提出了使用tf-idf来提取挖掘关系短语至谓词的映射的办法。具体如下：

2、计算关系短语rel_i映射到每个谓词或谓词路径L的置信度；

对于每个关系短语reli，设与关系短语reli相应的支持实体集为Sup（rel_i）：

对于Sup（rel_i）中的每一个实体对在所述RDF图G中找到在所述实体对之间的所有的简单路径，表示为P

令

对于谓词或谓词路径L，计算L在PS(rel_i)中的tf值的如下:

计算L在字典T={rel₁，…，rel_n}中的idf值如下:

计算L的tf-idf值如下:

tf-idf(L,PS(rel_i),T)=tf(L,PS(rel_i))×idf(L,T)

将tf-idf值作为关系短语reli映射到谓词或谓词路径L的置信度。

3、根据置信度查找前k个最大可能的谓词/谓词路径形成在RDF图G中的连续谓词边，该连续谓词边具有与关系短语rel_i相同的语义；

4、根据关系短语rel_i和具有相同语义的连续谓词边构建释义字典。

该部分对应的算法如下：

综上所述，本实施例提供的自然语言问答方法，不仅通过连续谓词边来描述一些复杂的关系短语，还提出了使用tf-idf来构建释义字典的方法，有效提高了获取关系短语的候选列表时的效率和准确率。

QALD是基于RDF的问答系统的唯一测试基准。发明人使用QLAD-3测试集对上述自然语言问答方法进行了测试，发现上述自然语言问答方法可以正确回答测试集中共99个问题中的32个问题，而目前最先进的非自然语言问答系统squall2sparql可以回答77个问题，但该系统是非自然语言问答，需要用户严格指定出问题中的实体和谓词，所以squall2sparql与本文中的自然语言问答系统不具有可比性。目前第二先进的casia是一个自然语言问答系统，可以回答测试集中共99个问题中的30个问题，显然，本文提出的自然语言问答系统是在准确率上是世界领先的。同时在运行时间上，本文提出的自然语言问答系统相对于casia也具有跨数量级的优势，比如，对于QLAD-3测试集中的第81个问题，casia需要花费418秒来将自然语言问句转换为SPARQLs查询语句，而本文提出的自然语言问答系统只需要花费不到1秒的时间就可以找出第81个问题的答案。

请参考图4，其示出了本发明一个实施例提供的自然语言问答装置的结构方框图。该自然语言问答装置可以通过软件、硬件或者两者的结合实现成为服务器的全部或者一部分。该装置包括：问句获取模块420、问句转换模块440、子图匹配模块460和答案生成模块480。

问句获取模块420，用于获取自然语言问句N；

问句转换模块440，用于将所述自然语言问句N转换为查询语义图Q^s，所述查询语义图Q^s中的每条边代表所述自然语言问句N中的一个语义关系；

子图匹配模块460，用于在资源描述框架RDF图G中查找与所述查询语义图Q^s匹配的子图；

答案生成模块480，用于根据所述子图得到所述自然语言问句N的答案。

综上所述，本实施例提供的自然语言问答装置，通过将自然语言问句N转换为查询语义图Q^s，在RDF图G中查找与查询语义图Q^s匹配的子图，根据子图得到自然语言问句N的答案；解决了在问题理解阶段需要耗费很大的计算量来消歧的问题；达到了提供了一种全新的自然语言问答机制，将自然语言问句N转换为查询语义图Q^s时不需要消歧，消歧过程在查找与查询语义图Q^s匹配的子图的过程中自然完成的效果。

请参考图5，其示出了本发明另一实施例提供的自然语言问答装置的结构方框图。该自然语言问答装置可以通过软件、硬件或者两者的结合实现成为服务器的全部或者一部分。该装置包括：问句获取模块420、问句转换模块440、子图匹配模块460和答案生成模块480。

问句获取模块420，用于获取自然语言问句N；

可选地，所述问句转换模块440，包括：短语发现单元442、参数发现单元444和语义图构建单元446；

所述短语发现单元442，用于发现所述自然语言问句N中的关系短语；

所述参数发现单元444，用于发现每个所述关系短语的伴随参数；

所述语义图构建单元446，用于构建查询语义图Q^s，所述查询语义图Q^s中的每条边对应一个所述关系短语，所述查询语义图Q^s中的每个顶点对应一个所述伴随参数。

可选地，所述短语发现单元442，包括：

可选地，所述参数发现单元444，用于对于每个所述关系短语在所述句法依赖树Y中所对应的所述相连子树y，通过主体类语义关系和客体类语义关系在所述相连子树y中发现所述关系短语的伴随参数；

可选地，所述子图匹配模块460，包括：

第一列表获取单元462，用于设所述查询语义图Q^s包括n个顶点{v₁，…，v_n}，所述查询语义图Q^s中的每条顶点v_i对应一个伴随参数，i=1，…，n，获取每个伴随参数所对应的候选列表

第二列表获取单元464，用于所述查询语义图Q^s中的每条边v_iv_j对应一个关系短语1≤i≠j≤n，获取每个关系短语所对应的候选列表

子图匹配单元466，用于根据所述候选列表和候选列表在所述RDF图G中查找与所述查询语义图Q^s匹配的子图。

可选地，所述第一列表获取单元462，用于通过实体链接技术获取每个伴随参数arg_i所对应的候选列表每个伴随参数arg_i的候选列表包括了所述伴随参数arg_i到所述RDF图G中的至少一个候选实体或候选类别的映射，每个映射对应有一个置信度且每个候选列表中的各个映射按照置信度由高到低排序。

可选地，所述第二列表获取单元464，用于通过预先设置的释义字典获取每个关系短语的候选列表每个关系短语的候选列表包括了所述关系短语到所述RDF图G中的至少一个候选谓词或候选谓词路径的映射，每个映射对应有一个置信度且每个候选列表中的各个映射按照置信度由高到低排序。

可选地，所述子图匹配单元466，用于在所述RDF图G中查询包括顶点{u₁，…，u_n}且满足预设条件的子图，所述预设条件包括如下三个条件：

可选地，所述装置，还包括：

路径映射模块492，用于设字典T={rel₁，…，rel_n}，1，…，n，其中每个rel_i是一个所述关系短语，根据每个所述关系短语rel_i所对应的支持实体集Sup（rel_i）将所述关系短语rel_i映射到所述RDF图G中的谓词或谓词路径L；

置信度计算模块494，用于计算所述关系短语rel_i映射到每个所述谓词或谓词路径L的置信度；

路径查找模块496，用于根据所述置信度查找前k个最大可能的谓词/谓词路径形成在所述RDF图G中的连续谓词边，所述连续谓词边具有与所述关系短语rel_i相同的语义；

字典构建模块498，用于根据所述关系短语rel_i和所述连续谓词边构建所述释义字典。

可选地，所述置信度计算模块494，包括：

对于所述Sup（reli）中的每一个实体对在所述RDF图G中找到在所述实体对之间的所有的简单路径，表示为

令

Tf-idf值计算单元，用于计算所述L的tf-idf值如下:

tf-idf(L,PS(rel_i),T)=tf(L,PS(rel_i))×idf(L,T)

需要说明的是：上述实施例提供的服务器在进行自然语言问答时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将终端或服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的自然语言问答装置与对应的自然语言问答方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图6，其示出了本发明一个实施例提供的服务器的结构示意图。所述服务器600包括中央处理单元（CPU）601、包括随机存取存储器（RAM）602和只读存储器（ROM）603的系统存储器604，以及连接系统存储器604和中央处理单元601的系统总线605。所述服务器600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统（I/O系统）606，和用于存储操作系统613、应用程序614和其他程序模块615的大容量存储设备607。

所述基本输入/输出系统606包括有用于显示信息的显示器608和用于用户输入信息的诸如鼠标、键盘之类的输入设备609。其中所述显示器608和输入设备609都通过连接到系统总线605的输入输出控制器610连接到中央处理单元601。所述基本输入/输出系统606还可以包括输入输出控制器610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器610还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备607通过连接到系统总线605的大容量存储控制器（未示出）连接到中央处理单元601。所述大容量存储设备607及其相关联的计算机可读介质为锁功能服务器或验证服务器600提供非易失性存储。也就是说，所述大容量存储设备607可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质（未示出）。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器604和大容量存储设备607可以统称为存储器。

根据本发明的各种实施例，所述服务器600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器600可以通过连接在所述系统总线605上的网络接口单元611连接到网络612，或者说，也可以使用网络接口单元611来连接到其他类型的网络或远程计算机系统（未示出）。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本发明实施例提供的自然语言问答方法的指令。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种自然语言问答方法，其特征在于，所述方法包括：

获取自然语言问句N；

设所述查询语义图Q^s包括n个顶点{v₁，…，v_n}，所述查询语义图Q^s中的每条顶点v_i对应一个伴随参数，i＝1，…，n，获取每个伴随参数所对应的候选列表

根据所述候选列表和候选列表在资源描述框架RDF图G中查找与所述查询语义图Q^s匹配的子图；

根据所述子图得到所述自然语言问句N的答案。

2.根据权利要求1所述的方法，其特征在于，所述将所述自然语言问句N转换为查询语义图Q^s，包括：

发现所述自然语言问句N中的关系短语；

发现每个所述关系短语的伴随参数；

3.根据权利要求2所述的方法，其特征在于，所述发现所述自然语言问句N中的关系短语，包括：

从所述自然语言问句中分析出句法依赖树Y；

4.根据权利要求3所述的方法，其特征在于，所述发现每个所述关系短语的伴随参数，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取每个伴随参数所对应的候选列表包括：

6.根据权利要求1所述的方法，其特征在于，所述获取每个关系短语所对应的候选列表包括：

7.根据权利要求1、5至6任一所述的方法，其特征在于，所述根据所述候选列表和候选列表在所述RDF图G中查找与所述查询语义图Q^s匹配的子图，包括：

条件1：如果所述v_i映射到所述RDF图G中的一个实体u_i，i＝1，…，n，所述u_i必须属于所述候选列表

条件2：如果所述v_i映射到所述RDF图G中的一个类别c_i，i＝1，…，n，所述u_i是一个类别为所述c_i的实体，且所述c_i必须属于所述候选列表

8.根据权利要求6所述的方法，其特征在于，所述通过预先设置的释义字典获取每个关系短语的候选列表之前，还包括：

设字典T＝{rel₁，…，rel_n}，1，…，n，其中每个rel_i是一个所述关系短语，根据每个所述关系短语rel_i所对应的支持实体集Sup(rel_i)将所述关系短语rel_i映射到所述RDF图G中的谓词或谓词路径L；

计算所述关系短语rel_i映射到每个所述谓词或谓词路径L的置信度；

9.根据权利要求8所述的方法，其特征在于，所述计算所述关系短语rel_i映射到每个所述谓词或谓词路径L的置信度，包括：

对于每个所述关系短语rel_i，设与所述关系短语rel_i相应的支持实体集为Sup(rel_i)：

对于所述Sup(rel_i)中的每一个实体对在所述RDF图G中找到在所述实体对之间的所有的简单路径，表示为

令

计算所述L在所述字典T＝{rel₁，…，rel_n}中的idf值如下:

计算所述L的tf-idf值如下:

tf-idf(L,PS(rel_i),T)＝tf(L,PS(rel_i))×idf(L,T)

10.一种自然语言问答装置，其特征在于，所述装置包括：

问句获取模块，用于获取自然语言问句N；

子图匹配模块，包括：

第一列表获取单元，用于设所述查询语义图Q^s包括n个顶点{v₁，…，v_n}，所述查询语义图Q^s中的每条顶点v_i对应一个伴随参数，i＝1，…，n，获取每个伴随参数所对应的候选列表

子图匹配单元，用于根据所述候选列表和候选列表在资源描述框架RDF图G中查找与所述查询语义图Q^s匹配的子图；

11.根据权利要求10所述的装置，其特征在于，所述问句转换模块，包括：

短语发现单元、参数发现单元和语义图构建单元；

12.根据权利要求11所述的装置，其特征在于，所述短语发现单元，包括：

13.根据权利要求12所述的装置，其特征在于，

14.根据权利要求10所述的装置，其特征在于，

所述第一列表获取单元，用于通过实体链接技术获取每个伴随参数arg_i所对应的候选列表每个伴随参数arg_i的候选列表包括了所述伴随参数arg_i到所述RDF图G中的至少一个候选实体或候选类别的映射，每个映射对应有一个置信度且每个候选列表中的各个映射按照置信度由高到低排序。

15.根据权利要求10所述的装置，其特征在于，

所述第二列表获取单元，用于通过预先设置的释义字典获取每个关系短语的候选列表每个关系短语的候选列表包括了所述关系短语到所述RDF图G中的至少一个候选谓词或候选谓词路径的映射，每个映射对应有一个置信度且每个候选列表中的各个映射按照置信度由高到低排序。

16.根据权利要求10、14至15任一所述的装置，其特征在于，

所述子图匹配单元，用于在所述RDF图G中查询包括顶点{u₁，…，u_n}且满足预设条件的子图，所述预设条件包括如下三个条件：

17.根据权利要求15所述的装置，其特征在于，所述装置，还包括：

路径映射模块，用于设字典T＝{rel₁，…，rel_n}，1，…，n，其中每个rel_i是一个所述关系短语，根据每个所述关系短语rel_i所对应的支持实体集Sup(rel_i)将所述关系短语rel_i映射到所述RDF图G中的谓词或谓词路径L；

18.根据权利要求17所述的装置，其特征在于，所述置信度计算模块，包括：

路径查找单元，用于对于每个所述关系短语rel_i，设与所述关系短语rel_i相应的支持实体集为Sup(rel_i)：

令

idf值计算单元，用于计算所述L在所述字典T＝{rel₁，…，rel_n}中的idf值如下:

Tf-idf值计算单元，用于计算所述L的tf-idf值如下:

tf-idf(L,PS(rel_i),T)＝tf(L,PS(rel_i))×idf(L,T)