CN111506714B

CN111506714B - 基于知识图嵌入的问题回答

Info

Publication number: CN111506714B
Application number: CN201911148232.0A
Authority: CN
Inventors: 张婧媛; 李定成; 李平; 黄啸
Original assignee: Baidu USA LLC
Current assignee: Baidu USA LLC
Priority date: 2019-01-30
Filing date: 2019-11-21
Publication date: 2024-04-16
Anticipated expiration: 2039-11-21
Also published as: US11727243B2; US20200242444A1; CN111506714A

Abstract

本文描述了使用基于知识嵌入的问题回答(KEQA)框架在知识图上回答问题的实施方式。KEQA实施方式的目标不是直接推断输入问题的头部实体和谓词，而是在KG嵌入空间中联合恢复问题的头部实体、谓词和尾部实体表示。在实施方式中，使用结合各种损失项的联合距离度量来测量预测事实到所有候选事实的距离。在实施方式中，返回具有最小距离的事实作为答案。还公开了联合训练策略的实施方式以获得更好的性能。对各种数据集的性能评估证明了所公开的使用KEQA框架的系统和方法的有效性。

Description

基于知识图嵌入的问题回答

技术领域

本公开总体上涉及用于问题回答的系统和方法。更具体地说，本公开涉及用于通过知识图回答问题的系统和方法。

背景技术

知识图问题回答(QA-KG)旨在利用知识图(KG)中的事实来回答自然语言问题。它有助于最终用户更高效、更方便地访问KG中重要而有价值的知识，而无需了解其数据结构。QA-KG是非常重要的问题，因为捕捉自然语言的语义对于机器来说是很困难的。已经提出了许多知识图嵌入方法。一个关键的想法是将每个谓词/实体表示为低维向量，这样KG中的关系信息可以被保留。然而，这仍然是一项具有挑战性的任务，因为谓词在自然语言问题中可以以不同的方式表达。此外，实体名称和部分名称的模糊性使得可能的答案数量很大。

因此，需要能够用来使基于知识图的问题回答更有效和更鲁棒的系统和方法。

发明内容

根据本申请的一个方面，公开了一种使用一个或多个处理器进行问题回答的由计算机实施的方法，所述处理器使得执行步骤，所述步骤包括：使用谓词学习模型在知识图谓词嵌入空间中生成用于包括一个或多个令牌的问题的预测谓词表示；使用头部实体学习模型，在知识图实体嵌入空间中生成用于所述问题的预测头部实体表示；基于关系函数，从所述预测谓词表示和所述预测头部实体表示获取预测尾部实体表示，所述预测谓词表示、所述预测头部实体表示和所述预测尾部实体表示形成预测事实，所述关系函数针对知识图嵌入空间中的事实将头部实体表示和谓词表示与尾部实体表示关联；使用头部实体检测模型识别用于所述问题的一个或多个预测头部实体名称，每个预测头部实体名称包括来自所述问题的一个或多个令牌；在所述知识图中搜索与所述一个或多个预测头部实体名称相关的头部实体同义词；构建包括一个或多个候选事实的候选事实集，每个候选事实包括所述头部实体同义词中的头部实体；以及基于联合距离度量，选择所述候选事实集中与所述预测事实具有最小联合距离的一个候选事实作为所述问题的答案。

根据本申请的另一方面，公开了一种使用一个或多个处理器进行问题回答的由计算机实施的方法，所述一个或多个处理器使得执行步骤，所述步骤包括：使用存储在一个或多个计算设备的一个或多个存储器中的谓词学习模型，在谓词嵌入空间中生成用于包括一个或多个令牌的问题的预测谓词表示，所述谓词学习模型使用具有真实事实的训练数据和谓词目标函数进行预训练；使用存储在一个或多个计算设备的一个或多个存储器中的头部实体学习模型，在实体嵌入空间中生成用于所述问题的预测头部实体表示，头部实体学习模型使用具有真实事实的训练数据和头部实体目标函数进行预训练；使用基于知识图嵌入的关系函数，从所述预测谓词表示和所述预测头部实体表示识别预测尾部实体表示，所述预测头部实体表示、所述预测谓词表示和所述预测尾部实体表示形成预测事实；以及基于联合距离度量，从所述知识图中的事实的至少一个子集中选择事实作为所述问题的答案，所选择的事实根据所述联合距离度量在其与所述预测事实之间具有最小联合距离。

根据本申请的又一方面，公开了一种包括一个或多个指令序列的非暂时性计算机可读介质，当由一个或多个处理器执行时，该指令序列使得执行用于问题回答的步骤，所述步骤包括：在知识图谓词嵌入空间中生成向量，作为包括一个或多个令牌的问题的预测谓词表示；在知识图实体嵌入空间中生成向量作为所述问题的预测头部实体表示；基于根据知识图嵌入的关系函数，从所述预测谓词表示和所述预测头部实体表示获得预测尾部实体表示，所述预测谓词表示和所述预测尾部实体表示形成预测事实；识别所述问题的一个或多个预测头部实体名称，每个预测头部实体名称包括来自所述问题的一个或多个令牌；通过嵌入比较和字符串匹配，在所述知识图中搜索所述一个或多个预测头部实体名称的头部实体同义词；构建包括一个或多个候选事实的候选事实集，每个候选事实包括所述头部实体同义词中的头部实体；以及基于联合距离度量选择所述候选事实集中与所述预测事实具有最小联合距离的一个候选事实作为所述问题的答案。

附图说明

将参考本发明的实施方式，其示例可以在附图中示出。这些附图是说明性的，而不是限制性的。尽管本发明通常在这些实施方式的上下文中描述，但是应当理解，这并不意味着将本发明的范围限制于这些特定实施方式。图中的项目未按比例绘制。

图1图示了根据本公开的实施方式的基于知识嵌入的问题回答(KEQA)框架100。

图2示出了根据本公开的实施方式的利用KEQA框架回答问题的方法200。

图3图示了根据本公开的实施方式的谓词和头部实体学习模型的架构300。

图4示出了根据本公开的实施方式的使用谓词和头部实体学习模型预测输入问题的谓词的方法400。

图5示出了根据本公开的实施方式的头部实体检测(HED)模型的结构500。

图6示出了根据本公开的实施方式的使用HED模型识别输入问题的一个或多个头部实体的方法600。

图7示出了根据本公开的实施方式的使用由HED模型识别的头部实体名称在KG中搜索头部实体同义词的方法700。

图8示出了根据本文献的实施方式的计算设备/信息处理系统的简化框图800。

具体实施方式

在以下描述中，出于解释的目的，阐述了具体细节以提供对本公开的理解。然而，对于本领域技术人员来说显而易见的是，没有这些细节也可以实施实施方式。此外，本领域技术人员将认识到，下面描述的本公开的实施方式可以以多种方式实现，例如以有形计算机可读介质上的过程、装置、系统、设备或方法实现。

图中所示的组件或模块是本发明的示例性实施方式的说明，并且旨在避免模糊本公开。还应当理解，在整个讨论中，组件可以被描述为单独的功能单元，其可以包括子单元，但是本领域技术人员将认识到，各种组件或其部分可以被分成单独的组件或者可以集成在一起，包括集成在单个系统或组件中。应当注意，这里讨论的功能或操作可以实现为组件。组件可以用软件、硬件或其组合来实现。

此外，图中组件或系统之间的连接并不旨在局限于直接连接。相反，这些组件之间的数据可以由中间组件修改、重新格式化或以其他方式改变。此外，可以使用更多或更少的连接。还应注意，术语“耦合”、“连接”或“通信耦合”应理解为包括直接连接、通过一个或多个中间设备的间接连接以及无线连接。

说明书中对“一个实施方式”、“优选实施方式”、“实施方式”或“一些实施方式”的引用意味着结合该实施方式描述的特定特征、结构、特性或功能包括在本发明的至少一个实施方式中，并且可以在不止一个实施方式中。此外，说明书中不同地方出现的上述短语不一定都指相同的实施方式。

在说明书的不同地方使用某些术语是为了说明，不应被解释为限制。服务、功能或资源不限于单一的服务、功能或资源；这些术语的使用可以指相关服务、功能或资源的分组，这些服务、功能或资源可以是分布式的或聚合的。图像可以是静止图像或视频中的图像。

术语“包括(include)”、“包括(including)”、“包含(comprise)”和“包含(comprising)”应理解为开放式术语，以下任何列表都是示例，并不意味着限于所列项目。本文中使用的任何标题仅用于组织目的，不应用于限制说明书或权利要求的范围。该专利文献中提到的每个参考文献都通过引用整体并入本文。

此外，本领域技术人员应该认识到：(1)可以可选地执行某些步骤；(2)步骤可以不限于本文所述的特定顺序；(3)某些步骤可以以不同的顺序执行；以及(4)某些步骤可以同时进行。

A.引言

随着诸如Wikidata、Freebase、Dbpedia和YAGO等大规模知识图的兴起，知识图问题回答(QA)已经成为一个至关重要的话题，并引起了广泛的关注。知识图(KG)通常是一个有向图，现实世界的实体作为节点，它们的关系作为边。在这个图中，每条有向边连同其头部实体和尾部实体构成一个三元组，即(头部实体，谓词，尾部实体)，其也被命名为事实。现实世界的知识图可能包含数百万或数十亿个事实。它们庞大的数据量和复杂的数据结构使得普通用户很难获取其中大量有价值的知识。为了弥补这一差距，提出了知识图问题回答(QA-KG)。它的目标是尝试将最终用户的自然语言问题自动翻译成结构化查询，如SPARQL，并返回KG中的实体和/或谓词作为答案。例如，在给定“哪届奥运会在澳大利亚举办？”这个问题的情况下，QA-KG旨在确定其相应的两个事实，即(澳大利亚，奥运会_参与，1952/2004年夏季奥运会)。

知识图问题回答为人工智能系统提供了一种方法，将知识图作为回答人类问题的关键要素，应用范围从搜索引擎设计到会话代理构建。然而，QA-KG问题远未解决，因为它涉及多个具有挑战性的子问题，如语义分析和实体链接。

知识图嵌入在不同的现实世界应用中的有效性激发了探索其在本专利文献中解决QA-KG问题中的潜在用途。知识图嵌入的目标是学习KG中每个谓词/实体的低维向量表示，以便原始关系在向量中得到很好的保留。这些学习到的向量表示可以用来高效地完成各种下游应用。示例包括KG完成、推荐系统和关系提取。在本专利文献中，呈现了知识图嵌入的实施方式来执行QA-KG。KG嵌入表示可以以多种方式推动QA-KG。它们不仅在低维空间内，而且可以促进下游应用以考虑到整个KG，因为即使是单个谓词/实体表示也是与整个KG交互的结果。此外，相似的谓词/实体往往有相似的向量。该属性可用于帮助下游算法处理不在训练数据中的谓词或实体。

然而，基于知识图嵌入进行QA-KG仍然是一项不平凡的任务。有三大挑战。首先，谓词在自然语言问题中通常有多种表达方式。这些表达方式可能与谓词名称有很大不同。例如，谓词“人.国籍”可以表达为“……是什么国籍”、“……来自哪个国家”、“……来自哪里”等等。其次，即使假设实体名称可以被精确识别，实体名称和部分名称的模糊性仍然会使找到正确的实体变得困难，因为候选项的数量通常很大。随着KG规模的不断增加，许多实体将共享相同的名称。此外，最终用户可以在他们的话语中使用部分名称。例如，在问题“杰克多大了？”中，只显示了实体名称大卫·杰克的一部分。第三，最终用户问题的领域通常是无界的，任何KG都远远不够完整。新问题可能涉及与训练中不同的谓词。这就对QA-KG算法的鲁棒性提出了要求。

为了弥补这一差距，本专利文献公开了如何利用知识图嵌入来执行问题回答。在本公开中，焦点集中在QA-KG中最常见的问题类型，即简单问题。简单问题是只涉及一个头部实体和一个谓词的自然语言问题。通过对问题的分析，回答了三个研究问题：(i)如何运用谓词嵌入表示来弥补自然语言表达与KG谓词之间的差距？；(ii)如何利用嵌入表示的实体来应对模糊性挑战？；以及(iii)如何利用KG嵌入表示中保留的全局关系来推进QA-KG框架？在这些问题之后，本文献公开了名为基于知识嵌入的问题回答(KEQA)的框架的实施方式。总之，本文献的一些主要贡献如下：

·正式定义基于知识图嵌入的问题回答的问题。

·公开了通过在知识图嵌入空间中联合恢复自然语言问题的头部实体、谓词和尾部实体表示来回答自然语言问题的有效框架KEQA的实施方式。

·设计联合距离度量，考虑知识图嵌入表示中保留的结构和关系。

·在大的基准上，即SimpleQuestions(简单问题)上，以经验方式证明KEQA实施方式的有效性和鲁棒性。

B.一些相关工作

本节总结了各方面的相关工作。

基于嵌入的KG问题回答最近引起了广泛关注。它与所提出的基于KG嵌入的问题回答问题相关，但又不同。前者依赖于在QA-KG方法的训练过程中学习到的低维表示。后者先执行KG嵌入以学习低维表示，然后执行QA-KG任务。Yih等人在ACL-IJCNLP上发表的“通过分段查询图生成的语义解析：知识库的问题回答”(Semantic Parsing via Staged QueryGraph Generation:Question Answering with Knowledge Base.In ACL-IJCNLP)和Bao等人在COLING.上发表的“知识图的基于约束的问题回答”(Constraint-Based QuestionAnswering with Knowledge Graph.In COLING.2503–2514)将问题回答问题重新表述为特定子图的生成。一系列工作提议基于训练问题将问题和候选答案(或全部事实)投射到统一的低维空间中，并通过它们的低维表示之间的相似性来测量它们的匹配分数。有些方法通过学习所有单词、谓词和实体的低维表示，基于训练问题和问题的释义，实现了这种投射。有些方法通过使用问题的逻辑属性和潜在事实(如语义嵌入和实体类型)实现了这种投射。一些基于深度学习的模型通过将问题中的单词馈入卷积神经网络、LSTM网络或门控递归单元神经网络实现了这种投射。Das等人在ACL上发表的“使用通用架构和存储网络的文本和知识库问题回答”(Question Answering on Knowledge Bases and Text usingUniversal Schema and Memory Networks.In ACL,2017)，通过使用矩阵分解将语料库合并到KG中，并使用LSTM嵌入问题，实现了这种投射。这些模型大多依赖于基于边际的排序目标函数来学习模型权重。一些工作探索了利用字符级神经网络来提高性能。最近，Mohammed等人在NAACL-HLT.上发表的“具有和不具有神经网络的知识图简单问题回答的强大基准”(Strong Baselines for Simple Question Answering over Knowledge Graphs withand without Neural Networks,NAACL-HLT.291–296)和Ture等人在EMNLP.上发表的“无需关注：简单的递归神经网络”(No Need to Pay Attention:Simple Recurrent NeuralNetworks Work,EMNLP.2866–2872)将每个谓词视为一个标签类别，并通过深度分类模型执行谓词链接。

知识图嵌入旨在将高维KG表示为潜在谓词和实体表示P和E。Bordes等人在2011AAAI上发表的“学习知识库的结构化嵌入”(Learning Structured Embeddings ofKnowledge Bases.2011AAAI)通过为每种类型的谓词l构建两个变换矩阵M_head和M_tail，并针对所有事实(h,l,t)最小化投射M_heade_h与M_taile_t之间的距离，实现了这一目标，其中用l作为谓词。Bordes等人在2013NIPS.上发表的“转换嵌入以建模多关系数据”(TranslatingEmbeddings for Modeling Multi-relational Data.2013NIPS.2787–2795)设计了基于翻译的模型TransE。其训练两个矩阵P和E，旨在针对所有事实(h,l,t)最小化总距离在TransE的推动下，探索了一系列基于翻译的模型。Wang等人在2014AAAI上发表的“通过在超平面上平移嵌入知识图”(Knowledge Graph Embedding byTranslating on Hyperplanes.2014AAAI)提出了TransH以处理一对多或多对一关系。TransH没有直接测量e_h与e_t之间的距离，而是将它们投射到谓词特定的超平面中。Lin等人在2015AAAI上发表的“学习实体和关系嵌入以完成知识图”(Learning Entity andRelation Embeddings for Knowledge Graph Completion.2015AAAI 2181–2187)提出了TransR，它为每个谓词l定义了变换矩阵M_l，目标是将/>最小化。Lin等人在2015EMNLP上发表的“知识库表示学习的关系路径建模”(Modeling Relation Paths forRepresentation Learning of Knowledge Bases,2015EMNLP.705–814)提出了PTransE，其通过考虑多跳关系来推进TransE。

还致力于将语料库中的语义信息纳入KG嵌入。一些人证明使用预先训练好的单词嵌入来初始化KG嵌入方法可以提高性能。通过考虑语料库中的关系提及，或者通过将谓词/实体表示投射到从主题模型中学习到的语义超平面中，探索了试图推进TransE的几项研究。还尝试了分别应用TransE和word2vec分别为KG和语料库建模，然后基于Wikipedia中的锚点、实体描述或从语料库中学习的谓词/实体的上下文单词来融合它们。Zhang等人在关于连续向量空间模型及其组合的研讨会上发表的“结合文本数据和图形知识的联合语义相关性学习”。(Joint Semantic Relevance Learning with Text Data and GraphKnowledge.In Workshop on Continuous Vector Space Models and theirCompositionality.32–40)通过负采样共同嵌入KG和语料库(单词和短语的分布式表示及其组成(Distributed Representations of Words and Phrases and TheirCompositionality,2013NIPS.3111–3119))。Xie等人在2016AAAI上发表的“具有实体描述的知识图的表示学习”(Representation Learning of Knowledge Graphs with EntityDescriptions.2016AAAI 2659–2665)和Fan等人在模式识别快报上发表的“具有实体描述的知识图的分布式表示学习”(Distributed Representation Learning for KnowledgeGraphs with Entity Descriptions,Pattern Recognition Letters 93(2017),31–37)探索了实体描述中的语义信息，以推进KG嵌入。

C.问题陈述

符号：在本专利文献中，大写粗体字母用于表示矩阵(例如W)，小写粗体字母用于表示向量(例如，p)。矩阵P的第i行表示为p_i。向量的转置表示为向量的l²范数表示为‖p‖₂。{p_i}用于表示向量p_i的序列。s＝[x；h]运算表示将列向量x和h串联成新向量s。

定义1(简单问题)如果自然语言问题在知识图中只涉及一个头部实体和一个谓词，并以它们的(多个)尾部实体作为答案，那么这个问题就称为简单问题。

本专利文献中的一些符号总结在表1中。(h,l,t)用于表示事实，这意味着存在从头部实体h到尾部实体t的关系l。假设是由大量事实组成的知识图。谓词和实体的总数表示为M和N。给出了这些谓词和实体的名称。在一个或多个实施方式中，可缩放的KG嵌入算法，例如TransE和TransR，被应用于/>并且获得其谓词和实体的嵌入表示，分别被表示为P和E。因此，第i个谓词和第j个实体的向量表示分别表示为p_i和e_j。由KG嵌入算法定义的关系函数是f(·)，即，给定事实(h,l,t)，可以有e_t≈f(e_h,p_l)。假设Q是一组简单问题。对于Q中的每个问题，都给出了相应的头部实体和谓词。

表1：一些符号及其定义

术语简单问题在定义1中定义。如果简单问题的单个头部实体和单个谓词被识别，则可以由机器直接回答简单问题。给定上述条件，基于知识图嵌入的问题回答问题现在正式定义如下：

给定与其所有谓词和实体的名称相关联的知识图和嵌入表示P&E、关系函数f(·)以及与相应的头部实体和谓词相关联的一组简单问题Q，公开了端到端框架的实施方式，以新的简单问题作为输入并自动返回相应的头部实体和谓词。框架的性能通过正确预测头部实体和谓词的来评估。

D.基于知识嵌入的QA-KG实施方式

简单问题构成QA-KG问题中的大多数问题。如果识别出正确的头部实体和谓词，(多个)尾部实体可以回答每一个简单问题。为了精确预测头部实体和谓词，本专利文献公开了基于知识嵌入的问题回答(KEQA)框架的实施方式，如图1所示。KG160已经嵌入到两个低维空间(谓词嵌入空间140和实体嵌入空间150)中，并且每个事实(h,l,t)可以表示为三个潜在向量，即(e_h,p_l,e_t)。因此，给定问题110，只要其对应的事实e_h和p_l可以被预测，这个问题就可以被正确地回答170。KEQA实施方式的目标不是直接推断头部实体和谓词，而是在知识图嵌入空间中联合恢复问题的头部实体、谓词和尾部实体表示/>

图2描绘了根据本公开的实施方式的利用KEQA框架回答问题的方法。在一个或多个实施方式中，KEQA通过以下步骤获得答案。(i)基于Q中的问题及其谓词的嵌入表示，KEQA训练(205)谓词学习模型120，其将问题110作为输入，并返回位于KG谓词嵌入空间140中的向量作为预测谓词表示。类似地，头部实体学习模型130被构造成预测(210)KG实体嵌入空间150中问题的头部实体表示/>(ii)由于KG中的实体数量通常很大，KEQA采用头部实体检测模型来减少(215)候选头部实体。主要目标是将问题中的一个或多个令牌识别为预测的头部实体名称，然后将/>中的搜索空间从整个实体减少到具有相同或相似名称的多个实体。然后，/>主要用于解决歧义挑战。(iii)给定由KG嵌入算法定义的关系函数f(·)，KEQA实施方式计算(220)预测尾部实体表示/>预测谓词表示/>预测头部实体表示/>和预测尾部实体表示/>形成预测事实/>基于精心设计的联合距离度量，选择(225)/>中的预测事实/>中的最近的事实，并将其作为问题的答案170返回。

1.知识图嵌入的实施方式

在一个或多个实施方式中，所公开的框架KEQA采用所有谓词P和实体E的嵌入表示作为基础结构。在一个或多个实施方式中，可以利用现有的KG嵌入算法来学习P和E。可以使用的现有KG嵌入方法的示例包括但不限于TransE、TransR、TransH等。

知识图嵌入旨在将KG中的每个谓词/实体表示为低维向量，从而KG中的原始结构和关系保留在这些学习向量中。大多数现有KG嵌入方法的核心思想可以总结如下。对于中的每个事实(h,l,t)，其嵌入表示被表示为(e_g,p_l,e_t)。嵌入算法随机地或基于训练的单词嵌入模型初始化e_h,p_l和e_t的值。然后，定义了测量嵌入空间中事实(h,l,t)的关系的函数f(·)，即e_t≈f(e_h,p_l)。例如，TransE将该关系定义为e_t≈e_h+p_l，TransR将其定义为e_tM_l≈e_hM_l+p_l，其中M_l是谓词l的转换矩阵。最后，对于/>中的所有事实，嵌入算法将e_t和f(e_h,P_l)之间的总距离最小化。一种典型的方法是定义基于边际的排序标准，并对正样本和负样本(即不存在于/>中的事实和合成事实)进行训练。

如图1所示，将学习预测表示{p_i}(其中i＝1,...,M)所在的表面定义为谓词嵌入空间。将{e_i}(其中i＝1,...,N)所在的表面表示为实体嵌入空间。

2.谓词和头部实体学习模型的实施方式

给定简单问题，目标是在谓词嵌入空间中找到一个点作为它的谓词表示在实体嵌入空间中找到一个点作为它的头部实体表示/>

在一个或多个实施方式中，对于所有可以由回答的问题，它们的谓词的向量表示应该位于谓词嵌入空间中。因此，目标是设计一个模型，该模型将问题作为输入，并返回尽可能接近该问题的谓词嵌入表示p_l的向量/>为了实现这个目标，采用了如图3所示的神经网络架构实施方式。在一个或多个实施方式中，该架构主要包括双向递归神经网络层310和注意层325(加权h_j串联)。在一个或多个实施方式中，双向递归神经网络层310是双向长短期存储器(LSTM)。核心思想是考虑单词的顺序和重要性。不同顺序的单词可能有不同的含义，单词的重要性也可能不同。例如，问题中与实体名称相关的单词对谓词学习模型的贡献通常较小。

基于神经网络的谓词表示学习。为了预测问题的谓词，传统的解决方案是基于语义解析和人工创建的词典来学习映射，或者简单地将每种类型的谓词视为标签类别来将其转换成分类问题。然而，由于最终用户问题的领域通常是无界的，新问题的谓词可能不同于训练数据中的所有谓词。传统的解决方案无法处理这种情况。此外，我们还观察到，在P和E中保留的全局关系信息是可用的，并且有可能用于提高整体问题回答的精确度。为了弥补这一差距，本文阐述了基于神经网络的谓词学习模型的实施方式。

利用长短期记忆(LSTM)作为递归神经网络的典型例子，图3示出了根据本公开的一个或多个实施方式的谓词和头部实体学习模型的架构。图4描绘了根据本公开的实施方式的使用谓词和头部实体学习模型来预测输入问题的谓词的方法。给定长度为L的问题，基于预先训练的模型，如GloVe(Pennington,等人,GloVe:单词表示的全局向量(GlobalVectors for Word Representation),In EMNLP.1532–1543)，首先将其L个令牌映射(405)到单词嵌入向量序列{x_j}305中，其中j＝1,...,L，但是也可以使用其他嵌入技术。然后，使用(410)双向LSTM 310来学习前向隐藏状态序列和后向隐藏状态序列/>以后向隐藏状态序列为例，通过以下方程进行计算。

其中，f_j、i_j和o_j分别是遗忘门、输入门和输出门的激活向量。c_j是单元状态向量。σ和tanh是sigmoid和双曲线正切函数。表示Hadamard积。串联(415)前向和后向隐藏状态向量，可以获得串联的隐藏状态向量/>315。

在一个或多个实施方式中，第j个令牌的注意权重320，即αj，基于以下公式计算：

其中b_q是偏置项。注意权重α_j可被应用(420)于h_j以获得加权隐藏状态向量，然后将该向量与单词嵌入x_j串联(425)，产生隐藏状态s_j＝[x_j；α_jh_j](425)。然后，将完全连接的层应用(430)到s_j，并且其结果被表示为第j个令牌的目标向量330。预测谓词表示335可以被计算(435)为所有令牌的目标向量的平均值，即：

在一个或多个实施方式中，基于训练数据，即简单问题Q及其谓词的嵌入表示，计算所有权重矩阵、权重向量w和偏置项。

基于神经网络的头部实体学习模型。在一个或多个实施方式中，给定问题，目标在KG嵌入空间中恢复其表示，而不是直接推断头部实体。因此，头部实体学习模型的目标是计算尽可能接近该问题的头部实体嵌入表示的向量类似于/>的计算，可以使用图3中相同的神经网络架构来获得预测的头部实体表示/>

然而，KG中的实体数量通常很大，并且当将与E中的所有实体嵌入表示比较时，这可能是昂贵的并且有噪声。为了使学习更加高效和有效，KEQA实施方式可以采用头部实体检测模型来减少候选头部实体的数量。

3.头部实体检测模型的实施方式

在这个步骤中，目标是在问题中选择一个或几个连续的令牌作为头部实体的名称，使得搜索空间可以从整个实体减少到具有相同或相似名称的多个实体。那么的主要角色将变成处理模糊挑战。

在一个或多个实施方式中，为了使框架简单，采用基于双向递归神经网络(例如，LSTM)的模型来执行头部实体令牌检测任务。图5示出了根据本公开的一个或多个实施方式的头部实体检测(HED)模型的架构。如图5所示，HED模型包括双向LSTM 510和完全连接层520。HED模型与谓词/头部实体学习模型的结构相似，但没有注意层。

图6描绘了根据本公开的一个或多个实施方式的使用HED模型识别输入问题的一个或多个头部实体的方法。在一个或多个实施方式中，首先将问题映射(605)到单词嵌入向量序列{x_j}中(其中j＝1,...,L)，然后应用(610)双向递归神经网络来学习前向隐藏状态序列和后向隐藏状态序列/>将前向和后向隐藏状态串联(615)成串联隐藏状态然后，将完全连接的层和softmax函数应用(620)于h_j，得到目标向量/>v_j中的两个值对应于第j个令牌属于两个标签类别(即实体名称令牌540和非实体名称令牌550)的概率，如图5所示。这样，每个令牌被分类，并且一个或多个令牌被识别为头部实体名称。这些令牌被表示为HED_entity，问题中剩余的令牌被表示为HED_non。基于属于实体名称令牌的每个令牌的概率值，选择(625)一个或多个令牌作为头部实体名称。

在一个或多个实施方式中，Q中的问题及其头部实体名称被用作训练数据来训练HED模型。由于这些问题中的实体名称令牌是连续的，所以经过训练的模型也有很高的概率将连续的令牌作为HED_entity返回。如果返回离散的HED_entity，那么每个连续的部分将被视为独立的头部实体名称。应该注意的是，HED_entity可能只是正确头部实体名称的一部分。因此，所有与HED_entity相同或包含HED_entity的实体都将作为候选头部实体被包括在内，这可能仍然很大，因为许多实体将在大KG中共享相同的名称。

4.嵌入空间上联合搜索的实施方式

对于每一个新的简单问题，它的谓词和头部实体表示为和/>并且它的候选头部实体正在被预测，目标是找到/>中最匹配这些学习到的表示和候选的事实。

联合距离度量。如果事实的头部实体属于候选头部实体，则其被命名为候选事实。假设C成为收集所有候选事实的集合。为了测量候选事实(h,l,t)和预测表示之间的距离，直观的解决方案是将(h,l,t)表示为(e_h,p_l)，并将距离度量定义为e_h和/>之间的距离与p_l和/>之间的距离之和。然而，这个解决方案没有考虑KG嵌入表示中保留的有意义的关系信息。

在一个或多个实施方式中，使用了利用关系信息e_t≈f(e_h,p_l)的联合距离度量。数学上，建议的联合距离度量可以定义为:

其中函数n(·)返回实体或谓词的名称。HED_entity和HED_non表示被HED模型分类为实体名称和非实体名称的令牌。函数sim[·,·]测量两个字符串的相似性。β₁、β₂、β₃和β₄是预定义的权重，用于平衡每个项的贡献。在一个或多个实施方式中，l²范数用于测量距离，并且可以直接扩展到其他向量距离测量。

前三项(在等式(9)中可以称为向量距离项)在KG嵌入空间中测量事实(h,l,t)和预测之间的距离。在一个或多个实施方式中，f(e_h,p_l)用于表示尾部实体的嵌入向量，而不是e_t。换句话说，使用由KG定义的定义函数f(·)，从候选事实的头部实体嵌入向量和谓词嵌入向量计算联合距离度量中使用的候选事实的尾部实体嵌入向量。这是因为在KG中，可能有几个事实具有相同的头部实体和谓词，但是尾部实体不同。因此，单个尾部实体e_t可能无法回答这个问题。同时，f(e_h,p_l)匹配预测的尾部实体因为它也是基于f(·)推断的。其倾向于选择这样一个事实，其头部实体名称与HED_entity完全相同，并且谓词名称被问题提及。在一个或多个实施方式中，这两个目标分别通过第四项和第五项(在等式(9)中称为字符串相似性项)来实现。在一个或多个实施方式中，字符串相似性项被合并到联合距离度量中，以帮助选择头部实体名称与HED_entity完全相同并且谓词名称被问题提及的事实。返回最小化目标函数的事实(h^*,l^*,t^*)。

基于知识嵌入的问题回答。方法1总结了KEQA实施方式的整个过程。给定KG和具有相应答案的问题集Q，谓词学习模型、头部实体学习模型和HED模型被训练，如从第1行到第9行所示。然后，对于任何新的简单问题Q，其被输入到训练的谓词学习模型、头部实体学习模型和HED模型中，以学习其预测的谓词表示/>头部实体表示/>实体名称令牌HED_entity和非实体名称令牌HED_non。基于HED_entity中的学习到的(多个)实体名称，搜索整个/>以找到候选事实集合C。对于C中的所有事实，它们到预测表示/>的联合距离基于等式(9)中的目标函数来计算。选择具有最小距离的事实(h^*,l^*,t^*)。最后，头部实体h^*和谓词l^*作为Q的答案返回。

方法1：KEQA框架实施方式

/>

作为与步骤12(上文)相关的示例，从HED模型来看，图5中的结果将是“澳大利亚”将具有作为实体名称令牌的高概率。作为另一个例子，在一个或多个实施方式中，包含“亚伯拉罕·林肯总统”的短语将返回结果，其中单词“亚伯拉罕”和“林肯”中的每一个都具有被组合的高概率，至少因为连续的令牌和/或多个令牌作为一个实体是名称相关的。

图7描绘了根据本公开的一个或多个实施方式的步骤13(以上)的实施方式实现方案。图7示出了根据本公开实施方式的使用由HED模型识别的头部实体名称搜索KG中的头部实体同义词的方法。HED_entity可以是单个实体，也可以包含多个实体。在一个或多个实施方式中，由HED模型识别为头部实体的一个或多个实体被输入(710)到KG中，KG包括实体、谓词、它们的唯一代码、同义词集及其嵌入。实体可以包括一个或多个令牌，例如“亚伯拉罕·林肯总统”。因此，在一个或多个实施方式中，对于包括多个令牌的候选实体，可以例如通过实体的每个令牌的实体向量的点积来形成实体向量。在一个或多个实施方式中，搜索策略包括利用每个识别的头部实体的嵌入比较、字符串匹配或两者来搜索KG。

在一个或多个实施方式中，在确定(715)每个识别的头部实体是否存在直接字符串匹配时，该过程或者返回(720)结果，该结果可以包括匹配字符串的实体代码和一组或多组同义词。在一个或多个实施方式中，如果没有找到直接字符串匹配，则搜索可以被扩展以尝试识别(725)是否存在一个或多个部分字符串匹配。例如，“亚伯拉罕·林肯总统”和“美国内战时期的总统”这两个字符串是部分匹配的，也被认为是同一个实体。如果识别出一个或多个部分字符串匹配，则搜索过程返回(730)结果，对于每个部分匹配，该结果可以包括一组或多组同义词的实体代码。在一个或多个实施方式中，响应于没有找到直接或部分字符串匹配，用嵌入相似性识别(735)每个识别的头部实体的头部实体同义词。经由直接字符串匹配、部分字符串匹配和嵌入相似性的所识别的头部实体的所有同义词被收集在一起，以建立(740)一个或多个所识别的头部实体的候选事实集。

在一个或多个实施方式中，对于每个搜索策略(字符串匹配和嵌入比较)，可以使用一个或多个阈值来决定是否存在足够的相似性或匹配。字符串匹配中的阈值可能与嵌入比较的阈值相同，也可能不同。

作为与步骤13和14(上文)相关的进一步说明，一旦找到一组候选头部实体(例如，从如图7所示的搜索过程)，可以基于一组找到的头部实体、来自训练中找到的谓词Q以及从训练数据中已知的尾部实体来构建候选事实集。给定从训练数据中构建的具有已知尾部实体(或真实事实)的候选事实集，可以将候选事实集输入等式(9)中，以联合训练KEQA框架中的模型。一旦训练完成，可以使用KEQA框架预测测试数据中新问题Q的尾部实体。

应当注意，这些训练实施方式和结果是以举例说明的方式提供的，并且是在特定条件下使用一个或多个特定实施方式来执行的；因此，这些训练实施方式及其结果都不应用于限制当前专利文献的公开范围。

通过整体概述的方式，所公开的框架KEQA实施方式享有几个好的属性。首先，通过执行基于KG嵌入的问题回答，KEQA实施方式能够使用不同于训练数据中所有谓词和实体的谓词和实体来处理问题。其次，通过利用KG嵌入表示中保留的结构和关系信息，KEQA实施方式可以联合执行头部实体、谓词和尾部实体预测。这三个子任务将相互补充。第三，KEQA框架可推广到不同的KG嵌入算法。因此，KEQA实施方式的性能可以通过更复杂的KG嵌入算法进一步提高。

E.一些实验

应当注意，这些实验和结果是以举例说明的方式提供的，并且是在特定条件下使用一个或多个特定实施方式进行的；因此，这些实验及其结果都不应用于限制当前专利文献的公开范围。

在本节中，评估了在大型QA-KG基准上所公开的框架KEQA的测试实施方式的有效性和普遍性。在一个或多个实验中，研究了以下三个研究问题：

Q1：与最先进的QA-KG方法相比，KEQA实施方式在不同的自由基子集方面有多有效？

Q2：当采用不同的KG嵌入算法时，KEQA实施方式的性能有什么不同？

Q3：KEQA实施方式的目标函数包括五个项，如等式(9)所示。每一项贡献多少？

1.数据集的实施方式

本节首先介绍了实验中使用的知识图子集和问题回答数据集。所有的数据都是公开的。它们的统计数据见表2。

表2：问题回答数据集的统计数据

FB2M和FB5M：自由基通常被认为是可靠的KG，因为它主要由社区成员收集和整理。本文采用了自由基的两个大子集，即FB2M和FB5M。它们的谓词编号M和实体编号N列于表2中。重复的事实已被删除。自由基应用编程接口(API)不再可用。因此，实体名称集合可以用于建立实体与其名称之间的映射。

简单问题(Borders,等人,利用存储网络扩展简单的w问题回答(Scale SimpleQuestion Answering with Memory Networks).2015arXiv preprint:1506.02075)：其包含一万多个与相应事实相关的简单问题。所有这些事实都属于FB2M。所有的问题都是由讲英语的人根据事实和上下文来表述的。它被用作最近各种QA-KG方法的基准。

2.实验设置

在一个或多个实施方式中，为了评估QA-KG方法的性能，使用传统的设置并使用最初在简单问题中提供的相同的训练、验证和测试部分。FB2M或FB5M用作KG。然后应用KG嵌入算法(例如TransE和TransR)来学习P和E。应该注意P和E不是额外的信息源。然后，使用QA-KG方法预测测试部分中每个问题的头部实体和谓词。其性能是通过正确预测头部实体和谓词的精确度来衡量的。

正如形式问题定义中所要求的，评估标准被定义为正确预测新问题的头部实体和谓词的精确度。KG嵌入表示d的维度设置为250。使用了基于GloVe的预先训练的单词嵌入。在一个或多个实施方式中，为了测量两个字符串的相似性，即，为了建立函数sim[·,·]，使用实现方案Fuzzy(模糊)。如果其不是特定的，KG嵌入算法TransE将被用来学习所有谓词P和实体E的嵌入表示。

3.测试的KEQA实施方式的有效性

本节开始时提出的第一个研究问题，即KEQA有多有效，现在得到了回答。在一个或多个实施方式中，包括7种最先进的QA-KG算法和KEQA的一种变化作为基线。

·Bordes等人在arXiv preprint发表的“带有存储网络的大规模简单问题回答”(Large Scale Simple Question Answering with Memory Networks.arXiv preprint1506.02075)：其基于训练问题学习单词、谓词和实体的潜在表示，以便新问题和候选事实可以被投射到相同的空间并进行比较。

·Dai等人在arXiv preprint arXiv发表的“CFO：利用大型知识库条件聚焦的神经问题回答”(CFO:Conditional Focused Neural Question Answering with Large-Scale Knowledge Bases.arXiv preprint arXiv:1606.01994)：其采用基于双向门控递归单元的神经网络对候选谓词进行排序。使用了来自自由基API的建议。

·Yin等人在2016COLING.发表的“细观卷积神经网络的简单问题回答”(SimpleQuestion Answering by Attentive Convolutional Neural Network,2016COLING.1746–1756.)：其使用字符级卷积神经网络来匹配问题和谓词。

·Golub和He在EMNLP发表的“注意字符级问题回答”(Character-Level QuestionAnswering with Attention.In EMNLP.1598–1607)：其设计了字符级和基于注意的LSTM来编码和解码问题。

·Bao等人在COLING.发表的“利用知识图的基于约束的问题回答”(Constraint-Based Question Answering with Knowledge Graph.In COLING.2503–2514)：其手动定义几种类型的约束条件，并执行约束条件学习来处理复杂的问题，其中每个问题都与几个事实相关。使用额外的训练问题和免费的自由基API。

·Lukovnikov等人在WWW.发表的“基于神经网络的单词和字符级别的知识图问题回答”(Neural Network-Based Question Answering over Knowledge Graphs on Wordand Character Level.In WWW.1211–1220):其利用字符级门控循环单元神经网络将问题和谓词/实体投射到同一空间。

·Mohammed等人在NAACL-HLT.发表的“具有和不具有神经网络的知识图简单问题回答的强基线”(Strong Baselines for Simple Question Answering over KnowledgeGraphs with and without Neural Networks,In NAACL-HLT.291–296)：其将谓词预测视为分类问题，并使用不同的神经网络来解决它。其基于Fuzzy执行实体链接。

·KEQA_noEmbed：不使用KG嵌入算法。相反，其随机生成谓词和实体嵌入表示P和E。

如上文导言所示，所有基线都利用深度学习模型来推进其方法。它们在相应的论文或作者的实现方案中报告的结果被使用。表3中列出了针对FB2M和FB5M的SimpleQuestions的不同方法的性能。

表3：关于SimpleQuestions的所有方法的性能

正如Lukovnikov等人和Mohammed等人的其他几项工作所提到的，一些算法实现了高精确度，但是它们要么使用额外的信息源，要么没有可用的实现方案。额外的训练数据自由基API建议、自由基实体链接结果和训练的分段模型。这些依赖于不再可用的自由基API。相反，所呈现的框架KEQA实施方式使用实体名称集合。因此，对于Dai等人和Yin等人，当不使用额外的训练数据时，报告他们的结果。有两项工作声称具有很高精确度，但没有公开可用的实现方案。因此，不可能复制它们，其他工作也指出了这一点。

根据表3中的结果，进行了三次观察。首先，提议的框架KEQA优于所有基线。与发布SimpleQuestions时相比，KEQA的精确率提高了20.3％。其次，与KEQA_noEmbed相比，KEQA实现了20.3％的提高。这表明单独的任务KG嵌入确实有助于问题回答任务。第三，当应用于FB5M时，KEQA的性能下降0.7％。因为所有真实事实都属于FB2M，FB5M的事实比FB2M多26.1％。

通过联合预测问题的谓词和实体，KEQA达到了0.754的精确度。在谓词预测子任务中，KEQA在验证部分上达到0.815的精确度，这比Mohammed等人最近达到的0.828的差。这一差距表明，本专利文献中提出的KEQA框架可以通过更复杂的模型进一步改进。然而，在简单问题回答任务中，KEQA仍然优于Mohammed等人的方案。这证实了所提出的联合学习框架的有效性。通过联合学习，KEQA在预测头部实体时达到0.816的精确度，在预测头部实体和谓词时达到0.754的精确度，在预测整个事实、测试部分和FB2M时达到0.680的精确度。这意味着FB2M中不存在一些真实事实。

4.普遍性和鲁棒性评估的实施方式

E.4.1KEQA的普遍性。在一个或多个实施方式中，为了研究当使用不同的KG嵌入算法时KEQA的普遍性程度，在比较中包括三种可缩放的KG嵌入方法。详细介绍列举如下：

·KEQA_TransE：TransE用于执行KG嵌入。这是一种典型的基于翻译的方法。其将关系函数定义为e_t≈f(e_h,p_l)＝e_h+p_l，然后执行基于边距的排序，使所有事实趋近满足关系函数。

·KEQA_TransH：TransH用于执行KG嵌入。TransH类似于TransE，并将关系函数定义为其中/>和m_l是谓词l的超平面。

·KEQA_TransR：TransR类似于TransE，并将关系函数定义为e_tM_l≈e_hM_l+p_l，其中M_l是l的变换矩阵。

当不使用KG嵌入和使用不同的KG嵌入算法时，KEQA的性能如表4所示。从结果中，获得三个主要的观察结果。首先，KG嵌入算法提高了KEQA的性能。例如，与KEQA_noEmbed相比，KEQA在基于TransE的基础上实现了3.1％的改进。其次，当使用不同的KG嵌入算法时，KEQA具有相似的性能。其证明了KEQA的普遍性。第三，即使不使用KG嵌入，KEQA仍然可以获得与表3所示的最先进的QA-KG方法相当的性能。其验证了KEQA的鲁棒性。随机生成的P和E能够实现相当的性能的原因是，其倾向于使所有p_l均匀分布并且彼此远离。这将表示预测问题转换成类似于分类任务的问题。

表4：不同知识图嵌入算法在FB2M上的KEQA性能

4.2KEQA的鲁棒性。为了进一步验证KEQA的鲁棒性，SimpleQuestions中的所有108,442个问题都被重新改组，并获得名为SimpleQ_Missing的新数据集。在一个或多个实施方式中，为了执行重新改组，所有类型的谓词被随机分成三组，并基于谓词将问题分配给这些组。因此，在SimpleQ_Missing中，测试部分中的问题的所有对应谓词从未在训练和验证部分中提到过。最后，在训练部分中得到了75，474个问题，在验证部分中得到了11,017个问题，在测试部分中得到了21,951个问题，它们的比率与SimpleQuestions中的比率大致相同。不同KG嵌入算法对SimpleQ_Missing的KEQA性能如表4所示。

从表4中的结果可以看出，借助于TransE，KEQA仍然可以实现0.418的精确度。KG嵌入表示P和E中保存的全局关系和结构信息使KEQA的性能比Random(随机)好8.3％。这些观察结果证明了KEQA的鲁棒性。

5.参数分析的实施方式

在本节中，将调查KEQA目标函数中的每一项可以贡献多少。目标函数中有五项，如等式(9)所示。在一个或多个实施方式中，研究了KEQA相对于三组不同项的组合的性能。为了研究等式(9)中每一项的贡献，在第一组，即Only_Keep(仅保留)中，五个项中只有一个被保留作为新的目标函数。为了研究五个项中缺失一个的影响，在第二组，即Remove(移除)中，五个项中的一个被移除。为了研究累积贡献，在第三组，即Accumulate(累积)，项区域作为新的目标函数一个接一个地增加。表5总结了KEQA相对于FB2M上不同组目标函数的性能。

表5：在FB2M上具有不同目标函数的KEQA实施方式的性能

从表5中的结果可以看出三个主要的观察结果。首先，预测谓词表示p_l在给出的框架中具有最重要的贡献。第一项独立达到0.728的精度。这是因为谓词的数量1,837比训练问题的数量75,910少得多。第二，预测的头部实体表示可以在联合学习中补偿p_l。使用时，精度从0.728提高到0.745。第二项独立地实现了低精度，因为实体总数N太大，例如FB2M中的N＝1,963,115。第三，谓词名称n(l)将KEQA的性能提高了1.1％。这可以用一些话语与相应的谓词名称共享几个单词来解释。

F.一些结论

基于知识图的问题回答是一个关键问题，因为其使普通用户能够通过自然语言轻松地访问大型知识图中有价值但复杂的信息。这也是一个具有挑战性的问题，因为谓词可以有不同的自然语言表达。机器很难捕捉它们的语义信息。此外，即使假设问题的实体名称被正确识别，实体名称和部分名称的模糊性仍然会使候选实体的数量很大。

为了弥补这一差距，本文公开了基于知识图嵌入的新型的问题回答问题的实施方式，并且给出了简单有效的KEQA框架的实施方式。KEQA框架旨在解决简单的问题，即QA-KG中最常见的问题类型。KEQA没有直接推断头部实体和谓词，而是在KG嵌入空间中联合恢复问题的头部实体、谓词和尾部实体表示。在一个或多个实施方式中，基于注意的双向LSTM模型被用来执行谓词和头部实体表示学习。由于与KG中的所有实体进行比较既昂贵又有噪声，所以头部实体检测模型被用来选择问题中的连续令牌作为头部实体的名称，使得候选头部实体集将被减少到具有相同或相似名称的多个实体。给定预测事实精心设计的联合距离度量的实施方式用于测量其到所有候选事实的距离。具有最小距离的事实作为答案返回。进行综合实验来评估所呈现的KEQA框架实施方式的性能。在大型基准上的实验表明，KEQA实施方式比最先进的方法获得更好的性能。

在一个或多个实施方式中，KEQA框架实施方式可以在各种场景中扩展。扩展包括但不限于(i)KEQA实施方式基于预先训练的KG嵌入执行问题回答。KEQA可以通过联合进行KG嵌入和问题回答来推进。(ii)现实世界的知识图和训练问题经常动态更新。KEQA框架实施方式可以被扩展以处理这样的场景。

G.系统实施方式

在实施方式中，本专利文献的各方面可涉及、可包括一个或多个信息处理系统/计算系统或可在一个或多个信息处理系统/计算系统上实现。计算系统可以包括可操作来运算、计算、确定、分类、处理、发送、接收、检索、发起、路由、切换、存储、显示、通信、展示、检测、记录、再现、处置或利用任何形式的信息、情报或数据的任何手段或手段的集合。例如，计算系统可以是或可以包括个人计算机(例如笔记本计算机)、平板计算机、平板电脑、个人数字助理(PDA)、智能电话、智能手表、智能包、服务器(例如刀片服务器或机架式服务器)、网络存储设备、照相机或任何其他合适的设备，并且可以在尺寸、形状、性能、功能和价格上变化。计算系统可以包括随机存取存储器(RAM)、一个或多个处理资源，例如中央处理单元(CPU)或者硬件或软件控制逻辑、ROM和/或其他类型的存储器。计算系统的附加组件可以包括一个或多个磁盘驱动器、用于与外部设备以及诸如键盘、鼠标、触摸屏和/或视频显示器的各种输入和输出(I/O)设备通信的一个或多个网络端口。计算系统还可以包括一条或多条总线，可操作为在各种硬件组件之间发送通信。

图8描绘了根据本公开实施方式的计算设备/信息处理系统(或计算系统)的简化框图。应当理解，用于系统所示的功能可以操作来支持计算系统的各种实施方式—尽管应当理解，计算系统可以被不同地配置并包括不同的组件，包括具有如图8所示的更少或更多的组件。

如图8所示，计算系统包括提供计算资源并控制计算机的一个或多个中央处理单元(CPU)801。CPU 801可以用微处理器等实现，并且还可以包括一个或多个图形处理单元(GPU)819和/或用于数学计算的浮点协处理器。系统还可以包括系统存储器802，其可以是随机存取存储器(RAM)、只读存储器(ROM)或两者的形式。

还可以提供多个控制器和外围设备，如图8所示。输入控制器803表示到各种输入设备804(例如键盘、鼠标、触摸屏和/或触笔)的接口。计算系统还可以包括用于与一个或多个存储设备808接口连接的存储控制器807，每个存储设备808包括诸如磁带或磁盘的存储介质，或者可以用于记录操作系统、实用程序和应用程序的指令程序的光学介质，该操作系统、实用程序和应用程序可以包括实现本发明各个方面的程序的实施方式。存储设备808也可用于存储已处理数据或根据本发明待处理的数据。系统还可以包括显示控制器809，用于提供到显示设备811的接口，显示设备811可以是阴极射线管(CRT)、薄膜晶体管(TFT)显示器、有机发光二极管、电致发光面板、等离子面板或其他类型的显示器。计算系统还可以包括一个或多个外围设备806的一个或多个外围设备控制器或接口805。外围设备的示例可以包括一个或多个打印机、扫描仪、输入设备、输出设备、传感器等。通信控制器814可以与一个或多个通信设备815接口连接，这使得系统能够通过包括互联网、云资源(例如以太网云、以太网光纤通道(FCoE)/数据中心桥接(DCB)云等)、局域网(LAN)、广域网(WAN)、存储区域网(SAN)在内的各种网络中的任何一种或通过包括红外信号的任何合适的电磁载波信号连接到远程设备。

在图示的系统中，所有主要系统组件可以连接到总线816，总线816可以代表一条以上的物理总线。然而，各种系统组件可能在物理上彼此接近，也可能不接近。例如，输入数据和/或输出数据可以从一个物理位置远程发送到另一个物理位置。此外，可以通过网络从远程位置(例如，服务器)访问实现本发明各个方面的程序。这种数据和/或程序可以通过各种机器可读介质中的任何一种来传送，包括但不限于：诸如硬盘、软盘和磁带的磁介质；诸如CD-ROM和全息设备等光学介质；磁光介质；以及专门配置为存储或存储并执行程序代码的硬件设备，例如专用集成电路(ASIC)、可编程逻辑设备(PLD)、闪存设备以及ROM和RAM设备。

本发明的各方面可以用指令编码在一个或多个非暂时性计算机可读介质上，该指令用于一个或多个处理器或处理单元以使得步骤得以执行。应当注意，一个或多个非暂时性计算机可读介质应当包括易失性和非易失性存储器。应当注意，替代实现方案是可能的，包括硬件实现方案或软件/硬件实现方案。硬件实现的功能可以使用ASIC、可编程阵列、数字信号处理电路等来实现。因此，任何权利要求中的术语“装置”旨在涵盖软件和硬件实现方案。类似地，本文使用的术语“计算机可读介质”包括其上包含指令程序的软件和/或硬件，或者它们的组合。考虑到这些实施方案，应当理解，附图和所附描述提供了本领域技术人员编写程序代码(即软件)和/或制造电路(即硬件)以执行所需处理所需的功能信息。

应当注意，本发明的实施方式还可以涉及具有非暂时性、有形计算机可读介质的计算机产品，该计算机可读介质上具有用于执行各种计算机实现的操作的计算机代码。介质和计算机代码可以是为本发明的目的专门设计和构造的那些，或者它们可以是相关领域技术人员已知或可获得的类型。有形计算机可读介质的例子包括但不限于：诸如硬盘、软盘和磁带的磁介质；诸如CD-ROM和全息设备等的光学介质；磁光介质；以及专门配置为存储或存储并执行程序代码的硬件设备，例如专用集成电路(ASIC)、可编程逻辑设备(PLD)、闪存设备以及ROM和RAM设备。计算机代码的例子包括机器代码，例如由编译器产生的代码，以及包含由计算机使用解释器执行的高级代码的文件。本发明的实施方式可以全部或部分实现为机器可执行指令，其可以在由处理设备执行的程序模块中。程序模块的示例包括库、程序、例程、对象、组件和数据结构。在分布式计算环境中，程序模块可以物理地位于本地、远程或两者兼有的环境中。

本领域技术人员将认识到，没有任何计算系统或编程语言对本发明的实践是至关重要的。本领域技术人员还将认识到，上述许多元件可以在物理上和/或功能上分成子模块或组合在一起。

本领域技术人员将会理解，前面的示例和实施方式是示例性的，而不限制本公开的范围。本领域技术人员在阅读说明书和研究附图后显而易见的所有置换、增强、等同、组合和改进都包含在本公开的真实精神和范围内。还应当注意，任何权利要求的元素可以用不同的方式布置，包括具有多个从属性、配置和组合。

Claims

1.一种使用一个或多个处理器进行问题回答的由计算机实施的方法，所述处理器使得执行步骤，所述步骤包括：

使用谓词学习模型在知识图谓词嵌入空间中生成用于包括一个或多个令牌的问题的预测谓词表示；

使用头部实体学习模型，在知识图实体嵌入空间中生成用于所述问题的预测头部实体表示；

基于关系函数，从所述预测谓词表示和所述预测头部实体表示获取预测尾部实体表示，所述预测谓词表示、所述预测头部实体表示和所述预测尾部实体表示形成预测事实，所述关系函数针对知识图嵌入空间中的事实将头部实体表示和谓词表示与尾部实体表示关联；

使用头部实体检测模型识别用于所述问题的一个或多个预测头部实体名称，每个预测头部实体名称包括来自所述问题的一个或多个令牌；

在所述知识图中搜索与所述一个或多个预测头部实体名称相关的头部实体同义词；

构建包括一个或多个候选事实的候选事实集，每个候选事实包括所述头部实体同义词中的头部实体、谓词和尾部实体；以及

基于联合距离度量，选择所述候选事实集中与所述预测事实具有最小联合距离的一个候选事实作为所述问题的答案，其中所述联合距离度量包括：

第一距离项，关于所述预测头部实体表示和候选事实中的头部实体的头部实体嵌入表示之间的距离，

第二距离项，关于所述预测谓词表示和候选事实中的谓词的谓词嵌入表示之间的距离，和

第三距离项，关于所述预测尾部实体表示和候选事实中的尾部实体的尾部实体嵌入表示之间的距离。

2.根据权利要求1所述的由计算机实施的方法，其中所述谓词学习模型具有包括双向递归神经网络层和注意层的神经网络结构，所述预测谓词表示的生成包括：

将所述问题中的所述一个或多个令牌映射到单词嵌入向量的序列中；

使用所述双向递归神经网络层生成前向隐藏状态序列和后向隐藏状态序列；

将所述前向隐藏状态序列和所述后向隐藏状态序列串联成串联隐藏状态向量；

由所述注意层对所述串联隐藏状态向量应用注意权重，以获得加权隐藏状态向量；

将所述加权隐藏状态向量与所述单词嵌入向量串联，以获得每个令牌的隐藏状态；

对所述隐藏状态应用完全连接层以获得每个令牌的目标向量；以及

使用所有目标向量的平均值作为所述预测谓词表示。

3.根据权利要求2所述的由计算机实施的方法，其中所述头部实体学习模型具有与所述谓词学习模型相同的神经网络结构。

4.根据权利要求3所述的由计算机实施的方法，其中分别通过谓词目标函数和头部实体目标函数，使用具有真实事实的训练数据集对所述谓词学习模型和所述头部实体学习模型进行预训练。

5.根据权利要求1所述的由计算机实施的方法，其中所述头部实体检测模型具有包括双向递归神经网络层和完全连接层的神经网络结构，所述问题的所述一个或多个预测头部实体名称的识别包括：

在所述双向递归神经网络层处生成前向隐藏状态序列和后向隐藏状态序列；

串联所述前向隐藏状态序列和所述后向隐藏状态序列以获得串联隐藏状态向量；

对所述串联隐藏状态向量应用所述完全连接层和Softmax函数，以获得每个令牌的目标向量，每个目标向量具有两个概率值，所述两个概率值对应于所述令牌属于实体令牌名称和非实体令牌名称的概率；以及

基于每个令牌属于实体令牌名称的概率值，选择一个或多个令牌作为所述头部实体名称。

6.根据权利要求1所述的由计算机实施的方法，其中每个距离项是测量向量距离的l²范数。

7.根据权利要求6所述的由计算机实施的方法，其中所述联合距离度量还包括字符串相似性项，所述字符串相似性项表示所述候选事实中的实体名称和由所述头部实体检测模型分类为实体名称的令牌之间的字符串相似性，以及所述候选事实中的所述谓词的名称和由所述头部实体检测模型分类为非实体名称的令牌之间的字符串相似性。

8.根据权利要求7所述的由计算机实施的方法，其中所述联合距离度量是所述距离项和所述字符串相似性项的加权组合。

9.根据权利要求6所述的由计算机实施的方法，其中在所述联合距离度量中，所述候选事实具有尾部实体嵌入向量，所述尾部实体嵌入向量使用所述关系函数从所述候选事实的头部实体嵌入向量和谓词嵌入向量计算得到。

10.根据权利要求1所述的由计算机实施的方法，其中在所述知识图中搜索与所述一个或多个预测头部实体名称相关的头部实体同义词包括：

将每个头部实体名称的实体向量输入到所述知识图中；以及

在所述知识图中，通过嵌入比较和字符串匹配来搜索具有相应令牌嵌入的头部实体同义词，每个头部实体同义词具有与所述头部实体名称的直接字符串匹配或部分字符串匹配，或者具有与所述实体向量的嵌入相似性。

11.根据权利要求10所述的由计算机实施的方法，其中对于包括多个令牌的头部实体名称，从每个令牌的实体向量的点积组合得到所述实体向量。

12.一种使用一个或多个处理器进行问题回答的由计算机实施的方法，所述一个或多个处理器使得执行步骤，所述步骤包括：

使用存储在一个或多个计算设备的一个或多个存储器中的谓词学习模型，在谓词嵌入空间中生成用于包括一个或多个令牌的问题的预测谓词表示，所述谓词学习模型使用具有真实事实的训练数据和谓词目标函数进行预训练；

使用存储在一个或多个计算设备的一个或多个存储器中的头部实体学习模型，在实体嵌入空间中生成用于所述问题的预测头部实体表示，头部实体学习模型使用具有真实事实的训练数据和头部实体目标函数进行预训练；

使用基于知识图嵌入的关系函数，从所述预测谓词表示和所述预测头部实体表示识别预测尾部实体表示，所述预测头部实体表示、所述预测谓词表示和所述预测尾部实体表示形成预测事实；以及

基于联合距离度量，从所述知识图中的事实的至少一个子集中选择事实作为所述问题的答案，所选择的事实根据所述联合距离度量在其与所述预测事实之间具有最小联合距离，其中所述联合距离度量包括：

第一距离项，关于所述预测头部实体表示和所述事实中的头部实体的头部实体嵌入表示之间的距离，

第二距离项，关于所述预测谓词表示和所述事实中的谓词的谓词嵌入表示之间的距离，和

第三距离项，关于所述预测尾部实体表示和所述事实中的尾部实体的尾部实体嵌入表示之间的距离。

13.根据权利要求12所述的由计算机实施的方法，其中所述至少一个子集是候选事实集，所述候选事实集包括从所述知识图中的一个或多个事实中选择的一个或多个候选事实，每个候选事实包括头部实体，所述头部实体作为由头部实体检测模型识别的一个或多个预测头部实体名称的同义词，所述头部实体检测模型至少包括双向递归神经网络层和完全连接层。

14.根据权利要求13所述的由计算机实施的方法，其中由所述头部实体检测模型通过包括以下的步骤来识别所述一个或多个预测头部实体名称：

使用所述双向递归神经网络层，从所述问题中的所述一个或多个令牌的单词嵌入向量的序列生成前向隐藏状态序列和后向隐藏状态序列；

将所述前向隐藏状态序列和后向隐藏状态序列串联成串联隐藏状态向量；

对所述串联隐藏状态向量至少应用所述完全连接层以获得用于每个令牌的目标向量，每个目标向量具有与所述令牌属于实体令牌名称和非实体令牌名称的概率相对应的两个概率值；以及

15.根据权利要求13所述的由计算机实施的方法，其中，每个距离项是测量向量距离的l²范数，所述联合距离度量还包括表示所述候选事实中的实体名称和由所述头部实体检测模型分类为实体名称的令牌之间的字符串相似性和所述候选事实中的所述谓词的名称和由所述头部实体检测模型分类为非实体名称的令牌之间的字符串相似性的字符串相似性项。

16.根据权利要求15所述的由计算机实施的方法，其中所述联合距离度量是所述第一距离项、所述第二距离项和所述第三距离项与所述字符串相似性项的加权组合，其中所述加权组合具有用于所述联合距离度量中每个项的权重。

17.一种包括一个或多个指令序列的非暂时性计算机可读介质，当由一个或多个处理器执行时，该指令序列使得执行用于问题回答的步骤，所述步骤包括：

在知识图谓词嵌入空间中生成向量，作为包括一个或多个令牌的问题的预测谓词表示；

在知识图实体嵌入空间中生成向量作为所述问题的预测头部实体表示；

基于根据知识图嵌入的关系函数，从所述预测谓词表示和所述预测头部实体表示获得预测尾部实体表示，所述预测谓词表示和所述预测尾部实体表示形成预测事实；

识别所述问题的一个或多个预测头部实体名称，每个预测头部实体名称包括来自所述问题的一个或多个令牌；

通过嵌入比较和字符串匹配，在所述知识图中搜索所述一个或多个预测头部实体名称的头部实体同义词；

基于联合距离度量选择所述候选事实集中与所述预测事实具有最小联合距离的一个候选事实作为所述问题的答案，其中所述联合距离度量包括：

18.根据权利要求17所述的非暂时性计算机可读介质，其中每个距离项是测量向量距离的l²范数，所述联合距离度量还包括表示候选事实的实体名称和所述问题中的实体令牌之间的字符串相似性以及候选事实的谓词名称和所述问题中的非实体令牌之间的字符串相似性的字符串相似性项。

19.根据权利要求18所述的非暂时性计算机可读介质，其中所述联合距离度量是所述第一距离项、所述第二距离项和所述第三距离项与所述字符串相似性项的加权组合。

20.根据权利要求19所述的非暂时性计算机可读介质，其中在所述联合距离度量中，所述字符串相似性项平衡所述向量距离项。