CN105144205B - 使用多个所选知识库来回答自然语言问题的设备和方法 - Google Patents
使用多个所选知识库来回答自然语言问题的设备和方法 Download PDFInfo
- Publication number
- CN105144205B CN105144205B CN201480024762.3A CN201480024762A CN105144205B CN 105144205 B CN105144205 B CN 105144205B CN 201480024762 A CN201480024762 A CN 201480024762A CN 105144205 B CN105144205 B CN 105144205B
- Authority
- CN
- China
- Prior art keywords
- hypothesis
- entity
- knowledge base
- natural language
- trichotomy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/027—Frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2365—Ensuring data consistency and integrity
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Computer Security & Cryptography (AREA)
- Human Computer Interaction (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种自然语言问题回答设备包括候选搜索实体、假说生成实体、假说排列实体、和知识库路由实体。所述候选搜索实体被配置成提供针对所接收的自然语言问题的信息单元的多个面向三分法的表示,其中每个面向三分法的表示包括针对面向三分法的表示的知识库特定的概念、概念实例、概念实例关系以及概率值。所述假说生成实体被配置成生成关于在概念、概念实例以及概念实例关系之间的链接的多个假说。所述假说排列实体被配置成基于用所生成的假说而查询辅知识库以及面向三分法的表示的概率值来对所生成的假说进行排列。所述知识库路由实体被配置成基于经排列的假说而从多个可用的知识库中选择多个知识库。
Description
技术领域
本发明涉及用于使用多个所选知识库来自动回答自然语言问题的设备和方法。
背景技术
当今的企业需要基于分析来自海量且异构的数据库或源的信息而做出决策。对机器或技术安装进行控制的越来越多方面由数据驱动,并且作为结果,越来越多的操作者需要访问数据。
构建工业等级的问题回答(QA)系统的挑战是成许多倍的,这不仅是由于底层知识库的领域特异性,而且还因为与系统的用户交互,所述用户交互需要涵盖宽范围的查询。
一个挑战是在商用硬件上的运行时性能。例如,可接受的速度可以被定义为在800ms内计算回答表示。
系统应当是可伸缩的,因为响应时间不应当与正访问的数据的大小成比例。
企业数据是异构且动态的。QA系统需要集成这些源并且适应它们变化的性质。集成过程的部分包括提供用于数据的统一语义学。
此外,不同的用户需要访问企业数据,他们中的大多数知道他们想要什么但是不确切知道如何得到它。工业QA系统需要允许它们容易地表述查询,尽可能地接近自然语言。
该要求被以下事实所复杂化:大多数使用与其数据有关的领域特定的术语和概念。在问题回答过程中需要捕获和使用该术语学。考虑到操作者多么习惯于以自然语言进行会话,这样的系统必须提供直观的接口用于更正错误,即触及问题的正确含义并且使随后的回答可视化。
也就是说,系统用户不仅要求使用(有效的)自然语言问题(例如向我示出在中国的所有活动的单位)、查询语言构造,例如通过按容量降序排序的性能而选择单位名称),而且还要求使用(传统)关键词搜索(例如,st rna ksp),或者这些的混合。这可能是重要的,因为常规的语法驱动的方法,例如通过它们的解析树来标识关系(de Marneffe、MacCartney、和Manning,2006))几乎不能用作参考。
安全性是在工业设置中访问数据的重要方面。特别地,要求以下认证:即发问者能够访问所涉及的所有数据片段。
自然语言理解(NLU)已经长期都是人工智能(AI)的目标。考虑AI完成任务,其包括将自然语言语句映射成以支持其它任务(诸如自动化的推理、或问题回答)的形式化语言表述的完整的、无歧义的、形式化含义表示。
对数据库的自然语言访问(NLIDB)是NLU任务,其中目标语言是结构化查询语言(例如SQL)。NLIDB已经存在了很长时间,其开始于LUNAR系统(Woods 1970)。早期NLIDB系统主要采取手动构建的、基于语法的方法(Woods 1970;Warren和Pereira 1982;Dowding等,1993;Bos等,1996),所述方法经证明不仅是劳动力密集的而且还是脆弱的。
开发了许多学习方法(Zelle和Mooney 1996;Miller等,1996)以及更新近地有(Kate、Wong和Mooney 2005;Kate和Mooney 2006;Zettlemoyer和Collins 2005;Wong和Mooney 2006;2007)和(Lu等,2008)。其中有两个例外(Miller等,1996)和(Zettlemoyer和Collins 2005),它们都采用语义驱动的方法。
学术上的问题回答系统示出了很大的希望:(Gunning等,2012)示出了具有很少训练并且没有底层知识库的知识的领域专家可以使用这样的系统来回答在比如化学、生物和物理之类的科学领域中的复杂问题。
近来,已经存在来自工业部门的新兴的兴趣来使计算机系统不仅分析大量的相关信息(Ferrucci等,2010),而且还提供直观的用户接口来以交互式的对话方式、用自然语言提出问题(Sonntag 2009;Waltinger、Breuing和Wachsmuth 2012)。
问题回答的若干工业应用已经提起了关于问题回答作为有效方式来与系统交互的兴趣和认知:IBM Watson的Jeopardy挑战(Ferrucci等,2010)示出了能够准确地并且成规模地完成开放域QA。以Mathematica为中心的Wolfram Alpha的知识引擎是Apple的Siri后的引擎,其已经证明是用于移动设备的成功交互介质。
因此,本发明的目的是改进对自然语言问题的自动回答。
发明内容
根据第一方面,提供了一种用于使用多个所选的数据库来回答自然语言问题的自然语言问题回答设备。所述自然语言问题回答设备包括候选搜索实体、假说(hypthesis)生成实体、假说排列(ranking)实体以及知识库路由实体。
候选搜索实体被配置成提供针对所接收的自然语言问题的信息单元的多个面向三分法(trichotomy-oriented)的表示,其中面向三分法的表示中的每一个包括用于面向三分法的表示的知识库特定的概念、概念实例、概念实例关系以及概率值。
假说生成实体被配置成生成关于在概念、概念实例和概念实例关系之间的链接的多个假说。
假说排列实体被配置成基于用所生成的假说来查询辅知识库以及面向三分法的表示的概率值而对所生成的假说进行排列。
知识库路由实体被配置成基于经排列的假说而从多个可用的知识库中选择多个知识库。
借助于用于输入的问题的信息单元的本面向三分法的表示以及关于其链接的随后的假说,对所述辅知识库、特别是不同的辅知识库进行查询得以改进。
本自然语言问题回答设备(在下文中也为:设备)的总体语义原理是在概念、实例以及连接它们的关系的表示内的三分法。也就是说,给定输入的问题,所述设备的目的首先在于标识表示领域特定的或数据库特定的概念的那些信息单元,并且然后第二是表示该概念的关联值或实例的信息条目。第三,所述设备目标在于检测在所标识的对象之间是否存在关系,即概念实例关系。
本三分法方法是有益的,因为由设备消耗的数据可以附加地包括(半)结构化键值(key-value)关联,其被存储在多个数据库视图内,例如多个oracle数据库视图。考虑到半结构属性,因为所考虑的信息单元不仅是单个日期、数字、温度或实体,而且还是整个语句、短语或注释块。由于目标应用的面向数据库的性质,预期的回答类型还可以与传统的(大多地基于仿真陈述的(factoid-based))QA系统不同。更确切地,本设备(其也可以称作QA设备或QA系统)被提供为语义层,所述语义层连接并且操纵现有的查询接口以及相应的相关联的知识或数据库。所述设备的相应回答因而主要是基于列表的,其附加地涉及多个数据库表的联结。
根据实施例,自然语言问题回答设备的实体形成流水线或处理流水线。例如,候选搜索实体、假说生成实体、假说排列实体以及知识库路由实体耦合到彼此并且形成所述处理流水线。
例如,自然语言问题回答设备的处理流水线可以如下工作:每个输入的问题通过标识其语义概念表示而被处理。语义概念表示可以被定义为输入的问题的代表性表示。
随后,生成相应的解释签名(例如1968{日期(1968);数字(1968);……})。
在那之后,可以构造回答签名。回答签名包括回答类型(例如,直接的回答或基于SQL)、回答属性(例如,数值的、日期)以及其中可以找到回答的预期的数据库字段,例如,最确信的解释被选择并且组合成单独排列的回答签名。
基于单独的回答签名,所述设备构造回答文档(例如报告)、回答查询(例如,SQL语句)或产生直接的回答(例如仿真陈述回答短语),其最终被发送到输出组件。集成组件中的每一个可以产生用于存储单独的解释的置信度值。
在候选搜索实体内,所述设备目的在于标识和解析可能与彼此相互链接的不同概念。在面向三分法的表示之后,设备尝试搜索并且区分概念(称为回答字段(answerField)——例如PAC日期)、概念值实例(称为搜索字段(searchField)——例如操作)或已经扩充的键值对(称为领域字段(domainField)——例如,国家名称:中国)。另外,候选搜索实体可以给键值对之间的关系属性进行注解并且在查询内标识时间和日期参考。也就是说,每个时间参考,诸如表达式,可以由例如其在Oracle时间戳方面的时间值来进行注解。查询扩展模块可以查询SPARQL端点,其尝试收集单个实体的不同表面形式(例如GEvs.通用电气)。开放领域知识模块可以收集如在DBpedia数据集(Auer等,2008)内聚集的数据。对于每个对应的实体,UIMA注解器可以被合并在总体QA处理流水线中。
根据实施例,假说生成实体被配置成针对概念、概念实例和概念实例关系的每个可能的组合而生成一个假说。
作为该实施例的结果,借助于每个可能的假说,从知识库中收集附加信息。因而,用于回答输入的问题的查询得以改进。
假说生成实体可以生成不同的问题解释(即,问题可能意指什么的假说)。更确切地,基于候选搜索实体的输出,它生成对回答字段(概念)和搜索字段(实例)如何连接到彼此(例如直接或隐式)(关系)的不同假说:
con(序列号);rel(大于);ins(1968);
hypothesis1(con,rel,ins);
confidence1(hypothesis1,0.76);
因为每个概念和值可以被指派有多个表示,所述表示可以通过多种关系而连接(例如,日期或数字的文本表示),所以不同假说的列表可以变得非常复杂。
另外,假说生成实体可以还收集在问题的焦点以位置为目标的情况下需要应用的假说(关于例如地理推理)。基于RDF的开放主题文法收集关于回答问题可能需要的定义的假说。例如,给定诸如WP-VBZ-NE之类的模式,可以通过聚焦于具有用于定义回答的摘要(例如http://dbpedia.org/ontology/abstract)的实体类型而构造DBpedia查询。
根据另外的实施例,所生成的假说中的每一个包括概念的概念值、概念实例的概念实例值以及概念实例关系的值。
根据另外的实施例,所接收的自然语言问题的每一个信息单元包括自然语言问题的至少一个词、自然语言问题的词的序列和/或自然语言问题的词的聚合。
根据另外的实施例,假说排列实体被配置成基于用所生成的假说来查询辅知识库以及面向三分法的表示的概率值而向所生成的假说中的每一个指派置信度得分。假说排列实体还可以称为假说评分和排列实体。
假说排列实体可以使用从假说生成实体所生成的不同假说来指派置信度得分,所述置信度得分指示通过给定概念来表示给定表面(术语/短语)的概率。例如,短语“countryis not mx”被映射到country-name!= mexico OR country-code!= mx。
对于每个假说,设备可以尝试收集证据支持来使假说得以验证。在后一示例中,它连接到辅知识库的列表,从而将mx解析为可以通过标签mexico表示的可能的国家代码,不过国家需要被转换成国家代码或国家名称。另外,设备可以利用经学习的模型(被称作后模型)以对某些键值关联进行重新验证和重新排列。可以通过使用用户定义的数据库视图及其相关联的标签来训练这些模型。例如,用户可能已经以简单的查询语法的形式在所使用的数据库定义了视图:company(公司): siemens AND primary-fuel(主要燃料): coal(煤) AND turbine-status(涡轮机状态): st。基于这些数据查询,模型可以被训练以不仅执行对所生成的假说的基于置信度的消歧,而且还迭代地和自动地捕获如由能源专家所创作的领域知识。最后,在所有的置信度得分被指派到不同的假说之后,可以构建最终的解释对象以传递到知识库路由实体。
根据另外的实施例,知识库路由实体被配置成基于经排列的假说以及被指派给经排列的假说的置信度得分而从多个可用的知识库中选择多个知识库。
根据另外的实施例,知识库路由实体被配置成基于经排列的假说、被指派给排列假说的置信度得分以及经学习的模型而从多个可用的知识库中选择多个知识库。知识库路由实体还可以称为知识库路由器。
由于主知识库或源可以包括多个数据库视图以及Lucene索引,知识库路由实体可以检测和选择用于联结和查询的适当的数据源。也就是说,基于假说的经排列的置信度得分,它可以收集所涉及的数据源并且通过其分布(在所使用的假说的数目方面)及其相关联的置信度来对它们进行排列。在SQL语法方面,它检测要应用的不同的表的数据库联结的次序。另外,它检测是否必须组合结构化和/或非结构化数据源来回答问题。
根据另外的实施例,假说排列实体被配置成基于所指派的置信度得分而对所生成的假说进行排列。
根据另外的实施例,概念实例关系包括在概念和概念实例之间的关系和/或概念实例对概念的潜在引用。
根据另外的实施例,自然语言问题回答设备包括用于接收自然语言问题的输入分派器以及用于响应于所接收的自然语言问题而提供增强的问题的问题分析实体。增强的问题可以包括自然语言问题和对自然语言问题的多个注解。所述多个注解可以至少包括自然语言问题的信息单元。
问题分析实体可以使如通过输入分派器的输入流规范化。特别地,问题分析实体可以应用以下中的至少一个:
-问题规范化:分析基于括号的分组、解析如由引述所指示的多词单元。可以通过可配置的规则集来扩充另外的规范化。
-元数据注解:添加下游由安全性分派器组件所需要的诸如用户和会话密钥、在先选择的数据源限制、以及安全性约束之类的元数据信息。
-问题解析:作为问题分析中最传统的步骤,可以应用浅层解析。它包括词性还原(lemmatization)、流行标签(Pops-tagging)、命名实体识别以及消歧、句法块以及使用基于UIMA的Cleat(夹板)注解器(Ogre、Wetzel和Bethard 2008)结合Stanford核NLP 9的相关性解析树。
-分析验证:可以使用该步骤,因此设备可以处置领域特定的输入术语,诸如产品号和序列码(例如,223/2 a39),其可能在浅层解析阶段内已经被错误地拆分、加标签、解析或串接。设备可以应用语法规则的列表,所述语法规则对实体信息进行重新验证。例如,可以存在八个规则,全部是领域特定的(例如,两个数字之间的x是用于在其之间的任何表述的通配符(例如25x3a1 7! 25A3a1;25B3a1;25C3a1)。
-问题分类:聚焦于回答签名的标识。也就是说,分析问题类型(例如仿真陈述或基于列表的)、表示模式(例如直接回答)、以及问题焦点(例如,所引用的实体对象)。后者通过应用如由(Schlaefer、Gieselman、和Sautter 2006)所提出的基于规则的方法来标识。例如,可以使用十二个句法规则(例如WP-VBZ-[NE/PER]序列指代PERSON(人员))。
对于每个对应的实体,UIMA注解器可以被开发并且并入,作为总体处理流水线中的问题分析实体。
根据另外的实施例,自然语言问题回答设备包括查询生成实体,其用于基于由问题分析实体所提供的增强的问题而生成查询以用于查询非结构化知识库和/或主知识库。
作为问题分析的结果,直接地分别访问单独的(经解析的)问题令牌以及对象是可能的。查询生成实体可以针对每个计及的输入对象参照特定的知识库查询语法而产生搜索查询。特别地,查询生成实体可以支持基于字典和基于规则表述的查找,而且还支持基于Apache Lucene、基于SparQl、和基于SQL的查询语法格式。
根据另外的实施例,候选搜索实体另外被配置成通过使用所生成的查询而查询非结构化知识库和/或主知识库来提供针对面向三分法的表示的概率值。
根据另外的实施例,自然语言问题回答设备包括验证实体,所述验证实体被耦合在候选搜索实体和假说生成实体之间。验证实体可以被配置成基于预学习的在先模型而验证面向三分法的表示。假说生成实体可以被配置成生成关于在经验证的面向三分法的表示的概念、概念实例和概念实例关系之间的链接的多个假说。此外,验证实体也可以称作软过滤实体。
软过滤可以被应用来检测和(预)验证由候选搜索实体所指派的不同的关系和对象。基于预学习的在先模型,第一关系(例如,搜索字段注解)被移除并且被引用到相应的查询问题令牌的不同的注解被初始排列(例如,与指代mille watt(千瓦特)相比,MW具有更高的概率为指代megawatt(兆瓦特))。软过滤实体可能是具有重要性的,因为不同的连接的知识库可以向输入问题的单个和多个术语指派多个不同的注解。
根据另外的实施例,假说排列实体被配置成基于用所生成的假说而查询辅知识库、基于面向三分法的表示的概率值、和基于后模型而对所生成的假说进行排列。
根据另外的实施例,自然语言问题回答设备包括查询翻译实体,其用于基于所生成的假说和所选数目的知识库来以代表性查询语言而构造最终查询。
根据另外的实施例,自然语言问题回答设备包括查询翻译、回答提取实体、回答管理器和/或安全性分派器,其在下文中被描述:
-查询翻译:查询翻译组件可以使用由后两个模块、即假说排列和知识库路由器所收集的信息来以代表性查询语言而构造最终的查询。特别地,设备可以并入四个不同的翻译模式。它自动地构造SQL、Apache Lucene、SparQL和Solution Object(解决方案对象)查询。后者是指与目标应用一起使用的领域特定的对象表示。另外,该组件还可以定义DB、RDF或Lucene列,在其中找到潜在的回答值。最终,它定义需要传播给用户的所谓的表示模式及其属性。例如,它指示是否已经在直接的仿真陈述方面生成回答,或者它指代基于列表的回答并且因此所生成的查询需要被执行以收集回答列表。
-回答提取:该组件聚焦于针对给定的输入问题的实际回答预计。也就是说,它要么关于明确的问题而应用仿真陈述过滤器,或者通过使用后推算和计算而应用回答后处理器。最终,基于所得到的回答模式(如果存在的话),直接回答或回答查询被传递到输出分派器。
-回答管理器:回答管理器协调在问题回答内的后端和前端通信。它借助于相应的表示模式(例如,SQL、SparQL或直接回答)而执行查询,并且将结果经由接口而传送到前端。另外,该组件可以提供关于回答的地理和统计可视化的多个web(网络)服务。
-安全性分派器:问题回答流水线可以连接到安全性分派器以验证用户既能够访问所要求的数据源以及也能够访问可能是回答的部分的特定数据项。安全性模型可以将用户划分成某些群组,并且每个这样的群组地指派基于行的访问。用户可以属于这样的群组中的一个或多个。
相应的实体(例如候选搜索实体或假说生成实体)可以以硬件和/或以软件来实现。如果所述实体以硬件来实现,则它可以体现为设备,例如体现为计算机或处理器或系统(例如计算机系统)的部分。如果所述实体以软件来实现,则它可以体现为计算机程序产品、函数、例程、程序代码或可执行对象。
第一方面的任何实施例可以与第一方面的任何实施例相组合以获得第一方面的另一实施例。
根据第二方面,建议了用于使用多个所选的知识库来回答自然语言问题的方法。
在第一步骤中,提供针对所接收的自然语言问题的信息单元的多个面向三分法的表示。每个面向三分法的表示包括针对面向三分法的表示的知识库特定的概念、概念实例、概念实例关系以及概率值。
在第二步骤中,生成关于在概念、概念实例和概念实例关系之间的链接的多个假说。
在第三步骤中,基于用所生成的假说而查询辅知识库以及面向三分法的表示的概率值而对所生成的假说进行排列。
在第四步骤中,基于经排列的假说而从多个可用的知识库中选择多个知识库。
根据第三方面,建议了一种计算机程序产品,其具有程序代码,所述程序代码当运行在至少一个计算机上时用于执行以上讨论的用于使用多个所选知识库而回答自然语言问题的方法。
计算机程序产品(比如计算机程序装置)可以体现为存储器卡、USB棒、CD-ROM、DVD或体现为可以从网络中的服务器下载的文件。例如,这可以通过从无线通信网络传递具有计算机程序产品的相应的文件来提供。
本发明的另外的目的、特征和优点将从结合附图理解的随后的描述和随附权利要求变得显而易见。
附图说明
图1示出了自然语言问题回答设备的第一实施例的示意性框图;
图2示出了面向三分法的表示的实施例的示意性框图;
图3示出了假说的实施例的示意性框图;
图4示出了自然语言问题回答设备的第二实施例的示意性框图;
图5示出了自然语言问题回答设备的第三实施例的示意性框图;以及
图6示出了用于使用多个所选的知识库而回答自然语言问题的方法的序列的实施例。
在图中,同样的参考标号指明同样的或功能上等同的元件,除非以其它方式进行指示。
具体实施方式
在图1中,描绘了用于使用多个所选知识库而回答自然语言问题NQ的自然语言问题回答设备100的第一实施例的示意性框图。
自然语言问题回答设备100包括候选搜索实体10、假说生成实体11、假说排列实体12以及知识库路由实体13。
候选搜索实体10被配置成提供针对所接收的自然语言问题NQ的信息单元的多个面向三分法的表示TR。每个面向三分法的表示TR包括针对面向三分法的表示TR的知识库特定的概念C、概念实例CI、概念实例关系R以及概率值PV。针对这样的面向三分法的表示TR的示例被示出在图2中。
根据图2的示例,概念实例关系R包括在概念C和概念实例CI之间的关系REL以及概念实例CI对概念C的潜在引用REF。
所接收的自然语言问题NQ的每个信息单元包括自然语言问题的至少一个词、自然语言问题的词的序列和/或自然语言问题的词的聚合。
此外,假说生成实体11接收面向三分法的表示TR并且被配置成生成关于在所接收的面向三分法的表示TR的概念C、概念实例CI和概念实例关系R之间的链接的多个假说H。
特别地,假说生成实体11针对所接收的自然语言问题NQ的面向三分法的表示TR的概念C、概念实例CI和概念实例关系R的每个可能的组合而生成一个假说H。每个所生成的假说H包括概念C的概念值CV、概念实例CI的概念实例值CIV以及概念实例关系R的值RV(参见图3)。
此外,假说排列实体12被配置成基于用所生成的假说H而查询辅知识库20以及面向三分法的表示TR的概率值PV而对所生成的假说H进行排列。
此外,假说排列实体12可以基于用所生成的假说H而查询辅知识库20以及面向三分法的表示TR的概率值PV来向每个所生成的假说H指派置信度得分CS。在这方面,假说排列实体12可以基于所指派的置信度得分CS来对所生成的假说H进行排列。
知识库路由实体13被配置成基于经排列的假说RH而从多个可用的知识库中选择多个知识库(知识库的子集)。由假说排列实体12输出经排列的假说RH。
特别地,知识库路由实体13被配置成基于经排列的假说RH以及被指派给经排列的假说RH的置信度得分CS来从多个可用的知识库中选择知识库的子集。
另外,知识库路由实体13可以使用经学习的模型以用于选择要使用的多个知识库。
图4示出了用于使用多个所选知识库来自动回答自然语言问题NQ的自然语言问题回答设备100的第二实施例。
如在第一实施例中那样,图4的设备100包括候选搜索实体10、假说生成实体11、假说排列实体12以及知识库路由实体13。
另外,图4的设备100包括输入分派器14、问题分析实体15、查询生成实体16、验证实体17、查询翻译实体18、回答提取实体19、辅知识库20、非结构化知识库21、主知识库22、回答响应组件31以及安全性分派器32。
另外,设备100包括问题回答实体130,所述问题回答实体130包括实体15-22。
输入分派器14接收自然语言问题NQ并且将它提供给问题分析实体15。问题分析实体15响应于所接收的自然语言问题NQ而提供增强的问题EQ。增强的问题EQ可以包括自然问题NQ和对自然语言问题NQ的多个注解。所述多个注解可以至少包括自然语言问题NQ的信息单元。
问题分析实体15耦合到查询生成实体16。查询生成实体16被配置成基于由问题分析实体15所提供的增强的问题EQ而生成查询QU,以用于查询非结构化知识库21以及主知识库22。
候选搜索实体10耦合到查询生成实体16并且被配置成通过使用所述生成的查询QU而查询非结构化知识库21和主知识库22来提供针对面向三分法的表示TR的概率值PV。
候选搜索实体10耦合到验证实体17。换言之,验证实体17耦合在候选搜索实体10和假说生成实体11之间。验证实体17被配置成基于预学习的在先模型34而验证面向三分法的表示TR。在这方面,假说生成实体11可以被配置成生成关于在经验证的面向三分法的表示TR的概念C、概念实例CI以及概念实例关系R之间的链接的多个假说H。
另外,假说排列实体12可以基于用所生成的假说H而查询辅知识库20以及面向三分法的表示TR的概率值PV来向每个所生成的假说H指派置信度得分CS。在这方面,假说排列实体12可以基于所指派的置信度得分CS并且使用后模型35来对所生成的假说H进行排列。
知识库路由实体13(知识库路由器)被配置成基于经排列的假说RH和被指派给经排列的假说RH的置信度得分CS而从多个可用的知识库中选择知识库的子集。
知识库路由实体13耦合到查询翻译实体18。查询翻译实体18被配置成使用由后两个实体(即假说排列实体12以及知识库路由实体13)所收集的信息。查询翻译实体18使用该信息来以代表性查询语言构造最终查询。例如,查询翻译实体18可以并入用于SQL、ApacheLucene、SparQL和Solution Object查询的四个不同的翻译模块。后者指代与目标应用一起使用的领域特定的对象表示。
另外,查询翻译实体18可以还定义DB、RDF或Lucence列,其中可以找到潜在的回答值。最后,查询翻译实体18可以定义需要传播给用户的所谓的表示模型及其属性。例如,它指示是否已经在直接仿真陈述的方面生成了回答,或者它指代基于列表的回答并且因此需要执行所生成的查询以收集回答列表。
查询翻译实体18耦合到回答提取实体19以及安全性分派器32。
回答提取实体19可以聚焦于针对给定的输入问题NQ的实际回答预计。也就是说,回答提取实体19要么关于明确的问题而应用于仿真陈述过滤器,或通过使用后推算和计算而应用回答后处理器。最终,基于所得到的回答模式(如果存在的话),直接回答或回答查询可以被传递到输出分派器或回答响应组件31。
回答响应组件31(或回答管理器)可以协调在问题回答实体33内的后端和前端通信。回答响应组件31可以借助于相应的表示模式(例如SQL、SparQL或直接回答)而执行查询,并且将结果经由接口而传送到前端。另外,回答响应组件31可以提供关于回答的地理和统计可视化的多个web服务。
如以上提及的,查询翻译实体18也耦合到安全性分派器32。因而,问题回答实体33的问题回答流水线连接到安全性分派器32,以验证用户既能够访问所要求的数据源以及也能访问可能是回答的部分的特定数据项。安全性分派器32可以使用安全性模型,所述安全性模型将用户划分成某些群组并且针对这样的群组而指派基于行的访问。用户可以属于这样的群组中的一个或多个。
图5示出了用于使用多个所选知识库而自动回答自然语言问题NQ的自然语言问题回答设备100的第三实施例的示意性框图。
如在图4的第二实施例中那样,根据图5的第三实施例的设备100包括输入分派器14、问题回答组件33(具有实体15-19以及可选地图4的实体34和35)、回答响应组件31以及安全性分派器32。输入分派器14、问题回答组件33、回答响应组件31以及安全性分派器32可以形成被耦合在输入级37和输出级38之间的流水线36。输入级37接收自然语言问题NQ并且输出级38向用户设备300提供由流水线36生成的回答。用户设备300借助于网络、即因特网或本地网络而耦合到设备100。此外,网络200耦合数据中心服务器400。
图6示出了用于使用多个所选知识库而回答自然语言问题NQ的方法步骤的序列的实施例。图6的方法包括以下步骤601-604:
在步骤601中,提供了针对所接收的自然语言问题NQ的信息单元的多个面向三分法的表示TR。每个面向三分法的表示TR包括针对面向三分法的表示TR的知识库特定的概念C、概念实例CI、概念实例关系R以及概率值PV。
在步骤602中,生成关于在概念C、概念实例CI和概念实例关系R之间的链接的多个假说H。
在步骤603中,基于用所生成的假说H而查询辅知识库以及面向三分法的表示TR的概率值PV而对所生成的假说H进行排列。
在步骤604中,基于排列假说RH而选择来自多个可用的知识库的多个知识库(子集)。
尽管已经根据优选实施例而描述了本发明,对于本领域技术人员而言明显的是,在所有实施例中修改都是可能的。
参考标号
100:自然语言问题回答设备
10:候选搜索实体
11:假说生成实体
12:假说排列实体
13:知识库路由实体
14:输入分派器
15:问题分析实体
16:查询生成实体
17:验证实体
18:查询翻译实体
19:回答提取实体
20:辅知识库
21:非结构化知识库
22:主知识库
31:回答响应组件
32:安全性分派器
33:问题回答实体
34:在先模型
35:后模型
36:流水线
37:输入级
38:输出级
200:网络
300:用户设备
400:数据中心服务器
601-604: 方法步骤
C 知识库特定的概念
CI 概念实例
CIV 概念实例值
CS 置信度得分
CV 概念值
EN 增强的问题
H 假说
NQ 自然语言问题
PV 概率值
R 概念实例关系
RH 经排列的假说
SB 所选知识库
TR 面向三分法的表示
QU 查询
RV 概念实例关系的值
Claims (15)
1.一种用于使用多个所选知识库而回答自然语言问题(NQ)的自然语言问题回答设备(100),所述设备(100)包括:
候选搜索实体(10),其用于提供针对所接收的自然语言问题(NQ)的信息单元的多个面向三分法的表示(TR),其中每个面向三分法的表示(TR)包括针对面向三分法的表示(TR)的知识库特定的概念(C)、概念实例(CI)、概念实例关系(R)以及概率值(PV),
假说生成实体(11),其用于生成关于在知识库特定的概念(C)、概念实例(CI)以及概念实例关系(R)之间的链接的多个假说(H),
假说排列实体(12),其用于基于用所生成的假说(H)而查询辅知识库以及面向三分法的表示(TR)的概率值(PV)来对所生成的假说(H)进行排列,以及
知识库路由实体(13),其用于基于经排列的假说(RH)而从多个可用的知识库中选择多个知识库。
2.根据权利要求1所述的设备,其中假说生成实体(11)被配置成针对知识库特定的概念(C)、概念实例(CI)以及概念实例关系(R)的每个可能的组合而生成一个假说(H)。
3.根据权利要求1所述的设备,其中每个所生成的假说(H)包括知识库特定的概念(C)的概念值(CV)、概念实例(CI)的概念实例值(CIV)以及概念实例关系(R)的值(RV)。
4.根据权利要求1所述的设备,其中所接收的自然语言问题(NQ)的每个信息单元包括自然语言问题(NQ)的至少一个词、自然语言问题(NQ)的词的序列和/或自然语言问题(NQ)的词的聚合。
5.根据权利要求1所述的设备,其中假说排列实体(12)被配置成基于用所生成的假说(H)而查询辅知识库(20)以及面向三分法的表示(TR)的概率值(PV)而向每个所生成的假说(H)指派置信度得分(CS)。
6.根据权利要求5所述的设备,其中知识库路由实体(13)被配置成基于经排列的假说(RH)和被指派给经排列的假说(RH)的置信度得分(CS)而从多个可用的知识库中选择多个知识库。
7.根据权利要求5所述的设备,其中知识库路由实体(13)被配置成基于经排列的假说(RH)、被指派给经排列的假说(RH)的置信度得分(CS)和经学习的模型而从多个可用的知识库中选择多个知识库。
8.根据权利要求5所述的设备,其中假说排列实体(12)被配置成基于所指派的置信度得分(CS)而对所生成的假说(H)进行排列。
9.根据权利要求1所述的设备,其中概念实例关系(R)包括在知识库特定的概念(C)和概念实例(CI)之间的关系(REL)和/或概念实例(CI)对知识库特定的概念(C)的潜在引用(REF)。
10.根据权利要求1所述的设备,还包括:
用于接收自然语言问题(NQ)的输入分派器(14),以及用于响应于所接收的自然语言问题(NQ)而提供增强的问题(EQ)的问题分析实体(15),其中增强的问题(EQ)包括自然语言问题(NQ)和对自然语言问题(NQ)的多个注解,其中所述多个注解至少包括自然语言问题(NQ)的信息单元。
11.根据权利要求10所述的设备,还包括:
查询生成实体(16),其用于基于由问题分析实体(15)所提供的增强的问题(EQ)来生成查询(QU),以用于查询非结构化知识库(21)和/或主知识库(22)。
12.根据权利要求11所述的设备,其中候选搜索实体(10)还被配置成通过使用所生成的查询(QU)来查询非结构化知识库(21)和/或主知识库(22)而提供针对面向三分法的表示(TR)的概率值(PV)。
13.根据权利要求12所述的设备,还包括:
验证实体(17),其被耦合在候选搜索实体(10)和假说生成实体(11)之间,其中验证实体(17)被配置成基于预学习的在先模型(34)而验证面向三分法的表示(TR),其中假说生成实体(11)被配置成生成关于在经验证的面向三分法的表示(TR)的知识库特定的概念(C)、概念实例(CI)和概念实例关系(R)之间的链接的多个假说(H)。
14.根据权利要求1所述的设备,还包括:
查询翻译实体(18),其用于基于所生成的假说(H)以及所选数目的知识库而以代表性查询语言来构造最终查询。
15.一种用于使用多个所选知识库来回答自然语言问题(NQ)的方法,所述方法包括:
提供(601)针对所接收的自然语言问题(NQ)的信息单元的多个面向三分法的表示(TR),其中每个面向三分法的表示(TR)包括针对面向三分法的表示(TR)的知识库特定的概念(C)、概念实例(CI)、概念实例关系(R)以及概率值(PV),
生成(602)关于在知识库特定的概念(C)、概念实例(CI)和概念实例关系(R)之间的链接的多个假说(H),
基于用所生成的假说(H)而查询辅知识库(20)以及面向三分法的表示(TR)的概率值(PV)而对所生成的假说(H)进行排列(603),以及
基于经排列的假说(RH)而从多个可用的知识库中选择(604)多个知识库。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361817286P | 2013-04-29 | 2013-04-29 | |
US61/817286 | 2013-04-29 | ||
PCT/EP2014/053862 WO2014177301A1 (en) | 2013-04-29 | 2014-02-27 | Device and method for answering a natural language question using a number of selected knowledge bases |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105144205A CN105144205A (zh) | 2015-12-09 |
CN105144205B true CN105144205B (zh) | 2018-05-08 |
Family
ID=50193476
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480024762.3A Active CN105144205B (zh) | 2013-04-29 | 2014-02-27 | 使用多个所选知识库来回答自然语言问题的设备和方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10095727B2 (zh) |
EP (2) | EP2962256A1 (zh) |
CN (1) | CN105144205B (zh) |
WO (2) | WO2014177302A1 (zh) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10303798B2 (en) * | 2014-12-18 | 2019-05-28 | Nuance Communications, Inc. | Question answering from structured and unstructured data sources |
US10783159B2 (en) | 2014-12-18 | 2020-09-22 | Nuance Communications, Inc. | Question answering with entailment analysis |
US10628521B2 (en) * | 2015-08-03 | 2020-04-21 | International Business Machines Corporation | Scoring automatically generated language patterns for questions using synthetic events |
US10628413B2 (en) * | 2015-08-03 | 2020-04-21 | International Business Machines Corporation | Mapping questions to complex database lookups using synthetic events |
US10318528B2 (en) | 2016-02-25 | 2019-06-11 | Microsoft Technology Licensing, Llc | Query response using mapping to parameterized report |
US9720981B1 (en) * | 2016-02-25 | 2017-08-01 | International Business Machines Corporation | Multiple instance machine learning for question answering systems |
CN108287848B (zh) * | 2017-01-10 | 2020-09-04 | 中国移动通信集团贵州有限公司 | 用于语义解析的方法和系统 |
CN108509463B (zh) | 2017-02-28 | 2022-03-29 | 华为技术有限公司 | 一种问题的应答方法及装置 |
GB201804807D0 (en) * | 2018-03-26 | 2018-05-09 | Orbital Media And Advertising Ltd | Interaactive systems and methods |
CN108920488B (zh) * | 2018-05-14 | 2021-09-28 | 平安科技(深圳)有限公司 | 多系统相结合的自然语言处理方法及装置 |
US20210004485A1 (en) * | 2019-07-01 | 2021-01-07 | International Business Machines Corporation | Cognitive Iterative Minimization of Personally Identifiable Information in Electronic Documents |
CN112347222B (zh) * | 2020-10-22 | 2022-03-18 | 中科曙光南京研究院有限公司 | 一种基于知识库推理的将非标准地址转换为标准地址的方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101097573A (zh) * | 2006-06-28 | 2008-01-02 | 腾讯科技(深圳)有限公司 | 一种自动问答系统及方法 |
CN101118554A (zh) * | 2007-09-14 | 2008-02-06 | 中兴通讯股份有限公司 | 智能交互式问答系统及其处理方法 |
CN102236677A (zh) * | 2010-04-28 | 2011-11-09 | 北京大学深圳研究生院 | 一种基于问答系统的信息匹配方法及系统 |
CN102270199A (zh) * | 2010-06-02 | 2011-12-07 | 深圳市腾讯计算机系统有限公司 | 一种信息的筛选方法和设备 |
US8156060B2 (en) * | 2008-02-27 | 2012-04-10 | Inteliwise Sp Z.O.O. | Systems and methods for generating and implementing an interactive man-machine web interface based on natural language processing and avatar virtual agent based character |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6980976B2 (en) * | 2001-08-13 | 2005-12-27 | Oracle International Corp. | Combined database index of unstructured and structured columns |
US8015143B2 (en) * | 2002-05-22 | 2011-09-06 | Estes Timothy W | Knowledge discovery agent system and method |
US20040093331A1 (en) * | 2002-09-20 | 2004-05-13 | Board Of Regents, University Of Texas System | Computer program products, systems and methods for information discovery and relational analyses |
US20040167870A1 (en) * | 2002-12-06 | 2004-08-26 | Attensity Corporation | Systems and methods for providing a mixed data integration service |
US8554596B2 (en) * | 2006-06-05 | 2013-10-08 | International Business Machines Corporation | System and methods for managing complex service delivery through coordination and integration of structured and unstructured activities |
US7660793B2 (en) * | 2006-11-13 | 2010-02-09 | Exegy Incorporated | Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors |
US8290951B1 (en) * | 2008-07-10 | 2012-10-16 | Bank Of America Corporation | Unstructured data integration with a data warehouse |
US20100228794A1 (en) * | 2009-02-25 | 2010-09-09 | International Business Machines Corporation | Semantic document analysis |
US8250026B2 (en) * | 2009-03-06 | 2012-08-21 | Peoplechart Corporation | Combining medical information captured in structured and unstructured data formats for use or display in a user application, interface, or view |
US9037615B2 (en) * | 2010-05-14 | 2015-05-19 | International Business Machines Corporation | Querying and integrating structured and unstructured data |
US8396894B2 (en) * | 2010-11-05 | 2013-03-12 | Apple Inc. | Integrated repository of structured and unstructured data |
US20140039968A1 (en) * | 2012-08-06 | 2014-02-06 | Sap Ag | Integration of modeled collaboration stream in business process flow |
-
2014
- 2014-02-27 US US14/785,897 patent/US10095727B2/en not_active Expired - Fee Related
- 2014-02-27 EP EP14707729.1A patent/EP2962256A1/en not_active Ceased
- 2014-02-27 WO PCT/EP2014/053865 patent/WO2014177302A1/en active Application Filing
- 2014-02-27 CN CN201480024762.3A patent/CN105144205B/zh active Active
- 2014-02-27 EP EP14707730.9A patent/EP2992482A1/en not_active Ceased
- 2014-02-27 WO PCT/EP2014/053862 patent/WO2014177301A1/en active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101097573A (zh) * | 2006-06-28 | 2008-01-02 | 腾讯科技(深圳)有限公司 | 一种自动问答系统及方法 |
CN101118554A (zh) * | 2007-09-14 | 2008-02-06 | 中兴通讯股份有限公司 | 智能交互式问答系统及其处理方法 |
US8156060B2 (en) * | 2008-02-27 | 2012-04-10 | Inteliwise Sp Z.O.O. | Systems and methods for generating and implementing an interactive man-machine web interface based on natural language processing and avatar virtual agent based character |
CN102236677A (zh) * | 2010-04-28 | 2011-11-09 | 北京大学深圳研究生院 | 一种基于问答系统的信息匹配方法及系统 |
CN102270199A (zh) * | 2010-06-02 | 2011-12-07 | 深圳市腾讯计算机系统有限公司 | 一种信息的筛选方法和设备 |
Non-Patent Citations (1)
Title |
---|
"Building Watson: An Overview of the Deep QA Project";David Ferrucci etal.;《AI Magazine》;20100930;第59-79页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105144205A (zh) | 2015-12-09 |
US10095727B2 (en) | 2018-10-09 |
WO2014177301A1 (en) | 2014-11-06 |
WO2014177302A1 (en) | 2014-11-06 |
EP2962256A1 (en) | 2016-01-06 |
EP2992482A1 (en) | 2016-03-09 |
US20160098441A1 (en) | 2016-04-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105144205B (zh) | 使用多个所选知识库来回答自然语言问题的设备和方法 | |
US11720863B2 (en) | Method and system for generating vehicle service content | |
Fensel et al. | Knowledge graphs | |
US10157347B1 (en) | Adaptable systems and methods for processing enterprise data | |
CN109240901B (zh) | 性能分析方法、性能分析装置、存储介质和电子设备 | |
CN101118554A (zh) | 智能交互式问答系统及其处理方法 | |
Jabbar et al. | A methodology of real-time data fusion for localized big data analytics | |
CN103124980A (zh) | 包括从多个文档段收集答案的提供问题答案 | |
US20160180237A1 (en) | Managing a question and answer system | |
CN108959433A (zh) | 一种从软件项目数据中提取知识图谱并问答的方法与系统 | |
US20140108313A1 (en) | Ranking in cascading learning system | |
Fleischhacker et al. | Mining RDF data for property axioms | |
US10242320B1 (en) | Machine assisted learning of entities | |
CN116244418B (zh) | 问题解答方法、装置、电子设备及计算机可读存储介质 | |
CN103229120A (zh) | 使用假设剪枝提供问题答案 | |
US10558707B2 (en) | Method for discovering relevant concepts in a semantic graph of concepts | |
CN103229162A (zh) | 使用候选答案逻辑综合提供问题答案 | |
CN103229223A (zh) | 使用多个候选答案评分模型提供问题答案 | |
CN111625554B (zh) | 一种基于深度学习语义理解的数据查询方法及装置 | |
Zaiß | Instance-based ontology matching and the evaluation of matching systems. | |
CN112579600A (zh) | 一种基于车载问答的数据处理方法和装置 | |
EP3945433A1 (en) | System and method for facilitating engineering of an industrial system | |
CN113434658A (zh) | 火电机组运行问答生成方法、系统、设备及可读存储介质 | |
Abrosimova et al. | The ontology-based event mining tools for monitoring global processes | |
CN102521239B (zh) | 一种基于owl的互联网问答信息匹配系统及其匹配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |