CN103124980B - 包括从多个文档段收集答案的提供问题答案 - Google Patents

包括从多个文档段收集答案的提供问题答案 Download PDF

Info

Publication number
CN103124980B
CN103124980B CN201180045729.5A CN201180045729A CN103124980B CN 103124980 B CN103124980 B CN 103124980B CN 201180045729 A CN201180045729 A CN 201180045729A CN 103124980 B CN103124980 B CN 103124980B
Authority
CN
China
Prior art keywords
document
group
candidate answers
prerequisite
annotation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201180045729.5A
Other languages
English (en)
Other versions
CN103124980A (zh
Inventor
E·W·布朗
J·舒-卡罗尔
D·A·弗鲁茨
J·W·默多克四世
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN103124980A publication Critical patent/CN103124980A/zh
Application granted granted Critical
Publication of CN103124980B publication Critical patent/CN103124980B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B34/00Computer-aided surgery; Manipulators or robots specially adapted for use in surgery
    • A61B34/10Computer-aided planning, simulation or modelling of surgical operations
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2428Query predicate definition using graphical user interfaces, including menus and forms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/134Hyperlinking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/027Frames
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

一种用于生成问题答案的方法、系统和计算机程序产品。在一个实施例中,所述方法包括:接收输入查询;标识所述查询的多个候选答案;以及对于这些候选答案中的至少一个,标识所述答案的至少一个证据。此证据包括一系列前提,并标识包括对所述前提的引用的多个文档。选择一组包括对所有所述前提的引用的这些文档。使用该组文档生成所述候选答案之一的一个或多个分数。向所述候选答案应用定义的过程以确定所述答案的排序,并且这包括在所述定义的过程中使用至少一个所述候选答案的所述一个或多个分数来确定所述一个候选答案的排序。

Description

包括从多个文档段收集答案的提供问题答案
相关申请的交叉引用
本申请要求2010年9月24日提交的第61/386,051号美国临时专利申请的优先权,此临时专利申请的公开内容在此全部引入作为参考。
技术领域
本发明一般地涉及信息检索,具体地说,涉及从多个文档收集答案。更具体地说,本发明的实施例涉及问答系统和方法,它们实现并行分析以提供问题答案并且其中可以从多个文档收集候选答案。
背景技术
一般来说,问答(QA)是一种类型的信息检索。给定文档集合(例如万维网或本地集合),QA系统应能够检索以自然语言提出的问题的答案。QA被视为需要比其它类型的信息检索(例如文档检索)更复杂的自然语言处理(NLP)技术,并且QA有时被视为超越搜索引擎的后续步骤。
QA研究试图处理各种问题类型,包括:事实、列举、定义、方式、原因、假设、语义约束和跨语言问题。搜索集合有所不同,从小型本地文档集合到内部组织文档,到编辑后的新闻专线报道,到万维网。
闭域问答在特定领域(例如,医学或汽车维修)下处理问题,并且可以被视为更容易的任务,因为NLP系统可以利用通常以本体形式化的领域特定的知识。备选地,闭域可能指这样一种情况:其中仅接受有限类型的问题,例如询问描述性信息而不是过程信息的问题。开域问答处理有关几乎任何事物的问题,并且只能依赖于通用本体和世界知识。然而,开域Q/A系统通常具有可从其中提取答案的更多数据。
对信息的访问目前由两个范例所主导:数据库查询,其回答有关结构化记录集合中的内容的问题;以及搜索,其响应于针对非结构化数据(文本、html等)集合的查询而提供文档链接集合。
此类信息查询范例的一个主要难题是提供能够根据大型文档集合(所有类型,结构化和非结构化)中包括的信息来回答实际问题的计算机程序。此类问题的范围可以从宽泛(例如“whataretheriskofvitaminKdeficiency(维生素E缺乏的危害是什么)”)到狭窄(例如“whenandwherewasHillaryClinton’sfatherborn(希拉里·克林顿的父亲出生在何时何地)”)。
与此类计算机程序的用户交互可以是单次用户-计算机交换或是用户和计算机系统之间的多轮对话。此类对话可以涉及一种或多种形态(文本、语音、触觉、手势等)。此类交互的实例包括这样一种情况:其中手机用户使用语音询问问题并且以语音、文本和图像的组合接收答案(例如具有文本覆盖和语音(计算机生成的)解释的地图)。另一个实例将是用户与视频游戏交互并且使用机器可识别的手势拒绝或接受答案,或者计算机生成触觉输出以引导用户。
构建此类计算机系统的难题是理解查询,查找可能包含答案的适当文档,以及提取要提供给用户的正确答案。目前,理解查询是一个未解决的问题,因为计算机没有理解自然语言的人类能力,它们也不具备从当前(非常初级的)自然语言理解系统可产生的许多可能解释中进行选择的常识。
能够在一个或多个对话回合中回答实际查询具有巨大的潜在价值,因为它允许实时访问准确的信息。例如,问答领域的发展具有重大业务价值,因为它提供业务、其竞争对手、经济状况等的实时视图。即使QA处于最初级的形式,它也可以使信息工作者的生产力提高几个数量级。
第12/152,441号美国专利申请(其公开内容在此全部引入作为参考)描述了一种QA系统,其涉及生成候选答案以及从候选答案集合中选择最终答案(或对最终答案列表进行排序)。
当前信息检索和问答系统试图通过标识最可能包含相关信息的单个文档段(例如,整个文档、一个或多个句子的连续序列,或单个词组)来满足用户的信息需求。然而,许多信息需求无法通过单个文档段来满足。
发明内容
本发明的实施例提供了一种用于生成问题答案的方法、系统和计算机程序产品。在一个实施例中,所述方法包括:接收输入查询;在一个或多个数据源中进行搜索以标识所述输入查询的多个候选答案;以及对于至少一个所述候选答案,标识所述候选答案的至少一个证据,所述证据包括用于确定所述每个证据的一系列前提。标识包括对所述前提的引用的多个文档,并且选择一组这些文档,其作为一个集合而言包括对所有所述前提的引用。使用此选定的一组文档生成所述至少一个候选答案的一个或多个分数。在所述方法中,向所述多个候选答案应用定义的过程以确定每个所述候选答案的排序,并且这包括在所述定义的过程中使用所述至少一个候选答案的所述一个或多个分数来确定所述至少一个候选答案的排序。
在一个实施例中,使用定义的算法选择所述一组文档以标识一组准最小文档。
在一个实施例中,使用定义的算法选择所述一组文档以标识具有包括对所有所述前提的引用所需的最小数量文档的一组文档。
在一个实施例中,所述多个文档中的每个文档均包括对给定数量的所述前提的引用,并且按照每个所述文档中引用的所述前提的数量的顺序来选择所述组的文档。
在一个实施例中,所述多个文档中的每个文档均包括对给定数量的所述前提的引用,并且按照每个所述文档中引用的所述前提的数量的顺序来选择所述组的文档。
在一个实施例中,根据每个所述文档中引用的所述前提的数量选择所述一组文档。
本发明的实施例提供了一种用于建立文档索引的方法和系统。在一个实施例中,所述方法包括:对于每个所述文档,使用实体类型对所述每个文档中引用实体的文本跨度进行注释以形成实体注释,以及使用事实类型对所述每个文档中引用事实的文本跨度进行注释以形成关系注释。所述方法还包括:对于引用所述事实中的一个事实的每个所注释的文本跨度,将所述事实中的所述一个事实链接到所述每个注释;以及在索引中记录所述实体、所述事实、引用所述实体的注释以及引用所述事实的注释。
在一个实施例中,所述方法还包括:确定所述实体注释中的哪些实体注释引用同一事实;以及确定所述关系注释中的哪些关系注释引用同一事实。
在一个实施例中,所述方法还包括使用所述索引来标识输入查询的候选答案。一个实施例还包括使用所述索引中的事实和实体来标识所述候选答案的证据。
本发明的实施例提供了一种用于检索文档的系统和方法。在一个实施例中,所述系统包括:计算机设备,所述计算机设备包括至少一个不同软件模块,每个不同软件模块包含在有形计算机可读介质中;存储器;以及至少一个处理器,所述处理器耦合到所述存储器。所述处理器可操作以执行以下步骤:在给定索引内进行搜索以标识来自用户的输入查询的候选答案;标识所述候选答案的至少一个证据,所述证据包括一系列前提;以及在所述索引内进行搜索以标识包括对所述一个证据的所述前提的引用的多个文档。选择一组文档,其作为一个集合而言包括对所有所述前提的引用,并将所述一组文档返回给所述用户。
在一个实施例中,使用定义的算法标识一组准最小文档。
在一个实施例中,使用定义的算法标识具有包括对所有所述前提的引用所需的最小数量文档的一组文档。
在一个实施例中,所述多个文档中的每个文档均包括对给定数量的所述前提的引用,并且按照每个所述文档中引用的所述前提的数量的顺序来选择所述一组文档。
在一个实施例中,所述处理器向各组文档应用定义的算法以便将所述各组文档中的一个或多个标识为多组准最小文档,并且将所述各组准最小文档中的一个或多个返回给所述用户。
附图说明
在下面给出的本发明的具体实施方式的上下文中理解本发明的目标、特性和优点。在附图的上下文中理解本发明的具体实施方式,所述附图形成本公开的重要部分,这些附图是:
图1是示出本发明的一个实施例的高级逻辑架构和问/答方法的系统示意图;
图2示出了图1的架构的变型,其中证据收集模块包括两个子模块:支持段落检索和候选答案评分;
图3示出了图1的查询分析模块和候选答案生成模块的更详细的示意图;
图4示出了图1和2的候选答案评分模块和答案排序模块的更详细的示意图;
图5是示出根据本发明的一个实施例的用于处理问题并提供答案的方法步骤的实例流程图;
图6示出了根据本发明的一个实施例的用于建立文档索引的过程;
图7示出了根据本发明的一个实施例的用于回答问题并标识一组支持文档的过程;
图8示出了用于提供一种类型的分析引擎以处理CAS数据结构的UIMA框架实施方式的一个方面。
具体实施方式
如在此所使用的,单词“问题”和“查询”及其扩展可以互换使用并且指同一概念,即对信息的请求。此类请求通常以疑问句表示,但它们也可以以其它形式表示,例如表示为提供感兴趣实体的描述的陈述句(其中可以从上下文推断对实体身份的请求)。“结构化信息”(来自“结构化信息源”)在此被定义为其本意明确并显式地以数据的结构或格式表示的信息(例如,数据库表)。“非结构化信息”(来自“非结构化信息源”)在此被定义为其本意仅由其内容暗示的信息(例如,自然语言文档)。“半结构化信息”指其某些含义显式地以数据的格式表示的数据,例如文档的一部分可以被标记为“标题”。
图1是示出本发明的一个实施例的高级逻辑架构10和方法的系统示意图。如图1中所示,架构10包括查询分析模块20,其实现如下功能:接收和分析用户查询或问题。根据本发明的一个实施例,“用户”指与系统交互的一个或多个人员,术语“用户查询”指用户提出的查询(及其上下文)19。然而将理解,可以构造其它实施例,其中术语“用户”指通过机械手段生成查询的计算机系统22,并且其中术语“用户查询”指此类以机械方式生成的查询及其上下文19’。提供候选答案生成模块30以便通过遍历主源模块11和答案源知识库模块21(其包含从主源提取的关系和列表集合)中包含的结构化、半结构化和非结构化源而实现对候选答案的搜索。所有信息源可以在本地存储或通过包括因特网在内的网络分发。候选答案生成模块30根据对所检索的数据的分析,生成多个包含候选答案的输出数据结构。在图1中,示出了一个包括证据收集模块50的实施例,模块50与主源11和知识库21通过接口连接以便作为并行处理操作而同时根据具有候选答案的段落分析证据并对每个候选答案进行评分。
在一个实施例中,可以采用所述架构,从而利用通用分析系统(CAS)候选答案结构并实现支持段落检索,如在下文更详细描述的那样。图2中示出了此过程,其中证据收集模块50包括支持段落检索40A和候选答案评分40B作为单独处理模块,以便作为并行处理操作而同时分析段落并对每个候选答案进行评分。答案源知识库21可以包括一个或多个包含关系集合的结构化或半结构化源(预先计算或以其他方式)数据库(例如,类型化列表)。在一个实例实施方式中,答案源知识库可以包括存储在存储器存储系统(例如,硬盘驱动器)中的数据库。答案排序模块60提供功能以便对候选答案进行排序并确定响应99,响应99经由用户的计算机显示接口(未示出)或计算机系统22返回给用户。所述响应可以是答案,或先前答案的详细描述,或对响应于问题的澄清的请求—当未找到高质量的问题答案时。
将理解,技术人员可以根据但不限于文本、音频、视频、手势、触觉输入和输出等形态对图1中示出的系统实现进一步扩展,以便采用一个或多个模块以在用户或计算机系统和系统10之间实现I/O通信。因此,在一个实施例中,可以根据包括文本、音频、图像、视频、触觉或手势在内的多种形态中的一种或多种来提供输入查询和生成的查询响应。
图1和2中示出的处理可以在本地、在服务器或服务器群集上、在企业中,或者备选地,可以是分布式或整体式,或以其他方式与公用或私用搜索引擎结合运行,以便以所描述的方式增强问答功能。因此,本发明的实施例可以作为包括可由处理设备执行的指令的计算机程序产品提供,或在包括可由处理设备执行的指令的计算机程序产品中提供,或作为部署所述计算机程序产品的服务提供。所述架构采用搜索引擎(文档检索系统)作为候选答案生成模块30的一部分,模块30可以专用于因特网、公用数据库、网站(例如,IMDB.com)或私用数据库。数据库可以存储在任何存储系统(例如,硬盘驱动器或闪存)中,并且可以通过网络分发或不分发。
如上所述,本发明的实施例使用通用分析系统(CAS),其为非结构化信息管理架构(UIMA)的子系统,可处理各种UIMA组件(例如分析引擎和非结构化信息管理应用)之间的数据交换。CAS通过独立于编程语言的类型系统支持数据建模,通过强大的索引机制提供数据访问,并支持针对文本数据创建注释,例如在(http://www.research.ibm.com/journal/sj/433/gotz.html)中描述的(在此引入作为参考)。CAS还允许针对文档及其注释之间的链接进行多个定义,因为这对分析图像、视频或其它非文本形态有用。
在一个实施例中,UIMA可以作为中间件提供,以便对各种信息源中的非结构化信息进行有效管理和交换。所述架构通常包括搜索引擎、数据存储器、包含流水线文档注释器和各种适配器的分析引擎。可以使用UIMA系统、方法和计算机程序生成输入查询的答案。所述方法包括输入文档并运行至少一个文本分析引擎,所述文本分析引擎包括多个耦合的注释器以便标记文档数据以及标识并注释特定类型的语义内容。因此,它可以用于分析问题并从文档集合提取实体作为可能的问题答案。
在一个非限制性实施例中,按照第7,139,752号美国专利(其所有内容和公开内容在此全部引入作为参考)中描述的那样实现通用分析系统(CAS)数据结构形式。
如在图3的更详细逻辑架构图中更详细示出的那样,“查询分析”模块20接收输入,所述输入包括例如由用户通过其基于web的浏览器设备输入的查询19。输入查询19可以包括诸如“WhowasthetallestAmericanpresident?(谁是最高的美国总统?)”之类的字符串。备选地,问题可以包括字符串和隐式上下文,例如,“Whowastheshortest?(谁最矮?)”。在此实例中,上下文的范围可以从另一个简单的字符串(例如,“Americanpresidents(美国总统)”或□howasthetallestAmericanpresident??(谁是最高的美国总统??))到任何数据结构,例如处理先前字符串的所有中间结果—例如在多回合对话中发生的情况。查询分析模块20接收所述输入查询,模块20包括但不限于以下一个或多个子过程:解析和谓词论元(argument)结构块202;焦点段、焦点和修饰语块204;词法答案类型块206;问题分解块208;词法和语义关系模块210;问题分类器块212;以及问题难度模块214。
解析和谓词论元结构块202实现用于如下操作的功能和编程接口:将输入查询分解为其语法和语义成分,例如,名词词组、动词词组和谓词/论元结构。可以使用(英语槽语法)ESG类型解析器实现块202。提供焦点段、焦点和修饰语块204以便计算所述问题的焦点和焦点修饰语,此块将在下面进一步描述。词法答案类型(LAT)块206实现用于如下操作的功能和编程接口:提供有关答案类型(词法)的附加约束,如在下文更详细描述的那样。问题分解块208实现用于如下操作的功能和编程接口:分析输入问题以确定所述问题指定的有关目标答案的多组约束。可以通过几种方式使这些约束彼此相关:1)嵌套约束;2)冗余约束;以及3)三角法。使用嵌套约束,“内部”问题的答案实例化“外部”问题。例如,“WhichFloridacitywasnamedforthegeneralwholedthefighttotakeFloridafromtheSpanish?(佛罗里达州的哪个城市是以领导了从西班牙人手里夺取佛罗里达州的战斗的将军命名的?)”。使用冗余约束,一个约束唯一地标识答案。例如,“Thistallestmammalcanrunat30milesperhour.Whichisit?(这种最高的哺乳动物每小时可跑30英里。它是什么?)”。使用三角法,每个约束生成一组答案并且正确的答案是在两组(或更多组)中共同的一个答案。例如,在“益智(puzzle)”类型问题“Whatisagroupofthingsofthesamekind,orsceneryconstructedforatheatricalperformance(什么是一组同类物品,或什么是为戏剧表演所设的背景)”中。
提供词法和语义关系模块210以便检测查询中的词法和语义关系(例如,谓词-论元关系),这与问题分类块212相同,块212可以采用提供信息寻址的主题分类器,例如,问题是关于什么的?问题难度模块214执行如下方法:例如通过向问题应用可读性矩阵来提供确定问题难度的方式。将理解,可以针对特定实施方式选择图3中示出的一个或多个查询/问题分析处理块。
解析和谓词论元结构块202实现用于如下操作的功能和编程接口:通过执行本领域公知的词法处理以及句法和谓词论元结构分析,将输入查询分解为其语法成分。对于一个实例查询:“Inthe1960sthislargestKansascitybecametheworld'slargestproducerofgeneralaviationaircraft(在20世纪60年代,这座最大的堪萨斯城成为世界上最大的通用航空飞机生产基地)”。
解析和谓词论元块202将产生下面的实例解析搜索结果树结构,并且eX提供树的索引,例如,“become”一词是e8(结果树的第8个结构,并且e7作为结果树结构的第7个单词的索引),其中7表示是“become”的第一论元的单词(“city”),e13(作为结果树结构的第13个单词的索引)是属于示出的语义结构中的“become”的第二论元的“producer”:
in(e1,e3,e8)
the(e2,e3)
1960s(e3,u)
this(e4,e7)
large(e5,e7)
Kansas(e6,e7)
city(e7,u)
become(e8,e7,e13)
the(e9,e10)
world(e10,u,e13)
aposts(e11,e10)
large(e12,e13)
producer(e13,of:e17)
general(e15,e17)
aviation(e16,u,e17)
aircraft(e17)
焦点段、焦点和修饰语块204检测是问题中由正确答案替换的文本跨度的焦点段。例如,在以下查询中,斜体单词表示查询中的焦点段:“Inthe1960sthislargestKansascitybecametheworld'slargestproducerofgeneralaviationaircraft(在20世纪60年代,这座最大的堪萨斯城成为世界上最大的通用航空飞机生产基地)”。
为了检测焦点段,实施一组与谓词-论元结构(PAS)中的模式匹配的规则,这些规则作用于谓词-论元结构和ESG解析。实例模式例如包括名词词组;“什么/哪个/这个/这些X”,其中X是其它对象(多个);“谁/什么/何时/何地/为何/这个/这些”;没有指示对象的代词。具有斜体代词的代词模式实例如下所示:
Asaboyhebuiltamodelwindmill;hiscalculusfoeGottfriedLeibnizdesignedthemasanadult.(当是个孩子时,他建造了模型风车;他的微积分对手戈特弗里德·莱布尼茨在成年时设计出风车。)
参考词法答案类型(LAT)块206,LAT是标识正确答案的语义类型的问题术语。以下段落中的斜体单词表示以下查询中的LAT:“WhatKansascityistheworld’slargestproducerofgeneralaviationaircraft(什么样的堪萨斯城是世界上最大的通用航空飞机生产基地)”。
如果LAT更改含义,则它们可以包括修饰语。例如,以下查询中的斜体单词表示LAT:JolietandCofoundthattheMississippiemptiedintowhatbodyofwater?(乔利矣特和同事发现密西西比河流入什么水域?)
参考图3,问题/查询分析块20的输出29包括查询分析结果数据结构(CAS结构)。在此实施例中,可以根据UIMA开源平台实现输出数据结构问题/查询分析块20和候选答案生成块30以便在所述模块之间传递数据。
“候选答案生成”模块30从问题/查询分析块20接收CAS型查询结果数据结构29输出,并根据存储在主源11和答案源知识库21中的文档生成候选答案集合。“候选答案生成”模块30包括但不限于以下一个或多个功能子处理模块:术语加权和查询扩展模块302;文档标题(标题源中的文档检索)模块304;来自段落检索的实体模块308;以及来自结构源知识库的实体模块310。
术语加权和查询扩展模块302实现如下功能:使用实现查询扩展的实施例,针对模块11和21创建查询(查询生成的一部分)(例如参见http://en.wikipedia.org/wiki/Query_expansion)。文档标题(标题源中的文档检索)模块304实现如下功能:检测候选答案(从源11和21)。来自段落检索的实体模块308实现如下功能:例如根据段落和查询的语法和语义结构,在文本段落中检测候选答案。来自结构化源的实体模块310实现如下功能:根据查询中的实体与答案源知识库21中的实体之间的关系间的匹配,检索候选答案(例如实现为SQL查询)。
在本发明的各实施例中,作为实现候选答案生成块30的功能模块的结果,创建查询并针对(本地或分布式)源数据库或类似存储设备(多个)中的所有结构化和非结构化主数据源11运行查询。可以针对结构化(知识库)、半结构化(例如,维基百科、IMDB数据库、采用XBRL的SEC文件集合等)或非结构化数据(文本库)运行此查询以生成候选答案列表39(也作为CAS,或先前CAS的扩展)。应理解,在一个实施例中,针对所列出的主源数据库的本地副本运行所述查询,或者所述查询可以访问公用的公共数据库源。此外应理解,在一个实施例中,不需要使用所述查询中的所有术语来搜索答案—因而无需基于查询分析的结果来创建查询。例如,为了回答问题□iveletterpreviouscapitalofPoland??(波兰首都之前的□ive字母??),术语□iveletter?(□ive字母?)不应是查询的一部分。
如图3中进一步所示,答案源知识库21被示为与来自结构化源的实体模块310通过接口连接,模块310包括:类型化列表(例如,世界上所有国家的列表)、所提取的精确一元(例如,国家)、二元(例如,国家+国家元首)、三元(例如,国家+国家元首+国家元首妻子)、n元关系等。
参考图2和4,“候选答案评分”模块40B例如从证据收集块50的支持段落检索(SPR)块40A接收CAS型数据结构49(即,一个或多个CAS)输出。“候选答案评分”模块40B包括但不限于以下一个或多个功能子处理模块:段落中的词法和语义关系模块402;文本对齐模块405;段落中的查询术语匹配模块407;语法关系块410;知识库中的答案查找模块413;以及候选答案类型分析模块415。
段落中的词法和语义关系模块402实现如下功能:计算候选答案段落中的语义(谓词/论元)关系的满足程度(答案评分的一部分)。文本对齐模块405实现如下功能:使查询(或其各部分)与答案段落对齐并计算描述对齐程度的分数(例如,当在引用中使答案对齐时)。段落中的查询术语匹配模块407实现如下功能:使查询中的段落的匹配程度与候选答案段落中的术语相关(答案评分的一部分)。语法关系块410实现如下功能:在可以包含在段落中的词法和语义关系模块402下的候选答案之间检测语法关系。知识库中的答案查找模块413实现如下功能:根据分数排序检测候选答案。候选答案类型分析模块415例如根据对其中出现候选答案的文档进行语法和语义分析,产生候选答案属于正确类型的概率度量。“候选答案评分”模块40B的输出是CAS结构,其具有答案列表并且答案分数由各模块给出。
如在此所描述的,可以实现多个并行工作的模块以便根据上述准则计算候选答案的分数,并在CAS类型数据结构59中提供所述分数。例如,答案是否满足类似的词法和语义关系(例如,对于有关主演某部电影的女演员的查询,答案是否是女性,并且候选答案是否满足电影演员关系?),答案与查询的对齐程度;术语匹配程度以及术语是否以类似的顺序存在。因此将理解,使用多个模块处理不同的候选答案,因此根据潜在评分模块的数量可能提供许多分数。
参考图2和4,“答案排序”模块60因此从证据收集块50(其包括实现SPR40A和候选答案评分40B)接收多个CAS型数据结构59输出,并针对每个候选答案生成一个分数。图4示出了机器学习实施方式,其中“答案排序”模块60包括训练后的模型组件71,其使用机器学习技术从先前数据中产生。所述先前数据可以对有关以下各项的信息进行编码:候选答案的特性、候选答案进入的段落的特性、候选答案评分模块40B对候选答案给出的分数,以及候选答案正确与否。可以向CAS的全部内容以及有关候选答案正确性的信息应用机器学习算法。此类先前数据例如在技术服务支持功能或有关因特网的更通用设置中很容易获得,其中许多网站都列出问题以及正确答案。所述模型对预测函数进行编码,所述预测函数是所述模型到“学习的特性组合”模块73的输入。
因此,在图4中示出的实施例中,除了存储在训练后的模型子模块71中并且其参数取决于查询类型的训练后的模型之外,还将候选答案列表作为CAS输入到答案排序模块60。答案排序模块60包括学习的特性组合子块73,其实现生成排序答案列表75的功能。答案排序模块60的输出包括查询(一个或列表)的答案,并且可选地包括澄清问题(如果系统参与对话,或者如果产生的答案都没有高排序)。学习的特性组合子块73应用训练后的模型71产生的预测函数,并且例如它实现根据训练后的模型对候选答案的分数进行加权的方法。训练块71和学习后的特性组合73的一个实例实施方式可以在对标题为“{IBM}'sStatisticalQuestionAnsweringSystem–{TREC}”({IBM}的统计问答系统—{TREC},2001年文本{检索}会议,Ittycheriah,A.等人)一文的引用中找到,网址为ttp://citeseer.ist.psu.edu/cache/papers/cs2/7/http:zSzzSztrec.nist.govzSzpubszSztrec10zSz.zSzpaperszSztrec2001.pdf/ittycheriah01ibms.pdf。
下面更详细地描述机器学习训练后的模型71和学习的特性组合73的应用。在一个实施例中,实现由两部分组成的任务以便:(1)在候选答案之中标识最佳答案,以及(2)确定此最佳答案的置信度。根据此处理,每个问题-候选答案对包括一个实例,并且从各种特性(例如,答案和查询术语的同时出现、候选答案是否与答案类型匹配,以及搜索引擎排序)获得分数。因此,对于一个实例问题□hatliquidremainsaftersugarcrystalsareremovedfromconcentratedcanejuice.?□(从浓缩的甘蔗汁中去除糖晶体之后剩余什么液体。?),根据但不限于类型分析、对齐、搜索引擎排序等,生成例如在下面表1中示出的实例分数。类型一致性是段落中的候选答案的词法形式是否对应于所述问题中感兴趣的实体的词法类型的分数。文本对齐对问题和答案段落之间的对齐进行评分。
表1
候选答案 类型 对齐 排序 分数
乳状物 1 0.2 3 0.46
粗糖 0 0.6 1 0.48
糖浆 1 0.5 2 0.8
因此,在此实施例中,候选答案根据其答案分数被表示为实例。如上面所说明的,通过实例(根据先前数据)训练分类模型71,并且针对问题将每个候选答案分类为真/假(使用本领域公知的逻辑回归或线性回归函数或其它类型的预测函数)。现在应用此模型,并根据分类分数并将所述分类分数用作答案置信度的度量对候选答案进行排序,即,通过向完整特性集或其子集应用预测函数来比较和评估可能的候选答案。如果分类分数高于阈值,则此答案被视为可接受的答案。使用表1的类型、对齐和排序的数值,以及实例线性表达式给出的预测函数(分数):=0.5*类型+0.8*对齐+(1-排序)*0.1,分别针对乳状物、粗糖和糖浆获得值0.46、0.48和0.8(值越高越好)。这些值在表1的分数列中表示。给出此评分函数实例仅为了例示,在实际应用中,可以使用更复杂的评分函数。例如,数学表达式可以基于逻辑回归函数(线性表达式与指数函数的组合),并且可以应用于更大数量的特性。
图5是示出系统操作的方块示意图500。在步骤510,被编程为执行本发明的步骤的系统接收查询。在包括一个或多个处理器或计算设备的计算环境中执行指令集。分析所述查询并将其解析为适合于由搜索引擎511(执行图1和2中的模块30的信息检索功能)搜索的元素。
图5还表示定义数据结构的数据模型,所述数据结构作为到图1和2中示出的系统组件的输入提供,或者由图1和2中示出的系统组件作为输出产生。所述数据模型提供有关给定组件执行什么操作的文档,并且它能够使独立开发的组件集成并使这些组件具有进行正确互操作的相当高的置信度。所述数据模型被正式定义为UIMA类型系统,并在UIMA类型系统描述符中具有声明式规范。众所周知,非结构化信息管理架构(UIMA)框架是一种开放、工业级、可伸缩且可扩展的平台,用于构建分析应用或搜索解决方案,这些应用或解决方案处理文本或其它非结构化信息以查找隐藏在其中的潜在含义、关系和相关事实(http://incubator.apache.org/uima/)。
所述数据模型使用UIMACAS(类型系统中的类型实例的容器)实例化。
所述类型系统具有几个基本设计点。
1.CAS表示单个问题,然而它并不限于此,即,包括有关某一先前焦点的问题(还提供类别、先前问题或答案、或问题元数据、上下文的某一元素);
2.问题是初始CAS视图中的分析主题;
3.将处理分为几个阶段,其中每个阶段可以生成多个具有新分析主题和对应视图的新CAS,但在每个CAS中包含原始问题视图。将理解,可以具有变型。
可以将所有处理结果添加到原始CAS(包含整个处理过程中的中间结果),并将系统生成的最终答案作为注释发布在CAS中。
在一个实例实施例中,所述数据模型包括许多类型扩展了uima.tcas.Annotation的基本注释类型(参见http://incubator.apache.org/UIMA)。每个类(例如,注释器)还可以提供它创建的注释的正确性的估计。
在一个示例性实施例中,作为在问题处理阶段510期间执行的问题分析的一部分,接收问题19并使用所述问题(和问题上下文)初始化CAS。创建两个初始注释:Question注释,其具有有关所述问题的元数据;以及QaResult注释,其通过直接包含结果或指向表示问题分析结果的其它注释而合并所有问题分析结果。
定义基本Question注释类型以便可选地包括任何关联的元数据,例如问题源(TREC、技术支持、电视节目等)、先前对话或其它上下文信息(例如,有关包含在以其它形态表示的输入中的信息)。
问题类型可以被进一步专门化为实例子类型,从而对询问哪个类定义类型(即,问题类型,例如FACTOID、LIST、DEFINITION、OTHER、OPINION或UNCLASSIFIED问题类型之一)的问题进行建模。
分析问题的初始步骤是针对所述问题运行NLP(自然语言处理)堆栈。自然语言处理通常包括句法处理(例如,使用ESG解析器)和谓词-论元结构推导。根据标准UIMA方式执行此处理,其中NLP堆栈作为聚合分析引擎在CAS上运行。在本发明的一个实施例中,将所有NLP堆栈结果作为扩展赫特和ESG类型系统的注释添加到CAS。
在NLP堆栈处理之后,运行问题分析组件,这些组件例如包括问题分类、答案类型检测和焦点标识,如图3的查询分析块中所示。可以根据问题类型(元数据)对问题进行分类,每种问题类型可能需要特殊的下游处理。可以将此分类的结果存储在QClass注释中:
实例下游处理可以包括处理益智问题(其中获得答案需要来自多个源的综合信息、推断等);需要音频/视觉处理的audio_visual问题;具有引用或命名实体等的simple_factoid问题;有关可以“查找”的事实的FACTOID;以及包含答案的定义并且其中问题所定义的单词被预期作为答案的DEFINITION。
图3中示出的典型问题分析过程产生几个注释(包括焦点、答案类型、语义角色标签和约束),并标记表示定义的问题的任何部分。
对于上述注释类型,图5的问题分析组件510将创建所述注释的实例,设置问题文本的跨度(如果适当),并在所述注释中设置任何其它特性。要指出的是,这些注释可能具有多个实例。
使用问题和问题分析结果生成查询的抽象表示(用于描述目的),此抽象表示被称为AbstractQuery。抽象查询表示问题中的所有可搜索关键字和词组,以及语义答案类型(如果检测到)。
使用以下类型表示抽象查询:同义词(下面的所有查询概念都是彼此的同义词);词组(按顺序的所有查询概念是一个词组);连接(“或者”,即,论元节点的分离);加权(按照存储在运算符中的浮点数对下面的概念进行加权);必需(下面的概念全部必需,如果可能);以及关系(下面的概念都在一种关系之下,此关系存储在运算符中)。
参考图5,在问题处理块510中,在问题分析和可能的分解之后,开始搜索处理,这可以包括搜索主结构化和非结构化源,例如谷歌、维基百科的本地副本或数据库查找。
每个搜索引擎具有查询生成器,其针对搜索引擎从抽象查询生成引擎特定的查询,并以查询句法格式化查询。搜索引擎然后处理所述查询并将搜索结果命中列表添加到CAS。搜索对象包含搜索引擎查询、搜索引擎的标识符以及搜索结果。
在一个实施例中,搜索结果由SearchResult对象表示,此对象包含结果的标识符(URI)、结果的分数以及结果的实际内容(即,段落文本、知识库元组等)。可以针对不同种类的搜索引擎和对应搜索结果专门化SearchResult。
可以创建文档对象以表示搜索引擎提供的结果。此对象可以包括文档的标题和此文档的唯一标识符,以及其它数据和元数据。可以将段落对象与返回段落的搜索引擎一起使用。可以向文档对象添加偏移(例如,包含此段落的文档中此段落开头的字符偏移,以及包含此段落的文档中的此段落结尾的字符偏移)和段落命中的段落长度元数据。
如图5中所表示的,实例CAS结构中的数据是问题分析处理步骤510的搜索结果块的输出,并且要被并行处理。使用搜索命中CAS拆分器机制515发起候选答案的并行搜索。对于并行操作,CAS拆分器元件515分发搜索列表(搜索结果段落)以便对并发搜索结果处理技术进行应用(分工),以处理每个发现的搜索结果,并使用此处描述的技术在候选答案生成块30(图3)中(并行)执行候选答案生成。
在候选答案生成期间,在搜索结果中标识候选答案。在一种实例实施方式中,在两个不同的级别表示候选答案:候选答案变型;以及候选答案标准(canon)。CandidateAnswerVariant是唯一候选答案字符串(可能为某种非常简单的规范化的结果)。CandidateAnswerCanon是将语义上等价的变型分组在一起的标准化后的候选答案。这两种类型都扩展抽象基本类CandidateAnswer,此类定义候选答案字符串以及与此候选答案关联的特性。
候选答案的类(例如,CandidateAnswer)提供候选答案字符串以及与此候选答案关联的特性。在操作中,可以实例化它的一个或多个子类型。一个子类型包括定义的候选答案类的变型(CandidateAnswerVariant),此变型可以具有多种出现(所有这些出现都被收集在变型对象中)并定义此变型的出现。提供CandidateAnswerOccurrence类,此类对标识为候选答案的文本跨度进行注释并定义:(1)所包含的文本引用某一实体(例如,NAME、PRONOUN、CITY)的方式;(2)候选答案源;(3)源文本中的此候选答案开头的字符偏移;以及(4)源文本中的此候选答案结尾的字符偏移。
在一种实例实施方式中,从文档标题得出候选答案,并且另一种方法可以从候选段落中的一个或多个元素得出候选答案。可以规范化候选答案,由此可以以一种标准形式标识几种拼写变型。
搜索结果处理和候选答案生成块30的实例CAS结构39输出中的数据再次由候选答案CAS拆分器机制520并行处理,机制520用于并行化候选答案以作为到支持段落检索块40A的输入。对于每组候选答案,将CAS拆分为单独的CAS,以便每个CAS包括一个或多个候选答案并被发送到证据收集模块50以便处理。
现在参考图5更详细地描述根据本发明的实施例的实现(并行处理)并支持段落检索和答案评分的证据收集模块50(图1和3中所示)。
传统上,段落检索用于候选答案生成,其中使用来自问题的关键字,从非结构化语料库查找段落。然后从这些段落提取候选答案。
根据本发明的一个实施例,在候选答案生成之后运行支持段落检索(SPR)。对于每个得到的候选段落,遍历段落内容以查找/寻找那些除了问题术语之外还具有候选答案的段落。将理解,如果知道要查找什么候选答案,则可以找到更好的段落。对于每个得到的候选答案,遍历源以查找那些除了问题术语之外还具有候选答案的段落(即,针对原始主源(数据库)或候选知识库执行另一个搜索)。在另一个实施例中,可以针对缓存的搜索结果(以往的段落)执行搜索。将理解,如果使用与问题术语包括在一起的候选答案重复所述搜索,则将获得最好的结果。
如上所述,当前信息检索和问答系统试图通过标识最可能包含相关信息的单个文档段(例如,整个文档、一个或多个句子的连续序列,或单个词组)来满足用户的信息需求。许多信息需求无法通过单个文档段满足。相反,信息检索系统必须标识多个相关文档段并进一步分析或综合包含在这些段中的信息以满足用户的信息需求。
本发明的实施例通过使用逻辑证明指导搜索来解决此难题。响应于查询而产生的最终结论可能仅从在多个文档中找到的内容间接获得。例如,诸如“WhowasHenryVI’spaternalgrandfather?(亨利六世的祖父是谁?)”之类的问题可能通过说明“亨利六世的父亲是亨利五世”和“亨利五世的父亲是亨利四世”的单独文档来回答。一旦系统得出结论(例如,“亨利四世是亨利六世的祖父”),就可以预期通过引用原始源提供对此结论的支持。
可能存在多个能够针对任何给定结论找到的不同证据。这些证据中的每一个都将涉及某一组前提,即,直接在源材料中断言的事实。可以在一个或多个源文档中提及任何给定前提。对于任何一组文档,如果提及用于结论的某种证据的所有前提,则可以认为此组文档对此结论提供足够支持。多组较小的文档通常好于多个较大的组,因为它们通常涉及更少的用户工作来确认结论有效。本发明的实施例包括一种机制,用于标识对通过逻辑推理获得的结论提供足够支持的多组最小或准最小文档。
用于标识多组这些最小或准最小文档的机制和过程的实施例包括两个阶段:索引和检索。例如,图6中示出了用于索引的一个过程,图7中示出了用于检索文档的一个过程。
参考图6,给定一组文档,针对每个文档采取一系列步骤。在步骤581,使用类型对引用实体的文本跨度进行注释,在步骤582,使用类型对引用事实的文本跨度进行注释。对于每个此类跨度,在步骤583,将这些事实链接到跨度所包含的注释。在步骤584,确定哪些实体注释引用同一实体,在步骤585,确定哪些关系注释引用同一事实。在步骤586,在索引中记录所述实体、事实以及引用这些实体和事实的注释。
图7示出了一种用于回答问题并提供支持文档的方法。在此方法中,如果给出问题和索引(例如,如上面所构造的),则在步骤591,针对所述索引中的实体和事实使用定理证明来确定问题答案。在步骤592,对于针对此答案找到的每个证据,对于该证据的每个前提,选择包含对此前提的引用的文档。在步骤593,返回多组选定文档之一。
上述方法中的一个方面是选择文档。在某些情况下,对于包含许多文档中提及的许多前提的证据而言,确定给定证据的最小集合可能非常棘手。然而,一种方法可能产生多组准最小文档并可以被证明以可接受的最差性能运行,在此方法中随着文档的增加,文档包含的前提数量减少。
例如,考虑问题:“DoesBobownanignitioncoil?(鲍勃有点火线圈吗?)”,此问题答案的一个证据包括以下七个前提(A-G):
A:鲍勃有一辆福特金牛
B:福特金牛是轿车
C:轿车是小汽车
D:小汽车是机动车
E:引擎是机动车的一部分
F:火花塞是引擎的一部分
G:点火线圈是火花塞的一部分。
在此实例中,找到六个包含这些前提的某些子集的文档(1-6),如下表中所示。
包含所有前提的一组真正最小文档包括文档2和4。贪婪算法将从文档(2)开始(因为此文档具有最多前提)。接下来,此算法将文档编号(5)加到此集合中(此文档具有第二多前提),然后加上文档编号6(也是因为其具有第三多前提)。当形成的集合中的至少一个文档包含所有前提时,此算法将停止。因为此算法从未到达文档(4),所以此算法从未注意到仅文档(2)和(4)便可回答此问题。此贪婪算法的主要优点是此算法从来不必考虑诸如不会增加任何额外价值的文档(1)和(3)之类的文档。
此贪婪算法的一种变型考虑到已选择包含的文档已经包含哪些前提,并且每次迭代时,选择包含最多数量的未匹配的前提的文档。此变型在运行时稍加扩展,但可以比先前算法产生更好的结果。在此实例中,在第一步骤选择相同的文档(2),此后系统认识到仅有前提F和G未匹配。接下来,它选择与这两个前提匹配的文档(4)并将其加到集合中。在此实例中,此备选算法产生包含文档(2)和(4)的真正最小集合。
针对候选答案找到支持文档或支持文档集合之后,然后通过进行以下一项或多项,根据多个分数对支持段落进行评分:简单术语匹配分数;文本对齐;以及更深入的分析。简单术语匹配分数实施可执行指令以便对匹配的术语数计数,文本对齐实施可执行指令以便确定单词是否以相同或相似的顺序出现,并且它们之间具有相似距离以便它们不会相隔太远(对齐)。这对于查找引用是有利的。为了查找引用,例如执行对齐以获得最好的结果。更深入的分析实施可执行指令以便确定段落/问题的含义(即,词法和/或语义关系)。这些分析中的每一个均产生分数。
现在出于非限制性、示例性目的描述实例证据收集。在此实例中,给出如下查询:“In2002,whobecamethefirstRepublicansittingsenatorevertohostSaturdayNightLive?(2002年,谁成为首位曾经主持过“周六夜现场”的共和党现任参议员?)”
在实现停用词删除(从查询中删除最常见的单词,例如“a”、“an”、“the”、“is/was/be…”、“become/became…”…)的查询生成中,查询变成:“RepublicanfirstsittingsenatoreverhostSaturdayNightLive2002(曾经主持过2002年“周六夜现场”的共和党首位现任参议员)”。
在一个实施例中,在查询生成之后,将查询发送到例如由MSN提供的因特网搜索引擎,并读取前20个结果文档。以下示出了“RepublicanfirstsittingsenatoreverhostSaturdayNightLive2002(曾经主持过2002年“周六夜现场”的共和党首位现任参议员)”的实例问题搜索结果的实例段落提取结果(候选答案)。在每个文档中,标识如下段落:其包括每个候选答案(即,JohnMcCain或AlGore)以及尽可能多的以斜体示出的问题关键字。在一个示例性实施例中,两个实例段落包括计算如下的段落分数:段落分数=段落中的查询术语数/查询术语总数
候选答案:JohnMcCain
文档:http://doney.net/aroundaz/celebrity/mccain_john.htm,段落:RepresentativefromArizona1stDistrict(1983-1987),POW(1967-1972),Navypilot,firstsittingSenatortohostSaturdayNightLive(2002).BorninthePanamaCanalZone,JohnMcCainsharestheheadstrong,blunt,mavericktraitsofhisfatherandgrandfather,whowerethefirstfatherandsonfourstarAdmiralsintheU.S.
段落分数:8/11=0.73
候选答案:AlGore
文档:http://www.imdb.com/title/tt0072562/news,段落:17December2002(StudioBriefing)Nolongeracandidateforthepresidencyin2004,AlGoremayhaveawholenewcareercutoutforhimasthehostofalate-nightcomedyshow,judgingbytheratingsfortheDec.14editionofNBC’sSaturdayNightLive.
段落分数:5/11=0.45
此外,在一个实施例中,计算SPR答案分数,此分数在一个实施例中计算为包含此答案的段落的衰减分数和,如等式1)中所示
AnswerScore=P0+nP1+n2P2+n3P3+…1)
其中,Pi是第i个最高段落分数,“n”是<1的常数(例如,0.1)。
因此,对于实例查询“Republicanfirstsittingsenatoreverhost"SaturdayNightLive”2002(曾经主持过2002年“周六夜现场”的共和党首位现任参议员)”,候选答案JohnMcCain的SPR“AnswerScore”计算如下:
1)针对JohnMcCain采用第一候选答案段落(其中问题关键字以斜体示出),以便了解:
RepresentativefromArizona1stDistrict(1983-1987),POW(1967-1972),Navypilot,firstsittingSenatortohostSaturdayNightLive(2002).BorninthePanamaCanalZone,JohnMcCainsharestheheadstrong,blunt,mavericktraitsofhisfatherandgrandfather,whowerethefirstfatherandsonfourstarAdmiralsintheU.S.计算出的段落分数为[分数:0.74]。
2)针对JohnMcCain采用实例第二候选答案段落,以便了解:
JohnMcCain,MeghanregaledreporterswithtalesofherdaysasaninternatSaturdayNightLivein2004."Slavework,"shesays,"butIhadanamazingtime.计算出的段落分数为[分数:0.27]。
3)针对JohnMcCain采用实例第三候选答案段落,以便了解:
ThemostprominentRepublican,ArizonaSenatorJohnMcCain,wasportrayedasaloserbecauseofhissupportforstayingthecourseinIraq.计算出的段落分数为[分数:0.18]。
因此,根据等式1)并在n=0.1的情况下,候选答案JohnMcCain的组合AnswerScore变成:0.74+(0.1)(0.27)+(0.01)(0.18)=0.7688。
同样,对于实例查询“2002RepublicanfirstsittingsenatoreverhostSaturdayNightLive(曾经主持过“周六夜现场”的2002年共和党首位现任参议员)”,候选答案AlGore的SPR“AnswerScore”计算如下:
1)针对AlGore采用第一候选答案段落(其中问题关键字以斜体示出),以便了解:
17December2002(StudioBriefing)Nolongeracandidateforthepresidencyin2004,AlGoremayhaveawholenewcareercutoutforhimasthehostofalate-nightcomedyshow,judgingbytheratingsfortheDec.14editionofNBC’sSaturdayNightLive30,计算出的段落分数为[分数:0.45]。
2)针对AlGore采用第二候选答案段落,以便了解:
AlsoinattendancewereformerPresidentsGeorgeBush,GeraldFord,JimmyCarter,formerVice-presidentAlGore,formerSenatorBobDoleandalltheirwives.Wasportrayedon“SaturdayNightLive”(1975)byPhilHartman,ChrisFarley(once),DavidSpade(once),ChrisElliot(once),MichaelMcKean,andDarrellHammond.计算出的段落分数为[分数:0.36]。
3)针对AlGore采用第三候选答案段落,以便了解:
AlsoinattendancewereformerPresidentsGeorgeBush,GeraldFord,JimmyCarter,formerVicePresidentAlGore,formerSenatorBobDoleandalltheirwives.[September2001].Wasportrayedon&#34;SaturdayNightLive&#34;(1975)byPhilHartman,ChrisFarley(once),DavidSpade(once),ChrisElliott(once),MichaelMcKean,andDarrellHammond.计算出的段落分数为[分数:0.36]。
4)针对AlGore采用第四候选答案段落,以便了解:
RememberAlGore’s“SaturdayNightLive”skitwherehepretendedtobePresidentandtheworldwasagloriousplace?计算出的段落分数为[分数:0.36]。
因此,SPR模块根据等式1)计算的候选答案AlGore的组合AnswerScore变成:0.45+(0.1)(0.36)+(0.01)(0.36)=0.4896。
要指出的是,对于AlGore,根据简单求和方案的答案评分为1.44,这将胜过针对JohnMcCain的简单求和计算的分数1.19。
每个候选答案的答案分数将包括在CAS中。
再次参考图5,在模块530中,检索支持段落。在CAS拆分之后启动功能。支持段落拆分器540拆分由支持段落检索创建的支持段落记录;以及由于可能存在许多支持段落记录,因此拆分器将新的CAS(以及先前计算的所有信息:上下文、查询、候选答案、支持段落)路由到答案评分。
所述结果包含许多CAS,这些CAS包含(除了其它元素之外)三个重要项目:候选答案、问题术语以及支持段落。由于每个问题可以生成数千个此类CAS,因此对这些候选答案进行并行评分。在一个实施例中,可以将候选评分模块40B执行的候选评分细分为两类:上下文无关评分43(其中可以独立于段落对答案进行评分),以及上下文相关评分47(其中答案分数依赖于段落内容)。例如,如果从文档标题获得候选答案,则分数将不依赖于段落的内容并且是上下文无关的。相比之下,基于文本对齐(模块405,图4)、语法关系(模块410,图4)或词法和语义关系(模块402,图4)的其它类型的候选答案评分需要查询和段落之间的比较,并且是上下文相关的。由于这些方法中的大多数都依赖于计算段落中的语法和语义关系,因此在47中的上下文相关候选答案处理之前,必须处理搜索结果(在SPR块40A中的搜索结果处理模块中)。
答案评分器的结果被保存在CAS中。在答案排序处理60的最后阶段期间,聚合并合并所有候选答案特性,以及应用最终候选答案评分功能(如上面针对表1中提供的实例分数描述的那样)。由于给定候选答案可能在多个段落中出现,因此最终合并/排序注释器必须跨CAS收集结果、规范化并合并候选答案、跨候选答案的多个实例合并由同一答案评分器产生的特性分数,并聚合结果。将规范化、合并和聚合后的结果输入到评分功能以产生候选答案的最终分数。最终评分结果被保存为答案和/或提供给用户。在本发明的各实施例中,最终合并和排序是递增的,即,只要针对不同节点的计算完成,机器就提供最好的答案。所有节点完成之后,提供最终(最佳)答案(多个)。因此,在一个实施例中,将最终AnswerList和答案添加到原始问题视图,并且问答过程完成。
还应指出,如果系统不能找到答案或找到具有高分数的答案(例如,基于与预设阈值的比较),则系统可能向用户询问澄清问题,或者提供答案集合,或者承认失败并向用户询问以获得进一步指示。本领域的技术人员将能够实现此类对话,例如根据第6,829,603和6,983,252号美国专利(它们在此全部引入作为参考)以及标题为“Naturallanguagedialogueforpersonalizedinteraction”(个性化交互的自然语言对话)的参考资料,作者为WlodekZadrozny等人,《ACM通讯》档案,第43卷第8期(2000年8月),第116-120页(http://portal.acm.org/citation.cfm?id=345164)。
本领域的技术人员将能够对本发明的系统实现进一步扩展以采用多模式通信模式(使用第7,136,909号美国专利),其中包含文本、音频、视频、手势、触觉输入和输出等多种形态。如上所述,此类交互的实例包括手机用户使用语音询问问题并且以其它形态(语音、文本和图像)的组合接收答案,或者与视频游戏的交互。
此处描述的数据模型和处理模型旨在实现并行处理,并允许“流”计算模型,其中在所有处理完成之前,结果以递增方式变得可用。这种流模型是有利的,前提是分析能够首先标识和处理最可能的候选答案,并通过更多处理时间继续改进评分估计。
如上所述,在一个实施例中,图1-7的上述模块可以被表示为UIMA中的功能组件,并可以被体现为硬件和软件的组合,所述硬件和软件用于开发集成针对结构化和非结构化信息组合的搜索和分析的应用。采用UIMA组件以实现最终用户能力的软件程序通常被称为应用、应用程序或软件应用。
UIMA高级架构(图1-7中示出了它的一个实施例)定义了协作以实现UIM应用的大粒度组件的角色、接口和通信。其中包括如下组件:能够分析非结构化源制品(artifacts)(例如包含文本数据和/或图像数据的文档),集成和访问结构化源,并根据所发现的语义内容对制品进行存储、索引和搜索。
尽管未示出,但UIMA高级架构的一个非限制性实施例包括语义搜索引擎、文档存储、至少一个文本分析引擎(TAE)、至少一个结构化知识源适配器、集合处理管理器、至少一个集合分析引擎,它们全部与应用逻辑通过接口连接。在一个实例实施例中,UIMA运行以访问结构化信息和非结构化信息,以便以此处描述的方式生成候选答案和答案。非结构化信息可以被视为文档集合,并可以采取文本、图形、静态和动态图像、音频和它们的各种组合的形式。
图8中进一步示出了UIMA的各方面,其中示出了可以是文本分析引擎的组成部分的分析引擎(AE)600。AE600中包括通用分析系统(CAS)610、注释器620和控制器630。TAE的第二实施例(未示出)包括由两个或更多组件分析引擎以及CAS组成的聚合分析引擎,并实现与AE600相同的外部接口。
通用分析系统610
通用分析系统(CAS)610作为通用工具提供,所有注释器620均使用它访问和修改分析结构。因此,CAS610在注释器620之间实现协作,并促进在不同应用和不同类型架构(例如,松散与紧密耦合)中重用注释器620。CAS610可以被视为限制各种注释器的操作。
提供CAS610主要用于数据建模、数据创建和数据检索功能。数据建模优选地定义类型的树层次结构,如下面提供的实例表2中所示。所述类型具有属性或性质(被称为特性)。在本发明的各实施例中,存在少量的内置(预定义)类型,例如整数(int)、浮点(float)和字符串;UIMA还包括预定义的数据类型“注释”。数据模型在注释器描述符中定义,并与其它注释器共享所述数据模型。在表2中,被视为从现有技术非结构化信息管理应用扩展以容纳本发明的实施例中的问答的一些类型包括:
表2
在表2中,例如所有问答类型(在左边列中列出)都是新类型并扩展另一个新类型或现有类型(在右边列中示出)。例如,“查询”和“查询上下文”都是“查询记录”(新类型)的种类;而“候选答案记录”扩展UIMA类型“注释”,但添加了属于“浮点”类型的新特性CandidateAnswerScore。
CAS610数据结构可以被称为“特性结构”。为了创建特性结构,必须指定类型(参见表2)。注释(和特性结构)被存储在索引中。
CAS610可以被视为方法集合(例如在Java或C++中实现为类),此集合将基于对象的表达性数据结构实现为抽象数据类型。优选地,CAS610设计主要基于TAE130特性-属性结构,此结构提供用户定义的对象、属性和值以实现灵活性,提供静态类型层次结构以实现效率,并提供方法以便通过使用一个或多个迭代器来访问存储的数据。
通过CAS610实现的抽象数据模型除了其它特性之外,还为UIMA100提供:平台无关性(即,以声明方式独立于编程语言而定义类型系统);性能优势(例如,当通过通用数据模型耦合以不同编程语言编写的注释器620时);通过注释器620的输入/输出规范组成流程(其包括允许类型检查和错误检测的声明式规范,以及对注释器(TAE)作为服务模型的支持);以及通过语义索引、搜索和检索支持第三代搜索过程(即,语义类型是声明式的,并不基于关键字)。
CAS610为注释器620提供用于高效构建和搜索分析结构的工具。所述分析结构是数据结构,其主要由描述原始文档的文本子序列的元数据组成。分析结构中的一种示例性元数据类型是注释。注释是用于对文本序列进行注释的对象(具有它自己的属性)。具有任意数量的注释类型。例如,注释可以根据其在文档结构中的角色(例如,单词、句子、段落等)标记文本序列,或者根据其语法角色(例如,名词、名词词组、动词、形容词等)描述文本序列。注释的数量或应用基本上没有限制。其它实例包括对文本段进行注释以将它们标识为正确的名称、位置、军事目标、时间、事件、设备、条件、时间条件、关系、生物关系、家庭关系或其它有意义或感兴趣的项目。
通常,注释620的功能是分析文本以及现有分析结构以发现它旨在识别的新注释集合实例,然后将这些注释添加到分析结构以进行输入以便由其它注释器220进一步处理。
除了注释之外,图6的CAS610还可以存储原始文档文本以及可能由注释器620产生的相关文档(例如,原始文档的翻译和/或概要)。优选地,CAS610包括促进以既定格式(例如XML)导出分析结构的不同方面(例如,一组注释)的扩展。
更具体地说,CAS610是TAE中定义和存储文本注释的部分。应用和注释器620均使用CASAPI创建和访问注释。CASAPI例如包括三个不同的接口。类型系统控制新类型的创建,并提供有关类型(继承)之间以及类型和特性之间的关系的信息。表1中提供了类型定义的一个非限制性实例。结构访问接口处理新结构的创建以及值的访问和设置。结构查询接口处理现有结构的检索。
所述类型系统提供系统已知的实体分类,类似于面向对象的编程中的类层次结构。类型对应于类,特性对应于成员变量。优选地,所述类型系统接口提供以下功能:添加新类型,方式为:为新类型提供名称并在层次结构中指定应附加新类型的位置;添加新特性,方式为:为新特性提供名称并给出此特性应附加到的类型,以及值类型;以及查询现有类型和特性以及它们之间的关系,例如“哪个(哪些)类型继承自此类型”。
在一个实施例中,所述类型系统提供少量内置类型。如上所述,基本类型是整数、浮点和字符串。在Java实施方式中,这些类型分别对应于Java整数、浮点和字符串类型。还支持注释和基本数据类型数组。内置类型在所述结构访问接口中具有特殊的API支持。
所述结构访问接口允许创建新结构,以及访问和设置现有结构的值。在一个实施例中,这提供了创建给定类型的新结构,针对给定结构获得和设置特性的值,并访问用于内置类型的方法。为域提供了特性定义,每个特性均具有范围。
在一种备选环境中,图1-7的模块可以被表示为GATE(文本工程通用架构)中的功能组件(参见:http://gate.ac.uk/releases/gate-2.0alpha2-build484/doc/userguide.html)。GATE采用属于可重用软件块并具有定义明确的接口(在概念上独立于GATE本身)的组件。所有组件集都是用户可扩展的,并统称为CREOLE—语言工程可重用对象集合。GATE框架是其中插入CREOLE组件的底板(backplane)。用户为系统提供URL列表以便在它启动时进行搜索,并且系统加载这些位置处的组件。在一个实施例中,仅加载它们的配置数据以便开始;当用户请求资源实例化时加载实际类。GATE组件是三种专用JavaBeans之一:1)资源;2)处理资源;3)语言资源;以及4)可视资源。资源是描述所有组件的顶级接口。所有组件的共同之处是它们可以在运行时被加载,并且组件集可由客户扩展。它们具有特性,这些特性在系统外部以诸如RDF、纯XML或Java属性之类的格式表示为“元数据”。在一个实施例中,资源可以全部是Javabeans。ProcessingResource是可运行的资源,其可以远程地被调用(经由RMI)并存在于类文件中。为了加载PR(处理资源),系统知道在何处发现类文件或jar文件(它们也包括元数据)。语言资源是由数据组成的资源,其通过Java抽象层访问。它们存在于关系数据库中。VisualResource是可视Javabean、GUI的组件,包括主GATEgui。与PR相同,这些组件存在于.class或.jar文件中。
在描述GATE处理模型时,其主要特性为算法特性的任何资源(例如解析器、生成器等)都被建模为处理资源。PR是实现Java可运行接口的资源。GATE可视化模型实现如下资源:其任务是显示和编辑被建模为可视资源的其它资源。GATE中的语料库模型是Java集合,其成员是文档。语料库和文档都属于语言资源(LR)类型,且所有LR都具有与之关联的特性图(Java图),此图存储有关资源的属性/值信息。FeatureMap还用于经由注释模型将任意信息与文档范围(例如,文本块)关联。文档具有DocumentContent和一个或多个AnnotationSet,DocumentContent目前是文本(未来版本可能添加对视听内容的支持),AnnotationSet是Java集合。
作为UIMA,GATE可以用作基础以便实现自然语言对话系统和多模式对话系统(具有所披露的问答系统作为主要子模块之一)。上面的参考资料(第6,829,603、6,983,252和7,136,909号美国专利,在此引入作为参考)能够使本领域的技术人员构建此类实施方式。
本发明的实施例可以采取完全硬件实施例、完全软件实施例或包含硬件和软件元素两者的实施例的形式。在各实施例中,本发明以软件实现,所述软件包括但不限于固件、驻留软件、微代码等。
本发明可以采取可从计算机可用或计算机可读介质访问的计算机程序产品的形式,所述计算机可用或计算机可读介质提供了可以被计算机或任何指令执行系统使用或与计算机或任何指令执行系统结合的程序代码。出于此描述的目的,计算机可用或计算机可读介质可以是任何能够包含、存储、传送、传播或传输由指令执行系统、装置或设备使用或与所述指令执行系统、装置或设备结合的程序的装置。
所述介质可以是电、磁、光、电磁、红外线或半导体系统(或装置或设备)或传播介质。计算机可读介质的实例包括半导体或固态存储器、磁带、可移动计算机盘、随机存取存储器(RAM)、只读存储器(ROM)、硬磁盘和光盘。光盘的当前实例包括光盘只读存储器(CD-ROM)、光盘读/写(CR-R/W)和DVD。
本公开的系统和方法可以在通用计算机或计算机系统上实现和运行。所述计算机系统可以是任何类型的已知或将要已知的系统,并且通常可以包括处理器、存储器设备、存储设备、输入/输出设备、内部总线和/或通信接口,所述通信接口用于结合通信硬件和软件等与其它计算机系统通信。
如可以在本申请中使用的,术语“计算机系统”和“计算机网络”可以包括固定和/或便携式计算机硬件、软件、外围设备和存储设备的各种组合。所述计算机系统可以包括多个个体组件(它们被联网或以其它方式链接以便协作执行),或者可以包括一个或多个独立的组件。本申请的计算机系统的硬件和软件组件可以包括固定和便携式设备(例如台式计算机、膝上型计算机和服务器),并且可以包括在这些设备中。模块可以是实现某种“功能”的设备、软件、程序或系统的组件,其可以被体现为软件、硬件、固件、电子电路等。
在所述优选实施例中,术语“用户”指与系统交互的一个或多个人员,术语“用户查询”指用户提出的查询。然而,可以构造其它实施例,其中术语“用户”指通过机械手段生成查询的计算机系统,并且其中术语“用户查询”指此类以机械方式生成的查询。在此上下文中,“用户查询”可以是自然语言表达、形式语言表达,或自然语言和形式语言表达的组合。例如在诊断机械和电子设备故障的上下文中,需要自动回答计算机生成的问题,其中故障设备可以生成有关最佳解决问题方式的查询,并且此类查询可以由本发明中描述的系统基于从因特网中收集的相关文本数据语料库来回答。从形式表示自动生成自然语言表达的方法先前已在例如第5,237,502和6,947,885号美国专利(每个专利的内容和公开在此全部引入作为参考)中公开,并且可以由本领域的技术人员用于创建系统以便自动发出“用户查询”。同样,在此类诊断情况中,系统可以询问详细描述问题,以便例如查询某些附加参数。
上面描述的实施例是示例性实例,并且不应被理解为将本发明限于这些特定实施例。因此,本领域的技术人员可以实现各种更改和修改而不偏离所附权利要求中限定的本发明的精神和范围。

Claims (25)

1.一种生成问题的答案的方法,所述方法包括:
接收输入查询;
在数据源中进行搜索以标识所述输入查询的候选答案;
标识所述候选答案的证据,所述证据包括用于确定所述证据的一系列前提;
标识包括对所述前提的引用的文档,每个所述文档包括对一个或多个所述前提的一个或多个引用;
选择一组所述文档,其作为一个集合而言包括对所有所述前提的引用;以及
使用所选择的一组文档生成所述候选答案的分数。
2.根据权利要求1的方法,其中选择一组所述文档包括使用定义的算法标识一组准最小文档。
3.根据权利要求1的方法,其中选择一组所述文档包括使用定义的算法标识具有包括对所有所述前提的引用所需的最小数量文档的一组文档。
4.根据权利要求1的方法,其中:
多个文档中的每个文档均包括对给定数量的所述前提的引用;以及
选择一组所述文档包括按照每个所述文档中引用的所述前提的数量的顺序来选择所述组的文档。
5.根据权利要求1的方法,其中选择一组所述文档包括基于每个所述文档中引用的所述前提的数量来选择所述组的多个所述文档。
6.一种用于生成问题的答案的系统,所述系统包括:
计算机设备,所述计算机设备包括至少一个不同软件模块,每个不同软件模块包含在有形计算机可读介质中;存储器;以及至少一个处理器,所述处理器耦合到所述存储器并可操作以执行以下步骤:
接收输入查询;
在数据源中进行搜索以标识所述输入查询的候选答案;
标识所述候选答案的证据,所述证据包括用于确定所述证据的一系列前提;
标识包括对所述前提的引用的文档,每个所述文档包括对一个或多个所述前提的一个或多个引用;
选择一组所述文档,其作为一个集合而言包括对所有所述前提的引用;以及
使用所选择的一组文档生成所述候选答案的分数。
7.根据权利要求6的系统,其中选择一组所述文档包括将定义的算法用于所标识的各组文档以标识一组准最小文档。
8.根据权利要求6的系统,其中选择一组所述文档包括使用定义的算法标识具有包括对所有所述前提的引用所需的最小数量文档的一组文档。
9.根据权利要求6的系统,其中:
多个文档中的每个文档均包括对给定数量的所述前提的引用;以及
选择一组所述文档包括按照每个所述文档中引用的所述前提的数量的顺序来选择所述组的文档。
10.根据权利要求6的系统,其中选择一组所述文档包括基于每个所述文档中引用的所述前提的数量来选择所述组的多个所述文档。
11.一种用于生成问题的答案的装置,所述装置包括:
用于接收输入查询的模块;
用于在数据源中进行搜索以标识所述输入查询的候选答案的模块;
用于标识所述候选答案的证据的模块,所述证据包括用于确定所述证据的一系列前提;
用于标识包括对所述前提的引用的文档的模块,每个所述文档包括对一个或多个所述前提的一个或多个引用;
用于选择一组所述文档的模块,其作为一个集合而言包括对所有所述前提的引用;以及
用于使用所选择的一组文档生成所述候选答案的分数的模块。
12.根据权利要求11的装置,其中选择一组所述文档包括使用定义的算法标识一组准最小文档。
13.根据权利要求11的装置,其中选择一组所述文档包括使用定义的算法标识具有包括对所有所述前提的引用所需的最小数量文档的一组文档。
14.根据权利要求11的装置,其中:
多个文档中的每个文档均包括对给定数量的所述前提的引用;以及
选择一组所述文档包括按照每个所述文档中引用的所述前提的数量的顺序来选择所述组的文档。
15.根据权利要求11的装置,其中选择一组所述文档包括基于每个所述文档中引用的所述前提的数量来选择所述组的多个所述文档。
16.如权利要求1所述的方法,所述方法进一步包括:
对于每个所述文档,使用实体类型对所述每个文档中引用实体的文本跨度进行注释以形成实体注释,以及使用事实类型对所述每个文档中引用事实的文本跨度进行注释以形成关系注释;
对于引用所述事实中的一个事实的每个所注释的文本跨度,将所述事实中的所述一个事实链接到所述每个注释;以及
在索引中记录所述实体、所述事实、引用所述实体的注释以及引用所述事实的注释。
17.根据权利要求16的方法,还包括:
确定所述实体注释中的哪些实体注释引用同一事实;以及
确定所述关系注释中的哪些关系注释引用同一事实。
18.根据权利要求16的方法,还包括
使用所述索引来标识输入查询的候选答案。
19.根据权利要求18的方法,还包括使用所述索引中的事实和实体来标识所述候选答案的证据。
20.根据权利要求19的方法,还包括:
标识所述证据的前提;以及
使用所述索引来标识所述文档中引用每个所述前提的一个或多个文档。
21.一种用于检索文档的系统,所述系统包括:
计算机设备,所述计算机设备包括至少一个不同软件模块,每个不同软件模块包含在有形计算机可读介质中;存储器;以及至少一个处理器,所述处理器耦合到所述存储器并可操作以执行以下步骤:
在给定索引内进行搜索以标识来自用户的输入查询的候选答案;
标识所述候选答案的至少一个证据,所述证据包括一系列前提;
在所述索引内进行搜索以标识包括对所述一个证据的所述前提的引用的多个文档;
选择一组所述文档,其作为一个集合而言包括对所有所述前提的引用;以及
将所述一组文档返回给所述用户。
22.根据权利要求21的系统,其中选择一组文档包括使用定义的算法标识一组准最小文档。
23.根据权利要求21的系统,其中选择一组文档包括使用定义的算法标识具有包括对所有所述前提的引用所需的最小数量文档的一组文档。
24.根据权利要求21的系统,其中:
所述多个文档中的每个文档均包括对给定数量的所述前提的引用;以及
选择一组文档包括按照每个所述文档中引用的所述前提的数量的顺序来选择所述组的文档。
25.根据权利要求24的系统,其中形成所述索引包括:
对于每个所述文档,使用实体类型对所述每个文档中引用实体的文本跨度进行注释以形成实体注释,以及使用事实类型对所述每个文档中引用事实的文本跨度进行注释以形成关系注释;
对于引用所述事实中的一个事实的每个所注释的文本跨度,将所述事实中的所述一个事实链接到所述每个注释;以及
在所述索引中记录所述实体、所述事实、引用所述实体的注释以及引用所述事实的注释。
CN201180045729.5A 2010-09-24 2011-09-24 包括从多个文档段收集答案的提供问题答案 Active CN103124980B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US38605110P 2010-09-24 2010-09-24
US61/386,051 2010-09-24
PCT/US2011/053164 WO2012040674A2 (en) 2010-09-24 2011-09-24 Providing answers to questions including assembling answers from multiple document segments

Publications (2)

Publication Number Publication Date
CN103124980A CN103124980A (zh) 2013-05-29
CN103124980B true CN103124980B (zh) 2015-11-25

Family

ID=45871314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180045729.5A Active CN103124980B (zh) 2010-09-24 2011-09-24 包括从多个文档段收集答案的提供问题答案

Country Status (3)

Country Link
US (13) US20120078062A1 (zh)
CN (1) CN103124980B (zh)
WO (1) WO2012040674A2 (zh)

Families Citing this family (253)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9684683B2 (en) * 2010-02-09 2017-06-20 Siemens Aktiengesellschaft Semantic search tool for document tagging, indexing and search
US8584011B2 (en) * 2010-06-22 2013-11-12 Microsoft Corporation Document representation transitioning
EP2400389B1 (en) * 2010-06-24 2016-05-25 Alcatel Lucent A method, a system, a server, a device, a computer program and a computer program product for transmitting data in a computer network
US20120078062A1 (en) 2010-09-24 2012-03-29 International Business Machines Corporation Decision-support application and system for medical differential-diagnosis and treatment using a question-answering system
US11321099B2 (en) * 2011-02-21 2022-05-03 Vvc Holding Llc Architecture for a content driven clinical information system
US9262719B2 (en) * 2011-03-22 2016-02-16 Patrick Soon-Shiong Reasoning engines
US8862543B2 (en) * 2011-06-13 2014-10-14 Business Objects Software Limited Synchronizing primary and secondary repositories
US8832095B2 (en) * 2011-08-24 2014-09-09 International Business Machines Corporation Automated information discovery and traceability for evidence generation
US8935265B2 (en) * 2011-08-30 2015-01-13 Abbyy Development Llc Document journaling
US8533204B2 (en) * 2011-09-02 2013-09-10 Xerox Corporation Text-based searching of image data
US8595251B2 (en) * 2011-11-16 2013-11-26 Verizon Patent And Licensing Inc. Flexible interface module
US9348891B2 (en) * 2011-12-05 2016-05-24 At&T Intellectual Property I, L.P. Online data fusion
US20130151514A1 (en) * 2011-12-09 2013-06-13 Yahoo! Inc. Extracting tips
US20130151547A1 (en) * 2011-12-09 2013-06-13 Sap Ag Method and system for generating document recommendations
US9652506B2 (en) 2011-12-16 2017-05-16 Microsoft Technology Licensing, Llc Providing data experience(s) via disparate semantic annotations based on a respective user scenario
US20130268891A1 (en) * 2012-04-06 2013-10-10 George Michael Finley Rapid response decision device
US9081855B1 (en) 2012-05-31 2015-07-14 Integrity Applications Incorporated Systems and methods for video archive and data extraction
US20140025393A1 (en) * 2012-07-17 2014-01-23 Kang Wang System and method for providing clinical decision support
US20140040181A1 (en) * 2012-07-31 2014-02-06 Rawllin International Inc. Automatic faq generation
US9280520B2 (en) * 2012-08-02 2016-03-08 American Express Travel Related Services Company, Inc. Systems and methods for semantic information retrieval
US9292576B2 (en) * 2012-08-09 2016-03-22 International Business Machines Corporation Hypothesis-driven, real-time analysis of physiological data streams using textual representations
US9965472B2 (en) * 2012-08-09 2018-05-08 International Business Machines Corporation Content revision using question and answer generation
US10169456B2 (en) * 2012-08-14 2019-01-01 International Business Machines Corporation Automatic determination of question in text and determination of candidate responses using data mining
US10095789B2 (en) * 2012-08-26 2018-10-09 Derek A. Devries Method and system of searching composite web page elements and annotations presented by an annotating proxy server
US20140067856A1 (en) * 2012-09-05 2014-03-06 BrightSky Australia Systems and methods for facilitating diagnosis and product identification for patients requiring continence products
US10614725B2 (en) 2012-09-11 2020-04-07 International Business Machines Corporation Generating secondary questions in an introspective question answering system
KR101375282B1 (ko) * 2012-09-20 2014-03-17 한국전력공사 계통 데이터 축약 시스템 및 그 방법
US10403403B2 (en) * 2012-09-28 2019-09-03 Cerner Innovation, Inc. Adaptive medical documentation system
US9830423B2 (en) * 2013-03-13 2017-11-28 Abhishek Biswas Virtual communication platform for healthcare
US11694797B2 (en) * 2012-10-30 2023-07-04 Neil S. Davey Virtual healthcare communication platform
US20140129246A1 (en) * 2012-11-07 2014-05-08 Koninklijke Philips Electronics N.V. Extension of clinical guidelines based on clinical expert recommendations
WO2014080081A1 (en) * 2012-11-23 2014-05-30 Carespace Oy A medical self-service unit and related system and method
US9443005B2 (en) * 2012-12-14 2016-09-13 Instaknow.Com, Inc. Systems and methods for natural language processing
US9753986B2 (en) * 2012-12-17 2017-09-05 International Business Machines Corporation Multi-dimensional feature merging for supporting evidence in a question and answering system
US9355105B2 (en) * 2012-12-19 2016-05-31 International Business Machines Corporation Indexing of large scale patient set
US10424403B2 (en) 2013-01-28 2019-09-24 Siemens Aktiengesellschaft Adaptive medical documentation system
WO2014117149A1 (en) 2013-01-28 2014-07-31 Seniorlink Incorporated Managing the care of a client in a care management system
WO2014134382A1 (en) * 2013-03-01 2014-09-04 3M Innovative Properties Company Systems and methods for requesting medical information
EP2775412A1 (en) * 2013-03-07 2014-09-10 Medesso GmbH Method of generating a medical suggestion as a support in medical decision making
JP6205761B2 (ja) * 2013-03-11 2017-10-04 コニカミノルタ株式会社 健康支援システム、健康支援方法およびプログラム
US20140310190A1 (en) * 2013-03-14 2014-10-16 Worldone, Inc. System and method for concept discovery with online information environments
US9621601B2 (en) 2013-03-29 2017-04-11 International Business Machines Corporation User collaboration for answer generation in question and answer system
US9613317B2 (en) * 2013-03-29 2017-04-04 International Business Machines Corporation Justifying passage machine learning for question and answer systems
US9449278B2 (en) * 2013-04-12 2016-09-20 Apple Inc. Cloud-based diagnostics and remediation
US20140372137A1 (en) * 2013-06-12 2014-12-18 Dynamic Health Inventions, LLC Medical disposition system and method for generating disposition analysis
US9633317B2 (en) 2013-06-20 2017-04-25 Viv Labs, Inc. Dynamically evolving cognitive architecture system based on a natural language intent interpreter
US10474961B2 (en) 2013-06-20 2019-11-12 Viv Labs, Inc. Dynamically evolving cognitive architecture system based on prompting for additional user input
US9594542B2 (en) * 2013-06-20 2017-03-14 Viv Labs, Inc. Dynamically evolving cognitive architecture system based on training by third-party developers
US10083009B2 (en) 2013-06-20 2018-09-25 Viv Labs, Inc. Dynamically evolving cognitive architecture system planning
US10585927B1 (en) 2013-06-26 2020-03-10 Google Llc Determining a set of steps responsive to a how-to query
US9202167B1 (en) 2013-06-27 2015-12-01 Emc Corporation Automated defect identification and resolution
US9235802B1 (en) 2013-06-27 2016-01-12 Emc Corporation Automated defect and optimization discovery
US10915222B2 (en) * 2013-07-02 2021-02-09 Cerner Innovation, Inc. Multi-disciplinary team workspace
US20160004696A1 (en) * 2013-07-07 2016-01-07 Hristo Trenkov Call and response processing engine and clearinghouse architecture, system and method
US10706092B1 (en) * 2013-07-28 2020-07-07 William S. Morriss Error and manipulation resistant search technology
US9313091B1 (en) * 2013-09-26 2016-04-12 Emc Corporation Analytics platform for automated diagnosis, remediation, and proactive supportability
US9471594B1 (en) * 2013-09-30 2016-10-18 Emc Corporation Defect remediation within a system
US9274874B1 (en) 2013-09-30 2016-03-01 Emc Corporation Automated defect diagnosis from machine diagnostic data
US9298766B2 (en) 2013-10-09 2016-03-29 International Business Machines Corporation Empathy injection for question-answering systems
US20150149450A1 (en) * 2013-11-27 2015-05-28 International Business Machines Corporation Determining problem resolutions within a networked computing environment
US20150149940A1 (en) * 2013-11-27 2015-05-28 General Electric Company Medical Test Result Presentation
US10109377B2 (en) 2013-12-03 2018-10-23 Cura Technologies Inc. System and method for facilitating delivery of patient-care
US9965548B2 (en) * 2013-12-05 2018-05-08 International Business Machines Corporation Analyzing natural language questions to determine missing information in order to improve accuracy of answers
US9342561B2 (en) 2014-01-08 2016-05-17 International Business Machines Corporation Creating and using titles in untitled documents to answer questions
US9589231B2 (en) 2014-04-28 2017-03-07 Xerox Corporation Social medical network for diagnosis assistance
US9536443B2 (en) * 2014-04-28 2017-01-03 International Business Machines Corporation Evaluating expert opinions in a question and answer system
US9607035B2 (en) 2014-05-21 2017-03-28 International Business Machines Corporation Extensible validation framework for question and answer systems
US9460075B2 (en) 2014-06-17 2016-10-04 International Business Machines Corporation Solving and answering arithmetic and algebraic problems using natural language processing
US9633309B2 (en) 2014-06-19 2017-04-25 International Business Machines Corporation Displaying quality of question being asked a question answering system
US9740769B2 (en) * 2014-07-17 2017-08-22 International Business Machines Corporation Interpreting and distinguishing lack of an answer in a question answering system
US9619513B2 (en) 2014-07-29 2017-04-11 International Business Machines Corporation Changed answer notification in a question and answer system
US9514185B2 (en) * 2014-08-07 2016-12-06 International Business Machines Corporation Answering time-sensitive questions
US10019513B1 (en) 2014-08-12 2018-07-10 Google Llc Weighted answer terms for scoring answer passages
US9940367B1 (en) 2014-08-13 2018-04-10 Google Llc Scoring candidate answer passages
US10180964B1 (en) 2014-08-13 2019-01-15 Google Llc Candidate answer passages
US9916348B1 (en) 2014-08-13 2018-03-13 Google Llc Answer facts from structured content
US10192639B2 (en) 2014-08-22 2019-01-29 Drfirst.Com, Inc. Method and system for medical suggestion search
US10019672B2 (en) * 2014-08-27 2018-07-10 International Business Machines Corporation Generating responses to electronic communications with a question answering system
US11651242B2 (en) * 2014-08-27 2023-05-16 International Business Machines Corporation Generating answers to text input in an electronic communication tool with a question answering system
US20160078182A1 (en) * 2014-09-16 2016-03-17 International Business Machines Corporation Using Toxicity Level in Treatment Recommendations by Question Answering Systems
US9430557B2 (en) 2014-09-17 2016-08-30 International Business Machines Corporation Automatic data interpretation and answering analytical questions with tables and charts
US9892192B2 (en) 2014-09-30 2018-02-13 International Business Machines Corporation Information handling system and computer program product for dynamically assigning question priority based on question extraction and domain dictionary
US20160110520A1 (en) * 2014-10-16 2016-04-21 International Business Machines Corporation Calculating Treatment Response for a Patient
US9400956B2 (en) 2014-11-05 2016-07-26 International Business Machines Corporation Answer interactions in a question-answering environment
US20160133148A1 (en) * 2014-11-06 2016-05-12 PrepFlash LLC Intelligent content analysis and creation
US20160132501A1 (en) * 2014-11-07 2016-05-12 Google Inc. Determining answers to interrogative queries using web resources
US11204929B2 (en) 2014-11-18 2021-12-21 International Business Machines Corporation Evidence aggregation across heterogeneous links for intelligence gathering using a question answering system
US9892362B2 (en) 2014-11-18 2018-02-13 International Business Machines Corporation Intelligence gathering and analysis using a question answering system
US11244113B2 (en) 2014-11-19 2022-02-08 International Business Machines Corporation Evaluating evidential links based on corroboration for intelligence analysis
US9472115B2 (en) 2014-11-19 2016-10-18 International Business Machines Corporation Grading ontological links based on certainty of evidential statements
US10318870B2 (en) 2014-11-19 2019-06-11 International Business Machines Corporation Grading sources and managing evidence for intelligence analysis
US20160140216A1 (en) * 2014-11-19 2016-05-19 International Business Machines Corporation Adjusting Fact-Based Answers to Consider Outcomes
US9792549B2 (en) 2014-11-21 2017-10-17 International Business Machines Corporation Extraction of semantic relations using distributional relation detection
US11836211B2 (en) 2014-11-21 2023-12-05 International Business Machines Corporation Generating additional lines of questioning based on evaluation of a hypothetical link between concept entities in evidential data
US9727642B2 (en) 2014-11-21 2017-08-08 International Business Machines Corporation Question pruning for evaluating a hypothetical ontological link
US10331673B2 (en) 2014-11-24 2019-06-25 International Business Machines Corporation Applying level of permanence to statements to influence confidence ranking
US10423717B2 (en) * 2014-11-26 2019-09-24 International Business Machines Corporation System and method for analyzing and deducing criteria-related content for evaluation
US10061842B2 (en) 2014-12-09 2018-08-28 International Business Machines Corporation Displaying answers in accordance with answer classifications
US10083002B2 (en) * 2014-12-18 2018-09-25 International Business Machines Corporation Using voice-based web navigation to conserve cellular data
US10108906B2 (en) * 2014-12-19 2018-10-23 International Business Machines Corporation Avoiding supporting evidence processing when evidence scoring does not affect final ranking of a candidate answer
US9652717B2 (en) * 2014-12-19 2017-05-16 International Business Machines Corporation Avoidance of supporting evidence processing based on key attribute predictors
US10031912B2 (en) * 2014-12-29 2018-07-24 International Business Machines Corporation Verification of natural language processing derived attributes
US10147047B2 (en) * 2015-01-07 2018-12-04 International Business Machines Corporation Augmenting answer keys with key characteristics for training question and answer systems
US10628894B1 (en) * 2015-01-28 2020-04-21 Intuit Inc. Method and system for providing personalized responses to questions received from a user of an electronic tax return preparation system
US10475043B2 (en) 2015-01-28 2019-11-12 Intuit Inc. Method and system for pro-active detection and correction of low quality questions in a question and answer based customer support system
US9940584B2 (en) * 2015-02-13 2018-04-10 International Business Machines Corporation Leveraging an external ontology for graph expansion in inference systems
JP6347755B2 (ja) * 2015-02-27 2018-06-27 富士フイルム株式会社 診療支援装置、診療支援装置の作動方法及び作動プログラム、診療支援システム
US9881166B2 (en) * 2015-04-16 2018-01-30 International Business Machines Corporation Multi-focused fine-grained security framework
US10083213B1 (en) * 2015-04-27 2018-09-25 Intuit Inc. Method and system for routing a question based on analysis of the question content and predicted user satisfaction with answer content before the answer content is generated
US10755294B1 (en) 2015-04-28 2020-08-25 Intuit Inc. Method and system for increasing use of mobile devices to provide answer content in a question and answer based customer support system
US10134050B1 (en) 2015-04-29 2018-11-20 Intuit Inc. Method and system for facilitating the production of answer content from a mobile device for a question and answer based customer support system
US10169326B2 (en) 2015-05-22 2019-01-01 International Business Machines Corporation Cognitive reminder notification mechanisms for answers to questions
US9912736B2 (en) 2015-05-22 2018-03-06 International Business Machines Corporation Cognitive reminder notification based on personal user profile and activity information
US9990414B2 (en) * 2015-06-15 2018-06-05 International Business Machines Corporation Cognitive architecture with content provider managed corpus
US10447777B1 (en) 2015-06-30 2019-10-15 Intuit Inc. Method and system for providing a dynamically updated expertise and context based peer-to-peer customer support system within a software application
US10152534B2 (en) * 2015-07-02 2018-12-11 International Business Machines Corporation Monitoring a corpus for changes to previously provided answers to questions
US10147037B1 (en) 2015-07-28 2018-12-04 Intuit Inc. Method and system for determining a level of popularity of submission content, prior to publicizing the submission content with a question and answer support system
US10475044B1 (en) 2015-07-29 2019-11-12 Intuit Inc. Method and system for question prioritization based on analysis of the question content and predicted asker engagement before answer content is generated
US10268956B2 (en) 2015-07-31 2019-04-23 Intuit Inc. Method and system for applying probabilistic topic models to content in a tax environment to improve user satisfaction with a question and answer customer support system
US10394804B1 (en) 2015-10-08 2019-08-27 Intuit Inc. Method and system for increasing internet traffic to a question and answer customer support system
US10769185B2 (en) 2015-10-16 2020-09-08 International Business Machines Corporation Answer change notifications based on changes to user profile information
US10242093B2 (en) 2015-10-29 2019-03-26 Intuit Inc. Method and system for performing a probabilistic topic analysis of search queries for a customer support system
US9965705B2 (en) * 2015-11-03 2018-05-08 Baidu Usa Llc Systems and methods for attention-based configurable convolutional neural networks (ABC-CNN) for visual question answering
US9886390B2 (en) * 2015-11-10 2018-02-06 International Business Machines Corporation Intelligent caching of responses in a cognitive system
US11048737B2 (en) * 2015-11-16 2021-06-29 International Business Machines Corporation Concept identification in a question answering system
US10311065B2 (en) 2015-12-01 2019-06-04 International Business Machines Corporation Scoring candidate evidence passages for criteria validation using historical evidence data
US10546654B2 (en) * 2015-12-17 2020-01-28 Drfirst.Com, Inc. Method and system for intelligent completion of medical record based on big data analytics
US11048874B2 (en) * 2016-01-05 2021-06-29 International Business Machines Corporation Medical record error detection system and method
US10937109B1 (en) 2016-01-08 2021-03-02 Intuit Inc. Method and technique to calculate and provide confidence score for predicted tax due/refund
US11227113B2 (en) * 2016-01-20 2022-01-18 International Business Machines Corporation Precision batch interaction with a question answering system
US9760690B1 (en) * 2016-03-10 2017-09-12 Siemens Healthcare Gmbh Content-based medical image rendering based on machine learning
AU2017234144A1 (en) * 2016-03-14 2018-11-08 Trinetx, Inc. Querying data using master terminology data model
EP3223181B1 (en) 2016-03-24 2019-12-18 Sofradim Production System and method of generating a model and simulating an effect on a surgical repair site
US10691885B2 (en) * 2016-03-30 2020-06-23 Evernote Corporation Extracting structured data from handwritten and audio notes
US10599699B1 (en) 2016-04-08 2020-03-24 Intuit, Inc. Processing unstructured voice of customer feedback for improving content rankings in customer support systems
US10861604B2 (en) 2016-05-05 2020-12-08 Advinow, Inc. Systems and methods for automated medical diagnostics
KR102588688B1 (ko) * 2016-05-12 2023-10-12 한국전자통신연구원 데이터 분석 방법 및 시스템
CN107402912B (zh) * 2016-05-19 2019-12-31 北京京东尚科信息技术有限公司 解析语义的方法和装置
WO2017210634A1 (en) * 2016-06-03 2017-12-07 Maluuba Inc. Iterative alternating neural attention for machine reading
US10162734B1 (en) 2016-07-20 2018-12-25 Intuit Inc. Method and system for crowdsourcing software quality testing and error detection in a tax return preparation system
US10467541B2 (en) 2016-07-27 2019-11-05 Intuit Inc. Method and system for improving content searching in a question and answer customer support system by using a crowd-machine learning hybrid predictive model
US10460398B1 (en) 2016-07-27 2019-10-29 Intuit Inc. Method and system for crowdsourcing the detection of usability issues in a tax return preparation system
US11087235B2 (en) * 2016-08-02 2021-08-10 International Business Machines Corporation Cohort consensus approach to manufacturing watson Q and A pipeline training cases from historical data
US10755804B2 (en) 2016-08-10 2020-08-25 Talix, Inc. Health information system for searching, analyzing and annotating patient data
US10606893B2 (en) 2016-09-15 2020-03-31 International Business Machines Corporation Expanding knowledge graphs based on candidate missing edges to optimize hypothesis set adjudication
US10445332B2 (en) 2016-09-28 2019-10-15 Intuit Inc. Method and system for providing domain-specific incremental search results with a customer self-service system for a financial management system
US10659398B2 (en) * 2016-10-03 2020-05-19 Nohold, Inc. Interactive virtual conversation interface systems and methods
US10892057B2 (en) 2016-10-06 2021-01-12 International Business Machines Corporation Medical risk factors evaluation
US10998103B2 (en) * 2016-10-06 2021-05-04 International Business Machines Corporation Medical risk factors evaluation
US10437841B2 (en) * 2016-10-10 2019-10-08 Microsoft Technology Licensing, Llc Digital assistant extension automatic ranking and selection
US10572954B2 (en) 2016-10-14 2020-02-25 Intuit Inc. Method and system for searching for and navigating to user content and other user experience pages in a financial management system with a customer self-service system for the financial management system
US10733677B2 (en) 2016-10-18 2020-08-04 Intuit Inc. Method and system for providing domain-specific and dynamic type ahead suggestions for search query terms with a customer self-service system for a tax return preparation system
US10699215B2 (en) * 2016-11-16 2020-06-30 International Business Machines Corporation Self-training of question answering system using question profiles
US10552843B1 (en) 2016-12-05 2020-02-04 Intuit Inc. Method and system for improving search results by recency boosting customer support content for a customer self-help system associated with one or more financial management systems
US11031107B2 (en) * 2017-01-11 2021-06-08 International Business Machines Corporation Extracting patient information from an electronic medical record
US10748157B1 (en) 2017-01-12 2020-08-18 Intuit Inc. Method and system for determining levels of search sophistication for users of a customer self-help system to personalize a content search user experience provided to the users and to increase a likelihood of user satisfaction with the search experience
US20180204106A1 (en) * 2017-01-16 2018-07-19 International Business Machines Corporation System and method for personalized deep text analysis
US10896444B2 (en) * 2017-01-24 2021-01-19 International Business Machines Corporation Digital content generation based on user feedback
US11295861B2 (en) 2017-02-03 2022-04-05 Koninklijke Philips N.V. Extracted concept normalization using external evidence
US11087087B1 (en) * 2017-02-15 2021-08-10 Robert Mayer Comparative expression processing
US20180247022A1 (en) * 2017-02-24 2018-08-30 International Business Machines Corporation Medical treatment system
US10251709B2 (en) * 2017-03-05 2019-04-09 Samuel Cho Architecture, system, and method for developing and robotically performing a medical procedure activity
JP6622236B2 (ja) * 2017-03-06 2019-12-18 株式会社日立製作所 発想支援装置及び発想支援方法
US10052026B1 (en) * 2017-03-06 2018-08-21 Bao Tran Smart mirror
EP3566151A4 (en) * 2017-03-16 2020-11-04 Microsoft Technology Licensing, LLC GENERATION OF RESPONSES IN AN AUTOMATED ONLINE CONVERSATION
US10572595B2 (en) * 2017-04-13 2020-02-25 Baidu Usa Llc Global normalized reader systems and methods
US10346454B2 (en) * 2017-04-17 2019-07-09 Mammoth Medical, Llc System and method for automated multi-dimensional network management
US10769138B2 (en) 2017-06-13 2020-09-08 International Business Machines Corporation Processing context-based inquiries for knowledge retrieval
US20180365590A1 (en) * 2017-06-19 2018-12-20 International Business Machines Corporation Assessment result determination based on predictive analytics or machine learning
US11164679B2 (en) 2017-06-20 2021-11-02 Advinow, Inc. Systems and methods for intelligent patient interface exam station
US10839008B2 (en) * 2017-07-06 2020-11-17 Sync Floor, Inc. System and method for natural language music search
US10922367B2 (en) 2017-07-14 2021-02-16 Intuit Inc. Method and system for providing real time search preview personalization in data management systems
EP3441918A1 (en) * 2017-08-09 2019-02-13 Siemens Aktiengesellschaft System and method for plant efficiency evaluation
US10628109B2 (en) * 2017-08-09 2020-04-21 Google Llc Dynamically adapting panels of a user interface
US11093951B1 (en) 2017-09-25 2021-08-17 Intuit Inc. System and method for responding to search queries using customer self-help systems associated with a plurality of data management systems
CN110020010A (zh) * 2017-10-10 2019-07-16 阿里巴巴集团控股有限公司 数据处理方法、装置及电子设备
JP7316271B2 (ja) * 2017-10-10 2023-07-27 サノフイ 医療照会回答装置
US11321364B2 (en) * 2017-10-13 2022-05-03 Kpmg Llp System and method for analysis and determination of relationships from a variety of data sources
US11481646B2 (en) * 2017-10-27 2022-10-25 Google Llc Selecting answer spans from electronic documents using neural networks
US11132503B2 (en) * 2017-10-30 2021-09-28 Nohold, Inc. Query a system via natural language NLP2X
US11055354B2 (en) * 2017-11-03 2021-07-06 Salesforce.Com, Inc. Omni-platform question answering system
US11409749B2 (en) * 2017-11-09 2022-08-09 Microsoft Technology Licensing, Llc Machine reading comprehension system for answering queries related to a document
US10937551B2 (en) 2017-11-27 2021-03-02 International Business Machines Corporation Medical concept sorting based on machine learning of attribute value differentiation
US10467640B2 (en) * 2017-11-29 2019-11-05 Qualtrics, Llc Collecting and analyzing electronic survey responses including user-composed text
US10387576B2 (en) * 2017-11-30 2019-08-20 International Business Machines Corporation Document preparation with argumentation support from a deep question answering system
US10803100B2 (en) 2017-11-30 2020-10-13 International Business Machines Corporation Tagging named entities with source document topic information for deep question answering
US10810215B2 (en) * 2017-12-15 2020-10-20 International Business Machines Corporation Supporting evidence retrieval for complex answers
WO2019122288A1 (en) * 2017-12-22 2019-06-27 Koninklijke Philips N.V. Digital health proxy system and device
US20190214134A1 (en) * 2018-01-05 2019-07-11 James Stewart Bates System and method for automated healthcare service
US11436642B1 (en) 2018-01-29 2022-09-06 Intuit Inc. Method and system for generating real-time personalized advertisements in data management self-help systems
JP6973515B2 (ja) * 2018-02-07 2021-12-01 日本電気株式会社 情報処理装置、情報処理方法及びプログラム
CN108446320A (zh) * 2018-02-09 2018-08-24 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
EP3528143A1 (en) * 2018-02-19 2019-08-21 Siemens Aktiengesellschaft Bot for a system
US10939806B2 (en) 2018-03-06 2021-03-09 Advinow, Inc. Systems and methods for optical medical instrument patient measurements
US11348688B2 (en) 2018-03-06 2022-05-31 Advinow, Inc. Systems and methods for audio medical instrument patient measurements
CN111819530A (zh) * 2018-03-09 2020-10-23 三星电子株式会社 电子设备中用于增强用户体验的电子设备和设备上方法
US10901989B2 (en) * 2018-03-14 2021-01-26 International Business Machines Corporation Determining substitute statements
US11269665B1 (en) 2018-03-28 2022-03-08 Intuit Inc. Method and system for user experience personalization in data management systems using machine learning
IL258689A (en) 2018-04-12 2018-05-31 Browarnik Abel A system and method for computerized semantic indexing and searching
US11177039B2 (en) 2018-05-22 2021-11-16 International Business Machines Corporation Assessing a treatment service based on a measure of trust dynamics
US11557398B2 (en) 2018-05-22 2023-01-17 International Business Machines Corporation Delivering a chemical compound based on a measure of trust dynamics
US11004563B2 (en) 2018-05-22 2021-05-11 International Business Machines Corporation Adaptive pain management and reduction based on monitoring user conditions
EP4115944A1 (en) 2018-05-22 2023-01-11 Boston Scientific Neuromodulation Corporation Adaptive electrical neurostimulation treatment to reduce pain perception
US10943674B2 (en) 2018-05-22 2021-03-09 International Business Machines Corporation Updating a clinical trial participation status based on a measure of trust dynamics
US10957434B2 (en) 2018-05-22 2021-03-23 International Business Machines Corporation Updating a prescription status based on a measure of trust dynamics
US11389655B2 (en) 2018-05-22 2022-07-19 Boston Scientific Neuromodulation Corporation Adaptive chronic pain relief via implanted electrical neurostimulation
US10964433B2 (en) 2018-05-22 2021-03-30 International Business Machines Corporation Assessing a medical procedure based on a measure of trust dynamics
US11113175B1 (en) * 2018-05-31 2021-09-07 The Ultimate Software Group, Inc. System for discovering semantic relationships in computer programs
WO2019246239A1 (en) * 2018-06-19 2019-12-26 Ellipsis Health, Inc. Systems and methods for mental health assessment
US20190385711A1 (en) * 2018-06-19 2019-12-19 Ellipsis Health, Inc. Systems and methods for mental health assessment
US11416513B2 (en) * 2018-06-27 2022-08-16 Universal Research Solutions, Llc Searching data structures maintained by distributed data sources
CN110659354B (zh) 2018-06-29 2023-07-14 阿里巴巴(中国)有限公司 问答系统的建立方法、装置、存储介质及电子设备
CN108962384A (zh) * 2018-07-03 2018-12-07 科大讯飞股份有限公司 一种决策结果确定方法、装置、设备及可读存储介质
CN109033277A (zh) * 2018-07-10 2018-12-18 广州极天信息技术股份有限公司 基于机器学习的类脑系统、方法、设备及存储介质
CN109145168A (zh) * 2018-07-11 2019-01-04 广州极天信息技术股份有限公司 一种专家服务机器人云平台
JP7119707B2 (ja) * 2018-07-26 2022-08-17 オムロンヘルスケア株式会社 診断支援装置、診断支援方法及び診断支援プログラム
CN109065154B (zh) * 2018-07-27 2021-04-30 清华大学 一种决策结果确定方法、装置、设备及可读存储介质
EP3833240B1 (en) * 2018-08-08 2024-05-15 Koninklijke Philips N.V. Incorporating contextual data in a clinical assessment
US11373758B2 (en) 2018-09-10 2022-06-28 International Business Machines Corporation Cognitive assistant for aiding expert decision
US20200098476A1 (en) * 2018-09-25 2020-03-26 Clover Health Dynamic prompting for diagnosis suspecting
US11049604B2 (en) 2018-09-26 2021-06-29 International Business Machines Corporation Cognitive monitoring of online user profiles to detect changes in online behavior
US11263405B2 (en) * 2018-10-10 2022-03-01 Healthpointe Solutions, Inc. System and method for answering natural language questions posed by a user
US20210398670A1 (en) * 2018-10-10 2021-12-23 Healthpointe Solutions, Inc. System and method for templatizing conversations with an agent and user-originated follow-ups
WO2020077082A1 (en) * 2018-10-10 2020-04-16 Healthpointe Solutions, Inc. System and method for recommending items in conversational streams
WO2020077078A1 (en) * 2018-10-10 2020-04-16 Healthpointe Solutions, Inc. Cognitive artificial-intelligence based population management
US11037049B2 (en) * 2018-10-29 2021-06-15 International Business Machines Corporation Determining rationale of cognitive system output
US11043214B1 (en) * 2018-11-29 2021-06-22 Amazon Technologies, Inc. Speech recognition using dialog history
US10831989B2 (en) 2018-12-04 2020-11-10 International Business Machines Corporation Distributing updated communications to viewers of prior versions of the communications
CN109670088A (zh) * 2018-12-13 2019-04-23 平安科技(深圳)有限公司 语音问答交互方法、装置、计算机设备及存储介质
US20200210855A1 (en) * 2018-12-28 2020-07-02 Robert Bosch Gmbh Domain knowledge injection into semi-crowdsourced unstructured data summarization for diagnosis and repair
US11016965B2 (en) * 2019-01-22 2021-05-25 International Business Machines Corporation Graphical user interface for defining atomic query for querying knowledge graph databases
US10915561B2 (en) * 2019-01-28 2021-02-09 International Business Machines Corporation Implementing unstructured content utilization from structured sources in system for answering questions
CN110223685A (zh) * 2019-05-29 2019-09-10 江苏理工学院 基于dsp语音识别的新型医院挂号引导系统
CN110175333B (zh) * 2019-06-04 2023-09-26 科大讯飞股份有限公司 一种证据指引方法、装置、设备及存储介质
US10489454B1 (en) * 2019-06-28 2019-11-26 Capital One Services, Llc Indexing a dataset based on dataset tags and an ontology
US11531703B2 (en) 2019-06-28 2022-12-20 Capital One Services, Llc Determining data categorizations based on an ontology and a machine-learning model
US11157707B2 (en) * 2019-07-23 2021-10-26 International Business Machines Corporation Natural language response improvement in machine assisted agents
US20210022688A1 (en) * 2019-07-26 2021-01-28 GPS Health LLC Methods and systems for generating a diagnosis via a digital health application
US11403355B2 (en) 2019-08-20 2022-08-02 Ai Software, LLC Ingestion and retrieval of dynamic source documents in an automated question answering system
US11514246B2 (en) 2019-10-25 2022-11-29 International Business Machines Corporation Providing semantic completeness assessment with minimal domain-specific data
CN111078875B (zh) * 2019-12-03 2022-12-13 哈尔滨工程大学 一种基于机器学习的从半结构化文档中提取问答对的方法
CN111339268B (zh) * 2020-02-19 2023-08-15 北京百度网讯科技有限公司 实体词识别方法和装置
CN111586091B (zh) * 2020-03-25 2021-03-19 光控特斯联(重庆)信息技术有限公司 一种实现算力组配的边缘计算网关系统
US11487820B2 (en) 2020-03-31 2022-11-01 International Business Machines Corporation Dynamic natural question generation via semantic knowledge representation
US11783131B2 (en) 2020-09-10 2023-10-10 International Business Machines Corporation Knowledge graph fusion
CN112131354B (zh) * 2020-11-26 2021-04-16 广州华多网络科技有限公司 答案筛选方法、装置、终端设备和计算机可读存储介质
CN112863278B (zh) * 2021-02-09 2022-07-01 柳州智视科技有限公司 一种题目条件替换后的解题方法
JP7072817B1 (ja) 2021-03-12 2022-05-23 株式会社メディアコンテンツファクトリー Web問診システム及びそのプログラム
CN113012822A (zh) * 2021-03-23 2021-06-22 同济大学 一种基于生成式对话技术的医疗问答系统
CN113392124B (zh) * 2021-06-15 2024-03-22 中国工商银行股份有限公司 一种基于结构化语言的数据查询方法及装置
US11868420B2 (en) * 2021-06-28 2024-01-09 International Business Machines Corporation Faceted search through interactive graphics
WO2024016139A1 (zh) * 2022-07-19 2024-01-25 华为技术有限公司 查询方法和相关设备
CN117290694B (zh) * 2023-11-24 2024-03-15 北京并行科技股份有限公司 问答系统评估方法、装置、计算设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020188586A1 (en) * 2001-03-01 2002-12-12 Veale Richard A. Multi-layered semiotic mechanism for answering natural language questions using document retrieval combined with information extraction
CN1822630A (zh) * 2005-01-19 2006-08-23 富士施乐株式会社 自动评分装置、方法及其存储介质
CN1826597A (zh) * 2003-04-25 2006-08-30 奥弗图尔服务公司 用于机器学习文档相关性函数的方法与装置
CN1916898A (zh) * 2006-09-07 2007-02-21 上海交通大学 面向信息安全的在线咨询自动应答系统
CN101377777A (zh) * 2007-09-03 2009-03-04 北京百问百答网络技术有限公司 一种自动问答方法和系统
US20090287678A1 (en) * 2008-05-14 2009-11-19 International Business Machines Corporation System and method for providing answers to questions

Family Cites Families (151)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3559995A (en) 1968-04-29 1971-02-02 Psychomantic Game Co Question answering gameboard and spinner
JPS5853787B2 (ja) 1979-08-30 1983-12-01 シャープ株式会社 電子辞典
JPS58201175A (ja) 1982-05-20 1983-11-22 Kokusai Denshin Denwa Co Ltd <Kdd> 機械翻訳方式
US4829423A (en) 1983-01-28 1989-05-09 Texas Instruments Incorporated Menu-based natural language understanding system
US5036472A (en) 1988-12-08 1991-07-30 Hallmark Cards, Inc. Computer controlled machine for vending personalized products or the like
US4921427A (en) 1989-08-21 1990-05-01 Dunn Jeffery W Educational device
US5546316A (en) 1990-10-22 1996-08-13 Hallmark Cards, Incorporated Computer controlled system for vending personalized products
US5559714A (en) 1990-10-22 1996-09-24 Hallmark Cards, Incorporated Method and apparatus for display sequencing personalized social occasion products
JP2804403B2 (ja) 1991-05-16 1998-09-24 インターナショナル・ビジネス・マシーンズ・コーポレイション 質問回答システム
US5421008A (en) 1991-11-08 1995-05-30 International Business Machines Corporation System for interactive graphical construction of a data base query and storing of the query object links as an object
US5374894A (en) 1992-08-19 1994-12-20 Hyundai Electronics America Transition detection circuit
CA2175187A1 (en) 1993-10-28 1995-05-04 William K. Thomson Database search summary with user determined characteristics
US5935060A (en) 1996-07-12 1999-08-10 First Opinion Corporation Computerized medical diagnostic and treatment advice system including list based processing
US5550746A (en) 1994-12-05 1996-08-27 American Greetings Corporation Method and apparatus for storing and selectively retrieving product data by correlating customer selection criteria with optimum product designs based on embedded expert judgments
US5794050A (en) 1995-01-04 1998-08-11 Intelligent Text Processing, Inc. Natural language understanding system
US6061675A (en) 1995-05-31 2000-05-09 Oracle Corporation Methods and apparatus for classifying terminology utilizing a knowledge catalog
UA64743C2 (uk) 1997-03-13 2004-03-15 Фьост Опініон Корпорейшн Автоматизований спосіб керування лікуванням (варіанти) та система керування лікуванням захворювань (варіанти) шляхом здійснення способів оптимізації лікування і медичної діагностики за допомогою вибору варіантів питань, медичної діагностики, терапевтичних змін, режиму попереднього перегляду, визначення відсутності відповіді, оцінювання здоров'я, визначення значущого симптому
US6208985B1 (en) 1997-07-09 2001-03-27 Caseventure Llc Data refinery: a direct manipulation user interface for data querying with integrated qualitative and quantitative graphical representations of query construction and query result presentation
US6725227B1 (en) 1998-10-02 2004-04-20 Nec Corporation Advanced web bookmark database system
US6438533B1 (en) * 1998-10-30 2002-08-20 College Of American Pathologists System for retrieval of information from data structure of medical records
US6292796B1 (en) 1999-02-23 2001-09-18 Clinical Focus, Inc. Method and apparatus for improving access to literature
US6426761B1 (en) * 1999-04-23 2002-07-30 Internation Business Machines Corporation Information presentation system for a graphical user interface
US7181438B1 (en) 1999-07-21 2007-02-20 Alberti Anemometer, Llc Database access system
US6665666B1 (en) * 1999-10-26 2003-12-16 International Business Machines Corporation System, method and program product for answering questions using a search engine
EP1244978A1 (en) 2000-01-06 2002-10-02 Igotpain.Com, Inc. System and method of decision making
US6947885B2 (en) 2000-01-18 2005-09-20 At&T Corp. Probabilistic model for natural language generation
US6829603B1 (en) 2000-02-02 2004-12-07 International Business Machines Corp. System, method and program product for interactive natural dialog
US6468210B2 (en) * 2000-02-14 2002-10-22 First Opinion Corporation Automated diagnostic system and method including synergies
JP2001297259A (ja) 2000-04-13 2001-10-26 Fujitsu Ltd 質問応答システム
US7149756B1 (en) 2000-05-08 2006-12-12 Medoctor, Inc. System and method for determining the probable existence of disease
US8396859B2 (en) 2000-06-26 2013-03-12 Oracle International Corporation Subject matter context search engine
JP2002041540A (ja) 2000-07-28 2002-02-08 Shinichiro Okude 連想・推論機能を備えた検索システムおよび、それに用いられる、記録媒体献金
US7092928B1 (en) 2000-07-31 2006-08-15 Quantum Leap Research, Inc. Intelligent portal engine
US7099860B1 (en) 2000-10-30 2006-08-29 Microsoft Corporation Image retrieval systems and methods with semantic and feature based relevance feedback
AU2002237495A1 (en) 2001-03-13 2002-09-24 Intelligate Ltd. Dynamic natural language understanding
ATE410728T1 (de) 2001-05-04 2008-10-15 Microsoft Corp Schnittstellensteuerung
US7493264B1 (en) 2001-06-11 2009-02-17 Medco Health Solutions, Inc, Method of care assessment and health management
US6732090B2 (en) 2001-08-13 2004-05-04 Xerox Corporation Meta-document management system with user definable personalities
US7526425B2 (en) 2001-08-14 2009-04-28 Evri Inc. Method and system for extending keyword searching to syntactically and semantically annotated data
US20030105638A1 (en) 2001-11-27 2003-06-05 Taira Rick K. Method and system for creating computer-understandable structured medical data from natural language reports
US7136909B2 (en) 2001-12-28 2006-11-14 Motorola, Inc. Multimodal communication method and apparatus with multimodal profile
US7225183B2 (en) 2002-01-28 2007-05-29 Ipxl, Inc. Ontology-based information management system and method
US6947928B2 (en) 2002-02-26 2005-09-20 International Business Machines Corporation Graphical user interface for building queries with hierarchical conditions
JP2004139553A (ja) 2002-08-19 2004-05-13 Matsushita Electric Ind Co Ltd 文書検索システムおよび質問応答システム
JP2004118740A (ja) 2002-09-27 2004-04-15 Toshiba Corp 質問応答システム、質問応答方法、質問応答プログラム
US7188105B2 (en) 2002-10-10 2007-03-06 International Business Machines Corporation Query abstraction high level parameters for reuse and trend analysis
US6938036B2 (en) 2002-10-24 2005-08-30 International Business Machines Corporation Query modification analysis
US20040122702A1 (en) 2002-12-18 2004-06-24 Sabol John M. Medical data processing system and method
US20040122660A1 (en) 2002-12-20 2004-06-24 International Business Machines Corporation Creating taxonomies and training data in multiple languages
US7139752B2 (en) 2003-05-30 2006-11-21 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, and providing multiple document views derived from different document tokenizations
US20040243560A1 (en) 2003-05-30 2004-12-02 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, including an annotation inverted file system facilitating indexing and searching
US20050010444A1 (en) 2003-06-06 2005-01-13 Iliff Edwin C. System and method for assisting medical diagnosis using an anatomic system and cause matrix
US8666983B2 (en) 2003-06-13 2014-03-04 Microsoft Corporation Architecture for generating responses to search engine queries
US7454393B2 (en) 2003-08-06 2008-11-18 Microsoft Corporation Cost-benefit approach to automatically composing answers to questions by extracting information from large unstructured corpora
JP2005092271A (ja) 2003-09-12 2005-04-07 Hitachi Ltd 質問応答方法及び質問応答装置
KR100533810B1 (ko) 2003-10-16 2005-12-07 한국전자통신연구원 백과사전 질의응답 시스템의 지식베이스 반자동 구축 방법
JP3882048B2 (ja) 2003-10-17 2007-02-14 独立行政法人情報通信研究機構 質問応答システムおよび質問応答処理方法
US7617196B2 (en) 2003-10-22 2009-11-10 International Business Machines Corporation Context-sensitive term expansion with multiple levels of expansion
US7593929B2 (en) 2003-10-22 2009-09-22 International Business Machines Corporation Context sensitive term expansion with dynamic term expansion
JP3820242B2 (ja) 2003-10-24 2006-09-13 東芝ソリューション株式会社 質問応答型文書検索システム及び質問応答型文書検索プログラム
US7590606B1 (en) 2003-11-05 2009-09-15 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration (Nasa) Multi-user investigation organizer
JP3981734B2 (ja) 2003-11-21 2007-09-26 独立行政法人情報通信研究機構 質問応答システムおよび質問応答処理方法
US7149731B2 (en) 2003-11-26 2006-12-12 International Business Machines Corporation Methods, systems and articles of manufacture for abstract query building with selectability of aggregation operations and grouping
JP3944159B2 (ja) 2003-12-25 2007-07-11 株式会社東芝 質問応答システムおよびプログラム
CN1934569B (zh) * 2004-03-15 2012-03-14 雅虎公司 集成有用户注释的搜索系统和方法
US8612208B2 (en) 2004-04-07 2013-12-17 Oracle Otc Subsidiary Llc Ontology for use with a system, method, and computer readable medium for retrieving information and response to a query
US20050256700A1 (en) 2004-05-11 2005-11-17 Moldovan Dan I Natural language question answering system and method utilizing a logic prover
US20060053000A1 (en) 2004-05-11 2006-03-09 Moldovan Dan I Natural language question answering system and method utilizing multi-modal logic
US8548967B1 (en) * 2007-12-12 2013-10-01 Accurev, Inc. System for visual query and manipulation of configuration management records
DE102004036500A1 (de) 2004-07-28 2006-03-23 Siemens Ag Verfahren sowie Computerprogramm mit Programmcode-Mitteln und Computerprogramm-Produkt zur Bearbeitung einer elektronischen Suchanfrage unter Berücksichtigung eines semantischen Kontexts eines Suchbegriffs, Elektronische Suchmaschine zur Bearbeitung einer elektronischen Suchanfrage unter Berücksichtigung eines semantischen Kontexts eines Suchbegriffs
US20060015498A1 (en) 2004-08-13 2006-01-19 Edgar Sarmiento Search engine
US20080077570A1 (en) 2004-10-25 2008-03-27 Infovell, Inc. Full Text Query and Search Systems and Method of Use
US20060106788A1 (en) 2004-10-29 2006-05-18 Microsoft Corporation Computer-implemented system and method for providing authoritative answers to a general information search
US8032483B1 (en) * 2004-12-03 2011-10-04 Google Inc. Using game responses to gather data
US20060122834A1 (en) 2004-12-03 2006-06-08 Bennett Ian M Emotion detection device & method for use in distributed systems
US7333981B2 (en) 2004-12-17 2008-02-19 International Business Machines Corporation Transformation of a physical query into an abstract query
US20060141438A1 (en) 2004-12-23 2006-06-29 Inventec Corporation Remote instruction system and method
US7792829B2 (en) 2005-01-28 2010-09-07 Microsoft Corporation Table querying
JP4635659B2 (ja) 2005-03-14 2011-02-23 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP2006252382A (ja) 2005-03-14 2006-09-21 Fuji Xerox Co Ltd 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP4645242B2 (ja) 2005-03-14 2011-03-09 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP4650072B2 (ja) 2005-04-12 2011-03-16 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP4654745B2 (ja) 2005-04-13 2011-03-23 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP4654776B2 (ja) 2005-06-03 2011-03-23 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
JP4654780B2 (ja) 2005-06-10 2011-03-23 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US7826965B2 (en) * 2005-06-16 2010-11-02 Yahoo! Inc. Systems and methods for determining a relevance rank for a point of interest
US20070067293A1 (en) * 2005-06-30 2007-03-22 Hong Yu System and methods for automatically identifying answerable questions
US8756245B2 (en) 2005-07-25 2014-06-17 Iac Search & Media, Inc. Systems and methods for answering user questions
US7630947B2 (en) 2005-08-25 2009-12-08 Siemens Medical Solutions Usa, Inc. Medical ontologies for computer assisted clinical decision support
US20070061703A1 (en) 2005-09-12 2007-03-15 International Business Machines Corporation Method and apparatus for annotating a document
US20070073533A1 (en) * 2005-09-23 2007-03-29 Fuji Xerox Co., Ltd. Systems and methods for structural indexing of natural language text
US20070078842A1 (en) 2005-09-30 2007-04-05 Zola Scot G System and method for responding to a user reference query
US7548933B2 (en) 2005-10-14 2009-06-16 International Business Machines Corporation System and method for exploiting semantic annotations in executing keyword queries over a collection of text documents
US7873624B2 (en) * 2005-10-21 2011-01-18 Microsoft Corporation Question answering over structured content on the web
US7831597B2 (en) 2005-11-18 2010-11-09 The Boeing Company Text summarization method and apparatus using a multidimensional subspace
CN101305366B (zh) 2005-11-29 2013-02-06 国际商业机器公司 从非结构化文本提取和显现图表结构化关系的方法和系统
US8832064B2 (en) 2005-11-30 2014-09-09 At&T Intellectual Property Ii, L.P. Answer determination for natural language questioning
US7603330B2 (en) 2006-02-01 2009-10-13 Honda Motor Co., Ltd. Meta learning for question classification
JP2007219955A (ja) 2006-02-17 2007-08-30 Fuji Xerox Co Ltd 質問応答システム、質問応答処理方法及び質問応答プログラム
US7313515B2 (en) * 2006-05-01 2007-12-25 Palo Alto Research Center Incorporated Systems and methods for detecting entailment and contradiction
US8131756B2 (en) * 2006-06-21 2012-03-06 Carus Alwin B Apparatus, system and method for developing tools to process natural language text
US7702645B2 (en) 2006-06-30 2010-04-20 Nokia Corporation Method, apparatus and computer program product for making semantic annotations for easy file organization and search
EP2057591A4 (en) * 2006-08-22 2011-11-16 Lead Horse Technologies Inc SYSTEM AND METHOD FOR SUPPORTING MEDICAL EXAMINATIONS
US20080059453A1 (en) 2006-08-29 2008-03-06 Raphael Laderman System and method for enhancing the result of a query
US8160895B2 (en) * 2006-09-29 2012-04-17 Cerner Innovation, Inc. User interface for clinical decision support
US7757163B2 (en) 2007-01-05 2010-07-13 International Business Machines Corporation Method and system for characterizing unknown annotator and its type system with respect to reference annotation types and associated reference taxonomy nodes
US7693833B2 (en) * 2007-02-01 2010-04-06 John Nagle System and method for improving integrity of internet search
US7899764B2 (en) 2007-02-16 2011-03-01 Siemens Aktiengesellschaft Medical ontologies for machine learning and decision support
US20080301120A1 (en) 2007-06-04 2008-12-04 Precipia Systems Inc. Method, apparatus and computer program for managing the processing of extracted data
US8271401B2 (en) 2007-07-24 2012-09-18 Uop Llc Expert systems as a method of delivering diagnostic, problem solving, and training technical services to customers
WO2009039392A1 (en) 2007-09-21 2009-03-26 The Board Of Trustees Of The University Of Illinois A system for entity search and a method for entity scoring in a linked document database
US7809664B2 (en) 2007-12-21 2010-10-05 Yahoo! Inc. Automated learning from a question and answering network of humans
CN101903887B (zh) 2007-12-21 2014-06-11 皇家飞利浦电子股份有限公司 对临床决策支持系统的连续版本的半自动验证
US20100100546A1 (en) 2008-02-08 2010-04-22 Steven Forrest Kohler Context-aware semantic virtual community for communication, information and knowledge management
US7966316B2 (en) 2008-04-15 2011-06-21 Microsoft Corporation Question type-sensitive answer summarization
US8332394B2 (en) 2008-05-23 2012-12-11 International Business Machines Corporation System and method for providing question and answers with deferred type evaluation
US8010381B2 (en) 2008-05-20 2011-08-30 General Electric Company System and method for disease diagnosis from patient structural deviation data
WO2009154478A1 (en) * 2008-06-20 2009-12-23 Business Intelligence Solutions Safe B.V. A system and method of identifying and visually representing adjustable data
US20140142920A1 (en) 2008-08-13 2014-05-22 International Business Machines Corporation Method and apparatus for Utilizing Structural Information in Semi-Structured Documents to Generate Candidates for Question Answering Systems
US20100076780A1 (en) 2008-09-23 2010-03-25 General Electric Company, A New York Corporation Methods and apparatus to organize patient medical histories
US8095498B2 (en) 2008-12-17 2012-01-10 International Business Machines Corporation Data mining model interpretation, optimization, and customization using statistical techniques
WO2010104970A1 (en) * 2009-03-10 2010-09-16 Ebrary, Inc. Method and apparatus for real time text analysis and text navigation
US8694535B2 (en) 2009-03-21 2014-04-08 Matthew Oleynik Systems and methods for research database management
CN101872349B (zh) 2009-04-23 2013-06-19 国际商业机器公司 处理自然语言问题的方法和装置
US20110004588A1 (en) 2009-05-11 2011-01-06 iMedix Inc. Method for enhancing the performance of a medical search engine based on semantic analysis and user feedback
US8930386B2 (en) * 2009-06-16 2015-01-06 Oracle International Corporation Querying by semantically equivalent concepts in an electronic data record system
US7831609B1 (en) 2009-08-25 2010-11-09 Vizibility Inc. System and method for searching, formulating, distributing and monitoring usage of predefined internet search queries
CN101996208B (zh) 2009-08-31 2014-04-02 国际商业机器公司 用于数据库语义查询回答的方法及系统
US8560300B2 (en) 2009-09-09 2013-10-15 International Business Machines Corporation Error correction using fact repositories
US8280838B2 (en) 2009-09-17 2012-10-02 International Business Machines Corporation Evidence evaluation system and method based on question answering
US20110078192A1 (en) 2009-09-30 2011-03-31 International Business Machines Corporation Inferring lexical answer types of questions from context
US8200656B2 (en) 2009-11-17 2012-06-12 International Business Machines Corporation Inference-driven multi-source semantic search
US20110125734A1 (en) 2009-11-23 2011-05-26 International Business Machines Corporation Questions and answers generation
CA2789158C (en) 2010-02-10 2016-12-20 Mmodal Ip Llc Providing computable guidance to relevant evidence in question-answering systems
US8732222B2 (en) 2010-06-30 2014-05-20 Microsoft Corporation Integrating specialized knowledge sources into a general search service
US9454603B2 (en) 2010-08-06 2016-09-27 International Business Machines Corporation Semantically aware, dynamic, multi-modal concordance for unstructured information analysis
WO2012040576A1 (en) 2010-09-24 2012-03-29 International Business Machines Corporation Evidence profiling
WO2012040356A1 (en) 2010-09-24 2012-03-29 International Business Machines Corporation Providing question and answers with deferred type evaluation using text with limited structure
US8892550B2 (en) 2010-09-24 2014-11-18 International Business Machines Corporation Source expansion for information retrieval and information extraction
WO2012040677A1 (en) 2010-09-24 2012-03-29 International Business Machines Corporation Efficient passage retrieval using document metadata
US20120078062A1 (en) 2010-09-24 2012-03-29 International Business Machines Corporation Decision-support application and system for medical differential-diagnosis and treatment using a question-answering system
US20120084112A1 (en) 2010-09-24 2012-04-05 International Business Machines Corporation Providing community for customer questions
EP2622592A4 (en) 2010-09-28 2017-04-05 International Business Machines Corporation Providing answers to questions using multiple models to score candidate answers
US9317586B2 (en) 2010-09-28 2016-04-19 International Business Machines Corporation Providing answers to questions using hypothesis pruning
WO2012047557A1 (en) 2010-09-28 2012-04-12 International Business Machines Corporation Evidence diffusion among candidate answers during question answering
EP2622510A4 (en) 2010-09-28 2017-04-05 International Business Machines Corporation Providing answers to questions using logical synthesis of candidate answers
US9020805B2 (en) 2010-09-29 2015-04-28 International Business Machines Corporation Context-based disambiguation of acronyms and abbreviations
US8972321B2 (en) 2010-09-29 2015-03-03 International Business Machines Corporation Fact checking using and aiding probabilistic question answering
CA2843403C (en) 2011-03-08 2020-11-24 International Business Machines Corporation A decision-support application and system for medical differential-diagnosis and treatment using a question-answering system
US9153142B2 (en) 2011-05-26 2015-10-06 International Business Machines Corporation User interface for an evidence-based, hypothesis-generating decision support system
US20180107793A1 (en) * 2016-10-18 2018-04-19 Microsoft Technology Licensing, Llc Health activity monitoring and work scheduling

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020188586A1 (en) * 2001-03-01 2002-12-12 Veale Richard A. Multi-layered semiotic mechanism for answering natural language questions using document retrieval combined with information extraction
CN1826597A (zh) * 2003-04-25 2006-08-30 奥弗图尔服务公司 用于机器学习文档相关性函数的方法与装置
CN1822630A (zh) * 2005-01-19 2006-08-23 富士施乐株式会社 自动评分装置、方法及其存储介质
CN1916898A (zh) * 2006-09-07 2007-02-21 上海交通大学 面向信息安全的在线咨询自动应答系统
CN101377777A (zh) * 2007-09-03 2009-03-04 北京百问百答网络技术有限公司 一种自动问答方法和系统
US20090287678A1 (en) * 2008-05-14 2009-11-19 International Business Machines Corporation System and method for providing answers to questions

Also Published As

Publication number Publication date
US20190266157A1 (en) 2019-08-29
WO2012040674A3 (en) 2012-07-05
US9965509B2 (en) 2018-05-08
US20170154043A1 (en) 2017-06-01
US20180025127A1 (en) 2018-01-25
US20120078837A1 (en) 2012-03-29
US20180144066A1 (en) 2018-05-24
US8510327B2 (en) 2013-08-13
US11144544B2 (en) 2021-10-12
US11163763B2 (en) 2021-11-02
US9864818B2 (en) 2018-01-09
US9002773B2 (en) 2015-04-07
US10515073B2 (en) 2019-12-24
US10331663B2 (en) 2019-06-25
CN103124980A (zh) 2013-05-29
US20170060990A1 (en) 2017-03-02
US20120078062A1 (en) 2012-03-29
US20200089677A1 (en) 2020-03-19
WO2012040674A2 (en) 2012-03-29
US20120084293A1 (en) 2012-04-05
US20130013615A1 (en) 2013-01-10
US20180246890A1 (en) 2018-08-30
US9600601B2 (en) 2017-03-21
US20130290370A1 (en) 2013-10-31
US9495481B2 (en) 2016-11-15
US10318529B2 (en) 2019-06-11
US20120078955A1 (en) 2012-03-29
US8972440B2 (en) 2015-03-03

Similar Documents

Publication Publication Date Title
CN103124980B (zh) 包括从多个文档段收集答案的提供问题答案
US10823265B2 (en) Providing answers to questions using multiple models to score candidate answers
US10133808B2 (en) Providing answers to questions using logical synthesis of candidate answers
Weikum et al. From information to knowledge: harvesting entities and relationships from web sources
US9317586B2 (en) Providing answers to questions using hypothesis pruning
US20170357625A1 (en) Event extraction from documents
Ngo Enhancing ontology matching by using machine learning, graph matching and information retrieval techniques
Boiński et al. DBpedia and YAGO as knowledge base for natural language based question answering—the evaluation
Kaladevi et al. Development of Background Ontology for Weather Systems through Ontology Learning
Colley Development of a Dynamic Design Framework for Relational Database Performance Optimisation
Patel Learex: Learning Relationship Extraction Patterns from Text Based on Typed Dependencies

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant