CN111435409B - 动态查询处理和文档检索 - Google Patents

动态查询处理和文档检索 Download PDF

Info

Publication number
CN111435409B
CN111435409B CN202010024068.9A CN202010024068A CN111435409B CN 111435409 B CN111435409 B CN 111435409B CN 202010024068 A CN202010024068 A CN 202010024068A CN 111435409 B CN111435409 B CN 111435409B
Authority
CN
China
Prior art keywords
cluster
concept
manager
lat
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010024068.9A
Other languages
English (en)
Other versions
CN111435409A (zh
Inventor
A·R·福瑞德
S·卡瓦特拉
C·O·艾仑
J·考泽哈雅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US16/245,344 external-priority patent/US10909180B2/en
Priority claimed from US16/245,342 external-priority patent/US10949613B2/en
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN111435409A publication Critical patent/CN111435409A/zh
Application granted granted Critical
Publication of CN111435409B publication Critical patent/CN111435409B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及动态查询处理和文档检索。本实施例涉及一种接收用于针对语料库处理的请求的智能计算机平台。分析该请求,并且分别识别词法答案类型(LAT)、与所接收的请求有关的第一概念和与所识别的第一概念有关的第二概念。该LAT与第一概念和第二概念一起用于创建第一集群和第二集群。基于相应的LAT和概念限定符,将文档选择性地填充到集群中。集群基于与所接收的请求的相关性进行排序。

Description

动态查询处理和文档检索
背景技术
本(一个或多个)实施例涉及自然语言处理。更具体地,(一个或多个)实施例涉及一种人工智能平台,以优化自然语言处理中的文档检索。
在人工智能计算机系统领域,自然语言系统(例如IBM WatsonTM人工智能计算机系统和其他自然语言问答系统)基于系统获取的知识来处理自然语言。为了处理自然语言,可以使用从数据库或知识语料库(corpus)获得的数据来训练系统,但是由于涉及语言构造和人类推理的特殊性或不正确的新训练数据的各种原因,所导致的结果可能不正确或不准确的。
机器学习是人工智能(AI)的子集,它利用算法从数据中学习并基于该数据创建洞见。AI是指机器根据信息能够做出决策时的智能,其可以最大化在给定主题中成功的机会。更具体地说,AI能够从数据集中学习以解决问题并提供相关推荐。AI是认知计算的子集,它是指能够大规模学习、有目的地推理并与人类自然互动的系统。认知计算是计算机科学和认知科学的混合体。认知计算利用自我教学算法,该算法使用数据挖掘、视觉识别和自然语言处理来解决问题并优化人工处理。
认知系统本质上是不确定的。具体而言,从认知系统输出的数据容易受到提供和用作输入的信息的影响。例如,当部署新的机器学习模型时,不能保证系统将提取与以前相同的实体。新模型可能会对先前的模型结果产生不利影响。同样地,通过文档引入的错误可能导致提取错误的数据并提供该错误的数据作为输出。相应地,需要在该(一个或多个)认知系统中创建确定性行为。
发明内容
实施例包括针对用于认知系统的确定性数据的自然语言处理的系统、计算机程序产品和方法。
在一个方面,系统提供有可操作地耦合到存储器的处理单元,以及与该处理单元和存储器通信的人工智能(AI)平台。AI平台包括以管理器形式的工具,至少包括请求管理器和集群(cluster)管理器。请求管理器用于接收和处理针对语料库的请求,包括分析和识别该请求的一个或多个特征,该一个或多个特征诸如词法答案类型(LAT)和一个或多个概念(包括第一概念和第二概念)。集群管理器利用LAT和概念作为限定符来形成包括第一集群和第二集群的相应集群,并根据它们各自的LAT和/或概念限定符将一个或多个文档填充(populate)到集群中。集群管理器根据接收到的请求对第一集群和第二集群进行排序(sort)。查询结果根据集群排序而形成,其中查询结果包括每个集群的至少一个代表性段落。
在另一方面,提供了计算机程序产品以支持文档检索。该计算机程序产品包括计算机可读存储设备,该计算机可读存储设备具有能够由处理单元执行的被实施的程序代码。提供程序代码以接收和处理针对语料库的请求,包括分析和识别该请求的一个或多个特征,该一个或多个特征诸如LAT和一个或多个概念(包括第一概念和第二概念)。程序代码利用LAT和概念作为限定符来形成包括第一集群和第二集群的相应集群,并基于它们各自的LAT和/或概念限定符将一个或多个文档填充到集群中。还提供了程序代码以根据接收到的请求对第一集群和第二集群进行排序。此后,提供程序代码根据集群排序形成查询结果,其中查询结果包括每个集群的至少一个代表性段落。
在又一方面,提供了用于接收针对语料库的处理的请求的方法。该方法包括分析和识别该请求的一个或多个特征,该一个或多个特征诸如LAT和一个或多个概念(包括第一概念和第二概念)。LAT和概念被用作限定符,以形成包括第一集群和第二集群的相应集群,并基于它们各自的LAT和/或概念限定词将一个或多个文档填充到集群中。根据接收到的请求对第一集群和第二集群进行排序。在查询结果包括每个集群的至少一个代表性段落的情况下,查询结果是根据集群排序而形成的。
在一个方面,系统提供有可操作地耦合到存储器的处理单元,以及与该处理单元和存储器通信的人工智能(AI)平台。AI平台配置有支持文档检索的工具,这些工具包括请求管理器、知识图(KG)管理器、集群管理器和机器学习模型(MLM)管理器。请求管理器分析自然语言(NL)输入,并识别请求中呈现的词法答案类型(LAT)。KG管理器识别与LAT有关的KG,并利用KG提取与LAT有关的第一概念以及与所识别的第一概念有关的第二概念。集群管理器以LAT以及第一概念和第二概念的布置的限定符创建两个或更多个集群。该集群中以与相应集群限定符相关的一个或多个文档填充。集群管理器基于所填充的(一个或多个)文档与接收到的输入的相关性进行集群间评估。MLM管理器识别与KG相对应的MLM,并以LAT、第一概念和第二概念以及相应的集群间评估来选择性地增强MLM。
在另一方面,提供了计算机程序产品以支持文档检索。该计算机程序产品包括计算机可读存储设备,该计算机可读存储设备具有可由处理单元执行的被实施的程序代码。提供程序代码以分析NL输入并识别请求中呈现的LAT、识别与LAT相关的KG,并利用KG提取与LAT相关的第一概念以及与所识别的第一概念相关的第二概念。程序代码以LAT以及第一概念和第二概念的布置的限定符创建两个或更多个集群,并以与相应集群限定符相关的一个或多个文档填充所形成的集群。另外,程序代码基于所填充的(一个或多个)文档与所接收的输入的相关性来进行集群间评估。程序代码识别与KG相对应的MLM,并以LAT、第一概念和第二概念以及相应的集群间评估来选择性地增强MLM。
在又一方面,提供了用于分析NL输入的方法。请求中呈现的LAT被识别,并且与该LAT相关的KG也被识别。利用KG提取与LAT有关的第一概念,以及与所识别的第一概念有关的第二概念。以LAT以及第一概念和第二概念的布置的限定符创建两个或更多个集群。该集群以与相应集群限定符相关的一个或多个文档填充。基于所填充的(一个或多个)文档与接收到的输入的相关性进行集群间评估。另外,识别与KG相对应的MLM,并以LAT、第一概念和第二概念以及相应的集群间评估来选择性地增强该MLM。
通过结合附图对当前优选的(一个或多个)实施例的以下详细描述,这些以及其他特征和优点将变得显而易见。
附图说明
本文的附图参考形成说明书的一部分。除非另外明确指出,否则附图中所示的特征仅意在说明一些实施例,而不是所有实施例。
图1描绘了图示自然语言处理系统的示意图的系统图。
图2描绘了被提供为图示图1所示的NL处理工具及其相关联的API的框图。
图3描绘了图示所形成的集群和相关联的排序的框图。
图4描绘了图示用于文档检索和集群形成的处理的流程图。
图5A和5B描绘了图示用于文档和段落识别以及集群度量分析的处理的流程图。
图6描绘了图示集群间评估以该评估对于主题KG和相对应的MLM的影响的流程图。
图7描绘了图示查询提交和处理的用例示例的框图,如图1至图6中所述。
图8描绘了图示基于云的支持系统的计算机系统/服务器的示例的框图,该示例实现以上相对于图1至图7描述的系统和过程。
图9描绘了图示云计算机环境的框图。
图10描绘了图示由云计算环境提供的一组功能抽象模型层的框图。
具体实施方式
将容易理解的是,如本文的附图中总体上描述和图示的,本实施例的组件可以以广泛各种不同的配置来布置和设计。因此,如附图中所呈现的,对本实施例的装置、系统、方法和计算机程序产品的实施例的以下详细描述并非旨在限制所要求保护的实施例的范围,而仅是所选择的实施例的代表。
贯穿本说明书的对“选择实施例”、“一个实施例”或“实施例”的引用是指结合该实施例描述的特定特征、结构或特性被包括在至少一个实施例中。因此,贯穿本说明书在各处出现的短语“选择实施例”、“在一个实施例中”或“在实施例中”不一定是指同一实施例。
通过参考附图将最好地理解所示出的实施例,其中,相似的部分始终由相似的数字表示。以下描述仅旨在作为示例,并且简单地示出了与本文所要求保护的实施例一致的设备、系统和处理的某些选择的实施例。
本体(Ontology)用作组织信息和概念的结构框架。自然语言理解(NLU)是自然语言处理(NLP)的子集。自然语言系统(诸如IBM WatsonTM人工智能计算机系统)中的问答处理始于问题分析阶段,该阶段试图确定问题在问什么以及如何以最佳方式回答问题。可以理解的是,问题分析接收非结构化文本问题作为输入,并识别该问题的句法和语义要素,这些要素被编码为结构化信息。问题分析建立在通用语法分析和语义分析组件的基础上。
采用检测规则和分类器来识别问题的一个或多个关键要素。这些关键要素包括但不限于词法答案类型(LAT)。如本文所指,LAT是在指示答案类型的线索(例如,问题)中的词或从该线索推断的词,该答案类型独立于向该词分配语义。例如,在线索“...Invented inthe 1500s to speed up the game,this maneuver involves two pieces of the samesize...”中,LAT是字符串“maneuver”。LAT由问题分析组件提取,作为“焦点(focus)”的一部分。焦点是问题的这样的部分:即如果将其用答案替换,则该问题将成为独立的陈述。焦点通常但并非总是包含LAT。
NLU使用算法将语音转换成结构化本体。在一个实施例中,根据NLU输出的分类来构造本体。NLU依据类、子类、域、范围、数据属性和对象属性提供了构造本体所需的定义。本体个体被映射到对象。本体是由构成本体个体的事实或提及生成的。在一个实施例中,本体采用KG的形式,而事实或提及表示为图中的节点。KG的结构可以保持恒定,同时允许信息被添加或移除。在修改KG时实现新的实体和关系。相应地,由KG表示的本体用作根据NLU输出的分类构造的术语结构。
参照图1,描绘了自然语言处理系统(100)的示意图。如所示,提供服务器(110),其通过网络连接(105)与多个计算设备(180)、(182)、(184)、(186)和(188)通信。服务器(110)配置有处理单元(112),其通过总线(116)可操作地耦合到存储器(114)。在服务器(110)本地示出以人工智能(AI)平台(150)形式的工具,并且该工具可操作地耦合到处理单元(112)和/或存储器(114)。如所示,AI平台(150)包含一个或多个工具,在此示出为请求管理器(152)、集群管理器(154)、知识图(KG)管理器(156)和机器学习管理器(MLM)(158)。工具(152)至(158)通过网络(105)从一个或多个计算设备(180)、(182)、(184)、(186)和(188)提供自然语言处理。更具体地,计算设备(180)、(182)、(184)、(186)和(188)经由一个或多个电线和/或无线数据通信链路彼此通信并且与其他设备或组件通信,其中每个通信链路可以包括电线、路由器、交换机、发射器、接收器等中的一个或多个。在这种联网的布置中,服务器(110)和网络连接(105)可以为一个或多个内容用户启用自然语言处理和解析。服务器(110)的其他实施例可以与除本文所描绘的组件、系统、子系统和/或设备之外的组件、系统、子系统和/或设备一起使用。
包括AI平台(150)的工具,以及在一个实施例中以嵌入其中的管理器(152)至(158)的形式的工具,被配置为接收来自各种来源的输入,这些输入包括但不限于来自网络(105)的输入和来自可操作耦合的数据存储(160)的一个或多个知识图。如所示,数据存储(160)包括知识图的KG库(162),这些知识图包括KG0(164A)、KG1(164B)和KGN(164N)。此处示出的KG数量不应被视为限制。每个KG是概念本体的表示。更具体地,每个KG(164A)、(164B)和(164N)包括多个相关的主题和对象。在一个实施例中,相关的KG被存储在相关联的KG容器中,语料库(160)存储一个或多个KG容器。在一个实施例中,还可以从其他来源获取KG,因此,所描绘的数据存储不应被认为是限制性的。
与网络(105)进行通信的各种计算设备(180)、(182)、(184)、(186)和(188)演示了为内容创建者和内容使用的访问点。计算设备中的一些可以包括用于数据库的设备,该数据库存储作为AI平台(150)使用的信息主体的数据语料库,并且在一个实施例中,还包括工具(152)至(158)以将确定性行为嵌入到系统中。在各个实施例中,网络(105)可以包括本地网络连接和远程连接,使得AI平台(150)和嵌入工具(152)至(158)可以在包括本地和全局的任何大小的环境(例如互联网)中操作。附加地,服务器(110)和AI平台(150)用作前端系统,其可以使从文档、网络可访问来源和/或结构化数据来源中提取或其中表示的各种知识可用。以这种方式,一些处理用还包括输入接口的服务器(110)填充服务器(110),以接收请求并相应地做出响应。内容创建者和内容用户也可以在数据存储库中使用,该数据存储库诸如但不限于数据存储(160),并且此处演示的访问点列表不应被认为是限制性的。
如所示,数据存储(160)可操作地耦合到服务器(110)。节点图数据存储(160)包括KG库(162),该库具有供服务器(110)使用的一个或多个KG(164A)至(164N)。内容用户可以如图2中所示和描述地经由API管理或协调平台访问系统,并且经由NLU输入路径访问所接收的自然语言输入。
如以下详细描述的,服务器(110)和AI平台(150)通过使用一个或多个机器学习模型(以下称为MLM)来处理自然语言查询,以在存储于节点图数据存储(160)中的一个或多个KG中提取或存储内容。MLM管理器(158)用作工具,或者在一个实施例中,用作AI平台(150)内的API,并且被用来创建、链接和/或修改相关联的MLM。MLM专用于特定知识领域被生成、创建或修改。创建MLM以从非结构化数据中提取实体和关系。具体创建这些模型是为了理解特定知识领域(例如,传记信息、股市、天文学等)。无论在何处体现,都将利用一个或多个MLM来管理和处理数据,更具体地说,是检测和识别自然语言并创建或利用确定性输出。MLM管理器(158)被示出为可操作地耦合到MLM库(140),该MLM库(140)在本文被示出为具有多个MLM,该多个MLM中包括MLM0(142)、MLM1(144)和MLMN(146),但是示出和描述的MLM的数量不应认为是限制性的。可以理解的是,在一个实施例中,MLM是被采用或适于支持NLP的算法。
服务器(110)可以是可从纽约Armonk国际商业机器公司获得的IBM WatsonTM系统,该系统增加了以下描述的说明性实施例的机制。IBM WatsonTM知识管理器系统将知识导入自然语言处理(NLP)。具体地,如下面详细描述的,当接收到查询时,识别关于该查询的相关文档。可以理解的是,相关性是主观标准。服务器(110)本身不能区分,或更具体地说,不能评价与查询有关的文档相关性。如本文所示,服务器(110)接收输入内容(102),该输入内容(102)经过评价以提取内容(102)的特征,该内容(102)在一个实施例中利用数据存储,然后经受组织以进行相关性识别。相应地,接收到的内容(102)由IBM WatsonTM服务器(110)处理,该服务器(110)执行分析以使用一个或多个推理算法来评价接收到的查询。
为了处理自然语言,服务器(110)利用以AI平台(150)和相关联的工具(152)至(158)的形式的信息处理系统来支持NLP。虽然AI平台(150)被示出为体现在服务器(110)中或与服务器(110)集成,但是AI平台(150)可以在跨网络(105)连接到服务器(110)的单独的计算系统(例如,190)中实现。虽然工具(152)至(158)示出为在服务器(110)本地,但是工具(152)至(158)可以集体或单独地嵌入存储器(114)中。
一个或多个MLM(142)至(146)用于管理数据,包括将数据存储在KG中。如所理解,每个KG是结构化本体,而不仅仅存储数据。AI平台(150),更具体地说,ML管理器(158)利用选择的MLM从非结构化数据中提取数据和一个或多个数据关系,为KG中的所提取的数据和(一个或多个)数据关系创建条目,并将该数据和(一个或多个)数据关系存储在KG条目中。在一个实施例中,KG中的数据被存储或表示在节点中,并且两个数据要素之间的关系被表示为连接两个节点的边缘。相应地,ML管理器(158)利用MLM来组织节点图数据存储(160)中的KG中的数据和数据关系。
如本文所示和所述,MLM库(140)可操作地耦合到服务器(110),并且包含多个MLM以支持AI平台中的自然语言处理。MLM中的一个或多个可能是动态的,并且被训练为适于新的实体和关系。例如,第一MLM即MLM0(142)可以基于其与KG0(164A)的对准从库(140)中被识别或选择。响应于处理NL输入,可以针对KG0(164A)应用MLM0(142),并且可以针对第二KG(即KG1(164B))单独应用MLM0(142)。MLM管理器(158)处理来自两个KG的结果,并且基于该处理识别两个KG中的至少一个KG的修改。在一个实施例中,对MLM0(142)的修改导致创建新的MLM,例如MLMN(146),而在一个实施例中,该修改导致保留原始MLM即MLM0(142)。相应地,MLM库(140)和对应的KG库(162)可以分别经过MLM和KG的动态修改而扩展。
要理解的是,每个KG为大量数据组织并提供结构。KG可以是单个本体,或者在一个实施例中,KG或KG容器可以由链接在一起以演示其关系或关联的多个KG组成。大的KG可能太笨重或太昂贵而难以管理。KG管理器(156)用于组织和管理KG以及相关联的KG容器。在这种情况下,KG可以被分区,其中KG管理器(156)有效地创建至少两个分区,例如第一KG分区和第二KG分区。可以基于一个或多个因素来对KG进行分区。例如,在一个实施例中,可以由主题或子主题来对KG进行分区。类似地,两个或更多个KG可以被KG管理器(156)加入或链接,这是对KG进行分区的逆过程。KG管理器(156)加入或链接KG的功能利用对一个KG中的一个或多个数据要素与第二KG中的一个或多个数据要素的比较,以消除或至少减少重复数据的出现。不同的KG可能与不同的知识领域相关联,并且可能是加入或链接KG的因素。在一个实施例中,所链接的KG中的被确定为重复数据的数据被KG管理器(156)选择性地移除。移除重复数据的一个特征是能够保持KG的恒定结构。
对NL输入的评价由请求管理器(152)管理。具体地,请求管理器(152)分析请求内容,并识别词法答案类型(LAT)和请求中呈现的至少一个概念,即第一概念C0。KG管理器(156)用于从KG库(162)中识别相关的KG,并且查阅所识别的KG以识别与第一概念C0相关的第二概念C1。在一个实施例中,第二概念C1与导致第一概念C0相关联。集群管理器(154)利用所识别的LAT以及第一概念C0和第二概念C1来从语料库(170)或可操作地链接的材料库中识别相关的材料。具体地,集群管理器(154)利用LAT以及所识别的第一概念C0和第二概念C1来识别在库或语料库(170)中在上下文方面相关的文档或材料。集群管理器形成在上下文方面相关的文档的两个分组,该分组在本文中称为集群,包括第一集群——集群0和第二集群——集群1。第一集群和第二集群分别与LAT和所识别的第一概念C0和第二概念C1相关。更具体地,集群0由这样的文档形成:该文档由集群管理器(154)确定为与LAT和第一概念C0相关,而集群1由这样的文档形成:该文档由集群管理器(154)确定为分别与第一概念C0和第二概念C1的组合相关。相应地,第一集群和第二集群填充有这样的材料:该材料与LAT以及第一概念和第二概念的选择和组合在上下文方面相关。
集群管理器(154)处理所形成的集群——集群0和集群1,以进一步识别一个或多个文档作为对查询的响应。要理解的是,查询是针对文档的库或语料库处理的,并且目标不仅是识别相关文档,而且是解答或响应查询的代表性文档中的代表性段落。集群管理器(154)基于每个集群与正在处理的查询的相关性来对集群进行排序。响应输出,例如查询结果(174),由集群管理器(154)识别。在一个实施例中,查询结果(174)在可操作地耦合的视觉显示器(172)上传达,或经由通信信道(104)跨网络连接(105)向一个或多个计算设备传送。查询结果(174)从所排序的集群中识别代表性文档和相关联的代表性段落。在一个实施例中,集群管理器(154)为每个集群识别代表性文档,并且对于每个代表性文档,集群识别其中的代表性段落。查询结果基于集群的排序,并且在一个实施例中,可以包括文档和代表性段落的序列呈现,其中该序列以经过排序的层次化布置来放置。
关于集群形成有两个方面的信息增益。这些方面包括集群内增益和集群间增益。集群内增益针对集群内度量和相关性识别,并在所形成的集群中的每一个中进行排序。集群间增益针对集群间度量和相关性识别,并跨所形成的集群进行排序。集群管理器(154)评估集群内度量和集群间度量。集群内度量针对集群的集群管理器(154)的形成、以相关文档填充集群以及所填充的文档的集群内排序。对于每个文档,集群管理器(154)识别代表性段落。集群内排序在集群基础上提供文档和相关联的(一个或多个)段落的排名,该排序以查询为基础。集群间度量针对集群管理器(154),该集群管理器(154)指导所形成的集群与相对应的集群排名的比较。与集群内度量类似,集群间度量的基础也是查询。相应地,集群管理器(154)进行多维度量分析,并利用相对应的度量增益数据来识别适当的查询结果数据。
可以利用系统(110)的信息处理系统的类型范围从小型手持设备(诸如手持计算机/移动电话(180))到大的主机系统(诸如主机计算机(182))。手持计算机(180)的示例包括个人数字助理(PDA)、个人娱乐设备(诸如MP4播放器、便携式电视和紧凑盘播放器)。信息处理系统的其他示例包括笔式或平板计算机(184)、膝上型计算机或笔记本计算机(186)、个人计算机系统(188)和服务器(190)。如所示,可以使用计算机网络(105)将各种信息处理系统联网在一起。可用于互连各种信息处理系统的计算机网络(105)的类型包括局域网(LAN)、无线局域网(WLAN)、互联网、公共交换电话网(PSTN)、其他无线网络,以及可用于互连信息处理系统的任何其他网络拓扑。信息处理系统中的许多包括非易失性数据存储,诸如硬盘驱动器和/或非易失性存储器。信息处理系统中的一些可能使用单独的非易失性数据存储(例如,服务器(190)使用非易失性数据存储(190a),而主机计算机(182)使用非易失性数据存储(182a))。非易失性数据存储(182a)可以是在各种信息处理系统外部或在信息处理系统之一的内部的组件。
信息处理系统可以采取许多形式,其中一些在图1中示出。例如,信息处理系统可以采取台式机、服务器、便携式、膝上型、笔记本或其他形式因素的计算机或数据处理系统的形式。另外,信息处理系统可以采用其他形式因素,诸如个人数字助理(PDA)、游戏设备、ATM机、便携式电话设备、通信设备或其他包括处理器和存储器的设备。
在本领域中,应用程序接口(API)被理解为在两个或更多个应用程序之间的软件中介。关于图1中示出和描述的NL处理系统,可以利用一个或多个API来支持工具(152)至(158)中的一个或多个及其相关联的功能。参考图2,提供了示出NL处理工具及其相关联的API的框图(200)。如所示,多个工具被嵌入在AI平台内,该AI平台在本文中也称为知识引擎(205),其中该工具包括与API0(212)相关联的请求管理器(210)、与API1(212)相关联的集群管理器(220)、与API2(232)相关联的KG管理器(230)以及与API3(242)相关联的MLM管理器(240)。API中的每一个可以以一种或多种语言和接口规范来实现。API0(212)提供请求检测和处理,包括LAT和概念识别;API1(222)提供集群的形成和处理,包括集群间增益评估和集群内增益评估;API2(232)提供KG的创建、更新和删除;API3(242)提供MLM创建、更新和删除。如所示,API(212)、(222)、(232)和(242)中的每一个可操作地耦合到API协调器(250),API协调器(250)也被称为协调层,其在本领域中被理解为用作以透明方式将单独的API串在一起的抽象层。在一个实施例中,可以结合或组合单独的API的功能。这样,本文所示的API的配置不应被认为是限制性的。相应地,如本文所示,工具的功能可以由其各自的API来体现或支持。
为了提供对本公开的选择实施例的附加细节和更好的理解,现在参考图3,其示出所形成的集群和相关联的排序的框图。如该示例中所示,三个文档集群形成,包括集群0(310)、集群1(330)和集群2(350)。每个集群以代表性段落和指向相对应的代表性文档的链接示出。在图1中示出和描述的集群内度量评估为所代表的集群中的每一个集群识别文档链接和段落。具体地,集群0(310)包括段落0(314)和链接0(316),集群1(330)包括段落1(334)和链接1(336),集群2(350)包括段落2(354)和链接2(356)。在图1中示出和描述的集群间度量评估提供所代表的集群的排序。该排序在(360)处示出,其中该排序包括集群的相关性排名,其中较高的位置指示相关性。在该示例中,集群(360)的排序将位置从较高相关到较低相关示出为(362)、(364)和(366),其中集群1(330)在位置0(362)处示出,集群0(310)在位置1(364)处示出,而集群2(350)在位置2(366)处示出。在排序(360)中的代表性集群中的每一个集群与相应的段落和链接一起被示出。相应地,集群内评估和集群间评估均被示出和演示。
集群内评估提供了集群内的文档和相关联的段落的排序。要理解的是,提供代表性段落和相关联的文档或文档链接是为了效率,并且在一个实施例中是为了空间限制。在本文所示的示例中,位置0(362)中的集群1(330)包括段落1(334)和链接1(336),以及扩展标识符ID1(338)。扩展标识符用作指示主题集群包括附加段落和/或链接的指示符。标识符ID1(338)的选择在(370)处显示,其中有两个附加条目,即条目1,0(372)和条目1,1(374),每个条目均以段落(分别包括段落1,0(372a)和段落1,1(374a))和相对应的链接(分别包括链接1,0(372b)和链接1,1(374b))示出。附加条目(372)和(374)是集群内排名和排序的一部分,并由此如本文所示,是与排名和排序相对应的顺序。相应地,提供扩展符号作为集群内多个排序的段落和/或文档的指示符,其中对符号的选择传达与代表性段落和链接相关或有关的附加段落和相对应的链接。
为了提供附加细节用于对本公开的选择实施例的更好的理解,现在参考图4,其示出演示用于文档检索和集群形成的处理400的流程图(400)。文档检索查询被接收(402)和分析(404)。查询中的相关性驱动程序被识别(406)。此识别包括确定查询中的LAT和两个或更多个概念。识别(408)数据存储中作为LAT的主题的KG,并且在一个实施例中,识别所识别的概念中的至少一个。在一个实施例中,利用在步骤(408)处识别的KG来识别概念、概念类别和概念关系。返回与查询有关的一个或多个文档,并且根据所识别的LAT和概念类别对其进行分析(410)。形成与查询有关的两个或更多个文档集群(412)。在一个实施例中,所形成的集群中的每一个限于概念和/或LAT。对所形成的集群中的每一个进行集群间评价和集群内评价,以确定高集群信息增益和低集群信息增益(414)。相应地,如本文中所示,与查询有关的文档集群被创建并关于信息增益和相对应查询结果识别而被分析。
如在图4中简要描述的,处理查询以进行LAT和概念识别。参照图5A和5B,提供了流程图(500)以图示用于文档和段落识别以及集群度量分析的处理(500)。如图4中示出和描述,接收文档检索查询,并且分析查询的要素以确定LAT,以及在一个实施例中还确定至少一个概念,并且与LAT和主要概念有关的KG被识别并被利用以确定与LAT和/或主要概念有关的所有非查询提供的概念。通过KG识别的概念在本文中称为次要概念。要理解的是,通过KG识别了至少一个次要概念。在一个实施例中,通过使用KG可以返回的次要概念的数量受到限制。相应地,如图4中示出和描述,查询处理的第一方面针对查询中的LAT的识别,以及通过相对应的KG识别的概念识别。
一旦已经识别了查询的LAT和概念,就将查询提交到文档的语料库或库以识别相关材料。在一个实施例中,查询是问题,而返回提供对查询的答案的文档和相对应的段落。要理解的是,可以对从对应语料库或库的初步搜索返回的文档的数量应用限制或阈值。限制NTotal被设置到在从查询处理的初始方面返回的文档和相关联段落的数量(502)。在一个实施例中,该限制是可配置的整数。该限制用于管理与查询处理相关联的处理负担。限制NTotal针对初始查询处理被应用,并且超出限制的任何初步结果将不被进一步考虑或处理(504)。相应地,本文示出的查询处理是多阶段处理,其对要进行增强处理的文档的数量设置限制或阈值,以便管理处理负担。
在步骤(504)之后,对相对应的文档计数变量N进行初始化(506),并且对作为查询处理主题的文档进行关于接收到的查询的注释。如所示,来自初始查询处理的文档N被针对LAT以及主要概念和次要概念进行注释(508)。在注释之后,增加文档计数变量(510),并确定是否所有文档都已注释(512)。在对步骤(512)处的确定的否定响应之后,返回到步骤(508),而肯定响应结束注释过程。相应地,对在初始查询处理中被识别为包含与LAT以及主要概念和次要概念有关的数据的文档中的每一个文档进行注释。
对所注释的文档进行聚类以便最大化信息增益(514)。形成至少两个集群,其中第一集群包括包含所识别的LAT和第一概念的文档(516),并且第二集群包括不包含LAT但是包含第一概念和第二概念的文档(518)。在一个实施例中,可以由LAT和/或主要概念和次要概念以及在一个实施例中还有附加概念的不同组合来形成第三集群或附加集群。相应地,本文示出的两个集群的形成和特征不应被认为是限制性的。
如图1所述,相对于集群形成进行信息增益评估,包括集群间增益和集群内增益。集群内增益与在所形成的集群中的每一个集群内的文档排名有关。更具体地,在每个集群内的文档相对于其与集群合格(qualifying)特征(例如LAT和概念的选择)的相关性和所提交的查询被评估。在形成集群之后,分配变量CTotal以代表所形成的集群的数量(520),并且将对应的集群计数变量C初始化(522)。如图1所描述,要理解的是,每个集群C可以包括一个或多个文档,该文档包含对所提交的查询的结果。变量DTotal代表被识别为包含与所提交的查询有关的数据的每个集群中的文档数量(524)。对于集群C中的每个文档D评估该文档相对于所提交的查询的相关性,并且识别文档中的每一个文档内的相关段落(526)。在一个实施例中,还在步骤(526)处评估文档相对于所识别的LAT和主要概念或所识别的概念和文档的选择的相关性。在步骤(526)之后,增加集群计数变量C(528),随后进行评估以确定是否已经对所形成的集群中每一个集群进行了集群内评估(例如,集群内增益度量)(530)。在对步骤(530)处的确定的否定响应之后返回步骤(524),而对步骤(530)处的确定的肯定响应结束集群内增益评估。相应地,在所形成的集群中的每个文档都关于查询提交经受评估,以用于集群内增益评估。
要理解的是,由于集群的合格特征基于因素(例如LAT和概念选择)的不同组合,所以集群可以包含文档和对应的代表性段落的不同表示。在步骤(530)之后,基于集群相对于查询提交的评估相关性对集群进行排名。在一个实施例中,将每个集群中排名最高的文档及其对应的排名值用作跨集群排名(例如集群间增益评估)的度量。如所示,从1到CTotal的集群基于其内部排序和排名(例如代表性集群文档以及与查询提交的相关性)进行排名(532)。来自排名的结果包括表示来自每个集群的代表性文档的代表性段落的呈现、指向对应的代表性文档的链接,以及在一个实施例中还包括扩展标识符(如果在对应集群中识别了多于一个相关文档)。在一个实施例中,第一集群包括第一段落和第一代表性文档,并且第二集群包括第二段落和第二代表性文档等等。相应地,查询评估的结果与来自每个集群的代表性段落一起呈现。
在形成集群之后进行两个评估,包括识别代表集群的段落和对应的文档的集群内评估,以及识别集群间增益或损失的集群间评估。参考图6,提供了流程图(600)以说明集群间评估以及该评估对主题KG和对应的MLM的影响。如所示,进行了集群间评估(602)。该评估包括反映跨集群的亲和度(例如,两个集群之间代表性段落与对应文档链接之间关系的强度)的数值。进行评价以相对于集群各自的评估值(例如,数值)来评估集群之间的接近度(604)。如果确定评估值是接近的(例如在限定的范围内),则识别MLM和对应的KG(606)。在一个实施例中,评估值的接近度是集群间增益的指示。然后确定KG中是否存在LAT以及所识别的概念C0和C1中的每一个(608)。对步骤(608)处的确定的否定响应之后,KG管理器选择性地添加丢失的LAT或概念中的任意一个以及它们与KG的关系(610),并且MLM管理器修正对应的MLM以反映对KG的添加(612)。类似地,对步骤(608)处的确定的肯定响应指示KG和对应的MLM不需要任何修正(614)。但是,如果在步骤(604)处确定评估值不接近,这指示有集群间损失。KG管理器前进到识别LAT和所识别的概念之间的弱关系(616),并选择性地移除在对应KG中存在的所识别的(一个或多个)弱关系(618)。另外,ML管理器前进到步骤(612)以修正对应的MLM以反映所修正的KG(618)。相应地,KG和对应的MLM被选择性地和动态地修正以反映集群间增益评估。
本文示出的系统和流程图也可以是与智能计算机平台一起使用以便于NL处理的计算机程序设备的形式。该设备具有与其一起体现的程序代码。程序代码可由处理单元执行以支持所描述的功能。如所公开的,系统、方法、装置和计算机程序产品应用NL处理以支持MLM,并且使MLM支持KG持久性。
本文示出和描述的实施例可以是与智能计算机平台一起使用的计算机系统的形式,该智能计算机平台用于提供动态查询处理以产生对应的上下文响应,并且在一个实施例中,还产生上下文响应数据。处理单元可操作地耦合到存储器并且与人工智能平台通信。与处理单元通信的工具由人工智能平台激活,并被用于提供针对查询的LAT以及概念识别和分析。如本文所述,从电子通信中识别LAT,并且在一个实施例中,从对应的通信接口中识别LAT。识别两个或更多个相关概念,其中概念中的至少一个对应于在对应的KG中反映的与LAT的关系。集群由LAT和/或概念的组合形成,并基于一个或多个文档与相应集群的LAT和/或概念的组合的特征的关系和接近度,以该一个或多个文档填充该集群。进行集群内评估和集群间评估,集群内评估针对代表性响应数据,集群间评估针对动态KG和相关联的MLM维护。
参考图7,提供了框图(700)以图示查询提交和处理的用例示例,如图1至图6中所述。如所示,查询(710)被接收。识别查询(710)中呈现的LAT(712)和主要概念(714)。识别了两个次要概念(716)和(718)。LAT(712)、主要概念(714)以及次要概念(716)和(718)的组合被提交到语料库或库。来自查询提交的结果示出在(730)处。在该示例中有五个结果,包括结果0(740)、结果1(750)、结果2(760)、结果3(770)和结果4(780)。结果0(740)被示出为具有段落0(742)、链接0(744)、集群间增益度量0(746)和扩展标识符0(748)。结果1(750)被示出为具有段落1(752)、链接1(754)和度量1(756)。只有一个文档用于结果1(750),因此没有提供扩展标识符。结果2(760)被示出为具有段落2(762)、链接2(764)、度量2(766)和标识符2(768)。结果3(770)被示出为具有段落3(772)、链接3(774)和度量3(776)。只有一个文档用于结果3(770),因此没有提供扩展标识符。结果4(780)被示出为具有段落4(782)、链接4(784)和度量4(786)。只有一个文档(780)用于结果4,因此没有提供扩展标识符。扩展标识符用作示出查询结果的扩展种类的工具,通过选择标识符能够呈现与对应段落和链接有关的附加查询结果。相应地,查询结果中的每一个都提供有代表性段落和链接,在某些情况下还提供扩展标识符。
图1至图6所示的查询处理的各方面采用一个或多个功能工具,如图1所示和所述。功能工具(152)至(158)的各方面及其相关联的功能可以在单个位置的计算机系统/服务器中体现,或者在一个实施例中,可以被配置在共享计算资源的基于云的系统中。参考图8,提供了框图(800)以示出计算机系统/服务器(802)(以下称为与基于云的支持系统通信的主机(802))的示例,以实现相对于图1至图6的上述处理。主机(802)可与许多其他通用或专用计算系统环境或配置一起操作。可以与主机(802)一起使用的众所周知的计算系统、环境和/或配置的示例包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机系统、主机计算机系统和文件系统(例如,分布式存储环境和分布式云计算环境),其中包括以上系统、设备及其等同物中的任意一个。
主机(802)可能以由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般文本描述。通常地,程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。主机(802)可以在分布式云计算环境中被实践,其中任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储器存储设备的本地和远程计算机系统存储介质中。
如图8所示,主机(802)以通用计算设备的形式示出。主机(802)的组件可以包括但不限于例如一个或多个处理器或处理单元(804)(例如硬件处理器)、系统存储器(806)和将包括系统存储器(806)的各种系统组件耦合到处理器(804)的总线(808)。总线(808)表示几种类型的总线结构中的任何一种或多种,包括使用各种总线体系结构中的任意一种体系结构的存储器总线或存储器控制器、外围总线、加速图形端口以及处理器或本地总线。作为示例而非限制,这种体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)本地总线和外围组件互连(PCI)总线。主机(802)通常包括各种计算机系统可读介质。这种介质可以是主机(802)可访问的任意可用介质,并且它包括易失性和非易失性介质、可移动和不可移动介质。
存储器(806)可以包括易失性存储器形式的计算机系统可读介质,诸如随机存取存储器(RAM)(830)和/或高速缓存存储器(832)。仅作为示例,可以提供存储系统(834)以用于从不可移除的非易失性磁性介质(未示出并且通常称为“硬盘驱动器”)读取和向其写入。虽然未示出,但是可以提供用于从可移除的非易失性磁盘(例如“软盘”)读取和向其写入的磁盘驱动器,以及用于从可移除的非易失性光盘(诸如CD-ROM、DVD-ROM或其他光学介质)读取或向其写入的光盘驱动器。在这样的情况下,每个都可以通过一个或多个数据介质接口连接到总线(808)。
具有一组(至少一个)程序模块(842)的程序/实用程序(840)可以作为示例而非限制地存储在存储器(806)中,以及操作系统、一个或多个应用程序、其他程序模块和程序数据也可以存储在其中。操作系统、一个或多个应用程序、其他程序模块以及程序数据或其某种组合中的每一个可包括联网环境的实现。程序模块(842)通常执行实施例的功能和/或方法,以动态地传达评估询问性标识和处理。例如,一组程序模块(842)可以包括如图1中所描述的工具(152)至(158)。
主机(802)还可以与一个或多个外部设备(814)(诸如键盘、指向设备等)通信;显示器(824);使用户能够与主机(802)交互的一个或多个设备;和/或使主机(802)能够与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)。这种通信可以经由(一个或多个)输入/输出(I/O)接口(822)发生。仍然,主机(802)可以经由网络适配器(820)与一个或多个网络(诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如,因特网))通信。如所描绘,网络适配器(820)经由总线(808)与主机(802)的其他组件通信。在一个实施例中,分布式文件系统(未示出)的多个节点经由I/O接口(822)或经由网络适配器(820)与主机(802)通信。应当理解的是,虽然其他硬件和/或软件组件未示出,但是其可以与主机(802)结合使用。示例包括但不限于:微代码、设备驱动程序、冗余处理单元、外部磁盘驱动器阵列、RAID系统、磁带驱动器和数据档案存储系统等。
在本文档中,术语“计算机程序介质”、“计算机可用介质”和“计算机可读介质”通常用于指代诸如主存储器(806)之类的介质,包括RAM(830)、高速缓存(832)和存储系统(834),诸如可移除存储驱动器和安装在硬盘驱动器中的硬盘。
计算机程序(也称为计算机控制逻辑)被存储在存储器(806)中。也可以经由诸如网络适配器(820)之类的通信接口来接收计算机程序。这种计算机程序在运行时使计算机系统能够执行本文讨论的本实施例的特征。特别地,计算机程序在运行时使处理单元(804)能够执行计算机系统的特征。相应地,这种计算机程序代表计算机系统的控制器。
计算机可读存储介质可以是有形设备,其可以保留和存储由指令执行设备使用的指令。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述设备的任何合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下内容:便携式计算机磁盘、硬盘、动态或静态随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、磁存储设备、便携式光盘只读存储器(CD-ROM)、数字多功能磁盘(DVD)、记忆棒、软盘、机械编码装置(诸如穿孔卡片或凹槽中的凸起结构,其上记录了指令)以及前述设备的任何合适的组合。如本文所使用的,计算机可读存储介质不应被理解为本身是瞬时信号,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质(例如,穿过光纤线缆的光脉冲)传播的电磁波或通过电线传输的电信号。
本文所述的计算机可读程序指令可以从计算机可读存储介质下载到对应的计算/处理设备,或者可以经由网络(例如,互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。该网络可以包括铜传输线缆、传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令用于在相应的计算/处理设备内的计算机可读存储介质中的存储。
用于执行本实施例的操作的计算机可读程序指令可以是汇编程序指令、指令集体系结构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据或以一个或多个编程语言(包括面向对象编程语言,诸如Java、Smalltalk、C++等;以及常规过程编程语言,诸如“C”编程语言或类似编程语言)的任意组合编写的源代码或者对象代码。计算机可读程序指令可以作为独立软件包完全在用户计算机上或者部分在用户计算机上执行,或者可以部分在用户计算机上且部分在远程计算机上或者完全在远程计算机或服务器或服务器集群上执行。在后者情况下,远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机,或者可以与外部计算机建立连接(例如,通过使用互联网服务提供商的互联网)。在一些实施例中,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以对电子电路进行个性化,以便执行实施例的各方面。
在一个实施例中,主机(802)是云计算环境的节点。如本领域中已知,云计算是一种服务交付模式,用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源,例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。这些特征的示例如下:
按需自助式服务:云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。
广泛的网络接入:计算能力可以通过标准机制在网络上获取,这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台(例如移动电话、膝上型电脑、个人数字助理PDA)对云的使用。
资源池:提供者的计算资源被归入资源池并通过多租户(multi-tenant)模式服务于多重消费者,其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下,消费者不能控制或甚至并不知晓所提供的资源的确切位置,但可以在较高抽象程度上指定位置(例如国家、州或数据中心),因此具有位置无关性。
迅速弹性:能够迅速、有弹性地(有时是自动地)部署计算能力,以实现快速扩展,并且能迅速释放来快速缩小。在消费者看来,用于部署的可用计算能力往往显得是无限的,并能在任意时候都能获取任意数量的计算能力。
可测量的服务:云系统通过利用适于服务类型(例如存储、处理、带宽和活跃用户帐号)的某种抽象程度的度量能力,自动地控制和优化资源效用。可以监测、控制和报告资源使用情况,为服务提供者和消费者双方提供透明度。
服务模型如下:
软件即服务(SaaS):向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口(例如基于网络的电子邮件)从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外,消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。
平台即服务(PaaS):向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用,这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构,但对其部署的应用具有控制权,对应用托管环境配置可能也具有控制权。
基础架构即服务(IaaS):向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构,但是对操作系统、存储和其部署的应用具有控制权,对选择的网络组件(例如主机防火墙)可能具有有限的控制权。
部署模型如下:
私有云:云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。
共同体云:云基础架构被若干组织共享并支持有共同利害关系(例如任务使命、安全要求、政策和合规考虑)的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。
公共云:云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。
混合云:云基础架构由两个或更多部署模型的云(私有云、共同体云或公共云)组成,这些云依然是独特的实体,但是通过使数据和应用能够移植的标准化技术或私有技术(例如用于云之间的负载平衡的云突发流量分担技术)绑定在一起。
云计算环境是面向服务的,特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。
现在参考图9,说明了云计算网络(900)。如所示,云计算网络(900)包括具有一个或多个云计算节点(910)的云计算环境(950),云消费者使用的本地计算设备可以与该云计算节点(910)通信。这些本地计算设备的示例包括但不限于个人数字助理(PDA)或蜂窝电话(954A)、台式计算机(954B)、膝上型计算机(954C)和/或汽车计算机系统(954N)。节点(910)内的单个节点可以进一步彼此通信。可以在一个或多个网络(诸如上文所述的私有云、共同体云、公共云或混合云,或其组合)中对它们进行物理或虚拟分组(未示出)。这允许云计算环境(900)提供基础设施、平台和/或软件作为服务,云消费者不需要为其维护在本地计算设备上的资源。要理解的是,图9中所示的计算设备(954A至954N)的类型仅旨在说明,并且云计算环境(950)可以通过任意类型的网络和/或网络可寻址连接(例如,使用网络浏览器)与任意类型的计算机化设备通信。
现在参考图10,示出由图9的云计算网络提供的一组功能抽象层(900)。应当事先理解的是,图10中所示的组件、层和功能仅旨在说明,并且实施例不限于此。如所描绘,提供了以下层和对应的功能:硬件和软件层(1010)、虚拟化层(1020)、管理层(1030)和工作负载层(1040)。
硬件和软件层(1010)包括硬件和软件组件。硬件组件的例子包括:主机,例如系统;基于RISC(精简指令集计算机)体系结构的服务器,例如IBM系统;IBM/>系统;IBM/>系统;存储设备;网络和网络组件。软件组件的例子包括:网络应用服务器软件,例如IBM/>应用服务器软件;数据库软件,例如IBM/>数据库软件。(IBM、zSeries、pSeries、xSeries、BladeCenter、WebSphere以及DB2是国际商业机器公司在全世界各地的注册商标)。
虚拟层(1020)提供一个抽象层,该层可以提供下列虚拟实体的例子:虚拟服务器、虚拟存储、虚拟网络(包括虚拟私有网络)、虚拟应用和操作系统,以及虚拟客户端。
在一个示例中,管理层(1030)可以提供下述功能:资源供应功能:提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取;度量和定价功能:在云计算环境内对资源的使用进行成本跟踪,并为此提供帐单和发票。在一个例子中,该资源可以包括应用软件许可。安全功能:为云的消费者和任务提供身份认证,为数据和其它资源提供保护。用户门户功能:为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能:提供云计算资源的分配和管理,以满足必需的服务水平。服务水平协议(SLA)计划和履行功能:为根据SLA预测的对云计算资源未来需求提供预先安排和供应。
工作负载层(1040)提供云计算环境可能实现的功能的示例。在该层中,可提供的工作负载或功能的示例包括但不限于:地图绘制与导航;软件开发及生命周期管理;虚拟教室的教学提供;数据分析处理;交易处理;以及动态查询处理。
将理解的是,本文公开了系统、方法、装置和计算机程序产品,用于评价自然语言输入、检测对应通信中的询问以及用答案和/或支持内容解决所检测到的询问。
虽然已经示出和描述了本实施例的特定实施例,但是对于本领域技术人员显而易见的是,基于本文的教导,可以进行改变和修改而不偏离本实施例及其更广泛的方面。因此,所附权利要求将在其范围内涵盖在实施例的真实精神和范围内的所有此类改变和修改。此外,要理解的是,实施例仅由所附权利要求限定。本领域技术人员将理解的是,如果对引入的权利要求要素有特定数量的意图,则将在权利要求中明确地记载这种意图,并且在没有这种记载的情况下不存在这种限制。作为非限制性示例,为了帮助理解,以下所附权利要求包含使用介绍性短语“至少一个”和“一个或多个”以引入权利要求要素。然而,此类短语的使用不应被解释为暗示通过不定冠词“一”或“一个”对权利要求要素的引入将包含该引入的权利要求要素的任何特定权利要求限制为仅包含一个这样的要素的实施例,即使当同一权利要求包括介绍性短语“一个或多个”或“至少一个”以及不定冠词(诸如“一”或“一个”);在定冠词的权利要求中也是如此。
本实施例可以是系统、方法和/或计算机程序产品。另外,本实施例的所选方面可以采取以下形式:完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或将所有可在本文中通常被称为“电路”、“模块”或“系统”的软件和/硬件方面进行组合的实施例。此外,本实施例的各方面可以采取体现在其上具有计算机可读程序指令的(一个或多个)计算机可读存储介质中的计算机程序产品的形式,该计算机可读程序指令用于使处理器执行本实施例的各方面。以这种方式被实施,所公开的系统、方法和/或计算机程序产品可操作以改进人工智能平台的功能和操作,从而解决针对意图识别和与针对所识别意图的对应响应的询问。
计算机可读存储介质可以是有形设备,其可以保留和存储由指令执行设备使用的指令。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述设备的任何合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下内容:便携式计算机磁盘、硬盘、动态或静态随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、磁存储设备、便携式光盘只读存储器(CD-ROM)、数字多功能磁盘(DVD)、记忆棒、软盘、机械编码装置(诸如穿孔卡片或凹槽中的凸起结构,其上记录了指令)以及前述设备的任何合适的组合。如本文所使用的,计算机可读存储介质不应被理解为本身是瞬时信号,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质(例如,穿过光纤线缆的光脉冲)传播的电磁波或通过电线传输的电信号。
本文所述的计算机可读程序指令可以从计算机可读存储介质下载到对应的计算/处理设备,或者可以经由网络(例如,互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。该网络可以包括铜传输线缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令用于在相应的计算/处理设备内的计算机可读存储介质中的存储。
用于执行本实施例的操作的计算机可读程序指令可以是汇编程序指令、指令集体系结构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据或以一个或多个编程语言(包括面向对象编程语言,诸如Java、Smalltalk、C++等;以及常规过程编程语言,诸如“C”编程语言或类似编程语言)的任意组合编写的源代码或者对象代码。计算机可读程序指令可以作为独立软件包完全在用户计算机上或者部分在用户计算机上执行,或者可以部分在用户计算机上且部分在远程计算机上或者完全在远程计算机或服务器或服务器集群上执行。在后者情况下,远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机,或者可以与外部计算机建立连接(例如,通过使用互联网服务提供商的互联网)。在一些实施例中,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以对电子电路进行个性化,以便执行实施例的各方面。
参考根据实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图,本文描述了本实施例的各方面。将理解的是,流程图图示和/或框图的每个框以及在流程图图示和/或框图中的框的组合可以由计算机可读程序指令来实现。
可以将这些计算机可读程序指令提供到通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中,该计算机可读存储介质可以指导计算机、可编程数据处理装置和/或以特定方式起作用的其他设备,从而使得其中存储有指令的计算机可读存储介质包括制造物品,该制造物品包括实现在流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。
计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤以产生计算机所实现的处理,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。
附图中的流程图和框图示出了根据本实施例的各个实施例的系统、方法和计算机程序产品的可能实现的体系结构、功能和操作。就这一点而言,流程图或框图中的每个框可以代表指令的模块、片段或部分,其包括用于实现所指定的(一个或多个)逻辑功能的一个或多个可执行指令。在一些替代实现中,框中注解的功能可以不按附图注解的顺序发生。例如,取决于所涉及的功能,实际上可以基本上同时执行连续示出的两个框,或者有时可以以相反的顺序执行这些框。还将注意的是,框图和/或流程图的每个框以及框图和/或流程图的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的系统来实现。
将理解的是,虽然本文出于说明的目的已经描述了特定实施例,但是在不偏离本实施例的精神和范围的情况下可以进行各种修改。特别是,可以提供有关聚类质量的反馈,并将其作为集群内和集群间度量评估的因素,这可以动态修改对应的KG和MLM的结构。类似地,自然语言处理可以由不同的计算平台或跨多个设备来执行。此外,数据存储和/或语料库可以是本地化的、远程的或分布在多个系统上。相应地,实施例的保护范围仅由所附权利要求及其等同物限制。

Claims (26)

1.一种计算机系统,包括:
处理单元,所述处理单元可操作地耦合到存储器;
与所述处理单元通信的人工智能平台,所述平台支持文档检索,包括:
请求管理器,所述请求管理器接收针对语料库的处理请求;
所述请求管理器分析所接收的请求,所述请求包括识别词法答案类型LAT和与所接收的请求相关的第一概念,其中LAT是接收到的请求中的词或从接收到的请求中推断出的词,其指示接收到的请求的答案类型,该答案类型独立于向该词分配语义;
所述请求管理器识别知识图提供的第二概念,所述第二概念与所识别的第一概念有关;
集群管理器,所述集群管理器可操作地耦合到所述请求管理器,所述集群管理器利用所述LAT和所识别的第一概念和第二概念,并根据聚类算法对所述语料库中的条目进行分类,包括以所述LAT和所识别的第一概念选择性地形成具有所述语料库中的一个或多个文档的第一集群,和形成语料库中一个或多个文档的第二集群,所述第二集群具有所述第一组概念和第二组概念的组合;以及
所述集群管理器根据与所接收的请求的相关性对所述第一集群和第二集群进行排序;和
从所述集群管理器返回查询结果,其中所述查询结果随所排序的第一集群和第二集群而变化,并且包括指向所述第一集群的第一代表性段落和指向所述第二集群的第二代表性段落。
2.根据权利要求1所述的系统,还包括:对于每个所识别的第一集群和第二集群,所述集群管理器识别表示文档,所述表示文档包括所述第一集群中的第一表示文档和所述第二集群中的第二表示文档。
3.根据权利要求1所述的系统,其中,所述集群管理器识别所述集群之间的第一信息增益度量以及所述第一集群和第二集群中的每个集群内的第二信息增益度量,并且还包括所述请求管理器利用所述第一信息增益度量和第二信息增益度量以识别查询结果。
4.根据权利要求3所述的系统,其中,所述第一信息增益度量和第二信息增益度量随所接收的查询而变化。
5.根据权利要求1所述的系统,其中,所述第二概念与引起所述第一概念相关联。
6.根据权利要求1所述的系统,其中,所形成的第一集群和第二集群中的至少一个是多文档集群,并且进一步包括所述集群管理器向所述多文档集群分配扩展标识符,其中,对所分配的扩展符号的选择返回一个或多个第二代表性文档以及用于每个第二代表性文档的第二段落。
7.一种方法,包括:
接收针对语料库的处理请求;
分析所接收的请求,包括识别词法答案类型LAT和与所接收的请求相关的第一概念,其中LAT是接收到的请求中的词或从接收到的请求中推断出的词,其指示接收到的请求的答案类型,该答案类型独立于向该词分配语义;
识别知识图提供的第二概念,所述第二概念与所识别的第一概念有关;
利用所述LAT和所识别的第一概念和第二概念,根据聚类算法对所述语料库中的条目进行分类,包括以所述LAT和所识别的第一概念选择性地形成具有所述语料库中的一个或多个文档的第一集群,和形成所述语料库中的一个或多个文档的第二集群,所述第二集群具有所述第一组概念和第二组概念的组合;
根据与所接收的请求的相关性对所述第一集群和第二集群进行排序;
从所述排序返回查询结果,其中所述查询结果随所排序的第一集群和第二集群而变化,并且包括指向所述第一集群的第一代表性段落和指向所述第二集群的第二代表性段落。
8.根据权利要求7所述的方法,还包括对于每个所识别的第一集群和第二集群,识别表示文档,所述表示文档包括所述第一集群中的第一表示文档和所述第二集群中的第二表示文档。
9.根据权利要求7所述的方法,其中,所述第一集群和第二集群的形成识别所述集群之间的第一信息增益度量以及所述第一集群和第二集群中的每个集群内的第二信息增益度量,并且还包括利用所述第一信息增益度量和第二信息增益度量来识别查询结果。
10.根据权利要求9所述的方法,其中,所述第一信息增益度量和所述第二信息增益度量随所接收到的查询而变化。
11.根据权利要求7所述的方法,其中,所述第二概念与引起所述第一概念相关联。
12.根据权利要求7所述的方法,其中,所形成的第一集群和第二集群中的至少一个是多文档集群,并且进一步包括向所述多文档集群分配扩展标识符,其中,对所分配的扩展符号的选择返回一个或多个第二代表性文档以及用于每个第二代表性文档的第二段落。
13.一种支持文档检索的计算机程序产品,所述计算机程序产品包括计算机可读存储介质,所述计算机可读存储介质具有以所述计算机可读存储介质体现的程序代码,所述程序代码可由处理器执行以执行根据权利要求7至12中任一项所述的方法的所有步骤。
14.一种计算机系统,包括:
处理单元,所述处理单元可操作地耦合到存储器;
与所述处理单元通信的人工智能平台,所述平台支持自然语言处理,包括:
分析所接收的自然语言NL输入的请求管理器,包括识别词法答案类型LAT的请求管理器,其中LAT是接收到的自然语言NL输入中的词或从接收到的是接收到的自然语言NL输入中推断出的词,其指示接收到的自然语言NL输入的答案类型,该答案类型独立于向该词分配语义;
知识图KG管理器,所述KG管理器识别与所述LAT有关的KG,并利用所识别的KG提取所述KG中与所述LAT有关的第一概念和所述KG中与所识别的第一概念有关的第二概念;
集群管理器,所述集群管理器可操作地耦合到所述KG管理器,所述集群管理器创建具有所述LAT以及所识别的第一概念和第二概念的布置的两个或更多个集群,每个集群以两个或更多个布置中的一个布置为特征,并以与两个或更多个布置相关的一个或多个文档填充所创建的两个或更多个集群中的每一个;
所述集群管理器基于与所接收的输入的相关性进行集群间评估;和
机器学习模型MLM管理器,所述MLM管理器识别对应于所识别的KG的MLM,所述MLM管理器以所述LAT、所述第一概念、所述第二概念以及响应于所述集群间评估的对应关系来选择性地增强所述MLM。
15.根据权利要求14所述的系统,还包括:KG管理器响应于所述集群间评估而选择性地修正KG,包括从包括以下各项的组中选择的修正:向所述KG的添加和从所述KG中的移除。
16.根据权利要求15所述的系统,其中,所述集群间评估表示增益,并且进一步包括所述KG管理器向所述KG选择性地添加一个或多个条目和对应关系,所述一个或多个条目从包括以下各项的组中选择:所述LAT、所述第一概念、所述第二概念和以上各项的组合。
17.根据权利要求16所述的系统,其中,所述MLM的选择性增强还包括所述ML管理器修正所识别的MLM以反映向所述对应的KG的所述选择性的一个或多个添加。
18.根据权利要求15所述的系统,其中,所述集群间评估表示损失,并且进一步包括所述KG管理器从所述KG选择性地移除所述对应关系中的至少一个。
19.根据权利要求18所述的系统,其中,所述MLM的选择性增强还包括所述ML管理器修正所述MLM以反映从所述对应的KG的所述选择性的关系的移除。
20.一种方法,包括:
分析接收自然语言NL输入,包括识别词法答案类型LAT,其中LAT是接收到的自然语言NL输入中的词或从接收到的是接收到的自然语言NL输入中推断出的词,其指示接收到的自然语言NL输入的答案类型,该答案类型独立于向该词分配语义;
识别与所述LAT相关的知识图KG,并利用所识别的KG来提取所述KG中与所述LAT相关的第一概念和所述KG中与所识别的第一概念相关的第二概念;
创建具有所述LAT和所识别的第一概念和第二概念的布置的两个或更多个集群,每个集群以所述两个或更多个布置中的一个布置为特征,并以与所述两个或更多个布置相关的一个或多个文档填充所创建的两个或更多个集群中的每一个;
响应根据与所接收的输入的相关性进行集群间评估;以及
识别与所识别的KG相对应的机器学习模型MLM,以所述LAT、所述第一概念、所述第二概念以及响应于所述集群间评估的对应关系来选择性地增强所述MLM。
21.根据权利要求20所述的方法,还包括响应于所述集群间评估而选择性地修正所述KG,包括从包括以下各项的组中选择的修正:向所述KG的添加和从所述KG的移除。
22.根据权利要求21所述的方法,其中,所述集群间评估表示增益,并且还向所述KG选择性地添加一个或多个条目和对应关系,所述一个或多个条目从包括以下各项的组中选择:所述LAT、所述第一概念、所述第二概念和以上各项的组合。
23.根据权利要求22所述的方法,其中,所述MLM的选择性增强还包括:修正所识别的MLM,以反映向所述对应的KG的所述选择性的一个或多个添加。
24.根据权利要求22所述的方法,其中,所述集群间评估表示损失,并且还包括:从所述KG选择性地移除所述对应关系中的至少一个。
25.根据权利要求24所述的方法,其中,所述MLM的选择性增强还包括修正所述MLM以反映从所述对应的KG的所述选择性的关系移除。
26.一种支持自然语言处理的计算机程序产品,所述计算机程序产品包括计算机可读存储介质,所述计算机可读存储介质具有以所述计算机可读存储介质体现的程序代码,所述程序代码可由处理器执行以执行根据权利要求20至25中任一项所述的方法的所有步骤。
CN202010024068.9A 2019-01-11 2020-01-09 动态查询处理和文档检索 Active CN111435409B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US16/245,342 2019-01-11
US16/245,344 US10909180B2 (en) 2019-01-11 2019-01-11 Dynamic query processing and document retrieval
US16/245,344 2019-01-11
US16/245,342 US10949613B2 (en) 2019-01-11 2019-01-11 Dynamic natural language processing

Publications (2)

Publication Number Publication Date
CN111435409A CN111435409A (zh) 2020-07-21
CN111435409B true CN111435409B (zh) 2024-05-07

Family

ID=71580174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010024068.9A Active CN111435409B (zh) 2019-01-11 2020-01-09 动态查询处理和文档检索

Country Status (1)

Country Link
CN (1) CN111435409B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102279871A (zh) * 2010-06-08 2011-12-14 微软公司 基于词法和本体概念重排搜索结果
CN102687137A (zh) * 2009-11-18 2012-09-19 微软公司 搜索日志中的概念发现
CN106055549A (zh) * 2015-04-09 2016-10-26 国际商业机器公司 利用加速器的概念分析操作

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9064001B2 (en) * 2013-03-15 2015-06-23 Nuance Communications, Inc. Method and apparatus for a frequently-asked questions portal workflow

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102687137A (zh) * 2009-11-18 2012-09-19 微软公司 搜索日志中的概念发现
CN102279871A (zh) * 2010-06-08 2011-12-14 微软公司 基于词法和本体概念重排搜索结果
CN106055549A (zh) * 2015-04-09 2016-10-26 国际商业机器公司 利用加速器的概念分析操作

Also Published As

Publication number Publication date
CN111435409A (zh) 2020-07-21

Similar Documents

Publication Publication Date Title
US10789552B2 (en) Question answering system-based generation of distractors using machine learning
JP7210587B2 (ja) 知識および自然言語処理を統合するための機械学習
US10984198B2 (en) Automated testing of dialog systems
US11562029B2 (en) Dynamic query processing and document retrieval
CN110362663B (zh) 自适应多感知相似度检测和解析
US11226832B2 (en) Dynamic generation of user interfaces based on dialogue
CN111435362B (zh) 用于生成相关响应的对抗性训练数据增强
US11238027B2 (en) Dynamic document reliability formulation
US11182416B2 (en) Augmentation of a text representation model
US10949613B2 (en) Dynamic natural language processing
US11227127B2 (en) Natural language artificial intelligence topology mapping for chatbot communication flow
JP2023002475A (ja) コンピュータシステム、コンピュータプログラムおよびコンピュータで実装される方法(因果関係知識の識別および抽出)
US11361031B2 (en) Dynamic linguistic assessment and measurement
CN117136366A (zh) 基于变换器的模型知识图链接预测
US11080249B2 (en) Establishing industry ground truth
US11449677B2 (en) Cognitive hierarchical content distribution
US20200242494A1 (en) Corpus Gap Probability Modeling
CN111435409B (zh) 动态查询处理和文档检索
CN111625615B (zh) 用于处理文本数据的方法和系统
US11074407B2 (en) Cognitive analysis and dictionary management
US11163953B2 (en) Natural language processing and candidate response evaluation
US11586973B2 (en) Dynamic source reliability formulation
US20220300852A1 (en) Method and System for Automating Scenario Planning
US11036936B2 (en) Cognitive analysis and content filtering
US11429789B2 (en) Natural language processing and candidate response identification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant