CN111566654B

CN111566654B - 集成知识和自然语言处理的机器学习

Info

Publication number: CN111566654B
Application number: CN201880086008.0A
Authority: CN
Inventors: D·巴卡雷拉; J·巴尼比; N·劳伦斯; S·帕特尔
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2018-01-10
Filing date: 2018-12-31
Publication date: 2023-10-24
Anticipated expiration: 2038-12-31
Also published as: US20190213258A1; GB202011417D0; US20190303441A1; JP7210587B2; JP2021510429A; DE112018005894T5; WO2019138289A1; CN111566654A; GB2583313A; US10599780B2; US10423726B2

Abstract

提供了一种系统、计算机程序产品和方法，用于自动化基于数据的持续性的知识图的框架，并且解决知识图中的时间变化和不确定性。自然语言理解与一个或多个机器学习模型(MLM)一起用于从非结构化信息提取数据，非结构化信息包括实体和实体关系。将所提取的数据填充到知识图中。随着KG经历改变，KG被用于创建新的并重新训练现有的机器学习模型(MLM)。以真实值的形式对填充的数据进行加权。区块链技术被应用于填充的数据以确保数据的可靠性并提供可审计性以评估对数据的改变。

Description

集成知识和自然语言处理的机器学习

背景技术

本发明涉及自然语言处理，并且更具体地涉及用于集成知识和自然语言处理的机器学习。

在人工智能计算机系统领域中，自然语言系统(例如IBM WatsonTM人工智能计算机系统和其它自然语言问答系统)基于系统所获得的知识来处理自然语言。为了处理自然语言，可以用从数据库或知识库中得到的数据来训练系统，但是由于与语言结构和人为推理的特性、或者不正确的新训练数据有关的各种原因，结果可能是不正确的或不准确的。

机器学习是人工智能(AI)的子集，其利用算法来从数据学习并基于该数据创建前瞻。AI是指机器基于信息能够做出决策时的智能，其最大化了在给定主题中成功的机会。更具体地说，AI能够从数据集学习以解决问题并提供相关的推荐。AI是认知计算的子集，其是指规模学习、有目的推断、并且自然地与人类交互的系统。认知计算是计算机科学和认知科学的混合。认知计算利用使用数据最小化、视觉识别和自然语言处理的自学算法来解决问题并优化人类过程。

认知系统固有地是非确定性的。具体地，从认知系统输出的数据易受所提供的信息的影响并被用作输入。例如，当部署新的机器学习模型时，不保证系统将提取与先前所做的相同的实体。新模型可能不利地影响先前的模型结果。类似地，通过文档引入的错误可能导致提取不正确的数据并提供不正确的数据作为输出。因此，需要在认知系统中创建确定性行为。

发明内容

实施例包括针对用于认知系统的确定性数据的自然语言处理的系统、计算机程序产品和方法。

在一个方面，提供了一种系统，其具有可操作地耦合到存储器的处理单元，其中人工智能平台与处理单元和存储器通信。提供与处理单元通信的知识引擎来管理数据。更具体地，知识引擎从结构化和/或非结构化数据中提取数据和数据关系。知识引擎在知识图中为所提取的数据和数据关系创建条目，并且在知识图中选择性地存储数据和数据关系，包括向存储的数据分配真实性值。此外，在对应于知识图或以其他方式与知识图相关联的对应区块链(BC)分类账中创建资产价值条目。资产价值条目包括分配的真实性值。创建对应于BC分类账条目的BC标识符，并且BC标识符与知识图条目一起存储。根据知识图条目和相应的BC分类账条目，KG中的选择数据可以被知识引擎用来支持评估。更具体地说，该评估支持对选择数据的起源的确定，并且另外支持对该数据进行量化。知识引擎基于所分配的真实性值生成被评估数据的列表，包括列表中的数据的排序。从排序列表返回数据元素，在一个实施例中，该数据元素是在列表中的数据元素条目中具有最强的真实性评分的数据元素。

在另一方面，提供了一种处理自然语言的计算机程序产品。该计算机程序产品包括计算机可读存储设备，该计算机可读存储设备具有可由处理单元执行的具体化的程序代码。提供程序代码以将数据存储在知识图中。这包括用于从结构化和/或非结构化数据提取数据和数据关系的程序代码，用于在知识图中创建条目的程序代码，其中条目包括所提取的数据和数据关系的选择性存储以及向存储的数据分配真实性值，用于在BC分类账中创建对应于知识图的资产价值条目的程序代码，其中条目包括所分配的真实性值，用于创建对应于BC分类账条目的BC标识符的程序代码，以及用于将所创建的BC标识符与知识图条目一起存储的程序代码。此外，提供程序代码以支持对存储的数据的评估。具体地，提供程序代码以评估存储在知识图中的选择数据，其包括使用BC标识符来确定选择数据的起源并量化数据的程序代码。还提供了用于生成评估的数据的列表并基于相应的真实性值来对列表中的数据进行排序的程序代码。以在排序列表中具有最强表示的真实性评分的数据元素的形式从列表中生成结果。

在又一方面，提供了一种用于处理自然语言的计算机实现的方法。该方法包括在知识图中存储数据，评估所存储的数据，识别评估的数据中的数据元素。数据的存储包括：从结构化和/或非结构化数据提取数据和数据关系，在知识图中创建条目并在图中选择性地存储所提取的数据和数据关系，向存储的数据分配真实性值，在对应的BC分类账中创建资产价值条目，创建BC标识符，以及将BC标识符与知识图条目一起存储。对存储的数据的评估包括利用BC标识符来确定选择数据的起源并量化该数据。基于该评估，生成列表并基于所分配的(多个)真实性值对列表进行排序。从列表中返回具有最强的识别的真实性值的数据元素。

从下面结合附图对当前优选实施例的详细描述中，这些和其它特征和优点将变得显而易见。

附图简要说明

附图中所示的特征仅是一些实施例的说明，而不是所有实施例的说明，除非另有明确指示。

图1描述了示出自然语言处理系统的示意图的系统图。

图2描述了一个框图，该框图描述了图1所示的NL处理工具及其相关API。

图3描述了一个流程图，该流程图描述了从自然语言处理(NLP)系统的自然语言(NL)输出填充知识图(KG)的过程。

图4描述了一个流程图，该流程图描述了用于从提取的数据创建新的三元组的过程。

图5A和5B描述了流程图，该流程图描述了从NLP输出中提取三元组的过程。

图6描述了一个流程图，该流程图描述了分割KG的过程。

图7描述了一个流程图，该流程图描述了用于链接两个KGs的过程。

图8A和8B描述了流程图，该流程图描绘了用于利用机器学习模型(MLM)来增强查询输入的过程。

图9描述了一个流程图，该流程图描绘了用于训练现有MLM的过程。

图10描述了一个流程图，该流程图描绘了用于渐进和自适应MLM配置的过程。

具体实施方式

容易理解，如在这里的附图中一般性描述和示出的，实施例的组件可以以各种不同的配置来布置和设计。因此，如附图中所呈现的，以下对实施例的装置、系统、方法和计算机程序产品的实施例的详细描述不旨在限制如所要求保护的实施例的范围，而仅仅是所选实施例的表达。

在整个说明书中，对"选择实施例"、"一个实施例"或"实施例"的引用意味着结合该实施例描述的特定特征、结构或特性被包括在至少一个实施例中。因此，在本说明书中多处出现的短语"选择实施例"、"在一个实施例中"或"在实施例中"不一定是指同一实施例。

通过参考附图，将更好地理解所示实施例，其中，相同的部件始终由相同的附图标记表示。以下描述仅意在作为示例，并且仅示出与本文要求保护的实施例一致的设备、系统和过程的某些选择的实施例。

本体用作结构框架以组织信息和概念。自然语言理解(natural languageunderstanding，NLU)是自然语言处理(natural language processing，NLP)的子集。NLU使用算法将语音转换成结构化的本体。在一个实施例中，本体是根据NLU输出的分类来构建的。NLU提供了按照类、子类、域、范围、数据属性和对象属性来构造本体所需的定义。本体个体被映射到对象。处理相同或相似的文档提供了创建本体(也称为初始本体)所需的数据。本体是通过由知识图(KG)管理器应用于数据存储的机器学习模型(MLM)来定义的；本体是使用相关联的NLP服务的输出来构建的。更具体地，本体是利用MLM已经生成的事实或提及而生成的。事实或提及构成本体的个体。在一个实施例中，本体是KG的形式，其具有在图中被表示为节点的事实或提及。KG的结构可以保持恒定，同时允许添加或移除信息。类似地，本体可以用于创建新的和重新训练现有MLM。在一个实施例中，当KG被修改时，实现新的实体和关系，并利用它们来自动训练MLM；MLM变为动态的和渐进的。因此，由KG和MLM表示的本体是相互关联的。

参考图1，描述了自然语言处理系统(100)的示意图。如图所示，提供了通过网络连接(105)与多个计算设备(180)、(182)、(184)、(186)和(188)通信的服务器(110)。服务器(110)配置有通过总线(116)操作地耦合到存储器(114)的处理单元(112)。知识引擎(170)形式的工具被示为在服务器(110)本地，并且可操作地耦合到处理单元(112)和/或存储器(114)。如图所示，知识引擎(170)包含一个或多个工具(172)-(178)。工具(172)-(178)通过网络(105)从一个或多个计算设备(180)、(182)、(184)、(186)和(188)提供自然语言处理。更具体地说，计算设备(180)、(182)、(184)、(186)和(188)经由一个或多个有线和/或无线数据通信链路彼此通信以及与其它设备或组件通信，其中每个通信链路可以包括一个或多个有线、路由器、交换机、发射机、接收机等。在这种网络布置中，服务器(110)和网络连接(105)可以实现用于一个或多个内容用户的自然语言处理和解析。服务器(110)的其它实施例可以与除了这里描述的那些之外的组件、系统、子系统和/或设备一起使用。

包括知识引擎(170)的工具，或者在一个实施例中，嵌入其中的包括KG管理器(172)、准确性管理器(174)、BC管理器(176)和MLM管理器(178)的工具，可以被配置成从多种源接收输入，包括但不限于来自网络(105)的输入、来自节点图数据存储(160)的一个或多个知识图，所述节点图数据存储经由接口(166)、BC网络(150)和一个或多个机器学习模型(MLM)的库(140)可操作地耦合到结构化数据(168)的语料库。如图所示，节点图数据存储(160)用作知识图的库(162)，具有多个KG，包括KG₀(164A)、KG₁(164B)和KG_N(164N)。本文所示的KG的量不应被认为是限制性的。每个KG是概念本体的表示。更具体地说，每个KG(164A)、(164B)和(164N)包括多个相关的主题和对象。在一个实施例中，相关的KG存储在相关联的KG容器中，其中语料库(160)存储一个或多个KG容器。在一个实施例中，也可从其它源获取KG，因此，不应认为所描述的数据存储是限制性的。

与网络(105)通信的多种计算设备(180)、(182)、(184)、(186)和(188)展示了内容创建者和内容使用的接入点。一些计算设备可以包括用于数据库的设备，该数据库将数据语料库存储为知识引擎(170)使用的信息体，并且在一个实施例中，存储工具(172)-(178)，以将确定性行为嵌入到系统中。在多种实施例中，网络(105)可以包括本地网络连接和远程连接，使得知识引擎(170)和嵌入的工具(172)-(178)可以在任意大小的环境中操作，包括本地和全局，例如因特网。另外，服务器(110)和知识引擎(170)用作前端系统，其可以使从文档、网络可访问源和/或结构化数据源提取的或在文档、网络可访问源和/或结构化数据源中表示的各种知识可用。以这种方式，一些进程用服务器(110)填充服务器(110)，该服务器还包括接收请求并相应地响应的输入接口。内容创建者和内容用户也可以在数据储存库中可用，诸如但不限于(140)和(160)，并且这里演示的接入点的列表不应被认为是限制性的。

如图所示，节点图数据存储(160)可操作地耦合到服务器(110)。节点图数据存储(160)包括具有由服务器(110)使用的一个或多个KG(164A)-(164N)的KG库(162)。内容用户可以经由如图2所示和所述的API管理或编排平台来访问系统，并且经由NLU输入路径接收自然语言输入。

如下面详细描述的，服务器(110)和知识引擎(170)通过使用一个或多个机器学习模型(以下称为MLM)处理自然语言查询，以提取或存储内容到存储在节点图数据存储(160)中的一个或多个KG中。区块链技术，以下称为"BC"，被利用到内容中以有效地提供所存储或接收的数据的真实性，例如来源。MLM管理器(178)用作工具，或者在一个实施例中，用作知识引擎(170)内的API，并且用于创建、链接和/或修改相关联的MLM。如下面进一步描述的，MLM是针对特定的知识域而生成、创建或修改的。MLM被创建以从非结构化数据中提取实体和关系。这些模型被特别地创建以理解特定的知识领域(例如传记信息、股票市场、天文学等)。

BC在这里被表示为BC网络(150)，其形式为用于记录事务历史的分散和分布式数字分类帐。更具体地，BC指一种数据结构类型，其使得能够数字地识别和跟踪事务并在分布式计算机网络上共享该信息。BC通过透明且安全地跟踪所有权来有效地创建分布式信任网络。如这里所示和所述，BC与MLM管理器(178)、准确性管理器(174)和KG管理器(172)一起被用来集成知识与自然语言处理。

服务器(110)可以是可从纽约Armonk的国际商业机器公司获得的IBM Watson^TM系统，其增加了下面描述的说明性实施例的机制。IBM Watson^TM知识管理器系统将知识导入自然语言处理(NLP)。具体地，如下面详细描述的，当接收、组织和/或存储数据时，数据可以是真或假。服务器(110)不能独自区分，或更具体地说，不能验证数据的真实性。如这里所示，服务器(110)接收输入内容(102)，然后它评估该输入内容以提取内容(102)的特征，然后该特征又被应用到节点图数据存储(160)。具体地，接收的内容(102)可由IBM Watson^TM服务器(110)处理，该服务器执行分析以使用一个或多个推理算法来评估或告知输入内容(102)的真实性。

为了处理自然语言，服务器(110)利用知识引擎(170)形式的信息处理系统和相关工具(172)-(178)来支持NLP。尽管被示为包含在服务器(110)中或与服务器集成，但是可以在通过网络(105)连接到服务器(110)的单独的计算系统(例如190)中实现信息处理系统。无论在何处体现，利用一个或多个MLM来管理和处理数据，并且更具体地，检测和识别自然语言并且创建或利用确定性输出。如图所示，该工具包括KG管理器(172)、准确性管理器(174)、BC管理器(176)和MLM管理器(178)。MLM管理器(178)被示出为可操作地耦合到这里示出的具有多个MLM的MLM库(140)，所述多个MLM包括MLM₀(142)、MLM₁(144)和MLM_N(146)，但是所示和所述的MLM的数量不应被认为是限制性的。应当理解，在一个实施例中，MLM是被采用或适于支持NLP的算法。尽管被示为在服务器(110)本地，但是工具(170)-(178)可以共同地或单独地嵌入在存储器(114)中。

一个或多个MLM(142)-(146)用于管理数据，包括将数据存储在KG中。如所理解的，KG是结构化的本体，并且不仅仅存储数据。具体地，知识引擎(170)从非结构化数据提取数据和一个或多个数据关系，在KG中为所提取的数据和数据关系创建条目，并且将数据和数据关系存储在KG条目中。在一个实施例中，KG中的数据被存储或表示在节点中，并且两个数据元素之间的关系被表示为连接两个节点的边。类似地，在一个实施例中，每个节点具有节点级别真实性值，并且每个关系具有关系真实性值，其中基于两个互连节点的真实性值来计算关系真实性值。除了数据提取和存储之外，MLM₀(142)向KG中存储的数据分配或指定真实值。在一个实施例中，如下面详细描述的，真实性是由忠实性(staunchness)、源可靠性和人工反馈组成的综合得分。在一个实施例中，真实性值可以包括附加因素或因素的子集，并且因此不应被认为是限制性的。所分配的真实性值被存储在KG中。所分配的真实性值也被存储在所识别的BC分类账的条目中。BC分类账中的每个条目具有对应的标识符，在此称为BC标识符，其标识分类账条目的分类账和地址。BC标识符与所识别的数据一起存储在KG中，并识别相应的BC分类帐和所存储的真实性值的位置。在一个实施例中，KG管理器(172)管理BC标识符在KG中的存储。因此，分配的或创建的真实性值被存储在BC中，并且是节点图数据存储(160)中KG中的真实性值的复制拷贝。

可以理解，每个KG组织并提供结构给大量数据。KG可以是单个本体，或者在一个实施例中，KG或KG容器可以包括多个KG，它们被链接在一起以展现它们的关系或关联。KG管理器(172)用于管理KG的结构和组织。例如，大的KG可能管理起来太麻烦或昂贵。在这种情况下，KG管理器(172)可以对KG进行分区，有效地创建至少两个分区，例如第一KG分区和第二KG分区。KG可以基于一个或多个因素被分区。例如，在一个实施例中，KG可以按主题或子主题分区。类似地，KG中表示的每个事实具有相关联的真实性值，其是多个因素的合成，包括但不限于忠实性指示符、源可靠性度量和人工反馈因素。KG管理器(172)可以根据真实性值，或者在一个实施例中，根据包括真实性值的一个或多个因素，来分区KG。在一个实施方式中，在KG已经被分区为至少第一和第二分区之后，KG管理器(172)可以将真实性值的一个或多个组分指定给在分区中表示的每个节点或边。例如，在KG分区之后，KG管理器(172)可以向第一分区中的数据填充和分配第一可靠性值，并且在一个实施例中，KG管理器(172)还可以向第二分区中的数据填充和分配不同于第一可靠性值的第二可靠性值。对真实性值的一个或多个组分的修改有效地改变了真实性值。然而，应当理解，真实性值的一个或多个组分的值可以随时间而改变，并且因此，这种改变被反映或体现在相关联的数据中。因此，KG管理器(172)用于管理数据并向数据提供结构和值。

KG管理器(172)的功能之一是链接或连接两个或多个KG。连接或链接KG是分区KG的逆。连接或链接KG的功能需要KG管理器(172)将一个KG中的一个或多个数据单元与第二KG中的一个或多个数据单元进行比较，并消除或至少减少重复数据的出现。如上所述，KG中表示的每个数据单元具有相关联的综合得分。KG管理器(172)可以使用一个组分、多个组分或真实性值本身作为用于数据比较和评估的因素。一旦被连接或链接，移除重复的数据项是可行的或有理由。KG管理器(172)选择性地去除链接的KG中被确定为重复数据的数据。去除重复数据的一个特征是保持KG恒定结构的能力。因此，KG管理器(172)通过管理KG中表示的数据来管理KG的结构。

BC管理器(176)具有关于机器学习环境的多个功能。如上所述，BC管理器(176)可以与MLM一起工作以保持相关数据的真实性。BC管理器(176)为BC网络交互产生合约、提供起源、检索BC信息、以及管理系统的所有BC交互。

NL输入的评估由MLM、MLM₀(142)管理。与NL输入相关联的冲突或错误由从NL输入生成的KG的查询结果来识别，更具体地说，由查询结果的分类来识别。当查询结果和NL输入之间存在冲突时，查询结果具有强的真实性值，这指示NL输入可能不正确。准确性管理器(174)通过用从生成的列表中识别或选择的三元组替换NL输入的语言来校正NL输入。三元组，在此也称为存储器，基于KG中的两个或更多个节点以及这两个或更多个节点之间的关系。在一个实施例中，三元组是从KG捕获的主语-动词-宾语关系。在一个实施例中，标识或选择可以基于最高真实性值，在一个实施例中，该值由用户选择。类似地，在另一个实施例中，识别或选择可以基于包括综合真实性值的一个或多个因素。当知识引擎(150)识别与列表中的一个或多个条目相关联的不变因素并且进一步识别不变因素和NL输入之间的冲突时，可能出现冲突的另一种形式。该冲突由准确性管理器(174)通过用与具有不可变因素的条目相关联的三元组替换NL输入的语言来校正NL输入来解决。除了冲突之外，另一解决方案可以是在准确性管理器(174)中识别NL输入与已排序列表条目之间的部分匹配。部分匹配使得或指导KG管理器(172)和BC管理器(176)分别为NL输入在KG和相应的BC分类账中创建新的条目。此外，KG管理器(172)连接新的条目和与部分匹配相对应的现有KG条目。还应当理解，NL输入可能不生成任何匹配，例如空集。如果不匹配，KG管理器(172)和BC管理器(176)分别创建对应于NL输入的新的KG条目和BC分类账条目。因此，鉴于在KG中组织的数据，NL输入由MLM、MLM₀(142)处理，在一个实施例中由准确性管理器(174)处理。

如这里所示和所述，MLM库(140)可操作地耦合到服务器(110)并且包含多个MLM以支持AI平台中的自然语言处理。MLM中的一个或多个可以是动态的并且被训练成适应于新的实体和关系。不同的KG可以与不同的知识域相关联。例如，第一MLM，MLM₀(142)，可以基于其与KG₀(164A)的比对从库(140)中识别或选择。响应于处理NL输入，MLM₀(142)可被应用于KG₀(164A)并单独应用于第二KG，KG₁(164B)。MLM管理器(178)处理来自两个KG的结果以及它们相应的真实性值，并且基于该处理，识别KG之一的修改。在一个实施例中，评估真实性值以识别修改的真实性。根据该验证，MLM管理器(178)动态地修改相关联的MLM、MLM₀(142)。在一个实施例中，所识别的修改可以是对相关联的数据集的扩展以包括附加字段。类似地，在一个实施例中，MLM管理器(178)可以确定修改是共时的或历时的，并且使用该分类作为监测修改的元素。在一个实施例中，MLM₀(142)的修改导致创建新的MLM，例如MLM_N(146)，并且在一个实施例中，保留原始MLM，MLM₀(142)。因此，MLM库(140)可以在MLM的动态修改的条件下扩展。

可以利用系统(110)的信息处理系统的类型的范围从诸如手持计算机/移动电话(180)的小型手持设备到诸如大型计算机(182)的大型系统。手持计算机(180)的例子包括个人数字助理(PDA)、个人娱乐设备，例如MP4播放器、便携式电视和光盘播放器。信息处理系统的其它例子包括笔或平板计算机(184)、膝上或笔记本计算机(186)、个人计算机系统(188)和服务器(190)。如图所示，各种信息处理系统可以使用计算机网络(105)联网在一起。可以用于互连各种信息处理系统的计算机网络(105)的类型包括局域网(LAN)、无线局域网(WLAN)、因特网、公共交换电话网(PSTN)、其他无线网络、以及可以用于互连信息处理系统的任何其他网络拓扑。许多信息处理系统包括非易失性数据存储器，例如硬盘驱动器和/或非易失性存储器。一些信息处理系统可以使用单独的非易失性数据存储器，例如，服务器(190)使用非易失性数据存储(190a)，大型计算机(182)使用非易失性数据存储(182a)。非易失性数据存储(182a)可以是各种信息处理系统外部的组件，或者可以是信息处理系统之一内部的组件。

信息处理系统可以采取许多形式，其中一些在图1中示出，例如，信息处理系统可以采取台式机、服务器、便携式计算机、膝上型计算机、笔记本计算机或其它形式因素的计算机或数据处理系统的形式。此外，信息处理系统可以采用其他形式因素，例如个人数字助理(PDA)、游戏设备、ATM机、便携式电话设备、通信设备、或包括处理器和存储器的其他设备。

应用程序接口(API)在本领域中被理解为两个或更多应用之间的软件中介。对于图1中所示和所述的NL处理系统，一个或多个API可用于支持工具(172)-(178)中的一个或多个及其相关联的功能。参考图2，提供了一个框图(200)，说明了NL处理工具及其相关的API。如图所示，多个工具被嵌入在知识引擎(205)内，其中所述工具包括与API₀(212)相关联的准确性管理器(210)、与API₁(222)相关联的KG管理器(220)、与API₂(232)相关联的BC管理器(230)以及与API₃(242)相关联的MLM管理器(240)。每个API可以用一种或多种语言和接口规范来实现。API₀(212)提供资产比较、真实性确定、真实性决定和真实性分配；API₁(222)提供KG创建、更新和删除；API₂(232)提供MLM创建、更新和删除；以及API₃(242)提供BC合约创建、块创建、网络通信和块添加。如图所示，API(212)、(222)、(232)和(242)中的每一个可操作地耦合到API协调器(250)，或者称为协调层，其在本领域中被理解为用作将单独的API透明地线程在一起的抽象层。在一个实施例中，可以结合或组合单独API的功能。这样，此处所示的API的配置不应被认为是限制性的。因此，如此处所示，工具的功能可由其各自的API来具体化或支持。

为了提供更多细节以便更好地理解本公开的选定实施例，现在参考图3，其以初始化KG的形式示出了过程。当系统初始化时，KG为空。MLM被创建或利用以从非结构化数据中提取实体和关系。MLM被创建以理解特定的知识领域，即传记信息、金融市场、科学领域等。代表性数据被用于教导系统识别模型中定义的实体和关系的文本。参考图3，提供了一个流程图(300)，描述了从NLP系统的自然语言输出中填充KG的过程。作为KG初始化和填充过程的一部分，指定了所提取三元组的真实性值。真实性值包括忠实性指示符、源可靠性指示符和人工反馈指示符。在一个实施例中，包括真实行值的每个指示符是0和1之间的尺度上的数值。忠实性指示符反映了潜在事实的确定性。在一个实施例中，忠实性值1反映事实肯定是真，值0反映事实肯定是假，并且0和1之间的值表示关于事实的确定性或不确定性的水平。源可靠性因素与事实的源(例如起源)相关联，包括但不限于查明事实的数据和时间。人工反馈指示符跟踪事实的肯定和拒绝的数量。在一个实施例中，该因素跟踪响应的数量。因此，当KG被初始化并填充数据时，真实性值的组分被选择或设置成分配给通过NLP系统提取的三元组。

诸如共时和历时信息的分类被用来分别描述保持恒定或可以随时间变化的数据。在监督训练的示例的情况下，忠实性值被设置为1，源可靠性值被设置为1，并且人工反馈被设置为0。这些值仅仅是示例，并且在一个实施例中可以变化。在一个实施例中，KG应用程序接口(API)提供了指定真实性值的平台。如图所示，通过定义实体和关系来创建MLM(302)。使用代表性数据来训练MLM(304)。在步骤(304)之后，使用MLM和NLP以从训练数据中提取三元组(306)。所提取的三元组可以被保存到文件或被流式传输。在一个实施例中，所提取的三元组是主语-动词-宾语关系。在步骤(306)之后，所提取的三元组被用于填充KG(308)。在一个实施例中，KG API被用于从NLU输出中读取和解析出三元组。在一个实施例中，填充到KG中的三元组称为存储器。通过训练来创建MLM，之后MLM被应用于数据以填充KG。因此，MLM与NLP一起从数据中提取三元组，并且填充先前空的KG。

对于从NLP输出中提取的每个主题实体(310)，确定该主题实体是否存在于相关KG中(312)。在对步骤(312)的确定的肯定响应之后，确定是否存在与所提取的主题实体相关联的已知关系(314)。如果对步骤(314)中的确定的响应是肯定的，则确定主题-实体连同相关关系和分配的真实性值是否在KG中呈现(316)。对步骤(316)的确定的肯定响应是KG中存在主题-实体关系的指示，并且该过程结束。然而，对步骤(312)、(314)和(316)所示的任何一个确定的否定响应之后是创建新的三元组和KG中的新的三元组的条目(318)。因此，如图所示，MLM被用于从NLP文档中提取数据，并且访问KG管理器以选择地用所提取的数据填充KG。

参考图4，提供了示出用于从所提取的数据创建新的三元组的过程的流程图(400)。如图3所示，建立或分配所提取数据的真实值分量。在一个实施例中，真实性价值成分是基于与KG初始化相关的监督建立的。对于每个新的三元组，例如主语-动词-宾语关系，将真实值分配给该三元组(402)。在一个实施例中，通过KG API分配真实值。在步骤(402)之后，在相应的或指定的BC分类账中创建条目(404)。更具体地说，在步骤(404)，BC条目存储三元组Veralcity值，并且创建并随后检索在此称为BC标识符的标识符。在一个实施例中，检索到的BC标识符是统一资源标识符(URI)或其它唯一资产标识符。在步骤(404)之后，将新的三元组与相关联的BC标识符一起插入KG中(406)。在一个实施例中，在步骤(406)处，KGAPI实现三元组和相关联的BC标识符的插入。因此，如所示，每个新三元组的真实性值被存储在相应的BC分类账中，并且相关联的BC标识符被存储在KG条目中或以其他方式与KG条目中的三元组相关联。

图3和4所示和所描述的过程也可用于使用无监督训练，例如数据可能不可靠，或使用监督训练，从NLP系统的自然语言输出填充KG。如图3和4所示和所描述，KG API被用于设置从NLP输出中提取的数据的真实值。根据源，可设置真实性值以指示不确定性。例如，在一个实施例中，忠实性指示符可被设置为0.5，源可靠性可被设置为0.5，以及人工反馈值可被设置为0。因此，无监督的训练可被反映在一组不同的真实性值中。

在处理非训练数据的过程中，如果没有找到精确的三元组匹配，则创建新的存储器并将其存储在相应的或识别的KG中。这可以在考虑对同一主题的多个文档的处理时实现。例如，一个文档可以识别具有第一日期的事实，而第二文档可以识别具有第二日期的相同事实。然而，仅有一个日期是事实上正确的。如图3和4所示，输入KG的每个三元组具有相应的真实性值，其用作所存储的存储器的正确性的指示符。这些真实性评分可用于建立填充到KG中的冲突事实的准确性和/或正确性。

参考图5A和5B，提供了流程图(500)，其示出了用于从NLP输出中提取三元组的过程。如图所示，查询或陈述(statement)通过准确性管理器被呈现给KG(502)。呈现可以出于各种原因，包括但不限于事实检查。MLM与NLP一起用于从KG中提取三元组(504)，KG API用于从NLP输出中读取并解析三元组(506)。下表示出了示例三元组：

主题-实体	关系	主语-实体-值
			乔治·华盛顿	出生于	2月22,1832

表1

在步骤(506)之后，变量X_Total被分配给解析的三元组的数量(508)。然后确定X_Total是否大于零(510)。对步骤(510)处的确定的否定响应结束提取过程(512)，因为这是查询产生空集的指示。然而，对步骤(510)处的确定的肯定响应之后是处理解析的三元组(514)。三元组计数变量被设置为1(516)，并且对于每个三元组x(triplet_X)，KG被查询以取得具有相同主题-实体和关系的所有三元组(518)。如图3和4中所示和所描述的，每个三元组具有关联的BC标识符。BC标识符被用来访问相应的BC分类账并取得存储的三元组真实性值(520)。在步骤(520)之后，递增三元组计数变量(522)。然后确定是否已经处理了每个识别的三元组(527)。对步骤(522)处的确定的否定响应之后是返回到步骤(518)。类似地，对该确定的肯定响应结束查询KG和相应的BC分类帐条目的过程(526)，并且对提取和处理的三元组进行排序(528)。在(528)的排序用于将三元组排序。例如，在一个实施例中，三元组可以按照忠实性指示符、源可靠性和人工反馈以升序排序。类似地，排序顺序可以是可定制的以适应特定的使用情况。例如，在一个实施例中，人工反馈指示符可以被优先化。因此，三元组提取利用KG来获得或识别三元组和相关联的BC标识符，BC标识符用于获得相关联的真实性值，该真实性值然后被用作用于对三元组排序的特征。

下表，表2，是表1的扩展，示出了两个三元组的示例排序：

主题-实体	关系	主语-实体-值	忠实性指示符	源可靠性指示符	人工反馈指示符
						乔治·华盛顿	出生于	2月.22,1732	1.0	1.0	0
乔治·华盛顿	出生于	2月22,1832	0.5	0.5	0

表2

在表2的示例中，存在两个三元组条目，每个三元组条目与不同的主题-实体值相关联。如图所示，条目按照忠实性指示符或源可靠性指示符的升序来排序。排序因素不应被认为是限制性的。在一个实施例中，排序可以是颠倒的并且以降序排列，或者基于真实性值的不同部分。在该示例中，第一三元组条目由主题实体定义，并且关系被认为具有最大的真实性值，例如真实性分数。

商业用例驱动查询结果的解释。例如，如果实现了具有较高置信度得分的三元组，则系统可以被配置为自动地用具有较高真实性得分的值替换主体实体值的原始值。忠实性指示符是对返回信息的准确性的反映。如图所示，在步骤(528)之后，将商业用例应用于搜索结果(530)。在步骤(530)的应用之后，查询KG和与KG中的相应BC标识符相关联的适当的或被识别的BC分类账(532)。在步骤(532)的查询获得所有关联关系和主题-实体值。更具体地说，这使得能够分析复查主题实体的所有数据。在步骤(532)之后，增强NLP输入或输出数据(534)。增强的示例包括但不限于：校正、分析、增强和掩蔽。校正包括用来自存储器的数据替换主题实体值。在一个实施例中，替换是局部的，例如针对查询，并且不反映在KG或BC中。分析包括添加具有真实性的主题关系值的列表。增强包括用具有最高置信水平的所有已知的主题关系值，例如每个主题关系对一个值，来补充结果。屏蔽包括从NLP输出中删除一个或多个三元组。在步骤(532)之后，返回增强的数据。因此，不同的用例可选地可用于驱动搜索结果的解释，其也可以被增强，以从NLP输入返回一个或多个适当的数据元素。

如图5A和5B所示和所述，可以针对所创建的KG处理一个或多个查询。可以理解，KG用作组织数据的工具，其中每个三元组反映在表示真实性评分组分(例如忠实性、可靠性和反馈)或与真实性评分组分相关联的图中。应当理解，一个或多个真实性评分组分可以是动态的，例如，值随时间改变。这种变化在整个选择的KG中可以是统一的，从而影响KG中表示的每个三元组，或者该变化可以是非统一的并且选择性地影响KG中的一个或多个三元组。

参考图6，提供了示出用于分区一个或多个KG的过程的流程图(600)。本文所示的分区的示例基于可靠性因素的变化。这仅仅是一个示例，并且在一个实施例中，分区可以基于忠实性或反馈因素的改变。可靠性因素反映数据源的可靠性的量度。接收可靠性因素值(602)。在一个实施例中，可靠性因素值是通过KG API的NL输入和反馈的一部分。查询KG以识别与接收到的可靠性值相关联的条目(604)。然后确定是否已识别了任何KG条目(606)。对步骤(606)处的确定的否定响应结束分区过程，这是因为没有基于所接收的可靠性因素使KG经受的基础(616)。然而，对步骤(606)中的确定的肯定响应之后是在KG内创建分区(608)，并且用KG中具有识别的可靠性值的条目填充创建的分区(610)。步骤(608)中的分区创建有效地创建第二分区(612)，其中第二分区填充有原始KG中的剩余条目。

可以理解，KG的第一和第二分区中的条目具有不同的可靠性因素值。如上所述，真实性值用作忠实性、可靠性和反馈值的综合。任何单独的组分值的变化都会对该综合有影响，这可能影响任何查询结果。在步骤(612)之后，在KG(包括第一和第二分区)中进行真实性评估(614)。步骤(614)的评估包括将第一KG分区中填充的数据(例如第一数据)与第二KG分区中填充的数据(例如第二数据)进行比较。在一个实施例中，在分区之后自动执行真实性评估。应当理解，填充在第一分区中的数据将具有与填充在第二分区中的数据不同的真实性值。这里所示的分区基于在真实性值中表示的一个组分的改变。在一个实施例中，分区可以在两个或更多个真实性值组分或组分的改变上进行。因此，组成真实性值的任何一个组分的变化可以包括相关KG的一个或多个分区的创建。

如图6所示，KG可以进行分区。相反的概念可以通过链接或以其它方式连接两个或多个KG和相关BC分类帐而发生。参考图7，提供了流程图(700)，其描述了用于链接两个KG和相关BC分类帐的过程。在一个实施方式中，至少切线相关的KG可连接。该关系可以基于KG中表示的内容或关系。如图所示，向知识库呈现查询(702)，并且识别两个或更多KG(704)。在一个实施例中，KG API识别两个KG包含与查询相关的数据。类似地，在一个实施方式中，KGAPI可以识别两个以上KG，因此，识别的KG的数量不应被认为是限制性的。在识别的KG之间或之中建立链接(706)。两个或多个KG的链接保持了分离KG的结构，即结构保持恒定。

可以理解，KG之间的关系，特别是其中表示的数据之间的关系可以提供具有冲突三元组(例如，存储器)的查询结果。为了解决潜在冲突，进行链接的KG的评估以比较数据元素(708)。更具体地，该比较包括对每个链接的KG中表示的数据的评估(710)，包括它们对应的真实性值组分。基于该真实性值组分中的至少一个，例如忠实性、可靠性和反馈，选择性地替换识别的冲突数据元素(712)。替换遵循分离KG的结构。换句话说，KG中的节点不被移除或添加链接。相反，可以替换在所识别的节点中表示的数据。因此，链接的KG中冲突条目的替换减轻了冲突查询结果。

参考图8A和8B，提供了示出利用MLM来扩充查询输入的流程图(800)。更具体地，查询提交的结果可以指示针对查询输入的错误。如图所示，接收和处理自然语言输入(802)。针对上下文查询接收的输入(804)，该上下文包括一个或多个指定的KG，并且在一个实施例中，包括对应的BC分类帐。查询处理产生一个或多个三元组形式的结果，例如存储器，其是从指定的KG中提取或识别的(806)。如上所述，每个三元组包括主题、对象和相关联的关系。变量X_Total被分配给从KG提取或识别的三元组数量(808)。然后确定在步骤(808)提取的量是否包括至少一个三元组(810)。在对步骤(810)的确定的肯定响应之后，初始化相关联的三元组计数变量(812)。每个三元组具有对应于BC分类账条目的BC标识符，BC标识符包括与三元组相关联或分配给三元组的真实性值。对于每个提取或识别的三元组，例如三元组X

(triplet_X)，获得BC标识符(814)，从BC标识符查询BC分类账并识别相应的真实性值(816)。在步骤(816)之后，递增三元组计数变量(818)，并且进行评估以确定是否已经评估了提取或识别的每个KG(820)。对步骤(820)处的确定的否定响应之后是返回到步骤(814)，并且肯定响应结束三元组提取和识别的过程。因此，对于被确定为与查询输入相关联的每个三元组，识别相关联的真实性值。

对步骤(810)的确定的否定响应之后，创建用于关联KG中的条目的新的三元组(822)。新的三元组对应于接收的自然语言输入，例如查询提交，并且向新的三元组分配真实性评分(824)。此外，在对应于KG的BC分类账中创建一个条目(826)。创建与BC分类帐条目相关的BC标识符，并将其与新的三元组存储在KG中(828)，并将所分配的真实性评分存储在相应的分类帐条目中(830)。因此，从查询输入返回的三元组的空集导致KG和相应的BC分类账的增加。

应当理解，查询提交可以从相关KG返回一个或多个三元组形式的响应，如由对步骤(820)的确定的肯定响应所识别的。在处理和排序所识别的三元组(832)之后，MLM增强自然语言输入以对应于所识别的三元组的排序(834)。增强可以采取一种或多种形式。例如，在一个实施例中，增强源自自然语言输入和排序的三元组之间的冲突(836)。当识别出冲突时，MLM的增强是采用从排序中识别正确三元组的形式(838)，并且修改NL输入以对应于所识别的三元组(840)。步骤(838)的标识可以采取不同的形式。例如，在一个实施例中，标识可以基于相关联的真实性值，如上所述，其是综合分数。类似地，在一个实施例中，包括真实性值的一个或多个组分可以用作排序因素，以对三元组的列表进行排序。在另一实施例中，排序可以基于与三元组条目相关联的不变因素，基于该不变因素对三元组排序。因此，增强可以基于所识别的冲突。

应当理解，响应于匹配或者在一个实施例中响应于部分匹配，增强可以采取其它形式。当增强源自自然语言输入与排序中的三元组中的至少一个三元组之间的匹配时(842)，在相应的KG中创建用于自然语言输入的条目，以及BC分类账条目(844)。类似地，当增强源自自然语言输入与所识别的三元组中的至少一个之间的部分匹配时(846)，创建用于相关联的KG的条目的新三元组(848)。新三元组对应于接收的NL输入，例如查询提交，并且向新三元组分配真实性评分(848)。此外，在对应于KG的BC分类账中创建条目(850)。创建与BC分类账条目相关联的BC标识符，并将其与新三元组存储在KG中(852)，并且将所分配的真实性分数存储在对应的分类账条目中(854)。此外，连接KG中的新三元组条目与用部分匹配识别的三元组(856)。因此，如所示，用于匹配或部分匹配的增强包括在相应的KG和相关联的BC分类账中创建条目。

如图3-8B所示和所述，MLM被用于支持查询提交形式的自然语言处理，以识别存储在KG中的数据，并且在一个实施例中，用于增强查询提交。还应当理解，MLM是动态的并且易于改变。KG可以被用来创建一个或多个新的MLM，和/或重新训练现有的MLM。当本体被修改时，实现新的实体和关系。然后，可以利用该新信息来自动化MLM的训练，从而支持动态和渐进的MLM、创建新MLM或增强现有的MLM。

参考图9，流程图(900)提供了用于训练现有MLM的过程。在本文所示的过程中，存在MLM的NLP库。基于MLM与KG中表达的知识结构域(本文称为第一KG)的比对，识别或选择库中的MLM(本文称为第一MLM)(902)。响应于接收到针对第一KG查询的自然语言输入，所识别或选择的第一MLM处理查询输入并从第一KG提取一个或多个三元组(904)。此外，识别第二KG(906)，并且在一个实施方案中，与第一KG相关。MLM利用第二KG处理相同的查询，并且从第二KG提取一个或多个三元组(908)。在步骤(904)和(908)提取的每个三元组在这里也称为存储器，并且包括主题、对象和关系。如上所述，每一三元组具有相关联的BC标识符，其指示存储相应的(一个或多个)真实性值的BC分类账。在步骤(908)之后，处理每个提取的三元组，以识别存储在它们相应的BC分类帐条目中的它们的相关真实性值(910)。评估并比较第一KG的三元组和第二KG的三元组(912)。更具体地讲，步骤(912)的评估第一KG的内容和/或结构是否经历了修改，如第二KG(914)中所反映的。对于要动态修改的MLM，确定两个对象KG是否具有相关结构和内容。该修改可以通过比较从第一和第二KG返回的三元组来证明。对步骤(914)处的评估的否定响应结束MLM修改(922)。然而，在对步骤(914)处的评估的肯定响应之后是内容和/或结构改变的识别(916)。此外，评估相应的真实性值以验证该改变的真实性(918)。基于步骤(918)处的验证，MLM的结构经历动态修改(920)。

步骤(920)的修改可以采取不同的形式。例如，在一个实施方式中，MLM的修改可以符合与第一KG条目相比在第二KG条目中反映的经过验证的变化。在另一实施例中，修改可以基于对所提取的数据的对应真实性值的评估。因此，MLM被证明为基于KG中的变化而改变。

此外，可以理解，KG中表示的数据和相关联的关系可以是共时或历时的信息。在步骤(912)处，分类可以被导入到评估中。不应改变并且证明已被修改的数据不应反映在MLM修改中。因此，数据分类可以被导入到数据评估和相关联的MLM评估中。

参考图10，提供了示出用于渐进和自适应MLM配置的过程的流程图(1000)。KG API周期性地在相关联的或识别的KG中搜索新的实体、关系和数据(1002)。步骤(1002)中的识别可以通过检查KG中的条目的数据和/或时间或者将来自现有的MLM的实体和关系与包含在KG中的数据进行比较来实现。产生KG中存在的但感兴趣的MLM中不存在的实体和关系的列表(1004)。以可由用于生成MLM的训练工具使用的格式产生该列表。可使用数据被流传输以更新现有MLM的结构(1006)。在一个实施例中，KG API从KG生成语言学陈述，其表达每个三元组，然后可以将该三元组馈送到MLM用于训练。在步骤(1006)之后，将更新的MLM存储在MLM库中作为新MLM(1008)。在一个实施例中，渐进MLM配置是递增的，因为它表示现有MLM的递增变化。增量机器学习用于使MLM与KG的结构同步。对目标MLM执行连续或递增改变，使得随着每个递增改变，MLM从KG提取数据的能力增加，并且MLM有效地适应。

这里所示的系统和流程图还可以是与智能计算机平台一起使用的计算机程序设备的形式，以便促进NL处理。该设备具有随其体现的程序代码。程序代码可由处理单元执行以支持所描述的功能。

如所示和所述，在一个实施例中，处理单元支持在语料库中搜索现有的KG和相应的MLM以及相应的BC分类账和相关联的输入项的证据的功能。综合真实性得分限定和/或量化关联数据，并提供用于进行一个或多个评估的权重。将真实性评分与相关组分一起记录在相应的BC分类账中提供了数据的真实性。基于相应的真实性评分评估结果集中的每个条目。如这里所述，KG经历修改，包括分区和链接，以及将真实性评分组分分配给表示或分配给一个或多个选择的KG的数据。类似地，如本文所述，MLM可动态地调整以反映KG中的一个或多个的结构变化。更具体地，MLM适应于新的实体和实体关系。

将理解，这里公开了一种用于通过使用存储器和外部学习来动态MLM生成和增强的系统、方法、装置和计算机程序产品。如所公开的，该系统、方法、装置和计算机程序产品应用NL处理来支持MLM，并且MLM支持KG持久性。

尽管已经示出和描述了本发明的特定实施例，但是对于本领域技术人员来说，基于这里的教导，在不背离本发明及其更广泛方面的情况下，可以进行改变和修改是显而易见的。因此，所附权利要求将在其范围内包括在本发明的真实精神和范围内的所有这样的改变和修改。此外，应当理解，本发明仅由所附权利要求限定。本领域技术人员将理解，如果所引入的权利要求元素的具体数目是有意的，则这样的意图将在权利要求中明确地叙述，并且在没有这样的叙述的情况下，不存在这样的限制。对于非限制性示例，为了帮助理解，所附权利要求包含使用介绍性短语"至少一个"和"一个或多个"来介绍权利要求元素。然而，即使当同一权利要求包括引导性短语"一个或多个"或"至少一个"和诸如"一个(a)"或"一个(an)"的不定冠词时，这种短语的使用不应被解释为暗示通过不定冠词"一个(a)"或"一个(an)"引入的权利要求要素将包含这种引入的权利要求要素的任何特定权利要求限制为仅包含一个这种要素的发明；这同样适用于定冠词在权利要求中的使用。

本发明可以是系统、方法和/或计算机程序产品。另外，本发明的选定方面可以采取完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或组合软件和/或硬件方面的实施例的形式，这些实施例在本文中可以统称为"电路"、"模块"或"系统"。此外，本发明的各方面可以采取在其上具有计算机可读程序指令的计算机可读存储介质(或多个介质)中实现的计算机程序产品的形式，所述计算机可读程序指令用于使处理器执行本发明的各方面。因此，在此实现的所公开的系统、方法和/或计算机程序产品可操作用于基于真实性值和利用BC技术来改进机器学习模型的功能和操作。

计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下：便携式计算机磁盘、硬盘、动态或静态随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、磁存储设备、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如其上记录有指令的打孔卡或凹槽中的凸起结构之类的机械编码设备、以及上述的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤线缆的光脉冲)、或通过导线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器相关指令、微代码、固件指令、状态设置数据，或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言，例如Java、Smalltalk、C++等，以及常规的过程式编程语言，例如"C"编程语言或类似的编程语言。计算机可读程序指令可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立的软件包执行，部分在用户的计算机上并且部分在远程计算机上执行，或者完全在远程计算机或服务器集群上执行。在后一种情况下，远程计算机可以通过任何类型的网络连接到用户的计算机，包括局域网(LAN)或广域网(WAN)，或者可以连接到外部计算机(例如，通过使用因特网服务提供商的因特网)。在一些实施例中，为了执行本发明的各方面，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当理解，尽管为了说明的目的，在此描述了本发明的具体实施例，但是在不脱离本发明的精神和范围的情况下，可以进行各种修改。特别地，自然语言处理可以由不同的计算平台或跨多个设备来执行。此外，数据存储和/或语料库可以是本地化的、远程的、或跨多个系统分布的。因此，本发明的保护范围仅由所附权利要求及其等同来限定。

Claims

1.一种计算机系统，包括：

处理单元，所述处理单元可操作地耦合到存储器；

知识引擎，所述知识引擎与所述处理单元通信以管理数据，包括：

从选自以下各项组成的组的数据中提取数据和数据关系：结构化数据、非结构化数据、及其组合；

在知识图(KG)中为所提取的数据和数据关系创建条目，并且在所述KG中选择性地存储所提取的数据和数据关系，包括向所存储的数据分配真实性值；

在对应于所述KG的区块链(BC)分类账中创建条目，所述条目包括所分配的真实性值；

创建与BC分类账条目相对应的BC标识符；以及

将所创建的BC标识符与所述KG条目一起存储；

评估存储在所述KG中的选择数据，包括采用所述BC标识符来确定所述选择数据的真实性值；以及

生成所评估的数据的列表，并且基于所分配的真实性值对所生成的列表中的数据进行排序；以及

从排序的列表返回具有最大的真实性值的数据元素。

2.根据权利要求1所述的系统，还包括所述知识引擎用于：

在所述KG内创建第一分区，并且向所述第一分区中的第一数据填充和分配第一可靠性值；

在所述KG内创建第二分区，并且向所述第二分区中的第二数据填充和分配第二可靠性值，其中所述第一可靠性值和所述第二可靠性值是不同的，所述第一可靠性值是向第一数据所分配的真实性值的组分，所述第二可靠性值是向第二数据所分配的真实性值的组分。

3.根据权利要求2所述的系统，还包括所述知识引擎在所述KG内自动执行真实性评估。

4.根据权利要求1所述的系统，还包括所述知识引擎用于：

在两个知识图之间建立链接，包括将第二KG中的数据元素与第一KG中的数据元素的真实性值进行比较，并且基于从以下各项组成的组中选择的值来选择性地替换第一KG和第二KG中冲突的数据元素的真实性值的组分：可靠性、反馈、及其组合。

5.根据权利要求4所述的系统，还包括所述知识引擎在所述第一KG与所述第二KG之间建立链路之后保持所述KG的结构恒定。

6.根据权利要求1所述的系统，其中数据存储在所述KG中的节点中，并且关系表示为连接两个节点的边，每个节点具有节点级真实性值，每个关系具有关系真实性值，其中所述关系真实性值是基于所述关系中的所述节点的真实性值计算的。

7.一种处理自然语言的计算机程序产品，所述计算机程序产品包括具有程序代码的计算机可读存储设备，所述程序代码可由处理单元执行以：

将数据存储在知识图(KG)中，包括：

在所述KG中创建条目，并且在所述KG中选择性地存储所提取的数据和数据关系，包括向所存储的数据分配真实性值；

创建与所述BC分类账条目相对应的BC标识符；以及

将所创建的BC标识符与所述KG条目一起存储；

评估存储在所述KG中的选择数据，包括采用所述BC标识符来确定所述选择数据的真实性值；

生成结果，其中所述结果是从所述排序列表返回的具有最大的真实性值的数据元素。

8.根据权利要求7所述的计算机程序产品，还包括用于以下操作的程序代码：

9.根据权利要求8所述的计算机程序产品，还包括用于在所述KG内自动执行真实性评估的程序代码。

10.根据权利要求7所述的计算机程序产品，还包括用于以下操作的程序代码：

11.根据权利要求10所述的计算机程序产品，还包括用于在所述第一KG与所述第二KG之间建立链路之后保持所述KG的结构恒定的程序代码。

12.根据权利要求7所述的计算机程序产品，其中所述数据存储在所述KG中的节点中，并且所述关系表示为连接两个节点的边，每个节点具有节点级真实性值，每个关系具有关系真实性值，其中所述关系真实性值是基于所述关系中的所述节点的真实性值计算的。

13.一种用于处理自然语言的计算机实现的方法，包括：

将数据存储在知识图(KG)中，包括：

从选自由以下各项组成的组的数据中提取数据和数据关系：结构化数据、非结构化数据及其组合；

在对应于KG的区块链(BC)分类账中创建资产价值条目，所述条目包括所分配的真实性值；

创建对应于BC分类账条目的BC标识符；以及

将所创建的BC标识符与所述KG条目一起存储；

评估存储在KG中的选择数据，包括采用BC标识符来确定选择数据的真实性值；

生成被评估数据的列表，并基于所分配的真实性值对所生成的列表中的数据进行排序；以及

从排序列表返回的具有最大的真实性值的数据元素。

14.根据权利要求13所述的方法，还包括

在KG内创建第一分区，并向第一分区中的第一数据填充和分配第一可靠性值；

在KG内创建第二分区，并且向第二分区中的第二数据填充和分配第二可靠性值，其中第一和第二可靠性值是不同的，所述第一可靠性值是向第一数据所分配的真实性值的组分，所述第二可靠性值是向第二数据所分配的真实性值的组分。

15.根据权利要求14所述的方法，还包括在所述KG内自动执行真实性评估。

16.根据权利要求13所述的方法，还包括：

在两个知识图之间建立链接，包括将第二KG中的数据元素与第一KG中的数据元素的真实性值进行比较，并且基于从由以下各项组成的组中选择的值来选择性地替换第一KG和第二KG中冲突的数据元素的真实性值的组分：可靠性、反馈及其组合。

17.根据权利要求16所述的方法，还包括在所述第一KG与所述第二KG之间建立链路之后保持KG的结构恒定。

18.根据权利要求13所述的方法，其中数据存储在KG中的节点中，并且关系表示为连接两个节点的边，每个节点具有节点级真实性值，每个关系具有关系真实性值，其中所述关系真实性值是基于所述关系中的所述节点的真实性值计算的。