CN110197192A

CN110197192A - 自然语言处理、查询构建和分类

Info

Publication number: CN110197192A
Application number: CN201910118726.8A
Authority: CN
Inventors: S·A·万德斯多克特; S·B·方; S·利恩彻; J·L·沙尔佩三世; R·P·阿考尔卡尔; B·E·贝斯塞尔; M·J·昌彻拉尼
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2018-02-26
Filing date: 2019-02-18
Publication date: 2019-09-03
Anticipated expiration: 2039-02-18
Also published as: CN110197192B

Abstract

本发明涉及自然语言处理、查询构建和分类。一种系统、计算机程序产品和方法利用分类法服务来格式化地面实况数据。人工智能平台处理地面实况数据，包括识别一个或多个可应用的分类法标签。对所识别的标签进行过滤并将其应用于地面实况数据，从而构建输出字符串，该输出字符串将地面实况数据与一个或多个所识别的标签合并在一起，有效地变换地面实况数据。应用变换的地面实况数据来准确地识别自然语言的来源和/或含义，并且在一个实施例中，用于产生物理硬件设备的物理动作或变换。

Description

自然语言处理、查询构建和分类

技术领域

本实施例涉及自然语言处理。更具体地，实施例涉及用于利用相关联的分类法(taxonomy)分类来增强数据的人工智能平台。

背景技术

在人工智能计算机系统领域，自然语言系统(例如IBM Watson^TM人工智能计算机系统和其他自然语言问答系统)基于由系统获取的知识来处理自然语言。为了处理自然语言，可以使用从数据库或知识语料库获得的数据来训练系统，但是由于与语言构造和人类推理的特性相关的各种原因，所得到的结果可能是不正确的或不准确的。

机器学习是人工智能(AI)的子集，其利用算法从数据中学习并基于该数据产生预见。AI指的是机器基于信息能够做出决策从而最大化在给定主题中成功的机会的智能。更具体地，AI能够从数据集中学习以解决问题并提供相关推荐。AI是认知计算的子集，它指的是大规模地学习、有目的地推理且自然地与人类交互的系统。认知计算是计算机科学和认知科学的混合体。认知计算利用自我教学算法，其使用数据最小值、视觉识别和自然语言处理来解决问题和优化人类处理。

认知系统本质上是非确定性的。具体而言，从认知系统输出的数据易受所提供的信息的影响并用作输入。例如，当部署新的机器学习模型时，不能保证系统将提取与先前相同的实体。新模型可能会对先前模型结果产生不利影响。类似地，通过文档引入的错误可能导致提取不正确的数据并提供不正确的数据作为输出。因此，需要在认知系统中创建确定性行为。

发明内容

实施例包括用于针对认知系统的确定性数据的自然语言处理的系统、计算机程序产品和方法。

在一个方面，提供了一种计算机系统，其具有可操作地耦接到存储器的处理单元、以及与处理单元通信的人工智能平台。知识引擎被设置为与处理单元通信，并且用于通过人工智能平台变换地面实况(ground truth，GT)数据。更具体地，知识引擎构建训练模块以识别与GT数据的本体路径相关的一个或多个分类法标签，并执行构建的训练模块。该执行将识别的分类法标签应用于GT，其包括将识别的标签附加到GT末端。另外，知识引擎以GT的字符串的形式构建查询，其中一个或多个所识别的分类法标签被附加到字符串前端。该查询包括至少一个同义词集和GT数据的本体路径的直接上位词。

在另一方面，提供了一种用于处理自然语言(NL)的计算机程序设备。该计算机程序产品包括具有与其一起实现的程序代码的计算机可读存储设备。程序代码可由处理单元执行来通过人工智能平台变换地面实况(GT)数据。变换包括程序代码，以构建训练模块来识别与GT数据的本体路径相关的一个或多个分类法标签，并执行构建的训练模块来将识别的分类法标签应用于GT，其包括将识别的标签附加到GT末端。进一步提供程序代码以便以创建GT的字符串的形式构建查询，其中一个或多个所识别的分类法标签被附加到字符串前端。该查询包括至少一个同义词集和GT数据的本体路径的直接上位词。

在又一方面，提供了一种用于处理自然语言的方法，包括通过人工智能平台变换地面实况(GT)数据。构建训练模块以识别与GT数据的本体路径相关的一个或多个分类法标签。执行训练模块，其中执行包括将识别的分类法标签应用到GT，其进一步包括将识别的标签附加到GT末端。利用训练模块构建查询。该查询包括GT的字符串，其中一个或多个所识别的分类法标签被附加到该字符串前端。更具体地，该查询包括至少一个同义词集和GT数据的本体路径的直接上位词。

从以下结合附图对当前优选实施例的详细描述中，这些和其他特征和优点将变得显而易见。

在又一个方面，提供了一种计算机系统，其具有可操作地耦接到存储器的处理单元、以及与处理单元通信的人工智能平台。知识引擎和地面实况引擎的形式的工具被设置为与处理单元通信。知识引擎用于通过人工智能平台变换地面实况(GT)数据。更具体地，知识引擎处理GT数据并且利用概念分类法初步增强GT数据。这包括使用一个或多个分类法标签重新格式化GT数据。知识引擎分别分析GT数据和重新格式化的GT数据。该分析使用一个或多个增强的分类法标签评估加到GT的值。知识引擎应用训练模块来过滤一个或多个增强的分类法标签。更具体地，训练模块利用来自GT数据分析的值评估并选择性地过滤经评估的标签。运行时管理器可操作地耦接到知识引擎，用于格式化查询。这包括构建一个或多个经过滤标签的输出字符串，并通过将构建的输出字符串附加到查询前端来格式化查询。因此，由运行时管理器实现对GT数据的分析和由知识引擎应用的训练以格式化查询。

在又一方面，提供了一种用于处理自然语言(NL)的计算机程序设备。该计算机程序产品包括具有与其一起实现的程序代码的计算机可读存储设备。程序代码可由处理单元执行，以利用分类法来变换地面实况(GT)数据。变换包括处理GT数据并使用概念分类法初步增强GT数据的程序代码。初步增强包括使用一个或多个分类法标签重新格式化GT数据。变换还包括对GT数据和重新格式化的GT数据的单独分析，以评估使用一个或多个增强的分类法标签加到GT的值，以及应用训练模块来过滤一个或多个增强的分类法标签。培训模块应用利用来自GT数据分析的值评估，并选择地过滤经评估的标签。还提供程序代码以格式化查询，其包括构建一个或多个经过滤标签的输出字符串，并将构建的输出字符串附加到查询前端。

在又一方面，提供了一种用于处理自然语言的方法，包括变换地面实况(GT)数据并将变换应用于查询。GT变换包括处理GT数据并使用概念分类法初步增强GT数据。初步增强包括使用一个或多个分类法标签重新格式化GT数据。分别分析GT数据和重新格式化的数据，其中该分析评估使用一个或多个增强的分类法标签加到GT数据的值。另外，应用训练模块并过滤一个或多个增强的分类法标签，以利用来自GT数据分析的值评估并选择性地过滤经评估的标签。在GT数据变换之后，通过构建一个或多个经过滤标签的输出字符串并将构建的输出字符串附加到查询前端来格式化查询。

附图说明

这里参考的附图形成说明书的一部分。除非另有明确说明，否则附图中所示的特征仅用于说明一些实施例，而不是所有实施例。

图1描绘了示出自然语言处理系统的示意图的系统图。

图2描绘了示出地面实况(GT)数据增强的概要的流程图。

图3描绘了示出用于增强GT数据的过程的流程图。

图4描绘了示出经历用于创建训练数据的初始过程和阈值评估的原始数据的示例的框图。

图5描绘了示出用于评估来自增强的训练数据的任何处理改进的过程的流程图。

图6描绘了示出用于创建标签的白名单的过程的流程图。

图7描绘了示出用于创建可以应用于训练人工智能平台的最终地面实况的过程的流程图。

图8描绘了示出用于增强运行时查询的过程的流程图。

图9描绘了示出用于处理与物理硬件设备相关的GT数据的过程的流程图。

具体实施方式

容易理解的是，如本文附图中一般描述和示出的本实施例的组件可以以各种不同的配置来布置和设计。因此，如附图中所示的本实施例的装置、系统、方法和计算机程序产品的实施例的以下详细描述并非旨在限制所要求保护的实施例的范围，而仅仅代表所选实施例。

贯穿本说明书对“选择实施例”、“一个实施例”或“一种实施例”的提及是指，结合该实施例描述的特定特征、结构或特性包括在至少一个实施例中。因此，贯穿本说明书在各个地方出现的短语“选择实施例”、“在一个实施例中”或“在一种实施例中”不一定是指同一实施例。

通过参照附图将最好地理解所示实施例，其中相同的部分始终由相同的附图标记表示。以下描述仅旨在作为示例，并且简单地示出了与本文要求保护的实施例一致的设备、系统和过程的某些所选实施例。

分类法是根据预定系统的分类科学，其中所得目录用于提供用于分析信息检索的概念框架。在一个实施例中，分类法可以被称为被组织成分层结构的受控词汇表术语的集合。受控词汇表是用于索引和检索信息的标准化术语的列表。分类法分类的发展将一个群体的要素分成子群。更具体地，分类法分类使得能够根据主题和相关信息检索进行分类。分类法分类，特别是主题，提供了对分类信息的理解和意图。关于机器学习和自然语言处理，分类法分类用作理解非结构化数据的模型。一旦分类被导出并附加到非结构化数据，数据实质上被转换成结构化数据，在此也称为知识。

地面实况(GT)是机器学习中使用的术语，指的是与推理提供的信息相对的、通过直接观察(例如，经验证据)提供的信息。将一个或多个分类法标签附加到GT数据提供了数据的结构和含义。参照图1，描绘了自然语言处理系统(100)的示意图。如图所示，服务器(110)被设置成跨网络连接(105)与多个计算设备(180)、(182)、(184)、(186)和(188)通信。服务器(110)配置有处理单元(112)，其通过总线(116)可操作地耦接到存储器(114)。知识引擎(170)形式的工具被示出在服务器(110)的本地，并且可操作地耦接到处理单元(112)和/或存储器(114)。如图所示，知识引擎(170)包含一个或多个工具(172)–(174)和一个或多个应用程序接口(API)(176)。工具(172)–(174)和API(176)通过网络(105)从一个或多个计算设备(180)、(182)、(184)、(186)和(188)提供自然语言(NL)处理。更具体地，计算设备(180)、(182)、(184)、(186)和(188)经由一个或多个有线和无线数据通信链路彼此通信并与其他设备或组件通信，其中每个通信链路可以包括一个或多个电线、路由器、交换机、发射器、接收器等。在该网络布置中，服务器(110)和网络连接(105)可以为一个或多个内容用户启用自然语言处理和GT数据的增强。服务器(110)的其他实施例可以与除了这里描述的那些之外的组件、系统、子系统和/或设备一起使用。

工具包括知识引擎(170)，或者在一个实施例中，包括嵌入其中的工具，其包括训练模块(174)或可操作地耦接到知识引擎(170)的工具，包括运行时管理器(172)，这些工具可以被配置为从各种源接收输入，所述源包括但不限于来自网络(105)和/或数据存储器(160)的输入。一个或多个NL API(176)用作处理GT数据的分类法服务，在此也称为原始文本数据。

与网络(105)通信的各种计算设备(180)、(182)、(184)、(186)和(188)演示了内容创建者和内容使用的接入点。一些计算设备可以包括作为知识引擎(170)使用的信息主体的数据语料库，并且在一个实施例中包括工具(172)–(174)，以将结构嵌入到GT数据中。在各种实施例中，网络(105)可以包括本地网络连接和远程连接，使得知识引擎(170)和工具(172)–(174)可以在包括本地和全局(例如因特网)的任何大小的环境中操作。

数据存储器设置有独立的GT数据行的库或存储单元(162)。如本示例中所示，库Library₀(162)具有多行GT数据，这里称为GT₀(164_A)、GT₁(164_B)、GT₂(164_C)……GT_N(164_N)。库(162)中GT数据的行数不应视为限制性的。知识引擎(170)与分类法服务通信以支持每一行的初始处理。在一个实施例中，分类法服务对于服务器(110)是本地的并且在(190)处表示。类似地，在一个实施例中，分类法服务跨网络(105)提供，并且由各种计算设备(180)、(182)、(184)、(186)和(188)之一支持。初始处理选择性地识别用于GT数据行的分类法标签。知识引擎(170)增强已处理的GT行。更具体地，知识引擎(170)利用所识别的标签重新格式化每个已处理的GT行。在一个实施例中，每个识别的标签是附加到已处理的行前端的字符串。如图所示，第二库Library₁(166)显示在数据存储器(160)的本地。已处理的行显示在第二库(166)中，其中标签附于原始的GT行数据，在此称为GT_P0(166_A)、GT_P1(166_B)、GT_P2(166_C)……GT_PN(166_N)。因此，知识引擎(160)通过分类法服务处理GT数据行，并用识别的标签初步变换GT数据。

为了评估从分类法处理和初步GT数据变换增加的初始值，知识引擎(170)进行分析以量化或识别所增加的任何值。更具体地，知识引擎(170)分析Library₀(162)中的原始的GT数据行，并且还分析Library₁(166)中的初步变换的GT数据。在一个实施例中，库(162)和(166)中数据的分析是分别进行的。通过进行分别的分析，知识引擎(160)量化加到增强数据的性能。例如，该分析可以对分析的标签进行分类，例如，高性能、中性、低性能等，并选择地移除低性能类别中的标签。由知识引擎(170)进行的分析的结果是对附加有一个或多个分类法标签的GT的附加值的评估。训练模块(174)用于过滤附加到GT的分类法标签。无论GT行包含一个标签还是多个标签，训练模块(174)利用由知识引擎(170)进行的值评估来选择性地过滤所应用和评估的标签。运行时管理器(172)被设置为可操作地耦接到训练模块(174)和知识引擎(170)。运行时管理器(172)用于在分析已经结束后格式化查询。更具体地，运行时管理器(172)构建包括已经由训练模块(174)过滤的一个或多个分类法标签的查询，并用构建的输出字符串来格式化查询。在一个实施例中，训练模块(174)处理两个或更多个标签并保留至少一个可应用标签以附加到GT数据前端。在一个实施例中，在过滤之后保留至少两个标签，其中一个标签是同义词集(synset)，一个标签是GT数据的本体路径的直接上位词(hypernym)。

在过滤处理结束之后剩余的标签被附加到GT数据前端并形成构建的查询，并且在一个实施例中，具有附加到前端的输出字符串的GT数据被存储在数据存储器中。在一个实施例中，经由训练模块(174)的修改的GT数据替换Library₁(166)中的等效数据。因此，在附加到存储在数据存储器(160)中的最终GT数据增强的前端之前，应该通过输出字符串的初步增强省略或移除任何低性能标签。

如图所示和描述的，知识引擎利用训练模块(174)来分析和过滤标签以创建最佳的附加前端的GT数据行。在一个实施例中，知识引擎(170)构建如第二库Library₁(166)中所表示的具有GT和附加于前端的分类法标签的字符串。对修改的GT数据的进一步评估是针对置信度的评估。更具体地，知识引擎(170)使用训练模块(174)将所识别的GT数据的标签应用于置信度评估。训练模块(174)可以利用静态参数进行评估，或者在一个实施例中，训练模块(174)可以利用可配置参数进行评估。

库Library₀(164)被示出具有多个分类法标签，包括GT₀(164_A)、GT₁(164_B)、GT₂(164_C)…..GT_N(164_N)。尽管示出了有限数量的分类法标签，但不应将此数量视为限制性的。库(164)可操作地耦接到训练模块(174)，从而实现和促进关于GT数据处理的分类法标签的使用。应当理解，库(164)中的分类法标签的群体应该针对优化GT数据。在一个实施例中，可能存在库的群体过剩，这将需要或受益于移除一个或多个分类法标签。类似地，在一个实施例中，库(164)可以受益于保留增强GT数据的那些标签，其可以包括从库中移除一个或多个选择标签。知识引擎(170)用作管理器以控制存储在库(164)中的分类法标签的群体，在一个实施例中，其包括移除已被确定为对GT数据优化和处理有负面影响性能的一个或多个标签。因此，知识引擎(170)用作对库(164)的监督以控制分类法标签的群体。

如下所示和所述的，地面实况数据被处理并通过增强有效地变换成知识。参照图2，提供流程图(200)以说明地面实况(GT)数据增强的概要。如图所示，初始方面涉及利用来自分类法或分类法服务的一个或多个一般概念来处理GT数据(210)。GT增强处理的细节在图3中示出和描述。在初始GT处理之后，对GT数据进行分析(220)，包括将原始形式的数据与已处理的GT数据进行比较。在图5中示出并描述了分析的细节。分析的输出产生了与初步GT数据增强相关的益处的指示。该输出被用于训练，并且特别用于构建有益的GT数据增强的库(230)。图6中示出并描述了库构建的细节。步骤(210)-(230)在本文中可称为GT数据增强的初步方面。在步骤(230)的库构建之后，库被用于生成数据的最终GT增强，包括构建要附加到GT数据前端的字符串，有效地创建格式化的GT(240)。在一个实施例中，最终增强实时发生。图7中示出并描述了最终GT增强的细节。因此，创建库并利用该库来适当地过滤和格式化数据，以便为非结构化数据提供上下文。

参照图3，提供了示出用于增强GT数据的过程的流程图(300)。地面实况数据(在此也称为原始数据)被提交给分类法服务以进行处理，并且具体地用于检测存在的并可以应用于GT数据的所有可能的分类法标签。将经受分类法服务的处理的原始数据的行数赋值给变量X_Total(302)。但是在一个实施例中，原始数据仅被流式传输到分类法服务。初始化关联的行计数变量X(304)。对于每行原始数据line_X，识别line_X中存在的满足或超过阈值的所有分类法标签(306)。将识别的标签的数量赋值给变量Y_Total(308)。该阈值用作限制标签应用的过滤器。在一个实施例中，该阈值是可配置值并且反映标签中的置信度值及其附加到原始数据。置信度值用作可配置的过滤器，以移除或以其他方式排除具有低置信度的明显不良结果。更具体地，置信度值限制结果中噪声的存在，并且在一个实施例中对于训练是重要的。如下面在图8中所展示的，在运行时期间也使用置信度值。在一个实施例中，与在运行时期间采用的置信度值相比，训练期间采用的置信度值更严格。标签计数变量Y被初始化(310)，其基于行或基于要处理的原始数据的总体来实现。在最初处理了该数据行之后，确定是否存在至少一个标签应用于数据行line_X(312)。对步骤(312)处的确定的否定响应之后是递增行计数变量(314)并进一步确定所有数据行是否已经过初始处理(316)。对步骤(316)处的确定的否定响应之后是返回到步骤(306)，并且肯定响应之后是初始GT增强过程的结束(318)。

如步骤(312)处所示，如果鉴于阈值识别至少一个标签，则对原始数据(或更具体地，原始数据line_X)进行重新格式化。例如，使用tag_Y(320)重新格式化line_X。在一个实施例中，所识别的标签tag_Y被附加到原始数据line_X前端，从而产生增强的GT行。在步骤(320)之后，对于line_X递增标签计数变量(322)，并且确定是否已经针对阈值评估了所有识别的标签(324)。对步骤(324)处的确定的否定响应之后是返回到步骤(320)以继续处理line_X中的标签，并且肯定响应之后是返回到步骤(314)以评估处理任何其他原始数据行。在一个实施例中，可以有两个或更多个标签附加到单行原始数据，并且排序应用于前置附加。例如，在一个实施例中，标签以字母顺序前置附加，尽管该顺序不是限制性的，并且可以应用其他整理和排序算法。可以理解，前置附加的标签的顺序对于自然语言处理系统可能是至关重要的，因此，训练数据中单行GT的多个标签的排序应该以与标签将在运行时针对查询排序相同的方式应用。因此，初始GT增强过程针对初始置信度阈值并将识别的标签应用于原始数据以创建用于训练的带标签GT数据。

参照图4，提供了框图(400)，示出了经历用于创建训练数据的初始处理和阈值评估的原始数据的示例。短语(402)演示了样本原始数据，其在一个实施例中也称为原始数据行。三组分类法标签由分类法服务标识，并经受置信度阈值评估。如本文所示，每组标签具有单独的置信度得分和评估。具体地，tag₀(420)显示具有置信度得分score₀(422)和置信度评估confidence assessment₀(424)；tag₁(430)显示具有置信度得分score₁(432)和置信度评估confidence assessment₁(434)；tag₂(440)显示具有置信度得分score₂(442)和置信度评估confidence assessment₂(444)。将保留为训练数据附加的标签是具有满足或超过阈值的评估值的标签。例如，在本文所示的示例中，如果置信度评估值是10％，则tag₀(420)和tag₁(430)保留并且移除tag₂(440)不考虑。剩余的标签tag₀(420)和tag₁(430)被附加到短语(402)前端。如果在一个实施例中，置信度评估值是25％，例如低于设定的阈值，则仅有tag₀(420)将保留并被附加到短语(402)前端。因此，阈值用作应用一个或多个标签以增强训练数据的过滤器。

应理解，从图3中创建增强的GT数据可能产生处理负担。具体而言，处理无关标签利用可能产生错误返回值的资源。检测在GT训练过程中应用的无关标签的一种方案是比较来自处理原始数据和处理可比较的训练数据的查询结果。参照图5，提供了流程图(500)，示出了用于评估来自增强的训练数据的任何处理改进的过程。首先，存在两组数据，包括标识为原始GT数据的第一组和标识为带标签GT的第二组(502)。分别对每个数据组进行验证测试。即，对原始GT数据(也称为第一组)进行验证测试，并对带标签GT数据(也称为第二组)进行单独验证。目标是评估是否通过文本增强提高了性能。两组的验证是逐行进行的。这样，将经受评估的数据的行数赋值给行计数变量X_Total(504)，并且初始化相关联的行计数变量(506)。对于每一行line_X，评估值以反映标签如何影响性能(508)。在一个实施例中，有三个要素要评估，包括改善、中性和恶化。要评估的每行可以存在零个或更多的标签。如果行中存在多于一个的标签，则性能评估不是标签特定的。这里的功能是记录和量化带标签GT的效果。性能评估基于精确度和召回率(recall)。以下伪代码演示了行评估：

伪代码被应用于每一行，例如排。这样，在步骤(508)之后，行计数变量X递增(510)，然后评估每行是否已被评估(512)。在处理了每个行并交叉验证之后，为增强GT中的标签创建输出(514)。以下伪代码演示了每标签得分输出：

all_tags[tag][improve]＝improve

all_tags[tag][neutral]＝neutral

all_tags[tag][deteriorate]＝deteriorate

每标签得分反映了评估行中标签的总使用量，指示通过包含在增强GT中而反映性能改进、不做任何事情或对性能产生负面影响的事件发生次数。因此，本文所示的评估有效地分析和量化GT增强数据。

在完成图5中的量化之后，创建了仅支持整体性能的那些标签的“白名单”。在一个实施例中，白名单是提及被认为有用的标签的子集的文档。应理解，某些标签可能没有价值，或者它们的价值很小。从白名单中移除性能不佳的标签改进与部署相关的性能。类似地，还可以从白名单中移除被确定为不经常发生的移除标签。使用逻辑来确定白名单中应包括哪些标签。在一个实施例中，该逻辑以自动方式部署。类似地，在一个实施例中，该逻辑用来决定要保留哪些标签的一个或多个参数是可配置的。

参照图6，提供了流程图(600)，示出了用于创建标签白名单的过程。如图所示，查阅每标签得分表(602)。在一个实施方案中，该表基于图5中显示和描述的标签量化。该表经过过滤以移除不经常发生的标签(604)。在一个实施例中，过滤器可以移除在小于0.1％的时间发生的标签，尽管该值是可配置的。类似地，在一个实施例中，这些标签可以被称为噪声。在剩余的标签中，仅保留具有低错误率的标签(606)。在一个实施例中，在步骤(606)将值应用于错误率，以便从表中过滤和移除其他标签。例如，错误率可以应用于默认值为5％的标签，尽管此错误率值是可配置的。在一个实施例中，如果需要严格控制，则可以将错误率设置为零。在另一个实施例中，可以从该表中选择性地移除攻击性或敏感性标签。在步骤(606)之后，已经选择性地过滤该表以去除噪声和低值标签(608)，从而有效地创建白名单。因此，过滤的表(在此也称为白名单)填充有已被评估为对应用于GT数据有用的标签。

参照图7，提供了流程图(700)，示出了用于创建可应用于训练人工智能平台的最终地面实况的过程。这需要仅使用白名单中存在并且超过定义的置信度阈值的那些标签来为原始GT数据加标签。在一个实施例中，GT数据加标签类似于图3中示出和描述的过程，在继续为每一行加标签之前，使用逻辑来确保每个标签存在于白名单中。如图所示，为增强过程提供原始GT数据和定义的白名单(702)。使用分类法，识别与GT数据相关的一个或多个适当的分类法标签(704)。将识别的标签的数量赋值给变量N_Total(706)，并初始化相关的标签计数变量N(708)。对于每个标签N，确定该标签是否是白名单的成员并且具有满足或超过阈值的置信度得分(710)。在一个实施例中，置信度得分设置为0.75。类似地，在一个实施例中，置信度得分是可配置值。对步骤(710)处的确定的肯定响应之后是保留GT数据中的标签(例如，tag_N)(712)，并且否定响应之后是从GT数据中移除该标签(714)。在步骤(712)或(714)之后，标签计数变量N递增(716)，并且确定是否已经评估了所有识别的标签(718)。对步骤(718)处的确定的否定响应之后是返回到步骤(710)。然而，对步骤(712)处的确定的肯定响应之后是构建字符串以前置附加到GT数据(720)，有效地构建用于人工智能平台的最终训练数据。在一个实施例中，用在步骤(712)的评估中存活的一个或多个识别的标签重新格式化每行GT数据，其中重新格式化以将标签前置附加到GT数据行。因此，部署白名单以将过滤的一组标签应用于GT数据。

如图2-7中所示和所述，已经识别出一个或多个标签，基于分类法置信度从白名单中过滤它们，并基于它们在白名单中的缺失将它们过滤掉从而不应用于GT数据。在一个实施例中，图2-7中示出和描述的过程被称为训练过程，其中使用分类法找到标签，基于分类法置信度(或者在一个实施例中，低置信度)过滤掉一个或多个选择标签，基于它们在白名单中的缺失过滤掉一个或多个选择标签，并且将剩下的标签作为字符串前置附加。参照图8，提供了流程图(800)，示出了增强运行时查询的应用。如图所示，使用分类法，识别与查询相关的一个或多个适当的分类法标签(802)。将识别的标签的数量赋值给变量N_Total(804)，并初始化相关的标签计数变量N(806)。对于每个标签N，确定该标签是否存在于白名单中并且具有满足或超过阈值的置信度得分(808)。在一个实施例中，置信度得分被设置为大于或等于0.10。此过程类似于训练过程中显示和描述的过滤，但具有不同的置信度阈值。在一个实施例中，在训练期间利用较高的阈值，以便对与高置信度相关联的数据进行训练。较高的阈值过滤掉低于70％置信度的分类法结果，从而在从模型中移除不可信数据时犯错。然而，在运行时期间，目标是包容性的，因此，在一个实施例中，阈值被设置为低置信度值以反映和启用包容性行为。较低的阈值将允许通过过滤较少的标签来输入更多的分类法标签。类似于训练模型，在一个实施例中，运行时置信度得分是可配置值。对步骤(808)处的确定的肯定响应之后是保留查询中的标签(例如，tag_N)(810)，并且否定响应之后是从白名单中移除该标签(812)。在步骤(810)或(812)之后，标签计数变量N递增(814)，并且确定是否已经评估了所有识别的标签(816)。对步骤(816)处的确定的否定响应之后是返回到步骤(808)。然而，对步骤(816)处的确定的肯定响应之后是构建字符串以前置附加到查询(818)。因此，利用部署的白名单的人工智能查询处理将具有一个或多个前置附加的标签的字符串数据返回到查询。

如图1-7中所示和所述，在训练过程中识别标签并对GT数据应用标签在运行时期间创建了附加的查询，如图8所示。在一个实施例中，可以将被前置附加有所标识的标签的附加查询应用于排序算法，在一个实施例中，排序算法可以使得相关联的机器(例如，硬件设备)执行动作。参照图9，提供了流程图(900)，示出了用于处理与物理硬件设备有关的数据查询的过程。如图所示，接收查询(902)，识别一个或多个可应用标签(904)，并且将可应用标签前置附加到查询(906)，从而产生修改的查询。提交修改的查询导致第一硬件设备被致动(908)。步骤(908)的该致动可以使第一硬件设备改变状态(910)，例如，从第一状态改变到第二状态。类似地，该致动可导致第二硬件设备被致动以执行第二动作(912)。在该示例中，第一和第二硬件设备是不同的，并且相应的动作是不同的。提交带有前置附加的字符串的修改的查询会在硬件设备上产生物理动作，该动作在形式和功能上与没有前置附加的字符串的关联物理动作不同。例如，在一个实施例中，可以将没有前置附加字符串的查询和具有前置附加字符串的查询分配给不同的硬件设备，其中字符串标识物理硬件设备。在一个实施例中，可以将没有前置附加字符串的查询和具有前置附加字符串的查询分配给同一物理硬件设备，其中致动产生不同的物理输出。类似地，在一个实施例中，没有前置附加字符串的查询和具有前置附加字符串的查询可以被寻址到不同的物理设备。因此，如图所示，来自修改的查询的物理意图被转换为物理表现形式，该物理表现形式在带有前置附加字符串的查询调用时产生一个或多个物理变换。

图1-8中示出和描述的语言分析处理可以由自然语言处理系统(例如，图1所示的信息处理系统)或任何合适的信息处理系统执行。在一个实施例中，应用句子解析工具以将文本表示分解为组成部分以找到句子部分和位置序列，并识别该表示内的片段或关键字。

实施例可以是具有用于解密输入内容和识别一个或多个适当的GT标签的智能计算机平台的系统的形式。处理单元可操作地耦接到存储器并与人工智能平台通信。还使用与处理单元通信的诸如知识引擎(170)和/或运行时管理器(172)之类的工具来处理GT数据，识别一个或多个适当的标签，并且在人工智能平台激活时将识别的标签前置附加到GT数据。自然语言处理的过程使用自然语言处理工具。

这里示出的系统和流程图也可以是与智能计算机平台一起使用的计算机程序设备的形式，以便于NL处理。该设备具有与其一起实现的程序代码。程序代码可由处理单元执行以支持所描述的功能。

实施例还可以是与智能计算机平台一起使用的计算机程序设备的形式，以帮助智能计算机平台评估音频数据的文本输入。该设备具有与其一起实现的程序代码。程序代码可由处理单元执行以解析和/或评估关于分类法或分类法服务的文本表示。

应当理解，这里公开了一种系统、方法、装置和计算机程序产品，用于评估自然语言输入，检测一个或多个标签，以及将一个或多个所选标签前置附加到自然语言输入。如所公开的，该系统、方法、装置和计算机程序产品将自然语言处理应用于信息源，在一个实施例中，信息源可操作地耦接到并致动物理硬件设备。

虽然已经示出和描述了特定实施例，但是对于本领域技术人员来说显而易见的是，基于这里的教导，可以在不脱离实施例及其更广泛方面的情况下进行改变和修改。因此，所附权利要求在其范围内涵盖在实施例的真实精神和范围内的所有这些变化和修改。此外，应理解，实施例仅由所附权利要求限定。本领域技术人员将理解，如果意图引入特定数量的权利要求元素，则在权利要求中将明确地记载这种意图，并且在没有这样的记载的情况下，不存在这样的限制。对于非限制性示例，为了帮助理解，以下所附权利要求包含引入短语“至少一个”和“一个或多个”的使用以引入权利要求元素。然而，这些短语的使用不应被解释为暗示由不定冠词“a”或“an”引入权利要求元素将包含这种引入的权利要求元素的任何特定权利要求限制于仅包含一个这样的元素的实施例，即使当相同的权利要求包括引入短语“一个或多个”或“至少一个”和如“a”或“an”的不定冠词；对于在定冠词的权利要求中的使用也是如此。

本实施例可以是系统、方法和/或计算机程序产品。另外，本实施例的所选方面可以采用完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或组合软件和/或硬件方面的实施例的形式，可以将所有这些通常称为“电路”、“模块”或“系统”。此外，本实施例的各方面可以采取在(一个或多个)计算机可读存储介质中实施的计算机程序产品的形式，所述计算机可读存储介质上具有计算机可读程序指令，用于使处理器执行本实施例的各方面。如此实施，所公开的系统、方法和/或计算机程序产品可用来改进一个或多个物理硬件设备的功能和操作或其操作状态。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、动态或静态随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、磁存储设备、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本实施例操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器或服务器集群上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本实施例的各个方面。

这里参照根据本实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本实施例的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

应当理解，尽管为了说明的目的在此描述了特定实施例，但是在不脱离实施例的精神和范围的情况下可以进行各种修改。特别地，自然语言处理可以由不同的计算平台或跨多个设备来执行。此外，数据存储和/或语料库可以是本地化的，远程的，或跨多个系统分布的。因此，实施例的保护范围仅受以下权利要求及其等同物的限制。

Claims

1.一种处理自然语言的方法，包括：

通过人工智能平台变换地面实况(GT)数据，包括：

构建训练模块以识别与所述GT数据的本体路径相关的一个或多个分类法标签；

执行构建的训练模块，并将识别的分类法标签应用于GT，包括将识别的标签附加到GT；以及

构建查询，该查询包括所述GT的字符串，其中一个或多个所识别的分类法标签被前置附加到该字符串，该查询包括所述GT数据的本体路径的直接上位词和至少一个同义词集。

2.根据权利要求1所述的方法，其中，所构建的训练模块的执行还包括将所识别的标签应用于置信度评估。

3.根据权利要求2所述的方法，其中，所述置信度评估利用可配置参数。

4.根据权利要求1所述的方法，还包括将多个分类法标签存储在可操作地耦接的库中。

5.根据权利要求1所述的方法，还包括控制存储在库中的分类法标签的群体。

6.根据权利要求5所述的方法，还包括识别存储在所述库中的对性能有负面影响的一个或多个标签，以及从所述库中移除所识别的标签。

7.根据权利要求1所述的方法，还包括可操作地耦接到人工智能平台的硬件设备，所述硬件设备接收所构建的查询，其中提交所述查询导致从包括以下的组中选择的物理动作：所述硬件设备改变第二硬件设备的状态和致动、以及它们的组合。

8.一种处理自然语言的方法，包括：

变换地面实况(GT)数据，包括：

处理所述GT数据并使用概念分类法初步增强所述GT数据，包括用一个或多个分类法标签重新格式化所述GT数据；

分别分析所述GT数据和重新格式化的数据，所述分析评估使用一个或多个增强的分类法标签加到所述GT的值；

应用训练模块并过滤一个或多个增强的分类法标签，包括利用来自GT分析的值评估并选择性地过滤经评估的标签；

对查询进行格式化，包括构建一个或多个经过滤标签的输出字符串，并将构建的输出字符串前置附加到所述查询。

9.根据权利要求10所述的方法，其中，对所应用的训练模块的选择性过滤保留至少一个可应用标签前置附加到重新格式化的GT数据。

10.根据权利要求11所述的方法，其中，所述标签包括所述GT数据的本体路径的直接上位词和至少一个同义词集。

11.根据权利要求10所述的方法，其中，对所述GT数据的分别分析和初步增强GT数据包括量化从初步增强添加到增强的GT数据的性能。

12.根据权利要求13所述的方法，还包括选择用于移除的低性能标签，以及从初步增强的GT中移除所选择的标签。

13.根据权利要求10所述的方法，还包括可操作地耦接到处理单元的硬件设备，所述硬件设备接收格式化的查询，其中接收格式化的查询导致从包括以下的组中选择的物理动作：所述硬件设备改变第二硬件设备的状态和致动、以及它们的组合。

14.根据权利要求10所述的方法，其中，查询格式化在运行时进行。

15.一种计算机系统，包括：

处理单元，可操作地耦接到存储器；

人工智能平台，与处理单元通信；

知识引擎，与处理单元通信以执行根据权利要求1至14中任一项所述的动作。

16.一种处理自然语言(NL)的计算机程序产品，该计算机程序产品包括计算机可读存储设备，该计算机可读存储设备具有与其一起实现的程序代码，该程序代码可由处理单元运行以执行根据权利要求1至14中任一项所述的动作。