CN117408333A

CN117408333A - 自我增强知识模型

Info

Publication number: CN117408333A
Application number: CN202310859492.9A
Authority: CN
Inventors: 尼古拉·肖赫; 卡塔琳纳·斯塔克; 马里奥·霍尼克
Original assignee: ABB Schweiz AG
Current assignee: ABB Schweiz AG
Priority date: 2022-07-14
Filing date: 2023-07-13
Publication date: 2024-01-16
Also published as: US20240020548A1; EP4307178A1

Abstract

提供了一种自动扩充表示一个或多个自动化工程领域的知识模型的方法。该方法包括：获得与工业自动化系统的至少一个部件相关的实例数据，其中部件表示知识模型中的至少一个实体的实例；使用一种或多种数据分析算法来处理实例数据，以导出要被添加到知识模型的知识；以及扩充知识模型以表示所导出的知识。还提供了对应的系统。

Description

自我增强知识模型

技术领域

本发明涉及用于自动扩充表示一个或多个自动化工程领域的知识模型的方法和系统。

背景技术

在工业自动化领域中，软件工具的组合可以为过程和自动化工程(P&AE)提供。这些工具可以利用本体或知识图。通常，需要人类领域专家和/或本体工程专家来创建和维护特定领域的本体。本体可能最终需要被扩展以覆盖新的领域。通过人类的努力来创建和维护本体是昂贵且不可缩放的。

发明内容

为了更好地解决这些问题中的一个或多个，在第一方面中，提供了一种自动扩充表示一个或多个自动化工程领域的知识模型的方法，该方法包括：

获得与工业自动化系统的至少一个部件相关的实例数据，其中部件表示知识模型中的至少一个实体的实例；

使用一种或多种数据分析算法来处理实例数据，以导出要被添加到知识模型的知识；以及

扩充知识模型以表示所导出的知识。

知识模型提供了领域术语以及术语之间的关系的形式语义表示，并且可选地还提供了术语的特性及其间的关系的形式语义表示。因此，知识模型表示与所讨论的一个或多个领域相关的知识库。知识模型可以包括一个或多个本体模型。附加地或备选地，知识模型可以包括一个或多个知识图。附加地或备选地，知识模型可以包括一个或多个知识表示，诸如语义网、系统架构、框架或规则。“本体模型”或“本体”包括一个或多个概念以及概念之间的一种或多种本体关系或连接。知识图可以包括本体，并且可以特别地在真实实例数据被联系到本体中的概念时被使用。本体模型可以是手动和/或自动可扩展的。知识模型可以包括一个或多个部分知识模型，例如知识模型的摘录、部分或部分。例如，知识模型可以包括本体和/或知识图的一个或多个摘录。

本体模型根据结构化和/或分层排序的词汇来定义概念及其相互关系。本体模型可以根据一个或多个公理来定义概念之间的相互关系或依赖性。每个领域都可以使用自己的术语、词汇或词典，这些术语、词汇和词典可以用“领域本体”来表示。本体模型可以包括一个或多个领域本体，表示与感兴趣的特定领域(例如P&AE领域)相关的概念，诸如化学工程或电力工程。附加地或备选地，本体模型可以包括跨多个领域扩展的上层本体。除了概念之外，本体模型还可以包括一个或多个特性、注释或个体。本体模型可以明确地指定(多个)领域的术语的语义。本体模型可以包括单个本体，或者可以包括多个不同的子本体。例如，本体模型可以包括至少一个过程子本体(包括一个或多个工业过程的表示)或者描述过程工厂的一般概念。过程子本体可以表示一个或多个工业过程中涉及的输入、输出、约束、材料和定序信息中的一个或多个。本体模型可以包括与要求分析或有意建模相关的至少一个子本体，以对工厂所有者的意图进行建模(例如“我打算分离石油和天然气”)。本体模型还可以包括作为子本体的一个或多个开源本体，诸如OntoCAPE。

知识图包括图形形式的多个语句(形成知识库的至少一部分)。在知识图中，概念(现在称为实体)以多维曲线图的形式表示，实体之间的关系使用它们之间的联系和/或它们的相对定位来图示。真实实例数据可以被联系到本体模型中的概念，以创建知识图。因此，本体模型中的概念的具体实例可以形成基于本体的知识图的一部分。

知识模型可以以计算机可解释的格式提供。例如，本体模型可以用用于创作本体的语言来指定，诸如web本体语言(OWL)或任何语义序列化/格式(诸如RDF)。

自动化工程领域可以包括例如与过程自动化、工厂自动化和仓库自动化相关的一个或多个领域。自动化工程领域可以包括过程和自动化工程(P&AE)领域。

实例数据可以使用异构数据格式从异构数据源获得。实例数据可以包括测量数据和/或控制数据。因此，数据可以包括一个或多个测量值和/或一个或多个控制值。实例数据可以涉及过程监测和控制。数据可以包括离散时间数据和/或诸如时间序列数据等连续时间数据。为了创建时间序列数据的目的，度量和事件可以进行时间戳。数据可以与一个或多个参数或KPI相关。实例数据可以包括工程数据。工程数据的来源包括P&ID图及其信息表示、因果矩阵及其信息表示、工业过程工厂设置的I/O配方及其结构化信息表示。

一个或多个数据存储系统可以被用于存储实例数据和本文描述的其他数据。例如，关系数据库(RDB)、图形数据库(GDB)和时间序列数据库(TSDB)之间的一个或多个可以被使用。关系数据和图形数据可以被适当地存储和访问以用于基于本体模型的数据，并且时间序列数据可以被存储在TSDB中。关系数据库和图形数据库可以被配置为允许根据列、键、索引或说明符进行排序和查询。TSDB可以被配置为允许根据时间戳来查询和排序数据。

实例数据中所包含的信息可以在知识模型中表示。知识模型可以包括表示描述实例数据的元数据的实体或概念。在实例数据包括时间序列数据的情况下，知识模型可以包括表示与时间序列数据相关的元数据的实体。元数据可以表示模式(诸如“标准行为”或“异常行为”或更详细的子概念)或异常值(诸如“严重高于阈值”)。这些概念反过来可以包括或联系到定义如何对这种模式的出现作出反应或采取行动的信息，或者关于如何解释这种模式的发生的信息，这些信息例如可能会导致警报等。

用于处理实例数据以导出要被添加到知识模型的知识的一种或多种数据分析算法可以包括一种或多种机器学习算法。附加地或备选地，一种或多种数据分析算法可以包括一种或多种语义推理算法。附加地或备选地，一种或多种数据分析算法可以包括一种或多种优化算法。附加地或备选地，一种或多种数据分析算法可以包括一种或多种通用数据操纵(GDM)算法。附加地或备选地，一种或多种数据分析算法可以包括一种或多种主成分分析(PCA)算法。附加地或备选地，一种或多种数据分析算法可以包括一种或多种回归或拟合算法。附加地或备选地，一种或多种数据分析算法可以包括一种或多种分类算法。附加地或备选地，一种或多种数据分析算法可以最小化损失函数。数据分析算法可以被描述为数据(或信息)处理算法。本文描述的任何算法都可以被称为本体驱动的。本文描述的任何算法都可以被配置为查询、访问、处理信息以及将信息反馈回本体和知识图。算法可以被配置为找到概念集合之间的模式或相关性，然后这些模式或相关性可以与相应的概念一起表示，以增强或扩展知识模型。“增强”可以被理解为改进知识模型，而“扩展”可以被理解为扩大知识模型。

一种或多种机器学习算法可以使用一个或多个机器学习模型来执行。该方法可以包括：创建机器学习模型以导出要被添加到知识模型的知识。机器学习模型可以被配置为执行一种或多种分类算法以将类或标签指派给实例数据。附加地或备选地，机器学习模型可以被配置为执行一种或多种回归算法来预测实例数据的一个或多个延续。创建机器学习模型可以包括使用训练数据训练模型以使用新数据进行预测。训练模型可以包括获得与知识模型中的第一概念或实体的第一实例相关的实例数据，以及使用第一实例的实例数据作为训练机器学习模型的目标数据(或预测数据)。训练模型还可以包括获得与知识模型中的第二概念或实体的至少一个第二实例相关的实例数据，以及使用至少一个第二实例的实例数据作为训练机器学习模型的特征数据(或预测器数据)。该方法可以包括：标识与知识模型中的第二概念相关的一个或多个其他概念，以及获得这些其他概念的实例数据以用于训练模型。获得的实例数据然后可以被用于训练模型。该方法可以包括评估或验证所创建的机器学习模型。验证该模型可以包括使用训练测试方法。该方法可以包括基于验证结果来扩充模型。然后，所创建的机器学习模型可以被用于处理新的实例数据，以生成要添加到知识模型的一个或多个响应、见解或相互关系。一个或多个响应可以被用于确定要被添加到知识模型的一个或多个本体关系(例如相关性、模式、趋势、异常、布尔关系或依赖性)。

该方法可以包括执行特征选择步骤，用于选择用于训练机器学习模型的训练数据。例如，第一概念和第二概念可以基于知识模型中它们之间的直接联系来标识。第一概念和第二概念可以基于知识模型中它们之间的间接联系来选择。直接或间接联系的存在可以被用于提供用于训练机器学习模型的特征/列的更智能的选择。第一概念和第二概念可以基于知识模型中它们之间不存在直接或间接联系来选择。第一概念和第二概念可以是随机选择的。即使知识模型不表示第一概念和第二概念之间的任何关系，机器学习模型仍然可以被用于确定是否存在这种关系，并且如果存在，则相应地创建第一概念和第二概念之间的本体关系以添加到知识模型。

一种或多种语义推理算法可以包括用于执行以下一项或多项的算法：知识传播、语义查询、数据/知识发现和/或可访问性以及语义推断。使用一种或多种语义推理算法可以包括使用语义推理器(备选地，可描述为推理或推断引擎、规则引擎或推理器)来确定知识模型和/或与其相关联的数据(例如相关知识图中的实例数据)的一致性和/或完整性。例如，该方法可以包括使用语义推理器将数据分类或重新父级化为它们相应的类或概念。该方法可以包括使用语义推理器从知识模型推断逻辑结果。推断规则可以为该目的指定，例如通过本体语言和/或描述逻辑语言。语义推理器可以被配置为使用一阶谓词逻辑来执行推理，例如通过前向联系和后向联系来执行推断。语义推理器可以被配置为确定本体是否一致，标识概念之间的亚膨胀关系等。一致性检查可以周期性地、连续地或响应于新信息/数据的键入而执行。例如，新反应器实例的键入可以指示对PID控制器实例的需要。

可以被应用的其他本体驱动的数据分析算法包括基于本体的学习算法(例如从自然语言文本中提取概念和本体关系)、推断引擎、定理证明器等。

数据分析算法可以例如使用面向本体的编程以及例如Python和owlready2语言和库来实施。数据分析算法可以使用用于数据分析和/或机器学习的一个或多个独立工具来实施。在任何情况下，方法可以被提供来处理本体的类/概念以及相应的实例数据。这些方法可以由现有的自动化工程软件产品组合提供，或者被专门实施以提供新的功能性。

扩充知识模型以表示所导出的知识可以包括将所导出的知识的至少一部分添加为先前未形成知识模型的一部分的新知识。扩充知识模型以表示所导出的知识可以包括使用所导出的知识的至少一部分来校正或完成先前存在的不正确或不完整的知识。扩充知识模型以表示所导出的知识可以包括使用所导出的知识的至少一部分来去除或减少先前存在的不正确或多余的知识。

扩充或填充知识模型的步骤可以包括基于一种或多种数据分析算法的输出来添加、编辑或去除概念和/或它们之间的关系和/或其特性中的一个或多个(实例)。例如，一种或多种数据分析算法的输出可以被添加为本体模型中的概念(例如第一概念和第二概念)之间的本体关系和/或知识图中的新边缘。输出可以指示例如概念或实体之间的依赖性、关系、相关性、共现性、根本原因或因果趋势。引导方法可以被用于扩充知识模型。

扩充知识可以被注释以指示其起源，例如作为算法导出的或ML添加的概念。注释可以采用语义注释(例如标志、标签等)的形式，指示它是机器创建的(与人工或专家创建的相反)。为了透明，注释可以通过基于该注释的未来推理结果来考虑。

对知识模型的扩充可以使用任何适当的格式来输入，诸如在本体模型的情况下的OWL。

扩充知识模型可以包括使用一种或多种基于本体的学习算法来基于一种或多种数据分析算法的输出来标识要被添加到知识模型的知识。例如，一种或多种本体学习算法可以包括以下步骤中的一项或多项：领域术语提取；概念发现；概念到概念的关系发现(其中关系可以再次是以下之一：模式、异常、相关性、趋势、依赖性、布尔关系等)；概念层次推导；学习非分类学关系(不表达任何亚膨胀或超膨胀)；规则发现(公理的生成)；本体填充；概念层次扩展；帧和事件检测。

在对知识模型进行改变之前，从数据分析算法导出的知识可以被核实或验证。例如，在认为添加知识是安全的之前，可能需要出现的阈值数量。该方法还可以包括为了核实的目的自动执行一种或多种数据分析算法以确定已经包括在知识模型中的知识的完整性和/或正确性。

该方法可以包括实施一个或多个步骤来处置与所导出的知识相关的不确定性。例如，所导出的知识(例如它在知识图中的边缘或关系，或本体中的对应节点)可以被注释(例如使用标志或标签)以指示它受到不确定性的影响。注释还可以指定不确定性，例如其来源，或者可以触发数据分析算法进一步调查，从而可能去除或减少不确定性。在一个特定示例中，如果概念是测量概念，例如压力，在某些环境条件下是不确定或不稳定的，或者无法被精确测量，则它可以被赋予‘不确定性’标志。

该方法还可以包括应用所扩充的知识模型。所扩充的知识模型可以被应用于例如工业自动化系统的控制和/或自动化。所扩充的知识模型可以被用于监测工业自动化系统。监测可以包括在工业自动化系统中的一个或多个故障、异常情况、模式或趋势的检测或诊断中使用所扩充的知识模型。因此校正动作可能会被触发。所扩充的知识模型可以被用于定义一个或多个警报。所扩充的知识模型可以被用于适应工业自动化系统和/或用于推荐这种适应。所扩充的知识模型可以被用于标识期望动作的一个或多个序列。所扩充的知识模型可以被用于决策支持。所扩充的知识模型可以被用于预测性分析或预测性维护。所扩充的知识模型可以被用于引导式自助服务。

在一个决策支持示例中，第一方面的方法可以被执行以支持缺失数据插补。这可以通过检查类似的情况来完成。例如，本体中的公理可以声明某个特性或特征集合X1、...、XN(可能具有处于某些阈值内/高于/低于某些阈值的实例数据)指示另一特性的存在。但特征集合并不全面可用或已知，因此确定性推断无法被得出。此处，该方法可以被触发来调查关系，并且可能产生试探性推断，即，概率决策支持。

虽然第一方面的方法已经根据表示自动化工程领域的知识模型结合与工业自动化系统相关的实例数据描述，但是要了解的是，本文描述的系统和方法可以备选地在所述领域之外找到应用。

第一步骤的方法可以被手动地和/或自动地发起。在一个示例中，在数据分析算法将知识反馈到模型中之前，知识模型(特别是对其进行扩充)触发一种或多种数据分析算法以及所使用的相应特征/目标数据的执行。通过这种方式，该方法可以按环路方式或循环方式执行。

第一方面的方法可以是计算机实施的。

根据第二方面，提供了一种被配置为执行第一方面的方法的计算系统。例如，计算系统可以包括工程支持系统或决策支持系统，或被包括在其中。

根据第三方面，提供了一种包括指令的计算机程序，在由计算系统执行时，该指令使得计算系统能够执行第一方面的方法或使计算系统执行第一方面的方法。

根据第四方面，提供了一种包括指令的计算机可读介质，在由计算系统执行时，该指令使得计算系统能够执行第一方面的方法或使计算系统执行第一方面的方法。计算机可读介质可以是瞬态的或非瞬态的、易失性的或非易失性的。

本公开提供了用于过程和自动化工程本体自我增强加上知识图驱动的高级数据分析和机器学习的系统和方法。

有利地，本文描述的系统和方法提供了一种知识模型(例如本体和/或知识图)，该知识模型可以连续地自我增强、自我扩展和自我核实。

本文公开的系统和方法提供了知识模型的可缩放性。消除了对人类领域专家和本体工程专家创建和维护本体的需要。本公开认识到具有部分结构化数据的现有应用的可用性，该部分结构化数据可以被利用以使用本文描述的方法和系统来填充和增长本体和知识图。

本文描述的系统和方法提供了本质上可说明、可解释和透明的算法输出。由于算法使用的特征源自本体概念，该本体概念本身具有清晰表示的含义，因此算法输出的部件也是如此。这与传统的数据分析和机器学习方法形成了鲜明对比，这些方法通常具有黑盒算法的缺点，无法说明其输出。例如，由本文描述的算法发现的“两个特征A和B之间的相关性”是“两个特征压力和温度之间的相关性”，因为概念A具有压力和B温度的本体含义。因此，这种相关性对人类来说变得直接透明且可说明和可理解。这甚至适用于这种关系的系列、集合和组合以及所有这些关系的嵌套版本。因此，当概念A到B是透明的，并且概念B到C也是透明的时，那么概念A到C也是透明的(即，清晰的、可理解的、可说明的)。

所描述的系统和方法能够实现自主工业工厂。通过访问具有数据分析算法的基于本体的系统，工厂能够感测和测量其环境，了解其能力和内部状态，并且可以在认知上理解和感知其环境。

本文使用的术语“获得”可以包括例如从另一系统、设备或过程接收；经由与用户的交互进行接收；从存储装置或存储器加载或检索；使用传感器或其他数据获取设备进行测量或捕获。

如本文使用的，术语“确定”涵盖各种动作，并且可以包括例如计算(calculating)、计算(computing)、处理、导出、调查、查找(例如在表格、数据库或另一数据结构中查找)、查明等。而且，“确定”可以包括接收(例如接收信息)、访问(例如访问存储器中的数据)等。而且，“确定”可以包括解析、选择、挑选、建立等。

不定冠词“一”或“一个”并不排除多个。另外，本文使用的冠词“一”和“一个”通常应被解释为意指“一个或多个”，除非另有指定或从上下文中显而易见地指向单数形式。

除非另有指定或从上下文中显而易见的，否则本文使用的短语“A、B和C中的一个或多个”、“A、B和C中的至少一个”和“A、B和/或C”旨在指所列项目中的一个或多个的所有可能排列。即，短语“A和/或B”是指(A)、(B)或(A和B)，而短语“A、B和/或C”是指(A)、(B)、(C)、(A和B)、(A和C)、(B和C)或(A、B和C)。

术语“包括”并不排除其他元素或步骤。此外，术语“包括(comprising)”、“包括(including)”、“具有”等在本文中可以被互换使用。

本发明可以包括单独或组合的一个或多个方面、示例或特征，无论是否组合或单独地具体公开。以上方面中的一个方面的任何可选特征或子方面适当地应用于任何其他方面。

参照下文描述的实施例，本发明的这些和其他方面将变得显而易见并得以阐明。

附图说明

详细描述现在将参照附图仅通过示例给出，其中：

图1图示了模块化工业过程工厂；

图2图示了模块可以如何被布置以在图1的工业过程工厂中形成管线；

图3示出了表示图2的管线的本体及其相关知识图的摘录；

图4图示了根据本公开的工程支持系统；

图5A和5B图示了由图4的系统执行的数据分析算法的一个示例；以及

图6图示了可以根据本文公开的系统和方法使用的计算系统。

具体实施方式

图1图示了工业过程工厂100，它具有两层：模块层102和编排层104。

模块层102包括多个过程模块106，该过程模块106包括单独的模块106A至106D。每个模块106提供封装的过程功能集合，称为服务，这些过程功能可以由监督控制系统110编排。每个模块106包括执行该模块的控制逻辑的控制器(未示出)。每个模块106还可以包括执行服务所必需的一个或多个现场设备、仪器设备、致动器或传感器。模块106可以以各种参数的控制值和测量值的形式彼此交换数据，以及与编排层104交换数据。如本文引用的，这种数据可以被用作“实例数据”。每个模块106由模块类型封装(MTP)形式的配置文件来描述。MTP是模块化自动化系统领域的一个标准，它为模块和编排层之间的互操作性创建框架。在MTP的上下文中的模块可以被称为过程设备装配件(PEA)。

编排层104包括操作台108和监督控制系统110。编排层104集成模块106，以便将它们组合为一个过程工厂。通过以正确的方式控制模块106的服务，编排层104确保模块106协作以实现特定的过程配方。

架构网络112连接这些层。通过网络112的数据通信使用OPC UA协议进行。OPC UA是一种独立于平台、面向服务的客户端-服务器架构，它传输实例数据并且对其进行语义描述。每个模块106包括OPC UA服务器(未示出)，该OPC UA服务器向监督控制系统110公开模块的实例数据和服务。数据经由地址空间公开。监督控制系统110包括OPC UA客户端(未示出)，它连接至模块106的OPC UA服务器以向模块106传递命令。例如，OPC UA客户端可以被用于从OPC UA服务器的地址空间中查找实例数据，读取和写入数据，订阅某些数据改变或事件，诸如警报，以及调用方法。

图2图示了模块106可以如何被布置以在工业过程工厂100中形成管线200。在该非限制性示例中，模块106A是搅拌模块，模块106B是反应器模块，模块106C是冷却模块，以及模块106D是分离器模块。管线200被配置为将一个或多个离析物202(作为输入)变换为一个或多个产物204(作为输出)。离析物202被提供给搅拌模块106A的输入206，搅拌模块的输出208被连接至反应器模块106B的输入，以此类推，直到产物204在分离器模块106D的输出处可用。每个模块106与涉及一个或多个参数210和/或KPI 212的实例数据相关联。

图3示出了来自本体及其相关知识图的摘录300(具有概念、实例、概念之间和实例之间的关系、注释以及实例数据和值)，表示管线200。摘录300中的每个节点是表示管线200的一些方面的概念或概念的实例，包括其与工厂100的关系。例如，概念以及它们的功能性、参数和KPI针对模块106中的每个模块106来提供。节点之间的联系表示概念之间以及概念和实例之间的本体关系。摘录300可以由支持过程工程师、自动化工程师和/或控制工程师执行其任务的各种软件工具使用，从而促进作为应用组合的一部分的工具之间的互操作性。摘录300提供了可以由工具使用但与应用本身解耦的知识模型。摘录300可以被用于捕获、表示和联系过程和工程知识，在克服信息孤岛的同时提供数据发现和使用，以及回答复杂的问题。创建和维护这种本体传统上涉及大量的人类努力。

因此，本公开提供了一种基于本体的数据驱动工程支持系统400，如图4所示，由此摘录300可以透明且可缩放地自我增强和自我评估。系统400被配置为获得与工厂100的至少一个部件相关的实例数据402，使用一种或多种数据分析算法来处理实例数据402以导出知识404，以及扩充摘录300以表示所导出的知识404。数据由系统400以语义方式管理(即，存储、检索、访问、发现、共享、使用等)，这是由于数据被联系到摘录300以及其中包含的概念和关系。因此，与常规的黑盒数据分析算法相比，系统400的输出本质上是可说明的：特征(向量)和目标(值)，或“大数据版本”，即，对应的特征向量和目标值的集合，由系统400的数据分析算法采用，具有潜在含义，因为摘录300本身表示其概念的含义和相互关系。

由系统400使用的数据分析算法的一个非限制性示例参照图5A和5B图示。图5A所示为广义本体500，它包括概念A，该概念A被联系到多个其他概念，即，概念A1、...、AN。概念B与概念A相关，或者可以与概念A相关。在这种情况下，算法是包括以下步骤的机器学习算法：

步骤1：获得所有相关概念A、A1、...、AN；

步骤2：获得相应概念的所有可用实例的所有相关实例数据；

步骤3：创建对应的关系表502，该关系表502具有根据概念B、A、A1、...、AN的列，并且具有由可用实例组成的行，如图5B所示；

步骤4：创建机器学习模型(例如分类器、回归器、模式分析器等)；

步骤5：用表格502中的实例数据训练模型(从列Ax中获取特征，以及从列B获取目标)；

步骤6：对模型进行训练测试；以及

步骤7：将(评估)结果作为新知识，以在摘录300中表示。

可以由系统400执行的算法的非限制性示例被提供如下。

示例1

在该示例中，已知概念Ax(液位、阀门打开、流量、压力、温度)彼此相关，如本体中所表示的。在这种情况下，算法功能是确定这些概念是否以及如何与电导率相关，在这种情况中用作概念B。因此，包括这些概念的实例数据(未示出)的表格502可以被构造如下。

本体和相关知识图可能已经指示了这些概念之间的已知本体关系。例如，针对每个实例X，如果“阀门打开”为真，则“流量”为正数。或者，如果“阀门打开”为真，则“储罐液位”呈线性增加。因此，这些已知关系(如果X为真，那么Y为正，或者如果X，那么f(t)＝液位取决于t时间线性增加)在表格中的数据中可见。

因此，以迄今为止不相关的概念“电导率”为目标，该算法可以揭示所有实例的数据点都具有依赖性。例如，电导率可能取决于储罐液位和/或温度。这种依赖性可以通过if-else语句来描述，或者通过布尔运算来描述，或者通过更复杂(甚至是多变量)的数学函数来描述，诸如电导率＝f(temp,level,a,b,c)，其中a、b、c是其他概念，并且其中f可以是线性的或其他的。如果模型确定可以描述这种依赖性(例如通过拟合“电导率”列中的数据点)，则系统400可以将该信息反馈回本体以建立新的本体关系。

通常，出现在例如P&ID图中的任何项目(以及对应的值或相关信息)；因果矩阵以及工业过程工厂设置的过程I/O配方以及它们的组合可以以这种方式使用。

示例2

在第二非限制性示例中，考虑了危险和可操作性(HazOp)值及其相互关系。在该示例中，已知参数的子集根据本体彼此相关，如以下表格所示。然而，该概念“振动”在本体中未被表示，因此该概念与其他概念之间的关系是未知的。

该示例中的模型被训练为通过最小化模型输出和数据点之间的误差来近似特征和目标之间的关系。换言之，该模型找到一个函数，该函数近似于概念之间的关系，从而确定迄今为止未知的关系，这些关系被反馈回本体，从而被相应地表示为新的关系。

示例3

在该非限制性示例中，实例数据包括与反应器模块中的温度和压力相关的时间序列数据。此处，本体使加热反应器所需的能量与实现化学反应的特定所需的最低温度相关。该关系包括函数f，用于描述取决于反应器体积(每个反应单元)的所需能量：能量＝f(处理体积)。这种关系可能是在没有考虑到某些地方昼夜温度变化很大的情况下设置的，因此，每个反应单元的固定量可能是不适当的。因此，表格502可以看起来如下：

针对所有反应器实例，能量和处理体积应该成比例地相关，因为这也是本体所描述的。然而，数据示出，这并不适用于一天中的每个时间：在夜间，温度较低，需要更多的能量，而在白天，温度较高，需要更少的能量。因此，将已知的相关列“能量”和“处理体积”与不已知的相关栏“室外温度”和“一天中的时间”放在一起，形成机器学习模型，从而回归算法将假设模型(比例依赖性)和实际数据之间的误差最小化。新学习的模型示出，能量不仅是处理体积的函数(即，能量＝f(volume))，而且附加地取决于一天中的温度和时间，即，能量＝f(volume,outside-temp,time-of-day)。因此，这种关系被反馈回本体模型中。

示例4

在与决策支持相关的这个非限制性示例中，本体中的公理声明：“如果特征1(压力)过高(高于值10)，并且特征2(温度)过低(低于值7)，并且特征3(密度)过高(高于值A)，并且特征4(浓度)处于某个阈值(在值x和y之间)，那么特征Z(稳定性)无法保证”。假设针对新的实例数据点，特征1、2、4的值是已知的，但针对特征3是未知的，则公理将不会产生令人满意的指示。系统400可以执行数据分析算法以确定特征1至4与Z之间的关系，并且找到声明特征3对影响特征Z实际有多重要的模式或趋势。这种情况下的算法可以使用主成分分析(PCA)。在特征3起不重要作用的情况下，可以提供“试探性”决策支持，即，“特征Z很可能是真的，因为给出了特征1、2、4，而特征3(实际上是100％确定性决策所需的)并不重要(根据知识图中的类似数据点的X数量)”。在特征3起重要作用的情况下，可以提供不确定性的指示，例如指示“即使特征1、2、4指示特征Z是真的，该指示也是非常不确定的，因为具有高影响的特征3是未知的”。这种试探性推理不仅辅助回答具体问题(诸如当特征1至4部分已知时与特征Z相关)，而且还可以被应用于增强或扩展知识模型本身：将数据联系到本体，可以对特征和概念的不同组合进行这种分析，以获得具有概率推理支持的增强的知识模型。

在另一非限制性示例中，可以构建和执行语义“for-all-X”命令和查询。例如，可以针对所有管线(即，针对所有管线备选方案)查询本体或知识图，并且可以基于本体定义的关系来计算KPI，最小化、优化或最大化参数。可以构建关于本体和/或知识图的一般语义查询。例如，本体可以相对于感兴趣的一个概念，针对所有相关概念、特性和参数(例如使用SPARQL)来查询，这直接揭示了所有潜在的相关信息，因为所有相关概念在本体中都是通过特性、公理、依赖性等来表示的。当本体被联系到真实实例数据(即，在知识图中)时，该数据也被直接联系，因此也可以被查询。而且，被联系到概念的数据可以在单个实例上被查询，但也可以在给定概念的许多或所有实例上被查询，或者甚至在相关概念的实例上被查询，在此基础上，本文描述的算法可以找到相关性或趋势，或者检测模式、相似性和异常值。

图6图示了可以根据本文公开的系统和方法使用的示例性计算系统800。计算系统800可以形成任何台式计算机、膝上型计算机、服务器或基于云的计算系统的一部分，或包括任何台式计算机、膝上型计算机、服务器或基于云的计算系统。计算系统800包括执行指令的至少一个处理器802，该指令被存储在存储器804中。例如，指令可以是用于实施被描述为由本文讨论的一个或多个部件执行的功能性的指令或者用于实施本文描述的一种或多种方法的指令。处理器802可以通过系统总线806访问存储器804。除了存储可执行指令之外，存储器804还可以存储对话输入、被指派给对话输入的分数等。

计算系统800附加地包括处理器808可通过系统总线806访问的数据存储库808。数据存储库808可以包括可执行指令、日志数据等。计算系统800还包括允许外部设备与计算系统800通信的输入接口810。例如，输入接口810可以被用于从外部计算机设备、从用户等接收指令。计算系统800还包括使计算系统800与一个或多个外部设备接口连接的输出接口812。例如，计算系统800可以通过输出接口812显示文本、图像等。

设想经由输入接口810和输出接口812与计算系统800通信的外部设备可以被包括在提供用户可以与之交互的大致任何类型的用户界面的环境中。用户界面类型的示例包括图形用户界面、自然用户界面等。例如，图形用户界面可以接受来自采用(多个)输入设备(诸如键盘、鼠标、遥控等)的用户的输入，并且将输出提供在输出设备(诸如显示器)上。进一步地，自然用户界面可以使用户能够以不受由输入设备(诸如键盘、鼠标、遥控等)施加的约束的方式与计算系统800交互。相反，自然用户界面可以依赖于语音识别、触摸和手写笔识别、屏幕上和屏幕附近的手势识别、空中手势、头部和眼睛追踪、声音和语音、视觉、触摸、手势、机器智能等。

附加地，尽管被图示为单个系统，但是要理解的是，计算系统800可以是分布式系统。因此，例如多个设备可以通过网络连接通信，并且可以共同执行被描述为由计算系统800执行的任务。

本文描述的各种功能可以被实施在硬件、软件或其任何组合中。如果被实施在软件中，则功能可以作为一个或多个指令或代码被存储在计算机可读介质上或者通过计算机可读介质发送。计算机可读介质包括计算机可读存储介质。计算机可读存储介质可以是可以由计算机访问的任何可用存储介质。通过示例而非限制，这种计算机可读存储介质可以包括闪存存储介质、RAM、ROM、EEPROM、CD-ROM或者其他光盘存储装置、磁盘存储装置或其他磁性存储设备或者可以被用于以指令或数据结构的形式携带或存储期望的程序代码并且可以由计算机访问的任何其他介质。如本文使用的，磁盘和光盘包括：压缩盘(CD)、激光盘、光盘、数字通用盘(DVD)、软盘和蓝光光盘(BD)，其中磁盘通常磁性地复制数据，而光盘通常利用激光光学地复制数据。进一步地，所传播的信号未被包括在计算机可读存储介质的范围内。计算机可读介质还包括通信介质，该通信介质包括便于将计算机程序从一个地方传送到另一个地方的任何介质。例如，连接可以是通信介质。例如，如果软件是使用同轴电缆、光缆、双绞线、数字订户线(DSL)或者无线技术(诸如红外、无线电和微波)从网站、服务器或者其他远程源发送的，那么同轴电缆、光缆、双绞线、DSL或者无线技术(诸如红外、无线电和微波)被包括在通信介质的定义中。以上的组合也应该被包括在计算机可读介质的范围内。

备选地或者另外，本文描述的功能性可以至少部分地由一个或多个硬件逻辑部件执行。例如但不限于，可以被使用的硬件逻辑部件的说明性类型包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等。

要了解，除了所提及的功能之外，上述电路系统可以具有其他功能，并且这些功能可以由相同的电路执行。

申请人在此单独公开了本文描述的每个单独特征以及两个或多个这种特征的任何组合，只要这种特征或组合能够鉴于本领域技术人员的公知常识基于本说明书作为整体执行即可，不管这种特征或特征组合是否解决了本文公开的任何问题，并且不限制权利要求的范围。申请人指示本发明的各个方面可以由任何这种单独特征或特征组合组成。

必须注意的是，本发明的实施例是参照不同类别来描述的。具体地，一些示例参照方法来描述，而其他示例参照装置来描述。然而，本领域技术人员将从描述中了解到，除非另有通知，否则除了属于一个类别的特征的任何组合之外，与不同类别相关的特征之间的任何组合也被认为是由本申请公开的。然而，所有特征都可以被组合，以提供协同效应，而不仅仅是特征的简单总和。

虽然本发明已经在附图和先前描述中被详细图示和描述，但是这种图示和描述应该被认为是示例性的，而非限制性的。本发明不被限于所公开的实施例。通过研究附图、公开内容和所附权利要求，所公开的实施例的其他变化可以由本领域技术人员理解和实现。

单个处理器或其他单元可以满足权利要求中记载的若干项目的功能。

某些措施被记载在相互不同的从属权利要求中这一事实并不指示这些措施的组合无法被有利地使用。

计算机程序可以被存储/分布在合适的介质上，诸如与其他硬件一起或作为其他硬件的一部分供应的光学存储介质或固态介质，但也可以以其他形式分布，诸如经由互联网或其他有线或无线通信系统。

权利要求中的任何附图标记不应该被解释为限制范围。

Claims

1.一种自动扩充表示一个或多个自动化工程领域的知识模型的方法，所述方法包括：

获得与工业自动化系统的至少一个部件相关的实例数据，其中所述部件表示所述知识模型中的至少一个实体的实例；

使用一种或多种数据分析算法来处理所述实例数据，以导出要被添加到所述知识模型的知识；以及

扩充所述知识模型以表示所导出的知识。

2.根据权利要求1所述的方法，其中用于处理所述实例数据以导出要被添加到所述知识模型的知识的所述一种或多种数据分析算法包括：一种或多种机器学习算法。

3.根据权利要求1或2所述的方法，还包括：创建机器学习模型以导出要被添加到所述知识模型的所述知识。

4.根据权利要求3所述的方法，其中创建所述机器学习模型包括：获得与所述知识模型中的第一实体的第一实例相关的实例数据，以及使用所述第一实例的所述实例数据作为用于训练所述机器学习模型的目标数据。

5.根据权利要求4所述的方法，其中训练所述模型还包括：获得与所述知识模型中的第二实体的至少一个第二实例相关的实例数据，以及使用所述至少一个第二实例的所述实例数据作为用于训练所述机器学习模型的特征数据。

6.根据权利要求5所述的方法，其中第一概念和第二概念基于所述知识模型中所述第一概念与所述第二概念之间的直接联系或间接联系来选择。

7.根据权利要求5或6中任一项所述的方法，还包括：标识与所述知识模型中的所述第二概念相关的一个或多个其他概念，以及获得针对这些其他概念的实例数据以用于训练所述模型。

8.根据权利要求3至7中任一项所述的方法，还包括：验证所创建的机器学习模型。

9.根据权利要求3至8中任一项所述的方法，还包括：使用所创建的机器学习模型来处理新实例数据，以生成要被添加到所述知识模型的一个或多个响应。

10.根据任何前述权利要求中任一项所述的方法，还包括：使用所扩充的知识模型来执行语义查询。

11.根据任何前述权利要求中任一项所述的方法，包括：在所述知识模型中注释所导出的知识，以指示所导出的知识是算法导出的。

12.根据任何前述权利要求中任一项所述的方法，包括：在所述知识模型中注释所导出的知识，以指示所导出的知识的不确定性。

13.一种计算系统，被配置为执行根据权利要求1至12中任一项所述的方法。

14.一种计算机程序，包括指令，在由计算系统执行时，所述指令使所述计算系统执行根据权利要求1至12中任一项所述的方法。

15.一种计算机可读介质，包括指令，在由计算系统执行时，所述指令使所述计算系统执行根据权利要求1至12中任一项所述的方法。