CN116635843A - 分析工业工厂的日志文件的设备、计算平台和方法 - Google Patents

分析工业工厂的日志文件的设备、计算平台和方法 Download PDF

Info

Publication number
CN116635843A
CN116635843A CN202180062696.9A CN202180062696A CN116635843A CN 116635843 A CN116635843 A CN 116635843A CN 202180062696 A CN202180062696 A CN 202180062696A CN 116635843 A CN116635843 A CN 116635843A
Authority
CN
China
Prior art keywords
log
block
message
representation
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180062696.9A
Other languages
English (en)
Inventor
乔治亚·奥林匹娅·布里基斯
弗拉迪米尔·拉夫里克
谢尔盖·莫戈雷努
安德烈·肖尔茨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of CN116635843A publication Critical patent/CN116635843A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/418Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM]
    • G05B19/4184Total factory control, i.e. centrally controlling a plurality of machines, e.g. direct or distributed numerical control [DNC], flexible manufacturing systems [FMS], integrated manufacturing systems [IMS] or computer integrated manufacturing [CIM] characterised by fault tolerance, reliability of production system
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/20Pc systems
    • G05B2219/23Pc programming
    • G05B2219/23067Control, human or man machine interface, interactive, HMI, MMI

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Automation & Control Theory (AREA)
  • Manufacturing & Machinery (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Debugging And Monitoring (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

公开了分析工业工厂的日志文件的设备、计算平台和方法。该方法包括:确定日志文件的日志条目中的至少一个块(122),其中日志条目包括一个或多个日志消息,并且其中块(122)表示同现日志消息;使用语义元数据(134)来注释块(122)的同现日志消息,其中语义元数据(134)定义同现日志消息的一个或多个消息类型,其中语义元数据(134)指示开始动作、结束动作、源、异常、原因和检查动作中的至少一个;基于语义元数据(134)通过在图中表示同现日志消息来生成块(122)的一致表示(142,726,774);以及基于一致表示(142,726,774)与关联于工业工厂(710)的预定义事件的模板表示的比较,实现检测块(122)中的至少一个事件。

Description

分析工业工厂的日志文件的设备、计算平台和方法
技术领域
本发明涉及分析工业工厂的日志文件。尤其是,本发明涉及分析日志文件的自动和/或半自动方法。
背景技术
在诸如工业工厂的工业环境中,有用信息可被记录在日志文件中。例如,在工业工厂的运行期间,或在自动化和工程系统的使用期间,或在工程系统上运行的执行应用程序期间发生的事件,可以将事件写入日志文件。因此,日志文件可以提供工业工厂的审计跟踪,其可用于理解系统的活动并诊断问题。日志文件对于理解在工业工厂中实现的复杂过程的活动可能是必要的,尤其是在具有很少专家交互的过程的情况下。
日志文件中的信息量使得手动查看日志文件不可行。此外,所生成的日志消息解决了系统级事件,并且不会直接转移到诸如工业工厂之类的更高级系统中的问题。例如,可能不是连续的十行日志消息可以都与正在执行的一个更新相关。在工业工厂中,大量不同的子系统都记录它们自己的信息,从而增强了挑战。
为了能够有信心地解释这些各种系统的日志文件,领域专家需要接受广泛的培训。关于一个系统的知识不必转移到其它系统(例如,Windows日志以不同于WinCC日志的方式被解释)。类似地,建立具有关于如何解释各个日志消息的规则的知识库是耗时且昂贵的。
领域专家手动检查日志文件,试图发现异常和有关事件。在一些情况下,可以通过日志监视工具来帮助领域专家,该日志监视工具将手工规则表达式与日志条目进行匹配,或者使用规则表达式来将日志条目聚类成组。这样的规则表达式可以手动简短列出,造成公式化费力、耗时并且在不同类型的日志文件中不可扩展。其它现有方法包括在日志消息级别上检测模式的工具。然而,这些方法没有考虑日志条目之间的复杂模式和分层依赖性。此外,它们没有突出显示各个日志条目有多重要。
发明内容
因此,用于分析工业工厂的日志文件的系统、设备和方法可以受益于改进。本发明的目的是通过提供一种自动解释大量日志文件并识别工业工厂中的事件的设备、计算平台和方法来实现的。
在一个示例中,本发明的目的是通过一种分析工业工厂的一个或多个日志文件的方法来实现的,该方法包括确定日志文件的日志条目中的至少一个块,其中日志条目包括一个或多个日志消息,并且其中该块表示一系列同现日志消息;使用语义元数据来注释块的同现日志消息,其中语义元数据定义同现日志消息的一个或多个消息类型,其中语义元数据表示开始动作、结束动作、源、异常、原因和检查动作中的至少一个;通过基于语义元数据在图中表示同现日志消息来生成块的一致表示;以及基于一致表示与同工业工厂相关联的预定义事件的模板表示的比较,使得能够检测块中的至少一个事件。
本发明的另一示例是一种用于分析在工业工厂的运行期间生成的一个或多个日志文件的设备,该设备包括固件模块,该固件模块包括日志分析器模块,该日志分析器模块被配置为执行在此公开的至少一个或多个方法步骤。
一种用于分析在工业工厂的运行期间生成的一个或多个日志文件的计算平台,平台包括经由计算平台通信地联接到工业工厂的至少一个设备,至少一个设备包括处理器和存储器单元,其中存储器单元包括日志分析器模块,日志分析器模块被配置为执行本文公开的至少一个或多个方法步骤,并且其中计算平台被配置为边缘计算平台和云计算平台中的至少一个。
另一示例可以包括用可执行指令编码的非瞬态计算机可读介质(诸如存储设备上的软件组件),可执行指令在被执行时使得至少一个处理器执行所描述的方法。
该方法、设备和计算平台有利地从半结构化文本日志消息中挖掘序列模式,并将所识别的模式(即,块或块的一部分)分类为诸如错误、警告和信息等类别。所识别的模式表示发生在工业工厂中的更高级事件(诸如工厂范围的更新过程)。在日志文件分析的应用中可以看到本发明的技术效果,例如向人类审阅者/领域专家自动突出日志文件中的重要部分。其他技术效果包括自动生成事件及其严重性的知识库以及自动检测日志文件中的异常。例如,本发明通过分析日志条目能够有效且自动地检测工业工厂的服务器和客户机之间的异常通信模式。本发明还使得能够比较相同工业内的工业工厂的操作。例如,可以通过对两个工业工厂进行日志文件分析来实现通过与来自可比较工业工厂的设备进行比较来检测特定工业工厂的多个设备中的非典型行为。
在更详细地描述所建议的惯例之前,应当理解,在整个本专利文件中提供了某些词语和短语的各种定义,并且本领域普通技术人员将理解,这些定义在许多(如果不是大多数)情况下适用于这些定义的词语和短语的先前以及未来使用。虽然一些术语可包括多种实施例,但所附权利要求书可明确地将这些术语限制于特定实施例。还应当理解,在所建议的方法的上下文中解释的特征也可以通过适当地配置和适配系统而由所建议的系统包括,反之亦然。
如本文所用,“工业工厂”是指用于制造/生产/分类的设施,其可以是半或完全自动化的。工业工厂可以是自动化环境的一部分。例如,制造自动化环境、实验室自动化环境、建筑物自动化环境等。此外,根据本发明,工业工厂可以包括诸如控制设备、传感器、致动器的工业资产的组合,这些工业资产包括物理设备和可以用于配置和控制该物理设备的数字模型。例如,计算机数字控制(CNC)机器、工业生产设施中的自动化系统、电动机、发电机等。
考虑到工业工厂和应用,日志文件可以涉及:
·发电厂。发电厂可以具有多个涡轮机和其它设备。
·现代工厂。工厂可具有多个交互自动化工具。
·列车。列车可以具有多个半自主系统,例如用于门控制、气候控制和用于移动。
·医疗设备。该设备可以具有单独的控制器,用于运行不同的可移动部件,例如患者床或扫描工具,以及用于成像和数据收集的设备,例如MRT。
该方法包括确定日志文件的日志条目中的至少一个块,其中日志条目包括一个或多个日志消息,并且其中该块表示一系列同现日志消息。在一个实施例中,日志条目包括在工业工厂内的不同区域和级别发生的操作和维护事件的连续流的日志。日志是日志消息的形式,并且包括结构化和非结构化文本消息的组合。日志条目可以每秒或微秒生成,并且可以存储为日志文件。考虑到日志消息的容量和非结构化特性,照原样分析日志条目是有挑战性的。因此,确定日志条目中的块使得能够确定同现消息。这里使用的“同现消息”是指与单个事件或共同相关的事件相关的消息。
为了确定该块,该方法可以包括基于公共结构化表示来接收日志文件的日志条目,其中日志条目的公共结构化表示至少包括时间戳和日志消息,以及源标识符。例如,公共结构化表示是日志条目的表格结构化格式。在另一示例中,通用结构化表示是日志条目的JavaScript对象符号(JSON)格式。此外,该方法可以包括使用预定时间大小的滑动窗口创建一批或多批日志条目;基于对多批的模式频率分析来识别多个同现日志消息,其中多个同现日志消息包括至少一个块的同现日志消息;以及通过识别多个同现消息中的可分离同现日志消息来确定日志条目中的一个或多个块,其中可分离同现日志消息被确定为分离的块,并且其中一个或多个块包括至少一个块。
在一个实施例中,该方法可以包括将日志文件中的日志条目转换为公共结构化表示。当日志条目在公共结构化表示中时,启用日志条目中的模式的识别(即,块的确定)。然而,分析大量日志条目可能是耗时的并且在计算上具有挑战性。因此,滑动窗口用于基于诸如100ms的预定义时间长度来确定成批的日志条目。例如,通过定义在100ms的持续时间内接收的日志条目的批次来创建批次。每个批次然后可以使用模式频率分析来分析以确定多个同现日志消息。因此,该方法有利地将日志条目分解成对其执行模式频率分析的可分析批次。
在一个实施例中,该方法可以包括识别批次中的唯一日志消息和相关联的消息频率,其中消息频率是每个唯一日志消息被识别的次数;基于消息频率的降序来排列唯一日志消息;生成用于唯一日志消息的频率模式树,其中频率模式树(FPT)包括路径和一个或多个新分支中的至少一个,其中路径包括具有公共前缀的唯一日志消息,并且其中新分支包括不具有公共前缀的唯一日志消息;以及基于路径和FPR中的新分支来确定多个同现日志消息。本发明有利地使用FPT来识别同现日志消息。此外,FPT的分支用于识别可分离同现日志消息。因此,庞大且难以分析的日志条目被有效地分解成相关的日志消息块。
在一个实施例中,不仅可以为未被分析的日志文件确定块,而且可以为已被领域专家审查的日志文件确定块。因此,该方法可以包括确定标记/注释日志文件中的块;以及基于日志消息的注释来验证块。例如,可以基于预定事件和相关联的日志条目来确定块。在工业工厂中,固件更新失败的事件由相关联的日志条目来识别。预定事件和相关日志条目的数据库可用于确定日志条目中的块。因此,该方法可以包括基于工业工厂中的预定事件来确定日志条目中的块,其中预定事件的关联日志条目的同现日志消息被用于确定块。
除了确定块之外,FPT还可被用于确定哪个块是有效的并且可以涉及关键事件。有效块可用于生成预定事件的模板表示。在一个实施例中,该方法可以包括为工业工厂中的预定事件生成模板表示,其中生成模板表示包括当频率模式树中的路径的频率低于频率阈值时将至少一个同现日志消息识别为有效块;将至少一个预定义事件映射到有效块;以及将有效块的模板表示生成为知识图。频率阈值可以是可定制的并且由领域专家输入。可替代地,它可以是在一个示例中基于与该工业工厂相关联的工业标准确定的一个固定值。例如,当频率路径低于固定值5时,如果检测到少于5次的路径、即日志消息系列将被认为是有效块。该方法有利地识别非频繁模式并将它们识别为有意义的。在一个实施例中,定制频率阈值可以被应用于仅当块具有比阈值更高的频率时才认为块是有效的。手动确定日志消息的频率和识别模式将是极具挑战性且耗时的。此外,识别图案是否频繁将需要额外的工作。
该方法简化了该分析,但为领域专家提供了验证该分析的灵活性。在一个实施例中,该方法可以包括基于来自领域专家的批准或拒绝输入来实现选择FTP。FPT或FPT的一部分被呈现给领域专家。例如,可以呈现从最大到最小的FPT,即从FPT的根向下。如果FPT被接受,则可以是具有相同频率的子模式。这样,专家只需标记从日志文件生成的多个FPT的子集。通过实现从专家进行选择,可以识别日志条目中的嵌套模式或块。该方法还可以包括存储用于生成模板表示的被接受为有效块的多个FPT。
在使用多个FPT生成块之后,对块进行注释以进一步分析每个块中的日志消息。该方法包括使用语义元数据注释块的同现日志消息。语义元数据有利地定义或识别同现日志消息的消息类型。例如,语义元数据指示开始动作、结束动作、源、异常、原因和/或检查动作。通过标记/注释块中的同现日志消息,本发明使得同现日志消息中的非结构化文本能够被转换成具有标签的结构化信息,该标签可被进一步用于生成知识图形式的一致表示。在一个实施例中,该方法可以包括当注释的语义元数据是检查动作时,检查/实现检查至少一个同现日志消息。使用工业工厂的数字孪生或通过来自领域专家的输入来执行检查。这里使用的“数字孪生”是工业工厂的实时数字表示。在一个实施例中,数字孪生是基于物理学的模型(诸如管道和仪器图(P&ID)或有限元方法分析(FEMA))和基于数据的模型(诸如贝叶斯模型和聚类模型)的组合。数字孪生可被存储在图数据库中,该数据库在分析中提供系统的知识和物理学的可查询的、全面的表示。在一个实施例中,当对日志消息标记(即注释)检查动作时,使用从标记的日志消息生成的关键字来查询数字孪生。对查询的响应用于确定日志消息类型是源、异常还是原因。
可以通过识别日志消息是否涉及设备、应用、威胁、路径、文件来执行消息类型的分类。这样的日志消息可以被注释为源。类似地,当在日志消息中识别出诸如开始、已经开始、发起、完成、结束、停止的词语时,注释开始或结束动作。此外,当识别出如初始化状态、许可状态检查等包含新值的词语时,注释检查动作。此外,当诸如失败、丢失、删除、错误、意外失败、将计算机设置为FAULT等词语不可达时,注释原因。上述示例仅仅是说明性的,并且注释还可以取决于块内日志消息的上下文。
语义元数据可以通过监督学习、半监督学习或无监督学习来生成。该方法可以包括基于来自专家的输入,对日志文件执行的基于频率的数据分析和与工业工厂相关联的本体中的至少一个来生成语义元数据。如在此使用的,“本体”总体上是指作为工业工厂和自动化工程的基础的知识的正式概念化。本体提供了概念的定义和工程数据之间的关系。工程本体可以基于域的现有本体标准来构建。例如,用于机器人和自动化的IEEE18722015标准本体(IEEESA,2015),其建立了关于机器人和自动化的一系列本体。在另一示例中,工业本体4.0(0414)专用于捕捉工业4.0专用的领域概念。
可以使用自然语言处理和/或机器学习来执行块中共同出现的日志消息的注释。在一个实施例中,该方法可以包括从块中的同现日志消息中提取组块,其中组块包括具有不同含义的一个或多个短语;以及通过使用分类模型根据语义元数据对每个短语进行分类来注释短语。本发明提出了分块模型和语义标记模型。在一个实施例中,分块模型提取组块和短语,首先对块执行部分语音(POS)标记,然后计算组块。语义标记模型的输入是基于所计算组块的短语包。语义注释任务可以被制定为基于短语的多类分类问题。在一个实施例中,神经网络用于基于由领域专家提供的示例或从工业工厂的数字孪生来学习分类。
标注的同现日志消息被标记并可用于生成一致表示。该方法包括通过基于语义元数据在图中表示同现日志消息来生成块的一致表示。这里使用的“一致表示”是指可以直接用作知识图的输入的同现消息的表示。在一个实施例中,生成一致表示的方法可以包括基于语义元数据来定义图的图结构,其中图结构包括块标识符,每个短语的节点以及与语义元数据相关联的边;以及基于图结构生成用于块的一致表示。所提出的图结构使得能够分层地表示和存储块中的同现日志消息。这进一步使得用一致表示查询数据库变得容易。另外,分级结构使得专家能够查看和分析嵌入在较大块(例如,特定软件的具有用于自动化设备的多个重启序列的更新过程)中的小块(例如,启动和停止自动化中的特定服务)。
注释块的一致表示使得能够与模板表示进行比较。因此,该方法包括基于一致表示与关联于工业工厂的预定事件的模板表示的比较,使得能够检测块中的至少一个事件。如本文所用,“至少一个事件”可包括高危急事件、中危急事件或低危急事件或甚至非事件。非事件涉及一致表示与工业设备的正常操作条件相关联的情况。此外,该方法可以包括基于与模板表示的可比较模板表示相关联的优先级来预测所检测事件的事件优先级。考虑到一致表示和模板表示的图结构,该比较是有效的。此外,语义元数据用于筛选可比较模板表示。
在一个实施例中,通过图卷积神经网络来学习注释和语义元数据,该图卷积神经网络使用由领域专家标记为训练示例的现有的基于图的模板表示。在由序列图的结构和日志条目内容组成的一致表示中表示基于图的结构。此外,推断模型可用于预测一致表示的临界性。该方法可以包括基于块中的语义元数据与关联于模板表示的语义元数据之间的语义匹配,从模板表示中确定可比较模板表示。这里,语义标记特别有助于在语义上紧密匹配但具有表示相同整体事件的不同词语的序列图的情况。
在一个实施例中,模板表示可以涉及需要被检测的异常条件。一致表示与模板表示的比较使得能够识别工业工厂中的异常状况。该方法可以包括至少基于相关联的语义元数据来检测工业工厂的日志文件中的异常日志消息;以及基于异常块的模板表示来预测工业事件和相关联的事件优先级。本发明有利地使用工业事件和异常块的现有知识来检测新日志条目中的异常日志消息。在用“检查动作”语义元数据注释异常日志消息的情况下,该方法可以包括当相关联的语义元数据是检查动作时检查异常日志消息,其中至少部分地通过与工业工厂相关联的专家的手动验证来执行检查。因此,本发明有利地平衡了对专家输入的需要和数字孪生的使用。
本发明有利地使用技术的组合来分析日志文件,以便有效地检测工业工厂中的异常日志消息和工业事件。在一个实施例中,用于日志条目分类和子图创建以表示日志消息的序列模式并存储附加语义信息的图卷积神经网络的使用使得能够生成日志条目的语义可解释表示。此外,图结构被配置为将分析扩展至不同的日志文件类型。此外,使用知识图分析技术(例如,链接预测、图相似性)来创建块的关键程度标签以预测事件优先级。
前面已经相当宽泛地概述了本发明的技术特征,使得本领域技术人员可以更好地理解下面的详细描述。下文将描述形成权利要求的主题的本发明的附加特征和优点。本领域技术人员将理解,他们可以容易地使用所公开的概念和具体实施例作为修改或设计用于实现本发明的相同目的的其他结构的基础。本领域技术人员还将认识到,这样的等效构造不会脱离其最广泛形式的公开内容的范围。
附图说明
下面,使用附图中所示的实施例来描述本发明。
图1示出了根据本发明实施例的分析工业工厂的一个或多个日志文件的方法;
图2示出了确定日志文件的日志条目中的块的方法;
图3示出了应用图2中的方法来记录来自工业工厂的消息;
图4示出了根据本发明实施例的分析块中的同现日志消息的方法;
图5示出了根据本发明实施例的用于分析日志消息的图形用户界面(GUI);
图6示出了根据本发明实施例的用于使得能够对块中的同现日志消息进行分析的GUI;以及
图7示出了根据本发明实施例的用于分析工业工厂的一个或多个日志文件的设备和计算平台。
具体实施方式
以下,对用于实施本发明的实施方式进行详细说明。参考附图描述各种实施例,其中相同的附图标记始终用于表示相同的元件。在以下描述中,出于解释的目的,阐述了许多具体细节以便提供对一个或多个实施例的透彻理解。显然,可以在没有这些具体细节的情况下实践这些实施例。
图1示出了根据本发明实施例的分析工业工厂的一个或多个日志文件的方法100。通过执行作为计算机可编程指令存储在计算设备/计算平台上的模块125-155来执行方法100的步骤。
在步骤110,接收日志文件。在一个示例中,以JavaScript对象符号(JSON)格式接收日志文件。在另一示例中,在步骤110,以不同格式接收日志文件,并将其转换成诸如表格格式的公共结构化表示。
以下步骤示出了当执行模块125-155时的方法100的步骤。
在步骤120,块建议模块125确定日志文件的日志条目中的一个或多个块(诸如块122)。日志条目包括一个或多个日志消息,并且块122表示同现日志消息(即,块122的行120-123)。在一个实施例中,块建议模块125使用频率模式树(FPT)来确定块。在图2中详细描述了确定块的方法。
在步骤130,语义标签建议模块135使用语义元数据134注释块122的同现日志消息。语义元数据134的作用类似于为同现日志消息定义一个或多个消息类型的标签。语义元数据134包括以下标记:开始动作、结束动作、源、异常、原因和检查动作。可以使用颜色编码方案可视地指示每个标签,以便于日志条目的可视分析。被注释的块132指示阴影线方案以说明不同的语义元数据134。
当未生成定制语义元数据时,使用为工业日志文件中的日志消息分析定义的语义元数据134的基本列表。例如,注释源以指示设备、应用、威胁、路径、文件。当说明了词语“正在开始”、“已开始”、“已启动”、“已完成”、“已完成”和“关闭”时,注释开始或结束动作。当检测到诸如“初始化状态”、“许可状态检查”、“正在使用中”、“包含新值”等术语时,注明检查/检查动作。当在日志消息中检测到“失败”、“缺失”、“删除”、“错误”、“意外故障”、“将计算机设置为故障”、“不可达”时,注明问题和可能原因。
在步骤130,语义标签建议模块135自动地将语义元数据134分配给属于块122的文本段落。语义元数据134用作用于解释属于块122的同现日志消息的附加上下文信息。为了自动标记块122(和其它块),训练机器学习模型以识别与工业工厂相关的语义元数据134。因此,步骤130可以还包括训练机器学习模型以确定与工业工厂相关的语义元数据134。
在一个实施例中,从工业工厂的本体或者基于来自专家的输入来提取领域知识。例如,通过提供专门开发的用户界面,从专家那里收集领域知识,该用户界面接收训练示例的输入。在训练的第一阶段,专家可以突出显示词语或词语组,并从预定义的语义元数据列表中为它们分配标签。为每个工业/工业应用创建预定义语义元数据的定制列表。这可以在领域专家(在基于频率的数据分析的基础上),或应用领域中已经可用的标准/词汇表的帮助下来完成。
在另一实施例中,通过从同现日志消息中的非结构化文本中提取具有不同含义的短语“组块”,在块122上注释语义元数据134。在步骤130,执行块122上的部分语音(POS)标记,并计算组块。此外,在步骤130,基于短语/组块将语义标记任务制定为多类别分类问题。由经训练的机器学习模型执行分类。
在步骤140,序列图创建模块145通过基于语义元数据134在图中表示同现日志消息来生成块122的一致表示142。图创建模块145为日志条目的每个块创建一致表示142。一致表示的结构由在步骤130中分配的语义元数据给出。
为了构造块122的一致表示,可以在步骤140执行以下子步骤。生成唯一标识符,并且丢弃没有分配给它们的语义标签的所有短语/组块。此外,对于具有语义元数据的每个短语(p),创建具有名称(p)的节点和具有名称(s)的边,如在一致表示142中所示。利用一致表示142,块122中的非结构化信息是以结构化的方式,而不是将分析限于预定义的数据模型。此外,如果出现新类型的日志条目或者如果需要对更复杂的日志文件进行建模,则容易扩展基于图的表示。
在步骤150,比较和标记模块155使得能够基于一致表示和与工业工厂相关联的预定事件的模板表示的比较来检测块中的至少一个事件。在一个实施例中,比较和标记模块155是推断模块,其被配置为基于块122中的语义元数据134和与模板表示相关联的语义元数据之间的语义匹配,从模板表示中确定可比较模板表示152,并在块122中预测事件的关键程度154。此外,在步骤150,基于与可比较模板表示152相关联的优先级来预测所检测事件的事件优先级。
图2示出了确定来自工业工厂的日志文件的日志条目110中的块的方法。在图1的步骤110,由块建议模块125接收日志条目,以确定日志条目中的块,从而能够分析日志条目中的日志消息。块建议模块125被配置为执行下文公开的步骤。
在步骤210,接收滑动窗口的预定时间大小。在一个实施例中,可以在步骤210确定预定时间大小。滑动窗口的时间大小的确定基于由与工业工厂相关联的领域专家输入的采样率。例如,具有重叠5的时间大小20用于采样日志条目。此外,在步骤210,使用滑动窗口从日志条目创建多个批。
在步骤220,对多个批执行频率模式分析/挖掘以识别日志条目中的多个同现日志消息。因此,在步骤220,识别多批中的唯一日志消息并确定相关联的消息频率。消息频率是每个唯一日志消息被识别的次数。
在步骤230,基于消息频率生成频率模式树。在一个实施例中,通过基于消息频率的降序来排列唯一日志消息来生成频率模式树。此外,频率模式树包括路径和/或一个或多个新分支。该路径包括具有公共前缀的唯一日志消息,并且其中新分支包括不具有公共前缀的唯一日志消息。如图2所示,有两个分支“F”和“c”。示例路径为消息“FEA”,其消息频率为3。另一个示例是消息频率为1的“CDZ”。
在一个实施例中,在构建频率模式树之后,所识别的模式(例如FEA,CDZ)被呈现给领域专家,用于标记哪些模式是有效的/有意义的以及哪些模式是无效的。在一个实施例中,如图6所示的特别开发的用户界面使得专家能够查看所识别模式的示例。换句话说,专家得到与所识别模式之一相对应的消息块,该消息块具有接受或拒绝该块的选项。模式从最大到最小(从FP树的根向下)呈现给领域专家。如果模式被接受,则其子模式具有相同的频率,它们被丢弃。这样,专家只需标记所有候选模式的子集。
该阶段的专家参与是可选的。在步骤240,所有识别的模式可以被认为是有效的,或者可以应用定制频率阈值来考虑具有比频率阈值更高频率的有效的模式。在步骤250,从频率模式树中提取满足频率阈值或由专家标记的模式,并将其存储为有效模式。
这里使用的“模式”具有与根据本发明的块相同的含义。参考频率模式树来使用术语“模式”。这使得本领域技术人员能够理解如何使用频率模式树来确定块。
在操作中,将图2中公开的方法应用于来自工业工厂的日志文件。日志消息包括事件标识符和事件频率。
图3示出了应用图2中的方法来记录来自工业工厂的消息。块建议模块125被配置为输出事件标识符310和事件频率320的组合。因此,可以对更频繁和更不频繁的块进行分析以确定有效块。有效块的确定使得能够生成模板表示,其进一步使得能够检测新识别的块中的事件。
在一个实施例中,在构建频率模式树之后,块被呈现给领域专家,用于标记哪些块是同现日志消息的有效段,哪些块是有效的/有意义的以及哪些块是无效的。图4示出了根据本发明实施例的分析块中的同现日志消息的方法。
如图4所示,在确定日志条目中的块时可以涉及三个实体410,420和430。领域专家410与块建议模块420和语义分段模块430交互。本领域的技术人员将理解,实体410,420和430可以纯粹地实现为具有用作领域专家的工业工厂的数字孪生的计算机程序指令。在本示例中,域专家的输入是手动接收的。
在步骤450,在由领域专家410访问的计算设备上启动用于分析日志消息的图用户界面(GUI)。GUI的启动会触发块建议模块420。在步骤451,块建议模块420向领域专家410建议具有同现消息的一个或多个块。在步骤452,领域专家查看块并在步骤453检查是否修改。如果需要修改,则在步骤454修改块。关于修改的反馈被发送到块建议模块455。在步骤456,块建议模块420保存或学习反馈。在步骤457,分别在步骤458和457,接受块并将其发送到语义分段模块430,或者拒绝块并将其发送到块建议模块420。包括块的接受或拒绝的反馈用于确认修改或请求新的块建议。通过确认和保存反馈,如果不需要修改,则具有相同频率的块被自动接受。或者基于在步骤454执行的修改而自动得到修改。因此,领域专家410只需标记所生成的所有块的子集。
在步骤460,领域专家410查看在步骤459由语义分段模块430建议的语义分段。语义分段是指基于语义元数据对块进行注释。在步骤461,领域专家410确定是否要修改注释,如果是,则在步骤462修改注释。在步骤463保存修改。此外,在步骤465,关于修改的语义分段的反馈被发送到块建议模块420和语义分段模块430。通过反馈,基于由领域专家410执行的语义分段的修改来训练块建议模块420和语义分段模块430。此外,在步骤466,接受修改的注释,并且可以由块建议模块420建议新的块。
图5示出了根据本发明实施例的用于分析日志消息的图形用户界面(GUI)500。GUI500可用于接收来自领域专家419的输入。
GUI 500包括两个主要部分510和520,即建议块部分510和手动块部分520。如图5所示,已经选择了建议块部分510。建议块部分510示出了与时间戳512、事件标识符514、事件名称516、源518和消息内容515一起接收的日志消息。在一个实施例中,日志消息519可以被注释为检查动作。因此,如果日志消息519被认为不低于所显示的块,则领域专家410可以选择日志消息519。此外,块标识字段530用于根据严重程度的级别给块一个标签:绿色、黄色和红色。此外,可能的原因和可能的解决方案可以由领域专家410输入。此后,可以通过点击字段530中的“下一块”来请求你可以获得对块的新建议。
图6示出了根据本发明实施例的用于分析日志消息的GUI 500。可以由领域专家410选择手动块部分520来标记手动定义的块。领域专家410在字段540中输入工业工厂和设备细节。GUI 500被配置成说明字段550中的日志消息的频率分布,以使领域专家能够定义和标记这些块。使用手动块部分520,向领域专家410提供允许通过选择字段550中的时间段来探索日志消息的工具。此外,可以类似于图5中的视图显示日志消息列表。可以基于事件标识符或事件名称来过滤日志消息。
本领域技术人员将理解,GUI 500仅是使领域专家/操作者/用户能够查看如何确定和注释块的示例GUI。因此,本发明有利地使得能够分析由不同软件模块执行的步骤,从而避免黑盒效应。
图7示出了根据本发明实施例的用于分析工业工厂710的一个或多个日志文件的装置720,760和计算平台750。工业工厂710包括多个工业资产(例如自动化设备和系统)712-718。
工业工厂710还可以包括分析从工业工厂710的操作生成的日志文件的装置720。装置720包括用于监视工业工厂710或工业工厂710的一部分的操作的边缘计算设备730或SCADA系统。设备720还可以包括人机界面(HMI),其用于实现与工业工厂710的操作者的交互。分析日志文件的设备还可以是工业设备710的网络外部的设备760,其通信地联接到工业设备710和云计算平台750。在一个实施例中,云计算平台750托管日志分析器模块740,该日志分析器模块在执行时分析日志文件。
装置720包括边缘计算设备730和HMI面板722。边缘计算设备730包括处理器732、通信接口734和固件模块736。固件模块736是具有用于执行本发明的步骤的专用存储器的专用计算单元。处理器732和通信接口734用于使边缘计算设备730能够执行工业工厂710中的其他功能,诸如将工业工厂710连接到云计算平台750的网关操作。
固件模块736包括日志分析器模块740。日志分析器模块740还包括块建议模块742、语义标签建议模块744、图创建模块746以及比较和标记模块748。模块742,744,746和748的操作分别与模块125,135,145和155相当。
HMI 722被配置为显示GUI 724和在本发明的运行期间确定的块的一致表示726。GUI 724的操作与图5和图6中的GUI 500相当。一致表示726可以交互地显示,以实现来自操作员或领域专家使用HMI 722的输入。
在另一个实施例中,设备760包括处理单元762、通信接口764、存储器766和显示单元770。设备760经由云计算平台750通信地联接到工业工厂710。设备760可以是能够与云计算平台750通信的手持计算设备或AR/VR设备。存储器766包括日志分析器模块740,并且由处理器762执行以执行本发明的步骤。
在又一实施例中,设备760上的日志分析器模块740充当在云计算平台750上托管和执行的服务器应用740的客户端应用。此外,云计算平台750可以包括模板数据库752,该模板数据库具有可以在工业工厂710中发生的事件的模板表示。模板数据库752可以基于历史日志文件或基于类似工业工厂的操作来生成。
模板表示可以涉及需要在工厂710中检测的异常状况。一致表示726,774与模板数据库752中的模板表示的比较使得能够识别工业工厂710中的异常状况。在一个实施例中,模板数据库752包括异常状况、优先级/关键程度和模板表示的映射。因此,通过比较一致表示726,774,可以确定一致表示726,774的优先级/关键程度。
本发明可以采用计算机程序产品的形式,该计算机程序产品包括可从计算机可用或计算机程序产品/计算机可读介质访问的程序模块,该计算机可用或计算机程序产品/计算机可读介质存储由一个或多个计算机、处理器或指令执行系统使用或与其结合使用的程序代码。出于本描述的目的,计算机可用或计算机可读介质可以是能够包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备使用或与其结合使用的任何装置。该介质可以是电子的、磁的、光的、电磁的、红外的、或半导体系统(或装置或设备)、或本身的传播介质,因为信号载体不包括在物理计算机可读介质的定义中,该物理计算机可读介质包括半导体或固态存储器、磁带、可移动计算机磁盘、随机存取存储器(PAM)、只读存储器(ROM)、刚性磁盘和光盘,例如光盘只读存储器(CD-ROM)、光盘读/写和DVD。用于实现本技术的每个方面的处理器和程序代码可以是集中式的或分布式的(或如本领域技术人员已知的其组合)。
虽然已经参考某些实施例详细描述了本发明,但是应当理解,本发明不限于这些实施例。鉴于本发明,对于本领域技术人员而言,在不脱离如本文所述的本发明的各种实施例的范围的情况下,将存在许多修改和变化。因此,本发明的范围由所附权利要求而不是由前面的描述来指示。在权利要求书的等效的含义和范围内的所有改变、修改和变化被认为在其范围内。在方法权利要求中要求保护的所有有利实施例也可以应用于系统/装置/设备权利要求。

Claims (14)

1.一种分析工业工厂(710)的一个或多个日志文件的方法,所述方法包括:
确定所述日志文件的日志条目中的至少一个块(122),其中,所述日志条目包括一个或多个日志消息,并且其中,所述块(122)表示同现日志消息;
使用语义元数据(134)来注释所述块(122)的所述同现日志消息,其中,所述语义元数据(134)定义所述同现日志消息的一个或多个消息类型,其中,所述语义元数据(134)指示开始动作、结束动作、源、异常、原因和检查动作中的至少一个;
通过基于所述语义元数据(134)在图中表示所述同现日志消息来生成所述块(122)的一致表示(142,726,774);以及
基于所述一致表示(142,726,774)与关联于所述工业工厂(710)的预定义事件的模板表示的比较,实现检测所述块(122)中的至少一个事件;
其中,通过基于所述语义元数据(134)在图中表示所述同现日志消息来生成所述块(122)的一致表示(142,726,774)包括:
基于所述语义元数据(134)来定义所述图的图结构,其中,所述图结构包括块标识符、用于每个短语的节点以及与所述语义元数据(134)相关联的边;以及
基于所述图结构来生成所述块(122)的所述一致表示(142,726,774)。
2.根据权利要求1所述的方法,还包括:基于与所述模板表示的可比较模板表示(152)相关联的优先级来预测所检测事件的事件优先级(154)。
3.根据前述权利要求中任一项所述的方法,还包括:当被注释的语义元数据(134)是所述检查动作时,检查所述同现日志消息中的至少一个,其中,使用所述工业工厂(710)的数字孪生来执行所述检查,其中,所述数字孪生是所述工业工厂(710)的实时数字表示。
4.根据前述权利要求中任一项所述的方法,还包括:
至少基于相关联的语义元数据(134)来检测所述工业工厂(710)的所述日志文件中的异常日志消息;以及
基于异常块的模板表示来预测工业事件和相关联的事件优先级。
5.根据权利要求4所述的方法,还包括:当相关联的语义元数据(134)是所述检查动作时检查所述异常日志消息,其中,至少部分地通过与所述工业工厂(710)相关联的专家的手动验证来执行检查。
6.根据前述权利要求中任一项所述的方法,还包括:
基于公共结构化表示来接收所述日志文件的所述日志条目,其中,所述日志条目的所述公共结构化表示至少包括时间戳和所述日志消息以及源标识符;
使用预定时间大小的滑动窗口来创建一批或多批日志条目;
基于对所述多批的模式频率分析来识别多个同现日志消息,其中,所述多个同现日志消息包括所述至少一个块(122)的所述同现日志消息;以及
通过识别所述多个同现消息中的可分离同现日志消息来确定所述日志条目中的一个或多个块,其中,所述可分离同现日志消息被确定为分离的块,并且其中,所述一个或多个块包括所述至少一个块(122)。
7.根据权利要求6所述的方法,其中,基于对所述多批的模式频率分析来识别多个同现日志消息包括:
识别所述多批中的唯一日志消息以及相关联的消息频率,其中,所述消息频率是每个唯一日志消息被识别的次数;
基于所述消息频率的降序来排列所述唯一日志消息;
生成用于所述唯一日志消息的频率模式树(230),其中,所述频率模式树包括路径和一个或多个新分支中的至少一个,其中,所述路径包括具有公共前缀的唯一日志消息,并且其中,所述新分支包括不具有公共前缀的唯一日志消息;以及
基于所述路径和所述频率模式树中的所述新分支来确定所述多个同现日志消息。
8.根据权利要求1和权利要求7中任一项所述的方法,还包括为所述工业工厂(710)中的所述预定义事件生成所述模板表示,其中,生成所述模板表示包括:
当频率模式树中的所述路径的频率低于频率阈值时,将至少一个同现日志消息识别为有效块;
将至少一个预定义事件映射到所述有效块;以及
生成所述有效块的所述模板表示作为知识图。
9.根据前述权利要求中任一项所述的方法,还包括:基于来自所述专家的输入、对所述日志文件执行的基于频率的数据分析和与所述工业工厂(710)相关联的本体中的至少一个来生成所述语义元数据(134)。
10.根据权利要求1和权利要求9中任一项所述的方法,其中,使用语义元数据(134)来注释所述块(122)的所述同现日志消息包括:
从所述块中的所述同现日志消息中提取组块,其中,所述组块包括具有不同含义的一个或多个短语;以及
通过使用分类模型根据所述语义元数据(134)对每个短语进行分类来注释所述短语。
11.根据前述权利要求中任一项并且尤其是权利要求2所述的方法,其中,基于与所述模板表示的可比较模板表示相关联的优先级来预测所检测事件的事件优先级包括:基于所述块(122)中的所述语义元数据与关联于所述模板表示的语义元数据之间的语义匹配,从所述模板表示中确定所述可比较模板表示。
12.一种用于分析工业工厂(710)的一个或多个日志文件的设备,所述设备包括:固件模块,所述固件模块包括日志分析器模块(740),所述日志分析器模块被配置为执行根据权利要求1-11的至少一个或多个方法步骤。
13.一种用于分析在工业工厂(710)的运行期间生成的一个或多个日志文件的计算平台,所述平台包括:经由所述计算平台通信地联接到所述工业工厂(710)的至少一个设备,所述至少一个设备包括处理器和存储器单元,其中,所述存储器单元包括日志分析器模块,所述日志分析器模块被配置为执行根据权利要求1-11的至少一个或多个方法步骤,并且其中,所述计算平台被配置为边缘计算平台和云计算平台(750)中的至少一个。
14.一种计算机可读介质,存储有机器可读指令,所述指令在由处理器(762)执行时使得所述处理器执行根据权利要求1-11中任一项所述的方法的步骤。
CN202180062696.9A 2020-09-15 2021-09-02 分析工业工厂的日志文件的设备、计算平台和方法 Pending CN116635843A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20196263.6A EP3968248A1 (en) 2020-09-15 2020-09-15 Device, computing platform and method of analyzing log files of an industrial plant
EP20196263.6 2020-09-15
PCT/EP2021/074228 WO2022058177A1 (en) 2020-09-15 2021-09-02 Device, computing platform and method of analyzing log files of an industrial plant

Publications (1)

Publication Number Publication Date
CN116635843A true CN116635843A (zh) 2023-08-22

Family

ID=72521426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180062696.9A Pending CN116635843A (zh) 2020-09-15 2021-09-02 分析工业工厂的日志文件的设备、计算平台和方法

Country Status (4)

Country Link
US (1) US20230376795A1 (zh)
EP (2) EP3968248A1 (zh)
CN (1) CN116635843A (zh)
WO (1) WO2022058177A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116860871B (zh) * 2023-06-12 2024-04-05 武汉江汉城市科技发展有限公司 统一处理源数据的元数据标准化方法、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10205735B2 (en) * 2017-01-30 2019-02-12 Splunk Inc. Graph-based network security threat detection across time and entities
US20190138970A1 (en) * 2017-11-07 2019-05-09 General Electric Company Contextual digital twin

Also Published As

Publication number Publication date
EP4168954A1 (en) 2023-04-26
EP3968248A1 (en) 2022-03-16
US20230376795A1 (en) 2023-11-23
WO2022058177A1 (en) 2022-03-24

Similar Documents

Publication Publication Date Title
US11790256B2 (en) Analyzing test result failures using artificial intelligence models
US20170316061A1 (en) Control apparatus of an automation system
US20120023054A1 (en) Device and Method for Creating a Process Model
US20170109636A1 (en) Crowd-Based Model for Identifying Executions of a Business Process
Roth et al. Fault detection and isolation in manufacturing systems with an identified discrete event model
US11443168B2 (en) Log analysis system employing long short-term memory recurrent neural net works
KR102421904B1 (ko) 재난사고 원인분석의 고도화 방법
CN115640159A (zh) 一种微服务故障诊断方法及系统
Maier Identification of timed behavior models for diagnosis in production systems.
CN115809302A (zh) 元数据处理方法、装置、设备及存储介质
Marocco et al. Operational text-mining methods for enhancing building maintenance management
Serradilla et al. Methodology for data-driven predictive maintenance models design, development and implementation on manufacturing guided by domain knowledge
CN116361147A (zh) 测试用例根因定位方法及其装置、设备、介质、产品
KR102411291B1 (ko) 스마트공장 데이터 품질평가 방법
US20230376795A1 (en) Device, computing platform and method of analyzing log files of an industrial plant
Schemmer et al. Towards meaningful anomaly detection: The effect of counterfactual explanations on the investigation of anomalies in multivariate time series
Tundis et al. Model‐Based Dependability Analysis of Physical Systems with Modelica
Hadj-Mabrouk Contribution of artificial intelligence and machine learning to the assessment of the safety of critical software used in railway transport
CN116089289A (zh) 一种基于多源异构数据的系统检测方法及装置
CN115062144A (zh) 一种基于知识库和集成学习的日志异常检测方法与系统
Schmidt Toward Predictive Maintenance in a Cloud Manufacturing Environment: A population-wide approach
Schamp et al. State-based verification of industrial control programs with the use of a digital model
Wei et al. A Data-Driven Human–Machine Collaborative Product Design System Toward Intelligent Manufacturing
Mahfoodh et al. Identifying duplicate bug records using word2vec prediction with software risk analysis
Turkoglu et al. Application of data mining in failure estimation of cold forging machines: An industrial research

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination