CN114245895A - 为至少两个日志文件生成一致表示的方法 - Google Patents

为至少两个日志文件生成一致表示的方法 Download PDF

Info

Publication number
CN114245895A
CN114245895A CN202080059319.5A CN202080059319A CN114245895A CN 114245895 A CN114245895 A CN 114245895A CN 202080059319 A CN202080059319 A CN 202080059319A CN 114245895 A CN114245895 A CN 114245895A
Authority
CN
China
Prior art keywords
log
log files
files
generating
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080059319.5A
Other languages
English (en)
Inventor
G·O·布里奇斯
D·弗拉德金
R·哈桑
V·拉维克
M·洛斯基尔
A·朔尔茨
A·斯托尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of CN114245895A publication Critical patent/CN114245895A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/178Techniques for file synchronisation in file systems
    • G06F16/1794Details of file format conversion

Abstract

本发明涉及一种用于接收至少两个日志文件的计算机实现的方法(S1);其中,所述至少两个日志文件中的每个日志文件包括具有至少一个时间戳和至少一个消息的至少一个日志条目;其中所述至少两个日志文件在至少一个区别准则方面彼此不同;提取所述至少两个日志文件中的每个日志文件的至少一个附加信息(S2);以及将所述至少两个日志文件中的每个日志文件与提取的附加信息组合成至少两个经处理的日志文件(S3);其中所述至少两个经处理的日志文件符合一致表示。此外,本发明涉及相应的计算机程序产品和生成单元。

Description

为至少两个日志文件生成一致表示的方法
技术领域
本发明涉及一种用于为至少两个日志文件生成一致表示(coherentrepresentation)的计算机实现的方法。此外,本发明涉及对应的计算机程序产品和生成单元。
背景技术
数据或数据卷的量至今仍在增加。数据可以包括人工和机器生成的数据。该庞大的数据或大量数据以术语“大数据”或“大规模数据”为人所知。特别是,考虑到数字化转型和工业4.0,数字数据将在未来几年大幅增长。
因此,自动化大规模数据分析或数据处理的重要性将会增加,因为人工分析对专家来说变得不可行。这种分析或处理范式包含用来处理大数据的一系列不同方法和系统。大数据挑战特别地包括捕获数据、数据存储、数据分析、搜索、共享、传递、可视化、查询、更新、信息隐私和数据源。
考虑到复杂的工业工厂,工业工厂通常包括具有多种单独功能的不同部分、模块或单元。示例性单元包括传感器和致动器。所述单元和功能必须以交互式方式进行控制和调节。它们通常由自动化系统监控、控制和调节,所述自动化系统例如西门子公司的Simatic S7系统。所述单元可以直接相互交换数据,或者经由总线系统相互通信以及与主控制单元通信,如果工厂有这样的单元的话。所述单元经由并行或更常见的串行接口连接到总线系统。
在这样的工业工厂的操作期间生成大量的日志文件。每个日志文件包括一个或多个日志条目,并且取决于生成它的计算单元、程序或进程而具有不同的结构或格式。日志挖掘任务与可以在异构计算机系统(诸如前面提到的工业工厂)中找到的各种各样的日志文件结构、格式和类型做斗争。示例性任务包括标识日志条目中的异常、比较来自一个工业工厂的日志文件随时间的变化、提取日志文件和/或提取来自不同工业工厂的日志文件的相关信息。
根据现有技术,用户或专家必须人工分析大量的日志文件,并从日志文件中提取相关信息。然而,这样的人工方法依赖于专家知识,并且需要大量的人工工作。因此,它们是容易出错、耗时且昂贵的。
根据现有技术,除了人工方法之外,信息提取可以利用正则表达式自动完成。然而,模式必须由专家基于专家知识来定义和测试。缺点是定义、测试和模式匹配容易出错且耗时。
因此,本发明的目的是提供一种用于以有效和可靠的方式为至少两个日志文件生成一致表示的计算机实现的方法。
发明内容
根据本发明的一个方面,该问题通过用于为至少两个日志文件生成一致表示的计算机实现的方法来解决,该方法包括以下步骤:
a.接收至少两个日志文件;其中
b.所述至少两个日志文件中的每个日志文件包括具有至少一个时间戳和至少一个消息的至少一个日志条目;其中
c.所述至少两个日志文件在至少一个区别准则方面彼此不同;
d.提取所述至少两个日志文件中的每个日志文件的至少一个附加信息;以及
e.将至少两个日志文件中的每个日志文件与提取的附加信息组合成至少两个经处理的日志文件;其中,
f.所述至少两个经处理的日志文件符合一致表示。
因此,本发明针对一种用于为至少两个日志文件生成一致表示的计算机实现的方法。换句话说,日志文件符合一致表示或根据一致表示,其可以直接用作进一步方法步骤或应用的输入,例如日志挖掘任务。日志挖掘任务针对前面提到的日志文件的分析。换句话说,一致表示可以用作日志挖掘的输入。
在第一步骤中,提供日志文件作为输入。在操作期间,计算单元或技术系统生成大量日志文件,进一步参见上文。因此,日志文件在大多数情况下是不同格式或类型的。换句话说,根据这该示例,区别准则是格式或类型。例如,日志条目结构在不同类型的日志文件——即由不同程序或计算单元产生或生成的日志文件——之间可以是不同的。
多个日志文件中的每个日志文件包括至少时间戳和消息。更进一步地,每个日志文件可以包括附加元素或信息,其包括内部结构,指示计算单元、技术系统、子系统或组件的消息代码和指示符,例如它是在哪里生成的。据此,在该示例中,所述附加元素或信息给出了关于日志文件的来源的指示。
在进一步的步骤中,从不同的日志文件中提取该附加信息,并将其合并到经处理的日志文件中。术语“提取”可以等同地称为解析。换句话说,日志文件利用附加信息进行扩展。合并或扩展不仅允许在日志文件的内容方面了解日志文件,还允许在日志文件的来源和其他重要数据方面了解日志文件。
经处理的日志文件符合一致表示。一致表示允许考虑来自不同来源和不同结构特性的不同类型的日志文件。
在本发明的一个方面,所述至少一个区别准则选自包括类型、格式和结构的组。因此,日志文件可以有一个或多个日志条目。因此,根据某些类型的日志文件,日志条目正好是一行。根据其他类型,日志条目包括多行。此外,日志条目之间或日志条目的日志消息的不同部分之间的分隔符可能因程序而异。时间戳在不同的日志文件中可以具有不同的格式。
时间戳的一部分,例如日期,可以被包括在日志文件名或标题行之一中,而剩余部分,例如时间,被记录在每个日志条目中。优点是解析或提取步骤可以灵活地应用于不同的日志文件,而不考虑任何差异。
在本发明的一个方面,附加信息是从包括以下内容的组中选择的信息:生成日志文件的计算单元、生成日志文件的程序、生成日志文件的计算单元的配置信息、日志条目模板以及日志条目和日志条目引用的计算单元之间的连接。因此,可以合并任何附加的辅助信息。
日志条目模板:
通常,日志条目是日志条目模板的实例。这意味着日志条目的消息部分由固定文本组成,并且部分由动态生成的值组成,因此由两部分组成。例如,日志条目模板可以表示为“无法打开文件%s”,而“无法打开文件”部分是固定部分,并且“%s”是可变部分。实际的实例在消息文本中具有特定的文件路径。
该附加或辅助信息的优点是日志文件的信息内容显著增加。
在本发明的另一方面,一致表示是用于日志挖掘或任何其他分析的输入。
在本发明的另一方面,该方法包括将一致表示加载到知识图中的另一步骤。
因此,一致表示形式的方法或结果的输出可以用于不同的任务。因此,知识图对于诊断和修复工业环境(例如工业工厂)中的问题是重要的。换句话说,该方法允许将不同日志文件集或集合从计算单元或系统转换成知识图。因此,可以以及时有效地处置问题,例如工业工厂的缺陷或故障。
本发明的另一方面是一种直接可加载到计算机内部存储器中的计算机程序产品,包括用于当所述计算机程序产品在计算机上运行时执行根据前述方法的步骤的软件代码部分。
本发明的另一方面是用于执行上述方法的生成单元。
该单元可以被实现为用于计算、特别是用于执行软件、应用或算法的任何设备或任何部件。例如,生成单元可以由中央处理单元(CPU)和/或可操作地连接到CPU的存储器组成,或者包括中央处理单元(CPU)和/或可操作地连接到CPU的存储器。该单元还可以包括CPU阵列、图形处理单元(GPU)阵列、至少一个专用集成电路(ASIC)、至少一个现场可编程门阵列或上述的任意组合。该单元可以包括至少一个模块,所述至少一个模块进而可以包括软件和/或硬件。这些单元的一些或者甚至全部模块可以由云计算平台实现。
附图说明
在下面的详细描述中,参考以下附图进一步描述了本发明目前优选的实施例:
图1图示了根据本发明的方法的流程图;
图2图示了根据本发明实施例的示例性知识图;
图3图示了根据本发明实施例的不同日志文件;
图4图示了根据本发明实施例的不同配置文件;
图5图示了根据本发明的方法的示例性用例。
具体实施方式
图1图示了根据本发明的方法的流程图,所述方法具有方法步骤S1至S3。下面将更详细地解释方法步骤S1至S3。
在第一步骤中,接收所述至少两个日志文件S1,其中所述至少两个日志文件中的每个日志文件包括具有至少一个时间戳12和至少一个消息14的至少一个日志条目10,其中所述至少两个日志文件在至少一个区别准则方面彼此不同。这些日志文件在图3中描绘。
在第二步骤中,提取所述至少两个日志文件中的每个日志文件的至少一个附加信息S2。
在第三步骤中,将所述至少两个日志文件中的每个日志文件与提取的附加信息组合成至少两个经处理的日志文件S3,其中所述至少两个经处理的日志文件符合一致表示。根据本发明的方法产生一致表示,其可以被直接加载用于知识图。该方法可以由生成单元执行。生成单元同样可以被称为通用解析器或通用解析单元。
附加或辅助信息
• 生成日志文件的计算单元
可以收集关于生成日志文件的计算单元的信息。
• 生成日志文件的程序
可以收集关于生成日志文件的程序的信息,特别是可以提取生成日志文件的程序的名称。
由不同的计算单元、程序或进程生成的日志文件可能会在不同的位置结束,即沿着不同的文件路径。文件路径可以包含关于哪些计算单元、程序或进程生成了哪些日志文件的附加信息。该算法利用以下示例性伪代码表示:
Figure 928875DEST_PATH_IMAGE001
Figure 659065DEST_PATH_IMAGE002
//指定不同时间戳格式的正则表达式集
Figure 438802DEST_PATH_IMAGE003
因此,可以提取日志文件的路径来标识生成相应日志文件的计算单元、程序或进程。不同的程序倾向于将它们的日志文件写入分离的位置,并且来自不同计算单元的数据可能会被分离地转储。因此,特定日志条目可以与相应的计算单元、程序或进程相关联。
•生成日志文件的计算单元的配置信息
可以收集设备配置信息,例如日志条目中的配置设置的值。进一步地,某些日志文件可以链接到生成它们的计算单元、程序或进程。
例如,程序的配置信息或文件可能会指定日志文件的写入位置,或者为某些行为设置标志。在图4中描绘这些配置文件。
•日志条目模板
可以收集日志条目消息所具有的底层结构的模板。
因此,来自大型分布式系统的日志文件可以反映系统结构:
可以存在不同类型或扮演不同角色的多个计算单元,例如服务器和客户端或嵌入式系统,但运行相同或相似的软件程序。因此,来自每个这样的计算单元的日志文件转储包含相同或相似类型的日志文件。此外,生成不同类型的日志条目的计算单元可以具有不同的功能。此外,日志条目消息可以例如通过提及名称或IP地址或不同的计算机来包括关于网络组织的信息。
示例性日志文件转储或快照可以表示如下:
PlantX/ComputerY/file_path_for_proframZ/logs(或者settings/configfiles)。
日志条目模板可以通过对消息文本进行聚类或分组以及对不变部分的标识来确定。因此,可变部分是模板参数,并且具有相同固定部分的消息是从相同模板生成的。
在标识了日志条目模板之后,也可以标识相同模板的多语言版本,因为它们是由相同的计算单元、程序或进程生成的,并且因此具有相同的编号或参数。这种语义验证可以人工执行,或者利用自动翻译器自动执行。
• 日志条目和日志条目引用的计算单元之间的连接
还可以收集日志条目和它们引用的计算单元或设备之间的互连。因此,日志条目消息可以用于标识交叉引用的计算机名称和IP地址。
知识图
如上面进一步解释的,可以将输出加载到知识图中。图2中示出了示例性知识图,包括以下实体和关系:
•工厂由多个设备组成
•一些设备具有计算机以便执行计算
•进程是在计算机上运行的程序的实例
•程序可以具有多个通用日志模板(GLT)
•每个GLT具有带有多个参数的消息模板
•日志模板是GLT的语言特定版本
•日志条目10是日志模板的实例
•日志条目10具有时间戳12 (TS)
•日志条目10具有消息文本14——填充有参数的模板
•日志条目被包含在日志文件(LF)中,并且由进程产生,并且因此与计算单元相链接
•计算单元或计算机由消息中的日志条目引用
•计算单元上的配置文件(CF)可以具有多个配置值
•(CV)影响整个计算单元或特定进程
•配置值可以由日志条目消息直接引用,或者可以具有间接相关性
•工厂可以具有在不同的时间点处生成的多个快照。
示例性应用
目前,大多数工业装备的操作和控制是由标准或专用控制软件管理的。人类可能经常参与监控,但是仅涉及问题情况。然而,当这样的情况出现时,标识原因和潜在的解决方案可能并非易事。了解这样的计算机控制系统的操作情况的主要方式是通过检查来自相关日志文件的信息。该任务主要由经验丰富的服务技术人员人工执行,从而使得其非常耗时,并且并不总是如需要的那样准确。
知识图为用户(例如专家和服务技术人员)提供了日志文件数据的组织视图。
图5示出了一个示例性用例。可以利用SIMATIC系统从不同的客户工厂收集日志文件。知识提取过程由图的底部描述。
在第一步骤中,对日志文件进行聚类。日志消息和时间戳由通用解析器提取。该消息可以用来提取模板。进一步地,可以提取消息的内容。所有信息都被插入到知识图中,以便根据图的右侧部分进行进一步分析,如通过统计和知识图分析的组合进行的异常检测、故障预测和根本原因理解。考虑到工业应用和环境,数据可以参考
•发电厂。发电厂可以具有多个涡轮机和其他装备
•现代工厂。工厂可以具有多个交互的自动化工具。
•火车。火车可以具有多个半自主系统,例如用于车门控制、气候控制和用于移动。
•医疗装备。该装备可以具有独立的控制器,用于操作不同的可移动部件,例如病床或扫描工具,以及用于成像和数据收集的设备,例如MRT。
参考符号
S1到S3方法步骤1到3
10日志条目
12日志条目的时间戳(TS)
14日志条目的消息。

Claims (7)

1. 用于为至少两个日志文件生成一致表示的计算机实现的方法,包括步骤:
a . 接收至少两个日志文件(S1);其中
b . 所述至少两个日志文件中的每个日志文件包括具有至少一个时间戳(12)和至少一个消息(14)的至少一个日志条目(10);其中
c . 所述至少两个日志文件在至少一个区别准则方面彼此不同;
d . 提取所述至少两个日志文件中的每个日志文件的至少一个附加信息(S2);以及
e . 将所述至少两个日志文件中的每个日志文件与提取的附加信息组合成至少两个经处理的日志文件(S3);其中,
f. 所述至少两个经处理的日志文件符合一致表示。
2.根据权利要求1所述的方法,其中所述至少一个区别准则选自包括如下各项的组:类型、格式和结构。
3.根据权利要求1或权利要求2所述的方法,其中所述附加信息是从包括如下各项的组中选择的信息:生成日志文件的计算单元、生成日志文件的程序、生成日志文件的计算单元的配置信息、日志条目模板以及日志条目(10)和日志条目(10)所引用的计算单元之间的连接。
4.根据前述权利要求中任一项所述的方法,其中所述一致表示是用于日志挖掘或任何其他进一步分析的输入。
5.根据前述权利要求中任一项所述的方法,其中所述方法包括将一致表示加载到知识图中的进一步步骤。
6.一种直接可加载到计算机内部存储器中的计算机程序产品,包括用于当所述计算机程序产品在计算机上运行时执行根据前述权利要求中任一项的步骤的软件代码部分。
7.生成单元,用于执行根据前述权利要求中任一项的步骤。
CN202080059319.5A 2019-08-22 2020-08-20 为至少两个日志文件生成一致表示的方法 Pending CN114245895A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/547782 2019-08-22
US16/547,782 US20210056071A1 (en) 2019-08-22 2019-08-22 Method for generating a coherent representation for at least two log files
PCT/EP2020/073289 WO2021032820A1 (en) 2019-08-22 2020-08-20 Method for generating a coherent representation for at least two log files

Publications (1)

Publication Number Publication Date
CN114245895A true CN114245895A (zh) 2022-03-25

Family

ID=72470318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080059319.5A Pending CN114245895A (zh) 2019-08-22 2020-08-20 为至少两个日志文件生成一致表示的方法

Country Status (4)

Country Link
US (2) US20210056071A1 (zh)
EP (1) EP3991054A1 (zh)
CN (1) CN114245895A (zh)
WO (1) WO2021032820A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4099225A1 (en) 2021-05-31 2022-12-07 Siemens Aktiengesellschaft Method for training a classifier and system for classifying blocks

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5890154A (en) * 1997-06-06 1999-03-30 International Business Machines Corp. Merging database log files through log transformations
US6792458B1 (en) * 1999-10-04 2004-09-14 Urchin Software Corporation System and method for monitoring and analyzing internet traffic
WO2007106902A2 (en) * 2006-03-15 2007-09-20 Daniel Chien Identifying unauthorized access to a network resource
US20120054675A1 (en) * 2010-08-26 2012-03-01 Unisys Corporation Graphical user interface system for a log analyzer
US9672355B2 (en) * 2011-09-16 2017-06-06 Veracode, Inc. Automated behavioral and static analysis using an instrumented sandbox and machine learning classification for mobile security
US9697100B2 (en) * 2014-03-10 2017-07-04 Accenture Global Services Limited Event correlation
EP3291120B1 (en) * 2016-09-06 2021-04-21 Accenture Global Solutions Limited Graph database analysis for network anomaly detection systems
US10528454B1 (en) * 2018-10-23 2020-01-07 Fmr Llc Intelligent automation of computer software testing log aggregation, analysis, and error remediation

Also Published As

Publication number Publication date
US20210056071A1 (en) 2021-02-25
WO2021032820A1 (en) 2021-02-25
EP3991054A1 (en) 2022-05-04
US20220292053A1 (en) 2022-09-15

Similar Documents

Publication Publication Date Title
JP7460237B2 (ja) 分散型工業パフォーマンス監視及び分析
US10795753B2 (en) Log-based computer failure diagnosis
CN116209963A (zh) 故障诊断及解决方案推荐方法、设备、系统和存储介质
US11113236B2 (en) Method for automatic processing of a number of protocol files of an automation system
US20170261403A1 (en) Abnormality detection procedure development apparatus and abnormality detection procedure development method
JP2018045403A (ja) 異常検知システム及び異常検知方法
DE102017220140A1 (de) Abrufvorrichtung, Abrufverfahren und Abrufprogramm
CN110750377A (zh) 一种故障定位方法及装置
DE102004015504A1 (de) Verfahren und Vorrichtung zur diagnostischen Wahl eines Wartungskonzepts für ein komplexes System
CN111563606A (zh) 一种设备预测性维护方法及装置
CN105577440A (zh) 一种网络故障时间定位方法和分析设备
DE112019005467T5 (de) System und verfahren zum erkennen und vorhersagen von mustern eines anomalen sensorverhaltens einer maschine
CN111078457A (zh) 一种基于大数据的存储故障分析方法与装置
CN112632330A (zh) Atm设备的巡检方法、装置、计算机设备和存储介质
CN114245895A (zh) 为至少两个日志文件生成一致表示的方法
US8042024B2 (en) Method, system, and computer program product for reconstructing a data stream
KR20220041600A (ko) 스마트공장 데이터 품질평가 방법
CN117501275A (zh) 用于分析由大量单独消息组成的数据的方法、计算机程序产品和计算机系统
US11822578B2 (en) Matching machine generated data entries to pattern clusters
US20220035359A1 (en) System and method for determining manufacturing plant topology and fault propagation information
CN115917464A (zh) 监控工业设备的方法及装置
CN114064387A (zh) 日志监控方法、系统、装置及计算机可读存储介质
CN117421009B (zh) 信号代码生成方法、装置、终端设备以及存储介质
US20230004591A1 (en) Method for generating triples from log entries
WO2022162957A1 (ja) 情報処理装置、制御システムおよびレポート出力方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination