CN113169898B - 用于网络部件的网络中的错误识别和错误原因分析的系统和方法 - Google Patents

用于网络部件的网络中的错误识别和错误原因分析的系统和方法 Download PDF

Info

Publication number
CN113169898B
CN113169898B CN201980080846.1A CN201980080846A CN113169898B CN 113169898 B CN113169898 B CN 113169898B CN 201980080846 A CN201980080846 A CN 201980080846A CN 113169898 B CN113169898 B CN 113169898B
Authority
CN
China
Prior art keywords
events
event
network
sequence
reduced
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201980080846.1A
Other languages
English (en)
Other versions
CN113169898A (zh
Inventor
G·韦尔克森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of CN113169898A publication Critical patent/CN113169898A/zh
Application granted granted Critical
Publication of CN113169898B publication Critical patent/CN113169898B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/064Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0604Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
    • H04L41/0627Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time by acting on the notification or alarm source
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种用于网络(200)中的错误识别和错误原因分析的系统(100),所述网络由多个具有软件模块(300)和通信接口(400)的网络部件(220,240,260,...N)和借助通信连接(500)与所述网络部件(220,240,260,...,N)连接的网络节点(520,540,560,...,M)组成。所述网络部件(220,240,260,...,N)和/或所述网络节点(520,540,560,...,M)被构成为生成作为历史数据的集合存储的数据,并且根据所述历史数据的集合形成事件序列,所述事件序列由一系列事件(a,b,c,d,e,f,g)组成。在此所述系统(100)被构成为从所述事件序列中又提取以报警事件(a)结束的那些事件序列,从具有报警事件(a)的这些事件序列中又提取用于错误分析的相关的事件,并且根据所述相关的事件构造缩减的事件序列,并且针对每个缩减的事件序列构造用于识别所述缩减的事件序列的自动机(700)。

Description

用于网络部件的网络中的错误识别和错误原因分析的系统和 方法
技术领域
本发明涉及用于网络部件的网络中的错误识别和错误原因分析的系统和方法。
背景技术
事件数据(Eventdaten)和/或传感器数据的数据处理例如用于识别工业或工厂设施中的临界状态或错误。设施的部件是联网的并且将其事件和传感器数据传输到相应的计算机,在所述计算机处进行处理。“Internet of Things(物联网)”(IoT)、“Web of System(系统网络)”(WoS)、“工业4.0”或“Cyber-Physical Systems(信息物理系统)”(CPS)是描述该话题的术语。
现代自动化设施、诸如汽车工业中或在任何任意其他生产设施中的生产单元的创建基于信息物理网络(Cyber-Physical Systems)的概念。信息物理网络表示机械电子部件、要不然化学元件与软件技术模块的组合并且特色是高的复杂程度,所述机械电子部件、要不然化学元件与软件技术模块经由数据基础设施、诸如互联网彼此通信。信息物理网络的构成由嵌入式网络部件通过有线或无线通信网络的联网组成。信息物理网络覆盖可能区域的宽频谱,在所述区域中可以使用所述信息物理网络。属于此的有医学技术设备和系统、交通控制和交通物流系统、汽车领域中的联网的安全以及驾驶辅助系统、制造中的工业过程控制和自动化设施、能量供应管理系统、用于电信的基础设施系统等。
这种类型的大网络(网络系统)产生大量关于各个部件或子网络的状态和错误(事件)的事件消息或传感器数据。所有这些消息必须被传输和处理。在本发明的范围内,在确定的网络或域之内的事件被称为事件。所述事件是已经发生的某事或被认为在确定的应用领域(域)之内发生的某事。
错误识别必须尽可能实时地进行,以便能够实现对此的快速反应。不过,错误消息经常产生多个后续错误,使得实际错误原因常常只能困难地被识别。后续错误也又可能引起其他后续错误,使得形成事件链的雪崩。在此,每天可能产生数兆兆字节的数据量,在高度复杂的系统中每小时也可能产生拍字节。
在集中组织的和结构化的数据处理解决方案中,非常多的信号或事件数据的数据通信必须通过相应大的传输容量能够实现,因为否则形成瓶颈,更确切地说一般在数据会聚处、即在提供中央事件和传感器数据处理的计算机处形成瓶颈。
此外,在集中式解决方案的情况下数据处理必须提供足够的存储和计算容量,以便能够处置和处理大的数据量,这在数据量变得非常大时同样导致瓶颈。即使传感器和事件数据的处理在云计算环境中进行,在数据传输时瓶颈也仍然存在。云计算(计算机云或数据云)表示经由互联网提供IT基础设施、诸如存储空间、计算能力或应用软件作为服务。因此,经由计算机网络提供IT基础设施,而并不在本地计算机上安装这些IT基础设施。这些服务的提供和使用在此借助技术接口和协议、诸如网络浏览器进行。
不过,接入云基础设施并不是针对非常高的传输带宽而设计的,使得在通信和工业网络中数据的预处理是有意义的。
以前的解决方案旨在减少数据的输送量和处理耗费。一种可能性在于传感器数据的处理的分散化,其中使计算要求分布到不同的部件上。与系统、如工业设施的数据网络连接并且具有足够空闲存储容量和合适的计算能力的网络节点、控制部件或其他硬件单元可以用作可能的部件。这些部件中的每个部件被分配规则或算法,所述规则或算法处理进入的数据对象(状态消息、警告、错误消息)。
另一解决方案是发布/订阅方案(Publish/Subscribe)。在此情况下涉及软件架构,其中信息、文本、消息等的发送方(被称为发布方(Publisher))并不对消息进行编程,使得所述消息可以直接被发送给特定的接收方(订阅方)(被称为Subscriber)。替代于此,消息被划分为多个类别,并且订阅方(Subscriber)只有当其已事先表明对消息已被分配给的相应类别的兴趣时才获得该消息。由此成功的是,不是经由通信网络输送所有数据,而是代替广播方法在多播方法的意义上将数据输送减少到最小程度。未被订阅的数据对象首先完全不被分发。
术语“多播”在电信中表示从一个点到一个组的消息传输并且因此是多点连接的形式。与术语“广播”的区别在于,在广播时具有相应合适的接收装备的每个人都能够看的内容被传播,而在多播时事先需要在发送方处注册。
另一解决方案在于使传感器数据处理分布到数据网络中的所谓的事件处理单元(EPU)上,由此分解数据对象的中央数据处理。使EPU分布到网络中的网络节点和控制部件上。功能(规则和算法)的分布以如下方式进行:使数据产生者与数据消费者(具有处理规则的EPU)之间的间距最小化。在此,该间距以适当的度量、诸如借助所谓的跳跃计数(Etappen(跳跃)计数器)或数据输送速度来测量。在计算机网络中从一个网络节点到下一个网络节点的路径被称为跳跃。在计算机网络中,二进制信息被划分为数据分组,所述数据分组从中间站被传递到中间站,直至所述数据分组已到达被访地址。跳跃计数是分组在从发送方到被访地址的路径上必须经过的步数。
EPU可以借助相应的规则或算法、例如根据时间、值或值偏差过滤数据流,形成平均值、标准偏差和/或中值,或从不同的信号类型中提取更高质量的、内容更丰富的信息,所谓的事件。每个网络节点因此可以不仅作为事件的消费者而且作为事件的产生者出现。
总之,这些方法共同导致,减少数据通信,使得仅网络的区段承受数据通信的负荷,具有订阅的消费者也处于所述区段处并且能够更快地进行数据的处理。这些方案也在“分布式复杂事件处理”的范围内被使用。复杂事件处理(CEP,德语:komplexeVerarbeitung von Ereignissen)是信息学的主题范围,所述主题范围研究彼此相关的事件(events)的识别、分析、分组和处理。CEP是在事件出现期间、即连续地并且立即地处理事件的方法、技术和工具的涵盖性术语。CEP从事件中导出所谓的复杂事件形式的更高的、有价值的知识,即仅可以被识别为多个事件的组合的状况。
CEP因此尤其涉及对如下事件的处置,所述事件通过多个事件的共同作用才出现。为了实时处理各种数据流并且提取和分析事件,必须由这种系统经受得起高数据负载。使用领域例如是网络监控、公共安全、防灾或能量管理。
在US 2017/118092 A1中描述用于电信网络的自适应通知和售票系统。该系统包括被分配给电信网络的计算机设备和多个网络设备。数据由多个过去的网络事件产生,所述网络事件分配给多个网络设备。模型根据所述数据生成并且被用于解释新的网络事件并且显示可能的报警事件。
US 2012/124353 A1描述用于处理事件流的方法,其中不同的处理单元根据事先规定的标准和方法步骤处理分配给事件流的事件数据。
不过,从诸如错误数据、后续错误数据、警告、状态消息等的事件数据的洪流中进行有因果关系的错误提取的问题继续未被解决。有因果关系的错误提取在本发明的范围内表示从对于系统而言相关的错误消息和数据的流中析取和识别有因果关系的和基本的错误。
发明内容
本发明所基于的任务现在在于,说明一种系统和一种方法,所述系统和所述方法的特色在于在网络部件的网络中改进地确定和分析可能的错误链中的有因果关系的错误。
该任务在系统方面通过专利权利要求1的特征并且在方法方面通过专利权利要求5的特征根据本发明来解决。其他权利要求涉及本发明的优选设计方案。
根据第一方面,本发明涉及用于网络中的错误识别和错误原因分析的系统,所述网络由多个配备有软件模块和通信接口的网络部件和借助通信连接与网络部件连接的网络节点组成,其中网络部件和/或网络节点被构成为生成作为历史数据的集合存储的数据,并且根据该历史数据的集合形成由一系列事件组成的事件序列。该系统被构成为从所述事件序列中又提取以报警事件结束的事件序列,并且从这些具有报警事件的事件序列中又提取相关的事件,并且由此构造由相关的事件组成的缩减的事件序列。此外,该系统被构成为针对每个缩减的事件序列构造用于识别该缩减的事件序列的自动机,并且将针对每个缩减的事件序列构造的自动机逐渐地联合为针对所有缩减的事件序列的共同的自动机。
由此提供一种系统,该系统的特色在于事件链(事件序列)中的有因果关系的错误的明显改进的监控和分析,并且在此能够实现与传统系统相比存储容量的减少,因为构成用于识别缩减的事件序列的自动机。
根据本发明的另一设计方案,该系统被构成为将共同的自动机优化成确定性自动机。
有利地,该系统被构成为分析确定性自动机的状态转移函数并且在网络中分发。
在本发明的另一设计方案中,该系统适合于将发布/订阅协议分发给一个或多个网络节点。
根据第二方面,本发明涉及用于网络中的错误识别和错误原因分析的方法,所述网络由多个配备有软件模块和通信接口的网络部件和借助通信连接与网络部件连接的网络节点组成。网络部件和/或网络节点生成作为历史数据的集合存储的数据,并且根据该历史数据的集合形成事件序列,所述事件序列由一系列事件组成,该方法包括:
- 从所述事件序列中提取以报警事件结束的那些事件序列,
- 从具有报警事件的事件序列中提取相关的事件,并且构造由相关的事件组成的缩减的事件序列,和
- 针对每个缩减的事件序列构造用于识别所述缩减的事件序列的自动机,
- 其中将所构造的自动机逐渐地联合为针对所有缩减的事件序列的共同的自动机。
按照根据本发明的方法的另一设计方案,将共同的自动机优化为确定性自动机。
按照根据本发明的方法的一个有利的改进方案,分析确定性自动机的状态转移函数并且在网络中分发。
在根据本发明的方法的另一设计方案中,将发布/订阅协议(Publish/Subscribe)分发给一个或多个网络节点。
根据第三方面,本发明涉及一种计算机程序产品,所述计算机程序产品包含一个和/或多个可执行的计算机代码,用于执行根据本发明的第二方面的方法的实施方式的方法。根据第四方面,本发明涉及一种非易失性计算机可读数据存储介质,所述数据存储介质包含可执行的程序代码,所述程序代码被设计用于当执行所述程序代码时执行根据本发明的第二方面的实施方式的方法。
附图说明
随后根据在附图中所示出的实施例更详细地解释本发明。
在此:
图1示出用于解释根据本发明的系统的概观图示;
图2示出用于解释根据本发明的方法的流程图;
图3示出用于解释按照根据本发明的方法的可选实施细节的针对事件序列的不确定性有限自动机的框图;
图4示出用于解释按照根据本发明的方法的可选实施细节的针对两个事件序列的不确定性有限自动机的框图;
图5示出用于解释按照根据本发明的方法的可选实施细节的确定性有限自动机的框图;
图6示出用于解释按照根据本发明的方法的可选实施细节的状态转移函数在通信网络中的布置的流程图。
具体实施方式
本发明或其实施例的附加的特征、方面和优点结合权利要求通过详细的描述变得清楚。
图1示出用于网络200中的错误识别和错误原因分析的系统100,所述网络具有这里仅仅示例性地示出的网络部件220、240、260、...、N和网络节点520、540、560、...、M。网络部件220、240、260的数量N和网络节点520、540、560的数量M可以与相应的应用适配。部件220、240、260可以是具有软件模块300和通信接口400的传感器,或者也可以是分别生成数据的执行器和控制设备,所述数据例如基于时间变化可以表示为事件序列。这些数据分组中的一个或多个数据分组可以引起报警的触发或指示:应触发报警,所述报警例如指示网络部件220、240、260本身和/或利用网络部件220、240、260监控的设施和/或单元的有错误的行为。
设施或单元也可以是分别利用部件220、240和260监控的房间或综合建筑或工业设施。这样,例如网络部件220、240、260中的一些例如可以是监控建筑物中的房间的温度传感器和烟雾探测传感器。网络部件220、240、260借助通信连接500与网络节点520、540和560连接。网络节点520、540和560可以是路由器、控制设备和具有所需的计算机能力的其他硬件设备。不过,在本发明的改进方案中网络节点520、540和560也可以本身生成数据,所述网络节点然后将所述数据转发给其他网络节点520、540、560。
网络部件220、240和260生成针对确定的事件的数据。例如,在确定的时间点tx温度T的测量是事件E。如果现在在另一时间点ty测量到另一温度值T,则这是另一事件。所述事件现在可以被组合成事件序列。在本发明的范围内,感兴趣的是,找出如下事件,所述事件指示要监控的系统和/或设施等的错误。
图2示出根据本发明的用于如在网络200中出现的一个或多个事件序列中的有因果关系的错误的错误原因分析(Root Cause Analyse(根本原因分析))的方法的流程图。
在步骤S10中,从历史数据的集合中提取以报警事件'a'结束的那些事件序列。
在步骤S20中,从以报警事件'a'结束的事件序列中提取相关的事件并且据此构造由相关的事件组成的缩减的事件序列。相关的事件是被添写在指示错误和/或报警方面的意义的事件。
在步骤S30中,针对每个缩减的事件序列构造特定的(或基本的)自动机Ai,700,所述自动机识别该缩减的事件序列。
在步骤S40中,所构造的(特定的或基本的)自动机A i,700逐渐地联合为针对所有缩减的事件序列的共同的自动机(由集成的基本的自动机构成),gAi,800。
在步骤S50中,优化该共同的自动机,gAi,800。
在步骤S60中,分析所述共同的自动机,gAi,800的状态转移函数δ并且在网络200中分发。
在步骤S70中,将发布/订阅协议(Publish/Subscribe)分发给网络节点n 540、560。
在下文中详细地描述步骤S10-S70。
步骤S10:从历史数据中提取事件序列
事件序列由一系列事件组成,其中由网络部件220、240、260测量和/或生成事件。从事件序列的集合中提取以报警事件'a'结束的那些事件序列。报警事件'a'指示临界状况、诸如提高的温度或提高的压力。以报警事件'a'结束的事件序列可以如下来描述:
Figure 635861DEST_PATH_IMAGE001
其中对于i=1、...、N,时间点ti-1<ti
用于选择事件序列的历史数据的代表性集合有利地足够大,以便例如针对神经网络能够进行事件序列的现实随机选择作为训练数据,以避免特殊情况的积累。然而,未进入错误原因分析(Root Cause Analyse)的未被选择的代表性事件序列可以被用作测试数据。
随机选择的事件序列可以根据如下定量标准来确定:
a)规定用于探测事件的相关的时间窗ΔT>0,其中该时间窗根据相应的应用位于秒到小时范围中。该时间窗中的每个事件被考虑:
Figure 21843DEST_PATH_IMAGE002
b)规定应在报警之前发生的事件的相关数量K<N。这根据应用可以是几个直至数千个事件。在该预给定的数量之后的每个事件于是被考虑:
Figure 4842DEST_PATH_IMAGE003
c)由a)和b)构成的第一组合:仅考虑来自时间窗ΔT的最后事件、即最高K个事件:
Figure 380810DEST_PATH_IMAGE004
Figure 398445DEST_PATH_IMAGE005
d)由a)或b)构成的第二组合:考虑来自时间窗ΔT的所有事件,但是至少最后K个:
Figure 63650DEST_PATH_IMAGE006
Figure 520564DEST_PATH_IMAGE007
除了时间和数量之外可以定义如下定性标准,所述定性标准例如涉及事件的类型、起源或内容,诸如:
- 事件的类型
- 事件源的类型
- 事件的起源,例如根据实际或逻辑位置划分:
- 几何数据
- 事件源的网络段
- 设施的子系统
- 事件的内容:读取事件的值并且生成布尔值的谓词,诸如:
Figure 188305DEST_PATH_IMAGE008
Figure 326026DEST_PATH_IMAGE009
这种用于识别导致报警'a'的模式的事件的预选择与应用有关并且需要相应的特定的专家知识,因为要观察的事件的集合一方面不应太大,在具有高频数据产生的事件源的情况下如在测量涡轮机中的旋转时可能容易情况如此,并且另一方面不应排除或许可能给出报警的指示的事件。
在下文中描述用于产生错误原因分析(Root Cause Analyse)的简单示例。
事件序列1由事件b → c → d → e → g → a组成,并且事件序列由分别导致报警'a'的事件d → c → f → g → a组成。
事件序列1和2的定量分析通过对事件序列中的各个事件a、b、c、d、e、f、g、e的频率计数来执行。针对所提及的事件序列,这在表1中示出。
事件 b c d e f g
序列1 1 1 1 1 1
序列2 1 1 1 1
事件出现的次数 1 2 2 1 1 2
表1。
假定:例如由于在事件源中的有错误的过滤,不发生相同事件的积累。如果不使用这种过滤器,则示例性的事件序列“d → c → c → c → f → g → a”可以通过收缩相同的事件相应地缩短为“d → c → f → g → a”。 如果例如在事件序列d → c → d →d → c → c → d → a中发生相同事件的交替重复,则同样适用。
步骤S2:提取相关的事件并且构造缩减的事件序列
规定确定事件出现的最小与最大次数之间的阈值,在该示例中在范围[1,2]中。在该范围中,仅观察与所规定的阈值、例如1.5相比更频繁发生的那些事件。在上述的表1中,该事件是在所观察的范围中分别出现两次的事件c、d和g。事件b、e和f针对根本原因分析不进一步被考虑,因为它们在两个事件序列中分别仅出现一次,如这在表2中所示出的。
事件 c d g
序列1 1 1 1
序列2 1 1 1
事件次数 2 2 2
表2。
阈值应被定义,使得不排除对于报警而言相关的事件,但是另一方面必须考虑太大数量的不相关的事件,即阈值应被设定为既不太高也不太低。
出现的事件序列被缩减,其方式是:去除被归为不相关的事件。在事件序列1中,这是事件b和e,并且在事件序列2中是事件f:
事件序列1从b → c → d → e → g → a被缩减为c → d → g → a。
事件序列2从d → c → f → g → a被缩减为d → c → g → a 。
步骤S30:构造不确定性有限自动机,Ai,700
针对缩减的事件序列中的每一个构造识别所述缩减的事件序列的不确定性有限自动机,Ai,700。在此,不相关的事件(这里:b、e、f)保持不被考虑。在图3中图形地示出了针对序列1的自动机,Ai,700。
针对所述步骤S30,选择不确定性有限自动机,Ai,700。自动机,Ai,700的不确定性通过状态s0得出,因为在该状态s0中事件'c'不仅可以转移到状态's0'中而且可以转移到状态's1'中。因此,事件的序列可以保持在状态s0中,直至在事件'c'的情况下正确地进行到状态's1'中的随机转移。如果现在发生事件'd',则进行到状态's2'中的转移,并且在事件'g'的情况下现在发生触发报警 'a'的状态's3',该报警在正确的序列c → d → g → a中出现。
在所述状态中仅示出了所定义的转移。用于在图3中示出的自动机Ai,700的状态转移函数δ在如下的表3中示出。根据状态转移函数δ,各个状态在新事件到达时被转变到后续状态,其中根据自动机,Ai,700的所设置的不确定性,这是多个可能的后续状态中的一个后续状态。必要时不存在后续状态,通过用于空集合的符号Ø表示。
Figure 788231DEST_PATH_IMAGE010
表3。
形式上,针对缩减的事件序列的自动机,Ai,700的定义以如下方式进行:如果(vi),i=1、...、N是缩减的事件序列,其中 (v) = v0 → v1 → … → vN-1 → vN = a,并且V是在原始事件序列中发生的所有事件的集合,则有限自动机,Ai,700借助状态集合S、输入集合X、状态集合F、起始状态s0和状态转移函数δ来定义,所述状态转移函数在下文中更详细地被解释。自动机,Ai,700因此通过Ai=(S, X, F, s0,δ)来确定。
状态集合
Figure 260670DEST_PATH_IMAGE011
是所有状态s的集合,即针对每个在缩减的事件序列中出现的事件vi存在自动机700的状态si。在此,考虑事件在事件序列之内的多次出现,其中vi表示其中任何事件的第i次出现。尤其,si表示如下状态,事件vi以该状态转移到状态si+1中。类似地, sN表示如下状态,事件vN=a以该状态转移到最终状态Ea中。
输入集合
Figure 466523DEST_PATH_IMAGE012
表示事件序列的相关的事件v的与其出现的上下文无关的输入的集合,以及报警'a'。该上下文于是通过状态转移来表示。
当报警'a'在预给定的事件序列之后出现时,最终状态集合F:={Ea}表示最终状态的集合。
起始状态 s0:=s0是初始状态。
状态转移函数δ : S x X → 2S在新事件到达时将单个状态转变到多个可能的后续状态中的一个(或不转变到多个可能的后续状态中的任何一个),其中2S表示状态集合S的幂集合。如果说明空集合Ø,则也不存在状态转移。用于任意自动机Ai,700的状态转移函数δ可以在表4中示出,所述表4如下来构建:
Figure 255487DEST_PATH_IMAGE014
表4。
如从表4中可以看出的,状态si在事件vi到达时被转变到状态'si+1'中。例外是状态's0',该状态将所有其余事件映射为本身。
在图3中所示出的自动机,Ai,700的情况下,报警事件'a'导致最终状态Ea。不过,这在实际应用中可以不同地来定义,因为经常重要的是,在达到临界状态、即出现报警事件之前进行相应的警告并且因此已经出现了最终状态,以便采取合适的对策。
就此而言,在根本原因分析的实践(现场使用)中处理事件序列时最迟在事件vN-1(在图3中事件'g')时生成关于可能直接即将来临的报警情况的消息,并且该消息有利地可以与引入对策的动作相联系。
步骤S40:集成不确定性有限自动机,Ai,700
由于存在相关的事件的事件序列的集合,所以也开发自动机,Ai1、Ai2、...、Ain,700的相应集合。因此根据这些自动机Ai1、Ai2、...、Ain,700逐渐地构造用于识别所有事件序列的共同的自动机,gAi,800。为此,起始状态被组合为共同的起始状态,所述共同的起始状态以不确定的方式分支到不同的事件序列的不同的分支820、840中。即如果
Figure 154173DEST_PATH_IMAGE015
,
Figure 599061DEST_PATH_IMAGE016
是两个Ai,则共同的
Figure 592294DEST_PATH_IMAGE017
如下来定义:
输入集合
Figure 501344DEST_PATH_IMAGE018
是相关的事件的简单并集。
状态集合
Figure 39773DEST_PATH_IMAGE019
是没有各个起始状态、但为此具有新的共同的起始状态s0的状态集合的不相交并集。
最终状态集合
Figure 34273DEST_PATH_IMAGE020
是最终状态集合的不相交并集,即
Figure 581929DEST_PATH_IMAGE021
s0: = s0
状态转移函数
Figure 283169DEST_PATH_IMAGE022
实现如下状态转移:
i)
Figure 320395DEST_PATH_IMAGE023
;
针对每个事件将起始状态映射为本身和后续状态。
ii) 如果
Figure 989143DEST_PATH_IMAGE024
Figure 74911DEST_PATH_IMAGE025
如果
Figure 692974DEST_PATH_IMAGE026
Figure 104364DEST_PATH_IMAGE027
图4示出针对来自上文所示出的示例的两个事件序列c → d → g和d → c → g→ a的共同的自动机gAi,800的该构造的结果。
步骤S50:通过构造最小确定性有限自动机,dAi,900优化共同的自动机,gAi,800
针对上述自动机,gAi,800构造等价的、确定性最小有限自动机,dAi=(S, X, F,s0,δ),900。在自动机,gAi,900中出现的不确定性可以在构造上利用标准方法、例如幂集合构造来去除。如下的表5示出针对两个示例序列的集成的最小确定性自动机,aAi,900的状态转移函数δ。
Figure 745560DEST_PATH_IMAGE028
表5。
状态'f'代表不确定情况中的空集合。如果在事先没有遍历预给定的事件序列之一的情况下识别出报警'a',则达到该状态。'f’因此是针对事件序列的选择并非最优或存在以报警结束的另一事件序列的指示器。针对这两个状态'f'和'Ea','f'可以被定义为后续状态,因为涉及最终或错误状态。在图5中示出了确定性自动机,dAi,900,所述确定性自动机的特色在于相对于不确定性变型方案更高的复杂性。
步骤S60:分析和分发最小确定性有限自动机,dAi,900的状态转移函数
自动机,dAi,900的功能基本上通过转移函数δ: S x X → S来描述。状态转移函数通过如下方式实现原因分析(Root Cause Analyse(根本原因分析)):所有事件根据状态转移函数δ转移到后续状态中并且在出现'Ea'或'f'时发出消息。
在集中式数据处理系统的情况下,状态转移函数δ存放在网络200中的网络节点520中并且所有事件被路由到该节点520。所述状态于是根据状态转移函数δ采取其相应的状态,直至达到最终或错误状态。
在网络200中,识别最密集地位于事件源、如网络部件220处的网络节点520、540、560。因此nx是网络节点520,在所述网络节点中生成事件x或所述网络节点具有从x到网络部件数据源(传感器数据源)200的最短路径。
如果此外δ: S x X → S是自动机dAi的状态转移函数,则δ在X之后被分析,使得形成新函数:δ': X → [S → S],即,给每个事件x∈X分配状态转移函数
Figure 431757DEST_PATH_IMAGE029
,其中
Figure 377364DEST_PATH_IMAGE030
根据在上文中所示出的示例,函数δ'c具有如下在表6中所示出的外观:
S δ'<sub>c</sub>(s)
s<sub>0</sub> s<sub>1</sub>
s<sub>1</sub> s<sub>1</sub>
s<sub>4</sub> s<sub>5</sub>
s<sub>2</sub> s<sub>5</sub>
s<sub>5</sub> s<sub>1</sub>
s<sub>3</sub> s<sub>1</sub>
E<sub>a</sub> f
f f
表6。
于是将函数δ'x分配给相应的网络节点,nx,520。图6示出用于示例性网络200的分配,所述网络借助多播消息在相关的网络节点520、540、560之中分发出现的状态变化。
当网络200具有一定的稳定性使得事件x始终来自相同的传感器数据源220时,δ'x函数在网络200中的定位可以手动地进行。
原则上,然而,不仅仅在网络200中的不稳定性的情况下,可以进行δ'x函数的自动分配,所述自动分配可以经由发布/订阅协议进行。
对此的示例是PADRES发布/订阅系统,所述PADRES发布/订阅系统例如在https://www.researchgate.net/publication/220956222_The_PADRES_Distributed_PublishSubscribe System中描述。
步骤S70:网络节点520的功能
基本构思在于:状态同样被定义为特殊事件并且借助发布/订阅协议(Publish-Subscribe)经由多播分发给订阅方(Subscriber)。节点,nx,520,540,560中的函数δx,x∈X包括用于初始化节点,nx,520,540,560和以事件循环(Loop)构成的协议的起始序列,所述协议不仅处理状态时间的到达而且处理网络事件的到达。
发布-订阅协议包括如下三个消息:
a)通告(advertise)(s,n):网络节点,n,520在广播消息中将状态s通告给所有其他网络节点,n,540,560。该通告消息是该协议中的唯一的广播消息。
b)订阅(subscribe)(n,s,m):网络节点,n,540,560,其中n
Figure DEST_PATH_IMAGE031
N通知节点,m,520:该网络节点订阅该节点的状态s。通告消息(n,s)应在该订阅之前发生。订阅消息是从一个网络节点n到另一网络节点m的点对点消息(Point-to-Point)。
c)发布(publish)(s,N):所有节点,n
Figure 428497DEST_PATH_IMAGE031
N,520,540,560借助多播消息被通知新状态s。节点,n
Figure 619307DEST_PATH_IMAGE031
N,540,560应该事先已订阅状态s。在发送发布消息之前,应本地已进行状态转移。
节点,n,520的起始方法可以包括如下步骤:
步骤1:首先,节点nx的状态变化的订阅的集合是空集合:Abos: =Ø
步骤2:针对所有
Figure 46877DEST_PATH_IMAGE032
,发送广播消息“(s,nx)的通告”。
状态转移函数δx(S)是本地通过δx产生的后续状态的集合,即δx的图像集合。这些状态被通告给所有其他节点,n,540,560。
步骤3:针对从网络节点n到达网络节点nx,520处的所有消息“订阅(n,s,nx)”:如果
Figure DEST_PATH_IMAGE033
,订阅的集合z改变:
Figure 92062DEST_PATH_IMAGE034
网络节点nx,520存储节点,n,540,560,所述节点订阅由网络节点nx通告的状态。
步骤4:由消息“通告(s,n)”到达的网络节点n,540,560将消息“订阅(nx,s,n)”发送给网络节点nx。因此,这些网络节点n订阅所提供的状态事件s。
步骤5:网络节点n的本地状态变量z采取所通告的起始状态s0
各个消息输入或输出必要时根据时间顺序被多次执行,网络节点n,520,540,560按照所述时间顺序遍历所述起始方法。
节点,nx,520的事件循环(Loop)看起来如下:
步骤1:如果消息“发布(s,nx)”到达网络节点nx处,则网络节点nx的本地状态变量z被设置为s:z:=s
步骤2:如果事件x到达网络节点,nx,520处并且z≠δx(z),则事件x启动新状态:z:=δx(z);
新状态z本地地被存储在网络节点,nx,520处。于是,由网络节点,nx,520将多播消息发送给所有订阅方:“发布 (z, Abos)”。因此,新状态z被转交给所有订阅方(Abos)。
循环(loop)因此可以如下来描述:
循环
如果消息“publish( s, nx)”到达:z:=s;
如果事件x到达并且z≠δx(z):发送多播消息“publish(z, Abos)”;
结束循环。
在该循环中,处理到达的具有新状态的发布消息,其方式是:将所发布的状态接收到本地状态变量z中。否则,如果读取事件,则可以进行状态变化。新状态z借助多播消息被转交给已订阅状态变化的其他网络节点n 540,560。如果该事件不导致状态变化,多播消息也不进行。
通过本发明因此可以执行网络200的事件链(事件序列)中的可能的有因果关系的错误的错误原因分析(Root Cause Analyse),所述网络由网络部件220、240、260和网络节点520、540、560组成。根据缩减的事件序列构造确定性自动机,dAi,900,并且在网络200中分发自动机,dAi,900的状态转移函数δ。在自动机,dAi,900的运行中,状态和事件同样被定义为消息并且借助发布/订阅协议(Publish/Subscribe)在网络200中分发。因此,可以有针对性地在网络200中转交关于错误消息的消息并且可以避免网络200因没有显示出相关性的数据洪流而过载。

Claims (9)

1.一种用于网络(200)中的错误识别和错误原因分析的系统(100),所述网络由多个具有软件模块(300)和通信接口(400)的网络部件(220,240,260,...N)和借助通信连接(500)与所述网络部件(220,240,260,...,N)连接的网络节点(520,540,560,...,M)组成,其中所述网络部件(220,240,260,...,N)和/或所述网络节点(520,540,560,...,M)被构成为生成作为历史数据的集合存储的数据,并且根据所述历史数据的集合形成事件序列,所述事件序列由一系列事件(a,b,c,d,e,f,g)组成,其中所述系统(100)被构成为,
从所述事件序列中又提取以报警事件(a)结束的那些事件序列,
从所述具有报警事件(a)的事件序列中又提取与错误分析有关的相关的事件(a,b,c,d,e,f,g),并且根据所述相关的事件(a,b,c,d,e,f,g)构造缩减的事件序列,以及
针对每个缩减的事件序列构造用于识别所述缩减的事件序列的自动机(700),其中所述系统(100)被构成为将针对每个缩减的事件序列构造的自动机(700)逐渐地联合为针对所有缩减的事件序列的共同的自动机(800)。
2.根据权利要求1所述的系统(100),其特征在于,所述系统(100)被构成为将所述共同的自动机(800)优化为确定性自动机(900)。
3.根据权利要求2所述的系统(100),其特征在于,所述系统(100)被构成为分析所述确定性自动机(900)的状态转移函数并且在网络(200)中分发。
4.根据权利要求3所述的系统(100),其特征在于,所述系统(100)适合于将发布/订阅协议分发给一个或多个网络节点(520,540,560)。
5.一种用于网络(200)中的错误识别和错误原因分析的方法,所述网络由多个具有软件模块(300)和通信接口(400)的网络部件(220,240,260,...N)和借助通信连接(500)与所述网络部件(220,240,260,...,N)连接的网络节点(520,540,560,...,M)组成,其中所述网络部件(220,240,260,...,N)和/或所述网络节点(520,540,560,...,M)生成作为历史数据的集合存储的数据,并且根据所述历史数据的集合形成一般的事件序列,所述事件序列由一系列事件(a,b,c,d,e,f,g)组成,所述方法包括:
- 从所述一般的事件序列中提取(S10)以报警事件(a)结束的那些事件序列,
- 从所述以报警事件(a)结束的事件序列中提取(S20)用于错误分析的相关的事件,并且构造由所述相关的事件组成的缩减的事件序列,
- 针对每个缩减的事件序列构造(S30)自动机(700),用于识别所述缩减的事件序列,
其中将所构造的自动机(700)逐渐地联合为针对所有缩减的事件序列的共同的自动机(800)。
6.根据权利要求5所述的方法(100),其特征在于,将所述共同的自动机(800)优化为确定性自动机(900)。
7.根据权利要求6所述的方法,其特征在于,分析所述确定性自动机(900)的状态转移函数(δ)并且在网络(200)中分发。
8.根据权利要求7所述的方法,其特征在于,将发布/订阅协议分发给一个或多个网络节点(520,540,560)。
9.一种计算机程序产品,所述计算机程序产品包含一个和/或多个可执行的计算机代码,用于执行根据权利要求5至8中一项或多项所述的方法。
CN201980080846.1A 2018-11-07 2019-11-06 用于网络部件的网络中的错误识别和错误原因分析的系统和方法 Active CN113169898B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18204977.5A EP3651413A1 (de) 2018-11-07 2018-11-07 System und verfahren zur fehlererkennung und fehlerursachen-analyse in einem netzwerk von netzwerkkomponenten
EP18204977.5 2018-11-07
PCT/EP2019/080317 WO2020094681A1 (de) 2018-11-07 2019-11-06 System und verfahren zur fehlererkennung und fehlerursachen-analyse in einem netzwerk von netzwerkkomponenten

Publications (2)

Publication Number Publication Date
CN113169898A CN113169898A (zh) 2021-07-23
CN113169898B true CN113169898B (zh) 2022-12-27

Family

ID=64316283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980080846.1A Active CN113169898B (zh) 2018-11-07 2019-11-06 用于网络部件的网络中的错误识别和错误原因分析的系统和方法

Country Status (4)

Country Link
US (1) US11398945B2 (zh)
EP (2) EP3651413A1 (zh)
CN (1) CN113169898B (zh)
WO (1) WO2020094681A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10560326B2 (en) * 2017-09-22 2020-02-11 Webroot Inc. State-based entity behavior analysis
CN114722955B (zh) * 2022-04-22 2024-03-26 东南大学 有异常状态信息的有限状态自动机中故障事件序列的表示方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100389567C (zh) * 2004-08-25 2008-05-21 富士通株式会社 用于检测网络中的网络异常的方法和系统
CN100456687C (zh) * 2003-09-29 2009-01-28 华为技术有限公司 网络故障实时相关性分析方法及系统
CN108243062A (zh) * 2016-12-27 2018-07-03 通用电气公司 用以在时间序列数据中探测机器启动的事件的系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7072876B1 (en) * 2000-09-19 2006-07-04 Cigital System and method for mining execution traces with finite automata
US8099737B2 (en) * 2007-06-05 2012-01-17 Oracle International Corporation Event processing finite state engine and language
US9305238B2 (en) * 2008-08-29 2016-04-05 Oracle International Corporation Framework for supporting regular expression-based pattern matching in data streams
FR2949161B1 (fr) * 2009-08-14 2011-09-09 Thales Sa Dispositif pour le diagnostic de systeme
US8719796B2 (en) * 2010-01-26 2014-05-06 The Board Of Trustees Of The University Of Illinois Parametric trace slicing
US10708151B2 (en) * 2015-10-22 2020-07-07 Level 3 Communications, Llc System and methods for adaptive notification and ticketing

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100456687C (zh) * 2003-09-29 2009-01-28 华为技术有限公司 网络故障实时相关性分析方法及系统
CN100389567C (zh) * 2004-08-25 2008-05-21 富士通株式会社 用于检测网络中的网络异常的方法和系统
CN108243062A (zh) * 2016-12-27 2018-07-03 通用电气公司 用以在时间序列数据中探测机器启动的事件的系统

Also Published As

Publication number Publication date
WO2020094681A1 (de) 2020-05-14
CN113169898A (zh) 2021-07-23
US11398945B2 (en) 2022-07-26
EP3861681A1 (de) 2021-08-11
US20220014426A1 (en) 2022-01-13
EP3861681B1 (de) 2022-06-01
EP3651413A1 (de) 2020-05-13

Similar Documents

Publication Publication Date Title
CN110493042B (zh) 故障诊断方法、装置及服务器
EP3477918B1 (en) Systems and methods for adaptive industrial internet of things (iiot)
US9571334B2 (en) Systems and methods for correlating alarms in a network
CN101507185B (zh) 使用贝叶斯网络的电信网络中的故障定位
CN106973118B (zh) 生成和订阅通知的方法和装置
CN106953802B (zh) 一种基于深度学习的网络最优路径选择方法
CN113169898B (zh) 用于网络部件的网络中的错误识别和错误原因分析的系统和方法
US20140222997A1 (en) Hidden markov model based architecture to monitor network node activities and predict relevant periods
Manias et al. Concept drift detection in federated networked systems
CN106559166A (zh) 用于分布式处理系统中基于指纹的状态检测方法及设备
US20220101139A1 (en) System for Action Indication Determination
Solmaz et al. ALACA: A platform for dynamic alarm collection and alert notification in network management systems
CN114138680A (zh) 数据构建、数据查询和测试方法、电子设备以及存储介质
CN108512675B (zh) 一种网络诊断的方法、装置、控制节点和网络节点
CN111162945B (zh) 一种告警关联关系的确定方法、装置、设备及存储介质
CN109409411B (zh) 基于运维管理的问题定位方法、装置及存储介质
CN113079127B (zh) 攻击识别数据模型的生成与应用方法
CN117201045A (zh) 一种网络流量异常的检测方法及装置
CN117194668A (zh) 知识图谱构建方法、装置、设备及存储介质
CN104917623A (zh) 一种实现sdn网络通信管理的方法及装置
CN110943973B (zh) 数据流分类方法及装置、模型训练方法及装置和存储介质
CN114598602A (zh) 数据获取方法、装置、计算机设备及计算机可读存储介质
Bäuerle et al. Simulation of Communication Systems in Industrial Area
MRM et al. Iot Device Classification in Cloud Organizations Using Deep Belief Networks
Viswanathan Automated network fault management

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant