CN113672776B - 一种故障分析方法及装置 - Google Patents
一种故障分析方法及装置 Download PDFInfo
- Publication number
- CN113672776B CN113672776B CN202110981733.8A CN202110981733A CN113672776B CN 113672776 B CN113672776 B CN 113672776B CN 202110981733 A CN202110981733 A CN 202110981733A CN 113672776 B CN113672776 B CN 113672776B
- Authority
- CN
- China
- Prior art keywords
- node
- fault
- processed
- affected
- data file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 22
- 238000000034 method Methods 0.000 claims abstract description 37
- 238000004519 manufacturing process Methods 0.000 claims description 43
- 238000012545 processing Methods 0.000 claims description 15
- 230000001934 delay Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012546 transfer Methods 0.000 description 6
- 230000003111 delayed effect Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供了一种故障分析方法及装置,该方法为:解析IT系统网络的故障信息得到故障实体;确定预设的关系图谱中与故障实体对应的节点为故障节点;根据关联关系,从故障节点出发对关系图谱中的节点进行遍历,确定得到所有受到故障节点影响的受影响节点。本方案中,预先利用IT系统网络的实体及实体间的关联关系,构建关系图谱。当确定得到关系图谱中的故障节点后,从故障节点出发对关系图谱中的节点进行遍历,确定得到所有受到故障节点影响的受影响节点,以从具有庞杂网络关系信息的IT系统网络中识别受到故障影响的实体。
Description
技术领域
本发明涉及数据分析技术领域,具体涉及一种故障分析方法及装置。
背景技术
对于一个大型企业或组织,其可能存在大量IT系统需要运维管理。而随着数据共享和流程互通等技术的发展,各个IT系统之间存在各式各样的依赖关系,从而形成一个IT系统网络。当IT系统网络中的一个对象出现故障,可能会影响多个对象的运行,从而影响企业或组织的稳定运行。因此,如何从具有庞杂网络关系信息的IT系统网络中确定受影响的对象,是目前亟需待解决的问题。
发明内容
有鉴于此,本发明实施例提供一种故障分析方法及装置,以从具有庞杂网络关系信息的IT系统网络中确定受影响的对象。
为实现上述目的,本发明实施例提供如下技术方案:
本发明实施例第一方面公开一种故障分析方法,所述方法包括:
解析IT系统网络的故障信息得到故障实体;
确定预设的关系图谱中与所述故障实体对应的节点为故障节点,所述关系图谱基于所述IT系统网络的各个实体及各个实体之间的关联关系构建得到,每个所述实体为系统模块或数据文件;
根据所述关联关系,从所述故障节点出发对所述关系图谱中的节点进行遍历,确定得到所有受到所述故障节点影响的受影响节点。
优选的,所述根据所述关联关系,从所述故障节点出发对所述关系图谱中的节点进行遍历,确定得到所有受到所述故障节点影响的受影响节点,包括:
根据所述关系图谱及所述故障节点,确定待遍历集合,所述待遍历集合中至少包含所述故障节点和/或受到所述故障节点影响的受影响节点;
从所述待遍历集合所包含的所有节点中提取待处理节点,所述待处理节点对应的实体为数据文件;
根据所述关联关系,从所述关系图谱中确定所述待处理节点的下游节点;
利用所述待处理节点对应的数据文件到达时间点,以及利用所述待处理节点与所述下游节点之间的关系信息,确定所述待处理节点的下游节点是否为受影响节点,将所确定的实体为数据文件的所有受影响节点添加至所述待遍历集合中,返回执行从所述待遍历集合所包含的所有节点中提取待处理节点这一步骤,直至提取不到所述待处理节点。
优选的,任意两个相关联的实体之间的关联关系为生产关系、消费关系或依赖关系;
所述根据所述关系图谱及所述故障节点,确定待遍历集合,包括:
若所述故障节点对应的实体为系统模块,在所述关系图谱中,将与所述故障节点具有生产关系的数据文件对应的节点作为受到所述故障节点影响的受影响节点,将受到所述故障节点影响的受影响节点添加至待遍历集合中;
若所述故障节点对应的实体为数据文件,将所述故障节点添加至所述待遍历集合中。
优选的,任意两个相关联的实体之间的关联关系为生产关系、消费关系或依赖关系;
所述根据所述关联关系,从所述关系图谱中确定所述待处理节点的下游节点,包括:
从所述关系图谱中,确定与所述待处理节点具有消费关系或依赖关系的节点为所述待处理节点的下游节点。
优选的,所述待处理节点与所述下游节点之间的关系信息至少包含:约定数据文件到达时间点和容忍时长;
所述利用所述待处理节点对应的数据文件到达时间点,以及利用所述待处理节点与所述下游节点之间的关系信息,确定所述待处理节点的下游节点是否为受影响节点,包括:
利用所述待处理节点和与其对应的下游节点之间的关系信息,计算约定数据文件到达时间点与容忍时长之间的和值;
若所述待处理节点对应的数据文件到达时间点晚于所述和值,确定所述待处理节点的下游节点为受影响节点;
若所述待处理节点对应的数据文件到达时间点不晚于所述和值,确定所述待处理节点的下游节点不是受影响节点。
优选的,基于IT系统网络的各个实体及各个实体之间的关联关系构建关系图谱的过程,包括:
获取IT系统网络的各个实体,以及获取各个实体之间的关联关系,其中,任意两个相关联的实体之间的关联关系为生产关系、消费关系或依赖关系;
将所述实体作为节点,以及将所述关联关系作为边,构建关系图谱。
优选的,所述解析IT系统网络的故障信息得到故障实体,包括:
解析IT系统网络的故障信息,确定发生故障的系统模块;
若所述发生故障的系统模块导致所有数据文件无法生产,确定所述发生故障的系统模块为故障实体;
若所述发生故障的系统模块无法生产目标数据文件,或者,若所述发生故障的系统模块延迟生产和延迟发送所述目标数据文件,确定所述目标数据文件为故障实体。
本发明实施例第二方面公开一种故障分析装置,所述装置包括:
解析单元,用于解析IT系统网络的故障信息得到故障实体;
确定单元,用于确定预设的关系图谱中与所述故障实体对应的节点为故障节点,所述关系图谱基于所述IT系统网络的各个实体及各个实体之间的关联关系构建得到,每个所述实体为系统模块或数据文件;
处理单元,用于根据所述关联关系,从所述故障节点出发对所述关系图谱中的节点进行遍历,确定得到所有受到所述故障节点影响的受影响节点。
优选的,所述处理单元包括:
第一确定子单元,用于根据所述关系图谱及所述故障节点,确定待遍历集合,所述待遍历集合中至少包含所述故障节点和/或受到所述故障节点影响的受影响节点;
提取子单元,用于从所述待遍历集合所包含的所有节点中提取待处理节点,所述待处理节点对应的实体为数据文件;
第二确定子单元,用于根据所述关联关系,从所述关系图谱中确定所述待处理节点的下游节点;
处理子单元,用于利用所述待处理节点对应的数据文件到达时间点,以及利用所述待处理节点与所述下游节点之间的关系信息,确定所述待处理节点的下游节点是否为受影响节点,将所确定的实体为数据文件的所有受影响节点添加至所述待遍历集合中,返回执行所述提取子单元直至提取不到所述待处理节点。
优选的,任意两个相关联的实体之间的关联关系为生产关系、消费关系或依赖关系;所述第一确定子单元具体用于:若所述故障节点对应的实体为系统模块,在所述关系图谱中,将与所述故障节点具有生产关系的数据文件对应的节点作为受到所述故障节点影响的受影响节点,将受到所述故障节点影响的受影响节点添加至待遍历集合中;若所述故障节点对应的实体为数据文件,将所述故障节点添加至所述待遍历集合中。
基于上述本发明实施例提供的一种故障分析方法及装置,该方法为:解析IT系统网络的故障信息得到故障实体;确定预设的关系图谱中与故障实体对应的节点为故障节点;根据关联关系,从故障节点出发对关系图谱中的节点进行遍历,确定得到所有受到故障节点影响的受影响节点。本方案中,预先利用IT系统网络的实体及实体间的关联关系,构建关系图谱。当确定得到关系图谱中的故障节点后,从故障节点出发对关系图谱中的节点进行遍历,确定得到所有受到故障节点影响的受影响节点,以从具有庞杂网络关系信息的IT系统网络中识别受到故障影响的实体。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种故障分析方法的流程图;
图2为本发明实施例提供的实体之间的关联关系的示意图;
图3为本发明实施例提供的确定受影响节点的流程图;
图4为本发明实施例提供的故障在节点之间传递的示意图;
图5为本发明实施例提供的一种故障分析装置的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
由背景技术可知,当IT系统网络中的一个对象出现故障,可能会影响多个对象的运行,从而影响企业或组织的稳定运行,而目前的IT系统网络中存在大量且繁杂的IT系统网络,因此如何从IT系统网络中确定受影响的对象是目前亟需待解决的问题。
故,本发明实施例提供一种故障分析方法及装置,预先利用IT系统网络的实体及实体间的关联关系,构建关系图谱。当确定得到关系图谱中的故障节点后,从故障节点出发对关系图谱中的节点进行遍历,确定得到所有受到故障节点影响的受影响节点,以从具有庞杂网络关系信息的IT系统网络中识别受到故障影响的实体。
需要说明的是,在本发明实施例所涉及的内容中,存在诸如节点、边、数据文件、系统模块、数据文件到达时点、约定数据文件到达时点、容忍时长、生产关系、消费关系和依赖关系等名词,为更方便理解以下各个实施例中的内容,预先通过以下内容对前述各个名词的具体含义进行解释说明。
节点:关系图谱中,节点用于表示和存储实体的数据,节点相当于关系型数据库中的表。每个节点均存在与之对应的类型和属性,每个节点具有唯一标识属性。
边:关系图谱中,边用于表示和存储节点与节点之间的关系,例如:A账户转账到B账户,此时“转账”就是节点A和节点B之间的关系,边可记为“A-[转账]->B”,需要说明的是,边可以具有方向也可不具有方向。
数据文件:IT系统间数据交互的一种载体。
系统模块:IT系统内部的相对独立的功能逻辑组成部分,一个IT系统可由多个系统模块组成。
数据文件到达时点:在进行批量数据文件的交互中,A系统模块将数据文件发送给B系统模块,数据文件传输到达B系统模块的时点即为数据文件到达时点。
约定数据文件到达时点:数据接收方约定收到某个数据文件的时点,例如:约定A系统模块发送给B系统模块的C文件需要在每天晚上21:00之前传输到B系统模块,21:00为约定数据文件到达时点。
容忍时长:数据接收方可容忍某个数据文件延迟接收的最大时长。
生产关系:A系统模块将数据文件C发送给B系统模块,则A系统模块生产数据文件C,生产关系可记为“(A)-[生产]->(C)”。
消费关系:B系统模块接收A系统模块发送的数据文件C,并将其用于实现相应的逻辑功能,则表示B系统模块消费数据文件C,消费关系可记为“(B)-[消费]->(C)”。
依赖关系:如果B系统模块需要加工所接收到的数据文件C才能生产数据文件D,则数据文件D依赖数据文件C,依赖关系可记为“(D)-[依赖]->(C)”,此时,数据文件D也称为后序数据文件,数据文件C也称为前序数据文件。
参见图1,示出了本发明实施例提供的一种故障分析方法的流程图,该故障分析方法包括:
步骤S101:解析IT系统网络的故障信息得到故障实体。
在具体实现步骤S101的过程中,预先收集IT系统网络中的故障信息,解析该故障信息确定发生故障的系统模块。在具体实现中,通过监控工具实时监控各个数据文件是否在规定时间产生,当某个系统模块无法在规定时间生产数据文件,则表示该系统模块为发生故障的系统模块。
针对每一发生故障的系统模块,若该发生故障的系统模块导致所有数据文件无法生产,确定该发生故障的系统模块为故障实体,将该发生故障的系统模块对应可表示为:(X:系统模块{系统模块ID:N});其中,X表示该发生故障的系统模块,N为X对应的系统模块ID。
针对每一发生故障的系统模块,若该发生故障的系统模块无法生产目标数据文件,确定该目标数据文件为故障实体,该目标数据文件可表示为:(Y:数据文件{数据文件ID:M,数据文件到达时点:T});其中,Y表示目标数据文件,M为Y对应的数据文件ID,T为Y对应的数据文件到达时点;可以理解的是,由于该目标数据文件无法被发生故障的系统模块生产,在故障修复前,目标数据文件永远不会在某个时点到达目标位置,故此处的目标数据文件的T为无穷大。
针对每一发生故障的系统模块,若发生故障的系统模块延迟生产和延迟发送目标数据文件,确定该目标数据文件为故障实体,该目标数据文件可表示为:(Y:数据文件{数据文件ID:M,数据文件到达时点:T});其中,Y表示目标数据文件,M为Y对应的数据文件ID,T为Y对应的数据文件到达时点;可以理解的是,由于该目标数据文件被发生故障的系统模块延迟生产和延迟发送,但依旧会在某个时点到达目标位置,故此处的目标数据文件的T并不是无穷大。
步骤S102:确定预设的关系图谱中与故障实体对应的节点为故障节点。
需要说明的是,预先基于IT系统网络的各个实体及各个实体之间的关联关系构建关系图谱,每个实体为系统模块或数据文件;也就是说,关系图谱中的节点对应IT系统网络的实体,关系图谱的任意两个节点之间的边为实体之间的关联关系。
在一些实施例中,获取IT系统网络的各个实体,以及获取各个实体之间的关联关系,其中,任意两个相关联的实体之间的关联关系为生产关系、消费关系或依赖关系;将实体作为节点,以及将关联关系作为边,构建关系图谱。
在一些具体实施例中,从IT系统网络的源数据中获取实体及实体间的关联关系,该源数据可以是关系型数据库数据、文本数据或其它类型数据。在获取实体时也获取该实体对应的实体信息,同理,在获取实体间的关联关系时,也获取实体间的关联关系的关系信息(如生产关系的关系信息、消费关系的关系信息和依赖关系的关系信息),实体信息和关系信息详见以下说明。
一、系统模块的实体信息
系统模块的实体信息至少包含关键信息项和辅助信息项,其中,关键信息项至少包括:系统模块ID;辅助信息项至少包括:所属系统,系统模块名称和其它说明性信息;一个IT系统可包含多个系统模块。例如表1示出了3个系统模块的实体信息。
表1:
二、数据文件的实体信息
数据文件的实体信息至少包含关键信息项和辅助信息项,其中,关键信息项至少包括:数据文件ID和生产文件时长;辅助项信息项至少包括:文件路径、文件名称和其它说明性信息。例如表2示出了批量数据文件的实体信息。
表2:
三、生产关系的关系信息
生产关系的关系信息至少包含关键信息项和辅助信息项,其中,关键信息项至少包括:系统模块ID和数据文件ID;辅助信息项包括:生产频度和其它说明性信息。例如表3示出了2条生产关系的关系信息。
表3:
四、消费关系的关系信息
消费关系的关系信息至少包含关键信息项和辅助信息项,其中,关键信息项至少包括:系统模块ID、数据文件ID、预定数据文件到达时点、容忍时长和频度;辅助信息项包括:其它说明性信息。例如表4示出了2条消费关系的关系信息。
表4:
五、依赖关系的关系信息
依赖关系的关系信息至少包含关键信息项和辅助信息项,其中,关键信息项至少包括:前序数据文件ID、后续数据文件ID、约定数据文件到达时点、容忍时长和频度;辅助信息项包括:其它说明性信息。例如表5示出了2条依赖关系的关系信息。需要说明的是,后续数据文件依赖前序数据文件。
表5:
以上是关于实体的实体信息以及各种关联关系的关系信息的内容,综上,实体与实体之间的关联关系为:生产关系(表示系统模块生产数据文件),消费关系(表示系统模块消费数据文件),依赖关系(表示数据文件之间的依赖关系)。生产关系可记为:(系统模块)-[生产]->(数据文件);消费关系可记为:(系统模块)-[消费]->(数据文件);依赖关系可记为:(数据文件)-[依赖]->(数据文件)。
如图2示出的实体之间的关联关系的示意图,系统模块与数据文件之间存在消费关系和生产关系,数据文件与数据文件之间存在依赖关系。基于此,将系统模块和数据文件作为节点,将生产关系、消费关系和依赖关系作为边,构建关系图谱。
优选的,构建得到关系图谱后,将该关系图谱转化为图数据格式进行存储,具体用于存储关系图谱的数据库可根据实际情况选择,在此不做限定。
由上述内容可知,关系图谱中的每个节点都对应一实体,在具体实现步骤S102的过程中,在确定故障实体后,确定关系图谱中与该故障实体对应的节点为故障节点,也就是说,与故障实体对应的节点为故障节点。
需要说明的是,所确定的故障实体可以是多个,即可确定得到多个故障节点。
步骤S103:根据关联关系,从故障节点出发对关系图谱中的节点进行遍历,确定得到所有受到故障节点影响的受影响节点。
由上述内容可知,关系图谱中的每条边指示通过该条边连接的两个节点之间存在关联关系(生产关系、消费关系或依赖关系),在具体实现步骤S103的过程中,根据关联关系,在关系图谱中,从所有故障节点出发对图谱中的节点进行遍历,确定得到所有受到故障节点影响的受影响节点,受影响节点所对应的实体也即为受到故障实体影响的实体。
在具体实现中,可采用深度优先方式或广度优先方式,结合关联关系,从故障节点出发对关系图谱中的节点进行遍历,从而识别出所有受到故障节点影响的受影响节点。
在本发明实施例中,预先利用IT系统网络的实体及实体间的关联关系,构建关系图谱。当确定得到关系图谱中的故障节点后,从故障节点出发对关系图谱中的节点进行遍历,确定得到所有受到故障节点影响的受影响节点,以从具有庞杂网络关系信息的IT系统网络中识别受到故障影响的实体。
上述本发明实施例图1步骤S103中涉及的确定得到所有受到故障节点影响的受影响节点的过程,参见图3,示出了本发明实施例提供的确定受影响节点的流程图,包括以下步骤:
步骤S301:根据关系图谱及故障节点,确定待遍历集合。
需要说明的是,在确定得到故障节点后,根据该故障节点和关系图谱所确定的待遍历集合中至少包含:故障节点和/或受到故障节点影响的受影响节点。
根据关系图谱中与故障节点相连的边(指示关联关系),可确定得到与该故障节点具有关联关系的节点,待遍历集合在初始状态下为空集,在具体实现步骤S301的过程中,针对每个故障节点,若该故障节点对应的实体为系统模块,在关系图谱中,将与该故障节点具有生产关系的数据文件对应的节点作为受到故障节点影响的受影响节点,将受到该故障节点影响的受影响节点添加至待遍历集合中;若所该故障节点对应的实体为数据文件,将该故障节点添加至待遍历集合中。
也就是说,对于每个故障节点,若该故障节点对应的实体为系统模块,则将该故障节点所生产的所有数据文件(也就是与故障节点具有生产关系的数据文件)对应的节点作为受到故障节点影响的受影响节点(此时已经初步识别到部分受影响节点了),并将所确定的受到故障节点影响的受影响节点添加至待遍历集合中,其中,所有受到故障节点影响的受影响节点可记为Y∈{yi|Root-[生产]->yi},Y表示故障节点所生产的所有数据文件,Root为故障节点,yi表示Y中的第i个数据文件;若该故障节点对应的实体为数据文件,则直接将该故障节点添加至待遍历集合中。
需要说明的是,所确定的故障节点可能存在多个,因此对每个故障节点进行如上述步骤S301中的处理方式,进而确定得到待遍历集合中的内容。
也就是说,若所确定的故障节点对应的实体均为数据文件,则各个故障节点经过上述方式处理后,待遍历集合中所包含的内容为故障节点;若所确定的故障节点对应的实体均为系统模块,则各个故障节点经过上述方式处理后,待遍历集合中所包含的内容为受到故障节点影响的受影响节点;若所确定的部分故障节点对应的实体为数据文件,另一部分故障节点对应的实体为系统模块,则各个故障节点经过上述方式处理后,待遍历集合中所包含的内容为故障节点和受到故障节点影响的受影响节点。
步骤S302:从待遍历集合所包含的所有节点中提取待处理节点。
需要说明的是,待处理节点对应的实体为数据文件。
由上述内容可知,所确定的待遍历集合中包含故障节点和/或受到故障节点影响的受影响节点,待遍历集合中的每个故障节点对应的实体为数据文件,每个受到故障节点影响的受影响节点对应的实体为数据文件。在具体实现步骤S302的过程中,以预设方式(如随机方式或者其它方式,此处不做限定),从待遍历集合所包含的所有节点中依次提取出对应的实体为数据文件的节点并将其作为待处理节点,也就是说,所提取的待处理节点对应的实体为数据文件。
需要说明的是,对于提取出的每个待处理节点均进行以下步骤S303的处理;并且,从待遍历集合中提取出待处理节点后,被提取出的待处理节点从待遍历集合中移除,即待遍历集合中不包含已经被提取出的待处理节点。
步骤S303:根据关联关系,从关系图谱中确定待处理节点的下游节点。
可以理解的是,针对每个待处理节点,可确定该待处理节点对应的故障信息,该故障信息至少包含了该待处理节点的数据文件ID和数据文件到达时点,此时该待处理节点对应的故障信息可被表示为“(X:数据文件{数据文件ID:M,数据文件到达时点:Ta})”,其中X表示待处理节点,可通过“X.Ta”来表示待处理节点X的数据文件到达时点。
在具体实现步骤S303的过程中,针对每个待处理节点,从关系图谱中,确定与该待处理节点具有消费关系或依赖关系的节点为该待处理节点的下游节点(其中的下游表示故障传递方向)。也就是说,针对每个待处理节点,将通过指示消费关系或依赖关系的边与该待处理节点连接的节点作为该待处理节点的下游节点,即待处理节点通过指示消费关系或依赖关系的边与该下游节点连接。待处理节点与下游节点之间的边可用R表示。
步骤S304:利用待处理节点对应的数据文件到达时间点,以及利用待处理节点与下游节点之间的关系信息,确定待处理节点的下游节点是否为受影响节点,将所确定的实体为数据文件的所有受影响节点添加至待遍历集合中,返回执行步骤S302直至提取不到待处理节点。
可以理解的是,对于每个待处理节点,该待处理节点与其对应的下游节点之间的关联关系为消费关系或依赖关系,由上述本发明实施例图1步骤S102中的表4和表5示出的内容可知,消费关系和依赖关系的关系信息均存在约定数据文件到达时点和容忍时长。
因此,对于每个待处理节点,该待处理节点和与其对应的每个下游节点之间的关系信息至少包含:约定数据文件到达时间点(以R.Td表示)和容忍时长(以R.Te表示),R表示待处理节点和下游节点之间的边。
需要说明的是,待处理节点和下游节点之间的关系信息即为:待处理节点和下游节点之间的关联关系的关系信息。
可以理解的是,“下游”表示故障的传递方向,待处理节点可能是故障节点也可能是受到故障节点影响的受影响节点,故需确定待处理节点的每个下游节点是否收到故障影响(也就是需确定下游节点是否为受影响节点)。
在具体实现步骤S304的过程中,对于每个待处理节点,及对于该待处理节点的每个下游节点,利用该待处理节点和该下游节点之间的关系信息,计算约定数据文件到达时间点与容忍时长之间的和值;若该待处理节点对应的数据文件到达时间点晚于该和值,确定该待处理节点的该下游节点为受影响节点;若该待处理节点对应的数据文件到达时间点不晚于该和值,确定该待处理节点的该下游节点不是受影响节点。
也就是说,对于一个待处理节点X和与其对应的一个下游节点Z,若X.Ta晚于R.Td+R.Te,则表示该下游节点Z为受影响节点(也就是受到故障影响的节点),R.Te表示容忍时长,R.Td表示约定数据文件到达时间点;若X.Ta不晚于R.Td+R.Te,则表示该下游节点Z不是受影响节点。
需要说明的是,若R.Td为确定日期的时点,则X.Ta晚于R.Td+R.Te具体是指:X.Ta>R.Td+R.Te;若R.Td为固定频率的日期时点,则X.Ta晚于R.Td+R.Te具体是指:X.Ta>本轮次应接收数据文件的R.Td+R.Te;例如:假设R.Td为每日21点,R.Te为1小时,那么对于2020年1月1日轮次的数据文件发送来说,X.Ta若晚于2020年1月1日22点,则认为X.Ta晚于R.Td+R.Te。
综上,确定下游节点为受影响节点需满足如下规则:
Z∈{zi|zi-[R:消费or依赖]->X and R.Ta>X.Td+Te}。
通过上述方式,分别确定各个待处理节点的每个下游节点是否为受影响节点。可以理解的是,所确定的每个受影响节点对应的实体可能是系统模块也可能是数据文件。对于每个确定得到的受影响节点,若该受影响节点对应的实体为数据文件时,则可获取该受影响节点Z的故障信息,受影响节点Z的故障信息可被表示为“(Z:数据文件{数据文件ID:Z的ID,数据文件到达时点:max{X.Ta+Z.Tp}})”,Z.Tp为生产受影响节点Z对应的数据文件的时长。
需要说明的是,对应所确定得到的实体为数据文件的每个受影响节点,可能存在以下情况:该受影响节点为多个待处理节点的下游节点,即该受影响节点依赖于多个待处理节点,对于每个所依赖的待处理节点可计算得到一个“X.Ta+Z.Tp”,此时该受影响节点的数据文件到达时点取与其对应的所有“X.Ta+Z.Tp”中的最大值。
通过以上方式,确定各个待处理节点的下游节点后,确定各个下游节点是否为受影响节点。在本轮次中,确定得到所有受影响节点之后,将所确定的实体为数据文件的所有受影响节点添加至待遍历集合中,返回执行步骤S302,重复执行步骤S302至步骤S304,直至提取不到待处理节点(相当于直至待遍历集合为空集),此时表示已最终识别得到所有的受影响节点。
为更好解释说明上述步骤S301至步骤S304中的内容,通过图4示出的故障在节点之间传递的示意图,举例说明如何识别所有的受影响节点。需要说明的是,图4中的边的方向仅用于表示两个节点之间的关联关系的含义。
如图4,假设所确定的故障节点为系统模块1,系统模块1与数据文件1之间具有生产关系,即系统模块1生产数据文件1,此时数据文件1为受到系统模块1影响的受影响节点,将数据文件1添加至待遍历集合中(假设此时待遍历集合中只包含数据文件1)。从待遍历集合中提取数据文件1,由于系统模块3与数据文件1之间具有消费关系,数据文件4与数据文件1之间具有依赖关系,系统模块4与数据文件1之间具有消费关系,因此数据文件1的下游节点为:系统模块3、数据文件4和系统模块4,此时待遍历集合为空集(已提取出数据文件1)。
假设通过上述步骤S304的方式,确定系统模块3、数据文件4和系统模块4这三个下游节点为受影响节点,将数据文件4这一受影响节点添加至待遍历集合。
由于此时待遍历集合中只有数据文件4这一受影响节点,从待遍历集合中提取数据文件4,系统模块5与数据文件4之间具有消费关系,确定系统模块5为数据文件4的下游节点,假设通过上述步骤S304的方式,确定系统模块5为受影响节点,此时待遍历集合中已不包含数据文件4,而系统模块5这一受影响节点的实体为系统模块,不需要将系统模块5添加至待遍历集合中,由于待遍历集合此时已经是空集(也就是上述提及的提取不到待处理节点),结束遍历过程,最终识别得到的所有受影响节点为:数据文件1、系统模块3、数据文件4、系统模块4和系统模块5。
通过上述图4示出的内容可知,在识别受影响节点的过程也就是识别故障传递的过程,故障传递方向与生产关系的方向相同,故障传递方向与消费关系和依赖关系的方向相反。
在本发明实施例中,根据关系图谱及故障节点确定待遍历集合,从待遍历集合中提取待处理节点,并利用关联关系从关系图谱中确定待处理节点的下游节点。利用待处理节点对应的数据文件到达时间点,以及利用待处理节点与下游节点之间的关系信息,确定待处理节点的下游节点是否为受影响节点。将从下游节点中识别得到的实体为数据文件的所有受影响节点添加至待遍历集合中,返回提取待处理节点这一步骤,直至提取不到待处理节点,从而识别出所有受影响节点,以从具有庞杂网络关系信息的IT系统网络中识别受到故障影响的实体。
与上述本发明实施例提供的一种故障分析方法相对应,参见图5,本发明实施例还提供了一种故障分析装置的结构框图,该故障分析装置包括:解析单元501、确定单元502和处理单元503;
解析单元501,用于解析IT系统网络的故障信息得到故障实体。
在具体实现中,解析单元501具体用于:解析IT系统网络的故障信息,确定发生故障的系统模块;若发生故障的系统模块导致所有数据文件无法生产,确定发生故障的系统模块为故障实体;若发生故障的系统模块无法生产目标数据文件,或者,若发生故障的系统模块延迟生产和延迟发送目标数据文件,确定目标数据文件为故障实体。
确定单元502,用于确定预设的关系图谱中与故障实体对应的节点为故障节点,关系图谱基于IT系统网络的各个实体及各个实体之间的关联关系构建得到,每个实体为系统模块或数据文件。
在具体实现中,用于构建关系图谱的确定单元502具体用于:获取IT系统网络的各个实体,以及获取各个实体之间的关联关系,其中,任意两个相关联的实体之间的关联关系为生产关系、消费关系或依赖关系;将实体作为节点,以及将关联关系作为边,构建关系图谱。
处理单元503,用于根据关联关系,从故障节点出发对关系图谱中的节点进行遍历,确定得到所有受到故障节点影响的受影响节点。
在本发明实施例中,预先利用IT系统网络的实体及实体间的关联关系,构建关系图谱。当确定得到关系图谱中的故障节点后,从故障节点出发对关系图谱中的节点进行遍历,确定得到所有受到故障节点影响的受影响节点,以从具有庞杂网络关系信息的IT系统网络中识别受到故障影响的实体。
结合图5示出的内容,处理单元503包括:第一确定子单元、提取子单元、第二确定子单元和处理子单元,各个子单元的执行原理如下:
第一确定子单元,用于根据关系图谱及所述故障节点,确定待遍历集合,待遍历集合中至少包含故障节点和/或受到故障节点影响的受影响节点。
在具体实现中,任意两个相关联的实体之间的关联关系为生产关系、消费关系或依赖关系;第一确定子单元具体用于:若故障节点对应的实体为系统模块,在关系图谱中,将与故障节点具有生产关系的数据文件对应的节点作为受到故障节点影响的受影响节点,将受到故障节点影响的受影响节点添加至待遍历集合中;若故障节点对应的实体为数据文件,将故障节点添加至待遍历集合中。
提取子单元,用于从待遍历集合所包含的所有节点中提取待处理节点,待处理节点对应的实体为数据文件。
第二确定子单元,用于根据关联关系,从关系图谱中确定待处理节点的下游节点。
在具体实现中,任意两个相关联的实体之间的关联关系为生产关系、消费关系或依赖关系;第二确定子单元具体用于:从关系图谱中,确定与待处理节点具有消费关系或依赖关系的节点为待处理节点的下游节点。
处理子单元,用于利用待处理节点对应的数据文件到达时间点,以及利用待处理节点与下游节点之间的关系信息,确定待处理节点的下游节点是否为受影响节点,将所确定的实体为数据文件的所有受影响节点添加至待遍历集合中,返回执行提取子单元直至提取不到待处理节点。
在具体实现中,待处理节点与下游节点之间的关系信息至少包含:约定数据文件到达时间点和容忍时长;用于确定下游节点是否为受影响节点的处理子单元,具体用于:利用待处理节点和与其对应的下游节点之间的关系信息,计算约定数据文件到达时间点与容忍时长之间的和值;若待处理节点对应的数据文件到达时间点晚于和值,确定待处理节点的下游节点为受影响节点;若待处理节点对应的数据文件到达时间点不晚于和值,确定待处理节点的下游节点不是受影响节点。
在本发明实施例中,根据关系图谱及故障节点确定待遍历集合,从待遍历集合中提取待处理节点,并利用关联关系从关系图谱中确定待处理节点的下游节点。利用待处理节点对应的数据文件到达时间点,以及利用待处理节点与下游节点之间的关系信息,确定待处理节点的下游节点是否为受影响节点。将从下游节点中识别得到的实体为数据文件的所有受影响节点添加至待遍历集合中,返回提取待处理节点这一步骤,直至提取不到待处理节点,从而识别出所有受影响节点,以从具有庞杂网络关系信息的IT系统网络中识别受到故障影响的实体。
综上所述,本方式实施例提供一种故障分析方法及装置,预先利用IT系统网络的实体及实体间的关联关系,构建关系图谱。当确定得到关系图谱中的故障节点后,从故障节点出发对关系图谱中的节点进行遍历,确定得到所有受到故障节点影响的受影响节点,以从具有庞杂网络关系信息的IT系统网络中识别受到故障影响的实体。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (7)
1.一种故障分析方法,其特征在于,所述方法包括:
解析IT系统网络的故障信息得到故障实体;
确定预设的关系图谱中与所述故障实体对应的节点为故障节点,所述关系图谱基于所述IT系统网络的各个实体及各个实体之间的关联关系构建得到,每个所述实体为系统模块或数据文件;
根据所述关联关系,从所述故障节点出发对所述关系图谱中的节点进行遍历,确定得到所有受到所述故障节点影响的受影响节点;任意两个相关联的实体之间的关联关系为生产关系、消费关系或依赖关系;
所述根据所述关联关系,从所述故障节点出发对所述关系图谱中的节点进行遍历,确定得到所有受到所述故障节点影响的受影响节点,包括:
根据所述关系图谱及所述故障节点,确定待遍历集合,所述待遍历集合中至少包含所述故障节点和/或受到所述故障节点影响的受影响节点;
从所述待遍历集合所包含的所有节点中提取待处理节点,所述待处理节点对应的实体为数据文件;
根据所述关联关系,从所述关系图谱中确定所述待处理节点的下游节点;
利用所述待处理节点对应的数据文件到达时间点,以及利用所述待处理节点与所述下游节点之间的关系信息,确定所述待处理节点的下游节点是否为受影响节点,将所确定的实体为数据文件的所有受影响节点添加至所述待遍历集合中,返回执行从所述待遍历集合所包含的所有节点中提取待处理节点这一步骤,直至提取不到所述待处理节点;所述待处理节点与所述下游节点之间的关系信息至少包含:约定数据文件到达时间点和容忍时长;
所述利用所述待处理节点对应的数据文件到达时间点,以及利用所述待处理节点与所述下游节点之间的关系信息,确定所述待处理节点的下游节点是否为受影响节点,包括:
利用所述待处理节点和与其对应的下游节点之间的关系信息,计算约定数据文件到达时间点与容忍时长之间的和值;
若所述待处理节点对应的数据文件到达时间点晚于所述和值,确定所述待处理节点的下游节点为受影响节点;
若所述待处理节点对应的数据文件到达时间点不晚于所述和值,确定所述待处理节点的下游节点不是受影响节点。
2.根据权利要求1所述的方法,其特征在于,所述根据所述关系图谱及所述故障节点,确定待遍历集合,包括:
若所述故障节点对应的实体为系统模块,在所述关系图谱中,将与所述故障节点具有生产关系的数据文件对应的节点作为受到所述故障节点影响的受影响节点,将受到所述故障节点影响的受影响节点添加至待遍历集合中;
若所述故障节点对应的实体为数据文件,将所述故障节点添加至所述待遍历集合中。
3.根据权利要求1所述的方法,其特征在于,所述根据所述关联关系,从所述关系图谱中确定所述待处理节点的下游节点,包括:
从所述关系图谱中,确定与所述待处理节点具有消费关系或依赖关系的节点为所述待处理节点的下游节点。
4.根据权利要求1所述的方法,其特征在于,基于IT系统网络的各个实体及各个实体之间的关联关系构建关系图谱的过程,包括:
获取IT系统网络的各个实体,以及获取各个实体之间的关联关系,其中,任意两个相关联的实体之间的关联关系为生产关系、消费关系或依赖关系;
将所述实体作为节点,以及将所述关联关系作为边,构建关系图谱。
5.根据权利要求1所述的方法,其特征在于,所述解析IT系统网络的故障信息得到故障实体,包括:
解析IT系统网络的故障信息,确定发生故障的系统模块;
若所述发生故障的系统模块导致所有数据文件无法生产,确定所述发生故障的系统模块为故障实体;
若所述发生故障的系统模块无法生产目标数据文件,或者,若所述发生故障的系统模块延迟生产和延迟发送所述目标数据文件,确定所述目标数据文件为故障实体。
6.一种故障分析装置,其特征在于,所述装置包括:
解析单元,用于解析IT系统网络的故障信息得到故障实体;
确定单元,用于确定预设的关系图谱中与所述故障实体对应的节点为故障节点,所述关系图谱基于所述IT系统网络的各个实体及各个实体之间的关联关系构建得到,每个所述实体为系统模块或数据文件;
处理单元,用于根据所述关联关系,从所述故障节点出发对所述关系图谱中的节点进行遍历,确定得到所有受到所述故障节点影响的受影响节点;任意两个相关联的实体之间的关联关系为生产关系、消费关系或依赖关系;
所述处理单元包括:
第一确定子单元,用于根据所述关系图谱及所述故障节点,确定待遍历集合,所述待遍历集合中至少包含所述故障节点和/或受到所述故障节点影响的受影响节点;
提取子单元,用于从所述待遍历集合所包含的所有节点中提取待处理节点,所述待处理节点对应的实体为数据文件;
第二确定子单元,用于根据所述关联关系,从所述关系图谱中确定所述待处理节点的下游节点;
处理子单元,用于利用所述待处理节点对应的数据文件到达时间点,以及利用所述待处理节点与所述下游节点之间的关系信息,确定所述待处理节点的下游节点是否为受影响节点,将所确定的实体为数据文件的所有受影响节点添加至所述待遍历集合中,返回执行所述提取子单元直至提取不到所述待处理节点;所述待处理节点与所述下游节点之间的关系信息至少包含:约定数据文件到达时间点和容忍时长;
所述处理子单元,具体用于:
利用所述待处理节点和与其对应的下游节点之间的关系信息,计算约定数据文件到达时间点与容忍时长之间的和值;
若所述待处理节点对应的数据文件到达时间点晚于所述和值,确定所述待处理节点的下游节点为受影响节点;
若所述待处理节点对应的数据文件到达时间点不晚于所述和值,确定所述待处理节点的下游节点不是受影响节点。
7.根据权利要求6所述的装置,其特征在于,所述第一确定子单元具体用于:若所述故障节点对应的实体为系统模块,在所述关系图谱中,将与所述故障节点具有生产关系的数据文件对应的节点作为受到所述故障节点影响的受影响节点,将受到所述故障节点影响的受影响节点添加至待遍历集合中;若所述故障节点对应的实体为数据文件,将所述故障节点添加至所述待遍历集合中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110981733.8A CN113672776B (zh) | 2021-08-25 | 2021-08-25 | 一种故障分析方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110981733.8A CN113672776B (zh) | 2021-08-25 | 2021-08-25 | 一种故障分析方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113672776A CN113672776A (zh) | 2021-11-19 |
CN113672776B true CN113672776B (zh) | 2024-04-12 |
Family
ID=78546147
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110981733.8A Active CN113672776B (zh) | 2021-08-25 | 2021-08-25 | 一种故障分析方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113672776B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114422338B (zh) * | 2022-03-29 | 2022-08-26 | 浙江网商银行股份有限公司 | 故障影响分析方法以及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015194831A (ja) * | 2014-03-31 | 2015-11-05 | 株式会社日立システムズ | 障害現象情報分析装置及び障害現象情報分析方法 |
CN109783550A (zh) * | 2018-12-29 | 2019-05-21 | 北京奇安信科技有限公司 | 数据处理方法、装置、系统、计算机可读存储介质 |
CN111193605A (zh) * | 2019-08-28 | 2020-05-22 | 腾讯科技(深圳)有限公司 | 一种故障定位方法、装置及存储介质 |
CN111913824A (zh) * | 2020-06-23 | 2020-11-10 | 中国建设银行股份有限公司 | 确定数据链路故障原因的方法及相关设备 |
CN111930547A (zh) * | 2020-07-31 | 2020-11-13 | 中国工商银行股份有限公司 | 一种故障定位方法、装置及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2291949B1 (en) * | 2008-04-21 | 2011-10-12 | Telefonaktiebolaget L M Ericsson (PUBL) | Method and system for network fault management |
-
2021
- 2021-08-25 CN CN202110981733.8A patent/CN113672776B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015194831A (ja) * | 2014-03-31 | 2015-11-05 | 株式会社日立システムズ | 障害現象情報分析装置及び障害現象情報分析方法 |
CN109783550A (zh) * | 2018-12-29 | 2019-05-21 | 北京奇安信科技有限公司 | 数据处理方法、装置、系统、计算机可读存储介质 |
CN111193605A (zh) * | 2019-08-28 | 2020-05-22 | 腾讯科技(深圳)有限公司 | 一种故障定位方法、装置及存储介质 |
CN111913824A (zh) * | 2020-06-23 | 2020-11-10 | 中国建设银行股份有限公司 | 确定数据链路故障原因的方法及相关设备 |
CN111930547A (zh) * | 2020-07-31 | 2020-11-13 | 中国工商银行股份有限公司 | 一种故障定位方法、装置及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113672776A (zh) | 2021-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9559928B1 (en) | Integrated test coverage measurement in distributed systems | |
US9450849B1 (en) | Trace backtracking in distributed systems | |
CN108874558B (zh) | 分布式事务的消息订阅方法、电子装置及可读存储介质 | |
US20200358667A1 (en) | System and method for tracking service requests | |
CN110032575A (zh) | 数据查询方法、装置、设备和存储介质 | |
US20080052322A1 (en) | Conflict resolution in database replication through autonomous node qualified folding | |
CN112905323B (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN108710681A (zh) | 文件获取方法、装置、设备及存储介质 | |
US20190363986A1 (en) | Reconstructing message flows based on hash values | |
CN112214505B (zh) | 数据同步方法、装置、计算机可读存储介质及电子设备 | |
CN113761219A (zh) | 基于知识图谱的检索方法、装置、电子设备及存储介质 | |
CN114091610A (zh) | 智能决策方法及装置 | |
CN113672776B (zh) | 一种故障分析方法及装置 | |
US10331656B2 (en) | Data migration validation | |
CN103379016A (zh) | 信息提醒方法和装置 | |
Bellavista et al. | Design guidelines for big data gathering in industry 4.0 environments | |
CN106789147B (zh) | 一种流量分析方法及装置 | |
CN113064905B (zh) | 业务流程处理方法、装置、电子设备和计算机可读介质 | |
CN117880060A (zh) | 一种基于规则引擎的网络运维方法、系统、设备及介质 | |
CN113672668A (zh) | 大数据场景下的日志实时处理方法及装置 | |
US20150088958A1 (en) | Information Processing System and Distributed Processing Method | |
CN111078764B (zh) | 数据处理方法、装置、计算机可读存储介质及电子设备 | |
US8538935B2 (en) | One-to-one and one-to-many relationships in databases | |
WO2014061190A1 (ja) | イベント処理装置、イベント処理方法、およびイベント処理プログラム | |
CN115118583A (zh) | 日志查询方法、装置、电子设备及计算机可读存储设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |