CN113434326A - 基于分布式集群拓扑实现网络系统故障定位的方法及装置、处理器及其计算机可读存储介质 - Google Patents

基于分布式集群拓扑实现网络系统故障定位的方法及装置、处理器及其计算机可读存储介质 Download PDF

Info

Publication number
CN113434326A
CN113434326A CN202110787064.0A CN202110787064A CN113434326A CN 113434326 A CN113434326 A CN 113434326A CN 202110787064 A CN202110787064 A CN 202110787064A CN 113434326 A CN113434326 A CN 113434326A
Authority
CN
China
Prior art keywords
fault
node
time
network system
system based
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110787064.0A
Other languages
English (en)
Other versions
CN113434326B (zh
Inventor
俞枫
曾宏祥
毛梦非
王厦
冯一欣
吴康
朱晓云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guotai Junan Securities Co Ltd
Original Assignee
Guotai Junan Securities Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guotai Junan Securities Co Ltd filed Critical Guotai Junan Securities Co Ltd
Priority to CN202110787064.0A priority Critical patent/CN113434326B/zh
Publication of CN113434326A publication Critical patent/CN113434326A/zh
Application granted granted Critical
Publication of CN113434326B publication Critical patent/CN113434326B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
    • Y04S10/52Outage or fault management, e.g. fault detection or location

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明涉及一种基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法,其中,该方法根据故障传播时间和关键指标数据得到故障传播因子,由于两节点之间的相关度随着时间的增大而减小,故障传播时间则作为故障传播因子的组成部分,可以更加准确地确定集群内各节点的故障关联度,同时,本发明故障传播因子的加入可以大幅提高根因率的准确度,进而更好的确认出故障点。本发明还涉及一种基于上述方法的相应的装置、处理器及其存储介质。采用了本发明的基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法、装置、处理器及其存储介质,结合故障传播时间、拓扑、关键指标和优化根因算法,可以更加快速、准确的帮助运维人员定位故障根源。

Description

基于分布式集群拓扑实现网络系统故障定位的方法及装置、 处理器及其计算机可读存储介质
技术领域
本发明涉及计算机网络技术领域,尤其涉及分布式集群故障定位技术领域,具体是指一种基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法、装置、处理器及其计算机可读存储介质。
背景技术
随着互联网的发展,单体架构演变为分布式网络集群,集群中的实例越来越多,因此对于主机等设备的维护也变得越来越重要。在运维工作中,运维人员一般是通过机器的告警判断机器是否异常,但随着集群规模的扩大、业务的交错,使得主机之间的逻辑关系也变得复杂,一个节点出现了故障,往往会引发其他节点也发生异常。运维人员需要对故障机器逐一排查,寻找根因,找到故障的源头。而现实中往往不同的集群可能分布在不同的机房而且机器之间的逻辑关系也多种多样,给运维人员排障带来巨大的困扰,费时费力。
现有技术根据节点之间的关系路径,构建根因路径进行故障定位分析,准确率低。因此,有必要提出一种改进以克服现有技术缺陷。
发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种根因率准确度高的基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法、装置、处理器及其计算机可读存储介质。
为了实现上述目的,本发明的基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法、装置、处理器及其计算机可读存储介质如下:
该基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法,其主要特点是,所述的系统包括:
所述的方法包括以下步骤:
(1)根据网络集群中的故障传播时间和系统预设的指标数据得出故障传播因子;
(2)将所述的故障传播因子与归因算法结合得到归因系数;
(3)以所述的网络集群中每个触发告警的节点为起点,在故障归因图上进行根因分数传播测试,得到每一节点的故障时间根因分数;
(4)对所述的网络集群中的所有节点的所述的故障时间根因分数进行归一化处理,得到所有节点的根因概率分布;
(5)根据所述的所有节点的根因概率分布的情况推断出故障节点。
较佳地,所述的步骤(1)中的故障传播时间具体为:
记录所述的网络集群中各个节点发生故障的时间,所述的各个节点之间的故障时间差作为所述的故障传播时间。
较佳地,计算所述的步骤(1)中的故障传播时间具体为:
根据历史故障传播时间进行统计后推算出本次故障传播时间;所述步骤(1)中,故障传播因子的计算方法为:用历史故障传播时间进行线性拟合推算出本次故障传播时间Δta,b;然后基于以下公式得出故障传播因子ka,b
Figure BDA0003158727460000021
较佳地,所述的步骤(1)中的指标数据包括CPU利用率、内存利用率和磁盘利用率中的任意组合;所述步骤(2)中归因系数的计算方法为:
获取所述指标数据,计算一阶差分的线性相关度,取最大值的开方;再乘以所述故障传播因子ka,b
Figure BDA0003158727460000022
其中μa,b是节点a和节点b之间的归因系数,
Figure BDA0003158727460000023
是节点n的第k个关键指标在异常时间段内的时间序列,corr是皮尔逊相关系数,ka,b故障传播因子。
较佳地,所述的步骤(3)中的故障归因图具体为:
根据所述的网络集群中各个节点之间的关系构建的故障归因图。
较佳地,所述的步骤(3)具体包括以下步骤:
(3.1)每次传播测试开始时,根据发出告警的节点上的所述的指标数据与其相关联的节点的指标数据计算出初始故障时间根因分数;
(3.2)遍历故障所有无环最长传播路径,在每条路径的节点留下根因分数,并根据所述的故障传播时间为每一个节点加上权重,计算各个节点之间的故障时间根因分数;
(3.3)每个节点将所有路径留下的故障时间根因分数叠加,生成该次传播测试的故障时间根因分数。
该用于基于分布式集群拓扑技术针对网络系统进行故障定位的装置,其主要特点是,所述的装置包括:
处理器,被配置成执行计算机可执行指令;
存储器,存储一个或多个计算机可执行指令,所述计算机可执行指令被所述处理器执行时,实现上述基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法的各个步骤。
该用于基于分布式集群拓扑技术实现针对网络系统进行故障定位的处理器,其主要特点是,所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现上述基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法的各个步骤。
该计算机可读存储介质,其主要特点是,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现上述基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法的各个步骤。
采用了本发明的基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法、装置、处理器及其计算机可读存储介质,根据故障传播时间和关键指标数据得到故障传播因子,由于网络集群中的两节点之间的相关度随着时间的增大而减小,因此故障传播时间作为故障传播因子的组成部分,可以更加准确地确定网络集群内各节点的故障关联度,本发明故障传播因子的加入可以大幅提高根因率的准确度,进而更好的确认出故障点,同时,由于本技术方案增加网络集群路径上节点之间故障传播时间,以及每个节点上的关键指标作为系数,优化根因分析算法,提升根因率的准确度。由于进行了多因素根因分析,通过结合故障传播时间、拓扑、关键指标,优化根因算法,可以更加快速、准确的帮助运维人员定位故障根源。
附图说明
图1为本发明的基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法的流程图。
具体实施方式
为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。
在详细说明根据本发明的实施例前,应该注意到的是,在下文中,术语“包括”、“包含”或任何其他变体旨在涵盖非排他性的包含,由此使得包括一系列要素的过程、方法、物品或者设备不仅包含这些要素,而且还包含没有明确列出的其他要素,或者为这种过程、方法、物品或者设备所固有的要素。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
请参阅图1所示,该基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法,其中,所述的方法包括以下步骤:
(1)根据网络集群中的故障传播时间和系统预设的指标数据得出故障传播因子;
(2)将所述的故障传播因子与归因算法结合得到归因系数;
(3)以所述的网络集群中每个触发告警的节点为起点,在故障归因图上进行根因分数传播测试,得到每一节点的故障时间根因分数;
(4)对所述的网络集群中的所有节点的所述的故障时间根因分数进行归一化处理,得到所有节点的根因概率分布;
(5)根据所述的所有节点的根因概率分布的情况推断出故障节点。
作为本发明的优选实施方式,所述的步骤(1)中的故障传播时间具体为:
记录所述的网络集群中各个节点发生故障的时间,所述的各个节点之间的故障时间差作为所述的故障传播时间。
作为本发明的优选实施方式,计算所述的步骤(1)中的故障传播时间具体为:
根据历史故障传播时间进行统计后推算出本次故障传播时间。然后计算故障传播因子:
用历史故障传播时间进行线性拟合推算出本次故障传播时间Δta,b。然后基于以下公式得出故障传播因子ka,b
Figure BDA0003158727460000041
然后再计算故障传播因子在构建故障归因图后,为了给不同的归因路线分配不同的权重,算法需要为每对相连的节点计算归因系数。
每个主机和服务实例需要配有若干关键指标,作为对应节点运行状态的参考依据。在计算两个节点间的归因系数时,算法读取各自的关键指标数据,两两组合,计算一阶差分的线性相关度,取最大值的开方。再乘故障传播因子。
Figure BDA0003158727460000051
其中,μa,b是节点a和节点b之间的归因系数,
Figure BDA0003158727460000052
是节点n的第k个关键指标在异常时间段内的时间序列,corr是皮尔逊相关系数,ka,b故障传播因子。
为减轻计算时对内存的需求,每个指标数据只在要用的时候读取,并在用完后删除。为了缩短每个指标数据在内存中的占用时间,算法以节点出度最低优先的方式遍历故障归因图,并在某个节点与其所有相连节点的归因系数均已计算完毕后释放该节点指标数据所占用的内存空间。
对于每个触发相关告警的节点,算法都会以它为起点,在归因图上进行一次根因分数传播测试。每次传播测试开始时,起点的根因分数R0=1,其余节点的根因分数RV\0=0。随后遍历所有无环最长传播路径,并在每条路径的节点留下根因分数。在每条路径上,点a的下游节点b的根因分数Rb=Ra×μa,b。每个节点将所有路径留下的根因分数叠加在一起,生成该次传播测试的结果。当所有传播测试结束后,每个节点将每次传播测试生成的根因分数叠加在一起,得到最终该节点的根因分数。最终,对所有节点的根因分数做归一化处理后,得到所有节点的根因概率分布。本技术方案根据故障传播时间和关键指标得到的故障传播因子,由于两节点之间的相关度随着时间的增大而减小。加上该因子会提高根因率的准确度,进而更好的确认出故障点。
作为本发明的优选实施方式,所述的步骤(1)中的指标数据包括CPU利用率、内存利用率和磁盘利用率中的任意组合。
作为本发明的优选实施方式,所述的步骤(3)中的故障归因图具体为:
根据所述的网络集群中各个节点之间的关系构建的故障归因图。
作为本发明的优选实施方式,所述的步骤(3)具体包括以下步骤:
(3.1)每次传播测试开始时,根据发出告警的节点上的所述的指标数据与其相关联的节点的指标数据计算出初始故障时间根因分数;
(3.2)遍历故障所有无环最长传播路径,在每条路径的节点留下根因分数,并根据所述的故障传播时间为每一个节点加上权重,计算各个节点之间的故障时间根因分数;
(3.3)每个节点将所有路径留下的故障时间根因分数叠加,生成该次传播测试的故障时间根因分数。
该用于基于分布式集群拓扑技术实现针对网络系统进行故障定位的装置,其中,所述的装置包括:
处理器,被配置成执行计算机可执行指令;
存储器,存储一个或多个计算机可执行指令,所述计算机可执行指令被所述处理器执行时,实现上述基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法的各个步骤。
该用于基于分布式集群拓扑技术实现针对网络系统进行故障定位的处理器,其中,所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现上述基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法的各个步骤。
该计算机可读存储介质,其中,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现上述基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法的各个步骤。
在本发明的一具体实施方式中,对于每个触发相关告警的节点,算法都会以它为起点,在归因图上进行一次根因分数传播测试。每次传播测试开始时,起点的根因分数R0=1,其余节点的根因分数Rn=0(n≠0)。随后遍历所有无环最长传播路径,并在每条路径的节点留下根因分数。在每条路径上,节点a的下游节点b的根因分数Rb=Ra×μa,b。每个节点将所有路径留下的根因分数叠加在一起,生成该次传播测试的结果。当所有传播测试结束后,每个节点将每次传播测试生成的根因分数叠加在一起,得到最终该节点的根因分数。最终,对所有节点的根因分数做归一化处理后,得到所有节点的根因概率分布。本技术方案根据故障传播时间和关键指标得到的故障传播因子,由于两节点之间的相关度随着时间的增大而减小。加上该因子会提高根因率的准确度,进而更好的确认出故障点。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成的,程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一实施例”、“一些实施例”、“示例”、“具体示例”、或“实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
采用了本发明的基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法、装置、处理器及其计算机可读存储介质,根据故障传播时间和关键指标数据得到故障传播因子,由于网络集群中的两节点之间的相关度随着时间的增大而减小,因此故障传播时间作为故障传播因子的组成部分,可以更加准确地确定网络集群内各节点的故障关联度,本发明故障传播因子的加入可以大幅提高根因率的准确度,进而更好的确认出故障点,同时,由于本技术方案增加网络集群路径上节点之间故障传播时间,以及每个节点上的关键指标作为系数,优化根因分析算法,提升根因率的准确度。由于进行了多因素根因分析,通过结合故障传播时间、拓扑、关键指标,优化根因算法,可以更加快速、准确的帮助运维人员定位故障根源。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。

Claims (11)

1.一种基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法,其特征在于,所述的方法包括以下步骤:
(1)根据网络集群中的故障传播时间和系统预设的指标数据得出故障传播因子;
(2)将所述的故障传播因子与归因算法结合得到归因系数;
(3)以所述的网络集群中每个触发告警的节点为起点,在故障归因图上进行根因分数传播测试,得到每一节点的故障时间根因分数;
(4)对所述的网络集群中的所有节点的所述的故障时间根因分数进行归一化处理,得到所有节点的根因概率分布;
(5)根据所述的所有节点的根因概率分布的情况推断出故障节点。
2.根据权利要求1所述的基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法,其特征在于,所述的步骤(1)中的故障传播时间具体为:
记录所述的网络集群中各个节点发生故障的时间,所述的各个节点之间的故障时间差作为所述的故障传播时间。
3.根据权利要求2所述的基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法,其特征在于,计算所述的步骤(1)中的故障传播时间具体为:根据历史故障传播时间进行统计后推算出本次故障传播时间。
4.根据权利要求3所述的基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法,其特征在于,所述的步骤(1)中,所述的故障传播因子的计算方法具体为:用所述的历史故障传播时间进行线性拟合推算出所述的本次故障传播时间Δta,b,并根据以下公式计算所述的故障传播因子ka,b
Figure FDA0003158727450000011
其中,a表示节点a,b表示节点b,e为自然底数,Δta,b为节点a与节点b之间的故障时间差,ka,b为节点a与节点b的故障传播因子。
5.根据权利要求4所述的基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法,其特征在于,所述的步骤(1)中的指标数据包括CPU利用率、内存利用率和磁盘利用率中的任意组合。
6.根据权利要求5所述的基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法,其特征在于,所述的步骤(2)中所述的归因系数的计算方法为:
获取所述的指标数据,计算各个节点之间的一阶差分线性相关度,并取最大值的开方值,再乘以所述的故障传播因子ka,b,具体用以下公式计算所述的归因系数:
Figure FDA0003158727450000021
其中,μa,b为节点a和节点b之间的归因系数,
Figure FDA0003158727450000022
是节点a的第i个关键指标在异常时间段内的时间序列,
Figure FDA0003158727450000023
为节点b的第j个关键指标在异常时间段内的时间序列,corr为皮尔逊相关系数,ka,b为节点a与节点b的故障传播因子。
7.根据权利要求1所述的基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法,其特征在于,所述的步骤(3)中的故障归因图具体为:
根据所述的网络集群中各个节点之间的关系构建的故障归因图。
8.根据权利要求7所述的基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法,其特征在于,所述的步骤(3)具体包括以下步骤:
(3.1)每次传播测试开始时,根据发出告警的节点上的所述的指标数据与其相关联的节点的指标数据计算出初始故障时间根因分数;
(3.2)遍历故障所有无环最长传播路径,在每条路径的节点留下根因分数,并根据所述的故障传播时间为每一个节点加上权重,计算各个节点之间的故障时间根因分数;
(3.3)每个节点将所有路径留下的故障时间根因分数叠加,生成该次传播测试的故障时间根因分数。
9.一种用于基于分布式集群拓扑技术实现针对网络系统进行故障定位的装置,其特征在于,所述的装置包括:
处理器,被配置成执行计算机可执行指令;
存储器,存储一个或多个计算机可执行指令,所述计算机可执行指令被所述处理器执行时,实现权利要求1~8中任一项所述的基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法的各个步骤。
10.一种用于基于分布式集群拓扑技术实现针对网络系统进行故障定位的处理器,其特征在于,所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现权利要求1~8中任一项所述的基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法的各个步骤。
11.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现权利要求1~8中任一项所述的基于分布式集群拓扑技术实现针对网络系统进行故障定位的方法的各个步骤。
CN202110787064.0A 2021-07-12 2021-07-12 基于分布式集群拓扑实现网络系统故障定位的方法及装置、处理器及其计算机可读存储介质 Active CN113434326B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110787064.0A CN113434326B (zh) 2021-07-12 2021-07-12 基于分布式集群拓扑实现网络系统故障定位的方法及装置、处理器及其计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110787064.0A CN113434326B (zh) 2021-07-12 2021-07-12 基于分布式集群拓扑实现网络系统故障定位的方法及装置、处理器及其计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN113434326A true CN113434326A (zh) 2021-09-24
CN113434326B CN113434326B (zh) 2024-05-31

Family

ID=77760119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110787064.0A Active CN113434326B (zh) 2021-07-12 2021-07-12 基于分布式集群拓扑实现网络系统故障定位的方法及装置、处理器及其计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN113434326B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114325232A (zh) * 2021-12-28 2022-04-12 微梦创科网络科技(中国)有限公司 一种故障定位方法和装置
CN114896093A (zh) * 2022-05-10 2022-08-12 国泰君安证券股份有限公司 基于指标相关性实现多组件软件系统的故障根因推荐处理的方法、装置、处理器及存储介质
CN116883067A (zh) * 2023-08-09 2023-10-13 山东资略信息技术有限公司 一种医药品牌推广系统及方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8661295B1 (en) * 2011-03-31 2014-02-25 Amazon Technologies, Inc. Monitoring and detecting causes of failures of network paths
WO2017055073A1 (en) * 2015-09-29 2017-04-06 Asml Netherlands B.V. Methods of modelling systems or performing predictive maintenance of lithographic systems
CN112416645A (zh) * 2020-12-03 2021-02-26 广州云岫信息科技有限公司 一种基于人工智能的故障根因推断定位方法及装置
CN112463422A (zh) * 2020-11-04 2021-03-09 鸬鹚科技(苏州)有限公司 物联网故障运维方法、装置、计算机设备及存储介质
WO2021043184A1 (zh) * 2019-09-04 2021-03-11 中兴通讯股份有限公司 故障根因确定方法和装置、服务器和计算机可读介质
WO2021052380A1 (zh) * 2019-09-17 2021-03-25 华为技术有限公司 提取故障传播条件的方法、装置及存储介质
CN112787841A (zh) * 2019-11-11 2021-05-11 华为技术有限公司 故障根因定位方法及装置、计算机存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8661295B1 (en) * 2011-03-31 2014-02-25 Amazon Technologies, Inc. Monitoring and detecting causes of failures of network paths
WO2017055073A1 (en) * 2015-09-29 2017-04-06 Asml Netherlands B.V. Methods of modelling systems or performing predictive maintenance of lithographic systems
WO2021043184A1 (zh) * 2019-09-04 2021-03-11 中兴通讯股份有限公司 故障根因确定方法和装置、服务器和计算机可读介质
WO2021052380A1 (zh) * 2019-09-17 2021-03-25 华为技术有限公司 提取故障传播条件的方法、装置及存储介质
CN112787841A (zh) * 2019-11-11 2021-05-11 华为技术有限公司 故障根因定位方法及装置、计算机存储介质
CN112463422A (zh) * 2020-11-04 2021-03-09 鸬鹚科技(苏州)有限公司 物联网故障运维方法、装置、计算机设备及存储介质
CN112416645A (zh) * 2020-12-03 2021-02-26 广州云岫信息科技有限公司 一种基于人工智能的故障根因推断定位方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈诗;任卓明;刘闯;张子柯;: "时序网络中关键节点的识别方法研究进展", 电子科技大学学报, no. 02, pages 134 - 157 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114325232A (zh) * 2021-12-28 2022-04-12 微梦创科网络科技(中国)有限公司 一种故障定位方法和装置
CN114325232B (zh) * 2021-12-28 2023-07-25 微梦创科网络科技(中国)有限公司 一种故障定位方法和装置
CN114896093A (zh) * 2022-05-10 2022-08-12 国泰君安证券股份有限公司 基于指标相关性实现多组件软件系统的故障根因推荐处理的方法、装置、处理器及存储介质
CN116883067A (zh) * 2023-08-09 2023-10-13 山东资略信息技术有限公司 一种医药品牌推广系统及方法

Also Published As

Publication number Publication date
CN113434326B (zh) 2024-05-31

Similar Documents

Publication Publication Date Title
CN113434326A (zh) 基于分布式集群拓扑实现网络系统故障定位的方法及装置、处理器及其计算机可读存储介质
CN111193605B (zh) 一种故障定位方法、装置及存储介质
US10467084B2 (en) Knowledge-based system for diagnosing errors in the execution of an operation
JP5910727B2 (ja) 運用管理装置、運用管理方法、及び、プログラム
CN110995482B (zh) 告警分析方法、装置、计算机设备及计算机可读存储介质
WO2013128550A1 (ja) 監視システム及び監視プログラム
JPWO2012101933A1 (ja) 運用管理装置、運用管理方法、及びプログラム
CN111078447B (zh) 一种微服务架构中的异常定位方法、装置、设备、介质
WO2016107425A1 (zh) 基于数据中心的故障分析方法和装置
CN110932901A (zh) 一种告警等级调整方法及系统
CN114036826A (zh) 模型训练方法、根因确定方法、装置、设备及存储介质
JP5971395B2 (ja) システム分析装置、及び、システム分析方法
JP2019057139A (ja) 運用管理システム、監視サーバ、方法およびプログラム
JP2016537702A (ja) システムから取得される測定値を評価する方法及びシステム
WO2013145584A1 (ja) イベント相関検出システム
CN110233796B (zh) 一种基于加权路由算法的电力通信网优化方法及设备
CN116933121A (zh) 数据异常检测方法及装置
CN113127804B (zh) 确定车辆故障次数的方法、装置、计算机设备和存储介质
CN111901448B (zh) 一种集群节点故障场景ctdb虚拟ip均衡分配方法
CN117664118A (zh) 一种线路合并方法、装置及存储介质
US20230336409A1 (en) Combination rules creation device, method and program
US20220108189A1 (en) Graph summarization apparatus, graph summarization method and program
CN113708959A (zh) 一种规则库更新方法、装置及设备
CN116471066B (zh) 一种基于流量探针的流量分析方法
CN110968463B (zh) 一种确定群组中各数据节点类型的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant