CN115550144A - 分布式故障节点预测方法、装置、电子设备及存储介质 - Google Patents

分布式故障节点预测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115550144A
CN115550144A CN202211520137.0A CN202211520137A CN115550144A CN 115550144 A CN115550144 A CN 115550144A CN 202211520137 A CN202211520137 A CN 202211520137A CN 115550144 A CN115550144 A CN 115550144A
Authority
CN
China
Prior art keywords
node
fault
nodes
central
communication time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211520137.0A
Other languages
English (en)
Other versions
CN115550144B (zh
Inventor
陈胜俭
林才纺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ji Hua Laboratory
Original Assignee
Ji Hua Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ji Hua Laboratory filed Critical Ji Hua Laboratory
Priority to CN202211520137.0A priority Critical patent/CN115550144B/zh
Publication of CN115550144A publication Critical patent/CN115550144A/zh
Application granted granted Critical
Publication of CN115550144B publication Critical patent/CN115550144B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请涉及工业物联网故障评估技术领域,提供了一种分布式故障节点预测方法、装置、电子设备及存储介质,其中,方法包括以下步骤:S1.获取每个节点对应的邻近节点集合和远亲节点集合;S2.根据所述邻近节点集合和所述远亲节点集合确定每个所述节点对应的故障节点集合;S3.根据每个所述节点对应的所述故障节点集合获取潜在故障节点。本发明具有预测结果准确和预测高效的有益效果。

Description

分布式故障节点预测方法、装置、电子设备及存储介质
技术领域
本申请涉及工业物联网故障评估技术领域,具体而言,涉及一种分布式故障节点预测方法、装置、电子设备及存储介质。
背景技术
近年来,人工智能及机器人技术的发展和普及,让传统制造业向智能制造迈进了重要一步。目前学术界和工业界都在研究适配智能工厂的网络拓扑和控制调度算法,为了确保整个系统有足够的鲁棒性,智能工厂的智能机器人和智能设备通常以分布式的网络拓扑进行数据交换。当以分布式的方式进行设备互联时,各个设备很难及时地发现系统中的潜在故障节点(其中,节点是指智能机器人和智能设备,下文以节点统称智能机器人和智能设备),从而让系统陷入漫长的排查过程而影响生产效率。因此,研究在群体分布式场景下的快速故障节点预测算法,是智能工厂能够最终落地的关键算法之一。
目前业界主要基于机器学习算法,特别是深度学习算法来对潜在故障节点来进行预测。随着样本数据的增加以及机器学习算法的成熟,这种方法一般能给出一个大概率正确的预测值。但在工业场景下,样本数据,特别是有差异的样本数据不容易获得,而机器学习算法又严重依赖样本量,这会导致预测值的准确度偏低。另外,机器学习算法的数值模型通常较为复杂,只有在适合并行计算的硬件平台上才能快速求解,而工业设备通常只有一些计算能力有限的芯片,这会导致评估时间过长从而导致算法实时性偏低。
基于上述问题,目前尚未有有效的解决方法。
发明内容
本申请的目的在于提供一种分布式故障节点预测方法、装置、电子设备及存储介质,能够快速预测出潜在故障节点,保证生产不受影响。
第一方面,本申请提供了一种分布式故障节点预测方法,用于对分布式系统的潜在故障节点进行预测,所述分布式系统包括多个以分布式的网络拓扑进行数据交换的节点;其中,包括以下步骤:
S1.获取每个节点对应的邻近节点集合和远亲节点集合;
S2.根据所述邻近节点集合和所述远亲节点集合确定每个所述节点对应的故障节点集合;
S3.根据每个所述节点对应的所述故障节点集合获取潜在故障节点;
步骤S2包括依次以各所述节点为中心节点,并执行以下步骤:
S201.令所述中心节点向所述邻近节点集合中的每个邻近节点发送第二探测数据包,以获取每个所述邻近节点和所述中心节点之间的第一通信时长;
S202.令每个所述邻近节点向所述远亲节点集合中的同一个远亲节点发送第三探测数据包,以获取各所述邻近节点经所述远亲节点到所述中心节点的第二通信时长;
S203.根据所述第一通信时长和所述第二通信时长分别计算所述中心节点对应的第一通信时间方差和第二通信时间方差;
S204.根据所述第一通信时间方差和所述第二通信时间方差判断所述远亲节点是否为候选故障节点;
S205.若是,则根据所述第一通信时间方差和所述第二通信时间方差计算所述候选故障节点对应的故障度,执行步骤S206;
若否,直接执行步骤S206;
S206.选取未被判断是否为候选故障节点的远亲节点作为所述远亲节点集合中的下一个远亲节点,重复执行步骤S201-步骤S205以判断所述远亲节点集合中的下一个远亲节点是否为候选故障节点,直到将所述远亲节点集合中的所有远亲节点判断完毕;
S207.获取所有所述候选故障节点,以作为所述中心节点对应的所述故障节点集合。
本申请的分布式故障节点预测方法,通过获取每个节点对应的邻近节点集合和远亲节点集合;根据邻近节点集合和远亲节点集合确定每个节点对应的故障节点集合;根据每个节点对应的故障节点集合获取潜在故障节点。通过采用在线故障预测算法,所有节点可在正常工作的同时进行故障预测,而不需一个额外的离线训练过程;另外,算法的数值求解过程简单高效,关键算法步骤只需少量的运算即可,与常规机器学习算法区别明显,有效提高了预测结果的准确性。
可选地,本申请提供的分布式故障节点预测方法,步骤S1包括依次以每个节点为中心节点,并执行以下步骤:
S101.以所述中心节点以外的其余节点作为第一节点;
S102.令所述中心节点向每个所述第一节点发送第一探测数据包,以获取每个所述第一节点和所述中心节点之间的数据往返时间;
S103.重复执行步骤S102若干次,以计算每个所述第一节点和所述中心节点之间的平均数据往返时间;
S104.根据每个所述第一节点对应的所述平均数据往返时间对所述第一节点进行升序排序;所述平均数据往返时间越短,所述第一节点的序号越靠前;
S105.对排序完毕的所有所述第一节点进行划分,以获取所述中心节点的所述邻近节点集合和所述远亲节点集合。
通过这种方式,可以准确地获取邻近节点集合和远亲节点集合,提高了获取邻近节点集合和远亲节点集合的准确性。
可选地,本申请提供的分布式故障节点预测方法,步骤S205中,所述候选故障节点对应的故障度的计算公式如下:
Figure 34754DEST_PATH_IMAGE001
其中,
Figure 561551DEST_PATH_IMAGE002
为所述候选故障节点对应的故障度;
Figure 542014DEST_PATH_IMAGE003
为所述第一通信时间方差;
Figure 128853DEST_PATH_IMAGE004
为所述第二通信时间方差;
Figure 696232DEST_PATH_IMAGE005
为第三预设常数,且
Figure 902085DEST_PATH_IMAGE005
大于0。
可选地,本申请提供的分布式故障节点预测方法,步骤S3包括:
S301.获取各个所述中心节点对应的所述故障节点集合的各候选故障节点的所述故障度;
S302.根据所述故障节点集合的各候选故障节点的所述故障度计算每个所述候选故障节点对应的平均故障度;
S303.获取所述平均故障度高于第一预设阈值对应的所述候选故障节点,以作为所述潜在故障节点。
可选地,本申请提供的分布式故障节点预测方法,步骤S3之后包括:
每隔第一预设时间段将每个所述节点对应的所述邻近节点集合、所述远亲节点集合和所述故障节点集合进行清空,并重新执行步骤S1-步骤S3。
通过这种设置方式,可以使每个节点只需按照正确的时间间隔进行上述操作,则可在同一时间内快速达成潜在故障节点的全网共识,从而快速启动备用节点,使生产能无中断顺利进行。
本申请提供的分布式故障节点预测方法,通过获取每个节点对应的邻近节点集合和远亲节点集合;根据邻近节点集合和远亲节点集合确定每个节点对应的故障节点集合;根据每个节点对应的故障节点集合获取潜在故障节点。通过采用在线故障预测算法,所有节点可在正常工作的同时进行故障预测,而不需一个额外的离线训练过程;另外,算法的数值求解过程简单高效,关键算法步骤只需少量的运算即可,与常规机器学习算法区别明显,有效提高了预测结果的准确性。
第二方面,本申请提供一种分布式故障节点预测装置,用于对分布式系统的潜在故障节点进行预测,所述分布式系统包括多个以分布式的网络拓扑进行数据交换的节点;其中,所述分布式故障节点预测装置包括以下模块:
第一获取模块:用于获取每个节点对应的邻近节点集合和远亲节点集合;
计算模块:用于根据所述邻近节点集合和所述远亲节点集合确定每个所述节点对应的故障节点集合;
第二获取模块:用于根据每个所述节点对应的所述故障节点集合获取潜在故障节点;
计算模块在根据所述邻近节点集合和所述远亲节点集合确定每个所述节点对应的故障节点集合的时候,依次以各所述节点为中心节点,执行以下步骤:
S201.令所述中心节点向所述邻近节点集合中的每个邻近节点发送第二探测数据包,以获取每个所述邻近节点和所述中心节点之间的第一通信时长;
S202.令每个所述邻近节点向所述远亲节点集合中的同一个远亲节点发送第三探测数据包,以获取各所述邻近节点经所述远亲节点到所述中心节点的第二通信时长;
S203.根据所述第一通信时长和所述第二通信时长分别计算所述中心节点对应的第一通信时间方差和第二通信时间方差;
S204.根据所述第一通信时间方差和所述第二通信时间方差判断所述远亲节点是否为候选故障节点;
S205.若是,则根据所述第一通信时间方差和所述第二通信时间方差计算所述候选故障节点对应的故障度,执行步骤S206;
若否,直接执行步骤S206;
S206.选取未被判断是否为候选故障节点的远亲节点作为所述远亲节点集合中的下一个远亲节点,重复执行步骤S201-步骤S205以判断所述远亲节点集合中的下一个远亲节点是否为候选故障节点,直到将所述远亲节点集合中的所有远亲节点判断完毕;
S207.获取所有所述候选故障节点,以作为所述中心节点对应的所述故障节点集合。
可选地,本申请提供的分布式故障节点预测装置,第一获取模块在获取每个节点对应的邻近节点集合和远亲节点集合的时候,依次以每个节点为中心节点,并执行以下步骤:
S101.以所述中心节点以外的其余节点作为第一节点;
S102.令所述中心节点向每个所述第一节点发送第一探测数据包,以获取每个所述第一节点和所述中心节点之间的数据往返时间;
S103.重复执行步骤S102若干次,以计算每个所述第一节点和所述中心节点之间的平均数据往返时间;
S104.根据每个所述第一节点对应的所述平均数据往返时间对所述第一节点进行升序排序;所述平均数据往返时间越短,所述第一节点的序号越靠前;
S105.对排序完毕的所有所述第一节点进行划分,以获取所述中心节点的所述邻近节点集合和所述远亲节点集合。
本申请提供的基于分布式故障节点预测装置,通过第一获取模块获取每个节点对应的邻近节点集合和远亲节点集合;计算模块根据邻近节点集合和远亲节点集合确定每个节点对应的故障节点集合;第二获取模块根据每个节点对应的故障节点集合获取潜在故障节点。通过采用在线故障预测算法,所有节点可在正常工作的同时进行故障预测,而不需一个额外的离线训练过程;另外,算法的数值求解过程简单高效,关键算法步骤只需少量的运算即可,与常规机器学习算法区别明显,有效提高了预测结果的准确性。
第三方面,本申请提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
第四方面,本申请提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
综上,本申请的分布式故障节点预测方法、装置、电子设备及存储介质,通过采用在线故障预测算法,所有节点可在正常工作的同时进行故障预测,而不需一个额外的离线训练过程;另外,算法的数值求解过程简单高效,关键算法步骤只需少量的运算即可,与常规机器学习算法区别明显,有效提高了预测结果的准确性。
附图说明
图1为本申请提供的分布式故障节点预测方法的一种流程图。
图2为本申请提供的分布式故障节点预测装置的一种结构示意图。
图3为本申请提供的电子设备的结构示意图。
标号说明:
201、第一获取模块;202、计算模块;203、第二获取模块;301、处理器;302、存储器;303、通信总线。
具体实施方式
下面将结合本申请实施方式中附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部的实施方式。通常在此处附图中描述和示出的本申请实施方式的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施方式的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施方式。基于本申请的实施方式,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施方式,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1,图1是本申请一些实施方式中的分布式故障节点预测方法的流程图,用于对分布式系统的潜在故障节点进行预测,分布式系统包括多个以分布式的网络拓扑进行数据交换的节点;其中,包括以下步骤:
S1.获取每个节点对应的邻近节点集合和远亲节点集合;
S2.根据邻近节点集合和远亲节点集合确定每个节点对应的故障节点集合;
S3.根据每个节点对应的故障节点集合获取潜在故障节点。
本申请的分布式故障节点预测方法,通过获取每个节点对应的邻近节点集合和远亲节点集合;根据邻近节点集合和远亲节点集合确定每个节点对应的故障节点集合;根据每个节点对应的故障节点集合获取潜在故障节点。通过采用在线故障预测算法,所有节点可在正常工作的同时进行故障预测,而不需一个额外的离线训练过程;另外,算法的数值求解过程简单高效,关键算法步骤只需少量的运算即可,与常规机器学习算法区别明显,有效提高了预测结果的准确性。
在一些实施例中,步骤S1包括依次以各节点为中心节点,并执行以下步骤:
S101.以中心节点以外的其余节点作为第一节点;
S102.令中心节点向每个第一节点发送第一探测数据包,以获取每个第一节点和中心节点之间的数据往返时间;
S103.重复执行步骤S102若干次,以计算每个第一节点和中心节点之间的平均数据往返时间;
S104.根据每个第一节点对应的平均数据往返时间对第一节点进行升序排序;平均数据往返时间越短,第一节点的序号越靠前;
S105.对排序完毕的所有第一节点进行划分,以获取中心节点的邻近节点集合和远亲节点集合。
具体的,可以预先给全网的所有节点设置一个默认的序号。例如,全网节点数量一共有N+1个(N为大于1的整数),则所有节点的序号分别为1、2、…、N+1。其中,令一个节点作为中心节点
Figure 18946DEST_PATH_IMAGE006
Figure 183211DEST_PATH_IMAGE007
步骤S101中,令第一节点为
Figure 893678DEST_PATH_IMAGE008
,第一节点集合为B
Figure 11544DEST_PATH_IMAGE009
Figure 123857DEST_PATH_IMAGE010
Figure 318078DEST_PATH_IMAGE011
,且
Figure 515841DEST_PATH_IMAGE012
,N为除中心节点以外的其余节点的数量。
步骤S102中,在时刻T,中心节点
Figure 673284DEST_PATH_IMAGE013
向第一节点集合B
Figure 640103DEST_PATH_IMAGE009
发送第一探测数据包,第一节点接收到第一探测数据包后,会向中心节点
Figure 5225DEST_PATH_IMAGE013
发送响应数据包(以下称之为第一响应数据包),通过这种方式,可以计算各个第一节点
Figure 424705DEST_PATH_IMAGE008
和中心节点
Figure 149953DEST_PATH_IMAGE013
之间的数据往返时间。即第一节点和中心节点之间的数据往返时间为中心节点向第一节点发送第一探测数据包至中心节点接收到该第一节点发回的第一响应数据包的时间间隔。
步骤S103中,重复执行步骤S102若干次,然后生成如下矩阵T:
Figure 236858DEST_PATH_IMAGE014
其中,
Figure 772882DEST_PATH_IMAGE015
表示第一节点
Figure 945237DEST_PATH_IMAGE008
在第j次探测中与中心节点
Figure 834696DEST_PATH_IMAGE013
间的数据往返时间;
Figure 385894DEST_PATH_IMAGE016
,M为执行步骤S102的总次数;
Figure 233764DEST_PATH_IMAGE017
表示矩阵T为实数域R上的N行M列矩阵;N为除中心节点以外的其余节点的数量。
之后先剔除矩阵T中各行的最大值和最小值,然后根据以下公式计算第一节点和中心节点之间的平均数据往返时间:
Figure 752470DEST_PATH_IMAGE018
其中,
Figure 445620DEST_PATH_IMAGE019
为第一节点
Figure 349859DEST_PATH_IMAGE008
和中心节点之间的平均数据往返时间;
Figure 103052DEST_PATH_IMAGE020
为第一节点
Figure 109054DEST_PATH_IMAGE008
与中心节点之间的数据往返时间最大值;
Figure 605894DEST_PATH_IMAGE021
为第一节点
Figure 131685DEST_PATH_IMAGE008
与中心节点之间的数据往返时间最小值;M为执行步骤S102的总次数,M为大于等于3的整数。
步骤S105中,可以在基于平均数据往返时间排序完毕的N个第一节点中,按顺序依次选取前K个第一节点作为中心节点
Figure 790199DEST_PATH_IMAGE013
的邻近节点,记为邻近节点集合
Figure 549077DEST_PATH_IMAGE022
Figure 584029DEST_PATH_IMAGE023
Figure 462861DEST_PATH_IMAGE024
Figure 292277DEST_PATH_IMAGE025
个邻近节点中的第
Figure 272871DEST_PATH_IMAGE024
个邻近节点,记邻近节点
Figure 111514DEST_PATH_IMAGE026
与中心节点
Figure 346317DEST_PATH_IMAGE013
间的平均往返时间为
Figure 877793DEST_PATH_IMAGE027
。余下的N-K个第一节点作为中心节点
Figure 80104DEST_PATH_IMAGE013
的远亲节点,记为远亲节点集合
Figure 988017DEST_PATH_IMAGE028
Figure 467540DEST_PATH_IMAGE029
Figure 278239DEST_PATH_IMAGE030
为(
Figure 843212DEST_PATH_IMAGE031
)个远亲节点中的第
Figure 413871DEST_PATH_IMAGE030
个远亲节点,记远亲节点
Figure 747900DEST_PATH_IMAGE032
与中心节点
Figure 230965DEST_PATH_IMAGE013
间的平均往返时间为
Figure 548814DEST_PATH_IMAGE033
通过这种方式,可以准确地获取邻近节点集合和远亲节点集合,提高了获取邻近节点集合和远亲节点集合的准确性。
在进一步的实施方式中,步骤S2包括:
S201.令中心节点向邻近节点集合中的每个邻近节点发送第二探测数据包,以获取每个邻近节点和中心节点之间的第一通信时长;
S202.令每个邻近节点向远亲节点集合中的同一个远亲节点发送第三探测数据包,以获取各邻近节点经远亲节点到中心节点的第二通信时长;
S203.根据第一通信时长和第二通信时长分别计算中心节点对应的第一通信时间方差和第二通信时间方差;
S204.根据第一通信时间方差和第二通信时间方差判断远亲节点是否为候选故障节点;
S205.若是,则根据第一通信时间方差和第二通信时间方差计算候选故障节点对应的故障度,执行步骤S206;
若否,直接执行步骤S206;
S206.选取未被判断是否为候选故障节点的远亲节点作为远亲节点集合中的下一个远亲节点,重复执行步骤S201-步骤S205以判断远亲节点集合中的下一个远亲节点是否为候选故障节点,直到将远亲节点集合中的所有远亲节点判断完毕;
S207.获取所有候选故障节点,以作为中心节点对应的故障节点集合。
步骤S201中,先让中心节点
Figure 267372DEST_PATH_IMAGE013
分别向所有邻近节点发送第二探测数据包,当邻近节点接收到第二探测数据包后,将响应数据包(以下称之为第二响应数据包)发给中心节点
Figure 846121DEST_PATH_IMAGE013
,中心节点
Figure 890300DEST_PATH_IMAGE013
记录下其与所有邻近节点的通信时长,记为第一通信时长集合
Figure 374125DEST_PATH_IMAGE034
Figure 161953DEST_PATH_IMAGE035
Figure 595208DEST_PATH_IMAGE036
代表
Figure 544710DEST_PATH_IMAGE025
个邻近节点里的第
Figure 181358DEST_PATH_IMAGE036
个邻近节点,
Figure 772877DEST_PATH_IMAGE037
表示邻近节点
Figure 936005DEST_PATH_IMAGE038
和中心节点
Figure 181041DEST_PATH_IMAGE013
间的第一通信时长;其中,邻近节点
Figure 695199DEST_PATH_IMAGE038
和中心节点
Figure 933151DEST_PATH_IMAGE013
间的第一通信时长为中心节点
Figure 216365DEST_PATH_IMAGE013
向邻近节点
Figure 38828DEST_PATH_IMAGE038
发送第二探测数据包至中心节点
Figure 899336DEST_PATH_IMAGE013
接收到邻近节点
Figure 567078DEST_PATH_IMAGE038
发回的第二响应数据包的时间间隔。
步骤S202中,先从远亲节点集合中随机选取一个远亲节点
Figure 314585DEST_PATH_IMAGE039
Figure 307949DEST_PATH_IMAGE040
代表(
Figure 655754DEST_PATH_IMAGE041
)个远亲节点中的第
Figure 127187DEST_PATH_IMAGE040
个远亲节点,然后令所有邻近节点将第三探测数据包发给远亲节点
Figure 119413DEST_PATH_IMAGE039
Figure 657580DEST_PATH_IMAGE039
每收到一个第三探测数据包后,远亲节点
Figure 102468DEST_PATH_IMAGE039
就会将一个响应数据包(以下称之为第三响应数据包)发给中心节点
Figure 377591DEST_PATH_IMAGE042
。中心节点
Figure 880117DEST_PATH_IMAGE043
记录下各邻近节点经远亲节点到中心节点的通信时长,记为第二通信时长集合
Figure 684125DEST_PATH_IMAGE044
,其中,
Figure 757254DEST_PATH_IMAGE045
Figure 570489DEST_PATH_IMAGE046
表示邻近节点
Figure 537308DEST_PATH_IMAGE038
经远亲节点
Figure 902430DEST_PATH_IMAGE047
到中心节点
Figure 587490DEST_PATH_IMAGE048
的第二通信时长;其中,邻近节点
Figure 312738DEST_PATH_IMAGE038
经远亲节点
Figure 399643DEST_PATH_IMAGE047
到中心节点
Figure 811032DEST_PATH_IMAGE048
的第二通信时长为邻近节点
Figure 108022DEST_PATH_IMAGE038
向远亲节点
Figure 263059DEST_PATH_IMAGE047
发送第三探测数据包至中心节点
Figure 204471DEST_PATH_IMAGE048
接收到远亲节点
Figure 662128DEST_PATH_IMAGE047
发回的第三响应数据包的时间间隔。
步骤S203中,分别计算第一通信时长集合
Figure 56200DEST_PATH_IMAGE049
的方差,即第一通信时间方差,记为
Figure 14929DEST_PATH_IMAGE050
;计算第二通信时长集合
Figure 935480DEST_PATH_IMAGE044
的方差,即第二通信时间方差,记为
Figure 954252DEST_PATH_IMAGE051
;其中,根据第一通信时长集合计算第一通信时间方差和根据第二通信时长集合计算第二通信时间方差的计算方式为现有技术。
步骤S204中,判断远亲节点是否为候选故障节点的判定公式如下:
Figure 209522DEST_PATH_IMAGE052
其中,
Figure 706362DEST_PATH_IMAGE050
为第一通信时间方差;
Figure 622365DEST_PATH_IMAGE051
为第二通信时间方差;
Figure 671093DEST_PATH_IMAGE053
为第一预设常数;
Figure 305337DEST_PATH_IMAGE054
为第二预设常数。
在实际应用中,若中心节点
Figure 340289DEST_PATH_IMAGE048
和所有邻近节点之间的通信链路的通信不稳定度低于默认阈值,即第一通信时间方差小于第二预设常数,且中心节点
Figure 986165DEST_PATH_IMAGE048
、所有邻近节点和远亲节点
Figure 346739DEST_PATH_IMAGE047
之间的通信链路的通信不稳定度高于另一默认阈值,即第二通信时间方差大于第一预设常数,则认为远亲节点
Figure 468279DEST_PATH_IMAGE047
潜在故障的可能。具体地,我们先求出由中心节点
Figure 165976DEST_PATH_IMAGE048
及其所有邻近节点组成的局部网络的统计通信时长的波动情况,其用第一通信时间方差
Figure 790993DEST_PATH_IMAGE050
表征;同样地,我们用第二通信时间方差
Figure 322468DEST_PATH_IMAGE055
来表征加入了远亲节点
Figure 774047DEST_PATH_IMAGE047
后,由所有邻近节点、远亲节点
Figure 681960DEST_PATH_IMAGE047
和中心节点
Figure 427062DEST_PATH_IMAGE048
组成的扩展的局部网络的统计通信时长的波动情况。如果加入远亲节点
Figure 722914DEST_PATH_IMAGE047
后的波动情况明显加剧,则认为远亲节点
Figure 553467DEST_PATH_IMAGE047
潜在故障的可能。也就是说没加入远亲节点
Figure 343700DEST_PATH_IMAGE047
时,波动在一定的小范围以内(<
Figure 208888DEST_PATH_IMAGE056
),加入后波动超出一定的大范围(>
Figure 82166DEST_PATH_IMAGE053
),有极大的可能是由于远亲节点
Figure 259069DEST_PATH_IMAGE047
的工作状态不稳定(即发生故障)引起的。因此,若该远亲节点满足以上判定公式,则判定该远亲节点为候选故障节点;若该远亲节点不满足以上判定公式,则判定该远亲节点非候选故障节点。
另外,第二预设常数
Figure 243206DEST_PATH_IMAGE056
通常在实验室环境下,搭建明确无故障的网络并通过实验给出的参考值,即在实验室环境下模拟工厂拓扑,确保通信链路无故障时,通过多次实验给出该网络波动的方差,并求这些方差的平均值。一般情况下,我们会将
Figure 962900DEST_PATH_IMAGE056
设置得比平均值略小。
第一预设常数
Figure 115401DEST_PATH_IMAGE053
可通过以下两种方式获取:
一种是类似第二预设常数
Figure 920546DEST_PATH_IMAGE056
一样搭建无故障网络,获取网络波动的正常值,并在该正常值基础上放大若干倍获得。另一种是在搭建的网络上,人为地给远亲节点
Figure 567428DEST_PATH_IMAGE047
制造故障,如短时间内对其发送大量网络请求,在其上运行计算量大、占用内存的程序等,获取此时的波动情况,再求平均值。
步骤S205中,若
Figure 876050DEST_PATH_IMAGE051
越大而
Figure 91131DEST_PATH_IMAGE050
越小,则认为远亲节点
Figure 993359DEST_PATH_IMAGE047
潜在故障的可能性越高,若该远亲节点为候选故障节点,则根据以下公式计算该候选故障节点对应的故障度:
Figure 319298DEST_PATH_IMAGE001
其中,
Figure 748005DEST_PATH_IMAGE057
为候选故障节点对应的故障度;
Figure 258621DEST_PATH_IMAGE050
为第一通信时间方差;
Figure 772779DEST_PATH_IMAGE051
为第二通信时间方差;
Figure 902409DEST_PATH_IMAGE058
为第三预设常数,且
Figure 559524DEST_PATH_IMAGE058
大于0。
步骤S206中,选取未被判断是否为候选故障节点的远亲节点作为远亲节点集合中的下一个远亲节点,重新执行步骤S201-步骤S205以判断远亲节点集合中下一个远亲节点是否为候选故障节点,直到将远亲节点集合中的所有远亲节点判断完毕。
步骤S207中,获取所有候选故障节点,并且获取所有候选故障节点对应的故障度,以作为中心节点对应的故障节点集合。
在进一步的实施方式中,步骤S3包括:
S301.获取各个中心节点对应的故障节点集合的各候选故障节点的故障度;
S302.根据故障节点集合的各候选故障节点的故障度计算每个候选故障节点对应的平均故障度;
S303.获取平均故障度高于第一预设阈值对应的候选故障节点,以作为潜在故障节点。
步骤S301中,由于在前面的步骤已经计算了各候选故障节点的故障度,在此不再赘述。
步骤S302中,根据以下公式计算各候选故障节点的平均故障度:
Figure 116407DEST_PATH_IMAGE059
其中,
Figure 117861DEST_PATH_IMAGE060
为第
Figure 910237DEST_PATH_IMAGE061
个候选故障节点的平均故障度,
Figure 47957DEST_PATH_IMAGE062
为第
Figure 41321DEST_PATH_IMAGE061
个候选故障节点在第
Figure 139858DEST_PATH_IMAGE063
个包含该第
Figure 611291DEST_PATH_IMAGE064
个候选故障节点的故障节点集合时对应的故障度,
Figure 869097DEST_PATH_IMAGE065
为包含第
Figure 892416DEST_PATH_IMAGE061
个候选故障节点的故障节点集合的个数。
假设有一候选故障节点A,分别出现在中心节点q的故障节点集合、中心节点w的故障节点集合和中心节点e的故障节点集合中,其中,候选故障节点A在中心节点q的故障节点集合时对应的故障度为s;候选故障节点A在中心节点w的故障节点集合时对应的故障度为d;候选故障节点A在中心节点e的故障节点集合时对应的故障度为f;可以看出,候选故障节点A作为候选故障节点的次数为3次,那么可以根据以下公式计算候选故障节点A对应的平均故障度:
Z=(s+d+f)/X
其中,Z为候选故障节点A对应的平均故障度;s为候选故障节点A在中心节点q的故障节点集合时对应的故障度;d为候选故障节点A在中心节点w的故障节点集合时对应的故障度;f为候选故障节点A在中心节点e的故障节点集合时对应的故障度;X为候选故障节点A作为不同中心节点的候选故障节点的次数。
通过这种方式,可以计算出每个候选故障节点对应的平均故障度。
步骤S303中,第一预设阈值可以根据实际情况进行设置。
通过这种方式,可以筛选出潜在故障节点,实现在线预测。
在一些优选的实施方式中,步骤S3之后包括:
每隔第一预设时间段将每个节点对应的邻近节点集合、远亲节点集合和故障节点集合进行清空,并重新执行步骤S1-步骤S3。
其中,第一预设时间段可以根据实际需要进行设置。通过这种设置方式,可以使每个节点只需按照正确的时间间隔进行上述操作,则可在同一时间内快速达成潜在故障节点的全网共识,从而快速启动备用节点,使生产能无中断顺利进行。
由上可知,本申请的分布式故障节点预测方法,通过获取每个节点对应的邻近节点集合和远亲节点集合;根据邻近节点集合和远亲节点集合确定每个节点对应的故障节点集合;根据每个节点对应的故障节点集合获取潜在故障节点。通过采用在线故障预测算法,所有节点可在正常工作的同时进行故障预测,而不需一个额外的离线训练过程;另外,算法的数值求解过程简单高效,关键算法步骤只需少量的运算即可,与常规机器学习算法区别明显,有效提高了预测结果的准确性。
请参照图2,图2是本申请一些实施方式中的分布式故障节点预测装置,用于对分布式系统的潜在故障节点进行预测,分布式系统包括多个以分布式的网络拓扑进行数据交换的节点;其中,分布式故障节点预测装置包括以下模块:
第一获取模块201:用于获取每个节点对应的邻近节点集合和远亲节点集合;
计算模块202:用于根据邻近节点集合和远亲节点集合确定每个节点对应的故障节点集合;
第二获取模块203:用于根据每个节点对应的故障节点集合获取潜在故障节点。
在一些实施例中,第一获取模块201用于获取每个节点对应的邻近节点集合和远亲节点集合的时候,依次以各节点为中心节点,并执行以下步骤:
S101.以中心节点以外的其余节点作为第一节点;
S102.令中心节点向每个第一节点发送第一探测数据包,以获取每个第一节点和中心节点之间的数据往返时间;
S103.重复执行步骤S102若干次,以计算每个第一节点和中心节点之间的平均数据往返时间;
S104.根据每个第一节点对应的平均数据往返时间对第一节点进行升序排序;平均数据往返时间越短,第一节点的序号越靠前;
S105.对排序完毕的所有第一节点进行划分,以获取中心节点的邻近节点集合和远亲节点集合。
具体的,可以预先给全网的所有节点设置一个默认的序号。例如,全网节点数量一共有N+1个(N为大于1的整数),则所有节点的序号分别为1、2、…、N+1。其中,令一个节点作为中心节点
Figure 868463DEST_PATH_IMAGE066
Figure 878007DEST_PATH_IMAGE067
步骤S101中,令第一节点为
Figure 98642DEST_PATH_IMAGE068
,第一节点集合为B
Figure 433808DEST_PATH_IMAGE069
Figure 631571DEST_PATH_IMAGE070
Figure 835019DEST_PATH_IMAGE071
,且
Figure 801838DEST_PATH_IMAGE072
,N为除中心节点以外的其余节点的数量。
步骤S102中,在时刻T,中心节点
Figure 42327DEST_PATH_IMAGE048
向第一节点集合B
Figure 602752DEST_PATH_IMAGE069
发送第一探测数据包,第一节点接收到第一探测数据包后,会向中心节点
Figure 219678DEST_PATH_IMAGE048
发送响应数据包(以下称之为第一响应数据包),通过这种方式,可以计算各个第一节点
Figure 306583DEST_PATH_IMAGE068
和中心节点
Figure 842607DEST_PATH_IMAGE048
之间的数据往返时间。即第一节点和中心节点之间的数据往返时间为中心节点向第一节点发送第一探测数据包至中心节点接收到该第一节点发回的第一响应数据包的时间间隔。
步骤S103中,重复执行步骤S102若干次,然后生成如下矩阵T:
Figure 749383DEST_PATH_IMAGE073
其中,
Figure 170000DEST_PATH_IMAGE074
表示第一节点
Figure 485312DEST_PATH_IMAGE068
在第j次探测中与中心节点
Figure 333183DEST_PATH_IMAGE048
间的数据往返时间;
Figure 992834DEST_PATH_IMAGE075
,M为执行步骤S102的总次数;
Figure 810617DEST_PATH_IMAGE076
表示矩阵T为实数域R上的N行M列矩阵;N为除中心节点以外的其余节点的数量。
之后先剔除矩阵T中各行的最大值和最小值,然后根据以下公式计算第一节点和中心节点之间的平均数据往返时间:
Figure 872114DEST_PATH_IMAGE077
其中,
Figure 625307DEST_PATH_IMAGE078
为第一节点
Figure 382041DEST_PATH_IMAGE068
和中心节点之间的平均数据往返时间;
Figure 144461DEST_PATH_IMAGE079
为第一节点
Figure 60464DEST_PATH_IMAGE068
与中心节点之间的数据往返时间最大值;
Figure 109192DEST_PATH_IMAGE080
为第一节点
Figure 743435DEST_PATH_IMAGE068
与中心节点之间的数据往返时间最小值;M为执行步骤S102的总次数,M为大于等于3的整数。
步骤S105中,可以在基于平均数据往返时间排序完毕的N个第一节点中,按顺序依次选取前K个第一节点作为中心节点
Figure 43967DEST_PATH_IMAGE048
的邻近节点,记为邻近节点集合
Figure 814477DEST_PATH_IMAGE081
Figure 283373DEST_PATH_IMAGE082
Figure 139334DEST_PATH_IMAGE083
Figure 243556DEST_PATH_IMAGE084
个邻近节点中的第
Figure 258785DEST_PATH_IMAGE083
个邻近节点,记邻近节点
Figure 524681DEST_PATH_IMAGE026
与中心节点
Figure 867938DEST_PATH_IMAGE048
间的平均往返时间为
Figure 385638DEST_PATH_IMAGE085
。余下的N-K个第一节点作为中心节点
Figure 130740DEST_PATH_IMAGE048
的远亲节点,记为远亲节点集合
Figure 567538DEST_PATH_IMAGE086
Figure 522724DEST_PATH_IMAGE087
Figure 968749DEST_PATH_IMAGE088
为(
Figure 833937DEST_PATH_IMAGE089
)个远亲节点中的第
Figure 815537DEST_PATH_IMAGE088
个远亲节点,记远亲节点
Figure 867807DEST_PATH_IMAGE090
与中心节点
Figure 117523DEST_PATH_IMAGE048
间的平均往返时间为
Figure 837217DEST_PATH_IMAGE091
通过这种方式,可以准确地获取邻近节点集合和远亲节点集合,提高了获取邻近节点集合和远亲节点集合的准确性。
在进一步的实施方式中,计算模块202在根据邻近节点集合和远亲节点集合确定每个节点对应的故障节点集合的时候,执行以下步骤:
S201.令中心节点向邻近节点集合中的每个邻近节点发送第二探测数据包,以获取每个邻近节点和中心节点之间的第一通信时长;
S202.令每个邻近节点向远亲节点集合中的同一个远亲节点发送第三探测数据包,以获取各邻近节点经远亲节点到中心节点的第二通信时长;
S203.根据第一通信时长和第二通信时长分别计算中心节点对应的第一通信时间方差和第二通信时间方差;
S204.根据第一通信时间方差和第二通信时间方差判断远亲节点是否为候选故障节点;
S205.若是,则根据第一通信时间方差和第二通信时间方差计算候选故障节点对应的故障度,执行步骤S206;
若否,直接执行步骤S206;
S206.选取未被判断是否为候选故障节点的远亲节点作为远亲节点集合中的下一个远亲节点,重复执行步骤S201-步骤S205以判断远亲节点集合中的下一个远亲节点是否为候选故障节点,直到将远亲节点集合中的所有远亲节点判断完毕;
S207.获取所有候选故障节点,以作为中心节点对应的故障节点集合。
步骤S201中,先让中心节点
Figure 6030DEST_PATH_IMAGE048
分别向所有邻近节点发送第二探测数据包,当邻近节点接收到第二探测数据包后,将响应数据包(以下称之为第二响应数据包)发给中心节点
Figure 280017DEST_PATH_IMAGE048
,中心节点
Figure 67844DEST_PATH_IMAGE048
记录下其与所有邻近节点的通信时长,记为第一通信时长集合
Figure 517411DEST_PATH_IMAGE049
Figure 466913DEST_PATH_IMAGE045
Figure 759354DEST_PATH_IMAGE092
代表
Figure 944347DEST_PATH_IMAGE084
个邻近节点里的第
Figure 638634DEST_PATH_IMAGE092
个邻近节点,
Figure 867359DEST_PATH_IMAGE037
表示邻近节点
Figure 115938DEST_PATH_IMAGE038
和中心节点
Figure 370201DEST_PATH_IMAGE048
间的第一通信时长;其中,邻近节点
Figure 918994DEST_PATH_IMAGE038
和中心节点
Figure 210298DEST_PATH_IMAGE048
间的第一通信时长为中心节点
Figure 87119DEST_PATH_IMAGE048
向邻近节点
Figure 754860DEST_PATH_IMAGE038
发送第二探测数据包至中心节点
Figure 158160DEST_PATH_IMAGE048
接收到邻近节点
Figure 10578DEST_PATH_IMAGE038
发回的第二响应数据包的时间间隔。
步骤S202中,先从远亲节点集合中随机选取一个远亲节点
Figure 233749DEST_PATH_IMAGE047
Figure 970761DEST_PATH_IMAGE093
代表(
Figure 336889DEST_PATH_IMAGE089
)个远亲节点中的第
Figure 235575DEST_PATH_IMAGE093
个远亲节点,然后令所有邻近节点将第三探测数据包发给远亲节点
Figure 211621DEST_PATH_IMAGE047
Figure 611379DEST_PATH_IMAGE047
每收到一个第三探测数据包后,远亲节点
Figure 458112DEST_PATH_IMAGE047
就会将一个响应数据包(以下称之为第三响应数据包)发给中心节点
Figure 793278DEST_PATH_IMAGE066
。中心节点
Figure 600828DEST_PATH_IMAGE048
记录下各邻近节点经远亲节点到中心节点的通信时长,记为第二通信时长集合
Figure 679643DEST_PATH_IMAGE044
,其中,
Figure 505516DEST_PATH_IMAGE045
Figure 11584DEST_PATH_IMAGE046
表示邻近节点
Figure 431064DEST_PATH_IMAGE038
经远亲节点
Figure 421892DEST_PATH_IMAGE047
到中心节点
Figure 243217DEST_PATH_IMAGE048
的第二通信时长;其中,邻近节点
Figure 920186DEST_PATH_IMAGE038
经远亲节点
Figure 217175DEST_PATH_IMAGE047
到中心节点
Figure 372213DEST_PATH_IMAGE048
的第二通信时长为邻近节点
Figure 313624DEST_PATH_IMAGE038
向远亲节点
Figure 36861DEST_PATH_IMAGE047
发送第三探测数据包至中心节点
Figure 430933DEST_PATH_IMAGE048
接收到远亲节点
Figure 389662DEST_PATH_IMAGE047
发回的第三响应数据包的时间间隔。
步骤S203中,分别计算第一通信时长集合
Figure 575792DEST_PATH_IMAGE049
的方差,即第一通信时间方差,记为
Figure 63406DEST_PATH_IMAGE050
;计算第二通信时长集合
Figure 318675DEST_PATH_IMAGE044
的方差,即第二通信时间方差,记为
Figure 81095DEST_PATH_IMAGE094
;其中,根据第一通信时长集合计算第一通信时间方差和根据第二通信时长集合计算第二通信时间方差的计算方式为现有技术。
步骤S204中,判断远亲节点是否为候选故障节点的判定公式如下:
Figure 997098DEST_PATH_IMAGE095
其中,
Figure 186771DEST_PATH_IMAGE050
为第一通信时间方差;
Figure 414490DEST_PATH_IMAGE055
为第二通信时间方差;
Figure 449442DEST_PATH_IMAGE053
为第一预设常数;
Figure 360898DEST_PATH_IMAGE056
为第二预设常数。
在实际应用中,若中心节点
Figure 721472DEST_PATH_IMAGE048
和所有邻近节点之间的通信链路的通信不稳定度低于默认阈值,即第一通信时间方差小于第二预设常数,且中心节点
Figure 311853DEST_PATH_IMAGE048
、所有邻近节点和远亲节点
Figure 540709DEST_PATH_IMAGE047
之间的通信链路的通信不稳定度高于另一默认阈值,即第二通信时间方差大于第一预设常数,则认为远亲节点
Figure 431305DEST_PATH_IMAGE047
潜在故障的可能。具体地,我们先求出由中心节点
Figure 697201DEST_PATH_IMAGE048
及其所有邻近节点组成的局部网络的统计通信时长的波动情况,其用第一通信时间方差
Figure 437797DEST_PATH_IMAGE050
表征;同样地,我们用第二通信时间方差
Figure 80131DEST_PATH_IMAGE055
来表征加入了远亲节点
Figure 559653DEST_PATH_IMAGE047
后,由所有邻近节点、远亲节点
Figure 386664DEST_PATH_IMAGE047
和中心节点
Figure 951638DEST_PATH_IMAGE048
组成的扩展的局部网络的统计通信时长的波动情况。如果加入远亲节点
Figure 397662DEST_PATH_IMAGE047
后的波动情况明显加剧,则认为远亲节点
Figure 607058DEST_PATH_IMAGE047
潜在故障的可能。也就是说没加入远亲节点
Figure 480336DEST_PATH_IMAGE047
时,波动在一定的小范围以内(<
Figure 798185DEST_PATH_IMAGE056
),加入后波动超出一定的大范围(>
Figure 906955DEST_PATH_IMAGE096
),有极大的可能是由于远亲节点
Figure 361070DEST_PATH_IMAGE047
的工作状态不稳定(即发生故障)引起的。因此,若该远亲节点满足以上判定公式,则判定该远亲节点为候选故障节点;若该远亲节点不满足以上判定公式,则判定该远亲节点非候选故障节点。
另外,第二预设常数
Figure 405250DEST_PATH_IMAGE056
通常在实验室环境下,搭建明确无故障的网络并通过实验给出的参考值,即在实验室环境下模拟工厂拓扑,确保通信链路无故障时,通过多次实验给出该网络波动的方差,并求这些方差的平均值。一般情况下,我们会将
Figure 318717DEST_PATH_IMAGE056
设置得比平均值略小。
第一预设常数
Figure 106544DEST_PATH_IMAGE097
可通过以下两种方式获取:
一种是类似第二预设常数
Figure 680745DEST_PATH_IMAGE056
一样搭建无故障网络,获取网络波动的正常值,并在该正常值基础上放大若干倍获得。另一种是在搭建的网络上,人为地给远亲节点
Figure 20460DEST_PATH_IMAGE047
制造故障,如短时间内对其发送大量网络请求,在其上运行计算量大、占用内存的程序等,获取此时的波动情况,再求平均值。
步骤S205中,若
Figure 47321DEST_PATH_IMAGE055
越大而
Figure 373260DEST_PATH_IMAGE050
越小,则认为远亲节点
Figure 411755DEST_PATH_IMAGE047
潜在故障的可能性越高,若该远亲节点为候选故障节点,则根据以下公式计算该候选故障节点对应的故障度:
Figure 63316DEST_PATH_IMAGE001
其中,
Figure 436529DEST_PATH_IMAGE057
为候选故障节点对应的故障度;
Figure 566159DEST_PATH_IMAGE050
为第一通信时间方差;
Figure 114952DEST_PATH_IMAGE055
为第二通信时间方差;
Figure 780157DEST_PATH_IMAGE058
为第三预设常数,且
Figure 516032DEST_PATH_IMAGE058
大于0。
步骤S206中,选取未被判断是否为候选故障节点的远亲节点作为远亲节点集合中的下一个远亲节点,重新执行步骤S201-步骤S205以判断远亲节点集合中下一个远亲节点是否为候选故障节点,直到将远亲节点集合中的所有远亲节点判断完毕。
步骤S207中,获取所有候选故障节点,并且获取所有候选故障节点对应的故障度,以作为中心节点对应的故障节点集合。
在进一步的实施方式中,第二获取模块203在根据每个节点对应的故障节点集合获取潜在故障节点的时候,执行以下步骤:
S301.获取各个中心节点对应的故障节点集合的各候选故障节点的故障度;
S302.根据故障节点集合的各候选故障节点的故障度计算每个候选故障节点对应的平均故障度;
S303.获取平均故障度高于第一预设阈值对应的候选故障节点,以作为潜在故障节点。
步骤S301中,由于在前面的步骤已经计算了各候选故障节点的故障度,在此不再赘述。
步骤S302中,根据以下公式计算各候选故障节点的平均故障度:
Figure 449353DEST_PATH_IMAGE059
其中,
Figure 977286DEST_PATH_IMAGE060
为第
Figure 439491DEST_PATH_IMAGE098
个候选故障节点的平均故障度,
Figure 928242DEST_PATH_IMAGE099
为第
Figure 275040DEST_PATH_IMAGE098
个候选故障节点在第
Figure 267267DEST_PATH_IMAGE063
个包含该第
Figure 431532DEST_PATH_IMAGE100
个候选故障节点的故障节点集合时对应的故障度,
Figure 532212DEST_PATH_IMAGE101
为包含第
Figure 276177DEST_PATH_IMAGE098
个候选故障节点的故障节点集合的个数。
假设有一候选故障节点A,分别出现在中心节点q的故障节点集合、中心节点w的故障节点集合和中心节点e的故障节点集合中,其中,候选故障节点A在中心节点q的故障节点集合时对应的故障度为s;候选故障节点A在中心节点w的故障节点集合时对应的故障度为d;候选故障节点A在中心节点e的故障节点集合时对应的故障度为f;可以看出,候选故障节点A作为候选故障节点的次数为3次,那么可以根据以下公式计算候选故障节点A对应的平均故障度:
Z=(s+d+f)/X
其中,Z为候选故障节点A对应的平均故障度;s为候选故障节点A在中心节点q的故障节点集合时对应的故障度;d为候选故障节点A在中心节点w的故障节点集合时对应的故障度;f为候选故障节点A在中心节点e的故障节点集合时对应的故障度;X为候选故障节点A作为不同中心节点的候选故障节点的次数。
通过这种方式,可以计算出每个候选故障节点对应的平均故障度。
步骤S303中,第一预设阈值可以根据实际情况进行设置。
通过这种方式,可以筛选出潜在故障节点,实现在线预测。
在一些优选的实施方式中,本申请的分布式故障节点预测装置还包括清除模块:
用于每隔第一预设时间段将每个节点对应的邻近节点集合、远亲节点集合和故障节点集合进行清空,并使第一获取模块201重新获取每个节点对应的邻近节点集合和远亲节点集合,以及使计算模块202和第二获取模块203重新执行其功能操作。
其中,第一预设时间段可以根据实际需要进行设置。通过这种设置方式,可以使每个节点只需按照正确的时间间隔进行上述操作,则可在同一时间内快速达成潜在故障节点的全网共识,从而快速启动备用节点,使生产能无中断顺利进行。
由上可知,本申请的分布式故障节点预测装置,通过第一获取模块201获取每个节点对应的邻近节点集合和远亲节点集合;计算模块202根据邻近节点集合和远亲节点集合确定每个节点对应的故障节点集合;第二获取模块203根据每个节点对应的故障节点集合获取潜在故障节点。通过采用在线故障预测算法,所有节点可在正常工作的同时进行故障预测,而不需一个额外的离线训练过程;另外,算法的数值求解过程简单高效,关键算法步骤只需少量的运算即可,与常规机器学习算法区别明显,有效提高了预测结果的准确性。
请参照图3,图3为本申请实施方式提供的一种电子设备的结构示意图,本申请提供一种电子设备,包括:处理器301和存储器302,处理器301和存储器302通过通信总线303和/或其他形式的连接机构(未标出)互连并相互通讯,存储器302存储有处理器301计算机可读取指令,当电子设备运行时,处理器301执行该计算机可读取指令,以在执行时执行上述实施方式的任一可选的实现方式中的方法,以实现以下功能:获取每个节点对应的邻近节点集合和远亲节点集合;根据邻近节点集合和远亲节点集合确定每个节点对应的故障节点集合;根据每个节点对应的故障节点集合获取潜在故障节点。
本申请实施方式提供一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时,执行上述实施方式的任一可选的实现方式中的方法,以实现以下功能:获取每个节点对应的邻近节点集合和远亲节点集合;根据邻近节点集合和远亲节点集合确定每个节点对应的故障节点集合;根据每个节点对应的故障节点集合获取潜在故障节点。其中,存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory, 简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory, 简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory, 简称EPROM),可编程只读存储器(Programmable Red-Only Memory, 简称PROM),只读存储器(Read-Only Memory, 简称ROM),磁存储器,快闪存储器,磁盘或光盘。
在本申请所提供的实施方式中,应该理解到,所揭露系统和方法,可以通过其它的方式实现。以上所描述的系统实施方式仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,系统或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
再者,在本申请各个实施方式中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施方式而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (9)

1.一种分布式故障节点预测方法,用于对分布式系统的潜在故障节点进行预测,所述分布式系统包括多个以分布式的网络拓扑进行数据交换的节点;其特征在于,包括以下步骤:
S1.获取每个节点对应的邻近节点集合和远亲节点集合;
S2.根据所述邻近节点集合和所述远亲节点集合确定每个所述节点对应的故障节点集合;
S3.根据每个所述节点对应的所述故障节点集合获取潜在故障节点;
步骤S2包括依次以各所述节点为中心节点,并执行以下步骤:
S201.令所述中心节点向所述邻近节点集合中的每个邻近节点发送第二探测数据包,以获取每个所述邻近节点和所述中心节点之间的第一通信时长;
S202.令每个所述邻近节点向所述远亲节点集合中的同一个远亲节点发送第三探测数据包,以获取各所述邻近节点经所述远亲节点到所述中心节点的第二通信时长;
S203.根据所述第一通信时长和所述第二通信时长分别计算所述中心节点对应的第一通信时间方差和第二通信时间方差;
S204.根据所述第一通信时间方差和所述第二通信时间方差判断所述远亲节点是否为候选故障节点;
S205.若是,则根据所述第一通信时间方差和所述第二通信时间方差计算所述候选故障节点对应的故障度,执行步骤S206;
若否,直接执行步骤S206;
S206.选取未被判断是否为候选故障节点的远亲节点作为所述远亲节点集合中的下一个远亲节点,重复执行步骤S201-步骤S205以判断所述远亲节点集合中的下一个远亲节点是否为候选故障节点,直到将所述远亲节点集合中的所有远亲节点判断完毕;
S207.获取所有所述候选故障节点,以作为所述中心节点对应的所述故障节点集合。
2.根据权利要求1所述的分布式故障节点预测方法,其特征在于,步骤S1包括依次以每个节点为中心节点,并执行以下步骤:
S101.以所述中心节点以外的其余节点作为第一节点;
S102.令所述中心节点向每个所述第一节点发送第一探测数据包,以获取每个所述第一节点和所述中心节点之间的数据往返时间;
S103.重复执行步骤S102若干次,以计算每个所述第一节点和所述中心节点之间的平均数据往返时间;
S104.根据每个所述第一节点对应的所述平均数据往返时间对所述第一节点进行升序排序;所述平均数据往返时间越短,所述第一节点的序号越靠前;
S105.对排序完毕的所有所述第一节点进行划分,以获取所述中心节点的所述邻近节点集合和所述远亲节点集合。
3.根据权利要求1所述的分布式故障节点预测方法,其特征在于,步骤S205中,所述候选故障节点对应的故障度的计算公式如下:
Figure 399227DEST_PATH_IMAGE001
其中,
Figure 847526DEST_PATH_IMAGE002
为所述候选故障节点对应的故障度;
Figure 424001DEST_PATH_IMAGE003
为所述第一通信时间方差;
Figure 101101DEST_PATH_IMAGE004
为所述第二通信时间方差;
Figure 712211DEST_PATH_IMAGE005
为第三预设常数,且
Figure 800253DEST_PATH_IMAGE005
大于0。
4.根据权利要求1所述的分布式故障节点预测方法,其特征在于,步骤S3包括:
S301.获取各个所述中心节点对应的所述故障节点集合的各候选故障节点的所述故障度;
S302.根据所述故障节点集合的各候选故障节点的所述故障度计算每个所述候选故障节点对应的平均故障度;
S303.获取所述平均故障度高于第一预设阈值对应的所述候选故障节点,以作为所述潜在故障节点。
5.根据权利要求1所述的分布式故障节点预测方法,其特征在于,步骤S3之后包括:
每隔第一预设时间段将每个所述节点对应的所述邻近节点集合、所述远亲节点集合和所述故障节点集合进行清空,并重新执行步骤S1-步骤S3。
6.一种分布式故障节点预测装置,用于对分布式系统的潜在故障节点进行预测,所述分布式系统包括多个以分布式的网络拓扑进行数据交换的节点;其特征在于,所述分布式故障节点预测装置包括以下模块:
第一获取模块:用于获取每个节点对应的邻近节点集合和远亲节点集合;
计算模块:用于根据所述邻近节点集合和所述远亲节点集合确定每个所述节点对应的故障节点集合;
第二获取模块:用于根据每个所述节点对应的所述故障节点集合获取潜在故障节点;
计算模块在根据所述邻近节点集合和所述远亲节点集合确定每个所述节点对应的故障节点集合的时候,依次以各所述节点为中心节点,执行以下步骤:
S201.令所述中心节点向所述邻近节点集合中的每个邻近节点发送第二探测数据包,以获取每个所述邻近节点和所述中心节点之间的第一通信时长;
S202.令每个所述邻近节点向所述远亲节点集合中的同一个远亲节点发送第三探测数据包,以获取各所述邻近节点经所述远亲节点到所述中心节点的第二通信时长;
S203.根据所述第一通信时长和所述第二通信时长分别计算所述中心节点对应的第一通信时间方差和第二通信时间方差;
S204.根据所述第一通信时间方差和所述第二通信时间方差判断所述远亲节点是否为候选故障节点;
S205.若是,则根据所述第一通信时间方差和所述第二通信时间方差计算所述候选故障节点对应的故障度,执行步骤S206;
若否,直接执行步骤S206;
S206.选取未被判断是否为候选故障节点的远亲节点作为所述远亲节点集合中的下一个远亲节点,重复执行步骤S201-步骤S205以判断所述远亲节点集合中的下一个远亲节点是否为候选故障节点,直到将所述远亲节点集合中的所有远亲节点判断完毕;
S207.获取所有所述候选故障节点,以作为所述中心节点对应的所述故障节点集合。
7.根据权利要求6所述的分布式故障节点预测装置,其特征在于,第一获取模块在获取每个节点对应的邻近节点集合和远亲节点集合的时候,依次以每个节点为中心节点,并执行以下步骤:
S101.以所述中心节点以外的其余节点作为第一节点;
S102.令所述中心节点向每个所述第一节点发送第一探测数据包,以获取每个所述第一节点和所述中心节点之间的数据往返时间;
S103.重复执行步骤S102若干次,以计算每个所述第一节点和所述中心节点之间的平均数据往返时间;
S104.根据每个所述第一节点对应的所述平均数据往返时间对所述第一节点进行升序排序;所述平均数据往返时间越短,所述第一节点的序号越靠前;
S105.对排序完毕的所有所述第一节点进行划分,以获取所述中心节点的所述邻近节点集合和所述远亲节点集合。
8.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-5任一项所述分布式故障节点预测方法中的步骤。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时运行如权利要求1-5任一项所述分布式故障节点预测方法中的步骤。
CN202211520137.0A 2022-11-30 2022-11-30 分布式故障节点预测方法、装置、电子设备及存储介质 Active CN115550144B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211520137.0A CN115550144B (zh) 2022-11-30 2022-11-30 分布式故障节点预测方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211520137.0A CN115550144B (zh) 2022-11-30 2022-11-30 分布式故障节点预测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN115550144A true CN115550144A (zh) 2022-12-30
CN115550144B CN115550144B (zh) 2023-03-24

Family

ID=84722137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211520137.0A Active CN115550144B (zh) 2022-11-30 2022-11-30 分布式故障节点预测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115550144B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117411772A (zh) * 2023-12-14 2024-01-16 积至网络(北京)有限公司 一种分布式网络节点管理与安全重组方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140297845A1 (en) * 2013-03-29 2014-10-02 Fujitsu Limited Information processing system, computer-readable recording medium having stored therein control program for information processing device, and control method of information processing system
CN105763396A (zh) * 2016-04-12 2016-07-13 北京理工大学 基于邻居相关状态的分布式多智能体实时故障检测方法
CN105915388A (zh) * 2016-05-31 2016-08-31 广东电网有限责任公司电力调度控制中心 一种基于分布式网络的传感器故障检测方法及系统
JP2017083935A (ja) * 2015-10-23 2017-05-18 日本電気株式会社 情報処理装置、クラスタシステム、クラスタリング方法、及びプログラム
CN109714788A (zh) * 2019-02-28 2019-05-03 福建师范大学 在线容错和邻居协作的传感器节点故障诊断算法
CN111869163A (zh) * 2018-03-19 2020-10-30 华为技术有限公司 一种故障检测的方法、装置及系统
US20200412603A1 (en) * 2018-03-09 2020-12-31 Telefonaktiebolaget Lm Ericsson (Publ) Method and system for managing transmission of probe messages for detection of failure

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140297845A1 (en) * 2013-03-29 2014-10-02 Fujitsu Limited Information processing system, computer-readable recording medium having stored therein control program for information processing device, and control method of information processing system
JP2017083935A (ja) * 2015-10-23 2017-05-18 日本電気株式会社 情報処理装置、クラスタシステム、クラスタリング方法、及びプログラム
CN105763396A (zh) * 2016-04-12 2016-07-13 北京理工大学 基于邻居相关状态的分布式多智能体实时故障检测方法
CN105915388A (zh) * 2016-05-31 2016-08-31 广东电网有限责任公司电力调度控制中心 一种基于分布式网络的传感器故障检测方法及系统
US20200412603A1 (en) * 2018-03-09 2020-12-31 Telefonaktiebolaget Lm Ericsson (Publ) Method and system for managing transmission of probe messages for detection of failure
CN111869163A (zh) * 2018-03-19 2020-10-30 华为技术有限公司 一种故障检测的方法、装置及系统
US20210006484A1 (en) * 2018-03-19 2021-01-07 Huawei Technologies Co., Ltd. Fault detection method, apparatus, and system
CN109714788A (zh) * 2019-02-28 2019-05-03 福建师范大学 在线容错和邻居协作的传感器节点故障诊断算法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117411772A (zh) * 2023-12-14 2024-01-16 积至网络(北京)有限公司 一种分布式网络节点管理与安全重组方法
CN117411772B (zh) * 2023-12-14 2024-03-19 积至网络(北京)有限公司 一种分布式网络节点管理与安全重组方法

Also Published As

Publication number Publication date
CN115550144B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
US8577663B2 (en) System and methods for fault-isolation and fault-mitigation based on network modeling
EP4131094A1 (en) Prediction method and apparatus, readable medium, and electronic device
CN115550144B (zh) 分布式故障节点预测方法、装置、电子设备及存储介质
CN111159922B (zh) 一种电力系统连锁故障的关键线路辨识方法和装置
CN116794510A (zh) 故障预测方法、装置、计算机设备和存储介质
Mohapatra et al. Artificial immune system based fault diagnosis in large wireless sensor network topology
Ferreira et al. Fault detection and diagnosis for solar-powered wireless mesh networks using machine learning
CN111060779A (zh) 一种基于概率神经网络的电网分区故障诊断方法及系统
Park et al. Variational Bayesian inference for forecasting hierarchical time series
CN112367191A (zh) 一种5g网络切片下服务故障定位方法
CN107426000A (zh) 一种网络鲁棒性评估方法及系统
CN117291002A (zh) 基于熵权法-topsis的无人机集群网络毁伤评估方法
CN111614504A (zh) 基于时间序列和故障树分析的电网调控数据中心业务特性故障定位方法及系统
Alweshah et al. Evolution of software reliability growth models: a comparison of auto-regression and genetic programming models
Lo et al. Reference-free detection of spike faults in wireless sensor networks
Tolupa et al. The methodology for evaluating the functional stability of the protection system of special networks
CN115454787A (zh) 告警分类方法、装置、电子设备及存储介质
CN115391075A (zh) 内存故障处理方法、系统及存储介质
Zhang et al. A methodology for optimum sensor localization/selection in fault diagnosis
CN113205204A (zh) 一种基于贝叶斯网络的配电网停运节点预测方法
CN112766509A (zh) 一种电子信息系统故障传播路径分析方法
Hamid et al. A reliable structural health monitoring protocol using wireless sensor networks
Jesus et al. Systematic failure detection and correction in environmental monitoring systems
CN110798350A (zh) 一种基于不完整状态监测数据学习的系统可靠性模型构建与评估方法
Boardman et al. Approximate dynamic programming for condition-based node deployment in a wireless sensor network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant