CN109104328A - 一种基于复杂网络的集群系统可靠性测评方法 - Google Patents

一种基于复杂网络的集群系统可靠性测评方法 Download PDF

Info

Publication number
CN109104328A
CN109104328A CN201810612933.4A CN201810612933A CN109104328A CN 109104328 A CN109104328 A CN 109104328A CN 201810612933 A CN201810612933 A CN 201810612933A CN 109104328 A CN109104328 A CN 109104328A
Authority
CN
China
Prior art keywords
group
reliability
node
fault location
direct fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810612933.4A
Other languages
English (en)
Other versions
CN109104328B (zh
Inventor
李大庆
孙鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201810612933.4A priority Critical patent/CN109104328B/zh
Publication of CN109104328A publication Critical patent/CN109104328A/zh
Application granted granted Critical
Publication of CN109104328B publication Critical patent/CN109104328B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0817Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements

Abstract

本发明提供一种基于复杂网络的集群系统可靠性测评方法,主要包含以下步骤:A:分析测评对象构建系统网络模型;B:设置可靠性指标;C:设置可靠性测评的故障注入策略;D:实施可靠性测评,监控记录系统性能指标;E:汇总性能指标的变化趋势,分析集群系统的可靠性性能;本发明针对集群系统的特点,提出的可靠性测评方法将可靠性概念与复杂网络相结合,采用复杂网络中“次大连通子团”这一指标作为集群系统崩溃的判断依据,通过随机选择集群系统的节点注入故障,设置故障注入的强度与比例,计算次大连通子团的规模,当次大连通子团达到最大时,认定系统发生崩溃,通过对临界崩溃时故障注入的强度与比例进行分析计算,得到集群系统的可靠性。

Description

一种基于复杂网络的集群系统可靠性测评方法
技术领域
本发明提出了一种基于复杂网络的集群系统可靠性测评方法,它涉及一种基于复杂网络的集群系统可靠性测评方法,属于复杂性科学领域以及可靠性领域。
背景技术
集群系统是一种复杂系统,其结构在时间和空间两个维度上具有分布广泛、结构特异、扩展性好、自主性高等特征,对于在复杂多变的环境下具有较好的适应能力。其优势在于通过对简单的低智能个体设定简单的规则,即可在宏观的层次体现出系统层级能力的涌现,对于状态深度感知、网络实时控制等方面也有较好的性能,由于其结构复杂,对于短暂冲击以及干扰的抵抗能力优于普通的简单系统。集群系统具有很好的应用前景,如:灾难搜救、智慧物流等。
系统的可靠性,是一种系统的固有特性,用于描述产品在规定的条件下和规定的时间内,完成规定功能的能力。对于复杂的集群系统,虽然其复杂的结构使之拥有了较高的抗干扰能力,但是也给现有的系统可靠性测评带来了困难:
1.故障复杂:集群系统的结构为有层次结构的网络结构,各个层中的故障机理与影响不同;
2.结构复杂:由于集群系统与现实的物理世界形成耦合关系,存在软件节点与硬件节点的连接,节点间的拓扑结构构成复杂,传统的可靠性测评手段主要针对于单硬件或者单软件为主体进行测评,没有很好的考虑到两者的耦合关系;
3.传播复杂:故障在各个节点之间通过网络连接等方式进行传播,传统的可靠性分析与测评如故障模式、影响及危害性分析(FMECA)、故障树分析(FTA)等多应用于静态和单故障的条件下,对于故障传播的情况考虑较少,网络故障间相互影响且不可忽略。
对于集群系统这一具有复杂网络结构的系统,现急需一种有效的一种测评方法对可靠性指标进行测评,从而衡量其可靠性,测试其可靠性。
本发明针对于以上的问题及趋势提出了一种有效的解决方案。本方案主要将复杂网络的相关概念引入集群系统的可靠性性能测评中来,采用复杂网络中“次大连通子团”这一指标作为集群系统崩溃的判断依据,通过随机选择集群系统的节点注入故障,设置故障注入的强度与比例,计算次大连通子团的规模,当次大连通子团达到最大时,认定系统发生崩溃。通过对临界崩溃时故障注入的强度与比例两个指标采用最小二乘法多项式拟合进行回归拟合,得到集群系统的可靠性指标曲线。本发明采用的基于复杂网络的复杂网络的集群系统可靠性测评方法,计算简单,结果可靠,具有良好的工程应用价值。
发明内容
本发明主要提供一种集群系统的可靠性度量以及测评方法。由于集群系统具有结构复杂、故障复杂、传播复杂等特点,传统可靠性指标与测评方法更多的是从单故障、静态分析的角度对系统的可靠性进行测评,或者单一地对系统的硬件或者软件可靠性进行测评,忽视了集群系统硬件与软件耦合程度高的特征,故无法很好的描述集群系统整体的可靠性性能,于是我们构建出一种可以有效的体现集群系统的可靠性性能的可靠性测评方法。
针对以上的技术问题以及本发明的目的,本文提出了一种基于复杂网络的集群系统可靠性测评方法,方案包括如下部分:
(一)发明目的
针对现有技术中存在的缺陷,本发明的目的在于提供一种基于复杂网络的集群系统可靠性测评方法,针对集群系统的特点,本发明提出的可靠性测评方法将可靠性概念与复杂网络相结合,采用复杂网络中“次大连通子团”这一指标作为集群系统崩溃的判断依据,通过随机选择集群系统的节点注入故障,设置故障注入的强度与比例,计算次大连通子团的规模,当次大连通子团达到最大时,认定系统发生崩溃,通过对临界崩溃时故障注入的强度与比例进行分析计算,得到集群系统的可靠性。
(二)技术方案
为了实现上述目的,本发明的方法所采用的技术方案是:一种基于复杂网络的集群系统可靠性测评方法。
本发明一种基于复杂网络的集群系统可靠性测评方法,其步骤如下:
步骤A:分析测评对象构建系统网络模型;
步骤B:设置可靠性指标;
步骤C:设置可靠性测评的故障注入策略;
步骤D:实施可靠性测评,监控记录系统性能指标;
步骤E:汇总性能指标的变化趋势,分析集群系统的可靠性性能;
其中,步骤A中所述的“系统网络模型”,其具体含义为:一个具体的集群系统可以抽象为一个点集V和一个边集E组成的图G,即:G=(V,E);抽象后的网络模型可以清晰体现各个节点之间的调用关系,并方便对系统进行可靠性性能分析;根据系统的调用关系的不同,该图可以为有向图或无向图,图的存储形式可以为矩阵或者链表的形式;
步骤A中所述的“分析测评对象构建系统网络模型”,其具体含义为:通过对测评对象进行分析,发掘其各个节点之间的硬件拓扑结构以及各个节点之间的调用关系,构建系统的网络模型;包括以下步骤:
步骤A1:分析抽取集群系统的节点分布情况,构建系统网络模型的点集V;
步骤A2:分析抽取各个节点之间的调用关系,构建系统网络模型的边集E;
步骤A3:构建系统网络模型G。
其中,步骤B中所述的“设置可靠性指标”,其具体含义为:根据所需测量的集群系统的性能,设置接下来进行的可靠性指标;包含以下三个步骤:
步骤B1:确定所需分析的系统性能类型;
步骤B2:量化所需分析的性能参数;
步骤B3:构建系统的可靠性指标;
其中,步骤B1所述的“确定所需分析的系统性能类型”,其具体做法如下:根据测试的具体要求,确定所要分析的系统性能类型;由于系统可靠性测评任务需求不同,测评方面也有所侧重,故在对系统建立可靠性指标之前需要根据测试要求确定所要分析系统的性能类型;以集群机器人系统为例,可以对集群物流机器人系统的各个子机器人之间的通讯能力、子机器人之间传感器感知能力等多维度进行可靠性测试;
其中,步骤B2所述的“量化所需分析的性能参数”,其具体做法如下:根据性能类型的特点,量化性能参数;首先找到该节点在所测试的性能类型下的最大承受能力的临界值,即该节点崩溃前所承受的最大故障强度,设节点所能承受的最大故障强度为Smax
其中,步骤B3所述的“构建系统的可靠性指标”,其具体做法如下:运用复杂网络中的次大连通子团的概念构建系统的可靠性指标,包括以下的步骤:
步骤B31:计算初始状态下的系统网络模型的次大连通子团的规模;
步骤B32:以初始状态下的次大连通子团作为基础,构建可靠性测评指数;
其中,步骤B31所述的“系统网络模型的次大连通子团的规模”,其具体内容如下:次大连通子团G′是指在系统网络模型内第二大的一个连通子团;连通子团,又称连通子图,是指在系统网络模型G中的一个子团,在这个子团内的任意两个节点至少存在一条简单路径,即两个节点之间可以连通,而次大连通子团G″是指在非连通图内规模第二大的一个连通子团,次大连通子团G″的变化规律刻画了一个系统由正常到崩溃的过程,当故障开始注入后,节点之间的连边由于故障的原因发生断裂,整个系统网络模型的发生解离,大的连通子团分解为多个小的连通子团,在分解的过程中,次大连通子团的规模随之增加。当故障注入到一定强度后,系统发生崩溃,剥离下来的小连通子团发生进一步的解离,成为更小规模的连通子团,次大连通子团的规模随之减小;在系统网络模型从正常到崩溃的过程中,次大连通子团的变化趋势为先增加,当达到崩溃的临界时,次大连通子团的规模达到最大,系统网络模型崩溃后,次大连通子团的规模再减小;故次大连通子团规模的变化趋势可以作为系统网络模型崩溃的判断标志,故用该指标来测评集群系统的可靠性;
其中,步骤B31所述的“计算初始状态下的系统网络模型的次大连通子团的规模”,其具体作法如下:使用广度优先搜索(BFS)对初始状态下的集群系统网络模型求解次大连通子团的规模;广度优先搜索又叫横向优先搜索,其基本原理为:从根节点开始进行搜索,沿着树的宽度遍历树的节点,当所有的节点均被访问,则方法终止;在系统网络模型G中,随机寻找一个特定的源节点s,然后广度优先搜索系统地探索G中的边,最终发现可以从s到达的所有节点,即为包含源节点的一个连通子团,将该连通子团的节点信息进行存贮,接着从未被记录的节点中随机寻找一个节点作为源节点s′并执行广度优先搜索连通子团程序,直至遍历所有节点,将所储存的所有连通子团规模信息进行比较,这样就可以找到次大连通子团;该算法对有向图和无向图同样适用;
其中,步骤B32所述的“以初始状态下的次大连通子团作为基础,构建可靠性指标”,其具体作法如下:集群系统的可靠性可以由在系统崩溃临界点的故障注入节点的比例与故障注入的强度来进行衡量;对于不同系统来说,在相同故障注入强度下,系统崩溃的临界点时刻的故障注入节点的比例越小,其可靠性越差;故可通过构建可靠性指标二维坐标系来衡量以系统的可靠性,二维坐标的横轴为故障注入的强度,纵轴为系统崩溃临界点的故障注入节点的比例,本专利选择的故障注入的强度与系统崩溃临界点的故障注入节点的比例都是无标度的指标,可以实现不同类型、不同规模的集群系统在可靠性这一指标上可以横向对比;
其中,步骤C所述的“设置可靠性测评的故障注入策略”,其具体作法如下:对可靠性测评故障注入的策略进行设置,进而有效地对系统的可靠性指标进行测评,具体方法如下:1.注入:根据步骤B得到集群系统的可靠性指标,设置每次故障注入的强度;设进行N次故障注入实验,为了有效衡量该集群系统在不同故障注入强度下的可靠性,设置第n次故障注入的强度为节点所能承受的最大故障强度的βn倍,即:
Sn=βnSmax
βn的取值应覆盖从无故障到最大强度故障注入的全范围,即:
设置好每次可靠性测评故障注入的强度后,故障注入节点的比例从0%开始逐渐增加,每次增加1%,2.观察:通过观察次大连通子团的指标,判定集群系统是否发生崩溃,3.注入:若未发生崩溃,则加大故障注入节点的比例,进行下一轮的观察,重复上述“注入-观察-注入”的过程,直至次大连通子团达到峰值,此时系统崩溃,在崩溃时故障注入节点的比例为集群系统的可靠性强度;
其中,步骤D中所述的“实施扰动,监控记录系统可靠性指标”,其具体作法如下:根据步骤C所确定的可靠性测评的故障注入策略对集群系统故障注入,通过软件监控或者硬件监控的方式监控每次故障注入实验中集群系统所有节点的参数,根据步骤B2所量化的性能参数,判断节点间是否发生故障,统计集群网络模型的次大连通子团的变化趋势,根据次大连通子团的变化趋势挖掘在每次故障注入实验下的崩溃前的故障注入节点的比例,即在本次故障注入实验下的可靠性强度;
其中,步骤E中所述的“汇总性能指标的变化趋势”,其具体作法如下:提取每次故障注入实验下的故障注入强度以及崩溃时故障注入节点的比例这两个数据,为下一步分析集群系统的可靠性性能做准备;
其中,步骤E中所述的“分析集群系统的可靠性性能”,其具体作法如下:对汇总的两个数据进行数据回归拟合,求解集群系统的可靠性指标曲线;由于泰勒公式定义:设m为一个正整数,在一个包含a的区间上的函数f在a点处(m+1)次可导,则在整个区间上的任意x都有:
其中多项式为函数在a的泰勒展开式,Rn(x)为高阶无穷小;通过泰勒公式的定义可以得知,采用多项式回归拟合的方式可以有效地对光滑函数拟合逼近;在工程应用中,多项式的阶数过高会导致求解困难,阶数过低又不能有效地回归拟合,故本专利取4阶多项式对可靠性指标曲线进行回归拟合;设x为故障注入的强度数据,y为崩溃时故障注入节点的比例数据,可靠性指标曲线可表示如下:
y=f(x)=a0+a1x+a2x2+a3x3+a4x4
对于多项式回归拟合的求解,本专利采用最小二乘法的思路;最小二乘法求解回归方程的核心思想是通过误差最小化来寻找数据的最佳函数匹配,设共有N组对应数据,xn为第n组数据中故障注入的强度数据,yn为第n组数据中崩溃时故障注入节点的比例数据,则具体做法为改变多项式的系数使得拟合曲线与数据点之间的偏差最小,即:
求解以上函数可得到回归拟合后的可靠性指标曲线,通过对比不同集群系统的可靠性指标曲线,即可得出不同系统的可靠性性能。
通过以上步骤,本方法提出了一种基于复杂网络的集群系统可靠性测评方法,解决了现有的方法无法从全局有效地对故障复杂、结构复杂、传播复杂的集群系统进行可靠性衡量以及可靠性评测的不足,本方法采用复杂网络中的次大连通子团指标对系统的崩溃状态进行衡量,具有很强的工程应用价值。
(三)优点创新
本发明具有如下的创新点:
1.易计算:本发明中所采用的可靠性指标基于次大连通子团这一概念,采用广度优先搜索算法进行求取,可靠性指标曲线采用最小二乘多项式拟合方法,这些方法相比其他复杂方法容易实现,便于工程操作;
2.应用广:本发明所设计的测评方法和可靠性指标适用于多种集群系统,并由于可靠性曲线中的故障注入的强度数据以及崩溃时故障注入节点的比例数据均为无量纲参数,可以更好地适应不同类型的系统,以及不同类型的可靠性属性;
3.易理解:通过对比不同集群系统的可靠性指标曲线可以清晰展现集群系统的可靠性指标和变化趋势,便于研究人员定性和定量地理解系统的可靠性性能。
综上,这种基于复杂网络的集群系统可靠性测评方法为工程应用中的集群系统可靠性测试提供一种很好的解决方案。
附图说明
图1是本发明所述方法流程图。
具体实施方式
为使本发明要解决的技术问题、技术方案更加清楚,下面将结合附图及具体实施案例进行详细描述。应当理解,此处所描述的实施实例仅用于说明和解释本发明,并不用于限定本发明。
本发明的目的在于解决现有的测评方法无法有效地对故障复杂、结构复杂、传播复杂的集群系统的可靠性进行刻画的问题。本专利在考虑到集群系统多种复杂特性的前提下,向集群系统随机注入故障,采用复杂网络中次大连通子团这一指标判断集群系统的是否崩溃,通过对集群系统崩溃时注入的故障强度与故障注入节点的比例这两个数据进行采集分析,采用最小二乘多项式回归的方法得到集群系统的可靠性曲线。本方法计算简单,可以很好的刻画集群系统的可靠性,具有较好的应用价值。
下面结合附图说明及具体实施方式对本发明进一步说明。
本发明实施例以某智能集群机器人系统为例,阐述本发明方法。具体地说,该分拣中心包含200个机器人,机器人间通过ZigBee模块进行通信,现需要对该系统的系统内部信息传递的可靠性性能进行测试。
本发明一种基于复杂网络的集群系统可靠性测评方法,其步骤如图1所示:
步骤A:分析测评对象构建系统网络模型;
为整个方法的基础,通过对测评对象进行分析,发掘其各个节点之间的硬件拓扑结构以及各个节点之间的调用关系,进而构建系统的网络模型,为接下来分析系统的弹性性能做准备。分析抽取集群系统的节点分布情况,构建系统网络模型的点集V,分析抽取各个节点之间的调用关系,构建系统网络模型的边集E,构建系统网络模型G。
步骤B:设置可靠性指标;
根据所需测量的集群系统的性能,设置接下来进行的可靠性指标。包含以下三个步骤首先确定所需分析的系统性能类型,即根据测试的具体要求,确定所要分析的系统性能类型。接着量化所需分析的性能参数,即根据性能类型的特点,量化性能参数。最后构建系统的可靠性指标,即运用复杂网络中的次大连通子团的概念构建系统的可靠性指标,计算初始状态下的系统网络模型的次大连通子团的规模,以初始状态下的次大连通子团作为基础,构建可靠性测评指数。
步骤C:设置可靠性测评的故障注入策略;
对可靠性测评故障注入的策略进行设置,进而有效地对系统的可靠性指标进行测评,具体方法如下:根据步骤B得到集群系统的可靠性指标,设置每次故障注入的强度。
步骤D:实施可靠性测评,监控记录系统性能指标;
根据步骤C所确定的可靠性测评的故障注入策略对集群系统故障注入,通过软件监控或者硬件监控的方式监控每次故障注入实验中集群系统所有节点的参数,根据步骤B所量化的性能参数,判断节点间是否发生故障,统计集群网络模型的次大连通子团的变化趋势,根据次大连通子团的变化趋势挖掘在每次故障注入实验下的崩溃前的故障注入节点的比例,即在本次故障注入实验下的可靠性强度。
步骤E:汇总性能指标的变化趋势,分析集群系统的可靠性性能;
对汇总的两个数据进行数据回归拟合,求解集群系统的可靠性指标曲线。提取每次故障注入实验下的故障注入强度以及崩溃时故障注入节点的比例这两个数据,然后对汇总的两个数据进行数据回归拟合,求解集群系统的可靠性指标曲线。通过对比不同集群系统的可靠性指标曲线,即可得出不同系统的可靠性性能。
其中,步骤A中所述的“系统网络模型”,其具体含义为:一个具体的集群系统可以抽象为一个点集V和一个边集E组成的图G,即:G=(V,E);抽象后的网络模型可以清晰体现各个节点之间的调用关系,并方便对系统进行可靠性性能分析;根据系统的调用关系的不同,该图可以为有向图或无向图,图的存储形式可以为矩阵或者链表的形式;
步骤A中所述的“分析测评对象构建系统网络模型”,其具体含义为:通过对测评对象进行分析,发掘其各个节点之间的硬件拓扑结构以及各个节点之间的调用关系,构建系统的网络模型;包括以下步骤:
步骤A1:分析抽取集群系统的节点分布情况,构建系统网络模型的点集V;
步骤A2:分析抽取各个节点之间的调用关系,构建系统网络模型的边集E;
步骤A3:构建系统网络模型G。
其中,步骤B中所述的“设置可靠性指标”,其具体含义为:根据所需测量的集群系统的性能,设置接下来进行的可靠性指标;包含以下三个步骤:
步骤B1:确定所需分析的系统性能类型;
步骤B2:量化所需分析的性能参数;
步骤B3:构建系统的可靠性指标;
其中,步骤B1所述的“确定所需分析的系统性能类型”,其具体做法如下:根据测试的具体要求,确定所要分析的系统性能类型;由于系统可靠性测评任务需求不同,测评方面也有所侧重,故在对系统建立可靠性指标之前需要根据测试要求确定所要分析系统的性能类型;以集群机器人系统为例,可以对集群物流机器人系统的各个子机器人之间的通讯能力、子机器人之间传感器感知能力等多维度进行可靠性测试;
其中,步骤B2所述的“量化所需分析的性能参数”,其具体做法如下:根据性能类型的特点,量化性能参数;首先找到该节点在所测试的性能类型下的最大承受能力的临界值,即该节点崩溃前所承受的最大故障强度,设节点所能承受的最大故障强度为Smax,以集群机器人系统的机器人之间的通讯能力为例,当受到电磁干扰后,丢包率增加,设某两个机器人之间的能正常通信时的最大丢包率为pkmax,当丢包率大于pkmax,认为发生故障,某两个机器人之间通讯中断,此时系统网络模型中这两个机器人对应的节点之间的连边被打断;
其中,步骤B3所述的“构建系统的可靠性指标”,其具体做法如下:运用复杂网络中的次大连通子团的概念构建系统的可靠性指标,包括以下的步骤:
步骤B31:计算初始状态下的系统网络模型的次大连通子团的规模;
步骤B32:以初始状态下的次大连通子团作为基础,构建可靠性测评指数;
其中,步骤B31所述的“系统网络模型的次大连通子团的规模”,其具体内容如下:次大连通子团G′是指在系统网络模型内第二大的一个连通子团;连通子团,又称连通子图,是指在系统网络模型G中的一个子团,在这个子团内的任意两个节点至少存在一条简单路径,即两个节点之间可以连通,而次大连通子团G″是指在非连通图内规模第二大的一个连通子团,次大连通子团G″的变化规律刻画了一个系统由正常到崩溃的过程,当故障开始注入后,节点之间的连边由于故障的原因发生断裂,整个系统网络模型的发生解离,大的连通子团分解为多个小的连通子团,在分解的过程中,次大连通子团的规模随之增加。当故障注入到一定强度后,系统发生崩溃,剥离下来的小连通子团发生进一步的解离,成为更小规模的连通子团,次大连通子团的规模随之减小;在系统网络模型从正常到崩溃的过程中,次大连通子团的变化趋势为先增加,当达到崩溃的临界时,次大连通子团的规模达到最大,系统网络模型崩溃后,次大连通子团的规模再减小;故次大连通子团规模的变化趋势可以作为系统网络模型崩溃的判断标志,故用该指标来测评集群系统的可靠性;
其中,步骤B31所述的“计算”,其具体方法如下:使用广度优先搜索(BFS)对初始状态下的集群系统网络模型求解次大连通子团的规模;广度优先搜索又叫横向优先搜索,其基本原理为:从根节点开始进行搜索,沿着树的宽度遍历树的节点,当所有的节点均被访问,则算法终止;在系统网络模型G中,随机寻找一个特定的源节点s,然后广度优先搜索系统地探索G中的边,最终发现可以从s到达的所有节点,即为包含源节点的一个连通子团,将该连通子团的节点信息进行存贮,接着从未被记录的节点中随机寻找一个节点作为源节点s′并执行广度优先搜索连通子团程序,直至遍历所有节点,将所储存的所有连通子团规模信息进行比较,这样就可以找到次大连通子团;该算法对有向图和无向图同样适用;
其中,步骤B32所述的“构建可靠性指标”,其具体方法如下:集群系统的可靠性可以由在系统崩溃临界点的故障注入节点的比例与故障注入的强度来进行衡量;对于不同系统来说,在相同故障注入强度下,系统崩溃的临界点时刻的故障注入节点的比例越小,其可靠性越差;故可通过构建可靠性指标二维坐标系来衡量以系统的可靠性,二维坐标的横轴为故障注入的强度,纵轴为系统崩溃临界点的故障注入节点的比例,本专利选择的故障注入的强度与系统崩溃临界点的故障注入节点的比例都是无标度的指标,可以实现不同类型、不同规模的集群系统在可靠性这一指标上可以横向对比;
其中,步骤C所述的“设置可靠性测评的故障注入策略”,其具体方法如下:对可靠性测评故障注入的策略进行设置,进而有效地对系统的可靠性指标进行测评,具体方法如下:根据步骤B得到集群系统的可靠性指标,设置每次故障注入的强度;设进行100次故障注入实验,为了有效衡量该集群系统在不同故障注入强度下的可靠性,设置第n次故障注入的强度为节点所能承受的最大故障强度的βn倍,即:
Sn=βnSmax
βn的取值应覆盖从无故障到最大强度故障注入的全范围,即:
设置好每次可靠性测评故障注入的强度后,故障注入节点的比例从0%开始逐渐增加,每次增加1%,通过观察次大连通子团的指标,判定集群系统是否发生崩溃,若未发生崩溃,则加大故障注入节点的比例,进行下一轮的观察,重复上述“注入-观察-注入”的过程,直至次大连通子团达到峰值,此时系统崩溃,在崩溃时故障注入节点的比例为集群系统的可靠性强度;
其中,步骤D中所述的“实施扰动,监控记录系统可靠性指标”,其具体方法如下:根据步骤C所确定的可靠性测评的故障注入策略对集群系统故障注入,通过软件监控或者硬件监控的方式监控每次故障注入实验中集群系统所有节点的参数,根据步骤B2所量化的性能参数,判断节点间是否发生故障,统计集群网络模型的次大连通子团的变化趋势,根据次大连通子团的变化趋势挖掘在每次故障注入实验下的崩溃前的故障注入节点的比例,即在本次故障注入实验下的可靠性强度;
其中,步骤E中所述的“汇总性能指标的变化趋势”,其具体方法如下:提取每次故障注入实验下的故障注入强度以及崩溃时故障注入节点的比例这两个数据,为下一步分析集群系统的可靠性性能做准备;
其中,步骤E中所述的“分析集群系统的可靠性性能”,其具体方法如下:对汇总的两个数据进行数据回归拟合,求解集群系统的可靠性指标曲线;由于泰勒公式定义:设m为一个正整数,在一个包含a的区间上的函数f在a点处(m+1)次可导,则在整个区间上的任意x都有:
其中多项式为函数在a的泰勒展开式,Rn(x)为高阶无穷小;通过泰勒公式的定义可以得知,采用多项式回归拟合的方式可以有效地对光滑函数拟合逼近;在工程应用中,多项式的阶数过高会导致求解困难,阶数过低又不能有效地回归拟合,故本专利取4阶多项式对可靠性指标曲线进行回归拟合;设x为故障注入的强度数据,y为崩溃时故障注入节点的比例数据,可靠性指标曲线可表示如下:
y=f(x)=a0+a1x+a2x2+a3x3+a4x4
对于多项式回归拟合的求解,本专利采用最小二乘法的思路;最小二乘法求解回归方程的核心思想是通过误差最小化来寻找数据的最佳函数匹配,设共有100组对应数据,xn为第n组数据中故障注入的强度数据,yn为第n组数据中崩溃时故障注入节点的比例数据,则具体做法为改变多项式的系数使得拟合曲线与数据点之间的偏差最小,即:
求解以上函数可得到回归拟合后的可靠性指标曲线,通过对比不同集群系统的可靠性指标曲线,即可得出不同系统的可靠性性能。
本发明未详细阐述部分属于本领域公知技术。
以上所述,仅为本发明部分具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本领域的人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (4)

1.一种基于复杂网络的集群系统可靠性测评方法,其特征在于:其步骤如下:
步骤A:分析测评对象构建系统网络模型;
步骤B:设置可靠性指标;
步骤C:设置可靠性测评的故障注入策略;
步骤D:实施可靠性测评,监控记录系统性能指标;
步骤E:汇总性能指标的变化趋势,分析集群系统的可靠性性能;
其中,步骤A中所述的“系统网络模型”,其具体含义为:一个具体的集群系统能抽象为一个点集V和一个边集E组成的图G,即:G=(V,E);抽象后的网络模型能清晰体现各个节点之间的调用关系,并方便对系统进行可靠性性能分析;根据系统的调用关系的不同,该图能为有向图及无向图,图的存储形式能为矩阵或者链表的形式;
步骤A中所述的“分析测评对象构建系统网络模型”,其具体含义为:通过对测评对象进行分析,发掘其各个节点之间的硬件拓扑结构以及各个节点之间的调用关系,构建系统的网络模型;包括以下步骤:
步骤A1:分析抽取集群系统的节点分布情况,构建系统网络模型的点集V;
步骤A2:分析抽取各个节点之间的调用关系,构建系统网络模型的边集E;
步骤A3:构建系统网络模型G;
其中,步骤B中所述的“设置可靠性指标”,其具体含义为:根据所需测量的集群系统的性能,设置接下来进行的可靠性指标;包含以下三个步骤:
步骤B1:确定所需分析的系统性能类型;
步骤B2:量化所需分析的性能参数;
步骤B3:构建系统的可靠性指标;
其中,步骤B1所述的“确定所需分析的系统性能类型”,其具体做法如下:根据测试的具体要求,确定所要分析的系统性能类型;由于系统可靠性测评任务需求不同,测评方面也有所侧重,故在对系统建立可靠性指标之前需要根据测试要求确定所要分析系统的性能类型;以集群机器人系统为例,能对集群物流机器人系统的各个子机器人之间的通讯能力、子机器人之间传感器感知能力等多维度进行可靠性测试;
其中,步骤B2所述的“量化所需分析的性能参数”,其具体做法如下:根据性能类型的特点,量化性能参数;首先找到该节点在所测试的性能类型下的最大承受能力的临界值,即该节点崩溃前所承受的最大故障强度,设节点所能承受的最大故障强度为Smax
其中,步骤B3所述的“构建系统的可靠性指标”,其具体做法如下:运用复杂网络中的次大连通子团的概念构建系统的可靠性指标,包括以下的步骤:
步骤B31:计算初始状态下的系统网络模型的次大连通子团的规模;
步骤B32:以初始状态下的次大连通子团作为基础,构建可靠性测评指数;
其中,步骤C所述的“设置可靠性测评的故障注入策略”,其具体作法如下:对可靠性测评故障注入的策略进行设置,进而有效地对系统的可靠性指标进行测评,具体方法如下:1.注入:根据步骤B得到集群系统的可靠性指标,设置每次故障注入的强度;设进行N次故障注入实验,为了有效衡量该集群系统在不同故障注入强度下的可靠性,设置第n次故障注入的强度为节点所能承受的最大故障强度的βn倍,即:
Sn=βnSmax
βn的取值应覆盖从无故障到最大强度故障注入的全范围,即:
设置好每次可靠性测评故障注入的强度后,故障注入节点的比例从0%开始逐渐增加,每次增加1%,2.观察:通过观察次大连通子团的指标,判定集群系统是否发生崩溃;3.注入:若未发生崩溃,则加大故障注入节点的比例,进行下一轮的观察,重复上述“注入-观察-注入”的过程,直至次大连通子团达到峰值,此时系统崩溃,在崩溃时故障注入节点的比例为集群系统的可靠性强度;
其中,步骤D中所述的“实施扰动,监控记录系统可靠性指标”,其具体作法如下:根据步骤C所确定的可靠性测评的故障注入策略对集群系统故障注入,通过软件监控及硬件监控的方式监控每次故障注入实验中集群系统所有节点的参数,根据步骤B2所量化的性能参数,判断节点间是否发生故障,统计集群网络模型的次大连通子团的变化趋势,根据次大连通子团的变化趋势挖掘在每次故障注入实验下的崩溃前的故障注入节点的比例,即在本次故障注入实验下的可靠性强度;
其中,步骤E中所述的“汇总性能指标的变化趋势”,其具体作法如下:提取每次故障注入实验下的故障注入强度以及崩溃时故障注入节点的比例这两个数据,为下一步分析集群系统的可靠性性能做准备;
其中,步骤E中所述的“分析集群系统的可靠性性能”,其具体作法如下:对汇总的两个数据进行数据回归拟合,求解集群系统的可靠性指标曲线;由于泰勒公式定义:设m为一个正整数,在一个包含a的区间上的函数f在a点处(m+1)次可导,则在整个区间上的任意x都有:
其中多项式为函数在a的泰勒展开式,Rn(x)为高阶无穷小;通过泰勒公式的定义能得知,采用多项式回归拟合的方式能有效地对光滑函数拟合逼近;在工程应用中,多项式的阶数过高会导致求解困难,阶数过低又不能有效地回归拟合,故本专利取4阶多项式对可靠性指标曲线进行回归拟合;设x为故障注入的强度数据,y为崩溃时故障注入节点的比例数据,可靠性指标曲线表示如下:
y=f(x)=a0+a1x+a2x2+a3x3+a4x4
对于多项式回归拟合的求解,本专利采用最小二乘法的思路;最小二乘法求解回归方程的核心思想是通过误差最小化来寻找数据的最佳函数匹配,设共有N组对应数据,xn为第n组数据中故障注入的强度数据,yn为第n组数据中崩溃时故障注入节点的比例数据,则具体做法为改变多项式的系数使得拟合曲线与数据点之间的偏差最小,即:
求解以上函数能得到回归拟合后的可靠性指标曲线,通过对比不同集群系统的可靠性指标曲线,即能得出不同系统的可靠性性能;
通过以上步骤,本发明所述的方法容易实现,便于工程操作;它适用于多种集群系统,以及不同类型的可靠性属性;解决了现有的方法无法从全局有效地对故障复杂、结构复杂、传播复杂的集群系统进行可靠性衡量以及可靠性评测的不足,本方法采用复杂网络中的次大连通子团指标对系统的崩溃状态进行衡量,便于研究人员定性和定量地理解系统的可靠性性能,具有很强的工程应用价值。
2.根据权利要求1所述的一种基于复杂网络的集群系统可靠性测评方法,其特征在于:在步骤B31所述的“系统网络模型的次大连通子团的规模”,其具体内容如下:次大连通子团G′是指在系统网络模型内第二大的一个连通子团;连通子团,又称连通子图,是指在系统网络模型G中的一个子团,在这个子团内的任意两个节点至少存在一条简单路径,即两个节点之间能连通,而次大连通子团G″是指在非连通图内规模第二大的一个连通子团,次大连通子团G″的变化规律刻画了一个系统由正常到崩溃的过程,当故障开始注入后,节点之间的连边由于故障的原因发生断裂,整个系统网络模型的发生解离,大的连通子团分解为多个小的连通子团,在分解的过程中,次大连通子团的规模随之增加;当故障注入到一预定强度后,系统发生崩溃,剥离下来的小连通子团发生进一步的解离,成为更小规模的连通子团,次大连通子团的规模随之减小;在系统网络模型从正常到崩溃的过程中,次大连通子团的变化趋势为先增加,当达到崩溃的临界时,次大连通子团的规模达到最大,系统网络模型崩溃后,次大连通子团的规模再减小;故次大连通子团规模的变化趋势能作为系统网络模型崩溃的判断标志,故用该指标来测评集群系统的可靠性。
3.根据权利要求1所述的一种基于复杂网络的集群系统可靠性测评方法,其特征在于:
在步骤B31所述的“计算初始状态下的系统网络模型的次大连通子团的规模”,其具体作法如下:使用广度优先搜索(BFS)对初始状态下的集群系统网络模型求解次大连通子团的规模;广度优先搜索又叫横向优先搜索,从根节点开始进行搜索,沿着树的宽度遍历树的节点,当所有的节点均被访问,则算法终止;在系统网络模型G中,随机寻找一个特定的源节点s,然后广度优先搜索系统地探索G中的边,最终发现可以从s到达的所有节点,即为包含源节点的一个连通子团,将该连通子团的节点信息进行存贮,接着从未被记录的节点中随机寻找一个节点作为源节点s′并执行广度优先搜索连通子团程序,直至遍历所有节点,将所储存的所有连通子团规模信息进行比较,这样就能找到次大连通子团;该方法对有向图和无向图同样适用。
4.根据权利要求1所述的一种基于复杂网络的集群系统可靠性测评方法,其特征在于:在步骤B32所述的“以初始状态下的次大连通子团作为基础,构建可靠性指标”,其具体作法如下:集群系统的可靠性能由在系统崩溃临界点的故障注入节点的比例与故障注入的强度来进行衡量;对于不同系统来说,在相同故障注入强度下,系统崩溃的临界点时刻的故障注入节点的比例越小,其可靠性越差;故能通过构建可靠性指标二维坐标系来衡量以系统的可靠性,二维坐标的横轴为故障注入的强度,纵轴为系统崩溃临界点的故障注入节点的比例,本专利选择的故障注入的强度与系统崩溃临界点的故障注入节点的比例都是无标度的指标,能实现不同类型、不同规模的集群系统在可靠性这一指标上能横向对比。
CN201810612933.4A 2018-06-14 2018-06-14 一种基于复杂网络的集群系统可靠性测评方法 Active CN109104328B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810612933.4A CN109104328B (zh) 2018-06-14 2018-06-14 一种基于复杂网络的集群系统可靠性测评方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810612933.4A CN109104328B (zh) 2018-06-14 2018-06-14 一种基于复杂网络的集群系统可靠性测评方法

Publications (2)

Publication Number Publication Date
CN109104328A true CN109104328A (zh) 2018-12-28
CN109104328B CN109104328B (zh) 2020-09-18

Family

ID=64796798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810612933.4A Active CN109104328B (zh) 2018-06-14 2018-06-14 一种基于复杂网络的集群系统可靠性测评方法

Country Status (1)

Country Link
CN (1) CN109104328B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309550A (zh) * 2019-06-10 2019-10-08 北京交通大学 一种基于势能场与网络效率的高速列车系统可靠性分析方法
CN110348070A (zh) * 2019-06-19 2019-10-18 北京航空航天大学 一种基于模型系统工程和超网络理论的体系建模方法
CN111475899A (zh) * 2020-03-16 2020-07-31 北京航空航天大学 基于超网络理论的数据链网络可靠性指标体系构建方法
CN111598392A (zh) * 2020-04-15 2020-08-28 北京航空航天大学 一种基于超网络理论的数据链网络结构可靠性评估方法
CN111598393A (zh) * 2020-04-15 2020-08-28 北京航空航天大学 一种基于超网络理论的数据链网络运行可靠性评估方法
CN111835567A (zh) * 2020-07-14 2020-10-27 北京航空航天大学 基于瓶颈节点识别的数据链网络可靠性优化方法及系统
CN112632732A (zh) * 2020-12-23 2021-04-09 航天信息股份有限公司 一种用于测评系统脆弱性的方法及系统
CN113625697A (zh) * 2021-09-15 2021-11-09 北京航空航天大学 考虑任务能力变化的无人机集群可靠性评估方法和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103166812A (zh) * 2013-03-28 2013-06-19 广东电网公司电力调度控制中心 电力通信系统可靠性测定方法
CN105183957A (zh) * 2015-08-24 2015-12-23 中国航空无线电电子研究所 一种用于航空电子系统的鲁棒性分析方法
CN105703957A (zh) * 2016-04-06 2016-06-22 西北工业大学 一种航空电子网络系统的鲁棒性计算方法
CN105721228A (zh) * 2016-04-22 2016-06-29 国网河南省电力公司经济技术研究院 基于快速密度聚类的电力通信网节点重要性评估方法
CN106951619A (zh) * 2017-03-13 2017-07-14 西安交通大学 计及可靠性约束的海上风电场拓扑设计方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103166812A (zh) * 2013-03-28 2013-06-19 广东电网公司电力调度控制中心 电力通信系统可靠性测定方法
CN105183957A (zh) * 2015-08-24 2015-12-23 中国航空无线电电子研究所 一种用于航空电子系统的鲁棒性分析方法
CN105703957A (zh) * 2016-04-06 2016-06-22 西北工业大学 一种航空电子网络系统的鲁棒性计算方法
CN105721228A (zh) * 2016-04-22 2016-06-29 国网河南省电力公司经济技术研究院 基于快速密度聚类的电力通信网节点重要性评估方法
CN106951619A (zh) * 2017-03-13 2017-07-14 西安交通大学 计及可靠性约束的海上风电场拓扑设计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
闫玲玲等: "基于度和聚类系数的中国航空网络重要性节点分析", 《智能系统学报》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110309550B (zh) * 2019-06-10 2021-06-22 北京交通大学 一种基于势能场与网络效率的高速列车系统可靠性分析方法
CN110309550A (zh) * 2019-06-10 2019-10-08 北京交通大学 一种基于势能场与网络效率的高速列车系统可靠性分析方法
CN110348070A (zh) * 2019-06-19 2019-10-18 北京航空航天大学 一种基于模型系统工程和超网络理论的体系建模方法
CN110348070B (zh) * 2019-06-19 2021-10-01 北京航空航天大学 一种基于模型系统工程和超网络理论的体系建模方法
CN111475899A (zh) * 2020-03-16 2020-07-31 北京航空航天大学 基于超网络理论的数据链网络可靠性指标体系构建方法
CN111475899B (zh) * 2020-03-16 2022-09-27 北京航空航天大学 基于超网络理论的数据链网络可靠性指标体系构建方法
CN111598392A (zh) * 2020-04-15 2020-08-28 北京航空航天大学 一种基于超网络理论的数据链网络结构可靠性评估方法
CN111598392B (zh) * 2020-04-15 2022-06-10 北京航空航天大学 一种基于超网络理论的数据链网络结构可靠性评估方法
CN111598393B (zh) * 2020-04-15 2022-09-27 北京航空航天大学 一种基于超网络理论的数据链网络运行可靠性评估方法
CN111598393A (zh) * 2020-04-15 2020-08-28 北京航空航天大学 一种基于超网络理论的数据链网络运行可靠性评估方法
CN111835567B (zh) * 2020-07-14 2021-07-13 北京航空航天大学 基于瓶颈节点识别的数据链网络可靠性优化方法及系统
CN111835567A (zh) * 2020-07-14 2020-10-27 北京航空航天大学 基于瓶颈节点识别的数据链网络可靠性优化方法及系统
CN112632732A (zh) * 2020-12-23 2021-04-09 航天信息股份有限公司 一种用于测评系统脆弱性的方法及系统
CN113625697A (zh) * 2021-09-15 2021-11-09 北京航空航天大学 考虑任务能力变化的无人机集群可靠性评估方法和系统

Also Published As

Publication number Publication date
CN109104328B (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
CN109104328A (zh) 一种基于复杂网络的集群系统可靠性测评方法
CN108768745A (zh) 一种基于复杂网络的集群系统脆性测评方法
CN102496069B (zh) 基于模糊层次分析法的电缆多状态安全运行评估方法
Hübler et al. Metropolis algorithms for representative subgraph sampling
CN108959072A (zh) 一种基于复杂网络的集群系统弹性测评方法
Moreno et al. Epidemic outbreaks in complex heterogeneous networks
CN103886374B (zh) 一种基于rbf神经网络的电缆接头导线温度预测方法
US8831864B1 (en) Interactive conflict detection and resolution for air and air-ground traffic control
CN108732528A (zh) 一种基于深度置信网络的数字化电能表故障诊断方法
CN104125112B (zh) 基于物理‑信息模糊推理的智能电网攻击检测方法
Silva et al. Spectral properties and the accuracy of mean-field approaches for epidemics on correlated power-law networks
CN101718834A (zh) 一种模拟电路故障传播特性的分析方法
CN103455612B (zh) 基于两阶段策略的非重叠与重叠网络社区检测方法
CN104484548B (zh) 一种改进的序贯故障诊断策略优化方法
CN110110529A (zh) 一种基于复杂网络的软件网络关键节点挖掘方法
CN105843733A (zh) 一种大数据平台的性能检测方法及装置
CN108090677A (zh) 一种关键基础设施可靠性测评方法
CN106934242A (zh) 基于交叉熵法的多模式下设备的健康度评估方法及系统
CN106953754A (zh) 基于作战链路熵的指控网络抗毁测度方法
CN109977571A (zh) 基于数据与模型混合的仿真计算方法及装置
CN107832789A (zh) 基于平均影响值数据变换的特征加权k近邻故障诊断方法
CN109779791A (zh) 一种固体火箭发动机中异常数据智能诊断方法
CN109921938A (zh) 一种云计算环境下故障检测方法
Refael et al. Entanglement entropy of the random s= 1 Heisenberg chain
Serrestou et al. Functional verification of rtl designs driven by mutation testing metrics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant