CN105512087B - 一种资源约束性多节点计算系统的可靠性评估方法 - Google Patents

一种资源约束性多节点计算系统的可靠性评估方法 Download PDF

Info

Publication number
CN105512087B
CN105512087B CN201510892726.5A CN201510892726A CN105512087B CN 105512087 B CN105512087 B CN 105512087B CN 201510892726 A CN201510892726 A CN 201510892726A CN 105512087 B CN105512087 B CN 105512087B
Authority
CN
China
Prior art keywords
node
computer cluster
bdd model
model computer
constant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510892726.5A
Other languages
English (en)
Other versions
CN105512087A (zh
Inventor
莫毓昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Normal University CJNU
Original Assignee
Zhejiang Normal University CJNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Normal University CJNU filed Critical Zhejiang Normal University CJNU
Priority to CN201510892726.5A priority Critical patent/CN105512087B/zh
Publication of CN105512087A publication Critical patent/CN105512087A/zh
Application granted granted Critical
Publication of CN105512087B publication Critical patent/CN105512087B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于计算机技术领域,本发明是通过下述技术方案实现的:一种资源约束性多节点计算系统的可靠性评估方法,步骤如下:步骤1:建立基本BDD模型计算机集群组织,并对BDD模型计算机集群组织中的各个节点中依照布尔型变量进行编码,步骤2:继续利用BDD模型,对BDD模型计算机集群组织的系统级状态进行编码,将BDD模型计算机集群组织的各个节点在空间中按照X轴Y轴进行排列编号,使其在系统级BDD模型中的位置平面横纵轴坐标化,步骤3.依靠步骤2编排坐标后,在BDD模型计算机集群组织的节点工作(量)状态需求,设定启动工作的节点,步骤4:得到步骤3所构造的BDD模型计算机集群组织后,利用系统级BDD模型对得到的BDD模型计算机集群组织进行可靠性评估。

Description

一种资源约束性多节点计算系统的可靠性评估方法
技术领域
本发明属于计算机技术领域,涉及一种资源约束性多节点计算系统的可靠性评估方法。
背景技术
随着经济和社会的发展,人们对计算系统处理能力的需求不断提高。近年来山现的多节点计算系统正是通过多个独立的计算节点并行计算提供强大的计算能力。典型的多节点计算系统有两类,1)集群计算系统:集群计算系统由多台服务器节点通过互联网络组合而成,在集群管理软件的管理下作为一台虚拟的高性能服务器向外提供服务;2)多核处理器:多核处理器是把多个计算内核及具互联网络是设计在芯片内部,此时一个多核芯片的计算能力就相当于一个集群系统。
由于,多节点计算系统(如集群计算系统和多核处理器)的多个计算节点是通过互联网络集成在一起,并通过一个网络端口向外提供服务。此时,就存在多计算节点的强大计算能力和网络较低通信能力(即带宽)的矛盾。也就是,在通信资源约束的条件下,一个N节点的多节点计算系统不能够激活全部N节点(即全负荷工作),因为全部N节点处于正常工作状态带来的通信需求会导致网络阻塞、进而引发整个系统的崩溃。现有的用于通信资源约束型多节点计算系统的可靠性评估方法是状态枚举法。例如对于N=4,K=3,L=2的多节点计算系统,该系统一共有10个正常的工作状态:
Figure GDA0002919029270000011
Figure GDA0002919029270000012
其中Xi表示节点i处于正常状态,而
Figure GDA0002919029270000013
表示节点i处于故障状态。从实例可以看山,但是当N较大时,采用枚举法进行状态枚举会出现状态过多,存储困难,计算效率低的问题。
发明内容
本发明的目的,为解决现有技术中的通信资源约束型多节点运算系统采用枚举法进行状态枚举会山现状态过多,存储困难,计算效率低的问题,使用更高效的决策图运算数据结构对通信资源约束型多节点计算系统的工作状态进行高效编码,从而极人缩小了存储空间需求,提升了计算效率。
本发明是通过下述技术方案实现的:一种资源约束性多节点计算系统的可靠性评估方法,步骤如下:
步骤1:建立基本BDD模型计算机集群组织,并对BDD模型计算机集群组织中的各个运算或工作的节点中的单个服务器或运算核心及其运行的部件状态依照布尔型变量进行编码,单个服务器或运算核心及其运行的部件在下文中都统一代称为节点:节点所有运行状态形式编码为X,当X节点为工作状态时为编码1,状态表示X=1;当X节点为故障状态时编码0,状态表示X=0;且X=1的连接状态编码为1,X=0的连接状态编码为0;节点接受来自各下属或平级节点的运算数据,并设置接受数据时0和1分支时的运行状态出现概率P,概率P来自于节点制造者的制造数据、检测数据、或实验数据等,运行状态出现概率P的值为大于0%小于100%;
步骤2:继续利用BDD模型,对BDD模型计算机集群组织的系统级状态进行编码,将BDD模型计算机集群组织的各个节点在空间中按照X轴Y轴进行排列编号,使其在系统级BDD模型中的位置平面横纵轴坐标化,并可根据实际节点数量沿横纵轴坐标排列扩展,并且模型位置坐标结构必须呈现为方形,且服务器的数量也就是节点的设定值为N;
步骤3.依靠步骤2编排坐标后,在BDD模型计算机集群组织的节点工作量状态需求,设定启动工作的节点不多于K并且不少于L,1≤L≤K≤N,K的值根据具体通信资源的容量而定,L的值根据计算任务的性能需求而定,计算任务的最低性能需求为M,每个节点的性能为X,则L=M/X,单个节点需要的通信资源为Y,系统总的通信资源为C,则L=C/Y;
并在节点的位置平面横纵轴坐标化的基础上,再采用下面的方法对系统级BDD模型计算机集群组织各节点之间的系统级运行状态编码:
1)当节点布尔型变量的纵坐标0≤Y<K-1时,节点布尔变量的横坐标取值范围为0≤X≤N-K;
a)设置横纵轴(X,Y)位置上的节点的变量名为“X+Y+1”;
b)当X=N-K时,该节点的0分支连接到常数节点0;否则该节点的0分支连接到(X+1,Y)位置上名为“X+Y+2”的节点;
c)当Y=L时,该节点的1分支连接到常数节点1;否则该节点的1分支连接到(X,Y+1)位置上名为“X+Y+2”的节点;
2)当节点布尔型变量的纵坐标Y=K-1时,节点布尔型变量的横坐标取值范围为0≤X≤N-K;
a)设置(X,Y)位置上的节点的变量名为“X+Y+1”;
b)当X<N-1时,该节点的0分支连接到(X+1,Y)位置上名为“X+Y+2”的节点;并且该节点的1分支连接到(X,Y+1)位置上名为“X+Y+2”的节点;
c)当N-L≤X<N-K时,该节点的0分支连接到(X+1,Y)位置上名为“X+Y+2”的节点;并且该节点的1分支连接到常数节点1;
d)当X=N-K时,该节点的0分支连接到常数节点0;并且该节点的1分支连接到常数节点1;
3)当节点布尔型变量的纵坐标K-1<Y≤L时,节点布尔型变量的横坐标取值范围为0≤X≤N-L-1;
a)设置(X,Y)位置上的节点的变量名为“X+Y+1”;
b)当X=N-L-1时,该节点的0分支连接到常数节点1;否则该节点的0分支连接到(X+1,Y)位置上名为“X+Y+2”的节点;
c)当Y=L时,该节点的1分支连接到常数节点0;否则该节点的1分支连接到(X,Y+1)位置上名为“X+Y+2”的节点;
步骤4:得到步骤3所构造的BDD模型计算机集群组织后,利用系统级BDD模型对得到的BDD模型计算机集群组织进行可靠性评估;利用系统级BDD模型进行可靠性评估是基于如下两个规则:
1)从坐标为(0,0)的状态变量节点到常数节点0的任意一条路径对应着BDD模型计算机集群组织的一个故障状态;状态变量节点为节点的编码和节点统称,坐标为(0,0)的状态变量节点即编码1节点,常数节点0则为常数编码为0的常数节点;
2)从坐标为(0,0)的状态变量节点(即编码1节点对应的节点)到常数节点1的任意一条路径对应着BDD模型计算机集群组织的一个工作状态;
系统可靠性评估就是计算或该BDD模型计算机集群组织自动计算自身,BDD模型计算机集群组织所有工作状态的概率之和;由于存在多个BDD模型计算机集群组织的工作状态,所以需要将所有BDD模型计算机集群组织的工作状态的概率进行累加;根据上述规则可知,BDD模型计算机集群组织的工作状态和常数节点1路径是一一对应的关系,所以我们只需将常数节点1路径的概率进行累加;
BDD模型计算机集群组织可靠性评估的“将常数节点1路径的概率进行累加”这一运算的步骤为:
3)根据步骤1给BDD模型计算机集群组织中每个状态变量节点的0分支和1分支各设置相应的概率值P;
4)给常数节点0设定初始概率值P为0%,给常数节点1设定的初始概率值P为100%,获得了概率值后再到此处进行赋值;或给常数节点0设定初始值0,给常数节点1设定的初始初始值1;
5)在获得的BDD模型计算机集群组织中按照节点的编码号从大到小的顺序,先计算节点“N”的对应的概率值,直至获得节点“1”对应概率值;
6)运算输出点“1”对应概率值的结果,即为本BDD模型计算机集群组织的可靠度或需求构成的BDD模型计算机集群组织的可靠度;
由此得到本次构造而成的计算机系统的可靠度,并可利用反推法并可最终得到最终的最优化计算机或多核CPU系统。
本发明与背景技术相比,具有的有益的效果是:能依靠被依靠的服务器或多核计算机CPU核心的硬件数据及运行概率数据,集群系统或多核CPU可自行根据现运算需求配比控制出一个最符合、最稳定、最优化的服务器或内核的启停配比方案并执行;也能在得到以及计算机集群系统故障或运行需求数据的情况下,运算出本计算机集群系统的需要改进的配比方式,能适应大的计算机集群系统,也能适应小的计算机集群系统;改变了计算器集群或多核CPU以往依靠采用枚举法进行状态枚举会出现状态过多,存储困难,计算效率低的问题,计算效率高,计算需要的缓存量要比枚举法少很多,从而极大缩小了存储空间需求,提升了计算效率;能在极端的反应速度下进一步加强计算器集群或多核CPU自我控制速度和稳定度,并可为随机或统一硬件条件下设计最符合、最稳定、最优化方案的服务器或多内核CPU提供配比方案。
附图说明
图1是节点的基本BDD模型图
图2是节点位置平面坐标化模型图
图3是BDD模型计算机集群组织的参数为K=2,L=3,N=5时模型图
图4是BDD模型计算机集群组织的参数为K=2,L=4,N=5时模型图
图5是BDD模型计算机集群组织的系统级状态编码对应的BDD模型图
图6是图示编码标号示意图
图7是步骤4设定参数后系统级状态编码对应的BDD模型图
图8是计算节点“5”的对应的概率值示意图
图9是计算节点“4”的对应的概率值示意图
图10是计算节点“3”的对应的概率值示意图
图11是计算节点“2”的对应的概率值示意图
图12是计算节点“1”的对应的概率值示意图
节点(1)、编码(2)、分支(3)、常数节点(4)、状态变量节点(5)。
具体实施方式
下面通过实施例,结合附图,对本发明的技术方案作进一步具体的说明:
一种资源约束性多节点计算系统的可靠性评估方法,步骤如下:
步骤1:建立基本BDD模型计算机集群组织,并对BDD模型计算机集群组织中的各个运算或工作的节点(1)中的单个服务器或运算核心及其运行的部件状态依照布尔型变量进行编码(2),单个服务器或运算核心及其运行的部件在下文中都统一代称为节点;节点所有运行状态形式编码为X,当X节点为工作状态时为编码1,状态表示X=1;当X节点为故障状态时编码0,状态表示X=0;且X=1的连接状态编码为1,X=0的连接状态编码为0;节点接受来自各下属或平级节点的运算数据,并设置接受数据时0和1分支(3)时的运行状态出现概率P,概率P来自于节点制造者的制造数据、检测数据、或实验数据等,运行状态出现概率P的值为大于0%小于100%;
步骤2:继续利用BDD模型,对BDD模型计算机集群组织的系统级状态进行编码,将BDD模型计算机集群组织的各个节点在空间中按照X轴Y轴进行排列编号,使其在系统级BDD模型中的位置平面横纵轴坐标化,并可根据实际节点数量沿横纵轴坐标排列扩展,并且模型位置坐标结构必须呈现为方形,且服务器的数量也就是节点的设定值为N;
步骤3.依靠步骤2编排坐标后,在BDD模型计算机集群组织的节点工作量状态需求,设定启动工作的节点不多于K并且不少于L,1≤L≤K≤N,K的值根据具体通信资源的容量而定,L的值根据计算任务的性能需求而定,计算任务的最低性能需求为M,每个节点的性能为X,则L=M/X,单个节点需要的通信资源为Y,系统总的通信资源为C,则L=C/Y;
并在节点的位置平面横纵轴坐标化的基础上,再采用下面的方法对系统级BDD模型计算机集群组织各节点之间的系统级运行状态编码:
1)当节点布尔型变量的纵坐标0≤Y<K-1时,节点布尔变量的横坐标取值范围为0≤X≤N-K:
a)设置横纵轴(X,Y)位置上的节点的变量名为“X+Y+广;
b)当X=N-K时,该节点的0分支连接到常数节点(4)0;否则该节点的0分支连接到(X+1,Y)位置上名为“X+Y+2”的节点;
c)当Y=L时,该节点的1分支连接到常数节点1;否则该节点的1分支连接到(X,Y+1)位置上名为“X+Y+2”的节点;
2)当节点布尔型变量的纵坐标Y=K-1时,节点布尔型变量的横坐标取值范围为0≤X≤N-K:
a)设置(X,Y)位置上的节点的变量名为“X+Y+1”;
b)当X<N-1时,该节点的0分支连接到(X+1,Y)位置上名为“X+Y+2”的节点;并且该节点的1分支连接到(X,Y+1)位置上名为“X+Y+2”的节点;
c)当N-L≤X<N-K时,该节点的0分支连接到(X+1,Y)位置上名为“X+Y+2”的节点;并且该节点的1分支连接到常数节点1;
d)当X=N-K时,该节点的0分支连接到常数节点0;并且该节点的1分支连接到常数节点1;
3)当节点布尔型变量的纵坐标K-1<Y≤L时,节点布尔型变量的横坐标取值范围为0≤X≤N-L-1:
a)设置(X,Y)位置上的节点的变量名为“X+Y+1”;
b)当X=N-L-1时,该节点的0分支连接到常数节点1;否则该节点的0分支连接到(X+1,Y)位置上名为“X+Y+2”的节点;
c)当Y=L时,该节点的1分支连接到常数节点0;否则该节点的1分支连接到(X,Y+1)位置上名为“X+Y+2”的节点;
步骤4:得到步骤3所构造的BDD模型计算机集群组织后,利用系统级BDD模型对得到的BDD模型计算机集群组织进行可靠性评估;利用系统级BDD模型进行可靠性评估是基于如下两个规则:
1)从坐标为(0,0)的状态变量节点(5)到常数节点0的任意一条路径对应着BDD模型计算机集群组织的一个故障状态;状态变量节点为节点的编码和节点统称,坐标为(0,0)的状态变量节点即编码1节点,常数节点0则为常数编码为0的常数节点;
2)从坐标为(0,0)的状态变量节点(即编码1节点对应的节点)到常数节点1的任意一条路径对应着BDD模型计算机集群组织的一个工作状态;
系统可靠性评估就是计算或该BDD模型计算机集群组织自动计算自身,BDD模型计算机集群组织所有工作状态的概率之和;由于存在多个BDD模型计算机集群组织的工作状态,所以需要将所有BDD模型计算机集群组织的工作状态的概率进行累加;根据上述规则可知,BDD模型计算机集群组织的工作状态和常数节点1路径是一一对应的关系,所以我们只需将常数节点1路径的概率进行累加;
BDD模型计算机集群组织可靠性评估的“将常数节点1路径的概率进行累加”这一运算的步骤为:
3)根据步骤1给BDD模型计算机集群组织中每个状态变量节点的0分支和1分支各设置相应的概率值P;
4)给常数节点0设定初始概率值P为0%,给常数节点1设定的初始概率值P为100%(获得了概率值后再到此处进行赋值);或给常数节点0设定初始值0,给节点常数节点1设定的初始初始值1;
5)在获得的BDD模型计算机集群组织中按照节点的编码号从大到小的顺序,先计算节点“N”的对应的概率值,直至获得节点“1”对应概率值;
6)运算输出点“1”对应概率值的结果,即为本BDD模型计算机集群组织的可靠度或需求构成的BDD模型计算机集群组织的可靠度;
由此得到本次构造而成的计算机系统的可靠度,并可利用反推法并可最终得到最终的最优化计算机或多核CPU系统。
实施例:
步骤1:建立基本BDD模型计算机集群组织,并对BDD模型计算机集群组织中的各个运算或工作的节点(1)中的单个服务器或运算核心及其运行的部件状态依照布尔型变量进行编码(2),单个服务器或运算核心及其运行的部件在下文中都统一代称为节点;节点所有运行状态形式编码为X,当X节点为工作状态时为编码1,状态表示X=1;当X节点为故障状态时编码0,状态表示X=0;且X=1的连接状态编码为1,X=0的连接状态编码为0;节点接受来自各下属或平级节点的运算数据,设定模型图为如1所示。
并设置接受数据时0和1分支(3)时的运行状态出现概率P,概率P来自于节点制造者的制造数据、检测数据、或实验数据等,运行状态出现概率P的值为大于0%小于100%。
步骤2:继续利用BDD模型,对BDD模型计算机集群组织的系统级状态进行编码,将BDD模型计算机集群组织的各个节点在空间中按照X轴Y轴进行排列编号,使其在系统级BDD模型中的位置平面横纵轴坐标化,并可根据实际节点数量沿横纵轴坐标排列扩展,并且模型位置坐标结构必须呈现为方形,且服务器的数量也就是节点的设定值为N;模型图为图2所示。
步骤3.依靠步骤2编排坐标后,在BDD模型计算机集群组织的节点工作量状态需求,设定启动工作的节点不多于K并且不少于L,1≤L≤K≤N,K的值根据具体通信资源的容量而定,L的值根据计算任务的性能需求而定,计算任务的最低性能需求为M,每个节点的性能为X,则L=M/X,单个节点需要的通信资源为Y,系统总的通信资源为C,则L=C/Y;
并在节点的位置平面横纵轴坐标化的基础上,再采用下面的方法对系统级BDD模型计算机集群组织各节点之间的系统级运行状态编码:
1)当节点布尔型变量的纵坐标0≤Y<K-1时,节点布尔变量的横坐标取值范围为0≤X≤N-K;
a)设置横纵轴(X,Y)位置上的节点的变量名为“X+Y+1”;
b)当X=N-K时,该节点的0分支连接到常数节点0;否则该节点的0分支连接到(X+1,Y)位置上名为“X+Y+2”的节点;
c)当Y=L时,该节点的1分支连接到常数节点1;否则该节点的1分支连接到(X,Y+1)位置上名为“X+Y+2”的节点;
2)当节点布尔型变量的纵坐标Y=K-1时,节点布尔型变量的横坐标取值范围为0≤X≤N-K;
a)设置(X,Y)位置上的节点的变量名为“X+Y+1”;
b)当X<N-1时,该节点的0分支连接到(X+1,Y)位置上名为“X+Y+2”的节点;并且该节点的1分支连接到(X,Y+1)位置上名为“X+Y+2”的节点;
c)当N-L≤X<N-K时,该节点的0分支连接到(X+1,Y)位置上名为“X+Y+2”的节点;并且该节点的1分支连接到常数节点1;
d)当X=N-K时,该变量的0分支连接到常数节点0;并且该节点的1分支连接到常数节点1;
3)当节点布尔型变量的纵坐标K-1<Y≤L时,节点布尔型变量的横坐标取值范围为0≤X≤N-L-1;
a)设置(X,Y)位置上的节点的变量名为“X+Y+1”;
b)当X=N-L-1时,该节点的0分支连接到常数节点1;否则该节点的0分支连接到(X+1,Y)位置上名为“X+Y+2”的节点;
c)当Y=L时,该节点的1分支连接到常数节点0;否则该节点的1分支连接到(X,Y+1)位置上名为“X+Y+2”的节点;
参考上述步骤,如图3所示:BDD模型计算机集群组织的参数为K=2,L=3,N=5时,系统级状态编码对应构造的BDD模型;
如图4所示:BDD模型计算机集群组织的参数为K=2,L=4,N=5时,系统级状态编码对应的BDD模型;
如一般化的,BDD模型计算机集群组织的系统级状态编码对应的BDD模型如图5所示。
如图7-12所示,步骤4:得到步骤3所构造的BDD模型计算机集群组织后,利用系统级BDD模型对得到的BDD模型计算机集群组织进行可靠性评估;利用系统级BDD模型进行可靠性评估是基于如下两个规则:
1)从坐标为(0,0)的状态变量节点(4)到常数节点(5)0的任意一条路径对应着BDD模型计算机集群组织的一个故障状态;状态变量节点为节点的编码和节点统称,坐标为(0,0)的状态变量节点即编码1节点,常数节点0则为常数编码为0的常数节点;
2)从坐标为(0,0)的状态变量节点(即编码1节点对应的节点)到常数节点1的任意一条路径对应着BDD模型计算机集群组织的一个工作状态;
系统可靠性评估就是计算或该BDD模型计算机集群组织自动计算自身,BDD模型计算机集群组织所有工作状态的概率之和;由于存在多个BDD模型计算机集群组织的工作状态,所以需要将所有BDD模型计算机集群组织的工作状态的概率进行累加;根据上述规则可知,BDD模型计算机集群组织的工作状态和常数1路径是一一对应的关系,所以我们只需将常数1路径的概率进行累加;
BDD模型计算机集群组织可靠性评估的“将常数节点1路径的概率进行累加”这一运算的步骤为:
3)根据步骤1给BDD模型计算机集群组织中每个状态变量节点的0分支和1分支各设置相应的概率值P;
4)给常数节点0设定初始概率值P为0%,给常数节点1设定的初始概率值P为100%获得了概率值后再到此处进行赋值;或给常数节点0设定初始值0,给节点常数1设定的初始初始值1;
5)在获得的BDD模型计算机集群组织中按照节点的编码号从大到小的顺序,先计算节点“N”的对应的概率值,直至获得节点“1”对应概率值;
6)运算输出点“1”对应概率值的结果,即为本BDD模型计算机集群组织的可靠度或需求构成的BDD模型计算机集群组织的可靠度;
由此得到本次构造而成的计算机系统的可靠度,并可利用反推法并可最终得到最终的最优化计算机或多核CPU系统。
由步骤4设定参数,BDD模型计算机集群组织系统(K=2,L=4,N=5)的可靠度计算过程举例,假设所有计算节点的正常工作的概率为0.999。
该系统的系统级状态编码对应的BDD模型如图7所示;
首先计算节点“5”的对应的概率值。由于给定计算节点5的正常工作的概率为0.999,所以0分支的概率为1-0.999=0.001,1分支的概率为0.999。又由于常数O设定概率值为0,给常数1设定的概率值为1。所以,坐标为(3,0)的节点“5”的对应的概率值为:0.999*1+0.001*0=0.999,坐标为(0,3)的节点“5”的对应的概率值为:0.999*0+0.001*1=0.001。结果如图8所示;
然后计算节点“4”的对应的概率值,结果如图9所示;
然后计算节点“3”的对应的概率值,结果如图10所示;
然后计算节点“2”的对应的概率值,结果如图11所示;
然后计算节点“1”的对应的概率值,结果如图12所示;
由此可得山然后本次构建的BDD模型计算机集群组织系统的可靠度为0.00399。
传统的枚举法进行多计算节点系统可靠性评估会山现状态过多,存储困难,计算效率低的问题;本发明采用高效的二进制决策图(BDD)数据结构对通信资源约束型多节点计算系统的工作状态进行高效编码,从而极大缩小了存储空间需求,提升了计算效率;
为了说明本发明在可靠性评估性能提升方面的有益效果,我们采用多计算节点系统(K=2,L=5)的可靠度计算过程举例,N可取值范围为10,11,12,13,14,15,16,17,18,19,20。
Figure GDA0002919029270000081
由此实现了本发明的发明目的。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims (1)

1.一种资源约束性多节点计算系统的可靠性评估方法,步骤如下:
步骤1:建立基本BDD模型计算机集群组织,并对BDD模型计算机集群组织中的各个运算或工作的节点(1)中的单个服务器或运算核心及其运行的部件状态依照布尔型变量进行编码(2),单个服务器或运算核心及其运行的部件在下文中都统一代称为节点;节点所有运行状态形式编码为X,当X节点为工作状态时为编码1,状态表示X=1;当X节点为故障状态时编码0,状态表示X=0;且X=1的连接状态编码为1,X=0的连接状态编码为0;节点接受来自各下属或平级节点的运算数据,并设置接受数据时0和1分支(3)时的运行状态出现概率P,概率P来自于节点制造者的制造数据、检测数据、或实验数据等,运行状态出现概率P的值为大于0%小于100%;
步骤2:继续利用BDD模型,对BDD模型计算机集群组织的系统级状态进行编码,将BDD模型计算机集群组织的各个节点在空间中按照X轴Y轴进行排列编号,使其在系统级BDD模型中的位置平面横纵轴坐标化,并可根据实际节点数量沿横纵轴坐标排列扩展,并且模型位置坐标结构必须呈现为方形,且服务器的数量也就是节点的设定值为N;
步骤3.依靠步骤2编排坐标后,在BDD模型计算机集群组织的节点工作量状态需求,设定启动工作的节点不多于K并且不少于L,1≤L≤K≤N,K的值根据具体通信资源的容量而定,L的值根据计算任务的性能需求而定,计算任务的最低性能需求为M,每个节点的性能为X,则L=M/X,单个节点需要的通信资源为Y,系统总的通信资源为C,则L=C/Y;
并在节点的位置平面横纵轴坐标化的基础上,再采用下面的方法对系统级BDD模型计算机集群组织各节点之间的系统级运行状态编码:
1)当节点布尔型变量的纵坐标0≤Y<K-1时,节点布尔变量的横坐标取值范围为0≤X≤N-K;
a)设置横纵轴(X,Y)位置上的节点的变量名为“X+Y+1”;
b)当X=N-K时,该节点的0分支连接到常数节点(4)0;否则该节点的0分支连接到(X+1,Y)位置上名为“X+Y+2”的节点;
c)当Y=L时,该节点的1分支连接到常数节点1;否则该节点的1分支连接到(X,Y+1)位置上名为“X+Y+2”的节点;
2)当节点布尔型变量的纵坐标Y=K-1时,节点布尔型变量的横坐标取值范围为0≤X≤N-K;
a)设置(X,Y)位置上的节点的变量名为“X+Y+1”;
b)当X<N-1时,该节点的0分支连接到(X+1,Y)位置上名为“X+Y+2”的节点;并且该节点的1分支连接到(X,Y+1)位置上名为“X+Y+2”的节点;
c)当N-L≤X<N-K时,该节点的0分支连接到(X+1,Y)位置上名为“X+Y+2”的节点;并且该节点的1分支连接到常数节点1;
d)当X=N-K时,该节点的0分支连接到常数节点0;并且该节点的1分支连接到常数节点1;
3)当节点布尔型变量的纵坐标K-1<Y≤L时,节点布尔型变量的横坐标取值范围为0≤X≤N-L-1;
a)设置(X,Y)位置上的节点的变量名为“X+Y+1”;
b)当X=N -L-1时,该节点的0分支连接到常数节点1;否则该节点的0分支连接到(X+1,Y)位置上名为“X+Y+2”的节点;
c)当Y=L时,该节点的1分支连接到常数节点0;否则该节点的1分支连接到(X,Y+1)位置上名为“X+Y+2”的节点;
步骤4:得到步骤3所构造的BDD模型计算机集群组织后,利用系统级BDD模型对得到的BDD模型计算机集群组织进行可靠性评估;利用系统级BDD模型进行可靠性评估是基于如下两个规则:
1)从坐标为(0,0)的状态变量节点(5)到常数节点0的任意一条路径对应着BDD模型计算机集群组织的一个故障状态;状态变量节点为节点的编码和节点统称,坐标为(0,0)的状态变量节点即编码1节点,常数节点0则为常数编码为0的常数节点;
2)从坐标为(0,0)的状态变量节点到常数节点1的任意一条路径对应着BDD模型计算机集群组织的一个工作状态;
系统可靠性评估就是计算或该BDD模型计算机集群组织自动计算自身,BDD模型计算机集群组织所有工作状态的概率之和;由于存在多个BDD模型计算机集群组织的工作状态,所以需要将所有BDD模型计算机集群组织的工作状态的概率进行累加;根据上述规则可知,BDD模型计算机集群组织的工作状态和常数节点1路径是一一对应的关系,所以我们只需将常数节点1路径的概率进行累加;
BDD模型计算机集群组织可靠性评估的“将常数节点1路径的概率进行累加”这一运算的步骤为:
3)根据步骤1给BDD模型计算机集群组织中每个状态变量节点的0分支和1分支各设置相应的概率值P;
4)给常数节点0设定初始概率值P为0%,给常数节点1设定的初始概率值P为100%,获得了概率值后再到此处进行赋值;或给常数节点0设定初始值0,给节点常数节点1设定的初始初始值1;
5)在获得的BDD模型计算机集群组织中按照节点的编码号从大到小的顺序,先计算节点“N”的对应的概率值,直至获得节点“1”对应概率值;
6)运算输出点“1”对应概率值的结果,即为本BDD模型计算机集群组织的可靠度或需求构成的BDD模型计算机集群组织的可靠度;
由此得到本次构造而成的计算机系统的可靠度,并可利用反推法并可最终得到最终的最优化计算机或多核CPU系统。
CN201510892726.5A 2015-12-08 2015-12-08 一种资源约束性多节点计算系统的可靠性评估方法 Active CN105512087B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510892726.5A CN105512087B (zh) 2015-12-08 2015-12-08 一种资源约束性多节点计算系统的可靠性评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510892726.5A CN105512087B (zh) 2015-12-08 2015-12-08 一种资源约束性多节点计算系统的可靠性评估方法

Publications (2)

Publication Number Publication Date
CN105512087A CN105512087A (zh) 2016-04-20
CN105512087B true CN105512087B (zh) 2021-03-26

Family

ID=55720082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510892726.5A Active CN105512087B (zh) 2015-12-08 2015-12-08 一种资源约束性多节点计算系统的可靠性评估方法

Country Status (1)

Country Link
CN (1) CN105512087B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110098609B (zh) * 2018-01-29 2023-05-02 中国电力科学研究院有限公司 一种面向配电网的量测上传数据准备方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101035017A (zh) * 2007-02-02 2007-09-12 南京邮电大学 基于移动代理的无线传感器网络分布式管理方法
CN102685242A (zh) * 2012-05-22 2012-09-19 南京邮电大学 一种开放网络下服务间关联关系的建立方法
CN103745410A (zh) * 2013-12-09 2014-04-23 国核(北京)科学技术研究院有限公司 基于dft定性定量分析的系统可靠性评估方法和设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7788556B2 (en) * 2002-11-13 2010-08-31 Fujitsu Limited System and method for evaluating an erroneous state associated with a target circuit
US7739635B2 (en) * 2007-05-10 2010-06-15 International Business Machines Corporation Conjunctive BDD building and variable quantification using case-splitting

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101035017A (zh) * 2007-02-02 2007-09-12 南京邮电大学 基于移动代理的无线传感器网络分布式管理方法
CN102685242A (zh) * 2012-05-22 2012-09-19 南京邮电大学 一种开放网络下服务间关联关系的建立方法
CN103745410A (zh) * 2013-12-09 2014-04-23 国核(北京)科学技术研究院有限公司 基于dft定性定量分析的系统可靠性评估方法和设备

Also Published As

Publication number Publication date
CN105512087A (zh) 2016-04-20

Similar Documents

Publication Publication Date Title
Ozfatura et al. Gradient coding with clustering and multi-message communication
CN111277511B (zh) 传输速率控制方法、装置、计算机系统及可读存储介质
CN110798517A (zh) 去中心化集群负载均衡方法、系统、移动终端及存储介质
CN104301434A (zh) 一种基于集群的高速通信架构及方法
Kchaou et al. Towards an offloading framework based on big data analytics in mobile cloud computing environments
CN105512087B (zh) 一种资源约束性多节点计算系统的可靠性评估方法
CN117236452B (zh) 量子纠缠资源调度方法、装置及电子设备
CN117236450B (zh) 量子纠缠资源调度方法、装置及电子设备
CN109947736B (zh) 实时计算的方法和系统
CN116610731B (zh) 一种大数据分布式存储方法、装置、电子设备及存储介质
CN116991562A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN114417856B (zh) 文本的稀疏编码方法、装置及电子设备
CN115563310A (zh) 一种关键业务节点的确定方法、装置、设备及介质
Bo et al. A frequent pattern parallel mining algorithm based on distributed sliding window.
CN114579311A (zh) 执行分布式计算任务的方法、装置、设备以及存储介质
CN104765790B (zh) 一种数据查询的方法和装置
CN113778645A (zh) 基于边缘计算的任务调度方法、装置、设备及存储介质
CN113961641A (zh) 数据库同步方法、装置、设备和存储介质
CN105630896A (zh) 一种快速导入海量数据的方法
Wu et al. An estimation of distribution algorithm to optimize the utility of task scheduling under fog computing systems
CN116540990B (zh) 基于嵌入式实现电子产品的代码集成方法及装置
CN117707793B (zh) 一种计算任务处理方法、装置、设备及介质
CN113535838B (zh) 一种基于二进制编码的数据交互方法及系统
CN110134501A (zh) 一种基于smt最优解的过载实时系统的调度方法
CN116777660A (zh) 一种用户映射方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20160420

Assignee: Zhejiang Yifei Information Technology Co.,Ltd.

Assignor: ZHEJIANG NORMAL University

Contract record no.: X2022980007946

Denomination of invention: A reliability evaluation method for resource constrained multi node computing system

Granted publication date: 20210326

License type: Common License

Record date: 20220621

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20160420

Assignee: Huzhou Jiahao Information Technology Co.,Ltd.

Assignor: ZHEJIANG NORMAL University

Contract record no.: X2023980045418

Denomination of invention: A reliability evaluation method for resource constrained multi node computing systems

Granted publication date: 20210326

License type: Common License

Record date: 20231101

Application publication date: 20160420

Assignee: Zhongzhi Yingan (Zhejiang) Technology Co.,Ltd.

Assignor: ZHEJIANG NORMAL University

Contract record no.: X2023980045414

Denomination of invention: A reliability evaluation method for resource constrained multi node computing systems

Granted publication date: 20210326

License type: Common License

Record date: 20231101

Application publication date: 20160420

Assignee: Zhejiang Bingsheng Technology Co.,Ltd.

Assignor: ZHEJIANG NORMAL University

Contract record no.: X2023980045386

Denomination of invention: A reliability evaluation method for resource constrained multi node computing systems

Granted publication date: 20210326

License type: Common License

Record date: 20231101

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20160420

Assignee: Ningbo Hengquan Technology Co.,Ltd.

Assignor: ZHEJIANG NORMAL University

Contract record no.: X2024980000682

Denomination of invention: A reliability evaluation method for resource constrained multi node computing systems

Granted publication date: 20210326

License type: Common License

Record date: 20240115

EE01 Entry into force of recordation of patent licensing contract