CN103617104B - 一种基于ipmi的冗余计算机系统节点故障主被动检测方法 - Google Patents

一种基于ipmi的冗余计算机系统节点故障主被动检测方法 Download PDF

Info

Publication number
CN103617104B
CN103617104B CN201310634139.7A CN201310634139A CN103617104B CN 103617104 B CN103617104 B CN 103617104B CN 201310634139 A CN201310634139 A CN 201310634139A CN 103617104 B CN103617104 B CN 103617104B
Authority
CN
China
Prior art keywords
sequence
subsequence
fault
line segment
active
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310634139.7A
Other languages
English (en)
Other versions
CN103617104A (zh
Inventor
徐振朋
翟永宁
殷进勇
杨光年
李韦韦
吴茂传
苏培培
楼智翔
董奇
史小犇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
716th Research Institute of CSIC
Original Assignee
716th Research Institute of CSIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 716th Research Institute of CSIC filed Critical 716th Research Institute of CSIC
Priority to CN201310634139.7A priority Critical patent/CN103617104B/zh
Publication of CN103617104A publication Critical patent/CN103617104A/zh
Application granted granted Critical
Publication of CN103617104B publication Critical patent/CN103617104B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种冗余计算机系统的故障主被动检测方法。该方法包括第一步:利用冗余待测计算机的IPMI标准接口,故障检测模块实时收集冗余系统中待测的主用计算机和备用计算机的状态数据,收集到一定数量的运行状态数据后;第二步:故障检测模块通过模式匹配方法诊断待测计算机是否出现运行故障;第三步:依据给定的系统参数值,预测主用计算机一段时间内出现故障事件的概率。作为实现多台计算机冗余系统容错不可或缺的基础组件之一,本发明故障主被动检测方法能够在一定程度上降低故障检测的时间延迟、提高故障检测的准确性、预测故障发生概率,以支撑关键服务系统的快速失效切换和主动容错等高可用保障机制。

Description

一种基于IPMI的冗余计算机系统节点故障主被动检测方法
技术领域
本发明属于多台计算机冗余系统中的故障主被动检测方法,特别是一种基于IPMI的冗余计算机系统节点故障主被动检测方法。
背景技术
计算机技术的迅猛发展使得计算机系统被广泛应用于国民经济的各行各业,人类社会对计算机信息系统的依赖程度越来越高,各领域对计算机信息系统的可靠性和稳定性要求也变得越来越高。不仅航空、航天、舰船这样的高技术和军事领域要求高可靠的计算机,而且银行、证券、交通、石油、化工、钢铁等金融和工业部门也要求具有高可靠的计算机。
多台计算机冗余备份是一种有效解决系统可靠性的方案,该技术成本相对较低,具有安装维护简单、稳定可靠、监测直观等优点,在关键业务系统中获得了广泛的应用。多台计算机冗余容错系统中,一个模块为主用计算机,用以产生系统的输出,其余计算机作为备用。采用各种故障检测技术及故障定位技术来确定发生故障的计算机,若主用计算机发生故障,则启动重构机制,将一个正常的备用计算机转化为主用计算机,从而保障系统服务的正常。
故障检测是实现多台计算机冗余系统容错不可或缺的基础组件之一,面向关键服务器的计算机故障检测技术目前在故障检测延迟和故障检测准确性方面仍需要很大改进,难以满足关键服务系统的可靠性需求,尤其是航空、航天、舰船这样的高技术和军事领域。虽然越来越多的企业开始在其生产的设备中支持智能平台管理接口(Intelligent Platform Management Interface,IPMI)标准,以监控系统中和底层硬件相关的设备组件及有关参数(如电压、温度、风扇),但是目前尚未出现利用IPMI监控信息数据在多台计算机冗余系统中实现待测计算机故障主被动检测的技术方法。
发明目的
本发明的目的在于提供了一种为冗余计算机系统运行期间故障主被动检测的方法。
实现本发明目的的技术解决方案为:一种基于IPMI的冗余计算机系统节点故障主被动检测方法,包括以下步骤:
步骤1、在所有待测计算机上部署并启用IPMI功能模块,并通过标准RJ45接口或串行接口与故障检测模块相连接;所有待测计算机构成冗余备份系统;所述故障检测模块是采用FPGA实现的逻辑功能模块。
步骤2、通过IPMI协议周期性地收集上述冗余系统中主备计算机节点的运行状态信息序列p,所述状态信息包括CPU、风扇、内存和部件状态数据;
步骤3、对步骤2采集到的状态信息序列p进行分析,通过模式匹配方法分别对主备计算机节点的运行状态进行故障判定,即故障被动检测;具体为:
步骤3-1、对于系统预置样本库Q中的某个样本序列q和采集到的待测计算机状态序列p,q∈Q,对序列p和q进行平均线性分段,得到N个子序列,N为自然数;对于各子序列中相邻两点确定的线段,确定各线段对应的斜率值和斜率反正切值;
步骤3-2、拟合各子序列中斜率反正切值相近的连续线段,得到其拟合变换后的斜率反正切值序列Hp[1...tr p,1...N]和Hq[1...tr q,1...N],其中tr p为序列p第r个子序列的线段数目;对于某一个子序列r,r∈[1,N],其对应线段拟合变换的具体步骤为:
(a)将n初始为1,即n=1;
(b)确定子序列r中第n条线段与第n+1条线段的斜率反正切值之差h=H[n,r]-H[n+l,r],以判定两条线段间的斜率反正切值的相似程度,其中H[n,r]表示子序列r中第n条线段的斜率反正切值,H[n,r]∈Hp[1...tx,1...N]或H[n,r]∈Hq[1...tx,1...N];
(c)对斜率反正切值之差h进行判断,若|h|>=ε,则n=n+1,转到步骤(b),直到完成遍历子序列r中所有的线段;若|h|<ε,利用一元线性回归函数,确定出序列r中第n条线段和第n+1条线段对应拟合线段的斜率值R,之后执行步骤(d);ε为判定阈值;
(d)更新拟合变换后的斜率反正切值序列,以arctan(R)取代子序列r中第n条线段的斜率反正切值H[n,r],即H[n,r]=arctan(R),并将子序列r中第n+1条线段对应横坐标跨度并入第n条线段的横坐标跨度;
(e)删除子序列r中第n+1条线段,转到步骤(b),直到完成遍历子序列r中所有的线段;
步骤3-3、重复步骤3-1和步骤3-2,确定序列p与样本库Q中所有样本序列相匹配的子序列数;对于某个样本序列q,q∈Q,确定序列p与q相匹配的子序列数的具体步骤为:
(1)设定偏离误差β>0;用E(q)表示序列p与样本序列q之间匹配的子序列数,E(q)初始为0;
(2)若q为故障状态的样本序列,F(q)=1;若q为非故障状态的样本序列,F(q)=0;
(3)确定序列p与样本序列q之间匹配的子序列数E(q),具体为:比较序列p和序列q的N个子序列,如果子序列中的线段数不等,则匹配子序列数不增加;如果子序列中的线段数相等,进一步确定出子序列对应线段间的偏差,如果平均偏差小于允许的偏离误差β,即则与序列p匹配的子序列数E(q)加1;
(4)如果没有完成遍历样本库Q中的所有样本序列,取下一个尚未遍历的样本序列赋值给q,转到步骤3-1;
步骤3-4、依据匹配子序列数E(x),确定序列p在样本库Q中的m个近邻,具体为:确定序列p的m个近邻x1,x2,...,xm,m>0为近邻数,具体为:按照序列p与样本序列匹配子序列数量的大小,降序排列样本序列,取出前m个值对应的样本序列,则E(xk)(1≤k≤m)表示近邻与序列p之间匹配的子序列数;
步骤3-5、对序列p进行的故障判定,具体为:对序列p进行的故障判定,具体为:用a表示近邻中类别为故障状态的样本序列的数量,用b表示近邻中类别为无故障状态的样本序列的数量,a+b=m,对于F(xi)=1、F(xj)=0,如果且成立,判定对应序列p的待测计算机为故障状态,否则判定对应序列p的待测计算机为无故障状态。
步骤4、在给定的系统参数值的前提下,通过对主用计算机节点故障进行预测,即故障主动检测,确定在何时对上述冗余系统实施主动式的主备切换。具体为:
步骤4-1、利用主用计算机节点运行故障预测的数学模型f(x)进行预测:
f ( x ) = x - 1 ( &gamma; - 1 ( a - 1 ) - 1 e L&gamma; ( e &gamma; ( a - 1 ) ( x + C ) - 1 ) + &gamma; - 1 ( e - &gamma; ( x + C ) - 1 ) + C ) , a &NotEqual; 1 x - 1 ( e L&gamma; ( x + C ) + &gamma; - 1 ( e - &gamma; ( x + C ) - 1 ) + C ) , a = 1
式中,γ为主备计算机节点的故障事件概率,C为主动式的主备切换过程中引入系统开销的常量因子,C>0;α为被动式的主备切换过程中引入系统开销的线性因子,其合理区间为[0,1];L为被动式的主备切换过程中引入系统开销的常量因子,L>0;
步骤4-2、将给定的主备计算机节点的故障事件概率γ、被动式的主备切换过程中引入系统开销的线性因子α、被动式的主备切换过程中引入系统开销的常量因子L和主动式的主备切换过程中引入系统开销的常量因子C的具体数值带入到主用计算机节点运行故障预测的数学模型f(x)中,并求解满足下式的x:
&PartialD; f ( x ) / &PartialD; x = 0 and &PartialD; 2 f ( x ) / &PartialD; x 2 > 0
即可以确定主用计算机节点每间隔x时间段对冗余系统实施一次主动式的主备切换。
本发明与现有技术相比,其显著优点为:1)本发明基于IPMI的冗余计算机系统节点故障主被动检测方法,首次利用IPMI监控信息数据在多机冗余系统中实现对冗余计算机节点的故障主被动检测。作为实现多机冗余系统容错不可或缺的基础组件之一,能够在一定程度上降低故障检测的时间延迟、提高故障检测的准确性、预测故障发生概率,支撑关键服务系统的快速失效切换和主动容错等可靠性保障机制,更好地满足关键服务系统的可靠性需求,尤其是航空、航天、舰船等领域。2)基于待测计算机的IPMI标准接口,通过故障检测模块监控待测主备计算机的运行状态,通过模式匹配方式诊断待测计算机是否出现运行故障,并通过对待测计算机健康状况的预测,能够在一定程度上降低故障检测的时间延迟、提高故障检测准确性、预测故障发生概率,支撑关键服务系统的快速失效切换和主动容错等可靠性保障机制。
附图说明
图1为冗余系统故障检测结构图。
图2为基于IPMI的冗余计算机系统节点故障主被动检测的流程图。
图3为通过模式匹配方法对主备计算机节点的运行状态进行故障判定的流程图。
图4为对状态信息序列p中某一个子序列r拟合变换的流程图。
图5为确定序列p与某个样本序列q相匹配的子序列数的流程图。
附图中标号的意义:1表示IPMI接口,2表示待测计算机,2-A表示标识为A的待测计算机,2-B表示标识为B的待测计算机,2-C表示标识为C的待测计算机,3表示故障检测模块。
具体实施方式
本发明所述的基于IPMI的冗余计算机系统节点故障主被动检测方法中系统组成包括:各待测计算机上具备的IPMI接口模块1、待测计算机2和故障检测模块3。系统结构如图1所示,其中待测计算机2-A、待测计算机2-B和待测计算机2-C为互为备份的计算机节点构成的冗余系统。冗余系统中的待测计算机通过故障检测模块3实现状态信息收集、故障诊断和故障状态预测功能。
根据本发明的上述方法,所述基于IPMI的冗余计算机系统节点故障主被动检测方法中故障检测模块3是采用FPGA实现的逻辑功能模块,可以存在其它冗余模块,通过多模冗余方式保障待测计算机状态监控功能。
根据本发明的上述方法,所述基于IPMI的冗余计算机系统节点故障主被动检测方法中IPMI接口模块1通过RJ45网口或串口与故障检测模块3进行数据交换。
所述基于IPMI的冗余计算机系统节点故障主被动检测方法的流程如图2所示,具体实现步骤是:
步骤1、在所有待测计算机上部署并启用IPMI功能模块,并通过标准RJ45接口或串行接口与故障检测模块相连接;所有待测计算机构成冗余备份系统;
步骤2、通过IPMI协议周期性地收集上述冗余系统中主备计算机节点的运行状态信息序列p,所述状态信息包括CPU、风扇、内存和部件状态等数据;
步骤3、对步骤2采集到的状态信息序列p进行分析,通过模式匹配方法分别对主备计算机节点的运行状态进行故障判定,即故障被动检测;
步骤4、在给定的系统参数值的前提下,通过对主用计算机节点故障进行预测,即故障主动检测,确定在何时对上述冗余系统实施主动式的主备切换。
根据本发明的上述方法,所述步骤3中通过模式匹配方法对主备计算机节点的运行状态进行故障判定,即故障被动检测的流程如图3所示,具体实现步骤是:
步骤3-1、对于系统预置样本库Q中的某个样本序列q和采集到的待测计算机状态序列p,q∈Q,对序列p和q进行平均线性分段,得到N个子序列,N为自然数;对于各子序列中相邻两点确定的线段,确定各线段对应的斜率值序列和斜率反正切值序列;
步骤3-2、拟合各子序列中斜率反正切值相近的连续线段,得到其拟合变换后的斜率反正切值序列Hp[1...tr p,1...N]和Hq[1...tr q,1...N],其中tr p为序列p第r个子序列的线段数目;
步骤3-3、结合步骤3-1和步骤3-2的重复,确定序列p与样本库Q中所有样本序列相匹配的子序列数;
步骤3-4、依据匹配子序列数E(x),确定序列p在样本库Q中的m个近邻,具体为:确定序列p的m个近邻x1,x2,...,xm,m>0为近邻数,具体为:按照序列p与样本序列匹配子序列数量的大小,降序排列样本序列,取出前m个值对应的样本序列,则E(xk)(1≤k≤m)表示近邻与序列p之间匹配的子序列数;
步骤3-5、对序列p进行的故障判定,具体为:对序列p进行的故障判定,具体为:用a表示近邻中类别为故障状态的样本序列的数量,用b表示近邻中类别为无故障状态的样本序列的数量,a+b=m,对于F(xi)=1、F(xj)=0,如果且成立,判定对应序列p的待测计算机为故障状态,否则判定对应序列p的待测计算机为无故障状态。
根据本发明的上述方法,所述步骤3-2中对于某一个子序列r,r∈[1,N],其对应线段拟合变换的流程如图4所示,具体实现步骤是:
(a)、n初始为1,即n=1;
(b)、确定子序列r中第n条线段与第n+1条线段的斜率反正切值之差h=H[n,r]-H[n+l,r],以判定两条线段间的斜率反正切值的相似程度,其中H[n,r]表示子序列r中第n条线段的斜率反正切值,H[n,r]∈Hp[1...tx,1...N]或H[n,r]∈Hq[1...tx,1...N];
(c)、对斜率反正切值之差h进行判断,若|h|>=ε,则n=n+1,转到步骤(b),直到完成遍历子序列r中所有的线段;若|h|<ε,利用一元线性回归函数,确定出序列r中第n条线段和第n+1条线段对应拟合线段的斜率值R,之后执行步骤(d);ε为判定阈值;
(d)、更新拟合变换后的斜率反正切值序列,以arctan(R)取代子序列r中第n条线段的斜率反正切值H[n,r],即H[n,r]=arctan(R),并将子序列r中第n+1条线段对应横坐标跨度并入第n条线段的横坐标跨度;
(e)、删除子序列r中第n+1条线段,转到步骤(b),直到完成遍历子序列r中所有的线段。
根据本发明的上述方法,所述步骤3-3中对于某个样本序列q,q∈Q,确定序列p与q相匹配的子序列数的流程如图5所示,具体实现步骤是:
(1)、设定偏离误差β>0;用E(q)表示序列p与样本序列q之间匹配的子序列数,E(q)初始为0;
(2)、若q为故障状态的样本序列,F(q)=1;若q为非故障状态的样本序列,F(q)=0;
(3)、确定序列p与样本序列q之间匹配的子序列数E(q),具体为:比较序列p和序列q的N个子序列,如果子序列中的线段数不等,则匹配子序列数不增加;如果子序列中的线段数相等,进一步确定出子序列对应线段间的偏差,如果平均偏差小于允许的偏离误差β,即则与序列p匹配的子序列数加1;
(4)、如果没有完成遍历样本库Q中的所有样本序列,取下一个尚未遍历的样本序列赋值给q,转到步骤3-1。
根据本发明的上述方法,所述步骤4中在给定系统参数值的前提下对主用计算机节点故障进行预测的具体实现步骤是:
步骤4-1、利用主用计算机节点运行故障预测的数学模型f(x)进行预测:
f ( x ) = x - 1 ( &gamma; - 1 ( a - 1 ) - 1 e L&gamma; ( e &gamma; ( a - 1 ) ( x + C ) - 1 ) + &gamma; - 1 ( e - &gamma; ( x + C ) - 1 ) + C ) , a &NotEqual; 1 x - 1 ( e L&gamma; ( x + C ) + &gamma; - 1 ( e - &gamma; ( x + C ) - 1 ) + C ) , a = 1
式中,γ为主备计算机节点的故障事件概率,C为主动式的主备切换过程中引入系统开销的常量因子,C>0;α为被动式的主备切换过程中引入系统开销的线性因子,其合理区间为[0,1];为被动式的主备切换过程中引入系统开销的常量因子,L>0;γ、C、α和L的具体取值依赖于主备服务器的性能和运行服务的复杂度;
步骤4-2、将给定的主备计算机节点的故障事件概率γ、被动式的主备切换过程中引入系统开销的线性因子α、被动式的主备切换过程中引入系统开销的常量因子L和主动式的主备切换过程中引入系统开销的常量因子C的具体数值带入到主用计算机节点运行故障预测的数学模型f(x)中,并求解满足下式的x:
&PartialD; f ( x ) / &PartialD; x = 0 and &PartialD; 2 f ( x ) / &PartialD; x 2 > 0
即可确定主用计算机节点每间隔x时间段对冗余系统实施一次主动式的主备切换。
下面结合实施例对本发明做更详细地描述:
实施例1
多台主机冗余备份系统结构如图1所示,其中第一待测计算机2-A、第二待测计算机2-B和第三待测计算机2-C为互为备份的服务器系统,故障判定模块3都不存在冗余备件。在服务器系统运行期间,故障检测模块3分别对第一待测计算机2-A、第二待测计算机2-B和第三待测计算机2-C可能发生的故障进行被动检测和主动检测,整个被动检测和主动检测流程如图2所示。
通过步骤1和步骤2,故障检测模块3能够利用冗余计算机节点的IPMI标准RJ45接口,通过IPMI标准协议实时收集冗余系统中主备计算机节点的运行状态信息,运行状态信息包括CPU、风扇、内存和部件状态数据序列p。例如:某时刻,采集到主用计算机2-A的CPU的温度值对应某一状态数据序列p,p={40,42,45,51,63,...,70,60}。
通过步骤3,故障检测模块3能够在对数据序列p进行分析的基础上,利用模式匹配方法对主备计算机节点的运行状态进行故障判定,实现对待测计算机故障的被动检测,此判定过程如图3所示,具体过程为:在子步骤3-1中,N取值为5,即N=5,系统预置样本库Q中各样本序列和数据序列p平均线性分为5段,分别得到5个对应的子序列;在子步骤3-2中,ε取值为,通过对各子序列中线段的拟合变换,得到各子序列中线段拟合变换后的斜率反正切值序列Hp[1...tr p,1...5]和Hq[1...tr q,1...5],具体子序列中线段拟合变换过程如图4所示。在子步骤3-3中,β取值为5*10-2,即β=5*10-2,结合步骤3-1和步骤3-2的重复,确定序列p与样本库Q中所有样本序列相匹配的子序列数,最终于确定出各样本序列q对应E(q)和F(q),q∈Q,具体匹配的子序列数确定过程如图5所示;在子步骤3-4中,近邻数m取值为7,即m=7,依据匹配各样本序列q对应的子序列数E(q),排序确定出序列p的7个近邻,得到序列p的7个近邻x1,x2,...,x7其中E(x1)=3,E(x2)=4,E(x3)=4,E(x4)=5,E(x5)=3,E(x6)=1,E(x7)=2,F(x1)=0,F(x2)=0,F(x3)=0,F(x4)=0,F(x5)=0,F(x6)=1,F(x7)=1;在子步骤3-5中,对序列p进行的故障判定,对于F(xi)=1、F(xj)=0,不成立,判定对应序列p的待测计算机为无故障状态,即判定主用计算机2-A未发生故障事件,处于正常运行状态。
通过步骤4,故障检测模块3能够在给定系统参数值的前提下对主用计算机节点故障进行预测,实现对主用计算机故障的主动检测。具体过程为:在子步骤4-1中,根据给定的系统参数化简故障预测的数学模型f(x),即主备计算机节点的故障事件概率γ取值为10-9,主动式的主备切换过程中引入系统开销的常量因子C取值为2秒,被动式的主备切换过程中引入系统开销的线性因子α取值为0.8,其合理区间为[0,1];被动式的主备切换过程中引入系统开销的常量因子L取值为2.5秒。
在步骤4-2中,利用极值条件得到f(x)的最小值为5.6572*10-5,对应的x=7.0704*104秒,于是,可以确定主用计算机节点每间隔7.0704*104秒对冗余系统实施一次主动式的主备切换。
由上可知,本发明的故障主被动检测方法能够在一定程度上降低故障检测的时间延迟、提高故障检测的准确性、预测故障发生概率,以支撑关键服务系统的快速失效切换和主动容错等高可用保障机制。

Claims (1)

1.一种基于IPMI的冗余计算机系统节点故障主被动检测方法,其特征在于:包括以下步骤:
步骤1、在所有待测计算机上部署并启用IPMI功能模块,并通过标准RJ45接口或串行接口与故障检测模块相连接;所有待测计算机构成冗余备份系统;所述故障检测模块是采用FPGA实现的逻辑功能模块;
步骤2、通过IPMI协议周期性地收集上述冗余备份系统中主备计算机节点的运行状态信息序列p,所述状态信息包括CPU、风扇、内存和部件状态数据;
步骤3、对步骤2采集到的状态信息序列p进行分析,通过模式匹配方法分别对主备计算机节点的运行状态进行故障判定,即故障被动检测;具体为:
步骤3-1、对于系统预置样本库Q中的某个样本序列q和采集到的待测计算机状态序列p,q∈Q,对序列p和q进行平均线性分段,得到N个子序列,N为自然数;对于各子序列中相邻两点确定的线段,确定各线段对应的斜率值和斜率反正切值;
步骤3-2、拟合各子序列中斜率反正切值相近的连续线段,得到其拟合变换后的斜率反正切值序列其中为序列p第r个子序列的线段数目;对于某一个子序列r,r∈[1,N],其对应线段拟合变换的具体步骤为:
(a)将n初始为1,即n=1;
(b)确定子序列r中第n条线段与第n+1条线段的斜率反正切值之差h=H[n,r]-H[n+l,r],以判定两条线段间的斜率反正切值的相似程度,其中H[n,r]表示子序列r中第n条线段的斜率反正切值,H[n,r]∈Hp[1…tx,1…N]或H[n,r]∈Hq[1…tx,1…N];
(c)对斜率反正切值之差h进行判断,若|h|>=ε,则n=n+1,转到步骤(b),直到完成遍历子序列r中所有的线段;若|h|<ε,利用一元线性回归函数,确定出序列r中第n条线段和第n+1条线段对应拟合线段的斜率值R,之后执行步骤(d);ε为判定阈值;
(d)更新拟合变换后的斜率反正切值序列,以arctan(R)取代子序列r中第n条线段的斜率反正切值H[n,r],即H[n,r]=arctan(R),并将子序列r中第n+1条线段对应横坐标跨度并入第n条线段的横坐标跨度;
(e)删除子序列r中第n+1条线段,转到步骤(b),直到完成遍历子序列r中所有的线段;
步骤3-3、重复步骤3-1和步骤3-2,确定序列p与样本库Q中所有样本序列相匹配的子序列数;对于某个样本序列q,q∈Q,确定序列p与q相匹配的子序列数的具体步骤为:
(1)设定偏离误差β>0;用E(q)表示序列p与样本序列q之间匹配的子序列数,E(q)初始为0;
(2)若q为故障状态的样本序列,F(q)=1;若q为非故障状态的样本序列,F(q)=0;
(3)确定序列p与样本序列q之间匹配的子序列数E(q),具体为:比较序列p和序列q的N个子序列,如果子序列中的线段数不等,则匹配子序列数不增加;如果子序列中的线段数相等,进一步确定出子序列对应线段间的偏差,如果平均偏差小于允许的偏离误差β,即则与序列p匹配的子序列数E(q)加1;
(4)如果没有完成遍历样本库Q中的所有样本序列,取下一个尚未遍历的样本序列赋值给q,转到步骤3-1;
步骤3-4、依据匹配子序列数E(x),确定序列p在样本库Q中的m个近邻,具体为:确定序列p的m个近邻x1,x2,…,xm,m>0为近邻数,具体为:按照序列p与样本序列匹配子序列数量的大小,降序排列样本序列,取出前m个值对应的样本序列,则E(xk)(1≤k≤m)表示近邻与序列p之间匹配的子序列数;
步骤3-5、对序列p进行的故障判定,具体为:对序列p进行的故障判定,具体为:用a表示近邻中类别为故障状态的样本序列的数量,用b表示近邻中类别为无故障状态的样本序列的数量,a+b=m,对于F(xi)=1、F(xj)=0,如果且成立,判定对应序列p的待测计算机为故障状态,否则判定对应序列p的待测计算机为无故障状态;
步骤4、在给定的系统参数值的前提下,通过对主用计算机节点故障进行预测,即故障主动检测,确定在何时对上述冗余备份系统实施主动式的主备切换;具体为:
步骤4-1、利用主用计算机节点运行故障预测的数学模型f(x)进行预测:
f ( x ) = x - 1 ( &gamma; - 1 ( &alpha; - 1 ) - 1 e L &gamma; ( e &gamma; ( &alpha; - 1 ) ( x + C ) - 1 ) + &gamma; - 1 ( e - &gamma; ( x + C ) - 1 ) + C ) &alpha; &NotEqual; 1 x - 1 ( e L &gamma; ( x + C ) + &gamma; - 1 ( e - &gamma; ( x + C ) - 1 ) + C ) &alpha; = 1
式中,γ为主备计算机节点的故障事件概率,C为主动式的主备切换过程中引入系统开销的常量因子,C>0;α为被动式的主备切换过程中引入系统开销的线性因子,其合理区间为[0,1];L为被动式的主备切换过程中引入系统开销的常量因子,L>0;
步骤4-2、将给定的主备计算机节点的故障事件概率γ、被动式的主备切换过程中引入系统开销的线性因子α、被动式的主备切换过程中引入系统开销的常量因子L和主动式的主备切换过程中引入系统开销的常量因子C的具体数值带入到主用计算机节点运行故障预测的数学模型f(x)中,并求解满足下式的x:
&part; f ( x ) / &part; x = 0 a n d &part; 2 f ( x ) / &part; x 2 > 0
即可以确定主用计算机节点每间隔x时间段对冗余备份系统实施一次主动式的主备切换。
CN201310634139.7A 2013-12-01 2013-12-01 一种基于ipmi的冗余计算机系统节点故障主被动检测方法 Active CN103617104B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310634139.7A CN103617104B (zh) 2013-12-01 2013-12-01 一种基于ipmi的冗余计算机系统节点故障主被动检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310634139.7A CN103617104B (zh) 2013-12-01 2013-12-01 一种基于ipmi的冗余计算机系统节点故障主被动检测方法

Publications (2)

Publication Number Publication Date
CN103617104A CN103617104A (zh) 2014-03-05
CN103617104B true CN103617104B (zh) 2017-01-04

Family

ID=50167807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310634139.7A Active CN103617104B (zh) 2013-12-01 2013-12-01 一种基于ipmi的冗余计算机系统节点故障主被动检测方法

Country Status (1)

Country Link
CN (1) CN103617104B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105224426A (zh) * 2014-06-09 2016-01-06 中兴通讯股份有限公司 物理主机故障检测方法、装置及虚机管理方法、系统
GB201504612D0 (en) 2015-03-18 2015-05-06 Inquisitive Systems Ltd Forensic analysis
WO2016157507A1 (ja) * 2015-04-02 2016-10-06 三菱電機株式会社 冗長化システム及び通信ユニット
JP6834446B2 (ja) * 2016-12-14 2021-02-24 オムロン株式会社 制御システム、制御プログラムおよび制御方法
CN107066824B (zh) * 2017-04-21 2021-09-10 郑州大学 一种基于造纸机湿端的主动故障检测方法
GB201708671D0 (en) 2017-05-31 2017-07-12 Inquisitive Systems Ltd Forensic analysis
CN107783888A (zh) * 2017-10-31 2018-03-09 济南浪潮高新科技投资发展有限公司 一种基于ipmi带数据预测功能的服务器管理实现的方法及装置
CN110703587A (zh) * 2019-10-23 2020-01-17 中船动力研究院有限公司 一种船用低速发动机主控制单元冗余的方法及装置
US11507446B1 (en) 2021-06-14 2022-11-22 Dell Products L.P. Hot-swap controller fault reporting system
CN114337944B (zh) * 2022-03-16 2023-04-14 中国人民解放军海军工程大学 一种系统级主备冗余通用控制方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1598802A (zh) * 2003-09-19 2005-03-23 英业达股份有限公司 备援管理控制仲裁系统
CN1734424A (zh) * 2004-07-06 2006-02-15 英特尔公司 检测错误和预报潜在故障的系统以及方法
CN101132314A (zh) * 2007-09-21 2008-02-27 中兴通讯股份有限公司 实现冗余备份的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090025008A1 (en) * 2007-07-19 2009-01-22 Aten International Co., Ltd. Ipmi systems and electronic apparatus using the same

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1598802A (zh) * 2003-09-19 2005-03-23 英业达股份有限公司 备援管理控制仲裁系统
CN1734424A (zh) * 2004-07-06 2006-02-15 英特尔公司 检测错误和预报潜在故障的系统以及方法
CN101132314A (zh) * 2007-09-21 2008-02-27 中兴通讯股份有限公司 实现冗余备份的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高可用服务器故障管理板的设计与实现;林成;《万方数据》;在线出版;20121225;第15-19页3.4节,第21页倒数5、6行,第35页9-11行,第41页9-12行,图4-6,续表5-3 *

Also Published As

Publication number Publication date
CN103617104A (zh) 2014-03-05

Similar Documents

Publication Publication Date Title
CN103617104B (zh) 一种基于ipmi的冗余计算机系统节点故障主被动检测方法
Wang et al. Multisource domain feature adaptation network for bearing fault diagnosis under time-varying working conditions
CN103617110A (zh) 服务器设备状态检修系统
CN106327033B (zh) 一种基于马尔可夫过程的电力系统连锁故障解析方法
CN102252843A (zh) 一种滚动轴承性能变异的评估方法
CN107561997A (zh) 一种基于大数据决策树的电力设备状态监测方法
Zhao et al. Text mining based fault diagnosis of vehicle on-board equipment for high speed railway
CN109753591A (zh) 业务流程预测性监控方法
CN106776208B (zh) 一种软件运行时故障定位方法
Lin et al. Reliability assessment of complex electromechanical systems: A network perspective
CN109740772A (zh) 基于大数据的铁路列车检测维修分析方法
CN109784668A (zh) 一种用于电力监控系统异常行为检测的样本特征降维处理方法
CN107450517A (zh) 一种随机离散事件系统安全可诊断性确定方法及系统
CN117113166A (zh) 一种基于改进的集成学习的工业锅炉故障检测方法
Fan et al. A hierarchical contraction scheme for querying big graphs
Li et al. Association Rule‐Based Feature Mining for Automated Fault Diagnosis of Rolling Bearing
CN103675518B (zh) 油浸式高压设备检修方法及装置
Xu et al. A two-stage resilience promotion approach for urban rail transit networks based on topology enhancement and recovery optimization
Kang et al. A method of online anomaly perception and failure prediction for high-speed automatic train protection system
Li et al. Correlation‐Based Anomaly Detection Method for Multi‐sensor System
Wang et al. On workload-aware dram failure prediction in large-scale data centers
Gong et al. LogETA: Time-aware cross-system log-based anomaly detection with inter-class boundary optimization
CN117061318A (zh) 故障诊断方法、装置、设备、介质及产品
CN115660198B (zh) 滚动轴承剩余使用寿命预测方法
Liu et al. Question answering system for deterministic fault diagnosis of intelligent railway signal equipment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: Sinpo District of Jiangsu city of Lianyungang province Lian Hai road 222006 No. 42

Patentee after: The 716th Research Institute of China Shipbuilding Corp.

Address before: Sinpo District of Jiangsu city of Lianyungang province Lian Hai road 222006 No. 42

Patentee before: 716TH RESEARCH INSTITUTE OF CHINA SHIPBUILDING INDUSTRY Corp.

CP01 Change in the name or title of a patent holder