CN117370066B - 一种服务器集群的恢复方法、装置、设备及存储介质 - Google Patents

一种服务器集群的恢复方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN117370066B
CN117370066B CN202311678666.8A CN202311678666A CN117370066B CN 117370066 B CN117370066 B CN 117370066B CN 202311678666 A CN202311678666 A CN 202311678666A CN 117370066 B CN117370066 B CN 117370066B
Authority
CN
China
Prior art keywords
fault
refers
server cluster
server
attribute data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311678666.8A
Other languages
English (en)
Other versions
CN117370066A (zh
Inventor
魏兴华
陈栋
李春
李建辉
张文件
罗春
吴炎
臧冰凌
王显伟
杨禹航
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Woqu Technology Co ltd
Original Assignee
Hangzhou Woqu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Woqu Technology Co ltd filed Critical Hangzhou Woqu Technology Co ltd
Priority to CN202311678666.8A priority Critical patent/CN117370066B/zh
Publication of CN117370066A publication Critical patent/CN117370066A/zh
Application granted granted Critical
Publication of CN117370066B publication Critical patent/CN117370066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明涉及数据恢复技术领域,尤其是一种服务器集群的恢复方法、装置、设备及存储介质,其中,所述方法包括:获取服务器集群的初始属性数据集;对所述初始属性数据集进行处理,生成服务器集群对应的属性优先级向量集;根据所述故障优先级向量集,生成服务器集群的故障类型队列;按照服务器集群的故障类型队列依次对服务器集群的服务器进行故障处理,以使得恢复服务器集群的服务器;可知,根据初始属性数据,确定出服务器集对应的属性优先级向量,基于预测出故障类型且根据故障类型,对服务器进行直接恢复或者人工恢复,进而实现了分钟级的服务器集群快速恢复。

Description

一种服务器集群的恢复方法、装置、设备及存储介质
技术领域
本发明涉及数据恢复技术领域,尤其涉及一种服务器集群的恢复方法、装置、设备及存储介质。
背景技术
由数据库一体机之间的连接方式为网络通信连接,共同组成一个逻辑上的服务集群,即数据库一体机集群;在数据库一体机集群中会存在某个服务器因不同因素导致服务器处于崩溃状态或者其他异常状态,进而会导致数据异常,因此需要对服务器进行恢复。
现有技术中,对于数据库一体机的恢复主要采用人工方式,分别从集群硬件层面,网络层面,软件服务层面,数据库层面逐一排查,需要同时调配众多资源,且人工排查速度缓慢,并且容易出现失误,使集群恢复过程变得复杂且漫长。
因此,如何快速的且自动的恢复服务器是目前本领域技术人员急需解决的技术问题。
发明内容
针对上述技术问题,本发明保护了一种服务器集群的恢复方法,所述方法包括:
获取服务器集群的初始属性数据集。
对所述初始属性数据集进行处理,生成服务器集群对应的故障优先级向量集。
根据所述故障优先级向量集,生成服务器集群的故障类型队列。
按照服务器集群的故障类型队列依次对服务器集群的服务器进行故障处理,以使得恢复服务器集群的服务器。
本发明还保护了一种服务器集群的恢复装置,所述装置包括:
初始属性数据集获取模块,用于获取服务器集群的初始属性数据集。
属性优先级向量集获取模块,用于对所述初始属性数据集进行处理,生成服务器集群对应的故障优先级向量集。
故障类型队列生成模块,用于根据所述故障优先级向量集,生成服务器集群的故障类型队列。
第一处理模块,用于按照服务器集群的故障类型队列依次对服务器集群的服务器进行故障处理,以使得恢复服务器集群的服务器。
本发明保护了一种计算机设备,包括存储器,处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的服务器集群的恢复方法。
本发明保护了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述的服务器集群的恢复方法。
本发明与现有技术相比具有明显的优点和有益效果。借由上述技术方案,本发明提供的一种服务器集群的恢复方法、装置、设备及存储介质可达到相当的技术进步性及实用性,并具有产业上的广泛利用价值,其至少具有下列优点:
本发明的一种服务器集群的恢复方法、装置、设备及存储介质,其中,所述方法包括:获取服务器集群的初始属性数据集;对所述初始属性数据集进行处理,生成服务器集群对应的属性优先级向量集;根据所述故障优先级向量集,生成服务器集群的故障类型队列;按照服务器集群的故障类型队列依次对服务器集群的服务器进行故障处理,以使得恢复服务器集群的服务器;可知,根据初始属性数据,确定出服务器集对应的属性优先级向量,基于预测出故障类型且根据故障类型,对服务器进行直接恢复或者人工恢复,进而实现了分钟级的服务器集群快速恢复。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的,特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明实施例一提供的一种服务器集群的恢复方法的流程图;
图2为本发明实施例一提供的S2步骤的流程图;
图3为本发明实施例一提供的S3步骤的流程图;
图4为本发明实施例一提供的S4步骤的流程图;
图5为本发明实施例二提供的一种服务器集群的恢复装置的结构示意图;
图6为本发明实施例二提供的属性优先级向量集获取模块2的结构示意图;
图7为本发明实施例二提供的故障类型队列生成模块3的结构示意图;
图8为本发明实施例二提供的第一处理模块4的结构示意图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种获种服务器集群的恢复方法的具体实施方式及其功效,详细说明如后。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”,“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程,方法,系统,产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程,方法,产品或设备固有的其它步骤或单元。
实施例一
如图1所示,本实施例一提供了一种服务器集群的恢复方法,所述方法包括:
S1,获取服务器集群的初始属性数据集。
具体的,所述服务器集群包括若干个服务器且所述初始属性数据集包括每一所述服务器对应的初始属性数据,例如,所述服务器为数据库一体机。
具体的,所述初始属性数据包括初始网络属性数据、初始数据库属性数据、初始应用程序属性数据和初始硬件属性数据,可以理解为:所述初始网络属性数据是指初始网络的属性数据,例如数据包的传输效率作为一项初始网络的属性数据,其中,初始网络是服务器连接的网络;所述初始数据库属性数据是指初始数据库的属性数据,例如数据库大小作为一项初始数据库的属性数据,其中,初始数据库是服务器中存储的数据库;所述初始应用程序属性数据是指初始应用程序的属性数据,例如应用程序启动时长作为一项初始应用程序的属性数据,其中,初始应用程序是服务器中安装的应用程序;所述初始硬件属性数据是指初始硬件的属性数据,例如CPU功率作为一项初始硬件的属性数据,其中,初始硬件是服务器安装的硬件。
S2,对所述初始属性数据集进行处理,生成服务器集群对应的故障优先级向量集。
如图2所示,在S2步骤中还包括如下步骤:
S21,对单一服务器对应的初始属性数据进行特征提取,获取到所述服务器对应的初始属性特征向量集。
在一个具体的实施例中,在S21步骤中还包括如下步骤:
获取单一服务器对应的初始属性数据A={A1,A2,A3,A4},A1是指单一服务器对应的初始网络属性数据,A2是指单一服务器对应的初始数据库属性数据,A3是指单一服务器对应的初始应用程序属性数据,A4是指单一服务器对应的初始硬件属性数据;
对A进行特征提取,获取A对应的初始属性特征向量集B={B1,B2,B3,B4},B1=(B11,B12,……,B1i,……,B1m),B2=(B21,B22,……,B2j,……,B2n),B3=(B31,B32,……,B3x,……,B3p),B4=(B41,B42,……,B4y,……,B4q);其中,B1i是指A1提取出的第i个特征值,i=1,2……m,m为A1对应的特征维度数量;B2j是指A2提取出的第j个特征值,j=1,2……n,n为A2对应的特征维度数量;B3x是指A3提取出的第x个特征值,x=1,2……p,p为A3对应的特征维度数量;B4y是指A4提取出的第y个特征值,y=1,2……q,q为A4对应的特征维度数量;本领域技术人员知晓现有技术中任意一种特征提取的方法,在此不再赘述。
上述,根据属性数据的类型不同,对不同类型属性数据进行特征提取,获取到不同类型属性数据对应的初始属性特征向量,以便于根据不同类型属性数据对应的初始属性特征向量,确定出服务器发生故障的概率,以使得针对服务器的故障进行恢复。
S22,根据所述服务器对应的初始属性特征向量集,生成所述服务器对应的故障优先级向量,以使得基于所有的所述服务器对应的故障优先级向量,构成服务器集群对应的故障优先级向量集。
在一个具体的实施例中,所述服务器对应的故障优先级向量D=(D1,D2,D3,D4),S22步骤还包括如下步骤获取D1,D2,D3和D4
S221,对B1进行处理,生成B1对应的中间属性特征向量C1=(C11,C12,……,C1i,……,C1m),C1i是指B1i处理后的特征值;对特征值进行处理的方法为归一化方法,其中,本领域技术人员知晓现有技术中所有归一化处理方法,在此不再赘述,例如,当B1i为数据包的传输效率时,可以采用Min-Max归一化方式获取到C1i
S222,对B2进行处理,生成B2对应的中间属性特征向量C2=(C21,C22,……,C2j,……,C2n),C2j是指B2j处理后的特征值;对特征值进行处理的方法为归一化方法,其中,本领域技术人员知晓现有技术中所有归一化处理方法,在此不再赘述,例如,当B2j为数据库大小时,可以采用Min-Max归一化方式获取到C2j
S223,对B3进行处理,生成B3对应的中间属性特征向量C3=(C31,C32,……,C3x,……,C3p),C3x是指B3x处理后的特征值;对特征值进行处理的方法为归一化方法,其中,本领域技术人员知晓现有技术中所有归一化处理方法,在此不再赘述,例如,当B3x为应用程序启动时长时,可以采用Min-Max归一化方式获取到C3x
S224,对B4进行处理,生成B4对应的中间属性特征向量C4=(C41,C42,……,C4y,……,C4q),C4y是指B4y处理后的特征值;对特征值进行处理的方法为归一化方法,其中,本领域技术人员知晓现有技术中所有归一化处理方法,在此不再赘述,例如,当B4y为CPU功率时,可以采用Min-Max归一化方式获取到C4y
进一步的,本领域技术人员可以根据属性数据的类型不同,选取相适应的归一化方法,在此不爱赘述。
优选地,C1、C2、C3和C4中所有的特征值的取值范围[0,1]。
上述,将不同初始属性特征向量中特征值转化成统一范围内的特征值,以有利于对计算出每一属性类型对应故障优先级的取值一致,便于分析故障发生的概率。
S225,根据C1,确定出A1对应的故障优先级D1,其中,D1符合如下条件:
D1=1/(1+e^(-∑m i=1(W1i×C1i)+W01)其中,W1i是指C1i对应的权重值,W01是指预设第一参数,本领域技术人员根据实际需求设置参数,在此不再赘述。
进一步的,W1i符合如下条件:W1i=W0 1/m,其中,W1为初始网络属性数据的故障占比。
S226,根据C2,确定出A2对应的故障优先级D2,其中,D2符合如下条件:
D2=1/(1+e^(-∑n j=1(W2j×C2j)+W02),其中,W2j是指C2j对应的权重值,W02是指预设第二参数,本领域技术人员根据实际需求设置参数,在此不再赘述。
进一步的,W2j符合如下条件:W2j=W0 2/n,其中,W2为初始数据库属性数据的故障占比。
S227,根据C3,确定出A3对应的故障优先级D3,其中,D3符合如下条件:
D3=1/(1+e^(-∑p x=1(W3x×C3x)+W03),其中,W3x是指C3x对应的权重值,W03是指预设第三参数,本领域技术人员根据实际需求设置参数,在此不再赘述。
进一步的,W3x符合如下条件:W3x=W0 3/p,其中,W3为初始应用程序属性数据的故障占比。
S228,根据C4,确定出A4对应的故障优先级D4,其中,D4符合如下条件:
D4=1/(1+e^(-∑q y=1(W4y×C4y)+W04),其中,W4y是指C4y对应的权重值,W04是指预设第四参数,本领域技术人员根据实际需求设置参数,在此不再赘述。
进一步的,W4y符合如下条件:W4y=W0 4/q,其中,W4为初始硬件属性数据的故障占比。
优选的,W0 1+W0 2+W0 3+W0 4=1,可以理解为:获取到样本服务器对应的故障发生概率向量V=(V1,V2,V3,V4),V1为所有样本服务器因网络问题发生故障的概率值,V2为所有样本服务器因数据库问题发生故障的概率值,V3为所有样本服务器因应用程序问题发生故障的概率值,V4为所有样本服务器因硬件问题发生故障的概率值;根据V,获取W0 1、W0 2、W0 3、W0 4;W0 1=V1/(V1+V2+V3+V4),W0 2=V2/(V1+V2+V3+V4),W0 3=V3/(V1+V2+V3+V4)、W0 4=V4/(V1+V2+V3+V4)。
上述,将不同类型的初始属性数据,转换成相同取值范围内的属性数据,以减少了属性数据之间的差异性,进而通过样本发生故障概率,合理的预估出服务器的故障优先级。
S3,根据所述故障优先级向量集,生成服务器集群的故障类型队列。
如图3所示,在根据所述故障优先级向量集,确定出服务器集群的故障类型中还包括如下步骤:
S31,根据所述故障优先级向量集,生成所述服务器集群的关键故障优先级集,其中,所述服务器集群的关键故障优先级集包括若干个单一所述服务器的关键故障优先级E,其中,E符合如下条件:E=1-(1-D1)×(1-D2)×(1-D3)×(1-D4)。
上述,基于不同属性数据的故障优先级向量,确定出服务器的发送故障优先级,进而后续对服务器的故障进行分析,准确的确定故障实现了分钟级的服务器集群快速恢复。
S32,根据所述服务器集群的关键故障优先级集,生成服务器集群的故障类型队列。
在一个具体的实施例中,S32步骤还包括如下步骤:
S321,获取预设特征条件集G={G1,G2,G3,G4},G1=(G11,G12,……,G1i,……,G1m),G2=(G21,G22,……,G2j,……,G2n),G3=(G31,G32,……,G3x,……,G3p),G4=(G41,G42,……,G4y,……,G4q);其中,G1i是指C1i对应的特征条件,G2j是指C2j对应的特征条件,G3x是指C3x对应的特征条件,G4y是指C4y对应的特征条件。
具体的,所述特征条件是指对处理后的任一特征值进行判断是否发生服务器故障的条件,本领域技术人员可以根据特征不同设置不同的特征条件,在此不再赘述。
S322,当E≤E0时,设定E对应的所述服务器的最终故障优先级为1,可以理解为;E对应的所述服务器未发生故障,即所述服务器处于无故障的状态,其中,E0是预设优先级阈值。
S323,当E>E0时,根据B,确定出B对应的故障分析结果总集K={K1,K2,K3,K4},K1是指B1对应的故障分析结果集,K2是指B2对应的故障分析结果集,K3是指B3对应的故障分析结果集,K4是指B4对应的故障分析结果集。
在一个具体的实施例中,S323步骤通过如下步骤确定K1
获取B1对应的权重列表W1={W11,W12,……,W1i,……,W1m}。
按照W1中权重值由大至小顺序,对B1和G1进行排序,生成B1对应的中间属性特征向量L1={L11,L12,……,L1r,……,L1s}和G1对应的中间特征条件集L0 1={L0 11,L0 12,……,L0 1r,……,L0 1s},L1r为第r个中间属性特征值,L0 1r为L1r对应的中间特征条件,r=1……s,s为中间属性特征维度且s=m;可以理解为中间属性特征向量的任一位位置的特征值与中间特征条件集的相对应位置的特征条件是对应的。
根据L1和L0 1,生成B1对应的故障分析结果集K1={K11,K12,……,K1r,……,K1s,K1(s+1)},其中,K1r是指L1r对应的故障分析结果;可以理解为:当L1r满足L0 1r时,得到L1r对应的故障分析结果K1r,且当L1r未满足L0 1r时,生成需要L1(r+1)与L0 1(r+1)进行判断,得到L1(r+1)对应的故障分析结果K1(r+1)
进一步的,K2,K3,K4的确定方式均与K1的确定方式相同,在此不再赘述。
上述,基于故障优先级集对服务器的故障进行分析,准确的确定故障的解决方式,实现了分钟级的服务器集群快速恢复。
S324,根据K,确定出服务器集群的故障类型队列。
在一个具体的实施例中,S324步骤还包括如下步骤:
S3241,当K1r对应的故障类型为第一故障类型时,将K1r作为第一中间故障分析结果,其中,所述第一故障类型表征为无需人工介入恢复的故障类型;
S3242,当K1r对应的故障类型为第二故障类型时,将K1r作为第二中间故障分析结果,其中,所述第二故障类型表征为需要人工介入恢复的故障类型;
S3243,根据第一中间故障分析结果的数量和第二中间故障分析结果的数量,确定出单一服务器的优先级U,U符合如下条件:
U=F1+F2+F3+F4+E,其中,F1为A1对应的故障优先级,F2为A2对应的故障优先级,F3为A3对应的故障优先级,F4为A4对应的故障优先级。
进一步的,F1=Z11/(Z11+Z12),Z11为第一中间故障分析结果的数量,Z12为第二中间故障分析结果的数量。
优选的,F2、F3、F4的获取方式均与F1的获取方式一致,在此不再赘述。
S3244,按照所有的服务器的优先级由小至大进行排序,生成服务器集群的故障类型队列。
S4,按照服务器集群的故障类型队列依次对服务器集群的服务器进行故障处理,以使得恢复服务器集群的服务器。
如图4所示,在按照服务器集群的故障类型队列依次对服务器集群的服务器进行故障处理,以使得恢复服务器集群的服务器的步骤中还包括如下步骤:
S41,当从预设的故障处理策略中获取到单一服务器的故障分析结果对应的故障处理策略时,根据单一服务器的故障分析结果对应的故障处理策略对应的故障进行处理,以使得恢复服务器集群的服务器。
S42,当从预设的故障处理策略中未获取到单一服务器的故障分析结果对应的故障处理策略时,发出故障处理请求至任务平台,以使得任务平台根据故障处理请求,采用非自动故障处理方式对单一服务器的故障分析结果对应的故障处理策略对应的故障进行处理,以使得恢复服务器集群的服务器;可以理解为非自动故障处理方式是指的采用固定人员进行故障处理,例如维修人员。
本实施例的一种服务器集群的恢复方法,所述方法包括:获取服务器集群的初始属性数据集,对所述初始属性数据集进行处理,生成服务器集群对应的属性优先级向量集,根据所述属性优先级向量集,确定出服务器集群的故障类型,从预设的故障处理策略中根据服务器集群的故障类型对应的故障进行处理,以使得恢复服务器集群的服务器;可知,根据初始属性数据,确定出服务器集对应的属性优先级向量,基于预测出故障类型且根据故障类型,对服务器进行直接恢复或者人工恢复,进而实现了分钟级的服务器集群快速恢复。
实施例二
如图5所示,本实施例二提供了一种服务器集群的恢复装置,所述装置包括:
初始属性数据集获取模块1,用于获取服务器集群的初始属性数据集。
具体的,所述服务器集群包括若干个服务器且所述初始属性数据集包括每一所述服务器对应的初始属性数据,例如,所述服务器为数据库一体机。
具体的,所述初始属性数据包括初始网络属性数据、初始数据库属性数据、初始应用程序属性数据和初始硬件属性数据,可以理解为:所述初始网络属性数据是指初始网络的属性数据,例如数据包的传输效率作为一项初始网络的属性数据,其中,初始网络是服务器连接的网络;所述初始数据库属性数据是指初始数据库的属性数据,例如数据库大小作为一项初始数据库的属性数据,其中,初始数据库是服务器中存储的数据库;所述初始应用程序属性数据是指初始应用程序的属性数据,例如应用程序启动时长作为一项初始应用程序的属性数据,其中,初始应用程序是服务器中安装的应用程序;所述初始硬件属性数据是指初始硬件的属性数据,例如CPU功率作为一项初始硬件的属性数据,其中,初始硬件是服务器安装的硬件。
属性优先级向量集获取模块2,用于对所述初始属性数据集进行处理,生成服务器集群对应的属性优先级向量集。
如图6所示,属性优先级向量集获取模块2还包括:
故障优先级向量集获取模块21,用于对所述初始属性数据集进行处理,生成服务器集群对应的故障优先级向量集。
在一个具体的实施例中,故障优先级向量集获取模块21还包括:
初始属性数据获取模块,用于获取单一服务器对应的初始属性数据A={A1,A2,A3,A4},A1是指单一服务器对应的初始网络属性数据,A2是指单一服务器对应的初始数据库属性数据,A3是指单一服务器对应的初始应用程序属性数据,A4是指单一服务器对应的初始硬件属性数据;
属性特征向量集获取模块,用于对A进行特征提取,获取A对应的初始属性特征向量集B={B1,B2,B3,B4},B1=(B11,B12,……,B1i,……,B1m),B2=(B21,B22,……,B2j,……,B2n),B3=(B31,B32,……,B3x,……,B3p),B4=(B41,B42,……,B4y,……,B4q);其中,B1i是指A1提取出的第i个特征值,i=1,2……m,m为A1对应的特征维度数量;B2j是指A2提取出的第j个特征值,j=1,2……n,n为A2对应的特征维度数量;B3x是指A3提取出的第x个特征值,x=1,2……p,p为A3对应的特征维度数量;B4y是指A4提取出的第y个特征值,y=1,2……q,q为A4对应的特征维度数量;本领域技术人员知晓现有技术中任意一种特征提取的方法,在此不再赘述。
上述,根据属性数据的类型不同,对不同类型属性数据进行特征提取,获取到不同类型属性数据对应的初始属性特征向量,以便于根据不同类型属性数据对应的初始属性特征向量,确定出服务器发生故障的概率,以使得针对服务器的故障进行恢复。
故障优先级向量集生成模块22,用于根据所述服务器对应的初始属性特征向量集,生成所述服务器的故障优先级向量,以使得基于所有的所述服务器对应的故障优先级向量,构成服务器集群对应的故障优先级向量集。
在一个具体的实施例中,故障优先级向量集生成模块22还包括:
第一生成模块,用于对B1进行处理,生成B1对应的中间属性特征向量C1=(C11,C12,……,C1i,……,C1m),C1i是指B1i处理后的特征值;对特征值进行处理的方法为归一化方法,其中,本领域技术人员知晓现有技术中所有归一化处理方法,在此不再赘述,例如,当B1i为数据包的传输效率时,可以采用Min-Max归一化方式获取到C1i
第二生成模块,用于对B2进行处理,生成B2对应的中间属性特征向量C2=(C21,C22,……,C2j,……,C2n),C2j是指B2j处理后的特征值;对特征值进行处理的方法为归一化方法,其中,本领域技术人员知晓现有技术中所有归一化处理方法,在此不再赘述,例如,当B2j为数据库大小时,可以采用Min-Max归一化方式获取到C2j
第三生成模块,用于对B3进行处理,生成B3对应的中间属性特征向量C3=(C31,C32,……,C3x,……,C3p),C3x是指B3x处理后的特征值;对特征值进行处理的方法为归一化方法,其中,本领域技术人员知晓现有技术中所有归一化处理方法,在此不再赘述,例如,当B3x为应用程序启动时长时,可以采用Min-Max归一化方式获取到C3x
第四生成模块,用于对B4进行处理,生成B4对应的中间属性特征向量C4=(C41,C42,……,C4y,……,C4q),C4y是指B4y处理后的特征值;对特征值进行处理的方法为归一化方法,其中,本领域技术人员知晓现有技术中所有归一化处理方法,在此不再赘述,例如,当B4y为CPU功率时,可以采用Min-Max归一化方式获取到C4y
进一步的,本领域技术人员可以根据属性数据的类型不同,选取相适应的归一化方法,在此不爱赘述。
优选地,C1、C2、C3和C4中所有的特征值的取值范围[0,1]。
上述,将不同初始属性特征向量中特征值转化成统一范围内的特征值,以有利于对计算出每一属性类型对应故障优先级的取值一致,便于分析故障发生的概率。
第一确定模块,用于根据C1,确定出A1对应的故障优先级D1,其中,D1符合如下条件:
D1=1/(1+e^(-∑m i=1(W1i×C1i)+W01)其中,W1i是指C1i对应的权重值,W01是指预设第一参数,本领域技术人员根据实际需求设置参数,在此不再赘述。
进一步的,W1i符合如下条件:W1i=W0 1/m,其中,W1为初始网络属性数据的故障占比。
第二确定模块,用于根据C2,确定出A2对应的故障优先级D2,其中,D2符合如下条件:
D2=1/(1+e^(-∑n j=1(W2j×C2j)+W02),其中,W2j是指C2j对应的权重值,W02是指预设第二参数,本领域技术人员根据实际需求设置参数,在此不再赘述。
进一步的,W2j符合如下条件:W2j=W0 2/n,其中,W2为初始数据库属性数据的故障占比。
第三确定模块,用于根据C3,确定出A3对应的故障优先级D3,其中,D3符合如下条件:
D3=1/(1+e^(-∑p x=1(W3x×C3x)+W03),其中,W3x是指C3x对应的权重值,W03是指预设第三参数,本领域技术人员根据实际需求设置参数,在此不再赘述。
进一步的,W3x符合如下条件:W3x=W0 3/p,其中,W3为初始应用程序属性数据的故障占比。
第四确定模块,用于根据C4,确定出A4对应的故障优先级D4,其中,D4符合如下条件:
D4=1/(1+e^(-∑q y=1(W4y×C4y)+W04),其中,W4y是指C4y对应的权重值,W04是指预设第四参数,本领域技术人员根据实际需求设置参数,在此不再赘述。
进一步的,W4y符合如下条件:W4y=W0 4/q,其中,W4为初始硬件属性数据的故障占比。
优选的,W0 1+W0 2+W0 3+W0 4=1,可以理解为:获取到样本服务器对应的故障发生概率向量V=(V1,V2,V3,V4),V1为所有样本服务器因网络问题发生故障的概率值,V2为所有样本服务器因数据库问题发生故障的概率值,V3为所有样本服务器因应用程序问题发生故障的概率值,V4为所有样本服务器因硬件问题发生故障的概率值;根据V,获取W0 1、W0 2、W0 3、W0 4;W0 1=V1/(V1+V2+V3+V4),W0 2=V2/(V1+V2+V3+V4),W0 3=V3/(V1+V2+V3+V4)、W0 4=V4/(V1+V2+V3+V4)。
上述,将不同类型的初始属性数据,转换成相同取值范围内的属性数据,以减少了属性数据之间的差异性,进而通过样本发生故障概率,合理的预估出服务器的故障优先级。
故障类型队列生成模块3,用于根据所述故障优先级向量集,生成服务器集群的故障类型队列。
如图7所示,故障类型队列生成模块3还包括:
第六生成模块31,用于根据所述故障优先级向量集,生成所述服务器集群的关键故障优先级集,其中,所述服务器集群的关键故障优先级集包括若干个单一所述服务器的关键故障优先级E,其中,E符合如下条件:E=1-(1-D1)×(1-D2)×(1-D3)×(1-D4)。
第七生成模块32,用于根据所述服务器集群的关键故障优先级集,生成服务器集群的故障类型队列。
在一个具体的实施例中,第七生成模块32还包括:
第一执行模块,用于获取预设特征条件集G={G1,G2,G3,G4},G1=(G11,G12,……,G1i,……,G1m),G2=(G21,G22,……,G2j,……,G2n),G3=(G31,G32,……,G3x,……,G3p),G4=(G41,G42,……,G4y,……,G4q);其中,G1i是指C1i对应的特征条件,G2j是指C2j对应的特征条件,G3x是指C3x对应的特征条件,G4y是指C4y对应的特征条件。
具体的,所述特征条件是指对处理后的任一特征值进行判断是否发生服务器故障的条件,本领域技术人员可以根据特征不同设置不同的特征条件,在此不再赘述。
第二执行模块,用于当E≤E0时,设定E对应的所述服务器的最终故障优先级为1,可以理解为;E对应的所述服务器未发生故障,即所述服务器处于无故障的状态,其中,E0是预设优先级阈值。
第三执行模块,用于当E>E0时,根据B,确定出B对应的故障分析结果总集K={K1,K2,K3,K4},K1是指B1对应的故障分析结果集,K2是指B2对应的故障分析结果集,K3是指B3对应的故障分析结果集,K4是指B4对应的故障分析结果集。
在一个具体的实施例中,第三执行模块包括:
权重列表获取模块,用于获取B1对应的权重列表W1={W11,W12,……,W1i,……,W1m}。
中间数据生成模块,用于按照W1中权重值由大至小顺序,对B1和G1进行排序,生成B1对应的中间属性特征向量L1={L11,L12,……,L1r,……,L1s}和G1对应的中间特征条件集L0 1={L0 11,L0 12,……,L0 1r,……,L0 1s},L1r为第r个中间属性特征值,L0 1r为L1r对应的中间特征条件,r=1……s,s为中间属性特征维度且s=m;可以理解为中间属性特征向量的任一位位置的特征值与中间特征条件集的相对应位置的特征条件是对应的。
故障分析结果集生成模块,用于根据L1和L0 1,生成B1对应的故障分析结果集K1={K11,K12,……,K1r,……,K1s,K1(s+1)},其中,K1r是指L1r对应的故障分析结果;可以理解为:当L1r满足L0 1r时,得到L1r对应的故障分析结果K1r,且当L1r未满足L0 1r时,生成需要L1(r+1)与L0 1(r+1)进行判断,得到L1(r+1)对应的故障分析结果K1(r+1)
进一步的,K2,K3,K4的确定方式均与K1的确定方式相同,在此不再赘述。
第四执行模块,用于根据K,确定出服务器集群的故障类型队列。
在一个具体的实施例中,第四执行模块包括:
第五执行模块,用于当K1r对应的故障类型为第一故障类型时,将K1r作为第一中间故障分析结果,其中,所述第一故障类型表征为无需人工介入恢复的故障类型;
第六执行模块,用于当K1r对应的故障类型为第二故障类型时,将K1r作为第二中间故障分析结果,其中,所述第二故障类型表征为需要人工介入恢复的故障类型;
第七执行模块,用于根据第一中间故障分析结果的数量和第二中间故障分析结果的数量,确定出单一服务器的优先级U,U符合如下条件:
U=F1+F2+F3+F4+E,其中,F1为A1对应的故障优先级,F2为A2对应的故障优先级,F3为A3对应的故障优先级,F4为A4对应的故障优先级。
进一步的,F1=Z11/(Z11+Z12),Z11为第一中间故障分析结果的数量,Z12为第二中间故障分析结果的数量。
优选的,F2、F3、F4的获取方式均与F1的获取方式一致,在此不再赘述。
第八执行模块,用于按照所有的服务器的优先级由小至大进行排序,生成服务器集群的故障类型队列。
第一处理模块4,用于按照服务器集群的故障类型队列依次对服务器集群的服务器进行故障处理,以使得恢复服务器集群的服务器。
如图8所示,第一处理模块4包括:
第二处理模块41,用于当从预设的故障处理策略中获取到单一服务器的故障分析结果对应的故障处理策略时,根据单一服务器的故障分析结果对应的故障处理策略对应的故障进行处理,以使得恢复服务器集群的服务器。
第三处理模块42,用于当从预设的故障处理策略中未获取到单一服务器的故障分析结果对应的故障处理策略时,发出故障处理请求至任务平台,以使得任务平台根据故障处理请求,采用非自动故障处理方式对单一服务器的故障分析结果对应的故障处理策略对应的故障进行处理,以使得恢复服务器集群的服务器;可以理解为非自动故障处理方式是指的采用固定人员进行故障处理,例如维修人员。
在一个实施例中,提供了一种计算机设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取服务器集群的初始属性数据集;
对所述初始属性数据集进行处理,生成服务器集群对应的故障优先级向量集;
根据所述故障优先级向量集,生成服务器集群的故障类型队列;
按照服务器集群的故障类型队列依次对服务器集群的服务器进行故障处理,以使得恢复服务器集群的服务器。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取服务器集群的初始属性数据集;
对所述初始属性数据集进行处理,生成服务器集群对应的故障优先级向量集;
根据所述故障优先级向量集,生成服务器集群的故障类型队列;
按照服务器集群的故障类型队列依次对服务器集群的服务器进行故障处理,以使得恢复服务器集群的服务器。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器,存储,数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM),可编程ROM(PROM),电可编程ROM(EPROM),电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM),动态RAM(DRAM),同步DRAM(SDRAM),双数据率SDRAM(DDRSDRAM),增强型SDRAM(ESDRAM),同步链路(Synchlink) DRAM(SLDRAM),存储器总线(Rambus)直接RAM(RDRAM),直接存储器总线动态RAM(DRDRAM),以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元,模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元,模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案的内容,依据本发明的技术实质对以上实施例所作的任何简单修改,等同变化与修饰,均仍属于本发明技术方案的范围内。

Claims (8)

1.一种服务器集群的恢复方法,其特征在于,所述方法包括:
获取服务器集群的初始属性数据集;所述服务器集群包括若干个服务器且所述初始属性数据集包括每一所述服务器对应的初始属性数据;
对所述初始属性数据集进行处理,生成服务器集群对应的故障优先级向量集;在此步骤中还包括如下步骤:对单一服务器对应的初始属性数据进行特征提取,获取到所述服务器对应的初始属性特征向量集;根据所述服务器对应的初始属性特性向量集,生成所述服务器对应的故障优先级向量D=(D1,D2,D3,D4),以使得基于所有的所述服务器对应的故障优先级向量,构成服务器集群对应的故障优先级向量集;
根据所述故障优先级向量集,生成服务器集群的故障类型队列;
按照服务器集群的故障类型队列依次对服务器集群的服务器进行故障处理,以使得恢复服务器集群的服务器;
其中,所述对单一服务器对应的初始属性数据进行特征提取,获取到所述服务器对应的初始属性特征向量集还包括如下步骤:
获取单一服务器对应的初始属性数据A={A1,A2,A3,A4},A1是指单一服务器对应的初始网络属性数据,A2是指单一服务器对应的初始数据库属性数据,A3是指单一服务器对应的初始应用程序属性数据,A4是指单一服务器对应的初始硬件属性数据;
对A进行特征提取,获取A对应的初始属性特征向量集B={B1,B2,B3,B4},B1=(B11,B12,……,B1i,……,B1m),B2=(B21,B22,……,B2j,……,B2n),B3=(B31,B32,……,B3x,……,B3p),B4=(B41,B42,……,B4y,……,B4q);其中,B1i是指A1提取出的第i个特征值,i=1,2……m,m为A1对应的特征维度数量;B2j是指A2提取出的第j个特征值,j=1,2……n,n为A2对应的特征维度数量;B3x是指A3提取出的第x个特征值,x=1,2……p,p为A3对应的特征维度数量;B4y是指A4提取出的第y个特征值,y=1,2……q,q为A4对应的特征维度数量;
其中,通过如下步骤获取D1,D2,D3和D4
对B1、B2、B3、B4分别进行处理,分别生成B1对应的中间属性特征向量C1=(C11,C12,……,C1i,……,C1m)、B2对应的中间属性特征向量C2=(C21,C22,……,C2j,……,C2n)、B3对应的中间属性特征向量C3=(C31,C32,……,C3x,……,C3p)、B4对应的中间属性特征向量C4=(C41,C42,……,C4y,……,C4q),C1i是指B1i处理后的特征值;C2j是指B2j处理后的特征值;C3x是指B3x处理后的特征值;C4y是指B4y处理后的特征值;C1、C2、C3和C4中所有的特征值的取值范围[0,1];
根据C1,确定出A1对应的故障优先级D1,其中,D1符合如下条件:
D1=1/(1+e^(-∑m i=1(W1i×C1i)+W01)其中,W1i是指C1i对应的权重值,W01是指预设第一参数;
根据C2,确定出A2对应的故障优先级D2,其中,D2符合如下条件:
D2=1/(1+e^(-∑n j=1(W2j×C2j)+W02),其中,W2j是指C2j对应的权重值,W02是指预设第二参数;
根据C3,确定出A3对应的故障优先级D3,其中,D3符合如下条件:
D3=1/(1+e^(-∑p x=1(W3x×C3x)+W03),其中,W3x是指C3x对应的权重值,W03是指预设第三参数;
根据C4,确定出A4对应的故障优先级D4,其中,D4符合如下条件:
D4=1/(1+e^(-∑q y=1(W4y×C4y)+W04),其中,W4y是指C4y对应的权重值,W04是指预设第四参数。
2.根据权利要求1所述的服务器集群的恢复方法,其特征在于,在根据所述故障优先级向量集,生成服务器集群的故障类型队列的步骤还包括如下步骤:
根据所述故障优先级向量集,生成所述服务器集群的关键故障优先级集,其中,所述服务器集群的关键故障优先级集包括若干个单一所述服务器的关键故障优先级;
根据所述服务器集群的关键故障优先级集,生成服务器集群的故障类型队列。
3.根据权利要求1所述的服务器集群的恢复方法,其特征在于,在按照服务器集群的故障类型队列依次对服务器集群的服务器进行故障处理,以使得恢复服务器集群的服务器的步骤中还包括如下步骤:
当从预设的故障处理策略中获取到单一服务器的故障分析结果对应的故障处理策略时,根据单一服务器的故障分析结果对应的故障处理策略对相应的故障进行处理,以使得恢复服务器集群的服务器;
当从预设的故障处理策略中未获取到单一服务器的故障分析结果对应的故障处理策略时,发出故障处理请求至任务平台,以使得任务平台根据故障处理请求,采用非自动故障处理方式对单一服务器的故障分析结果对应的故障处理策略对应的故障进行处理,以使得恢复服务器集群的服务器。
4.一种服务器集群的恢复装置,其特征在于,所述装置包括:
初始属性数据集获取模块,用于获取服务器集群的初始属性数据集;所述服务器集群包括若干个服务器且所述初始属性数据集包括每一所述服务器对应的初始属性数据;
故障优先级向量集获取模块,用于对所述初始属性数据集进行处理,生成服务器集群对应的故障优先级向量集;所述故障优先级向量集获取模块还包括:属性特征向量集获取模块,用于对单一服务器对应的初始属性数据进行特征提取,获取到所述服务器对应的初始属性特征向量集;故障优先级向量集生成模块,用于根据所述服务器对应的初始属性特征向量集,生成所述服务器对应的故障优先级向量,以使得基于所有的所述服务器对应的故障优先级向量,构成服务器集群对应的故障优先级向量集;
故障类型队列生成模块,用于根据所述故障优先级向量集,生成服务器集群的故障类型队列;
第一处理模块,用于按照服务器集群的故障类型队列依次对服务器集群的服务器进行故障处理,以使得恢复服务器集群的服务器;
其中,所述故障优先级向量集获取模块还包括初始属性数据获取模块,用于获取单一服务器对应的初始属性数据A={A1,A2,A3,A4},A1是指单一服务器对应的初始网络属性数据,A2是指单一服务器对应的初始数据库属性数据,A3是指单一服务器对应的初始应用程序属性数据,A4是指单一服务器对应的初始硬件属性数据;
所述属性特征向量集获取模块,还用于对A进行特征提取,获取A对应的初始属性特征向量集B={B1,B2,B3,B4},B1=(B11,B12,……,B1i,……,B1m),B2=(B21,B22,……,B2j,……,B2n),B3=(B31,B32,……,B3x,……,B3p),B4=(B41,B42,……,B4y,……,B4q);其中,B1i是指A1提取出的第i个特征值,i=1,2……m,m为A1对应的特征维度数量;B2j是指A2提取出的第j个特征值,j=1,2……n,n为A2对应的特征维度数量;B3x是指A3提取出的第x个特征值,x=1,2……p,p为A3对应的特征维度数量;B4y是指A4提取出的第y个特征值,y=1,2……q,q为A4对应的特征维度数量;
所述故障优先级向量集生成模块还用于:对B1、B2、B3、B4分别进行处理,分别生成B1对应的中间属性特征向量C1=(C11,C12,……,C1i,……,C1m)、B2对应的中间属性特征向量C2=(C21,C22,……,C2j,……,C2n)、B3对应的中间属性特征向量C3=(C31,C32,……,C3x,……,C3p)、B4对应的中间属性特征向量C4=(C41,C42,……,C4y,……,C4q),C1i是指B1i处理后的特征值;C2j是指B2j处理后的特征值;C3x是指B3x处理后的特征值;C4y是指B4y处理后的特征值;C1、C2、C3和C4中所有的特征值的取值范围[0,1];
所述故障优先级向量集生成模块还包括:
第一确定模块,用于根据C1,确定出A1对应的故障优先级D1,其中,D1符合如下条件:
D1=1/(1+e^(-∑m i=1(W1i×C1i)+W01)其中,W1i是指C1i对应的权重值,W01是指预设第一参数;
第二确定模块,用于根据C2,确定出A2对应的故障优先级D2,其中,D2符合如下条件:
D2=1/(1+e^(-∑n j=1(W2j×C2j)+W02),其中,W2j是指C2j对应的权重值,W02是指预设第二参数;
第三确定模块,用于根据C3,确定出A3对应的故障优先级D3,其中,D3符合如下条件:
D3=1/(1+e^(-∑p x=1(W3x×C3x)+W03),其中,W3x是指C3x对应的权重值,W03是指预设第三参数;
第四确定模块,用于根据C4,确定出A4对应的故障优先级D4,其中,D4符合如下条件:
D4=1/(1+e^(-∑q y=1(W4y×C4y)+W04),其中,W4y是指C4y对应的权重值,W04是指预设第四参数。
5.根据权利要求4所述的服务器集群的恢复装置,其特征在于,故障类型队列生成模块还包括:
第六生成模块,用于根据所述故障优先级向量集,生成所述服务器集群的关键故障优先级集,其中,所述服务器集群的关键故障优先级集包括若干个单一所述服务器的关键故障优先级;
第七生成模块,用于根据所述服务器集群的关键故障优先级集,生成服务器集群的故障类型队列。
6.根据权利要求4所述的服务器集群的恢复装置,其特征在于,第一处理模块还包括:
第二处理模块,用于当从预设的故障处理策略中获取到单一服务器的故障分析结果对应的故障处理策略时,根据单一服务器的故障分析结果对应的故障处理策略对相应的故障进行处理,以使得恢复服务器集群的服务器;
第三处理模块,用于当从预设的故障处理策略中未获取到单一服务器的故障分析结果对应的故障处理策略时,发出故障处理请求至任务平台,以使得任务平台根据故障处理请求,采用非自动故障处理方式对单一服务器的故障分析结果对应的故障处理策略对应的故障进行处理,以使得恢复服务器集群的服务器。
7.一种计算机设备,包括存储器,处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至3中任意一项所述的服务器集群的恢复方法。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至3中任意一项所述的服务器集群的恢复方法。
CN202311678666.8A 2023-12-08 2023-12-08 一种服务器集群的恢复方法、装置、设备及存储介质 Active CN117370066B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311678666.8A CN117370066B (zh) 2023-12-08 2023-12-08 一种服务器集群的恢复方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311678666.8A CN117370066B (zh) 2023-12-08 2023-12-08 一种服务器集群的恢复方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN117370066A CN117370066A (zh) 2024-01-09
CN117370066B true CN117370066B (zh) 2024-03-15

Family

ID=89400735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311678666.8A Active CN117370066B (zh) 2023-12-08 2023-12-08 一种服务器集群的恢复方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN117370066B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7730489B1 (en) * 2003-12-10 2010-06-01 Oracle America, Inc. Horizontally scalable and reliable distributed transaction management in a clustered application server environment
CN101821993A (zh) * 2007-10-15 2010-09-01 国际商业机器公司 对使用会话亲缘性的分布式环境中的故障恢复进行处理的方法和系统
CN105162632A (zh) * 2015-09-15 2015-12-16 浪潮集团有限公司 一种服务器集群故障自动处理系统
CN110502445A (zh) * 2019-08-29 2019-11-26 中国电子科技集团公司第十五研究所 软件故障严重等级判定方法及装置、模型训练方法及装置
CN111752759A (zh) * 2020-06-30 2020-10-09 重庆紫光华山智安科技有限公司 Kafka集群故障恢复方法、装置、设备及介质
CN113835918A (zh) * 2021-09-18 2021-12-24 济南浪潮数据技术有限公司 一种服务器故障分析方法及装置
CN116737444A (zh) * 2023-06-25 2023-09-12 山东日照发电有限公司 一种数据库服务器故障处理方法及系统
CN117148815A (zh) * 2023-07-26 2023-12-01 中国银行股份有限公司 无线控制器故障检测方法、装置和计算机设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8489995B2 (en) * 2008-03-18 2013-07-16 Rightscale, Inc. Systems and methods for efficiently managing and configuring virtual servers
US11675641B2 (en) * 2018-07-02 2023-06-13 Nec Corporation Failure prediction

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7730489B1 (en) * 2003-12-10 2010-06-01 Oracle America, Inc. Horizontally scalable and reliable distributed transaction management in a clustered application server environment
CN101821993A (zh) * 2007-10-15 2010-09-01 国际商业机器公司 对使用会话亲缘性的分布式环境中的故障恢复进行处理的方法和系统
CN105162632A (zh) * 2015-09-15 2015-12-16 浪潮集团有限公司 一种服务器集群故障自动处理系统
CN110502445A (zh) * 2019-08-29 2019-11-26 中国电子科技集团公司第十五研究所 软件故障严重等级判定方法及装置、模型训练方法及装置
CN111752759A (zh) * 2020-06-30 2020-10-09 重庆紫光华山智安科技有限公司 Kafka集群故障恢复方法、装置、设备及介质
CN113835918A (zh) * 2021-09-18 2021-12-24 济南浪潮数据技术有限公司 一种服务器故障分析方法及装置
CN116737444A (zh) * 2023-06-25 2023-09-12 山东日照发电有限公司 一种数据库服务器故障处理方法及系统
CN117148815A (zh) * 2023-07-26 2023-12-01 中国银行股份有限公司 无线控制器故障检测方法、装置和计算机设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Machinery Fault Diagnosis Based on Weighted 2D Fault Feature Extraction and Multi-level Information Fusion;Ziao Luo 等;《2020 International Conference on Sensing, Diagnostics, Prognostics, and Control (SDPC)》;20200807;第296-302页 *
基于最优效用的配电网多故障抢修任务分配策略;杨丽君 等;《电工技术学报》;20140630;第29卷(第6期);第263-270页 *

Also Published As

Publication number Publication date
CN117370066A (zh) 2024-01-09

Similar Documents

Publication Publication Date Title
CN115511136B (zh) 基于层次分析和故障树的设备故障辅助诊断方法及系统
CN111967620A (zh) 一种光伏组件诊断方法、装置、设备及可读存储介质
CN113704018A (zh) 应用运维数据处理方法、装置、计算机设备及存储介质
CN117370066B (zh) 一种服务器集群的恢复方法、装置、设备及存储介质
CN117041029A (zh) 网络设备故障处理方法、装置、电子设备及存储介质
CN115310562A (zh) 一种适用于极端状态的储能设备的故障预测模型生成方法
WO2019019429A1 (zh) 一种虚拟机异常检测方法、装置、设备及存储介质
CN113541985A (zh) 物联网故障诊断方法、模型的训练方法及相关装置
CN113110961B (zh) 设备异常检测方法、装置、计算机设备及可读存储介质
CN113518367A (zh) 5g网络切片下基于服务特征的故障诊断方法及系统
CN112418460A (zh) 工程车辆的故障诊断方法和故障诊断装置
CN111581883A (zh) 一种在自动化装置上进行负荷计算与预测的方法
CN115293549B (zh) 基于数字政务系统的智能化监督评价方法和系统
WO2022143923A1 (zh) 车用电池的健康状况评估方法、系统、电子设备和介质
CN112598334B (zh) 航电安全系数确定方法、装置、计算机设备及存储介质
CN111654401B (zh) 监控系统的网段切换方法、装置、终端和存储介质
CN112946421B (zh) 三相电网故障诊断方法、装置、计算机设备及存储介质
CN110633810B (zh) 一种确定装备维修间隔时间的方法、系统及电子设备
WO2022162060A1 (de) Big-data für fehlererkennung in batteriesystemen
CN109558258B (zh) 一种分布式系统根源故障定位的方法及装置
CN110928684A (zh) 多HiveServer2服务器场景下连接池的实现方法及系统
CN117435441B (zh) 一种基于日志数据的故障诊断方法及装置
CN113570566B (zh) 一种产品外观缺陷发展性认知检测方法及相关装置
DE102010024966A1 (de) Verfahren und Softwareprogrammprodukt zum Bestimmen einer Güte einer Informtionstechnischen Anlage
CN117313012A (zh) 服务编排系统的故障管理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant