CN112306831B - 计算集群错误预测方法及相关设备 - Google Patents

计算集群错误预测方法及相关设备 Download PDF

Info

Publication number
CN112306831B
CN112306831B CN202011160403.4A CN202011160403A CN112306831B CN 112306831 B CN112306831 B CN 112306831B CN 202011160403 A CN202011160403 A CN 202011160403A CN 112306831 B CN112306831 B CN 112306831B
Authority
CN
China
Prior art keywords
error type
error
computing cluster
probability
time interval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011160403.4A
Other languages
English (en)
Other versions
CN112306831A (zh
Inventor
崔坤磊
刘羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202011160403.4A priority Critical patent/CN112306831B/zh
Publication of CN112306831A publication Critical patent/CN112306831A/zh
Priority to PCT/CN2021/109424 priority patent/WO2022088806A1/zh
Priority to US18/246,818 priority patent/US20240054061A1/en
Application granted granted Critical
Publication of CN112306831B publication Critical patent/CN112306831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3419Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
    • G06F11/3423Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time where the assessed time is active or idle time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3419Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment by assessing time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/008Reliability or availability analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3457Performance evaluation by simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请实施例提供了一种计算集群错误预测方法及相关设备,可以低成本、高效地进行计算集群的错误预测。该方法包括:根据上述计算集群的历史信息对上述计算集群的错误类型进行分类;以预定时间为间隔,按照预设顺序统计并排列上述计算集群的每个上述错误类型的发生数量,其中,上述预设顺序为前一个错误类型会直接影响与其紧邻的下一个错误类型的发生;以上述预定时间为间隔,统计每个上述错误类型的发生概率和下一个时间间隔时每个错误类型的遗留概率;根据上述每个上述错误类型的发生概率和下一个时间间隔时每个上述错误类型的遗留概率,基于生长曲线函数模型对上述计算集群进行错误预测,以获得上述计算集群未来每个上述错误类型的发生数量。

Description

计算集群错误预测方法及相关设备
技术领域
本申请涉及计算集群技术领域,尤其涉及一种计算集群错误预测方法及相关设备。
背景技术
大规模科学计算需求的不断增长推动着超级计算机系统快速发展。随着计算机系统规模的增大,其组成部件不断增加、软硬件结构日益复杂、工作模式快速变化,用户数量日益增加,超级计算机系统平均无故障时间越来越短,可靠性问题日益突出。构成上述超级计算机系统的大型计算集群的集群管理和错误解决给集群管理员带来了巨大的挑战。
目前,计算集群的错误预测和管理解决方案是基于计算机集群各部件硬件功耗工况来统计分析集群的错误,但这种方法需要增加大量额外的硬件用于观测计量集群各节点芯片及整体的功耗,对于上万节点的计算集群这是一笔巨大的成本,同时也增加了计算集群实施的复杂度,对管理员也会增加额外的专业知识要求。
发明内容
本申请实施例提供了一种计算集群错误预测方法及相关设备,可以低成本、高效地进行计算集群的错误预测。
本申请实施例的第一方面提供了一种计算集群错误预测方法,包括:
根据所述计算集群的历史信息对所述计算集群的错误类型进行分类;
以预定时间为间隔,按照预设顺序统计并排列所述计算集群的每个所述错误类型的发生数量,其中,所述预设顺序为前一个错误类型会直接影响与其紧邻的下一个错误类型的发生;
以所述预定时间为间隔,统计每个所述错误类型的发生概率和下一个时间间隔时每个所述错误类型的遗留概率;
根据所述每个所述错误类型的发生概率和下一个时间间隔时每个所述错误类型的遗留概率,基于生长曲线函数模型对所述计算集群进行错误预测,以获得所述计算集群未来每个所述错误类型的发生数量。
可选地,所述错误类型包括:基础错误类、硬件错误及异常、系统级错误及异常、应用异常和节点异常,其中,前一个错误类型会直接影响与其紧邻的下一个错误类型的发生。
可选地,所述错误类型的遗留概率为所述错误类型的错误未能在当前时间间隔内解决,从而遗留到下一个时间间隔的概率,所述错误类型遗留到下一个时间间隔错误会对下一个时间间隔内与所述错误类型紧邻的下一个错误类型的发生造成直接影响。
可选地,所述根据所述每个所述错误类型的发生概率和下一个时间间隔时每个所述错误类型的遗留概率,基于生长曲线函数模型对所述计算集群进行错误预测,以获得所述计算集群未来每个所述错误类型的发生数量,具体包括:
根据所述每个所述错误类型的发生概率和下一个时间间隔时每个所述错误类型的遗留概率,基于生长曲线函数模型矩阵对所述计算集群进行错误预测,以获得所述计算集群未来每个所述错误类型的发生数量。
可选地,所述时间间隔为1周。
可选的,所述计算集群的历史信息的统计窗口期为1年。
可选的,所述根据所述每个所述错误类型的发生概率和下一个时间间隔时每个所述错误类型的遗留概率,基于生长曲线函数模型对所述计算集群进行错误预测,以获得所述计算集群未来每个所述错误类型的发生数量之前,所述方法还包括:
更新所述每个所述错误类型的发生概率和下一个时间间隔时每个所述错误类型的遗留概率。
本申请实施例第二方面提供了一种计算集群错误预测装置,包括:
分类单元,用于根据所述计算集群的历史信息对所述计算集群的错误类型进行分类;
排序单元,用于以预定时间为间隔,按照预设顺序统计并排列所述计算集群的每个所述错误类型的发生数量,其中,所述预设顺序为前一个错误类型会直接影响与其紧邻的下一个错误类型的发生;
统计单元,用于以所述预定时间为间隔,统计每个所述错误类型的发生概率和下一个时间间隔时每个所述错误类型的遗留概率;
预测单元,用于根据所述每个所述错误类型的发生概率和下一个时间间隔时每个所述错误类型的遗留概率,基于生长曲线函数模型对所述计算集群进行错误预测,以获得所述计算集群未来每个所述错误类型的发生数量。
本申请实施例第三方面提供了一种电子设备,包括存储器、处理器,所述处理器用于执行存储器中存储的计算机程序时实现上述的计算集群错误预测方法的步骤。
本申请实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的计算集群错误预测方法的步骤。
综上,本申请实施例提供的计算集群错误预测方法,通过根据上述计算集群的历史信息对上述计算集群的错误类型进行分类;以预定时间为间隔,按照预设顺序统计并排列上述计算集群的每个上述错误类型的发生数量,其中,上述预设顺序为前一个错误类型会直接影响与其紧邻的下一个错误类型的发生;以上述预定时间为间隔,统计每个上述错误类型的发生概率和下一个时间间隔时每个所述错误类型的遗留概率;根据上述每个上述错误类型的发生概率和下一个时间间隔时每个上述错误类型的遗留概率,基于生长曲线函数模型对上述计算集群进行错误预测,以获得上述计算集群未来每个上述错误类型的发生数量。利用计算集群各个错误类型存在的层次性的前后相关关系对计算集群历史的错误类型进行统计,并结合生长曲线函数模型进而对上述计算集群进行高效地错误预测,以便计算集群管理员根据预测结果提前做出预防措施,并且,由于上述方案无需借助其他硬件设施,能够极大的降低预测成本。
相应地,本发明实施例提供的电子设备和计算机可读存储介质,也同样具有上述技术效果。
附图说明
图1为本申请实施例提供的一种可能的计算集群错误预测方法的流程示意图;
图2为本申请实施例提供的一种可能的计算集群错误预测装置的示意性结构框图;
图3为本申请实施例提供的一种可能的计算集群错误预测装置的硬件结构示意图;
图4为本申请实施例提供的一种可能的电子设备的示意性结构框图;
图5为本申请实施例提供的一种可能的计算机可读存储介质的示意性结构框图。
具体实施方式
本申请实施例提供了一种计算集群错误预测方法及相关设备,可以低成本、高效地进行计算集群的错误预测。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。
请参阅图1,为本申请实施例提供的一种计算集群错误预测方法的流程图,具体可以包括:S110-S140。
S110,根据计算集群的历史信息对计算集群的错误类型进行分类。
需要说明的是,由于一个错误不可能是孤立的,其必然有导致错误发生的原因,该错误的发生也必然会有一定的后续不利影响,因此,对已知的计算集群的错误类型分类时要关注错误类型前后因果关系,一个错误类型中的错误或异常,如果不及时解决会直接导致或加剧其后续错误类型发生的概率,并且既然该错误类型中的错误或异常既然已经发生,那么或多或少都已经对前面最基础的错误类造成了不利影响。可见,计算集群的错误符合生长曲线函数模型。
示例性的,上述计算集群的历史信息的统计窗口期可以为1年。为了获得足够的数据样本,这个统计窗口期需要是一个比较长的时间,可以是1年、2年或更长时间,当然如果数据条件有限,也可以选取相对较短的时间。
S120,以预定时间为间隔,按照预设顺序统计并排列上述计算集群的每个上述错误类型的发生数量,其中,上述预设顺序为前一个错误类型会直接影响与其紧邻的下一个错误类型的发生。
在一些示例中,统计的各错误类型的错误发生数量可以表示为:x=(x1,x2,…xn)T,即为各错误类型分布向量,其中,各错误类型排列是有顺序的,xn类的错误会直接影响xn+1类错误,即前一个错误类会直接影响与其紧邻的下一个错误类型的发生情况。
示例性的,可以取1周为统计时间间隔,周期数记为k,即每一周观察统计一次,不考虑同一时间间隔内的变化,可以将时间离散化。初始时间设为0,那么,错误类型随时间变化的错误分布向量可以记为x(k)=(x1 (k),x2 (k),…xn (k))T
S130,以上述预定时间为间隔,统计每个上述错误类型的发生概率和下一个时间间隔时每个上述错误类型的遗留概率。
示例性的,以1周为时间间隔,综合统计窗口期内所有时间间隔周期,计算出每个错误类xi的发生概率,记为ai(ai>=0)。另外,以1周为时间间隔,综合统计窗口期内所有时间间隔周期,计算出到下一个时间间隔时每个错误类xi的遗留概率,记为bi(bi>=0)。
在一些示例中,上述错误类型的遗留概率为上述错误类型的错误未能在当前时间间隔内解决,从而遗留到下一个时间间隔的概率,上述错误类型遗留到下一个时间间隔错误会对下一个时间间隔内与上述错误类型紧邻的下一个错误类型的发生造成直接影响。例如,因各种原因第i类错误未能在当前时间间隔内解决,从而遗留到下一个时间间隔,遗留下的错误会对下一个时间间隔内的第i+1类错误造成直接影响。
S140,根据上述每个上述错误类型的发生概率和下一个时间间隔时每个上述错误类型的遗留概率,基于生长曲线函数模型对上述计算集群进行错误预测,以获得上述计算集群未来每个上述错误类型的发生数量。
示例性的,可以认为k时第一类错误x1的数量受k-1时所有错误类型的间接影响,其总数可以估算为:
x1 (k)=a1x1 (k-1)+a2x2 (k-1)+…+anxn (k-1)
同时,k时第i+1类错误数xi+1 (k)是k-1时第x组错误经k个周期累积,可以由下式表示:
xi+1 (k)=bixi (k-1),i=1,2,…n-1
可以通过矩阵将上述两式表示为:
Figure BDA0002744014630000061
Figure BDA0002744014630000062
则有xk=Lkx0
其中,矩阵L可称为生长曲线函数模型矩阵,从而计算出k周期后各错误类型的错误数量。
综上,上述实施例提供的计算集群错误预测方法,通过根据上述计算集群的历史信息对上述计算集群的错误类型进行分类;以预定时间为间隔,按照预设顺序统计并排列上述计算集群的每个上述错误类型的发生数量,其中,上述预设顺序为前一个错误类型会直接影响与其紧邻的下一个错误类型的发生;以上述预定时间为间隔,统计每个上述错误类型的发生概率和下一个时间间隔时每个所述错误类型的遗留概率;根据上述每个上述错误类型的发生概率和下一个时间间隔时每个上述错误类型的遗留概率,基于生长曲线函数模型对上述计算集群进行错误预测,以获得上述计算集群未来每个上述错误类型的发生数量。利用计算集群各个错误类型存在的层次性的前后相关关系对计算集群历史的错误类型进行统计,并结合生长曲线函数模型进而对上述计算集群进行高效地错误预测,以便计算集群管理员根据预测结果提前做出预防措施,并且,由于上述方案无需借助其他硬件设施,能够极大的降低预测成本。
根据一些实施例,上述错误类型可以包括:基础错误类、硬件错误及异常、系统级错误及异常、应用异常和节点异常,其中,前一个错误类型会直接影响与其紧邻的下一个错误类型的发生。
其中,基础错误类可以是机器整体电气特性弱化、零部件加速老化(由散热、灰尘、电源异常、主要硬件零部件异常、系统异常、应用异常导致的过度使用),以及未详尽叙述的可被包含在此类中的错误及异常;
硬件错误及异常可以包括内存读取错误、CPU核心死锁、电源异常、网卡异常、硬盘异常等与主要零部件相关的硬件错误或异常等,以及未详尽叙述的可被包含在此类中的错误及异常;
系统级错误及异常可以包括系统服务异常、系统内核bug、集群调度系统异常、系统对硬件资源的管理异常,以及未详尽叙述的可被包含在此类中的错误及异常;
应用异常可以包括应用异常导致单一系统资源的大量占用、应用调用的库不能及时释放系统资源、僵尸进程,以及未详尽叙述的可被包含在此类中的错误及异常;
节点异常可以包括节点整体不能正常工作。
根据一些实施例,上述根据上述每个所述错误类型的发生概率和下一个时间间隔时每个上述错误类型的遗留概率,基于生长曲线函数模型对所述计算集群进行错误预测,以获得上述计算集群未来每个上述错误类型的发生数量之前,上述方法还包括:
更新上述每个上述错误类型的发生概率和下一个时间间隔时每个上述错误类型的遗留概率。由于各错误类型的错误发生概率ai和遗留概率bi可以随统计周期k实际的统计数据动态调整,能够提高错误预测的准确性。
上面对本申请实施例中计算集群错误预测方法进行了描述,下面对本申请实施例中的计算集群错误预测装置进行描述。
请参阅图2,本申请实施例中计算集群错误预测装置的一个实施例,可以包括:
分类单元201,用于根据计算集群的历史信息对计算集群的错误类型进行分类;
排序单元202,用于以预定时间为间隔,按照预设顺序统计并排列上述计算集群的每个上述错误类型的发生数量,其中,上述预设顺序为前一个错误类型会直接影响与其紧邻的下一个错误类型的发生;
统计单元203,用于以上述预定时间为间隔,统计每个上述错误类型的发生概率和下一个时间间隔时每个上述错误类型的遗留概率;
预测单元204,用于根据上述每个上述错误类型的发生概率和下一个时间间隔时每个上述错误类型的遗留概率,基于生长曲线函数模型对上述计算集群进行错误预测,以获得上述计算集群未来每个上述错误类型的发生数量。
综上,上述实施例提供的计算集群错误预测装置,通过根据上述计算集群的历史信息对上述计算集群的错误类型进行分类;以预定时间为间隔,按照预设顺序统计并排列上述计算集群的每个上述错误类型的发生数量,其中,上述预设顺序为前一个错误类型会直接影响与其紧邻的下一个错误类型的发生;以上述预定时间为间隔,统计每个上述错误类型的发生概率和下一个时间间隔时每个所述错误类型的遗留概率;根据上述每个上述错误类型的发生概率和下一个时间间隔时每个上述错误类型的遗留概率,基于生长曲线函数模型对上述计算集群进行错误预测,以获得上述计算集群未来每个上述错误类型的发生数量。利用计算集群各个错误类型存在的层次性的前后相关关系对计算集群历史的错误类型进行统计,并结合生长曲线函数模型进而对上述计算集群进行高效地错误预测,以便计算集群管理员根据预测结果提前做出预防措施,并且,由于上述方案无需借助其他硬件设施,能够极大的降低预测成本。
上面图2从模块化功能实体的角度对本申请实施例中的计算集群错误预测装置进行了描述,下面从硬件处理的角度对本申请实施例中的计算集群错误预测装置进行详细描述,请参阅图3,本申请实施例中的计算集群错误预测装置300一个实施例,包括:
输入装置301、输出装置302、处理器303和存储器304,其中,处理器303的数量可以一个或多个,图3中以一个处理器303为例。在本申请的一些实施例中,输入装置301、输出装置502、处理器303和存储器304可通过总线或其它方式连接,其中,图3中以通过总线连接为例。
其中,通过调用存储器304存储的操作指令,处理器303,用于执行如下步骤:
根据上述计算集群的历史信息对上述计算集群的错误类型进行分类;
以预定时间为间隔,按照预设顺序统计并排列上述计算集群的每个上述错误类型的发生数量,其中,上述预设顺序为前一个错误类型会直接影响与其紧邻的下一个错误类型的发生;
以上述预定时间为间隔,统计每个上述错误类型的发生概率和下一个时间间隔时每个所述错误类型的遗留概率;
根据上述每个上述错误类型的发生概率和下一个时间间隔时每个上述错误类型的遗留概率,基于生长曲线函数模型对上述计算集群进行错误预测,以获得上述计算集群未来每个上述错误类型的发生数量。
通过调用存储器304存储的操作指令,处理器303,还用于执行图1对应的实施例中的任一方式。
请参阅图4,图4为本申请实施例提供的电子设备的实施例示意图。
如图4所示,本申请实施例提供了一种电子设备,包括存储器410、处理器420及存储在存储器420上并可在处理器420上运行的计算机程序411,处理器420执行计算机程序411时实现以下步骤:
根据上述计算集群的历史信息对上述计算集群的错误类型进行分类;
以预定时间为间隔,按照预设顺序统计并排列上述计算集群的每个上述错误类型的发生数量,其中,上述预设顺序为前一个错误类型会直接影响与其紧邻的下一个错误类型的发生;
以上述预定时间为间隔,统计每个上述错误类型的发生概率和下一个时间间隔时每个上述错误类型的遗留概率;
根据上述每个上述错误类型的发生概率和下一个时间间隔时每个上述错误类型的遗留概率,基于生长曲线函数模型对上述计算集群进行错误预测,以获得上述计算集群未来每个上述错误类型的发生数量。
在具体实施过程中,处理器420执行计算机程序411时,可以实现图1对应的实施例中任一实施方式。
由于本实施例所介绍的电子设备为实施本申请实施例中一种计算集群错误预测装置所采用的设备,故而基于本申请实施例中所介绍的方法,本领域所属技术人员能够了解本实施例的电子设备的具体实施方式以及其各种变化形式,所以在此对于该电子设备如何实现本申请实施例中的方法不再详细介绍,只要本领域所属技术人员实施本申请实施例中的方法所采用的设备,都属于本申请所欲保护的范围。
请参阅图5,图5为本申请实施例提供的一种计算机可读存储介质的实施例示意图。
如图5所示,本实施例提供了一种计算机可读存储介质500,其上存储有计算机程序511,该计算机程序511被处理器执行时实现如下步骤:
根据上述计算集群的历史信息对上述计算集群的错误类型进行分类;
以预定时间为间隔,按照预设顺序统计并排列上述计算集群的每个上述错误类型的发生数量,其中,上述预设顺序为前一个错误类型会直接影响与其紧邻的下一个错误类型的发生;
以上述预定时间为间隔,统计每个上述错误类型的发生概率和下一个时间间隔时每个上述错误类型的遗留概率;
根据上述每个上述错误类型的发生概率和下一个时间间隔时每个上述错误类型的遗留概率,基于生长曲线函数模型对上述计算集群进行错误预测,以获得上述计算集群未来每个上述错误类型的发生数量。
在具体实施过程中,该计算机程序511被处理器执行时可以实现图1对应的实施例中任一实施方式。
需要说明的是,在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机软件指令,当计算机软件指令在处理设备上运行时,使得处理设备执行如图1对应实施例中的计算集群错误预测方法中的流程。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修该,或者对其中部分技术特征进行等同替换;而这些修该或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (9)

1.一种计算集群错误预测方法,其特征在于,包括:
根据所述计算集群的历史信息对所述计算集群的错误类型进行分类;
以预定时间为间隔,按照预设顺序统计并排列所述计算集群的每个所述错误类型的发生数量,其中,所述预设顺序为前一个错误类型会直接影响与其紧邻的下一个错误类型的发生;
以所述预定时间为间隔,统计每个所述错误类型的发生概率和下一个时间间隔时每个所述错误类型的遗留概率,其中,所述错误类型的遗留概率为所述错误类型的错误未能在当前时间间隔内解决,从而遗留到下一个时间间隔的概率,所述错误类型遗留到下一个时间间隔错误会对下一个时间间隔内与所述错误类型紧邻的下一个错误类型的发生造成直接影响;
根据所述每个所述错误类型的发生概率和下一个时间间隔时每个所述错误类型的遗留概率,基于生长曲线函数模型对所述计算集群进行错误预测,以获得所述计算集群未来每个所述错误类型的发生数量。
2.根据权利要求1所述的方法,其特征在于,所述错误类型包括:基础错误类、硬件错误及异常、系统级错误及异常、应用异常和节点异常,其中,前一个错误类型会直接影响与其紧邻的下一个错误类型的发生。
3.根据权利要求1所述的方法,其特征在于,所述根据所述每个所述错误类型的发生概率和下一个时间间隔时每个所述错误类型的遗留概率,基于生长曲线函数模型对所述计算集群进行错误预测,以获得所述计算集群未来每个所述错误类型的发生数量,具体包括:
根据所述每个所述错误类型的发生概率和下一个时间间隔时每个所述错误类型的遗留概率,基于生长曲线函数模型矩阵对所述计算集群进行错误预测,以获得所述计算集群未来每个所述错误类型的发生数量。
4.根据权利要求1所述的方法,其特征在于,所述时间间隔为1周。
5.根据权利要求1所述的方法,其特征在于,所述计算集群的历史信息的统计窗口期为1年。
6.根据权利要求1所述的方法,其特征在于,所述根据所述每个所述错误类型的发生概率和下一个时间间隔时每个所述错误类型的遗留概率,基于生长曲线函数模型对所述计算集群进行错误预测,以获得所述计算集群未来每个所述错误类型的发生数量之前,所述方法还包括:
更新所述每个所述错误类型的发生概率和下一个时间间隔时每个所述错误类型的遗留概率。
7.一种计算集群错误预测装置,其特征在于,包括:
分类单元,用于根据所述计算集群的历史信息对所述计算集群的错误类型进行分类;
排序单元,用于以预定时间为间隔,按照预设顺序统计并排列所述计算集群的每个所述错误类型的发生数量,其中,所述预设顺序为前一个错误类型会直接影响与其紧邻的下一个错误类型的发生;
统计单元,用于以所述预定时间为间隔,统计每个所述错误类型的发生概率和下一个时间间隔时每个所述错误类型的遗留概率,其中,所述错误类型的遗留概率为所述错误类型的错误未能在当前时间间隔内解决,从而遗留到下一个时间间隔的概率,所述错误类型遗留到下一个时间间隔错误会对下一个时间间隔内与所述错误类型紧邻的下一个错误类型的发生造成直接影响;
预测单元,用于根据所述每个所述错误类型的发生概率和下一个时间间隔时每个所述错误类型的遗留概率,基于生长曲线函数模型对所述计算集群进行错误预测,以获得所述计算集群未来每个所述错误类型的发生数量。
8.一种电子设备,包括存储器、处理器,其特征在于,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至6中任一项所述的计算集群错误预测方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的计算集群错误预测方法的步骤。
CN202011160403.4A 2020-10-27 2020-10-27 计算集群错误预测方法及相关设备 Active CN112306831B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202011160403.4A CN112306831B (zh) 2020-10-27 2020-10-27 计算集群错误预测方法及相关设备
PCT/CN2021/109424 WO2022088806A1 (zh) 2020-10-27 2021-07-30 计算集群错误预测方法及相关设备
US18/246,818 US20240054061A1 (en) 2020-10-27 2021-07-30 Method For Predicting Computing Cluster Error And Related Device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011160403.4A CN112306831B (zh) 2020-10-27 2020-10-27 计算集群错误预测方法及相关设备

Publications (2)

Publication Number Publication Date
CN112306831A CN112306831A (zh) 2021-02-02
CN112306831B true CN112306831B (zh) 2022-12-27

Family

ID=74330688

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011160403.4A Active CN112306831B (zh) 2020-10-27 2020-10-27 计算集群错误预测方法及相关设备

Country Status (3)

Country Link
US (1) US20240054061A1 (zh)
CN (1) CN112306831B (zh)
WO (1) WO2022088806A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112306831B (zh) * 2020-10-27 2022-12-27 苏州浪潮智能科技有限公司 计算集群错误预测方法及相关设备
CN118277898B (zh) * 2024-04-03 2024-10-11 深圳市典信科技有限公司 一种基于预制标签的资产管理系统及方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760287A (zh) * 2016-02-19 2016-07-13 浪潮(北京)电子信息产业有限公司 一种计算机系统错误的预测方法及装置
CN109960690A (zh) * 2019-03-18 2019-07-02 新华三大数据技术有限公司 一种大数据集群的运行维护方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7484132B2 (en) * 2005-10-28 2009-01-27 International Business Machines Corporation Clustering process for software server failure prediction
CN108038040B (zh) * 2017-12-08 2021-05-11 上海市信息网络有限公司 计算机集群性能指标检测方法、电子设备及存储介质
CN108932559A (zh) * 2018-05-31 2018-12-04 上海埃威航空电子有限公司 航空系统地面监管集群综合性能评价方法和系统
CN112306831B (zh) * 2020-10-27 2022-12-27 苏州浪潮智能科技有限公司 计算集群错误预测方法及相关设备

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105760287A (zh) * 2016-02-19 2016-07-13 浪潮(北京)电子信息产业有限公司 一种计算机系统错误的预测方法及装置
CN109960690A (zh) * 2019-03-18 2019-07-02 新华三大数据技术有限公司 一种大数据集群的运行维护方法及装置

Also Published As

Publication number Publication date
CN112306831A (zh) 2021-02-02
US20240054061A1 (en) 2024-02-15
WO2022088806A1 (zh) 2022-05-05

Similar Documents

Publication Publication Date Title
KR102522005B1 (ko) 가상 네트워크 관리를 위한 머신 러닝 기반 vnf 이상 탐지 시스템 및 방법
US10579459B2 (en) Log events for root cause error diagnosis
US8291056B2 (en) Method and apparatus for performance and policy analysis in distributed computing systems
US11372841B2 (en) Anomaly identification in log files
US10878335B1 (en) Scalable text analysis using probabilistic data structures
US20160055044A1 (en) Fault analysis method, fault analysis system, and storage medium
US9836298B2 (en) Deployment rule system
WO2013042789A1 (ja) 運用管理装置、運用管理方法、及びプログラム
CN112306831B (zh) 计算集群错误预测方法及相关设备
Di Martino et al. Assessing time coalescence techniques for the analysis of supercomputer logs
CN109992473B (zh) 应用系统的监控方法、装置、设备及存储介质
CN107924360A (zh) 计算系统中的诊断框架
Martino et al. Logdiver: A tool for measuring resilience of extreme-scale systems and applications
Di et al. Exploring properties and correlations of fatal events in a large-scale hpc system
US11449407B2 (en) System and method for monitoring computing platform parameters and dynamically generating and deploying monitoring packages
CN102112940A (zh) 用于对电力输送控制系统的性能进行监控的方法和装置
Furlani et al. Using XDMoD to facilitate XSEDE operations, planning and analysis
Rojas et al. Analyzing a five-year failure record of a leadership-class supercomputer
Ali et al. [Retracted] Classification and Prediction of Software Incidents Using Machine Learning Techniques
Guan et al. Efficient and accurate anomaly identification using reduced metric space in utility clouds
Mesbahi et al. Dependability analysis for characterizing Google cluster reliability
US20180129963A1 (en) Apparatus and method of behavior forecasting in a computer infrastructure
Simakov et al. Application kernels: HPC resources performance monitoring and variance analysis
CN117435335A (zh) 算力调度方法、装置、计算机设备和存储介质
Mesbahi et al. Cloud dependability analysis: Characterizing Google cluster infrastructure reliability

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant