CN114726713A - 节点故障模型训练方法、检测方法、设备、介质及产品 - Google Patents

节点故障模型训练方法、检测方法、设备、介质及产品 Download PDF

Info

Publication number
CN114726713A
CN114726713A CN202210199236.7A CN202210199236A CN114726713A CN 114726713 A CN114726713 A CN 114726713A CN 202210199236 A CN202210199236 A CN 202210199236A CN 114726713 A CN114726713 A CN 114726713A
Authority
CN
China
Prior art keywords
node
sampling
target
data
fault
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210199236.7A
Other languages
English (en)
Other versions
CN114726713B (zh
Inventor
王雨农
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202210199236.7A priority Critical patent/CN114726713B/zh
Publication of CN114726713A publication Critical patent/CN114726713A/zh
Application granted granted Critical
Publication of CN114726713B publication Critical patent/CN114726713B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0823Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability
    • H04L41/0836Configuration setting characterised by the purposes of a change of settings, e.g. optimising configuration for enhancing reliability to enhance reliability, e.g. reduce downtime
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本公开实施例公开了一种节点故障模型训练方法、检测方法、设备、介质及产品,所述方法包括:获取采样节点在采样时刻前的采样可纠正错误(CE)数据、采样节点在采样时刻后的采样故障数据以及采样节点的采样静态配置信息;根据采样静态配置信息以及采样CE数据进行特征提取,以获取采样CE特征;获取待采样节点故障模型,并将采样CE特征作为输入,将节点故障数据作为输出,对待采样节点故障模型进行训练,以获取目标节点故障模型。该方案可以获取用于对相应节点是否发生节点故障进行预测的目标节点故障模型,提高了预测节点是否会发生故障的准确率,以便对节点实施故障应对措施,有助于提高节点的可靠性。

Description

节点故障模型训练方法、检测方法、设备、介质及产品
技术领域
本公开涉及网络技术领域,具体涉及节点故障模型训练方法、检测方法、设备、介质及产品。
背景技术
随着计算机技术的不断发展,人们在日常生活中可以通过具有数据处理功能的节点例如计算机、服务器等获取分别丰富的资源,节点的硬件组成通常包括运算器、控制器、存储器、输入设备和输出设备,其中,存储器可以被分为内存和外存,内存一般用来存放节点当前正在使用的,或随时要用的程序、数据等。当内存出现错误或故障时,可能会导致节点出现不响应或宕机,即出现节点故障。目前,可以基于错误检查和纠正(ErrorCorrecting Code,ECC)技术对节点内存中的错误进行检查和纠正。其中,当内存出现可纠正错误(Correctable Error,CE)时,可基于ECC技术对其进行纠正;而当内存出现不可纠正错误(Uncorrectable Error,UCE),即超出ECC纠错能力的内存错误时,会导致系统不响应或系统崩溃,进而导致出现节点故障。因此,为了避免因出现节点故障而导致节点上正常运行的程序受到影响,需要预测将来一段时间内是否会出现节点故障,以便于执行相应的故障应对措施。
在相关技术中,可以从节点的相应日志中获取与UCE相关的数据,并根据该数据进行分析,以确定未来一段时间内是否会出现UCE,以便于根据分析结果确定是否需要执行相应的故障应对措施。
虽然上述方案能够对UCE的出现进行预测,但随着云服务、云计算的日益兴起,用户的应用程序越来越多的部署在云计算系统上,由于云计算环境较为复杂,因此云计算系统中的节点即使在未出现UCE时,也可能因节点中内存出现其他类型的错误或故障而导致出现节点故障。因此,如何准确预测节点故障,成为了亟待解决的问题。
发明内容
为了解决相关技术中的问题,本公开实施例提供了节点故障模型训练方法、检测方法、设备、介质及产品。
第一方面,本公开实施例中提供了一种节点故障模型训练方法,所述方法,包括:
获取采样节点在采样时刻前的采样可纠正错误(CE)数据、采样节点在采样时刻后的采样故障数据以及采样节点的采样静态配置信息,采样CE数据包括至少一次CE的CE发生时间以及至少一次CE的CE发生内存地址;
根据采样静态配置信息以及采样CE数据进行特征提取,以获取采样CE特征;
获取待采样节点故障模型,并将采样CE特征作为输入,将节点故障数据作为输出,对待采样节点故障模型进行训练,以获取目标节点故障模型。
结合第一方面,本公开在第一方面的第一种实现方式中,采样CE特征包括根据采样静态配置信息提取的静态配置特征、根据采样CE数据中的CE发生时间提取的CE时序特征以及根据采样CE数据中的CE发生内存地址提取的CE空间特征。
结合第一方面的第一种实现方式,本公开在第一方面的第二种实现方式中,CE时序特征,是通过滑窗方式以目标步长时长选取目标窗口时长内的CE发生时间,并基于至少一种时序特征提取算法,根据所选取的CE发生时间进行特征提取获取的。
结合第一方面的第一种实现方式,本公开在第一方面的第三种实现方式中,CE空间特征用于指示在同一个逻辑存储库(bank)内,出现第一目标次数CE的单元(cell)与其他单元中出现第二目标次数CE的单元之间的位置关系满足对应目标位置关系的次数。
第二方面,本公开实施例中提供了一种节点故障检测方法,方法包括:
获取目标节点的目标静态配置信息以及目标节点在当前时刻之前的目标检测时间长度内的检测CE数据,检测CE数据包括至少一次CE的CE发生时间以及至少一次CE的CE发生内存地址;
根据目标静态配置信息以及检测CE数据进行特征提取,以获取检测CE特征;
将检测CE特征输入目标节点故障模型,以获取目标节点故障模型输出的预测节点故障数据。
结合第二方面,本公开在第二方面的第一种实现方式中,目标节点故障模型为根据第一方面、第一方面的第一种实现方式至第三种实现方式中任一项的节点故障模型训练方法得到。
结合第二方面,本公开在第二方面的第二种实现方式中,方法还包括:
响应于根据预测节点故障数据确定目标节点在当前时刻之后出现节点故障,将目标节点上的虚拟机迁移到其他节点。
结合第二方面、第二方面的第一种实现方式至第二种实现方式中任一项,本公开在第二方面的第三种实现方式中,方法还包括:
响应于目标节点故障数据与预测节点故障数据不匹配,将检测CE特征作为输入,将目标节点故障数据作为输出,对目标节点故障模型进行训练,以获取更新后的目标节点故障模型。
结合第二方面、第二方面的第一种实现方式至第二种实现方式中任一项,本公开在第二方面的第四种实现方式中,方法还包括:
增加目标节点的负载,并获取增加负载后目标节点的负载节点故障数据;
响应于负载节点故障数据与预测节点故障数据不匹配,将目标CE特征作为输入,将负载节点故障数据作为输出,对目标节点故障模型进行训练,以获取更新后的目标节点故障模型。
第三方面,本公开实施例中提供了一种节点故障模型训练装置,所述装置包括:
第一数据获取模块,被配置为获取采样节点在采样时刻前的采样可纠正错误(CE)数据、采样节点在采样时刻后的采样故障数据以及采样节点的采样静态配置信息,采样CE数据包括至少一次CE的CE发生时间以及至少一次CE的CE发生内存地址;
第一特征提取模块,被配置为根据采样静态配置信息以及采样CE数据进行特征提取,以获取采样CE特征;
模型训练模块,被配置为获取待采样节点故障模型,并将采样CE特征作为输入,将节点故障数据作为输出,对待采样节点故障模型进行训练,以获取目标节点故障模型。
第四方面,本公开实施例中提供了一种节点故障检测装置,所述装置包括:
第二数据获取模块,被配置为获取目标节点的目标静态配置信息以及目标节点在当前时刻之前的目标检测时间长度内的检测CE数据,检测CE数据包括至少一次CE的CE发生时间以及至少一次CE的CE发生内存地址;
第二特征提取模块,被配置为根据目标静态配置信息以及检测CE数据进行特征提取,以获取检测CE特征;
故障检测模块,被配置为将检测CE特征输入目标节点故障模型,以获取目标节点故障模型输出的预测节点故障数据。
第五方面,本公开实施例中提供了一种电子设备,包括存储器和至少一个处理器;存储器用于存储一条或多条计算机指令,一条或多条计算机指令被至少一个处理器执行以实现第一方面、第一方面的第一种实现方式到第三种实现方式、第二方面、第二方面的第一种实现方式到第四种实现方式中任一项所述的方法步骤。
第六方面,本公开实施例中提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现第一方面、第一方面的第一种实现方式到第三种实现方式、第二方面、第二方面的第一种实现方式到第四种实现方式中任一项所述的方法步骤。
第七方面,本公开实施例中提供了一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时实现如第一方面、第一方面的第一种实现方式到第三种实现方式、第二方面、第二方面的第一种实现方式到第四种实现方式中任一项所述的方法步骤。
本公开实施例提供的技术方案可以包括以下有益效果:
根据本公开实施例提供的技术方案,通过获取采样节点在采样时刻前包括至少一次CE的CE发生时间以及至少一次CE的CE发生内存地址的采样可纠正错误(CE)数据、采样节点在采样时刻后的采样故障数据以及采样节点的采样静态配置信息,并根据采样静态配置信息以及采样CE数据进行特征提取,以获取采样CE特征。其中,由于采样CE数据能够反映采样节点在采样时刻前内存所发生的较轻微、能够被纠正的错误即CE的发生位置以及发生时间,采样静态配置信息能够反映采样节点自身不随时间改变的属性例如系统规格、节点性能参数等,采样故障数据能够反映采样节点在采样时刻后是否发生节点故障。考虑到训练节点在发生节点故障前一段时间内,即使所发生的CE不会导致训练节点初选系统不响应或系统崩溃,但仍会从侧面反映该训练节点运行时内存的不良状况,该不良状况若较为严重,则可能对节点故障的发生产生推动;同时采样静态配置信息也会对训练节点在内存频繁出现CE后一段时间内该训练节点是否发生故障产生一定的影响,因此通过获取待采样节点故障模型,并将采样CE特征作为输入,将节点故障数据作为输出,对待采样节点故障模型进行训练,以获取目标节点故障模型,可以使所获取的目标节点故障模型能够学习到采样节点自身静态配置信息、以及发生节点故障前一段时间内采样节点较为轻微的错误的数据,与该采样节点是否发生节点故障之间的规律,确保目标节点故障模型能够基于相应节点的自身静态配置信息以及该节点内存已发生的、较为轻微的错误的数据,对该节点在未来一段时间内是否发生节点故障进行预测,从而提高了预测节点是否会发生故障的准确率,以便对节点实施故障应对措施,有助于提高节点的可靠性。
根据本公开实施例提供的技术方案,通过使采样CE特征包括根据采样静态配置信息提取的静态配置特征、根据采样CE数据中的CE发生时间提取的CE时序特征以及根据采样CE数据中的CE发生内存地址提取的CE空间特征,可以在尽量不影响所获取的静态配置特征、CE时序特征以及CE空间特征的可分性的前提下,即使静态配置特征能够体现采样静态配置信息的分布状态、CE时序特征能够体现CE发生时间的分布状况、CE空间特征能够体现CE发生内存地址的分布状况的前提下,降低对待采样节点故障模型进行训练时所使用的数据的纬度,从而减少训练时所消耗的数据处理资源,提高了训练效率。
根据本公开实施例提供的技术方案,通过使CE时序特征是通过滑窗方式以目标步长时长选取目标窗口时长内的CE发生时间,并基于至少一种时序特征提取算法,根据所选取的CE发生时间进行特征提取获取的,可以在不增加采样CE数据中CE发生时间的数据量的前提下,增加所提取的CE时序特征的维度,确保通过CE时序特征可以提取更多的信息。
根据本公开实施例提供的技术方案,通过使CE空间特征用于指示在同一个逻辑存储库(bank)内,出现第一目标次数CE的单元(cell)与其他单元中出现第二目标次数CE的单元之间的位置关系满足对应目标位置关系的次数,可以在确保所获取的CE空间特征能够准确反映CE发生内存地址的分布状况的前提下,降低获取CE空间特征的难度,提高了训练的效率。
根据本公开实施例提供的技术方案,通过获取目标节点的目标静态配置信息以及目标节点在当前时刻之前的目标检测时间长度内的检测CE数据,根据目标静态配置信息以及检测CE数据进行特征提取,以获取检测CE特征,并将检测CE特征输入目标节点故障模型,以获取目标节点故障模型输出的预测节点故障数据,其中,由于检测CE数据能够反映目标节点在当前时刻前内存所发生的较轻微、能够被纠正的错误即CE的发生位置以及发生时间,目标静态配置信息能够反映目标节点自身不随时间改变的属性例如系统规格、节点性能参数等。考虑到目标节点若发生节点故障,则在发生节点故障前的一段时间内,即使所发生的CE不会导致目标节点出现系统不响应或系统崩溃,但仍会从侧面反映该训练节点运行时内存的不良状况,该不良状况若较为严重,则可能对节点故障的发生产生推动;同时目标静态配置信息也会对目标节点在内存频繁出现CE后一段时间内该目标节点是否发生故障产生一定的影响,因此通过根据目标静态配置信息以及检测CE数据进行特征提取,以获取检测CE特征,并将检测CE特征输入目标节点故障模型,以获取目标节点故障模型输出的预测节点故障数据,可以基于目标节点故障模型输出的预测节点故障数据,确定目标节点在当前时刻后的未来一段时间内是否发生节点故障,提高了预测节点是否会发生故障的准确率,便对节点实施故障应对措施,有助于提高节点的可靠性。
根据本公开实施例提供的技术方案,通过响应于根据预测节点故障数据确定目标节点在当前时刻之后出现节点故障,即在预测目标节点在未来可能出现节点故障时,将目标节点上的虚拟机迁移到其他节点,确保目标节点上的虚拟机的正常工作不受到影响,提高了虚拟机工作时的稳定性,改善了用户体验。
根据本公开实施例提供的技术方案,通过响应于目标节点故障数据与预测节点故障数据不匹配,即目标节点故障模型未能准确对节点故障进行准确预测时,将检测CE特征作为输入,将目标节点故障数据作为输出,对目标节点故障模型进行训练,以获取更新后的目标节点故障模型,可以确保更新后的目标节点故障模型能够学习到之前未能学习到的目标节点自身静态配置信息,该目标节点发生节点故障前一段时间内较为轻微的错误的数据,与该目标节点所发生节点故障之间的规律,使更新后的目标节点故障模型能够更为准确的预测节点是否会发生故障。
根据本公开实施例提供的技术方案,通过增加目标节点的负载,可以诱发目标节点可能出现的节点故障,其中由于目标节点上的虚拟机已被迁移到其他节点,因此即使目标节点出现节点故障,也不会影响任何虚拟机的正常工作。通过获取增加负载后目标节点的负载节点故障数据,响应于负载节点故障数据与预测节点故障数据不匹配,即目标节点故障模型未能准确对节点故障进行准确预测时,将目标CE特征作为输入,将负载节点故障数据作为输出,对目标节点故障模型进行训练,以获取更新后的目标节点故障模型,可以确保更新后的目标节点故障模型能够学习到之前未能学习到的目标节点自身静态配置信息、该目标节点发生节点故障前一段时间内较为轻微的错误的数据,与该目标节点所发生节点故障之间的规律,使更新后的目标节点故障模型能够更为准确的预测节点是否会发生故障。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本公开的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本公开一实施方式的节点故障模型训练方法的流程图。
图2示出根据本公开一实施方式的节点故障检测方法的流程图。
图3示出根据本公开一实施方式的节点故障处理系统的示意性框图。
图4示出根据本公开一实施方式的节点故障模型训练装置的结构框图。
图5示出根据本公开一实施方式的节点故障检测装置的结构框图。
图6示出根据本公开一实施方式的电子设备的结构框图。
图7是适于用来实现根据本公开一实施方式的方法的计算机系统的结构示意图。
具体实施方式
下文中,将参考附图详细描述本公开的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的标签、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他标签、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的标签可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
为了对节点故障进行预测,本公开发明人考虑了如下方案。
相关技术中,为了应对节点中内存可能出现的错误,可以在节点中基于ECC技术对内存中的错误进行检查和纠正,使得系统得以持续正常的操作,不致因错误而中断。示例性的,基于ECC技术可以纠正单个比特的错误和检测2个比特的错误,且计算速度较快。其中,当节点内存出现可纠正错误(Correctable Error,CE)时,可基于ECC技术对其进行纠正;而当节点内存出现不可纠正错误(Uncorrectable Error,UCE),即超出ECC纠错能力的内存错误时,会导致系统不响应或系统崩溃,进而导致出现节点故障。
为了对节点故障进行预测,相关技术中,可以通过从节点的相应日志中获取与UCE相关的数据,例如节点的风扇转速、每秒命令数、内存和网络带宽、节电和时钟频率以及温度等,并基于预先获得的算法根据所获取的数据进行分析,以确定节点内存在未来一段时间内是否会因出现UCE而导致出现节点故障,以便于根据分析结果确定是否需要执行相应的故障应对措施。
此方案的缺点:近年来,随着云服务、云计算的日益兴起,用户的应用程序越来越多的部署在云计算系统上,由于云计算环境较为复杂,因此云计算系统中的节点即使在未出现UCE时,也可能因内存出现其他类型的错误或故障而导致出现节点故障。示例性的,当节点内存在短时间内出现大量CE时,可以认为该节点出现了CE风暴,在这种状况下,需要占用节点较多的处理资源对CE进行纠错,从而可能导致节点系统出现中断或不响应,进而导致出现节点故障。因此上述方案无法准确的对节点故障进行预测。
考虑以上方案的缺点,本公开发明人提出了新的方案:该方案通过获取采样节点在采样时刻前包括至少一次CE的CE发生时间以及至少一次CE的CE发生内存地址的采样可纠正错误(CE)数据、采样节点在采样时刻后的采样故障数据以及采样节点的采样静态配置信息,并根据采样静态配置信息以及采样CE数据进行特征提取,以获取采样CE特征。其中,由于采样CE数据能够反映采样节点在采样时刻前内存所发生的较轻微、能够被纠正的错误即CE的发生位置以及发生时间,采样静态配置信息能够反映采样节点自身不随时间改变的属性例如系统规格、节点性能参数等,采样故障数据能够反映采样节点在采样时刻后是否发生节点故障。考虑到训练节点在发生节点故障前一段时间内,即使所发生的CE不会导致训练节点初选系统不响应或系统崩溃,但仍会从侧面反映该训练节点运行时内存的不良状况,该不良状况若较为严重,则可能对节点故障的发生产生推动;同时采样静态配置信息也会对训练节点在内存频繁出现CE后一段时间内该训练节点是否发生故障产生一定的影响,通过获取待采样节点故障模型,并将采样CE特征作为输入,将节点故障数据作为输出,对待采样节点故障模型进行训练,以获取目标节点故障模型,可以使所获取的目标节点故障模型能够学习到采样节点自身静态配置信息、以及发生节点故障前一段时间内采样节点较为轻微的错误的数据,与该采样节点所发生节点故障之间的规律,确保目标节点故障模型能够基于相应节点的自身静态配置信息以及该节点内存已发生的、较为轻微的错误的数据,对该节点在未来一段时间内是否发生节点故障进行预测,从而提高了预测节点是否会发生故障的准确率,以便对节点实施故障应对措施,有助于提高节点的可靠性。
为了解决上述问题,本公开提出节点故障模型训练方法、检测方法、设备、介质及产品。
图1示出根据本公开一实施方式的节点故障模型训练方法的流程图,如图1所示,节点故障模型训练方法包括步骤S101、S102、S103。
在步骤S101中,获取采样节点在采样时刻前的采样可纠正错误(CE)数据、采样节点在采样时刻后的采样故障数据以及采样节点的采样静态配置信息。
其中,采样CE数据包括至少一次CE的CE发生时间以及至少一次CE的CE发生内存地址。
在步骤S102中,根据采样静态配置信息以及采样CE数据进行特征提取,以获取采样CE特征。
在步骤S103中,获取待采样节点故障模型,并将采样CE特征作为输入,将节点故障数据作为输出,对待采样节点故障模型进行训练,以获取目标节点故障模型。
在本公开的一个实施例中,节点可以被理解为,承载有相应数据以及应用程序、具备数据处理功能的设备。节点可以包括但不限于个人电脑(personal computer,PC)、平板电脑、笔记本电脑、移动通讯终端、可穿戴设备、语音交互设备及服务器等。其中,服务器可以为独立的物理服务器,也可以为由多个物理服务器构成的服务器集群或者分布式系统,也可以为用于提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台中至少一项服务的云计算系统中的服务器。采样节点,可以被理解为预先采集了采样静态配置信息以及一段时间内CE数据以及采样故障数据的节点。
在本公开的一个实施例中,可纠正错误(Correctable Error,CE),可以被理解为在对应节点的内存中出现的错误,且该错误可以被基于错误检查和纠正(ErrorCorrecting Code,ECC)技术检查出来并纠正。
在本公开的一个实施例中,采样时刻可以被理解为,当前时刻之前的某一时刻,且在该采样时刻之前的第一采样时间区间采集了该采样节点CE数据,并在该采样时刻之后的第二采样时间区间采集了该采样节点的采样故障数据。
在本公开的一个实施例中,采样故障数据,可以被理解为用于指示采样节点是否出现了节点故障。进一步的,采样故障数据还可以包括采样节点出现节点故障的节点故障时间。
在本公开的一个实施例中,采样静态配置信息,可以被理解为用于指示采样节点的系统规格以及性能参数中至少一项,例如,采样静态配置信息可以包括采样节点的中心处理器(central processing unit,CPU)型号及性能参数、采样节点的内存空间大小、采样节点的操作系统版本号、节点所在集群的索引,其中节点所在集群的索引可以与节点所承载服务对应。
在本公开的一个实施例中,CE发生内存地址以及CE发生时间可以根据相应节点的日志获取。示例性的,CE发生内存地址可以根据相应节点的错误检测与校正(ErrorDetection And Correction,EDAC)日志获取。CE发生时间可以根据相应节点的机器检查异常(Machine Check Exception,MCE)日志获取。
在本公开的一个实施例中,CE发生内存地址,可以被理解为用于指示发生CE的内存单元(cell)的地址或位置,根据该CE发生内存地址可以确定对应的cell。示例性的,CE发生内存地址可以用于指示节点中某个双列直插式存储模块(Dual-Inline-Memory-Modules,DIMM)中的某个面(rank)中的某个动态随机存取存储器(Dynamic Random AccessMemory,DRAM)芯片中的某个逻辑存储库(bank)中的某个cell的行数(Rows)及列数(Columns)。
在本公开的一个实施例中,根据采样静态配置信息以及采样CE数据进行特征提取,可以为基于预先获取的算法,根据采样静态配置信息以及采样CE数据进行计算,以获取所提取的特征;也可以为基于预先获取的数据库,根据采样静态配置信息以及采样CE数据在该数据库中进行查找,以获取所提取的特征。需要说明的是,可以由采样节点进行特征提取,也可以由采样节点以外的其他装置或系统进行特征提取,本公开对此不作具体限制。
在本公开的一个实施例中,待采样节点故障模型,可以为长短期记忆网络(longshortterm memory,LSTM)模型、随机森林(Random forest,RF)模型、极端梯度提升(eXtreme Gradient Boosting,xgboost)模型、变换器(Transformer)模型等。待采样节点故障模型可以为预先获取的,也可以为相应节点从其他装置或系统处获取。
在本公开的一个实施例中,获取目标节点故障模型,可以被理解为当训练后的待采样节点故障模型收敛时,将该训练后的待采样节点故障模型作为目标节点故障模型。需要说明的是,可以由采样节点对待采样节点故障模型进行训练,也可以由除采样节点以外的其他装置或系统对待采样节点故障模型进行训练,本公开对此不作具体限制。
根据本公开实施例提供的技术方案,通过获取采样节点在采样时刻前包括至少一次CE的CE发生时间以及至少一次CE的CE发生内存地址的采样可纠正错误(CE)数据、采样节点在采样时刻后的采样故障数据以及采样节点的采样静态配置信息,并根据采样静态配置信息以及采样CE数据进行特征提取,以获取采样CE特征。其中,由于采样CE数据能够反映采样节点在采样时刻前内存所发生的较轻微、能够被纠正的错误即CE的发生位置以及发生时间,采样静态配置信息能够反映采样节点自身不随时间改变的属性例如系统规格、节点性能参数等,采样故障数据能够反映采样节点在采样时刻后是否发生节点故障。考虑到训练节点在发生节点故障前一段时间内,即使所发生的CE不会导致训练节点初选系统不响应或系统崩溃,但仍会从侧面反映该训练节点运行时内存的不良状况,该不良状况若较为严重,则可能对节点故障的发生产生推动;同时采样静态配置信息也会对训练节点在内存频繁出现CE后一段时间内该训练节点是否发生故障产生一定的影响,通过获取待采样节点故障模型,并将采样CE特征作为输入,将节点故障数据作为输出,对待采样节点故障模型进行训练,以获取目标节点故障模型,可以使所获取的目标节点故障模型能够学习到采样节点自身静态配置信息、以及发生节点故障前一段时间内采样节点较为轻微的错误的数据,与该采样节点是否发生节点故障之间的规律,确保目标节点故障模型能够基于相应节点的自身静态配置信息以及该节点内存已发生的、较为轻微的错误的数据,对该节点在未来一段时间内是否发生节点故障进行预测,从而提高了预测节点是否会发生故障的准确率,以便对节点实施故障应对措施,有助于提高节点的可靠性。
在本公开的一个实施例中,采样CE特征包括根据采样静态配置信息提取的静态配置特征、根据采样CE数据中的CE发生时间提取的CE时序特征以及根据采样CE数据中的CE发生内存地址提取的CE空间特征。
在本公开的一个实施例中,根据采样静态配置信息提取静态配置特征,根据CE发生时间提取CE时序特征,以及根据采样CE数据提取CE空间特征,均可以为基于预先获取的对应算法进行特征提取,也可以为向其他装置或系统发送相应的信息或数据,并接收其他装置或系统发送的相应特征。
根据本公开实施例提供的技术方案,通过使采样CE特征包括根据采样静态配置信息提取的静态配置特征、根据采样CE数据中的CE发生时间提取的CE时序特征以及根据采样CE数据中的CE发生内存地址提取的CE空间特征,可以在尽量不影响所获取的静态配置特征、CE时序特征以及CE空间特征的可分性的前提下,即使静态配置特征能够体现采样静态配置信息的分布状态、CE时序特征能够体现CE发生时间的分布状况、CE空间特征能够体现CE发生内存地址的分布状况的前提下,降低对待采样节点故障模型进行训练时所使用的数据的纬度,从而减少训练时所消耗的数据处理资源,提高了训练效率。
在本公开的一个实施例中,CE时序特征,是通过滑窗方式以目标步长时长选取目标窗口时长内的CE发生时间,并基于至少一种时序特征提取算法,根据所选取的CE发生时间进行特征提取获取的。
在本公开的一个实施例中,通过滑窗方式以目标步长时长选取目标窗口时长内的CE发生时间,可以理解为,按照目标步长时长以及目标窗口时长切分所获取的采样CE数据内的CE发生时间。示例性的,切分后的每段CE发生时间中最早的CE发生时间至最晚的CE发生时间之间的时间差可以为目标窗口时长,同时相邻两段CE发生时间之间,各自最早的CE发生时间之间的时间差可以为目标步长时长,或各自最晚的CE发生时间之间的时间差可以为目标步长时长。
在本公开的一个实施例中,目标窗口时长,可以理解为窗口时长集合中的任一种窗口时长,其中,窗口时长集合可以包括至少一个窗口时长。窗口时长集合可以为预先获取的,也可以从其他装置或系统处获取。需要说明的是,窗口时长集合中的窗口时长均小于或等于所获取的采样CE数据中最早的CE发生时间与所获取的采样CE数据中最晚的CE发生时间之间的时间差。
在本公开的一个实施例中,目标步长时长,可以理解为步长时长集合中的任一种步长时长,其中,步长时长集合可以包括至少一个步长时长。步长时长集合可以为预先获取的,也可以从其他装置或系统处获取。需要说明的是,步长时长集合中的步长时长均小于或等于所获取的采样CE数据中最早的CE发生时间与所获取的采样CE数据中最晚的CE发生时间之间的时间差。
在本公开的一个实施例中,时序特征提取算法,可以包括基于Sum算子的特征提取算法、基于diff算子的特征提取算法、基于delta算子的特征提取算法、基于标准平均误差(Standard,std)的特征提取算法、基于峰度(Kurtosis,kurt)的特征提取算法、基于偏度(skewness,skew)的特征提取算法等。
根据本公开实施例提供的技术方案,通过使CE时序特征是通过滑窗方式以目标步长时长选取目标窗口时长内的CE发生时间,并基于至少一种时序特征提取算法,根据所选取的CE发生时间进行特征提取获取的,可以在不增加采样CE数据中CE发生时间的数据量的前提下,增加所提取的CE时序特征的维度,确保通过CE时序特征可以提取更多的信息。
在本公开的一个实施例中,CE空间特征用于指示在同一个逻辑存储库(bank)内,出现第一目标次数CE的单元(cell)与其他单元中出现第二目标次数CE的单元之间的位置关系满足对应目标位置关系的次数。
在本公开的一个实施例中,第一目标次数可以为一次或多次。第二目标次数可以为一次或多次。满足对应目标位置关系,可以理解为用于指示同一Row的单元、同一Column的单元、相同bank的单元出现了第二目标次数CE。
示例性的,出现第一目标次数CE的单元(cell)与其他单元中出现第二目标次数CE的单元之间的位置关系满足对应目标位置关系,可以包括以下至少一种:
1)单元自身出现了一次CE,但相同Row的其他单元以及相同Column的其他单元均未出现CE;
2)单元自身出现了多次CE,但相同Row的其他单元以及相同Column的其他单元均未出现CE;
3)单元自身出现了一次CE,且与该单元相同Row的至少一个其他单元出现了一次CE,同时与该单元相同Column的至少一个其他单元出现了一次CE;
4)单元自身出现了多次CE,且与该单元相同Row的至少一个其他单元出现了多次CE,同时与该单元相同Column的一个单元出现了多次CE;
5)单元自身出现了一次CE,且与该单元相同Row的多个其他单元均出现了一次CE;
6)单元自身出现了一次CE,且与该单元相同Column的多个其他单元均出现了一次CE;
7)单元自身出现了一次CE,且与该单元相同Row的多个其他单元均出现了CE,其中多个其他单元中的至少一个单元出现了多次CE;
8)单元自身出现了一次CE,且与该单元相同Column的多个其他单元均出现了CE,其中多个其他单元中的至少一个单元出现了多次CE;
9)单元自身出现了多次CE,且与该单元不同Row且不同Column的多个其他单元均出现了多次CE。
根据本公开实施例提供的技术方案,通过使CE空间特征用于指示在同一个逻辑存储库(bank)内,出现第一目标次数CE的单元(cell)与其他单元中出现第二目标次数CE的单元之间的位置关系满足对应目标位置关系的次数,可以在确保所获取的CE空间特征能够准确反映CE发生内存地址的分布状况的前提下,降低获取CE空间特征的难度,提高了训练的效率。
图2示出根据本公开一实施方式的节点故障检测方法的流程图,如图2所示,节点故障检测方法包括步骤S201、S202、S203。
在步骤S201中,获取目标节点的目标静态配置信息以及目标节点在当前时刻之前的目标检测时间长度内的检测CE数据。
其中,检测CE数据包括至少一次CE的CE发生时间以及至少一次CE的CE发生内存地址。
在步骤S202中,根据目标静态配置信息以及检测CE数据进行特征提取,以获取检测CE特征。
在步骤S203中,将检测CE特征输入目标节点故障模型,以获取目标节点故障模型输出的预测节点故障数据。
在本公开的一个实施例中,目标静态配置信息,可以被理解为用于指示目标节点的系统规格以及性能参数中至少一项,例如,目标静态配置信息可以包括目标节点的中心处理器(central processing unit,CPU)型号及性能参数、目标节点的内存空间大小、目标节点的操作系统版本号、节点所在集群的索引,其中节点所在集群的索引可以与节点所承载服务对应。
在本公开的一个实施例中,根据目标静态配置信息以及检测CE数据进行特征提取,可以为基于预先获取的算法,根据目标静态配置信息以及检测CE数据进行计算,以获取所提取的特征;也可以为基于预先获取的数据库,根据目标静态配置信息以及检测CE数据在该数据库中进行查找,以获取所提取的特征。需要说明的是,可以由目标节点进行特征提取,也可以由目标节点以外的其他装置或系统进行特征提取,本公开对此不作具体限制。
根据本公开实施例提供的技术方案,通过获取目标节点的目标静态配置信息以及目标节点在当前时刻之前的目标检测时间长度内的检测CE数据,根据目标静态配置信息以及检测CE数据进行特征提取,以获取检测CE特征,并将检测CE特征输入目标节点故障模型,以获取目标节点故障模型输出的预测节点故障数据,其中,由于检测CE数据能够反映目标节点在当前时刻前内存所发生的较轻微、能够被纠正的错误即CE的发生位置以及发生时间,目标静态配置信息能够反映目标节点自身不随时间改变的属性例如系统规格、节点性能参数等。考虑到目标节点若发生节点故障,则在发生节点故障前的一段时间内,即使所发生的CE不会导致目标节点出现系统不响应或系统崩溃,但仍会从侧面反映该训练节点运行时内存的不良状况,该不良状况若较为严重,则可能对节点故障的发生产生推动;同时目标静态配置信息也会对目标节点在内存频繁出现CE后一段时间内该目标节点是否发生故障产生一定的影响,因此通过根据目标静态配置信息以及检测CE数据进行特征提取,以获取检测CE特征,并将检测CE特征输入目标节点故障模型,以获取目标节点故障模型输出的预测节点故障数据,可以基于目标节点故障模型输出的预测节点故障数据,确定目标节点在当前时刻后的未来一段时间内是否发生节点故障,提高了预测节点是否会发生故障的准确率,便对节点实施故障应对措施,有助于提高节点的可靠性。
在本公开的一个实施例中,目标节点故障模型为根据上述任一种目标节点故障模型训练方法得到。
在本公开的一个实施例中,所述方法还包括如下步骤:
响应于根据预测节点故障数据确定目标节点在当前时刻之后出现节点故障,将目标节点上的虚拟机迁移到其他节点。
根据本公开实施例提供的技术方案,通过响应于根据预测节点故障数据确定目标节点在当前时刻之后出现节点故障,即在预测目标节点在未来可能出现节点故障时,将目标节点上的虚拟机迁移到其他节点,确保目标节点上的虚拟机的正常工作不受到影响,提高了虚拟机工作时的稳定性,改善了用户体验。
在本公开的一个实施例中,所述方法还包括如下步骤:
响应于目标节点故障数据与预测节点故障数据不匹配,将检测CE特征作为输入,将目标节点故障数据作为输出,对目标节点故障模型进行训练,以获取更新后的目标节点故障模型。
在本公开的一个实施例中,目标节点故障数据与预测节点故障数据不匹配,可以理解为根据目标节点故障数据确定目标节点是否会发生故障的第一故障检测结果,与根据预测节点故障数据确定目标节点是否会发生故障的第二故障检测结果完全不同,或第一故障检测结果与第二故障检测结果的相似性不满足相似性条件。
根据本公开实施例提供的技术方案,通过响应于目标节点故障数据与预测节点故障数据不匹配,即目标节点故障模型未能准确对节点故障进行准确预测时,将检测CE特征作为输入,将目标节点故障数据作为输出,对目标节点故障模型进行训练,以获取更新后的目标节点故障模型,可以确保更新后的目标节点故障模型能够学习到之前未能学习到的目标节点自身静态配置信息,该目标节点发生节点故障前一段时间内较为轻微的错误的数据,与该目标节点所发生节点故障之间的规律,使更新后的目标节点故障模型能够更为准确的预测节点是否会发生故障。
在本公开的一个实施例中,所述方法还包括如下步骤:
增加目标节点的负载,并获取增加负载后目标节点的负载节点故障数据;
响应于负载节点故障数据与预测节点故障数据不匹配,将目标CE特征作为输入,将负载节点故障数据作为输出,对目标节点故障模型进行训练,以获取更新后的目标节点故障模型。
在本公开的一个实施例中,负载节点故障数据与预测节点故障数据不匹配,可以理解为根据负载节点故障数据确定目标节点是否会发生故障的第三故障检测结果,与根据预测节点故障数据确定目标节点是否会发生故障的第二故障检测结果完全不同,或第三故障检测结果与第二故障检测结果的相似性不满足相似性条件。
根据本公开实施例提供的技术方案,通过增加目标节点的负载,可以诱发目标节点可能出现的节点故障,其中由于目标节点上的虚拟机已被迁移到其他节点,因此即使目标节点出现节点故障,也不会影响任何虚拟机的正常工作。通过获取增加负载后目标节点的负载节点故障数据,响应于负载节点故障数据与预测节点故障数据不匹配,即目标节点故障模型未能准确对节点故障进行准确预测时,将目标CE特征作为输入,将负载节点故障数据作为输出,对目标节点故障模型进行训练,以获取更新后的目标节点故障模型,可以确保更新后的目标节点故障模型能够学习到之前未能学习到的目标节点自身静态配置信息、该目标节点发生节点故障前一段时间内较为轻微的错误的数据,与该目标节点所发生节点故障之间的规律,使更新后的目标节点故障模型能够更为准确的预测节点是否会发生故障。
图3示出根据本公开一实施方式的节点故障处理系统的示意性框图,如图3所示,节点故障模型训练系统包括原始数据获取模块、特征计算模块、在线模型模块以及故障处理模块。
其中,原始数据获取模块用于获取采样CE数据、采样静态配置信息以及采样故障数据,其中采样CE数据可以包括EDAC log以及MCE log,其中根据MCE log可以获取至少一次CE的CE发生时间,根据EDAC log可以确定至少一次CE的CE发生内存地址。
特征计算模块可以根据采样静态配置信息以及采样CE数据进行特征提取,以获取采样CE特征,采样CE特征可以包括采样CE特征根据采样静态配置信息提取的静态配置特征、根据采样CE数据中的CE发生时间提取的CE时序特征以及根据采样CE数据中的CE发生内存地址提取的CE空间特征。其中,所获取的采样CE特征在储存时,可以根据所获取的采样CE数据以及采样故障数据的采样时间对其进行标注,根据该标注可以确定对应的采样CE特征是历史数据还是实时数据。
在线模型模块可以包括离线训练模块、实时预测模块以及灰度验证模块,其中离线训练模块可以获取待采样节点故障模型,并将采样CE特征作为输入,将节点故障数据作为输出,对待采样节点故障模型进行训练,以获取目标节点故障模型;灰度验证模块可以获取目标节点的目标静态配置信息以及目标节点在检测时刻之前的目标检测时间长度内的检测CE数据,根据目标静态配置信息以及检测CE数据进行特征提取,以获取检测CE特征,将检测CE特征输入目标节点故障模型,以获取目标节点故障模型输出的灰度检测故障数据。实时预测模块可以获取目标节点在检测时刻之后的目标节点故障数据,响应于目标节点故障数据与灰度检测故障数据匹配,获取目标节点在当前时刻之前的目标检测时间长度内的目标CE数据,根据目标静态配置信息以及目标CE数据进行特征提取,以获取目标CE特征,将目标CE特征输入目标节点故障模型,以获取目标节点故障模型输出的预测节点故障数据。
故障处理模块可以包括在线迁移模块、压力测试模块以及根因定位模块。其中在线迁移模块可以响应于根据预测节点故障数据确定目标节点在当前时刻之后出现节点故障,将目标节点上的虚拟机迁移到其他节点。压力测试模块可以增加所述目标节点的负载,并获取增加负载后所述目标节点的负载节点故障数据,响应于所述负载节点故障数据与所述预测节点故障数据不匹配,将所述目标CE特征作为输入,将所述负载节点故障数据作为输出,对所述目标节点故障模型进行训练,以获取更新后的目标节点故障模型。根因定位模块可以响应于所述负载节点故障数据与所述预测节点故障数据匹配,根据该目标节点出现节点故障前,目标节点的系统日志对导致节点故障出现的原因进行定位,其中原因可以包括内存问题、硬盘问题、系统内核问题等。
以下参照图4描述根据本公开一实施方式的节点故障模型训练装置。图4示出根据本公开一实施方式的节点故障模型训练装置200的结构框图。
如图4所示,节点故障模型训练装置200包括:
第一数据获取模块201,被配置为获取采样节点在采样时刻前的采样可纠正错误(CE)数据、采样节点在采样时刻后的采样故障数据以及采样节点的采样静态配置信息,采样CE数据包括至少一次CE的CE发生时间以及至少一次CE的CE发生内存地址;
第一特征提取模块202,被配置为根据采样静态配置信息以及采样CE数据进行特征提取,以获取采样CE特征;
模型训练模块203,被配置为获取待采样节点故障模型,并将采样CE特征作为输入,将节点故障数据作为输出,对待采样节点故障模型进行训练,以获取目标节点故障模型。
根据本公开实施例提供的技术方案,通过获取采样节点在采样时刻前包括至少一次CE的CE发生时间以及至少一次CE的CE发生内存地址的采样可纠正错误(CE)数据、采样节点在采样时刻后的采样故障数据以及采样节点的采样静态配置信息,并根据采样静态配置信息以及采样CE数据进行特征提取,以获取采样CE特征。其中,由于采样CE数据能够反映采样节点在采样时刻前内存所发生的较轻微、能够被纠正的错误即CE的发生位置以及发生时间,采样静态配置信息能够反映采样节点自身不随时间改变的属性例如系统规格、节点性能参数等,采样故障数据能够反映采样节点在采样时刻后是否发生节点故障。考虑到训练节点在发生节点故障前一段时间内,即使所发生的CE不会导致训练节点初选系统不响应或系统崩溃,但仍会从侧面反映该训练节点运行时内存的不良状况,该不良状况若较为严重,则可能对节点故障的发生产生推动;同时采样静态配置信息也会对训练节点在内存频繁出现CE后一段时间内该训练节点是否发生故障产生一定的影响,通过获取待采样节点故障模型,并将采样CE特征作为输入,将节点故障数据作为输出,对待采样节点故障模型进行训练,以获取目标节点故障模型,可以使所获取的目标节点故障模型能够学习到采样节点自身静态配置信息、以及发生节点故障前一段时间内采样节点较为轻微的错误的数据,与该采样节点是否发生节点故障之间的规律,确保目标节点故障模型能够基于相应节点的自身静态配置信息以及该节点内存已发生的、较为轻微的错误的数据,对该节点在未来一段时间内是否发生节点故障进行预测,从而提高了预测节点是否会发生故障的准确率,以便对节点实施故障应对措施,有助于提高节点的可靠性。
本领域技术人员可以理解,参照图4描述的技术方案的可以与参照上述描述的任一实施例结合,从而具备上述描述的任一实施例所实现的技术效果。具体内容可以参照上述实施例的描述,其具体内容在此不再赘述。
以下参照图5描述根据本公开一实施方式的节点故障检测装置。图5示出根据本公开一实施方式的节点故障检测装置的结构框图。
如图5所示,节点故障检测装置300包括:
第二数据获取模块301,被配置为获取目标节点的目标静态配置信息以及目标节点在当前时刻之前的目标检测时间长度内的检测CE数据,检测CE数据包括至少一次CE的CE发生时间以及至少一次CE的CE发生内存地址;
第二特征提取模块302,被配置为根据目标静态配置信息以及检测CE数据进行特征提取,以获取检测CE特征;
故障检测模块303,被配置为将检测CE特征输入目标节点故障模型,以获取目标节点故障模型输出的预测节点故障数据。
根据本公开实施例提供的技术方案,通过获取目标节点的目标静态配置信息以及目标节点在当前时刻之前的目标检测时间长度内的检测CE数据,根据目标静态配置信息以及检测CE数据进行特征提取,以获取检测CE特征,并将检测CE特征输入目标节点故障模型,以获取目标节点故障模型输出的预测节点故障数据,其中,由于检测CE数据能够反映目标节点在当前时刻前内存所发生的较轻微、能够被纠正的错误即CE的发生位置以及发生时间,目标静态配置信息能够反映目标节点自身不随时间改变的属性例如系统规格、节点性能参数等。考虑到目标节点若发生节点故障,则在发生节点故障前的一段时间内,即使所发生的CE不会导致目标节点出现系统不响应或系统崩溃,但仍会从侧面反映该训练节点运行时内存的不良状况,该不良状况若较为严重,则可能对节点故障的发生产生推动;同时目标静态配置信息也会对目标节点在内存频繁出现CE后一段时间内该目标节点是否发生故障产生一定的影响,因此通过根据目标静态配置信息以及检测CE数据进行特征提取,以获取检测CE特征,并将检测CE特征输入目标节点故障模型,以获取目标节点故障模型输出的预测节点故障数据,可以基于目标节点故障模型输出的预测节点故障数据,确定目标节点在当前时刻后的未来一段时间内是否发生节点故障,提高了预测节点是否会发生故障的准确率,便对节点实施故障应对措施,有助于提高节点的可靠性。
本领域技术人员可以理解,参照图5描述的技术方案的可以与参照上述描述的任一实施例结合,从而具备上述描述的任一实施例所实现的技术效果。具体内容可以参照上述实施例的描述,其具体内容在此不再赘述。
图6示出根据本公开一实施方式的电子设备的结构框图。
本公开实施方式还提供了一种电子设备,如图6所示,包括至少一个处理器401;以及与至少一个处理器401通信连接的存储器402;其中,存储器402存储有可被至少一个处理器401执行的指令,指令被至少一个处理器401执行以实现以下步骤:
第一方面,本公开实施例中提供了一种节点故障模型训练方法,所述方法,包括:
获取采样节点在采样时刻前的采样可纠正错误(CE)数据、采样节点在采样时刻后的采样故障数据以及采样节点的采样静态配置信息,采样CE数据包括至少一次CE的CE发生时间以及至少一次CE的CE发生内存地址;
根据采样静态配置信息以及采样CE数据进行特征提取,以获取采样CE特征;
获取待采样节点故障模型,并将采样CE特征作为输入,将节点故障数据作为输出,对待采样节点故障模型进行训练,以获取目标节点故障模型。
结合第一方面,本公开在第一方面的第一种实现方式中,采样CE特征包括根据采样静态配置信息提取的静态配置特征、根据采样CE数据中的CE发生时间提取的CE时序特征以及根据采样CE数据中的CE发生内存地址提取的CE空间特征。
结合第一方面的第一种实现方式,本公开在第一方面的第二种实现方式中,CE时序特征,是通过滑窗方式以目标步长时长选取目标窗口时长内的CE发生时间,并基于至少一种时序特征提取算法,根据所选取的CE发生时间进行特征提取获取的。
结合第一方面的第一种实现方式,本公开在第一方面的第三种实现方式中,CE空间特征用于指示在同一个逻辑存储库(bank)内,出现第一目标次数CE的单元(cell)与其他单元中出现第二目标次数CE的单元之间的位置关系满足对应目标位置关系的次数。
第二方面,本公开实施例中提供了一种节点故障检测方法,方法包括:
获取目标节点的目标静态配置信息以及目标节点在当前时刻之前的目标检测时间长度内的检测CE数据,检测CE数据包括至少一次CE的CE发生时间以及至少一次CE的CE发生内存地址;
根据目标静态配置信息以及检测CE数据进行特征提取,以获取检测CE特征;
将检测CE特征输入目标节点故障模型,以获取目标节点故障模型输出的预测节点故障数据。
结合第二方面,本公开在第二方面的第一种实现方式中,目标节点故障模型为根据第一方面、第一方面的第一种实现方式至第三种实现方式中任一项的节点故障模型训练方法得到。
结合第二方面,本公开在第二方面的第二种实现方式中,方法还包括:
响应于根据预测节点故障数据确定目标节点在当前时刻之后出现节点故障,将目标节点上的虚拟机迁移到其他节点。
结合第二方面、第二方面的第一种实现方式至第二种实现方式中任一项,本公开在第二方面的第三种实现方式中,方法还包括:
响应于目标节点故障数据与预测节点故障数据不匹配,将检测CE特征作为输入,将目标节点故障数据作为输出,对目标节点故障模型进行训练,以获取更新后的目标节点故障模型。
结合第二方面、第二方面的第一种实现方式至第二种实现方式中任一项,本公开在第二方面的第四种实现方式中,方法还包括:
增加目标节点的负载,并获取增加负载后目标节点的负载节点故障数据;
响应于负载节点故障数据与预测节点故障数据不匹配,将目标CE特征作为输入,将负载节点故障数据作为输出,对目标节点故障模型进行训练,以获取更新后的目标节点故障模型。
图7是适于用来实现根据本公开一实施方式的方法的计算机系统的结构示意图。
如图7所示,计算机系统500包括处理单元501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行上述附图所示的实施方式中的各种处理。在RAM503中,还存储有系统500操作所需的各种程序和数据。CPU501、ROM502以及RAM503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。其中,所述处理单元501可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。
特别地,根据本公开的实施方式,上文参考附图描述的方法可以被实现为计算机软件程序。示例性的,本公开的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行附图中的方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。示例性的,本公开的实施方式包括一种可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现用于执行附图中的方法的程序代码。
附图中的流程图和框图,图示了按照本公开各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。示例性的,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述节点中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。示例性的上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种节点故障模型训练方法,其中,所述方法,包括:
获取采样节点在采样时刻前的采样可纠正错误(CE)数据、所述采样节点在所述采样时刻后的采样故障数据以及所述采样节点的采样静态配置信息,所述采样CE数据包括至少一次CE的CE发生时间以及至少一次CE的CE发生内存地址;
根据所述采样静态配置信息以及所述采样CE数据进行特征提取,以获取采样CE特征;
获取待采样节点故障模型,并将所述采样CE特征作为输入,将所述节点故障数据作为输出,对所述待采样节点故障模型进行训练,以获取目标节点故障模型。
2.根据权利要求1所述的节点故障模型训练方法,其中,所述采样CE特征包括根据所述采样静态配置信息提取的静态配置特征、根据所述采样CE数据中的CE发生时间提取的CE时序特征以及根据所述采样CE数据中的CE发生内存地址提取的CE空间特征。
3.根据权利要求2所述的节点故障模型训练方法,其中,所述CE时序特征,是通过滑窗方式以目标步长时长选取目标窗口时长内的CE发生时间,并基于至少一种时序特征提取算法,根据所选取的CE发生时间进行特征提取获取的。
4.根据权利要求2所述的节点故障模型训练方法,其中,所述CE空间特征用于指示在同一个逻辑存储库(bank)内,出现第一目标次数CE的单元(cell)与其他单元中出现第二目标次数CE的单元之间的位置关系满足对应目标位置关系的次数。
5.一种节点故障检测方法,其中,所述方法包括:
获取目标节点的目标静态配置信息以及所述目标节点在当前时刻之前的目标检测时间长度内的检测CE数据,检测CE数据包括至少一次CE的CE发生时间以及至少一次CE的CE发生内存地址;
根据所述目标静态配置信息以及所述检测CE数据进行特征提取,以获取检测CE特征;
将所述检测CE特征输入目标节点故障模型,以获取所述目标节点故障模型输出的预测节点故障数据。
6.根据权利要求5所述的节点故障检测方法,其中,所述目标节点故障模型为根据权利要求1-4中任一项所述的节点故障模型训练方法得到。
7.根据权利要求5所述的节点故障检测方法,其中,所述方法还包括:
响应于根据所述预测节点故障数据确定所述目标节点在当前时刻之后出现节点故障,将所述目标节点上的虚拟机迁移到其他节点。
8.根据权利要求5-7中任一项所述的节点故障检测方法,其中,所述方法还包括:
响应于所述目标节点故障数据与所述预测节点故障数据不匹配,将所述检测CE特征作为输入,将所述目标节点故障数据作为输出,对所述目标节点故障模型进行训练,以获取更新后的目标节点故障模型。
9.根据权利要求5-7中任一项所述的节点故障检测方法,其中,所述方法还包括:
增加所述目标节点的负载,并获取增加负载后所述目标节点的负载节点故障数据;
响应于所述负载节点故障数据与所述预测节点故障数据不匹配,将所述目标CE特征作为输入,将所述负载节点故障数据作为输出,对所述目标节点故障模型进行训练,以获取更新后的目标节点故障模型。
10.一种电子设备,其特征在于,包括存储器和至少一个处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述至少一个处理器执行以实现权利要求1-9任一项所述的方法步骤。
11.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-9任一项所述的方法步骤。
12.一种计算机程序产品,包括计算机程序/指令,其中,该计算机程序/指令被处理器执行时实现权利要求1-9任一项所述的方法步骤。
CN202210199236.7A 2022-03-02 2022-03-02 节点故障模型训练方法、检测方法、设备、介质及产品 Active CN114726713B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210199236.7A CN114726713B (zh) 2022-03-02 2022-03-02 节点故障模型训练方法、检测方法、设备、介质及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210199236.7A CN114726713B (zh) 2022-03-02 2022-03-02 节点故障模型训练方法、检测方法、设备、介质及产品

Publications (2)

Publication Number Publication Date
CN114726713A true CN114726713A (zh) 2022-07-08
CN114726713B CN114726713B (zh) 2024-01-12

Family

ID=82235377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210199236.7A Active CN114726713B (zh) 2022-03-02 2022-03-02 节点故障模型训练方法、检测方法、设备、介质及产品

Country Status (1)

Country Link
CN (1) CN114726713B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881737A (zh) * 2023-09-06 2023-10-13 四川川锅环保工程有限公司 一种工业智慧监盘系统中的系统分析方法
CN117971547A (zh) * 2024-03-29 2024-05-03 苏州元脑智能科技有限公司 内存故障预测方法、装置、设备、存储介质及程序产品

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107077408A (zh) * 2016-12-05 2017-08-18 华为技术有限公司 故障处理的方法、计算机系统、基板管理控制器和系统
US20190087383A1 (en) * 2017-09-19 2019-03-21 Beijing Baidu Netcom Science And Technology Co., Ltd. Intelligent big data system, and method and apparatus for providing intelligent big data service
US20190377625A1 (en) * 2018-06-08 2019-12-12 Microsoft Technology Licensing, Llc Computing node failure and health prediction for cloud-based data center
CN112019370A (zh) * 2019-05-31 2020-12-01 烽火通信科技股份有限公司 一种设备故障处理方法及系统
CN112579327A (zh) * 2019-09-27 2021-03-30 阿里巴巴集团控股有限公司 一种故障检测方法、装置及设备
US20210111942A1 (en) * 2019-10-29 2021-04-15 Intel Corporation Service resiliency using a recovery controller
CN112988437A (zh) * 2019-12-17 2021-06-18 深信服科技股份有限公司 一种故障预测方法、装置及电子设备和存储介质
CN113660128A (zh) * 2021-08-20 2021-11-16 北京神州新桥科技有限公司 网络设备故障预测方法、电子设备及存储介质
CN113821364A (zh) * 2020-06-20 2021-12-21 华为技术有限公司 内存故障的处理方法、装置、设备及存储介质
CN114090316A (zh) * 2021-11-15 2022-02-25 北京字节跳动网络技术有限公司 内存故障处理方法、装置、存储介质及电子设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107077408A (zh) * 2016-12-05 2017-08-18 华为技术有限公司 故障处理的方法、计算机系统、基板管理控制器和系统
US20190087383A1 (en) * 2017-09-19 2019-03-21 Beijing Baidu Netcom Science And Technology Co., Ltd. Intelligent big data system, and method and apparatus for providing intelligent big data service
US20190377625A1 (en) * 2018-06-08 2019-12-12 Microsoft Technology Licensing, Llc Computing node failure and health prediction for cloud-based data center
CN112019370A (zh) * 2019-05-31 2020-12-01 烽火通信科技股份有限公司 一种设备故障处理方法及系统
CN112579327A (zh) * 2019-09-27 2021-03-30 阿里巴巴集团控股有限公司 一种故障检测方法、装置及设备
US20210111942A1 (en) * 2019-10-29 2021-04-15 Intel Corporation Service resiliency using a recovery controller
CN112988437A (zh) * 2019-12-17 2021-06-18 深信服科技股份有限公司 一种故障预测方法、装置及电子设备和存储介质
CN113821364A (zh) * 2020-06-20 2021-12-21 华为技术有限公司 内存故障的处理方法、装置、设备及存储介质
WO2021253708A1 (zh) * 2020-06-20 2021-12-23 华为技术有限公司 内存故障的处理方法、装置、设备及存储介质
CN113660128A (zh) * 2021-08-20 2021-11-16 北京神州新桥科技有限公司 网络设备故障预测方法、电子设备及存储介质
CN114090316A (zh) * 2021-11-15 2022-02-25 北京字节跳动网络技术有限公司 内存故障处理方法、装置、存储介质及电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116881737A (zh) * 2023-09-06 2023-10-13 四川川锅环保工程有限公司 一种工业智慧监盘系统中的系统分析方法
CN116881737B (zh) * 2023-09-06 2023-12-15 四川川锅环保工程有限公司 一种工业智慧监盘系统中的系统分析方法
CN117971547A (zh) * 2024-03-29 2024-05-03 苏州元脑智能科技有限公司 内存故障预测方法、装置、设备、存储介质及程序产品

Also Published As

Publication number Publication date
CN114726713B (zh) 2024-01-12

Similar Documents

Publication Publication Date Title
CN110309009B (zh) 基于情境的运维故障根因定位方法、装置、设备及介质
CN114726713B (zh) 节点故障模型训练方法、检测方法、设备、介质及产品
US20230385141A1 (en) Multi-factor cloud service storage device error prediction
JP6643211B2 (ja) 異常検知システム及び異常検知方法
US20190243743A1 (en) Unsupervised anomaly detection
US20210097343A1 (en) Method and apparatus for managing artificial intelligence systems
CN109976975B (zh) 一种磁盘容量预测方法、装置、电子设备及存储介质
CN113094200A (zh) 一种应用程序的故障预测方法和装置
US20180307740A1 (en) Clustering and labeling streamed data
CN112308126A (zh) 故障识别模型训练方法、故障识别方法、装置及电子设备
US10203998B2 (en) Automatic analysis of a set of systems used to implement a process
CN110178121A (zh) 一种数据库的检测方法及其终端
CN111124732A (zh) 一种磁盘故障的预测方法、系统、设备及存储介质
CN110704390A (zh) 获取服务器维护脚本的方法、装置、电子设备及介质
US10452987B2 (en) Detecting deviations between event log and process model
Alharthi et al. Sentiment analysis based error detection for large-scale systems
US11165665B2 (en) Apparatus and method to improve precision of identifying a range of effects of a failure in a system providing a multilayer structure of services
CN113407374A (zh) 故障处理方法、装置、故障处理设备及存储介质
CN118152381A (zh) 结构化数据的实体纠错方法、装置、设备及介质
CN114266352B (zh) 模型训练结果优化方法、装置、存储介质及设备
US20230306206A1 (en) Generating rules for managing an infrastructure from natural-language expressions
CN116225848A (zh) 日志监测方法、装置、设备和介质
US11922129B2 (en) Causal knowledge identification and extraction
CN113052509A (zh) 模型评估方法、模型评估装置、电子设备和存储介质
US20240311224A1 (en) System and method for managing operation of data processing systems to meet operational goals

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant