CN112988433B - 用于故障管理的方法、设备和计算机程序产品 - Google Patents
用于故障管理的方法、设备和计算机程序产品 Download PDFInfo
- Publication number
- CN112988433B CN112988433B CN201911274819.6A CN201911274819A CN112988433B CN 112988433 B CN112988433 B CN 112988433B CN 201911274819 A CN201911274819 A CN 201911274819A CN 112988433 B CN112988433 B CN 112988433B
- Authority
- CN
- China
- Prior art keywords
- accelerator
- fault
- instance
- accelerator device
- detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000004590 computer program Methods 0.000 title claims abstract description 16
- 238000001514 detection method Methods 0.000 claims abstract description 90
- 238000012545 processing Methods 0.000 claims description 24
- 238000011084 recovery Methods 0.000 claims description 20
- 230000004044 response Effects 0.000 claims description 12
- 238000007726 management method Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 4
- 238000004458 analytical method Methods 0.000 claims description 3
- 230000000977 initiatory effect Effects 0.000 claims 2
- 238000010586 diagram Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 8
- 238000013459 approach Methods 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000007906 compression Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000007257 malfunction Effects 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0754—Error or fault detection not based on redundancy by exceeding limits
- G06F11/076—Error or fault detection not based on redundancy by exceeding limits by exceeding a count or rate limit, e.g. word- or bit count limit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0751—Error or fault detection not based on redundancy
- G06F11/0754—Error or fault detection not based on redundancy by exceeding limits
- G06F11/0757—Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0721—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment within a central processing unit [CPU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0736—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in functional embedded systems, i.e. in a data processing system designed as a combination of hardware and software dedicated to performing a certain function
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0706—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
- G06F11/0745—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in an input/output transactions management context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0766—Error or fault reporting or storing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/0793—Remedial or corrective actions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/16—Error detection or correction of the data by redundancy in hardware
- G06F11/20—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
- G06F11/202—Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
- G06F11/2023—Failover techniques
- G06F11/203—Failover techniques using migration
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Debugging And Monitoring (AREA)
Abstract
本公开的实施例涉及一种用于故障管理的方法、设备和计算机程序产品。方法包括获得加速器资源中的加速器设备的使用率,其中加速器资源包括一个或多个加速器设备。方法还包括基于加速器设备的使用率,调整用于检测加速器设备中的故障的检测参数,然后根据检测参数来执行针对加速器设备的故障检测。本公开的实施例提出了基于工作负载感知的检测参数调整方案,能够根据加速器设备的当前使用情况,适应性地调整检测参数(例如超时值、频率等),由此实现更高效且更准确的故障检测。此外,本公开的一些实施例还能够通过故障恢复对象的决策和故障转移目标的选择,提高系统的性能和可靠性。
Description
技术领域
本公开的实施例总体上涉及计算机技术领域,并且更具体地涉及用于故障管理的方法、设备以及计算机程序产品。
背景技术
加速器资源是指一些具有加速功能的处理资源,例如协处理器,其能够辅助中央处理器(CPU)执行一些加速任务。协处理器是一种芯片,其能够减轻系统CPU的特定处理任务。例如,数学协处理器可以进行数字处理,图形协处理器(GPU)可以处理视频绘制。GPU是一种专用于图形或图像的核心处理器,其主要负责的任务是加速图形处理速度。
快速辅助技术(QAT)卡也是一种协处理器,其可以用于加速计算密集型任务,例如压缩和加密等。通过为系统添加QAT卡,能够加快应用程序的运行,提高系统的性能和效率。QAT卡提供的功能可以包括对称加密、身份验证、不对称加密、数字签名、公开密钥加密、无损数据压缩,等等。
发明内容
本公开的实施例提供了一种用于故障管理的方法、设备和计算机程序产品。
在本公开的一个方面,提供了一种用于故障管理的方法。该方法包括:获得加速器资源中的加速器设备的使用率,其中加速器资源包括一个或多个加速器设备;基于加速器设备的使用率,调整用于检测加速器设备中的故障的检测参数;以及基于检测参数,执行针对加速器设备的故障检测。
在本公开的另一方面,提供了一种电子设备。该设备包括处理单元以及存储器,其中存储器被耦合至处理单元并且存储有指令。所述指令在由处理单元执行时执行以下动作:获得加速器资源中的加速器设备的使用率,其中加速器资源包括一个或多个加速器设备;基于加速器设备的使用率,调整用于检测加速器设备中的故障的检测参数;以及基于检测参数,执行针对加速器设备的故障检测。
在本公开的又一方面,提供了一种计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令,所述计算机可执行指令在被执行时使得计算机执行根据本公开的实施例的方法或过程。
提供发明内容部分是为了简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。本发明内容部分无意标识本公开的关键特征或主要特征,也无意限制本公开的各个实施例的范围。
附图说明
通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中在本公开示例性实施例中,相同的附图标记通常代表相同的元素。
图1示出了本公开的实施例的示例计算系统的一部分的架构的示意图;
图2示出了根据本公开的实施例的用于故障检测的方法的流程图;
图3示出了根据本公开的实施例的用于故障管理的方法的流程图;
图4示出了根据本公开的故障检测系统的框架的示意图;
图5示出了根据本公开的加速器资源中的拓扑结构的示意图;以及
图6示出了可以用来实施本公开的实施例的设备的示意性块图。
具体实施例
下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的一些具体实施例,然而应该理解,可以以各种形式实现本公开,而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象,除非明确指示不同。
一般来说,硬件设备在使用过程中存在着故障或损坏的可能性。因此,在加速器设备的运行过程中,需要检测加速器设备的故障。通常,加速器设备的故障可以包括可恢复故障和严重故障,可以通过应用程序接口(API)以代码形式报告可恢复故障,并且使用心跳(heartbeat)API来检测严重故障。API可以提前配置一些检测参数,诸如超时值和检测频率。如果加速器设备的响应时间大于超时值,则API就会报告严重故障。然而,当加速器设备上的工作负载较重时,加速器设备的响应可能会变慢,进而出现响应延迟,这可能会引发严重故障报警,虽然加速器设备本身可能并无故障。错误的报告可能导致不必要的且昂贵的故障恢复操作,降低了用户体验,并且影响系统的性能。此外,较低的检测频率可能会使得故障被延迟检测到,而较高的检测频率会造成检测太频繁,进而影响系统的性能。
传统的故障检测方法通常设置一个或多个固定的检测参数(例如,固定的超时值),其期望在预定的时间窗口(固定的超时值)中接收到回声响应。然而,本发明的发明人发现,固定的超时值无法适应于各种情况下的工作负载。一方面,将超时值设置为相对较小会增加了工作负载繁重时误报的可能性。另一方面,将超时值设置为相对较大将导致延迟报告真实故障,从而损害应用的可用性和性能。
为此,本公开的实施例提出了加速器设备的故障检测的新方案。根据本公开的实施例提出的基于工作负载感知的检测参数调整方案,能够根据加速器设备的当前使用情况(例如,当前运行的工作负载情况),适应性地调整检测参数(例如超时值、频率等),由此实现更高效且更准确的故障检测。
此外,根据本公开的一些实施例,还提出了改进的故障恢复方案和改进的故障转移方案,能够实现对故障恢复对象的决策和对故障转移目标的选择。因此,根据本公开的一些实施例的故障管理方案(其可以包括根据本公开的实施例的故障检测方案、故障恢复方案以及故障转移方案的一些组合),具有以下几方面的改进。第一,本公开的实施例的故障管理方案能够实现更有效的故障检测,借助于自适应的超时值设置,能够提升故障检测的准确性,此外,恰当的检测频率将最大程度地减少对系统性能的影响。第二,本公开的实施例的故障管理方案更加智能,其利用加速器资源的拓扑信息和历史故障信息来制定故障恢复策略和故障转移策略,能够省略不必要的故障恢复操作,同时避免将工作负载迁移至仍不稳定的加速器设备或实例。第三,本公开的实施例的故障管理方案具有更好的性能和可用性,其能够通过将待处理的工作负载迁移到最合适(例如最稳定且空闲)的加速器设备的实例,使得故障的影响降至最低,从而保证了应用的可用性。
以下参考图1至图6来说明本公开的基本原理和若干示例实现方式。应当理解,给出这些示例性实施例仅是为了使本领域技术人员能够更好地理解进而实现本公开的实施例,而并非以任何方式限制本公开的范围。
图1示出了本公开的实施例的示例计算系统100的一部分的架构的示意图。如图1所示,计算系统100包括处理器110、加速器资源120以及存储器130。应当理解,计算系统100还可以包括其他未示出的一个或多个部件。
加速器资源120可以包括一个或多个加速器设备,其充当计算系统100的协处理器,以便为处理器110(例如CPU)减轻一些处理任务。加速器资源120能够实现一定特定功能和运算的加速操作,能够取得比处理器110更高的执行效率。在一些实施例中,加速器资源120可以为一个或多个QAT加速卡,其可以对数据的加密和/或解密进行加速,也可以对数据的压缩和/或解压进行加速。应当理解,虽然在本公开的一些实施例,加速器资源使用QAT卡作为示例,然而,加速器资源也可以为其他具有特定任务(诸如,加解密、压缩、矩阵运算等)加速功能的硬件处理设备。
由于硬件设备在使用过程中都存在着故障或损坏的可能性,因而需要不断地检测加速器资源120是否发生硬件和/或软件故障。例如,QAT卡提供一些API以供调用查询加速器设备是否还在正常工作。本公开的实施例提出了一种改进的故障检测方案,能够根据加速器中的工作负载情况,设置适当的检测参数。例如,如果加速器设备上的工作负载很饱满时,那么可以将超时值设置长一点。通过这种方式,不会造成由于加速器设备没有及时处理检测请求而错误报告故障的情形,提高了故障检测的准确性。
图2示出了根据本公开的实施例的用于故障检测的方法200的流程图。在202,获得加速器资源中的加速器设备的使用率,其中加速器资源包括一个或多个加速器设备。例如,针对QAT卡中的某个加速器设备,可以获取该加速器设备当前的使用率,任何已知的或者将来开发的方法可以与本公开的实施例结合使用,以便获得各个加速器设备的使用率。
在204,基于加速器设备的使用率,调整用于检测加速器设备中的故障的检测参数。本公开的实施例能够感知加速器设备上的当前工作负载情况,进而为其设置恰当的检测参数。例如,可以基于预先建立的映射表,获得与使用率相对应的超时值和检测频率,其中映射表可以通过实验或者机器学习的方式获得。在一些实施例,当加速器设备的使用率增大时,可以增大超时值并且降低检测频率,以减少不及时的响应而导致错误报告,并且减小由于故障检测对系统性能的影响。
在206,基于检测参数,执行针对加速器设备的故障检测。例如,可以根据所调整的检测频率,周期性地发起针对加速器设备的检测请求,然后确定加速器设备对于各个检测请求的响应时间,如果确定加速器设备的某个响应时间大于超时值,则说明加速器设备发生故障。在一些实施例中,在存在故障的情况下,可以返回故障代码和/或故障日志,通过对故障代码和/或故障日志的分析,可以确定故障的来源或者故障的位置,例如,可能是加速器设备的硬件故障,也可能是软件实例故障,或者也有可能是会话的故障。
因此,根据本公开的实施例的工作负载感知的检测参数调整方案,能够根据加速器设备的当前使用情况,适应性地调整检测参数(例如超时值、频率等),由此实现更高效且更准确的故障检测。
图3示出了根据本公开的实施例的用于故障管理的方法300的流程图。在302,根据所设置/调整的检测频率,周期性地对加速器设备进行故障检测。在304,判断是否检测到故障。如果没有检测到故障,则返回302,等待预定时间后,继续进行故障检测。如果在304判断检测到故障,则需要在306对加速器设备中的某个对象层级进行故障恢复,并且在308,将未完成的工作负载故障转移到其他软件实例中。
图4示出了根据本公开的故障检测系统400的实例框架的示意图。如图4所示,故障检测系统400可以包括故障检测模块410、故障恢复模块420、故障转移模块430、多维信息库440,下面将分别介绍每个模块的示例实现。应当理解,图4所描述的故障检测系统400仅为本公开的实施例的一个示例实现,故障检测系统400还可以包括更多或者更少的模块。
多维信息库
如图4所示,多维信息库440可以包括加速器资源中的各个加速器设备的使用率信息441、历史故障信息442、以及加速器资源的拓扑信息443。在一些实施例中,加速器设备的使用率信息441还可以包括每个实例的可用性和每个实例的队列深度。历史故障信息442记录历史上发生的每个故障。从工程经验的角度来看,一台设备以前曾发生过故障,将来很有可能会再发生故障。
拓扑信息443指示加速器资源、加速器卡、加速器设备、实例和会话之间的逻辑关系,拓扑信息能够提供有关给定故障的影响范围的知识。例如,加速器设备中的严重故障将影响该加速器设备上的所有软件实例,或者加速器卡故障会破坏位于其上的所有加速器设备。
参考图5,其示出了根据本公开的加速器资源中的拓扑结构500的示意图。如图5所示,加速器资源120包括多个加速器卡510和520,每个加速器卡可以为一个QAT卡,每个加速器卡可以包括一个或多个加速器设备,虽然这些加速器设备物理布局在同一个加速器卡上,但是逻辑上可以是彼此独立的。例如,加速器卡510包括加速器设备511和512,加速器卡520包括加速器设备521和522。虽然在图5中每个加速器卡仅示出包括2个加速器设备,但是每个加速器卡也可以包括更多个加速器设备。每个加速器设备可以提供一个或多个软件实例,如实例级530所示,每个软件实例可以支持一个或多个会话,如会话级540所示。加速器资源、加速器卡、加速器设备、实例以及会话之间的层级关系构成加速器资源的拓扑信息。
返回参考图4,故障检测模块410、故障恢复模块420、故障转移模块430可以利用多维信息库440中的一项或多项来提高系统的性能。
故障检测
传统的方法依赖于心跳检测来发现严重故障(在加速器设备无响应时)。然而,在工作负载饱和将对心跳检测的响应造成影响。为此,本公开的实施例引入了可感知工作负载的心跳检测方法来进行改进。如图4所示,故障检测模块410包括心跳API 411、可恢复故障API 412以及根据本公开的实施例的工作负载感知的检测参数调整器413。
根据本公开的实施例,故障检测模块410用于对加速器设备进行故障检测。工作负载感知的检测参数调整器413通过访问使用率信息441,能够在调用心跳API时调整检测参数,诸如超时值和/或频率。在一些实施例中,可以根据实验或机器学习的方法获得不同的工作负载所对应的最合适的检测参数。一旦建立了检测参数与工作负载之间的映射表,工作负载感知的检测参数调整器413就可以使用映射表来根据运行时工作负载来调整检测参数,其中检测参数可以包括超时值和频率,也可以包括用于故障检测的其他参数。此外,在检测到加速器设备的故障时,故障检测模块410可以将故障信息记录到历史故障信息442中以便实时维护历史故障信息库。
故障恢复
通常,从成本和效率的角度来看,故障恢复方法通常具有不同的重置层级。作为升级的序列,重置层级可以包括会话重置、实例重置、加速器设备重置、加速器卡重置。然而,大多数情况下,传统的方法不知道应该重置哪个层级。结果是,需要逐级地进行重置,这会带来额外的负担,甚至会给整个系统带来不良影响。因此,传统的逐步升级的重置方式效率较低,并且不智能。例如,根据传统的方法,应用将首先尝试重置会话(成本最低),然后是实例、加速器设备,甚至是整个加速器卡(成本最高)。
根据本公开的实施例,故障恢复模块420可以包括决策系统421和对象重置器422,决策系统421通过考虑拓扑信息443和历史故障信息442,能够更智能地进行决策。例如,当同一加速器设备上的两个实例都发生故障时,直接进行加速器设备重置可能是最佳选择。再例如,当在短时间内多次对同一个加速器设备进行重置而仍然无法解决问题时,则可以放弃对其进行恢复并进行脱机诊断。因此,本公开的实施例的故障恢复方法能够更精准地发现待恢复的对象,进而选择一个最合适的层级进行重置。
决策系统421用于实现高级决策逻辑,在加速器设备发生故障时,决策系统421通过考虑拓扑信息443和历史故障信息442来确定应该重置的对象,即重置层级。例如,借助于历史故障信息442,可以推断出在短时间内在某个加速器设备上重复出现的严重故障,从而导致根本无法恢复的故障(在这种情况下,可以认为该加速器设备无法再恢复)。借助于拓扑信息443,可以判断某个加速器设备上经常出现多个实例故障,因而可以直接对加速器设备进行重置,而无需再首先重置实例。通过这种方式,能够省去不必要的重置,提高系统的故障恢复效率,进而提升系统的性能。在确定待重置的重置层级之后,对象重置器422可以执行相应的重置,其中重置层级包括会话级、实例级、设备级等。
故障转移
一般来说,当加速器设备上的一个软件实例发生故障并且仍然有其他实例在正常工作时,可以期望将工作负载平稳地迁移到正常工作的实例中。然而,传统的方法不存在这样的针对加速器设备中的实例的故障转移方案。
根据本公开的实施例,能够基于多维信息库440,将未完成的工作负载迁移到最适合的实例或设备中。如图4所示,故障转移模块430包括目标实例选择器431和故障转移操作器432。故障转移操作通过将未完成的任务重新提交到可用的目标实例来执行实际的工作负载迁移。目标实例选择器431用于选择适当的实例作为迁移目标。借助于历史故障信息442,目标实例选择器431能够选择最稳定的一个目标实例。借助于运行时的利用率信息441,目标实例选择器431能够选择最空闲的一个目标实例。在一些实施例,可以选择既稳定又空闲的一个目标实例。此外,目标实例选择器431还可以考虑拓扑信息443来进行选择,以便快速找到对等的实例。在选择目标实例之后,故障转移操作器432用来执行工作负载的具体迁移工作。
图6示出了可以用来实施本公开的实施例的设备600的示意性块图,设备600可以为本公开的实施例所描述的设备或装置。如图6所示,设备600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的计算机程序指令或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序指令,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。虽然未在图6中示出,设备600还可以包括协处理器。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
上文所描述的各个方法或过程可由处理单元601来执行。例如,在一些实施例中,方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序被加载到RAM 603并由CPU 601执行时,可以执行上文描述的方法或过程中的一个或多个步骤或动作。
在一些实施例中,以上所描述的方法和过程可以被实现为计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于执行本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是但不限于电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
本文所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言,以及常规的过程式编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时,产生了实现流程图和/或块图中的一个或多个方块中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或块图中的一个或多个方块中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或块图中的一个或多个方块中规定的功能/动作。
附图中的流程图和块图显示了根据本公开的多个实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或块图中的每个方块可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方块中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方块实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这取决于所涉及的功能。也要注意的是,块图和/或流程图中的每个方块、以及块图和/或流程图中的方块的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中技术的技术改进,或者使得本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (19)
1.一种用于故障管理的方法,包括:
获得加速器资源中的加速器设备的使用率,所述加速器资源包括一个或多个加速器设备;
基于所述加速器设备的所述使用率,调整用于检测所述加速器设备中的故障的检测参数;
基于所述检测参数,执行针对所述加速器设备的故障检测;以及
根据确定所述加速器设备发生故障,基于所述加速器资源的拓扑信息来执行故障恢复,所述拓扑信息至少包括所述加速器设备中的设备、实例以及会话之间的层级关系。
2.根据权利要求1所述的方法,其中调整用于检测所述加速器设备中的故障的检测参数包括:
基于预先建立的映射表,获得与所述使用率相对应的超时值和检测频率,所述映射表通过实验或者机器学习的方式获得。
3.根据权利要求2所述的方法,其中执行针对所述加速器设备的故障检测包括:
根据所述检测频率,周期性地发起针对所述加速器设备的检测请求;
确定所述加速器设备对于所述检测请求的响应时间;以及
根据确定所述加速器设备的所述响应时间大于所述超时值,确定所述加速器设备发生故障。
4.根据权利要求1所述的方法,其中基于所述加速器资源的拓扑信息来执行故障恢复包括:
基于对所述加速器设备的故障的分析,确定用于故障恢复的重置层级,所述重置层级至少包括会话级、实例级和设备级;以及
基于所述重置层级来执行重置。
5.根据权利要求4所述的方法,其中基于所述加速器资源的拓扑信息来执行故障恢复还包括:
基于记录所述加速器设备的历史故障的历史故障信息,确定所述加速器设备是否可恢复;以及
根据确定所述加速器设备可恢复,执行所述故障恢复。
6.根据权利要求1所述的方法,还包括:
根据确定第一实例发生故障,基于多维信息库选择用于故障转移的第二实例,所述多维信息库存储拓扑信息、历史故障信息、以及使用率信息。
7.根据权利要求6所述的方法,其中基于多维信息库选择用于故障转移的第二实例:
基于所述历史故障信息,确定运行稳定的第二实例;以及
将所述第一实例中的工作负载迁移到所述第二实例。
8.根据权利要求7所述的方法,其中确定所述第二实例包括:
基于所述历史故障信息,确定运行稳定的多个实例,所述多个实例包括所述第二实例;以及
基于所述使用率信息,从所述多个实例选择空闲的第二实例。
9.根据权利要求1所述的方法,其中所述加速器资源是一个或多个快速辅助技术(QAT)卡。
10.一种电子设备,包括:
处理单元;以及
存储器,其耦合至所述处理单元并且存储有指令,所述指令在由所述处理单元执行时执行以下动作:
获得加速器资源中的加速器设备的使用率,所述加速器资源包括一个或多个加速器设备;
基于所述加速器设备的所述使用率,调整用于检测所述加速器设备中的故障的检测参数;
基于所述检测参数,执行针对所述加速器设备的故障检测;以及
根据确定所述加速器设备发生故障,基于所述加速器资源的拓扑信息来执行故障恢复,所述拓扑信息至少包括所述加速器设备中的设备、实例以及会话之间的层级关系。
11.根据权利要求10所述的设备,其中调整用于检测所述加速器设备中的故障的检测参数包括:
基于预先建立的映射表,获得与所述使用率相对应的超时值和检测频率,所述映射表通过实验或者机器学习的方式获得。
12.根据权利要求11所述的设备,其中执行针对所述加速器设备的故障检测包括:
根据所述检测频率,周期性地发起针对所述加速器设备的检测请求;
确定所述加速器设备对于所述检测请求的响应时间;以及
根据确定所述加速器设备的所述响应时间大于所述超时值,确定所述加速器设备发生故障。
13.根据权利要求10所述的设备,其中基于所述加速器资源的拓扑信息来执行故障恢复包括:
基于对所述加速器设备的故障的分析,确定用于故障恢复的重置层级,所述重置层级至少包括会话级、实例级和设备级;以及
基于所述重置层级来执行重置。
14.根据权利要求13所述的设备,其中基于所述加速器资源的拓扑信息来执行故障恢复还包括:
基于记录所述加速器设备的历史故障的历史故障信息,确定所述加速器设备是否可恢复;以及
根据确定所述加速器设备可恢复,执行所述故障恢复。
15.根据权利要求10所述的设备,所述动作还包括:
根据确定第一实例发生故障,基于多维信息库选择用于故障转移的第二实例,所述多维信息库存储拓扑信息、历史故障信息、以及使用率信息。
16.根据权利要求15所述的设备,其中基于多维信息库选择用于故障转移的第二实例:
基于所述历史故障信息,确定运行稳定的第二实例;以及
将所述第一实例中的工作负载迁移到所述第二实例。
17.根据权利要求16所述的设备,其中确定所述第二实例包括:
基于所述历史故障信息,确定运行稳定的多个实例,所述多个实例包括所述第二实例;以及
基于所述使用率信息,从所述多个实例选择空闲的第二实例。
18.根据权利要求10所述的设备,其中所述加速器资源是一个或多个快速辅助技术(QAT)卡。
19.一种计算机程序产品,所述计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令,所述计算机可执行指令在被执行时使计算机执行根据权利要求1至9中任一项所述的方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911274819.6A CN112988433B (zh) | 2019-12-12 | 2019-12-12 | 用于故障管理的方法、设备和计算机程序产品 |
US16/863,628 US11163628B2 (en) | 2019-12-12 | 2020-04-30 | Method, device and computer program product for error management based on a utilization rate of an accelerator device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911274819.6A CN112988433B (zh) | 2019-12-12 | 2019-12-12 | 用于故障管理的方法、设备和计算机程序产品 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112988433A CN112988433A (zh) | 2021-06-18 |
CN112988433B true CN112988433B (zh) | 2024-04-16 |
Family
ID=76317913
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911274819.6A Active CN112988433B (zh) | 2019-12-12 | 2019-12-12 | 用于故障管理的方法、设备和计算机程序产品 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11163628B2 (zh) |
CN (1) | CN112988433B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023045641A (ja) * | 2021-09-22 | 2023-04-03 | 株式会社日立製作所 | ストレージシステム及び制御方法 |
US20240012725A1 (en) * | 2022-07-06 | 2024-01-11 | VeriFast Inc. | Single sign-on verification platform and decision matrix |
US20240176622A1 (en) * | 2022-11-28 | 2024-05-30 | Nvidia Corporation | Application programming interface to indicate accelerator error handlers |
CN117033144B (zh) * | 2023-10-09 | 2024-01-19 | 武汉吧哒科技股份有限公司 | 服务器远程巡检方法、设备及介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510809A (zh) * | 2009-03-27 | 2009-08-19 | 华为技术有限公司 | 故障检测方法、系统以及时分复用单板 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6640268B1 (en) * | 1998-08-28 | 2003-10-28 | Intel Corporation | Dynamic polling mechanism for wireless devices |
US6370656B1 (en) * | 1998-11-19 | 2002-04-09 | Compaq Information Technologies, Group L. P. | Computer system with adaptive heartbeat |
US6526433B1 (en) * | 1999-12-15 | 2003-02-25 | International Business Machines Corporation | Adaptive timeout value setting for distributed computing environment (DCE) applications |
US20040098449A1 (en) * | 2000-01-20 | 2004-05-20 | Shai Bar-Lavi | System and method for disseminating information over a communication network according to predefined consumer profiles |
US20020107971A1 (en) * | 2000-11-07 | 2002-08-08 | Bailey Brian W. | Network transport accelerator |
US6931460B2 (en) * | 2003-05-19 | 2005-08-16 | Emulex Design & Manufacturing Corporation | Dynamically self-adjusting polling mechanism |
US8676959B2 (en) * | 2006-03-27 | 2014-03-18 | Sap Ag | Integrated heartbeat monitoring and failover handling for high availability |
CN101378544B (zh) * | 2007-08-31 | 2011-12-07 | 国际商业机器公司 | 信息轮询方法、装置及其系统 |
US8639834B2 (en) * | 2010-11-09 | 2014-01-28 | International Business Machines Corporation | Self-adjusting application heartbeat management |
US8578022B2 (en) * | 2011-01-19 | 2013-11-05 | Cisco Technology, Inc. | Adaptive idle timeout for TCP connections in ESTAB state |
US9032119B2 (en) * | 2013-07-25 | 2015-05-12 | Alcatel Lucent | Adaptive polling of information from a device |
CN106155826B (zh) * | 2015-04-16 | 2019-10-18 | 伊姆西公司 | 用于在总线结构中检测及处理错误的方法和系统 |
US20170060492A1 (en) * | 2015-08-26 | 2017-03-02 | Ricoh Company, Ltd. | Adaptive polling of printers that service simple network management protocol requests |
JP6724998B2 (ja) * | 2016-10-20 | 2020-07-15 | 日本電気株式会社 | サーバ装置、クラスタシステム、クラスタ制御方法およびプログラム |
US11429505B2 (en) * | 2018-08-03 | 2022-08-30 | Dell Products L.P. | System and method to provide optimal polling of devices for real time data |
-
2019
- 2019-12-12 CN CN201911274819.6A patent/CN112988433B/zh active Active
-
2020
- 2020-04-30 US US16/863,628 patent/US11163628B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101510809A (zh) * | 2009-03-27 | 2009-08-19 | 华为技术有限公司 | 故障检测方法、系统以及时分复用单板 |
Also Published As
Publication number | Publication date |
---|---|
US11163628B2 (en) | 2021-11-02 |
US20210182132A1 (en) | 2021-06-17 |
CN112988433A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112988433B (zh) | 用于故障管理的方法、设备和计算机程序产品 | |
US10860441B2 (en) | Method and system for data backup and restoration in cluster system | |
US8424000B2 (en) | Providing application high availability in highly-available virtual machine environments | |
US20190310880A1 (en) | Managed orchestration of virtual machine instance migration | |
US11544137B2 (en) | Data processing platform monitoring | |
US11023133B2 (en) | Systems and methods for modifying storage system configuration using artificial intelligence | |
US10936386B2 (en) | Method, device and computer program product for monitoring access request | |
US10452469B2 (en) | Server performance correction using remote server actions | |
US9529691B2 (en) | Monitoring and correlating a binary process in a distributed business transaction | |
US20070168201A1 (en) | Formula for automatic prioritization of the business impact based on a failure on a service in a loosely coupled application | |
US20090037481A1 (en) | Change-based discovery scheduling | |
CN107544832A (zh) | 一种虚拟机进程的监控方法、装置和系统 | |
US20220188214A1 (en) | Dynamic distributed tracing instrumentation in a microservice architecture | |
CN111046007B (zh) | 管理存储系统的方法、装置和计算机程序产品 | |
WO2020214408A1 (en) | Timeout mode for storage devices | |
JP2009176139A (ja) | Os優先度変更装置及びos優先度変更プログラム | |
US11487623B2 (en) | Information processing system | |
US7529181B2 (en) | Method and apparatus for adaptive monitoring and management of distributed systems | |
US12131173B2 (en) | Containers on demand | |
US11388250B1 (en) | Reduction of data transmissions based on end-user content | |
US11822438B1 (en) | Multi-computer system for application recovery following application programming interface failure | |
EP3355227A1 (en) | Changing the deployment status of a pre-processor or analytic | |
US20240176723A1 (en) | Predictive load driven proactive pre-flight check for applications | |
US20230195504A1 (en) | Systems and methods for resolving interdependencies between user interfaces in a domain driven design microservice architecture | |
JP2018160773A (ja) | 監視装置および監視プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |