CN108021463A - 一种基于有限状态机的gpu故障管理方法 - Google Patents

一种基于有限状态机的gpu故障管理方法 Download PDF

Info

Publication number
CN108021463A
CN108021463A CN201711202637.9A CN201711202637A CN108021463A CN 108021463 A CN108021463 A CN 108021463A CN 201711202637 A CN201711202637 A CN 201711202637A CN 108021463 A CN108021463 A CN 108021463A
Authority
CN
China
Prior art keywords
module
failure
fault
decision
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711202637.9A
Other languages
English (en)
Other versions
CN108021463B (zh
Inventor
马城城
刘晖
聂曌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Aeronautics Computing Technique Research Institute of AVIC
Original Assignee
Xian Aeronautics Computing Technique Research Institute of AVIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Aeronautics Computing Technique Research Institute of AVIC filed Critical Xian Aeronautics Computing Technique Research Institute of AVIC
Priority to CN201711202637.9A priority Critical patent/CN108021463B/zh
Publication of CN108021463A publication Critical patent/CN108021463A/zh
Application granted granted Critical
Publication of CN108021463B publication Critical patent/CN108021463B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available

Abstract

本发明属于计算机图形领域,尤其涉及一种基于有限状态机的GPU故障管理方法。本方法基于以下设备和模块实现:图形处理设备、状态获取模块、故障决策模块、故障处理模块。本方法通过采集/主动上报图形处理器中各个单元模块的故障信息,采用分布式感知、集中决策的策略,实现图形处理器基于有限状态机的故障管理。

Description

一种基于有限状态机的GPU故障管理方法
技术领域
本发明属于计算机图形领域,尤其涉及一种基于有限状态机的GPU故障管理方法。
背景技术
由于GPU系统的复杂性及超长流水结构,图形设备常常面临着不可预期的故障,因此故障管理与诊断成为系统管理的核心组成部分。目前公开研究的图形处理中,未发现有针对GPU故障管理的相关内容。
发明内容
本发明的目的是:本发明主要提供一种基于有限状态机的GPU故障管理方法,保证图形设备在出现故障时能准确定位,快速解决,保障系统运行的稳定。
本发明的解决方案是:
一种基于有限状态机的GPU故障管理方法,所述方法基于以下设备或模块实现:图形处理设备1、状态获取模块2、故障决策模块3、故障处理模块4;
所述图形处理设备1,包括图形处理的若干个功能单元,其功能单元配合进行图形流水操作,完成图形任务处理过程;
所述状态获取模块2,包括主动上报和状态采集两种获取方式,采用分布式感知的方法,在图形处理设备1的功能单元分布感知点,收集该单元的运行状态,并上报给故障决策模块3;
所述故障决策模块3,包括统一决策单元和故障量化单元两部分,故障量化单元接收状态获取模块2发送的运行状态信息,根据运行状态及当前的系统配置信息,对该运行状态信息进行量化,采用有限状态机方式给出相应的故障等级,并发送结果到统一决策单元,统一决策单元根据所有功能单元上报的故障信息进行统一决策,交由故障处理模块4进行处理;
所述故障处理模块4,根据故障决策模块3发送的故障等级,生成相应的故障处理事件,交由图形处理设备1的各功能单元进行故障处理。
本发明的优点是:本发明提供的一种基于有限状态机的GPU故障管理方法,分布式感知故障,采用层次化集中决策方法,将故障按照有限状态进行分类,上报当前的系统运行状态,决策单元进行决策后,进行故障处理。
附图说明
图1为本发明基于有限状态机的GPU故障管理方法的模块及流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图和具体实施例对本发明的技术方案做进一步详细描述。
如图1所示,一种基于有限状态机的GPU故障管理方法,所述方法基于以下设备或模块实现:图形处理设备1、状态获取模块2、故障决策模块3、故障处理模块4;
所述图形处理设备1,包括图形处理的若干个功能单元,如顶点处理单元、几何处理单元、光栅化单元、统一染色阵列单元、存储单元等,其功能单元配合进行图形流水操作,完成图形任务处理过程;
所述状态获取模块2,包括主动上报和状态采集两种获取方式,主动上报可采用中断方式,如当功能单元产生故障信息时产生中断,报告当前状态,状态采集可采用周期采集各模块的状态信息的方式。采用分布式感知的方法,在图形处理设备1的功能单元分布感知点,收集该单元的运行状态,并上报给故障决策模块3;
所述故障决策模块3,包括统一决策单元和故障量化单元两部分,故障量化单元接收状态获取模块2发送的运行状态信息,根据运行状态及当前的系统配置信息,对该运行状态信息进行量化,采用有限状态机方式给出相应的故障等级,并发送结果到统一决策单元,统一决策单元根据所有功能单元上报的故障信息进行统一决策,交由故障处理模块4进行处理;如某功能单元包括100个染色内核,但当前配置仅开启50个,当某些内核故障时,该功能单元汇报当前有多少个内核可正常工作,然后根据当前工作的内核数决定当前系统是否能够正常工作。
所述故障处理模块4,根据故障决策模块3发送的故障等级,生成相应的故障处理事件,交由图形处理设备1的各功能单元进行故障处理。如当图形处理设备1中图形处理关键路径上的功能单元发生偶发故障,则需要重启,如冗余资源发生故障,则可以在降低性能的情况下使图形处理设备正常工作。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细地说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (1)

1.一种基于有限状态机的GPU故障管理方法,其特征为:所述方法基于以下设备或模块实现:图形处理设备(1)、状态获取模块(2)、故障决策模块(3)、故障处理模块(4);
所述图形处理设备(1),包括图形处理的若干个功能单元,其功能单元配合进行图形流水操作,完成图形任务处理过程;
所述状态获取模块(2),包括主动上报和状态采集两种获取方式,采用分布式感知的方法,在图形处理设备(1)的功能单元分布感知点,收集该单元的运行状态,并上报给故障决策模块(3);
所述故障决策模块(3),包括统一决策单元和故障量化单元两部分,故障量化单元接收状态获取模块(2)发送的运行状态信息,根据运行状态及当前的系统配置信息,对该运行状态信息进行量化,采用有限状态机方式给出相应的故障等级,并发送结果到统一决策单元,统一决策单元根据所有功能单元上报的故障信息进行统一决策,交由故障处理模块(4)进行处理;
所述故障处理模块(4),根据故障决策模块(3)发送的故障等级,生成相应的故障处理事件,交由图形处理设备(1)的各功能单元进行故障处理。
CN201711202637.9A 2017-11-24 2017-11-24 一种基于有限状态机的gpu故障管理方法 Active CN108021463B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711202637.9A CN108021463B (zh) 2017-11-24 2017-11-24 一种基于有限状态机的gpu故障管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711202637.9A CN108021463B (zh) 2017-11-24 2017-11-24 一种基于有限状态机的gpu故障管理方法

Publications (2)

Publication Number Publication Date
CN108021463A true CN108021463A (zh) 2018-05-11
CN108021463B CN108021463B (zh) 2021-07-16

Family

ID=62077336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711202637.9A Active CN108021463B (zh) 2017-11-24 2017-11-24 一种基于有限状态机的gpu故障管理方法

Country Status (1)

Country Link
CN (1) CN108021463B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108650134A (zh) * 2018-05-14 2018-10-12 周怡颋 网络故障定位的方法、装置及电子设备
CN111045929A (zh) * 2019-11-18 2020-04-21 中国航空工业集团公司西安航空计算技术研究所 一种超长图形流水线层次化调试方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819411A (zh) * 2010-03-17 2010-09-01 燕山大学 一种基于gpu的改进加权关联规则的设备故障预警与诊断方法
CN103377094A (zh) * 2012-04-12 2013-10-30 金蝶软件(中国)有限公司 异常监测方法和装置
US8666688B2 (en) * 2005-01-27 2014-03-04 Electro Industries/Gauge Tech High speed digital transient waveform detection system and method for use in an intelligent electronic device
CN105988918A (zh) * 2015-02-26 2016-10-05 阿里巴巴集团控股有限公司 预测gpu故障的方法和装置
CN106104483A (zh) * 2014-03-14 2016-11-09 Arm有限公司 微处理器系统中的异常处理

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8666688B2 (en) * 2005-01-27 2014-03-04 Electro Industries/Gauge Tech High speed digital transient waveform detection system and method for use in an intelligent electronic device
CN101819411A (zh) * 2010-03-17 2010-09-01 燕山大学 一种基于gpu的改进加权关联规则的设备故障预警与诊断方法
CN103377094A (zh) * 2012-04-12 2013-10-30 金蝶软件(中国)有限公司 异常监测方法和装置
CN106104483A (zh) * 2014-03-14 2016-11-09 Arm有限公司 微处理器系统中的异常处理
CN105988918A (zh) * 2015-02-26 2016-10-05 阿里巴巴集团控股有限公司 预测gpu故障的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李文亮: "GPU集群调度管理系统关键技术的研究", 《中国优秀硕士论文全文数据库信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108650134A (zh) * 2018-05-14 2018-10-12 周怡颋 网络故障定位的方法、装置及电子设备
CN108650134B (zh) * 2018-05-14 2021-06-04 周怡颋 网络故障定位的方法、装置及电子设备
CN111045929A (zh) * 2019-11-18 2020-04-21 中国航空工业集团公司西安航空计算技术研究所 一种超长图形流水线层次化调试方法
CN111045929B (zh) * 2019-11-18 2023-06-09 中国航空工业集团公司西安航空计算技术研究所 一种超长图形流水线层次化调试方法

Also Published As

Publication number Publication date
CN108021463B (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
TWI746512B (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
CN105095001A (zh) 分布式环境下虚拟机异常恢复方法
CN104160378B (zh) 用于启用分布式计算系统中的容错功能的方法和系统
CN105681077A (zh) 故障处理方法、装置及系统
CN106603696B (zh) 一种基于超融合基础框架的高可用系统
CN103812699A (zh) 基于云计算的监控管理系统
CN106789306A (zh) 通信设备软件故障检测收集恢复方法和系统
CN105843202A (zh) 工业机器人控制系统及其运行模式的切换方法
CN109884475A (zh) 一种电网故障检测方法、装置、系统及存储介质
CN108021463A (zh) 一种基于有限状态机的gpu故障管理方法
CN100538647C (zh) 多核处理器的业务流处理方法及多核处理器
CN105574590A (zh) 自适应总控灾备切换装置、系统及信号发生方法
CN105068763B (zh) 一种针对存储故障的虚拟机容错系统和方法
CN106453504A (zh) 一种基于nginx服务器集群的监控系统及方法
CN104461731A (zh) 一种动态资源扩展中虚拟机资源回收方法和装置
CN109936532A (zh) 一种数据总线传输安全防护系统
CN106487598B (zh) 异构冗余Snmp协议多实例实现系统及其实现方法
CN106444685A (zh) 分布式控制系统及其动态调度资源的方法
CN109818808A (zh) 故障诊断方法、装置和电子设备
CN103995759B (zh) 基于核内外协同的高可用计算机系统故障处理方法及装置
CN107528705A (zh) 故障处理方法及装置
CN106878096A (zh) Vnf状态检测通告方法、装置以及系统
CN106452696A (zh) 一种服务器集群的控制系统
CN117271234A (zh) 故障诊断方法、装置、存储介质及电子装置
CN207851895U (zh) 一种银行智能交易路由系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant