CN108021463B - 一种基于有限状态机的gpu故障管理方法 - Google Patents

一种基于有限状态机的gpu故障管理方法 Download PDF

Info

Publication number
CN108021463B
CN108021463B CN201711202637.9A CN201711202637A CN108021463B CN 108021463 B CN108021463 B CN 108021463B CN 201711202637 A CN201711202637 A CN 201711202637A CN 108021463 B CN108021463 B CN 108021463B
Authority
CN
China
Prior art keywords
fault
module
processing
decision
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711202637.9A
Other languages
English (en)
Other versions
CN108021463A (zh
Inventor
马城城
刘晖
聂曌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Aeronautics Computing Technique Research Institute of AVIC
Original Assignee
Xian Aeronautics Computing Technique Research Institute of AVIC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Aeronautics Computing Technique Research Institute of AVIC filed Critical Xian Aeronautics Computing Technique Research Institute of AVIC
Priority to CN201711202637.9A priority Critical patent/CN108021463B/zh
Publication of CN108021463A publication Critical patent/CN108021463A/zh
Application granted granted Critical
Publication of CN108021463B publication Critical patent/CN108021463B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Hardware Redundancy (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明属于计算机图形领域,尤其涉及一种基于有限状态机的GPU故障管理方法。本方法基于以下设备和模块实现:图形处理设备、状态获取模块、故障决策模块、故障处理模块。本方法通过采集/主动上报图形处理器中各个单元模块的故障信息,采用分布式感知、集中决策的策略,实现图形处理器基于有限状态机的故障管理。

Description

一种基于有限状态机的GPU故障管理方法
技术领域
本发明属于计算机图形领域,尤其涉及一种基于有限状态机的GPU故障管理方法。
背景技术
由于GPU系统的复杂性及超长流水结构,图形设备常常面临着不可预期的故障,因此故障管理与诊断成为系统管理的核心组成部分。目前公开研究的图形处理中,未发现有针对GPU故障管理的相关内容。
发明内容
本发明的目的是:本发明主要提供一种基于有限状态机的GPU故障管理方法,保证图形设备在出现故障时能准确定位,快速解决,保障系统运行的稳定。
本发明的解决方案是:
一种基于有限状态机的GPU故障管理方法,所述方法基于以下设备或模块实现:图形处理设备1、状态获取模块2、故障决策模块3、故障处理模块4;
所述图形处理设备1,包括图形处理的若干个功能单元,其功能单元配合进行图形流水操作,完成图形任务处理过程;
所述状态获取模块2,包括主动上报和状态采集两种获取方式,采用分布式感知的方法,在图形处理设备1的功能单元分布感知点,收集该单元的运行状态,并上报给故障决策模块3;
所述故障决策模块3,包括统一决策单元和故障量化单元两部分,故障量化单元接收状态获取模块2发送的运行状态信息,根据运行状态及当前的系统配置信息,对该运行状态信息进行量化,采用有限状态机方式给出相应的故障等级,并发送结果到统一决策单元,统一决策单元根据所有功能单元上报的故障信息进行统一决策,交由故障处理模块4进行处理;
所述故障处理模块4,根据故障决策模块3发送的故障等级,生成相应的故障处理事件,交由图形处理设备1的各功能单元进行故障处理。
本发明的优点是:本发明提供的一种基于有限状态机的GPU故障管理方法,分布式感知故障,采用层次化集中决策方法,将故障按照有限状态进行分类,上报当前的系统运行状态,决策单元进行决策后,进行故障处理。
附图说明
图1为本发明基于有限状态机的GPU故障管理方法的模块及流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图和具体实施例对本发明的技术方案做进一步详细描述。
如图1所示,一种基于有限状态机的GPU故障管理方法,所述方法基于以下设备或模块实现:图形处理设备1、状态获取模块2、故障决策模块3、故障处理模块4;
所述图形处理设备1,包括图形处理的若干个功能单元,如顶点处理单元、几何处理单元、光栅化单元、统一染色阵列单元、存储单元等,其功能单元配合进行图形流水操作,完成图形任务处理过程;
所述状态获取模块2,包括主动上报和状态采集两种获取方式,主动上报可采用中断方式,如当功能单元产生故障信息时产生中断,报告当前状态,状态采集可采用周期采集各模块的状态信息的方式。采用分布式感知的方法,在图形处理设备1的功能单元分布感知点,收集该单元的运行状态,并上报给故障决策模块3;
所述故障决策模块3,包括统一决策单元和故障量化单元两部分,故障量化单元接收状态获取模块2发送的运行状态信息,根据运行状态及当前的系统配置信息,对该运行状态信息进行量化,采用有限状态机方式给出相应的故障等级,并发送结果到统一决策单元,统一决策单元根据所有功能单元上报的故障信息进行统一决策,交由故障处理模块4进行处理;如某功能单元包括100个染色内核,但当前配置仅开启50个,当某些内核故障时,该功能单元汇报当前有多少个内核可正常工作,然后根据当前工作的内核数决定当前系统是否能够正常工作。
所述故障处理模块4,根据故障决策模块3发送的故障等级,生成相应的故障处理事件,交由图形处理设备1的各功能单元进行故障处理。如当图形处理设备1中图形处理关键路径上的功能单元发生偶发故障,则需要重启,如冗余资源发生故障,则可以在降低性能的情况下使图形处理设备正常工作。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细地说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (1)

1.一种基于有限状态机的GPU故障管理方法,其特征为:所述方法基于以下设备或模块实现:图形处理设备(1)、状态获取模块(2)、故障决策模块(3)、故障处理模块(4);
所述图形处理设备(1),包括图形处理的若干个功能单元,其功能单元配合进行图形流水操作,完成图形任务处理过程;
所述状态获取模块(2),包括主动上报和状态采集两种获取方式,采用分布式感知的方法,在图形处理设备(1)的功能单元分布感知点,收集该单元的运行状态,并上报给故障决策模块(3);
所述故障决策模块(3),包括统一决策单元和故障量化单元两部分,故障量化单元接收状态获取模块(2)发送的运行状态信息,根据运行状态及当前的系统配置信息,对该运行状态信息进行量化,采用有限状态机方式给出相应的故障等级,并发送结果到统一决策单元,统一决策单元根据所有功能单元上报的故障信息进行统一决策,交由故障处理模块(4)进行处理;
所述故障处理模块(4),根据故障决策模块(3)发送的故障等级,生成相应的故障处理事件,交由图形处理设备(1)的各功能单元进行故障处理。
CN201711202637.9A 2017-11-24 2017-11-24 一种基于有限状态机的gpu故障管理方法 Active CN108021463B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711202637.9A CN108021463B (zh) 2017-11-24 2017-11-24 一种基于有限状态机的gpu故障管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711202637.9A CN108021463B (zh) 2017-11-24 2017-11-24 一种基于有限状态机的gpu故障管理方法

Publications (2)

Publication Number Publication Date
CN108021463A CN108021463A (zh) 2018-05-11
CN108021463B true CN108021463B (zh) 2021-07-16

Family

ID=62077336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711202637.9A Active CN108021463B (zh) 2017-11-24 2017-11-24 一种基于有限状态机的gpu故障管理方法

Country Status (1)

Country Link
CN (1) CN108021463B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108650134B (zh) * 2018-05-14 2021-06-04 周怡颋 网络故障定位的方法、装置及电子设备
CN111045929B (zh) * 2019-11-18 2023-06-09 中国航空工业集团公司西安航空计算技术研究所 一种超长图形流水线层次化调试方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819411A (zh) * 2010-03-17 2010-09-01 燕山大学 一种基于gpu的改进加权关联规则的设备故障预警与诊断方法
CN103377094A (zh) * 2012-04-12 2013-10-30 金蝶软件(中国)有限公司 异常监测方法和装置
CN105988918A (zh) * 2015-02-26 2016-10-05 阿里巴巴集团控股有限公司 预测gpu故障的方法和装置
CN106104483A (zh) * 2014-03-14 2016-11-09 Arm有限公司 微处理器系统中的异常处理

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8666688B2 (en) * 2005-01-27 2014-03-04 Electro Industries/Gauge Tech High speed digital transient waveform detection system and method for use in an intelligent electronic device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101819411A (zh) * 2010-03-17 2010-09-01 燕山大学 一种基于gpu的改进加权关联规则的设备故障预警与诊断方法
CN103377094A (zh) * 2012-04-12 2013-10-30 金蝶软件(中国)有限公司 异常监测方法和装置
CN106104483A (zh) * 2014-03-14 2016-11-09 Arm有限公司 微处理器系统中的异常处理
CN105988918A (zh) * 2015-02-26 2016-10-05 阿里巴巴集团控股有限公司 预测gpu故障的方法和装置

Also Published As

Publication number Publication date
CN108021463A (zh) 2018-05-11

Similar Documents

Publication Publication Date Title
CN111049705B (zh) 一种监控分布式存储系统的方法及装置
CN103092746B (zh) 线程异常的定位方法及系统
EP3148116B1 (en) Information system fault scenario information collection method and system
CN102937930B (zh) 应用程序监控系统及方法
CN103605722A (zh) 数据库监控方法及装置、设备
CN105095001A (zh) 分布式环境下虚拟机异常恢复方法
CN109067597A (zh) 一种分布式系统动态智能服务治理方法
CN105243004A (zh) 一种故障资源检测方法及装置
CN101136799B (zh) 一种实现通讯设备故障集中告警处理的方法
CN103746838B (zh) 一种无中心节点计算机网络的任务调度方法
CN105162632A (zh) 一种服务器集群故障自动处理系统
CN112380089A (zh) 一种数据中心监控预警方法及系统
CN108021463B (zh) 一种基于有限状态机的gpu故障管理方法
CN104394194A (zh) 一种基于PaaS平台的云系统运维监控方法及系统
CN109884475A (zh) 一种电网故障检测方法、装置、系统及存储介质
CN109766198B (zh) 流式处理方法、装置、设备及计算机可读存储介质
CN109240863A (zh) 一种cpu故障定位方法、装置、设备及存储介质
DE102017208293A1 (de) Industrielle Einrichtungsverwaltungssysteme und Verfahren dafür
Liao et al. Data-driven Machinery Prognostics Approach using in a Predictive Maintenance Model.
CN111224819A (zh) 分布式消息系统
CN103326880B (zh) Genesys呼叫系统高可用性云计算监控系统及方法
CN112260902B (zh) 网络设备监控方法、装置、设备及存储介质
CN113391611B (zh) 动力环境监控系统的预警方法、装置及系统
CN109359800B (zh) 一种配电自动化主站系统运行状态的评价方法及系统
CN114090382B (zh) 超融合集群健康巡检方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant