CN113777476B - 一种gpu故障诊断系统、诊断方法、设备及可读存储介质 - Google Patents

一种gpu故障诊断系统、诊断方法、设备及可读存储介质 Download PDF

Info

Publication number
CN113777476B
CN113777476B CN202111007288.1A CN202111007288A CN113777476B CN 113777476 B CN113777476 B CN 113777476B CN 202111007288 A CN202111007288 A CN 202111007288A CN 113777476 B CN113777476 B CN 113777476B
Authority
CN
China
Prior art keywords
gpu
module
log
fault
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111007288.1A
Other languages
English (en)
Other versions
CN113777476A (zh
Inventor
张健
陈彬
刘海洲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202111007288.1A priority Critical patent/CN113777476B/zh
Publication of CN113777476A publication Critical patent/CN113777476A/zh
Application granted granted Critical
Publication of CN113777476B publication Critical patent/CN113777476B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01RMEASURING ELECTRIC VARIABLES; MEASURING MAGNETIC VARIABLES
    • G01R31/00Arrangements for testing electric properties; Arrangements for locating electric faults; Arrangements for electrical testing characterised by what is being tested not provided for elsewhere
    • G01R31/28Testing of electronic circuits, e.g. by signal tracer
    • G01R31/30Marginal testing, e.g. by varying supply voltage
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明公开了一种GPU故障诊断系统、诊断方法、设备及可读存储介质,诊断系统包括,一键日志收集模块:用于实现一键收集系统带内日志、GPU故障日志及GPU运行状态指标文件;故障日志巡检模块:对GPU日志进行巡检,输出故障信息并给出处理建议;GPU实时状态检测模块:用于一键检测GPU实时运行状态,自动发现故障并给出处理建议;GPU压力测试模块:用于GPU疑难故障的诊断;GPU驱动一键更换模块:用于GPU驱动版本的一键更换;日志模块:用于日志的输出及保存;GPU驱动模块,用于保障GPU的运行。可实现一键日志收集、故障日志巡检、GPU实时状态检测、GPU压力测试、GPU驱动一键更换及提供处理建议等功能,便于工程师现场定位故障及收集日志后反馈后台处理。

Description

一种GPU故障诊断系统、诊断方法、设备及可读存储介质
技术领域
本发明涉及GPU故障诊断技术领域,尤其涉及一种GPU故障诊断系统、诊断方法、设备及可读存储介质。
背景技术
目前人工智能相关领域发展迅速,AI服务器市场保有量激增,GPU(图形处理器,英语:Graphics Processing Unit,缩写:GPU))的快速故障诊断也成为服务器售后服务中重要的一环,目前GPU故障诊断存在以下问题:
现场运维人员/第三方工程师技术水平参差不齐,需要长时间的培训及实践才能胜任GPU故障诊断工作,存在GPU故障诊断花费时间长、故障判断准确度低等问题。
客户不允许登录OS后进行GPU故障排查,根据带外日志(通过服务器BMC管理口获取到的监控日志)定位GPU故障异常困难。
现有技术中,故障判断的方法有:根据服务器带外日志进行GPU故障判断;根据客户提供的带内日志(服务器OS下的日志)进行GPU故障判断;根据客户报修描述进行GPU故障判断。
根据服务器带外日志进行GPU故障判断时,因为目前服务器带外日志无法有效监控GPU运行状态,故障诊断准确率低。
根据客户提供的带内日志进行GPU故障判断时,因客户技术水平差异,客户提供的带内日志存在日志收集不全的情况,无法准确定位GPU故障。
根据客户报修描述进行GPU故障判断时,不同客户对GPU故障描述方式不统一,且描述准确性差,对故障定位带来极大困扰。
另外,多数客户不允许登录OS进行故障排查、不提供带内日志。现场工程师技术水平参差不齐、GPU故障诊断方法及工具使用复杂。
发明内容
本发明的目的就是为了解决上述问题,提供一种GPU故障诊断系统、诊断方法、设备及可读存储介质,可实现一键日志收集、故障日志巡检、GPU实时状态检测、GPU压力测试、GPU驱动一键更换及提供处理建议等功能,便于工程师现场定位故障及收集日志后反馈后台处理。
为了实现上述目的,本发明采用如下技术方案:
一种GPU故障诊断系统,包括:
一键日志收集模块:用于实现一键收集系统带内日志、GPU故障日志及GPU运行状态指标文件;
故障日志巡检模块:对GPU日志进行巡检,输出故障信息并给出处理建议;
GPU实时状态检测模块:用于一键检测GPU实时运行状态,自动发现故障并给出处理建议;
GPU压力测试模块:用于GPU疑难故障的诊断;
GPU驱动一键更换模块:用于GPU驱动版本的一键更换;
GPU驱动模块,用于保障GPU的运行。
还包括辅助引导模块,为一键日志收集模块、故障日志巡检模块、GPU实时状态检测模块或GPU压力测试模块定制引导菜单及说明,并根据检测到的故障给出处理建议。
所述故障日志巡检模块接收故障诊断策略,并对GPU日志进行巡检,输出故障信息并给出处理建议。
所述GPU压力测试模块集成多种GPU压测工具并实现一键调用。
所述GPU驱动一键更换模块可接收多个版本的驱动包,用于实现GPU驱动版本的一键更换,完成对多种型号GPU的适配及快速诊断。
采用所述一种GPU故障诊断系统的诊断方法,包括:
步骤一、判断GPU的驱动是否适配,如果不适配则利用GPU驱动一键更换模块更换驱动,如果适配则进入步骤二;
步骤二、根据需要进行功能选择;
步骤三、保存结果、保存日志并且输出诊断及维修建议。
所述步骤二中的功能选择包括选择一键日志收集模块、故障日志巡检模块、GPU实时状态检测模块或GPU压力测试模块。
当选择一键日志收集模块时,则执行一键收集系统日志的步骤;
当选择故障日志巡检模块时,则执行对GPU日志进行巡检,输出故障信息并给出处理建议的步骤;
当选择GPU实时状态检测模块时,则执行一键检测GPU实时运行状态,自动发现故障并给出处理建议的步骤;
当选择GPU压力测试模块时,则执行GPU疑难故障的诊断的步骤。
一种设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述采用所述一种GPU故障诊断系统的诊断方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述采用所述一种GPU故障诊断系统的诊断方法的步骤。
本发明的有益效果:
1、满足机房运维需求:可以在不登录客户OS的前提下对GPU故障进行快速诊断。
2、兼容性强,具有GPU驱动一键更换模块,可兼容各型号GPU。
3、学习成本低:GPU故障诊断及各故障定位工具的使用对工程师技术水平要求较高,本发明可以降低对工程师本身的技术要求。
4、提高故障诊断效率及准确度:通过后台导入故障诊断策略及多种检测手段,提高故障诊断效率及准确度。
附图说明
图1为本发明的系统图;
图2为本发明的工作流程图;
图3为本发明的应用界面示意图;
图4为本发明的菜单选择示意图;
图5为本发明的检测结果示例图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
本实施例中,给出一款用于x86服务器的一种GPU故障诊断系统(本实施例中简称为AI EasyCfg,缩写于Artificial Intelligence Easy Configure),适用于NVIDIA GPU状态检测及功能测试,可提高现场工程师工作效率及GPU故障判断准确率。具有人性化交互、一键日志收集、故障日志诊断、GPU实时状态检测及压力测试、故障处理建议等功能。
本实施例中,如图1所示,在linux OS下构建了一种GPU故障诊断系统,计算机系统采用CUDA(Compute Unified Device Architecture),是显卡厂商NVIDIA推出的运算平台,一种通用并行计算架构,该架构使GPU能够解决复杂的计算问题;主要由以下部分构成:
辅助引导模块:为各功能模块定制了引导菜单及说明,并根据检测到的故障给出处理建议。
功能模块:完成日志收集、GPU实时状态检测、故障日志巡检、GPU压力测试功能。
日志模块:日志输出及保存。
其中,一键日志收集模块:可实现一键收集系统带内日志、GPU故障日志、GPU运行状态指标文件等,收集日志快速、便捷、齐全。
故障日志巡检模块:可导入故障诊断策略,对本机及其他客户端导出的GPU日志进行巡检,输出故障信息并给出处理建议。
GPU实时状态检测模块:可一键检测GPU实时运行状态、自动发现故障并给出处理建议。
GPU压力测试模块:集成多种GPU压测工具并实现一键调用,可用于GPU疑难故障诊断。
GPU驱动一键更换模块:可通过上传特定版本的驱动包,实现GPU驱动版本一键更换,完成对各种型号GPU的适配及快速诊断。
满足机房运维需求:可引导进入U盘LinuxPE使用或在客户Linux OS下直接调用,满足多数客户不允许登录OS的检测要求。
本发明的诊断系统可集成于linux PE iso镜像中,可直接刻录至U盘后引导进入linux PE,便于现场无法登录客户OS的维护场景使用。也可单独上传本系统至客户linuxOS下使用。
采用所述一种GPU故障诊断系统的诊断方法,如图2所示,包括:
步骤一、判断GPU的驱动是否适配,如果不适配则利用GPU驱动一键更换模块更换驱动,如果适配则进入步骤二;
步骤二、根据需要进行功能选择;
步骤三、保存结果、保存日志并且输出诊断及维修建议。
所述步骤二中的功能选择包括选择一键日志收集模块、故障日志巡检模块、GPU实时状态检测模块或GPU压力测试模块。
当选择一键日志收集模块时,则执行一键收集系统日志的步骤;
当选择故障日志巡检模块时,则执行对GPU日志进行巡检,输出故障信息并给出处理建议的步骤;
当选择GPU实时状态检测模块时,则执行一键检测GPU实时运行状态,自动发现故障并给出处理建议的步骤;
当选择GPU压力测试模块时,则执行GPU疑难故障的诊断的步骤。
一种设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现所述采用所述一种GPU故障诊断系统的诊断方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述采用所述一种GPU故障诊断系统的诊断方法的步骤。
本发明操作实例
由linux PE引导后,会自动进入工具引导界面,如图3所示,选择不同菜单进入各功能模块,如图4所示,GPU实时状态检测并给出处理建议示例,如图5所示。
本发明学习成本低:辅助引导提供了引导界面、傻瓜式交互模式,运维人员只需要具备简单的英文及linux操作技能即可掌握该工具的使用方法。
故障诊断方法齐全:本发明可实现一键日志收集、故障日志巡检、GPU实时状态检测、GPU压力测试、GPU驱动一键更换、提供处理建议等功能,便于工程师现场定位故障及收集日志后反馈后台处理。
多场景使用:可引导进入U盘LinuxPE使用或在客户Linux OS下直接调用,满足多数客户不允许登录OS的故障排查要求。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (8)

1.一种GPU故障诊断系统的诊断方法,其特征是,其中一种GPU故障诊断系统包括:
一键日志收集模块:用于实现一键收集系统带内日志、GPU故障日志及GPU运行状态指标文件;
故障日志巡检模块:对GPU日志进行巡检,输出故障信息并给出处理建议;
GPU实时状态检测模块:用于一键检测GPU实时运行状态,自动发现故障并给出处理建议;
GPU压力测试模块:用于GPU疑难故障的诊断;
GPU驱动一键更换模块:用于GPU驱动版本的一键更换;
日志模块:用于日志的输出及保存;
GPU驱动模块,用于保障GPU的运行;
所述诊断方法包括:
步骤一、判断GPU的驱动是否适配,如果不适配则利用GPU驱动一键更换模块更换驱动,如果适配则进入步骤二;
步骤二、根据需要进行功能选择;功能选择包括选择一键日志收集模块、故障日志巡检模块、GPU实时状态检测模块或GPU压力测试模块;
步骤三、保存结果、保存日志并且输出诊断及维修建议。
2.如权利要求1所述一种GPU故障诊断系统的诊断方法,其特征是,还包括辅助引导模块,为一键日志收集模块、故障日志巡检模块、GPU实时状态检测模块或GPU压力测试模块定制引导菜单及说明,并根据检测到的故障给出处理建议。
3.如权利要求1所述一种GPU故障诊断系统的诊断方法,其特征是,所述故障日志巡检模块接收故障诊断策略,并对GPU日志进行巡检,输出故障信息并给出处理建议。
4.如权利要求1所述一种GPU故障诊断系统的诊断方法,其特征是,所述GPU压力测试模块集成多种GPU压测工具并实现一键调用。
5.如权利要求1所述一种GPU故障诊断系统的诊断方法,其特征是,所述GPU驱动一键更换模块可接收多个版本的驱动包,用于实现GPU驱动版本的一键更换,完成对多种型号GPU的适配及快速诊断。
6.如权利要求1所述的一种GPU故障诊断系统的诊断方法,其特征是,当选择一键日志收集模块时,则执行一键收集系统日志的步骤;
当选择故障日志巡检模块时,则执行对GPU日志进行巡检,输出故障信息并给出处理建议的步骤;
当选择GPU实时状态检测模块时,则执行一键检测GPU实时运行状态,自动发现故障并给出处理建议的步骤;
当选择GPU压力测试模块时,则执行GPU疑难故障的诊断的步骤。
7.一种设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-6任意一项所述一种GPU故障诊断系统的诊断方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6任意一项所述一种GPU故障诊断系统的诊断方法的步骤。
CN202111007288.1A 2021-08-30 2021-08-30 一种gpu故障诊断系统、诊断方法、设备及可读存储介质 Active CN113777476B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111007288.1A CN113777476B (zh) 2021-08-30 2021-08-30 一种gpu故障诊断系统、诊断方法、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111007288.1A CN113777476B (zh) 2021-08-30 2021-08-30 一种gpu故障诊断系统、诊断方法、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN113777476A CN113777476A (zh) 2021-12-10
CN113777476B true CN113777476B (zh) 2024-02-23

Family

ID=78840037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111007288.1A Active CN113777476B (zh) 2021-08-30 2021-08-30 一种gpu故障诊断系统、诊断方法、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113777476B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009045441A1 (en) * 2007-10-03 2009-04-09 Eastman Kodak Company Image storage system, device and method
CN102763081A (zh) * 2010-01-06 2012-10-31 苹果公司 图形处理单元间基于策略的切换
CN105868097A (zh) * 2015-01-22 2016-08-17 阿里巴巴集团控股有限公司 系统测试方法及其装置
CN109388623A (zh) * 2018-11-02 2019-02-26 郑州云海信息技术有限公司 一种设备故障检测的方法、系统及相关组件
CN109491819A (zh) * 2018-11-01 2019-03-19 郑州云海信息技术有限公司 一种诊断服务器故障的方法和系统
CN110399252A (zh) * 2019-07-19 2019-11-01 广东浪潮大数据研究有限公司 一种数据备份方法、装置、设备及计算机可读存储介质
CN111290913A (zh) * 2020-02-04 2020-06-16 复旦大学 一种基于运维数据预测的故障定位可视化系统和方法
CN111459731A (zh) * 2020-03-13 2020-07-28 苏州浪潮智能科技有限公司 一种图形处理器稳定性测试方法及系统
CN111694719A (zh) * 2020-06-10 2020-09-22 腾讯科技(深圳)有限公司 服务器故障处理方法、装置、存储介质及电子设备
CN112988444A (zh) * 2021-03-25 2021-06-18 腾讯科技(深圳)有限公司 用于服务器集群故障诊断的处理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8732530B2 (en) * 2011-09-30 2014-05-20 Yokogawa Electric Corporation System and method for self-diagnosis and error reporting

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009045441A1 (en) * 2007-10-03 2009-04-09 Eastman Kodak Company Image storage system, device and method
CN102763081A (zh) * 2010-01-06 2012-10-31 苹果公司 图形处理单元间基于策略的切换
CN105868097A (zh) * 2015-01-22 2016-08-17 阿里巴巴集团控股有限公司 系统测试方法及其装置
CN109491819A (zh) * 2018-11-01 2019-03-19 郑州云海信息技术有限公司 一种诊断服务器故障的方法和系统
CN109388623A (zh) * 2018-11-02 2019-02-26 郑州云海信息技术有限公司 一种设备故障检测的方法、系统及相关组件
CN110399252A (zh) * 2019-07-19 2019-11-01 广东浪潮大数据研究有限公司 一种数据备份方法、装置、设备及计算机可读存储介质
CN111290913A (zh) * 2020-02-04 2020-06-16 复旦大学 一种基于运维数据预测的故障定位可视化系统和方法
CN111459731A (zh) * 2020-03-13 2020-07-28 苏州浪潮智能科技有限公司 一种图形处理器稳定性测试方法及系统
CN111694719A (zh) * 2020-06-10 2020-09-22 腾讯科技(深圳)有限公司 服务器故障处理方法、装置、存储介质及电子设备
CN112988444A (zh) * 2021-03-25 2021-06-18 腾讯科技(深圳)有限公司 用于服务器集群故障诊断的处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
全系统故障诊断策略及应用;奚文骏 等;电子测量与仪器学报(第S2期);第179-182页 *

Also Published As

Publication number Publication date
CN113777476A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
US10288043B2 (en) Wind turbine condition monitoring method and system
US20180107196A1 (en) Method of Detecting Home Appliance Bus Control System
CN104317709B (zh) 软件性能测试方法和系统
US8112669B2 (en) Wireless diagnostic system
JPS6040043B2 (ja) 計算機制御工作機械の監視および診断動作を実行する方法および装置
US11233713B2 (en) Controller area network and connectivity health troubleshooting system
KR101966962B1 (ko) 휴대폰 음성 방식을 기반으로 한 자동차 진단 방법
CN102855184B (zh) 一种Android自动测试跨应用的装置及方法
CN102736615A (zh) 汽车故障诊断方法
CN103558955B (zh) 基于多对象多状态显示器的多对象状态监测方法及系统
CN107479540A (zh) 故障诊断方法以及系统
CN110851396A (zh) 一种基于建模平台微服务架构统一日志设计方法
CN112073263A (zh) 白盒交换机可靠性测试监测方法、系统、设备及介质
CN113777476B (zh) 一种gpu故障诊断系统、诊断方法、设备及可读存储介质
CN113503289A (zh) 一种液压马达故障检测方法、装置、系统及挖掘机
JP3479268B2 (ja) 設備点検端末
CN115440364B (zh) 一种基于人工智能的真空机组运行智能管理方法及系统
CN113386976B (zh) 一种大型飞机燃油系统全模试验方法
CN109254573A (zh) 电控柴油机故障诊断系统
CN111200315B (zh) 一种变电站监控后台故障诊断系统和方法
CN113325297A (zh) 一种芯片系统级测试系统和方法
CN215178538U (zh) 一种用于设备故障诊断的精密分析管理装置
CN110816886B (zh) 一种基于LabVIEW的机轮冷却装置测试系统及其测试方法
CN115695276B (zh) 一种海洋环境感知系统的状态测试诊断方法及其系统
CN116990702A (zh) 一种绕包机器人的模块式功能检测方法、系统、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant