CN109388623A - 一种设备故障检测的方法、系统及相关组件 - Google Patents

一种设备故障检测的方法、系统及相关组件 Download PDF

Info

Publication number
CN109388623A
CN109388623A CN201811301340.2A CN201811301340A CN109388623A CN 109388623 A CN109388623 A CN 109388623A CN 201811301340 A CN201811301340 A CN 201811301340A CN 109388623 A CN109388623 A CN 109388623A
Authority
CN
China
Prior art keywords
critical field
information
critical
undetermined
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811301340.2A
Other languages
English (en)
Inventor
张鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201811301340.2A priority Critical patent/CN109388623A/zh
Publication of CN109388623A publication Critical patent/CN109388623A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance

Landscapes

  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本申请公开了一种设备故障检测的方法,所述方法包括获取目标设备的日志信息;利用关键字段集合确定所述日志信息中与所述关键字段集合的异常关键字段和/或错误关键字段匹配的待定信息,并根据所有所述待定信息构建待过滤集合;利用白名单删除所述待过滤故障集合中与所述白名单的目标关键字段匹配的待定信息,得到故障集合;根据所述故障集合对所述目标设备执行故障检测操作。本方法能够提高设备故障检测过程的检测准确率、避免出现误检的现象。本申请还公开了一种设备故障检测的系统、一种计算机可读存储介质及一种服务器,具有以上有益效果。

Description

一种设备故障检测的方法、系统及相关组件
技术领域
本发明涉及服务器测试技术领域,特别涉及一种设备故障检测的方法、系统、一种计算机可读存储介质及一种服务器。
背景技术
在当前服务器生产过程中,组装成整机后都要进行一系列测试,包括整机配置检查测试、功能测试和老化压力测试,以保证待出货整机配置符合要求、功能良好且性能稳定。该一系列测试,业界普遍称为诊断测试。每一台整机只有经过严格的诊断测试通过后,才能出货。在诊断测试中,服务器的健康检查最一种非常重要的测试,即在服务器老化测试前的正常调试阶段以及老化压力测试完成后都需要对服务器的日志信息进行一系列的检查,以便能够及时发现服务器在正常运行以及老化压力测试后所出现的异常及错误信息,通过拿到的异常及错误信息进行分析,定位服务器的问题根源进行维修处理,以保证出货的服务器功能正常、性能良好。而当前常用的压测日志检查方法大都基于关键字段集合式的强过滤检查方法,即在服务器系统日志中对已知的错误关键字段进行检索,如果检索到已知的错误关键字段则认为该服务器存在异常,需要进行维修处理。但是这种关键字段集合式的存在检测准确率较低的问题。
因此,如何提高设备故障检测过程的检测准确率、避免出现误检的现象是本领域技术人员目前需要解决的技术问题。
发明内容
本申请的目的是提供一种设备故障检测的方法、系统、一种计算机可读存储介质及一种服务器,能够提高设备故障检测过程的检测准确率、避免出现误检的现象。
为解决上述技术问题,本申请提供一种设备故障检测的方法,该方法包括:
获取目标设备的日志信息;
利用关键字段集合确定所述日志信息中与所述关键字段集合的异常关键字段和/或错误关键字段匹配的待定信息,并根据所有所述待定信息构建待过滤集合;
利用白名单删除所述待过滤故障集合中与所述白名单的目标关键字段匹配的待定信息,得到故障集合;
根据所述故障集合对所述目标设备执行故障检测操作。
可选的,在获取目标设备的日志信息之前,还包括:
获取所述异常关键字段和所述错误关键字段,并利用所有所述异常关键字段和所有所述错误关键字段构建所述关键字段集合。
可选的,在获取目标设备的日志信息之前,还包括:
获取所述目标关键字段,并利用所有所述目标关键字段构建所述白名单。
可选的,在得到故障集合后,还包括;
上传所述故障集合,以便根据所述故障集合中的待定信息进行维修操作。
可选的,所述目标设备为服务器。
可选的,所述日志信息为所述服务器调试结束后或老化压力测试完成后产生的日志信息。
可选的,还包括:
当接收到过滤名单修改指令时,根据所述过滤名单修改指令更新所述白名单和/或所述关键字段集合。
本申请还提供了一种设备故障检测的系统,该系统包括:
信息获取模块,用于获取目标设备的日志信息;
故障匹配模块,用于利用关键字段集合确定所述日志信息中与所述关键字段集合的异常关键字段和/或错误关键字段匹配的待定信息,并根据所有所述待定信息构建待过滤集合;
反向匹配模块,用于利用白名单删除所述待过滤故障集合中与所述白名单的目标关键字段匹配的待定信息,得到故障集合;
故障检测模块,用于根据所述故障集合对所述目标设备执行故障检测操作。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序执行时实现上述设备故障检测的方法执行的步骤。
本申请还提供了一种服务器,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现上述设备故障检测的方法执行的步骤。
本发明提供了一种设备故障检测的方法,包括获取目标设备的日志信息;利用关键字段集合确定所述日志信息中与所述关键字段集合的异常关键字段和/或错误关键字段匹配的待定信息,并根据所有所述待定信息构建待过滤集合;利用白名单删除所述待过滤故障集合中与所述白名单的目标关键字段匹配的待定信息,得到故障集合;根据所述故障集合对所述目标设备执行故障检测操作。
本申请先通过关键字段集合将目标设备的日志信息中与错误关键字段匹配的信息设置为待定信息,在利用白名单中的目标关键字段将允许出现的关键字段对应的待定信息进行过滤,得到故障集合。本申请利用关键字段集合中的错误关键字段匹配与白名单中的目标关键字段的反向匹配获得日志信息中不允许出现的故障集合,以便利用该故障集合实现设备故障检测。因此,本申请可以提高设备故障检测过程的检测准确率、避免出现误检的现象。本申请同时还提供了一种设备故障检测的系统、一种计算机可读存储介质和一种服务器,具有上述有益效果,在此不再赘述。
附图说明
为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例所提供的一种设备故障检测的方法的流程图;
图2为本申请实施例所提供的一种设备故障检测的系统的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面请参见图1,图1为本申请实施例所提供的一种设备故障检测的方法的流程图。
具体步骤可以包括:
S101:获取目标设备的日志信息;
其中,通过分析目标设备的日志信息可以确定该目标设备是否存在故障,因此本实施例为了进行设备故障检测,首先获取目标设备的日志信息。此处并不限定目标设备具体为何种设备,可以是服务器、防火墙、等保一体机等设备。当目标设备为服务器时,日志信息可以为所述服务器调试结束后或老化压力测试完成后产生的日志信息。
S102:利用关键字段集合确定所述日志信息中与所述关键字段集合的异常关键字段和/或错误关键字段匹配的待定信息,并根据所有所述待定信息构建待过滤集合;
其中,本实施例中默认在S102之前存在构建关键集合的操作,例如可以获取所述异常关键字段和所述错误关键字段,并利用所有所述异常关键字段和所有所述错误关键字段构建所述关键字段集合。需要说明的是,本实施例中提到的关键字段集合是所有可能说明目标设备存在故障的异常关键字段或错误关键字段的集合,当日志信息中存在与关键字段集合匹配的待定信息时,说明目标设备可能会存在故障;而当目标设备存在故障时,目标涉笔的日志信息中一定会存在与关键字段集合的异常关键字段和/或错误关键字段匹配的待定信息。
本步骤的目的在于将日志信息中所有存在故障可能信息进行匹配,也就是说,在本步骤中会先按照一个“审核严格程度”相对较高的过滤标准对日志信息进行过滤得到待过滤集合。待过滤集合中的待定信息并不一定全是故障信息,但是日志信息中的故障信息一定存在于待定信息中,因此再通过下一步骤的白名单范过滤操作,可以将待过滤集合中的非故障信息滤除掉,留在待过滤信息中的待定信息为最终得到的故障信息。
S103:利用白名单删除所述待过滤故障集合中与所述白名单的目标关键字段匹配的待定信息,得到故障集合;
其中,本实施例中默认在S103之前可以存在构建白名单的操作,例如获取所述目标关键字段,并利用所有所述目标关键字段构建所述白名单。白名单是中的目标关键字段为日志信息中允许出现的内容,即使目标关键字段在S102中的关键字段集合为常关键字段或错误关键字段,本实施例也可以将其视为正常的信息。
本步骤建立在S102已经按照一个“审核严格程度”相对较高的过滤标准(即关键字段集合)对日志信息进行过滤得到待过滤集合的基础上,利用白名单将删除待过滤故障集合中与所述白名单的目标关键字段匹配的待定信息。
举例说明上述过程,日志信息为:(1)ABc,(2)bcD,(3)cde;关键字段集合包括(1)B,(2)D;因此利用关键字段集合确定所述日志信息中与所述关键字段集合的异常关键字段和/或错误关键字段匹配的待定信息为(1)ABc,(2)bcD。白名单中的目标关键字段为(1)Bc;故利用白名单删除所述待过滤故障集合中与所述白名单的目标关键字段匹配的待定信息(1)ABc,得到故障集合。故障集合中为(2)bcD。
S104:根据所述故障集合对所述目标设备执行故障检测操作。
其中,在得到故障集合的基础上,可以对故障集合中的信息进行故障检测检测操作。本实施例先通过关键字段集合将目标设备的日志信息中与错误关键字段匹配的信息设置为待定信息,在利用白名单中的目标关键字段将允许出现的关键字段对应的待定信息进行过滤,得到故障集合。本申请利用关键字段集合中的错误关键字段匹配与白名单中的目标关键字段的反向匹配获得日志信息中不允许出现的故障集合,以便利用该故障集合实现设备故障检测。因此,本实施例可以提高设备故障检测过程的检测准确率、避免出现误检的现象。
作为一种优选的实施方式,在得到故障集合后,还包括以下操作:
上传所述故障集合,以便维护人员根据所述故障集合中的待定信息进行维修操作。
作为一种优选的实施方式,还可以在当接收到过滤名单修改指令时,根据所述过滤名单修改指令更新所述白名单和/或所述关键字段集合。这种优选的实施方式可以通过更新白名单和/或所述关键字段集合,改变对于日志信息的过滤严格程度,便于维护人员灵活实现对于服务器故障的过滤要求。
下面通过在实际应用中的实施例说明上述实施例描述的流程。
1)首先在正常调试完成或者老化压力测试完成后,提取服务器产生的日常系统日志信息,作为故障信息源,主要包括dmesg、/var/log/message、sel.log,将这些故障源信息输出到一个整体的txt日志,命名为systeminfo.txt。
2)建立故障弱性关键关键字段集合(即关键字段集合),弱性关键字段(即,异常关键字段和/或错误关键字段)如下:fail、err、fatal、critical、lockup、hang、timeout、panic、bug、unsupport、correctabl,对提取出的故障信息源进行弱过滤,即在故障过滤信息源中,先通过弱性关键词匹配将所有的可能错误提取出来,生成新的故障集合(待过滤集合)命名为newfault.txt,如cat systeminfo.txt|grep-iE
"fail|err|fatal|critical|lockup|hang|timeout|panic|bug|unsupport|correctable>
newfault.txt"。
3)建立故障白名单命名为faultwhite.cfg,详细列出可允许的错误关键字(即,目标关键字段),如:through PCIe PME interrupt、ACPI:PC、Interrupt Link|debug port、Error Record Serialization Table、signature and/or required key missing|vfio_pci:Unknown symbol、ACPI:.*used by override|acpi PNP.*ASPM、ioapic:probe.*failed with error-22、i801_smbus.*interrupt、mei_me.*initialization failed、ACPI:Using、OAPIC for inter、Disabling lock debugging due to kernel taint、PCI:Using host bridge windows from ACPI;if necessary"在生成的故障集合中,以强过滤的方式将白名单中已知是没问题或者可允许存在的故障关键字通过grep–ivE方法进行反向搜索匹配,即在故障集合中过滤出白名单中没有的错误关键字。
4)如果故障信息源经过弱过滤+白名单反向匹配后,仍然有输出,则说明当前服务器的系统日志中存在不允许的错误信息,也就说明该机器存在不允许的故障,输出报错,供研发人员确认以及维修人员维修。
5)如果研发人员对异常输出进行分析,若确认为非问题,则添加进白名单列表,若为问题,则部署解决方案供维修人员维修服务器。
6)若日常发现新的故障信息,弱过滤手段无法过滤出来,提取新的关键词作为弱过滤字段之一,在已有的故障源日志库的基础上,重复2)、3)、4)步骤。
通过上述服务器生产压测日志“弱过滤+白名单”故障检测的方法和流程,汇总所有的系统日志信息,制定弱性关键字集合以及白名单文件,不仅可以最大范围的搜索故障减少遗漏而且可以去掉不必要的故障搜索,使过滤结果更加准确,而且没有编程基础的人员也可以轻松修改白名单过滤文件,使用简单、灵活、方便等。
请参见图2,图2为本申请实施例所提供的一种设备故障检测的系统的结构示意图;
该系统可以包括:
信息获取模块100,用于获取目标设备的日志信息;
故障匹配模块200,用于利用关键字段集合确定所述日志信息中与所述关键字段集合的异常关键字段和/或错误关键字段匹配的待定信息,并根据所有所述待定信息构建待过滤集合;
反向匹配模块300,用于利用白名单删除所述待过滤故障集合中与所述白名单的目标关键字段匹配的待定信息,得到故障集合;
故障检测模块400,用于根据所述故障集合对所述目标设备执行故障检测操作。
本实施例先通过关键字段集合将目标设备的日志信息中与错误关键字段匹配的信息设置为待定信息,在利用白名单中的目标关键字段将允许出现的关键字段对应的待定信息进行过滤,得到故障集合。本实施例利用关键字段集合中的错误关键字段匹配与白名单中的目标关键字段的反向匹配获得日志信息中不允许出现的故障集合,以便利用该故障集合实现设备故障检测。因此,本实施例可以提高设备故障检测过程的检测准确率、避免出现误检的现象。
进一步的,还包括:
关键字段集合构建模块,用于获取所述异常关键字段和所述错误关键字段,并利用所有所述异常关键字段和所有所述错误关键字段构建所述关键字段集合。
进一步的,还包括:
白名单构建模块,用于获取所述目标关键字段,并利用所有所述目标关键字段构建所述白名单。
进一步的,在得到故障集合后,还包括;
上传模块,用于上传所述故障集合,以便根据所述故障集合中的待定信息进行维修操作。
进一步的,还包括:
更新模块,用于当接收到过滤名单修改指令时,根据所述过滤名单修改指令更新所述白名单和/或所述关键字段集合。
本实施例在服务器正常调试完成以及老化压力测试完成后,提取服务器产生的日常系统日志信息,作为故障信息源,然后提取出的故障信息源进行弱过滤,即在故障过滤信息源中,先通过弱性关键词(诸如error、fail、bug等)匹配将所有的可能错误提取出来,生成新的故障集合,这样可以尽可能将所有的故障信息一一列出,避免了存在的严重漏测风险。建立故障白名单过滤文件,详细列出可允许的错误关键字,这样不需要再去修改程序,没有程序基础的人维护人员也可以直接根据要求去修改白名单文件,减少开发人员的工作量,操作简单,可用性强。在生成的故障集合中,以强过滤的方式将白名单中已知是没问题或者可允许存在的故障关键字进行反向搜索匹配,即可在故障集合中过滤出白名单中没有的错误关键字,这种“弱过滤+白名单”的过滤方式不仅可以过滤掉不关心的故障信息,还能够过滤出未知的故障信息,减少漏测风险,使检测更准确。
由于系统部分的实施例与方法部分的实施例相互对应,因此系统部分的实施例请参见方法部分的实施例的描述,这里暂不赘述。
本申请还提供了一种计算机可读存储介质,其上存有计算机程序,该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请还提供了一种服务器,可以包括存储器和处理器,所述存储器中存有计算机程序,所述处理器调用所述存储器中的计算机程序时,可以实现上述实施例所提供的步骤。当然所述服务器还可以包括各种网络接口,电源等组件。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种设备故障检测的方法,其特征在于,包括:
获取目标设备的日志信息;
利用关键字段集合确定所述日志信息中与所述关键字段集合的异常关键字段和/或错误关键字段匹配的待定信息,并根据所有所述待定信息构建待过滤集合;
利用白名单删除所述待过滤故障集合中与所述白名单的目标关键字段匹配的待定信息,得到故障集合;
根据所述故障集合对所述目标设备执行故障检测操作。
2.根据权利要求1所述方法,其特征在于,在获取目标设备的日志信息之前,还包括:
获取所述异常关键字段和所述错误关键字段,并利用所有所述异常关键字段和所有所述错误关键字段构建所述关键字段集合。
3.根据权利要求1所述方法,其特征在于,在获取目标设备的日志信息之前,还包括:
获取所述目标关键字段,并利用所有所述目标关键字段构建所述白名单。
4.根据权利要求1所述方法,其特征在于,在得到故障集合后,还包括;
上传所述故障集合,以便根据所述故障集合中的待定信息进行维修操作。
5.根据权利要求1所述方法,其特征在于,所述目标设备为服务器。
6.根据权利要求1所述方法,其特征在于,所述日志信息为所述服务器调试结束后或老化压力测试完成后产生的日志信息。
7.根据权利要求1所述方法,其特征在于,还包括:
当接收到过滤名单修改指令时,根据所述过滤名单修改指令更新所述白名单和/或所述关键字段集合。
8.一种设备故障检测的系统,其特征在于,包括:
信息获取模块,用于获取目标设备的日志信息;
故障匹配模块,用于利用关键字段集合确定所述日志信息中与所述关键字段集合的异常关键字段和/或错误关键字段匹配的待定信息,并根据所有所述待定信息构建待过滤集合;
反向匹配模块,用于利用白名单删除所述待过滤故障集合中与所述白名单的目标关键字段匹配的待定信息,得到故障集合;
故障检测模块,用于根据所述故障集合对所述目标设备执行故障检测操作。
9.一种服务器,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至7任一项所述设备故障检测的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述设备故障检测的方法的步骤。
CN201811301340.2A 2018-11-02 2018-11-02 一种设备故障检测的方法、系统及相关组件 Pending CN109388623A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811301340.2A CN109388623A (zh) 2018-11-02 2018-11-02 一种设备故障检测的方法、系统及相关组件

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811301340.2A CN109388623A (zh) 2018-11-02 2018-11-02 一种设备故障检测的方法、系统及相关组件

Publications (1)

Publication Number Publication Date
CN109388623A true CN109388623A (zh) 2019-02-26

Family

ID=65428356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811301340.2A Pending CN109388623A (zh) 2018-11-02 2018-11-02 一种设备故障检测的方法、系统及相关组件

Country Status (1)

Country Link
CN (1) CN109388623A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885505A (zh) * 2019-03-21 2019-06-14 浪潮商用机器有限公司 一种故障定位的方法、系统及相关组件
WO2020199905A1 (zh) * 2019-03-29 2020-10-08 腾讯科技(深圳)有限公司 命令检测方法、装置、计算机设备以及存储介质
WO2020237877A1 (zh) * 2019-05-27 2020-12-03 平安科技(深圳)有限公司 日志监控方法、装置、终端与存储介质
CN112579471A (zh) * 2020-12-30 2021-03-30 锐捷网络股份有限公司 软件测试信息的处理方法及装置
CN112631873A (zh) * 2020-12-30 2021-04-09 平安证券股份有限公司 日志监控方法、装置、计算机设备和存储介质
CN112732568A (zh) * 2020-12-31 2021-04-30 宇龙计算机通信科技(深圳)有限公司 一种系统日志获取方法、装置、存储介质及终端
CN113220522A (zh) * 2021-04-09 2021-08-06 北京房江湖科技有限公司 服务异常自动定位方法和装置
CN113238889A (zh) * 2021-06-16 2021-08-10 展讯通信(上海)有限公司 一种漏洞的问题定位方法及装置、存储介质、终端
CN113777476A (zh) * 2021-08-30 2021-12-10 苏州浪潮智能科技有限公司 一种gpu故障诊断系统、诊断方法、设备及可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105223889A (zh) * 2015-10-13 2016-01-06 浪潮电子信息产业股份有限公司 一种适用于产线的自动监控pmc raid卡日志的方法
CN105656699A (zh) * 2016-03-29 2016-06-08 网宿科技股份有限公司 内容分发网络的告警管理方法及系统
CN106528619A (zh) * 2016-09-30 2017-03-22 国家电网公司 一种基于关键字段的交换机日志快速聚合方法
CN107066370A (zh) * 2017-04-26 2017-08-18 郑州云海信息技术有限公司 一种自动监控并收集故障硬盘日志的工具及方法
CN107783880A (zh) * 2017-09-01 2018-03-09 郑州云海信息技术有限公司 一种服务器系统的日志分析方法、装置及服务器系统
CN108011752A (zh) * 2017-11-21 2018-05-08 江苏天联信息科技发展有限公司 故障定位分析方法及装置、计算机可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105223889A (zh) * 2015-10-13 2016-01-06 浪潮电子信息产业股份有限公司 一种适用于产线的自动监控pmc raid卡日志的方法
CN105656699A (zh) * 2016-03-29 2016-06-08 网宿科技股份有限公司 内容分发网络的告警管理方法及系统
CN106528619A (zh) * 2016-09-30 2017-03-22 国家电网公司 一种基于关键字段的交换机日志快速聚合方法
CN107066370A (zh) * 2017-04-26 2017-08-18 郑州云海信息技术有限公司 一种自动监控并收集故障硬盘日志的工具及方法
CN107783880A (zh) * 2017-09-01 2018-03-09 郑州云海信息技术有限公司 一种服务器系统的日志分析方法、装置及服务器系统
CN108011752A (zh) * 2017-11-21 2018-05-08 江苏天联信息科技发展有限公司 故障定位分析方法及装置、计算机可读存储介质

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885505A (zh) * 2019-03-21 2019-06-14 浪潮商用机器有限公司 一种故障定位的方法、系统及相关组件
WO2020199905A1 (zh) * 2019-03-29 2020-10-08 腾讯科技(深圳)有限公司 命令检测方法、装置、计算机设备以及存储介质
WO2020237877A1 (zh) * 2019-05-27 2020-12-03 平安科技(深圳)有限公司 日志监控方法、装置、终端与存储介质
CN112631873B (zh) * 2020-12-30 2023-11-21 平安证券股份有限公司 日志监控方法、装置、计算机设备和存储介质
CN112631873A (zh) * 2020-12-30 2021-04-09 平安证券股份有限公司 日志监控方法、装置、计算机设备和存储介质
CN112579471A (zh) * 2020-12-30 2021-03-30 锐捷网络股份有限公司 软件测试信息的处理方法及装置
CN112579471B (zh) * 2020-12-30 2024-07-19 锐捷网络股份有限公司 软件测试信息的处理方法及装置
CN112732568A (zh) * 2020-12-31 2021-04-30 宇龙计算机通信科技(深圳)有限公司 一种系统日志获取方法、装置、存储介质及终端
CN112732568B (zh) * 2020-12-31 2024-01-05 宇龙计算机通信科技(深圳)有限公司 一种系统日志获取方法、装置、存储介质及终端
CN113220522A (zh) * 2021-04-09 2021-08-06 北京房江湖科技有限公司 服务异常自动定位方法和装置
CN113238889A (zh) * 2021-06-16 2021-08-10 展讯通信(上海)有限公司 一种漏洞的问题定位方法及装置、存储介质、终端
CN113777476A (zh) * 2021-08-30 2021-12-10 苏州浪潮智能科技有限公司 一种gpu故障诊断系统、诊断方法、设备及可读存储介质
CN113777476B (zh) * 2021-08-30 2024-02-23 苏州浪潮智能科技有限公司 一种gpu故障诊断系统、诊断方法、设备及可读存储介质

Similar Documents

Publication Publication Date Title
CN109388623A (zh) 一种设备故障检测的方法、系统及相关组件
US11494295B1 (en) Automated software bug discovery and assessment
US12001788B2 (en) Systems and methods for diagnosing problems from error logs using natural language processing
US7856575B2 (en) Collaborative troubleshooting computer systems using fault tree analysis
US7917897B2 (en) Defect resolution methodology and target assessment process with a software system
US8291379B2 (en) Runtime analysis of a computer program to identify improper memory accesses that cause further problems
WO2017124808A1 (zh) 一种故障信息的重现方法和重现装置
US20120239981A1 (en) Method To Detect Firmware / Software Errors For Hardware Monitoring
US20130014093A1 (en) Code inspection executing system for performing a code inspection of abap source codes
US6944849B1 (en) System and method for storing and reporting information associated with asserts
US20120204150A1 (en) System and method for usage pattern analysis and simulation
US20070168736A1 (en) Breakpoint groups
US20210263841A1 (en) Machine code analysis for identifying software defects
EP3047378B1 (en) Dynamic discovery of applications, external dependencies, and relationships
CN107526647A (zh) 一种故障处理方法、系统和计算机程序产品
US8381190B2 (en) Leveraging the relationship between object IDs and functions in diagnosing software defects during the post-deployment phase
Strandberg et al. Intermittently failing tests in the embedded systems domain
US9658948B2 (en) Workload mapper for potential problem areas using modules and defect data
CN103678116A (zh) 用于促进自动化程序测试的方法和系统
US11194703B2 (en) System testing infrastructure for analyzing soft failures in active environment
US11609842B2 (en) System testing infrastructure for analyzing and preventing soft failure in active environment
US11194704B2 (en) System testing infrastructure using combinatorics
CN103425576A (zh) 信息反馈的方法及终端
US20210286712A1 (en) System testing infrastructure for detecting soft failure in active environment
WO2020194000A1 (en) Method of detecting and removing defects

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190226

RJ01 Rejection of invention patent application after publication