CN115576738B - 一种基于芯片分析实现设备故障确定的方法及系统 - Google Patents

一种基于芯片分析实现设备故障确定的方法及系统 Download PDF

Info

Publication number
CN115576738B
CN115576738B CN202211572162.3A CN202211572162A CN115576738B CN 115576738 B CN115576738 B CN 115576738B CN 202211572162 A CN202211572162 A CN 202211572162A CN 115576738 B CN115576738 B CN 115576738B
Authority
CN
China
Prior art keywords
fault
jitter
chip
information
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211572162.3A
Other languages
English (en)
Other versions
CN115576738A (zh
Inventor
王嘉诚
张少仲
张栩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongcheng Hualong Computer Technology Co Ltd
Original Assignee
Zhongcheng Hualong Computer Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongcheng Hualong Computer Technology Co Ltd filed Critical Zhongcheng Hualong Computer Technology Co Ltd
Priority to CN202211572162.3A priority Critical patent/CN115576738B/zh
Publication of CN115576738A publication Critical patent/CN115576738A/zh
Application granted granted Critical
Publication of CN115576738B publication Critical patent/CN115576738B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing

Abstract

本发明提供了一种基于芯片分析实现设备故障确定的方法及系统,涉及设备故障检测技术领域,包括:目标设备执行目标操作时,获取每个目标芯片参与的执行内容以及产生的工作日志,并进行数据预处理;基于预处理后的执行内容及工作日志,确定芯片工作状态,并确定与当前芯片工作状态一致时的芯片工作参数;基于与当前工作状态一致的芯片历史抖动信息以及对应的待分析抖动计算表得到目标芯片的故障信息;基于故障信息,得到故障关联事件,确定故障等级,并对对应目标设备进行故障申报及故障处理。通过本发明的方案,可以让获得的目标设备故障情况更加精准。

Description

一种基于芯片分析实现设备故障确定的方法及系统
技术领域
本发明涉及设备故障检测技术领域,特别涉及一种基于芯片分析实现设备故障确定的方法及系统。
背景技术
目前,随着科技的发展,人们对于机器设备的要求越来越高,对于机器设备的故障判断方法也越来越多,更多的研究人员花大量时间研究怎样可以使得设备的故障判断更为精确,因此,通过芯片分析来实现设备的故障判断应运而生。
然而,受限于芯片的自身属性情况,单一的基于芯片执行故障判断会因为某些情况下芯片的不稳定性导致出现错误的判断,降低了芯片故障判断的精确性,从而影响设备的故障判断情况。
因此,本发明提出了一种基于芯片分析实现设备故障确定的方法及系统。
发明内容
本发明提供一种基于芯片分析实现设备故障确定的方法及系统,用以通过判断芯片的工作状态以及芯片工作过程中的抖动情况来综合判断芯片的故障情况,进而判断目标设备的故障情况,可以更加精确的得到芯片的故障数据,从而精准得到目标设备的故障情况。
本发明提供一种基于芯片分析实现设备故障确定的方法,包括:
步骤1:基于目标设备执行目标操作时,获取每个目标芯片参与的执行内容以及执行当前操作所产生的工作日志,并进行数据预处理;
步骤2:基于预处理后的目标芯片的执行内容及工作日志,确定当前目标芯片的芯片工作状态;
步骤3:从预设状态-参数数据库中,匹配与当前目标芯片的芯片工作状态一致的情况下所对应芯片工作参数;
步骤4:确定目标芯片处于与当前工作状态一致的情况下时的历史抖动信息,并基于历史抖动信息所对应的待分析抖动计算表进行计算,得到目标芯片的故障信息;
步骤5:基于当前目标芯片的故障信息,得到故障关联事件,确定故障等级;
步骤6:基于当前目标芯片的故障等级,确定对应目标设备的故障等级,并对对应目标设备进行故障申报及故障处理。
在一种可能实现的方式中,所述基于目标设备执行目标操作时,获取每个目标芯片参与的执行内容以及执行当前操作所产生的工作日志,并进行数据预处理,包括:
当所述目标设备执行操作时,获取所述目标设备所包含的每个目标芯片参与操作的执行内容,以及每个目标芯片在参与操作时所产生的工作日志;
对每个目标芯片涉及的执行内容以及工作日志进行数据预处理。
在一种可能实现的方式中,所述基于预处理后的目标芯片的执行内容及工作日志,确定当前目标芯片的芯片工作状态,包括:
将当前目标芯片对应的预处理后的执行内容及对应工作日志与预设芯片工作表中同个目标芯片的标准内容以及标准日志进行比较;
基于比较结果,确定所述当前目标芯片的工作状态,并传输至故障管理终端;
其中,所述工作状态包括正常状态和故障状态。
在一种可能实现的方式中,所述确定目标芯片处于与当前工作状态一致的情况下时的历史抖动信息,并基于历史抖动信息所对应的待分析抖动计算表进行计算,得到目标芯片的故障信息,包括:
确定目标芯片处于与当前芯片工作状态一致的情况下时的历史抖动信息对应的历史抖动集合,并分别将历史抖动集合中每条历史抖动信息填入到待分析抖动计算表中;
将预设抖动类型的预设抖动参数范围分别与所述待分析抖动计算表中的同抖动类型参数进行比较,提取同抖动类型且处于预设抖动参数范围内的第一抖动值,并对同抖动类型的所有第一抖动值进行计算,得到第一平均值;
提取同抖动类型且不处于预设抖动参数范围内的第二抖动值,并对同抖动类型的所有第二抖动值进行计算,得到第二平均值;
统计对应同抖动类型中所有第一抖动值的第一数量以及对应同抖动类型中所有第二抖动值的第二数量,同时,还确定对应的第一平均值与第二平均值的差异值;
基于所述第一数量、第二数量以及差异值,计算同抖动类型对所述当前目标芯片的历史抖动故障指数Y1;
Figure 163256DEST_PATH_IMAGE001
其中,
Figure 71431DEST_PATH_IMAGE002
表示针对抖动值的第一权重;
Figure 631726DEST_PATH_IMAGE003
表示针对抖动值的第二权重;
Figure 606635DEST_PATH_IMAGE004
表示第二平均值;
Figure 150749DEST_PATH_IMAGE005
表示第一平均值;
Figure 361150DEST_PATH_IMAGE006
表示第一数量;
Figure 182476DEST_PATH_IMAGE007
表示第二数量;
若所述历史抖动故障指数Y1大于或等于预设抖动故障指数,则确定同抖动类型的每条历史抖动信息中存在的异常抖动参数的参数个数;
从所有历史抖动信息中提取所述参数个数大于预设个数的第一抖动信息,同时,获取所述当前目标芯片的当前抖动信息,并将所述当前抖动信息与每个第一抖动信息进行信息匹配,获取得到故障信息;
若所述历史抖动故障指数Y1小于预设抖动故障指数,则从所有历史抖动信息中随机筛选常规出错的n条第二抖动信息,并分别与当前抖动信息进行信息匹配,获取得到故障信息。
在一种可能实现的方式中,所述基于当前目标芯片的故障信息,得到故障关联事件,确定故障等级,包括:
获取所述当前目标芯片对应的故障信息,并输入到故障关联模型中,得到与所述故障信息对应的故障关联事件;
基于事件-等级数据库,匹配得到与所述故障关联事件一致的故障等级。
在一种可能实现的方式中,所述获取所述当前目标芯片对应的故障信息,并输入到故障关联模型中,得到与所述故障信息对应的故障关联事件,包括:
对所述当前目标芯片对应的故障信息进行信息拆分,并分别提取每个子拆分信息涉及的故障指标;
对所述故障指标进行分类,得到故障分类集合;
构建每个故障分类集合的集合向量;
根据每个子拆分信息的拆分属性,向每个子拆分信息所涉及到的故障指标设置故障标签;
从标签-标准数据库中,调取与每个故障标签匹配的标准元素,并依据对应故障分类集合对应的集合向量的元素排列顺序,构建得到标准分类向量;
将所述集合向量与对应的标准分类向量进行比较,获取差异向量;
将所有差异向量,分别输入到故障关联模型中,获取得到故障关联事件。
在一种可能实现的方式中,所述故障标签包括所属的子拆分信息、子拆分信息的拆分属性以及故障指标类型。
在一种可能实现的方式中,所述基于当前目标芯片的故障等级,确定对应目标设备的故障等级,并对对应目标设备进行故障申报及故障处理,包括:
获取所述目标设备执行目标操作时所预先确定的每个目标芯片的参与权重,并结合每个目标芯片的故障等级,得到所述目标设备的故障等级;
基于所述目标设备的故障等级与目标设备对应的故障等级表进行比较;
基于所述目标设备的故障等级与故障等级表的比较结果进行故障申报以及故障处理。
在一种可能实现的方式中,所述基于所述目标设备的故障等级与故障等级表的比较结果进行故障申报以及故障处理,包括:
若所述目标设备的故障等级小于第一阈值,则判断目标设备为轻微故障,向故障管理终端发出轻微故障申报;
若所述目标设备的故障等级介于第一阈值与第二阈值之间,则判断目标设备为故障,向故障管理终端发出一般故障申报,并进行故障处理请求;
若所述目标设备的故障等级大于第二阈值,则判断目标设备为严重故障,向故障管理终端发出严重故障预警,进行多次故障处理请求,如请求未通过,则间隔一段时间再进行故障处理请求,并进行故障处理。
本发明提供了一种基于芯片分析实现设备故障确定的系统,包括:
数据采集模块:基于目标设备执行目标操作时,获取每个目标芯片参与的执行内容以及执行当前操作所产生的工作日志,并进行数据预处理;
数据处理模块:基于预处理后的目标芯片的执行内容及工作日志,确定当前目标芯片的芯片工作状态;
匹配确定模块:从预设状态-参数数据库中,匹配与当前目标芯片的芯片工作状态一致的情况下所对应芯片工作参数;
数据分析模块:确定目标芯片处于与当前工作状态一致的情况下时的历史抖动信息,并基于历史抖动信息所对应的待分析抖动计算表进行计算,得到目标芯片的故障信息;
故障判断模块:基于当前目标芯片对应的故障信息,得到故障关联事件,确定故障等级;
故障处理模块:基于当前目标芯片的故障等级,进行故障申报及故障处理。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种基于芯片分析实现设备故障确定的方法的流程图;
图2为本发明实施例中一种基于芯片分析实现设备故障确定的系统的结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:
本发明实施例提供一种基于芯片分析实现设备故障确定的方法,如图1所示,包括:
步骤1:基于目标设备执行目标操作时,获取每个目标芯片参与的执行内容以及执行当前操作所产生的工作日志,并进行数据预处理;
步骤2:基于预处理后的目标芯片的执行内容及工作日志,确定当前目标芯片的芯片工作状态;
步骤3:从预设状态-参数数据库中,匹配与当前目标芯片的芯片工作状态一致的情况下所对应芯片工作参数;
步骤4:确定目标芯片处于与当前工作状态一致的情况下时的历史抖动信息,并基于历史抖动信息所对应的待分析抖动计算表进行计算,得到目标芯片的故障信息;
步骤5:基于当前目标芯片的故障信息,得到故障关联事件,确定故障等级;
步骤6:基于当前目标芯片的故障等级,确定对应目标设备的故障等级,并对对应目标设备进行故障申报及故障处理。
该实施例中,目标芯片是基于当前目标设备所包含的所有功能芯片。
该实施例中,执行内容是基于目标设备的某一设备操作时,当前目标芯片所需要执行的操作内容。
该实施例中,工作日志是基于当前目标芯片进行执行操作时所产生的日志。
该实施例中,数据预处理是基于获取到的当前目标芯片参与的执行内容以及对应的日志内容进行信息处理,筛选有用信息,并基于所述有用信息进行标准化转换,得到对应的用于计算的数据。
该实施例中,芯片的工作状态包括正常状态和故障状态。
该实施例中,状态-参数数据库是基于当前目标芯片的工作状态以及当前工作状态所匹配的芯片工作参数确定的。
该实施例中,历史抖动集合是基于当前目标芯片在对应的芯片工作状态下的所有历史抖动情况的集合。
该实施例中,待分析抖动计算表是基于当前目标芯片的标准抖动情况对应的标准抖动信息得到的计算表。
该实施例中,芯片工作过程中的抖动是基于芯片接收信号与时序的变化可能会导致接收信号与理想信号略有不同,从而导致串行链路的误码率增加。
该实施例中,芯片工作过程中的抖动情况是基于当前目标芯片的历史抖动情况得到历史抖动故障指数,并结合芯片的当前抖动信息得到的。
该实施例中,故障信息是指基于芯片工作状态以及芯片在工作过程中的抖动情况,按照芯片工作状态以及芯片在工作过程中的抖动情况在芯片故障中的不同权重得到当前芯片对应的故障信息的。
该实施例中,故障关联事件是基于获取的当前目标芯片对应的故障信息,并输入到故障关联模型中,得到与所述故障信息对应的故障关联事件。
该实施例中,目标芯片的故障等级是基于故障关联事件以及对应的事件-等级数据库,匹配得到的,与所述故障关联事件一致的故障等级。
该实施例中,目标设备的故障等级可以将当前设备的故障情况分为多级,比如,故障等级可以分为轻微故障,故障和严重故障三级。
该实施例中,故障申报是基于所有目标设备的故障情况,将对应的故障信息上传至管理终端进行故障申报。
该实施例中,故障处理是基于故障等级中判断严重故障的目标设备进行故障处理。
上述技术方案的有益效果是:通过判断芯片的工作状态以及芯片工作过程中的抖动情况来综合判断芯片的故障情况,进而判断目标设备的故障情况,可以更加精确的得到芯片的故障数据,从而精准得到目标设备的故障情况。
实施例2:
基于实施例1的基础上,所述基于目标设备执行目标操作时,获取每个目标芯片参与的执行内容以及执行当前操作所产生的工作日志,并进行数据预处理,包括:
当所述目标设备执行操作时,获取所述目标设备所包含的每个目标芯片参与操作的执行内容,以及每个目标芯片在参与操作时所产生的工作日志;
对每个目标芯片涉及的执行内容以及工作日志进行数据预处理。
该实施例中,目标芯片是基于当前目标设备所包含的功能芯片。
该实施例中,执行内容是目标芯片基于当前操作所进行的操作内容,比如,目标芯片可以控制电压转换、控制基带等。
该实施例中,工作日志是基于目标芯片在执行操作的过程中生成的工作处理日志,一般是自动生成的,主要是为了对芯片执行过程进行一个记录与监测。
该实施例中,预处理是基于获取的目标芯片执行内容以及对应的工作日志进行数据预处理,对执行内容进行预处理是基于当前执行内容进行有效内容筛选再基于筛选后的内容进行分类整合,对工作日志进行预处理是将无关的工作日志进行筛选剔除,得到剩余的有效工作日志,并将有效工作日志与预设表格进行匹配,得到当前工作日志匹配的数据参数。
上述技术方案的有益效果是:通过对目标芯片的执行内容及对应的工作日志进行筛选处理,并进行数据预处理,使得目标芯片的执行内容和工作日志被量化,更容易处理计算,从而更加精准的得到目标芯片的故障情况,进而得到目标设备的故障情况。
实施例3:
基于实施例1的基础上,所述基于预处理后的目标芯片的执行内容及工作日志,确定当前目标芯片的芯片工作状态,包括:
将当前目标芯片对应的预处理后的执行内容及对应工作日志与预设芯片工作表中同个目标芯片的标准内容以及标准日志进行比较;
基于比较结果,确定所述当前目标芯片的工作状态,并传输至故障管理终端;
其中,所述工作状态包括正常状态和故障状态。
该实施例中,芯片工作表是基于当前目标芯片,得到对应的同种型号芯片在工作过程中的标准工作情况记录表,比如,包括,当前目标芯片对应型号的芯片在工作过程中所对应的标准工作做执行内容以及对应的标准执行日志。
该实施例中,目标芯片的工作状态包括正常状态和故障状态。
该实施例中,故障管理终端是故障管理信息集成终端,用于对判断有故障的芯片将当前芯片的信息进行识别显示。
上述技术方案的有益效果是:通过比较可以得到当前目标芯片数据与标准数据的精准差值,从而更加精准的判断当前目标芯片的工作状态,从而初步得到目标芯片的故障情况,使得故障的判断更加精准,减少了临界情况导致故障判断错误的风险。
实施例4:
基于实施例1的基础上,所述确定目标芯片处于与当前工作状态一致的情况下时的历史抖动信息,并基于历史抖动信息所对应的待分析抖动计算表进行计算,得到目标芯片的故障信息,包括:
确定目标芯片处于与当前芯片工作状态一致的情况下时的历史抖动信息对应的历史抖动集合,并分别将历史抖动集合中每条历史抖动信息填入到待分析抖动计算表中;
将预设抖动类型的预设抖动参数范围分别与所述待分析抖动计算表中的同抖动类型参数进行比较,提取同抖动类型且处于预设抖动参数范围内的第一抖动值,并对同抖动类型的所有第一抖动值进行计算,得到第一平均值;
提取同抖动类型且不处于预设抖动参数范围内的第二抖动值,并对同抖动类型的所有第二抖动值进行计算,得到第二平均值;
统计对应同抖动类型中所有第一抖动值的第一数量以及对应同抖动类型中所有第二抖动值的第二数量,同时,还确定对应的第一平均值与第二平均值的差异值;
基于所述第一数量、第二数量以及差异值,计算同抖动类型对所述当前目标芯片的历史抖动故障指数Y1;
Figure 954385DEST_PATH_IMAGE001
其中,
Figure 720216DEST_PATH_IMAGE002
表示针对抖动值的第一权重;
Figure 609674DEST_PATH_IMAGE003
表示针对抖动值的第二权重;
Figure 410140DEST_PATH_IMAGE004
表示第二平均值;
Figure 851486DEST_PATH_IMAGE005
表示第一平均值;
Figure 979979DEST_PATH_IMAGE006
表示第一数量;
Figure 299227DEST_PATH_IMAGE007
表示第二数量;
若所述历史抖动故障指数Y1大于或等于预设抖动故障指数,则确定同抖动类型的每条历史抖动信息中存在的异常抖动参数的参数个数;
从所有历史抖动信息中提取所述参数个数大于预设个数的第一抖动信息,同时,获取所述当前目标芯片的当前抖动信息,并将所述当前抖动信息与每个第一抖动信息进行信息匹配,获取得到故障信息;
若所述历史抖动故障指数Y1小于预设抖动故障指数,则从所有历史抖动信息中随机筛选常规出错的n条第二抖动信息,并分别与当前抖动信息进行信息匹配,获取得到故障信息。
该实施例中,抖动值是芯片工作情况下的工作信号的各个有效瞬时对其理想位置的短期性偏离,第一抖动值是与目标芯片同抖动类型且处于预设抖动参数范围内的抖动值,第二抖动值是与目标芯片同抖动类型但不处于预设抖动参数范围内的抖动值。
该实施例中,第一抖动值、第二抖动值是基于历史抖动集合中与待分析抖动表的同类型抖动值进行比较,然后按照不同标准将分别进行提取而得到的。
该实施例中,第一平均值、第二平均值是基于同类型的第一抖动值和第二抖动值求平均得到的。
该实施例中,历史抖动故障指数是基于当前第一抖动值的第一数量以及第二抖动值的第二数量,以及对应第一平均值与第二平均值的差异值得到的判断芯片故障情况的对应指数,其中,第一数量与第二数量的确定,比如:同类型有3个抖动值,两个抖动值在范围内,1个抖动值不在范围内,此时,第一数量为2,第二数量为1。
该实施例中,第一抖动信息、第二抖动信息是基于不同的抖动故障指数与预设抖动指数的比较情况下,从所有历史抖动信息中提取的存在异常抖动参数的部分抖动信息。
该实施例中,故障信息是指基于芯片工作状态以及芯片在工作过程中的抖动情况,按照芯片工作状态以及芯片在工作过程中的抖动情况在芯片故障中的不同权重得到当前芯片对应的故障信息的。
上述技术方案的有益效果是:通过确定目标芯片的工作状态,同时结合目标芯片在当前工作状态下的历史抖动情况进行分类计算,得到抖动故障指数,从而获得对应的故障信息,提高了目标芯片故障判断的准确性。
实施例5:
基于实施例1的基础上,所述基于当前目标芯片的故障信息,得到故障关联事件,确定故障等级,包括:
获取所述当前目标芯片对应的故障信息,并输入到故障关联模型中,得到与所述故障信息对应的故障关联事件;
基于事件-等级数据库,匹配得到与所述故障关联事件一致的故障等级。
该实施例中,故障关联模型是基于目标芯片预设的故障关联模型,包含各种故障信息与故障信息对应的关联事件。
该实施例中,故障关联模型是基于大数据库中,所有与当前目标芯片相同型号的芯片的故障信息以及对应的故障关联事件进行大量练习,得到的当前目标芯片的故障关联模型。
该实施例中,故障关联模型随着目标芯片型号的不同而随之变化。
该实施例中,事件-等级数据库是存储所有与目标芯片功能类似的芯片的故障关联事件以及在得到当前故障关联事件时所对应的芯片的故障等级的数据库。
该实施例中,故障等级是基于故障关联事件进行匹配的。
该实施例中,故障关联事件不同,对应的目标芯片故障等级可能相同也可能不同。
上述技术方案的有益效果是:通过将目标芯片的故障信息进行识别匹配得到对应的故障关联事件,从而得到故障等级,可以使得目标芯片的故障等级的判断量化,使得目标芯片的故障等级判断更加精准,从而得到更加精准的设备故障情况。
实施例6:
基于实施例5的基础上,所述获取所述当前目标芯片对应的故障信息,并输入到故障关联模型中,得到与所述故障信息对应的故障关联事件,包括:
对所述当前目标芯片对应的故障信息进行信息拆分,并分别提取每个子拆分信息涉及的故障指标;
对所述故障指标进行分类,得到故障分类集合;
构建每个故障分类集合的集合向量;
根据每个子拆分信息的拆分属性,向每个子拆分信息所涉及到的故障指标设置故障标签;
从标签-标准数据库中,调取与每个故障标签匹配的标准元素,并依据对应故障分类集合对应的集合向量的元素排列顺序,构建得到标准分类向量;
将所述集合向量与对应的标准分类向量进行比较,获取差异向量;
将所有差异向量,分别输入到故障关联模型中,获取得到故障关联事件。
该实施例中,子拆分信息是是对目标芯片的故障等级进行拆分后得到的子信息。
该实施例中,故障指标是当前子拆分信息所涉及到的与芯片故障有关联的指标。
该实施例中,故障分类集合是基于故障指标的不同性质与功能对故障指标进行分类整合。
该实施例中,拆分属性是基于目标芯片的故障信息按照预设的标准进行拆分时,每一个自拆分信息所对应的故障信息属性。
该实施例中,故障标签是基于目标芯片的每一个故障指标进行标签化处理,比如,故障标签包括所属的子拆分信息、子拆分信息的拆分属性以及故障指标类型。
该实施例中,标签-标准数据库是由目标芯片相同型号的所有芯片对应的芯片故障标签以及当前故障标签所对应的标准元素得到的。
该实施例中,标准元素是是基于与当前目标芯片型号相同的所有芯片的芯片故障标签所对应的元素的平均情况得到的。
该实施例中,标准分类向量是每个故障标签匹配的标准元素与对应故障分类集合对应的集合向量中的有序元素进行对应而构建的。
该实施例中,差异向量是是每个故障标签匹配的标准元素与对应故障分类集合对应的集合向量进行差运算而构建的。
上述技术方案的有益效果是:通过将目标芯片的故障信息进行拆分、分类,得到故障标签,并与标准元素进行比较,得到差异向量,并得到对应的故障关联事件,可以使得目标芯片的故障等级的判断量化,使得目标芯片的故障等级判断更加精准,从而得到更加精准的设备故障情况。
实施例7:
基于实施例6的基础上,所述故障标签包括所属的子拆分信息、子拆分信息的拆分属性以及故障指标类型。
实施例8:
基于实施例1的基础上,所述基于当前目标芯片的故障等级,确定对应目标设备的故障等级,并对对应目标设备进行故障申报及故障处理,包括:
获取所述目标设备执行目标操作时所预先确定的每个目标芯片的参与权重,并结合每个目标芯片的故障等级,得到所述目标设备的故障等级;
基于所述目标设备的故障等级与目标设备对应的故障等级表进行比较;
基于所述目标设备的故障等级与故障等级表的比较结果进行故障申报以及故障处理。
该实施例中,目标设备的故障等级是基于当前目标设备所包含的所有目标芯片的故障等级,结合目标设备执行目标操作时所预先确定的每个目标芯片的参与权重计算得到的。
该实施例中,故障等级表是基于与当前目标设备的相同型号的设备在基于不同故障等级时所对应的故障情况而设定的。
该实施例中,故障等级表可以设置多级故障情况,比如,故障等级可以为轻微故障、故障与严重故障。
该实施例中,进行故障申报还是故障处理可以依据设备的具体情况进行选择处理,比如对于故障情况轻微的设备可以进行故障申报,对于故障情况严重的设备进行故障处理。
上述技术方案的有益效果是:通过对目标芯片的故障等级进行判断,并结合目标芯片的参与权重得到目标设备的故障等级,并进行故障申报以及故障处理,可以使得目标设备的故障判断更加准确,同时也可以基于不同故障等级进行不同处理,使得故障处理工作减少。
实施例9:
基于实施例8的基础上,所述基于所述目标设备的故障等级与故障等级表的比较结果进行故障申报以及故障处理,包括:
若所述目标设备的故障等级小于第一阈值,则判断目标设备为轻微故障,向故障管理终端发出轻微故障申报;
若所述目标设备的故障等级介于第一阈值与第二阈值之间,则判断目标设备为故障,向故障管理终端发出一般故障申报,并进行故障处理请求;
若所述目标设备的故障等级大于第二阈值,则判断目标设备为严重故障,向故障管理终端发出严重故障预警,进行多次故障处理请求,如请求未通过,则间隔一段时间再进行故障处理请求,并进行故障处理。
该实施例中,故障管理终端是故障管理信息集成终端,用于对判断有故障的芯片将当前芯片的信息进行识别显示。
该实施例中,第一阈值、第二阈值可以根据目标设备的不同进行适应性调整。
该实施例中,故障等级也可以分为更多等级,随着故障等级的增加或减少,第一阈值、第二阈值等也会随之增加或减少。
上述技术方案的有益效果是:通过对目标设备的故障等级进行确定,从而确定目标设备是需要进行故障申报还是进行故障处理的情况,可以一定程度减少故障处理的次数,从而节约能源,提高目标设备的使用效率。
实施例10:
本发明实施例提供一种基于芯片分析实现设备故障确定的系统,如图2所示,包括:
数据采集模块:基于目标设备执行目标操作时,获取每个目标芯片参与的执行内容以及执行当前操作所产生的工作日志,并进行数据预处理;
数据处理模块:基于预处理后的目标芯片的执行内容及工作日志,确定当前目标芯片的芯片工作状态;
匹配确定模块:从预设状态-参数数据库中,匹配与当前目标芯片的芯片工作状态一致的情况下所对应芯片工作参数;
数据分析模块:确定目标芯片处于与当前工作状态一致的情况下时的历史抖动信息,并基于历史抖动信息所对应的待分析抖动计算表进行计算,得到目标芯片的故障信息;
故障判断模块:基于当前目标芯片对应的故障信息,得到故障关联事件,确定故障等级;
故障处理模块:基于当前目标芯片的故障等级,进行故障申报及故障处理。
上述技术方案的有益效果是:通过判断芯片的工作状态以及芯片工作过程中的抖动情况来综合判断芯片的故障情况,进而判断目标设备的故障情况,可以更加精确的得到芯片的故障数据,从而使得得到的目标设备故障情况。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种基于芯片分析实现设备故障确定的方法,其特征在于,包括:
步骤1:基于目标设备执行目标操作时,获取每个目标芯片参与的执行内容以及执行当前操作所产生的工作日志,并进行数据预处理;
步骤2:基于预处理后的目标芯片的执行内容及工作日志,确定当前目标芯片的芯片工作状态;
步骤3:从预设状态-参数数据库中,匹配与当前目标芯片的芯片工作状态一致的情况下所对应芯片工作参数;
步骤4:确定目标芯片处于与当前工作状态一致的情况下时的历史抖动信息,并基于历史抖动信息所对应的待分析抖动计算表进行计算,得到目标芯片的故障信息;
步骤5:基于当前目标芯片的故障信息,得到故障关联事件,确定故障等级;
步骤6:基于当前目标芯片的故障等级,确定对应目标设备的故障等级,并对对应目标设备进行故障申报及故障处理;
其中,确定目标芯片处于与当前工作状态一致的情况下时的历史抖动信息,并基于历史抖动信息所对应的待分析抖动计算表进行计算,得到目标芯片的故障信息,包括:
确定目标芯片处于与当前芯片工作状态一致的情况下时的历史抖动信息对应的历史抖动集合,并分别将历史抖动集合中每条历史抖动信息填入到待分析抖动计算表中;
将预设抖动类型的预设抖动参数范围分别与所述待分析抖动计算表中的同抖动类型参数进行比较,提取同抖动类型且处于预设抖动参数范围内的第一抖动值,并对同抖动类型的所有第一抖动值进行计算,得到第一平均值;
提取同抖动类型且不处于预设抖动参数范围内的第二抖动值,并对同抖动类型的所有第二抖动值进行计算,得到第二平均值;
统计对应同抖动类型中所有第一抖动值的第一数量以及对应同抖动类型中所有第二抖动值的第二数量,同时,还确定对应的第一平均值与第二平均值的差异值;
基于所述第一数量、第二数量以及差异值,计算同抖动类型对所述当前目标芯片的历史抖动故障指数Y1;
Figure QLYQS_1
其中,
Figure QLYQS_2
表示针对抖动值的第一权重;
Figure QLYQS_3
表示针对抖动值的第二权重;
Figure QLYQS_4
表示第二平均值;
Figure QLYQS_5
表示第一平均值;
Figure QLYQS_6
表示第一数量;
Figure QLYQS_7
表示第二数量;
若所述历史抖动故障指数Y1大于或等于预设抖动故障指数,则确定同抖动类型的每条历史抖动信息中存在的异常抖动参数的参数个数;
从所有历史抖动信息中提取所述参数个数大于预设个数的第一抖动信息,同时,获取所述当前目标芯片的当前抖动信息,并将所述当前抖动信息与每个第一抖动信息进行信息匹配,获取得到故障信息;
若所述历史抖动故障指数Y1小于预设抖动故障指数,则从所有历史抖动信息中随机筛选常规出错的n条第二抖动信息,并分别与当前抖动信息进行信息匹配,获取得到故障信息。
2.如权利要求1所述的一种基于芯片分析实现设备故障确定的方法,其特征在于,基于目标设备执行目标操作时,获取每个目标芯片参与的执行内容以及执行当前操作所产生的工作日志,并进行数据预处理,包括:
当所述目标设备执行操作时,获取所述目标设备所包含的每个目标芯片参与操作的执行内容,以及每个目标芯片在参与操作时所产生的工作日志;
对每个目标芯片涉及的执行内容以及工作日志进行数据预处理。
3.如权利要求1所述的一种基于芯片分析实现设备故障确定的方法,其特征在于,基于预处理后的目标芯片的执行内容及工作日志,确定当前目标芯片的芯片工作状态,包括:
将当前目标芯片对应的预处理后的执行内容及对应工作日志与预设芯片工作表中同个目标芯片的标准内容以及标准日志进行比较;
基于比较结果,确定所述当前目标芯片的工作状态,并传输至故障管理终端;
其中,所述工作状态包括正常状态和故障状态。
4.如权利要求1所述的一种基于芯片分析实现设备故障确定的方法,其特征在于,基于当前目标芯片的故障信息,得到故障关联事件,确定故障等级,包括:
获取所述当前目标芯片对应的故障信息,并输入到故障关联模型中,得到与所述故障信息对应的故障关联事件;
基于事件-等级数据库,匹配得到与所述故障关联事件一致的故障等级。
5.如权利要求4所述的一种基于芯片分析实现设备故障确定的方法,其特征在于,获取所述当前目标芯片对应的故障信息,并输入到故障关联模型中,得到与所述故障信息对应的故障关联事件,包括:
对所述当前目标芯片对应的故障信息进行信息拆分,并分别提取每个子拆分信息涉及的故障指标;
对所述故障指标进行分类,得到故障分类集合;
构建每个故障分类集合的集合向量;
根据每个子拆分信息的拆分属性,向每个子拆分信息所涉及到的故障指标设置故障标签;
从标签-标准数据库中,调取与每个故障标签匹配的标准元素,并依据对应故障分类集合对应的集合向量的元素排列顺序,构建得到标准分类向量;
将所述集合向量与对应的标准分类向量进行比较,获取差异向量;
将所有差异向量,分别输入到故障关联模型中,获取得到故障关联事件。
6.如权利要求5所述的一种基于芯片分析实现设备故障确定的方法,其特征在于,所述故障标签包括所属的子拆分信息、子拆分信息的拆分属性以及故障指标类型。
7.如权利要求1所述的一种基于芯片分析实现设备故障确定的方法,其特征在于,基于当前目标芯片的故障等级,确定对应目标设备的故障等级,并对对应目标设备进行故障申报及故障处理,包括:
获取所述目标设备执行目标操作时所预先确定的每个目标芯片的参与权重,并结合每个目标芯片的故障等级,得到所述目标设备的故障等级;
基于所述目标设备的故障等级与目标设备对应的故障等级表进行比较;
基于所述目标设备的故障等级与故障等级表的比较结果进行故障申报以及故障处理。
8.如权利要求7所述的一种基于芯片分析实现设备故障确定的方法,其特征在于,基于所述目标设备的故障等级与故障等级表的比较结果进行故障申报以及故障处理,包括:
若所述目标设备的故障等级小于第一阈值,则判断目标设备为轻微故障,向故障管理终端发出轻微故障申报;
若所述目标设备的故障等级介于第一阈值与第二阈值之间,则判断目标设备为故障,向故障管理终端发出一般故障申报,并进行故障处理请求;
若所述目标设备的故障等级大于第二阈值,则判断目标设备为严重故障,向故障管理终端发出严重故障预警,进行多次故障处理请求,如请求未通过,则间隔预设时间再进行故障处理请求,并进行故障处理。
9.一种基于芯片分析实现设备故障确定的系统,其特征在于,包括:
数据采集模块:基于目标设备执行目标操作时,获取每个目标芯片参与的执行内容以及执行当前操作所产生的工作日志,并进行数据预处理;
数据处理模块:基于预处理后的目标芯片的执行内容及工作日志,确定当前目标芯片的芯片工作状态;
匹配确定模块:从预设状态-参数数据库中,匹配与当前目标芯片的芯片工作状态一致的情况下所对应芯片工作参数;
数据分析模块:确定目标芯片处于与当前工作状态一致的情况下时的历史抖动信息,并基于历史抖动信息所对应的待分析抖动计算表进行计算,得到目标芯片的故障信息;
故障判断模块:基于当前目标芯片对应的故障信息,得到故障关联事件,确定故障等级;
故障处理模块:基于当前目标芯片的故障等级,进行故障申报及故障处理;
其中,数据分析模块,用于:
确定目标芯片处于与当前芯片工作状态一致的情况下时的历史抖动信息对应的历史抖动集合,并分别将历史抖动集合中每条历史抖动信息填入到待分析抖动计算表中;
将预设抖动类型的预设抖动参数范围分别与所述待分析抖动计算表中的同抖动类型参数进行比较,提取同抖动类型且处于预设抖动参数范围内的第一抖动值,并对同抖动类型的所有第一抖动值进行计算,得到第一平均值;
提取同抖动类型且不处于预设抖动参数范围内的第二抖动值,并对同抖动类型的所有第二抖动值进行计算,得到第二平均值;
统计对应同抖动类型中所有第一抖动值的第一数量以及对应同抖动类型中所有第二抖动值的第二数量,同时,还确定对应的第一平均值与第二平均值的差异值;
基于所述第一数量、第二数量以及差异值,计算同抖动类型对所述当前目标芯片的历史抖动故障指数Y1;
Figure QLYQS_8
其中,
Figure QLYQS_9
表示针对抖动值的第一权重;
Figure QLYQS_10
表示针对抖动值的第二权重;
Figure QLYQS_11
表示第二平均值;
Figure QLYQS_12
表示第一平均值;
Figure QLYQS_13
表示第一数量;
Figure QLYQS_14
表示第二数量;
若所述历史抖动故障指数Y1大于或等于预设抖动故障指数,则确定同抖动类型的每条历史抖动信息中存在的异常抖动参数的参数个数;
从所有历史抖动信息中提取所述参数个数大于预设个数的第一抖动信息,同时,获取所述当前目标芯片的当前抖动信息,并将所述当前抖动信息与每个第一抖动信息进行信息匹配,获取得到故障信息;
若所述历史抖动故障指数Y1小于预设抖动故障指数,则从所有历史抖动信息中随机筛选常规出错的n条第二抖动信息,并分别与当前抖动信息进行信息匹配,获取得到故障信息。
CN202211572162.3A 2022-12-08 2022-12-08 一种基于芯片分析实现设备故障确定的方法及系统 Active CN115576738B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211572162.3A CN115576738B (zh) 2022-12-08 2022-12-08 一种基于芯片分析实现设备故障确定的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211572162.3A CN115576738B (zh) 2022-12-08 2022-12-08 一种基于芯片分析实现设备故障确定的方法及系统

Publications (2)

Publication Number Publication Date
CN115576738A CN115576738A (zh) 2023-01-06
CN115576738B true CN115576738B (zh) 2023-03-03

Family

ID=84590631

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211572162.3A Active CN115576738B (zh) 2022-12-08 2022-12-08 一种基于芯片分析实现设备故障确定的方法及系统

Country Status (1)

Country Link
CN (1) CN115576738B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116256620B (zh) * 2023-05-15 2023-07-14 中诚华隆计算机技术有限公司 Chiplet集成芯片的检测方法、装置、电子设备及存储介质
CN116302899B (zh) * 2023-05-18 2023-07-28 中诚华隆计算机技术有限公司 一种芯粒故障诊断方法和装置
CN117472639B (zh) * 2023-12-27 2024-03-12 中诚华隆计算机技术有限公司 一种多芯片互连系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026576A (zh) * 2019-12-09 2020-04-17 山东超越数控电子股份有限公司 一种主板故障分析的方法、设备及介质
CN113704014A (zh) * 2021-08-24 2021-11-26 荣耀终端有限公司 日志获取系统、方法、电子设备及存储介质
CN114020511A (zh) * 2021-11-03 2022-02-08 西人马(西安)测控科技有限公司 基于fpga的故障检测方法、装置、设备及可读存储介质
CN115047322A (zh) * 2022-08-17 2022-09-13 中诚华隆计算机技术有限公司 一种用于智能医疗设备的故障芯片的标识方法及系统
CN115225460A (zh) * 2022-07-15 2022-10-21 北京天融信网络安全技术有限公司 故障判定方法、电子设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200334092A1 (en) * 2019-04-16 2020-10-22 Vtool Ltd System and method for identifying a cause of a failure in operation of a chip

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111026576A (zh) * 2019-12-09 2020-04-17 山东超越数控电子股份有限公司 一种主板故障分析的方法、设备及介质
CN113704014A (zh) * 2021-08-24 2021-11-26 荣耀终端有限公司 日志获取系统、方法、电子设备及存储介质
CN114020511A (zh) * 2021-11-03 2022-02-08 西人马(西安)测控科技有限公司 基于fpga的故障检测方法、装置、设备及可读存储介质
CN115225460A (zh) * 2022-07-15 2022-10-21 北京天融信网络安全技术有限公司 故障判定方法、电子设备和存储介质
CN115047322A (zh) * 2022-08-17 2022-09-13 中诚华隆计算机技术有限公司 一种用于智能医疗设备的故障芯片的标识方法及系统

Also Published As

Publication number Publication date
CN115576738A (zh) 2023-01-06

Similar Documents

Publication Publication Date Title
CN115576738B (zh) 一种基于芯片分析实现设备故障确定的方法及系统
CN108491305B (zh) 一种服务器故障的检测方法及系统
CN110362473B (zh) 测试环境的优化方法及装置、存储介质、终端
CN107678908B (zh) 日志记录方法、装置、计算机设备及存储介质
CN111722952A (zh) 业务系统的故障分析方法、系统、设备和存储介质
CN110333995A (zh) 对工业设备运行状态进行监测的方法及装置
CN115118581B (zh) 一种基于5g的物联网数据全链路监控和智能保障系统
CN115858794B (zh) 用于网络运行安全监测的异常日志数据识别方法
CN114255784A (zh) 一种基于声纹识别的变电站设备故障诊断方法及相关装置
CN111611146A (zh) 一种微服务故障预测方法和装置
CN113392893A (zh) 业务故障的定位方法、装置、存储介质及计算机程序产品
CN117368651B (zh) 一种配电网故障综合分析系统及方法
US8949669B1 (en) Error detection, correction and triage of a storage array errors
CN112882898B (zh) 基于大数据日志分析的异常检测方法、系统、设备及介质
CN114460439A (zh) 一种数字集成电路测试系统
CN113657747A (zh) 一种企业安全生产标准化级别智能评定系统
CN115114124A (zh) 主机风险的评估方法及评估装置
CN117113135A (zh) 一种可对异常数据整理分类的碳排放异常监测分析系统
CN108613820A (zh) 一种用于gis本体机械缺陷诊断和定位的在线异声监测算法
CN117336055A (zh) 一种网络异常行为检测方法、装置、电子设备及存储介质
CN113760689A (zh) 接口故障的报警方法、装置、设备及存储介质
CN114500178B (zh) 一种自运维的智慧物联网关
CN113807690A (zh) 区域电网调控系统运行状态在线评估预警方法及系统
CN113360360A (zh) 业务系统故障检测方法、装置、电子设备及存储介质
CN115981911A (zh) 内存故障的预测方法、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant