CN106155827A

CN106155827A - 一种基于linux系统的CPU故障诊断处理方法及系统

Info

Publication number: CN106155827A
Application number: CN201610491138.5A
Authority: CN
Inventors: 郭美思; 宗栋瑞
Original assignee: Inspur Beijing Electronic Information Industry Co Ltd
Current assignee: Inspur Beijing Electronic Information Industry Co Ltd
Priority date: 2016-06-28
Filing date: 2016-06-28
Publication date: 2016-11-23

Abstract

本发明公开了一种基于linux系统的CPU故障诊断处理方法，包括分析CPU事件源中的错误事件文件的事件类型，统计同一事件类型的错误事件文件的个数；将在第一预设时间内个数达到或超出预设个数的事件类型对应的错误事件文件标记为故障格式文件；根据故障格式文件判断CPU的故障类型是否为缓存故障类型，如果是，刷新发生故障的缓存；根据缓存刷新后生成的返回值，判断是否成功刷新发生故障的缓存，如果否，控制CPU离线。本发明能够通过主动分析CPU事件源中的错误事件文件，并确定CPU是否发生了缓存故障，而不需要工作人员自行进行分析，便利性高；且能够根据故障类型来主动进行相应的处理，避免计算机在故障情况下继续运行，安全性高。

Description

一种基于linux系统的CPU故障诊断处理方法及系统

技术领域

本发明涉及linux系统故障处理技术领域，特别是涉及一种基于linux系统的CPU故障诊断处理方法及系统。

背景技术

随着互联网的快速发展，计算机对人类的发展起到了关键的作用。中央处理器CPU是计算机的核心部分，可以实现运算及控制指挥的功能，使得每个部件在CPU的作用下有条不紊的协调工作。一旦CPU出现错误或故障，会导致计算机不能正常工作或宕机。

但是目前的计算机无法主动根据CPU的错误事件文件来判断CPU所发生的故障类型，即当CPU发生故障时无法为工作人员提供参考信息，使工作人员需要根据其他数据自行判断故障类型，便利性低，增大了工作人员的工作困难度；同时目前的计算机也无法根据故障类型来主动进行相应的处理，一旦工作人员无法及时发现CPU发生了故障，则计算机会在故障情况下继续运行，很可能会影响计算机的正常使用，甚至会导致计算机内数据出现错误，进而给用户的工作生活带来损失，安全性低。

因此，如何提供一种便利性及安全性高的基于linux系统的CPU故障诊断处理方法及系统是本领域技术人员目前需要解决的问题。

发明内容

本发明的目的是提供一种基于linux系统的CPU故障诊断处理方法及系统，能够通过主动对CPU事件源中的错误事件文件进行分析判断来确定CPU是否发生了缓存故障，而不需要工作人员自行进行分析，便利性高；且能够根据故障类型来主动进行相应的处理，避免计算机在故障情况下继续运行，进而避免给用户的工作生活带来损失，安全性高。

为解决上述技术问题，本发明提供了一种基于linux系统的CPU故障诊断处理方法，包括：

步骤s101：分析CPU事件源中的错误事件文件的事件类型，统计同一事件类型的错误事件文件的个数；

步骤s102：将在第一预设时间内个数达到或超出预设个数的事件类型对应的错误事件文件标记为故障格式文件；

步骤s103：根据所述故障格式文件判断所述CPU的故障类型是否为缓存故障类型，如果是，刷新发生故障的缓存；

步骤s104：根据缓存刷新后生成的返回值，判断是否成功刷新所述发生故障的缓存，如果否，控制所述CPU离线。

优选地，所述步骤s101的过程具体为：

触发第一计时器；

依次分析所述CPU事件源中的错误事件文件的事件类型，将同一事件类型的错误事件文件的个数记录至对应的计数器内。

优选地，所述步骤s102的过程具体为：

当所述第一计时器记录的时间达到所述第一预设时间时，控制所述第一计时器停止计时；

控制全部所述计数器停止计数，获取记录个数达到或超出所述预设个数的计数器对应的事件类型；

将获取的所述事件类型对应的错误事件文件标记为故障格式文件。

优选地，所述步骤s102的过程具体为：

当所述第一计时器记录的时间未超出所述第一预设时间时，若有计数器的记录个数达到所述预设个数，获取记录个数达到所述预设个数的所述计数器对应的事件类型，并控制记录个数达到所述预设个数的所述计数器停止计数；

优选地，步骤s104之后还包括：

控制全部所述计数器清零，触发第二计时器；

当所述第二计时器记录的时间达到第二预设时间时，控制所述第二计时器停止计时，触发全部所述计数器重新开始计数，并重新进行步骤s101。

优选地，所述缓存故障类型包括普通缓存故障或TLB页表缓存故障。

优选地，所述第一预设时间为36小时～72小时。

优选地，所述预设个数为2～3。

为解决上述技术问题，本发明还提供了一种基于linux系统的CPU故障诊断处理系统，包括：

统计模块，分析CPU事件源中的错误事件文件的事件类型，统计同一事件类型的所述错误事件文件的个数；

故障标记模块，用于将第一预设时间内个数达到或超出预设个数的事件类型对应的错误事件文件标记为故障格式文件；

判断模块，用于根据所述故障格式文件判断所述CPU的故障类型是否为缓存故障类型，如果是，触发缓存刷新模块；

所述缓存刷新模块，用于刷新发生故障的缓存；

刷新判断模块，用于根据缓存刷新后生成的返回值，判断是否成功刷新所述发生故障的缓存，如果否，控制所述CPU离线。

优选地，所述统计模块具体包括：

第一计时触发模块，用于触发第一计时器；

计数控制模块，用于依次分析所述CPU事件源中的错误事件文件的事件类型，将同一事件类型的错误事件文件的个数记录至对应的计数器内。

本发明提供了一种基于linux系统的CPU故障诊断处理方法及系统，能够通过主动对CPU事件源中的错误事件文件进行分析判断来确定CPU是否发生了缓存故障，而不需要工作人员自行进行分析，便利性高；且当确定发生缓存类故障后，本发明能够对发生故障的缓存进行刷新，若刷新失败，则控制CPU离线，可见，本发明能够根据故障类型来主动进行相应的处理，避免了计算机在故障情况下继续运行，进而避免给用户的工作生活带来损失，安全性高。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对现有技术和实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种基于linux系统的CPU故障诊断处理方法的过程的流程图；

图2为本发明提供的另一种基于linux系统的CPU故障诊断处理方法的过程的流程图；

图3为本发明提供的另一种基于linux系统的CPU故障诊断处理方法的过程的流程图；

图4为本发明提供的一种基于linux系统的CPU故障诊断处理系统的结构示意图。

具体实施方式

本发明的核心是提供一种基于linux系统的CPU故障诊断处理方法及系统，能够通过主动对CPU事件源中的错误事件文件进行分析判断来确定CPU是否发生了缓存故障，而不需要工作人员自行进行分析，便利性高；且能够根据故障类型来主动进行相应的处理，避免计算机在故障情况下继续运行，进而避免给用户的工作生活带来损失，安全性高。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

本发明提供了一种基于linux系统的CPU故障诊断处理方法，参见图1所示，图1为本发明提供的一种基于linux系统的CPU故障诊断处理方法的过程的流程图；该方法包括：

可以理解的是，CPU事件源中包括有多种事件类型的错误事件文件，这里的统计方式是将各种事件类型对应的错误事件文件的个数分别进行统计。

步骤s103：根据故障格式文件判断CPU的故障类型是否为缓存故障类型，如果是，刷新发生故障的缓存；

步骤s104：根据缓存刷新后生成的返回值，判断是否成功刷新发生故障的缓存，如果否，控制CPU离线。

本发明提供了一种基于linux系统的CPU故障诊断处理方法，能够通过主动对CPU事件源中的错误事件文件进行分析判断来确定CPU是否发生了缓存故障，而不需要工作人员自行进行分析，便利性高；且当确定发生缓存类故障后，本发明能够对发生故障的缓存进行刷新，若刷新失败，则控制CPU离线，可见，本发明能够根据故障类型来主动进行相应的处理，避免了计算机在故障情况下继续运行，进而避免给用户的工作生活带来损失，安全性高。

实施例二

在实施例一的基础上，本发明还提供了基于linux系统的CPU故障诊断处理方法，参见图2所示，图2为本发明提供的另一种基于linux系统的CPU故障诊断处理方法的过程的流程图；

作为优选地，该实施例中，步骤s101的过程具体为：

触发第一计时器；

依次分析CPU事件源中的错误事件文件的事件类型，将同一事件类型的错误事件文件的个数记录至对应的计数器内。

可以理解的是，由于CPU事件源中包括有多种事件类型的错误事件文件，故计数器的个数应与CPU事件源中可能出现的事件类型相匹配，并预先设定各个计数器分别与各种事件类型相对应。

作为优选地，该实施例中，步骤s102的过程具体为：

当第一计时器记录的时间达到第一预设时间时，控制第一计时器停止计时；

控制全部计数器停止计数，获取记录个数达到或超出预设个数的计数器对应的事件类型；

将获取的事件类型对应的错误事件文件标记为故障格式文件。

可以理解的是，当计数器的记录个数达到或超出预设个数时，表明发生该计数器对应的事件类型的硬件位置很有可能出现了故障，需要进行处理，而若计数器的记录个数很少，未达到预设个数，表明发生该计数器对应的事件类型的硬件位置很可能并未发生故障，而仅是由于偶然因素引起了一些错误，并不需要进行处理。

其中，这里的第一预设时间为36小时～72小时。这里的预设个数为2～3。

作为优选地，可以设置第一预设时间为72小时，预设个数为3。

当然，第一预设时间以及预设个数可根据试验结果以及经验值得出，本发明不限定第一预设时间以及预设个数的数值大小。

其中，这里的缓存故障类型包括普通缓存故障或TLB页表缓存故障。普通缓存故障包括一级缓存故障、二级缓存故障、三级缓存故障等。当然，普通缓存故障还可包含其他类型的缓存故障，本发明对此不作特别限定。

可以理解的是，若刷新成功，则表明此次故障处理结束，若刷新失败，表明缓存发生的故障不是偶然故障，无法通过刷新来解决，故需要控制CPU离线，避免出现故障的缓存继续工作。

与实施例一相比，本实施例具体限定了同一事件类型的错误事件文件的个数统计过程，在持续第一预设时间后，根据计数器的记录个数是否达到或超出预设个数来确定需要标记哪些错误事件文件。该方法简便易行，且由于若CPU发生了故障，则故障部位在经过第一预设时间后，基本均会生成达到或超过预设个数的错误事件文件，故本实施例能够保证将很可能发生了故障的硬件位置对应的事件类型识别出来，并将该事件类型对应的错误事件文件标记为故障事件文件进行判断处理，可靠性高。

实施例三

在实施例一的基础上，本发明还提供了基于linux系统的CPU故障诊断处理方法，参见图3所示，图3为本发明提供的另一种基于linux系统的CPU故障诊断处理方法的过程的流程图；

作为优选地，该实施例中，步骤s101的过程具体为：

触发第一计时器；

作为优选地，该实施例中，步骤s102的过程具体为：

当第一计时器记录的时间未超出第一预设时间时，若有计数器的记录个数达到预设个数，获取记录个数达到预设个数的计数器对应的事件类型，并控制记录个数达到所述预设个数的计数器停止计数；

可以理解的是，以上步骤即为，在第一计时器记录的时间未超出第一预设时间时，一旦出现计数器上的记录个数达到预设个数，即控制该计数器停止计数，并将与该计数器对应的事件类型相同的错误事件文件标记为故障格式文件，然后对该故障格式文件进行后续判断处理操作，而不需要等到第一计时器记录的时间达到第一预设时间后，再将计数器的记录个数与预设个数进行比较。另外，在在第一计时器记录的时间未超出第一预设时间的过程中，可能会有多个计数器的记录个数达到预设个数，这种情况下，即将与各个计数器对应的事件类型相同的错误事件文件分别标记为故障格式文件，然后分别对各个故障格式文件进行后续判断处理操作。

另外，本实施例中的第一预设时间、预设个数以及第二预设时间优选与实施例二中的数值相同，当然，本实施例不限定第一预设时间、预设个数以及第二预设时间的具体数值，工作人员可根据实际情况自行决定。

与实施例一相比，本实施例具体限定了同一事件类型的错误事件文件的个数统计过程，不仅能够保证将很可能发生了故障的硬件位置对应的事件类型识别出来，并将该事件类型对应的错误事件文件标记为故障事件文件进行判断处理，并且本实施例不一定需要等到持续第一预设时间后再进行后续判断处理操作，而是只要计数器的记录个数达到预设个数，即可进行后续判断处理操作，节省了故障诊断的时间，提高了效率。

另外，在实施例二和实施例三的基础上，还可以增加如下操作：

当CPU的故障类型不是缓存故障类型时，生成一个包括故障格式文件内容的输出日志，并发送至显示界面。

可以理解的是，由于输出日志内包括故障格式文件的内容，可便于工作人员对未进行处理的故障进行了解，进而进行处理，提高了故障处理的可靠性。

作为优选地，在实施例二和实施例三的基础上，步骤s104之后还包括：

控制全部计数器清零，触发第二计时器；

当第二计时器记录的时间达到第二预设时间时，控制第二计时器停止计时，触发全部计数器重新开始计数，并重新进行步骤s101。

其中，这里的第二预设时间可以为1s～10s，当然，本发明不限定第二预设时间的数值，工作人员可根据实际情况自行决定。

可以理解的是，通过上述操作可实现按预设时间间隔重复进行故障诊断处理，即每隔第二预设时间重复进行一次CPU故障诊断处理，避免了一次故障处理不到位的情况出现(例如，可能会出现刷新成功但故障仍然存在的情况，该种情况下若进行一次CPU故障诊断处理即不再继续操作，故障会继续存在于CPU内，影响CPU的正常使用)，且能够保证及时发现新增故障，可靠性以及安全性高。

本发明还提供了一种基于linux系统的CPU故障诊断处理系统，参见图4所示，图4为本发明提供的一种基于linux系统的CPU故障诊断处理系统的结构示意图。该系统包括：

统计模块11，分析CPU事件源中的错误事件文件的事件类型，统计同一事件类型的错误事件文件的个数；

故障标记模块12，用于将第一预设时间内个数达到或超出预设个数的事件类型对应的错误事件文件标记为故障格式文件；

判断模块13，用于根据故障格式文件判断CPU的故障类型是否为缓存故障类型，如果是，触发缓存刷新模块14；

作为优选地，该系统还包括：

日志生成模块，用于生成一个包括故障格式文件内容的输出日志，并发送至显示界面。其中，当判断模块13判断CPU的故障类型不为缓存故障类型时触发日志生成模块。

缓存刷新模块14，用于刷新发生故障的缓存；

刷新判断模块15，用于根据缓存刷新后生成的返回值，判断是否成功刷新发生故障的缓存，如果否，控制CPU离线。

其中，统计模块11具体包括：

第一计时触发模块，用于触发第一计时器；

计数控制模块，用于依次分析CPU事件源中的错误事件文件的事件类型，将同一事件类型的错误事件文件的个数记录至对应的计数器内。

在具体的实施例中，故障标记模块12具体包括：

第一计时停止模块，用于当第一计时器记录的时间达到第一预设时间时，控制第一计时器停止计时；

第一事件类型获取模块，用于控制全部计数器停止计数，获取记录个数达到或超出预设个数的计数器对应的事件类型；

第一标记确定模块，用于将获取的事件类型对应的错误事件文件标记为故障格式文件。

在另一种具体实施例中，故障标记模块12具体包括：

第二事件类型获取模块，用于当第一计时器记录的时间未超出第一预设时间时，若有计数器的记录个数达到预设个数，获取记录个数达到预设个数的计数器对应的事件类型，并触发计数停止模块；

计数停止模块，用于控制记录个数达到预设个数的计数器停止计数；

第二标记确定模块，用于将获取的事件类型对应的错误事件文件标记为故障格式文件。

作为优选地，该系统还包括：

计数清零模块，用于控制全部计数器清零；

第二计时触发模块，用于触发第二计时器；

第二计时停止模块，用于当第二计时器记录的时间达到第二预设时间时，控制第二计时器停止计时，并触发计数触发模块；

计数触发模块，用于触发全部计数器重新开始计数，并重新触发统计模块11。

其中，计数清零模块受到刷新判断模块15的触发，当刷新判断模块15控制CPU离线或判断刷新成功后，刷新判断模块15触发计数清零模块启动。

本发明提供了一种基于linux系统的CPU故障诊断处理系统，能够通过主动对CPU事件源中的错误事件文件进行分析判断来确定CPU是否发生了缓存故障，而不需要工作人员自行进行分析，便利性高；且当确定发生缓存类故障后，本发明能够对发生故障的缓存进行刷新，若刷新失败，则控制CPU离线，可见，本发明能够根据故障类型来主动进行相应的处理，避免了计算机在故障情况下继续运行，进而避免给用户的工作生活带来损失，安全性高。

需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其他实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于linux系统的CPU故障诊断处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述步骤s101的过程具体为：

触发第一计时器；

3.根据权利要求2所述的方法，其特征在于，所述步骤s102的过程具体为：

4.根据权利要求2所述的方法，其特征在于，所述步骤s102的过程具体为：

5.根据权利要求3或4所述的方法，其特征在于，步骤s104之后还包括：

控制全部所述计数器清零，触发第二计时器；

6.根据权利要求1所述的方法，其特征在于，所述缓存故障类型包括普通缓存故障或TLB页表缓存故障。

7.根据权利要求1所述的方法，其特征在于，所述第一预设时间为36小时～72小时。

8.根据权利要求6所述的方法，其特征在于，所述预设个数为2～3。

9.一种基于linux系统的CPU故障诊断处理系统，其特征在于，包括：

所述缓存刷新模块，用于刷新发生故障的缓存；

10.根据权利要求9所述的系统，其特征在于，所述统计模块具体包括：

第一计时触发模块，用于触发第一计时器；