CN109144835A

CN109144835A - 一种应用服务故障的自动预测方法、装置、设备及介质

Info

Publication number: CN109144835A
Application number: CN201810872064.9A
Authority: CN
Inventors: 段国栋
Original assignee: Guangdong Inspur Big Data Research Co Ltd
Current assignee: Guangdong Inspur Smart Computing Technology Co Ltd
Priority date: 2018-08-02
Filing date: 2018-08-02
Publication date: 2019-01-04

Abstract

本发明实施例公开了一种应用服务故障的自动预测方法、装置、设备及计算机可读存储介质。其中，方法包括利用预先建立的故障学习模型，分析采集的待预测应用服务工作过程中的硬件的状态参数数据值是否在正常工作范围内，若不在，则作为异常状况进行数据记录和计数处理；当发生异常状况总次数值超过次数阈值，则根据记录的数据、发生异常状况次数值及相对应的正常工作范围生成预测故障发生时间的故障预测报告。故障学习模型为对采集服务器上各应用服务在正常工作状态下的运行数据值进行学习，得到各应用服务在运行过程中的各状态参数的正常工作范围。本申请实现了对应用服务系统故障的准确预测，有利于提升系统可靠性，提升了应用软件的可靠性。

Description

一种应用服务故障的自动预测方法、装置、设备及介质

技术领域

本发明实施例涉及服务器故障检测技术领域，特别是涉及一种应用服务故障的自动预测方法、装置、设备及计算机可读存储介质。

背景技术

随着互联网技术的快速发展，各行各业均离不开互联网，服务器作为网络节点，存储、处理网络上80％以上的数据和信息，其在各行各业中需求俨然很大。

服务器作为管理资源在互联网中为用户提供服务的计算机设备，可包括处理器、硬盘、内存、系统总线等，和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。可见，服务器的在交付之前需要进行大量的除错，以保证服务器满足现实的高要求。

由于业务系统的日渐庞大，系统的构造也日趋复杂，加之组件的动态增加，运行环境的变更，系统在线升级和在线修复等工作频繁，以及网络环境自身引入的复杂性都会导致系统可靠性的下降。

应用服务一般指应用软件后台的服务支撑系统，只有服务正常才可以保证应用软件的正常使用。在大规模的并行系统中，应用服务故障已成为一种常态，大规模并行系统平均2天就会有一次故障，按照这种故障发生频率，以后更大的并行E级别系统故障的频率将会更加频繁。

为了提高系统可靠性，准确预测系统的故障发生并及时解决是非常必要的，现有技术一般采用软件应用的高可用，但是，软件应用的高可用会大幅增加系统的成本。鉴于此，如何在不增加硬件成本的前提下，准确的预测应用服务的故障，以满足现实对业务系统高可靠性需求，是本领域技术人员亟待解决的问题。

发明内容

本发明实施例的目的是提供一种应用服务故障的自动预测方法、装置、设备及计算机可读存储介质，在不增加硬件成本的基础上，实现了对应用服务系统故障的准确预测，有利于提升系统可靠性，提升了应用软件的可靠性。

为解决上述技术问题，本发明实施例提供以下技术方案：

本发明实施例一方面提供了一种应用服务故障的自动预测方法，包括：

获取待预测应用服务工作过程中的硬件的状态参数数据值；

利用预先建立的故障学习模型，判断所述状态参数数据值是否在正常工作范围内；若否，则作为异常状况，进行数据记录和计数处理；

当发生异常状况总次数值超过次数阈值，则根据记录的数据、发生异常状况次数值及相对应的正常工作范围生成故障预测报告；

其中，所述故障学习模型为对采集服务器上各应用服务在正常工作状态下的运行数据值进行学习，得到各应用服务在运行过程中的各状态参数的正常工作范围；所述故障预测报告包括出现异常状况的硬件信息及异常状况出现次数和预测故障出现的时间。

可选的，所述判断所述状态参数数据值是否在正常工作范围内之后，若否，则进行数据记录和计数处理包括：

当所述状态参数数据值不在正常范围内，则判断所述状态参数数据值与相应的正常工作范围的偏离度是否超过偏离阈值；

若是，则同时记录硬件的属性信息和所述状态参数数据值放在预设区域内，并作为异常状况进行计数；

若否，则只对所述状态参数数据值进行数据记录和计数处理。

可选的，在所述当发生异常状况总次数值超过次数阈值，则根据记录的数据、发生异常状况次数值及相对应的正常工作范围生成故障预测报告之后，还包括：

根据所述故障预测报告进行故障严重级别的提示，所述故障严重级别包括严重、一般和轻微。

可选的，当所述故障严重级别为严重时，进行报警。

可选的，所述故障学习模型还包括：

在预设时间段内对所述故障学习模型学习得到的各应用服务在运行过程中的各状态参数的正常工作范围进行有效性验证，以确保各应用服务在相应正常工作范围内的运行状态和工作时长满足预设条件。

本发明实施例另一方面提供了一种应用服务故障的自动预测装置，包括：

故障学习模块，用于对采集服务器上各应用服务在正常工作状态下的运行数据值进行学习，得到各应用服务在运行过程中的各状态参数的正常工作范围，以生成故障学习模型；

应用服务状态信息获取模块，用于获取待预测应用服务工作过程中的硬件的状态参数数据值；

故障分析模块，用于利用预先建立的故障学习模型，判断所述状态参数数据值是否在正常工作范围内；若否，则作为异常状况，进行数据记录和计数处理；

故障预测模块，用于当发生异常状况总次数值超过次数阈值，则根据记录的数据、发生异常状况次数值及相对应的正常工作范围生成故障预测报告；所述故障预测报告包括出现异常状况的硬件信息及异常状况出现次数和预测故障出现的时间。

可选的，所述故障分析模块包括：

判断偏差程度子模块，用于当所述状态参数数据值不在正常范围内，则判断所述状态参数数据值与相应的正常工作范围的偏离度是否超过偏离阈值；

判断结果执行模块，用于所述状态参数数据值与相应的正常工作范围的偏离度超过偏离阈值，则同时记录硬件的属性信息和所述状态参数数据值放在预设区域内，并作为异常状况进行计数；若所述状态参数数据值与相应的正常工作范围的偏离度不超过偏离阈值，则只对所述状态参数数据值进行数据记录和计数处理。

可选的，所述故障学习模块还包括：

验证子模块，用于在预设时间段内对所述故障学习模型学习得到的各应用服务在运行过程中的各状态参数的正常工作范围进行有效性验证，以确保各应用服务在相应正常工作范围内的运行状态和工作时长满足预设条件。

本发明实施例还提供了一种应用服务故障的自动预测设备，包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如前任一项所述应用服务故障的自动预测方法的步骤。

本发明实施例最后还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有应用服务故障的自动预测程序，所述应用服务故障的自动预测程序被处理器执行时实现如前任一项所述应用服务故障的自动预测方法的步骤。

本发明实施例提供了一种应用服务故障的自动预测方法，利用预先建立的故障学习模型，分析采集的待预测应用服务工作过程中的硬件的状态参数数据值是否在正常工作范围内，若不在，则作为异常状况进行数据记录和计数处理；当发生异常状况总次数值超过次数阈值，则根据记录的数据、发生异常状况次数值及相对应的正常工作范围生成预测故障发生时间的故障预测报告。故障学习模型为对采集服务器上各应用服务在正常工作状态下的运行数据值进行学习，得到各应用服务在运行过程中的各状态参数的正常工作范围。

本申请提供的技术方案的优点在于，根据服务器上运行的应用服务运行状态信息自动学习的过程，分析得到未来某个服务可能会出现故障和出现故障的预测时间，从而可有效规避由于服务问题而造成的数据损失或者为了防止服务出现故障用增加硬件的成本来做自动互备。在不增加硬件成本的基础上，实现了对应用服务系统故障的准确预测，保证了用户数据不易丢失，提升用户的使用体验，有利于提升整个业务系统的可靠性和高可用性，提升了应用软件的可靠性。

此外，本发明实施例还针对应用服务故障的自动预测方法提供了相应的实现装置、设备及计算机可读存储介质，进一步使得所述方法更具有实用性，所述装置、设备及计算机可读存储介质具有相应的优点。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种应用服务故障的自动预测方法的流程示意图；

图2为本发明实施例提供的另一种应用服务故障的自动预测方法的流程示意图；

图3为本发明实施例提供的应用服务故障的自动预测装置的一种具体实施方式结构图；

图4为本发明实施例提供的应用服务故障的自动预测装置的另一种具体实施方式结构图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象，而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可包括没有列出的步骤或单元。

在介绍了本发明实施例的技术方案后，下面详细的说明本申请的各种非限制性实施方式。

首先参见图1，图1为本发明实施例提供的一种应用服务故障的自动预测方法的流程示意图，本发明实施例可包括以下内容：

S101：获取待预测应用服务工作过程中的硬件的状态参数数据值。

可以实时采集服务器上各应用服务的运行状态信息，也可按照一定的频率(例如每隔5s)进行采集，这均不影响本申请的实现。待预测应用服务可为服务器上所有的应用服务，也可为指定的几个应用服务，或者是某个特定的应用服务，或者是随机的某个应用服务，只要该应用服务在故障学习模型中有相对应的正常工作范围即可，本申请对此不做任何限定。

捕捉的硬件的状态参数数据为在运行过程中会发生变化的参数的数值，例如温度等。这些硬件的运行状态参数可以反映当前硬件的工作状态是否正常。至于捕捉应用服务的哪些硬件的状态参数，本领域技术人员可根据具体的实际情况进行预先设定，本申请对比不作任何限定。

S102：利用预先建立的故障学习模型，判断所述状态参数数据值是否在正常工作范围内，若是，则执行S104，若否，则执行S103。

S103：作为异常状况，进行数据记录和计数处理；返回S101，继续获取待预测应用服务工作过程中的硬件的状态参数数据值。

S104：舍弃当前状态参数数据值，并返回S101，继续获取待预测应用服务工作过程中的硬件的状态参数数据值。

故障学习模型为对采集服务器上各应用服务在正常工作状态下的运行数据值进行学习，得到各应用服务在运行过程中的各状态参数的正常工作范围。

故障学习模型可基于现有任何一种机器学习算法进行多次学习采集得到的数据最后形成模型。具体过程可包括：

在数据记录过程中，主要是对服务器上应用服务的所有状态数据值进行统计，该数据的统计的前提是必须保证应用服务为正常工作的状态，且不存在任何问题。如果采集的应用服务本身存在小问题，那么将来预测出的故障学习模型可能就是不准确的。数据采集为一个重复的过程。

在数据学习过程中，根据记录数据信息，可进行片区的划分(例如按照时间顺序进行划分)，把稳定的工作状态的数据信息记录，定义这个稳定的数据，可围绕一个平均值如正负3％(当然，也可为其他值，这均不影响本申请的实现)即可。学习完这个过程就是一个标准的模型基础，这样统计完成后，一个基本的各个应用服务的正常工作范围就生成了。

在得到故障学习模型之后，可以把该模型导出放在任何一台服务器上，尤其是高可靠的服务器上，然后对每个已有的应用服务的状态信息进行和故障学习模型中对应的正常工作范围进行比对，查看应用服务当前的状态和故障学习模型的差别，并把状态参数数据值不在正常工作范围内的状态作为异常状况进行数据记录(状态参数数据值)和对异常状况发生次数计数。

可选的，可根据记录的数据和记录的异常状况发生次数生成数据分析结果报告，用于后续进行故障预测的依据。该数据分析结果报告可以任何一种形式(例如文档、图片、表格等)进行存储并可导出。

需要说明的是，由于服务器一直运行，所以各硬件的状态参数数据值为动态变化的，依次对每个状态参数数据值利用故障学习模型比对判断，也即S101-S104为一个循环过程，获取一个状态参数数据，然后进行判断比对，然后在获取下一个状态参数数据，并进行判断比对，循环执行。

S105：判断发生异常状况总次数值是否超过次数阈值，若是，则执行S106；若否，则返回S101。

S106：根据记录的数据、发生异常状况次数值及相对应的正常工作范围生成故障预测报告。

通过对前续操作得到的数据进行统计和归纳(记录的数据、发生异常状况次数值及相对应的正常工作范围)，将这些数据组织为标准语言的故障预测报告，即人类可以识别的语言。故障预测报告可包括出现异常状况的硬件信息及异常状况出现次数和预测故障出现的时间，举例来说，故障预测包括中可包含A硬件发生了N次异常数据，可能出现的故障的时间是某年某月某日。

此外，还可根据故障预测报告进行故障严重级别的提示。发生异常状况的次数越多，与正常工作范围偏差越大的，严重级别越高。

可以预先设置一个严重级别与参数值对应表，该表中可记载发生异常状况的次数在某个数值范围内(例如超过20次)，则为故障级别为严重；状态参数数据值与正常工作范围偏离度超过某个上限如5％时，则为故障级别为严重等等，具体的故障级别可根据具体的实际情况进行确定，本申请对此不作任何限定。

故障严重级别可包括两级如严重和一般，也可包括三级如严重、一般和轻微，或者也可为非常严重、严重、一般、轻微、正常等，故障严重级别的级别数和级别定义，可由本领域技术人员根据实际情况进行选择，本申请对此不做任何限定。

当故障严重级别为严重时，可进行报警，以使相关工作人员及时捕捉信息并进行相应维护，有效提高系统的可靠性。

在本发明实施例提供的技术方案中，根据服务器上运行的应用服务运行状态信息自动学习的过程，分析得到未来某个服务可能会出现故障和出现故障的预测时间，从而可有效规避由于服务问题而造成的数据损失或者为了防止服务出现故障用增加硬件的成本来做自动互备。在不增加硬件成本的基础上，实现了对应用服务系统故障的准确预测，保证了用户数据不易丢失，提升用户的使用体验，有利于提升整个业务系统的可靠性和高可用性，提升了应用软件的可靠性。

为了提高故障学习模型预测的准确性，还可在预设时间段内(例如该模型学习完成后的一个星期内)对故障学习模型学习得到的各应用服务在运行过程中的各状态参数的正常工作范围进行有效性验证，以确保各应用服务在相应正常工作范围内的运行状态和工作时长满足预设条件。预设条件可为工作人员根据服务器的自身配置以及运行业务的实际状况设定的服务器最佳运行状态和服务器以最佳运行状态运行时长(如8天)。

在有效性验证过程中，分析出只有这个工作范围为保证应用服务工作时间最长的一个合理区间，持续训练大约一周时间，得出一套非常高的数值区间范围内，当然这个过程还有可以导入已有模型，如果某个硬件已经有了自己的经过验证的模型，可以导入即可。

由上可知，该故障学习模型为服务器正常的工作状态下的信息模型，主要包括服务器各应用服务的工作状态数据，这个模型不是一个具体的值，而经过多重学习后得到的合理的工作区间，而且是经过多次试验验证处于该区间(正常工作范围内)的服务器是最佳状态且保证运行时间是最长的。

状态参数数据值与正常工作范围的偏离程度不同，反映着相对应的硬件的工作状态的异常情况严重程度，为了进一步的提升故障预测的准确度，还可进一步评判状态参数数据值的偏离程度，具体可包括：

当状态参数数据值不在正常范围内，则判断状态参数数据值与相应的正常工作范围的偏离度是否超过偏离阈值；

若是，则同时记录硬件的属性信息和状态参数数据值放在预设区域内，并作为异常状况进行计数；

若否，则只对状态参数数据值进行数据记录和计数处理。

也即将每次采集的信息数据和相对应的正常工作范围进行数据匹配，如果在正常范围就舍弃，如果不在看偏离程度(可以预设设置偏离阈值如5％)，如果偏离度在5％内，会记录数加一。如果超过5％就要放到严重区域，且外围数据(硬件的一些基本参数数据)要加一处理，且所有的操作会一直进行。

由上可知，通过对状态参数数据值与标准(正常工作范围)的偏离程度进行比对，可进一步提升故障预测的准确性。

为了本领域技术人员更加清楚明白本申请的技术方案，请参阅图2所示，该图为一种应用服务故障自动预测的流程示意图，在该示意性例子中，可包括故障学习阶段-多层次分析阶段-故障预测阶段。其中，故障学习阶段即为故障学习模型训练过程，通过对服务器硬件在正常工作状态下的数据采集，经过学习-验证生成模型，即模型库中可包含多个模型，每个模型可对应一种应用服务，模型记载各应用服务处于工作状态最佳且工作时长最长时的各状态参数的区间，模型可以数据图表的形式(如图所示)进行记载，也可以其他方式，这均不影响本申请的实现。多层次分析阶段包括对被预测硬件的运行的实时状态参数数据进行获取，利用上一阶段的模型库进行数据比对，当状态参数数据值不在正常工作范围内进行数据记录，然后可生成结果报告。在故障预测阶段，可根据上一阶段的结构报告分析记录的异常状况发生次数以及状态参数数据值判断其故障程度，分配到不同的告知系统(一般告知或严重告知)并发出告知。

由上可知，本发明实施例在不增加硬件成本的基础上，实现了对应用服务系统故障的准确预测，有利于提升系统可靠性，提升了应用软件的可靠性。

本发明实施例还针对应用服务故障的自动预测方法提供了相应的实现装置，进一步使得所述方法更具有实用性。下面对本发明实施例提供的应用服务故障的自动预测装置进行介绍，下文描述的应用服务故障的自动预测装置与上文描述的应用服务故障的自动预测方法可相互对应参照。

参见图3，图3为本发明实施例提供的应用服务故障的自动预测装置在一种具体实施方式下的结构图，该装置可包括：

故障学习模块301，用于对采集服务器上各应用服务在正常工作状态下的运行数据值进行学习，得到各应用服务在运行过程中的各状态参数的正常工作范围，以生成故障学习模型；

应用服务状态信息获取模块302，用于获取待预测应用服务工作过程中的硬件的状态参数数据值；

故障分析模块303，用于利用预先建立的故障学习模型，判断状态参数数据值是否在正常工作范围内；若否，则作为异常状况，进行数据记录和计数处理；

故障预测模块304，用于当发生异常状况总次数值超过次数阈值，则根据记录的数据、发生异常状况次数值及相对应的正常工作范围生成故障预测报告；故障预测报告包括出现异常状况的硬件信息及异常状况出现次数和预测故障出现的时间。

可选的，在本实施例的一些实施方式中，所述故障分析模块303例如还可包括：

判断偏差程度子模块，用于当状态参数数据值不在正常范围内，则判断状态参数数据值与相应的正常工作范围的偏离度是否超过偏离阈值；

判断结果执行模块，用于状态参数数据值与相应的正常工作范围的偏离度超过偏离阈值，则同时记录硬件的属性信息和状态参数数据值放在预设区域内，并作为异常状况进行计数；若状态参数数据值与相应的正常工作范围的偏离度不超过偏离阈值，则只对状态参数数据值进行数据记录和计数处理。

具体的，在一种实施方式中，所述故障学习模块301还可包括：

此外，请参阅图4，所述装置例如还可包括报警模块305，所述报警模块305可用于当故障严重级别为严重时，进行报警。

本发明实施例所述应用服务故障的自动预测装置的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

本发明实施例还提供了一种应用服务故障的自动预测设备，具体可包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序以实现如上任意一实施例所述应用服务故障的自动预测方法的步骤。

本发明实施例所述应用服务故障的自动预测设备的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

本发明实施例还提供了一种计算机可读存储介质，存储有应用服务故障的自动预测程序，所述应用服务故障的自动预测程序被处理器执行时如上任意一实施例所述应用服务故障的自动预测方法的步骤。

本发明实施例所述计算机可读存储介质的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种应用服务故障的自动预测方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种应用服务故障的自动预测方法，其特征在于，包括：

获取待预测应用服务工作过程中的硬件的状态参数数据值；

2.根据权利要求1所述的应用服务故障的自动预测方法，其特征在于，所述判断所述状态参数数据值是否在正常工作范围内之后，若否，则进行数据记录和计数处理包括：

3.根据权利要求2所述的应用服务故障的自动预测方法，其特征在于，在所述当发生异常状况总次数值超过次数阈值，则根据记录的数据、发生异常状况次数值及相对应的正常工作范围生成故障预测报告之后，还包括：

4.根据权利要求3所述的应用服务故障的自动预测方法，其特征在于，当所述故障严重级别为严重时，进行报警。

5.根据权利要求1至4任意一项所述的应用服务故障的自动预测方法，其特征在于，所述故障学习模型还包括：

6.一种应用服务故障的自动预测装置，其特征在于，包括：

7.根据权利要求6所述的应用服务故障的自动预测装置，其特征在于，所述故障分析模块包括：

8.根据权利要求7所述的应用服务故障的自动预测装置，其特征在于，所述故障学习模块还包括：

9.一种应用服务故障的自动预测设备，其特征在于，包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至5任一项所述应用服务故障的自动预测方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有应用服务故障的自动预测程序，所述应用服务故障的自动预测程序被处理器执行时实现如权利要求1至5任一项所述应用服务故障的自动预测方法的步骤。