CN113448805A

CN113448805A - 基于cpu动态阈值的监控方法、装置、设备及存储介质

Info

Publication number: CN113448805A
Application number: CN202110726394.9A
Authority: CN
Inventors: 房志明; 胡继强; 邹萌萍; 类铭辰
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-09-28

Abstract

本文属于金融科技领域，具体涉及基于CPU动态阈值的监控方法、装置、设备及存储介质，所述方法包括：获取CPU使用率历史数据；根据所述历史数据，确定服务器在当前时间段的CPU使用率预测曲线，所述预测曲线由当前时间段内每个采集时刻的CPU使用率预测值拟合而成；按照预设周期实时获取CPU使用率真实数据，其中每个预设周期包括多个采集时刻；根据所述预设周期采集的真实数据和相应时间段的所述预测曲线，确定每个预设周期的告警级别；按照所述告警级别进行告警。本文通过历史数据可以动态的确定当前时间段的预测数据，从而提高了对CPU使用率监控的准确性和时效性。

Description

基于CPU动态阈值的监控方法、装置、设备及存储介质

技术领域

本文属于金融技术领域，具体涉及基于CPU动态阈值的监控方法、装置、设备及存储介质。

背景技术

中央处理器(Central Processing Unit，CPU)是服务器的核心之一，在计算机服务器运维工作中，实时监控每台服务器系统运行指标是必要的工作，比如服务器的CPU使用率、内存使用率、硬盘使用率、系统负载率，网络带宽使用量等等。上述指标能从不同维度反映服务器的健康状况，当指标不在正常范围时，服务器系统可能无法正常工作，导致其性能降低，影响前端应用的性能体验。当CPU长时间使用率过高，则会导致CPU温度升高，从而在高温的环境下影响CPU的使用寿命，有时甚至会导致服务器宕机。

现有技术中，针对CPU使用率的监控告警一般通过运维人员经验设定的阈值作为告警提示的标准，但是随着开放式平台应用的增加，布置的服务器数量也在增加，对服务器监控难度加大，精确性要求也变得更高，因此通过经验设定的方式不能满足开放式平台的监控要求，进而导致告警时效性和准确性都较低。因此如何提高CPU监控告警的时效性和准确性成为目前亟需解决的技术问题。

发明内容

针对现有技术的上述问题，本文的目的在于，提供基于CPU动态阈值的监控方法、装置、设备及存储介质，能够提高服务器CPU监控告警的时效性和准确性。

为了解决上述技术问题，本文的具体技术方案如下：

一方面，本文提供基于CPU动态阈值的监控方法，所述方法包括：

获取CPU使用率历史数据；

根据所述历史数据，确定服务器在当前时间段的CPU使用率预测曲线，所述预测曲线由当前时间段内每个采集时刻的CPU使用率预测值拟合而成；

按照预设周期实时获取CPU使用率真实数据，其中每个预设周期包括多个采集时刻；

根据所述预设周期采集的真实数据和相应时间段的所述预测曲线，确定每个预设周期的告警级别；

按照所述告警级别进行告警。

进一步地，所述根据所述历史数据，确定服务器在当前时间段的CPU使用率预测曲线，包括：

获取第一时间段和第二时间段的历史数据，所述第一时间段为所述预设周期相应时间段的上一个历史时间段，所述第二时间段为所述预设周期相应时间段的多个历史时间段；

根据所述第一时间段和所述第二时间段的历史数据，计算获得当前时间段内每个时刻的CPU使用率预测值；

根据所述当前时间段内每个时刻的CPU使用率预测值，确定所述CPU使用率预测曲线。

进一步地，所述根据所述第一时间段和所述第二时间段的历史数据，计算获得当前时间段内每个时刻的CPU使用率预测值，包括：

根据所述第二时间段的任一相应时刻的历史数据，计算得到第二时间段内该相应时刻历史数据的标准差；

根据所述标准差，结合所述第一时间段内该相应时刻的历史数据，计算得到所述当前时间段内相应时刻的CPU使用率预测值。

进一步地，所述计算得到所述当前时间段内相应时刻的CPU使用率预测值之后还包括：

判断所述CPU使用率预测值是否超过预设值；

若是，则确定所述CPU使用率预测值对应时刻，并将所述预设值确定为该时刻的CPU使用率预测值。

进一步地，所述获取CPU使用率历史数据，包括：

确定历史数据存储的分区划分规则，所述分区划分是所述历史数据基于分库分表策略确定；

根据所述分区划分规则，提取第一时间段和第二时间段内的每一时刻的历史数据。

进一步地，所述根据所述预设周期采集的真实数据和相应时间段所述预测曲线，确定每个预设周期的告警级别，包括：

根据所述预设周期内的多个采集时刻和所述预测曲线，确定每个采集时刻的CPU使用率预测数据；

根据所述真实数据和所述预测数据，确定所述预设周期内的异常采集点个数；

当所述异常采集点个数超过预设个数时，则按照所述预设周期内的真实数据确定告警级别。

进一步地，所述告警级别包括第一级别、第二级别和第三级别；

所述按照所述预设周期内的真实数据确定告警级别，包括：

确定所述真实数据超过第一阈值的采集时刻个数m以及所述真实数据超过第二阈值的采集时刻个数n，所述第一阈值大于所述第二阈值；

当m＞x₁时，则所述告警级别为第一级别；

当m＝x₁且n≥x₂时，或m<x₁且n≥x₃时，则所述告警级别为第二级别；

当m＝x₁且n<x₂时，或m<x₁且n<x₃时，则所述告警级别为第三级别，其中x₁、x₂和x₃为不同告警级别的预设门限值。

进一步地，所述根据所述预设周期采集的真实数据和相应时间段所述预测曲线，确定每个预设周期的告警级别，之后还包括：

根据所述服务器在当前预设周期的告警级别，确定第一指定时间段内该服务器中相同告警级别的第一告警次数；

从历史时间段中确定与所述第一指定时间段对应的多个第二指定时间段；

根据所述服务器在当前预设周期的告警级别，以及第一指定时间段，确定每个所述第二指定时间段内该服务器中相同告警级别的第二告警次数；

根据所述第一告警次数和多个所述第二告警次数，结合预设规则，判断当前预设周期的告警是否是异常告警；

若所述当前预设周期的告警是异常告警，则取消告警。

进一步地，所述根据所述第一告警次数和多个所述第二告警次数，结合预设规则，判断当前预设周期的告警是否是异常告警，包括：

根据多个所述第二告警次数，依次比较所述第一告警次数和所述第二告警次数，以获得多个所述第二指定时间段中的异常时间段个数；

根据所述异常时间段个数和所述第二指定时间段总个数，计算获得所述第二指定时间段的异常比例；

根据所述异常比例和预设异常阈值，确定判断当前预设周期的告警是否是异常告警。

进一步地，所述按照所述告警级别进行告警，包括：

确定目标监控应用；

根据所述目标监控应用，确定不同告警级别的告警策略；

根据所述告警级别，确定相应的告警策略，以实现针对所述目标监控应用的告警。

作为可选地，所述告警策略至少包括以下一种：邮件告警、短信告警、语音告警、开发人员告警。

另一方面，本文还提供一种基于CPU动态阈值的监控装置，所述装置包括：

历史数据获取模块，用于获取CPU使用率历史数据；

预测曲线确定模块，用于根据所述历史数据，确定服务器在当前时间段的CPU使用率预测曲线，所述预测曲线由当前时间段内每个采集时刻的CPU使用率预测值拟合而成；

真实数据采集模块，用于按照预设周期实时获取CPU使用率真实数据，其中每个预设周期包括多个采集时刻；

告警级别确定模块，用于根据所述预设周期采集的真实数据和相应时间段的所述预测曲线，确定每个预设周期的告警级别；

告警模块，用于按照所述告警级别进行告警。

另一方面，本文还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述所述的方法。

最后，本文还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述所述的方法。

采用上述技术方案，本文所述的一种基于CPU动态阈值的监控方法、装置、设备及存储介质，通过服务器CPU使用率的历史数据确定当前时间段的预测曲线，进而按照预设周期采集真实数据，结合预设周期对应时间段的预测曲线，确定每个预设周期的告警级别，从而实现了针对不同异常情况的不同告警，本文通过历史数据可以动态的确定当前时间段的预测数据，从而提高了对CPU使用率监控的准确性和时效性。

为让本文的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本文实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本文的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本文实施例提供方法的实施环境示意图；

图2示出了本文实施例提供的一种基于CPU动态阈值的监控方法的步骤示意图；

图3示出了本文实施例中CPU使用率预测曲线确定步骤示意图；

图4示出了本文实施例中告警级别确定步骤示意图；

图5示出了本文实施例中异常告警处理步骤示意图；

图6示出了本文实施例中异常告警确定步骤示意图；

图7示出了本文实施例提供的一种基于CPU动态阈值的监控装置的结构示意图；

图8示出了本文实施例提供的计算机设备结构示意图。

附图符号说明：

10、服务器；

20、数据库；

30、监控装置；

40、运维人员；

100、历史数据获取模块；

200、预测曲线确定模块；

300、真实数据采集模块；

400、告警级别确定模块；

500、告警模块；

802、计算机设备；

804、处理器；

806、存储器；

808、驱动机构；

810、输入/输出模块；

812、输入设备；

814、输出设备；

816、呈现设备；

818、图形用户接口；

820、网络接口；

822、通信链路；

824、通信总线。

具体实施方式

下面将结合本文实施例中的附图，对本文实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本文一部分实施例，而不是全部的实施例。基于本文中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本文保护的范围。

需要说明的是，本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

现有技术中，对服务器运维监控中CPU使用率的监控成为越来越重要的指标，针对CPU使用率的监控告警一般通过运维人员经验设定的阈值作为告警提示的标准，但是随着开放式平台应用的增加，布置的服务器数量也在增加，对服务器监控难度加大，精确性要求也变得更高，因此通过经验设定的方式不能满足开放式平台的监控要求，进而导致告警时效性和准确性都较低。

为了解决上述问题，本说明书实施例提供一种基于CPU动态阈值的监控方法，所述方法能够提高服务器CPU监控告警的时效性和准确性，如图1所示，为所述方法的实施环境示意图，可以包括服务器10、数据库20、监控装置30和运维人员40，其中所述服务器10为待监控的服务器，通过与前端应用交互实现前端应用的相应功能，所述数据库20能够接收并存储所述服务器10的CPU工作参数，比如CPU使用率，在实际工作中，可以按照指定的采集周期采集CPU使用率并保存在数据库20中，所述监控装置30可以从所述数据库20中获取所述服务器10的CPU使用率的历史数据，并根据所述历史数据，确定出当前时间段(即待预测的时间段)的CPU使用率预测曲线，从而得到当前时间段相应时刻的预测值，然后所述监控装置30还可以实时从所述服务器10中获得CPU使用率当前阶段的真实值，这样结合预设周期，通过所述真实值和所述预测值的比较，来确定每个预设周期的告警级别，实现了针对性的告警，最后运维人员40可以根据不同的告警提示做出相应的结果方式，提高了解决异常问题的效率。本文通过历史数据可以动态的调整CPU使用率的预测阈值，提高了告警监控的准确性和时效性。

所述服务器10可以为开放式系统下布置的服务器，比如基于分布式网络设置的服务器，前端一个应用功能的实现可能需要后端多个服务器配合才能实现，这样对每个服务器性能状况的监控及其必要，及时发现潜在问题，提高了开放式系统运行的稳定性和可靠性。

在本实施例中，提供了一种基于CPU动态阈值的监控方法，能够提高服务器告警监控的时效性和准确性。图2是本文实施例提供的一种基于CPU动态阈值的监控方法的步骤示意图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或装置产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行。具体的如图2所示，所述方法可以包括：

S101：获取CPU使用率历史数据；

S102：根据所述历史数据，确定服务器在当前时间段的CPU使用率预测曲线，所述预测曲线由当前时间段内每个采集时刻的CPU使用率预测值拟合而成；

S103：按照预设周期实时获取CPU使用率真实数据，其中每个预设周期包括多个采集时刻；

S104：根据所述预设周期采集的真实数据和相应时间段的所述预测曲线，确定每个预设周期的告警级别；

S105：按照所述告警级别进行告警。

可以理解为，本说明书实施例通过服务器CPU使用率的历史数据来预测后续数据的可靠性，从而实现了对服务器工作稳定性的动态监控，其中具体为，通过CPU使用率历史数据计算得到当前时间段的CPU使用率预测曲线，从而通过该预测曲线得到当前时间段内每个采集时刻的预测数据，结合实际采集到的真实数据，以每个预设周期(即采集周期)为告警周期进行真实数据和预测数据的比较，从而确定告警识别，实现了针对性的异常警示，本文能实现CPU使用率动态阈值的确定，从而实现了告警的时效性和准确性。

其中所述预测曲线可以理解为当前时间段每个采集时刻的CPU使用率预测值拟合而成，比如当前时间段为本周，通过上一周历史数据提前预测得到本周全部待采集时刻的预测数据，进而形成本周的预测曲线，而采集时刻可以根据实际采集频率确定，比如1分钟一个采集点，5分钟一个采集点等，在本说明书实施例不做限定。

所述预设周期则为多个连续采集时刻组成的微时间段，由于业务运行的连续性，一般CPU使用率会有连续性的变化，而不是突变，这样可以避免以单个采集时刻进行告警，造成了误告警或频繁告警，因此以单个采集时刻进行告警反而降低了告警的准确性。以单个预设周期内的多个采集时刻作为一个整体进行一次告警，可以提高告警的有效性和可靠性。所述预设周期根据实际情况设置，比如10分钟，10分钟内设置10个采集时刻，并在第10分钟确定相应的告警级别进行告警，在一些其他实施例中，也可以有其他的设置方式，在本说明书实施例不做限定。

所述预测曲线可以理解为所述CPU使用率的基线，即当前时间段的CPU使用率的真实数据应在所述基线以下，当存在某个采集时刻的采集数据超过该采集时刻下的预测数据时，则表示该采集时刻的CPU使用率可能为异常值，即可以作为异常数据进行处理。

在本说明书实施例中，如图3所示，所述根据所述历史数据，确定服务器在当前时间段的CPU使用率预测曲线，包括：

S201：获取第一时间段和第二时间段的历史数据，所述第一时间段为所述预设周期相应时间段的上一个历史时间段，所述第二时间段为所述预设周期相应时间段的多个历史时间段；

S202：根据所述第一时间段和所述第二时间段的历史数据，计算获得当前时间段内每个采集时刻的CPU使用率预测值；

S203：根据所述当前时间段内每个采集时刻的CPU使用率预测值，确定所述CPU使用率预测曲线。

可以理解为，本文通过最近生成的历史数据来预测下一时间段的数据，就能实现CPU动态阈值(即预测数据)的确定，示例性地，对本周(相当于当前时间段)的数据进行预测，则所述第一时间段应为上一周的历史数据，由上周一对应时刻(上周一上午8：10)的数据预测本周一对应时刻(本周一上午8：10)的数据，所述第二时间段应该过去多周的历史数据，比如过去八周的历史数据，通过过去八周每周一上周上午8：10的历史数据结合上周一上午8：10的历史数据，来预测本周一上午8：10的数据，这样既能考虑业务办理的周期性规律(相当于CPU使用率也会有周期性的变化)，也能通过最近生成的历史数据动态的调整所述CPU使用率的基线，提高了告警监控的时效性和可靠性。在一些其他实施例中，也可以以月或年的长度进行预测，根据实际情况设置，在本说明书不做限定。

比如，正如上文所述，以周为计算周期生成预测值，则就能生成一周的预测曲线，每周的预测曲线中又可以分成7条以天为单位的子预测曲线，从而能够将预测曲线精确到天，在采集时一分钟为一个采集点，则一天就有24*60＝1440个采集点，以该1440个采集点为基础进行预测得到1440个预测值组成的子预测曲线，相应的，每周就有7*1440个预测值形成的预测曲线。

进一步实施例中，所述根据所述第一时间段和所述第二时间段的历史数据，计算获得当前时间段内每个采集时刻的CPU使用率预测值，包括：

所述标准差可以为理解为相应时刻数据的理论最大偏差值，通过在所述第一时间段相应时刻的历史数据基础上，结合所述标准差就能得到该相应时刻数据的上限值。本文是根据正态分布原理中数据分布规则来确定每个采集时刻的CPU使用率预测值，比如，在正态分布中，68.27％的数据分布在(μ-δ，μ+δ)范围内，95.44％的数据分布在(μ-2δ，μ+2δ)范围内，99.73％的数据分布在(μ-3δ，μ+3δ)范围内。基于上述统计学模型，(其中μ代表上周同时间点数据，δ为近8周同时间点数据的标准差)，以周为维度，进行CPU使用率基线的动态计算。

示例性地，如A服务器，采集时刻为是本周周二(2020-4-28，11:00)，其基线值上限就是(3δ(即今日前的8个周二11:00的数据的标准差)+上周二11:00的真实值)作为本周周二11：00的预测值。

在一些其他实施例中，为了提高整个监控装置的敏感度，所述基线的计算方式可以选择更保守的方式，比如以μ+2δ作为基线值的上限，这样可以提高监控装置的敏感度，在较高的CPU使用率真实值下就可以进行告警，保证了服务器一直在较好的状态下工作。

需要说明的是，所述CPU使用率预测值还可以有其他的计算方式，比如基于神经网络模型的周期性预测，可以通过历史数据的变化规律来预测当前时间段的数据，从而进行CPU使用率的监控，具体的设置方式在本说明书实施例不做限定。

再一次需要说明的是，考虑工作日、周末、假期业务分布不同，因此CPU使用率周期性的规律变化可能随着工作日的变动而发生变动，在本说明书实施例中，可以通过节假日表设置，剔除节假日因素。若基线计算中遇到历史值属于特殊节假日，则越过法定节假日再向前推一周取数做基线计算，若遇到周末补班，则向前推三天，取工作日做基线计算。

当然，在一些历史数据中可能也会存在异常或CPU使用率正常冲高的情况，此时计算出来的CPU使用率基线(或预测值)必然也是较高的值，那么在监控中起到的告警作用不是很大，因此所述计算得到所述当前时间段内相应时刻的CPU使用率预测值之后还包括：

判断所述CPU使用率预测值是否超过预设值；

其中，所述预设值可以为所述服务器CPU使用率的临界值，超过该临界值表示CPU负荷过大，需要进行一定的降负荷处理，作为可选地，所述预设值可以为85％，通过对所述CPU使用率基线最大值的限制，使得服务器在任意采集时刻的预测值都在一个健康合理的水平内，可以提高所述基线的监控效果和监控的可靠性。

在开放式系统中，随着应用越来越多，需要布置的后台服务器也越来越多，因此采集及存储的数据量也会越来越大，比如开放式系统有452个应用，配置有58902个服务器，按照采集频率每天将生成1440*58902＝84818880条数据，每周将生成1440*58902*7＝593732160条数据，基于如此庞大的数据量，在进行每周的CPU使用率基线计算时，数据的提取速度也会影响整个监控装置的运行效率，因此在本说明书实施例中，可以采用分库分表结合分区的方式来提升数据存取效率，按照OS类型将源数据分库，按照周的天数将基线数据分成七张表，并按照服务器IP地址转换做基数做计算将每张表分成40个分区，从而根据分区规则快速提取相应的历史数据。

在实际工作中，可以提前设置基线处理规则，并将处理后的基线存储的相应位置，按照基线处理原则对基线抓取时，效率提升明显，数据抓取时间均在毫秒级，但是因服务器量庞大、基线数据近六千万，系统处理时间会大大降低告警的时效性，因此还可以通过多线程的并发方式，对各应用进行告警数据处理，从而提高了数据处理的效率。

因此，作为可选地，所述获取CPU使用率历史数据，包括：

在一些其他实施例中，还可以有其他的数据存储和提取方式，在本说明书实施例不做限定。

进一步实施例中，如图4所示，所述根据所述预设周期采集的真实数据和相应时间段所述预测曲线，确定每个预设周期的告警级别，包括：

S301：根据所述预设周期内的多个采集时刻和所述预测曲线，确定每个采集时刻的CPU使用率预测数据；

S302：根据所述真实数据和所述预测数据，确定所述预设周期内的异常采集点个数；

S303：当所述异常采集点个数超过预设个数时，则按照所述预设周期内的真实数据确定告警级别。

可以理解为，通过设置预设周期作为告警周期，并以预设周期内真实数据的异常情况来确定相应的告警级别，其中，以预设周期内每个采集时刻的真实值和相应的预测值进行比较，当真实值和预测值之间满足指定条件时，则表明该采集时刻为异常采集点，依次进行采集时刻的比较确定所述预设周期内异常采集点个数，并当所述异常采集点个数超过预设个数时，则表明所述预设周期为异常周期，可以进行告警提示，然后为了进一步的提高告警的针对性，因此还可以根据预设周期内全部采集时刻对应真实数据来确定告警级别，从而能在保证告警时效性的基础上，根据异常验证情况选择不同的告警方式，提高了后续处理的效率和针对性。

进一步实施例中，所述指定条件可以为真实值超过预测值，则认定相应的采集时刻为异常时刻，这样可以提高异常时刻判断的效率。

在一些其他实施例中，为了提高监控模型的适应范围，仅以真实值和预测值进行异常判断，很难对预测值附近(比如略高略低)的数据进行有效的判断，反而形成了一刀切的判断结果，因此所述指定条件还可以包括：

1)真实值超过预测值，即A>F，其中A为真实值，F为预测值；

2)真实值和预测值得差大于Y₁，即A-F>Y₁，其中Y₁可以为10％；

3)真实值大于Y₂，即A>Y₂，其中Y₂可以为30％；

因此，当采集时刻的真实值同时满足上述三个条件，则表明该采集时刻为异常时刻，进而可以判断一个预设周期内全部的异常时刻个数，当该异常时刻个数超过预设个数时，则可以认定该预设周期为异常周期，可以进行告警提示，所述预设个数根据实际情况设置，当一个预设周期内设有10个采集点时，则所述预设个数可以为8，在一些其他实施例也可以有其他设置方式，本说明书实施例不做限定。

在本说明书实施例中，所述告警级别包括第一级别、第二级别和第三级别；

所述按照所述预设周期内的真实数据确定告警级别，包括：

当m＞x₁时，则所述告警级别为第一级别；

其中，所述第一阈值可以为所述服务器CPU使用率正常状态下的临界值，所述第二阈值为所述服务器CPU使用率在良好状态下的理想值，所述第一阈值和所述第二阈值具体数值根据实际情况设置，通过将预设周期内的采集时刻的真实值分别与第一阈值和第二阈值进行比较，确定当前服务器的负荷状态，当处于较高的负荷状态时，则应该采用较高的告警级别，以便运维人员及时的采用准确的处理策略，在保证告警时效性的基础上，提高了对异常处理的效率和能力。

示例性地，所述第一级别可以为ERROR级别，所述第二级别可以为WARNING级别，所述第三级别可以为INFO级别，所述第一阈值设定为85％，所述第二阈值设定为50％，则不同告警级别可以采用如下方式：

1)有2次及以上真实值超过85％定义为ERROR级别；

2)有1次真实值超过85％且有2次及以上真实值超过50％，或者没有真实值超过85％且有4次及以上真实值超过50％，定义为WARNING级别；

3)有1次真实值超过85％且有2次以下真实值超过50％，或者没有真实值超过85％且有4次以下真实值超过50％，定义为INFO级别。

当然在一些其他实施例中，还可能出现CPU使用率异常过低的情况，虽然不会影响服务器自身工作，但也会表明此时处理的业务处于非正常状态，也可以进行告警，作为可选地，可以只作为较低级别的告警，在对该种异常判断时，可以对超过设定最低阈值的实际数据做标准差计算，若标准差超过6(此数值为多次测试得出最适合数值，一般标准差超过2时数据离散程度已经较高)，则表明所述预设周期内真实数据较低且离散程度较大(突变数据比较多)，定义为INFO级别。

在实际实施中，还可以直接选择特定告警级别或全部告警级别自动转发到监控系统中，从而可以实现监控平台上对告警级别的实时展示，比如通过syslog上送模块将ERROR级别告警上送至集中监控平台，从而便于运维人员实时关注服务器的使用状态。

进一步实施例中，在特定的时间点可能会存在应用的并发运行，从而导致该时间点的CPU使用率在较高的位置，通过上述判断过程该时间点可能属于异常时刻，但是实际上是属于正常CPU冲高过程，因此还需要对此时刻的告警取消，避免了误触发，进而提高了告警监控的准确性，作为可选地，如图5所示，所述根据所述预设周期采集的真实数据和相应时间段所述预测曲线，确定每个预设周期的告警级别，之后还包括：

S401：根据所述服务器在当前预设周期的告警级别，确定第一指定时间段内该服务器中相同告警级别的第一告警次数；

S402：从历史时间段中确定与所述第一指定时间段对应的多个第二指定时间段；

S403：根据所述服务器在当前预设周期的告警级别，以及第一指定时间段，确定每个所述第二指定时间段内该服务器中相同告警级别的第二告警次数；

S404：根据所述第一告警次数和多个所述第二告警次数，结合预设规则，判断当前预设周期的告警是否是异常告警；

S405：若所述当前预设周期的告警是异常告警，则取消告警。

可以理解为，所述第一指定时间段为包括当前预设周期的较长的时间段，能够提高对非异常冲高情况判断的准确性，所述第一指定时间段可以为所述当前预设周期前后相同的时间段之和，也就是说，第一指定时间段内包括多个预设周期，比如，针对服务器A，当前预设周期为周一8：00-8：10，告警级别为第二级别，则所述第一指定时间段本周一7：00-9：10，一个预设周期为10分钟，所述第一指定时间段有13个预设周期，通过历史告警记录确定第一指定时间段内告警级别为第二级别的第一告警次数。

相应地，所述第二指定时间段可以理解为与所述第一指定时间段有着相同的对应预设周期，并统计每个第二指定时间段内对应的第二告警次数，从而得到多个第二告警次数，以一周为例，所述第一指定时间段为上周一7：00-9：10时间段，所述第二指定时间段为之前8周的每周一7：00-9：10时间段，进而得到8个第二告警次数，通过上周的数据(第一告警次数)和前8周的历史数据(第二告警次数)进行依次比较，确定相应预设周期的数据是否是正常冲高，即如果它们每周的相应告警级别的次数相似，则表示在该预设周期下，都会出现冲高的现象，而且冲高幅度相似，则表示该预设周期为非异常的冲高，可以取消告警。

进一步实施例中，为了准确判断是否是异常告警，如图6所示，所述根据所述第一告警次数和多个所述第二告警次数，结合预设规则，判断当前预设周期的告警是否是异常告警，包括：

S501：根据多个所述第二告警次数，依次比较所述第一告警次数和所述第二告警次数，以获得多个所述第二指定时间段中的异常时间段个数；

S502：根据所述异常时间段个数和所述第二指定时间段总个数，计算获得所述第二指定时间段的异常比例；

S503：根据所述异常比例和预设异常阈值，确定判断当前预设周期的告警是否是异常告警。

可以理解为，本文通过第一告警次数和第二告警次数的比较，可以确定第二指定之间段中与第一指定时间段差异较小的部分，因此所述异常时间段个数可以理解为与第一指定时间段差异较小的部分(即告警异常时间段)，其中所述异常时间段可以通过如下方式判断：

根据所述第一告警次数和所述第二告警次数，确定告警差值；

若所述告警差值超过预设差值阈值，则表明该第二告警次数对应的第二指定时间段和第一指定时间段差异较大，不属于正常冲高现象；

若所述告警差值不超过预设差值阈值，则表明该第二告警次数对应的第二指定时间段与所述第一指定时间段数据相似，可以标记为异常时间段。

通过上述方式可以准确判断出异常时间段个数，其中所述预设差值阈值可以根据实际情况设置，比如当第二指定时间段内有13个预设周期时，所述预设差值阈值可以为3，也可以为其他数值，在本说明书实施例不做限定。

所述预设异常阈值也是根据实际情况设置，比如当选择8个第二指定时间段时，所述预设异常阈值可以为3/8＝0.375，在一些其他实施例中也可以有其他设置方式，在本说明书实施例不做限定。

示例性地，在当前预设周期确定告警级别时，在告警未上送时，确定当前预设周期(比如十分钟)的告警级别及对应的服务器，设置计数count，取近两小时该服务器同level的告警计数为t₁，取近六十天(8周)内同周同时段服务器同level的告警次数计数为t₂放入列表list，循环list取list数据t₂与t₁比对，若t₂<＝t₁+3&&t₂>＝t₁-3,计数count+1，结束循环后取count/8得到yield，若yield小于0.375则将告警取消上送，只做数据入库。

通过上述步骤可以提高对CPU使用率非异常冲高的识别能力，从而提高了监控装置监控的能力，进而提高了对CPU使用率监控的准确性。

在一些其他实施例中，也可以从前端应用角度出发直接设置告警黑名单，比如在运行期间出现了因为部分服务器涉及批量冲高或者应用业务调整导致无需关注的报警较多的情况，对此提供了黑名单功能，手工屏蔽无需关注的告警时间段或告警服务器，从而提高了告警的适应范围。

在本说明书实施例中，所述按照所述告警级别进行告警，包括：

确定目标监控应用；

根据所述目标监控应用，确定不同告警级别的告警策略；

可以理解为，前端应用的运行要依赖后端服务器，一个应用可以通过布置一个或多个后端服务器来保证其功能的实现，因此本文还可以通过所述监控装置实现对应用运行状况的监控，通过确定目标监控应用，进而确定所述目标监控应用下的服务器，从而可以确定针对目标监控应用的CPU使用率基线(即动态阈值)，根据所述目标监控应用的运行时间段，确定所述服务器在该运行时间段内的告警级别，进而根据不同的告警级别确定不同的告警策略，从而能够对应用进行针对性的监控。

其中所述告警策略至少包括以下一种：邮件告警、短信告警、语音告警、开发人员告警。在实际实施时，可以以单个告警方式或多个告警方式组合的进行告警，以实现不同告警级别的告警程度，从而提高了告警的效率。

进一步地，当所述应用需要多个后端服务器支持时，则意味着需要同时监控多个服务器，因此也可以根据不同服务器设置不同的告警策略，从而可以快速确定异常服务器的位置，便于后续运维人员的调整；在一些其他实施例中，还可以根据同一时间点不同服务器不同告警级别的次数确定出统一的告警级别，进而实现了对单个应用实行单个告警策略，比如选择出现次数最多的告警级别作为该时间点的告警级别，进而发送告警指示。

通过对应用实行个性化的监控，可以有效的识别应用运用时后台参数的占用情况，进而能针对性的对应用进行优化和调整，从而提高了前端应用和后端服务器的相互适应能力和整个系统运行的效率。

基于同一发明构思，本说明书实施例还提供一种基于CPU动态阈值的监控装置，如图7所示，所述装置包括：

历史数据获取模块100，用于获取CPU使用率历史数据；

预测曲线确定模块200，用于根据所述历史数据，确定服务器在当前时间段的CPU使用率预测曲线，所述预测曲线由当前时间段内每个采集时刻的CPU使用率预测值拟合而成；

真实数据采集模块300，用于按照预设周期实时获取CPU使用率真实数据，其中每个预设周期包括多个采集时刻；

告警级别确定模块400，用于根据所述预设周期采集的真实数据和相应时间段的所述预测曲线，确定每个预设周期的告警级别；

告警模块500，用于按照所述告警级别进行告警。

通过上述装置所取得的有益效果和上述方法所取得的有益效果一致，本说明书实施例不做赘述。

需要说明的是，本说明书实施例提供的一种基于CPU动态阈值的监控方法及装置可用于金融领域中服务器运维的场景中，也可以用于除金融领域之外的任意领域，本说明书实施例提供的一种基于CPU动态阈值的监控方法及装置的应用领域不做限定。

如图8所示，为本文实施例提供的一种计算机设备，所述计算机设备802可以包括一个或多个处理器804，诸如一个或多个中央处理单元(CPU)，每个处理单元可以实现一个或多个硬件线程。计算机设备802还可以包括任何存储器806，其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的，比如，存储器806可以包括以下任一项或多种组合：任何类型的RAM，任何类型的ROM，闪存设备，硬盘，光盘等。更一般地，任何存储器都可以使用任何技术来存储信息。进一步地，任何存储器可以提供信息的易失性或非易失性保留。进一步地，任何存储器可以表示计算机设备802的固定或可移除部件。在一种情况下，当处理器804执行被存储在任何存储器或存储器的组合中的相关联的指令时，计算机设备802可以执行相关联指令的任一操作。计算机设备802还包括用于与任何存储器交互的一个或多个驱动机构808，诸如硬盘驱动机构、光盘驱动机构等。

计算机设备802还可以包括输入/输出模块810(I/O)，其用于接收各种输入(经由输入设备812)和用于提供各种输出(经由输出设备814))。一个具体输出机构可以包括呈现设备816和相关联的图形用户接口(GUI)818。在其他实施例中，还可以不包括输入/输出模块810(I/O)、输入设备812以及输出设备814，仅作为网络中的一台计算机设备。计算机设备802还可以包括一个或多个网络接口820，其用于经由一个或多个通信链路822与其他设备交换数据。一个或多个通信总线824将上文所描述的部件耦合在一起。

通信链路822可以以任何方式实现，例如，通过局域网、广域网(例如，因特网)、点对点连接等、或其任何组合。通信链路822可以包括由任何协议或协议组合支配的硬连线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。

对应于图2-图6中的方法，本文实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法的步骤。

本文实施例还提供一种计算机可读指令，其中当处理器执行所述指令时，其中的程序使得处理器执行如图2至图6所示的方法。

应理解，在本文的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本文实施例的实施过程构成任何限定。

还应理解，在本文实施例中，术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本文的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本文所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。

另外，在本文各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本文的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本文中应用了具体实施例对本文的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本文的方法及其核心思想；同时，对于本领域的一般技术人员，依据本文的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本文的限制。

Claims

1.一种基于CPU动态阈值的监控方法，其特征在于，所述方法包括：

获取CPU使用率历史数据；

按照所述告警级别进行告警。

2.根据权利要求1所述的方法，其特征在于，所述根据所述历史数据，确定服务器在当前时间段的CPU使用率预测曲线，包括：

根据所述第一时间段和所述第二时间段的历史数据，计算获得当前时间段内每个采集时刻的CPU使用率预测值；

根据所述当前时间段内每个采集时刻的CPU使用率预测值，确定所述CPU使用率预测曲线。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一时间段和所述第二时间段的历史数据，计算获得当前时间段内每个采集时刻的CPU使用率预测值，包括：

4.根据权利要求3所述的方法，其特征在于，所述计算得到所述当前时间段内相应时刻的CPU使用率预测值之后还包括：

判断所述CPU使用率预测值是否超过预设值；

5.根据权利要求1所述的方法，其特征在于，所述获取CPU使用率历史数据，包括：

6.根据权利要求1所述的方法，其特征在于，所述根据所述预设周期采集的真实数据和相应时间段所述预测曲线，确定每个预设周期的告警级别，包括：

7.根据权利要求6所述的方法，其特征在于，所述告警级别包括第一级别、第二级别和第三级别；

所述按照所述预设周期内的真实数据确定告警级别，包括：

当m＞x₁时，则所述告警级别为第一级别；

8.根据权利要求1所述的方法，其特征在于，所述根据所述预设周期采集的真实数据和相应时间段所述预测曲线，确定每个预设周期的告警级别，之后还包括：

若所述当前预设周期的告警是异常告警，则取消告警。

9.根据权利要求8所述的方法，其特征在于，所述根据所述第一告警次数和多个所述第二告警次数，结合预设规则，判断当前预设周期的告警是否是异常告警，包括：

10.根据权利要求1所述的方法，其特征在于，所述按照所述告警级别进行告警，包括：

确定目标监控应用；

根据所述目标监控应用，确定不同告警级别的告警策略；

11.根据权利要求10所述的方法，其特征在于，

所述告警策略至少包括以下一种：邮件告警、短信告警、语音告警、开发人员告警。

12.一种基于CPU动态阈值的监控装置，其特征在于，所述装置包括：

历史数据获取模块，用于获取CPU使用率历史数据；

告警模块，用于按照所述告警级别进行告警。

13.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至11任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至11任一项所述的方法。