CN112286771A

CN112286771A - 一种针对全域资源监控的告警方法

Info

Publication number: CN112286771A
Application number: CN202011210584.7A
Authority: CN
Inventors: 武萌; 段林博; 童彬祥
Original assignee: CETC 28 Research Institute
Current assignee: CETC 28 Research Institute
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2021-01-29
Anticipated expiration: 2040-11-03
Also published as: CN112286771B

Abstract

本发明实施例公开了一种针对全域资源监控的告警方法，涉及设备安全监控技术领域，能够对设备实现了全面的状态监测，方便运维人员及时了解云环境下的资源设备状况。本发明包括：实时采集设备资源的占用情况和设备的运行状态数据；获取至少两类告警模型输出的告警信息，其中，所述至少两类告警模型包括：用于监测设备资源的占用情况的告警模型，和用于监测设备的健康状态和异常程度的告警模型；根据所获取的告警信息，确定告警结果，并根据所确定的告警结果向人员终端发送通知。本发明适用于设备的全域资源监控。

Description

一种针对全域资源监控的告警方法

技术领域

本发明涉及设备安全监控技术领域，尤其涉及一种针对全域资源监控的告警方法。

背景技术

随着云计算技术的迅速发展，数据中心的架构也愈发复杂，不仅包括服务器、存储设备、网络设备等，还包括应用软件、数据库、中间件、虚拟化资源等。企业资源规模庞大，数据规模越大，越是必须及时掌握这些设备资源的健康状态，对发生异常的设备及资源进行告警，以便帮助运维人员及早做好维修规划，保障设备及信息系统的安全高效运行。

目前的运维平台基本都是基于设备资源的直观指标进行监控，比如组件的CPU使用率、内存使用率、磁盘的空闲状态、网络质量等，这些监控指标方便了运维人员及时地了解被监控设备资源的使用情况、性能表现等，这些指标被直观显示在运维平台的交互界面，供运维人员参考。

但是，在目前的应用中已经发现，通过这些指标进行监控存在很大的局限性，早期故障预警的准确度难以进一步提升。如何进一步扩展早期故障预警的方案，成为了急需研究的课题。

发明内容

本发明的实施例提供一种针对全域资源监控的告警方法，能够对设备实现了全面的状态监测，可以方便运维人员及时了解云环境下的资源设备状况。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明的实施例提供的方法，包括：

S1、实时采集设备资源的占用情况和设备的运行状态数据；

S2、获取至少两类告警模型输出的告警信息，其中，所述至少两类告警模型包括：用于监测设备资源的占用情况的告警模型，和用于监测设备的健康状态和异常程度的告警模型；

S3、根据所获取的告警信息，确定告警结果，并根据所确定的告警结果向人员终端发送通知。

第二方面，本发明的实施例提供的装置，包括：

监控数据采集模块，用于实时采集设备资源的占用情况和设备的运行状态数据；

多维告警分析模块，用于获取至少两类告警模型输出的告警信息，其中，所述至少两类告警模型包括：用于监测设备资源的占用情况的告警模型，和用于监测设备的健康状态和异常程度的告警模型；

告警通知模块，用于根据所获取的告警信息，确定告警结果，并根据所确定的告警结果向人员终端发送通知。

本发明实施例提供的针对全域资源监控的告警方法，告警模型包括多个维度，例如：针对设备的资源利用情况进行监测的，比如设备的CPU使用率、磁盘占有率等，此为第一类告警信息。还有基于设备的运行状态进行监测，通过多维传感器数据比如设备的温度、电压、功率等来获取设备运行的健康状态，对设备的异常程度进行评估，最后实现异常告警。本实施例综合了两类告警模型，不仅可以对两类告警模型的告警信息都进行通知推送，还会通过设置权重将第一类告警模型的监测项以及第二类告警模型所得的异常指标进行结合，得出设备的健康总分。本实施例对设备实现了全面的状态监测，可以方便运维人员及时了解云环境下的资源设备状况，以便制定合理的维修策略，保证设备资源的安全、稳定运行。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为资源监控系统的流程图

图2为本发明的告警模型内容示意图；

图3为本发明的告警流程示意图；

图4为设备资源使用情况的告警过程示意图；

图5是基于多传感器数据的设备异常检测过程示意图；

图6是基于多传感器数据的告警模块组成示意图；

图7是第一类告警通知的内容展示示意图；

图8是第二类告警通知的内容展示示意图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

随着传感器技术的发展，基于多维传感器数据的设备异常监测也变得十分重要。通过传感器技术获取得到设备的温度、电压、功率、相角等多维数据，基于多维数据融合得到一个描述设备健康程度的指标，有利于及时识别设备异常，实现设备的早期故障预警。因此，告警模型在设备资源的运维平台中起着关键的支撑作用。但是，目前的告警模型设计还存在一些缺陷，告警模型在设备资源的运维平台中起着关键的支撑作用，基于下层的监控数据，通过制定的告警机制，实现告警事件的生成与描述，最后呈现给上层用户参考。而其中最重要的环节就是告警模型的建立，告警模型基于采集到的数据对设备的运行状态进行判决，发现设备异常及时发出告警信息，以便运维人员依据告警信息做出对应的维修措施。

本实施例的设计目的，是为全域资源监控管理提供一种告警模型，解决了现代企业设备及资源监控管理工作的基本功能需求。通过监控各种资源的运行状态，实时掌握全域资源的健康状况，及时对异常的设备资源进行告警，为运维人员争取最佳的维修时间，避免因某一设备资源发生故障而影响整个信息系统的正常运行。本发明通过对全域资源的监控，包括设备、软件及服务等资源，基于所制定的告警模型对资源的健康状态实现判决，并给出相应的告警信息，可以及早发现并处理资源的异常、不可用，为企业及用户提供可靠的资源服务。

本实施例对于告警模型的应用包含了至少两类或者更多的告警信息。其中第一类告警模型是针对设备的资源利用率进行监控的，第二类告警模型是针对设备的运行状态进行监测的，利用机器学习算法对设备的健康度进行评分，以便运维人员及时发现异常设备，尽早采取合理的维修策略，保障设备的安全、稳定运行。

本发明实施例提供一种针对全域资源监控的告警方法，包括：

S1、实时采集设备资源的占用情况和设备的运行状态数据。

S2、获取至少两类告警模型输出的告警信息。

其中，所述至少两类告警模型包括：用于监测设备资源的占用情况的告警模型，和用于监测设备的健康状态和异常程度的告警模型。例如：第一类告警模型主要用于监测设备资源的使用情况，比如服务器的CPU利用率、网络设备的网络质量、存储设备的内存空间等。第二类告警模型主要用于对设备的运行状态进行监测，基于多维传感器数据间的耦合关联，利用机器学习算法来挖掘设备的健康状态，及时获取设备的异常程度，以便运维人员尽早采取合适的维修策略，保障设备安全运行。

具体的，所述设备资源的占用情况包括：服务器的CPU利用率、网络设备的网络质量和存储设备的内存空间。进一步的，被监控的设备资源至少还包括：虚拟化资源、数据库资源和中间件。

其中，所述告警结果包括：所有告警模型运行后得到的输出信息，和基于所有告警模型的输出信息进行结合后的健康总分。例如：两类告警模型的告警信息都会在终端进行通知显示，方便运维人员进行设备告警故障排查。并且，针对两类告警模型的输出信息会通过设置权重进行结合，最终得出设备的健康总分供用户参考。

本实施例综合了两类告警模型，不仅可以对两类告警模型的告警信息都进行通知推送，还会通过设置权重将第一类告警模型的监测项以及第二类告警模型所得的异常指标进行结合，得出设备的健康总分。本实施例对设备实现了全面的状态监测，可以方便运维人员及时了解云环境下的资源设备状况，以便制定合理的维修策略，保证设备资源的安全、稳定运行。

本实施例中，第一类告警模型是针对基础设备资源的利用率进行监控的，不仅包括服务器、存储设备、网络设备等，还可以包括虚拟化资源、数据库、中间件等。基于第一类告警模型的具体实现方式，可以对步骤S2和步骤S3进行进一步的扩展：

所述步骤S2包括：

S201、添加被监控的设备项。

其中，所述设备项包括：服务器、存储设备、网络设备、应用软件和数据库等。

S202、建立触发器，并将监控指标的阈值导入触发器。

S203、从实时采集的设备资源的占用情况中，提取各监控指标的监控数据，并将监控指标的监控数据与触发器中加载的阈值镜像比较，大于阈值则触发警报，并输出的告警信息，即可以将监控的指标项与设定阈值进行比较，大于阈值则触发警报，进行告警通知。

其中，监控指标的监控数据即为各个监控指标的实际数值，即监控指标指的是反映监控结果的参数类型，而监控指标的监控数据就是当前这些参数的具体数值。

所述步骤S3包括：

S304、对S203得到的告警信息进行等级判断，根据监控指标落入超出阈值部分的区间程度将告警事件的严重程度共分为“一般”、“告警”、“严重”和“灾难”四个等级。

在优选方案中，设置CPU告警阈值为90％，[90％-92.5％)区间的告警事件的严重程度为一般，[92.5％-95％)区间的告警事件的严重程度为“告警”，

[95％-97.5％)区间的告警事件的严重程度为“严重”，[97.5％-100]区间的告警事件的严重程度为“灾难”。

S305、将等级判断的结果作为所述告警结果，并向人员终端发送通知。以便于运维人员查看相关告警信息。

具体的，所述步骤S202包括：

S2021、选择监控指标的阈值。

其中，所述监控指标的阈值至少包括：服务器的CPU利用率阈值、网络设备的网络质量阈值和存储设备的内存占用率阈值。比如将服务器的CPU使用率阈值设置为90％，即一旦CPU使用率超过90％，则发起警告。

S2022、设置所选择的监控指标的监测时间范围，并提取所述监测时间范围内的监控指标的监控数据。即可以通过选择当前多长时间范围内的数据进行监控。

所述步骤S203中还包括：在将监控指标的监控数据与触发器中加载的阈值镜像比较之前，通过聚合函数将预设长度的时间段内的监控数据进行聚合运算。本实施例中采用的聚合函数，对一个时间段内的多个监控数据进行聚合运算。可以选择avg(多个数据求平均)、max(最大的数据点)、min(最小的数据点)、last(最后一个数据点)、all(所取的这些数据点都超出阈值时告警)等聚合函数。例如：本实施例中根据不同监控项的需求可采用avg(多个数据求平均)、max(最大的数据点)、min(最小的数据点)、last(最后一个数据点)、all(所取的这些数据点都超出阈值时告警)等聚合函数来实现聚合运算。

第二类告警模型是基于多维传感器数据对设备的运行状态进行监测的，基于第二类告警模型的具体实现方式，可以对步骤S2进行进一步的扩展：

S211、利用采集到的所述设备的历史运行状态数据，获取训练集、验证集和测试集。

历史运行状态数据包括：设备正常运行数据和异常运行数据，

其中，所述设备的运行状态数据是基于多维传感器采集的数据集，数据集中的数据类型包括：设备的电压、电流、转速、功率、温度等数据。

本实施例中，获取训练集、验证集和测试集的过程，可以为：首先从设备正常运行数据集中随机抽取60％的数据作为训练集，然后将剩余的数据集(包含正常和异常运行数据)进行1:1抽取，分别得到验证集和测试集。

S212、利用所述训练集学习得到的检测模型。

其中包括：基于DTW算法对设备正常运行阶段下的信号变化进行学习，通过计算待测信号与已知正常样本信号之间的弯曲距离，来确定待测信号的异常程度，具体的，计算得到的弯曲距离越小，代表待测信号与已学习的正常样本信号越相似；学习得到的检测模型用于描述设备正常运行时的行为表现，根据相似度来识别异常信号。

S213、通过所述验证集与所述检测模型的偏差，得到所述验证集的异常指标。

其中，所述验证集包含了设备正常运行状态的数据和异常运行状态的数据，所述验证集用于阈值的确定。

具体的，步骤S213包括：

通过所述验证集与所述检测模型的偏差，得到所述验证集的异常指标；

其中，所述验证集包括：设备正常运行状态的数据和异常运行状态的数据，所述DTW检测模型描述了设备正常运行的序列行为，DTW算法通过压缩或者扩展序列，对待测序列与已知序列(模型所学习的设备正常序列)之间的距离进行计算，根据两者的距离值确定模型偏差，确定异常指标。S214、利用所述验证集确定各个阈值对应的检测识别率，并选取检测识别率最高的阈值作为最终的决策阈值。即选取使得验证集的检测识别率最高的阈值作为最终的决策阈值，以此来判定测试集的健康状态。

具体的，步骤S214包括：

将所述验证集输入到所述检测模型中，获取验证集中各序列的异常程度得分(即各待测序列与已知序列的距离差)；将验证数据集中所得的各个异常指标分别作为阈值进行判决，来确定其中各序列的健康状态(正常或异常)，并将所得到的设备状态与设备的真实状态标签进行比较，得到模型的检测识别率，并选取检测识别率最高的阈值作为最终的决策阈值。S215、将所述测试集输入检测模型，根据所述测试集与设备正常运行状态的偏差得到相应的异常指标，再将所得的异常指标与步骤S214所得的最终的决策阈值进行比较，若超过所述决策阈值，则判定设备异常并输出告警信息。其中，所述的测试集与设备正常运行状态的偏差，指的是待测序列与正常序列之间的距离差。

还包括：

通过DTW算法进行指标融合。

其中，所述的检测模型是基于DTW算法进行训练而获得，将多维传感器数据输入检测模型后，可得到对应的异常程度得分，即利用DTW算法实现指标融合，其中，所述指标融合包括：将多维监测指标，转化为一个一维异常指标，所述多维监测指标对应所述多维传感器采集的数据集，所述一维异常指标对应各序列的异常程度得分。

在具体实现过程中，可以将运行第二类告警模型的程序划分为五个模块，如图6所示。基于多传感器对设备的运行状态数据进行采集，得到多维监测指标的汇集。然后利用机器学习算法将多维的监测指标转化为一个一维异常指标，实现了指标融合。该异常指标描述了设备运行过程中与正常行为表现的偏离程度，代表了设备的异常程度。将得到的异常指标与阈值进行比较，从而对设备的健康程度进行判定，确定设备的健康状态。

第二类告警模型中的机器学习算法采用动态时间弯曲算法(Dynamic TimeWarping algorithm，DTW)。DTW算法在训练阶段只学习设备的正常运行行为，得到的检测模型会计算测试样本与正常样本间的弯曲距离，距离越大，代表测试样本偏离正常行为的程度越大，相应的异常指标也会越高。采用机器学习算法对云环境下设备资源的数据进行挖掘，根据采集到的底层监测指标，通过分析多维数据间的耦合关联关系，快速从数据中获取到有效信息，极大改善了告警系统的性能。

第二类告警模型将设备的运行状态分为四个健康等级，分别为健康、异常、故障、失效。首先需要将异常指标进行归一化，使其表示在[0,1]范围内(本发明实施例的归一化计算方法为：(该点数据-min)/(max-min)，其中，min指最小数据点，max指的是最大数据点)，由于DTW算法是通过计算距离差来获取异常指标，因此，异常指标越大，代表设备异常程度越高。为方便计算设备的健康总分，本发明实施例利用1减去所得归一化值得到关于第二类告警模型的设备健康分数。其中[0，0.3)代表设备失效,[0.3,0.6)区间代表设备故障,[0.6,0.9)区间内代表设备异常,[0.9，1]则代表设备健康。设备状态等级中，“异常”代表设备开始偏离其正常运行的轨迹，但是偏离程度较轻。“故障”则代表了设备的异常程度加重，已经影响了设备的正常运行，需要采取适当的维修策略进行干预。“失效”代表了设备已经不能正常工作，必须马上采取维修策略来恢复设备的正常运行，代表的严重程度最高。

需要说明的是，第一类告警模型和第二类告警模型的实现过程，可以在一个监控流程中同时执行，例如：S201～S202～S203～S304～S305的执行流程，与S211～S215的执行流程，可以同时执行；当然，在一些具体应用场景下，也可以按照一定的逻辑顺序先后执行。

具体举例来说，一个完整的监控系统流程图如图1所示，包含了数据的采集、数据存储、数据分析及处理、告警模型以及最终监控结果的展示。首先当然是基本监控数据的采集，并进行存储，基于这些数据进行趋势性分析，并通过告警模型的判决，对设备资源进行告警描述，最后将监控结果可视化的展现给运维人员作参考。其中的告警模型是本实施例的重点研究内容。

目前的运维监控大多是基于设备、资源的使用情况进行的，主要是对其CPU利用率、电池电量、磁盘使用率、网络设备的端口等进行统计，但仅仅依靠这些指标并不能判定该设备资源是否发生故障。设备由于长时间的使用、磨损，性能会逐渐退化，最终故障失效。设备的故障异常往往并不只是由某一单一因素造成的，通常是多个因素共同作用的结果。通过监测温度、电压、风扇转速等指标，根据底层各种指标的表现，来判断设备的异常程度以及是否发生故障。本实施例综合了这两类告警如图2所示，对设备实现了全面监控，会对两种告警信息都进行推送。其中：第一类告警信息主要是对设备资源的使用情况进行监控，有利于运维人员快速了解设备资源的当前使用状况，及时定位被监控资源的性能瓶颈，可以提高基础设施的利用率。第二类告警重点是对设备的健康程度进行检测，基于多维传感器数据来观察设备的健康、异常或故障，该类告警信息是利用机器学习算法进行模式识别而得到的，因为底层各指标数据与设备的异常表现之间没有严格、清晰的逻辑推断，模式识别算法适合解决这样的综合性判断问题。

本实施例的告警流程如图3所示，首先通过告警设置可以选择被监控的设备以及设备相关指标，从告警监听模块中调取对应的监控数据，比如设备的物理资源、虚拟资源或服务资源等，根据本实施例设置的两种不同检测目标，将对应监控数据送入相应的告警策略中，通过告警模型与告警条件的设置，判定是否有告警事件的生成，并记录告警结果，以便后续的告警查询和发送告警通知。

本实施例的告警模型总共包含两块内容，第1部分内容是对设备的资源使用情况进行监控，以便用户及时了解基础设施资源的利用率。

关于第1部分内容的告警过程步骤如下，流程图参考图4：

步骤1，添加需要监控的设备，比如某服务器。

步骤2，设置触发器。

①选择监控指标的阈值，比如将服务器的CPU使用率阈值设置为90％。

②设置指标项的监测时间范围，通过选择当前多长时间范围内的数据进行监控。

③聚合函数，对一个时间段内的多个监控数据进行聚合运算。比如avg(多个数据求平均)、max(最大的数据点)、min(最小的数据点)、last(最后一个数据点)、all(所取的这些数据点都超出阈值时告警)等。

步骤3，将监控的指标项与设定的阈值进行比较，大于阈值，则判定发生告警事件，否则为普通事件。比如针对服务器的CPU使用率进行监控，采集服务器当前10分钟的平均CPU使用率与设置的阈值进行比较，从而判定是否需要发生告警。

步骤4，进行告警等级判定，根据告警事件的严重程度，将告警信息分为“一般”、“警告”、“严重”、“灾难”四个等级。

步骤5，最后就是将得到的告警结果进行展示，以供运维人员参考，方便运维人员依据告警信息对设备资源做出合理的调整。

第2部分内容是基于多维传感器数据对设备健康状态进行监测的，一个设备的运行状态是通过多个因素共同监测的，利用各监测指标间的关联融合信息，实现设备的异常识别，仅仅依据单个指标对设备的运行状态进行判断是不足够且不准确的。关于第2部分内容的告警模型实现过程如图5所示，具体实现步骤如下：

步骤1，将从设备上采集的多传感器数据分为训练集、验证集以及测试集三部分。

步骤2，训练集只包含设备的健康状态数据，用于学习检测模型，利用DTW半监督检测算法来学习得到描述设备正常运行状态的检测模型。

步骤3，验证集用于获取阈值，将验证集输入检测模型，由于检测模型学习的是设备的健康行为表现，可以通过两者的偏差来得到关于验证集的异常指标。

步骤4，基于验证集的异常指标来获取阈值，以便判定测试集的健康状态。验证集包含了设备的健康状态数据和异常状态数据，根据对应标签，选择验证集检测率最高的对应阈值作为最终决策阈值。

步骤5，测试集用于测试所学检测模型的性能。仍将测试集送入检测模型中，根据其与正常行为的偏差，得到异常指标，再利用验证集获取的阈值进行比较，当异常指标超过设定的阈值时，则判定设备发生异常，进行告警通知。

第二类告警模型中的机器学习算法采用动态时间弯曲算法(Dynamic TimeWarping algorithm，DTW)。DTW算法在训练阶段只学习设备的正常运行行为，得到的检测模型会计算测试样本与正常样本间的弯曲距离，距离越大，代表测试样本偏离正常行为的程度越大，相应的异常指标也会越高。采用机器学习算法对云环境下设备资源的数据进行挖掘，根据采集到的底层监测指标，通过分析多维数据间的耦合关联关系，快速从数据中获取到有效信息，极大改善了告警系统的性能。第2部分内容的整个告警模型分五个模块，如图6所示。基于多传感器对设备的运行状态数据进行采集，得到多维监测指标的汇集。然后利用机器学习算法将多维的监测指标转化为一个一维异常指标，实现了指标融合。该异常指标描述了设备运行过程中与正常行为表现的偏离程度，代表了设备的异常程度。将得到的异常指标与阈值进行比较，从而确定设备的健康等级。

设备的健康度评级总共分为健康、异常、故障、失效四个等级，其中“异常”代表设备异常程度较轻，只是轻微偏离了设备的正常运行状态。“故障”代表设备异常程度加重，已经影响了设备的正常运行，建议采取适当的维修策略以保证设备的安全运行。“失效”代表设备已经不能正常工作，必须马上采取维修策略来恢复设备的正常运行，代表的严重程度最高。最后将获取的告警信息进行通知，以便帮助运维人员掌握底层设施的运行状态，及时作出合理决策。在告警模型中，本实施例是通过与预先设定好的阈值进行比较，来判定是否达到报警的标准，进而向用户展示相关的告警信息，方便用户查看。本实施例添加的告警通知内容展示图如图7、8所示。其中图7展现的是第一类告警信息，是关于设备资源的使用情况进行描述的，比如当服务器的CPU使用率超过90％时，会产生报警，发送告警通知。图8展现的是第二类告警信息，是关于设备的异常程度进行描述的，比如检测到某设备发生了异常，会对它的异常程度、异常发现时间以及相关的异常描述等进行通知。

本实施例中，告警模型包括两大部分内容，第一部分是针对设备的资源利用情况进行监测的，比如设备的CPU使用率、磁盘占有率等，此为第一类告警信息。第二部分是基于设备的运行状态进行监测，通过多维传感器数据比如设备的温度、电压、功率等来获取设备运行的健康状态，对设备的异常程度进行评估，最后实现异常告警，此为第二类告警信息。本发明综合了两类告警模型，举例说明两类告警模型场景下的结合方式：根据第一类告警模型的告警等级分别表示设备的健康程度为：灾难0.2、严重0.4、警告0.6、一般0.8、健康1，根据第二类告警模型输出的异常指标将设备健康等级分为：[0，0.3)代表设备失效,[0.3,0.6)区间代表设备故障,[0.6,0.9)区间内代表设备异常,[0.9，1]则代表设备健康，用户可根据任务需求及不同系统设备的重要性对第一类模型的各监测项以及第二类模型的异常指标进行权重分配，进而得出所监测系统的综合健康分数，完整、全面描述了当前系统的健康状态。其中，所得数值越接近1，表示系统越健康，所得数值越接近0，代表系统接近失效状态。

对设备实现了全面的状态监测，可以方便运维人员及时了解云环境下的资源设备状况，以便制定合理的维修策略，保证设备资源的安全、稳定运行。

本实施例还提供一种针对全域资源监控的告警装置，包括：

监控数据采集模块，用于实时采集设备资源的占用情况和设备的运行状态数据。

多维告警分析模块，用于获取至少两类告警模型输出的告警信息，其中，所述至少两类告警模型包括：用于监测设备资源的占用情况的告警模型，和用于监测设备的健康状态和异常程度的告警模型。

具体的，所述多维告警分析模块，具体用于：添加被监控的设备项，其中，所述设备项包括：服务器、存储设备、网络设备、应用软件和数据库。建立触发器，并将监控指标的阈值导入触发器。从实时采集的设备资源的占用情况中，提取各监控指标的监控数据，并将监控指标的监控数据与触发器中加载的阈值镜像比较，大于阈值则触发警报，并输出的告警信息。

所述告警通知模块，具体用于对得到的告警信息进行等级判断，其中，依据告警事件的严重程度共分为“一般”、“告警”、“严重”和“灾难”四个等级。将等级判断的结果作为所述告警结果，并向人员终端发送通知。

所述多维告警分析模块，具体还用于：利用采集到的所述设备的运行状态数据，获取训练集、验证集和测试集，其中所述设备的运行状态数据包括多维传感器采集的数据集，其中，所述训练集包括设备正常运行状态的数据。利用所述训练集学习得到的检测模型，其中，所述检测模型用于描述设备正常运行时的行为表现。通过所述验证集与所述检测模型的偏差，得到所述验证集的异常指标，其中，所述验证集包含了设备正常运行状态的数据和异常运行状态的数据。利用所述验证集确定各个阈值对应的检测识别率，并选取检测识别率最高的阈值作为最终的决策阈值。将所述测试集输入检测模型，根据所述测试集与设备正常运行状态的偏差得到相应的异常指标，再将所得的异常指标与所得的最终的决策阈值进行比较，若超过所述决策阈值，则判定设备异常并输出告警信息。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种针对全域资源监控的告警方法，其特征在于，包括：

S1、实时采集设备资源的占用情况和设备的运行状态数据；

S3、根据所获取的告警信息，确定告警结果，并根据所确定的告警结果向人员终端发送通知，其中，所述告警结果包括：所有告警模型运行后得到的输出信息，和基于所有告警模型的输出信息进行结合后的健康总分。

2.根据权利要求1所述的方法，其特征在于，所述设备资源的占用情况包括：服务器的CPU利用率、网络设备的网络质量和存储设备的内存空间；

被监控的设备资源至少还包括：虚拟化资源、数据库资源和中间件。

3.根据权利要求1或2所述的方法，其特征在于，所述步骤S2包括：

S201、添加被监控的设备项，其中，所述设备项包括：服务器、存储设备、网络设备、应用软件和数据库；

S202、建立触发器，并将监控指标的阈值导入触发器；

S203、从实时采集的设备资源的占用情况中，提取各监控指标的监控数据，并将监控指标的监控数据与触发器中加载的阈值镜像比较，大于阈值则触发警报，并输出的告警信息；

所述步骤S3包括：

S304、对S203得到的告警信息进行等级判断，根据监控指标落入超出阈值部分的区间程度将告警事件的严重程度共分为“一般”、“告警”、“严重”和“灾难”四个等级

S305、将等级判断的结果作为所述告警结果，并向人员终端发送通知。

4.根据权利要求3所述的方法，其特征在于，设置CPU告警阈值为90％，

[90％-92.5％)区间的告警事件的严重程度为一般，[92.5％-95％)区间的告警事件的严重程度为“告警”，[95％-97.5％)区间的告警事件的严重程度为“严重”，[97.5％-100]区间的告警事件的严重程度为“灾难”。

5.根据权利要求4所述的方法，其特征在于，所述步骤S202包括：

S2021、选择监控指标的阈值，所述监控指标的阈值至少包括：服务器的CPU利用率阈值、网络设备的网络质量阈值和存储设备的内存占用率阈值；

S2022、设置所选择的监控指标的监测时间范围，并提取所述监测时间范围内的监控指标的监控数据；

所述步骤S203中还包括：在将监控指标的监控数据与触发器中加载的阈值镜像比较之前，通过聚合函数将预设长度的时间段内的监控数据进行聚合运算。

6.根据权利要求1所述的方法，其特征在于，所述步骤S2中还包括：

S211、利用采集到的所述设备的历史运行状态数据，获取训练集、验证集和测试集，其中，获取训练集、验证集和测试集的过程，包括：首先从设备正常运行数据集中随机抽取60％的数据作为训练集，然后将剩余的数据集进行1:1抽取，分别得到验证集和测试集；

其中，所述设备的运行状态数据是基于多维传感器采集的数据集，数据集中的数据类型包括：设备的电压、电流、转速、功率和温度；

S212、利用所述训练集学习得到的检测模型；

S213、通过所述验证集与所述检测模型的偏差，得到所述验证集的异常指标，其中，所述验证集包含了设备正常运行状态的数据和异常运行状态的数据；

S214、利用所述验证集确定各个阈值对应的检测识别率，并选取检测识别率最高的阈值作为最终的决策阈值；

S215、将所述测试集输入检测模型，根据所述测试集与设备正常运行状态的偏差得到相应的异常指标，再将所得的异常指标与步骤S214所得的最终的决策阈值进行比较，若超过所述决策阈值，则判定设备异常并输出告警信息。

7.根据权利要求1所述的方法，其特征在于，步骤S212包括：

基于DTW算法对设备正常运行阶段下的信号变化进行学习，通过计算待测信号与已知正常样本信号之间的弯曲距离，来确定待测信号的异常程度，其中，计算得到的弯曲距离越小，代表待测信号与已学习的正常样本信号越相似；

学习得到的检测模型用于描述设备正常运行时的行为表现，根据相似度来识别异常信号。

8.根据权利要求7所述的方法，其特征在于，步骤S213包括：

其中，所述验证集包括：设备正常运行状态的数据和异常运行状态的数据，所述DTW检测模型描述了设备正常运行的序列行为，DTW算法对待测序列与已知序列之间的距离进行计算，根据两者的距离值确定模型偏差，确定异常指标。

9.根据权利要求8所述的方法，其特征在于，步骤S214包括：

将所述验证集输入到所述检测模型中，获取验证集中各序列的异常程度得分；

将验证数据集中所得的各个异常指标分别作为阈值进行判决，来确定其中各序列的健康状态，并将所得到的设备状态与设备的真实状态标签进行比较，得到模型的检测识别率，并选取检测识别率最高的阈值作为最终的决策阈值；

步骤S215中所述的测试集与设备正常运行状态的偏差，指的是待测序列与正常序列之间的距离差。

10.根据权利要求1所述的方法，其特征在于，还包括：

通过DTW算法进行指标融合，其中，所述指标融合包括：将多维监测指标，转化为一个一维异常指标，所述多维监测指标对应所述多维传感器采集的数据集，所述一维异常指标对应各序列的异常程度得分。