CN111078503A

CN111078503A - 一种异常监控方法及系统

Info

Publication number: CN111078503A
Application number: CN201911338229.5A
Authority: CN
Inventors: 杜颜颜
Original assignee: China Construction Bank Corp
Current assignee: China Construction Bank Corp
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-04-28
Anticipated expiration: 2039-12-23
Also published as: CN111078503B

Abstract

本申请公开了一种异常监控方法及系统，通过确定与其他设备关联的信息相关的被监控设备的状态信息，进而对该被监控设备的异常预警结果进行预警，实现了不仅以被监控设备的运行数据为参考参数，还基于由多个设备组成的系统互联结构的关联关系，对被监控设备进行预警，相对于以孤立的设备的运行数据为预警的参考参数，可以更有效的识别出被监控设备的异常情况，提高预警的准确度，尽量避免了误报、告警不准确等情况的发生。

Description

一种异常监控方法及系统

技术领域

本申请涉及监控领域，尤其涉及一种异常监控方法及系统。

背景技术

数据中心或网络服务平台由大量的硬件设备组成，这些设备通过各种方式互联进行通信。在金融、电信等领域，保证设备及服务的可靠性非常重要。

现有监控技术多是基于阈值、规则或单个设备的监控数据进行告警，容易出现误报、告警不准确等现象。

发明内容

有鉴于此，本申请提供一种异常监控方法及系统，其具体方案如下：

一种异常监控方法，包括：

基于所述至少一个被监控设备的运行数据及所述至少一个被监控设备与其他设备之间的通信数据信息，确定所述至少一个被监控设备的状态信息；

确定所述至少一个被监控设备的历史状态信息；

基于所述至少一个被监控设备的历史状态信息确定所述至少一个被监控设备的神经网络模型，所述神经网络模型能够确定所述至少一个被监控设备的异常预警结果；

基于所述神经网络模型及所述至少一个被监控设备的状态信息，确定所述至少一个被监控设备的当前异常预警结果。

进一步的，所述至少一个被监控设备的状态信息为：

所述至少一个被监控设备的状态信息至少与被监控设备的运行数据，以及，与所述至少一个被监控设备进行通信的其他设备中的每一个其他设备之间的关联关系相关。

进一步的，所述至少一个被监控设备的状态信息，还与所述每一个其他设备的状态信息相关。

进一步的，所述确定所述至少一个被监控设备的历史状态信息，包括：

确定所述至少一个被监控设备的历史记录中每一次的状态信息，以及，历史记录中每一次的状态信息对应的所述至少一个被监控设备的异常状态结果。

进一步的，所述基于所述至少一个被监控设备的历史状态信息确定所述至少一个被监控设备的神经网络模型，包括：

将所述至少一个被监控设备的历史记录中每一次的状态信息，以及，历史记录中每一次的状态信息对应的所述至少一个被监控设备的异常状态结果进行模型训练，以得到以状态信息为输入，以异常状态结果为输出的神经网络模型。

进一步的，所述基于所述神经网络模型及所述至少一个被监控设备的状态信息，确定所述至少一个被监控设备的当前异常预警结果，包括：

将所述至少一个被监控设备的状态信息作为所述神经网络模型的输入，将所述神经网络模型的输出作为所述至少一个被监控设备的状态信息对应的当前异常预警结果。

进一步的，所述异常预警结果至少包括下列的一项：

异常程度、异常类型，或出现异常的间隔时间。

一种异常监控系统，包括：

第一确定单元，用于基于所述至少一个被监控设备的运行数据及所述至少一个被监控设备与其他设备之间的通信数据信息，确定所述至少一个被监控设备的状态信息；

第二确定单元，用于确定所述至少一个被监控设备的历史状态信息；

第三确定单元，用于基于所述至少一个被监控设备的历史状态信息确定所述至少一个被监控设备的神经网络模型，所述神经网络模型能够确定所述至少一个被监控设备的异常预警结果；

第四确定单元，用于基于所述神经网络模型及所述至少一个被监控设备的状态信息，确定所述至少一个被监控设备的当前异常预警结果。

进一步的，所述至少一个被监控设备的状态信息为：

进一步的，所述第二确定单元用于：

从上述技术方案可以看出，本申请公开的异常监控方法及系统，基于至少一个被监控设备的运行数据及至少一个被监控设备与其他设备之间的通信数据信息，确定至少一个被监控设备的状态信息，确定至少一个被监控设备的历史状态信息，基于历史状态信息确定神经网络模型，神经网络模型能够确定至少一个被监控设备的异常预警结果，基于神经网络模型及至少一个被监控设备的状态信息，确定至少一个被监控设备的当前异常预警结果。本方案通过确定与其他设备关联的信息相关的被监控设备的状态信息，进而对该被监控设备的异常预警结果进行预警，实现了不仅以被监控设备的运行数据为参考参数，还基于由多个设备组成的系统互联结构的关联关系，对被监控设备进行预警，相对于以孤立的设备的运行数据为预警的参考参数，可以更有效的识别出被监控设备的异常情况，提高预警的准确度，尽量避免了误报、告警不准确等情况的发生。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例公开的一种异常监控方法的流程图；

图2为本申请实施例公开的一种异常监控方法的流程图；

图3为本申请实施例公开的一种设备间的拓扑结构图；

图4为本申请实施例公开的一种异常监控系统的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请公开了一种异常监控方法，其流程图如图1所示，包括：

步骤S11、基于至少一个被监控设备的运行数据及至少一个被监控设备与其他设备之间的通信数据信息，确定至少一个被监控设备的状态信息；

数据中心或网络服务平台通常由多个硬件设备组成，而这些硬件设备之间是有通信互联的，为了保证各设备的正常运行，需要对每个硬件设备都进行状态监控，以便在出现异常时，能够及时预警，及时处理异常，避免整个数据中心或网络服务平台的数据传输出现问题。

目前，有基于阈值或模板的异常预警，即当某监控数值超过设定阈值或符合模板规则时发出预警，但是这种方式是无法区分异常的严重程度的；还有基于时间序列分析的异常预警，即利用ARMA等时间序列模型对某个设备的历史监控数据进行建模，从而实现对异常的告警及预测，这种方式仅利用了单个设备本身的监控数据，可以识别出异常发生的周期性和趋势，但其并未考虑到与其他设备间的相互影响，这就造成了预警不够准确的问题。

基于此，本方案中，不仅以被监控设备的运行数据为参考参数，还以被监控设备与其他设备之间的通信数据信息作为参考参数，从而确定被监控设备的整体状态，以避免对被监控设备与其他设备之间的相互影响的因素造成忽略。

其中，被监控设备的运行数据为定期采集的被监控设备本身的数据，该运行数据至少包括：CPU的使用率，磁盘负载，内存占用，网络数据流量，硬件温度等数据。

被监控设备与其他设备之间的通信数据信息，即被监控设备与其他设备之间的关联关系，其具体可以为：被监控设备与其他设备的通信数据的通信数据流量。

基于被监控设备的运行数据及被监控设备与其他设备之间的通信数据信息，确定的被监控设备的状态信息，其中，状态信息实际是一个向量，是由一组数据组成的向量，这一组数据中可以包括上述运行数据及通信数据信息，也可以是由上述运行数据及通信数据信息计算获得的一组数据，以表示被监控设备的状态。

步骤S12、确定至少一个被监控设备的历史状态信息；

步骤S13、基于至少一个被监控设备的历史状态信息确定至少一个被监控设备的神经网络模型，神经网络模型能够确定至少一个被监控设备的异常预警结果；

步骤S14、基于神经网络模型及至少一个被监控设备的状态信息，确定至少一个被监控设备的当前异常预警结果。

基于被监控设备的历史状态信息建立神经网络模型，其中，该神经网络模型的输入端为历史状态信息，输出端为异常状态结果，即被监控设备在处于该历史状态信息时，其实际的异常状态结果。

神经网络模型可通过GRU、LSTM、CW-RNN等模型进行训练和推理，以得到神经网络模型。

其中，异常状态结果包括：是否出现异常，异常类型，异常程度或出现异常的间隔时间，即异常状态结果是被监控设备历史记录中已经出现过的状态结果。

异常预警结果包括：异常类型，异常程度或出现异常的间隔时间中的至少一项，当然，异常预警结果也可以包括是否出现异常。异常预警结果是对未发生的结果进行的预警，异常预警结果与异常状态结果不同，异常状态结果是历史记录中已经出现过的状态结果，而异常预警结果是基于历史记录确定的神经网络模型，对当前获取到的状态信息进行预测，得出的预警结果。

被监控设备的历史状态信息，即被监控设备在历史记录中每一次采集运行数据时，其对应的状态信息，而历史记录中的状态信息也是由历史记录中的本次采集的运行数据，以及，本次采集运行数据时被监控设备与其他设备之间的通信数据信息确定的。

当获取该神经网络模型后，将获取到的本次运行数据采集时，被监控设备的状态信息作为神经网络模型的输入，从而得到一个输出值，该输出值即为当前异常预警结果，即针对本次运行数据采集时的被监控设备的状态的预警结果。

其中，同一类型的被监控设备的神经网络模型可以是相同的，而设备类型可以分为计算型设备、存储型设备、网络型设备等，不同类型的被监控设备的神经网络模型不同。

本实施例公开的异常监控方法，基于至少一个被监控设备的运行数据及至少一个被监控设备与其他设备之间的通信数据信息，确定至少一个被监控设备的状态信息，确定至少一个被监控设备的历史状态信息，基于历史状态信息确定神经网络模型，神经网络模型能够确定至少一个被监控设备的异常预警结果，基于神经网络模型及至少一个被监控设备的状态信息，确定至少一个被监控设备的当前异常预警结果。本方案通过确定与其他设备关联的信息相关的被监控设备的状态信息，进而对该被监控设备的异常预警结果进行预警，实现了不仅以被监控设备的运行数据为参考参数，还基于由多个设备组成的系统互联结构的关联关系，对被监控设备进行预警，相对于以孤立的设备的运行数据为预警的参考参数，可以更有效的识别出被监控设备的异常情况，提高预警的准确度，尽量避免了误报、告警不准确等情况的发生。

本实施例公开了一种异常监控方法，其流程图如图2所示，包括：

步骤S21、基于至少一个被监控设备的运行数据，以及，与该被监控设备进行通信的其他设备中的每一个其他设备之间的关联关系，确定至少一个被监控设备的状态信息；

如图3所示，若设备2为被监控设备，那么，设备1与设备2有数据通信，设备3与设备2有数据通信，那么，设备2的状态信息至少与设备2本身的运行数据相关，也与设备2与设备1之间的通信流量相关，还与设备2与设备3之间的通信数据流量相关。

将采集的设备的运行数据用X表示，设备之间的通信数据流量用L表示，设备的状态信息用S表示，那么，图3中，设备1的运行数据为X1，状态信息为S1，设备2的运行数据为X2，状态信息为S2，设备3的运行数据为X3，状态信息为S3，设备1与设备2之间的通信数据流量为L12及L21，其中，L12为设备1传输至设备2的通信数据流量，L21为设备2传输至设备1的通信数据流量，同理，设备2与设备3之间的通信数据流量为L23及L32，设备1与设备3之间的通信数据流量为L13及L31。

那么，设备2作为被监控设备时，其状态信息为S2＝f(X2，L12，L21，L23，L32)，其中，f函数为迭代函数，其可以通过图神经网络、随机游走等图表学习算法训练出来。即设备2的状态信息与设备2的运行数据、与设备的通信数据流量及与设备3的通信数据流量相关。

进一步的，被监控设备的状态信息还可以与其他设备中每一个其他设备的运行数据相关，以实现根据其他相关设备的运行数据确定被监控设备的状态信息，避免了其他相关设备的运行数据对被监控设备的状态信息的影响。

以图3为例，即为S2＝f(X1，X2，X3，L12，L21，L23，L32)。

进一步的，被监控设备的状态信息还可以与与其他设备中每一个其他设备的状态信息相关，以实现根据其他相关设备的状态信息确定被监控设备的状态信息，避免了其他相关设备的状态信息对被监控设备的状态信息的影响。

以图3为例，即为S2＝f(X1，X2，X3，L12，L21，L23，L32，S1，S3)；

或者，S2＝f(X2，L12，L21，L23，L32，S1，S3)，即设备的状态信息与设备2的运行数据相关，与设备1的通信数据流量及设备3的通信数据流量相关，同时，与设备1及设备3的状态信息相关，而与设备1及设备3的运行数据无关。

步骤S22、确定至少一个被监控设备的历史状态信息；

步骤S23、基于至少一个被监控设备的历史状态信息确定至少一个被监控设备的神经网络模型，神经网络模型能够确定至少一个被监控设备的异常预警结果；

步骤S24、基于神经网络模型及至少一个被监控设备的状态信息，确定至少一个被监控设备的当前异常预警结果。

进一步的，应用本实施例公开的异常监控方法的系统，其可以同时对多个被监控设备进行监控，以便能够及时获取与被监控设备有通信关联的其他设备的相关信息。其中，同时对多个被监控设备进行监控中的多个被监控设备可以为同一个数据中心的多个设备，或者，为同一个网络服务平台的多个设备，该多个设备可以为同一个数据中心的所有硬件设备，或者为同一个网络服务平台中的所有硬件设备，或者，为同一个数据中心中关联关系紧密的多个硬件设备，或者为同一个网络服务平台中关联关系紧密的多个硬件设备。

本实施例公开了一种异常监控系统，其结构示意图如图4所示，包括：

第一确定单元41，第二确定单元42，第三确定单元43及第四确定单元44。

其中，第一确定单元41用于基于至少一个被监控设备的运行数据及至少一个被监控设备与其他设备之间的通信数据信息，确定至少一个被监控设备的状态信息；

进一步的，至少一个被监控设备的状态信息为：至少一个被监控设备的状态信息至少与被监控设备的运行数据，以及，与至少一个被监控设备进行通信的其他设备中的每一个其他设备之间的关联关系相关。

以图3为例，即为S2＝f(X1，X2，X3，L12，L21，L23，L32)。

以图3为例，即为S2＝f(X1，X2，X3，L12，L21，L23，L32，S1，S3)；

第二确定单元42用于确定至少一个被监控设备的历史状态信息；

第三确定单元43用于基于至少一个被监控设备的历史状态信息确定至少一个被监控设备的神经网络模型，神经网络模型能够确定至少一个被监控设备的异常预警结果；

第四确定单元44用于基于神经网络模型及至少一个被监控设备的状态信息，确定至少一个被监控设备的当前异常预警结果。

进一步的，本实施例公开的异常监控系统，其可以同时对多个被监控设备进行监控，以便能够及时获取与被监控设备有通信关联的其他设备的相关信息。其中，同时对多个被监控设备进行监控中的多个被监控设备可以为同一个数据中心的多个设备，或者，为同一个网络服务平台的多个设备，该多个设备可以为同一个数据中心的所有硬件设备，或者为同一个网络服务平台中的所有硬件设备，或者，为同一个数据中心中关联关系紧密的多个硬件设备，或者为同一个网络服务平台中关联关系紧密的多个硬件设备。

本实施例公开的异常监控系统，基于至少一个被监控设备的运行数据及至少一个被监控设备与其他设备之间的通信数据信息，确定至少一个被监控设备的状态信息，确定至少一个被监控设备的历史状态信息，基于历史状态信息确定神经网络模型，神经网络模型能够确定至少一个被监控设备的异常预警结果，基于神经网络模型及至少一个被监控设备的状态信息，确定至少一个被监控设备的当前异常预警结果。本方案通过确定与其他设备关联的信息相关的被监控设备的状态信息，进而对该被监控设备的异常预警结果进行预警，实现了不仅以被监控设备的运行数据为参考参数，还基于由多个设备组成的系统互联结构的关联关系，对被监控设备进行预警，相对于以孤立的设备的运行数据为预警的参考参数，可以更有效的识别出被监控设备的异常情况，提高预警的准确度，尽量避免了误报、告警不准确等情况的发生。

本实施例还公开了一种电子设备，包括：处理器及存储器，其中：

处理器用于基于至少一个被监控设备的运行数据及至少一个被监控设备与其他设备之间的通信数据信息，确定至少一个被监控设备的状态信息；确定至少一个被监控设备的历史状态信息；基于至少一个被监控设备的历史状态信息确定至少一个被监控设备的神经网络模型，神经网络模型能够确定至少一个被监控设备的异常预警结果；基于神经网络模型及至少一个被监控设备的状态信息，确定至少一个被监控设备的当前异常预警结果；

存储器用于存储历史状态信息。

其中，本实施例公开的处理器可以对多个被监控设备同时进行监控。

本实施例公开的电子设备，基于至少一个被监控设备的运行数据及至少一个被监控设备与其他设备之间的通信数据信息，确定至少一个被监控设备的状态信息，确定至少一个被监控设备的历史状态信息，基于历史状态信息确定神经网络模型，神经网络模型能够确定至少一个被监控设备的异常预警结果，基于神经网络模型及至少一个被监控设备的状态信息，确定至少一个被监控设备的当前异常预警结果。本方案通过确定与其他设备关联的信息相关的被监控设备的状态信息，进而对该被监控设备的异常预警结果进行预警，实现了不仅以被监控设备的运行数据为参考参数，还基于由多个设备组成的系统互联结构的关联关系，对被监控设备进行预警，相对于以孤立的设备的运行数据为预警的参考参数，可以更有效的识别出被监控设备的异常情况，提高预警的准确度，尽量避免了误报、告警不准确等情况的发生。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种异常监控方法，其特征在于，包括：

确定所述至少一个被监控设备的历史状态信息；

2.根据权利要求1所述的方法，其特征在于，所述至少一个被监控设备的状态信息为：

3.根据权利要求2所述的方法，其特征在于，所述至少一个被监控设备的状态信息，还与所述每一个其他设备的状态信息相关。

4.根据权利要求1所述的方法，其特征在于，所述确定所述至少一个被监控设备的历史状态信息，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述至少一个被监控设备的历史状态信息确定所述至少一个被监控设备的神经网络模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述神经网络模型及所述至少一个被监控设备的状态信息，确定所述至少一个被监控设备的当前异常预警结果，包括：

7.根据权利要求1所述的方法，其特征在于，所述异常预警结果至少包括下列的一项：

异常程度、异常类型，或出现异常的间隔时间。

8.一种异常监控系统，其特征在于，包括：

9.根据权利要求8所述的系统，其特征在于，所述至少一个被监控设备的状态信息为：

10.根据权利要求8所述的系统，其特征在于，所述第二确定单元用于：