CN110830289B

CN110830289B - 一种容器异常监测方法及监测系统

Info

Publication number: CN110830289B
Application number: CN201910997922.7A
Authority: CN
Inventors: 谢雨来; 冯丹; 徐公明; 邹祝平
Original assignee: Huazhong University of Science and Technology
Current assignee: Huazhong University of Science and Technology
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2021-06-11
Anticipated expiration: 2039-10-21
Also published as: CN110830289A

Abstract

本发明公开了一种容器异常监测方法及监测系统，属于云计算安全领域，包括：监测代理定期收集容器的运行状态信息，封装成心跳数据包后发送至监测服务器；监测代理定期获得优先级最高的容器，在需调度时收集该容器的监测数据并进行预处理，以判断该容器的资源使用情况变化是否发生较大变化，若是，则将监测数据发送至监测服务器，否则不发送；则监测服务器存储监测数据，并定期对容器进行异常监测，若监测到容器异常，则发出预警信息，否则，向相应的监测代理发送命令，以指示调整监测周期；监测代理接收到命令后，对容器的监测周期进行调整后，对各容器的优先级进行调整。本发明能够提高容器异常监测的效率，降低误检率，并实现对监测延迟的控制。

Description

一种容器异常监测方法及监测系统

技术领域

本发明属于云计算安全领域，更具体地，涉及一种容器异常监测方法及监测系统。

背景技术

容器技术已经成为云计算系统中的主流技术之一。对容器进行状态监控和异常监测是保障云计算系统可靠性和稳定性的关键。由于容器环境的动态性以及容器内应用负载的多样性，特定环境下出现的应用异常难以避免，例如某个请求引发未经测试的内存泄露,或是在某种访问序列下并发线程竞争共享资源造成的死锁等。这些应用异常会造成容器的运行状态异于正常运行状态，表现为容器对宿主机的资源使用发生异常变化，最后可能会导致服务质量下降或失效。因此在容器环境下，使用异常监测技术及时发现容器异常并将异常信息告警，是保障服务质量的必要手段。

对容器异常的判别主要是从资源角度考虑，通过分析各资源使用状况和变化趋势以定位异常系统度量，并将异常情况进行告警。当前的容器监控系统通常是监测容器系统度量，根据领域知识，人工设定告警阈值和规则。

而由于宿主机上运行的容器个数及类型随服务需求会不断发生变化，被监测容器存在着动态性。当容器之间发生资源竞争时，各个容器的对应的资源度量都会发生变化，相应的资源告警阈值也需要进行调整。而在容器环境中容器数量很多时，人工完成这种调整会不太切合实际。因此在容器环境中为度量设定固定告警阈值难以准确监测到异常，同时，容器数量众多且容器中运行的应用存在多样性，对所有容器采用统一标准的异常监测算法容易造成监测效率低，误检率较高。此外，异常监测延迟，即从发生异常到监测出异常之间的时间差，很大程度取决于监测周期。监测周期较小时，监测系统能更快的发现异常，但这在监测对象过多的情况下，会产生巨大的系统开销；而监测周期较大时，监测延迟也会变高。因此在现有的容器环境中还存在异常监测延迟难以控制的问题。

发明内容

针对现有技术的缺陷和改进需求，本发明提供了一种容器异常监测方法及监测系统，其目的在于，提高容器异常监测的效率，降低误检率，并实现对监测延迟的控制。

为实现上述目的，按照本发明的一个方面，提供了一种容器异常监测方法，包括：

运行于宿主机中的监测代理定期收集宿主机中容器的运行状态信息，封装成心跳数据包后发送至监测服务器，以使得监测服务器感知宿主机中容器的运行信息；

监测代理定期获得宿主机中具有最高优先级的容器作为目标容器，并在目标容器的下一次调度时间到达时，收集目标容器的监测数据并进行预处理，以判断目标容器的资源使用情况变化量是否超过了预设的第一阈值，若是，则将监测数据发送至监测服务器，否则，不发送监测数据；

监测服务器对所接收到的容器监测数据进行存储，并定期根据容器的监测数据对容器进行异常监测，若监测到容器异常，则发出预警信息，否则，根据监测结果向相应的监测代理发送命令，以指示监测代理对容器的监测周期进行调整；

监测代理接收到监测服务器发送的命令后，对容器的监测周期进行调整，以使得容器的监测周期与其发生异常的可能性反相关，并根据调整后的周期对各容器的优先级进行调整；

其中，容器的监测数据反映了容器的资源使用情况。

本发明由监测服务器定期针对不同的容器，分别进行异常监测，并根据监测结果向监测代理发送用于调整容器监测周期的命令，能够提高容器异常的监测效率，降低误检率，通过减小即将发生异常的容器的监测周期，还能够在及时发现容器异常的同时，尽量避免产生巨大的系统开销，实现了对监测延迟的控制。

进一步地，对于任意一个容器Container，监测服务器根据容器Container的监测数据对容器Container进行异常监测，包括：

(S1)将监测数据中的每一项资源作为一个特征，根据容器Container的监测数据计算容器Container对于各项资源的偏向程度，并修改各项资源的特征权值，使得资源的特征权值与容器Container对该资源的偏向程度正相关；

(S2)设定大小为N的滑动窗口，并以容器Container在滑动窗口内的监测数据作为构造孤立树数据集；

(S3)使用加权随机算法选择一个特征M；

(S4)在数据集内随机选择特征M的一个取值，记为m；

(S5)根据特征M对数据集进行划分，将特征M的取值小于m的监测数据分到左子节点，将特征M的取值大于等于m的监测数据分到右子节点，从而将数据集划分为两个新的数据集；

(S6)重复执行步骤(S3)～(S5)，以递归构造孤立树的左分支和右分支，直至待划分的数据集中只有一个监测数据，或者孤立树高度达到了预设的第二阈值；

(S7)重复执行步骤(S1)～(S6)，构造多棵孤立树，从而得到由所构造的孤立树构成的孤立森林；

(S8)将孤立树中最新的t组监测数据的异常指数平均值作为该孤立树的结果，平均孤立森林中各孤立树的结果，从而得到容器Container的异常指数I_C，若I_C≥d，则判定容器Container异常；若f≤I_C<d，则判定容器Container即将发生异常；若I_C<f，则判定容器Container正常；

其中，d为预设的异常检测阈值，f为预设的异常敏感阈值，f<d，t为正整数。

上述根据监测数据对容器进行异常监测的方法，对传统的孤立森林算法进行了改进，根据容器对资源的偏向程度设置特征权重，结合加权随机算法选取特征，使得容器越偏向的特征，在构造孤立树时，该特征被选中的概率越大，因此，本发明能够根据容器的资源偏向情况来动态调整容器异常监测过程中的权重系数，从而提高容器异常检测的准确率。此外，本发明使用上述改进的孤立森林算法对容器进行异常监测，可以在无需设定资源阈值的前提下对多维资源度量进行监测分析，及时发现异常并判断出异常度量。

进一步地，监测代理对目标容器的监测数据预处理，以判断目标容器的资源使用情况变化量是否超过了预设的第一阈值，包括：

获得目标容器前N次收集的监测数据，进行格式化之后计算平均值；

将当前采集的监测数据进行格式化之后，计算与该平均值的相对误差，若未超过第一阈值，则判定目标容器的资源使用情况变化量超过了预设的第一阈值；否则，判定目标容器的资源使用情况变化量未超过预设的第一阈值。

本发明仅在容器的资源使用情况发生较大变化时，才将收集到的监测数据发送至监测服务器，能够减少传输的数据量，提高容器异常监测的效率，减少容器异常监测的延迟和系统开销。

进一步地，监测服务器根据监测结果向相应的监测代理发送命令，以指示监测代理对容器的监测周期进行调整，包括：若监测结果判定容器即将发生异常，则向监测代理发送intensive类型的命令，指示监测代理相应地减小该容器的监测周期；若监测结果判定容器正常，则向监测代理发送extensive类型的命令，指示监测代理将该容器的监测周期恢复至初始值。

本发明对于即将发生异常的容器，减小其监测周期，能够将该容器设为密集监测对象，保证能够及时发现该容器的异常情况；对于正常容器，则将其监测周期恢复至初始值，能够有效减少系统开销。因此，本发明能够实现对检测延迟的控制。

进一步地，监测代理根据调整后的周期对各容器的优先级进行调整，包括：

由监测代理维护一个监测优先队列，用于根据容器的优先级对容器进行监测；监测优先队列中，每一个节点对应宿主机中正在运行的一个容器，每个节点存储的信息包括：容器ID、监测周期以及下一次调度时间；监测优先队列中，下一次调度时间越早，容器的优先级越高；

监测代理根据接收到的命令类型减小容器的监测周期或将容器的监测周期恢复至初始值后，将该容器的下一次调度时间更新为当前时间加上调整后的监测周期；

在容器的下一次调度时间更新完成后，根据各容器的下一次调度时间对监测优先队列进行调整。

进一步地，本发明所提供的容器异常监测方法，还包括：监测代理在上线时，收集宿主机中容器的运行状态信息，连同其注册信息一起封装成注册心跳包后，发送至监测服务器，以使得监测服务器在本地数据库中初始化用于存储各容器监测数据的数据库表，并通过向该监测代理回复注册应答包，告知该监测代理注册结果及发送心跳数据包的心跳周期。

进一步地，本发明所提供的容器异常监测方法，还包括：若监测代理向监测服务器发送了心跳数据包，并在心跳周期到达后，仍未收到监测服务器发送的心跳应答包，则主动向监测服务器发送用于询问的心跳包；若监测代理发送R次用于询问的心跳包后，仍未收到监测服务器的应答，则判定监测服务器已下线，并关闭与监测服务器间的数据传输；

若监测服务器向监测代理发送了心跳应答包，并在心跳周期到达后，仍未收到该监测代理发送的心跳数据包，则主动向该监测代理发送用于询问的心跳包；若监测服务器发送R次用于询问的心跳包后，仍未收到该监测代理的应答，则判定该监测代理已下线，并从本地数据库中删除与该监测代理相关的容器监测数据。

本发明通过心跳管理，在监测服务器下线时，及时关闭监测代理与监测服务器之间的数据传输，并在监测代理下线时，及时从检测服务器本地数据库中删除该监测代理的监测数据，能够减少系统开销。

按照本发明的另一个方面，提供了一种容器异常监测系统，包括：监测服务器和运行于各宿主机中的监测代理；

监测代理，用于定期收集宿主机中容器的运行状态信息，封装成心跳数据包后发送至监测服务器，以使得监测服务器感知宿主机中容器的运行信息；

监测代理，还用于定期获得宿主机中具有最高优先级的容器作为目标容器，并在目标容器的下一次调度时间到达时，收集目标容器的监测数据并进行预处理，以判断目标容器的资源使用情况变化量是否超过了预设的第一阈值，若是，则将监测数据发送至监测服务器，否则，不发送监测数据；

监测服务器，用于对所接收到的容器监测数据进行存储，并定期根据容器的监测数据对容器进行异常监测，若监测到容器异常，则发出预警信息，否则，根据监测结果向相应的监测代理发送命令，以指示监测代理对容器的监测周期进行调整；

监测代理，还用于接收到监测服务器发送的命令后，对容器的监测周期进行调整，以使得容器的监测周期与其发生异常的可能性反相关，并根据调整后的周期对各容器的优先级进行调整；

其中，容器的监测数据反映了容器的资源使用情况。

进一步地，监测代理包括：容器信息管理模块、第一心跳管理模块、监测数据收集模块、数据收集控制模块、传输模块、监测数据处理模块以及监测周期调整模块；

容器信息管理模块，用于收集宿主机中容器的运行状态信息；

第一心跳管理模块，用于定期从容器信息管理模块获得宿主机中容器的运行状态信息，封装成心跳数据包后发送至监测服务器，以使得监测服务器感知宿主机中容器的运行信息；

监测数据收集模块，用于收集容器的监测数据；

数据收集控制模块，用于定期从监测周期调整模块获得宿主机中具有最高优先级的容器作为目标容器，并在目标容器的下一次调度时间到达时，通过监测数据收集模块收集目标容器的监测数据，并发送至监测数据处理模块；

传输模块，用于向监测服务器发送监测数据和接收监测服务器发送的命令；

监测数据处理模块，用于对目标容器的监测数据进行预处理，以判断目标容器的资源使用情况变化量是否超过了预设的第一阈值，若是，则通过传输模块将目标容器的监测数据发送至监测服务器，否则，不发送监测数据；

监测周期调整模块，用于从传输模块获得监测服务器发送的命令后，对容器的监测周期进行调整，以使得容器的监测周期与其发生异常的可能性反相关，并根据调整后的周期对各容器的优先级进行调整。

进一步地，监测服务器包括：第二心跳管理模块、数据存储模块以及异常监测模块；

第二心跳管理模块，用于接收第一心跳管理模块发送的心跳数据包，以感知宿主机中容器的运行信息；

数据存储模块，用于接收传输模块发送的监测数据并集进行存储；

异常监测模块，用于定期根据容器的监测数据对容器进行异常监测，若监测到容器异常，则发出预警信息，否则，根据监测结果向传输模块发送命令，以指示监测代理对容器的监测周期进行调整。

总体而言，通过本发明所构思的以上技术方案，能够取得以下有益效果：

(1)本发明所提供的容器异常监测方法及监测系统，定期针对不同的容器，分别进行异常监测，并根据监测结果向监测代理发送用于调整容器监测周期的命令，能够提高容器异常的监测效率，降低误检率，通过减小即将发生异常的容器的监测周期，还能够在及时发现容器异常的同时，尽量避免产生巨大的系统开销，实现了对监测延迟的控制。

(2)本发明所提供的容器异常监测方法及监测系统，使用改进的孤立森林算法对容器进行异常监测，根据容器对资源的偏向程度设置特征权重，结合加权随机算法选取特征，使得容器越偏向的特征，在构造孤立树时，该特征被选中的概率越大，因此，本发明能够根据容器的资源偏向情况来动态调整容器异常监测过程中的权重系数，从而提高容器异常检测的准确率。

(3)本发明所提供的容器异常监测方法及监测系统，使用改进的孤立森林算法对容器进行异常监测，可以在无需设定资源阈值的前提下对多维资源度量进行监测分析，及时发现异常并判断出异常度量。

(4)本发明所提供的容器异常监测方法及监测系统，仅在容器的资源使用情况发生较大变化时，才将收集到的监测数据发送至监测服务器，能够减少传输的数据量，提高容器异常监测的效率，减少容器异常监测的延迟和系统开销。

(5)本发明所提供的容器异常监测方法及监测系统，对于即将发生异常的容器，减小其监测周期，能够将该容器设为密集监测对象，保证能够及时发现该容器的异常情况；对于正常容器，则将其监测周期恢复至初始值，能够有效减少系统开销。

(6)本发明所提供的容器异常监测方法及监测系统，通过心跳管理，在监测服务器下线时，及时关闭监测代理与监测服务器之间的数据传输，并在监测代理下线时，及时从检测服务器本地数据库中删除该监测代理的监测数据，能够减少系统开销。

附图说明

图1为本发明实施例提供的云计算系统示意图；

图2为本发明实施例提供的容器异常监测方法及监测系统示意图；

图3为本发明实施例提供的孤立森林的构造流程图；

图4为本发明实施例提供的孤立树的构造流程图；

图5为本发明实施例提供的监测周期调整示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

在本发明中，本发明及附图中的术语“第一”、“第二”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

为了提高容器异常监测的监测效率，降低误检率并实现对检测延迟的控制，本发明提供了一种容器异常监测方法及监测系统，其整体思路在于：利用改进的孤立森林算法对各容器分别进行异常监测，根据容器对资源的偏向程度设置特征权重，以提高容器监测的监测效率并降低误检率，同时根据监测结果对相应容器的监测周期进行调整，以实现对监测延迟的控制。

在云计算系统中，存在多个宿主机，每个宿主机中会运行多个容器，为了实现对容器异常监测，如图1所示，会在每个宿主机中运行监测代理，并设置监测服务器，由宿主机内的监测代理和监测服务器共同完成对该宿主机内容器的异常监测。

基于图1所示的云计算系统，本发明所提供的容器异常检测方法，如图2所示，包括：

运行于宿主机中的监测代理定期收集宿主机中容器的运行状态信息，封装成心跳数据包后发送至监测服务器，以使得监测服务器感知宿主机中容器的运行信息；容器的运行状态信息可包括容器的启动信息、关闭信息以及容器的ID、任务信息、镜像信息等，具体收集哪些运行状态信息，可根据实际的应用特性确定；

监测代理定期获得宿主机中具有最高优先级的容器作为目标容器，并在目标容器的下一次调度时间到达时，收集目标容器的监测数据并进行预处理，以判断目标容器的资源使用情况变化量是否超过了预设的第一阈值，若是，则将监测数据发送至监测服务器，否则，不发送监测数据；其中，容器的监测数据反映了容器的资源使用情况，具体可包括CPU使用率、内存使用率、磁盘读速率、磁盘写速率、网络接受速率和网络发送速率，在实际使用中，也可以根据应用的资源偏向特点仅选取部分资源使用情况作为容器的监测数据；

监测代理接收到监测服务器发送的命令后，对容器的监测周期进行调整，以使得容器的监测周期与其发生异常的可能性反相关，并根据调整后的周期对各容器的优先级进行调整。

上述容器异常监测方法，由监测服务器定期针对不同的容器，分别进行异常监测，并根据监测结果向监测代理发送用于调整容器监测周期的命令，能够提高容器异常的监测效率，降低误检率，通过减小即将发生异常的容器的监测周期，还能够在及时发现容器异常的同时，尽量避免产生巨大的系统开销，实现了对监测延迟的控制。

在本实施例中，容器的监测数据具体包括CPU使用率、内存使用率、磁盘读速率、磁盘写速率、网络接受速率和网络发送速率；对于任意一个容器Container，监测服务器根据容器Container的监测数据对容器Container进行异常监测，如图3所示，包括：

(S1)将监测数据中的每一项资源作为一个特征，即将容器的CPU使用率、内存使用率、磁盘读速率、磁盘写速率、网络接收速率和网络发送速率作为构造孤立树的6个特征；根据容器Container的监测数据计算容器Container对于各项资源的偏向程度，并修改各项资源的特征权值，使得资源的特征权值与容器Container对该资源的偏向程度正相关；

可选地，容器Container对于任意一项资源的偏向程度W，可根据如下公式计算：

其中，W₀为资源度量初始权重值，其值为1；ε为资源平均度量，即宿主机上所有容器的资源总量除以容器数；N_i为i时刻的资源度量；p表示取p个时刻；f(x)为指示函数，若x>0，则f(x)＝1，否则f(x)＝0；偏向程度W越大，说明该容器对该项资源越偏向；

(S2)设定大小为N的滑动窗口，并以容器Container在滑动窗口内的监测数据作为构造孤立树的数据集；在本实施例中，滑动窗口的大小N＝100；

(S3)使用加权随机算法选择一个特征M；

(S4)在数据集内随机选择特征M的一个取值，记为m；

如图4所示，本实施例通过步骤(S1)～(S6)构造了一棵孤立树；在构造孤立树的过程中，用于判断迭代终止条件的第二阈值取值为log₂(N)向上取整的结果，N为滑动窗口的大小；

(S7)重复执行步骤(S1)～(S6)，构造多棵孤立树，从而得到由所构造的孤立树构成的孤立森林；重复执行步骤(S1)～(S6)的次数，即孤立森林中孤立树的具体数量n，可根据实际的监测准确率要求和计算开销要求确定，n的取值越大，监测准确率越大，但相应的计算开销也越大；反之，n的取值越小，计算开销越小，但相应的监测准确率越小；在本实施例中，根据经验取孤立森林中孤立树的数量n＝N；

其中，d为预设的异常检测阈值，f为预设的异常敏感阈值，f<d；异常检测阈值d用于判断容器是否异常，异常敏感阈值f用于判断未出现异常的容器是否即将出现异常，异常敏感阈值f与异常检测阈值d相关，一般满足f＝d/2；异常的检测率和误检率和异常检测阈值d有着很大的关系，d过小会造成误检率过高，值过大又会降低异常的检测率，在本实施例中，根据经验设定异常检测阈值为d＝5.4；t为正整数，在本实施例中，具体设定t＝10；

上述根据监测数据对容器进行异常监测的方法，对传统的孤立森林算法进行了改进，根据容器对资源的偏向程度设置特征权重，结合加权随机算法选取特征，使得容器越偏向的特征，在构造孤立树时，该特征被选中的概率越大，因此，本实施例能够根据容器的资源偏向情况来动态调整容器异常监测过程中的权重系数，从而提高容器异常检测的准确率。此外，本实施例使用上述改进的孤立森林算法对容器进行异常监测，可以在无需设定资源阈值的前提下对多维资源度量进行监测分析，及时发现异常并判断出异常度量。

在本实施例中，监测代理对目标容器的监测数据预处理，以判断目标容器的资源使用情况变化量是否超过了预设的第一阈值，包括：

将当前采集的监测数据进行格式化之后，计算与该平均值的相对误差，若未超过第一阈值，则判定目标容器的资源使用情况变化量超过了预设的第一阈值；否则，判定目标容器的资源使用情况变化量未超过预设的第一阈值；此处的N，即上述改进的随机森林算法中的滑动窗口大小；

本实施例仅在容器的资源使用情况发生较大变化时，才将收集到的监测数据发送至监测服务器，能够减少传输的数据量，提高容器异常监测的效率，减少容器异常监测的延迟和系统开销；在实际应用中，用于判断容器的资源使用情况是否发生较大变化的第一阈值，可根据监测准确率和系统开销的需求综合确定，例如，在本实施例中，第一阈值具体为1％。

在本实施例中，监测服务器根据监测结果向相应的监测代理发送命令，以指示监测代理对容器的监测周期进行调整，包括：若监测结果判定容器即将发生异常，则向监测代理发送intensive类型的命令，指示监测代理相应地减小该容器的监测周期；若监测结果判定容器正常，则向监测代理发送extensive类型的命令，指示监测代理将该容器的监测周期恢复至初始值；

可选地，监测服务器向监测代理发送命令的格式为{"container_id":；"type":；}；其中container_id为容器的ID，type为命令类型，有intensive和extensive这两种类型；当监测代理收到intensive类型的命令时，减小该容器的监测周期(例如，设置为检测周期初始值的一半)，若后续针对该容器的异常监测结果显示该容器正常(即异常指数低于异常敏感阈值f)时，则向监测代理发送extensive类型的命令，监测代理接收到该命令后，将该容器的监测周期恢复到初始监测周期；

本实施例对于即将发生异常的容器，减小其监测周期，能够将该容器设为密集监测对象，保证能够及时发现该容器的异常情况；对于正常容器，则将其监测周期恢复至初始值，能够有效减少系统开销。

在本实施例中，如图5所示，监测代理根据调整后的周期对各容器的优先级进行调整，包括：

上述容器异常监测方法，还包括：监测代理在上线时，收集宿主机中容器的运行状态信息，连同其注册信息一起封装成注册心跳包后，发送至监测服务器，以使得监测服务器在本地数据库中初始化用于存储各容器监测数据的数据库表，并通过向该监测代理回复注册应答包，告知该监测代理注册结果及发送心跳数据包的心跳周期；

为了进一步减少系统开销，上述容器异常监测方法，还可包括：若监测代理向监测服务器发送了心跳数据包，并在心跳周期到达后，仍未收到监测服务器发送的心跳应答包，则主动向监测服务器发送用于询问的心跳包；若监测代理发送R次用于询问的心跳包后，仍未收到监测服务器的应答，则判定监测服务器已下线，并关闭与监测服务器间的数据传输；

若监测服务器向监测代理发送了心跳应答包，并在心跳周期到达后，仍未收到该监测代理发送的心跳数据包，则主动向该监测代理发送用于询问的心跳包；若监测服务器发送R次用于询问的心跳包后，仍未收到该监测代理的应答，则判定该监测代理已下线，并从本地数据库中删除与该监测代理相关的容器监测数据；

通过心跳管理，在监测服务器下线时，及时关闭监测代理与监测服务器之间的数据传输，并在监测代理下线时，及时从检测服务器本地数据库中删除该监测代理的监测数据，能够减少系统开销；用于确定另一方是否已经下线的询问次数R可根据实际的网络状况等具体确定，通常情况下，设置R＝3。

与上述容器异常监测方法相对应地，本发明还提供了一种容器异常监测系统，包括：监测服务器和运行于各宿主机中的监测代理；

其中，容器的监测数据反映了容器的资源使用情况；

如图2所示，监测代理具体包括：容器信息管理模块、第一心跳管理模块、监测数据收集模块、数据收集控制模块、传输模块、监测数据处理模块以及监测周期调整模块；

监测数据收集模块，用于收集容器的监测数据；

监测周期调整模块，用于从传输模块获得监测服务器发送的命令后，对容器的监测周期进行调整，以使得容器的监测周期与其发生异常的可能性反相关，并根据调整后的周期对各容器的优先级进行调整；

如图2所示，监测服务器具体包括：第二心跳管理模块、数据存储模块以及异常监测模块；

异常监测模块，用于定期根据容器的监测数据对容器进行异常监测，若监测到容器异常，则发出预警信息，否则，根据监测结果向传输模块发送命令，以指示监测代理对容器的监测周期进行调整；

本实施例中，各模块的具体实施方式可参考上述方法实施例中的描述，在此将不作复述。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种容器异常监测方法，其特征在于，包括：

监测代理定期获得宿主机中具有最高优先级的容器作为目标容器，并在所述目标容器的下一次调度时间到达时，收集所述目标容器的监测数据并进行预处理，以判断所述目标容器的资源使用情况变化量是否超过了预设的第一阈值，若是，则将监测数据发送至监测服务器，否则，不发送监测数据；

其中，容器的监测数据反映了容器的资源使用情况；

所述容器异常监测方法还包括：

监测代理在上线时，收集宿主机中容器的运行状态信息，连同其注册信息一起封装成注册心跳包后，发送至监测服务器，以使得监测服务器在本地数据库中初始化用于存储各容器监测数据的数据库表，并通过向该监测代理回复注册应答包，告知该监测代理注册结果及发送心跳数据包的心跳周期；

若监测代理向监测服务器发送了心跳数据包，并在心跳周期到达后，仍未收到监测服务器发送的心跳应答包，则主动向监测服务器发送用于询问的心跳包；若监测代理发送R次用于询问的心跳包后，仍未收到监测服务器的应答，则判定监测服务器已下线，并关闭与监测服务器间的数据传输；

2.如权利要求1所述的容器异常监测方法，其特征在于，对于任意一个容器Container，监测服务器根据容器Container的监测数据对容器Container进行异常监测，包括：

(S3)使用加权随机算法选择一个特征M；

(S4)在数据集内随机选择特征M的一个取值，记为m；

3.如权利要求2所述的容器异常监测方法，其特征在于，监测代理对所述目标容器的监测数据预处理，以判断所述目标容器的资源使用情况变化量是否超过了预设的第一阈值，包括：

获得所述目标容器前N次收集的监测数据，进行格式化之后计算平均值；

将当前采集的监测数据进行格式化之后，计算与该平均值的相对误差，若未超过所述第一阈值，则判定所述目标容器的资源使用情况变化量超过了预设的第一阈值；否则，判定所述目标容器的资源使用情况变化量未超过预设的第一阈值。

4.如权利要求1所述的容器异常监测方法，其特征在于，监测服务器根据监测结果向相应的监测代理发送命令，以指示监测代理对容器的监测周期进行调整，包括：若监测结果判定容器即将发生异常，则向监测代理发送intensive类型的命令，指示监测代理相应地减小该容器的监测周期；若监测结果判定容器正常，则向监测代理发送extensive类型的命令，指示监测代理将该容器的监测周期恢复至初始值。

5.如权利要求4所述的容器异常监测方法，其特征在于，监测代理根据调整后的周期对各容器的优先级进行调整，包括：

由监测代理维护一个监测优先队列，用于根据容器的优先级对容器进行监测；所述监测优先队列中，每一个节点对应宿主机中正在运行的一个容器，每个节点存储的信息包括：容器ID、监测周期以及下一次调度时间；所述监测优先队列中，下一次调度时间越早，容器的优先级越高；

在容器的下一次调度时间更新完成后，根据各容器的下一次调度时间对所述监测优先队列进行调整。

6.一种容器异常监测系统，其特征在于，包括：监测服务器和运行于各宿主机中的监测代理；

所述监测代理，用于定期收集宿主机中容器的运行状态信息，封装成心跳数据包后发送至监测服务器，以使得监测服务器感知宿主机中容器的运行信息；

所述监测代理，还用于定期获得宿主机中具有最高优先级的容器作为目标容器，并在所述目标容器的下一次调度时间到达时，收集所述目标容器的监测数据并进行预处理，以判断所述目标容器的资源使用情况变化量是否超过了预设的第一阈值，若是，则将监测数据发送至监测服务器，否则，不发送监测数据；

所述监测服务器，用于对所接收到的容器监测数据进行存储，并定期根据容器的监测数据对容器进行异常监测，若监测到容器异常，则发出预警信息，否则，根据监测结果向相应的监测代理发送命令，以指示监测代理对容器的监测周期进行调整；

所述监测代理，还用于接收到监测服务器发送的命令后，对容器的监测周期进行调整，以使得容器的监测周期与其发生异常的可能性反相关，并根据调整后的周期对各容器的优先级进行调整；

其中，容器的监测数据反映了容器的资源使用情况；

7.如权利要求6所述的容器异常监测系统，其特征在于，所述监测代理包括：容器信息管理模块、第一心跳管理模块、监测数据收集模块、数据收集控制模块、传输模块、监测数据处理模块以及监测周期调整模块；

所述容器信息管理模块，用于收集宿主机中容器的运行状态信息；

所述第一心跳管理模块，用于定期从容器信息管理模块获得宿主机中容器的运行状态信息，封装成心跳数据包后发送至监测服务器，以使得监测服务器感知宿主机中容器的运行信息；

所述监测数据收集模块，用于收集容器的监测数据；

所述数据收集控制模块，用于定期从所述监测周期调整模块获得宿主机中具有最高优先级的容器作为目标容器，并在所述目标容器的下一次调度时间到达时，通过所述监测数据收集模块收集所述目标容器的监测数据，并发送至所述监测数据处理模块；

所述传输模块，用于向监测服务器发送监测数据和接收监测服务器发送的命令；

所述监测数据处理模块，用于对所述目标容器的监测数据进行预处理，以判断所述目标容器的资源使用情况变化量是否超过了预设的第一阈值，若是，则通过所述传输模块将所述目标容器的监测数据发送至所述监测服务器，否则，不发送监测数据；

所述监测周期调整模块，用于从所述传输模块获得监测服务器发送的命令后，对容器的监测周期进行调整，以使得容器的监测周期与其发生异常的可能性反相关，并根据调整后的周期对各容器的优先级进行调整。

8.如权利要求7所述的容器异常监测系统，其特征在于，所述监测服务器包括：第二心跳管理模块、数据存储模块以及异常监测模块；

所述第二心跳管理模块，用于接收所述第一心跳管理模块发送的心跳数据包，以感知宿主机中容器的运行信息；

所述数据存储模块，用于接收所述传输模块发送的监测数据并集进行存储；

所述异常监测模块，用于定期根据容器的监测数据对容器进行异常监测，若监测到容器异常，则发出预警信息，否则，根据监测结果向所述传输模块发送命令，以指示监测代理对容器的监测周期进行调整。