CN116955091A

CN116955091A - 基于机器学习的数据中心故障检测系统

Info

Publication number: CN116955091A
Application number: CN202311211340.4A
Authority: CN
Inventors: 汪镜波
Original assignee: Shenzhen Humeng Technology Co ltd
Current assignee: Shenzhen Humeng Technology Co ltd
Priority date: 2023-09-20
Filing date: 2023-09-20
Publication date: 2023-10-27
Anticipated expiration: 2043-09-20
Also published as: CN116955091B

Abstract

本发明涉及数字数据处理领域，具体涉及基于机器学习的数据中心故障检测系统，所述系统包括数据采集模块、数据处理模块和预警模块，数据采集模块：采集数据中心服务器CPU处理速率、网络流量及温度数据；数据处理模块：根据温度数据的概率分布曲线得到各次抽样温度数据的偏差度；结合各次抽样CPU处理速率数据的衰减度及网络流量数据的标准差得到各次抽样温度数据分割阈值；预警模块：根据各温度数据的异常得分得到异常时刻；在异常时刻进行报警。从而实现数据中心故障检测，提高了各数据异常分数的准确性，具有较高数据中心故障检测系统的异常数据检测精度。

Description

基于机器学习的数据中心故障检测系统

技术领域

本申请涉及数字数据处理领域，具体涉及基于机器学习的数据中心故障检测系统。

背景技术

随着计算机技术快速发展，数据中心成为各个领域的关键部分，各大企业开始数据中心的兴建。随着科学技术的不断成熟，数据中心的建设规模也逐渐增大，相应的运营成本和维护成本也逐渐提高。其中对数据中心的监控也在不断发展，通过对数据中心各种设备的监控，优化管理性能，使数据中心能够持续稳定的运行。数据中心发生故障会带来较大的损失，现如今对数据中心的监控采用机器学习的方式，对数据中心的设备进行故障检测和诊断等，保障数据中心的运行稳定。

在监控的过程中对数据中心故障的检测常采用异常检测算法，传统的孤立森林异常检测算法存在二叉树建立不准确的问题，对数据异常检测的精度较低，导致对数据中心的异常行为检测不准确，降低了数据中心故障检测系统的准确性，造成不必要的损失。

综上所述，本发明提出基于机器学习的数据中心故障检测系统，本发明通过采集数据中心服务器各时刻外部信息数据，对数据进行抽样，通过各次抽样数据相对整体数据的差异计算，构建各次抽样数据的自适应分割阈值，根据自适应分割阈值获取各次抽样数据的孤立树，结合孤立森林异常检测算法，分析异常数据，完成数据中心故障检测，提高数据中心故障检测精度。

发明内容

为了解决上述技术问题，本发明提供基于机器学习的数据中心故障检测系统，所述系统包括：

数据采集模块：采集数据中心服务器各时刻的CPU处理速率、网络流量及温度数据；

数据处理模块：对数据进行抽样得到各次抽样数据；根据各次抽样温度数据的概率分布曲线得到各次抽样温度数据的偏差度；获取各次抽样CPU处理速率数据的自身序列及时间序列；根据各次抽样CPU处理速率数据的自身序列与时间序列之间的相关性得到各次抽样CPU处理速率数据的衰减度；根据各次抽样温度数据的偏差度、CPU处理速率数据的衰减度及网络流量数据的标准差得到各次抽样温度数据的分割指数；根据各次抽样温度数据的分割指数得到各次抽样温度数据的分割阈值；

预警模块：根据各次抽样温度数据分割阈值得到温度数据的异常得分；根据各温度数据的异常得分得到异常温度数据集合；根据异常温度数据集合中各温度数据之间的差异得到故障指标；根据故障指标得到最终异常温度数据。

优选的，所述根据各次抽样温度数据的概率分布曲线得到各次抽样温度数据的偏差度，具体包括：

各次抽样温度数据的偏差度与各次抽样温度数据相对数据中心服务器温度数据的概率分布曲线之间偏度的差值成正比，与各次抽样温度数据的信息熵成反比。

优选的，所述获取各次抽样CPU处理速率数据的自身序列及时间序列，具体包括：

将各次抽样CPU处理速率数据组成的序列作为各次抽样CPU处理速率数据的自身序列，将自身序列中各数据对应采集时刻组成的序列作为各次抽样CPU处理速率数据的时间序列。

优选的，所述根据各次抽样CPU处理速率数据的自身序列与时间序列之间的相关性得到各次抽样CPU处理速率数据的衰减度，具体包括：

各次抽样CPU处理速率数据的衰减度与各次抽样CPU处理速率数据的自身序列及时间序列之间的相关性成正比，与各次抽样CPU处理速率数据及数据中心服务器CPU处理速率数据的概率分布曲线之间的相对熵成正比。

优选的，所述根据各次抽样温度数据的偏差度、CPU处理速率数据的衰减度及网络流量数据的标准差得到各次抽样温度数据的分割指数，具体包括：

各次抽样温度数据的分割指数与各次抽样温度数据偏差度和各次抽样CPU处理速率数据衰减度的乘积成正比，与各次抽样网络流量数据及数据中心服务器网络流量数据的标准差之间的差值成正比。

优选的，所述根据各次抽样温度数据的分割指数得到各次抽样温度数据的分割阈值，具体包括：

各次抽样温度数据的分割阈值与多次抽样温度数据的最大分割指数及最小分割指数的差值成正比，与各次抽样温度数据中最大温度及最小温度的差值成正比，与各次抽样温度数据分割指数及多次抽样温度数据的最小分割指数的差值成反比。

优选的，所述根据各次抽样温度数据分割阈值得到温度数据的异常得分，具体包括：

对于任意一次抽样温度数据，将每一次抽样温度数据的分割阈值作为每一棵孤立树的首个节点分割阈值，利用抽样温度数据完成孤立树的训练，由预设数量训练后的孤立树组成孤立森林；利用孤立森林获取每个温度数据的异常得分。

优选的，所述根据各温度数据的异常得分得到异常温度数据集合，具体包括：

设定异常阈值；将异常得分大于异常阈值的温度数据作为异常温度数据集合。

优选的，所述根据异常温度数据集合中各温度数据之间的差异得到故障指标，具体包括：

故障指标与异常温度数据集合中各元素与服务器正常运行温度的差值之和成正比，与异常温度数据集合中元素个数成正比。

优选的，所述根据故障指标得到最终异常温度数据，具体包括：

将故障指标大于故障阈值的异常温度数据集合作为最终异常温度数据。

本发明实施例至少具有如下有益效果：

目前传统的孤立森林异常检测算法中各次抽样数据的分割阈值的选取没有考虑到整体数据的数值大小分布，本发明通过对各次抽样数据分割阈值进行自适应调整，避免了分割阈值选取不当对孤立树建立的影响，解决了数据中心服务器的外部信息数据建立各孤立树不准确的问题，提高了各数据异常分数的准确性，提高了数据中心故障检测系统的异常数据检测精度。

本发明通过获取数据中心服务器的外部信息数据与各次抽样数据之间的差异度，对分割阈值进行调整，得到更准确的分割阈值，建立孤立树，结合孤立森林异常检测算法，获得各数据的异常分数，根据各数据的异常分数及异常阈值得到异常数据集合，为避免故障检测系统对异常数据过于敏感的问题，本发明根据异常数据集合得到故障指标，根据故障指标获取更为准确的异常数据，提高对数据中心服务器监测的准确度，具有较高数据中心故障检测系统的异常数据检测准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明提供的基于机器学习的数据中心故障检测系统的流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的基于机器学习的数据中心故障检测系统，其具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外，一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

下面结合附图具体的说明本发明所提供的基于机器学习的数据中心故障检测系统的具体方案。

本发明一个实施例提供的基于机器学习的数据中心故障检测系统，该系统包含数据采集模块、数据处理模块和预警模块；其中数据采集模块：采集数据中心服务器的外部信息数据；数据处理模块：根据数据中心服务器的外部信息数据与各次抽样数据的差异度，对各次抽样数据分割阈值进行自适应调整，结合孤立森林异常检测算法得到各数据的异常分数；预警模块：根据数据中心服务器的外部信息数据中各数据的异常分数得到异常数据。

具体的，本实施例的基于机器学习的数据中心故障检测系统提供了如下的一种用于通信柜的温度异常远程监测方法，请参阅图1，该方法包括以下步骤：

数据采集模块，采用系统监控软件（如Zabbix）获取数据中心服务器的外部信息数据，包括每个时刻的CPU处理速率数据、网络流量数据和服务器的温度数据，采集数据的周期为5min，采集数据的时间间隔为0.1s，需要说明的是，采集周期及采集时间间隔实施者可自行设定，本实施例不做具体限制，获取一个周期采集的数据作为原始数据。对数据中心服务器直接影响较大的是服务器的温度，当温度较高时，会造成服务器性能降低，严重时直接损坏相关设备。因此可以通过数据中心服务器温度数据的异常变化来监测数据中心的故障，同时发生故障数据中心服务器发生故障也会对CPU处理速率和网络流量产生影响，是数据中心服务器异常时，反映数据中心故障的直接影响数据。

数据处理模块，数据中心常用于存储、处理、管理和分发数据，硬件设备损坏对数据中心故障有直接影响，而服务器温度异常可能导致硬件损坏、服务器性能下降、能源消耗增加以及设备及人员安全等方面的问题。对数据中心运行过程中服务器的温度异常进行检测时，直接设定阈值检测异常温度会对数据中心的故障指标构建产生较大误差。

CPU的温度升高，会直接导致数据中心服务器的温度过高，使CPU的处理速率降低，降低系统的响应速度和性能，同时降低网络流量，可能使数据中心服务器的网络连接变慢或中断。因此可以通过不同方面的数据反映数据中心服务器的异常变化。

根据原始温度数据计算概率分布曲线作为数据中心服务器温度数据的概率分布曲线；根据原始数据获取各次抽样数据，每次抽取的样本数为256，需要说明的是，具体抽取样本数实施者可自行设定，此处不做具体限制；获取各次抽样温度数据的概率分布曲线。在数据中心正常运行时，服务器的温度在正常范围内波动，数据中心服务器温度数据及各次抽样温度数据的概率分布曲线，在正常情况下接近正态分布，由于抽样温度数据对异常的波动更加敏感，对应概率分布曲线的变化较大，因此，根据数据中心服务器温度数据及各次抽样温度数据的概率分布曲线得到各次抽样温度数据的偏差度的表达式为：

式中，为第/>次抽样温度数据的偏差度，/>为第/>次抽样温度数据的概率分布曲线偏度，/>为数据中心服务器温度数据的概率分布曲线偏度，/>为调节参数，/>为第/>次抽样温度数据的信息熵。

的作用为避免上述两个概率分布曲线偏度的差值为0导致第/>次抽样温度数据的偏差度为0，需要说明的是，/>的取值实施者可自行设定，本实施例将/>的值设定为0.01；出现异常数据时，数据中心服务器温度数据的概率分布曲线变化较小，抽样温度数据的概率分布曲线变化相对较大，/>越大，则说明第/>次抽样温度数据相对数据中心服务器温度数据的数据波动程度越大，第/>次抽样温度数据的偏差度越大；抽样温度数据的信息熵越大，则说明抽样温度数据的波动幅度越大，第/>次抽样温度数据的偏差度越大；综上，抽样温度数据的偏差度越大，抽样温度数据中较高温度数据占比越大，建立孤立树时分割阈值的选取误差越大。

服务器温度异常时，CPU处理速率与网络流量会随之发生变化，出现异常数据，进一步分析CPU处理速率数据的特征。数据中心服务器的各温度数据有与之对应的CPU处理速率，但数据中心服务器温度出现异常的时刻与CPU处理速率出现异常的时刻之间存在一定的反映时间，数据中心服务器的温度超过正常范围，CPU处理速率逐渐降低。因此，获取各次抽样CPU处理速率数据的概率分布曲线，记为各次抽样速率曲线；获取原始CPU处理速率数据的概率分布曲线作为数据中心服务器的速率曲线；根据各次抽样速率曲线及数据中心服务器的速率曲线得到各次抽样CPU处理速率数据的衰减度的具体步骤为：

将各次抽样CPU处理速率数据按采集时刻进行排序作为速率序列；将各次抽样CPU处理速率数据对应的采集时刻作为时间序列；根据各次抽样的速率序列、时间序列及各次抽样速率曲线得到各次抽样CPU处理速率数据的衰减度的表达式为：

式中，为第/>次抽样CPU处理速率数据衰减度，/>为第/>次抽样的速率序列，/>为第/>次抽样的时间序列，/>为计算皮尔逊相关系数函数，/>为以/>为底的指数函数，/>为相对熵计算函数，/>为第/>次抽样速率曲线，/>为数据中心服务器的速率曲线。

速率序列与时间序列的相关性越小，的值越大，则说明CPU处理速率降低程度越大，第/>次抽样CPU处理速率数据衰减度越大；CPU处理速率数据波动幅度越大，的值越大，则说明第/>次抽样CPU处理速率数据衰减度越大；第/>次抽样CPU处理速率数据衰减度越大，受服务器温度升高影响程度越大，温度数据中异常温度数值越大，建立孤立树时分割阈值的选取误差越大。

数据中心服务器温度升高会影响硬件设施及性能，从而影响网络流量，虽然网络流量的变化受多种因素的影响，但出现温度异常时网络流量整体趋势呈变慢趋势，甚至有直接中断的可能，因此获取各次抽样网络流量数据的标准差及数据中心服务器网络流量数据的标准差。根据网络流量数据的标准差、各次抽样温度样本数据的偏差度及CPU处理速率数据的衰减度得到各次抽样温度数据分割指数的表达式为：

式中，为第/>次抽样温度数据分割指数，/>为以/>为底的指数函数，/>为第/>次抽样网络流量数据的标准差，/>为数据中心服务器网络流量数据的标准差，/>为第/>次抽样温度数据的偏差度，/>为第/>次抽样CPU处理速率数据衰减度。/>越大，抽样网络流量数据波动情况相对正常网络流量数据波动情况差别越大，异常网络流量数据占比越大，受异常温度影响时间越长，异常温度占比越大，第/>次抽样温度数据分割指数越大；/>及/>越大，异常温度占比越大，第/>次抽样温度数据分割指数越大。

将各次抽样温度数据分割指数作为分割指数集合，根据分割指数集合得到各次抽样温度数据分割阈值的表达式为：

式中，为第/>次抽样温度数据分割阈值，/>为第/>次抽样温度数据最大值，为第/>次抽样温度数据最小值，/>为调整系数，/>为第/>次抽样温度数据分割指数，为分割指数集合中最小值，/>为分割指数集合中最大值。若服务器温度异常，随着异常温度数据在抽样数据中的占比增大，/>的值增大，分割阈值/>较小，根据上述计算自适应调整各次抽样温度数据分割阈值的大小。

预警模块，设定孤立树的个数，需要说明的是，设定孤立树的个数实施者可自行设定，本实施例将孤立树的数量设定为100，对于任意一次抽样温度数据，将每一次抽样温度数据的分割阈值作为每一棵孤立树的首个节点分割阈值，利用抽样温度数据完成孤立树的训练，由预设数量训练后的孤立树组成孤立森林；利用孤立森林获取每个温度数据的异常得分。将异常得分大于异常阈值的温度数据作为异常温度数据集合；根据异常温度数据集合得到故障指标的表达式为：

式中，为故障指标，/>为异常温度数据集合中元素个数，/>为异常温度数据集合中第/>个元素，/>为服务器正常运行温度。

将故障指标大于故障阈值的异常温度数据集合作为最终异常温度数据集合；相关工作人员对根据最终异常温度数据集合进行分析，并对数据中心进行故障维修。

综上所述，本发明实施例提供了基于机器学习的数据中心故障检测系统，目前传统的孤立森林异常检测算法中各次抽样数据的分割阈值的选取没有考虑到整体数据的数值大小分布，本实施例通过对各次抽样数据分割阈值进行自适应调整，避免了分割阈值选取不当对孤立树建立的影响，解决了数据中心服务器的外部信息数据建立各孤立树不准确的问题，提高了各数据异常分数的准确性，提高了数据中心故障检测系统的异常数据检测精度。

本实施例通过获取数据中心服务器的外部信息数据与各次抽样数据之间的差异度，对分割阈值进行调整，得到更准确的分割阈值，建立孤立树，结合孤立森林异常检测算法，获得各数据的异常分数，根据各数据的异常分数及异常阈值得到异常数据集合，为避免故障检测系统对异常数据过于敏感的问题，本实施例根据异常数据集合得到故障指标，根据故障指标获取更为准确的异常数据，提高对数据中心服务器监测的准确度，具有较高数据中心故障检测系统的异常数据检测准确性。

需要说明的是：上述本发明实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于机器学习的数据中心故障检测系统，其特征在于，所述系统包括：

2.如权利要求1所述的基于机器学习的数据中心故障检测系统，其特征在于，所述根据各次抽样温度数据的概率分布曲线得到各次抽样温度数据的偏差度，具体包括：

3.如权利要求1所述的基于机器学习的数据中心故障检测系统，其特征在于，所述获取各次抽样CPU处理速率数据的自身序列及时间序列，具体包括：

4.如权利要求1所述的基于机器学习的数据中心故障检测系统，其特征在于，所述根据各次抽样CPU处理速率数据的自身序列与时间序列之间的相关性得到各次抽样CPU处理速率数据的衰减度，具体包括：

5.如权利要求1所述的基于机器学习的数据中心故障检测系统，其特征在于，所述根据各次抽样温度数据的偏差度、CPU处理速率数据的衰减度及网络流量数据的标准差得到各次抽样温度数据的分割指数，具体包括：

6.如权利要求1所述的基于机器学习的数据中心故障检测系统，其特征在于，所述根据各次抽样温度数据的分割指数得到各次抽样温度数据的分割阈值，具体包括：

7.如权利要求1所述的基于机器学习的数据中心故障检测系统，其特征在于，所述根据各次抽样温度数据分割阈值得到温度数据的异常得分，具体包括：

8.如权利要求1所述的基于机器学习的数据中心故障检测系统，其特征在于，所述根据各温度数据的异常得分得到异常温度数据集合，具体包括：

9.如权利要求1所述的基于机器学习的数据中心故障检测系统，其特征在于，所述根据异常温度数据集合中各温度数据之间的差异得到故障指标，具体包括：

10.如权利要求1所述的基于机器学习的数据中心故障检测系统，其特征在于，所述根据故障指标得到最终异常温度数据，具体包括：