CN117391675B

CN117391675B - 一种数据中心基础设施运维管理方法

Info

Publication number: CN117391675B
Application number: CN202311530504.XA
Authority: CN
Inventors: 潘申银; 杨晨; 潘申伍
Original assignee: Beijing Wanlian Century Technology Co ltd
Current assignee: Beijing Wanlian Century Technology Co ltd
Filing date: 2023-11-16
Publication date: 2024-05-14
Anticipated expiration: 2043-11-16

Abstract

本发明公开了一种数据中心基础设施运维管理方法，涉及数据中心运维管理技术领域，本发明将传感器被部署在数据中心设备上，收集实时的性能和健康数据，通过中央分析平台进行处理，实现异常情况的识别，自愈系统的设置基于自编码器构建异常检测模型，当检测到异常时，自愈系统会自动触发响应，能够更快速地检测问题并采取措施，显著减少了反应时间，采用机器学习算法，能够根据历史数据学习异常模式，更加智能地识别问题，解决了固定的规则和阈值判断设备的正常与异常状态，无法适应不同环境和变化的问题，同时在资源分配和管理中通过虚拟化隔离和资源动态调整，能够更有效地利用资源，提高了资源利用率。

Description

一种数据中心基础设施运维管理方法

技术领域

本发明涉及数据中心运维管理技术领域，具体为一种数据中心基础设施运维管理方法。

背景技术

数据中心是存储、处理和分发大量数据的关键基础设施，通常包括服务器、网络设备、存储设备、电力供应系统、空调系统等多种组件，数据中心是存储计算机及其相关硬件设备的物理位置，它包含 IT 系统所需的计算基础设施，例如服务器、数据存储驱动器和网络设备，是存储任何公司数字数据的物理设施，每个企业都需要计算设备来运行其 Web 应用程序、为客户提供服务、销售产品或运行用于账户、人力资源和运营管理的内部应用程序。随着业务的增长和 IT 运营的增加，所需设备的规模和数量也呈指数级增长。

而数据中心基础设施的运维管理，是指确保数据中心环境能够满足计算机设备正常运行所需的各类设施、设备的运行能够满足客户SLA的要求，包括机房供配电系统、空调系统、消防系统、安保系统等等，随着大型互联网数据中心指数级规模的快速增长，各项互联网业务对数据中心的依赖性越来越高，且数据中心自身技术特点也在不断发生变革，因此基础设施运营商需要针对基础设施进行更加趋向精细化的运营管理，数据中心基础设施的运维管理目标是确保数据中心的高可用性、可靠性和性能，以满足业务需求并降低潜在的风险。

然而传统的基础设施运维管理方法通常依赖人工干预进行监控、诊断和修复，导致运维效率低下，同时对于设备故障的诊断和响应时间较长，可能导致业务中断和数据丢失，因此亟需一种可以降低人工干预需求并进行快速检测问题的数据中心基础设施运维管理方法来解决此类问题。

发明内容

（一）解决的技术问题

针对现有技术的不足，本发明提供了一种数据中心基础设施运维管理方法，解决现有技术中存在的人工干预进行监控、诊断和修复运维效率低下，较长时间的故障的诊断和响应可能导致业务中断和数据丢失的问题。

（二）技术方案

为实现以上目的，本发明通过以下技术方案予以实现，本发明提供了一种数据中心基础设施运维管理方法，包括：

设备检测、诊断与修复的部署，设置中央分析平台，中央分析平台内置数据库，同时部署传感器收集设备性能和健康数据，将数据发送到中央分析平台，在中央平台上应用机器学习算法，通过历史数据学习正常状态和异常模式识别异常情况；

自动故障诊断和修复，设置自愈系统，自愈系统对所收集的数据进行分析，并对比实时数据和学习的模式，判断是否出现异常，如果出现异常，自愈系统自动触发响应；

通知和报告，当自愈系统识别到异常并采取措施时，自动向运维团队发送通知；

虚拟化隔离的配置，采用虚拟化技术，将物理硬件资源划分为多个虚拟资源，每个虚拟资源设置隔离策略；

隔离资源的管理与监控，部署监控工具来监视虚拟资源的运行状况，包括CPU使用率、内存使用量、网络流量，设置阈值并进行警报。

本发明进一步地设置为：所述设备检测、诊断与修复的部署步骤包括：

按需部署传感器在数据中心设备上，收集实时的性能和健康数据，包括CPU使用率、内存利用率、温度、电压；

将传感器收集到的数据通过网络传输到中央分析平台，并原始数据进行预处理；

从预处理后的数据中提取有用的特征，包括设备的平均CPU使用率、内存利用率的标准差；

将历史数据存储在数据库中，为每个数据点分配标签，标记正常状态为“0”和异常状态为“1”；

在中央平台上采用基于统计方法的Z分数进行异常模型训练；

训练模型的输入是历史数据中的特征，标签为异常状态；

本发明进一步地设置为：所述基于统计方法的Z分数进行异常模型训练步骤：

准备包括设备性能、健康数据以及相关的时间戳的历史数据集；

对历史数据进行统计分析，计算每个特征的平均值和标准差/>；

使用Z分数公式计算每个数据点的Z分数，用来表示数据点与平均值之间的偏离程度，Z分数公式：

，其中X为数据点的值，μ为平均值，σ为标准差，并将超过阈值的Z分数被标记为异常；

使用标记的异常数据作为训练集，训练基于Z分数的异常模型；

本发明进一步地设置为：所述自动故障诊断和修复步骤中：

使用部分历史数据来评估模型的性能，计算模型的准确率、召回率指标；

按需设置阈值检测模型的输出分为正常和异常；

本发明进一步地设置为：所述自愈系统设置步骤：

基于部署在数据中心设备上的传感器收集的实时性能和健康数据，进行数据点集合：

，其中/>表示第i个数据点；

使用自编码器构建异常检测模型：

编码器：；

解码器：；

重构误差：；

计算每个数据点的重构误差作为异常分数：；

设定异常分数阈值T，超过阈值则触发异常；

对新数据点进行异常检测并与阈值进行比较：

新数据点异常分数：，如果/>，则触发自动化响应；

本发明进一步地设置为：所述隔离资源的管理与监控步骤中：

选用VMware vRealize Operations、Zabbix进行资源监控，部署监控工具并将其连接到VMware虚拟化平台；

监视虚拟资源性能参数，包括 CPU 使用率、内存使用量和网络流量；

为每个监控项设置阈值，超过阈值时触发警报。

（三）有益效果

本发明提供了一种数据中心基础设施运维管理方法。具备以下有益效果：

本发明所提供的数据中心基础设施运维管理方法，将传感器被部署在数据中心设备上，收集实时的性能和健康数据，所采集数据通过中央分析平台进行处理，采用机器学习算法对历史数据进行训练，以学习正常状态和异常模式，实现异常情况的识别，自愈系统的设置基于自编码器构建异常检测模型，当检测到异常时，自愈系统会自动触发响应，此外，通过虚拟化隔离，物理硬件资源被划分为多个虚拟资源，并为每个虚拟资源设置隔离策略，以提高资源利用率和隔离性。

综上，本发明所采用的数据中心基础设施运维管理方法通过实时监控和自愈系统，能够更快速地检测问题并采取措施，显著减少了反应时间，采用机器学习算法，能够根据历史数据学习异常模式，更加智能地识别问题，解决了固定的规则和阈值判断设备的正常与异常状态，无法适应不同环境和变化的问题，同时在资源分配和管理中通过虚拟化隔离和资源动态调整，能够更有效地利用资源，提高了资源利用率。

解决了现有技术中存在的人工干预进行监控、诊断和修复运维效率低下，较长时间的故障的诊断和响应可能导致业务中断和数据丢失的问题。

附图说明

图1为本发明的数据中心基础设施运维管理方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

请参阅图1，本发明提供一种数据中心基础设施运维管理方法，包括如下步骤：

S1、设备检测、诊断与修复的部署，设置中央分析平台，中央分析平台内置数据库，同时部署传感器收集设备性能和健康数据，将数据发送到中央分析平台，在中央平台上应用机器学习算法，通过历史数据学习正常状态和异常模式识别异常情况；

设备检测、诊断与修复的部署步骤包括：

此处的传感器部署根据实际数据中心设备核心健康属性进行针对性部署，通过网络将数据传输到中央平台进行进一步的分析和处理；

将传感器收集到的数据通过网络传输到中央分析平台，并原始数据进行预处理；包括数据清洗、去噪和归一化；

在中央平台上采用基于统计方法的Z分数进行异常模型训练；

训练模型的输入是历史数据中的特征，标签为异常状态；

基于统计方法的Z分数进行异常模型训练步骤：

使用Z分数公式计算每个数据点的Z分数，用来表示数据点与平均值之间的偏离程度，Z分数公式：，其中X为数据点的值，μ为平均值，σ为标准差，并将超过阈值的Z分数被标记为异常；

S2、自动故障诊断和修复，设置自愈系统，自愈系统对所收集的数据进行分析，并对比实时数据和学习的模式，判断是否出现异常，如果出现异常，自愈系统自动触发响应；

自动故障诊断和修复步骤中

按需设置阈值检测模型的输出分为正常和异常；

当新的数据进入中央分析平台时，应用训练好的模型来检测异常，使用阈值将模型输出分为正常和异常状态；

自愈系统设置步骤：

，其中/>表示第i个数据点；

使用自编码器构建异常检测模型：

编码器：；

解码器：；

重构误差：；

计算每个数据点的重构误差作为异常分数：；

设定异常分数阈值T，超过阈值则触发异常；

对新数据点进行异常检测并与阈值进行比较：

新数据点异常分数：，如果/>，则触发自动化响应；

S3、通知和报告，当自愈系统识别到异常并采取措施时，自动向运维团队发送通知；

S4、虚拟化隔离的配置，采用虚拟化技术，将物理硬件资源划分为多个虚拟资源，每个虚拟资源设置隔离策略；

S5、隔离资源的管理与监控，部署监控工具来监视虚拟资源的运行状况，包括CPU使用率、内存使用量、网络流量，设置阈值并进行警报；

隔离资源的管理与监控步骤中，

为每个监控项设置阈值，超过阈值时触发警报。

综合以上内容，在本申请中：

在本发明的实施例的描述中，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种数据中心基础设施运维管理方法，其特征在于，包括：

设备检测、诊断与修复的部署步骤：设置中央分析平台，中央分析平台内置数据库，同时部署传感器收集设备性能和健康数据，将数据发送到中央分析平台，在中央分析平台上应用机器学习算法，通过历史数据学习正常状态和异常模式识别异常情况；

自动故障诊断和修复步骤：设置自愈系统，自愈系统对所收集的数据进行分析，并对比实时数据，判断是否出现异常，如果出现异常，自愈系统自动触发响应；

通知和报告步骤：当自愈系统识别到异常并采取措施时，自动向运维团队发送通知；

虚拟化隔离的配置步骤：采用虚拟化技术，将物理硬件资源划分为多个虚拟资源，每个虚拟资源设置隔离策略；

隔离资源的管理与监控步骤：部署监控工具来监视虚拟资源的运行状况，包括CPU使用率、内存使用量、网络流量，设置阈值并进行警报；

所述设备检测、诊断与修复的部署步骤包括：

在中央分析平台上采用基于统计方法的Z分数进行异常模型训练；

训练模型的输入是历史数据中的特征，标签为异常状态；

所述基于统计方法的Z分数进行异常模型训练步骤：

对历史数据进行统计分析，计算每个特征的平均值μ和标准差σ；

其中X为数据点的值，μ为平均值，σ为标准差，并将超过阈值的Z分数被标记为异常；

设置自愈系统包括：基于部署在数据中心设备上的传感器收集的实时性能和健康数据，进行数据点集合：

D＝d₁,d₂,...,d_i，其中d_i表示第i个数据点；

使用自编码器构建异常检测模型：

编码器：E(x)＝z；

解码器：D(z)＝x'；

重构误差：L(x,x')＝x-x'²；

计算每个数据点的重构误差作为异常分数：S_i＝L(d'_i,D(E(d'_i)))；

设定异常分数阈值T，超过阈值则触发异常；

对新数据点进行异常检测并与阈值进行比较：

新数据点异常分数：S_new＝L(d'_new,D(E(d'_new)))，如果S_new>T，则触发自动化响应。

2.根据权利要求1所述的一种数据中心基础设施运维管理方法，其特征在于，所述自动故障诊断和修复步骤中：

按需设置阈值检测模型的输出分为正常和异常。

3.根据权利要求2所述的一种数据中心基础设施运维管理方法，其特征在于，隔离资源的管理与监控步骤中：

选用VMware vRealize Operations、Zabbix进行资源监控，部署监控工具并将其连接到VMware虚拟化平台。

4.根据权利要求3所述的一种数据中心基础设施运维管理方法，其特征在于，隔离资源的管理与监控步骤中：

监视虚拟资源性能参数，包括CPU使用率、内存使用量和网络流量；

为每个监控项设置阈值，超过阈值时触发警报。