CN117391675B - 一种数据中心基础设施运维管理方法 - Google Patents

一种数据中心基础设施运维管理方法 Download PDF

Info

Publication number
CN117391675B
CN117391675B CN202311530504.XA CN202311530504A CN117391675B CN 117391675 B CN117391675 B CN 117391675B CN 202311530504 A CN202311530504 A CN 202311530504A CN 117391675 B CN117391675 B CN 117391675B
Authority
CN
China
Prior art keywords
data
threshold
anomaly
score
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311530504.XA
Other languages
English (en)
Other versions
CN117391675A (zh
Inventor
潘申银
杨晨
潘申伍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wanlian Century Technology Co ltd
Original Assignee
Beijing Wanlian Century Technology Co ltd
Filing date
Publication date
Application filed by Beijing Wanlian Century Technology Co ltd filed Critical Beijing Wanlian Century Technology Co ltd
Priority to CN202311530504.XA priority Critical patent/CN117391675B/zh
Publication of CN117391675A publication Critical patent/CN117391675A/zh
Application granted granted Critical
Publication of CN117391675B publication Critical patent/CN117391675B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种数据中心基础设施运维管理方法,涉及数据中心运维管理技术领域,本发明将传感器被部署在数据中心设备上,收集实时的性能和健康数据,通过中央分析平台进行处理,实现异常情况的识别,自愈系统的设置基于自编码器构建异常检测模型,当检测到异常时,自愈系统会自动触发响应,能够更快速地检测问题并采取措施,显著减少了反应时间,采用机器学习算法,能够根据历史数据学习异常模式,更加智能地识别问题,解决了固定的规则和阈值判断设备的正常与异常状态,无法适应不同环境和变化的问题,同时在资源分配和管理中通过虚拟化隔离和资源动态调整,能够更有效地利用资源,提高了资源利用率。

Description

一种数据中心基础设施运维管理方法
技术领域
本发明涉及数据中心运维管理技术领域,具体为一种数据中心基础设施运维管理方法。
背景技术
数据中心是存储、处理和分发大量数据的关键基础设施,通常包括服务器、网络设备、存储设备、电力供应系统、空调系统等多种组件,数据中心是存储计算机及其相关硬件设备的物理位置,它包含 IT 系统所需的计算基础设施,例如服务器、数据存储驱动器和网络设备,是存储任何公司数字数据的物理设施,每个企业都需要计算设备来运行其 Web 应用程序、为客户提供服务、销售产品或运行用于账户、人力资源和运营管理的内部应用程序。随着业务的增长和 IT 运营的增加,所需设备的规模和数量也呈指数级增长。
而数据中心基础设施的运维管理,是指确保数据中心环境能够满足计算机设备正常运行所需的各类设施、设备的运行能够满足客户SLA的要求,包括机房供配电系统、空调系统、消防系统、安保系统等等,随着大型互联网数据中心指数级规模的快速增长,各项互联网业务对数据中心的依赖性越来越高,且数据中心自身技术特点也在不断发生变革,因此基础设施运营商需要针对基础设施进行更加趋向精细化的运营管理,数据中心基础设施的运维管理目标是确保数据中心的高可用性、可靠性和性能,以满足业务需求并降低潜在的风险。
然而传统的基础设施运维管理方法通常依赖人工干预进行监控、诊断和修复,导致运维效率低下,同时对于设备故障的诊断和响应时间较长,可能导致业务中断和数据丢失,因此亟需一种可以降低人工干预需求并进行快速检测问题的数据中心基础设施运维管理方法来解决此类问题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种数据中心基础设施运维管理方法,解决现有技术中存在的人工干预进行监控、诊断和修复运维效率低下,较长时间的故障的诊断和响应可能导致业务中断和数据丢失的问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现,本发明提供了一种数据中心基础设施运维管理方法,包括:
设备检测、诊断与修复的部署,设置中央分析平台,中央分析平台内置数据库,同时部署传感器收集设备性能和健康数据,将数据发送到中央分析平台,在中央平台上应用机器学习算法,通过历史数据学习正常状态和异常模式识别异常情况;
自动故障诊断和修复,设置自愈系统,自愈系统对所收集的数据进行分析,并对比实时数据和学习的模式,判断是否出现异常,如果出现异常,自愈系统自动触发响应;
通知和报告,当自愈系统识别到异常并采取措施时,自动向运维团队发送通知;
虚拟化隔离的配置,采用虚拟化技术,将物理硬件资源划分为多个虚拟资源,每个虚拟资源设置隔离策略;
隔离资源的管理与监控,部署监控工具来监视虚拟资源的运行状况,包括CPU使用率、内存使用量、网络流量,设置阈值并进行警报。
本发明进一步地设置为:所述设备检测、诊断与修复的部署步骤包括:
按需部署传感器在数据中心设备上,收集实时的性能和健康数据,包括CPU使用率、内存利用率、温度、电压;
将传感器收集到的数据通过网络传输到中央分析平台,并原始数据进行预处理;
从预处理后的数据中提取有用的特征,包括设备的平均CPU使用率、内存利用率的标准差;
将历史数据存储在数据库中,为每个数据点分配标签,标记正常状态为“0”和异常状态为“1”;
在中央平台上采用基于统计方法的Z分数进行异常模型训练;
训练模型的输入是历史数据中的特征,标签为异常状态;
本发明进一步地设置为:所述基于统计方法的Z分数进行异常模型训练步骤:
准备包括设备性能、健康数据以及相关的时间戳的历史数据集;
对历史数据进行统计分析,计算每个特征的平均值和标准差/>
使用Z分数公式计算每个数据点的Z分数,用来表示数据点与平均值之间的偏离程度,Z分数公式:
,其中X为数据点的值,μ为平均值,σ为标准差,并将超过阈值的Z分数被标记为异常;
使用标记的异常数据作为训练集,训练基于Z分数的异常模型;
本发明进一步地设置为:所述自动故障诊断和修复步骤中:
使用部分历史数据来评估模型的性能,计算模型的准确率、召回率指标;
按需设置阈值检测模型的输出分为正常和异常;
本发明进一步地设置为:所述自愈系统设置步骤:
基于部署在数据中心设备上的传感器收集的实时性能和健康数据,进行数据点集合:
,其中/>表示第i个数据点;
使用自编码器构建异常检测模型:
编码器:
解码器:
重构误差:
计算每个数据点的重构误差作为异常分数:
设定异常分数阈值T,超过阈值则触发异常;
对新数据点进行异常检测并与阈值进行比较:
新数据点异常分数:,如果/>,则触发自动化响应;
本发明进一步地设置为:所述隔离资源的管理与监控步骤中:
选用VMware vRealize Operations、Zabbix进行资源监控,部署监控工具并将其连接到VMware虚拟化平台;
本发明进一步地设置为:所述隔离资源的管理与监控步骤中:
监视虚拟资源性能参数,包括 CPU 使用率、内存使用量和网络流量;
为每个监控项设置阈值,超过阈值时触发警报。
(三)有益效果
本发明提供了一种数据中心基础设施运维管理方法。具备以下有益效果:
本发明所提供的数据中心基础设施运维管理方法,将传感器被部署在数据中心设备上,收集实时的性能和健康数据,所采集数据通过中央分析平台进行处理,采用机器学习算法对历史数据进行训练,以学习正常状态和异常模式,实现异常情况的识别,自愈系统的设置基于自编码器构建异常检测模型,当检测到异常时,自愈系统会自动触发响应,此外,通过虚拟化隔离,物理硬件资源被划分为多个虚拟资源,并为每个虚拟资源设置隔离策略,以提高资源利用率和隔离性。
综上,本发明所采用的数据中心基础设施运维管理方法通过实时监控和自愈系统,能够更快速地检测问题并采取措施,显著减少了反应时间,采用机器学习算法,能够根据历史数据学习异常模式,更加智能地识别问题,解决了固定的规则和阈值判断设备的正常与异常状态,无法适应不同环境和变化的问题,同时在资源分配和管理中通过虚拟化隔离和资源动态调整,能够更有效地利用资源,提高了资源利用率。
解决了现有技术中存在的人工干预进行监控、诊断和修复运维效率低下,较长时间的故障的诊断和响应可能导致业务中断和数据丢失的问题。
附图说明
图1为本发明的数据中心基础设施运维管理方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
请参阅图1,本发明提供一种数据中心基础设施运维管理方法,包括如下步骤:
S1、设备检测、诊断与修复的部署,设置中央分析平台,中央分析平台内置数据库,同时部署传感器收集设备性能和健康数据,将数据发送到中央分析平台,在中央平台上应用机器学习算法,通过历史数据学习正常状态和异常模式识别异常情况;
设备检测、诊断与修复的部署步骤包括:
按需部署传感器在数据中心设备上,收集实时的性能和健康数据,包括CPU使用率、内存利用率、温度、电压;
此处的传感器部署根据实际数据中心设备核心健康属性进行针对性部署,通过网络将数据传输到中央平台进行进一步的分析和处理;
将传感器收集到的数据通过网络传输到中央分析平台,并原始数据进行预处理;包括数据清洗、去噪和归一化;
从预处理后的数据中提取有用的特征,包括设备的平均CPU使用率、内存利用率的标准差;
将历史数据存储在数据库中,为每个数据点分配标签,标记正常状态为“0”和异常状态为“1”;
在中央平台上采用基于统计方法的Z分数进行异常模型训练;
训练模型的输入是历史数据中的特征,标签为异常状态;
基于统计方法的Z分数进行异常模型训练步骤:
准备包括设备性能、健康数据以及相关的时间戳的历史数据集;
对历史数据进行统计分析,计算每个特征的平均值和标准差/>
使用Z分数公式计算每个数据点的Z分数,用来表示数据点与平均值之间的偏离程度,Z分数公式:,其中X为数据点的值,μ为平均值,σ为标准差,并将超过阈值的Z分数被标记为异常;
使用标记的异常数据作为训练集,训练基于Z分数的异常模型;
S2、自动故障诊断和修复,设置自愈系统,自愈系统对所收集的数据进行分析,并对比实时数据和学习的模式,判断是否出现异常,如果出现异常,自愈系统自动触发响应;
自动故障诊断和修复步骤中
使用部分历史数据来评估模型的性能,计算模型的准确率、召回率指标;
按需设置阈值检测模型的输出分为正常和异常;
当新的数据进入中央分析平台时,应用训练好的模型来检测异常,使用阈值将模型输出分为正常和异常状态;
自愈系统设置步骤:
基于部署在数据中心设备上的传感器收集的实时性能和健康数据,进行数据点集合:
,其中/>表示第i个数据点;
使用自编码器构建异常检测模型:
编码器:
解码器:
重构误差:
计算每个数据点的重构误差作为异常分数:
设定异常分数阈值T,超过阈值则触发异常;
对新数据点进行异常检测并与阈值进行比较:
新数据点异常分数:,如果/>,则触发自动化响应;
S3、通知和报告,当自愈系统识别到异常并采取措施时,自动向运维团队发送通知;
S4、虚拟化隔离的配置,采用虚拟化技术,将物理硬件资源划分为多个虚拟资源,每个虚拟资源设置隔离策略;
S5、隔离资源的管理与监控,部署监控工具来监视虚拟资源的运行状况,包括CPU使用率、内存使用量、网络流量,设置阈值并进行警报;
隔离资源的管理与监控步骤中,
选用VMware vRealize Operations、Zabbix进行资源监控,部署监控工具并将其连接到VMware虚拟化平台;
监视虚拟资源性能参数,包括 CPU 使用率、内存使用量和网络流量;
为每个监控项设置阈值,超过阈值时触发警报。
综合以上内容,在本申请中:
本发明所提供的数据中心基础设施运维管理方法,将传感器被部署在数据中心设备上,收集实时的性能和健康数据,所采集数据通过中央分析平台进行处理,采用机器学习算法对历史数据进行训练,以学习正常状态和异常模式,实现异常情况的识别,自愈系统的设置基于自编码器构建异常检测模型,当检测到异常时,自愈系统会自动触发响应,此外,通过虚拟化隔离,物理硬件资源被划分为多个虚拟资源,并为每个虚拟资源设置隔离策略,以提高资源利用率和隔离性。
综上,本发明所采用的数据中心基础设施运维管理方法通过实时监控和自愈系统,能够更快速地检测问题并采取措施,显著减少了反应时间,采用机器学习算法,能够根据历史数据学习异常模式,更加智能地识别问题,解决了固定的规则和阈值判断设备的正常与异常状态,无法适应不同环境和变化的问题,同时在资源分配和管理中通过虚拟化隔离和资源动态调整,能够更有效地利用资源,提高了资源利用率。
在本发明的实施例的描述中,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (4)

1.一种数据中心基础设施运维管理方法,其特征在于,包括:
设备检测、诊断与修复的部署步骤:设置中央分析平台,中央分析平台内置数据库,同时部署传感器收集设备性能和健康数据,将数据发送到中央分析平台,在中央分析平台上应用机器学习算法,通过历史数据学习正常状态和异常模式识别异常情况;
自动故障诊断和修复步骤:设置自愈系统,自愈系统对所收集的数据进行分析,并对比实时数据,判断是否出现异常,如果出现异常,自愈系统自动触发响应;
通知和报告步骤:当自愈系统识别到异常并采取措施时,自动向运维团队发送通知;
虚拟化隔离的配置步骤:采用虚拟化技术,将物理硬件资源划分为多个虚拟资源,每个虚拟资源设置隔离策略;
隔离资源的管理与监控步骤:部署监控工具来监视虚拟资源的运行状况,包括CPU使用率、内存使用量、网络流量,设置阈值并进行警报;
所述设备检测、诊断与修复的部署步骤包括:
按需部署传感器在数据中心设备上,收集实时的性能和健康数据,包括CPU使用率、内存利用率、温度、电压;
将传感器收集到的数据通过网络传输到中央分析平台,并原始数据进行预处理;
从预处理后的数据中提取有用的特征,包括设备的平均CPU使用率、内存利用率的标准差;
将历史数据存储在数据库中,为每个数据点分配标签,标记正常状态为“0”和异常状态为“1”;
在中央分析平台上采用基于统计方法的Z分数进行异常模型训练;
训练模型的输入是历史数据中的特征,标签为异常状态;
所述基于统计方法的Z分数进行异常模型训练步骤:
准备包括设备性能、健康数据以及相关的时间戳的历史数据集;
对历史数据进行统计分析,计算每个特征的平均值μ和标准差σ;
使用Z分数公式计算每个数据点的Z分数,用来表示数据点与平均值之间的偏离程度,Z分数公式:
其中X为数据点的值,μ为平均值,σ为标准差,并将超过阈值的Z分数被标记为异常;
使用标记的异常数据作为训练集,训练基于Z分数的异常模型;
设置自愈系统包括:基于部署在数据中心设备上的传感器收集的实时性能和健康数据,进行数据点集合:
D=d1,d2,...,di,其中di表示第i个数据点;
使用自编码器构建异常检测模型:
编码器:E(x)=z;
解码器:D(z)=x';
重构误差:L(x,x')=x-x'2
计算每个数据点的重构误差作为异常分数:Si=L(d'i,D(E(d'i)));
设定异常分数阈值T,超过阈值则触发异常;
对新数据点进行异常检测并与阈值进行比较:
新数据点异常分数:Snew=L(d'new,D(E(d'new))),如果Snew>T,则触发自动化响应。
2.根据权利要求1所述的一种数据中心基础设施运维管理方法,其特征在于,所述自动故障诊断和修复步骤中:
使用部分历史数据来评估模型的性能,计算模型的准确率、召回率指标;
按需设置阈值检测模型的输出分为正常和异常。
3.根据权利要求2所述的一种数据中心基础设施运维管理方法,其特征在于,隔离资源的管理与监控步骤中:
选用VMware vRealize Operations、Zabbix进行资源监控,部署监控工具并将其连接到VMware虚拟化平台。
4.根据权利要求3所述的一种数据中心基础设施运维管理方法,其特征在于,隔离资源的管理与监控步骤中:
监视虚拟资源性能参数,包括CPU使用率、内存使用量和网络流量;
为每个监控项设置阈值,超过阈值时触发警报。
CN202311530504.XA 2023-11-16 一种数据中心基础设施运维管理方法 Active CN117391675B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311530504.XA CN117391675B (zh) 2023-11-16 一种数据中心基础设施运维管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311530504.XA CN117391675B (zh) 2023-11-16 一种数据中心基础设施运维管理方法

Publications (2)

Publication Number Publication Date
CN117391675A CN117391675A (zh) 2024-01-12
CN117391675B true CN117391675B (zh) 2024-05-14

Family

ID=

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858231A (zh) * 2020-05-11 2020-10-30 北京必示科技有限公司 一种基于运维监控的单指标异常检测方法
CN112328425A (zh) * 2020-12-04 2021-02-05 杭州谐云科技有限公司 一种基于机器学习的异常检测方法和系统
CN115225536A (zh) * 2022-06-17 2022-10-21 上海仪电(集团)有限公司中央研究院 一种基于无监督学习的虚拟机异常检测方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858231A (zh) * 2020-05-11 2020-10-30 北京必示科技有限公司 一种基于运维监控的单指标异常检测方法
CN112328425A (zh) * 2020-12-04 2021-02-05 杭州谐云科技有限公司 一种基于机器学习的异常检测方法和系统
CN115225536A (zh) * 2022-06-17 2022-10-21 上海仪电(集团)有限公司中央研究院 一种基于无监督学习的虚拟机异常检测方法及系统

Similar Documents

Publication Publication Date Title
CN100412993C (zh) 基于状态监测的核电厂智能维护系统
CN111176879A (zh) 设备的故障修复方法及装置
CN113282635B (zh) 一种微服务系统故障根因定位方法及装置
CN104796273A (zh) 一种网络故障根源诊断的方法和装置
CN112462734B (zh) 一种工业生产设备故障预测分析方法及模型
CN104574219A (zh) 电网业务信息系统运行工况的监测预警方法及系统
CN103746829A (zh) 一种基于集群的故障感知系统及其方法
CN109491339B (zh) 一种基于大数据的变电站设备运行状态预警系统
CN104793607A (zh) 一种服务器故障在线诊断、健康分析及失效预报系统及方法
CN115794588A (zh) 内存故障预测方法、装置、系统及监测服务器
CN113468022B (zh) 一种对产品集中监控的自动化运维方法
CN106649034B (zh) 一种可视化智能运维方法及平台
CN117391675B (zh) 一种数据中心基础设施运维管理方法
CN116823233A (zh) 一种基于全周期运维的用户数据处理方法及系统
CN116714469A (zh) 充电桩健康监测方法、装置、终端及存储介质
CN114265324B (zh) 设备运行状态的监测方法、装置及终端设备
CN114740343B (zh) 断路器用实时检测系统
CN117391675A (zh) 一种数据中心基础设施运维管理方法
CN113487182B (zh) 设备健康状态评估方法、装置、计算机设备和介质
CN105892387B (zh) 基于跨平台多点数据采集mpca模型的机房隐患自动上报装置及方法
CN115456041A (zh) 设备故障预警方法及装置、计算设备和存储介质
CN115422504A (zh) 一种配电设备故障风险辨识方法及装置
CN110765486B (zh) 一种资产故障识别方法
CN109558258B (zh) 一种分布式系统根源故障定位的方法及装置
KR20180002329A (ko) Ict 융합형 풍력 발전 단지 모니터링 시스템, 서버 및 방법

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant