CN116708506B

CN116708506B - 一种数据中心智能监控方法、系统以及存储介质

Info

Publication number: CN116708506B
Application number: CN202310769596.0A
Authority: CN
Inventors: 陈振明; 李凌志; 汤潮炼; 熊方明
Original assignee: Guangzhou Haote Energy Saving and Environmental Protection Technology Co Ltd
Current assignee: Guangzhou Haote Energy Saving and Environmental Protection Technology Co Ltd
Priority date: 2023-06-28
Filing date: 2023-06-28
Publication date: 2023-10-27
Anticipated expiration: 2043-06-28
Also published as: CN116708506A

Abstract

本发明公开了一种数据中心智能监控方法、系统以及存储介质，包括获取环境数据以及运行数据；基于环境数据和运行数据，自动判断是否符合监控模式切换条件；当不符合条件时，根据数据中心故障率预测模型生成一个或多个重点监控通道，根据重点监控通道的分布驱动数据中心中的机器人进行定期巡检；当符合条件时，驱动机器人到达目标故障区域，并对目标故障区域进行外部感知，同时结合环境数据和运行数据对目标故障区域进行精细监控分析。上述智能监控方案能够根据实际场景切换合适的监控方案，并能够对目标故障区域进行精细监控分析以及故障排除处理，提高数据中心监控的效率、准确率和智能化水平。

Description

一种数据中心智能监控方法、系统以及存储介质

技术领域

本发明涉及智能监控技术领域，尤其涉及一种数据中心智能监控方法、系统以及存储介质。

背景技术

数据中心是一个集中管理和存储大量数据和应用程序的设施，它是现代信息技术基础设施的重要组成部分，伴随着数字信息时代的发展，数据中心规模的不断扩大和多样化的应用需求，数据中心智能监控技术变得越来越重要，它可以为数据中心管理端提供更好的服务，提高数据中心的可靠性和效率。

当前，主流的数据中心监控方案是侧重于通过固定传感器进行识别检测，例如发明专利CN108170080A公开了一种数据中心机房环境监控系统，其方案侧重于采用固定的环境检测模块中的各个检测单元进行实时采集中心机房的数据继而进行环境监控，其存在监控死角，此外，现有技术中还有发明专利CN109822597B公开了一种数据中心的全自动智能巡检机器人，其方案侧重于采用巡检机器人根据来自不同检测数据和区域划分数据进行实时优化巡检线路，即其关注的点是在于如何生成合理的巡检路线，其存在监控智能化程度不高的问题，即并不存在根据实际场景需求进行调整监控模式以达到精密监控的作用。

综上所述，亟需一种方法使得数据中心监控变得更加效率、准确和智能,使得数据中心得到可靠和安全的服务。

发明内容

有鉴于此，本发明提出一种数据中心智能监控方法。

本发明的技术方案是这样实现的：

第一方面，本发明提供了一种数据中心智能监控方法，其应用于云服务器，其特征在于

获取所述数据中心中一个或多个传感器监测的环境数据以及数据中心运行控制器记录的运行数据；

基于所述环境数据和所述运行数据，自动判断是否符合监控模式切换条件；

当不符合条件时，根据数据中心故障率预测模型生成一个或多个重点监控通道，根据所述重点监控通道的分布驱动所述数据中心中的机器人进行定期巡检；

当符合条件时，驱动机器人到达目标故障区域，所述机器人对所述目标故障区域进行外部感知，同时结合所述环境数据和所述运行数据对所述目标故障区域进行精细监控分析。

进一步地，所述基于所述环境数据和所述运行数据，自动判断是否符合监控模式切换条件，具体包括：

判断所述环境数据或所述运行数据是否满足预设阈值限制；

当任一不满足预设阈值限制时，确认发生异常，同时自动判断其符合监控模式切换条件；

当两者均满足预设阈值限制时，将所述环境数据和所述运行数据输入至预训练卷积神经网络模型中，以得到异常识别结果，当判断其发生异常时，亦自动判断其符合监控模式切换条件，当判断其未发生异常时，则自动判断其不符合监控模式切换条件；所述预训练卷积神经网络模型构建过程包括采用历史故障标注集中的环境数据中的每一类通过卷积和池化逐一提取形成多个第一单向量特征，同时采用所述历史故障标注集中的运行数据中的每一类通过卷积和池化逐一提取形成多个第二单向量特征，将多个第一单向量特征中的至少一个与多个第二单向量特征中的至少一个进行融合形成融合向量特征，将所述融合向量特征作为输入特征参与训练。

进一步地，所述当不符合条件时，根据数据中心故障率预测模型生成一个或多个重点监控通道，具体包括：

将数据中心通道进行矢量提取，将任意通道两侧的历史故障数据映射到通道上，根据不同通道中不同时序特征下的历史故障数据建立不同通道下对应的多个故障率预测模型，获取不符合条件时的时间，根据所述时间获取不同通道对应的故障率预测值，并根据故障率预测值进行排序以生成一个或多个重点监控通道。

进一步地，所述根据所述重点监控通道的分布驱动所述数据中心中的机器人进行定期巡检，具体包括：

获取所述数据中心的地图数据，根据所述地图数据确定所述一个或多个重点监控通道的标注位置，并获取所述数据中心中一个或多个机器人的当前位置，根据所述当前位置以及所述标注位置调度所述一个或多个机器人在所述数据中心实现定期巡检，所述定期巡检是根据预先设置的巡检参数以控制所述一个或多个机器人途径重点监控通道的频率。

进一步地，所述驱动机器人到达目标故障区域，所述机器人对所述目标故障区域进行外部感知，具体包括：

当所述机器人到达目标故障区域时，所述机器人上搭载的感知传感器自动对目标故障区域进行局部三维扫描，并根据局部三维扫描进行语义标注。

进一步地，所述结合所述环境数据和所述运行数据对所述目标故障区域进行精细监控分析，具体包括：

将所述环境数据、所述运行数据以及所述语义标注构建成特征集，将所述特征集上报云服务器并与后台预先存储的专家分析方案进行匹配，当匹配成功时，则获取所述目标故障区域的精细监控分析结果。

进一步地，所述对所述目标障碍物区域进行精细监控分析之后，还包括：所述专家分析方案还包括专家推荐处理策略，机器人备份当前场景情况，根据所述专利推荐处理策略驱动所述机器人处理故障，当处理后无法消除故障，所述机器人依据所述备份进行场景恢复，当实施后故障消除时，机器人上报与故障处理关联的所有数据与云服务器。

第二方面，本发明还提供一种数据中心智能监控系统，其特征在于

获取模块，获取所述数据中心中一个或多个传感器监测的环境数据以及数据中心运行控制器记录的运行数据；

监控模式切换模块，基于所述环境数据和所述运行数据，自动判断是否符合监控模式切换条件；

定期巡检模块，当不符合条件时，根据数据中心故障率预测模型生成一个或多个重点监控区域，根据所述重点监控区域的分布驱动所述数据中心中的机器人进行定期巡检；

精细监控分析模块，当符合条件时，驱动机器人到达目标故障区域，并对所述目标故障区域进行外部感知，同时结合所述环境数据和所述运行数据对所述目标故障区域进行精细监控分析。

第三方面，本发明还提供一种机器人，其上包括机器人本体以及一个或多个感知传感器，其与云平台远程连接，所述机器人本体上包括至少一个机械臂，所述机器人用于实现权利要求前述任一项所述数据中心智能监控方法。

第四方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如前述任一项所述的方法。

本发明提供了一种数据中心的智能监控方法、系统以及存储介质，至少具备以下有益效果：

1.根据环境数据和运行数据自动判断是否进行监控模式的自动切换，当无异常时，采用机器人定期巡检的方式，当存在异常时，驱动机器人精细监控，即定期巡检/精细监控两种方式自动切换，能够有效实现监控的智能化水平以及保证数据中心的安全运行。

2.为了保证自动切换的合理性，通过环境数据和运行数据设置阈值条件，当任意一个不符合时判定为异常，当两者都符合时，实际上也存在异常的情景，此时，采用历史故障标注集中的环境数据中的每一类通过卷积和池化逐一提取形成多个第一单向量特征，同时采用所述历史故障标注集中的运行数据中的每一类通过卷积和池化逐一提取形成多个第二单向量特征，将多个第一单向量特征中的至少一个与多个第二单向量特征中的至少一个进行融合形成融合向量特征，将所述融合向量特征作为输入特征参与训练以构建预训练卷积神经网络，通过异源相关数据有效提取异常特征进行精确的异常识别，继而实现准确的自动切换。

3.当数据中心无明显异常时，机器人采用定期巡检，为了提高巡检效率和质量，将数据中心通道进行矢量提取，将任意通道两侧的历史故障数据映射到通道上，根据不同通道中不同时序特征下的历史故障数据建立不同通道下对应的多个故障率预测模型，获取不符合条件时的时间，根据所述时间获取不同通道对应的故障率预测值，并根据故障率预测值进行排序以生成一个或多个重点监控通道，根据推测的重点监控通道的标注位置、机器人位置以及控制一个或多个机器人途径重点监控通道的频率的巡检参数实现有针对性的巡检，保障数据中心的安全。

4．当数据中心发生异常时，驱动机器人到达目标故障区域进行感知分析，根据感知分析结果进行语义标注，将语义标注、环境数据以及运行数据构成特征集继而匹配云服务器专家分析方案，实现故障自动化分析，且专家分析方案附有相应的故障处理策略，可以根据相应处理策略实现故障自动化处理，无需人工决策，提高监控的智能化水平以及保障能力。

5.在机器人中排障过程中设置还原机制，进行场景备份，当故障无法排除时进行还原操作，以尽可能保持原有状态以便后续分析处理的准确性，若故障顺利排除，则将其数据上报云服务器，以便根据该次处理过程形成新的学习样本，有利于后续机器人面临相同问题时可以进行快速处理，提高智能化水平。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种数据中心智能监控方法的流程图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

第一方面，参考图1，一种数据中心智能监控方法，其应用于云服务器，其特征在于：

S110：获取所述数据中心中一个或多个传感器监测的环境数据以及数据中心运行控制器记录的运行数据；

可选地，上述一个或多个传感器被安置在固定的位置进行环境数据的检测，所述传感器的类型可以包括温度传感器、湿度传感器、烟雾传感器、水浸传感器、空气质量传感器、摄像头传感器、红外传感器等类型，其具体类型的选择可以根据实际应用需要来选择设计。

另外，所述数据中心运行控制器包括服务器管理器、网络管理器、存储管理器、虚拟化管理器、安全管理器以及备份与恢复管理器，其中，服务器管理器是用于管理数据中心中的服务器设备，包括服务器的状态监控、远程管理、系统配置等。服务器管理器可以帮助管理员对服务器进行快速响应、故障诊断和故障修复；网络管理器是用于管理数据中心的网络设备和网络流量，包括交换机、路由器、防火墙等。网络管理器可以帮助管理员监控网络的状态、流量和带宽，进行网络优化和故障排除；存储管理器是用于管理数据中心的存储设备，包括硬盘、SSD、NAS等，存储管理器可以帮助管理员监控存储设备的状态、容量和性能，进行存储资源的优化和管理；虚拟化管理器是用于管理数据中心中的虚拟化环境，包括虚拟机、容器等，虚拟化管理器可以帮助管理员监控虚拟化环境的状态、性能和资源利用率，进行虚拟化资源的优化和管理；安全管理器是用于管理数据中心的安全策略和安全事件，包括入侵检测、防火墙、访问控制等，安全管理器可以帮助管理员保护数据中心的安全和隐私，及时发现和防止安全威胁；数据备份与恢复管理器是用于管理数据中心的备份和恢复策略，包括数据备份、数据恢复、灾备等，数据备份与恢复管理器可以帮助管理员保护数据中心的数据安全，及时恢复数据中心的运行。

S120：基于所述环境数据和所述运行数据，自动判断是否符合监控模式切换条件；

可以理解的是，根据上述环境数据与运行数据进行自动判断是否满足模式切换条件的操作可以帮助数据中心自适应和自动化的运维管理，在数据中心监控运行过程中，如果依赖于手动调配监控模式，可能会导致报警事件响应延迟，影响数据中心的安全，因此，通过不同的数据采用差异化的监控模式更有利于保障数据中心的高可用性。

判断所述环境数据或所述运行数据是否满足预设阈值限制；

值得一提的是，为了提高监控模式切换的准确性，先对环境数据和运行数据设置预设阈值限制，该阈值限制的作用是为了识别出典型的异常事件，例如环境数据和运行数据过大或过小等明显不正常的情况，另外，为了识别出非典型的异常事件，即是环境数据和运行数据均符合预设阈值限定，但其仍然可能存在异常情况，例如环境数据和运行数据之间产生矛盾和冲突等，因此，为了提高异常识别精度以准确切换监控模式，当面临非典型异常时间时，通过预先训练卷积神经网络模型来进行识别异常。

可以理解的是，由于环境数据和运行数据属于异源数据，为了更好挖掘异源数据提取异常特征的能力，将两类数据分别提取单向量特征后进行融合形成融合向量特征作为输入特征，其中，所述融合可以包括采用简单比值、加权比值、权重分配等方式进行实现，其融合特征能够更有效的反应异常类型，而具体单向量特征融合的组合的选取，可以通过预先设置的相关程度表查询选取，亦可以通过自动聚类分析得到相关性较强的组合进行自动选取，其组合方式可包括除上述以外的更多形式，在此不做限定。

另外，卷积神经网络的其他具体过程根据现有技术的方式进行实现，此处不再赘述。

S130：当不符合条件时，根据数据中心故障率预测模型生成一个或多个重点监控通道，根据所述重点监控通道的分布驱动所述数据中心中的机器人进行定期巡检；

可以理解的是，当不符合条件时，即说明此时数据中心并无明显异常，此时可以根据数据中心故障率为指标来确定一个或多个重点监控通道，更加有效的驱动机器人对上述重点监控通道进行定期巡检。

可以理解的是，数据中心服务器之间具有通道，为了更好的确定数据中心故障率，即将任意通道两侧服务器的不同时序特征下的历史故障集映射到通道上，可选地是，可以通过热力图的形式来显示各通道不同时序特征下历史故障集的变化图像。

上述历史故障集考虑不同时序特征，其是由于在不同时序特点下故障率存在耦合关联，因此，将当前时间输入时，即会得到当前时间下不同通道对应的故障率预测值，根据故障率预测值进行排序以生成一个或多个重点监控通道，可以有针对性的进行监控。

获取所述数据中心的地图数据，根据所述地图数据确定一个或多个重点监控通道的标注位置，并获取所述数据中心中一个或多个机器人的当前位置，根据所述当前位置以及所述标注位置调度所述一个或多个机器人在所述数据中心实现定期巡检，所述定期巡检是根据预先设置的巡检参数以控制所述一个或多个机器人途径重点监控通道的频率。

上述根据重点监控通道分布驱动机器人进行定期巡检的方式有利于数据中心的安全。

可选地，由于多个重点监控通道的标注位置以及多个机器人的当前位置实现定期巡检时，多个机器人定期巡检的路径会发生冲突，因此，需要对多个机器人预期定期巡检方案进行冲突性检测，以保证定期巡检路径能够合理有效。

S140：当符合条件时，驱动机器人到达目标故障区域，所述机器人对所述目标故障区域进行外部感知，同时结合所述环境数据和所述运行数据对所述目标故障区域进行精细监控分析。

进一步地，当所述机器人到达目标故障区域时，所述机器人上搭载的感知传感器自动对目标故障区域进行局部三维扫描，并根据局部三维扫描进行语义标注。

可以理解的是，上述机器人可以搭载不同类型的感知传感器，例如激光雷达、激光测距仪、红外传感器、摄像头等，对目标故障区域进行局部三维扫描，由于机器人本身并无法直接就场景感知的数据进行语义判别，亦无法直接根据感知数据识别故障原因，因此，可以根据局部三维扫描的结果通过预先训练的语义标注模型进行语义标注，由于本方案并非是对语义标注模型的具体改进，因此，此处可采用现有技术任意的语义标注模型进行实现即可。

所述语义标注是帮助计算机理解自然语言文本的含义，例如，通常，感知数据本身只能给出了场景的位置、亮度等数据，而并无法理解和挖掘场景深层次的故障原因，因此，根据语义标注模型可以得到文本化的场景理解，例如，某服务器第3排光纤接口警示灯未亮。

进一步地，将所述环境数据、所述运行数据以及所述语义标注构建成特征集，将所述特征集上报云服务器并与后台预先存储的专家分析方案进行匹配，当匹配成功时，则获取所述目标故障区域的精细监控分析结果。

可以理解是，所述特征集即是对事件的准确描述，将其上报与云平台是想让其自动与后台预先存储的专家分析方案进行匹配，即该过程是自动化的分析过程，无需人工决策，即可得到精细监控分析结果，利于数据中心智能化监控的要求。

由上述即可以确定，为了处理故障，专家分析方案还可以专家的推荐处理策略，该策略可以根据机器人本体感知的周围环境，形成故障处理作业路径，以对故障进行处理，但由于机器人并非能完美处理所有的问题，因此，当处理前，需要机器人对当前场景情况进行备份，若实施后，故障消除，则可以将此次事件上报利于事件记录和后续分析，若实施后，故障无法消除，则命令就备份当前场景情况进行恢复。

此外，可选地是，当机器人故障无法消除时，则可以通过云服务器请求对应故障的处理专家进行远程接管控制。

进一步，可选地是，当上述处理专家进行远程接管控制机器人成功处理故障时，将所有接管器件以及故障事件关联的所有数据发送给云服务器，并形成专家分析方案，有利于后续机器人面临相同问题时可以进行快速处理，提高智能化水平。

第二方面，本发明还提供一种数据中心智能监控系统，其特征在于，

第三方面，本发明还提供一种机器人，其上包括机器人本体以及一个或多个感知传感器，其与云平台远程连接，所述机器人本体上包括至少一个机械臂，所述机器人用于实现前述所述数据中心智能监控方法的实施方式。

第四方面，本发明还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如前述任一实施方式。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)、DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

上述已经详细描述了本发明公开的实施例，为了避免遮蔽本发明公开的技术构思，对于相关领域普通技术人员所公知的细节，本领域技术人员根据上述实施例的记载，是可以完成知晓如何实施公开的技术方案。

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据中心智能监控方法，其应用于云服务器，其特征在于，包括：

当符合条件时，驱动机器人到达目标故障区域，所述机器人对所述目标故障区域进行外部感知，同时结合所述环境数据和所述运行数据对所述目标故障区域进行精细监控分析；

所述基于所述环境数据和所述运行数据，自动判断是否符合监控模式切换条件，具体包括：

判断所述环境数据或所述运行数据是否满足预设阈值限制；

当两者均满足预设阈值限制时，将所述环境数据和所述运行数据输入至预训练卷积神经网络模型中，以得到异常识别结果，当判断其发生异常时，亦自动判断其符合监控模式切换条件，当判断其未发生异常时，则自动判断其不符合监控模式切换条件；所述预训练卷积神经网络模型构建过程包括采用历史故障标注集中的环境数据中的每一类通过卷积和池化逐一提取形成多个第一单向量特征，同时采用所述历史故障标注集中的运行数据中的每一类通过卷积和池化逐一提取形成多个第二单向量特征，将多个第一单向量特征中的至少一个与多个第二单向量特征中的至少一个进行融合形成融合向量特征，将所述融合向量特征作为输入特征参与训练；

所述当不符合条件时，根据数据中心故障率预测模型生成一个或多个重点监控通道，具体包括：

将数据中心通道进行矢量提取，将任意通道两侧的历史故障数据映射到通道上，根据不同通道中不同时序特征下的历史故障数据建立不同通道下对应的多个故障率预测模型，获取不符合条件时的时间，根据所述时间获取不同通道对应的故障率预测值，并根据故障率预测值进行排序以生成一个或多个重点监控通道；

所述根据所述重点监控通道的分布驱动所述数据中心中的机器人进行定期巡检，具体包括：

获取所述数据中心的地图数据，根据所述地图数据确定所述一个或多个重点监控通道的标注位置，并获取所述数据中心中一个或多个机器人的当前位置，根据所述当前位置以及所述标注位置调度所述一个或多个机器人在所述数据中心实现定期巡检，所述定期巡检是根据预先设置的巡检参数以控制所述一个或多个机器人途径重点监控通道的频率；

所述驱动机器人到达目标故障区域，所述机器人对所述目标故障区域进行外部感知，具体包括：

当所述机器人到达目标故障区域时，所述机器人上搭载的感知传感器自动对目标故障区域进行局部三维扫描，并根据局部三维扫描进行语义标注；

所述结合所述环境数据和所述运行数据对所述目标故障区域进行精细监控分析，具体包括：

将所述环境数据、所述运行数据以及所述语义标注构建成特征集，将所述特征集上报云服务器并与后台预先存储的专家分析方案进行匹配，当匹配成功时，则获取所述目标故障区域的精细监控分析结果；

所述对所述目标障碍物区域进行精细监控分析之后，还包括：

所述专家分析方案还包括专家推荐处理策略，机器人备份当前场景情况，根据所述专家推荐处理策略驱动所述机器人处理故障，当处理后无法消除故障，所述机器人依据所述备份进行场景恢复，当实施后故障消除时，机器人上报与故障处理关联的所有数据与云服务器。

2.一种数据中心智能监控系统，其特征在于，包括：

精细监控分析模块，当符合条件时，驱动机器人到达目标故障区域，并对所述目标故障区域进行外部感知，同时结合所述环境数据和所述运行数据对所述目标故障区域进行精细监控分析；

判断所述环境数据或所述运行数据是否满足预设阈值限制；

所述对所述目标障碍物区域进行精细监控分析之后，还包括：所述专家分析方案还包括专家推荐处理策略，机器人备份当前场景情况，根据所述专家推荐处理策略驱动所述机器人处理故障，当处理后无法消除故障，所述机器人依据所述备份进行场景恢复，当实施后故障消除时，机器人上报与故障处理关联的所有数据与云服务器。

3.一种机器人，其上包括机器人本体以及一个或多个感知传感器，其与云平台远程连接，所述机器人本体上包括至少一个机械臂，所述机器人用于实现权利要求1所述的方法。

4.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1所述的方法。