CN115599626A - 一种机房ai智能监测系统 - Google Patents

一种机房ai智能监测系统 Download PDF

Info

Publication number
CN115599626A
CN115599626A CN202211181704.4A CN202211181704A CN115599626A CN 115599626 A CN115599626 A CN 115599626A CN 202211181704 A CN202211181704 A CN 202211181704A CN 115599626 A CN115599626 A CN 115599626A
Authority
CN
China
Prior art keywords
host
machine room
monitoring
intelligent monitoring
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211181704.4A
Other languages
English (en)
Other versions
CN115599626B (zh
Inventor
李皓天
汤建
陈秀丽
杜鹏程
张筱雯
陈利
包克环
范晓菁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuhai Venture Capital Hong Kong Zhuhai Macao Bridge Zhuhai Port Operation Management Co ltd
Original Assignee
Zhuhai Venture Capital Hong Kong Zhuhai Macao Bridge Zhuhai Port Operation Management Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuhai Venture Capital Hong Kong Zhuhai Macao Bridge Zhuhai Port Operation Management Co ltd filed Critical Zhuhai Venture Capital Hong Kong Zhuhai Macao Bridge Zhuhai Port Operation Management Co ltd
Priority to CN202211181704.4A priority Critical patent/CN115599626B/zh
Publication of CN115599626A publication Critical patent/CN115599626A/zh
Application granted granted Critical
Publication of CN115599626B publication Critical patent/CN115599626B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • G06F11/3072Monitoring arrangements determined by the means or processing involved in reporting the monitored data where the reporting involves data filtering, e.g. pattern matching, time or event triggered, adaptive or policy-based reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3089Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
    • G06F11/3093Configuration details thereof, e.g. installation, enabling, spatial arrangement of the probes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/02Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Debugging And Monitoring (AREA)
  • Selective Calling Equipment (AREA)

Abstract

本发明提出了一种机房AI智能监测系统,对现有技术中简单监测机房环境参数的机械化监测方式作出改进,通过对机房主机的拓扑划分,建立主机拓扑矩阵并基于行主机组的划分,在主机之间建立基于行的计算能力集合,监测主机组的运行性能以及负载情况,以主机组为单位,执行机房运行功率的调整和休眠,同时考虑到特定用户的特定主机的操作需求,建立用户与特定主机的映射关系,在执行机房监测并作出运维决策的同时,有限度地保障特定用户对特定主机的操作权限,在此之上,本申请所提出的机房AI智能监测系统采用BP神经网络智能决策机房管控方案,建立运行周期内的三层机房管控策略,同时兼顾机房环境参数、拓扑负载以及机房用户需求。

Description

一种机房AI智能监测系统
技术领域
本发明属于新一代信息技术领域,尤其涉及一种机房AI智能监测系统。
背景技术
随着计算机信息化的普及程度越来越高,集中式管理的计算机机房或服务器、终端集群布设也在随之扩展。在对计算机集群执行机房集中化管理过程中,实时掌握计算机机房的运行动态和机房状态,对机房管理和监控尤为重要。机房监控主要是针对机房所有的设备及环境进行集中监控和管理的,其监控对象构成机房的各个子系统:动力系统、环境系统、消防系统、保安系统、网络系统等。机房监控系统基于网络综合布线系统,采用集散监控,在机房监视室放置监控主机,运行监控软件,以统一的界面对各个子系统集中监控。机房监控系统实时监视各系统设备的运行状态及工作参数,发现部件故障或参数异常,即时采取多媒体动画、语音、电话、短消息等多种报警方式,记录历史数据和报警事件,提供智能专家诊断建议和远程监控管理功能以及WEB浏览等。传统意义上的机房监控系统以人为基础,依靠人工轮流值班,人工巡回查看等手段维护设备存在的弊端,效率低下,不利于人才资源的充分利用。而且缺乏科学性,以前的重大事故有许多是由人为因素造成的,人工维护管理缺乏完整的管理系统,不利于运营企业科学管理的形式。现有技术中存在的改进型机房集中监控管理系统节省人力资源,大大缓解了人员紧张的情况,为机房维护改革提供了有力支撑。其二,提高了维护质量,机房维护人员的素质及设备运行环境质量提高,加快故障处理速度,现场告警能在极短的时间内反映到监控中心,为维护班组赶到现场抢得第一时间,为事故后的故障分析提供了手段,避免重大事故的发生,为客观公正地考察维护人员提供了手段,大大节约了运行维修成本,创造了直接和间接的经济效益,并最终实现管理的科学化。
一般而言,机房监控系统通常对机房环境相关的参数执行重点监控。例如,空调设备监控:为智能设备,只要具备智能接口,就可以全面监控空调的运行参数。根据精密空调供应商提供的通讯协议和远程监控板,实时监测精密空调的回风温度、回风湿度、冷冻水进出温度、流量、冷却水进出温度及冷冻机、冷冻水泵、冷却水泵工作电流等参数;监测工作状态包括压缩机状态、风机状态、加热器状态、抽湿器状态(水冷式空调还可监测到冷却水塔的补水池液面状态、冷却水塔风扇状态、冷却水阀门状态等)等各种工作状态;显示和记录各种参数变化曲线,并对各种报警状态进行实时的记录和报警处理。控制空调的启停、调节温度和湿度。可通过系统直接设定空调机的各种参数。通过改装空调电路,或者利用空调红外控制器,对其市电状态、风机状态、压缩机状态以及报警信息处理,根据温度变化控制空调启停。温湿度监控:通过采集温湿度传感器所监测的温度和湿度数据,机房监控系统以直观的画面实时记录和显示机房各区域的温湿度数据及变化曲线,以及越界报警信息处理。图像视频监控:图像监控系统采用视频组态的概念,将各通道的图像以控件组态的方式随意插入某个界面,对于大型的监控系统而言,以电子地图的方式来集中管理各个场地的数据和图像的界面,十分方便。由于将机房监控系统和闭路监控合二为一,因而可以随意实现动力环境与图像的联动控制,一旦有异常事件发生,机房监控系统自动弹出现场图像画面,即时录像并作报警提示和处理。漏水监测系统:机房漏水检测是对机房空调或者窗户等处可能漏水的地方进行监测,它通过采集测漏主机的报警信号监测任何漏水探头上的漏水情况,一旦发生报警,机房监控系统立即机房切断上水支管和上水总管的上水电磁阀,彻底封闭水路,断绝继续泄水发生,并可以定位检测具体的漏水系统,同时将报警信息通过短信平台发送到相关管理人员,且在现场有声光报警产生。
申请人经实际项目研发过程发现,现有技术中的机房监测和机房监控,一般将环境参数、机械参数等普适数据指标作为监控终端数据,无法从多监控模块获取多监控源参数,从而基于多监控源数据的不同权重层次执行动态可退避的综合监控和管理,其次,未合理执行机房主机的有效组切分,并依据依据各个主机组的不同运行状态来执行差异化的主机组管控策略。再次,传统的机房监控系统由于缺少多层级监控参数源的综合管理,因此天然地缺乏基于多元数据的、对综合管控方案的AI智能计算需求,以及缺乏对管控方案中优先置信需求的处置,无法实现基于神经网络的多元监控参数AI智能决策,导致无法有效实现基于多源监控参数的动态机房监控。
本发明提出了一种机房AI智能监测系统,对现有技术中,简单监测机房环境参数的机械化监测方式作出改进,采用多数据源监测系统,将对机房环境参数的监测作为AI智能监测的第一监测源,同时通过对机房主机的拓扑划分,建立主机拓扑矩阵并基于行主机组的划分,在主机之间建立基于行的计算能力集合,监测主机组的运行性能以及负载情况,以主机组为单位,执行机房运行功率的调整和休眠,与之同时,考虑到特定用户的特定主机的操作需求,本申请所提出的机房AI智能监测系统通过引入优先置信监测模块,建立用户与特定主机的映射关系,在执行机房监测并作出运维决策的同时,有限度地保障特定用户对特定主机的操作权限,从而在机房综合监测管理基础之上,适应个性化的机房运维需求,另外,本申请所提出的机房AI智能监测系统采用BP神经网络智能决策机房管控方案,建立运行周期内的三层机房管控策略,同时兼顾机房环境参数、拓扑负载以及机房用户需求。
发明内容
本发明旨在提供一种优于现有技术的机房AI智能监测系统。
为了实现上述目的,本发明的技术方案如下:
一种机房AI智能监测系统,所述系统包括:
至少一个被监测机房,每个所述被监测机房包含多台主机,标识ID为主机1、主机2直至主机M,M为所述被监测机房中的主机数量;
第一监测模块,所述第一监测模块至少用于对所述被监测机房的第一监测参数集合执行参数检测和抽取,并存储至第一监测模块;
所述第一监测参数集合用于表征所述被监测机房的环境信息和维护信息,所述第一监测参数集合至少包含如下参数:
表征被监测机房环境温度变化曲线的参数A1-1;
表征被监测机房单日环境温度最大值的参数A1-2;
表征被监测机房单日环境温度最小值的参数A1-3;
表征被监测机房距离上一次维护的时长参数A2;
所述第一监测模块还用于将第一监测参数集合发送至AI智能监测决策模块;
第二监测模块,所述第二监测模块至少用于对所述被监测机房的第二监测参数集合执行参数检测和抽取,并存储至第二监测模块;
所述第二监测参数集合用于表征所述被监测机房的行主机组负载信息,所述第二监测参数集合至少包含如下参数:
表征被监测机房各个行主机组所包含主机ID集合的集合分布参数B1;
表征被监测机房各个行主机组单日功率消耗均值的参数B21-B2K,所述K为行主机组的数量,参数B21-B2K中的每一个对应被监测机房各个行主机组中的每一个;
所述第二监测模块还用于将第二监测参数集合发送至AI智能监测决策模块;
优先置信监测模块,所述优先置信监测模块监测各个主机ID对应的用户,获取对应主机使用频度最高的用户的用户ID,将其组合成主机ID-用户ID数据对,作为优先置信监测参数C1,发送至AI智能监测决策模块;
AI智能监测决策模块,所述AI智能监测决策模块接收第一监测参数集合、第二监测参数集合以及优先置信监测参数,并基于所述第一监测参数集合、第二监测参数集合以及优先置信监测参数,按照预设AI算法,经BP神经网络智能决策被监测机房的主机管控方案,将所述主机管控方案推送至所述被监测机房,使能所述被监测机房依据所述主机管控方案执行机房管理。
较佳地,所述至少一个被监测机房,还将在网络拓扑中属于同一行的主机划分至同一行主机组,分配相应组ID。
较佳地,所述AI智能监测决策模块基于优先置信监测参数C1,为各个主机设定最高优先级用户。
较佳地,所述最高优先级用户即为优先置信监测参数C1中的各个主机对应的主机ID-用户ID数据对中的用户ID。
较佳地,所述机房AI智能监测系统的所述主机为物联网IoT终端。
较佳地,所述每个所述被监测机房包含多台主机,具体为:
所述每个所述被监测机房对多个主机执行网络拓扑构建,获取机房内多个主机组成的网络拓扑矩阵,并将在所述网络拓扑矩阵中位于同一行的主机,归集为同一行主机组。
较佳地,所述主机管控方案至少包含对多个行主机组的管控方案。
较佳地,所述主机管控方案至少包含第四布尔控制键,所述第四布尔控制键用于所述机房AI智能监测系统控制是否允许最高优先级用户从强制休眠行主机组中唤醒相应主机。
较佳地,所述主机管控方案至少包含第四布尔控制键,所述第四布尔控制键用于所述机房AI智能监测系统控制是否允许最高优先级用户从强制休眠行主机组中唤醒相应主机,具体为:
当第四布尔控制键为TRUE时,允许最高优先级用户从强制休眠行主机组中唤醒相应主机;
当第四布尔控制键为FALSE时,总是不允许最高优先级用户从强制休眠行主机组中唤醒相应主机,并忽略优先置信监测参数。
较佳地,所述机房AI智能监测系统还包括远端监测服务器,用于从所述AI智能监测决策模块获取第一监测参数集合、第二监测参数集合以及优先置信监测参数、主机管控方案,并基于系统管理员反馈,更新主机管控方案发送至所述AI智能监测决策模块,用于替代原管控方案。
本发明提出了一种机房AI智能监测系统,对现有技术中,简单监测机房环境参数的机械化监测方式作出改进,采用多数据源监测系统,将对机房环境参数的监测作为AI智能监测的第一监测源,同时通过对机房主机的拓扑划分,建立主机拓扑矩阵并基于行主机组的划分,在主机之间建立基于行的计算能力集合,监测主机组的运行性能以及负载情况,以主机组为单位,执行机房运行功率的调整和休眠,与之同时,考虑到特定用户的特定主机的操作需求,本申请所提出的机房AI智能监测系统通过引入优先置信监测模块,建立用户与特定主机的映射关系,在执行机房监测并作出运维决策的同时,有限度地保障特定用户对特定主机的操作权限,从而在机房综合监测管理基础之上,适应个性化的机房运维需求,另外,本申请所提出的机房AI智能监测系统采用BP神经网络智能决策机房管控方案,建立运行周期内的三层机房管控策略,同时兼顾机房环境参数、拓扑负载以及机房用户需求。
附图说明
图1是本发明示出的机房AI智能监测系统的一种基本系统结构图;
图2是本发明示出的机房AI智能监测系统被监测机房的一种系统结构较佳实施例示意图;
图3是本发明示出的机房AI智能监测系统各个监测模块与AI智能监测决策模块互联的一种系统结构较佳实施例示意图;
图4是本发明示出的机房AI智能监测系统被监测机房与优先置信监测模块互联的一种较佳实施例;
图5是本发明示出的AI智能监测决策模块与远端监测服务器互联的一种优选实施例示意图。
具体实施方式
以下具体描述本发明所请求保护的基于机房AI智能监测系统和方法的若干实施例和有益效果,以有助于对本发明进行更细致的审查和分解。
为了更好的理解本发明的技术方案,下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应当理解,尽管在本发明实施例中可能采用术语第一、第二等来描述方法和相应装置,但这些关键词不应限于这些术语。这些术语仅用来将关键词彼此区分开。例如,在不脱离本发明实施例范围的情况下,第一监测参数集合、第一布尔控制键等也可以被称为第二监测参数集合、第二布尔控制键,类似地,第二监测参数集合、第二布尔控制键等也可以被称为第一监测参数集合、第一布尔控制键。
取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
如说明书附图1-5所示,为本发明所请求保护的机房AI智能监测系统及其具体内含模块实施例之一,所述系统包括:
至少一个被监测机房,每个所述被监测机房包含多台主机,标识ID为主机1、主机2直至主机M,M为所述被监测机房中的主机数量;
第一监测模块,所述第一监测模块至少用于对所述被监测机房的第一监测参数集合执行参数检测和抽取,并存储至第一监测模块;
所述第一监测参数集合用于表征所述被监测机房的环境信息和维护信息,所述第一监测参数集合至少包含如下参数:
表征被监测机房环境温度变化曲线的参数A1-1;
表征被监测机房单日环境温度最大值的参数A1-2;
表征被监测机房单日环境温度最小值的参数A1-3;
表征被监测机房距离上一次维护的时长参数A2;
所述第一监测模块还用于将第一监测参数集合发送至AI智能监测决策模块;
作为一种可叠加的优选实施例,所述第一监测模块至少用于对所述被监测机房的第一监测参数集合执行参数检测和抽取,并存储至第一监测模块,至少包括:第一监测模块从被监测机房采集第一监测参数集合中所包含的各个参数,例如,所述第一监测模块从被监测机房采集表征被监测机房环境温度变化曲线的参数A1-1,所述参数A1-1用于反映所述被监测机房单日/周中的温度变化,从而使得AI智能监测系统能够获取机房环境温度参数,对机房的开启和关闭控制作出合理决策;采集表征被监测机房单日环境温度最大值的参数A1-2,所述参数A1-2用于反映所述被监测机房单日中的温度最大值,从而使得AI智能监测系统能够据此获取机房环境温度参数,整合其它参数,对机房的开启和关闭控制作出合理决策;采集表征被监测机房单日环境温度最小值的参数A1-3,所述参数A1-3用于反映所述被监测机房单日中的温度最小值,也即机房单日最低温度,从而使得AI智能监测系统能够据此获取机房环境温度参数,整合其它参数,对机房的开启和关闭控制作出合理决策;采集表征被监测机房距离上一次维护的时长参数A2,所述参数A2用于反映所述被监测机房在距离上次维护过后,未被维护的时长,从而使得AI智能监测系统能够据此获取机房维护参数,整合其它参数,例如环境温度参数,对机房的开启和关闭控制作出合理决策。
第二监测模块,所述第二监测模块至少用于对所述被监测机房的第二监测参数集合执行参数检测和抽取,并存储至第二监测模块;
所述第二监测参数集合用于表征所述被监测机房的行主机组负载信息,所述第二监测参数集合至少包含如下参数:
表征被监测机房各个行主机组所包含主机ID集合的集合分布参数B1;
表征被监测机房各个行主机组单日功率消耗均值的参数B21-B2K,所述K为行主机组的数量,参数B21-B2K中的每一个对应被监测机房各个行主机组中的每一个;
所述第二监测模块还用于将第二监测参数集合发送至AI智能监测决策模块;
作为另一种可叠加的优选实施例,所述第二监测模块至少用于对所述被监测机房的第二监测参数集合执行参数检测和抽取,并存储至第二监测模块,具体为:第二监测模块从被监测机房采集第二监测参数集合中所包含的各个参数,例如,基于所述被监测机房的主机拓扑矩阵,对所述被监测机房执行主机群组划分,将在网络拓扑中属于同一行的主机划分至同一行主机组,分配相应组ID,所述组ID从G1开始,按照从小到大顺序进行分配,直至GK,K为所述被监测机房行主机组的最大数量。按照各个行主机组的组ID,设置组向量GK(H1,H2,...Hmax),其中,H1,H2,...Hmax为对应各个行主机组内主机的主机ID,max为相应行主机组中的主机数量。第二监测模块提取所述被监测机房的行主机组的组成信息,也即所述被监测机房各个行主机组的组向量GK(H1,H2,...Hmax),将其封装为各个行主机组所包含主机ID集合的集合分布参数B1,发送至AI智能监测决策模块。
优先置信监测模块,所述优先置信监测模块监测各个主机ID对应的用户,获取对应主机使用频度最高的用户的用户ID,将其组合成主机ID-用户ID数据对,作为优先置信监测参数C1,发送至AI智能监测决策模块;
作为一种可叠加的优选实施例,所述优先置信监测模块监测各个主机ID对应的用户,获取对应主机使用频度最高的用户的用户ID,将其组合成主机ID-用户ID数据对,作为优先置信监测参数C1,发送至AI智能监测决策模块,具体为:优先置信监测模块对所述被监测机房的各个主机使用情况执行监测,通过上下机时长和上下机时段,获取对主机使用频度最高的用户,所述对主机使用频度最高的用户是指在单位时间段内,一般以日计算,或以周计算,对特定主机而言,使用累计总时长最长的用户。在获取相应用户的用户ID后,所述优先置信监测模块将特定主机的ID及其相应使用频度最高的用户ID,组合成主机ID-用户ID数据对,并封装为优先置信监测参数C1,发送至AI智能监测决策模块。
AI智能监测决策模块,所述AI智能监测决策模块接收第一监测参数集合、第二监测参数集合以及优先置信监测参数,并基于所述第一监测参数集合、第二监测参数集合以及优先置信监测参数,按照预设AI算法,经BP神经网络智能决策被监测机房的主机管控方案,将所述主机管控方案推送至所述被监测机房,使能所述被监测机房依据所述主机管控方案执行机房管理。
作为一种可叠加的优选实施例,所述AI智能监测决策模块接收第一监测参数集合、第二监测参数集合以及优先置信监测参数,并基于所述第一监测参数集合、第二监测参数集合以及优先置信监测参数,按照预设AI算法,智能决策被监测机房的主机管控方案,将所述主机管控方案推送至所述被监测机房,使能所述被监测机房依据所述主机管控方案执行机房管理,具体包括:所述AI智能监测决策模块接收第一监测参数集合、第二监测参数集合以及优先置信监测参数,并基于所述第一监测参数集合,按照特定的预设系统控制阈值算法,确定下一运行周期内的机房作业时段以及维护时段,在作业时段到来时,开启所述被监测机房,在作业时段结束时,关闭所述被监测机房,并在维护时段到来时,无论机房是否关闭,均强制开启机房,并停止机房的常规用户操作。所述下一运行周期一般为一日或一周,所述特定的预设系统控制阈值算法至少包含如下入口参数:本运行周期内的参数A1-1、参数A1-2、参数A1-3、参数A2,所述特定的预设系统控制阈值算法至少包含如下出口参数:下一运行周期内的作业时段以及作业时长、维护时段以及维护时长。作为一种可叠加的优选实施例,所述特定的预设系统控制阈值算法可简化为如下计算方式:基于本运行周期内的参数A1-1、参数A1-2、参数A1-3、参数A2,确定温度在低温阈值T1以上、高温阈值T2以下的时段,作为作业时段,在作业时段中,基于参数A2的大小,确定维护时段的时长,所述维护时段的时长与所述参数A2的大小呈正相关,并随机在作业时段内,选取维护时段的起始时间点。作为一种可叠加的优选实施例,所述维护时段时长总是小于所述作业时段时长的1/5。
其次,考虑到在主机负荷超出其主机性能的特定阈值情况下,主机宕机或故障将影响整个行主机组的联合运算性能,且,当行主机组中的特定主机宕机或故障后,用户将首先向行主机组内部的其它主机执行任务转移或卸载,导致行主机组内部的整体负载仍然居高,从而影响整体行主机组运行性能。因此,所述AI智能监测决策模块基于第二监测参数集合,确定强制休眠行主机组。作为一种可叠加的优选实施例,所述AI智能监测决策模块提前从系统获取各个行主机组内含主机的性能参数,基于AI智能BP神经网络,根据被监测机房各个行主机组单日功率消耗均值的参数B21-B2K,以及各个行主机组内含主机的性能参数,预测下一周期内的各个行主机组内含主机的负载率,并基于动态设定的系统负载阈值,判断各个行主机组内含主机超过系统负载阈值的数量,在数量超过预设第二数量阈值时,强制休眠行主机组。
再次,所述AI智能监测决策模块基于优先置信监测参数,为各个主机设定最高优先级用户,即为优先置信监测参数C1中的各个主机对应的主机ID-用户ID数据对中的用户ID,并在相应用户ID试图唤醒该主机时,判定所述主机是否从属于强制休眠行主机组,若从属于所述强制休眠行主机组,则基于系统为所述用户分配的AI智能密钥,从强制休眠行主机组中唤醒相应主机,并按照唤醒后的使用时长执行用户强制使用时长扣减。其中,所述用户强制使用时长扣减为系统为各个主机的最高优先级用户预分配的强制使用时长,用以在单个运行周期内,使得用户可以从强制休眠行主机组中唤醒相应主机后,基于所述强制使用时长所规定的使用时长,来操作相应主机,并在所述强制使用时长到期后停止操作所述主机。所述AI智能密钥为系统基于AI智能神经网络对特定系统根密码执行加密后获取的随机密钥,每个所述最高优先级用户获取特定的单个所述AI智能密钥,且所述各个AI智能密钥在被分发给各个最高优先级用户时,在AI智能监测决策模块处存储所述AI智能密钥,及其与被分发的各个最高优先级用户的对应关系。
作为一种可叠加的优选实施例,所述至少一个被监测机房,还将在网络拓扑中属于同一行的主机划分至同一行主机组,分配相应组ID。
作为一种可叠加的优选实施例,所述AI智能监测决策模块基于优先置信监测参数C1,为各个主机设定最高优先级用户。
作为一种可叠加的优选实施例,所述最高优先级用户即为优先置信监测参数C1中的各个主机对应的主机ID-用户ID数据对中的用户ID。
作为一种可叠加的优选实施例,所述机房AI智能监测系统的所述主机为物联网IoT终端。
作为一种可叠加的优选实施例,所述每个所述被监测机房包含多台主机,具体为:
所述每个所述被监测机房对多个主机执行网络拓扑构建,获取机房内多个主机组成的网络拓扑矩阵,并将在所述网络拓扑矩阵中位于同一行的主机,归集为同一行主机组。
作为一种可叠加的优选实施例,所述主机管控方案至少包含对多个行主机组的管控方案。
作为一种可叠加的优选实施例,所述主机管控方案至少包含第四布尔控制键,所述第四布尔控制键用于所述机房AI智能监测系统控制是否允许最高优先级用户从强制休眠行主机组中唤醒相应主机。
作为一种可叠加的优选实施例,所述主机管控方案至少包含第四布尔控制键,所述第四布尔控制键用于所述机房AI智能监测系统控制是否允许最高优先级用户从强制休眠行主机组中唤醒相应主机,具体为:
当第四布尔控制键为TRUE时,允许最高优先级用户从强制休眠行主机组中唤醒相应主机;
当第四布尔控制键为FALSE时,总是不允许最高优先级用户从强制休眠行主机组中唤醒相应主机,并忽略优先置信监测参数。
作为一种可叠加的优选实施例,所述机房AI智能监测系统还包括远端监测服务器,用于从所述AI智能监测决策模块获取第一监测参数集合、第二监测参数集合以及优先置信监测参数、主机管控方案,并基于系统管理员反馈,更新主机管控方案发送至所述AI智能监测决策模块,用于替代原管控方案。
本发明提出了一种机房AI智能监测系统,对现有技术中,简单监测机房环境参数的机械化监测方式作出改进,采用多数据源监测系统,将对机房环境参数的监测作为AI智能监测的第一监测源,同时通过对机房主机的拓扑划分,建立主机拓扑矩阵并基于行主机组的划分,在主机之间建立基于行的计算能力集合,监测主机组的运行性能以及负载情况,以主机组为单位,执行机房运行功率的调整和休眠,与之同时,考虑到特定用户的特定主机的操作需求,本申请所提出的机房AI智能监测系统通过引入优先置信监测模块,建立用户与特定主机的映射关系,在执行机房监测并作出运维决策的同时,有限度地保障特定用户对特定主机的操作权限,从而在机房综合监测管理基础之上,适应个性化的机房运维需求,另外,本申请所提出的机房AI智能监测系统采用BP神经网络智能决策机房管控方案,建立运行周期内的三层机房管控策略,同时兼顾机房环境参数、拓扑负载以及机房用户需求。
在所有上述实施方式中,为实现一些特殊的数据传输、读/写功能的要求,上述方法操作过程中及其相应装置可以增加装置、模块、器件、硬件、引脚连接或存储器、处理器差异来扩展功能。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的方法,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述方法步骤的划分,仅仅为一种逻辑或功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为方法的各个步骤、装置分离部件说明的单元可以是或者也可以不是逻辑或物理上分开的,也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各方法步骤及其实现、功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述方法和装置可以以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、NVRAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
应说明的是:以上实施例仅用以更清晰地解释、阐述本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种机房AI智能监测系统,所述系统包括:
至少一个被监测机房,每个所述被监测机房包含多台主机,标识ID为主机1、主机2直至主机M,M为所述被监测机房中的主机数量;
第一监测模块,所述第一监测模块至少用于对所述被监测机房的第一监测参数集合执行参数检测和抽取,并存储至第一监测模块;
所述第一监测参数集合用于表征所述被监测机房的环境信息和维护信息,所述第一监测参数集合至少包含如下参数:
表征被监测机房环境温度变化曲线的参数A1-1;
表征被监测机房单日环境温度最大值的参数A1-2;
表征被监测机房单日环境温度最小值的参数A1-3;
表征被监测机房距离上一次维护的时长参数A2;
所述第一监测模块还用于将第一监测参数集合发送至AI智能监测决策模块;
第二监测模块,所述第二监测模块至少用于对所述被监测机房的第二监测参数集合执行参数检测和抽取,并存储至第二监测模块;
所述第二监测参数集合用于表征所述被监测机房的行主机组负载信息,所述第二监测参数集合至少包含如下参数:
表征被监测机房各个行主机组所包含主机ID集合的集合分布参数B1;
表征被监测机房各个行主机组单日功率消耗均值的参数B21-B2K,所述K为行主机组的数量,参数B21-B2K中的每一个对应被监测机房各个行主机组中的每一个;
所述第二监测模块还用于将第二监测参数集合发送至AI智能监测决策模块;
优先置信监测模块,所述优先置信监测模块监测各个主机ID对应的用户,获取对应主机使用频度最高的用户的用户ID,将其组合成主机ID-用户ID数据对,作为优先置信监测参数C1,发送至AI智能监测决策模块;
AI智能监测决策模块,所述AI智能监测决策模块接收第一监测参数集合、第二监测参数集合以及优先置信监测参数,并基于所述第一监测参数集合、第二监测参数集合以及优先置信监测参数,按照预设AI算法,经BP神经网络智能决策被监测机房的主机管控方案,将所述主机管控方案推送至所述被监测机房,使能所述被监测机房依据所述主机管控方案执行机房管理。
2.如权利要求1所述机房AI智能监测系统,其特征在于,所述至少一个被监测机房,还将在网络拓扑中属于同一行的主机划分至同一行主机组,分配相应组ID。
3.如权利要求1所述机房AI智能监测系统,其特征在于,所述AI智能监测决策模块基于优先置信监测参数C1,为各个主机设定最高优先级用户。
4.如权利要求3所述机房AI智能监测系统,其特征在于:
所述最高优先级用户即为优先置信监测参数C1中的各个主机对应的主机ID-用户ID数据对中的用户ID。
5.如权利要求1所述机房AI智能监测系统,其特征在于:
所述机房AI智能监测系统的所述主机为物联网IoT终端。
6.如权利要求1所述机房AI智能监测系统,其特征在于:所述每个所述被监测机房包含多台主机,具体为:
所述每个所述被监测机房对多个主机执行网络拓扑构建,获取机房内多个主机组成的网络拓扑矩阵,并将在所述网络拓扑矩阵中位于同一行的主机,归集为同一行主机组。
7.如权利要求1所述机房AI智能监测系统,其特征在于:所述主机管控方案至少包含对多个行主机组的管控方案。
8.如权利要求1所述机房AI智能监测系统,其特征在于:所述主机管控方案至少包含第四布尔控制键,所述第四布尔控制键用于所述机房AI智能监测系统控制是否允许最高优先级用户从强制休眠行主机组中唤醒相应主机。
9.如权利要求8所述机房AI智能监测系统,其特征在于:所述主机管控方案至少包含第四布尔控制键,所述第四布尔控制键用于所述机房AI智能监测系统控制是否允许最高优先级用户从强制休眠行主机组中唤醒相应主机,具体为:
当第四布尔控制键为TRUE时,允许最高优先级用户从强制休眠行主机组中唤醒相应主机;
当第四布尔控制键为FALSE时,总是不允许最高优先级用户从强制休眠行主机组中唤醒相应主机,并忽略优先置信监测参数。
10.如权利要求1所述机房AI智能监测系统,其特征在于:
还包括远端监测服务器,用于从所述AI智能监测决策模块获取第一监测参数集合、第二监测参数集合以及优先置信监测参数、主机管控方案,并基于系统管理员反馈,更新主机管控方案发送至所述AI智能监测决策模块,用于替代原管控方案。
CN202211181704.4A 2022-09-27 2022-09-27 一种机房ai智能监测系统 Active CN115599626B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211181704.4A CN115599626B (zh) 2022-09-27 2022-09-27 一种机房ai智能监测系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211181704.4A CN115599626B (zh) 2022-09-27 2022-09-27 一种机房ai智能监测系统

Publications (2)

Publication Number Publication Date
CN115599626A true CN115599626A (zh) 2023-01-13
CN115599626B CN115599626B (zh) 2023-07-28

Family

ID=84844430

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211181704.4A Active CN115599626B (zh) 2022-09-27 2022-09-27 一种机房ai智能监测系统

Country Status (1)

Country Link
CN (1) CN115599626B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015176451A1 (zh) * 2014-05-23 2015-11-26 中兴通讯股份有限公司 拓扑展示方法及装置
CN106949598A (zh) * 2017-03-15 2017-07-14 华北电力大学 网络流量负载变化时的网络中心机房节能优化方法
JP2018055172A (ja) * 2016-09-26 2018-04-05 三菱電機ビルテクノサービス株式会社 エネルギー使用量監視装置、機器管理システム及びプログラム
CN109062756A (zh) * 2018-07-09 2018-12-21 何思阳 一种数据中心集中预警监测的方法和系统
CN114001443A (zh) * 2021-09-27 2022-02-01 中盈优创资讯科技有限公司 一种基于ai的机房节能方法及装置
CN115034536A (zh) * 2022-03-22 2022-09-09 中建八局第二建设有限公司 一种数据中心机房智能用电管理系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015176451A1 (zh) * 2014-05-23 2015-11-26 中兴通讯股份有限公司 拓扑展示方法及装置
JP2018055172A (ja) * 2016-09-26 2018-04-05 三菱電機ビルテクノサービス株式会社 エネルギー使用量監視装置、機器管理システム及びプログラム
CN106949598A (zh) * 2017-03-15 2017-07-14 华北电力大学 网络流量负载变化时的网络中心机房节能优化方法
CN109062756A (zh) * 2018-07-09 2018-12-21 何思阳 一种数据中心集中预警监测的方法和系统
CN114001443A (zh) * 2021-09-27 2022-02-01 中盈优创资讯科技有限公司 一种基于ai的机房节能方法及装置
CN115034536A (zh) * 2022-03-22 2022-09-09 中建八局第二建设有限公司 一种数据中心机房智能用电管理系统

Also Published As

Publication number Publication date
CN115599626B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
US11513480B2 (en) Method and device for automatically diagnosing and controlling apparatus in intelligent building
CN113435657B (zh) 数据集成处理方法、系统、能源管理系统、电子设备及计算机可读存储介质
CN101424436B (zh) 一种中央空调智能优化控制系统及方法
CN110610556A (zh) 机器人巡检管理方法及系统、电子设备、存储介质
CN106054774A (zh) 一种楼宇智能监控系统
CN110425694A (zh) 基于phm的高铁智能车站暖通空调能效控制管理方法
CN111649458B (zh) 空气净化方法、装置、系统、计算机设备和存储介质
CN206132124U (zh) 机房动力环境监控系统
CN109784504A (zh) 数据中心远程智能运维管理方法及系统
CN114139735A (zh) 一种动环监控平台
CN115183421A (zh) 一种中央空调水冷机组节能控制方法、系统和设备
Habib et al. Automatic occupancy prediction using unsupervised learning in buildings data
CN116817424B (zh) 一种基于人工智能的空调节能控制系统及方法
CN115599626A (zh) 一种机房ai智能监测系统
CN111158763B (zh) 一种用于建筑智能化管控的设备指令处理系统
CN112700772A (zh) 基于硬件识别的智能语音系统及方法
CN104950778A (zh) 数据中心的监控系统
CN110388723A (zh) 空调与照明设备能效监测方法、装置、服务器和存储介质
CN111339641A (zh) 制冷系统管理方法、装置、云平台及存储介质
CN112484255B (zh) 一种节能型暖通空调系统及楼宇自控方法
CN115225502A (zh) 一种基于sdn架构的数据中心数字化映射dcim系统
CN115388520A (zh) 空调控制方法、空调控制装置、空调及存储介质
CN108572631B (zh) 一种基于二型模糊认知图的智能控制系统及方法
CN113469580A (zh) 生态修复设备系统的能耗管理方法
CN106152402B (zh) 一种建筑综合节能管控系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant