CN110502356A - 用以监测计算基础设施设备中的计算硬件的系统 - Google Patents

用以监测计算基础设施设备中的计算硬件的系统 Download PDF

Info

Publication number
CN110502356A
CN110502356A CN201910407689.2A CN201910407689A CN110502356A CN 110502356 A CN110502356 A CN 110502356A CN 201910407689 A CN201910407689 A CN 201910407689A CN 110502356 A CN110502356 A CN 110502356A
Authority
CN
China
Prior art keywords
malfunction
hardware
computing
computing hardware
operation status
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910407689.2A
Other languages
English (en)
Other versions
CN110502356B (zh
Inventor
V·S·文卡特桑
A·哈里达斯
D·B·钦纳克康达·维德亚普尔纳查理
A·约瑟夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN110502356A publication Critical patent/CN110502356A/zh
Application granted granted Critical
Publication of CN110502356B publication Critical patent/CN110502356B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2263Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/325Display of status information by lamps or LED's
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources

Abstract

本申请的各实施例涉及用以监测计算基础设施设备中的计算硬件的系统。实施例涉及监测计算基础设施设备中的计算硬件。图像数据和环境数据被接收,并且针对计算硬件组件的当前操作状态从图像数据被确定。针对计算硬件组件的硬件操作状态跟踪模型和环境跟踪模型被更新。如果当前操作状态是故障状态,则实施例可以执行根本原因分析以确定故障状态是否由环境条件引起。

Description

用以监测计算基础设施设备中的计算硬件的系统
技术领域
本发明涉及监测计算基础设施设备(computing infrastructure facility)的操作条件,并且更具体地涉及针对故障状况非侵入性地监测计算硬件。
背景技术
在诸如代管(colocation)数据中心的当前计算基础设施设备中,设施的管理者、所有者和/或提供方提供用以容纳计算硬件的设施(例如,建筑空间)。被容纳在计算基础设施设备中的各种计算硬件的故障已知由于各种原因而发生,这些原因包括数据中心设施环境因素,诸如温度、湿度和污染以及与磨损相关的其他原因。设施的提供方需要确定故障原因是环境性的还是由于硬件磨损的能力。在当前的计算基础设施设备中,必须使用管理控制台来访问与各种计算硬件的硬件故障相关的信息。为了确保计算硬件以及被创建、传输和/或存储在计算硬件上的数据的隐私和安全性,设施提供方可能不能直接访问计算硬件以确定硬件故障的原因。此外,在计算基础设施设备中被使用的设备的异构性质(包括不同类型的计算硬件(服务器、联网、存储等)和不同的计算硬件制造商)使设施提供方对计算硬件的有效监测复杂化。
发明内容
根据本公开的一个实施例,一种用于监测计算基础设施设备中的计算硬件的方法包括:接收使用一个或多个相机设备而被捕获并且表示针对一个或多个计算硬件组件的一个或多个显示器的输出的图像数据,从一个或多个传感器接收表示计算基础设施设备的环境条件的环境数据,利用当前操作状态更新针对计算硬件组件的硬件操作状态跟踪模型,并且利用环境条件更新针对计算基础设施设备的环境跟踪模型,并且当针对计算硬件组件的当前操作状态包括故障状态时,通过经由机器学习模型处理硬件操作状态跟踪模型和环境跟踪模型来针对故障状态执行根本原因分析,以确定故障状态是否为环境故障状态。
根据本公开的另一实施例,一种用于监测计算基础设施设备中的计算硬件的系统,该系统包括:一个或多个计算机处理器、一个或多个传感器以及包含程序的存储器,该程序在由处理器执行时执行操作。该操作包括从一个或多个传感器接收包括针对一个或多个计算硬件组件的一个或多个显示器的图像数据,从接收的图像数据确定针对一个或多个计算硬件组件中的计算硬件组件的当前操作状态,从一个或多个传感器接收表示计算基础设施设备的环境条件的环境数据,利用当前操作状态更新针对计算硬件组件的硬件操作状态跟踪模型,并且利用环境条件更新针对计算基础设施设备的环境跟踪模型,并且当针对计算硬件组件的当前操作状态包括故障状态时,通过经由机器学习模型处理硬件操作状态跟踪模型和环境跟踪模型来针对故障状态执行根本原因分析,以确定故障状态是否为环境故障状态。
根据本公开的另一实施例,一种用于监测计算基础设施设备中的计算硬件的计算机程序产品,该计算机程序产品包括计算机可读存储介质,该计算机可读存储介质具有利用其而被体现的计算机可读程序代码,这些计算机可读程序代码由一个或多个计算机处理器可执行以执行操作,该操作包括:接收使用一个或多个相机设备而被捕获并且表示针对一个或多个计算硬件组件的一个或多个显示器的输出的图像数据,从接收的图像数据确定针对一个或多个计算硬件组件中的计算硬件组件的当前操作状态,从一个或多个传感器接收表示计算基础设施设备的环境条件的环境数据,利用当前操作状态更新针对计算硬件组件的硬件操作状态跟踪模型,并且利用环境条件更新针对计算基础设施设备的环境跟踪模型,并且当针对计算硬件组件的当前操作状态包括故障状态时,通过经由器学习模型处理硬件操作状态跟踪模型和环境跟踪模型来针对故障状态执行根本原因分析,以确定故障状态是否为环境故障状态。
附图说明
图1描绘了根据一个实施例的计算基础设施设备;
图2A示出了根据一个实施例的计算硬件监测传感器;
图2B示出了根据一个实施例的硬件状态面板;
图3A示出了根据一个实施例的具有故障状况的硬件状态面板;
图3B示出了根据一个实施例的具有部分故障状况的硬件状态面板;
图4示出了根据一个实施例的用以促进监测计算基础设施设备中的计算硬件的示例性系统;
图5是根据一个实施例的用以促进监测计算基础设施设备中的计算硬件的服务器的框图;
图6示出了根据一个实施例的用以监测计算基础设施设备中的计算硬件的方法;
图7示出了根据一个实施例的用以确定针对计算硬件的当前操作状态的方法;
图8示出了根据一个实施例的用以针对故障状态执行根本原因分析的方法;以及
图9示出了根据一个实施例的用以执行未来故障分析的方法。
具体实施方式
本文中描述的实施例提供了一种方式,其中计算基础设施设备的提供方可以非侵入地监测被容纳在设施中的计算硬件组件的运作(functioning)。在一些计算基础设施设备(诸如代管数据中心)中,设施的提供方提供建筑物并且控制设施的环境,但是不能访问被容纳在设施中的硬件。当被容纳在设施中的计算硬件组件(例如,服务器和存储组件)故障时,可能存在多种不同的原因,包括环境原因以及硬件磨损或其他硬件特定原因。在一些示例中,由设施提供方管理的一些环境条件可能随着时间而导致某些类型的硬件故障。例如,较高的环境湿度可能导致较高水平的磁盘故障和由于腐蚀和其他因素的腐蚀相关硬件故障。这些故障降低了在计算基础设施设备中操作的系统的可靠性和稳定性。
设施提供方希望将可能导致环境硬件故障的条件最小化,并且还希望确保非环境硬件故障不被归类为设施提供方的责任。然而,由设备提供方对被容纳在设施中的硬件的直接监测通常是不可能的,因为硬件组件由硬件组件管理者或客户/业务单位保护。
根据本文中描述的系统和方法,设施提供方可以非侵入地监测被容纳在设施中的硬件组件。设施提供方还可以使用一个或多个机器学习模型来确定硬件故障的根本原因分析并且预测未来的故障。
图1描绘了根据一个实施例的计算基础设施设备100(设施100)。如图所示,计算基础设施设备100可以包括数据中心和/或代管数据中心。代管数据中心可以包括数据中心设施,其中管理者、所有者和/或设施提供方(提供方)针对客户端、客户和/或业务单位(多个或一个业务单位)提供用以容纳计算硬件的设施(例如,建筑物/地板空间、电源、环境控制、联网带宽、物理安全性等)。客户端、客户和/或业务单位可以占用设施100中的空间并且提供它们自己的计算硬件以用于容纳在设施100中。这允许业务单位维护设施100中的硬件和硬件上的数据的隐私和安全性。计算基础设施设备100可以包括在一个或多个硬件行104中的一个或多个计算硬件组件,诸如计算硬件组件102。计算硬件组件102可以包括一个或多个服务器、刀片服务器、机架安装的服务器、计算机、计算机监视器、路由器、交换机、调制解调器、消防单元、电源、数字和物理安全单元、数据存储单元、环境控制和其他常见的数据中心硬件组件。如图所示,计算硬件组件102可以被组织成硬件行104,在其他示例中,硬件行104可以被组织成其他组织结构,诸如列、组、过道等。在一个示例中,每个硬件行104可以被分配给一个业务单位。在另一示例中,硬件行104可以包含来自一个或多个业务单位的硬件。
计算基础设施设备100还可以包括硬件监测系统150、环境控制和测量系统155以及计算基础设施设备控制系统160。计算基础设施设备控制系统160可以包括被配置为监测和控制设施100的一个或多个硬件和软件组件,包括硬件监测系统150、环境控制和测量系统155、以及对诸如安全系统、联网系统和电源系统等数据中心所共有的其他硬件和软件系统。在一些示例中,环境控制和测量系统155可以包括被配置为控制一个或多个设备以控制设施100的环境的控制系统。例如,系统155可以控制加热、通风和空调(HVAC)系统、风扇、散热器、设施照明、除湿机、空气过滤器、气流装置、水处理和流动装置、以及电力和电气系统。系统155还可以包括被配置为测量环境的某些属性的环境传感器,包括温度计、湿度传感器、空气颗粒传感器等。传感器可以围绕设施100而被分布并且通过网络连接而被连接到系统155。
在一些示例中,硬件监测系统150、环境控制和测量系统155以及计算基础设施设备控制系统160可以被并置在诸如服务器450和/或计算机501的单个计算实体中,如关于图4和图5而被描述的。计算实体可以被定位在设施100的内部,或者可以被定位在远离设施100的位置,诸如在云计算系统中。在一些示例中,硬件监测系统150、环境控制和测量系统155以及计算基础设施设备控制系统160可以包括通过(多个)连接152而被连接的分离的计算系统。网络152可以是电信网络、广域网(WAN)、局域网(LAN)、有线网络、无线网络、内联网和/或因特网。
计算基础设施设备100还可以包括被配置为接收关于计算硬件组件102的操作状态的信息的一个或多个计算硬件监测传感器(HMS)106。HMS 106可以被配置为收集针对单个计算硬件组件102或多个计算硬件组件102的信息。如关于图3和图4而被更详细地描述的,HMS 106可以包括被配置为从硬件组件102的硬件状态面板收集信息的一个或多个图像传感器(例如,相机)。在一些示例中,HMS 106通过(多个)连接154而被连接到硬件监测系统,连接154类似于连接152。在一些示例中,HMS 106可以被组织成一个或多个传感器阵列108,其中传感器阵列108提供计算硬件组件102和硬件行104的完全传感器覆盖。HMS 106和传感器阵列108被可以配置为连续地监测设施100中的每个计算硬件组件102。在另一示例中,HMS 106和/或传感器阵列108可以被配置为根据计划(schedule)来监测设施100中的计算硬件组件。例如,包括固定相机的HMS 106可以被配置为从选定数量的计算硬件组件102连续地收集图像数据。在另一示例中,包括旋转相机的HMS 106可以被配置为在多个视角之间枢转以从更宽范围的计算硬件组件102收集数据。虽然本文中关于图像传感器和图像数据而被描述,但是HMS 106可以包括被配置为收集指示计算硬件组件102的操作状态(例如,可听硬件故障警报)的数据的多个传感器(例如,听觉、温度等)。
图2A示出了根据一个实施例的计算硬件监测传感器。HMS 106可以包括一个或多个传感器,诸如图像传感器(例如,相机)。如图所示,HMS 106包括被配置为收集包括针对计算硬件组件202a-202g的一个或多个显示器的图像数据的相机。如图所示,计算硬件组件可以被安装在服务器机架210中。计算硬件组件202a-202g中的每个计算硬件组件包括诸如硬件状态面板204a-204g的显示器。HMS 106被配置为捕获视场(FOV)206中的图像数据。在一些示例中,FOV 206包括捕获硬件状态面板204a-204g的图像的区域。虽然被图示为捕获单个机架;但是FOV 206可以捕获表示多个机架和硬件组件的图像数据。
在一些示例中,硬件状态面板204a-204g可以包括被配置在面板中的一个或多个发光二极管(LED)以呈现对计算硬件组件的操作状态的指示。例如,如图2b中所示,硬件状态面板204a可以包括LED 302、304、306、308、310、312和314,它们被单独地和一起地配置为指示图2A中所示的计算硬件组件202a的操作状态。如图2B中所示,LED 302-314可以被配置为点亮多种颜色,诸如红色(LED 304)、蓝色(LED 308)和绿色(LED 312)。LED 302-314还可以被配置为点亮为单个颜色(LED 302)、闪烁单个颜色(LED 306)、和/或闪烁多个颜色,诸如红色、绿色、蓝色等的组合(LED 310)。在一些示例中,LED可以不被点亮,其也可以被用于指示计算硬件组件202a的操作状态。
图3A和图3B示出了硬件状态面板204a的示例性照明和对应的操作状态。图3A示出了根据一个实施例的具有故障状况的硬件状态面板。操作状态可以被组织为操作条件集300,包括状态322-336。例如,如在操作状态322中所示,LED 302-314都是纯绿色,从而指示硬件组件202a的硬件系统和子系统正在正常操作。操作状态324-336各自具有LED 302-314中的唯一对应的照明模式。例如,由操作状态332所示的存储故障包括闪烁的红色LED 306,而LED 302、304、308、310、312和314全部点亮为纯绿色。在一些示例中,多个闪烁LED可以指示多个故障。例如,LED 304和LED 312均闪烁红色可以指示操作状态326和操作状态334都被指示,从而指示硬件组件202a正在经历存储器和电源故障。
图3B示出了根据一个实施例的具有部分故障状况的硬件状态面板。操作状态可以被组织为操作条件集350,包括状态352-366。在一些示例中,操作条件集350可以包括操作条件300的一部分,和/或可以被存储在系统的相同位置中。类似于操作条件322,操作条件352是正常或无故障状态。如图所示,操作状态354-366包括LED 302-314中的唯一对应的照明模式,每个模式指示部分故障操作状态。例如,当LED 308闪烁蓝色时,硬件组件202a正在经历输入/输出系统中的部分故障,如由操作状态360所示。在一些示例中,硬件状态面板204a和LED 302-314可以指示硬件组件202a的多个故障、部分故障和其他操作条件。
在一些示例中,硬件状态面板204a可以包括与诸如硬件状态面板204b-204g的其他硬件状态面板不同的配置。例如,硬件组件202a-202g(和各种硬件组件102)的多个制造商可以在他们制造的硬件组件上实现不同的硬件状态面板。针对各种制造商的每组操作条件可以由硬件监测系统150存储或访问以便提供对设施100中的硬件组件的跨平台监测。可以由硬件设备管理器提供针对硬件设备管理器容纳在设施100中的设备的操作条件集300和350。在一些示例中,操作条件集300和350可以包括从硬件组件102的制造商可获取的标准操作条件集。
图4示出了根据一个实施例的用以促进监测计算基础设施设备100中的计算硬件的示例性系统400。如图1和图6中所示,系统400可以包括设施100内的各种组件。系统400还可以包括在设施100外部的组件。例如,服务器450可以远离设施100,诸如在云计算系统中或在中央控制中心处。
设施100内的组件包括一个或多个硬件监测传感器405,包括视觉传感器406。传感器405还可以包括能够提供关于硬件组件的操作状态的有意义信息的其他传感器407,诸如可听传感器。传感器405可以是在固定和/或可移动的位置贯穿设施100而被分布分立传感器装置,诸如图1中所示的HMS 106。在一些示例中,传感器405可以被布置成组或阵列,诸如传感器阵列108。传感器405可以位于固定位置,诸如被包括在设施100的墙壁、地板、天花板和其他结构中。在一个实施例中。传感器405可以包括可调节位置传感器装置,诸如机动相机(即,视觉传感器406的示例)。在一个实施例中,传感器405可以被包括在被配置为行进通过设施100的一个或多个无人驾驶车辆(诸如无人驾驶地面车辆(UGV)或无人驾驶飞行器(UAV或“无人驾驶飞机”))上。传感器405还可以包括被包括在与设施100相关联的计算设备中的传感器装置,诸如由设施100的雇员携带的移动设备。
在设施100内还包括环境测量和控制系统410的一个或多个组件,包括环境传感器411。传感器411可以包括温度传感器412、湿度传感器413,并且还可以包括能够提供关于设施100的环境条件的有意义信息的其他传感器414,诸如颗粒传感器。与传感器405类似,传感器411可以是在固定和/或可移动位置贯穿设施100而被分布的分立传感器装置。传感器还可以被并入设施100中的环境控制设备中,诸如作为(HVAC)系统的一部分、风扇、散热器、设施照明、除湿器、空气过滤器、气流设备、水处理和流动设备。传感器411也可以处于固定位置,诸如被包括在设施100的墙壁、地板、天花板和其他结构中。在一个实施例中,传感器411也可以被包括在被配置为行进通过设施100的一个或多个无人驾驶车辆(诸如UGV或UAV)上。传感器411还可以包括被包括在与设施100相关联的计算设备中的传感器装置,诸如由设施100的雇员携带的移动设备。
服务器450通常包括(多个)处理器、存储器和通信能力,并且被配置为执行各种计算任务以支持设施100的管理和操作。服务器450可以使用各种有线和/或无线通信方法与传感器405以及与其他联网设备通信。服务器450通常执行计算机程序代码,其中输入数据从联网设备被接收,输入数据由服务器处理和/或存储,并且输出数据被提供给联网设备以用于设施100的管理和操作。在一些示例中,关于图1而被描述的硬件监测系统150、环境控制和测量系统155以及计算基础设施设备控制系统160都可以位于服务器450上和/或由服务器450执行。
硬件设备管理器(hardware equipment manager)接口460包括设施100与北容纳在设施100中的硬件组件的(多个)所有者之间的接口。如上所述,硬件设备管理器控制对设施中的硬件组件(例如,硬件组件102)的数字访问。在一些示例中,硬件设备接口460被配置为向服务器450提供硬件组件102的操作条件。在一些示例中,接口460可以提供关于图3而被描述的操作条件集300和350。
网络420可以包括各种类型的一个或多个网络,包括局域网或本地接入网络(LAN)、通用广域网(WAN)和/或公共网络(例如,因特网)。在一个实施例中,系统400的各种联网计算设备使用LAN而被互连,并且一个或多个计算设备(例如,服务器450、硬件设备管理器460等)包括去往因特网的连接。
图5是根据一个实施例的用以促进监测计算基础设施设备100中的计算硬件的服务器(诸如服务器450)的框图。如图5中所示,布置500可以包括被体现为计算机501的服务器450,计算机501被配置为执行系统150的功能。计算机501以通用计算设备的形式被示出。计算机501的组件可以包括但不限于一个或多个处理器或处理单元505、系统存储器510、存储系统520、网络接口530和总线550,总线550将各种系统组件(包括系统存储器510和存储系统520)以及各种输入/输出组件540耦合到处理器505。在其他实施例中,布置500是分布式的,并且包括通过有线或无线联网而被连接的多个分立计算设备。
总线550表示使用各种总线架构中的任何总线架构的几种类型的总线结构中的任何一种或多种,包括存储器总线或存储器控制器、外围总线、加速图形端口和处理器或本地总线。作为示例而非限制,这样的架构包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)本地总线和外围组件互连(PCI)总线。
计算机501通常包括各种计算机系统可读介质。这样的介质可以是计算机501可访问的任何可用介质,并且包括易失性和非易失性介质、可移除和不可移除介质。
系统存储器510可以包括易失性存储器形式的计算机系统可读介质,诸如随机存取存储器(RAM)和/或高速缓冲存储器。计算机501还可以包括其他可移除/不可移除、易失性/非易失性计算机系统存储介质。作为示例,存储系统520可以被提供以用于从不可移除的非易失性磁介质(未被示出并且通常被称为“硬盘驱动”)读取和向其写入。尽管未被示出,但是可以提供用于从可移除的非易失性磁盘(例如,“软盘”)读取和向其写入的磁盘驱动以及用于从可移除的非易失性光盘(诸如CD-ROM、DVD-ROM或其他光学介质)读取或向其写入的光盘驱动。在这样的情况中,每个都可以通过一个或多个数据媒体接口而被连接到总线550。如下面将被进一步描绘和描述的,存储器510可以包括具有被配置为执行本发明的实施例的功能的一组(例如,至少一个)程序模块的至少一个程序产品。
计算机501还可以包括其他可移除/不可移除的易失性/非易失性计算机系统存储介质。在一些示例中,存储系统520可以被包括作为存储器510的一部分,并且通常可以针对联网的计算设备提供非易失性存储器,并且可以包括一个或多个不同的存储元件,诸如闪存、硬盘驱动、固态驱动、光学存储设备和/或磁存储设备。例如,存储系统520可以被提供以用于从不可移除的非易失性磁介质(未被示出并且通常被称为“硬盘驱动”)读取和向其写入。尽管未被示出,但是可以提供用于从可移除的非易失性磁盘(例如,“软盘”)读取和向其写入的磁盘驱动以及用于从可移除的非易失性光盘(诸如CD-ROM、DVD-ROM或其他光学介质)读取或向其写入的光盘驱动。在这样的情况中,每个都可以通过一个或多个数据媒体接口而被连接到总线550。存储器520可以包括用于存储操作条件521(包括操作条件集300和350)的介质。存储系统520还可以包括跟踪模型522,跟踪模型522可以包括表示硬件跟踪模型523和环境跟踪模型525的数据,这些数据可以由本文中描述的程序模块515更新和访问,程序模块515包括操作建模模块513和机器学习处理模块514。存储系统520还可以包括机器学习模型525,机器学习模型525可以包括在本文中被描述的机器学习过程中使用的参数和输出,诸如由机器学习处理模块514。存储系统520还可以包括被存储用于由计算机501访问和使用的其他信息526。
存储器510可以包括用于执行本文中描述的各种功能的多个模块515。模块515通常包括由处理器505中的一个或多个处理器可执行的程序代码。如图所示,模块515包括图像处理模块511、图像处理模块511和监测模块512、操作建模模块513和机器学习处理模块514。
模块515还可以彼此交互以及与存储系统520交互以执行某些功能。例如,图像处理模块511可以被配置为从一个或多个传感器(诸如硬件监测传感器541)接收使用一个或多个相机设备而被捕获并且表示针对一个或多个计算硬件组件的一个或多个显示器的输出的图像数据。图像数据可以包括如关于图2A、图2B、图3A和图3B而被描述的图像数据,这样的图像数据包括硬件状态面板,其包括LED。在一些示例中,表示一个或多个计算硬件组件的操作状态的图像数据包括与一个或多个计算硬件组件(诸如硬件组件202a)相关联的发光面板布置(诸如图2A和图2B中的硬件状态面板204a)的图像数据,其中发光面板布置(硬件状态面板204a)包括被配置为发射一个或多个光图案的一个或多个灯(LED 302-314),其中一个或多个光图案表示一个或多个相关联的计算硬件组件的一个或多个操作状态。
图像处理模块511还可以结合操作状态条件521而被配置以从接收的图像数据确定针对一个或多个计算硬件组件中的计算硬件组件的当前操作状态。例如,图像处理模块511可以将表示操作状态的图像数据与一组预定义操作状态条件比较,诸如将接收的图像数据与被存储在操作状态条件521中的操作条件集300比较,并且确定当LED302-314全部被点亮为绿色时,硬件状态面板204a指示硬件组件202a正在正常运作,如在操作状态322中所示。
在一些实施例中,监测模块512可以被配置为从图像数据与该组预定义操作状态条件的比较来确定当前操作状态为故障状态。例如,如果比较指示操作状态334,则监测模块512确定操作状态为故障状态。监测模块512然后可以生成将当前操作状态表示为故障状态的警报,并且向诸如系统160的控制系统传输警报。在一些示例中,警报也可以被传输给硬件设备管理器460以用于进一步分析。
监测模块512还可以被配置为从一个或多个传感器542接收表示计算基础设施设备100的环境条件的环境数据。环境数据可以包括湿度、颗粒浓度、温度等。
在一些实施例中,操作建模模块513可以被配置为更新针对计算硬件组件的硬件操作状态跟踪模型,诸如硬件跟踪模型523。操作建模模块513还可以被配置为利用环境条件更新针对计算基础设施设备100的环境跟踪模型,诸如环境跟踪模型524。
在一些示例实施例中,机器学习处理模块514可以被配置为训练机器学习模型和从机器学习模型学习,并且通过经由机器学习模型(诸如被存储在机器学习模型525中的机器学习模型)处理硬件操作状态跟踪模型(例如,模型523)和环境跟踪模型(例如,模型524)来针对故障状态执行根本原因分析,以首先构建和/或训练分析机器学习模型并且执行队故障状态的根本原因分析并且预测未来故障状态。当环境跟踪模型包含用于导致故障状态的相关环境条件时,机器学习处理模块514还可以确定故障状态为环境故障状态,和/或当环境跟踪模型不包含用于导致故障状态的相关环境条件时,机器学习处理模块514可以定故障状态不是环境故障状态时。在一些示例中,机器学习模型可以包括监督学习模型。在一些示例中,机器学习处理模块514还利用对故障状态是否为环境故障状态的确定来进一步训练或更新监督学习模型,以便未来的环境故障状态基于监督学习模型而被确定或预测。
计算机501还可以与以下各项通信:一个或多个外部设备,诸如键盘、指示设备、显示器等;以及使得用户能够与计算机501交互的一个或多个设备;和/或使得计算机501能够与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)。这样的通信可以经由I/O接口540发生。另外,计算机501可以经由网络接口530与一个或多个网络(诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如,互联网))通信。计算机501还可以通过网络接口530与硬件设备管理器460和机器学习系统通信。例如,本文中描述的机器学习模型可以通过可以提高模型的预测准确性的各种建模方法而被构建,这些建模方法诸如支持向量机、聚类(计算机视觉模型)、神经网络、深度学习和/或其他集合方法。如图所示,网络接口530经由总线550与计算机501的其他组件通信。应当理解,尽管未被示出,但是其他硬件和/或软件组件可以与计算机501结合而被使用。示例包括但不是仅限于:云计算系统、微代码、设备驱动程序、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动和数据存档存储系统等。
在一些示例中,I/O接口540硬件监测传感器541、环境传感器542,其可以包含在图4中被描绘的各种传感器405和411。传感器541和542可以被细分为由设施100内的人员佩戴或携带的佩带(或携带)传感器以及被布置在环境内的固定或可移动位置处的分布式传感器(诸如传感器阵列108)。
图6示出了根据一个实施例的用以监测计算基础设施设备中的计算硬件的方法。方法600开始于框602,其中图像数据被接收到硬件监测系统150中。例如,系统150包括图像处理模块511,图像处理模块511接收使用一个或多个摄像机设备而被捕获并且表示针对一个或多个计算硬件组件的一个或多个显示器的输出的图像数据。例如,图像数据可以从一个或多个传感器(例如,HMS 106)被接收,并且包括一个或多个计算硬件组件202a-202g的显示。在一些示例中,图像数据包括与一个或多个计算硬件组件相关联的发光面板布置的图像数据,其中发光面板布置包括被配置为发射一个或多个光图案的一个或多个灯,其中一个或多个光图案表示一个或多个相关联的计算硬件组件的一个或多个操作状态,如关于图2A至图3B而被描述的。
在框604,包括图像处理模块511的系统150然后可以从接收的图像数据确定针对一个或多个计算硬件组件中的计算硬件组件的当前操作状态。例如,图像处理模块511结合存储的操作条件集300可以确定操作状态为操作状态358,操作状态358指示硬件组件202a具有冷却子系统部分故障。
在框606,包括监测模块512的系统150从一个或多个传感器接收表示计算基础设施设备的环境条件的环境数据。在框608,包括操作建模模块513的系统150可以利用当前操作状态来更新针对计算硬件组件的硬件操作状态跟踪模型,并且利用环境条件来更新针对计算基础设施设备的环境跟踪模型。例如,模块513可以基于框604中的确定、利用故障状态或正常状态来更新硬件模型523,并且可以利用接收的湿度和温度测量来更新环境模型524。
在框610,包括机器学习处理模块514过程的系统150被配置为通过经由机器学习模型(诸如机器学习模型525)处理硬件操作状态跟踪模型(诸如硬件模型523)和环境跟踪模型(诸如环境模型524)来针对故障状态执行根本原因分析,以确定故障状态是否为环境故障状态。
图7示出了根据一个实施例的用以确定针对计算硬件的当前操作状态的方法。方法700开始于框702,其中包括图像处理模块511的系统150将表示操作状态的图像数据与一组预定义操作状态条件比较。在一些示例中,框702可以包括确定针对计算硬件组件的当前操作状态的示例,如关于图6而被描述的。
在框704,包括监测模块512的系统150根据比较确定当前操作状态为故障状态。在框706,包括监测模块512的系统150生成将当前操作状态表示为故障状态的警报。在一些示例中,警报可以包括系统具有故障的指示。在一些示例中,警报可以被配置为诸如通过硬件设备管理器接口460而被发送给诸如硬件设备管理器的第三方。在框708,包括监测模块512的系统150向诸如系统160的控制系统传输警报。警报还可以被传输给硬件设备管理器。
图8示出了根据一个实施例的用以针对故障状态执行根本原因分析的方法。方法800开始于框802,当环境跟踪模型包含用于导致故障状态的相关环境条件时,包括机器学习处理模块514的系统150从机器学习模型确定故障状态为环境故障状态。在框804,当环境跟踪模型不包含用于导致故障状态的相关环境条件时,包括机器学习处理模块514的系统150从机器学习模型确定故障状态不是环境故障状态。在一些示例中,故障状态是否为环境故障状态或者不是环境故障状态的确定被进一步用于训练或更新机器学习模型,以便确定未来的环境故障状态。
图9示出了根据一个实施例的用以执行未来故障分析(例如,预测未来的环境故障状态)的方法。方法9开始于框902,其中包括机器学习处理模块514的系统150通过机器学习模型处理硬件操作状态跟踪模型和环境跟踪模型。在一些示例中,机器学习模型可以包括已经根据环境故障状况的先前的确定而被训练的监督学习模型。
在框904,当环境跟踪模型(诸如经训练的监督学习模型)包含用于导致未来故障状态的环境条件时,包括机器学习处理模块514的系统150确定未来故障状态。在框906,包括监测模块512的系统150向控制系统传输包括未来故障状态的未来故障警报。未来故障警报也可以通过硬件设备管理器接口460被传输给硬件设备管理器。
已经出于说明的目的给出了对本发明的各种实施例的描述,但是这些描述并不旨在穷举或限制于所公开的实施例。在不脱离所描述的实施例的范围和精神的情况下,很多修改和变化对于本领域普通技术人员来说是很清楚的。选择本文中使用的术语是为了最好地解释实施例的原理、对市场中发现的技术的实际应用或技术改进,或者使得本领域其他技术人员能够理解本文中公开的实施例。
在下文中,参考本公开中呈现的实施例。然而,本公开的范围不限于具体描述的实施例。相反,预期以下特征和元素的任何组合(无论是否与不同的实施例相关)都可以实现和实践预期的实施例。此外,尽管本文中公开的实施例可以实现优于其他可能的解决方案或优于现有技术的优点,但是是否通过给定实施例实现特定优点不是对本公开的范围的限制。因此,以下方面、特征、实施例和优点仅是说明性的,并且不被认为是所附权利要求的元素或限制,除非在权利要求中明确地陈述。同样地,除非在权利要求中明确叙述,否则对“本发明”的引用不应当被解释为是本文中公开的任何发明主题的概括,并且不应当被认为是所附权利要求的要素或限制。
本发明的各方面可以采用完全硬件实施例、完全软件实施例(包括固件、常驻软件、微代码等)或者组合软件和硬件方面的实施例的形式,软件和硬件方面在本文中可以被统称为“电路”、“模块”或“系统”。
本发明可以是系统、方法和/或计算机程序产品。该计算机程序产品可以包括其上具有用于引起处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、依赖于机器的指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任何组合而被编写的源代码或目标代码,包括诸如Smalltalk、C++等面向对象的编程语言以及诸如“C”编程语言或类似编程语言的传统过程编程语言。计算机可读程序指令可以完全在用户的计算机上、部分在用户的计算机上、作为独立的软件包、部分地在用户的计算机上并且部分地在远程计算机上、或者完全在远程计算机或服务器上执行。在后一种情况中,远程计算机可以通过任何类型的网络被连接到用户的计算机,这些网络包括局域网(LAN)或广域网(WAN),或者可以被进行到外部计算机的连接(例如,通过使用互联网服务提供方的互联网)。在一些实施例中,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息将电子电路个性化来执行计算机可读程序指令,以便执行本发明的各方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本发明的实施例可以通过云计算基础设施被提供给终端用户。云计算通常是指提供通过网络提供可扩展计算资源作为服务。更正式地,云计算可以被定义为提供计算资源与它的底层技术架构(例如,服务器、存储装置、网络)之间的抽象的计算能力,从而支持对可配置计算资源的共享池的方便的按需网络访问,这些资源可以利用最少的管理工作或服务提供方交互而被快速地提供和发布。因此,云计算允许用户访问“云”中的虚拟计算资源(例如,存储装置、数据、应用、甚至完整的虚拟化计算系统),而不考虑被用于提供计算资源的基础物理系统(或那些系统的位置)。
通常,基于按使用付费的方式向用户提供云计算资源,其中仅针对实际使用的计算资源(例如,由用户消耗的存储空间的量或由用户实例化的虚拟化系统的数目)来向用户收费。用户可以随时从跨因特网的任何位置访问驻留在云中的资源中的任何资源。在本发明的上下文中,用户可以访问在云中可用的应用,诸如系统150或相关数据。例如,系统150可以在云中的计算系统上执行。这样做允许用户从被附接到被连接到云的网络(例如,因特网)的任何计算系统访问相关信息并且执行系统150的功能。
虽然前述内容涉及本发明的实施例,但是可以在不脱离本发明的基本范围的情况下设想本发明的其他和另外的实施例,并且本发明的范围由所附权利要求确定。

Claims (10)

1.一种用于监测计算基础设施设备中的计算硬件的方法,所述方法包括:
接收使用一个或多个相机设备而被捕获并且表示针对一个或多个计算硬件组件的一个或多个显示器的输出的图像数据;
从接收的所述图像数据确定针对所述一个或多个计算硬件组件中的计算硬件组件的当前操作状态;
从一个或多个传感器接收表示所述计算基础设施设备的环境条件的环境数据;
利用所述当前操作状态更新针对所述计算硬件组件的硬件操作状态跟踪模型,并且利用所述环境条件更新针对所述计算基础设施设备的环境跟踪模型;以及
当针对计算硬件组件的所述当前操作状态包括故障状态时,通过经由机器学习模型处理所述硬件操作状态跟踪模型和所述环境跟踪模型来针对所述故障状态执行根本原因分析,以确定所述故障状态是否为环境故障状态。
2.根据权利要求1所述的方法,其中确定针对计算硬件组件的所述当前操作状态还包括:
将表示所述操作状态的所述图像数据与一组预定义操作状态条件比较。
3.根据权利要求2所述的方法,还包括:
从所述比较确定所述当前操作状态为故障状态;
生成将所述当前操作状态表示为故障状态的警报;以及
向控制系统传输所述警报。
4.根据权利要求1所述的方法,还包括:
其中所述机器学习模型包括监督学习模型。
5.根据权利要求1所述的方法,其中针对所述故障状态执行根本原因分析还包括:
当所述环境跟踪模型包含用于导致所述故障状态的相关环境条件时,从所述机器学习模型确定所述故障状态为环境故障状态;以及
当所述环境跟踪模型不包含用于导致所述故障状态的相关环境条件时,从所述机器学习模型确定所述故障状态不是环境故障状态。
6.根据权利要求1所述的方法,还包括:
通过以下各项执行未来故障分析:
通过所述机器学习模型处理所述硬件操作状态跟踪模型和所述环境跟踪模型;以及
当所述环境跟踪模型包含用于导致未来故障状态的环境条件时,确定所述未来故障状态将发生;以及
向控制系统传输包括所述未来故障状态的未来故障警报。
7.根据权利要求1所述的方法,其中所述图像数据包括与所述一个或多个计算硬件组件相关联的发光面板布置的图像数据,其中所述发光面板布置包括被配置为发射一个或多个光图案的一个或多个灯,其中所述一个或多个光图案表示相关联的所述一个或多个计算硬件组件的一个或多个操作状态。
8.一种用于监测计算基础设施设备中的计算硬件的系统,所述系统包括:
一个或多个计算机处理器;
一个或多个传感器;
一个或多个相机;以及
存储器,所述存储器包含程序,所述程序在由所述处理器执行时执行包括根据权利要求1至7中任一项所述的方法的步骤的操作。
9.一种用于监测计算基础设施设备中的计算硬件的计算机程序产品,所述计算机程序产品包括:
计算机可读存储介质,所述计算机可读存储介质具有利用其而被体现的计算机可读程序代码,所述计算机可读程序代码由一个或多个计算机处理器可执行以执行包括根据权利要求1至7中任一项所述的方法的步骤的操作。
10.一种用于监测计算基础设施设备中的计算硬件的系统,所述系统包括用于执行根据权利要求1至7中任一项所述的方法的步骤的装置。
CN201910407689.2A 2018-05-17 2019-05-16 用以监测计算基础设施设备中的计算硬件的系统 Active CN110502356B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/982,462 2018-05-17
US15/982,462 US11221905B2 (en) 2018-05-17 2018-05-17 System to monitor computing hardware in a computing infrastructure facility

Publications (2)

Publication Number Publication Date
CN110502356A true CN110502356A (zh) 2019-11-26
CN110502356B CN110502356B (zh) 2023-09-29

Family

ID=68534494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910407689.2A Active CN110502356B (zh) 2018-05-17 2019-05-16 用以监测计算基础设施设备中的计算硬件的系统

Country Status (2)

Country Link
US (1) US11221905B2 (zh)
CN (1) CN110502356B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113868102A (zh) * 2020-06-30 2021-12-31 伊姆西Ip控股有限责任公司 用于信息显示的方法、电子设备和计算机程序产品

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11748632B2 (en) * 2019-10-30 2023-09-05 Sensai Networks Ltd Analysis of anomalies in a facility
US11592828B2 (en) * 2020-01-16 2023-02-28 Nvidia Corporation Using neural networks to perform fault detection in autonomous driving applications
US20210267095A1 (en) * 2020-02-21 2021-08-26 Nvidia Corporation Intelligent and integrated liquid-cooled rack for datacenters
US20210384979A1 (en) * 2020-06-03 2021-12-09 Telefonaktiebolaget Lm Ericsson (Publ) Information communication using equipment indicator lights
US20220101450A1 (en) * 2020-09-28 2022-03-31 Kyndryl, Inc. Social media representation and collaboration platform for enterprise it
US11935077B2 (en) * 2020-10-04 2024-03-19 Vunet Systems Private Limited Operational predictive scoring of components and services of an information technology system
US11892898B2 (en) * 2021-08-09 2024-02-06 Nvidia Corporation Movement data for failure identification
CN113687966A (zh) * 2021-10-26 2021-11-23 印象(山东)大数据有限公司 基于电子设备的监测方法、装置及电子设备

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040262409A1 (en) * 2003-06-30 2004-12-30 Crippen Martin Joseph Thermal analysis in a data processing system
TW200743382A (en) * 2006-05-03 2007-11-16 Cybervision Inc Video signal generator
CN103403686A (zh) * 2010-12-30 2013-11-20 施耐德电气It公司 用于根本原因分析的系统和方法
CN103793220A (zh) * 2012-10-26 2014-05-14 国际商业机器公司 使用元模型对软件许可进行建模的方法和装置
US8738972B1 (en) * 2011-02-04 2014-05-27 Dell Software Inc. Systems and methods for real-time monitoring of virtualized environments
CN105474577A (zh) * 2013-06-11 2016-04-06 通用电气公司 用于监测系统性能和可用性的系统和方法
US9329922B1 (en) * 2013-12-12 2016-05-03 Amazon Technologies, Inc. Defect analysis based upon hardware state changes
US20160277248A1 (en) * 2015-03-20 2016-09-22 International Business Machines Corporation Physical change tracking system for enclosures within data centers
CN106598791A (zh) * 2016-09-12 2017-04-26 湖南微软创新中心有限公司 一种基于机器学习的工业设备故障预防性识别方法
CN106797451A (zh) * 2014-11-14 2017-05-31 英特尔公司 具有模型验证和管理的视觉对象跟踪系统
CN107122702A (zh) * 2017-03-13 2017-09-01 北京集创北方科技股份有限公司 安全装置和安全方法
US20180284735A1 (en) * 2016-05-09 2018-10-04 StrongForce IoT Portfolio 2016, LLC Methods and systems for industrial internet of things data collection in a network sensitive upstream oil and gas environment

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6280317B1 (en) * 1998-06-16 2001-08-28 Raytheon Company Method and apparatus for controlling airflow
JP2000167615A (ja) * 1998-12-03 2000-06-20 Toshiba Corp 巻取温度制御方法及び制御装置
GB2373607B (en) * 2001-03-23 2003-02-12 Sun Microsystems Inc A computer system
US6535382B2 (en) * 2001-04-12 2003-03-18 Johnson Controls Technology Company Cooling system for electronic equipment cabinets
US6639794B2 (en) * 2001-12-18 2003-10-28 Maxxan Systems, Inc. Chassis with adaptive fan control
US20040150519A1 (en) * 2003-01-31 2004-08-05 Iftikhar Husain System and method for monitoring having an embedded device
TWI257214B (en) * 2004-12-10 2006-06-21 Univ Nat Chiao Tung Brainwave-controlled embedded Internet robot agent architecture
US20080310967A1 (en) * 2007-06-13 2008-12-18 Franz John P Intelligent air moving apparatus
US10229026B1 (en) * 2007-11-17 2019-03-12 EMC IP Holding Company LLC Method and apparatus for providing environmental management in distributed system data centers
WO2011034805A1 (en) * 2009-09-17 2011-03-24 Siemens Aktiengesellschaft Supervised fault learning using rule-generated samples for machine condition monitoring
US9557807B2 (en) 2011-07-26 2017-01-31 Rackspace Us, Inc. Using augmented reality to create an interface for datacenter and systems management
US9064216B2 (en) 2012-06-06 2015-06-23 Juniper Networks, Inc. Identifying likely faulty components in a distributed system
US9638583B2 (en) * 2014-05-21 2017-05-02 Amazon Technologies, Inc. Virtual data center environmental monitoring system
US20160070276A1 (en) * 2014-09-08 2016-03-10 Leeo, Inc. Ecosystem with dynamically aggregated combinations of components
US10516981B1 (en) * 2015-12-03 2019-12-24 Eta Vision Inc. Systems and methods for sensing, recording, analyzing and reporting environmental conditions in data centers and similar facilities
US20170258390A1 (en) * 2016-02-12 2017-09-14 Newton Howard Early Detection Of Neurodegenerative Disease
US20170286838A1 (en) * 2016-03-29 2017-10-05 International Business Machines Corporation Predicting solar power generation using semi-supervised learning
US10057144B2 (en) * 2016-05-13 2018-08-21 The United States Of America, As Represented By The Secretary Of The Navy Remote system data collection and analysis framework
US10519960B2 (en) * 2016-06-07 2019-12-31 Microsoft Technology Licensing Llc Fan failure detection and reporting
US10579460B2 (en) * 2016-11-28 2020-03-03 Electronics And Telecommunications Research Institute Method and apparatus for diagnosing error of operating equipment in smart farm
CA2987670A1 (en) * 2016-12-05 2018-06-05 Aware360 Ltd. Integrated personal safety and equipment monitoring system
WO2018204625A2 (en) * 2017-05-03 2018-11-08 Ndustrial.Io, Inc. Device, system, and method for sensor provisioning
US10620674B2 (en) * 2017-06-21 2020-04-14 Cisco Technology, Inc. Predictive monitoring of computer cooling systems
US10761921B2 (en) * 2017-11-30 2020-09-01 Optumsoft, Inc. Automatic root cause analysis using ternary fault scenario representation
US11049052B2 (en) * 2018-05-02 2021-06-29 International Business Machines Corporation Automated managing of a data center installation
US10678611B2 (en) * 2018-07-19 2020-06-09 AVTECH Software, Inc. Facility monitoring sensor
US10802942B2 (en) * 2018-12-28 2020-10-13 Intel Corporation Methods and apparatus to detect anomalies of a monitored system

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040262409A1 (en) * 2003-06-30 2004-12-30 Crippen Martin Joseph Thermal analysis in a data processing system
TW200743382A (en) * 2006-05-03 2007-11-16 Cybervision Inc Video signal generator
CN103403686A (zh) * 2010-12-30 2013-11-20 施耐德电气It公司 用于根本原因分析的系统和方法
US8738972B1 (en) * 2011-02-04 2014-05-27 Dell Software Inc. Systems and methods for real-time monitoring of virtualized environments
CN103793220A (zh) * 2012-10-26 2014-05-14 国际商业机器公司 使用元模型对软件许可进行建模的方法和装置
CN105474577A (zh) * 2013-06-11 2016-04-06 通用电气公司 用于监测系统性能和可用性的系统和方法
US9329922B1 (en) * 2013-12-12 2016-05-03 Amazon Technologies, Inc. Defect analysis based upon hardware state changes
CN106797451A (zh) * 2014-11-14 2017-05-31 英特尔公司 具有模型验证和管理的视觉对象跟踪系统
US20160277248A1 (en) * 2015-03-20 2016-09-22 International Business Machines Corporation Physical change tracking system for enclosures within data centers
US20180284735A1 (en) * 2016-05-09 2018-10-04 StrongForce IoT Portfolio 2016, LLC Methods and systems for industrial internet of things data collection in a network sensitive upstream oil and gas environment
CN106598791A (zh) * 2016-09-12 2017-04-26 湖南微软创新中心有限公司 一种基于机器学习的工业设备故障预防性识别方法
CN107122702A (zh) * 2017-03-13 2017-09-01 北京集创北方科技股份有限公司 安全装置和安全方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113868102A (zh) * 2020-06-30 2021-12-31 伊姆西Ip控股有限责任公司 用于信息显示的方法、电子设备和计算机程序产品

Also Published As

Publication number Publication date
CN110502356B (zh) 2023-09-29
US11221905B2 (en) 2022-01-11
US20190354420A1 (en) 2019-11-21

Similar Documents

Publication Publication Date Title
CN110502356A (zh) 用以监测计算基础设施设备中的计算硬件的系统
CN110610556B (zh) 机器人巡检管理方法及系统、电子设备、存储介质
US11347213B2 (en) Deep-learning-based fault detection in building automation systems
US10395434B2 (en) Annotated 3D models of telecommunication sites for planning, engineering, and installation
CN106717117A (zh) 用于照明控制的系统和方法
CN110428135A (zh) 一种综合管廊设备状态监测管理系统
US11190918B1 (en) Systems and methods for sensing, recording, analyzing and reporting environmental conditions in data centers and similar facilities
US10856153B2 (en) Virtual 360-degree view modification of a telecommunications site for planning, engineering, and installation
CN108170071A (zh) 一种监测控制系统及方法
US11284544B1 (en) Systems and methods for sensing, recording, analyzing and reporting environmental conditions in data centers and similar facilities
CN109191613A (zh) 一种基于3d技术的自动化机房巡检方法
US10679491B1 (en) Fire control panel configuration
CN112929602B (zh) 基于图像处理的数据监控方法、装置及相关设备
CN103268571A (zh) 电力设备状态显示方法和系统
KR102389398B1 (ko) 공기질 관련 다중 정보를 이용하여 실시간으로 실내 공기질을 관리하는 장치 및 방법
CN110490854A (zh) 对象状态检测方法、对象状态检测装置和电子设备
CN113868102A (zh) 用于信息显示的方法、电子设备和计算机程序产品
US20210248900A1 (en) Monitoring control panels of a fire control system
CN114254055A (zh) 机房设备的故障分析方法、装置、计算机设备、存储介质
CN107872643A (zh) 用于视频监控系统的故障恢复方法和装置
CN116703352B (zh) 一种基于数字孪生的洁净室智能运维系统及方法
KR20210071283A (ko) 드론을 이용하는 구조물 안전점검 유지관리 방법 및 시스템
CN109520565A (zh) 隧道状况的检测方法、装置、计算机设备和存储介质
Piovano et al. Towards a digital twin for smart street lighting systems using a virtual reality interface
KR102584863B1 (ko) 증강현실 및 건물 속성 정보를 기반으로 한 소방설비 관리 및 점검 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant