CN117280327B - 使用机器学习模型通过近实时/离线数据来检测数据中心大规模中断 - Google Patents

使用机器学习模型通过近实时/离线数据来检测数据中心大规模中断 Download PDF

Info

Publication number
CN117280327B
CN117280327B CN202280033725.3A CN202280033725A CN117280327B CN 117280327 B CN117280327 B CN 117280327B CN 202280033725 A CN202280033725 A CN 202280033725A CN 117280327 B CN117280327 B CN 117280327B
Authority
CN
China
Prior art keywords
data
interrupt
data center
input data
sources
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202280033725.3A
Other languages
English (en)
Other versions
CN117280327A (zh
Inventor
A·S·蒙加
B·陈
A·E·哈米尔顿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oracle International Corp
Original Assignee
Oracle International Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oracle International Corp filed Critical Oracle International Corp
Publication of CN117280327A publication Critical patent/CN117280327A/zh
Application granted granted Critical
Publication of CN117280327B publication Critical patent/CN117280327B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0766Error or fault reporting or storing
    • G06F11/0769Readable error formats, e.g. cross-platform generic formats, human understandable formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2252Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using fault dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/22Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing
    • G06F11/2257Detection or location of defective computer hardware by testing during standby operation or during idle time, e.g. start-up testing using expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • G06F11/3062Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations where the monitored property is the power consumption
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/301Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is a virtual computing platform, e.g. logically partitioned systems

Abstract

本实施例涉及数据中心中断检测和警报生成。如本文所述的中断检测服务能够处理来自数据中心中的各种源的近实时数据,并且使用模型来处理该数据以确定检测到的中断的一个或多个预计源。如本文所述的模型能够包括一个或多个机器学习模型,该机器学习模型并入了一系列规则以处理近实时数据和离线数据并确定中断的一个或多个预计源。警报消息能够被生成以提供中断的预计源以及与中断相关的其它数据。

Description

使用机器学习模型通过近实时/离线数据来检测数据中心大 规模中断
相关申请的交叉引用
本申请要求标题为“DETECTING DATACENTER MASS OUTAGE WITH NEAR REAL-TIME/OFFLINE DATA USING ML MODELS”且于2021年6月3日提交的美国非临时专利申请No.17/338,478的优先权。前述申请的全部内容通过引用整体并入本文,用于所有目的。
技术领域
所公开的技术涉及检测数据中心大规模中断(mass outage)。更具体而言,所公开的技术涉及使用对实时(real-time)和/或离线(offline)数据进行分析的机器学习模型来检测数据中心大规模中断。
背景技术
数据中心可以包括被配置为执行各种处理任务的多个计算设备(例如,服务器)以及为计算设备供电和将计算设备连接到外部设备的相关联设备。服务器可以布置在具有多个服务器的机架中,其中机架中的服务器由机架电源供电。数据中心内的条件(例如,温度、湿度)可以被控制和监视(例如,使用传感器和气候控制设备),以防止数据中心内的服务器过热或功能丢失。
然而,出于多种原因中的任何一种,数据中心可能发生中断。中断可以包括数据中心中的任何计算设备的任何功能丢失,诸如在服务器上执行的应用的功能丢失或者例如服务器过热和关闭。这样的中断会导致与数据中心中的设备和/或由数据中心中的设备执行的应用交互时较低的用户体验。因而,维护数据中心的操作者可能想要高效地识别中断源并解决导致中断的问题。然而,随着数据中心中实现越来越多的设备和应用,高效识别中断源会变得越来越困难。
发明内容
本实施例涉及使用一个或多个模型利用近实时(near real-time)数据来检测数据中心大规模中断。第一示例性实施例提供了一种由云基础设施节点执行的用于推导数据中心中的中断的一个或多个预计源(projected source)的方法。该方法可以包括获得输入数据的集合,该输入数据的集合提供与数据中心相关的各种参数以及数据中心中的设备和在设备上执行的应用的列表。该方法还可以包括检测数据中心的至少一个功能性的中断。中断可以是由于功能性(例如,应用)的丢失或计算资源的丢失(例如,与(一个或多个)服务器的连接丢失、(一个或多个)服务器的功率丢失)造成的。
该方法还可以包括使用模型来处理该输入数据的集合以推导该中断的一个或多个预计源。该模型可以并入如下多个规则,该多个规则指定输入数据的集合与作为中断的一个或多个预计源的设备或在设备上执行的应用之间的相关性。该方法还可以包括生成提供中断的一个或多个预计源的中断通知消息。
第二示例性实施例涉及云基础设施节点。云基础设施节点可以包括处理器和非暂态计算机可读介质。非暂态计算机可读介质可以包括指令,该指令在由处理器执行时使得处理器获得输入数据的集合,该输入数据的集合提供与数据中心相关的各种参数以及数据中心中的设备和在数据中心中的设备上执行的应用的列表。该指令还可以使处理器检测数据中心的功能性的中断。
该指令还可以使得处理器由模型使用输入数据的集合来推导中断的一个或多个预计源。推导中断的一个或多个预计源可以包括使用模型可访问的一组规则利用与输入数据的集合中所包括的每个参数相关的历史数据来生成每个参数的预测水平。在一些情况下,历史数据包括(例如,对于每个参数)先前从相同源接收的数据。推导中断的一个或多个预计源可以包括将每个参数的预测水平与输入数据的集合中所包括的每个参数的实际水平进行比较,以识别如下的一个或多个异常参数,该一个或多个异常参数包括相对于每个对应预测水平具有阈值偏差的实际水平。推导中断的一个或多个预计源可以包括识别与每个识别出的异常参数对应的一个或多个设备和/或应用。识别出的一个或多个设备和/或应用中的每一个被包括作为中断的一个或多个预计源。该指令还可以使处理器生成提供中断的一个或多个预计源的中断通知消息。
第三示例性实施例涉及一种非暂态计算机可读介质。该非暂态计算机可读介质可以包括存储在其上的指令序列,该指令序列在由处理器执行时使得处理器执行过程。该过程可以包括获得提供与数据中心相关的各种参数的输入数据的集合。该过程还可以包括检测数据中心处的中断。该过程还可以包括由模型使用输入数据的集合来推导中断的一个或多个预计源。
推导中断的一个或多个预计源可以包括将每个参数的预测水平与输入数据的集合中所包括的每个参数的推导出的水平进行比较,以识别如下一个或多个异常参数,该一个或多个异常参数包括相对于每个对应预测水平具有阈值偏差的推导出的水平。推导中断的一个或多个预计源还可以包括识别与每个识别出的异常参数对应的一个或多个设备和/或应用。识别出的一个或多个设备和/或应用中的每一个被包括作为中断的一个或多个预计源。该过程还可以包括生成提供中断的一个或多个预计源的中断通知消息。
此外,实施例可以通过使用计算机程序产品来实现,该计算机程序产品包括计算机程序/指令,该计算机程序/指令在由处理器执行时使得处理器执行本文本公开中描述的任何方法/技术。
附图说明
图1是根据至少一个实施例的示例数据中心的框图。
图2是图示根据至少一个实施例的用于生成中断警报的方法的流程图。
图3是图示根据至少一个实施例的示例中断检测服务的框图。
图4图示了根据至少一个实施例的示例警报。
图5是根据至少一个实施例的用于推导数据中心中的中断的一个或多个预计源的示例方法的框图。
图6是图示根据至少一个实施例的用于实现云基础设施即服务系统的一种模式的框图。
图7是图示根据至少一个实施例的用于实现云基础设施即服务系统的另一种模式的框图。
图8是图示根据至少一个实施例的用于实现云基础设施即服务系统的另一种模式的框图。
图9是图示根据至少一个实施例的用于实现云基础设施即服务系统的另一种模式的框图。
图10是图示根据至少一个实施例的示例计算机系统的框图。
具体实施方式
数据中心可以包括多个设备,诸如计算设备、向计算设备提供功率的电源、向计算设备传送数据/从计算设备传送数据的网络设备,和/或监视/控制数据中心中的环境的多个传感器。在许多情况下,数据中心中会发生中断,从而导致例如无法访问计算设备或由计算设备实现的相关联的过程,或者无法将数据传送到数据中心中的设备/从数据中心中的设备传送数据。
数据中心中的中断可以由多种原因中的任何一种引起,诸如电源的故障、数据中心中的一个或多个设备的故障、数据中心中的设备过热、应用无法执行,等等。具体地,随着数据中心并入更多的设备、处理资源和应用/服务,高效地识别中断源并执行补救过程会是困难的,并且对中断进行补救的时间增加会导致用户与数据中心中的设备/应用交互体验降低。
本实施例涉及数据中心中断检测和警报生成。具体地,如本文所描述的中断检测服务可以处理来自数据中心中的各种源的近实时的数据,并且使用模型来处理该数据以确定检测到的中断的一个或多个预计源。
例如,中断可能是由机架电源(例如,为服务器的机架供电)故障引起的,从而导致对应服务器的功能性丢失。在这种情况下,本文描述的中断检测系统可以使用模型来处理近实时的数据以识别一个或多个异常参数。在这个示例中,模型可以在接近于检测到中断或者机架中服务器的功率水平下降到阈值水平以下的时间处识别出机架电源的功率水平下降到阈值水平以下。该模型可以使用一组规则来处理近实时的输入数据,以确定机架电源和/或机架中的服务器作为中断的预计源。
可以生成警报消息以提供中断的预计源以及与中断相关的其它数据。在上面的示例中,警报消息可以指定机架电源和/或机架中的服务器作为中断的预计源、由模型识别出的异常参数、中断的每个预计源的置信度值,等等。警报消息可以提供对中断的洞察并可以高效地纠正中断。
近实时数据可以包括来自数据中心中的设备的环境数据。示例近实时数据可以包括服务器温度、服务器/机架功率使用情况、获得的工单(ticket)、传感器数据等,这些数据与指示捕获近实时数据的时间的时间戳一起被存储。响应于中断的发生,中断检测服务可以使用近实时数据和离线数据作为输入来执行模型,以指定中断的一个或多个预计源。
如本文所描述的模型可以包括一个或多个机器学习模型,这些机器学习模型并入了一系列规则以处理近实时数据和离线数据并确定中断的一个或多个预计源。例如,模型可以识别数据中心中的设备的一个或多个异常参数,这些参数具有导致中断的增加的可能性。模型可以输出一个或多个预计的输出源或输出原因(诸如指定可能导致了中断的设备、电源、应用等)以及置信度值(其提供导致了输出的每个预计源的估计置信度)。中断的预计源可以提供从近实时的数据中检测到的模式,以建立大规模中断的相关性,该相关性可以被用于通知中断的恢复。例如,中断的预计源可以提供中断(以及任何相关问题)是如何在数据中心内的组件/应用之间传播的蓝图(blueprint)。利用中断的预计源作为从中断中进行恢复的蓝图可以减少检测和解决中断的总时间。
作为说明性示例,可以根据来自操作者的指示或者由中断检测系统自动地在数据中心中检测中断(例如,通过检测异常参数、通过检测指定中断的传入工单的数量)。例如,中断可以是由服务器机架由于来自服务器机架中的机架电源的功率异常增加而丢失功能性从而导致服务器机架中的服务器过热而引起的。
在这个示例中,中断检测服务可以获得与服务器温度(例如,206)、机架功率使用情况(例如,210)、工单数据(例如,212)等相关的数据(例如,近实时数据202),并按时间戳排列这些数据以供模型处理。模型可以处理获得的数据以识别可能指示中断原因的异常参数。例如,多个接收到的工单可能指定在第一时间实例处发生的中断。此外,在第一时间实例处,机架电源的机架功率度量可能具有异常增加,并且机架中的服务器的风扇速度可能在第一时间实例处增加(指示核心服务器温度增加)。
在这个示例中,模型可以识别中断的第一原因可以包括机架电源的功率浪涌(power surge),其造成机架中服务器的过热(和受限的功能性)。模型可以使用一系列规则来识别中断的原因是机架电源的功率浪涌的可能性,并且可以为中断的原因指派置信度值(例如,作为百分比)。
在这个示例中,中断检测服务可以提供解决方案数据,该解决方案数据提供用于解决中断的原因的一个或多个步骤。示例解决方案数据可以指定重置或更换机架电源,或者重置机架中的服务器。中断检测服务可以输出警报,该警报包括中断的各方面、预计的中断原因、解决方案数据和/或图示根据从数据中心获得的数据识别出的异常参数的一个或多个曲线图。
图1是示例数据中心100的框图。数据中心100可以包括环境(例如,房间、建筑物),该环境包括多个计算设备和为计算设备供电并促进计算设备与数据中心100外部的设备之间的数据通信的相关联设备。数据中心100可以提供受控的环境以维持数据中心100中的阈值环境条件(例如,温度、湿度)。
数据中心100可以包括多个服务器机架102a-n,其包括计算设备(例如,服务器104a-l)。服务器机架(例如,102a-n)可以包括布置一组服务器104a-l的机架。每个服务器机架102a-n可以包括一个或多个电源(例如,功率单元106a-n)以及允许数据中心100中的设备之间的数据传输的网络设备(例如,108a-n)。在一些实施例中,如本文描述的中断检测服务可以在一个或多个计算设备(例如,服务器104a-l)或数据中心100外部的(一个或多个)计算设备上实现。
例如,数据中心100中的每个服务器104a-l可以实现应用/插件/附件/虚拟机/等等。它们被配置为执行各种处理任务,诸如例如维护和更新数据库。服务器104a-l可以包括多个传感器,这些传感器被配置为捕获与每个服务器相关的数据,诸如每个服务器104a-l的核心温度、功率使用情况、风扇速度、状态等。
每个服务器104a-l可以连接到一个或多个功率单元106a-n。每个功率单元可以与服务器机架102a-n相关联并且可以向服务器104a-l提供功率。功率单元106a-n可以监视由每个功率单元106a-n提供的多个功率参数(例如,电压、电流),这些功率参数可以作为近实时数据被提供给中断检测服务。
服务器104a-l可以经由网络设备108a-n传送数据。网络设备108a-n可以包括网络交换机、路由器等,其可以在服务器104a-l和接收方设备之间转发数据。在一些情况下,网络设备108a-n可以实现流传输服务,该流传输服务在服务器104a-l与在云基础设施节点上执行的如本文所描述的中断检测服务之间提供低延迟数据通信。
数据中心100可以包括多个传感器110a-n。传感器110a-n可以监视/控制数据中心100的环境。示例传感器可以包括温度传感器、湿度传感器、压力传感器等。由传感器110a-n捕获的数据可以作为近实时数据提供给中断检测服务。
图2是图示用于生成中断警报的方法的流程图200。如下所述,警报可以包括提供给数据中心的操作者的通知(例如,消息、电子邮件、文本通知),以提供对中断和中断的潜在源的洞察。用于生成中断警报的方法可以由如本文所述的中断检测服务来执行。
中断检测服务可以从各种源获得近实时数据202和离线数据204。近实时数据202和离线数据204可以被处理为要使用如本文所述的模型来处理的输入数据。近实时数据202可以包括各种数据类型,诸如服务器温度数据206、服务器功率使用情况数据208、机架功率使用情况数据210、工单数据212和任何其它数据类型214。中断检测服务可以经由用于向中断检测服务提供低时延数据通信的流传输服务从数据中心内的源获得近实时数据202。
服务器温度数据206可以包括与由传感器(例如,110a-n)或服务器(例如,104a-n)提供的数据中心中的服务器的内部温度相关的数据。服务器温度数据206可以指定某个时间实例处的服务器温度,这可以允许监视服务器温度随时间的趋势。如本文所述,一个或多个服务器的增加的服务器温度可能指示服务器的增加的功率使用或过热,这可能是中断的原因。在一些情况下,服务器温度数据206可以包括识别数据中心中的服务器的风扇速度的风扇速度数据,这可以指示服务器的温度。
服务器功率使用情况数据208可以指定数据中心中的每个服务器的功耗。与服务器功率使用情况数据208相关的示例参数可以包括每个服务器在一个时间段期间的电压、电流、功率汲取、生产负载等。各种传感器可以部署在服务器内或服务器附近以获得服务器功率使用情况数据208。
机架功率使用情况数据210可以提供机架(例如,服务器机架102a-n)中的服务器(和/或附属设备)的功率使用情况。机架功率使用情况可以由用于机架的(一个或多个)电源(例如,功率单元106a-n)提供。功率单元106a-n可以测量多个功率参数(例如,机架和机架中的各个设备的电压、电流、功耗)。
工单数据212可以包括由工单节点(例如,在计算设备上执行以从数据中心内的设备或数据中心外部的设备获得工单的应用)获得的一系列工单。可以接收与数据中心中的设备或设备上执行的应用相关的检测到的问题/警报的工单。工单可以由与数据中心中的设备通信的设备自动提供,或者由与数据中心中的设备交互的操作者手动提供。
作为示例,当设备无法从在数据集中的第一服务器上执行的应用获取数据时,可以由该设备自动生成工单。作为另一个示例,当客户无法经由客户设备访问由数据中心中的第二服务器维护的数据库时,客户可以生成工单。工单可以与时间戳相关联,并且可以被用于识别中断或中断的原因,如本文所述。
其它数据214可以包括指定数据中心中的设备的数据传输特点的网络数据、在数据中心中的设备上执行的应用的应用数据参数、对数据中心中的应用/设备的经记录的改变等。
中断检测服务还可以从数据源(诸如包含静态数据中心信息的一个或多个数据库)获得离线数据204。离线数据204的示例可以包括设备数据216、位置数据218和其它数据220。设备数据216可以指定数据中心中的设备的数量,并且位置数据218可以包括数据中心中的每个设备的位置。设备数据216和位置数据218可以识别数据中心中的设备的分组,诸如被分组在机架中的服务器。其它数据220可以指定在每个服务器上执行的应用、数据中心中的每个设备的能力、每个设备的软件版本、数据中心中的设备类型(例如,传感器、网络设备、功率设备)等。
在222处,近实时数据202和离线数据204可以被联接(join)。这可以包括按数据类型排列数据以及基于与数据相关联的时间戳将数据存储在数据源(例如,数据库、表)中。随着数据随时间被获取,可以根据接收数据的时间按数据类型来填充数据库/表。例如,数据中心中的第一服务器的服务器温度数据可以按照获取数据的时间来存储,从而提供第一服务器在一段时间内的温度。作为另一个示例,可以存储机架功率使用情况以提供机架功率使用情况随时间的趋势。接收到的数据中提供的参数的趋势和移动可以提供对数据中心中的异常参数以及数据中心中的中断的潜在原因的洞察。
在一些实施例中,可以基于数据中心中的历史水平来生成数据中心中的被测量的参数的预测水平。例如,可以随时间捕获历史服务器温度数据,并且可以为每个时间实例生成预测的温度。历史服务器温度只是历史水平的一个示例。可以将预测水平与对应的参数进行比较,以检测与预测水平的任何偏差,这可以指示可能是中断源的异常。
可以使用经联接的数据来执行模型224以确定中断的一个或多个预计原因。在一些情况下,可以响应于检测到中断(例如,通过操作者的手动指示、通过检查工单数据自动检测到)而执行模型。
模型224可以将经联接的数据作为输入参数来处理,这些输入参数可以被用于检测可能指示中断源的异常行为。模型224可以包括机器学习模型,该机器学习模型可以并入多个规则226以处理经联接的数据(例如,在222处联接的数据)并且检测中断的一个或多个预计源。
规则226可以是根据先前识别出的中断和已知的对中断的解决方案而生成的。例如,如果先前的中断是由于机架电源处的功率浪涌造成的,那么新规则可以包括用于监视任何电源处的类似功率浪涌以及由于该功率浪涌而检测到的中断的类似特点的指令。规则226还可以基于历史数据中心数据或响应于解决中断而提供的反馈数据而生成。在一些示例中,历史数据中心数据是从较早时间获得的数据中心数据和/或元数据。
例如,规则226可以包括用于处理输入参数以确定该参数在任何时间点是否具有任何异常特点的指令。另外,规则226可以包括将异常参数与作为中断的预计源的一个或多个设备进行相关(correlate)的指令,并识别受该异常参数影响的一个或多个设备。
在第一示例中,模型可以使用第一规则来确定用于第一服务器的服务器功率数据是否包括任何异常特点。例如,规则226可以提供让模型将用于第一服务器的服务器功率数据与预测功率水平进行比较以检测实际功率水平与预测功率水平之间的任何偏差的指令。规则可以指定当实际功率水平在某一时间实例超过预测功率水平达阈值偏差时,模型224可以将用于第一服务器的服务器功率水平识别为异常参数。
作为另一个示例,规则226可以包括用于识别在检测到中断(例如,接收到指示中断的工单)的阈值时间内所发生的对数据中心中的设备的应用/软件的任何修改的指令。例如,如果附件导致了中断,那么规则可以识别在检测到该中断的阈值时间内所发生的对数据中心中的软件的任何经实现的改变。在这个示例中,规则可以识别附件是在与检测到中断的时间相似的时间实例处被实现的,从而包括潜在的中断源。
后续规则可以处理这些异常特点以确定中断的一个或多个预计源。规则226可以包括用于将异常特点与对应的设备/设备系列/应用等进行相关的指令。例如,当第一机架电源的功率水平尖峰高于预测水平时,规则可以识别连接到第一机架电源的服务器由于增加的功率水平而具有造成中断的增加的可能性,从而可能导致功能性的丢失。作为另一个示例,当阈值数量的工单指定第一应用已经故障时,规则可以识别实现第一应用的所有服务器(或者实现第一应用的虚拟机)可能包括中断的预计源。模型可以组合地执行多个规则以确定中断的预计源。
在许多情况下,可以使用模型来组合多个规则以确定每个预计源包括实际中断源的可能性。每个预计源包括实际中断源的可能性可以用置信度水平来表示。置信度水平可以指定例如但不限于基于近实时数据的中断的每个预计源与中断的实际源之间的相关性强度、较低的假阳性率或较高的真阳性率。例如,可以基于将每个源识别为中断的预计源的规则的数量来推导中断的每个预计源的置信度水平。可以基于将每个设备/应用识别为中断的预计源的被执行规则的数量来推导置信度水平。
例如,中断的第一预计源可以包括服务器,并且中断的第二预计源可以包括向该服务器传送数据/从该服务器传送数据的网络交换机。在这个示例中,由模型实现的两个规则可能将服务器指定为中断的第一预计源(例如,识别服务器的异常温度水平的规则、识别在服务器上执行的应用的功能性丢失的规则)。另外,在这个示例中,单个规则可能将网络交换机指定为中断的第二预计源(例如,识别来自与服务器对应的端口的数据通信吞吐量低于预测水平的规则)。在这个示例中,中断的第一预计源可以比中断的第二预计源包括更高的置信度水平。
在228处,可以检测中断。中断可以包括由数据中心中的(一个或多个)任何设备实现的任何已识别出的功能性丢失。示例中断可以是由于服务器过热、服务器上执行的应用不可用、与服务器/服务器上执行的应用缺乏数据通信等引起的。
在一些实施例中,可以通过操作者指示中断已经发生而手动地检测中断。在其它实施例中,可以自动检测中断,诸如例如通过处理工单或其它近实时数据以检测与数据中心中的设备/应用的功能性或数据通信的丢失。可以配置模型来处理输入数据以检测中断。可以响应于检测到中断而执行用于推导中断的一个或多个预计源的过程。
在230处,可以生成警报。警报可以向操作者提供指定中断、中断的一个或多个潜在源以及任何对中断的已知解决方案的通知。例如,警报可以提供对中断的描述、中断的一个或多个潜在源(例如,从模型224推导的)、用于解决中断的任何解决方案数据、证明中断的潜在源的一个或多个参数的描述等。关于图4更详细地讨论警报。
图3是图示示例中断检测服务314的框图300。如上所述,中断检测服务314可以在数据中心外部的一个或多个互连的计算设备上实现。中断检测服务314可以获得输入参数(例如,近实时数据、离线数据)并且使用模型来处理这些参数以推导中断的一个或多个预计源,如本文所描述的。
中断检测服务314可以从问题检测服务302获得近实时数据。问题检测服务302可以获得近实时数据(例如,服务器温度数据、机架功率使用情况数据、数据中心传感器数据)。问题检测服务302可以提供如关于图2所描述的任何近实时数据202。在一些情况下,问题检测服务302可以按数据类型对近实时数据进行分类,以供中断检测服务314进行后续存储和处理。
由问题检测服务发送的近实时数据可以经由流传输服务304转发到中断检测服务314。流传输服务304可以允许在问题检测服务302与中断检测服务314之间以减少的时延进行数据传输。例如,流传输服务304可以包括提供问题检测服务302与中断检测服务314之间的低时延连接的API。
遥测服务(telemetry service)306可以生成数据中心中的电源的一系列功率相关参数并将其提供给中断检测服务314。例如,遥测服务306可以为每个电源(例如,机架功率单元106a-n)提供多个功率参数(例如,电压、电流、电阻、功率)。
资源管理服务308可以监视并跟踪数据中心中的组件以及数据中心中每个组件的位置。例如,资源管理服务308可以维护数据中心中的每个机架中的每个服务器的位置和标识符的列表以及向对应服务器提供功率的所有电源。资源管理服务308可以维护数据中心中的任何设备的位置、在数据中心中的每个服务器上执行的应用、直接连接到数据中心中的其它设备的所有设备等的列表。
工单数据服务310可以获得并处理接收到的与数据中心相关的工单。例如,响应于应用无法执行或向外部设备提供数据,可以生成指定该故障的工单。作为另一个示例,客户端可以响应于应用或设备未能提供指定的功能性而请求生成工单。工单数据服务310可以聚合并识别每个接收到的工单的特征。如本文所描述的,工单数据服务310可以解析来自每个接收到的工单的特征以识别特定的应用/设备/等等,这可以提供对预计的中断原因的洞察。从遥测服务306、资源管理服务308和工单数据310获得的数据可以存储在对象存储装置312中。对象存储装置312可以包括按数据类型和获得数据的时间来排列接收到的数据的数据库。
中断检测服务314可以获得近实时数据(例如,温度数据316、设备功率数据318、机架功率数据320、位置数据322)并且按数据类型排列数据。例如,可以处理近实时数据以识别与数据的每个部分相关联的特征,诸如数据类型(例如,温度、功率)、与数据的每个部分相关的设备/组件、获取数据的时间等。
中断检测服务314可以实现提取、变换和加载(ETL)过程324以移动和变换接收到的数据(例如,温度数据316、设备功率数据318、机架功率数据320、位置数据322)。例如,ETL324可以获得近实时数据并识别与数据的每个部分相关的数据类型。ETL 324还可以将设备/组件与数据的各个部分相关联(例如,使用来自资源管理服务308的设备列表)并向数据的这些部分指派时间戳。经处理的数据可以存储在数据库326中,从而提供经关联的温度和功率数据。
中断检测服务314可以使用模型328来处理所存储的数据(例如,存储在数据库326中)以推导中断的一个或多个预计源。在一些实施例中,模型328可以处理输入数据并确定是否已经发生中断和/或识别与中断相关的特征(通过处理工单数据、通过识别近实时数据的异常参数)。
可以从可以存储各种机器学习模型类型的模型存储库332检索模型328。模型328可以并入来自规则存储库330的各种规则以供模型执行。例如,规则可以识别异常参数(例如,参数在某个时间实例处与预测水平的阈值偏差)、识别与异常参数对应的设备、与接收到的工单对应的设备/应用等。模型328可以输出中断的一个或多个预计源以及指定中断的预计源与中断对应的置信度的置信度水平。例如,模型可以处理近实时数据以识别第一电源处的功率浪涌并且使用来自规则存储库330的规则确定中断的预计源包括第一电源。在一些情况下,来自先前中断的数据(例如,来自中断的异常参数、对中断的已知解决方案)可以被反馈到模型存储库332/规则存储库330中以增量地添加用于识别中断源的规则。
在一些实施例中,中断检测服务314可以识别与中断的预计源对应的解决方案数据。例如,如果模型328将第一电源识别为中断的预计源,那么中断检测服务314可以从解决方案数据数据库334检索解决方案数据以获得对应的解决方案数据(例如,重置电源、更换电源)。作为另一个示例,如果模型328将在一系列服务上执行的新近修改的应用识别为中断的预计源,那么中断检测服务314可以从解决方案数据数据库334检索解决方案数据以获得对应的解决方案数据(例如,撤销对应用的修改)。
中断检测服务可以经由警报服务336生成警报。警报可以提供描述中断、中断的预计源、与中断的每个预计源相关联的置信度值、与中断的每个预计源相关联的解决方案数据等的消息。
图4图示了示例警报400。警报400可以包括消息(例如,电子邮件消息、文本消息、与操作者相关联的设备上的图形输出)。警报400可以提供与中断相关的数据的多个源。例如,警报400可以提供指定中断的特征(例如,检测到中断的时间、由于中断而受影响的设备/应用)的中断数据402。中断数据402可以包括由客户端或运营商提供的数据、从(一个或多个)模型推导的识别中断的各方面的数据等。
警报400可以提供中断的(一个或多个)预计源404,其指定中断的一个或多个预计源。例如,警报可以提供中断的预计源的列表(例如,404)以及将每个源识别为中断的预计源的数据点(例如,异常参数、工单数据)。警报400还可以包括与中断的每个预计源相关联的一个或多个置信度值406,其指定中断的每个预计源实际包括中断源的经估计的可能性。
警报400可以提供与中断的预计源对应的一个或多个参数的图形表示408。例如,如果中断的预计源是机架电源,那么警报400可以包括功率参数的图形表示408。在这个示例中,图形表示408可以提供在一持续时间(例如,时间实例T1-T6)上与预测功率水平412(例如,从历史功率水平推导的)相比的实际功率水平410。在一些示例中,历史功率水平包括从先前时间接收到的先前水平。另外,在这个示例中,图形表示408可以图示功率水平相对于预测功率水平412的多个异常偏差414a-b。功率水平中的多个异常偏差414a-b可以提供与功率水平410相关联的电源是中断源的洞察。
图5是用于推导数据中心中的中断的一个或多个预计源的示例方法的框图500。云基础设施节点可以实现被配置为执行如本文描述的方法的中断检测服务。
在框502处,该方法可以包括获得输入数据的集合,该输入数据的集合提供与数据中心相关的各种参数以及数据中心中的设备和在设备上执行的应用的列表。输入数据的集合可以包括近实时数据(例如,202)和离线数据(例如,204),如上面关于图2所描述的。在一些实施例中,输入数据的集合可以指定以下任何一项:数据中心中的每个服务器的温度、数据中心的每个机架中的每个电源的功率水平、从数据中心中的一系列传感器获得的数据中心的气候数据、所获得的识别数据中心的任何功能性的工单数据、数据中心中的设备的列表以及数据中心中所有设备的位置。
在一些实施例中,输入数据的集合包括数据中心中每个设备的位置以及数据中心中每个设备的设备类型。该方法可以包括处理输入数据的集合以识别与输入数据的集合的每个部分相关的一个或多个相关联的设备以及数据类型。示例数据类型可以包括服务器温度数据(例如,206)、服务器功率使用情况数据(例如,208)、设备数据(例如,216)等。该方法还可以向输入数据的集合的每个部分指派指示获得输入数据的集合的每个部分的时间的时间戳。中断检测服务可以按时间戳排列特定类型的数据,以推导参数在一持续时间内的趋势(例如,以识别参数随时间的改变)。该方法还可以包括按照数据类型和所指派的时间戳将输入数据的集合存储在数据库(例如,数据库326)中。中断检测服务可以使用所存储的数据作为模型的输入,来推导中断的(一个或多个)预计源。
在框504处,该方法可以包括检测数据中心的至少一个功能性的中断。中断可以是由于功能性(例如,应用)的丢失或计算资源的丢失(例如,与(一个或多个)服务器的连接丢失、(一个或多个)服务器的功率丢失)造成的。检测中断可以包括从外部计算设备获得指定中断已经发生的中断通知或者检测到接收到阈值数量的所获得的工单,这些工单指定数据中心处的至少一个功能性或计算资源的一部分的丢失。
在框506处,该方法可以包括使用模型来处理输入数据的集合以推导中断的一个或多个预计源。该模型可以并入多个规则,这些规则指定输入数据的集合与作为中断的一个或多个预计源的设备或在设备上执行的应用之间的相关性。
在框508处,推导中断的一个或多个预计源可以包括使用模型可访问的一组规则利用与输入数据的集合中所包括的每个参数相关的历史数据来生成每个参数的预测水平。例如,可以处理用于第一服务器的历史服务器温度数据以确定第一服务器的预测温度水平。可以将用于每个参数的预测水平与检测到的水平进行比较,以识别是否有任何参数偏离预测水平。此类偏差可以指示作为中断的预计源的设备或应用。
在框510处,推导中断的一个或多个预计源可以包括将用于每个参数的预测水平与输入数据的集合中所包括的每个参数的实际水平进行比较,以识别包括相对于每个对应预测水平具有阈值偏差的实际水平的一个或多个异常参数。例如,当参数的实际水平相对于该参数的预测水平具有阈值偏差时,参数可以是异常的。相对于预测水平具有阈值偏差的参数可以指示服务器过热、电源中的功率浪涌、网络分组的丢失等。
在框512处,推导中断的一个或多个预计源可以包括识别与每个识别出的异常参数对应的一个或多个设备和/或应用。识别出的一个或多个设备和/或应用中的每一个可以被包括作为中断的一个或多个预计源。例如,响应于确定第一服务器的服务器温度水平突然上升到预测水平之上,模型可以将第一服务器识别为中断的预计源。
在一些实施例中,该组规则是至少部分地基于先前解决的中断与每个先前解决的中断的识别出的源之间的相关性来推导的。在这些实施例中,该方法可以包括由模型使用该组规则中的第一规则来识别与在数据中心中的一部分服务器上执行的第一应用相关的第一异常参数。例如,对在服务器的集合上执行的应用的改变会导致更新。在这个示例中,模型可以识别与该应用相关的异常参数,诸如升高的服务器温度水平、数据分组传输的丢失等。
在这些实施例中,该方法还可以包括由模型使用该系列规则中的第二规则来识别在检测到中断的时间的阈值持续时间内发生了对第一应用的执行的改变。例如,模型可以识别对应用的改变发生在检测到中断的一时间内(例如,检测到该改变发生在从检测到中断的时间起不到五分钟的时间内)。这可以指示对应用的该改变是中断的预计源。第一应用可以作为中断的第一预计源被包括在输出通知消息中。输出通知消息还可以提供解决方案数据,该解决方案数据指定用于将第一应用撤回到先前版本以移除对第一应用的执行的该改变的指令。
在框514处,该方法可以包括生成提供中断的一个或多个预计源的中断通知消息。在一些实施例中,中断通知消息包括第一异常参数和第一异常参数的推导出的预测水平的图形表示。
在一些实施例中,该方法可以包括,对于中断的一个或多个预计源中的每一个,基于与涉及中断的每个预计源的参数相关的规则的数量来推导置信度水平,其中中断通知消息包括该置信度水平。
在一些实施例中,该方法可以包括,对于中断的一个或多个预计源中的每一个,检索与中断的一个或多个预计源中的每一个相关的解决方案数据,该解决方案数据提供用于解决特定于中断的每个预计源的中断的已知方法,其中中断通知消息包括该解决方案数据。
如以上所指出的,基础设施即服务(IaaS)是一种特定类型的云计算。IaaS可以被配置为通过公共网络(例如,互联网)提供虚拟化计算资源。在IaaS模型中,云计算提供商可以托管基础设施组件(例如,服务器、存储设备、网络节点(例如,硬件)、部署软件、平台虚拟化(例如,管理程序层)等)。在一些情况下,IaaS提供商还可以提供各种服务来伴随这些基础设施组件(例如,计费、监视、记载、负载平衡和聚类等)。因此,由于这些服务可能是策略驱动的,因此IaaS用户可以能够实现策略来驱动负载平衡,以维持应用的可用性和性能。
在一些情况下,IaaS客户可以通过诸如互联网之类的广域网(WAN)访问资源和服务,并且可以使用云提供商的服务来安装应用栈的剩余元素。例如,用户可以登录到IaaS平台以创建虚拟机(VM)、在每个VM上安装操作系统(OS)、部署诸如数据库之类的中间件、为工作负载和备份创建存储桶,甚至将企业软件安装到那个VM中。然后,客户可以使用提供商的服务来执行各种功能,包括平衡网络流量、解决应用问题、监视性能、管理灾难恢复等。
在大多数情况下,云计算模型将需要云提供商的参与。云提供商可以但不一定是专门提供(例如,供应、出租、销售)IaaS的第三方服务。实体也可能选择部署私有云,从而成为其自己的基础设施服务提供商。
在一些示例中,IaaS部署是将新应用或应用的新版本放置到准备好的应用服务器等上的处理。它还可以包括准备服务器(例如,安装库、守护进程等)的处理。这通常由云提供商管理,位于管理程序层之下(例如,服务器、存储装置、网络硬件和虚拟化)。因此,客户可以负责处理(OS)、中间件和/或应用部署(例如,在(例如,可以按需启动的)自助服务虚拟机等上)。
在一些示例中,IaaS供应(provision)可以指获取计算机或虚拟主机以供使用,甚至在它们上安装所需的库或服务。大多数情况下,部署不包括供应,并且供应可能需要被首先执行。
在一些情况下,IaaS供应存在两个不同的挑战。首先,在任何东西运行之前供应初始基础设施集存在最初的挑战。其次,一旦所有东西已被供应,就存在演进现有基础设施(例如,添加新服务、更改服务、移除服务等)的挑战。在一些情况下,可以通过启用以声明方式定义基础设施的配置来解决这两个挑战。换句话说,基础设施(例如,需要哪些组件以及它们如何交互)可以由一个或多个配置文件来定义。因此,基础设施的总体拓扑(例如,哪些资源依赖于哪些资源,以及它们如何协同工作)可以以声明的方式描述。在一些情况下,一旦定义了拓扑,就可以生成创建和/或管理配置文件中描述的不同组件的工作流。
在一些示例中,基础设施可以具有许多互连的元素。例如,可能存在一个或多个虚拟私有云(VPC)(例如,可配置和/或共享计算资源的潜在按需池),也称为核心网络。在一些示例中,还可以供应一个或多个入站/出站流量组规则以定义如何设置网络的入站/出站流量以及一个或多个虚拟机(VM)。也可以供应其它基础设施元素,诸如负载平衡器、数据库等。随着期望和/或添加越来越多的基础设施元素,基础设施可以逐步演进。
在一些情况下,可以采用连续部署技术来使得能够跨各种虚拟计算环境部署基础设施代码。此外,所描述的技术可以使得能够在这些环境内进行基础设施管理。在一些示例中,服务团队可以编写期望部署到一个或多个但通常是许多不同的生产环境(例如,跨各种不同的地理位置,有时跨越整个世界)的代码。但是,在一些示例中,必须首先设置将在其上部署代码的基础设施。在一些情况下,供应可以手动完成,可以利用供应工具供应资源,和/或一旦供应基础设施就可以利用部署工具部署代码。
图6是图示根据至少一个实施例的IaaS体系架构的示例模式的框图600。服务运营商602可以通信地耦合到可以包括虚拟云网络(VCN)606和安全主机子网608的安全主机租赁604。在一些示例中,服务运营商602可以使用一个或多个客户端计算设备,其可以是便携式手持设备(例如,蜂窝电话、/>计算平板、个人数字助理(PDA))或可穿戴设备(例如,Google/>头戴式显示器)、运行软件(诸如Microsoft Windows)和/或各种移动操作系统(诸如iOS、Windows Phone、Android、BlackBerry 8、Palm OS等),并且支持互联网、电子邮件、短消息服务(SMS)、/>或其它通信协议。替代地,客户端计算设备可以是通用个人计算机,包括例如运行各种版本的MicrosoftApple/>和/或Linux操作系统的个人计算机和/或膝上型计算机。客户端计算设备可以是运行各种商业上可获得的/>或类UNIX操作系统,包括但不限于各种GNU/Linux操作系统(诸如例如Google Chrome OS)中的任何一种的工作站计算机。替代地或附加地,客户端计算设备可以是任何其它电子设备,诸如瘦客户端计算机、支持互联网的游戏系统(例如,具有或不具有/>手势输入设备的Microsoft Xbox游戏控制台),和/或能够通过可以访问VCN 606和/或互联网的网络进行通信的个人消息传递设备。
VCN 606可以包括本地对等网关(LPG)610,其可以经由包含在SSH VCN 612中的LPG 610通信地耦合到安全壳(SSH)VCN 612。SSH VCN 612可以包括SSH子网614,并且SSHVCN 612可以经由包含在控制平面VCN 616中的LPG 610通信地耦合到控制平面VCN 616。此外,SSH VCN 612可以经由LPG 610通信地耦合到数据平面VCN 618。控制平面VCN 616和数据平面VCN 618可以包含在可以由IaaS提供商拥有和/或操作的服务租赁619中。
控制平面VCN 616可以包括充当外围网络(例如,公司内部网和外部网络之间的公司网络的部分)的控制平面非军事区(DMZ)层620。基于DMZ的服务器可以承担有限责任并有助于控制漏洞。此外,DMZ层620可以包括一个或多个负载平衡器(LB)子网622、可以包括(一个或多个)应用子网626的控制平面应用层624、可以包括(一个或多个)数据库(DB)子网630(例如,(一个或多个)前端DB子网和/或(一个或多个)后端DB子网)的控制平面数据层628。包含在控制平面DMZ层620中的(一个或多个)LB子网622可以通信地耦合到包含在控制平面应用层624中的(一个或多个)应用子网626和可以包含在控制平面VCN 616中的互联网网关634,并且(一个或多个)应用子网626可以通信地耦合到包含在控制平面数据层628中的(一个或多个)DB子网630以及服务网关636和网络地址转换(NAT)网关638。控制平面VCN 616可以包括服务网关636和NAT网关638。
控制平面VCN 616可以包括数据平面镜像应用层640,其可以包括(一个或多个)应用子网626。包含在数据平面镜像应用层640中的(一个或多个)应用子网626可以包括可以执行计算实例644的虚拟网络接口控制器(VNIC)642。计算实例644可以将数据平面镜像应用层640的(一个或多个)应用子网626通信地耦合到可以包含在数据平面应用层646中的(一个或多个)应用子网626。
数据平面VCN 618可以包括数据平面应用层646、数据平面DMZ层648和数据平面数据层650。数据平面DMZ层648可以包括(一个或多个)LB子网622,其可以通信地耦合到数据平面应用层646的(一个或多个)应用子网626和数据平面VCN 618的互联网网关634。(一个或多个)应用子网626可以通信地耦合到数据平面VCN 618的服务网关636和数据平面VCN618的NAT网关638。数据平面数据层650还可以包括可以通信地耦合到数据平面应用层646的(一个或多个)应用子网626的(一个或多个)DB子网630。
控制平面VCN 616和数据平面VCN 618的互联网网关634可以通信地耦合到元数据管理服务652,该元数据管理服务可以通信地耦合到公共互联网654。公共互联网654可以通信地耦合到控制平面VCN 616和数据平面VCN 618的NAT网关638。控制平面VCN 616和数据平面VCN 618的服务网关636可以通信地耦合到云服务656。
在一些示例中,控制平面VCN 616或数据平面VCN 618的服务网关636可以对云服务656进行应用编程接口(API)调用,而无需通过公共互联网654。从服务网关636到云服务656的API调用可以是单向的:服务网关636可以对云服务656进行API调用,并且云服务656可以将请求的数据发送到服务网关636。但是,云服务656可以不发起对服务网关636的API调用。
在一些示例中,安全主机租赁604可以直接连接到服务租赁619,服务租赁619否则可以被隔离。安全主机子网608可以通过LPG 610与SSH子网614通信,LPG 610可以使得能够在否则隔离的系统上进行双向通信。将安全主机子网608连接到SSH子网614可以使安全主机子网608访问服务租赁619内的其它实体。
控制平面VCN 616可以允许服务租赁619的用户设置或以其它方式供应期望的资源。在控制平面VCN 616中供应的期望资源可以在数据平面VCN 618中部署或以其它方式使用。在一些示例中,控制平面VCN 616可以与数据平面VCN 618隔离,并且控制平面VCN 616的数据平面镜像应用层640可以经由VNIC 642与数据平面VCN 618的数据平面应用层646通信,VNIC 642可以包含在数据平面镜像应用层640和数据平面应用层646中。
在一些示例中,系统的用户或客户可以通过可以将请求传送到元数据管理服务652的公共互联网654来做出请求,例如创建、读取、更新或删除(CRUD)操作。元数据管理服务652可以通过互联网网关634将请求传送到控制平面VCN 616。请求可以被包含在控制平面DMZ层620中的(一个或多个)LB子网622接收。(一个或多个)LB子网622可以确定请求是有效的,并且响应于该确定,(一个或多个)LB子网622可以将请求传输到包含在控制平面应用层624中的(一个或多个)应用子网626。如果请求被验证并且需要对公共互联网654的调用,那么对公共互联网654的调用可以被传输到可以对公共互联网654进行调用的NAT网关638。请求可能期望存储的元数据可以存储在(一个或多个)DB子网630中。
在一些示例中,数据平面镜像应用层640可以促进控制平面VCN 616和数据平面VCN 618之间的直接通信。例如,可能期望对包含在数据平面VCN 618中的资源应用对配置的更改、更新或其它适当的修改。经由VNIC 642,控制平面VCN 616可以直接与包含在数据平面VCN 618中的资源通信,并且从而可以执行对配置的更改、更新或其它适当的修改。
在一些实施例中,控制平面VCN 616和数据平面VCN 618可以包含在服务租赁619中。在这种情况下,系统的用户或客户可能不拥有或操作控制平面VCN 616或数据平面VCN618。替代地,IaaS提供商可以拥有或操作控制平面VCN 616和数据平面VCN 618,这两者平面都可以包含在服务租赁619中。该实施例可以使得能够隔离可能阻止用户或客户与其它用户或其它客户的资源交互的网络。此外,该实施例可以允许系统的用户或客户私自存储数据库,而无需依赖可能不具有期望威胁防护级别的公共互联网654进行存储。
在其它实施例中,包含在控制平面VCN 616中的(一个或多个)LB子网622可以被配置为从服务网关636接收信号。在这个实施例中,控制平面VCN 616和数据平面VCN 618可以被配置为由IaaS提供商的客户调用而无需调用公共互联网654。IaaS提供商的客户可能期望这个实施例,因为客户使用的(一个或多个)数据库可以由IaaS提供商控制并且可以存储在服务租赁619上,服务租赁619可能与公共互联网654隔离。
图7是图示根据至少一个实施例的IaaS体系架构的另一个示例模式的框图700。服务运营商702(例如,图6的服务运营商602)可以通信地耦合到安全主机租赁704(例如,图6的安全主机租赁604),该安全主机租赁704可以包括虚拟云网络(VCN)706(例如,图6的VCN606)和安全主机子网708(例如,图6的安全主机子网608)。VCN 706可以包括本地对等网关(LPG)710(例如,图6的LPG 610),其可以经由包含在SSH VCN 712中的LPG 610通信地耦合到安全壳(SSH)VCN 712(例如,图6的SSH VCN 612)。SSH VCN 712可以包括SSH子网714(例如,图6的SSH子网614),并且SSH VCN 712可以经由包含在控制平面VCN 716中的LPG 710通信地耦合到控制平面VCN 716(例如,图6的控制平面VCN 616)。控制平面VCN 716可以包含在服务租赁719(例如,图6的服务租赁619)中,并且数据平面VCN 718(例如,图6的数据平面VCN 618)可以包含在可能由系统的用户或客户拥有或操作的客户租赁721中。
控制平面VCN 716可以包括控制平面DMZ层720(例如,图6的控制平面DMZ层620),其可以包括(一个或多个)LB子网722(例如,图6的(一个或多个)LB子网622)、可以包括(一个或多个)应用子网726(例如,图6的(一个或多个)应用子网626)的控制平面应用层724(例如,图6的控制平面应用层624)、可以包括(一个或多个)数据库(DB)子网730(例如,类似于图6的(一个或多个)DB子网630)的控制平面数据层728(例如,图6的控制平面数据层628)。包含在控制平面DMZ层720中的(一个或多个)LB子网722可以通信地耦合到包含在控制平面应用层724中的(一个或多个)应用子网726和可以包含在控制平面VCN 716中的互联网网关734(例如,图6的互联网网关634),并且(一个或多个)应用子网726可以通信地耦合到包含在控制平面数据层728中的(一个或多个)DB子网730以及服务网关736(例如,图6的服务网关)和网络地址转换(NAT)网关738(例如,图6的NAT网关638)。控制平面VCN 716可以包括服务网关736和NAT网关738。
控制平面VCN 716可以包括可以包含(一个或多个)应用子网726的数据平面镜像应用层740(例如,图6的数据平面镜像应用层640)。包含在数据平面镜像应用层740中的(一个或多个)应用子网726可以包括可以执行计算实例744(例如,类似于图6的计算实例644)的虚拟网络接口控制器(VNIC)742(例如,642的VNIC)。计算实例744可以促进数据平面镜像应用层740的(一个或多个)应用子网726和可以包含在数据平面应用层746(例如,图6的数据平面应用层646)中的(一个或多个)应用子网726之间经由包含在数据平面镜像应用层740中的VNIC 742和包含在数据平面应用层746中的VNIC 742的通信。
包含在控制平面VCN 716中的互联网网关734可以通信地耦合到元数据管理服务752(例如,图6的元数据管理服务652),该元数据管理服务可以通信地耦合到公共互联网754(例如,图6的公共互联网654)。公共互联网754可以通信地耦合到包含在控制平面VCN716中的NAT网关738。包含在控制平面VCN 716中的服务网关736可以通信地耦合到云服务756(例如,图6的云服务656)。
在一些示例中,数据平面VCN 718可以包含在客户租赁721中。在这种情况下,IaaS提供商可以为每个客户提供控制平面VCN 716,并且IaaS提供商可以为每个客户设置包含在服务租赁719中的唯一计算实例744。每个计算实例744可以允许包含在服务租赁719中的控制平面VCN 716和包含在客户租赁721中的数据平面VCN 718之间的通信。计算实例744可以允许在包含在服务租赁719中的控制平面VCN 716中供应的资源被部署或以其它方式在包含在客户租赁721中的数据平面VCN 718中使用。
在其它示例中,IaaS提供商的客户可以具有存在于客户租赁721中的数据库。在这个示例中,控制平面VCN 716可以包括数据平面镜像应用层740,其可以包括(一个或多个)应用子网726。数据平面镜像应用层740可以驻留在数据平面VCN 718中,但数据平面镜像应用层740可能不在数据平面VCN 718中。即,数据平面镜像应用层740可以访问客户租赁721,但是数据平面镜像应用层740可能不存在于数据平面VCN 718中或者由IaaS提供商的客户拥有或操作。数据平面镜像应用层740可以被配置为对数据平面VCN 718进行调用,但可以不被配置为对包含在控制平面VCN 716中的任何实体进行调用。客户可能期望在数据平面VCN 718中部署或以其它方式使用在控制平面VCN 716中供应的资源,并且数据平面镜像应用层740可以促进客户的期望部署或资源的其它使用。
在一些实施例中,IaaS提供商的客户可以将过滤器应用到数据平面VCN 718。在这个实施例中,客户可以确定数据平面VCN 718可以访问什么,并且客户可以限制从数据平面VCN 718对公共互联网754的访问。IaaS提供商可能无法应用过滤器或以其它方式控制数据平面VCN 718对任何外部网络或数据库的访问。客户将过滤器和控制应用到包含在客户租赁721中的数据平面VCN 718上可以帮助将数据平面VCN 718与其它客户和公共互联网754隔离开。
在一些实施例中,云服务756可以由服务网关736调用以访问公共互联网754、控制平面VCN 716或数据平面VCN 718上可能不存在的服务。云服务756与控制平面VCN 716或数据平面VCN 718之间的连接可以不是实时的或连续的。云服务756可以存在于由IaaS提供商拥有或操作的不同网络上。云服务756可以被配置为接收来自服务网关736的调用并且可以被配置为不接收来自公共互联网754的调用。一些云服务756可以与其它云服务756隔离,并且控制平面VCN 716可以与可能与控制平面VCN 716不在同一区域的云服务756隔离。例如,控制平面VCN 716可能位于“区域1”,并且云服务“部署6”可能位于区域1和“区域2”。如果包含在位于区域1中的控制平面VCN 716中的服务网关736对部署6进行调用,那么该调用可以被传输到区域1中的部署6。在这个示例中,控制平面VCN 716或区域1中的部署6可能不与区域2中的部署6通信地耦合或以其它方式通信。
图8是图示根据至少一个实施例的IaaS体系架构的另一个示例模式的框图800。服务运营商802(例如,图6的服务运营商602)可以通信地耦合到安全主机租赁804(例如,图6的安全主机租赁604),该安全主机租赁804可以包括虚拟云网络(VCN)806(例如,图6的VCN606)和安全主机子网808(例如,图6的安全主机子网608)。VCN 806可以包括LPG 810(例如,图6的LPG 610),其可以经由包含在SSH VCN 812中的LPG 810通信地耦合到SSH VCN 812(例如,图6的SSH VCN 612)。SSH VCN 812可以包括SSH子网814(例如,图6的SSH子网614),并且SSH VCN 812可以经由包含在控制平面VCN 816中的LPG 810通信地耦合到控制平面VCN 816(例如,图6的控制平面VCN 616)并且经由包含在数据平面VCN 818中的LPG 810耦合到数据平面VCN 818(例如,图6的数据平面618)。控制平面VCN 816和数据平面VCN 818可以包含在服务租赁819(例如,图6的服务租赁619)中。
控制平面VCN 816可以包括可以包含(一个或多个)负载平衡器(LB)子网822(例如,图6的(一个或多个)LB子网622)的控制平面DMZ层820(例如,图6的控制平面DMZ层620)、可以包括(一个或多个)应用子网826(例如,类似于图6的(一个或多个)应用子网626)的控制平面应用层824(例如,图6的控制平面应用层624)、可以包括(一个或多个)DB子网830的控制平面数据层828(例如,图6的控制平面数据层628)。包含在控制平面DMZ层820中的(一个或多个)LB子网822可以通信地耦合到包含在控制平面应用层824中的(一个或多个)应用子网826和可以包含在控制平面VCN 816中的互联网网关834(例如,图6的互联网网关634),并且(一个或多个)应用子网826可以通信地耦合到包含在控制平面数据层828中的(一个或多个)DB子网830以及服务网关836(例如,图6的服务网关)和网络地址转换(NAT)网关838(例如,图6的NAT网关638)。控制平面VCN 816可以包括服务网关836和NAT网关838。
数据平面VCN 818可以包括数据平面应用层846(例如,图6的数据平面应用层646)、数据平面DMZ层848(例如,图6的数据平面DMZ层648),以及数据平面数据层850(例如,图6的数据平面数据层650)。数据平面DMZ层848可以包括可以通信地耦合到数据平面应用层846的(一个或多个)可信应用子网860和(一个或多个)不可信应用子网862以及包含在数据平面VCN 818中的互联网网关834的(一个或多个)LB子网822。(一个或多个)可信应用子网860可以通信地耦合到包含在数据平面VCN 818中的服务网关836、包含在数据平面VCN818中的NAT网关838以及包含在数据平面数据层850中的(一个或多个)DB子网830。(一个或多个)不可信应用子网862可以通信地耦合到包含在数据平面VCN 818中的服务网关836和包含在数据平面数据层850中的(一个或多个)DB子网830。数据平面数据层850可以包括可以通信地耦合到包含在数据平面VCN 818中的服务网关836的(一个或多个)DB子网830。
(一个或多个)不可信应用子网862可以包括可以通信地耦合到租户虚拟机(VM)866(1)-(N)的一个或多个主VNIC 864(1)-(N)。每个租户VM 866(1)-(N)可以通信地耦合到可以包含在相应容器出口VCN 868(1)-(N)中的相应应用子网867(1)-(N),相应容器出口VCN 868(1)-(N)可以包含在相应客户租赁870(1)-(N)中。相应的辅助VNIC 872(1)-(N)可以促进数据平面VCN 818中包含的(一个或多个)不可信应用子网862与容器出口VCN 868(1)-(N)中包含的应用子网之间的通信。每个容器出口VCN 868(1)-(N)可以包括NAT网关838,该NAT网关838可以通信地耦合到公共互联网854(例如,图6的公共互联网654)。
包含在控制平面VCN 816中并且包含在数据平面VCN 818中的互联网网关834可以通信地耦合到元数据管理服务852(例如,图6的元数据管理系统652),该元数据管理服务可以通信地耦合到公共互联网854。公共互联网854可以通信地耦合到包含在控制平面VCN816中并且包含在数据平面VCN 818中的NAT网关838。包含在控制平面VCN 816中和包含在数据平面VCN 818中的服务网关836可以通信地耦合到云服务856。
在一些实施例中,数据平面VCN 818可以与客户租赁870集成。在一些情况下,诸如在执行代码时可能期望支持的情况下,这种集成对于IaaS提供商的客户可能是有用的或期望的。客户可能提供可能具有破坏性、可能与其它客户资源通信或可能以其它方式导致非期望效果的代码来运行。作为对此的响应,IaaS提供商可以确定是否运行由客户给与IaaS提供商的代码。
在一些示例中,IaaS提供商的客户可以向IaaS提供商授予临时网络访问,并请求附加到数据平面层应用846的功能。运行该功能的代码可以在VM 866(1)-(N)中执行,并且该代码可以不被配置为在数据平面VCN 818上的其它任何地方运行。每个VM 866(1)-(N)可以连接到一个客户租赁870。包含在VM 866(1)-(N)中的相应容器871(1)-(N)可以被配置为运行代码。在这种情况下,可以存在双重隔离(例如,容器871(1)-(N)运行代码,其中容器871(1)-(N)可能至少包含在(一个或多个)不可信应用子网862中包含的VM 866(1)-(N)中),这可以帮助防止不正确的或以其它方式非期望的代码损坏IaaS提供商的网络或损坏不同客户的网络。容器871(1)-(N)可以通信地耦合到客户租赁870并且可以被配置为传输或接收来自客户租赁870的数据。容器871(1)-(N)可以不被配置为从数据平面VCN 818中的任何其它实体传输或接收数据。在运行代码完成后,IaaS提供商可以终止或以其它方式处置容器871(1)-(N)。
在一些实施例中,(一个或多个)可信应用子网860可以运行可以由IaaS提供商拥有或操作的代码。在这个实施例中,(一个或多个)可信应用子网860可以通信地耦合到(一个或多个)DB子网830并且被配置为在(一个或多个)DB子网830中执行CRUD操作。(一个或多个)不可信应用子网862可以通信地耦合到(一个或多个)DB子网830,但是在这个实施例中,(一个或多个)不可信应用子网可以被配置为在(一个或多个)DB子网830中执行读取操作。可以包含在每个客户的VM 866(1)-(N)中并且可以运行来自客户的代码的容器871(1)-(N)可以不与(一个或多个)DB子网830通信地耦合。
在其它实施例中,控制平面VCN 816和数据平面VCN 818可以不直接通信地耦合。在这个实施例中,控制平面VCN 816和数据平面VCN 818之间可能没有直接通信。但是,通信可以通过至少一种方法间接发生。LPG 810可以由IaaS提供商建立,其可以促进控制平面VCN 816和数据平面VCN 818之间的通信。在另一个示例中,控制平面VCN 816或数据平面VCN 818可以经由服务网关836调用云服务856。例如,从控制平面VCN 816对云服务856的调用可以包括对可以与数据平面VCN 818通信的服务的请求。
图9是图示根据至少一个实施例的IaaS体系架构的另一个示例模式的框图900。服务运营商902(例如,图6的服务运营商602)可以通信地耦合到安全主机租赁904(例如,图6的安全主机租赁604),该安全主机租赁904可以包括虚拟云网络(VCN)906(例如,图6的VCN606)和安全主机子网908(例如,图6的安全主机子网608)。VCN 906可以包括LPG 910(例如,图6的LPG 610),该LPG 910可以经由包含在SSH VCN 912(例如,图6的SSH VCN 612)中的LPG 910通信地耦合到SSH VCN 912。SSH VCN 912可以包括SSH子网914(例如,图6的SSH子网614),并且SSH VCN 912可以经由包含在控制平面VCN 916中的LPG 910通信地耦合到控制平面VCN 916(例如,图6的控制平面VCN 616)并且经由包含在数据平面VCN 918中的LPG910耦合到数据平面VCN 918(例如,图6的数据平面618)。控制平面VCN 916和数据平面VCN918可以包含在服务租赁919(例如,图6的服务租赁619)中。
控制平面VCN 916可以包括可以包含(一个或多个)LB子网922(例如,图6的(一个或多个)LB子网622)的控制平面DMZ层920(例如,图6的控制平面DMZ层620)、可以包括(一个或多个)应用子网926(例如,图6的(一个或多个)应用子网626)的控制平面应用层924(例如,图6的控制平面应用层624)、可以包括(一个或多个)DB子网930(例如,图8的(一个或多个)DB子网830)的控制平面数据层928(例如,图6的控制平面数据层628)。包含在控制平面DMZ层920中的(一个或多个)LB子网922可以通信地耦合到包含在控制平面应用层924中的(一个或多个)应用子网926和可以包含在控制平面VCN 916中的互联网网关934(例如,图6的互联网网关634),并且(一个或多个)应用子网926可以通信地耦合到包含在控制平面数据层928中的(一个或多个)DB子网930以及服务网关936(例如,图6的服务网关)和网络地址转换(NAT)网关938(例如,图6的NAT网关638)。控制平面VCN 916可以包括服务网关936和NAT网关938。
数据平面VCN 918可以包括数据平面应用层946(例如,图6的数据平面应用层646)、数据平面DMZ层948(例如,图6的数据平面DMZ层648)),以及数据平面数据层950(例如,图6的数据平面数据层650)。数据平面DMZ层948可以包括可以通信地耦合到数据平面应用层946的(一个或多个)可信应用子网960(例如,图8的(一个或多个)可信应用子网860)和(一个或多个)不可信应用子网962(例如,图8的(一个或多个)不可信应用子网862)以及包含在数据平面VCN 918中的互联网网关934的(一个或多个)LB子网922。
(一个或多个)可信应用子网960可以通信地耦合到包含在数据平面VCN 918中的服务网关936、包含在数据平面VCN 918中的NAT网关938以及包含在数据平面数据层950中的(一个或多个)DB子网930。
(一个或多个)不可信应用子网962可以通信地耦合到包含在数据平面VCN 918中的服务网关936和包含在数据平面数据层950中的(一个或多个)DB子网930。数据平面数据层950可以包括可以通信地耦合到包含在数据平面VCN 918中的服务网关936的(一个或多个)DB子网930。
(一个或多个)不可信应用子网962可以包括可以通信地耦合到驻留在(一个或多个)不可信应用子网962内的租户虚拟机(VM)966(1)-(N)的主VNIC 964(1)-(N)。每个租户VM 966(1)-(N)可以在相应的容器967(1)-(N)中运行代码,并且可通信地耦合到可以包含在容器出口VCN 968中包含的数据平面应用层946中的应用子网926。相应的辅助VNIC 972(1)-(N)可以促进包含在数据平面VCN 918中的(一个或多个)不可信应用子网962和包含在容器出口VCN 968中的应用子网之间的通信。容器出口VCN可以包括可以通信地耦合到公共互联网954(例如,图6的公共互联网654)的NAT网关938。
包含在控制平面VCN 916中和包含在数据平面VCN 918中的互联网网关934可以通信地耦合到元数据管理服务952(例如,图6的元数据管理系统652),该元数据管理服务可以通信地耦合到公共互联网954。公共互联网954可以通信地耦合到包含在控制平面VCN 916中并且包含在数据平面VCN 918中的NAT网关938。包含在控制平面VCN 916中并且包含在数据平面VCN 918中的服务网关936可以通信地耦合到云服务956。
在一些示例中,图9的框图900的体系架构所示的模式可以被认为是图8的框图800的体系架构所示的模式的例外,并且如果IaaS提供商不能直接与客户通信(例如,断开连接的区域),那么这种模式可能是IaaS提供商的客户所期望的。客户可以实时访问每个客户的VM 966(1)-(N)中包含的相应容器967(1)-(N)。容器967(1)-(N)可以被配置为对包含在数据平面应用层946的(一个或多个)应用子网926中的相应辅助VNIC 972(1)-(N)进行调用,该数据平面应用层946可以包含在容器出口VCN 968中。辅助VNIC 972(1)-(N)可以将调用传输到NAT网关938,NAT网关938可以将调用传输到公共互联网954。在这个示例中,可以由客户实时访问的容器967(1)-(N)可以与控制平面VCN 916隔离,并且可以与数据平面VCN918中包含的其它实体隔离。容器967(1)-(N)也可以与来自其它客户的资源隔离。
在其它示例中,客户可以使用容器967(1)-(N)来调用云服务956。在这个示例中,客户可以运行容器967(1)-(N)中从云服务956请求服务的代码。容器967(1)-(N)可以将该请求传输到辅助VNIC 972(1)-(N),辅助VNIC 972(1)-(N)可以将请求传输到NAT网关,该NAT网关可以将请求传输到公共互联网954。公共互联网954可以经由互联网网关934将请求传输到包含在控制平面VCN 916中的(一个或多个)LB子网922。响应于确定请求有效,(一个或多个)LB子网可以将请求传输到(一个或多个)应用子网926,该(一个或多个)应用子网926可以经由服务网关936将请求传输到云服务956。
应当认识到的是,各图中描绘的IaaS体系架构600、700、800、900可以具有除所描绘的那些之外的其它组件。另外,各图中所示的实施例仅仅是可以结合本公开的实施例的云基础设施系统的一些示例。在一些其它实施例中,IaaS系统可以具有比各图中所示更多或更少的组件、可以组合两个或更多个组件,或者可以具有不同的配置或组件布置。
在某些实施例中,本文描述的IaaS系统可以包括以自助服务、基于订阅、弹性可扩展、可靠、高度可用和安全的方式交付给客户的应用套件、中间件和数据库服务产品。此类IaaS系统的示例是本受让人提供的Oracle云基础设施(OCI)。
图10图示了其中可以实现各种实施例的示例计算机系统1000。系统1000可以用于实现上述任何计算机系统。如图所示,计算机系统1000包括经由总线子系统1002与多个外围子系统通信的处理单元1004。这些外围子系统可以包括处理加速单元1006、I/O子系统1008、存储子系统1018和通信子系统1024。存储子系统1018包括有形计算机可读存储介质1022和系统存储器1010。
总线子系统1002提供用于让计算机系统1000的各种部件和子系统按意图彼此通信的机制。虽然总线子系统1002被示意性地示出为单条总线,但是总线子系统的替代实施例可以利用多条总线。总线子系统1002可以是若干种类型的总线结构中的任何一种,包括存储器总线或存储器控制器、外围总线、以及使用任何各种总线体系架构的局部总线。例如,这种体系架构可以包括工业标准体系架构(ISA)总线、微通道体系架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线和外围部件互连(PCI)总线,其可以被实现为按IEEE P1386.1标准制造的Mezzanine总线。
可以被实现为一个或多个集成电路(例如,常规微处理器或微控制器)的处理单元1004控制计算机系统1000的操作。一个或多个处理器可以被包括在处理单元1004中。这些处理器可以包括单核或多核处理器。在某些实施例中,处理单元1004可以被实现为一个或多个独立的处理单元1032和/或1034,其中在每个处理单元中包括单核或多核处理器。在其它实施例中,处理单元1004也可以被实现为通过将两个双核处理器集成到单个芯片中形成的四核处理单元。
在各种实施例中,处理单元1004可以响应于程序代码执行各种程序并且可以维护多个并发执行的程序或进程。在任何给定的时间,要被执行的程序代码中的一些或全部代码可以驻留在(一个或多个)处理器1004中和/或存储子系统1018中。通过适当的编程,(一个或多个)处理器1004可以提供上述各种功能。计算机系统1000可以附加地包括处理加速单元1006,其可以包括数字信号处理器(DSP)、专用处理器,等等。
I/O子系统1008可以包括用户接口输入设备和用户接口输出设备。用户接口输入设备可以包括键盘、诸如鼠标或轨迹球的定点设备、结合到显示器中的触摸板或触摸屏、滚动轮、点击轮、拨盘、按钮、开关、键盘、具有语音命令识别系统的音频输入设备、麦克风以及其它类型的输入设备。用户接口输入设备可以包括,例如,运动感测和/或手势识别设备,诸如的Microsoft运动传感器,其使得用户能够使用手势和语音命令通过自然用户接口来控制诸如的Microsoft/>360游戏控制器的输入设备并与之交互。用户接口输入设备也可以包括眼睛姿势识别设备,诸如从用户检测眼睛活动(例如,当拍摄照片和/或做出菜单选择时的“眨眼”)并且将眼睛姿势转换为到输入设备(例如,Google/>)中的输入的Google/>眨眼检测器。此外,用户接口输入设备可以包括使用户能够通过语音命令与语音识别系统(例如,/>导航器)交互的语音识别感测设备。
用户接口输入设备也可以包括但不限于三维(3D)鼠标、操纵杆或指向棒、游戏面板和绘图板,以及音频/视频设备,诸如扬声器、数码相机、数码摄像机、便携式媒体播放器、网络摄像头、图像扫描仪、指纹扫描仪、条形码阅读器3D扫描仪、3D打印机、激光测距仪和视线跟踪设备。此外,用户接口输入设备可以包括,例如,医学成像输入设备,诸如计算机断层扫描、磁共振成像、正电子发射断层摄影术、医疗超声设备。用户接口输入设备也可以包括,例如,诸如MIDI键盘、数字乐器等的音频输入设备。
用户接口输出设备可以包括显示子系统、指示灯,或者诸如音频输出设备的非可视显示器,等等。显示子系统可以是阴极射线管(CRT)、诸如使用液晶显示器(LCD)或等离子显示器的平板设备、投影设备、触摸屏,等等。一般而言,术语“输出设备”的使用意在包括用于从计算机系统1000向用户或其它计算机输出信息的所有可能类型的设备和机制。例如,用户接口输出设备可以包括,但不限于,可视地传达文本、图形和音频/视频信息的各种显示设备,诸如监视器、打印机、扬声器、耳机、汽车导航系统、绘图仪、语音输出设备,以及调制解调器。
计算机系统1000可以包括包含软件元件、被示为当前位于系统存储器1010中的存储子系统1018。系统存储器1010可以存储可加载并且可在处理单元1004上执行的程序指令,以及在这些程序的执行期间所产生的数据。
取决于计算机系统1000的配置和类型,系统存储器1010可以是易失性的(诸如随机存取存储器(RAM))和/或非易失性的(诸如只读存储器(ROM)、闪存存储器,等等)。RAM通常包含可被处理单元1004立即访问和/或目前正被处理单元1004操作和执行的数据和/或程序模块。在一些实现中,系统存储器1010可以包括多种不同类型的存储器,例如静态随机存取存储器(SRAM)或动态随机存取存储器(DRAM)。在一些实现中,诸如包含有助于在启动期间在计算机系统1000的元件之间传送信息的基本例程的基本输入/输出系统(BIOS),通常可以被存储在ROM中。作为示例,但不是限制,系统存储器1010也示出了可以包括客户端应用、web浏览器、中间层应用、关系数据库管理系统(RDBMS)等的应用程序1012,程序数据1014,以及操作系统1016。作为示例,操作系统1016可以包括各种版本的MicrosoftApple/>和/或Linux操作系统、各种可商业获得的/>或类UNIX操作系统(包括但不限于各种GNU/Linux操作系统、Google/>操作系统等)和/或诸如iOS、/>Phone、/>OS、/>10OS和/>OS操作系统的移动操作系统。
存储子系统1018也可以提供用于存储提供一些实施例的功能的基本编程和数据结构的有形计算机可读存储介质。当被处理器执行时提供上述功能的软件(程序、代码模块、指令)可以被存储在存储子系统1018中。这些软件模块或指令可以被处理单元1004执行。存储子系统1018也可以提供用于存储根据本公开被使用的数据的储存库。
存储子系统1018也可以包括可被进一步连接到计算机可读存储介质1022的计算机可读存储介质读取器1020。与系统存储器1010一起并且,可选地,与其相结合,计算机可读存储介质1022可以全面地表示用于临时和/或更持久地包含、存储、发送和检索计算机可读信息的远程、本地、固定和/或可移除存储设备加存储介质。
包含代码或代码的部分的计算机可读存储介质1022也可以包括本领域已知或使用的任何适当的介质,包括存储介质和通信介质,诸如但不限于,以用于信息的存储和/或传输的任何方法或技术实现的易失性和非易失性、可移除和不可移除介质。这可以包括有形的计算机可读存储介质,诸如RAM、ROM、电可擦除可编程ROM(EEPROM)、闪存存储器或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光学储存器、磁带盒、磁带、磁盘储存器或其它磁存储设备,或者其它有形的计算机可读介质。这也可以包括非有形的计算机可读介质,诸如数据信号、数据传输,或者可以被用来发送期望信息并且可以被计算系统1000访问的任何其它介质。
作为示例,计算机可读存储介质1022可以包括从不可移除的非易失性磁介质读取或写到其的硬盘驱动器、从可移除的非易失性磁盘读取或写到其的磁盘驱动器、以及从可移除的非易失性光盘(诸如CD ROM、DVD和盘或其它光学介质)读取或写到其的光盘驱动器。计算机可读存储介质1022可以包括,但不限于,/>驱动器、闪存卡、通用串行总线(USB)闪存驱动器、安全数字(SD)卡、DVD盘、数字音频带,等等。计算机可读存储介质1022也可以包括基于非易失性存储器的固态驱动器(SSD)(诸如基于闪存存储器的SSD、企业闪存驱动器、固态ROM等)、基于易失性存储器的SSD(诸如固态RAM、动态RAM、静态RAM)、基于DRAM的SSD,磁阻RAM(MRAM)SSD,以及使用基于DRAM和闪存存储器的SSD的组合的混合SSD。盘驱动器及其关联的计算机可读介质可以为计算机系统1000提供计算机可读指令、数据结构、程序模块及其它数据的非易失性存储。
通信子系统1024提供到其它计算机系统和网络的接口。通信子系统1024用作用于从其它系统接收数据和从计算机系统1000向其它系统发送数据的接口。例如,通信子系统1024可以使计算机系统1000能够经由互联网连接到一个或多个设备。在一些实施例中,通信子系统1024可以包括用于访问无线语音和/或数据网络的射频(RF)收发器部件(例如,使用蜂窝电话技术,诸如3G、4G或EDGE(用于全球演进的增强型数据速率)的先进数据网络技术,WiFi(IEEE 802.11系列标准),或其它移动通信技术,或其任意组合)、全球定位系统(GPS)接收器部件和/或其它部件。在一些实施例中,作为无线接口的附加或者替代,通信子系统1024可以提供有线网络连接(例如,以太网)。
在一些实施例中,通信子系统1024也可以代表可以使用计算机系统1000的一个或多个用户接收结构化和/或非结构化数据馈送1026、事件流1028、事件更新1030等形式的输入通信。
作为示例,通信子系统1024可以被配置为实时地从社交网络和/或其它通信服务的用户接收数据馈送1026,诸如馈送、/>更新、诸如丰富站点摘要(RSS)馈送的web馈送和/或来自一个或多个第三方信息源的实时更新。
此外,通信子系统1024也可被配置为接收连续数据流形式的数据,这可以包括本质上可以是连续的或无界的没有明确终止的实时事件的事件流1028和/或事件更新1030。产生连续数据的应用的示例可以包括,例如,传感器数据应用、金融报价机、网络性能测量工具(例如,网络监视和流量管理应用)、点击流分析工具、汽车流量监视,等等。
通信子系统1024也可被配置为向一个或多个数据库输出结构化和/或非结构化数据馈送1026、事件流1028、事件更新1030,等等,这一个或多个数据库可以与耦合到计算机系统1000的一个或多个流式数据源计算机通信。
计算机系统1000可以是各种类型之一,包括手持便携式设备(例如,蜂窝电话、/>计算平板电脑、PDA)、可穿戴设备(例如,/>Glass头戴式显示器)、PC、工作站、大型机、信息站、服务器机架、或任何其它数据处理系统。
由于计算机和网络的不断变化的本质,在图中绘出的计算机系统1000的描述仅仅要作为具体的示例。具有比图中绘出的系统更多或更少部件的许多其它配置是可能的。例如,定制的硬件也可以被使用和/或特定的元素可以用硬件、固件、软件(包括Applets)或其组合来实现。另外,也可以采用到诸如网络输入/输出设备之类的其它计算设备的连接。基于本文提供的公开内容和示教,本领域普通技术人员将认识到实现各种实施例的其它方式和/或方法。
虽然已经描述了具体实施例,但是各种修改、变更、替代构造和等效形式也包含在本公开的范围内。实施例不限于在某些特定数据处理环境内操作,而是可以在多个数据处理环境内自由操作。此外,虽然已经使用特定系列的事务和步骤描述了实施例,但是本领域技术人员应该清楚本公开的范围不限于所描述系列的事务和步骤。上述实施例的各种特征和方面可以单独或联合使用。
另外,虽然已经使用硬件和软件的特定组合描述了实施例,但是应当认识到硬件和软件的其它组合也在本公开的范围内。实施例可以仅用硬件、或仅用软件、或使用它们的组合来实现。本文描述的各种处理可以以任何组合在相同的处理器或在不同的处理器上实现。相应地,在组件或模块被描述为被配置为执行某些操作的情况下,可以通过例如设计电子电路来执行操作、通过对可编程电子电路(诸如微处理器)进行编程来执行操作,或其任何组合来完成这样的配置。处理可以使用多种技术进行通信,包括但不限于用于处理间通信的常规技术,并且不同的处理对可以使用不同的技术,或者同一对处理可以在不同时间使用不同的技术。
相应地,说明书和附图被认为是说明性的而不是限制性的。但是,显然可以对其进行添加、减少、删除和其它修改和改变而不背离权利要求中阐述的更广泛的精神和范围。因此,虽然已经描述了具体的公开实施例,但这些并不旨在进行限制。各种修改和等效形式都在以下权利要求的范围内。
在描述所公开的实施例的上下文中(尤其在以下权利要求的上下文中)使用术语“一”和“一个”和“该”以及类似的指称要被解释为涵盖单数和复数,除非本文另有指示或与上下文明显矛盾。除非另有说明,否则术语“包括”、“具有”、“包含(including)”和“包含(containing)”要被解释为开放式术语(即,意思是“包括但不限于”)。术语“连接”应被解释为部分或全部包含在、附加到或连接在一起,即使中间存在一些东西。除非本文另有指示,否则本文中值范围的列举仅旨在用作个别引用落入该范围内的每个单独值的速记方法,并且每个单独值被并入说明书中,就好像它在本文中个别列举一样。除非本文另有指示或与上下文明显矛盾,否则本文所述的所有方法都可以以任何合适的顺序执行。本文提供的任何和所有示例或示例性语言(例如,“诸如”)的使用仅旨在更好地阐明实施例并且不对本公开的范围构成限制,除非另有声明。说明书中的任何语言都不应被解释为指示任何未要求保护的元素对于本公开的实践是必不可少的。
析取语言,诸如短语“X、Y或Z中的至少一个”,除非另有明确说明,否则旨在在一般用于表示项目、术语等的上下文中理解,可以是X、Y或Z,或它们的任何组合(例如,X、Y和/或Z)。因此,这种析取语言通常不旨在也不应暗示某些实施例需要X中的至少一个、Y中的至少一个或Z中的至少一个各自存在。
本文描述了本公开的优选实施例,包括已知用于实施本公开的最佳模式。那些优选实施例的变型对于本领域普通技术人员在阅读上述描述后会变得显而易见。普通技术人员应该能够适当地采用这样的变型并且可以以不同于本文具体描述的方式来实践本公开。相应地,本公开包括在适用法律允许的情况下对所附权利要求中记载的主题的所有修改和等效形式。此外,除非在本文中另有指示,否则本公开包括在其所有可能的变化中的上述元素的任何组合。
本文引用的所有参考文献,包括出版物、专利申请和专利,均以相同的程度通过引用并入本文,就好像每个参考文献个别且具体地指示通过引用并入并在本文中全文阐述一样。
在前述的说明书中,本公开的各方面参考其具体实施例进行了描述,但本领域技术人员将认识到的是,本公开不限于此。上述公开的各个特征和方面可以被单独或联合使用。此外,在不脱离本说明书的更广泛精神和范围的情况下,实施例可以在除本文所述的那些之外的任何数量的环境和应用中被使用。相应地,本说明书和附图应当被认为是说明性而不是限制性的。

Claims (17)

1.一种用于推导数据中心中的中断的一个或多个预计源的方法,所述方法包括:
获得输入数据的集合,所述输入数据的集合提供与所述数据中心相关的各种参数以及所述数据中心中的设备和在所述数据中心中的所述设备上执行的应用的列表,其中,所述输入数据的集合包括所述数据中心中的每个设备的位置以及所述数据中心中的每个设备的设备类型;
处理所述输入数据的集合以识别与所述输入数据的集合的每个部分相关的一个或多个相关联的设备以及数据类型;
为所述输入数据的集合的每个部分指派时间戳,所述时间戳指示获得所述输入数据的集合的每个部分的时间;
按照数据类型和所指派的时间戳将所述输入数据的集合存储在数据库中;
至少部分地基于所获得的所述输入数据的集合来检测所述数据中心的至少一个功能性的中断;
响应于检测到所述中断,使用模型来处理所述输入数据的集合以推导所述中断的一个或多个预计源,所述模型并入一组规则,所述一组规则指定所述输入数据的集合与作为所述中断的一个或多个预计源的设备或在设备上执行的应用之间的相关性,其中推导所述中断的所述一个或多个预计源包括:
使用所述模型能够访问的所述一组规则,利用与所述输入数据的集合中所包括的每个参数相关的历史数据来生成每个参数的预测水平;
将每个参数的所述预测水平与所述输入数据的集合中所包括的每个参数的实际水平进行比较,以识别一个或多个异常参数,所述一个或多个异常参数包括相对于每个对应预测水平具有阈值偏差的实际水平;以及
识别与识别出的异常参数中的每个异常参数对应的一个或多个设备和/或应用,其中识别出的所述一个或多个设备和/或应用中的每个设备和/或应用被包括作为所述中断的所述一个或多个预计源;以及
至少部分地基于处理所述输入数据的集合,来生成提供所述中断的所述一个或多个预计源的中断通知消息。
2.如权利要求1所述的方法,其中,所述输入数据的集合指定以下各项中的任何项:所述数据中心中的每个服务器的温度、所述数据中心的每个机架中的每个电源的功率水平、从所述数据中心中的一系列传感器获得的所述数据中心的气候数据、所获得的识别所述数据中心的任何功能性的工单数据、所述数据中心中的设备的列表,以及所述数据中心中的所有设备的位置。
3.如权利要求1所述的方法,其中,检测所述中断还包括:
从外部计算设备获得指定已发生所述中断的中断通知;或者
检测接收到阈值数量的所获得的工单,所述工单指定所述数据中心处的至少一个功能性或计算资源的一部分的丢失。
4.如权利要求1所述的方法,其中,所述中断通知消息包括第一异常参数和第一异常参数的推导出的预测水平的图形表示。
5.如权利要求1所述的方法,还包括:
对于所述中断的所述一个或多个预计源中的每个预计源,至少部分地基于与涉及所述中断的每个预计源的参数相关的规则的数量来推导置信度水平,其中所述中断通知消息包括所述置信度水平。
6.如权利要求5所述的方法,其中,所述中断的所述一个或多个预计源中的每个预计源以及用于所述中断的所述一个或多个预计源中的每个预计源的置信度水平将所述输入数据的集合的异常方面与所述数据中心中的设备或应用相关联,以提供对中断的实际源的洞察。
7.如权利要求1所述的方法,还包括:
对于所述中断的所述一个或多个预计源中的每个预计源,检索与所述中断的所述一个或多个预计源中的每个预计源相关的解决方案数据,所述解决方案数据提供特定于所述中断的每个预计源的用于解决所述中断的已知方法,其中所述中断通知消息包括所述解决方案数据。
8.一种云基础设施节点,包括:
处理器;以及
非暂态计算机可读介质,包括指令,所述指令在由处理器执行时使处理器:
获得输入数据的集合,所述输入数据的集合提供与数据中心相关的各种参数以及所述数据中心中的设备和在所述数据中心中的所述设备上执行的应用的列表,其中,所述输入数据的集合包括所述数据中心中的每个设备的位置以及所述数据中心中的每个设备的设备类型;
处理所述输入数据的集合以识别与所述输入数据的集合的每个部分相关的一个或多个相关联的设备以及数据类型;
为所述输入数据的集合的每个部分指派时间戳,所述时间戳指示获得所述输入数据的集合的每个部分的时间;
按照数据类型和所指派的时间戳将所述输入数据的集合存储在数据库中;
至少部分地基于所获得的所述输入数据的集合来检测所述数据中心的功能性的中断;
响应于检测到所述中断,使用模型来处理所述输入数据的集合以推导所述中断的一个或多个预计源,所述模型并入一组规则,所述一组规则指定所述输入数据的集合与作为所述中断的一个或多个预计源的设备或在设备上执行的应用之间的相关性;以及
至少部分地基于所述推导来生成提供所述中断的所述一个或多个预计源的中断通知消息。
9.如权利要求8所述的云基础设施节点,其中,所述非暂态计算机可读介质还使得所述处理器:
由所述模型使用所述一组规则中的第一规则来识别第一异常参数与在所述数据中心中的一部分服务器上执行的第一应用相关;
由所述模型使用所述一组规则中的第二规则来识别对第一应用的执行的改变发生在检测到所述中断的时间的一阈值持续时间内,其中第一应用作为所述中断的第一预计源被包括在所述中断通知消息中,其中所述中断通知消息还提供解决方案数据,所述解决方案数据指定用于将第一应用撤回到先前版本以移除对第一应用的执行的所述改变的指令。
10.如权利要求8所述的云基础设施节点,其中,检测所述中断还包括:
从外部计算设备获得指定已发生所述中断的中断通知;或者
检测接收到阈值数量的所获得的工单,所述工单指定所述数据中心处的至少一个功能性或计算资源的一部分的丢失。
11.如权利要求8所述的云基础设施节点,其中,所述非暂态计算机可读介质还使得所述处理器:
对于所述中断的所述一个或多个预计源中的每个预计源,至少部分地基于所述规则的集合中与涉及所述中断的每个预计源的参数相关的规则的数量来推导置信度水平,其中所述中断通知消息包括所述置信度水平。
12.如权利要求8所述的云基础设施节点,其中,使用所述模型处理所述输入数据的集合以生成所述中断的所述一个或多个预计源还包括:
使用与所述输入数据的集合中所包括的每个参数相关的历史数据生成用于每个参数的预测水平;
将用于每个参数的预测水平与所述输入数据的集合中所包括的每个参数的实际水平进行比较,以识别一个或多个异常参数,所述一个或多个异常参数包括相对于每个对应预测水平具有阈值偏差的实际水平;以及
识别与识别出的异常参数中的每个异常参数对应的设备或一系列设备,其中识别出的设备或一系列设备中的每个设备被包括作为所述中断的所述一个或多个预计源。
13.一种非暂态计算机可读介质,包括存储在其上的指令序列,所述指令序列在被处理器执行时使得所述处理器执行过程,所述过程包括:
获得输入数据的集合,所述输入数据的集合提供与数据中心相关的各种参数以及所述数据中心中的设备和在所述数据中心中的所述设备上执行的应用的列表,其中,所述输入数据的集合包括所述数据中心中的每个设备的位置以及所述数据中心中的每个设备的设备类型;
处理所述输入数据的集合以识别与所述输入数据的集合的每个部分相关的一个或多个相关联的设备以及数据类型;
为所述输入数据的集合的每个部分指派时间戳,所述时间戳指示获得所述输入数据的集合的每个部分的时间;
按照数据类型和所指派的时间戳将所述输入数据的集合存储在数据库中;
至少部分地基于所获得的所述输入数据的集合来检测所述数据中心处的中断;
由模型使用所述输入数据的集合来推导所述中断的一个或多个预计源,其中推导所述中断的所述一个或多个预计源包括:
将用于每个参数的预测水平与所述输入数据的集合中所包括的每个参数的推导出的水平进行比较,以识别一个或多个异常参数,所述一个或多个异常参数包括相对于每个对应预测水平具有阈值偏差的推导出的水平;以及
识别与识别出的异常参数中的每个异常参数对应的一个或多个设备和/或应用,其中识别出的所述一个或多个设备和/或应用中的每个设备和/或应用被包括作为所述中断的所述一个或多个预计源;以及
至少部分地基于所述推导生成提供所述中断的所述一个或多个预计源的中断通知消息。
14.如权利要求13所述的计算机可读介质,其中,所述输入数据的集合指定以下各项中的任何项:所述数据中心中的每个服务器的温度、所述数据中心的每个机架中的每个电源的功率水平、从所述数据中心中的一系列传感器获得的所述数据中心的气候数据、所获得的识别所述数据中心的任何功能性的工单数据、所述数据中心中的设备的列表,以及所述数据中心中的所有设备的位置。
15.如权利要求13所述的计算机可读介质,其中,所述中断通知消息包括第一异常参数和第一异常参数的推导出的预测水平的图形表示。
16.如权利要求13所述的计算机可读介质,其中,所述过程还包括:
对于所述中断的所述一个或多个预计源中的每个预计源,至少部分地基于与涉及所述中断的每个预计源的参数相关的规则的数量来推导置信度水平,其中所述中断通知消息包括所述置信度水平。
17.如权利要求13所述的计算机可读介质,其中,所述过程还包括:
对于所述中断的所述一个或多个预计源中的每个预计源,检索与所述中断的所述一个或多个预计源中的每个预计源相关的解决方案数据,所述解决方案数据提供特定于所述中断的每个预计源的用于解决所述中断的已知方法,其中述中断通知消息包括所述解决方案数据。
CN202280033725.3A 2021-06-03 2022-05-31 使用机器学习模型通过近实时/离线数据来检测数据中心大规模中断 Active CN117280327B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/338,478 2021-06-03
US17/338,478 US11397634B1 (en) 2021-06-03 2021-06-03 Detecting datacenter mass outage with near real-time/offline using ML models
PCT/US2022/031614 WO2022256330A1 (en) 2021-06-03 2022-05-31 Detecting datacenter mass outage with near real-time/offline data using ml models

Publications (2)

Publication Number Publication Date
CN117280327A CN117280327A (zh) 2023-12-22
CN117280327B true CN117280327B (zh) 2024-04-05

Family

ID=82399474

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280033725.3A Active CN117280327B (zh) 2021-06-03 2022-05-31 使用机器学习模型通过近实时/离线数据来检测数据中心大规模中断

Country Status (4)

Country Link
US (3) US11397634B1 (zh)
EP (1) EP4348429A1 (zh)
CN (1) CN117280327B (zh)
WO (1) WO2022256330A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11397634B1 (en) 2021-06-03 2022-07-26 Oracle International Corporation Detecting datacenter mass outage with near real-time/offline using ML models
US11706130B2 (en) * 2021-07-19 2023-07-18 Cisco Technology, Inc. Root-causing user experience anomalies to coordinate reactive policies in application-aware routing

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101529808A (zh) * 2006-10-30 2009-09-09 汤姆森许可贸易公司 用于指示服务中断源的方法
CN107912084A (zh) * 2015-03-18 2018-04-13 T移动美国公司 基于路径的数据中断检测
CN108469987A (zh) * 2018-02-26 2018-08-31 华东师范大学 一种基于中断控制流图的中断验证系统
EP3798847A1 (en) * 2019-09-30 2021-03-31 Dynatrace LLC Forming root cause groups of incidents in clustered distributed system through horizontal and vertical aggregation

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6889908B2 (en) * 2003-06-30 2005-05-10 International Business Machines Corporation Thermal analysis in a data processing system
US10055277B1 (en) * 2015-09-30 2018-08-21 Amdocs Development Limited System, method, and computer program for performing health checks on a system including a plurality of heterogeneous system components
US10761921B2 (en) * 2017-11-30 2020-09-01 Optumsoft, Inc. Automatic root cause analysis using ternary fault scenario representation
US10623273B2 (en) * 2018-01-02 2020-04-14 Cisco Technology, Inc. Data source modeling to detect disruptive changes in data dynamics
US20190228296A1 (en) * 2018-01-19 2019-07-25 EMC IP Holding Company LLC Significant events identifier for outlier root cause investigation
US10977154B2 (en) * 2018-08-03 2021-04-13 Dynatrace Llc Method and system for automatic real-time causality analysis of end user impacting system anomalies using causality rules and topological understanding of the system to effectively filter relevant monitoring data
EP3637261A1 (en) * 2018-10-10 2020-04-15 Schneider Electric IT Corporation Systems and methods for automatically generating a data center network mapping for automated alarm consolidation
US11126493B2 (en) * 2018-11-25 2021-09-21 Aloke Guha Methods and systems for autonomous cloud application operations
US11347576B2 (en) * 2019-07-23 2022-05-31 Vmware, Inc. Root cause analysis of non-deterministic performance anomalies
US11061393B2 (en) * 2019-08-28 2021-07-13 International Business Machines Corporation Consolidating anomaly root causes and alarms using graphical granger models
US20220027257A1 (en) * 2020-07-23 2022-01-27 Vmware, Inc. Automated Methods and Systems for Managing Problem Instances of Applications in a Distributed Computing Facility
US11176016B1 (en) * 2020-09-22 2021-11-16 International Business Machines Corporation Detecting and managing anomalies in underground sensors for agricultural applications
US20220334903A1 (en) * 2021-04-16 2022-10-20 Workspot, Inc. Method and system for real-time identification of root cause of a fault in a globally distributed virtual desktop fabric
US11675648B2 (en) * 2021-04-27 2023-06-13 Microsoft Technology Licensing, Llc Automatic triaging of diagnostics failures
US20220358023A1 (en) * 2021-05-07 2022-11-10 Dynatrace Llc Method And System For The On-Demand Generation Of Graph-Like Models Out Of Multidimensional Observation Data
US11397634B1 (en) * 2021-06-03 2022-07-26 Oracle International Corporation Detecting datacenter mass outage with near real-time/offline using ML models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101529808A (zh) * 2006-10-30 2009-09-09 汤姆森许可贸易公司 用于指示服务中断源的方法
CN107912084A (zh) * 2015-03-18 2018-04-13 T移动美国公司 基于路径的数据中断检测
CN108469987A (zh) * 2018-02-26 2018-08-31 华东师范大学 一种基于中断控制流图的中断验证系统
EP3798847A1 (en) * 2019-09-30 2021-03-31 Dynatrace LLC Forming root cause groups of incidents in clustered distributed system through horizontal and vertical aggregation

Also Published As

Publication number Publication date
US20230251920A1 (en) 2023-08-10
US11656928B2 (en) 2023-05-23
CN117280327A (zh) 2023-12-22
US11397634B1 (en) 2022-07-26
EP4348429A1 (en) 2024-04-10
US20220391278A1 (en) 2022-12-08
WO2022256330A1 (en) 2022-12-08

Similar Documents

Publication Publication Date Title
CN117280327B (zh) 使用机器学习模型通过近实时/离线数据来检测数据中心大规模中断
US11797414B2 (en) Method and system for failure prediction in cloud computing platforms
US20230222002A1 (en) Techniques for modifying cluster computing environments
CN112567709A (zh) 使用异常检测增强安全性
US11917033B2 (en) Techniques for managing distributed computing components
US11948002B2 (en) Management plane orchestration across service cells
US20240045771A1 (en) Techniques for scalable distributed system backups
US20180060987A1 (en) Identification of abnormal behavior in human activity based on internet of things collected data
US11863561B2 (en) Edge attestation for authorization of a computing node in a cloud infrastructure system
US20230267478A1 (en) Event attribution for estimating down stream impact
US11563628B1 (en) Failure detection in cloud-computing systems
US11902323B2 (en) Dynamic cloud workload reallocation based on active security exploits in dynamic random access memory (DRAM)
US20230403291A1 (en) Framework for anomaly detection in a cloud environment
US11630747B1 (en) Techniques for automated service monitoring and remediation in a distributed computing system
US11494366B1 (en) Change data capture on no-master data stores
US11777818B1 (en) Drift resolver for enterprise applications
US20230252157A1 (en) Techniques for assessing container images for vulnerabilities
US20230367878A1 (en) Instruction monitoring for dynamic cloud workload reallocation based on ransomware attacks
US20240143459A1 (en) Replicating resources between regional data centers
US11968212B2 (en) Systems and methods for memory tracing in asset managing systems
US20240020188A1 (en) System for tuning a java virtual machine
US20240078139A1 (en) Burst datacenter capacity for hyperscale workloads
CN116483566A (zh) 用于服务器的资源处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant