CN103875210A - 在通信环境中提供动态可靠性和安全性 - Google Patents

在通信环境中提供动态可靠性和安全性 Download PDF

Info

Publication number
CN103875210A
CN103875210A CN201280050376.2A CN201280050376A CN103875210A CN 103875210 A CN103875210 A CN 103875210A CN 201280050376 A CN201280050376 A CN 201280050376A CN 103875210 A CN103875210 A CN 103875210A
Authority
CN
China
Prior art keywords
client
cloud
reliability
drp
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201280050376.2A
Other languages
English (en)
Inventor
A·阿萨那
M·S·班诺威茨
U·钱德拉谢卡尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alcatel Lucent SAS
Original Assignee
Alcatel Lucent SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alcatel Lucent SAS filed Critical Alcatel Lucent SAS
Publication of CN103875210A publication Critical patent/CN103875210A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5006Creating or negotiating SLA contracts, guarantees or penalties
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/5003Managing SLA; Interaction between SLA and QoS
    • H04L41/5019Ensuring fulfilment of SLA
    • H04L41/5025Ensuring fulfilment of SLA by proactively reacting to service quality change, e.g. by reconfiguration after service quality degradation or upgrade
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/50Network service management, e.g. ensuring proper service fulfilment according to agreements
    • H04L41/508Network service management, e.g. ensuring proper service fulfilment according to agreements based on type of value added network service under agreement
    • H04L41/5096Network service management, e.g. ensuring proper service fulfilment according to agreements based on type of value added network service under agreement wherein the managed service relates to distributed or central networked applications

Abstract

提供了动态可靠性和安全性能力。动态可靠性和安全性能力。动态可靠性和安全性能力可以配置为支持动态可靠性概况(DRP)的使用,该DRP依据时间并依据客户的应用或服务的要求来指明客户的可靠性参数。可靠性参数可以指明客户的可靠性要求和/或目标,从而提供随时间而变化的要求/目标概况。动态可靠性和安全性能力可以配置为动态地配置云资源,以提供DRP所指明的要求的可靠性。RSG能力可配置为接着对行为进行监视和计量,以确保所指明的可靠性实际上得到递送,这包括使用自我治疗能力来提供服务保证。

Description

在通信环境中提供动态可靠性和安全性
技术领域
本发明总体上涉及通信环境,更具体但不排他地涉及在通信环境中提供可靠性和安全性。
背景技术
云计算提供了使用快速、自服务的供应通过互联网向客户递送服务和资源的方式,同时将服务和资源的客户与底层基础架构的管理隔离开来。然而,尽管云计算有各种优势并且云计算的使用近来得到增长,但是,许多客户仍然在一些方面存有疑虑,例如云计算的可靠性和安全性,等等。
发明内容
通过在云环境中提供可靠性和安全性的实施例解决了现有技术中的多项不足。
在一个实施例中,一种装置包括处理器,该处理器配置为接收与云提供商的客户相关联的动态可靠性概况(profile)(DRP),并基于所述客户的DRP确定用于该客户的云资源的配置,其中所述DRP指明依据时间和所述客户的应用或服务的要求两者的该客户的可靠性参数。
在一个实施例中,一种计算机可读存储介质存储有指令,所述指令当被计算机执行时,致使计算机执行这样一种方法,该方法包括,接收与云提供商的客户相关联的动态可靠性概况(DRP),并基于所述客户的DRP确定用于该客户的云资源的配置,其中所述DRP指明依据时间和所述客户的应用或服务的要求两者的该客户的可靠性参数。
在一个实施例中,一种方法包括,接收与云提供商的客户相关联的动态可靠性概况(DRP),并基于所述客户的DRP确定用于该客户的云资源的配置,其中所述DRP指明依据时间和所述客户的应用或服务的要求两者的该客户的可靠性参数。
附图说明
通过考虑接下来结合附图进行的详细描述,更易于理解本文的教导,在附图中:
图1描绘了包括可靠性和安全性守卫(RSG)的云系统的一个实施例;
图2描绘了用于图1的RSG的示例性动态可靠性概况(DRP);
图3描绘了用于图1的云系统的三个客户的随时间变化而变化的示例性应用组合;
图4描述了用于将客户应用信息映射到图1的云系统的物理资源的过程的实施例;
图5描绘了从应用拓扑到物理基础架构的示例性映射;
图6描绘了图1的RSG的示例性使用,以执行事件关联并确定反应/预测控制信息;
图7描绘了适用于执行图1的RSG的自可靠计算存储单元(CSU)的一个实施例;
图8描绘了图7的多个CSU在客户域的示例性部署,以形成分布式自可靠云系统;
图9描绘了在图1的云系统的一部分内部署的、适用于实现图1的RSG的系统控制单元(SCU)的一个实施例;
图10描绘了用于为云系统的客户提供可靠性的方法的一个实施例;以及
图11描绘了适用于执行本文所描述的功能的计算机的高层级框图。
为了便于理解,在可能的情况下,使用相同的附图标记来指示图中共有的相同部件。
具体实施方式
总体来说,本文描绘和描述了可靠性和安全性能力,不过也会提及各种其他能力。
云计算提供了使用快速、自服务的供应通过互联网向客户递送服务和资源的方式,同时将服务和资源的客户与底层基础架构的管理隔离开来。在许多情况下,云提供商所提供的服务是效用计算,它典型地基于云系统的软件的抽象级别和云系统的资源的管理级别进行辨识。该图谱的一端例如是这样一种实施方式,其中抽象位于物理硬件层,客户可以控制整个软件栈,内核以上(尽管这使得难以提供故障转移能力)。该图谱的另一端例如是这样一种实施方式,它是利用无状态计算和有状态存储系统的、专用于web应用的应用域。应注意其他实施方式也可以落入该图谱的中间部分。
云计算具有许多相关联的优势。总体来说,云计算使得能够实现高度的可扩展性、可配置性、资源可用性的动态弹性、易于返回,及类似优势。云计算为硬件供应提供众多能力,以创建这样一种表象,“无限”的计算资源基于需求而可用,足够快速地满足负载的浪潮,从而消除对提前供应的需要。在易于调整尺寸的前提下,云计算使得能够实现更廉价的故障转移方案,这是因为云服务的按需而定或现购现付的特点。在云计算中,客户根据需要短期地为计算资源的使用进行付费(例如,按小时计处理器,按天计存储量,等等),并可以根据需要对其进行请求和释放。云计算还考虑到了规模经济(例如,电力、净带宽、操作、软件和硬件等方面的改善因素),允许统计上的多重复用以增加资源利用率,并简化操作。还将意识到云计算的各种其他优势。
然而,尽管云计算存在前述优势和增长,许多客户仍然为解决关于其可靠性和安全性的问题而挣扎。例如,物理资源的共享带来了安全性问题(例如,数据对于他人可见,在故障或退出之后留下数据印迹,等等)。此外,广泛采用云服务的障碍不能被忽略,例如,安全性/数据隐私和管辖权问题、服务级别协定(SLA)的可变性/初期、性能和访问控制/延迟、可靠性和卖主中立性、将云服务与商业应用相整合的能力、云服务模型的相对不成熟和持续的发展,等等。并且,注意到,部署有任务关键型应用的企业通常通过SLA寻求合理的系统响应率的保证,通过在多租户环境中的数据隔离寻求保护,寻求故障转移保护来最小化服务中断,寻求可预测的再装载率以及各种相关的服务和能力。而且,对于任务关键型应用的保证不是可以量化的,突出公共云(例如,提供便利)相对于私有云(例如,提供安全性和私密性的更好的控制和保证)的成本/收益的量度并不清楚。如此,云系统的软件的抽象级别和云系统的资源的管理级别具有成为云提供之间的关键区分的潜在可能。
在一个实施例中,可以通过使用新系统体系架构、新设备/部件、新编程模型、新开发环境、和新测试方法中的一个或多个,来解决上述顾虑和/或需求的至少一部分,其中这样的体系架构、设备/部件、模型、环境和/或方法可被配置为基于针对性能、可用性、安全性、弹性、使用计数等的对客户的SLA要求的更深理解,提供自可靠的系统。注意到,这将使得公共云计算和私有云计算都能够变得更加可靠和安全,因此,适合于任务关键型的使用。
在一个实施例中,可以通过使用云系统中的可靠性和安全性守卫(RSG)能力来解决上述顾虑和/或需求的至少一部分。
RSG能力可配置为支持动态可靠性概况(profile)(DRP)的使用,其中DRP可被包含为客户SLA的一部分,并依据时间,以及依据客户的应用或服务的要求这两者来指明客户的可靠性参数。可靠性参数可以指明客户的可靠性要求和/或目标,从而提供随时间变化的要求/目标概况。RSG能力可配置为动态地配置云资源,以提供DRP所指明的所需的可靠性。RSG能力可配置为,接下来对行为进行监视和计量,以保证所指明的可靠性事实上正被递送,这可包括使用自我治疗能力来提供服务保证。注意到,由于可靠性与可用性相关,动态可靠性概况在这里也可被称为动态可靠性/可用性概况。
RSG能力可配置为执行或提供以下中的一个或多个:将递送到客户的服务的可靠性增加为不中断的体验;使得系统能够自动地重新均衡到功能可用性级别而没有用户可见的影响或手动干预;提供对性能、可靠性、可用性、安全性和弹性使用计数等等的服务级别协定(SLA)要求的动态保证,从而使得公共和/或私有云计算能够变得更加可靠、安全和弹性,因而适合于任务关键型使用;依据时间和应用或服务的要求这两者来描绘客户的可靠性要求/目标;提供自可靠的系统,其配置为动态地配置云资源,以提供所要求/所期望的可靠性;监视和计量该系统,以保证所要求/所期望的可靠性得到满足;通过安全收集和对可用的网络和服务数据的集中,跨整个方案接近实时地监视端对端服务的可用性;产生可靠性完整性计量,该计量从可用的网络和服务数据导出关键的端对端服务可用性的量度,并触发适当的恢复和控制动作;提供预防性的控制能力,该能力使得能够产生对紧迫问题和前摄的服务进行中测试的指示,以持续地检测并排除关键问题;等等。
RSG能力可配置为提供各种其他相关联的功能。换而言之,就好像,客户可以呼叫一定可靠性,云系统做出反应来尝试递送该可靠性。
在一个实施例中,RSG能力部署在基础架构层之内。注意到,云计算的一个总体趋势是朝向与工业对齐的、动态的、自我学习的以及自我管理的方案。在一个实施例中,部署方案级别的能力,以能够构建有机的、自我意识以及自我治疗的网络,从而使得云提供商能够在客户需要的时候提供客户所需的保证。还注意到,这样的有机的、自我意识和自我治疗的网络可以支持各种客户应用,包括高价值的应用。在一个实施例中,为了支持这样的应用(包括高价值的应用),(1)在平台层之内将可靠性作为服务来提供(标注为RaaS,可靠性作为服务),(2)在基础架构层之内提供被称为RSG能力的能力,其中RSG能力被配置为提供各种功能,诸如动态配置,用于高可用性的资源调度,完整性计量,服务进行中的鲁棒性测试,故障的预测和防止,网络事件的关联以识别并诊断故障边缘和安全条件边界,等等,以及以上功能的各种组合。以这样的方式,可以提供动态自可靠云系统。
在一个实施例中,RSG能力部署在客户网络之内。这克服了与现有云系统相关联的安全性障碍。也就是说,在现有云系统中,由于严格的安全性考虑,云服务提供商很少允许客户访问他们的内部管理系统或他们的性能和故障数据。例如,在极少数情况下,可以允许客户“只读”访问报警和性能数据,用于离线分析的目的。相反,在支持RaaS的情况下,RSG能力可以驻留在客户网络内,这样,RSG能力和客户网络内的各种其他实体(例如,数据收集实体,管理实体,等等)之间的接口就可以被实现为信任接口。并不需要非军事化(DMZ)功能(例如,通过安全虚拟私有网络(VPN)路由的加密数据),因为所有数据都在客户域之内本地地访问和分析。并且,由于不涉及外部实体,有可能基于所监视的数据进行前摄性控制。因此,通过将RSG能力嵌入在客户网络之内而克服了现有的安全性障碍,这使得能够构建真正有机、自我意识以及自我治疗的网络。
云系统可以经由一个或多个能力,诸如,经由这里描绘和描述的可靠性和安全性守卫(RSG),支持上述功能。参照图1描绘和描述一个示例性云系统中的示例性RSG。
图1描绘了包含可靠性和安全性守卫(RSG)的云系统的一个实施例。
如图1所描绘,云系统100包括物理基础架构101,它通过为客户102提供云服务的云提供商来管理。云系统100还包括可靠性/安全性守卫(RSG)120,配置为使得云提供商在使用物理基础架构101向客户102提供云服务的背景下,向客户102提供服务保证。
物理基础架构101包括云资源110,可选地还包括可以由云提供商部署来支持云服务的任何其他物理基础架构。
客户102是可以访问和使用云资源110的任何适当类型的客户。例如,客户102可以是企业客户,家庭客户,等等。
客户102能够提供可用于产生用于客户102的SLA103的信息。SLA典型地是客户特定的,并定义客户的虚拟环境,客户典型地仅仅对相对于其虚拟环境所满足的SLA感兴趣,而对云系统的整个基础架构的整体不感兴趣。云提供商典型地支持多个客户(尽管,如以上所注意到的,这里出于清楚的目的仅仅描绘和描述了单个客户120)。于是,云提供商典型地确保云系统的基础架构能够满足用于其所有客户的所有虚拟环境的SLA。注意到,云系统100被配置为能够使得云提供商提供这样的能力。
客户102能够提供可用于产生用于客户102的动态可靠性概况(DRP)105的信息。用于客户102的DRP105可以由客户102直接指明,可以由客户102在SLA103之内指明,可以通过处理为SLA103而输入的信息,和/或处理SLA103自身(例如,通过可靠性指示器104和/或任何其他适当的系统或部件)而确定,等等,以及通过以上的各种组合来确定。DRP105可以以任何适当的粒度提供(例如,用于具体的应用,用于一组应用,用于具体的服务,用于一组服务,用于一个或多个服务以及一个或多个应用,用于客户102整体,等等)。如图1所描绘,用于客户102的DRP105被提供给RSG120。
云资源110可以配置为由客户102使用。云资源110可包括计算资源111,内存资源112,存储资源113,输入输出资源114,以及网络资源115。注意到,云资源110可以假定为虚拟无限的(也就是,有足够的云资源110来满足任何客户需求)。还注意到,云资源110可以是分布式的,并可以动态分组。本领域技术人员将可以理解将云资源110分配给客户120使用的典型方式。尽管对于特定类型的云资源110进行初步地描绘和描述,不过将可以理解,云资源110可以包含可配置为用于客户使用的任何其他类型的云资源。
RSG120配置为提供使得云系统100可以操作为自可靠系统的各种功能。例如,RSG120可以配置为接收客户102的DRP105,动态配置云系统100的云资源110,以提供DRP105所指明的要求的可靠性。RSG120还配置为接着对行为进行监视和计量,以保证所指明的可靠性实际上正得到递送。RSG120还配置为提供各种其他相关联的功能。注意到,如图1所呈现的,RSG120可以以集中的或分布式的方式实现。
RSG120包括四个功能部件:配置引擎(CE)122,调度引擎(SE)124,监视引擎(ME)126,以及控制引擎(CE)128。注意到,这四个功能部件可以使用一个或多个物理设备来实现(例如,RSG120的功能可以集中在单个系统中,跨一个或多个系统分布,等等)。相应地,RSG120使用虚线框来表示,旨在示出四个功能部件可以在云系统100内执行的各种方式。
CE122接收客户102定义的DRP105(或者包含DRP105的SLA103),使用DRP105来动态产生用于客户102的虚拟配置131。虚拟配置131指明满足客户102的DRP105(例如,满足DRP105的要求和/或目标)的用于客户102的虚拟配置。虚拟配置131可以依据时间而被指明。CE122可以动态地产生满足DRP105的虚拟配置131,同时负责云系统100的当前状态和/或云系统100所施加的政策/约束。CE122将虚拟配置131提供给SE124。CE122可以提供本文所讨论的各种其他功能。
SE124从CE122接收虚拟配置131。SE124在通过DRP105和云系统100的当前状态和/或云系统100施加的政策/约束管控的适当时间处,将虚拟配置131映射到物理基础架构101(例如,映射到云资源110)。由SE124确定的映射标注为映射132。SE124可以指明与DRP105的实现相关联的必要类型的冗余和/或恢复方案。注意到,如同DRP105可以以任何适当粒度指明一样,相关联的映射132可以以任何适当粒度来提供。SE124配置为在物理基础架构101内执行映射132(例如,经由物理基础架构101的配置使得客户102能够使用云资源110),从而使得客户102于是可以利用云资源110。SE124可以提供本文所讨论的各种其他功能。
ME126观测物理基础架构101的部件(例如,云资源110的计算资源111,内存资源112,存储资源113,输入输出资源114,网络资源115,以及云资源110的任何其他相关联的物理部件或资源)的状态。ME126通过接收和分析在ME126处从物理基础架构101接收的系统状态信息133(例如,警报,探针,日志文件,等等,以及以上的各种组合),来观测物理基础架构101的部件的状态。ME126将物理基础架构101的部件的所观测状态转译成客户102的虚拟环境的状态。ME126可配置为将与可靠性和安全性相关的事件和状态捕获作为可靠性/安全性信息134(在至少一些实施例中,该信息134可以表示为可靠性完整性计量(RIM))。ME126可配置为确定用于CE128使用的控制信息(标注为控制信息135)(例如,用于CE128在对云系统100中的事件或条件做出反应时使用的反应控制信息,用于CE128在防止云系统100中发生潜在事件或条件时使用的预先防止控制信息,等等,以及以上的各种组合)。ME126可以提供本文所讨论的各种其他功能。
CE128配置为从ME126接收控制信息135,接收政策/约束信息136(该信息例如可以被指明为SLA103,DRP105等等的一部分,以及以上的各种组合),并使用控制信息135和政策/约束信息136来确定适用于控制/配置云系统100的物理基础架构101(例如,云资源110)的反馈动作137。CE128将反馈动作137提供到物理基础架构101,以控制/配置云系统100的物理基础架构101。反馈动作137可以包括反应性反馈动作(例如,对识别的事件或条件作出反应)以及/或者预测性防止性反馈动作(例如,用于防止预测的事件或条件发生)。例如,CE128可以当检测到故障时触发恢复动作,和/或启动防止性措施,以避免故障发生。CE128可以提供本文所讨论的各种其他功能。
如图1所描绘,RSG120的部件可以以适当方式嵌入在云系统100中。例如,在一个实施例中,RSG120的部件可以嵌入在云系统100的基础架构、平台和服务层中。将从图1和本文提供的其他描述中了解,云系统100的自可靠特性通过以下特征/益处中的一个或多个来表征:(1)向客户提供服务可用性,而不管硬件和/或软件故障或中断,(2)保护服务、数据和基础架构免于攻击,确保个人数据的私密性,(3)基于事件或政策实时提供灵活和动态的资源分配,也就是,可扩展性,(4)可预测的性能,其横跨宽范围的工作负载需求并具有可接受的递送成本。通过图1和本文提供的其他描述将了解通过使用云系统100的实施例可以实现的各种其他特征/益处。
如本文所描述的,DRP105依据时间以及客户102的应用或服务的要求这两者指明客户102的可靠性参数(例如,要求/目标)。应理解,并不是客户群组中的所有应用/服务都预期具有相同的可靠性需求,并且,应用/服务的可靠性需求可以随时间而改变。参照图2描绘和描述一个示例性DRP105,它示出了其时间改变的特性。
图2描绘了由图1的RSG使用的示例性动态可靠性概况(DRP)。如图2所描绘,DRP105表示客户的可靠性需求(在y轴上示出)随时间(在x轴上示出)的改变。如本文所描述,RSG120配置为使用DRP105来动态配置云资源110,以提供DRP105中指明的所要求的可靠性。注意到,在具有虚拟无限云资源的云系统中,这带来资源的更高利用率,节省成本,电源使用的高效,以及各种其他优势。
如本文所描述的,云系统100可以支持多个客户102,每个客户具有一个或多个相关联的DRP105。于是,云系统100需要同时管理多个客户102的DRP105,同时顾及到DRP105是随时间变化的概况这一事实。对于多个客户102的DRP105的随时间而改变的特性,这里考虑接下来的三种情况(注意到,尽管也可以考虑各种其他情况):(1)给定客户的应用组合的要求可能随时间变化,(2)客户组的要求可能随时间变化,以及(3)给定应用的要求可能随时间变化。参照图3描绘和描述具有不同应用组合的三个客户102的例子。
图3描绘了用于图1的云系统的三个客户的、依据时间的示例性应用组合。
如图3所描绘,应用组合300示出标注为客户A、B和C的三个客户的应用的示例性组合。三个客户A、B和C的应用分别标注为Ai、Bi和Ci。应用Ai、Bi和Ci的每个具有与其相关联的可靠性要求(其中,出于清楚的目的,支持如下三个可能的可靠性要求:高度(HIGH),、中度(MED)和低度(LOW))。在这个例子中,高度的可靠性要求指示出,预期有完全的活动/活动冗余度,中度的可靠性要求指示出,预期活动/备用的冗余方案,而低度的可靠性要求指示出预期没有冗余度。
应用组合300随时间而改变,描绘了四个示例性时间段3101-3104(总体上,时间段310),用于示出应用组合300随时间的改变。
在时间段3101,客户A具有应用A1到A5,其中应用A1、,A3和A4每个都具有高度的可靠性要求,应用A2具有中度的可靠性要求,而应用A4具有低度的可靠性要求。同样在时间段3101,客户B具有应用B1到B4,其中应用B1和B2每个具有中度的可靠性要求,应用B3和B4每个具有高度的可靠性要求。同样在时间段3101,客户C具有应用C1,它具有中度的可靠性要求。
在时间段3102,客户A、B和C的应用的组合与时间段3101的应用组合300相同(也就是,没有改变)。
在时间段3103,客户A、B和C的应用的组合发生了多种方式的改变(例如,之前的应用不再存在,仍然存在的之前应用的可靠性要求发生改变,引用新的应用,等等)。在时间段3103,客户A具有应用A2、A4、A5、A6(新的)和A7(新的),其中应用A2和A7每个具有中度的可靠性要求,应用A4具有高度的可靠性要求,而应用A5和A6每个具有低度的可靠性要求。同样在时间段3103,客户B具有应用B3、B5、B6和B7,其中应用B3和B5每个具有高度的可靠性要求,应用B6具有中度的可靠性要求,应用B7具有低度的可靠性要求。同样在时间段3103,客户C具有应用C2(新的),它具有中度的可靠性要求。
在时间段3104,客户A、B和C的应用的组合再次发生多种方式的改变(例如,之前的应用不再存在,仍然存在的之前应用的可靠性要求发生改变,引用新的应用,等等)。
注意到,参照图3描绘和描述的可靠性要求仅仅是示例性的。实际中,粒度可以更加细致,应用的复杂性及其相关联的可靠性要求可以不同。例如,可以使用其他值表示示例性可靠性要求的一个或多个,可以以其他方式限定示例性可靠性要求的一个或多个,可以支持更少或更多的可靠性要求(包括不同的可靠性要求),可以支持各种可靠性目标(例如,取代于以及/或者附加于上述可靠性要求),等等,以及以上的各种组合。
图4描绘了将客户应用信息映射到图1的云系统的物理资源的过程的一个实施例。
总体来说,过程400执行一种受约束映射,该映射将客户102所需要的和/或所期望的映射到可在底层云基础架构中实现的(也就是,就好像,客户102可以呼叫一定可靠性,云系统100尝试递送它)。
在一个实施例中,通过RSG120的CE122来执行方法400。
如图4所描绘,在方法400中的特定点处接收并使用输入信息。输入信息包括客户应用信息401和云系统信息402。客户应用信息401包括客户102的客户应用拓扑信息(例如,可以从描述中具体地指明和/或提取),客户102的客户SLA信息,客户102的DRP105,等等。云系统信息402包括当前系统状态信息,政策/约束信息(例如,硬件和/或软件资源使用信息、客户概况信息、要求的性能信息、安全性约束、成本约束等信息中的一个或多个),等等。
在步骤410,使用客户应用信息401的至少一部分和/或云系统信息402的至少一部分产生虚拟应用拓扑415。例如,在一个实施例中,可以使用应用拓扑信息、当前系统状态信息和政策约束来产生虚拟应用拓扑415。
在步骤420,使用云系统信息402的至少一部分和虚拟应用拓扑415(可选地,还有客户应用信息401的至少一部分,尽管出于清楚的目的这被省略了),产生可靠性绘图425。可靠性绘图425标识出预期满足客户102的应用需求和/或目标的可靠性配置。在一个实施例中,可靠性绘图425可以表示为可靠性框图表(RBD)。注意到,有许多与可靠性绘图425的产生相关联的考虑。例如,冗余体系架构和故障转移方案受到处理器资源的位置的影响(例如,处理器资源是否位于同一多核芯片中,位于同一刀片上,跨多个刀片,跨底架,在LAN之内,跨LAN,等等)。例如,还可以考虑内存和磁盘的分配。例如,还可以考虑磁盘分配,文件系统和数据库配置,本地还是远程。此外,可靠性绘图425的产生可以更加复杂,因为容错要求(例如,如DRP105所指明)可能仅仅是问题的一部分(例如,在确定最优配置时,连同DRP105,性能、安全性、成本等等是需要考虑的其他要素)。
在步骤430,使用云系统信息402的至少一部分和可靠性绘图425(可选地,还有客户应用信息401的至少一部分,尽管出于清楚的目的这被省略了),确定物理配置435。例如,在一个实施例中,可以使用可靠性绘图425、当前系统状态信息和政策/约束信息来确定物理配置435。物理配置435指明从客户102的可靠性绘图425到云系统100的可用物理基础架构101(例如,到云资源110)的映射。例如,物理配置435指明从客户102的可靠性绘图425到处理器、内存单元、磁盘、文件、数据库、输入输出资源、网络资源等等中的一个或多个的映射。
图5描绘了从应用拓扑到物理基础架构的示例性映射。
图5的示例性映射500对应于参照图4的方法400描绘和描述的步骤。图5的示例性映射500示出了应用拓扑510(例如,随时间提供应用可靠性说明)、可靠性绘图520(例如,随时间提供DRP说明),以及物理配置530(例如,随时间指明到物理部件的映射),这分别对应于图4的虚拟应用拓扑415、可靠性绘图425和物理配置435。
如图5所描绘,示例性映射500用于其可靠性需求随时间而改变的应用。应用随时间而改变,示出了四个示例性时间段5011-5014(总体上,时间段501),用于示出应用随时间的改变。
应用拓扑510示出应用中的应用部件511和应用部件511的相关联的可靠性要求(图示地,使用H、M和L来分别标注出高度、中度和低度可靠性要求)。在时间段5011,应用包括两个应用部件,包括具有高度可靠性要求的第一应用部件和具有低度可靠性要求的第二应用部件。在其他的时间段501,应用拓扑510随着应用的改变而改变。
可靠性绘图520表示为RBD的形式。在时间段5011,应用映射成两个部件A和B,其中部件A是冗余对A1和A2(由于其高度可靠性要求)。部件B与部件A级联,并且单工操作(由于其低度可靠性要求)。在其他时间段501,表示为RBD的可靠性绘图520随着应用拓扑510的改变而改变。
物理配置530指明从应用的可靠性绘图(图示地,应用的RBD的应用部件)到云系统的可用物理基础架构的映射。例如,物理配置530可以指明从可靠性绘图520到处理器、内存单元、磁盘、文件、数据库、输入输出资源、网络链路等等中的一个或多个的映射。在时间段5011,包括冗余对A1和A2的应用部件A映射到被配置为提供这样的冗余度的两个处理器资源,应用部件B映射到一个处理器资源。在其他时间段501,物理配置530随着表示为RBD的可靠性绘图520的改变而改变。尽管主要参照映射到处理器资源进行描绘和描述,应注意,物理配置530可以指明从应用的可靠性绘图520到任何适当的资源的映射,例如,更详细地映射到处理器资源(例如,与安全性和用户概况说明相一致对文件、数据库、I/O和通信端口具有适当特权、读/写/执行许可和访问权的处理器,等等),映射到其他类型的资源(例如,内存单元,磁盘,文件,数据库,输入输出资源,网络链路,等等),等其他,以及以上的各种组合。
再次回到图1,ME126配置为执行对云系统100的监视和计量功能。ME126可以与RSG120的其他部件协作,以使得自可靠能力能够在云系统100中得到支持。
ME126可以配置为周期性地扫描云系统100中的计算资源,以识别出故障,识别出安全性攻击,测量应用的性能,等等,并进一步地汇报相关联的结果(例如,故障的识别,安全性攻击的识别,性能降级的检测,等等,以及以上的各种组合)。
ME126可以配置为在检测到异常时产生警报,相关的警报被关联和分析,以确定影响网络状况的服务的存在(或不存在)。
ME126可配置为收集警告(例如,从云系统100的一些或全部网络部件),并基于时间和/或空间相关性,将收集的警告相对于警报条件进行关联。
ME126可配置为聚集云系统100的网络拓扑信息,并将网络拓扑信息并入到用于执行这样的关联功能的一个或多个模型中。
ME126可配置为确定独立网络事件的根本原因,并且可选地,还将检测的网络事件标记为中断相关的(影响服务的)和非中断相关的(不影响服务的)。
ME126可配置为计算在特定时间段中用于特定聚合级别的服务可用性,这通过以下方式实现:分析独立根本原因事件的组,以确定落入所述特定时间段的组,组合相关联事件的持续时间,以计算所述特定时间段中的中断时间的总量,将所述事件与网络拓扑信息和受事件影响的服务类型相对比,以及,使用网络影响的范围和中断时间的百分比,确定所评估的服务的总服务可用性。注意到,服务可用性的确定可以依赖于所考虑的子网络,所使用的底层网络技术,网络拓扑/大小,等因素。
ME126可配置为确定可靠性完整性计量,并确定用于CE128使用的控制信息。参照图6描绘和描述了示例性地使用ME126来执行这样的功能。
图6描绘了示例性使用图1的RSG来执行事件关联/聚合并确定反应性/前摄性控制信息。
如图6所描绘,ME126配置为执行事件关联/聚合,并确定反应性/前摄性控制信息。
ME126接收事件602和政策/约束信息604。如图6所描绘,事件602可以直接从云系统100的物理基础架构101接收,和/或从代表云系统100的物理基础架构101的其他一个或多个监视和/或管理元件/系统接收(例如,一个或多个探针,一个或多个元件管理系统(EMS),一个或多个网络管理系统(NMS),等等)。事件602的监视可以由ME126执行,和/或跨云系统100的物理基础架构101执行(例如,用于报告给ME126)。对其执行监视的事件602的类型可以包括,子系统产生的软件警报、在用于各种量度的测量计数器中出现的阈值穿越、应用故障(例如,总的和/或部分的)、导致服务受到影响的安全性攻击、硬件故障(例如,可恢复的或不可恢复的)、业务负载的变动、网络故障,等等。如图4所描绘,政策/约束信息604可以包括硬件和/或软件资源使用信息、客户概况信息、要求的性能信息、安全性约束、成本约束等等中的一个或多个,以及以上的各种组合。
ME126包括聚合引擎612、关联分析引擎614以及处理引擎616。ME126还包括历史数据库619。
聚合引擎612接收与物理基础架构101相关联的事件602,并对事件602进行聚合。在执行用于特定时间段的处理时,聚合引擎612可以通过分析事件602以确定落入该特定时间段的组,以此来聚合事件602。聚合引擎612可以将聚合的事件信息提供给关联分析引擎614和/或历史数据库619。
关联分析引擎614接收聚合的事件信息(例如,从聚合引擎612和/或从历史数据库619),并对聚合的事件执行关联。关联分析引擎614可以执行任何适当的关联功能。例如,相关的事件602可以被关联和分析,以确定存在(或不存在)影响网络状况的服务,事件602可以基于时间上和/或空间上的相关性相对于警报条件进行关联,等等,以及以上的各种组合。关联分析引擎614可以将关联的事件信息提供给处理引擎616和/或历史数据库619。
处理引擎619接收政策/约束信息604并接收关联的事件信息(例如,从关联分析引擎614和/或从历史数据库619)。
处理引擎616产生可靠性完整性计量(RIM)622,其可以包括对ME126所监视、聚合和关联的信息的总结。处理引擎616可以本地地存储RIM622(例如,存储在历史DB619),和/或将RIM622提供给适当的系统、设备、引擎和/或其他部件或元件。
处理引擎616产生反应性/预测性控制信息624。ME126将该反应性/预测性控制信息624提供给CE128,用于CE128在执行云系统100的物理基础架构101中的控制功能时使用。例如,ME126(1)将反应性控制信息提供给CE128用于CE128的一个或多个反应性控制引擎使用,以提供云系统100的物理基础架构101中的反应性控制功能,(2)将预测性防止控制信息提供给CE128用于CE128的一个或多个预测性防止控制引擎使用,以提供云系统100的物理基础架构101中的预测性防止控制功能。
处理引擎616可配置为,从ME126所收集的原始数据计算各种类型的性能量度(例如,关键质量指标(KQI),关键性能指标(KPI),等等)。这些量度可以计算用于包含在RIM622中。例如,可用于可靠性计量的性能量度可以包括用于硬件和/或软件的故障频率(例如,在服务层级,部件层级,或任何其他适当层级),用于硬件和/或软件的停机时间(例如,在服务层级,部件层级,或任何其他适当层级),用于硬件和/或软件的可用性(例如,在服务层级,部件层级,或任何其他适当层级),数据不可用性(例如,由于故障、安全性攻击等等)等等中的一个或多个,以及以上的各种组合。注意到,量度可以在任何适当层级指明(例如,用于虚拟化的应用或部件,用于一组虚拟化的应用或部件,用于服务,用于一组服务,用于端对端的解决方案,用于数据中心,等等,以及以上的各种组合)。注意到,性能指标可以是与所考虑的客户102最为相关的指标。处理引擎616还可以配置为将性能指标与预期值相比较。
如图6所进一步描绘的,CE128配置为从ME126接收反应性/预测性控制信息624,并使用该反应性/预测性控制信息624来执行云系统100的物理基础架构101中的反应性/预测性控制功能。CE128可以通过将相关联的反馈动作(例如,参照图1描绘和描述的反馈动作137)提供给物理基础架构101,来提供反应性控制功能和预测性防止性控制功能。注意到,在ME126观察并测量云系统100的行为的同时,CE128关闭环路以确保测量的行为与预期行为相匹配,进一步地,如果存在偏差,则启动适当的纠正动作。进一步注意到,ME126执行功能,并产生最终驱动CE128所执行的控制动作的结果(例如,ME126将关联分析引擎614的结果和政策/约束信息604组合,产生包含在RIM622中的量度,将结果和当前状态作为历史信息存储在历史数据库619中,并使用政策/约束信息604和历史信息来驱动CE128所执行的反应性和预测性防止性控制动作)。
CE128包括反应性控制引擎632和预测性防止性控制引擎634。
反应性控制引擎632从ME126接收反应性控制信息,在物理基础架构101中执行反应性控制功能。反应性控制引擎632可配置为用动作进行响应,以从某种状况(例如,事件、故障,等等)中恢复。例如,恢复动作可以包括,执行进程的重新开始,执行处理器重引导并在另一处理器上(例如,本地的或远程的)执行进程的重新开始,重新建立失效的网络连接,在存储单元上执行重新开始,执行与软故障有关的恢复动作(例如,数据的重新初始化,进程的重新存储或重置,等等),等等,以及以上的各种组合。反应性控制引擎632可以配置为运行诊断测试,以识别状况的来源或根本原因。
预测性防止控制引擎634从ME126接收预测性防止性控制信息,并在物理基础架构101中执行预测性防止性控制功能。预测性防止控制引擎634可配置为执行预测性防止性措施,诸如,执行重组,执行再均衡动作,执行审计,执行预先测试,等等。
例如,预测性防止控制引擎634可配置为对资源进行重组(例如,由于构成新服务或由于系统中出现的近期事件而进行的动态模型构建,改变现有复合服务的结构的再构成,等等)。
例如,预测性防止控制引擎634可配置为执行碎片整理(例如,通过周期性对存储系统进行碎片整理来使得磁盘访问更加平滑更加有效,从而改善性能,节约磁盘寿命)。
例如,预测性防止控制引擎634可配置为执行动态可靠性建模,其中动态可靠性计算是基于失效数据的递增更新。在一个实施例中,动态可靠性建模集中于从运行时数据收集到可靠性评估的整个过程,重点在于数据收集和动态建立概况,而不是仅使用历史数据。在一个实施例中,RIM622可以动态更新,因为软件被重新构成以满足云系统100的变化的环境。
例如,预测性防止控制引擎634可配置为执行再均衡操作(例如,通过对服从于政策/约束信息604的可用资源上的负载进行再均衡)。
例如,预测性防止控制引擎634可配置为执行审计。在一个实施例中,执行周期性审计,以追踪物理和逻辑资源,维持数据完整性并确保安全性。在一个实施例中,可以对(1)资源库(例如,CPU,内存,I/O以及网络资源)以及(2)基础架构的拓扑(例如,包括冗余配置的部件之间的连接性)执行审计。在一个实施例中,对用户数据库和文件执行审计,以确保数据完整性和揭露任何潜在问题。
例如,预测性防止控制引擎634可配置为执行前摄性测试。在一个实施例中,前摄性测试可以包括,执行服务进行中的模拟攻击、故障边缘条件测试、以及与计划的维护动作(例如,拔下插头)有关的测试。在一个实施例中,这样的前摄性测试的至少一部分依赖于物理基础架构101中的虚拟无限资源的可用性。这种类型的测试可以帮助确保云系统100持续保持健壮。
以这样的方式,RSG120配置为使得云系统100能够作用为自可靠的系统。
尽管参照RSG120的提供特定功能的特定部件(图示地,CE122,SE124,ME126和CE128)进行了初步描绘和描述,不过应注意,RSG120的功能可以使用任何适当的一个或多个部件来提供。例如,描绘和描述为分别由图示的部件所执行的功能可以以不同方式跨所图示的部件分布。例如,可以使用一个或多个其他部件(例如,取代于和/或附加于图示的部件)来提供被描绘和描述为由图示的部件所执行的功能。
尽管参照云系统100中的RSG120的特定部署(例如,使用特定的分布式体系)进行了初步描绘和描述,但可以了解,RSG120可以使用任何其他适当的部署,包括集中地或分散地部署RSG120的各个功能,在云系统100中执行。
因此,可以了解,RSG120可以以任何适当的方式并入到云系统100中。
在一个实施例中,RSG120可以使用以下项目并入到云系统100中:(1)虚拟层,由一个或多个计算存储单元(CSU)构成,其示例性实施例参照图7和8进行描绘和描述,(2)物理层,由一个或多个系统控制单元(SCU)构成,其示例性实施例参照图9进行描绘和描述。
图7描绘了适用于实现图1的RSG的自可靠的计算存储单元(CSU)的一个实施例。
CSU700是云系统100的分布式版本的抽象基本构造框图。CSU700可以由客户102指明,客户102期望CSU700是安全的以及可恢复的。CSU700可以基于可以由客户102提供的各种参数(例如,SLA103,DRP105,QoS参数,等等)来控制。客户102还可以提供有关信息(例如,分布式云系统的拓扑,用于分布式云系统的管控政策规则,等等)。注意到,客户域可包括一个或多个CSU。在客户域包括多个CSU700的情况下,多个CSU700可以彼此通信,以形成虚拟的分布式计算机器。在一个实施例中,RSG120嵌入在每个CSU700中,以确保每个CSU700如所指示的那样自可靠。
CSU700包括虚拟机(VM)710,虚拟存储卷体(VSV)720,虚拟子网接口(VSI)730,虚拟探针(VP)740,虚拟可靠性/安全性守卫(VRSG)750,CSU控制器(CC)760,以及CSU说明(CS)770。
VM710包括配置为提供CSU700的各种功能的处理器和相关联的内存。它可以作为基本计算引擎使用,配置用于若干级别的性能和可靠性。
VSV720为CSU700提供存储。VSV720可以包括一个或多个数据库,一个或多个文件,一个或多个磁盘,一个或多个闪存部件,等等,以及以上的各种组合。
VSI730提供到云系统100的其他CSU700的接口(例如,用于共享与VM710相关联的虚拟内存,用于共享VSV中的存储,等等)。VSI730可以支持安全连接,以提供这样的共享能力。参照图8描绘和描述示例性分布式自可靠云系统,该云系统使用多个CSU700,它们经由多个相关联的VSI730通信。
VP740收集用于CSU700的使用率、可靠性、性能和安全性数据。
VRSG750配置为,作为CSU700的RSG120操作,执行参照图1-6描绘和描述的分别由CE122、SE124、ME126和CE128执行的配置、调度、监视和控制功能。VRSG750还可配置为监视和管理CSU700的部件(例如,用于监视和管理CSU700中的部件的恢复,包括执行恢复动作,该恢复动作用于从其中执行VRSG750的CSU700和/或具有其他VRSG750的CSU700内的故障中恢复)。
CC760配置为管理CSU400的操作。CC760可以与云提供商交互。CC760还可以经由VRSG750监视虚拟基础架构的状态。CC760配置为与SCU通信。
CS770维持与CSU700相关联的属性(例如,CPU要求,内存要求,用于VSV720的存储卷体附加,经由VSI730与其他CSU700的连接,可靠性等级,恢复方案,在诸如故障之类的状况时的行为,可扩展性政策属性,QoS属性,安全性约束,性能约束,等等,以及以上的各种组合)。注意到,在CSU700内的元件之间可能存在安全性,类似地,在包含多个自可靠CSU700的分布式云系统的情况下,在自可靠CSU700之间也可能存在安全性。CS770可以通过供应来支持属性的改变。
如本文所述,客户域可以包括任何适当数目的CSU700。在其中客户域包括多个CSU700的一个实施例中,多个CSU700可以彼此通信,以形成分布式自可靠云系统,该系统配置为操作为虚拟的分布式的计算机器。在一个这样的实施例中,多个CSU700的VRSG750可以经由多个CSU700的VSI730彼此通信,以形成分布式子可靠云系统。参照图8描绘和描述一个例子。
图8示出图7的多个CSU在客户域的示例性部署,以形成分布式自可靠云系统。
如图8所描绘,客户域800包括三个CSU7001-7003,其中每个CSU700如参照图7的CSU700所描绘和描述的那样实现。
三个CSU700配置为经由通信网络810彼此通信。更具体地,CSU700的VRSG750配置为通过经由CSU700各自的VSI访问通信网络810来彼此通信。在一个实施例中,如果CSU700在物理服务器上巩固合并,于是相关联的对平台的网络化需求加强,那么可以将本地通信虚拟化(例如,取代于将CSU700之间的所有通信强制到平台的物理层),其中虚拟化可以以任何适当方式执行(例如,使用一个或多个虚拟交换机,其可以配置为像物理交换机一样运作,但是被虚拟化到平台,或者以其他适当方式运作)。
三个CSU700可以配置为使用可靠适应性分布协议(RADP)彼此通信。RADP使得三个CSU700能够交换各种类型的信息(例如,关于可靠性、安全性、性能、拓扑、事件数据等中的一个或多个的信息,以及以上的各种组合),从而使得三个CSU700能够协调动作。
注意到,可以支持其他有关通信的能力。例如,在一个实施例中,缺省网络被局限为在同一子网上的VM710之间交换。例如,在一个实施例中,VSV720仅对于同一CSU700内的连接和映像可见。例如,在一个实施例中,CSU700之间对来自VSV720的信息的共享局限为通过安全路径传输。
以这样的方式,云提供商可以使用通信网络810的延伸和标度,跨物理基础架构101有效地分布云服务。
如以上注意到的,RSG120除了使用由一个或多个CSU700构成的虚拟层,还可以使用由一个或多个SCU构成的物理层,由此并入到云系统100中。
图9描绘了在图1的云系统的一部分中部署的、适用于在图1的RSG中执行的系统控制单元(SCU)的一个实施例。
如图9所描绘,简化的物理基础架构900包括物理资源部分910和SCU920。
物理资源部分910包括物理基础架构900的物理资源911(其可以是参照图1描绘和描述的物理基础架构101的一部分)和管理程序919。
物理资源911可以包括计算资源,内存资源,输入输出资源,存储资源,等等,以及以上的各种组合。
管理程序919配置为提供物理资源911的管理功能。管理程序919配置为支持CPU虚拟化,从而使得CPU能够被多个操作系统所共享。管理程序919可以提供各种其他功能。
SCU920配置为提供CSU管理功能,用于管理客户域的CSU(例如,图7的CSU700中的一个或多个)。SCU920配置为与客户域的CSU700的CC760通信。SCU920配置为执行CSU管理功能,这可以包括诸如创建/管理/删除虚拟部件,管理针对CSU内和CSU间交互而限定的连接性政策等功能,以及以上的各种组合。
SCU920包括主机管理器(HM)921,资源管理器(RM)922,存储管理器(SM)923,物理可靠性/安全性守卫(PRSG)924,以及物理探针(PP)925。
HM921在特许的虚拟机中的物理主机上(例如,主机OS)运行,管理和批准在物理主机上发生的动作。HM921通过中转对物理主机的各种资源(例如,计算,存储,网络,等等)的访问,迫使CSU700彼此隔离并与SCU920隔离。HM921将抽象虚拟模型转译成适合于物理主机的底层管理程序919的配置数据。HM921与SM923交互,以根据主机化的虚拟机的要求,创建和移除虚拟块设备。CSU700可以执行为单个共享物理网络上的虚拟覆盖网络,而不需要任何特殊硬件。网络层提供资源控制,以限制虚拟机带宽消耗并区分其优先次序。
SCU920和管理程序919可以协作,以执行从虚拟应用拓扑到云系统的物理基础架构的映射(例如,如参照图4和图5所描绘和描述的)。客户102指明对于虚拟机、虚拟存储块和虚拟网络的想要的拓扑,其中预期指明的拓扑满足一组定义的约束。上述约束包括,允许的通信样式、虚拟机托管约束、QoS约束等等,以及以上的各种组合。拓扑和约束描述可以响应于各种条件(例如,负载条件,故障条件,等等)而动态改变。客户域的CSU700于是可以自动地适应以满足改变的要求。注意到,在存储侧,存在可扩展的、持久的以及加密的存储,该存储即使是在负载条件下也允许服务维持数据吞吐量。
参照图1-9描绘和描述的自可靠体系可以利用和/或提供各种其他能力和/或技术,其中的至少一部分对于自可靠体系内的服务可靠性具有支撑和关联。
第一能力涉及自可靠体系背景下的故障模式和恢复。
在许多情况下,自可靠系统与冗余度和容错有关。由于没有单一部件可以确保100%正常运行时间,所述体系允许个别部件出现故障而不影响整个系统的可用性。自可靠操作预期,分布式系统中的许多系统(如果不是全部的话)可以容忍它所依赖的其他系统的故障。
在一个实施例中,RSG120在虚拟层级和在物理层级处负责检测、抑制各种类型的故障并从中恢复。在一个这样的实施例中,由于云系统100的物理基础架构的共享特性,错误抑制可以担当极高的重要性。
在一个实施例中,可以支持以下的故障类型和相关联的恢复模式:(1)进程故障(例如,本地进程重置/重启;进程在另一CPU上重启;进程在另一托管的刀片、支架、容器和/或CPU上重启;进程在远程CPU上重启,以及其他),(2)应用故障(例如,本地重启;另一CPU,刀片,支架,容器;遍布服务器的多个进程,远程的,其他的),(3)处理器/CPU故障(例如,CPU,刀片,支架,容器,站点的故障;其他),以及(4)网络故障(例如,链路、节点等的故障,网络路径的周期性审计,其他)。
在一个实施例中,一旦检测到错误,立即“检疫隔离”物理单元。冻结安全性边界。该恢复可以由DRP105、与云系统100相关联的系统状态信息和/或与云系统100相关联的政策/约束信息来指导。恢复策略可以是预先建立的,或者可以由RSG120决定。在恢复策略由RSG120决定的一个实施例中,RSG120可以基于一个或多个因素(例如,可靠性等级,成本,性能,安全性考虑,等等)决定恢复策略。例如,在从进程故障恢复的情况下,RSG120可以决定在本地重启进程,在同一刀片上的另一处理器上重启进程,在同一机架中的不同刀片上重启进程,在另一支架中的刀片上重启进程,或者在远程支架中的刀片上重启进程。RSG120可以针对其他类型的故障条件和相关联的恢复模式做出其他决定。
第二能力涉及在自可靠体系的背景下提供前摄性测试。
在一个实施例中,前摄性测试的目的是周期性地执行服务进行中的弹性和鲁棒性测试,以确保系统的准备就绪能够实际上经受住故障。例如,前摄性测试可以包括,模拟各种条件来验证云系统100在所模拟的条件下继续运行的能力。例如,前摄性测试可以包括模拟故障边缘条件,以验证云系统100在高压力条件期间继续运作的能力。
在一个实施例中,RSG120周期性执行这样的测试,该测试随机禁用产品实例,以确保云系统100可以经受住这样的常见类型的故障,而不影响客户。在一个实施例中,RSG120执行前摄性诊断,以揭露无声故障(silent failure)。在一个实施例中,云系统100的“无限资源”的特点使得RSG120能够以更大的规模执行活动的、备用的恢复场景。在至少一些这样的实施例中,测试可以设计为覆盖任何适当的部件(例如,CPU,内存,存储器,I/O,网络,等等,以及以上的各种组合)。
在一个实施例中,RSG120可以支持适用于评估云系统100的可靠性和安全性的一个或多个服务进行中的测试。例如,RSG120可配置为执行服务进行中的配置测试,诸如:(1)使用多个版本的网络驱动器,调节OS和驱动器等级网络设置,使内核获得热修复,并将其施用于服务中;(2)切换虚拟化提供商,改变TCP/IP主机模型,以及(3)在多个地理位置核查配置和运行时问题。例如,RSG120可以配置为执行服务进行中的破坏和故障转移测试,诸如:(1)随机地启用、禁用、断连和重连处理器、内存、磁盘、网络端口等资源,以模拟故障和/或维护动作并触发恢复动作,(2)对处理器和数据库执行故障转移测试,确保跨CSU700存在数据的多份冗余拷贝,并核查N+1冗余度,以及(3)周期地或恒常地进行安全性攻击。例如,RSG120可配置为执行服务进行中的负载和能力测试,诸如,验证云系统100应付由不常见的活动导致的大的负载尖峰的能力,以及,验证云系统100应付瞬时故障的连锁效应的能力。例如,RSG120可配置为执行服务进行中的延迟和超时测试,诸如,(1)核查超时,设置侵略性的超时,核查低效运行,以及验证恢复时间,(2)在客户服务器通信层诱导人为延迟,以模拟服务降级并测量上游服务响应以及核查依赖性故障。例如,RSG120可配置为执行服务进行中的审计和健康核查测试,诸如,(1)在每个实例上运行健康核查,监视健康的外部迹象(例如,CPU负载)以检测不健康的实例,执行在线测试(例如,使用坏的输入,缺乏命令条目,以及类似条件)以揭露事务性故障,(2)执行测试以找出那些不遵从最佳实践的子系统实例,(3)搜索不使用的资源并确保它们被返回到可用资源池,以及(4)运行测试以找出安全性违反或弱点。
第三能力涉及在自可靠体系的背景下,数据的完整性/安全性和数据的机密性。总体来说,客户102易于受到可靠性问题引起的数据丢失。在一个实施例中,使用RSG120,每个CSU700:(1)保护客户免于彼此的不法行为,(2)保护基础架构免于客户的不法行为,(3)保护客户免于提供商的不法行为。注意到,安全性故障可以因为以下原因中的一个或多个而产生:不是所有资源都得到虚拟化,虚拟化软件有程序缺陷,代码毁坏的情况,不正确的网络虚拟化(它允许客户访问云提供商基础架构的敏感部分或其他客户的资源)。
第四能力涉及在自可靠体系的背景下数据的可用性/不可用性。
在许多情况下,软件应用和数据对于商业相当重要,从而使得,在软件应用和/或数据不可用时(例如,由于中断的状况),商业被延缓或者甚至潜在地停滞,直到可用性得到恢复。在短期内,这样的中断状况导致数据丢失,员工和客户受挫,失去收益。长期地,这样的中断状况会在整个商业的生命期对该商业造成影响(并且,丢失记录、交易和/或会计文件甚至可能将商业置于违反法规的风险中)。可以了解,数据可能因为许多原因而变得不可用,这可以用状态图表来表示,该图表汇总从数据完全可访问的正常状态(标注为正常状态)到数据部分可用或不可用的异常状态的转变。例如,当系统由于安全性攻击而受到黑客袭击时(标注为袭击状态),由于操作员失误或程序瑕疵而当机时(标注为当机/受损状态),由于丢失加密密钥而变得不可用时(标注为当机/受损状态),或者经历计划中的维护动作时(标注为维护状态),会出现上述异常状态。
在一个实施例中,RSG120配置为保卫客户数据以确保其可用性不会受损。RSG120可以通过审计、服务进行中的测试、数据修复,等等,以及以上的各种组合,来保卫客户数据。注意到,数据备份和存储方案通常是灾难恢复计划的主要组成。在一个实施例中,客户数据可以根据需要容易地、自动地移动。在一个实施例中,可以通过在多个位置存储客户数据的多个拷贝,其中数据保持同步,以此恢复客户数据。在一个实施例中,可以针对特定类型的条件而指明数据恢复策略(例如,在文件或数据库或磁盘故障的情况下,可以使用以下数据恢复策略中的一个或多个:(1)冷备份方案,其中抓取文件快照,并存储和备份文件;(2)暖备份方案,其中为客户保留资源;(3)热备份方案,其中由远程站点处的同步化资源管理数据的复制(例如,在中断的情况下,作为副本的替代性的故障转移站点立即接管)。
第五能力涉及自可靠体系背景下的错误和警告处理。
在一个实施例中,RSG120配置为执行主动监视,以在客户服务受到影响之前早期检测CSU700和SCU920上的异常行为。
在一个实施例中,VRSG750配置为分析问题,确定相关联的防止性控制动作。在一个这样的实施例中,VRSG750配置为,响应于接收到CSU700的部件检测到异常事件并恢复时产生的警报,执行这样的功能。
在一个实施例中,VRSG750配置为处理各种类型的输入信息,以提供各种控制功能(例如,控制,过滤,错误分析,等等,以及以上的各种组合)。
VRSG750可以处理关于每个CSU700的信息,以提供各种控制功能。云系统100配置为,在其操作期间,在任何或所有层级(例如,在物理SCU层级,虚拟CSU层级,网络层级,服务层级,等等中的一个或多个),产生异常事件(例如,警报,警告,等等)。云系统100还配置为,收集各种类型的性能数据。如果达到异常条件,被监视的事件变量的值会遭受到阈值。在至少一些情况下,应用过滤准则,记录满足准则的变量(例如,在日志文件中)。应理解,对于每个时间间隔,存在有限数目的事件变量被记录。事件变量捕获相关联的部件的行为,并提供附加的上下文用于事件处理。例如,事件变量可以包括,攀升的函数错误,恢复的陷入/异常,CPU总使用率,内存总使用率,中断的事务,进程重启,发送的错误TPDU,接收的错误TPDU,发生传输超时,健全超时的数目,刀片重启,故障转移的数目,磁盘访问故障,文件访问故障,磁盘使用,以及关键警告的数目。如以上注意到的,VRSG750配置为处理关于每个CSU700的这样的信息,以提供各种控制功能。
VRSG750可以接收和处理来自若干源的信息(例如,来自CSU750的部件的自主故障报告,来自客户和对等VRSG750的问题报告,来自VRSG750的诊断/训练/审计的结果,(4)来自性能管理器的损伤指示,来自配置管理器的网络配置数据,等等,以及以上的各种组合)。VRSG750配置为整合这样的信息,并提供诸如控制、过滤、错误分析之类的功能。作为VRSG750进行这样的处理的结果,可以识别故障的基础架构资源,辨识出错误的根本原因,安排和规划修复动作,并将故障的资源返回到服务。
VRSG750和PRSG924可以配置为接收事件通知。警报和警告采集可以包括硬件和/或软件事件,其中的至少一些基于CSU700(用于VRSG750)和SCU920(用于PRSG924)所指明的准则在本地主机中进行处理。在一个实施例中,即使状况得到解决,事件通知也被发送到PRSG750和VRSG924。以这样的方式,可以保持历史信息用于特征分析并确定可能的防止性动作。注意到,在软件错误的情况下,仅仅相对小数目的这样的错误会导致不可恢复的异常,因为大部分错误通常被异常处理器所解决。进一步注意到,至少一些动作由主机机器在本地执行,在这样的情况下,可以只是通知PRSG750和PRSG924已采取的动作。
第六能力涉及自可靠体系架构背景下的可靠和可扩展存储。在许多情况下,为了满足规模和成本的目标,云系统用商品服务器、磁盘和网络的集群构建,它们分布在多个地理上分散的数据中心。注意到,在这样的环境中,可能有大数目的故障场景(例如,磁盘故障,网络中断,电力分布中断和灾难,等等)。于是,在一些情况中的底层存储系统的语义不明时,从存储故障进行恢复对于云应用的开发者来说非常困难。例如,导致数据不一致的故障状况包括部分写入、存储节点冲突、网络分区、在多个站点的多个读取者/写入者,等等。在一个实施例中,客户可以指明不同的编码,以实现不同的成本、能力和可靠性的平衡。例如,临时的、容易再创建的数据可以以最小冗余度进行存储,而耗成本的、档案性的数据可以广泛分散,以提高可靠性,存储可以提供最终一致的语义,等等。在一个实施例中,存储系统可以在不同操作条件下(例如,数据的复制,RAID,擦除编码,等等)提供不同类型的冗余度和一致性。
第七能力涉及自可靠体系背景下的性能和超负荷。在许多情况下,对服务的需求随时间而变化,从而导致性能不可预测。应理解,为数据中心提供仅持续数据中心的操作时间中的很小百分比的峰值负载条件将导致数据中心资源的利用。于是,可以优选现购现付方案(例如,对计算资源按小时计费)。然而,现购现付方式也可能具有相关联的问题(例如,需求是预先未知的(例如,在开始是很大的尖峰,后面是稳定的业务量),经由云所购买的小时可以随时间不均匀地变化,等等)。此外,许多服务还经历季节性或周期性的需求变化(例如,十二月中的电子商务,由于新事件导致的非预期的需求,等等)。并且,性能降级可能是由于故障、超负荷或设计(例如,由于计划中的受控的超负荷政策控制而导致的失去交易可用性,业务量超负荷,VM之间的I/O性能的变化,VM之间的I/O干扰,等等,以及以上的各种组合)。
第八能力涉及自可靠体系背景下的电源管理和硬件寿命。在一些情况下,数据中心具有大数目的服务器上的大数目的用户(例如,支持几百万用户的几千个服务器)。在许多这样的情况下,电源和冷却是主要的问题和开销。在一个实施例中,通过使用软件栈、可扩展的存储、具有密集刀片的服务器块、具有基于闪存的非易失性存储器的分解的存储器刀片、跨层的电源管理等等,以及以上的各种组合,可以使得基础架构的各个部分更加高效。在一个实施例中,可以通过软件策略延长硬件寿命,所述软件策略例如是自动的磁盘碎片整理,其防止或延迟客户抱怨的最常见原因之一,等等。
第九能力涉及自可靠体系背景下的系统可用性和商业连续性。注意到,连续性是另一个因素,因为单个公司进行的云计算服务的管理是单点故障(例如,甚至对不同位置的多个数据中心,它们具有共同的软件基础架构、账目、和其他共同的元件和能力)。在一个实施例中,支持商业连续性策略。在一个这样的实施例中,商业连续性策略可以不仅仅指明数据恢复,因为在多数情况下,数据仅仅是真正的商业连续性和灾难恢复计划的一个组成。
尽管独立地对分开的能力进行了初步描述,但是注意到,可以一起使用这样的能力的各种组合,以提供各种功能。
图10描绘了用于为云系统的客户提供可靠性的方法的一个实施例。注意到,当结合本文描绘和描述的图1到图9的相关部分进行考虑时,可以更好地理解方法1000的各个步骤。
在步骤1010,方法1000开始。
在步骤1020,接收客户的DRP。该客户可以是管理云系统的云提供商的客户。
在步骤1030,基于客户的DRP,确定用于该客户的云资源的配置。
在步骤1040,使用确定的云资源的配置,为该客户配置云资源。
在步骤1050,监视云系统的状况和/或潜在状况。
在步骤1060,确定是否检测到一个或多个状况。如果没有检测到状况,那么方法1000返回步骤1050(也就是,继续监视云系统的状况和/或潜在状况)。如果检测到状况,方法1000前进到步骤1070。
在步骤1070,基于检测到的状况,启动一个或多个动作。从步骤1070,方法1000返回到步骤1050(也就是,继续监视云系统的状况和/或潜在状况)。
注意到,在云系统中,可靠性仅仅是要考虑的一个组成(例如,要考虑的其他组成包括,性能,安全性,成本,等等)。因此,尽管本文参照云系统的可靠性和可用性方面的考虑进行了初步描绘和描述,但是应理解,参照改善云系统的可靠性和可用性方面所描绘和描述的各种原则、能力和功能可以扩展,以处理一个或多个这样的其他考虑(例如,性能,安全性,成本,等等)。
尽管在云系统的背景下进行了初步描绘和描述,注意到,本文描绘和描述的各种能力和功能可以适用于其他环境。例如,本文在云系统的背景下描绘和描述的各种能力和功能可以适用于机器对机器的环境,智能计量环境,等等。
图11描绘了适用于执行本文描述的功能的计算机的高层级框图。
如图11所描绘,计算机1100包括处理器元件1102(例如,中央处理单元(CPU)和/或其他适当的处理器)以及存储器1104(例如,随机存取存储器(RAM),只读存储器(ROM),等等)。计算机1100还可以包括协作模块/过程1105和/或各种输入/输出设备1106(例如,用户输入设备(诸如键盘,键板,鼠标,等等),用户输出设备(诸如显示器,扬声器,等等),输入端口,输出端口,接收器,发送器,和存储设备(例如,磁带驱动器,软盘驱动器,硬盘驱动器,光盘驱动器,等等))。
可以了解,本文描绘和描述的功能可以用软件执行(例如,通过在一个或多个处理器上执行软件)和/或可以用硬件执行(例如,使用通用目的计算机,一个或多个应用专用集成电路(ASIC),和/或任何其他硬件等同物)。
可以了解,本文描绘和描述的功能可以用软件执行(例如,在通用目的计算机上执行(例如,经由一个或多个处理器的执行),以执行特殊目的计算机)和/或可以用硬件执行(例如,使用一个或多个应用专用集成电路(ASIC),和/或任何其他硬件等同物)。
在一个实施例中,协作过程1105可以被加载到存储器1104并由处理器1102执行,以执行本文讨论的功能。因此,协作过程1105(包括相关联的数据结构)可以存储在计算机可读的存储介质上,例如,RAM存储器,磁盘或光盘驱动器或软盘,等等。
应理解,图11描绘的计算机1100提供适用于执行本文描述的功能元件和/或本文描述的功能元件的部分的通用体系和功能性。例如,计算机1100提供适用于执行本文描述的各种物理资源、模块、单元、元件、部件等等中的一个或多个的通用体系和功能性。
可以设想,本文描述的作为软件方法的一些步骤可以在硬件中执行,例如,作为与处理器协作来执行各种方法步骤的电路。本文所描述的功能/元件的部分可以执行为计算机程序产品,其中计算机指令当由计算机处理时可调配计算机的操作,使得本文描述的方法和/或技术得到调用或以其他方式提供。调用发明性方法的指令可以存储在固定的或可移除的介质中,经由广播或其他信号承载介质中的数据流传输,和/或存储在根据指令进行操作的计算设备中的存储器中。
权利要求指明各个实施例的方面。下面编号的条款指明各个实施例的那些和其他方面:
1.一种装置,包括:
处理器和存储器,所述处理器配置为:
接收与云提供商的客户相关联的动态可靠性概况(DRP),其中所述DRP指明依据时间和所述客户的应用或服务的要求两者的该客户的可靠性参数;以及
基于所述客户的DRP确定用于该客户的云资源的配置。
2.如条款1所述的装置,其中DRP配置为被指明为与客户相关联的服务级别协定(SLA)的一部分。
3.如条款1所述的装置,其中所述云资源包括计算资源、内存资源、输入输出资源、存储资源和网络资源中的至少一个。
4.如条款1所述的装置,其中所述处理器配置为通过以下方式基于客户的DRP确定用于客户的云资源的配置:
使用客户应用信息以及与云提供商的云系统相关联的云系统信息,确定用于客户的虚拟应用拓扑;
使用用于客户的所述虚拟应用拓扑以及与所述云系统相关联的云系统信息,确定可靠性绘图;以及
使用所述可靠性绘图和与所述云系统相关联的云系统信息,确定云资源的配置。
5.如条款4所述的装置,其中所述云系统信息包括,政策信息和约束信息中的至少一个,以及与所述云系统相关联的当前系统状态信息。
6.如条款4所述的装置,其中所述可靠性绘图表示为可靠性框图表(RBD),其配置为就应用部件的各自可靠性需求以及应用部件之间的至少一个关系而言来表示应用的多个应用部件。
7.如条款1所述的装置,其中所述处理器配置为,在多个时间段的每一个中确定用于客户的云资源的配置。
8.如条款1所述的装置,其中所述处理器还配置为:
监视云资源的行为,用以确定所述DRP中指明的可靠性参数是否得到满足。
9.如条款1所述的装置,其中所述处理器还配置为:
计量用以满足所述DRP中指明的可靠性参数的所述云资源的行为。
10.如条款1所述的装置,其中所述处理器还配置为提供配置引擎,该配置引擎配置为:
处理与所述客户相关联的DRP,以产生虚拟配置;以及
将所述虚拟配置提供给调度引擎,该调度引擎配置为将虚拟配置映射到云资源。
11.如条款1所述的装置,其中所述处理器配置为提供调度引擎,该调度引擎配置为:
接收虚拟配置,该虚拟配置满足与客户相关联的DRP;以及
将该虚拟配置映射到云资源。
12.如条款1所述的装置,其中所述处理器配置为提供监视引擎,该监视引擎配置为:
使用所述云系统的云提供商所指明的政策信息和约束信息中的至少一个和与云提供商的云系统相关联的系统状态信息,产生可靠性完整性计量和配置用以在控制云系统的云资源时使用的控制信息中的至少一个。
13.如条款12所述的装置,其中所述监视引擎包括:
聚合引擎,配置为接收并聚合与所述云系统的物理基础架构相关联的事件;
关联分析引擎,配置为对聚合的事件进行关联,以形成与所述云系统相关联的系统状态信息;以及
处理引擎,配置为处理所述云系统的云提供商所指明的政策信息和约束信息中的至少一个和与所述云系统相关联的所述系统状态信息,以产生可靠性完整性计量和配置用以在控制云系统的云资源时使用的控制信息中的至少一个。
14.如条款12所述的装置,其中所述可靠性完整性计量包括,系统状态信息和从系统状态信息导出的量度中的至少一个。
15.如条款12所述的装置,其中配置用以在控制云系统的云资源时使用的所述控制信息包括以下中的至少一个:配置为对云系统中的至少一个状况进行反应的反应性控制信息,以及配置为防止至少一个状况在云系统中发生的预测性防止性控制信息。
16.如条款1所述的装置,其中所述处理器配置为提供控制引擎,该控制引擎配置为:
接收控制信息,所述控制信息配置为用以在控制云资源时使用;以及
使用所述控制信息,产生至少一个反馈动作,该反馈动作配置为修改所述云资源的至少一部分。
17.如条款1所述的装置,其中所述处理器配置为支持计算存储单元(CSU),其中所述CSU包括以下中的至少一个:
虚拟机,包括虚拟处理器和内存资源;
虚拟存储卷体,包括虚拟存储资源;
虚拟子网络接口,配置为支持与至少一个其他SCU的至少一个安全连接;
虚拟可靠性/安全性守卫(VRSG),配置为执行以下中的至少一个:
管理CSU的元件的恢复;以及
与至少一个其他CSU交换可靠性、安全性、性能、拓扑和事件数据中的至少一个;
虚拟探针,配置为收集用于CSU的利用率、可靠性、性能和安全性数据中的至少一个;
控制器,配置为管理所述CSU;以及
CSU说明,包括CSU的多个属性。
18.如条款1所述的装置,其中所述处理器布置在物理主机上,其中所述处理器配置为支持用于物理主机的系统控制单元(SCU),其中SCU包括以下中的至少一个:
主机管理器(HM),配置为执行以下中的至少一个:管理所述物理主机上的动作,创建和删除用于所述物理主机上使用的计算存储单元(CSU),以及强制进行在所述物理主机和至少一个其他物理主机上的CSU之间的安全通信;
资源管理器(RM),配置为管理所述物理主机上的资源;
存储管理器(SM),配置为管理所述物理主机上的存储;
物理可靠性/安全性守卫(PRSG),配置为监视和管理物理主机上的CSU的恢复;以及
物理探针,配置为收集与所述物理主机相关联的利用率、可靠性、性能和安全性数据中的至少一个。
19.一种计算机可读存储介质,用于存储指令,所述指令当被计算机执行时,致使计算机执行一种方法,该方法包括:
接收与云提供商的客户相关联的动态可靠性概况(DRP),其中所述DRP指明依据时间和所述客户的应用或服务的要求两者的该客户的可靠性参数;以及
基于所述客户的DRP确定用于该客户的云资源的配置。
20.一种方法,包括:
使用处理器,用以:
接收与云提供商的客户相关联的动态可靠性概况(DRP),其中所述DRP指明依据时间和所述客户的应用或服务的要求两者的该客户的可靠性参数;以及
基于所述客户的DRP确定用于该客户的云资源的配置。
尽管本文详细示出和描述了并入有本发明的教导的各种实施例,本领域技术人员可以容易地设计出也并入有这些教导的许多其他变形的实施例。

Claims (10)

1.一种装置,包括:
处理器和存储器,所述处理器配置为:
接收与云提供商的客户相关联的动态可靠性概况(DRP),其中所述DRP指明依据时间和所述客户的应用或服务的要求两者的该客户的可靠性参数;以及
基于所述客户的DRP确定用于所述客户的云资源的配置。
2.如权利要求1所述的装置,其中所述处理器配置为通过以下方式基于客户的DRP确定用于所述客户的云资源的配置:
使用客户应用信息以及与云提供商的云系统相关联的云系统信息,确定用于所述客户的虚拟应用拓扑;
使用用于所述客户的所述虚拟应用拓扑以及与所述云系统相关联的云系统信息,确定可靠性绘图;以及
使用所述可靠性绘图和与所述云系统相关联的云系统信息,确定云资源的配置。
3.如权利要求1所述的装置,其中所述处理器配置为,在多个时间段的每一个中确定用于所述客户的云资源的配置。
4.如权利要求1所述的装置,其中所述处理器还配置为:
监视云资源的行为,用以确定所述DRP中指明的可靠性参数是否得到满足;
计量用以满足所述DRP中指明的可靠性参数的所述云资源的行为。
5.如权利要求1所述的装置,其中所述处理器配置为提供配置引擎,该配置引擎配置为:
处理与所述客户相关联的DRP,以产生虚拟配置;以及
将所述虚拟配置提供给调度引擎,该调度引擎配置为将所述虚拟配置映射到云资源。
6.如权利要求1所述的装置,其中所述处理器配置为提供调度引擎,该调度引擎配置为:
接收虚拟配置,该虚拟配置满足与所述客户相关联的DRP;以及
将该虚拟配置映射到云资源。
7.如权利要求1所述的装置,其中所述处理器配置为提供监视引擎,该监视引擎配置为:
使用所述云系统的云提供商所指明的政策信息和约束信息中的至少一个和与云提供商的云系统相关联的系统状态信息,产生可靠性完整性计量和被配置用以在控制所述云系统的云资源时使用的控制信息中的至少一个。
8.如权利要求1所述的装置,其中所述处理器配置为提供控制引擎,该控制引擎配置为:
接收控制信息,所述控制信息配置为用以在控制所述云资源时使用;以及
使用所述控制信息,产生至少一个反馈动作,该反馈动作配置为修改所述云资源的至少一部分。
9.一种计算机可读存储介质,用于存储指令,所述指令当被计算机执行时,致使计算机执行一种方法,该方法包括:
接收与云提供商的客户相关联的动态可靠性概况(DRP),其中所述DRP指明依据时间和所述客户的应用或服务的要求两者的该客户的可靠性参数;以及
基于所述客户的DRP确定用于所述客户的云资源的配置。
10.一种方法,包括:
使用处理器,用以:
接收与云提供商的客户相关联的动态可靠性概况(DRP),其中所述DRP指明依据时间和所述客户的应用或服务的要求两者的该客户的可靠性参数;以及
基于所述客户的DRP确定用于所述客户的云资源的配置。
CN201280050376.2A 2011-10-14 2012-10-01 在通信环境中提供动态可靠性和安全性 Pending CN103875210A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/273,415 US9300548B2 (en) 2011-10-14 2011-10-14 Providing dynamic reliability and security in communications environments
US13/273,415 2011-10-14
PCT/US2012/058225 WO2013055538A1 (en) 2011-10-14 2012-10-01 Providing dynamic reliability and security in communications environments

Publications (1)

Publication Number Publication Date
CN103875210A true CN103875210A (zh) 2014-06-18

Family

ID=47018576

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280050376.2A Pending CN103875210A (zh) 2011-10-14 2012-10-01 在通信环境中提供动态可靠性和安全性

Country Status (7)

Country Link
US (1) US9300548B2 (zh)
EP (1) EP2767036A1 (zh)
JP (1) JP2014532246A (zh)
KR (1) KR101513408B1 (zh)
CN (1) CN103875210A (zh)
IN (1) IN2014CN02255A (zh)
WO (1) WO2013055538A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105446818A (zh) * 2015-12-18 2016-03-30 华为技术有限公司 一种业务处理的方法、相关装置以及系统
WO2016065592A1 (zh) * 2014-10-30 2016-05-06 华为技术有限公司 可靠性配置策略的获取方法、装置及设备
WO2016119590A1 (en) * 2015-01-27 2016-08-04 Huawei Technologies Co., Ltd. Network virtualization for network infrastructure
CN107147733A (zh) * 2017-06-05 2017-09-08 湖南文盾信息技术有限公司 基于soa的服务恢复方法
CN107329802A (zh) * 2017-06-30 2017-11-07 联想(北京)有限公司 一种虚拟机创建方法及电子设备
WO2018053717A1 (en) * 2016-09-21 2018-03-29 Accenture Global Solutions Limited Dynamic resource allocation for application containers
CN108885582A (zh) * 2016-04-07 2018-11-23 国际商业机器公司 存储器池结构的多租户存储器服务
CN108874638A (zh) * 2017-05-12 2018-11-23 微软技术许可有限责任公司 基于画像信息的智能云管理
CN110738003A (zh) * 2019-10-23 2020-01-31 湖南大学 一种重型拖拉机pto壳体时变可靠性分析方法
CN111095900A (zh) * 2017-09-05 2020-05-01 诺基亚通信公司 用于分布式云环境中sla管理的方法和装置

Families Citing this family (116)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2927607C (en) * 2009-12-10 2021-04-06 Royal Bank Of Canada Synchronized processing of data by networked computing resources
US9213580B2 (en) * 2012-01-27 2015-12-15 MicroTechnologies LLC Transportable private cloud computing platform and associated method of use
US9294552B2 (en) 2012-01-27 2016-03-22 MicroTechnologies LLC Cloud computing appliance that accesses a private cloud and a public cloud and an associated method of use
US9225604B2 (en) * 2012-04-05 2015-12-29 International Business Machines Corporation Mapping requirements to a system topology in a networked computing environment
US9210180B2 (en) * 2012-04-18 2015-12-08 Radware Ltd. Techniques for separating the processing of clients' traffic to different zones in software defined networks
US9146793B2 (en) * 2012-05-18 2015-09-29 Hitachi, Ltd. Management system and management method
US8750288B2 (en) * 2012-06-06 2014-06-10 Juniper Networks, Inc. Physical path determination for virtual network packet flows
US9779260B1 (en) 2012-06-11 2017-10-03 Dell Software Inc. Aggregation and classification of secure data
US9262253B2 (en) * 2012-06-28 2016-02-16 Microsoft Technology Licensing, Llc Middlebox reliability
US9229800B2 (en) 2012-06-28 2016-01-05 Microsoft Technology Licensing, Llc Problem inference from support tickets
US8938053B2 (en) 2012-10-15 2015-01-20 Twilio, Inc. System and method for triggering on platform usage
US9325748B2 (en) 2012-11-15 2016-04-26 Microsoft Technology Licensing, Llc Characterizing service levels on an electronic network
US9565080B2 (en) 2012-11-15 2017-02-07 Microsoft Technology Licensing, Llc Evaluating electronic network devices in view of cost and service level considerations
US9608933B2 (en) * 2013-01-24 2017-03-28 Hitachi, Ltd. Method and system for managing cloud computing environment
US9223673B1 (en) * 2013-04-08 2015-12-29 Amazon Technologies, Inc. Custom host errors definition service
US10291515B2 (en) * 2013-04-10 2019-05-14 Huawei Technologies Co., Ltd. System and method for a control plane reference model framework
JP6240318B2 (ja) * 2013-06-05 2017-11-29 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 無線ネットワークを管理するためのシステムおよび方法
US9954722B2 (en) * 2013-06-06 2018-04-24 Atkins Nuclear Solutions Us, Inc. Method and apparatus for resource dependency planning
US9350601B2 (en) 2013-06-21 2016-05-24 Microsoft Technology Licensing, Llc Network event processing and prioritization
GB2515492A (en) * 2013-06-24 2014-12-31 Vodafone Ip Licensing Ltd Optimization of a cellular radio network
GB2515554A (en) * 2013-06-28 2014-12-31 Ibm Maintaining computer system operability
US10454714B2 (en) 2013-07-10 2019-10-22 Nicira, Inc. Method and system of overlay flow control
US9887889B1 (en) * 2013-07-15 2018-02-06 Amazon Technologies, Inc. State reconciliation using event tracking and polling
JP2015022501A (ja) * 2013-07-18 2015-02-02 富士通株式会社 構築装置、構築方法、及び構築プログラム
US9917885B2 (en) * 2013-07-30 2018-03-13 International Business Machines Corporation Managing transactional data for high use databases
US9471474B2 (en) 2013-08-19 2016-10-18 Microsoft Technology Licensing, Llc Cloud deployment infrastructure validation engine
US9577910B2 (en) * 2013-10-09 2017-02-21 Verisign, Inc. Systems and methods for configuring a probe server network using a reliability model
EP3063662A4 (en) 2013-10-30 2017-06-21 Hewlett-Packard Enterprise Development LP Facilitating autonomous computing within a cloud service
US10567231B2 (en) 2013-10-30 2020-02-18 Hewlett Packard Enterprise Development Lp Execution of a topology
US11245588B2 (en) 2013-10-30 2022-02-08 Micro Focus Llc Modifying realized topologies
WO2015065374A1 (en) 2013-10-30 2015-05-07 Hewlett-Packard Development Company, L.P. Management of the lifecycle of a cloud service modeled as a topology
WO2015065355A1 (en) 2013-10-30 2015-05-07 Hewlett-Packard Development Company, L. P. Stitching an application model to an infrastructure template
EP3063661B1 (en) 2013-10-30 2020-05-06 Hewlett-Packard Enterprise Development LP Topology remediation
EP3063658A4 (en) 2013-10-30 2017-05-24 Hewlett-Packard Enterprise Development LP Realized topology system management database
EP3063668A4 (en) 2013-10-30 2017-05-31 Hewlett-Packard Enterprise Development LP Managing the lifecycle of a cloud service modeled as topology decorated by a number of policies
WO2015065370A1 (en) 2013-10-30 2015-05-07 Hewlett-Packard Development Company, L.P. Monitoring a cloud service modeled as a topology
US9246840B2 (en) 2013-12-13 2016-01-26 International Business Machines Corporation Dynamically move heterogeneous cloud resources based on workload analysis
US9495238B2 (en) 2013-12-13 2016-11-15 International Business Machines Corporation Fractional reserve high availability using cloud command interception
US9537745B1 (en) 2014-03-07 2017-01-03 Google Inc. Distributed virtual machine disk image deployment
US9450833B2 (en) 2014-03-26 2016-09-20 International Business Machines Corporation Predicting hardware failures in a server
RU2640724C1 (ru) * 2014-04-09 2018-01-11 Хуавей Текнолоджиз Ко., Лтд. Способ устранения неисправностей, устройство и система, основанные на виртуализации сетевых функций
US10069749B1 (en) * 2014-09-23 2018-09-04 EMC IP Holding Company LLC Method and apparatus for disaggregated overlays via application services profiles
EP3001317A1 (en) * 2014-09-26 2016-03-30 Alcatel Lucent Alarm correlation according to dependencies between entities of the managed data processing system
US20160182320A1 (en) * 2014-12-23 2016-06-23 Intel Corporation Techniques to generate a graph model for cloud infrastructure elements
AU2015382846B2 (en) * 2015-02-12 2018-10-04 Huawei Technologies Co., Ltd. Alarm information processing method, related device and system
US10326748B1 (en) 2015-02-25 2019-06-18 Quest Software Inc. Systems and methods for event-based authentication
US10417613B1 (en) 2015-03-17 2019-09-17 Quest Software Inc. Systems and methods of patternizing logged user-initiated events for scheduling functions
US10270668B1 (en) * 2015-03-23 2019-04-23 Amazon Technologies, Inc. Identifying correlated events in a distributed system according to operational metrics
US9842220B1 (en) 2015-04-10 2017-12-12 Dell Software Inc. Systems and methods of secure self-service access to content
US10135789B2 (en) 2015-04-13 2018-11-20 Nicira, Inc. Method and system of establishing a virtual private network in a cloud service for branch networking
US10042697B2 (en) * 2015-05-28 2018-08-07 Oracle International Corporation Automatic anomaly detection and resolution system
CN105119742B (zh) * 2015-07-22 2018-04-10 上海斐讯数据通信技术有限公司 一种基于java Swing组件的性能数据模拟生成器及生成方法
US9872188B2 (en) * 2015-07-28 2018-01-16 Futurewei Technologies, Inc. Adaptive filtering based network anomaly detection
US10536352B1 (en) 2015-08-05 2020-01-14 Quest Software Inc. Systems and methods for tuning cross-platform data collection
US20180235022A1 (en) 2015-08-31 2018-08-16 Intel Corporation Dual connectivity for reliability
US10985990B2 (en) * 2015-09-15 2021-04-20 Huawei Technologies Co., Ltd. Software defined topology (SDT) for user plane
US10218588B1 (en) 2015-10-05 2019-02-26 Quest Software Inc. Systems and methods for multi-stream performance patternization and optimization of virtual meetings
US10157358B1 (en) 2015-10-05 2018-12-18 Quest Software Inc. Systems and methods for multi-stream performance patternization and interval-based prediction
US10282732B2 (en) 2015-10-14 2019-05-07 International Business Machines Corporation Analysis of customer feedback for applications executing on distributed computational systems
US10009234B2 (en) * 2015-11-19 2018-06-26 International Business Machines Corporation Predictive modeling of risk for services in a computing environment
US9537720B1 (en) * 2015-12-10 2017-01-03 International Business Machines Corporation Topology discovery for fault finding in virtual computing environments
US10305974B2 (en) 2015-12-23 2019-05-28 Intel Corporation Ranking system
US10142391B1 (en) * 2016-03-25 2018-11-27 Quest Software Inc. Systems and methods of diagnosing down-layer performance problems via multi-stream performance patternization
US20170289002A1 (en) * 2016-03-31 2017-10-05 Mrittika Ganguli Technologies for deploying dynamic underlay networks in cloud computing infrastructures
US10616064B2 (en) * 2016-03-31 2020-04-07 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Soft reservation techniques and systems for virtualized environments
US11153223B2 (en) 2016-04-07 2021-10-19 International Business Machines Corporation Specifying a disaggregated compute system
US10021075B1 (en) * 2016-06-23 2018-07-10 EMC IP Holding Company LLC Multiple data center data security
CN107005441B (zh) * 2016-08-25 2020-12-04 华为技术有限公司 拨测方法、拨测系统和计算节点
SG11201903412TA (en) * 2016-10-31 2019-05-30 Ericsson Telefon Ab L M Protection of mission-critical push-to-talk multimedia broadcast and multicast service subchannel control messages
US20200036624A1 (en) 2017-01-31 2020-01-30 The Mode Group High performance software-defined core network
US11706127B2 (en) 2017-01-31 2023-07-18 Vmware, Inc. High performance software-defined core network
US20180219765A1 (en) 2017-01-31 2018-08-02 Waltz Networks Method and Apparatus for Network Traffic Control Optimization
US10992568B2 (en) 2017-01-31 2021-04-27 Vmware, Inc. High performance software-defined core network
JP6399127B2 (ja) 2017-03-08 2018-10-03 日本電気株式会社 システム管理装置、システム管理方法、プログラム、情報処理システム
US11184271B2 (en) 2017-04-06 2021-11-23 At&T Intellectual Property I, L.P. Network service assurance system
US11252585B2 (en) * 2017-05-17 2022-02-15 Nec Corporation Access network node, radio communication system, communication method and program
US11087042B1 (en) 2017-06-30 2021-08-10 Wells Fargo Bank, N.A. Generation of a simulation plan and performance of a simulation based on the plan
US10547516B2 (en) 2017-06-30 2020-01-28 Microsoft Technology Licensing, Llc Determining for an optimal timeout value to minimize downtime for nodes in a network-accessible server set
US10372482B2 (en) * 2017-09-28 2019-08-06 Ca, Inc. Domain transversal based transaction contextualization of event information
US10713109B2 (en) * 2017-09-29 2020-07-14 Apple Inc. Method and system for predicting failure events
US11115480B2 (en) 2017-10-02 2021-09-07 Vmware, Inc. Layer four optimization for a virtual network defined over public cloud
US10999100B2 (en) 2017-10-02 2021-05-04 Vmware, Inc. Identifying multiple nodes in a virtual network defined over a set of public clouds to connect to an external SAAS provider
US10608844B2 (en) 2017-10-02 2020-03-31 Vmware, Inc. Graph based routing through multiple public clouds
US11223514B2 (en) 2017-11-09 2022-01-11 Nicira, Inc. Method and system of a dynamic high-availability mode based on current wide area network connectivity
US10826776B2 (en) * 2018-02-26 2020-11-03 Servicenow, Inc. Integrated continual improvement management
US10721124B2 (en) 2018-04-06 2020-07-21 Cisco Technology, Inc. Cloud management connectivity assurance
US10785089B2 (en) 2018-05-07 2020-09-22 At&T Intellectual Property I, L.P. Service-level resiliency in virtualization environments
US10719418B2 (en) 2018-05-31 2020-07-21 International Business Machines Corporation Replicating workload data according to a degree of resiliency for disaster recovery in disaggregated datacenters
US11036599B2 (en) 2018-05-31 2021-06-15 International Business Machines Corporation Disaster recovery and replication according to workload priorities in disaggregated datacenters
US10983881B2 (en) 2018-05-31 2021-04-20 International Business Machines Corporation Disaster recovery and replication in disaggregated datacenters
US11243846B2 (en) 2018-05-31 2022-02-08 International Business Machines Corporation Replicating workload and state data for disaster recovery in disaggregated datacenters
US10891206B2 (en) 2018-05-31 2021-01-12 International Business Machines Corporation Disaster recovery orchestration and capacity planning in disaggregated datacenters
US10686807B2 (en) 2018-06-12 2020-06-16 International Business Machines Corporation Intrusion detection system
JP6988727B2 (ja) * 2018-07-31 2022-01-05 日本電信電話株式会社 保守タスク管理装置及び保守タスク管理方法
US20220086037A1 (en) * 2019-01-17 2022-03-17 Telefonaktiebolaget Lm Ericsson (Publ) Technique for Connection Handling in a Distributed System
US11121985B2 (en) 2019-08-27 2021-09-14 Vmware, Inc. Defining different public cloud virtual networks for different entities based on different sets of measurements
US11477072B2 (en) * 2019-09-17 2022-10-18 OpenVault, LLC System and method for prescriptive diagnostics and optimization of client networks
US11044190B2 (en) 2019-10-28 2021-06-22 Vmware, Inc. Managing forwarding elements at edge nodes connected to a virtual network
US11121914B2 (en) * 2019-11-22 2021-09-14 Walmart Apollo, Llc Monitoring and self-healing of deployed environments
FR3103663B1 (fr) * 2019-11-27 2021-11-19 Amadeus Sas Tests et maintien d’une résilience face aux pannes des ressources de serveur
US11489783B2 (en) 2019-12-12 2022-11-01 Vmware, Inc. Performing deep packet inspection in a software defined wide area network
US11210159B2 (en) 2020-01-06 2021-12-28 International Business Machines Corporation Failure detection and correction in a distributed computing system
US11722925B2 (en) 2020-01-24 2023-08-08 Vmware, Inc. Performing service class aware load balancing to distribute packets of a flow among multiple network links
US11709710B2 (en) 2020-07-30 2023-07-25 Vmware, Inc. Memory allocator for I/O operations
US11314605B2 (en) * 2020-08-03 2022-04-26 EMC IP Holding Company LLC Selecting optimal disk types for disaster recovery in the cloud
US11575591B2 (en) 2020-11-17 2023-02-07 Vmware, Inc. Autonomous distributed forwarding plane traceability based anomaly detection in application traffic for hyper-scale SD-WAN
US11575600B2 (en) 2020-11-24 2023-02-07 Vmware, Inc. Tunnel-less SD-WAN
US11601356B2 (en) 2020-12-29 2023-03-07 Vmware, Inc. Emulating packet flows to assess network links for SD-WAN
CN116783874A (zh) 2021-01-18 2023-09-19 Vm维尔股份有限公司 网络感知的负载平衡
US11637768B2 (en) 2021-05-03 2023-04-25 Vmware, Inc. On demand routing mesh for routing packets through SD-WAN edge forwarding nodes in an SD-WAN
US11729065B2 (en) 2021-05-06 2023-08-15 Vmware, Inc. Methods for application defined virtual network service among multiple transport in SD-WAN
US11489720B1 (en) * 2021-06-18 2022-11-01 Vmware, Inc. Method and apparatus to evaluate resource elements and public clouds for deploying tenant deployable elements based on harvested performance metrics
WO2022271185A1 (en) * 2021-06-25 2022-12-29 Nokia Technologies Oy Reliability in a communication system
US11943146B2 (en) 2021-10-01 2024-03-26 VMware LLC Traffic prioritization in SD-WAN
US11909815B2 (en) 2022-06-06 2024-02-20 VMware LLC Routing based on geolocation costs
CN115062353B (zh) * 2022-08-16 2022-11-11 南方电网数字电网研究院有限公司 基于单芯片的可信计算系统和可信计算方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100076856A1 (en) * 2008-09-25 2010-03-25 Microsoft Corporation Real-Time Auction of Cloud Computing Resources
JP5448032B2 (ja) 2008-12-25 2014-03-19 インターナショナル・ビジネス・マシーンズ・コーポレーション リソース管理装置、リソース管理プログラム、およびリソース管理方法
JP5368907B2 (ja) 2009-08-10 2013-12-18 株式会社エヌ・ティ・ティ・データ サーバ管理システム、サーバ管理方法、及びプログラム
US8479098B2 (en) * 2009-08-12 2013-07-02 Ebay Inc. Reservation of resources and deployment of applications using an integrated development environment
US8924569B2 (en) * 2009-12-17 2014-12-30 Intel Corporation Cloud federation as a service
JP5522525B2 (ja) 2010-03-18 2014-06-18 日本電気株式会社 サービス構築システム、装置、方法、及びプログラム
US20120105199A1 (en) * 2010-10-29 2012-05-03 Cisco Technology, Inc. Validating Sensor Data at a Community Sensor-Coordinating Entity

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016065592A1 (zh) * 2014-10-30 2016-05-06 华为技术有限公司 可靠性配置策略的获取方法、装置及设备
WO2016119590A1 (en) * 2015-01-27 2016-08-04 Huawei Technologies Co., Ltd. Network virtualization for network infrastructure
US10341188B2 (en) 2015-01-27 2019-07-02 Huawei Technologies Co., Ltd. Network virtualization for network infrastructure
CN105446818B (zh) * 2015-12-18 2019-01-11 华为技术有限公司 一种业务处理的方法、相关装置以及系统
CN105446818A (zh) * 2015-12-18 2016-03-30 华为技术有限公司 一种业务处理的方法、相关装置以及系统
CN108885582A (zh) * 2016-04-07 2018-11-23 国际商业机器公司 存储器池结构的多租户存储器服务
CN108885582B (zh) * 2016-04-07 2022-07-29 国际商业机器公司 存储器池结构的多租户存储器服务
US10942776B2 (en) 2016-09-21 2021-03-09 Accenture Global Solutions Limited Dynamic resource allocation for application containers
WO2018053717A1 (en) * 2016-09-21 2018-03-29 Accenture Global Solutions Limited Dynamic resource allocation for application containers
CN108874638A (zh) * 2017-05-12 2018-11-23 微软技术许可有限责任公司 基于画像信息的智能云管理
US11640324B2 (en) 2017-05-12 2023-05-02 Microsoft Technology Licensing, Llc Intelligent cloud management based on profile
US11354166B2 (en) 2017-05-12 2022-06-07 Microsoft Technology Licensing, Llc Intelligent assistant for cloud management
CN107147733A (zh) * 2017-06-05 2017-09-08 湖南文盾信息技术有限公司 基于soa的服务恢复方法
CN107329802A (zh) * 2017-06-30 2017-11-07 联想(北京)有限公司 一种虚拟机创建方法及电子设备
CN107329802B (zh) * 2017-06-30 2020-08-25 联想(北京)有限公司 一种虚拟机创建方法及电子设备
US11729072B2 (en) 2017-09-05 2023-08-15 Nokia Solutions And Networks Oy Method and apparatus for SLA management in distributed cloud environments
CN111095900A (zh) * 2017-09-05 2020-05-01 诺基亚通信公司 用于分布式云环境中sla管理的方法和装置
CN111095900B (zh) * 2017-09-05 2023-03-31 诺基亚通信公司 用于分布式云环境中sla管理的方法和装置
CN110738003A (zh) * 2019-10-23 2020-01-31 湖南大学 一种重型拖拉机pto壳体时变可靠性分析方法
CN110738003B (zh) * 2019-10-23 2022-06-28 湖南大学 一种重型拖拉机pto壳体时变可靠性分析方法

Also Published As

Publication number Publication date
KR101513408B1 (ko) 2015-04-17
WO2013055538A1 (en) 2013-04-18
JP2014532246A (ja) 2014-12-04
EP2767036A1 (en) 2014-08-20
US9300548B2 (en) 2016-03-29
KR20140061524A (ko) 2014-05-21
US20130097304A1 (en) 2013-04-18
IN2014CN02255A (zh) 2015-06-12

Similar Documents

Publication Publication Date Title
CN103875210A (zh) 在通信环境中提供动态可靠性和安全性
US9740546B2 (en) Coordinating fault recovery in a distributed system
JP4942835B2 (ja) 仮想インフラストラクチャを用いた情報技術リスク管理
Bailis et al. The network is reliable: An informal survey of real-world communications failures
TW201738747A (zh) 實體機器故障分類處理方法、裝置和虛擬機器恢復方法、系統
AU2019201687B2 (en) Network device vulnerability prediction
Bauer et al. Reliability and availability of cloud computing
US20150263983A1 (en) System and Method for Allocating Resources and Managing a Cloud Based Computer System
CN109547245A (zh) 用于提供移动设备支持服务的系统、方法、装置和介质
US11477667B2 (en) Using orchestrators for false positive detection and root cause analysis
CN115051932A (zh) 一种基于云平台的数据中心远程智能运维管理方法
Di Sanzo et al. Autonomic rejuvenation of cloud applications as a countermeasure to software anomalies
Clemente et al. Availability evaluation of system service hosted in private cloud computing through hierarchical modeling process
de Haan Functional Cyber-Resilience-Extending the Cybersecurity Paradigm in Critical Infrastructures
JP2003030141A (ja) 協調型アウトソーシング・サービス・システム
Mikkilineni et al. Using Virtualization to Prepare Your Data Center for" Real-Time Assurance of Business Continuity"
US20220391277A1 (en) Computing cluster health reporting engine
Sanjeewa Self-Healing of Distributed Systems
JP7436737B1 (ja) マルチベンダーを支援するサーバ管理システム
Leangsuksun et al. Highly reliable Linux HPC clusters: Self-awareness approach
Harmaala Proactive high availability monitoring strategy for private cloud computing
Zhang et al. DISASTER MANAGEMENT SYSTEM USING NETWORK SNAPSHOT IN LOW POWER AND LOSSY NETWORKS (LLNS)
Kalbarczyk et al. Classical Dependability Techniques
Yang et al. Design Issues of Trustworthy Cloud Platform Based on IP Monitoring and File Risk
Samoylyk Design, implementation and evaluation of a high availability solution for a logistic system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140618