CN106663041B - 从系统故障恢复基于云的服务的易用性的方法及装置 - Google Patents

从系统故障恢复基于云的服务的易用性的方法及装置 Download PDF

Info

Publication number
CN106663041B
CN106663041B CN201580042050.9A CN201580042050A CN106663041B CN 106663041 B CN106663041 B CN 106663041B CN 201580042050 A CN201580042050 A CN 201580042050A CN 106663041 B CN106663041 B CN 106663041B
Authority
CN
China
Prior art keywords
cloud
customer
based service
recovery action
failure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580042050.9A
Other languages
English (en)
Other versions
CN106663041A (zh
Inventor
A·萨多夫斯基
T·萨德科夫
A·普雷马拉杰
V·纳拉亚南
S·欧嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN106663041A publication Critical patent/CN106663041A/zh
Application granted granted Critical
Publication of CN106663041B publication Critical patent/CN106663041B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1415Saving, restoring, recovering or retrying at system level
    • G06F11/142Reconfiguring to eliminate the error
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3414Workload generation, e.g. scripts, playback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/805Real-time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Hardware Redundancy (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

从系统故障中恢复基于云的服务的易用性。与客户体验相关联的客户交易被执行以模拟基于云的服务中的客户体验。从客户交易的输出中检测与基于云的服务的子系统相关联的故障。确定恢复动作与故障相关联。在子系统上执行恢复动作且监测恢复动作以确定成功状况。

Description

从系统故障恢复基于云的服务的易用性的方法及装置
背景技术
分布式计算技术已经使得多个计算资源能够提供协调且明晰的解决方案。分布式计算的示例,云计算将多个系统聚合在一起而针对用户需要来提供解决方案。云计算可能跨越大批量的计算资源。在云计算应用和服务中使用的计算资源散布在各网络和位置之中。散布的计算资源能够被远程控制和管理。通常,手动的解决方案提供了对云计算资产的安装和配置支持。通过广泛散布的计算资源的人类组件的手动安装解决方案不具有成本效益。
用于云计算系统的常规的恢复解决方案具有局限性。常规的恢复解决方案通常解决云计算系统的个体组件处的故障。在本地监测个体组件的健康状况。关于个体组件的健康状况的通知被发送到中央控制器。常规的恢复解决方案还监测组件集群。恢复动作被发送到集群且执行以解决与集群内的个体相关联的故障。
发明内容
提供该发明内容以便以简化的形式来引入下面的具体实施方式中进一步描述的概念的选择。该发明内容不旨在排他地确定所要求保护的主题的关键特征或主要特征,也不旨在作为确定所要求保护的主题的范围的辅助。
实施例涉及从系统故障中恢复基于云的服务的易用性(usability)。在一些示例的实施例中,基于云的服务的管理应用可以模拟与客户体验相关联的客户交易。客户体验可以包括形成了与基于云的服务相关联的用户方案的一个或多个客户交易。可以从所模拟的客户交易的输出中检测与基于云的服务相关联的故障。可以分析故障以通过将故障映射到恢复动作来确定恢复动作。恢复动作可被执行和监测以确定成功状况。
这些和其它的特征和优点将从对以下详细说明的理解和相关联的附图的阅览中显而易见。应当理解,前面的概述和下面的详述都是说明性的,不限制所要求保护的方面。
附图说明
图1是示出了根据实施例基于客户体验进行基于云的服务的示例性恢复的概念图;
图2示出了根据实施例基于客户体验来恢复基于云的服务的方案的组件;
图3示出了根据实施例基于客户体验来恢复基于云的服务的方案的附加组件;
图4示出了根据实施例基于客户体验来恢复基于云的服务的方案的报告特征;
图5是可以实现根据实施例的系统的简化的网络环境;
图6示出可被配置为从系统故障中恢复基于云的服务的易用性的通用计算设备;以及
图7示出了根据实施例从系统故障中恢复基于云的服务的易用性的过程的逻辑流程图。
具体实施方式
如上文简要说明的,通过与基于云的服务相关联的管理应用,可以从系统故障中恢复基于云的服务的易用性。可以模拟与客户体验相关联的客户交易以模拟客户体验。可以从客户交易的输出中检测与基于云的服务相关联的故障。可以确定恢复动作与故障相关联。恢复动作可被执行和监测以确定成功状况。
在下面的详述中,参考了附图,附图构成说明的部分,并且通过示例说明的方式示出了具体的实施例或示例。这些方面可以组合,可以使用其它方面,可以作出结构改变,而不偏离本公开的精神或范围。因此,下面的详述不应从限制的意义上考量,本发明的范围由随附的权利要求及其等同内容来限定。
虽然与在计算设备上的操作系统上运行的应用程序相结合地执行的程序模块的总的背景下描述实施例,但是本领域技术人员将理解各个方面可以与其它程序模块相结合地实现。
一般地,程序模块包括例程、程序、组件、数据结构以及执行特定任务或实现特定抽象数据类型的其它类型的结构。而且,本领域技术人员将意识到,实施例可以通过包括手持式设备、微处理器系统、基于微处理器或可编程的消费电子设备、微型计算机、主机型计算机和类似的计算设备在内的其它计算机系统配置来实践。实施例还可以在通过通信网络链接的远程处理设备来执行任务的分布式计算环境中来实践。在分布式计算环境中,程序模块可以位于本地存储器存储设备或远程存储器存储设备中。
实施例可以实现为计算机实现的过程(方法)、计算系统,或者实现为制造品,诸如计算机程序产品或计算机可读介质。计算机程序产品可以是能够由计算机系统读取且对包含用于使计算机或计算系统执行示例过程的指令的计算机程序进行编码的计算机存储介质。计算机可读存储介质是计算机可读存储器设备。计算机可读存储介质可以例如经由易失性计算机存储器、非易失性存储器、硬盘驱动器或闪速驱动器中的一种或多种来实现。
在该说明书全篇中,术语“平台”可以是从系统故障恢复基于云的服务的易用性的软件组件和硬件组件的组合。平台的示例包括但不限于在多个服务器上执行的托管的服务、在单个计算设备上执行的应用以及类似的系统。术语“服务器”一般是指通常在网络环境中执行一个或多个软件程序的计算设备。然而,服务器还可以实现为在被视作网络上的服务器的一个或多个计算设备上执行的虚拟服务器(软件程序)。关于这些技术的更多细节和示例性的实施例可见于下面的说明中。
图1是示出根据实施例的基于客户体验来恢复基于云的服务的示例的概念图。
在示意图100中,基于云的服务106可以通过客户端设备102向客户 108提供服务。基于云的服务106可以通过客户端设备102处的客户端接口来提供各种各样的服务。服务可以包括文档共享、电子邮件服务、存储服务以及其它服务。另外,客户108(被授权与客户端设备102交互)可以是包括一个人、多个人、一群人、组织以及其它在内的实体。
基于云的服务106可以是通过执行分布式应用的一个或多个组件的一个或多个计算设备提供服务的分布式应用。一个或多个计算设备可以通过使用有线或无线基础结构的一个或多个网络来连接。基于云的服务106的示例可以包括电子邮件服务。电子邮件服务可以托管在多个计算设备上。电子邮件服务可以基于每个计算设备的可用的处理容量而在计算设备之间划分。在另一示例的方案中,基于云的服务106可以包括文档共享服务。文档共享服务可以基于每个计算设备的可用的存储容量而将所存储的文档分布在多个计算设备之间。基于云的服务106的示例如电子邮件服务和文档共享服务不是在限制的意义上来提供的。基于云的服务106可以包括向诸如客户108的一个或多个客户提供服务的任意分布式计算解决方案。
可以使客户108能够通过客户端设备102与基于云的服务106来交互。客户端设备102可以包括诸如台式计算机、智能手机、笔记本计算机、平板式计算机以及其它的多种计算设备。客户108可以通过客户端设备102 所提供的基于云的服务106的客户端接口来与基于云的服务106交互。可替代地,基于云的服务106可以提供客户端接口,并且客户端设备102可以将客户端接口呈现在客户端应用内。客户108可以通过包括基于触摸的动作110、基于键盘的输入、基于鼠标的输入以及其它的多种输入模态与客户端接口交互。基于触摸的动作110可以包括例如触摸动作、划动动作以及其它的多种手势。
客户108与基于云的服务106的客户端接口的一个或多个交互可以包含在客户体验104内。客户体验104可以是用于一个或多个客户任务的容器。客户体验104的示例可以包括客户108开始电子邮件服务的客户端接口且读取与客户108的用户账户相关联的一个或多个电子邮件。客户体验 104的另一示例可以包括客户108开始文档共享服务的编辑客户端接口以编辑文档。客户体验104还可以包括客户108编辑文档且保存文档。
虽然已经利用包括基于云的服务106和客户体验104的具体的组件描述了图1的示例的系统,但是实施例不限于这些组件或系统配置,可以利用采用更少或附加组件的其它系统配置来实现。
图2示出了根据实施例的基于客户体验来恢复基于云的服务的方案的组件。
在示意图200中,可以描述基于客户体验204来恢复基于云的服务206 的方案。管理应用210可以模拟客户交易202以确定与基于云的服务206 的子系统208相关联的故障212。
管理应用210可以包括监测并管理基于云的服务206的应用。管理应用210可以是基于云的服务206的组件。可替代地,管理应用210可以是可经授权而与基于云的服务206交互的独立应用。
管理应用210可以从与基于云的服务206的健康监测相关联的一组客户体验中选择客户体验。基于云的服务206的健康监测可以包括用于基于云的服务206所提供的继续操作的过程(例如被破坏的功能的监测和归结 (resolution))。另外,客户体验204可以基于包括客户体验204的使用频率、历史使用分布和使用的近期性的标准来选择。在示例的方案中,管理应用210可以从基于使用频率排序的一组客户体验中选择最频繁使用的客户体验204。在另一示例的方案中,管理应用210可以选择位于一组客户体验的历史使用分布顶部的客户体验204。在又一示例的方案中,管理应用 210可以从基于使用的近期性排序的一组客户体验中选择最近期使用的客户体验204。
可替代地,管理应用210可以接收从与基于云的服务206的健康监测相关联的一组客户体验中对客户体验204的选择。该选择可以由利益相关者做出,利益相关者包括与客户体验204相关联的客户或基于云的服务206 的管理员。
此外,客户体验204可以存储客户交易202。客户交易202可以包括可由基于云的服务206通过子系统208执行的一个或多个命令。子系统208 可以在客户交易202的模拟期间生成输出。该输出可用于确定与客户交易 202相关联的故障。
管理应用210还可以确定客户体验204可以存储一个或多个其它客户交易以及客户交易202。还可以模拟一个或多个其它客户交易以检测与基于云的服务206相关联的故障212或一个或多个其它故障。示例可以包括模拟电子邮件服务中的客户体验204,作为基于云的服务206的示例。客户交易202可以包括电子邮件接口开始动作。一个或多个其它客户交易可以包括与客户体验204相关联的电子邮件的取回和电子邮件的呈现。
基于云的服务206的子系统208可以模拟客户交易202。可以在客户交易202的模拟期间检测故障212。子系统208可以通过客户交易202的输出来报告故障212。
可替代地,还可以从使用数据来外推故障212。使用数据还可以称为被动数据。使用数据可以包括基于云的服务206的用户方案的一个或多个客户交易的度量。度量可以捕获与基于云的服务206的使用方案相关联的错误。与基于云的服务206相关联的客户端设备可以捕获使用数据并且将使用数据发送到诸如管理应用210的分析应用。管理应用210可以处理使用数据以基于使用数据所报告的超过阈值的错误数量来检测故障212。该阈值可由基于云的服务206的利益相关者来配置。还可以从使用数据中移除隐私数据以使使用数据匿名化。隐私数据的示例可以包括客户的位置以及其它。还可以基于与基于云的服务206相关联的故障中的一个或多个子系统的标识信息以及其它的共同标准来聚合使用数据。
使用数据可以由客户端设备捕获到日志文件中且发送到管理应用210。管理应用210可以解析日志文件以提取与故障212相关联的信息。管理应用210还可以从诸如基于云的服务206的设备的其它源来取回使用数据。基于云的服务206可以分配资源以捕获与客户相关联的使用方案的度量。度量可以被存储为使用数据且可供诸如管理应用210的分析应用来使用以监测和分析故障212。
图3示出了根据实施例的基于客户体验来恢复基于云的服务的方案的附加组件。
在示意图300中,管理应用310可以根据在基于云的服务306上所模拟的客户交易的输出314来确定故障312。还可以基于诸如与基于云的服务 306相关联的故障的一个或多个子系统的标识信息以及其它的共同标准来聚合输出314。故障312可以映射到恢复动作316,可以在与故障312相关联的子系统308上执行恢复动作316。可以监测恢复动作316以确定恢复动作316的成功状况318。
管理应用310可以在子系统308上执行恢复动作316以将子系统308 恢复成健康状态。可替代地,恢复动作316可被执行以将与子系统308(或故障的子系统)相关联的一个或多个过程更改路线到提供故障转移功能的健康子系统。
根据一些示例,可以在监测恢复动作316的同时跟踪与客户体验相关联的一个或多个指标。一个或多个指标可以包括与在基于云的服务306的一个或多个子系统上模拟的一个或多个客户交易相关联的度量。可以在恢复动作316期间监测指标以确定一个或多个指标在与成功状况318相关联的一个或多个阈值以上。
可以根据与可以模拟客户体验的子系统308相关联的指标来生成可用性数量(availability number)。指标可根据输出314来确定。可以响应于可用性数量小于阈值的另一判定来确定故障312。阈值可以是由基于云的服务 306的管理员能配置的。
管理应用310还可以响应于成功状况318是否定的判定而确定与故障 312相关联的另一恢复动作。当恢复动作316未能将子系统308恢复到健康状态时,则管理应用310可以从匹配故障312的恢复动作列表中取回另一恢复动作且执行该另一恢复动作。还可以监测该另一恢复动作以确定将子系统308恢复成健康状态的成功状况318。恢复动作316可以是第一恢复动作。另一恢复动作可以是第二恢复动作。
根据其它示例,管理应用310可以分析输出314以确定一个或多个标准。该标准可以包括与基于云的服务306相关联的故障的一个或多个子系统的标识信息、故障的一个或多个子系统的数量、与故障的一个或多个子系统相关联的模式,以及其它。该标准可以包含在故障312中。该故障312 可以基于标准而映射到恢复动作316。
图4示出了根据实施例的基于客户体验来恢复基于云的服务的方案的报告特征。
在示意图400中,管理应用410可以基于在基于云的服务处的客户体验的模拟来生成报告420以确定基于云的服务处的一个或多个故障。报告 420可以包括与故障412相关联的信息、恢复动作416或成功状况418。报告420可以格式化以匹配利益相关者422所要求的报告格式。
利益相关者422可以包括与客户体验相关联的客户。利益相关者422 还可以包括基于云的系统的管理员。可以基于计划表来发送报告420。可替代地,可以基于用户体验的模拟的结论和故障412的归结来动态地发送报告420。
从系统故障恢复基于云的服务的易用性的技术效果可以包括:当检测到服务的一个或多个子系统的故障状态时,基于云的服务的恢复的增强。
图2和图4中的示例的方案和概要是利用特定的组件、数据类型和配置来示出的。实施例不限于根据这些示例的配置的系统。从系统故障恢复基于云的服务的易用性可以实现于在应用和用户接口中采用更少或附加组件的配置中。此外,图2和图4所示的示例的概要和组件及其子组件可以使用本文所描述的原理以与其它值类似的方式来实现。
图5是示例的网络环境,其中可以实现实施例。被配置成提供基于云的服务的基于客户的恢复的管理应用可以经由在诸如托管的服务的一个或多个服务器514上执行的软件来实现。平台可以通过网络510与诸如智能电话513、膝上型计算机512、或桌面式计算机511的个体计算设备(“客户端设备”)上的客户端应用通信。
在客户端设备511-513中的任一个客户端设备上执行的客户端应用可以促进经由服务器514执行的应用来通信,或者经由在个体服务器516上的应用通信。管理应用可以模拟客户体验以确定在基于云的服务处的一个或多个故障。故障可以映射到恢复动作,该恢复动作可以被执行和监测以确定恢复动作的成功状况。管理应用可以直接地或者通过数据库服务器518 将与故障和恢复动作相关联的数据存储在数据库519中。
网络510可以包括服务器、客户端、因特网服务提供商、和通信介质的任意拓扑。根据实施例的系统可以具有静态或动态拓扑。网络510可以包括安全网络,诸如企业网,不安全网络,诸如无线开放式网络,或者因特网。网络510还可以在诸如公共开关电话网(PSTN)或蜂窝网络的其它网络上协调通信。此外,网络510可以包括短程无线网,诸如蓝牙或类似网络。网络510提供本文所描述的节点之间的通信。通过示例的方式而不是限制的方式,网络510可以包括诸如声波、RF、红外和其它无线介质的无线介质。
可以采用计算设备、应用、数据源和数据分布系统的许多其它配置来从系统故障恢复基于云的服务的易用性。此外,在图5中论述的网络环境仅为了示例的目的。实施例不限于示例的应用、模块或过程。
图6示出了依照本文所描述的至少一些实施例布置的可被配置为从系统故障中恢复基于云的服务的易用性的通用计算设备。
例如,计算设备600可用于从系统故障恢复基于云的服务的易用性。在基本配置602的示例中,计算设备600可以包括一个或多个处理器604 和系统存储器606。存储器总线608可用于处理器604与系统存储器606之间的通信。可以通过内虚线内的那些组件在图6中示出基本配置602。
取决于期望的配置,处理器604可以是任意类型,包括但不限于,微处理器(μP)、微控制器(μC)、数字信号处理器(DSP)或其任意组合。处理器604可以包括一级或多级高速缓存,例如一级高速缓冲存储器612、处理器核614和寄存器616。处理器核614可以包括算术逻辑单元(ALU)、浮点单元(FPU)、数字信号处理核(DSP Core)或其任意组合。存储器控制器618还可以与处理器604一起使用,或者在一些实现方式中,存储器控制器618可以是处理器604的内部部件。
取决于期望的配置,系统存储器606可以是任意类型,包括但不限于易失性存储器(例如,RAM)、非易失性存储器(例如,ROM、闪存等) 或其任意组合。系统存储器606可以包括操作系统620、管理应用622和程序数据624。管理应用622可以模拟客户体验以确定在基于云的服务处的一个或多个故障。管理应用622可以将故障映射到恢复动作且执行恢复动作以恢复与故障相关联的子系统。程序数据624可以包括模拟数据628或类似数据以及其它数据,如本文所描述的。模拟数据628可以包括与故障和恢复动作相关联的信息。
计算设备600可以具有额外的特征或功能,以及利于基本配置602与任何期望的设备和接口之间的通信的额外的接口。例如,总线/接口控制器 630可以用于促进基本配置602与一个或多个数据存储设备632之间经由存储接口总线634的通信。数据存储设备632可以是一个或多个可移除存储设备636、一个或多个非可移除存储设备638或其组合。可移除存储和非可移除存储设备的示例可以包括磁盘设备,诸如软盘驱动器和硬盘驱动器(HDD)、诸如压缩盘(CD)驱动器或数字多功能盘(DVD)驱动器的光盘驱动器、固态驱动器(SSD)和磁带驱动器,仅列举了几个。示例的计算机存储介质可以包括以用于诸如计算机可读指令、数据结构、程序模块或其它数据的信息的存储的任意方法或技术来实现的易失性和非易失性的、可移除的和非可移除的介质。
系统存储器606、可移除存储设备636和非移除存储设备628可以是计算机存储介质的示例。计算机存储介质可以包括但不限于RAM、ROM、 EEPROM、闪速存储器或其它存储器技术、CD-ROM、数字多功能盘(DVD)、固态驱动器或其它光学存储、磁盒、磁带、磁盘存储或其它磁存储设备、或者可用于存储期望的信息且可由计算设备600访问的任何其它介质。任何这样的计算机存储介质可以是计算设备600的部分。
计算设备600还可以包括用于促进经由总线/接口控制器630从各种接口设备(例如,一个或多个输出设备642、一个或多个外围设备接口644和一个或多个通信设备666)到基本配置602的通信的接口总线640。一些示例的输出设备642可以包括图形处理单元648和音频处理单元650,它们可被配置为经由一个或多个A/V端口652与诸如显示器或扬声器的各种外部设备通信。一个或多个示例的外围设备接口644可以包括串行接口控制器 654或并行接口控制器656,它们可被配置为经由一个或多个I/O端口658 与诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备等)的外部设备或其它外围设备(例如,打印机、扫描仪等)通信。示例的通信设备666可以包括网络控制器660,网络控制器可被布置成促进经由一个或多个通信端口664在网络通信链路上与一个或多个其它计算设备662 通信。一个或多个其它计算设备662可以包括服务器、客户端装备和类似设备。
网络通信链路可以是通信介质的一个示例。通信介质可以通过计算机可读指令、数据结构、程序模块或调制数据信号中的其它数据如载波或其它传输机制来实施,并且可以包括任何信息输送介质。“调制数据信号”可以是使其调制数据信号特性中的一个或多个以将信息编码到信号中的这样的方式来设定或改变的信号。通过示例而非限制的方式,通信介质可以包括诸如有线网或直接接线连接的有线介质,以及诸如声波、射频(RF)、微波、红外(IR)和其它无线介质的无线介质。本文所使用的术语计算机可读介质可以包括存储介质和通信介质。
计算设备600可以实现为包含上述任意功能的通用的或专用的服务器、主机或类似的计算机的部分。计算设备600还可以实现为既包含膝上型计算机又包含非膝上型计算机配置的个人计算机。
示例的实施例还可以包括从系统故障恢复基于云的服务的易用性。这些方法可以任意多种方式来实现,包括本文所述的结构。一种这样的方式可以是通过机器操作,使用在本公开中所描述的类型的设备。另一可选的方式可以是,与一个或多个人类操作者执行一些操作而其它操作可由机器执行相结合地执行方法的各个操作中的一个或多个操作。这些人类操作者无需彼此位于相同的位置,而是各自可以具有执行程序的一部分的机器。在其它示例中,可以例如通过可机器自动化的预选的标准来使得人类交互自动化。
图7示出了根据实施例的从系统故障恢复基于云的服务的易用性的过程的逻辑流程图。过程700可以实现在基于云的服务的管理应用上。
过程700开始于操作710,其中可以模拟与客户体验相关联的客户交易。客户交易可以包括模拟基于云的服务处的客户体验的一个或多个命令。在操作720处,可以从客户交易的输出中检测与基于云的服务相关联的故障。可以在操作730处确定与故障相关联的恢复动作。基于恢复动作列表处的匹配,可以将故障映射到恢复动作。接着,可以在操作740处执行恢复动作。在操作750处,可监测恢复动作以确定与恢复动作相关联的成功状况。
在过程700中所包含的操作仅是为了说明的目的。根据实施例的管理应用可利用本文所述的原理由具有更少的或附加的步骤的类似过程来实现,以及按不同的操作顺序来实现。
根据一些示例,描述了从故障中恢复基于云的服务的易用性的、执行于计算设备上的方法。该方法可以包括:模拟与客户体验相关联的客户交易,从客户交易的输出中检测与基于云的服务相关联的故障,确定与故障相关联的恢复动作,执行该恢复动作,以及监测该恢复动作以确定与恢复动作相关联的成功状况。
根据其它的示例,可以从与基于云的服务的健康监测相关联的一组客户体验中选出客户体验,其中客户体验是基于包含来自如下一组中的至少一个的标准来选出的:使用频率、历史使用分布和使用近期性。可以接收到来自与基于云的服务的健康监测相关联的一组客户体验的客户体验的选择,其中该选择可以由利益相关者做出,利益相关者包括来自与客户体验相关联的一组客户的一个客户以及基于云的服务的管理员。可以确定客户体验以将客户交易连同一个或多个其它客户交易一起存储。一个或多个其它客户交易可被模拟以检测与基于云的服务相关联的故障或一个或多个其它故障。
根据另外的示例,该方法还可以包括:将故障映射到与基于云的服务相关联的子系统,以及在子系统上执行恢复动作以将子系统恢复成健康状态。该方法还可以包括将故障映射到与基于云的服务相关联的故障的子系统,以及执行恢复动作以将与故障的子系统相关联一个或多个过程变更路线到提供故障转移功能的健康的子系统。可以在监测恢复动作的同时跟踪与客户体验相关联的一个或多个指标以确定一个或多个指标在与成功状况相关联的一个或多个阈值以上。故障可匹配到来自恢复动作列表的恢复动作。
根据其它的示例,该方法还可以包括:响应于成功状况为否定的判定,确定与该故障相关联的另一恢复动作且执行该另一恢复动作。可以监测该另一恢复动作以确定与另一恢复动作相关联的成功状况。通过分析输出以将与基于云的服务相关联的一个或多个故障的子系统区分开,可由输出生成故障。
根据一些示例,可以描述将基于云的服务的易用性从故障中恢复的计算设备。该计算设备可以包括存储器、与存储器耦合的处理器。该处理器可以被配置为与存储在存储器内的指令相结合地执行管理应用。该管理应用可被配置为模拟与客户体验相关联的客户交易,其中客户体验存储客户交易,从客户交易的输出中检测与基于云的服务相关联的故障,确定与故障相关联的恢复动作,执行该恢复动作,以及监测恢复动作以确定与恢复动作相关联的成功状况。
根据其它的示例,管理应用被进一步配置为生成包含与故障相关联的信息的报告且将报告发送给与基于云的系统相关联的利益相关者,其中该利益相关者包括与客户体验相关联的客户和基于云的系统的管理员。管理应用被进一步配置为生成包括与恢复动作和成功状况相关联的信息的报告且将报告发送给与基于云的系统相关联的利益相关者,其中利益相关者包括与客户体验相关联的客户和基于云的系统的管理员。
根据一些示例,管理应用被进一步配置成分析输出以确定包括来自如下一组中的至少一个的一个或多个标准:与基于云的服务相关联的故障的一个或多个子系统、故障的一个或多个子系统的数量以及与故障的一个或多个子系统相关联的模式。一个或多个标准可以包含在故障中,并且故障可以基于该标准而映射到恢复动作。可以根据输出内的与基于云的服务的一个或多个子系统相关联的指标来生成可用性数量。可响应于可用性数量小于阈值的判定而确定该故障,其中该阈值是由基于云的服务的管理员能配置的。
根据一些示例,可以描述其中存储有将基于云的服务的易用性从故障中恢复的指令的计算机可读存储器设备。该指令可以包括类似于上述方法的动作。
上面的说明书、示例和数据提供了对实施例的构成物的制造和使用的完整描述。虽然以特定于结构特征和/或方法行为的语言描述了主题,但是应当理解在随附权利要求中限定的主题不必局限于上述的特定特征或行为。相反,上述的特定的特征或行为被公开为实现权利要求和实施例的示例形式。

Claims (14)

1.一种在计算设备上执行的将基于云的服务的易用性从故障中恢复的方法,所述方法包括:
模拟与客户体验相关联的客户交易;
从所述客户交易的输出中检测与所述基于云的服务相关联的故障;
确定与所述故障相关联的恢复动作;
执行所述恢复动作;
监测所述恢复动作以确定与所述恢复动作相关联的成功状况;以及
从与所述基于云的服务的健康监测相关联的一组客户体验中选择所述客户体验,其中,所述客户体验是基于包括来自如下一组中的至少一个的标准来选择的:使用频率、历史使用分布、和使用近期性。
2.如权利要求1所述的方法,还包括:
接收从与所述基于云的服务的健康监测相关联的一组客户体验中对所述客户体验的选择,其中,所述选择是由利益相关者做出的,所述利益相关者包括来自与所述客户体验相关联的一组客户的一个客户和所述基于云的服务的管理员。
3.如权利要求1所述的方法,还包括:
确定存储有所述客户交易以及一个或多个其它客户交易的所述客户体验;以及
模拟所述一个或多个其它客户交易以检测所述故障或与所述基于云的服务相关联的一个或多个其它故障。
4.如权利要求1所述的方法,还包括:
将所述故障映射到与所述基于云的服务相关联的子系统;以及
在所述子系统上执行所述恢复动作以将所述子系统恢复成健康状态。
5.如权利要求1所述的方法,还包括:
将所述故障映射到与所述基于云的服务相关联的故障的子系统;以及
执行所述恢复动作以将与所述故障的子系统相关联的一个或多个过程变更路线到提供故障转移功能的健康子系统。
6.如权利要求1所述的方法,还包括:
在监测所述恢复动作的同时跟踪与所述客户体验相关联的一个或多个指标以确定所述一个或多个指标在与所述成功状况相关联的一个或多个阈值以上。
7.如权利要求1所述的方法,还包括:
将所述故障匹配到来自恢复动作列表的所述恢复动作。
8.如权利要求1所述的方法,还包括:
响应于所述成功状况是否定的判定,确定与所述故障相关联的另一恢复动作;
执行所述另一恢复动作;以及
监测所述另一恢复动作以确定与所述另一恢复动作相关联的成功状况。
9.如权利要求1所述的方法,还包括:
通过分析所述输出以将与所述基于云的服务相关联的一个或多个故障的子系统区分开,来从所述输出生成所述故障。
10.一种将基于云的服务的易用性从故障中恢复的计算设备,所述计算设备包括:
存储器;
与所述存储器耦合的处理器,所述处理器与存储在所述存储器中的指令相结合地执行管理应用,其中所述管理应用被配置为:
模拟与客户体验相关联的客户交易,其中所述客户体验存储所述客户交易;
从所述客户交易的输出中检测与所述基于云的服务相关联的故障;
确定与所述故障相关联的恢复动作;
执行所述恢复动作;
监测所述恢复动作以确定与所述恢复动作相关联的成功状况;以及
从与所述基于云的服务的健康监测相关联的一组客户体验中选择所述客户体验,其中,所述客户体验是基于包括来自如下一组中的至少一个的标准来选择的:使用频率、历史使用分布、和使用近期性。
11.如权利要求10所述的计算设备,其中所述管理应用被进一步配置为:
生成包括与所述故障相关联的信息的报告;以及
将所述报告发送到与基于云的服务相关联的利益相关者,其中所述利益相关者包括与所述客户体验相关联的客户和所述基于云的服务的管理员。
12.如权利要求10所述的计算设备,其中所述管理应用被进一步配置为:
分析所述输出以确定包括来自如下一组中的至少一个的一个或多个标准:与所述基于云的服务相关联的故障的一个或多个子系统的标识信息、所述故障的一个或多个子系统的数量、以及与所述故障的一个或多个子系统相关联的模式;
将所述一个或多个标准包含在所述故障中;以及
基于所述标准将所述故障映射到所述恢复动作。
13.如权利要求10所述的计算设备,其中所述管理应用被进一步配置为:
根据在所述输出内与所述基于云的服务的一个或多个子系统相关联的指标来生成可用性数量;
响应于所述可用性数量小于阈值的判定而确定所述故障,其中所述阈值是能够由所述基于云的服务的管理员配置的。
14.一种计算机可读存储器设备,其中存储有将基于云的服务的易用性从故障中恢复的指令,所述指令包括:
模拟与客户体验相关联的客户交易,其中所述客户体验存储所述客户交易;
从所述客户交易的输出中检测与所述基于云的服务相关联的故障;
确定与所述故障相关联的恢复动作;
执行所述恢复动作;
监测所述恢复动作以确定与所述恢复动作相关联的成功状况;
生成包括与所述故障相关联的信息、所述恢复动作、和所述成功状况的报告;
将所述报告发送到与基于云的服务相关联的利益相关者,其中所述利益相关者包括与所述客户体验相关联的客户和所述基于云的服务的管理员以及
在监测所述恢复动作的同时跟踪与所述客户体验相关联的一个或多个指标以确定所述一个或多个指标在与所述成功状况相关联的一个或多个阈值以上。
CN201580042050.9A 2014-08-04 2015-08-04 从系统故障恢复基于云的服务的易用性的方法及装置 Active CN106663041B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/451,369 US9436553B2 (en) 2014-08-04 2014-08-04 Recovering usability of cloud based service from system failure
US14/451,369 2014-08-04
PCT/US2015/043514 WO2016022506A2 (en) 2014-08-04 2015-08-04 Recovering usability of cloud based service from system failure

Publications (2)

Publication Number Publication Date
CN106663041A CN106663041A (zh) 2017-05-10
CN106663041B true CN106663041B (zh) 2020-01-10

Family

ID=53879798

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201580042050.9A Active CN106663041B (zh) 2014-08-04 2015-08-04 从系统故障恢复基于云的服务的易用性的方法及装置

Country Status (19)

Country Link
US (1) US9436553B2 (zh)
EP (1) EP3178004B1 (zh)
JP (1) JP6581648B2 (zh)
KR (1) KR102271007B1 (zh)
CN (1) CN106663041B (zh)
AU (1) AU2015301284B2 (zh)
BR (1) BR112017001171B1 (zh)
CA (1) CA2955216C (zh)
CL (1) CL2017000264A1 (zh)
CO (1) CO2017000695A2 (zh)
IL (1) IL249855B (zh)
MX (1) MX2017001515A (zh)
MY (1) MY185933A (zh)
NZ (1) NZ728138A (zh)
PH (1) PH12017500024B1 (zh)
RU (1) RU2699054C2 (zh)
SG (1) SG11201700531SA (zh)
WO (1) WO2016022506A2 (zh)
ZA (1) ZA201700255B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9697545B1 (en) * 2014-03-11 2017-07-04 Vmware, Inc. Service monitor for monitoring and tracking the performance of an application running on different mobile devices
US10048994B2 (en) * 2014-10-20 2018-08-14 Teachers Insurance And Annuity Association Of America Identifying failed customer experience in distributed computer systems
KR102549605B1 (ko) * 2016-03-04 2023-06-30 삼성전자주식회사 Raid 스토리지 장치의 리커버리 방법
US10061652B2 (en) 2016-07-26 2018-08-28 Microsoft Technology Licensing, Llc Fault recovery management in a cloud computing environment
US10616378B2 (en) * 2017-02-21 2020-04-07 Netscout Systems, Inc. Adaptive session intelligence extender
EP3699766A1 (en) * 2019-02-25 2020-08-26 Zcaler, Inc. Systems and methods for monitoring, analyzing, and improving digital user experience
CN111245648A (zh) * 2020-01-06 2020-06-05 华云数据(厦门)网络有限公司 一种云手机故障告警与自动恢复的方法
US11409618B2 (en) 2020-09-14 2022-08-09 International Business Machines Corporation Transaction recovery

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102710757A (zh) * 2012-05-21 2012-10-03 北京航空航天大学 一种分布式云存储数据完整性保护方法
CN102859510A (zh) * 2010-04-21 2013-01-02 微软公司 复杂分布式应用程序中的自动化恢复和升级
US8661125B2 (en) * 2011-09-29 2014-02-25 Microsoft Corporation System comprising probe runner, monitor, and responder with associated databases for multi-level monitoring of a cloud service

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6487677B1 (en) * 1999-09-30 2002-11-26 Lsi Logic Corporation Methods and systems for dynamic selection of error recovery procedures in a managed device
US20020138226A1 (en) * 2001-03-26 2002-09-26 Donald Doane Software load tester
US7774402B2 (en) * 2005-06-29 2010-08-10 Visa U.S.A. Adaptive gateway for switching transactions and data on unreliable networks using context-based rules
JP2007072545A (ja) * 2005-09-05 2007-03-22 Nomura Research Institute Ltd 監視装置及び監視方法
US8326971B2 (en) * 2007-11-30 2012-12-04 International Business Machines Corporation Method for using dynamically scheduled synthetic transactions to monitor performance and availability of E-business systems
US7996723B2 (en) * 2009-12-22 2011-08-09 Xerox Corporation Continuous, automated discovery of bugs in released software
US8688642B2 (en) * 2010-02-26 2014-04-01 Symantec Corporation Systems and methods for managing application availability
US20120124193A1 (en) * 2010-11-12 2012-05-17 International Business Machines Corporation Identification of Critical Web Services and their Dynamic Optimal Relocation
JP5678717B2 (ja) * 2011-02-24 2015-03-04 富士通株式会社 監視装置、監視システムおよび監視方法
US8719627B2 (en) 2011-05-20 2014-05-06 Microsoft Corporation Cross-cloud computing for capacity management and disaster recovery
US8418000B1 (en) 2012-03-13 2013-04-09 True Metrics LLC System and methods for automated testing of functionally complex systems
US9015289B2 (en) * 2012-04-12 2015-04-21 Netflix, Inc. Method and system for evaluating the resiliency of a distributed computing service by inducing a latency
US8839042B2 (en) * 2012-08-31 2014-09-16 Ca, Inc. Dynamic load calculation and predictive scaling
US9811447B2 (en) * 2013-06-20 2017-11-07 Entit Software Llc Generating a fingerprint representing a response of an application to a simulation of a fault of an external service
US8910294B1 (en) * 2013-12-18 2014-12-09 State Farm Mutual Automobile Insurance Company System and method for application failure testing in a cloud computing environment

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102859510A (zh) * 2010-04-21 2013-01-02 微软公司 复杂分布式应用程序中的自动化恢复和升级
US8661125B2 (en) * 2011-09-29 2014-02-25 Microsoft Corporation System comprising probe runner, monitor, and responder with associated databases for multi-level monitoring of a cloud service
CN102710757A (zh) * 2012-05-21 2012-10-03 北京航空航天大学 一种分布式云存储数据完整性保护方法

Also Published As

Publication number Publication date
CA2955216A1 (en) 2016-02-11
EP3178004A2 (en) 2017-06-14
MY185933A (en) 2021-06-14
CA2955216C (en) 2023-08-22
EP3178004B1 (en) 2018-05-16
IL249855A0 (en) 2017-03-30
MX2017001515A (es) 2017-05-09
RU2017103444A (ru) 2018-08-02
KR20170041715A (ko) 2017-04-17
NZ728138A (en) 2022-04-29
JP6581648B2 (ja) 2019-09-25
KR102271007B1 (ko) 2021-06-29
BR112017001171B1 (pt) 2023-04-11
AU2015301284B2 (en) 2020-07-16
SG11201700531SA (en) 2017-02-27
IL249855B (en) 2020-03-31
US9436553B2 (en) 2016-09-06
US20160034355A1 (en) 2016-02-04
PH12017500024A1 (en) 2017-05-15
WO2016022506A2 (en) 2016-02-11
RU2699054C2 (ru) 2019-09-03
ZA201700255B (en) 2019-05-29
WO2016022506A3 (en) 2016-03-31
AU2015301284A1 (en) 2017-02-09
CO2017000695A2 (es) 2017-02-09
PH12017500024B1 (en) 2017-05-15
JP2017528807A (ja) 2017-09-28
RU2017103444A3 (zh) 2019-02-21
CL2017000264A1 (es) 2017-09-08
BR112017001171A2 (pt) 2017-11-14
CN106663041A (zh) 2017-05-10

Similar Documents

Publication Publication Date Title
CN106663041B (zh) 从系统故障恢复基于云的服务的易用性的方法及装置
KR102301946B1 (ko) 분산 시스템에서 결함을 분석하기 위한 비주얼 툴
US9590880B2 (en) Dynamic collection analysis and reporting of telemetry data
US9378079B2 (en) Detection of anomalies in error signals of cloud based service
US10462027B2 (en) Cloud network stability
US20200092180A1 (en) Methods and systems for microservices observability automation
US10476768B2 (en) Diagnostic and recovery signals for disconnected applications in hosted service environment
US9444708B2 (en) Detection of outage in cloud based service using synthetic measurements and anonymized usage data
US10073726B2 (en) Detection of outage in cloud based service using usage data based error signals
US9692665B2 (en) Failure analysis in cloud based service using synthetic measurements
WO2023138923A1 (en) Failure prediction using informational logs and golden signals
US9952773B2 (en) Determining a cause for low disk space with respect to a logical disk
US20230273908A1 (en) Automated mainframe database maintenance

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1236638

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant