CN102859510A - 复杂分布式应用程序中的自动化恢复和升级 - Google Patents

复杂分布式应用程序中的自动化恢复和升级 Download PDF

Info

Publication number
CN102859510A
CN102859510A CN2011800196859A CN201180019685A CN102859510A CN 102859510 A CN102859510 A CN 102859510A CN 2011800196859 A CN2011800196859 A CN 2011800196859A CN 201180019685 A CN201180019685 A CN 201180019685A CN 102859510 A CN102859510 A CN 102859510A
Authority
CN
China
Prior art keywords
warning
action
engine
robotization
mapped
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800196859A
Other languages
English (en)
Other versions
CN102859510B (zh
Inventor
J·阿夫纳
S·布拉迪
严永文
志田治哉
S·亚济乔鲁
A·卢基扬诺夫
B·阿林尔
C·纳什
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN102859510A publication Critical patent/CN102859510A/zh
Application granted granted Critical
Publication of CN102859510B publication Critical patent/CN102859510B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery

Abstract

复杂分布式应用程序环境中基于检测到的硬件和/或软件问题的警告被映射到恢复动作以自动地解决问题。未被映射的警告通过循环升级方法被升级给指定个体或团队,该方法包括来自指定个体或团队的确认交接通知。升级过程中为每个警告收集的信息和方案可被记录以扩展自动化解决知识库。

Description

复杂分布式应用程序中的自动化恢复和升级
背景技术
在今天的联网通信环境中,很多过去由本地执行的应用程序所提供的服务现在通过分布式服务来提供。例如,电子邮件服务、日历/日程安排服务和类似服务是通过复杂的联网系统提供的,其中联网系统涉及多个物理的和虚拟的服务器、存储设施和其它跨越地理边界的组件。即使诸如企业网络等组织系统也可能通过物理上分开的服务器场实现,等等。
尽管分布式服务使得更易于管理应用程序的安装、更新和维护(例如,代替安装、更新和维护成百的——假如不是成千的话——本地应用程序,中央管理的服务可以照看这些任务),此类服务仍涉及在多个服务器上执行的多个应用程序。在连续地管理此类大规模分布式应用程序时,可预期各种问题。硬件故障、软件问题和其他预料外的失灵可能会定期发生。试图管理并从此类问题中手动恢复可能需要成本过高的数量的专职的并有丰富领域知识的运营工程师。
发明内容
提供本发明内容以便以简化的形式介绍将在以下的具体实施例中进一步描述的一些概念。本发明内容并不旨在专门标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮助确定所要求保护的主题的范围。
各实施例涉及将检测到的警告映射到恢复动作,从而在联网通信环境中自动地解决问题。未被映射的警告可通过循环升级方法升级给指定个体,该方法包括来自指定个体的确认交接通知。根据一些实施例,在升级过程中为每个警告收集的信息以及方案可被记录以便扩展自动化解决知识库。
通过阅读下面的详细描述并参考相关联的附图,这些及其他特点和优点将变得显而易见。可以理解,前述一般描述和以下的详细描述都是说明性的,并且不限制所要求保护的各方面。
附图说明
图1是检测到警告可能导致修复动作或者警告升级的示例环境的概念图;
图2是示出警告升级期间的动作的动作图;
图3是示出多区域环境中的警告管理的另一概念图。
图4是联网环境,其中可实现根据实施例的系统;
图5是可实现各实施例的示例计算操作环境的框图;以及
图6是示出根据各实施例的联网通信环境中的警告的自动化管理的逻辑流程图。
具体实施例
如以上简要描述的,联网系统中的警告可通过自动化动作/升级过程管理,其中自动化动作/升级过程使用映射到警告的动作和/或用于手动解决的升级,同时扩展知识库中自动化动作的部分并将收集的信息提供给有解决所述问题的任务的指定个体。在以下详细描述中,参考了构成详细描述的一部分并作为说明示出各个具体实施例或示例的附图。可组合这些方面,可利用其他方面,并且可以做出结构上的改变而不背离本发明的精神或范围。因此,以下详细描述并不旨在限制,并且本发明的范围由所附权利要求及其等效方案来限定。
尽管在结合在个人计算机上的操作系统上运行的应用程序执行的程序模块的一般上下文中描述了各实施例,但是本领域的技术人员会认识到各方面也可以结合其它程序模块实现。
一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。此外,本领域的技术人员可以明白,各实施例可以用其他计算机系统配置来实施,包括手持式设备、多处理器系统、基于微处理器的或可编程消费电子产品、小型计算机、大型计算机以及类似计算设备。各实施例还能在任务由通过通信网络链接的远程处理设备来执行的分布式计算环境中实现。在分布式计算环境中,程序模块可位于本地和远程存储器存储设备两者中。
各实施例可被实现为计算机实现的过程(方法)、计算系统、或者诸如计算机程序产品或计算机可读介质等制品。计算机程序产品可以是计算机系统可读并且编码包括用于使计算机或计算系统执行示例过程的指令的计算机程序的计算机存储介质。例如,计算机可读存储介质可经由易失性计算机存储器、非易失性存储器、硬盘驱动器、闪存驱动器、软盘或紧致盘和类似介质中的一个或多个来实现。计算机程序产品也可以是计算系统可读并且对用于执行计算机过程的指令的计算机程序编码的载体(例如,频率或相位调制信号)上的传播信号。
对服务的引用贯穿本说明书。此处使用的服务描述任何可接收警告作为其常规操作的一部分并处理/存储/转发此信息的联网/在线应用程序。此类应用程序可在单个计算设备、交互式的多个计算设备以及诸如此类上执行。各实施例还可在在多个服务器或类似系统上执行的托管服务中实现。术语“服务器”一般指通常在联网环境中执行一个或多个软件程序的计算设备。然而,服务器还可以被实现为在被视作网络上的服务器的一个或多个计算设备上执行的虚拟服务器(软件程序)。在下面将提供关于这些技术和示例操作的详细细节。
参考图1,概念图100示出了检测到警告可导致修复动作或警告升级的示例环境。如之前简要提到的,各实施例通过自动化修复动作和警告升级来解决技术支持服务的复杂性。例如,在分布式技术支持服务系统中,监视引擎103可在检测到分布式系统中的硬件、软件或硬件/软件组合的问题时向自动化引擎102发送警告113。自动化引擎102可试尝试将警告113映射到修复动作112。如果自动化引擎102成功地将警告113映射到修复动作112,那么自动化引擎102可执行修复动作112,修复动作可包括用于解决检测到的问题的一组指令。
问题可与地理上为分布式的服务地点105中的一个或多个设备104相关联。设备可包括任何计算设备,诸如台式计算机、服务器、智能电话、膝上型计算机以及类似计算设备。设备104还可包括附加的远程可访问设备,诸如监视器、音频设备、电视机、视频捕捉设备及其他类似设备。
警告113可包括与检测到的问题相关联的设备或程序的状态信息,诸如设备存储器的内容、传感器读数、最后执行的指令,以及其他信息。警告113还可包括问题描述,诸如哪一指令执行失败、哪些执行指示了超出预定限制的结果,以及类似描述。
自动化引擎102可尝试通过搜索故障诊断数据库114将警告113映射到修复动作112。故障诊断数据库114可存储匹配到由设备或软件程序进一步分类的修复动作的警告的档案。一示例实现可以是匹配到重启通信设备网络接口的修复动作的通信设备的“无连接”警告。一个或多个修复动作可被映射到每个警告。此外,一个或多个警告可被映射到单个修复动作。
如果自动化引擎102为警告确定了多个修复动作,执行优先级可取决于各修复动作的预定优先级。例如,以上讨论的场景中主要的修复动作可能是重启网络接口,随后是重新引导通信设备的次级修复动作。修复动作的预定优先级可被手动输入到故障诊断数据库114中,或者基于修复动作成功评估方案在问题得到成功修正时自动地确定。
根据一些实施例,修复动作112可包括收集来自与所述问题相关联的设备和/或软件程序的附加诊断信息。根据其他实施例,附加诊断信息可作为重启自动化循环的警告发送到监视引擎。作为对警告的响应,附加诊断信息还可被收集并存储在系统中。存储的信息可用来捕捉问题状态和提供当警告被升级给指定个人或团队(例如,101)时的上下文。
如果自动化引擎102未在故障诊断数据库114中找到映射的修复动作,警告113可被升级给指定的个人或团队101。即使映射的动作被找到并为了信息的目的而执行了,也可通知指定的个人或团队101。发送警告113给指定的个人或团队101可根据警告113的命名约定来确定。警告的命名约定可指示警告应升级给哪个支持人员,诸如硬件支持团队、软件支持团队以及类似人员等。命名约定方案还可用来将警告映射到恢复动作。例如,警告可以分层的方式(例如,系统/组件/警告名)命名,而且恢复动作可在从系统的所有警告(系统/*)到用于具体警告的特殊恢复动作的任何地方被映射到。根据一些实施例,每个具体警告可有指定的团队与之相关联,尽管该团队可能被默认为整个组件的特定值。将警告发送给哪个团队成员的判断可依赖于为了知晓支持团队的日程安排而驻留在自动化引擎中的预定的映射算法。预定的映射算法可手动更新或者通过集成调度系统或外部调度系统自动地更新。
自动化引擎102可通过电子邮件、即时消息、文本消息、寻呼、语音邮件或类似手段将警告113升级给第一个指定个人或团队。警告可被映射到团队名,而且团队名可被映射到按预定间隔(例如,一天、一周等等)应呼的一组个体。映射的一部分可用来标识哪些人在该间隔中应呼。这样,警告映射可以从可能流动的个体团队成员中抽象出来。然后自动化引擎102可等待来自第一个指定个人或团队的交接通知。交接通知可由自动化引擎102以警告之前如何发送的方式接收或者它可通过其他手段接收。如果自动化引擎102未在预定量的时间以内接收到,其可将警告113升级给通过预定的映射算法确定的轮班的下一指定个人或团队。自动化算法可一直将警告升级给轮班的下一指定个人或团队,直到收到交接通知。
在修复动作112的执行将反馈响应传递给自动化引擎102以后,监视引擎103可从设备或软件程序处接收该响应(例如,以动作的形式)。然后自动化引擎102可更新故障诊断数据库114。诸如修复动作的成功率等的统计信息可用来改变修复动作的执行优先级。而且,与指定个人或团队执行的动作相关联的反馈响应也可记录在故障诊断数据库114中,使得机器学习算法或类似机制可用来扩展动作列表、将新警告映射到已有的动作、将已有的警告映射到新动作,诸如此类。根据某些实施例,自动化引擎的动作和指定个人的动作可由系统审核。系统可维护关于谁、什么时候及针对什么设备或服务器执行了特定动作的日志。然后记录可用来故障诊断、跟踪系统内的变化、及/或开发新的自动化警告响应。
根据其他实施例,自动化引擎102可对故障诊断数据库114执行通配符搜索并响应于接收到的警告而确定多个修复动作。单个或成组修复动作的执行可依赖于各修复动作的预定优先级。成组的修复动作也可映射到成组的警告。当警告可匹配几个通配符映射时,实际应用最特定的映射。例如,警告“交换/传输/排队”可匹配映射“交换/*”、“交换/传输/*”和“交换/传输/排队”。然而,最后一个可能实际上是真实的映射,因为其为最特定的一个。
图2在图200中示出警告升级期间的动作。监视引擎202可提供检测到的问题作为给自动化引擎204的警告(211)。自动化引擎204可从动作存储206(图1的故障诊断数据库114)检查可用的动作(212),如果有可用的动作则执行动作(213)。如果没有可用的动作,自动化引擎204可将警告升级(214)给过程拥有者208。警告可进一步升级(215)给其他指定者209。如前所述,升级也可与所确定的动作的执行并行执行。
当从过程拥有者208或者其他指定者209处接收到要执行的新动作(216、217)时,自动化引擎204可执行新动作(218)并用新动作更新记录(219)以备将来使用。图200中的示例交互示出有限制的场景。根据各实施例,诸如与指定人员的交接、来自报告问题的设备/软件的反馈和类似交互等其他交互也可包括在自动化恢复和升级系统的操中。
图3在图300中示出多区域环境中的警告管理的概念图。在分布式系统中,警告的升级可依赖于地理区域的预定优先级。例如,当两个区域的升级同时由单个支持团队管理时,预定优先级可能升级来自处于白天的区域的警告并扣住来自处于夜间的区域的警告。类似地,当来自不同区域的修复动作竞争相同的硬件、软件、通信资源以解决检测到的问题时,来自不同区域的修复动作可基于预定的优先级而被区分优先级。
图300示出根据各实施例来自不同区域的警告可怎样被系统解决。根据示例场景,监视引擎303、313和323可分别负责监视来自区域1、2和3(304、314和324)的硬件和/或软件问题。当检测到问题时,监视引擎的每一个都可发送警告到相应的自动化引擎302、312和322,这些自动化引擎可负责相应的区域。自动化引擎的逻辑以与监视逻辑同样的方式分布到每个区域。根据一些实施例,自动化可跨区域发生,诸如全站故障和恢复等。根据其他实施例,自动化引擎可负责多个区域。类似地,升级目标也可为集中式或分布式。例如,系统可基于一天内的时间升级给不同的团队。监视引擎303、313和323可拥有自己的单独的区域数据库以管理监视过程。自动化引擎302、312和322可对故障诊断数据库(集中的或分布式)进行查询以将警告映射到修复动作。
如果找到相应的修复动作,自动化引擎302、312和322可在区域304、314和324中的设备和/或程序上执行修复动作。还可对所有区域实现全局监视数据库310。如果自动化引擎302、312和322不能找到匹配的修复动作,它们可基于诸如组织结构等预定义的区域优先级将警告升级给指定的支持团队301。例如,区域304可能是商业组织的公司企业网而324是文档支持网络。在这一场景中,在区域304中检测到的问题的优先级可高于区域324中检测到的问题。类似地,在确定区域优先级时,一天中的不同时间或者不同区域间的工作日/假日区别,以及类似因素等可被考虑进去。
根据一些实施例,多个自动化引擎可分配给不同的区域,且如上所述通过自动化引擎间的一致性算法确定升级和/或修复动作优先级。可替换地,管理区域自动化引擎的进程可作出优先级决定。而且,自动化引擎302、312和322可与区域故障诊断数据库交互,区域故障诊断数据库包括定制的修复动作——用于不同区域的警告映射。
以上结合图1、2和3使用示例场景、特定修复动作的执行和警告的升级讨论了分布式系统中的自动化恢复和升级过程,但各实施例不限于此。警告到修复动作的映射、修复动作的优先次序、警告的升级和其他过程可使用此处讨论的各原则,采用其他操作、优先级、评估等来实现。
图4是可实现各实施例的示例联网环境。警告到修复动作的映射可通过诸如托管服务的在一个或多个服务器422上执行的软件而实现。服务器422可通过网络410与各个计算设备上的客户端应用程序通信,计算设备诸如手机411、移动计算设备412、智能电话413、膝上型计算机414和台式计算机415等(客户端设备)。客户端设备411-415上的客户端应用程序可促进用户与在服务器422上执行的服务交互,这些服务允许对与服务相关联的软件和/或硬件问题的自动化管理。自动化和监视引擎可在各服务器422中的任一个上执行。
与诸如将警告映射到修复动作的操作相关联的数据可存储在一个或多个数据存储(例如,数据存储425或426)中,数据存储可由服务器422中的任何一个或数据库服务器424管理。根据各实施例的对检测到的问题的自动化恢复和升级可在如以上示例所述的警告被监视引擎检测到时被触发。
网络410可包括服务器、客户机、因特网服务供应商以及通信介质的任何拓扑结构。根据各实施例的系统可以具有静态或动态拓扑结构。网络410可以包括诸如企业网络等安全网络、诸如无线开放网络或因特网等非安全网络。网络410提供此处描述的节点之间的通信。作为示例而非限制,网络410可以包括无线介质,诸如声学、RF、红外和其他无线介质。
计算设备、应用程序、数据源和数据分布系统的很多其他配置可被采用来实现根据各实施例的对分布式系统问题的自动化管理的系统。此外,图4中所讨论的联网环境仅用于说明目的。各实施例不限于示例应用程序、模块、或过程。
图5及相关联讨论旨在提供对其中可实现各实施例的合适计算环境的简要概括描述。参考图5示出诸如计算设备500等根据各实施例的服务应用程序的的示例计算操作环境的框图。在基本配置中计算设备500可以是托管服务系统中的服务器并包括至少一个处理单元502和系统存储器504。计算设备500还可包括协作执行程序的多个处理单元。取决于计算设备的确切配置和类型,系统存储器504可以是易失性的(诸如RAM)、非易失性的(诸如ROM、闪存等)或是两者的某种组合。系统存储器504通常包括适于控制平台操作的操作系统505,诸如来自华盛顿州雷德蒙市的微软公司的
Figure BDA00002272148400081
操作系统。系统存储器504还可包括一个或多个程序模块506、自动化引擎522和监视引擎524。
自动化和监视引擎522和524可以是单独的应用程序或如上所述处理系统警告的托管服务的集成模块。该基本配置在图5中由虚线508内的那些组件示出。
计算设备500可具有附加特征或功能。例如,计算设备500还可包括附加数据存储设备(可移动和/或不可移动),例如磁盘、光盘或磁带。在图5中通过可移动存储509和不可移动存储510示出这样的附加存储。计算机可读存储介质可以包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。系统存储器504、可移动存储509和不可移动存储510都是计算机可读存储介质的示例。计算机可读存储介质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术,CD-ROM、数字多功能盘(DVD)或其它光学存储,磁带盒、磁带、磁盘存储或其它磁存储设备,或能用于存储所需信息且能够由计算设备500访问的任何其它介质。任何这样的计算机可读存储介质都可以是计算设备500的一部分。计算设备500还可以具有输入设备512,诸如键盘、鼠标、笔、语音输入设备、触摸输入设备和类似输入设备。还可以包括输出设备514,诸如显示器、扬声器、打印机和其它类型的输出设备。这些设备在本领域中公知且无需在此处详细讨论。
计算设备500还可以包含允许该设备与其他设备516通信的通信连接518,诸如通过分布式计算环境中的无线网络、卫星链路、蜂窝链路和类似机制。其他设备518可包括执行分布式应用程序及执行类似操作的计算机设备。一个或多个通信连接516是通信介质的一个示例。通信介质可以包括计算机可读指令、数据结构、程序模块、或者诸如载波或其它传输机制等的已调制数据信号中的其它数据,并且包括任何信息传递介质。术语“已调制数据信号”是指具有以在信号中编码信息的方式被设定或改变其一个或多个特征的信号。作为示例而非限制,通信介质包括诸如有线网络或直接线连接之类的有线介质,以及诸如声学、RF、红外及其他无线介质之类的无线介质。
各示例实施例还包括各种方法。这些方法可以用任何数量的方式,包括本文中所描述的结构来实现。一种此类方式是通过本文中描述的类型的设备的机器操作。
另一可任选方式是结合一个或多个人类操作者执行该方法的各个操作中的某一些来执行该方法的一个或多个操作。这些人类操作者无需彼此同在一处,而是其每一个可以仅与执行程序的一部分的机器同在一处。
图6示出根据各实施例分布式系统中的问题恢复和升级的自动化管理的逻辑流程图600。过程600可在服务器上作为托管服务的一部分实现或在客户端应用程序上实现,从而与诸如之前所述的服务交互。
过程600从操作602开始,在该处自动化引擎检测到由监视引擎响应于系统中的设备和/或软件应用程序问题而发出的警告。在操作604处,自动化引擎已经从监视引擎接收到警告,可开始收集与该警告相关联的信息。这之后在操作606处可尝试将警告映射到一个或多个修复动作。
如果映射到所述警告的显式动作在判定操作608处被找到,该动作(或多个动作)可在后续操作610处执行。如果在映射过程中没有显式动作被确定,该警告可在操作614处升级给指定个人或团队。操作614之后可以是任选操作616和618,在那里新动作可从指定个人或团队处被接收并被执行。在操作612处,记录可根据执行过的动作(映射的或新的)更新,使得映射数据库可以被扩展或者与成功率相关联的统计信息可以为将来的监视和自动化响应任务所用。
包括在过程600内的各操作是用于说明目的。复杂分布式应用程序中的问题的自动化恢复和升级可以使用此处所述的各原理通过具有更少或更多步骤的相似过程、以及不同的操作次序来实现。
以上说明书、示例和数据提供了对各实施例的组成的制造和使用的全面描述。尽管用结构特征和/或方法动作专用的语言描述了本主题,但可以理解,所附权利要求书中定义的主题不必限于上述具体特征或动作。相反,上述具体特征和动作是作为实现权利要求和各实施例的示例形式而公开的。

Claims (15)

1.一种至少部分地在计算设备中执行的用于分布式系统中的自动化
恢复和警告升级的方法,所述方法包括:
从监视引擎处接收与检测到的问题相关联的警告;
尝试将所述警告映射到恢复动作;
如果所述警告被映射到恢复动作,则执行所述恢复动作;否则
将所述警告升级给指定人;以及
更新与警告-恢复动作的映射相关联的记录。
2.如权利要求1所述的方法,其特征在于,还包括:
收集与所述检测到的问题相关联的诊断信息;
如果所述警告被升级,向所述指定人提供所收集的诊断信息;以及
在更新所述记录时采用所收集的诊断信息。
3.如权利要求2所述的方法,其特征在于,所收集的诊断信息包括下列一组中的至少一项:设备的存储器内容、传感器读数、最后执行的指令、失败的指令、以及与所述检测到的问题相关联的故障结果。
4.如权利要求1所述的方法,其特征在于,还包括:
在升级所述警告后等待来自所述指定人的交接响应;以及
如果在预定义时间段内未接收到所述交接响应,则将所述警告升级给另一指定人。
5.如权利要求1所述的方法,其特征在于,所述指定人是根据指定人的预定义列表和所述警告的命名约定之一确定的,且所述指定人包括个人或团队之一。
6.如权利要求1所述的方法,其特征在于,将所述警告升级包括:
通过下列一组中的至少一项将所述警告发送给所述指定人:电子邮件、即时消息、文本消息、寻呼和语音邮件。
7.如权利要求1所述的方法,其特征在于,还包括:
在所述恢复动作执行以后从与所述检测到的问题相关联的设备或程序之一处接收反馈动作;以及
更新与所述恢复动作相关联的成功率记录。
8.一种用于分布式系统中的警告自动化恢复和升级的系统,所述系统包括:
执行监视引擎和自动化引擎的服务器,其特征在于,所述监视引擎被配置成:
检测与分布式系统中的设备和软件应用程序中至少一个相关联的问题;以及
基于所述检测到的问题发送警告;且
所述自动化引擎被配置成:
接收所述警告;
收集与所检测到的问题相关联的诊断信息;
试图采用恢复动作数据库将所述警告映射到恢复动作;
如果所述警告被映射到恢复动作,则执行所述恢复动作;否则
将所述警告与所收集的诊断信息一起升级给指定人;以及
更新所述恢复动作数据库中的记录。
9.如权利要求8所述的系统,其特征在于,还包括多个监视引擎,每个监视引擎被配置成基于用于所述分布式系统内每个地理区域的系统规模监视不同的地理区域并基于其相应区域中检测到的问题发送警告,其中所述自动化引擎还被配置成:
执行映射的恢复动作和基于区域优先级将来自不同区域的警告升级给所述指定人二者之一。
10.如权利要求8所述的系统,其特征在于,所述区域优先级还基于下列一组中的至少一项的可用性而确定:指定的支持团队、硬件资源、软件资源、以及通信资源。
11.如权利要求8所述的系统,其特征在于,所述警告被映射到多个恢复动作,以及所述各恢复动作根据预定义的执行优先级而执行。
12.如权利要求8所述的系统,其特征在于,所述设备包括台式计算机、膝上型计算机、手持式计算机、服务器、智能电话、监视器、音频设备、电视机和视频捕捉设备之一。
13.一种计算机可读存储介质,其上存储有用于分布式系统中的自动化恢复和警告升级的指令,所述指令包括:
在监视引擎处检测与分布式系统内的设备和软件应用程序中的至少一个相关联的问题;
基于检测到的问题从所述监视引擎处发送警告;以及
在自动化引擎处接收所述警告;
收集与所述检测到的问题相关联的诊断信息;
尝试将所述警告映射到来自恢复动作数据库的恢复动作,所述恢复动作包括一组用于解决所述检测到的问题的指令;
如果所述警告被映射到单个恢复动作,则执行所述恢复动作;
如果所述警告被映射到多个恢复动作,则根据预定义的执行优先级执行所述多个恢复动作;
如果所述警告未被映射到恢复动作,则将所述警告与所收集的诊断信息一起升级给指定人;
从所述指定人处接收交接响应;以及
采用所收集的诊断信息和与所执行的恢复动作相关联的反馈响应来更新所述恢复动作数据库中的记录。
14.如权利要求13所述的计算机可读存储介质,其特征在于,所述恢复动作被映射到单个警告和一组警告之一。
15.如权利要求13所述的计算机可读存储介质,其特征在于,所述指定人是根据所述警告的命名约定和基于支持人员的可用性的轮班算法之一而确定的。
CN201180019685.9A 2010-04-21 2011-03-30 复杂分布式应用程序中的自动化恢复和升级 Active CN102859510B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/764,263 2010-04-21
US12/764,263 US8823536B2 (en) 2010-04-21 2010-04-21 Automated recovery and escalation in complex distributed applications
PCT/US2011/030458 WO2011133299A2 (en) 2010-04-21 2011-03-30 Automated recovery and escalation in complex distributed applications

Publications (2)

Publication Number Publication Date
CN102859510A true CN102859510A (zh) 2013-01-02
CN102859510B CN102859510B (zh) 2015-07-15

Family

ID=44815335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180019685.9A Active CN102859510B (zh) 2010-04-21 2011-03-30 复杂分布式应用程序中的自动化恢复和升级

Country Status (10)

Country Link
US (1) US8823536B2 (zh)
EP (1) EP2561444B1 (zh)
JP (1) JP5882986B2 (zh)
KR (1) KR101824273B1 (zh)
CN (1) CN102859510B (zh)
BR (1) BR112012026917B1 (zh)
ES (1) ES2716029T3 (zh)
HK (1) HK1179724A1 (zh)
RU (1) RU2589357C2 (zh)
WO (1) WO2011133299A2 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105518629A (zh) * 2013-08-19 2016-04-20 微软技术许可有限责任公司 云部署基础结构确认引擎
CN106663041A (zh) * 2014-08-04 2017-05-10 微软技术许可有限责任公司 从系统故障恢复基于云的服务的易用性
CN112005221A (zh) * 2018-10-02 2020-11-27 惠普发展公司,有限责任合伙企业 经由跨多个网络与对等设备的通信的自动修复

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130097272A1 (en) * 2011-10-18 2013-04-18 International Business Machines Corporation Prioritized Alert Delivery In A Distributed Processing System
US9483344B2 (en) 2012-04-05 2016-11-01 Assurant, Inc. System, method, apparatus, and computer program product for providing mobile device support services
US9413893B2 (en) 2012-04-05 2016-08-09 Assurant, Inc. System, method, apparatus, and computer program product for providing mobile device support services
KR101426382B1 (ko) 2013-03-29 2014-08-13 케이티하이텔 주식회사 분산 파일 시스템에서 파이프라인을 이용한 자료 복구 방법
US9292402B2 (en) * 2013-04-15 2016-03-22 Century Link Intellectual Property LLC Autonomous service management
US9361184B2 (en) 2013-05-09 2016-06-07 International Business Machines Corporation Selecting during a system shutdown procedure, a restart incident checkpoint of an incident analyzer in a distributed processing system
US9602337B2 (en) 2013-09-11 2017-03-21 International Business Machines Corporation Event and alert analysis in a distributed processing system
US9389943B2 (en) 2014-01-07 2016-07-12 International Business Machines Corporation Determining a number of unique incidents in a plurality of incidents for incident processing in a distributed processing system
CN104915219B (zh) * 2014-03-12 2018-11-27 奇点新源国际技术开发(北京)有限公司 单片机程序升级方法及装置
CN104007996B (zh) * 2014-06-16 2016-07-06 南京融教科技有限公司 一种分布式控制系统的可靠固件升级实现方法
US10108414B2 (en) * 2014-10-09 2018-10-23 International Business Machines Corporation Maintaining the integrity of process conventions within an ALM framework
US10303538B2 (en) 2015-03-16 2019-05-28 Microsoft Technology Licensing, Llc Computing system issue detection and resolution
US9667573B2 (en) * 2015-04-28 2017-05-30 Unisys Corporation Identification of automation candidates using automation degree of implementation metrics
US9686220B2 (en) * 2015-04-28 2017-06-20 Unisys Corporation Debug and verify execution modes for computing systems calculating automation degree of implementation metrics
US10153992B2 (en) * 2015-04-28 2018-12-11 Unisys Corporation Identification of progress towards complete message system integration using automation degree of implementation metrics
US10296717B2 (en) * 2015-05-14 2019-05-21 Salesforce.Com, Inc. Automated prescription workflow for device management
US20170237602A1 (en) * 2016-02-16 2017-08-17 Microsoft Technology Licensing, Llc Computer system monitoring based on entity relationships
US10180869B2 (en) * 2016-02-16 2019-01-15 Microsoft Technology Licensing, Llc Automated ordering of computer system repair
EP3427157B1 (en) * 2016-03-09 2023-10-11 Alibaba Group Holding Limited Cross-regional data transmission
CN108038043B (zh) * 2017-12-22 2021-04-23 郑州云海信息技术有限公司 一种分布式存储集群告警方法、系统及设备
US10868711B2 (en) * 2018-04-30 2020-12-15 Splunk Inc. Actionable alert messaging network for automated incident resolution
US10270644B1 (en) * 2018-05-17 2019-04-23 Accenture Global Solutions Limited Framework for intelligent automated operations for network, service and customer experience management
FI128647B (en) 2018-06-29 2020-09-30 Elisa Oyj Automatic monitoring and control of networks
FI129101B (en) * 2018-06-29 2021-07-15 Elisa Oyj Automatic monitoring and control of networks
CN117093434B (zh) * 2023-10-20 2024-01-30 深圳品网科技有限公司 一种用于笔记本电脑的开关机自检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1073272A (zh) * 1991-12-09 1993-06-16 横河电机株式会社 分布式控制系统
US20060064486A1 (en) * 2004-09-17 2006-03-23 Microsoft Corporation Methods for service monitoring and control
CN101039498A (zh) * 2007-05-09 2007-09-19 中兴通讯股份有限公司 带有分布式告警处理的基站系统及其告警处理方法
US20080281607A1 (en) * 2007-05-13 2008-11-13 System Services, Inc. System, Method and Apparatus for Managing a Technology Infrastructure

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3449425B2 (ja) * 1993-02-23 2003-09-22 本田技研工業株式会社 コンピュータネットワーク監視支援システム
US5619656A (en) 1994-05-05 1997-04-08 Openservice, Inc. System for uninterruptively displaying only relevant and non-redundant alert message of the highest severity for specific condition associated with group of computers being managed
US6615240B1 (en) 1998-12-18 2003-09-02 Motive Communications, Inc. Technical support chain automation with guided self-help capability and option to escalate to live help
US6918059B1 (en) 1999-04-28 2005-07-12 Universal Music Group Method and system for handling errors in a distributed computer system
US6742141B1 (en) 1999-05-10 2004-05-25 Handsfree Networks, Inc. System for automated problem detection, diagnosis, and resolution in a software driven system
JP2003085003A (ja) * 2001-09-06 2003-03-20 Matsushita Electric Ind Co Ltd 障害復旧援助方法、及び、障害復旧援助システム
US7243124B1 (en) 2002-09-06 2007-07-10 Oracle International Corporation Architecture for general purpose near real-time business intelligence system with client devices and methods therefor
US7376969B1 (en) * 2002-12-02 2008-05-20 Arcsight, Inc. Real time monitoring and analysis of events from multiple network security devices
US7137040B2 (en) 2003-02-12 2006-11-14 International Business Machines Corporation Scalable method of continuous monitoring the remotely accessible resources against the node failures for very large clusters
US7089220B2 (en) * 2003-06-24 2006-08-08 Palo Alto Research Center Incorporated Complexity-directed cooperative problem solving
JP4728565B2 (ja) * 2003-07-16 2011-07-20 日本電気株式会社 障害復旧装置および障害復旧方法ならびにプログラム
US7103874B2 (en) * 2003-10-23 2006-09-05 Microsoft Corporation Model-based management of computer systems and distributed applications
EP1779245B1 (en) 2004-07-20 2018-06-13 Microsoft Technology Licensing, LLC Method and system for minimizing loss in a computer application
EP1630710B1 (en) 2004-07-21 2019-11-06 Microsoft Technology Licensing, LLC Containment of worms
JP2006163509A (ja) * 2004-12-02 2006-06-22 Olympus Corp 障害通知システム
US8001527B1 (en) 2004-12-21 2011-08-16 Zenprise, Inc. Automated root cause analysis of problems associated with software application deployments
JP2007079896A (ja) * 2005-09-14 2007-03-29 Nomura Research Institute Ltd 監視装置及び監視方法
JP2007141007A (ja) * 2005-11-21 2007-06-07 Hitachi Ltd システム運用監視での障害時のサポートシステム化
US8892719B2 (en) * 2007-08-30 2014-11-18 Alpha Technical Corporation Method and apparatus for monitoring network servers
JP2009099135A (ja) * 2007-09-28 2009-05-07 Fujitsu Ltd 支援管理方法、支援管理システム及び情報処理装置
JP2009087136A (ja) * 2007-10-01 2009-04-23 Nec Corp 障害修復システムおよび障害修復方法
JP4872058B2 (ja) * 2008-05-13 2012-02-08 株式会社日立システムズ 自動障害対応システム
US8103909B2 (en) * 2008-09-15 2012-01-24 Juniper Networks, Inc. Automatic hardware-based recovery of a compromised computer
US8074107B2 (en) * 2009-10-26 2011-12-06 Amazon Technologies, Inc. Failover and recovery for replicated data instances

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1073272A (zh) * 1991-12-09 1993-06-16 横河电机株式会社 分布式控制系统
US20060064486A1 (en) * 2004-09-17 2006-03-23 Microsoft Corporation Methods for service monitoring and control
CN101039498A (zh) * 2007-05-09 2007-09-19 中兴通讯股份有限公司 带有分布式告警处理的基站系统及其告警处理方法
US20080281607A1 (en) * 2007-05-13 2008-11-13 System Services, Inc. System, Method and Apparatus for Managing a Technology Infrastructure

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105518629A (zh) * 2013-08-19 2016-04-20 微软技术许可有限责任公司 云部署基础结构确认引擎
CN105518629B (zh) * 2013-08-19 2019-02-19 微软技术许可有限责任公司 云部署基础结构确认引擎
CN106663041A (zh) * 2014-08-04 2017-05-10 微软技术许可有限责任公司 从系统故障恢复基于云的服务的易用性
CN106663041B (zh) * 2014-08-04 2020-01-10 微软技术许可有限责任公司 从系统故障恢复基于云的服务的易用性的方法及装置
CN112005221A (zh) * 2018-10-02 2020-11-27 惠普发展公司,有限责任合伙企业 经由跨多个网络与对等设备的通信的自动修复

Also Published As

Publication number Publication date
ES2716029T3 (es) 2019-06-07
HK1179724A1 (zh) 2013-10-04
EP2561444A4 (en) 2017-08-30
WO2011133299A3 (en) 2012-03-01
EP2561444A2 (en) 2013-02-27
BR112012026917A2 (pt) 2016-07-12
EP2561444B1 (en) 2018-12-19
RU2012144650A (ru) 2014-04-27
US8823536B2 (en) 2014-09-02
WO2011133299A2 (en) 2011-10-27
CN102859510B (zh) 2015-07-15
RU2589357C2 (ru) 2016-07-10
US20110260879A1 (en) 2011-10-27
KR20130069580A (ko) 2013-06-26
JP5882986B2 (ja) 2016-03-09
JP2013527957A (ja) 2013-07-04
BR112012026917B1 (pt) 2021-04-20
KR101824273B1 (ko) 2018-01-31

Similar Documents

Publication Publication Date Title
CN102859510B (zh) 复杂分布式应用程序中的自动化恢复和升级
US11044221B2 (en) Integration of devices through a social networking platform
Xu et al. Cloud-based fleet management for prefabrication transportation
US8265980B2 (en) Workflow model for coordinating the recovery of IT outages based on integrated recovery plans
US9021377B2 (en) Goal based user interface for managing business solutions in an on demand environment
CN102291464B (zh) BPM中业务流程动态生成Web Service的系统及方法
CN108353034A (zh) 用于数据中心基础设施监测的架构
US20120215560A1 (en) System and methods for facilitating computerized interactions with emrs
CN105516233A (zh) 用于在一个或多个云系统上便携部署应用的方法和系统
CN105706469A (zh) 管理机器对机器设备
CN115812298A (zh) 供应故障的区块链管理
CN103270520A (zh) 基于重要性类的数据管理
JP2011175494A (ja) 保守作業支援システム
KR101663504B1 (ko) 스마트 워터 그리드 기반 통합 운영 서비스 제공 방법 및 시스템
JP5891969B2 (ja) 排他制御プログラム、該装置、及び該方法
CN103327062A (zh) 提供企业信息技术生命周期工具同步平台的系统和方法
Russo et al. ROME4EU–A service‐oriented process‐aware information system for mobile devices
CN113094053B (zh) 产品的交付方法及装置、计算机存储介质
Liu et al. Dynamic service integration for reliable and sustainable capability provision
US10748646B2 (en) Chunk-wise transmission of time-series data to mobile devices
US10447769B2 (en) Enhanced time-series data streams for transmission to mobile devices
US20230402163A1 (en) Patient surgery cancellation prediction system
US11558239B1 (en) Intelligent system for network and device performance improvement
US20150294269A1 (en) Method and system for hierarchal event management
Bendimerad et al. On-Premise AIOps Infrastructure for a Software Editor SME: An Experience Report

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1179724

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150727

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150727

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.

REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1179724

Country of ref document: HK