CN103119576A - 信息技术服务管理 - Google Patents

信息技术服务管理 Download PDF

Info

Publication number
CN103119576A
CN103119576A CN2010800693293A CN201080069329A CN103119576A CN 103119576 A CN103119576 A CN 103119576A CN 2010800693293 A CN2010800693293 A CN 2010800693293A CN 201080069329 A CN201080069329 A CN 201080069329A CN 103119576 A CN103119576 A CN 103119576A
Authority
CN
China
Prior art keywords
service
inconsistency
state
expectation
observation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2010800693293A
Other languages
English (en)
Inventor
M.萨尔
E.L.埃德特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Publication of CN103119576A publication Critical patent/CN103119576A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0866Checking the configuration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0751Error or fault detection not based on redundancy
    • G06F11/0754Error or fault detection not based on redundancy by exceeding limits
    • G06F11/0757Error or fault detection not based on redundancy by exceeding limits by exceeding a time limit, i.e. time-out, e.g. watchdogs

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

存储服务模型的期望实例,并提供服务模型的观察实例。可以基于期望实例与观察实例之间的比较来检测期望实例与观察实例之间的不一致性。

Description

信息技术服务管理
背景技术
信息技术(IT)服务由部署在一个或多个数据中心中的一组硬件和软件工件组成。这样的工件的可用性和性能随时间推移而大大地变化。例如,改变范围可以从服务属性的重新配置至升级和降级以及迁移、向外扩展等。通常,这些改变是手动地完成的,导致令人不满意的可重复性、执行速度、成本效率等。
信息技术基础设施库(ITIL)提供用于服务支持的框架。配置管理是服务支持的示例。配置管理指的是用于识别以IT服务管理为目标的配置项以保持、更新、确认以及审计关于配置项的信息的过程。配置项表示以配置为目标的资源。配置项不仅包括指示硬件和软件的系统资源,而且包括提供IT服务、诸如关于如何提供IT服务的描述的文档、操作程序以及图表、硬件或软件维护服务、过程等所需的设施。
一些系统提供IT系统监控,但是IT系统建模不那么高级。配置管理数据库(CMDB)尝试捕捉IT服务模型实例。然而,CMDB通常用来存储监控系统的输出以在数据中心中“照原样”捕捉IT服务的状态。在其他情况下,CMDB用来存储仅表示期望IT服务应看来起来像的东西的模型实例。
附图说明
图1是在概念上图示出计算机系统的示例的方框图。
图2是图示出具有两个模型实例的双态系统的示例的方框图。
图3是图示出具有单个实例表示的双态系统的示例的方框图。
图4是在概念上图示出模型实例的标记值的示例的方框图。
图5是图示出观察状态之间的过渡的示例的方框图。
图6是图示出期望状态的改变的示例和结果产生的观察状态之间的过渡的示例的方框图。
图7是图示出IT服务管理系统的示例的方框图。
图8是图示出用于图7中所示的系统的示例监视器(watchdog)通知的表格。
具体实施方式
在以下详细描述中,对形成其一部分的附图进行参考,并且在附图中以图示的方式示出了特定实施方式。应理解的是在不脱离本公开的范围的情况下可以利用其他实施方式,并且可以进行结构或逻辑改变。因此,不应以限制性意义来理解以下详细描述,并且由所附权利要求来限定本公开的范围。
图1图示出计算机系统100的示例的方框图。计算机系统100包括被耦合到存储器120的处理器110。存储器120可以可操作用于存储可由处理器110执行以执行一个或多个功能的程序指令122。应理解的是“计算机系统”可以意图涵盖具有能够执行来自存储器介质的程序指令的处理器的任何设备。在特定实施方式中,可以使用计算机系统100来实现本文所述的各种功能、过程、方法以及操作。
可以将由系统100执行或实行的各种功能、过程、方法和操作实现为可由处理器110和各种类型的计算机处理器、控制器、中央处理单元、微处理器、数字信号处理器、状态机、可编程序逻辑阵列等执行的程序指令122(也称为软件或简单程序)。在一些实施方式中,可以将计算机系统100与其他计算机系统联网(使用有线或无线网络),并且系统100的各种部件可以在处理器110本地或经由网络与之耦合。
在各种实施方式中,可以将程序指令122存储在存储器120或任何非暂时性计算机可读介质上以供任何计算机相关系统或方法使用或与之相结合地使用。计算机可读介质可以是可以包含或存储计算机程序以供计算机相关系统、方法、过程或程序使用或与之相结合地使用的电子、磁性、光学或其他物理设备或装置。可以在计算机可读介质中体现程序以供指令执行系统、设备、部件、元件或装置使用或与之相结合地使用,诸如基于计算机或处理器的系统或能够从任何适当类型的指令存储器或储存器获取指令的其他系统。计算机可读介质可以是能够存储、传送、传播或传输程序以供指令执行系统、装置或设备使用或与之相结合地使用的任何结构、设备、部件、产品或其他装置。
公开的IT系统和方法的实施方式涉及管理系统中的期望和观察状态,将期望模型实例处于什么状态—期望状态以及实例处于什么状态—观察状态的表征之间的关系形式化。这种双态方法在基于模型的系统中特别重要。本文所使用的模型一般指的是系统、元件、解决方案或服务的设计、特性和行为的表示。该模型可以是IT系统、元件、解决方案或服务的结构、功能、非功能以及运行时间特性的说明性规范。模型的实例化创建模型实例,其被作为模型的表示存储在诸如存储器120的存储器中。
本文所使用的服务一般指的是由提供商提供给客户的公用事业或益处。提供商和客户可以按应用而变化,并且可以包括企业、商业单位、商务过程、应用程序、第三方、个人以及类似其他的。可以在执行企业业务的过程中提供企业服务。IT服务一般指的是使得企业能够通过向IT基础设施添加功能来提供公用事业或益处的任何应用程序。
模型捕捉特定IT元件或解决方案的设计,例如被作为服务模型捕捉的IT服务,其定义可从一个服务至其他服务获得的外部可见描述、性质、状态以及操作。因此,模型的实例化导致虚拟运行时间对象的生成,例如模型实例,并且还导致IT基础设施中的实际、有形IT工件的生成,其例如可以是包括硬件、软件、通信、应用程序、服务和类似其他部件以提供IT功能的数据中心。
如图2中所示,此概念后面的理论是在两个状态下同时地存在IT服务的实例:期望状态201和观察状态202。观察状态常常由连续地观察与实例相关联的IT工件的监控系统确定。期望状态是在创建实例时且通过后续改变定义的。
通过检查期望和观察状态之间的一致性,可以检测异常IT工件。假设系统的特征在于被定义为在95%以下的属性memoryUtilization。约束memoryUtilization<95%表示期望状态。假设部署了监控探针以便以规则的间隔收集存储器利用数据并且关联监控系统用那些值来更新观察状态。现在假设在某个时间点,确定观察状态并表示为memoryUtilization=20%。很明显,此观察状态与期望状态下的约束表征(memoryUtilization<95%)一致。如果在稍后的时间观察状态变成memoryUtilization=98%,则期望和观察状态很明显不是一致的,并且将要求其他动作,使得观察状态返回至与期望状态一致的值。
作为保持实例的两个表示的替代,每个表示具有如图2中所示的一个状态,在一些实施方式中,保持具有两个状态(即期望状态和观察状态)的单一模型实例表示203,如图3中所示。在这样的实施方式中,模型实例元件接收用期望(D)或观察(O)标签标记的两个值,观察值是如图4中所示的期望值的改进,其中,存储器120存储标记值210、212。
在其寿命过程内,IT服务将通常改变多次。改变可能在观察状态下发生(性能退化、系统故障等),或者可能在期望状态下发生。观察状态之间的过渡反映真实世界中的改变。当这样的变化发生时,一致性检查将验证如图5中所示的新观察状态的正确性。期望状态201被与第一观察状态202相比较。随时间推移,观察状态过渡至第二观察状态202',其被与期望状态201相比较以验证持续的一致性。
相比之下,期望状态201的改变反映管理员、客户、管理系统等的有意识判定以改变IT服务。图6图示出这样的改变,其中,首先采取从第一期望状态201至第二或新期望状态201'的过渡。此过渡意味着将实现IT系统中的改变,导致新观察状态202'。然后针对一致性检查两个新状态201'和202'。
图7图示出根据公开的实施方式的闭环IT服务管理系统和方法。可以用例如图1中所示的计算机系统100来实现系统300的各方面。系统300包括配置管理系统(CMS)310,其存储用于IT系统302的服务模型的期望实例或状态201和观察实例或状态202。在一些实施方式中,存储了模型实例的两个表示:期望和观察实例,并且在其他实施方式中,存储具有两个状态的单一模型实例表示。如上所述,采用此布置,模型实例元件接收被标记为期望或观察的两个值。
(一个或多个)模型实例和关联期望和观察状态被存储在例如图1中所示的存储器120中。监控服务304监控IT系统302并将IT系统302的观察状态202报告给CMS 310。CMS 310将观察状态202与期望状态201相比较,并且如果这些状态是不一致的,则CMS 310基于该比较来检测期望实例与观察实例之间的不一致性。如果检测到不一致性,则系统300可以修改期望状态201和/或观察状态202中的一个或两个。
在所示实施方式中,在检测到不一致性时,CMS 310通知监视器服务312。监视器服务312负责确定是否应处理所检测到的不一致性。例如,假设服务正由于高负载而表现出不一致性,用以补救的操作可以是以下各项中的一个或多个:
● 改变服务配置以减少或抑制或重定向需求;
● 改变服务的期望状态以容忍(一个或多个)更高的阈值;
● 改变服务以向服务添加资源以更快速地为需求提供服务。特别地,这可以采取向虚拟机添加CPU百分比的形式,或者可以采取向一层添加另一节点的形式。
在一些实施方式中,默认情况具有监督所有CMS实例的监视器服务312。然而,还可以将监视器服务312配置成忽视特定够实例,实际上使闭环去激活。CMS 310中的“健康”实例处于寿命状态Grounded,并使其一致性状态被设置为真。在不一致性检测时,不一致性状态被更新成假,并向监视器服务312发送通知。监视器服务312能够判定忽视该通知,将其记录但不采取行动,移动被监视(Watched)状态下的实例的寿命状态,并且不采取进一步行动,或者通知维修服务314。
被监视(Watched)状态是其中将实例被视为可用(已检测到不一致性)但受到密切注意的试用状态。当将实例移动至被监视状态时,监视器服务312可以触发监控服务的改变,诸如要求互补(complementary)探针的部署,改变数据收集频率等。在一些实施方式中,CMS 310不仅在检测到不一致性时、而且在观察状态返回至一致状态时通知监视器服务312。图8是图示出一个实施方式中的由监视器服务312发送通知、被考虑在内时是否正在监视实例的示例的简单表格。
可以应用各种控制算法以确定从监视状态返回至Grounded状态或过渡至维修状态的时间。例如,基于时间的简单方法将确定实例将处于监视状态多久。如果实例在监视状态花费“过长时间”,则维修服务314获得通知。当被监视时,实例在不需要维修动作的情况下返回至一致状态是可能的。在该情况下,将通知监视器服务312且其可以判定使实例移动返回至Grounded或将其保持在监视状态。
在一些实施方式中,被监视状态是应用于实例而不是实例元素的全局状态。例如,实例可以具有两个属性:响应时间(responseTime)和线程计数(threadCount)。响应时间的状态不一致性可能使实例移动至被监视状态。稍后,线程计数不一致性还将导致通知。然而,CMS 310不记录实例处于被监视状态的原因(最初由于响应时间),相反,这是由监视器服务312完成的。
鉴于从绑定过程的观点出发被监视实例仍是有效的,CMS 312在对可能候选进行排列时可以相比于被监视实例而优选Grounded实例。当维修服务314获得通知时,其自动地将实例的状态移动至维修(Repair)。实例被添加至实例的列表以被监视器服务312忽视,使得其他通知不会被接收。
确定如何恢复状态一致性是维修服务314的职责。这可以包括确定要调用的一组操作316以便产生此状态。在一些实施方式中,操作表明一组效果。那些效果与期望状态201的改变相关联。因此,当操作316被调用时,CMS 310将首先设置与在目标实例中调用的操作相关联的期望状态201。其然后将触发操作316的执行。如果操作调用是成功的,则将实例从监视器312中的被忽视实例的列表中去除。闭环系统被激活。
随着在数据中心中执行操作316,将对服务进行改变。当针对该实例重新激活闭环系统时,新观察状态202信息被从监控服务312馈送到CMS 310。如果观察状态202与期望状态201一致,则操作316是成功的。如果其不是,则系统将检测到不一致性且将用信号通知监视器312。
虽然在本文中图示出并描述了特定实施方式,但本领域的技术人员将认识到的是在不脱离本公开的范围的情况下可以用多种替换和/或等价实施方式来替换所示和所述的特定实施方式。本申请意图覆盖在本文中讨论的特定实施方式的任何修改或改变。因此,意图在于仅仅由权利要求及其等价物来限制本公开。 

Claims (15)

1.一种信息技术(IT)服务管理方法,包括:
存储服务模型的期望实例,所述服务模型指定IT服务的特性;
存储所述服务模型的观察实例;
将所述观察实例与所述期望实例相比较;
基于所述比较来检测所述期望实例与所述观察实例之间的不一致性。
2.根据权利要求1所述的方法,还包括:
如果检测到不一致性,则修改所述期望实例。
3.根据权利要求1所述的方法,还包括:
如果检测到不一致性,则修改所述观察实例。
4.根据权利要求3所述的方法,其中,修改所述观察示例包括调用操作。
5.根据权利要求3所述的方法,其中,修改所述观察实例包括调用维修服务。
6.根据权利要求5所述的方法,还包括:
禁用所述检测不一致性,直至维修服务已完成维修。
7.根据权利要求1所述的方法,还包括:
确定所检测不一致性返回至一致状态的时间;以及
当所检测不一致性返回至一致状态时通知监视器服务。
8.根据权利要求1所述的方法,其中,所述不一致性包括性能退化和系统故障中的至少一个。
9.根据权利要求1所述的方法,其中,修改所述观察实例包括向所述IT服务添加资源。
10.根据权利要求1所述的方法,其中,修改所述观察实例包括改变所述IT服务配置。
11.一种信息技术(IT)服务管理系统,包括:
配置管理系统(CMS),其包括存储服务模型的期望实例的存储器;
监控服务,其向所述配置管理系统提供所述服务模型的观察实例;
其中,所述配置管理系统被配置成基于所述比较来检测所述期望实例与所述观察实例之间的不一致性。
12.根据权利要求11所述的系统,还包括:
维修服务,其被配置成在由CMS检测到不一致性时被调用。
13.根据权利要求11所述的系统,还包括:
监视器服务,其被配置成在由CMS检测到不一致性时被调用。
14.根据权利要求11所述的系统,其中,所述CMS被配置成在检测到不一致性时修改所述观察实例。
15.根据权利要求11所述的系统,其中,所述CMS被配置成在检测到不一致性时修改所述期望实例。
CN2010800693293A 2010-07-30 2010-07-30 信息技术服务管理 Pending CN103119576A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2010/043913 WO2012015425A1 (en) 2010-07-30 2010-07-30 Information technology service management

Publications (1)

Publication Number Publication Date
CN103119576A true CN103119576A (zh) 2013-05-22

Family

ID=45530393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010800693293A Pending CN103119576A (zh) 2010-07-30 2010-07-30 信息技术服务管理

Country Status (4)

Country Link
US (1) US9240931B2 (zh)
EP (1) EP2599007A1 (zh)
CN (1) CN103119576A (zh)
WO (1) WO2012015425A1 (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030221189A1 (en) * 2001-12-12 2003-11-27 Birum Derrick Jason Method and system for upgrading and rolling back versions
CN1787524A (zh) * 2005-06-22 2006-06-14 北京航空航天大学 分布式主动Web服务注册信息管理系统及其实现方法
US20090158272A1 (en) * 2007-12-18 2009-06-18 Verizon Data Services Inc. Configuration management center
CN101694625A (zh) * 2009-11-09 2010-04-14 金蝶软件(中国)有限公司 基于加密服务器管理的客户端软件更新方法及装置
CN101763568A (zh) * 2008-11-14 2010-06-30 镇江雅迅软件有限责任公司 一种备忘录提醒系统
JP2010171635A (ja) * 2009-01-21 2010-08-05 Kddi Corp Sipクライアント対応のデバイスをipサブシステムネットワークに接続させる位置登録方法及びシステム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10171635A (ja) * 1996-10-09 1998-06-26 N T T Data Tsushin Kk 分散環境におけるソフトウエア資源を管理するシステムと方法
US5893905A (en) * 1996-12-24 1999-04-13 Mci Communications Corporation Automated SLA performance analysis monitor with impact alerts on downstream jobs
KR100382851B1 (ko) 1999-03-31 2003-05-09 인터내셔널 비지네스 머신즈 코포레이션 분산형 데이터 처리 시스템에서 클라이언트 컴퓨터를관리하기 위한 방법 및 장치
US7496655B2 (en) * 2002-05-01 2009-02-24 Satyam Computer Services Limited Of Mayfair Centre System and method for static and dynamic load analyses of communication network
US20030233446A1 (en) * 2002-06-12 2003-12-18 Earl William J. System and method for managing a distributed computing system
US7451201B2 (en) 2003-09-30 2008-11-11 International Business Machines Corporation Policy driven autonomic computing-specifying relationships
US7707015B2 (en) * 2005-01-18 2010-04-27 Microsoft Corporation Methods for capacity management
US7870564B2 (en) 2006-02-16 2011-01-11 Microsoft Corporation Object-based computer system management
US8082234B2 (en) 2007-11-19 2011-12-20 Teradata Us, Inc. Closed-loop system management method and process capable of managing workloads in a multi-system database environment
US7870440B2 (en) * 2008-03-14 2011-01-11 Oracle America, Inc. Method and apparatus for detecting multiple anomalies in a cluster of components
US7493528B1 (en) 2008-05-15 2009-02-17 International Business Machines Corporation Resolving conflicts between multiple automation managers in the management of software resources using intention flags
US20110213712A1 (en) * 2010-02-26 2011-09-01 Computer Associates Think, Ink. Cloud Broker and Procurement System and Method
US9197514B2 (en) * 2010-03-31 2015-11-24 Paypal, Inc. Service level agreement based storage access

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030221189A1 (en) * 2001-12-12 2003-11-27 Birum Derrick Jason Method and system for upgrading and rolling back versions
CN1787524A (zh) * 2005-06-22 2006-06-14 北京航空航天大学 分布式主动Web服务注册信息管理系统及其实现方法
US20090158272A1 (en) * 2007-12-18 2009-06-18 Verizon Data Services Inc. Configuration management center
CN101763568A (zh) * 2008-11-14 2010-06-30 镇江雅迅软件有限责任公司 一种备忘录提醒系统
JP2010171635A (ja) * 2009-01-21 2010-08-05 Kddi Corp Sipクライアント対応のデバイスをipサブシステムネットワークに接続させる位置登録方法及びシステム
CN101694625A (zh) * 2009-11-09 2010-04-14 金蝶软件(中国)有限公司 基于加密服务器管理的客户端软件更新方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王虹宇: "《Linux服务器管理员教程》", 31 December 2001, article "Linux服务器管理员教程", pages: 252-260 *

Also Published As

Publication number Publication date
WO2012015425A1 (en) 2012-02-02
EP2599007A1 (en) 2013-06-05
US20130132534A1 (en) 2013-05-23
US9240931B2 (en) 2016-01-19

Similar Documents

Publication Publication Date Title
US11614943B2 (en) Determining problem dependencies in application dependency discovery, reporting, and management tool
US11379292B2 (en) Baseline modeling for application dependency discovery, reporting, and management tool
US11556459B2 (en) Intelligent services for application dependency discovery, reporting, and management tool
US11620211B2 (en) Discovery crawler for application dependency discovery, reporting, and management tool
US12079668B2 (en) Dependency analyzer in application dependency discovery, reporting, and management tool
US10915428B2 (en) Intelligent services and training agent for application dependency discovery, reporting, and management tool
US12099438B2 (en) Testing agent for application dependency discovery, reporting, and management tool
CN105556499B (zh) 智能自动缩放
CN105095056A (zh) 一种数据仓库数据监控的方法
CN105229613A (zh) 协调分布式系统中的故障恢复
CN107660289A (zh) 自动网络控制
CN105763395A (zh) 云环境下用于虚拟机和容器的监控管理方法及系统
CN106878096B (zh) Vnf状态检测通告方法、装置以及系统
CN105354102B (zh) 一种文件系统维护和修复的方法和装置
CN110291505A (zh) 减少应用的恢复时间
EP2390739A2 (en) A method and apparatus for providing industrial plant information
EP4242850A2 (en) Determining problem dependencies in application dependency discovery, reporting, and management tool
CN111610992A (zh) 部署组件更新处理方法、装置及存储介质
CN103119576A (zh) 信息技术服务管理
CN115562938A (zh) DevOps节点的数据处理方法、装置和服务器

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130522