CN101088072B - 用于监视基于交易的系统的方法和系统 - Google Patents

用于监视基于交易的系统的方法和系统 Download PDF

Info

Publication number
CN101088072B
CN101088072B CN200580044692.9A CN200580044692A CN101088072B CN 101088072 B CN101088072 B CN 101088072B CN 200580044692 A CN200580044692 A CN 200580044692A CN 101088072 B CN101088072 B CN 101088072B
Authority
CN
China
Prior art keywords
system resource
monitor
transaction performance
transaction
metric
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200580044692.9A
Other languages
English (en)
Other versions
CN101088072A (zh
Inventor
斯特科·麦克莱伦
文森佐·西亚卡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN101088072A publication Critical patent/CN101088072A/zh
Application granted granted Critical
Publication of CN101088072B publication Critical patent/CN101088072B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/81Threshold
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/86Event-based monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/865Monitoring of software
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2201/00Indexing scheme relating to error detection, to error correction, and to monitoring
    • G06F2201/87Monitoring of transactions

Abstract

一种用于监视基于交易的系统的方法,该方法利用度量的阈值来监视基于交易的系统的系统资源和交易性能数据,所述方法包括步骤:基于周期地以及在每次交易性能度量低于或高于某一阈值时收集系统资源数据和交易性能数据,触发在正常取样周期之外的系统资源数据的收集并存储将交易性能数据和系统资源数据相关联的标识符;融合所收集的系统资源数据和交易性能数据;对融合后的数据的每个系统资源或交易性能度量计算平均值;识别在有触发或没有触发的情况下获得的平均值之间存在重大差异的度量;根据所识别的度量平均值,计算要用于监视的系统资源度量的新阈值。

Description

用于监视基于交易的系统的方法和系统 
技术领域
本发明一般涉及系统性能,更具体地,本发明涉及一种用于自动地从影响交易性能的问题中导出征兆信号(symptom signatures)的方法和系统。 
背景技术
在使用IT资源运作商业(business)时,最重要的事情是系统提供在使得商业应用高效进行的服务等级上支持商业应用所需的功能。这要求以及时的方式来执行交易。典型地,当出现交易响应时间问题时,首先由终端用户经历,并且在该问题已经影响了商业之后,才向IT工作人员警告该问题。然后才开始故障检修的过程,并且检查IT资源以发现问题所在。 
存在复杂的交易监视工具,一旦交易响应时间超过预定阈值该交易监视工具就实时地警告IT工作人员。这对于典型的(先前的)方案是主要的改进,但是这些工具还不是很流行,并且在使用这些工具时存在牵连(implications)。例如,需要装备应用程序,以调用交易监视工具对交易的持续时间进行计时,并且该装备增加了交易自身的路径长度(path length),并且因此减慢了交易的执行。优选的是,在不使用直接影响交易自身的执行的方法的情况下,能够检测到降级的响应时间。 
在商务事业应用中,当交易未完成、或者交易格外慢时,则不可避免地在支持商业应用的IT资源(例如,数据库、文件系统、服务器)中的一个或多个中存在问题。IT资源中的、导致交易响应时间降级的问题是有限的和可重复的。通过观察IT资源的状态能够识别出导致服务降级的条件,将允许对问题情形作出快速反应,而不需要交易监视的广泛部署并且避免这样的监视牵连的路径长度开销。 
在系统管理的监视空间中,存在两种不同的监视类别:资源监视和交易监视。应用不同的技术来监视IT资源的状态和行为,其用于监视交易执行性能,并且以不同的工具和实践来实现两种规则(disciplines)。因此,尽管管理员可以具有关于系统中运作的交易的性能的信息、以及关于各种IT资源如 何动作的信息,但是将这两者结合起来并且平衡(leverage)两组数据以识别所观察的问题的根本原因是极为困难的。因此,在只有资源监视的情况下,不可能识别出导致较差的交易性能的问题。 
在寻找用于改进交易的响应时间的现有方法时,可以在下面的地址处的微软(微软是某些国家的微软公司的商标)站点的网页上找到一种方法: Http://www.microsoft.com/technet/prodtechnol/sscomm/reskit/rkcapmit.mspx。这些网页描述了一种用于因特网交易的能力模型。该方法企图通过测量系统监视参数来建立资源消耗的预测状态曲线,从而改进交易性能。然后,给出交易响应时间和吞吐量作为对预测系统资源消耗的模型的输入。如果该能力计划方法有助于评估(sizing)用于支持交易的系统,那么它不会有助于实时地监视交易性能。 
发明内容
因此,本发明的一个目标是提供一种自动地引导操作员实时地对系统资源作出反应的交易监视方法和系统。 
本发明的第二个目标是具有不创建减慢交易的插入代码的交易监视系统和方法。 
根据本发明的一个方面,提供一种用于监视具有系统资源监视器和交易性能监视器的、基于交易的系统的方法,这些监视器基于时间周期地、周期性地收集各个系统资源度量值和交易性能度量值,这些监视器还检测什么时候超过交易性能度量阈值,所述方法包括步骤: 
-每当超过交易性能度量阈值时,从交易性能监视器触发系统资源监视器在其正常时间周期之外额外地收集系统资源度量值; 
-对于多个时间周期,计算每个周期性地收集的系统资源度量值的平均值; 
-对于所述多个时间周期,计算每个额外地收集的系统资源度量值的平均值; 
-识别在利用额外收集系统资源度量值所获得的平均值和在利用基于时间周期收集系统资源度量值所获得的平均值之间存在显著差异的系统资源度量; 
-为所识别的系统资源度量设置在这两个计算的平均值之间的新阈值; 
其中,所述每当超过交易性能度量阈值时,从交易性能监视器触发系统资源监视器在其正常时间周期之外额外地收集系统资源度量值的步骤还包括,每当超过交易性能度量阈值时,交易性能监视器本身执行交易性能度量值的额外收集,包括所述额外收集的将交易性能度量和系统资源度量相关联的标识符,将该标识符提供给系统性能监视器以包括在系统资源度量值的系统资源监视器额外收集中。 
根据本发明的另一方面,提供一种服务提供方法,用于从管理服务器监视基于交易的服务器、能够利用度量的阈值本地监视基于交易的服务器的系统资源和交易性能,所述方法包括: 
-将系统资源和交易性能监视工具本地安装在被管理的服务器上; 
-基于周期地,在被管理的服务器上本地收集系统资源数据和交易性能数据; 
-每当超过交易性能度量阈值时,从交易性能监视器在被管理的服务器上本地触发系统资源监视器以在其正常时间周期之外额外地收集系统资源度量值; 
-从被管理的服务器向管理服务器发送数据; 
-在管理服务器上,对于多个时间周期,计算每个周期性地收集的系统资源度量值的平均值; 
-在管理服务器上,对于所述多个时间周期,计算每个额外地收集的系统资源度量值的平均值; 
-在管理服务器上,识别在利用额外收集系统资源度量值所获得的平均值和在利用基于时间周期收集系统资源度量值所获得的平均值之间存在显著差异的系统资源度量; 
-为所识别的系统资源度量设置在这两个计算的平均值之间的新阈值; 
-从管理服务器向被管理的服务器发送系统资源度量的新阈值; 
其中所述每当超过交易性能度量阈值时,从交易性能监视器在被管理的服务器上本地触发系统资源监视器以在其正常时间周期之外额外地收集系统资源度量值的步骤还包括,每当超过交易性能度量阈值时,交易性能监视器本身执行交易性能度量值的额外收集,包括所述额外收集的将交易性能度量和系统资源度量相关联的标识符,将该标识符提供给系统性能监视器以包括在系统资源度量值的系统资源监视器额外收集中。 
根据本发明的另一方面,提供一种用于监视具有系统资源监视器和交易性能监视器的、基于交易的系统的系统,这些监视器基于时间周期地、周期性地收集各个系统资源度量值和交易性能度量值,这些监视器还检测什么时候超过交易性能度量阈值,所述系统包括: 
-每当超过交易性能度量阈值时,从交易性能监视器触发系统资源监视器在其正常时间周期之外额外地收集系统资源度量值的装置; 
-对于多个时间周期,计算每个周期性地收集的系统资源度量值的平均值的装置; 
-对于所述多个时间周期,计算每个额外地收集的系统资源度量值的平均值的装置; 
-识别在利用额外收集系统资源度量值所获得的平均值和在利用基于时间周期收集系统资源度量值所获得的平均值之间存在显著差异的系统资源度量的装置; 
-为所识别的系统资源度量设置在这两个计算的平均值之间的新阈值的装置; 
其中,所述每当超过交易性能度量阈值时,从交易性能监视器触发系统资源监视器在其正常时间周期之外额外地收集系统资源度量值的装置还包括,每当超过交易性能度量阈值时,交易性能监视器本身执行交易性能度量值的额外收集,包括所述额外收集的将交易性能度量和系统资源度量相关联的标识符,将该标识符提供给系统性能监视器以包括在系统资源度量值的系统资源监视器额外收集中的装置。 
根据本发明的另一方面,提供一种服务提供系统,用于从管理服务器监视基于交易的服务器、能够利用度量的阈值本地监视基于交易的服务器的系统资源和交易性能,所述系统包括: 
-将系统资源和交易性能监视工具本地安装在被管理的服务器上的装置; 
-基于周期地,在被管理的服务器上本地收集系统资源数据和交易性能数据的装置; 
-每当超过交易性能度量阈值时,从交易性能监视器在被管理的服务器上本地触发系统资源监视器以在其正常时间周期之外额外地收集系统资源度量值的装置; 
-从被管理的服务器向管理服务器发送数据的装置; 
-在管理服务器上,对于多个时间周期,计算每个周期性地收集的系统资源度量值的平均值的装置; 
-在管理服务器上,对于所述多个时间周期,计算每个额外地收集的系统资源度量值的平均值的装置; 
-在管理服务器上,识别在利用额外收集系统资源度量值所获得的平均值和在利用基于时间周期收集系统资源度量值所获得的平均值之间存在显著差异的系统资源度量的装置; 
-为所识别的系统资源度量设置在这两个计算的平均值之间的新阈值的装置; 
-从管理服务器向被管理的服务器发送系统资源度量的新阈值的装置; 
其中所述每当超过交易性能度量阈值时,从交易性能监视器在被管理的服务器上本地触发系统资源监视器以在其正常时间周期之外额外地收集系统资源度量值的装置还包括,每当超过交易性能度量阈值时,交易性能监视器本身执行交易性能度量值的额外收集,包括所述额外收集的将交易性能度量和系统资源度量相关联的标识符,将该标识符提供给系统性能监视器以包括在系统资源度量值的系统资源监视器额外收集中的装置。 
根据本发明的一个方面,利用用于监视基于交易的系统的方法来实现这些目标,该方法利用度量(metric)的阈值来监视基于交易的系统的系统资源和交易性能数据,所述方法包括步骤: 
-基于周期地以及在每次传递交易性能度量时,收集系统资源数据和交易性能数据,触发系统资源的收集并存储将交易性能数据和系统资源数据相关联的标识符; 
-融合所收集的系统资源数据和交易性能数据; 
-对融合后的数据的每个系统资源或交易性能度量计算平均值; 
-识别在具有触发的情况下或在无触发的情况下获得的平均值之间存在显著差异的度量; 
-根据所识别的度量平均值,计算要用于监视的系统资源度量的新阈值。 
根据本发明的另一方面,该方法并进一步包括以下步骤,也实现了这些目标: 
-使用所计算的阈值用于系统监视;以及 
-按照需要将该方法的所有步骤重复多次,直到满足系统监视为止。 
根据本发明的另一方面,利用用于从管理服务器监视基于交易的服务器的、能够利用度量的阈值本地监视基于交易的服务器的系统资源和交易性能的服务提供方法,也实现了这些目标,所述系统包括: 
-将系统资源数据和交易性能数据监视工具本地安装在被管理的服务器上; 
-基于周期地和在每次传递交易性能度量时,在被管理的服务器上本地收集系统资源数据和交易性能数据,触发系统资源的收集并存储将交易性能数据和系统资源数据相关联的标识符; 
-从被管理的服务器向管理服务器发送数据; 
-在管理服务器上融合所收集的系统资源数据和交易性能数据; 
-在管理服务器上对融合后的数据的每个系统资源或交易性能度量计算平均值; 
-在管理服务器上识别在具有触发的情况下和在无触发的情况下获得的平均值之间存在显著差异的度量; 
-根据所识别的度量平均值,在管理服务器上计算要用于监视的系统资源度量的新阈值; 
-将系统资源度量的新阈值发送到被管理的服务器。 
根据本发明的另一方面,该方法并进一步包括以下步骤,实现这些目标: 
-在被管理的服务器上本地使用所计算的阈值来进行系统监视; 
-按照需要将从收集步骤开始的该方法的所有步骤重复多次,直到满足系统资源的监视为止;以及 
-在被管理的服务器上本地卸载交易性能数据监视工具。 
根据本发明的另一方面,利用计算机程序产品来实现这些目标,所述计算机程序产品包括当在计算机上执行所述程序时、用于执行根据上述方法的步骤的编程代码指令。 
根据本发明的另一方面,利用包括适用于实施根据上述方法的部件的系统,来实现这些目标。 
本发明平衡了交易监视和资源监视两者的能力,并以相关的前后关系将来自这两个源的信息进行组合以将资源行为与交易性能相关。具体地,在观 察到较差的交易性能的准确时刻给资源行为拍快照,从而突出在事情较差地共作时正在运行什么资源并且从而允许非常快地确定性能问题的根本原因所在的区域。具体地,其允许在IT资源行为方面表达交易监视问题,使得能够检测导致较差交易性能的条件,即使是在没有部署交易监视的系统中也是如此。 
附图说明
图1图示用于操作根据优选实施例的方法的计算系统的总视图; 
图2图示优选实施例的方法的一个方面的TP数据库和RM数据库的融合; 
图3示出在融合了TP数据库和RM数据库时在监视数据库中存储的测量结果; 
图4示出如果不使用优选实施例的方法的带有相关子的触发时,监视数据库的测量结果中的两个不完整测量; 
图5图示根据优选实施例的方法的、从TP到RM的带有相关子功能的触发; 
图6示出根据优选实施例方法的、在融合了TP数据库和RM数据库并且在使用了带有相关子的触发时,在监视数据库中存储的测量结果; 
图7示出在根据优选实施例的、从其中提取出问题信号的监视数据库中存储的测量结果; 
图8是根据优选实施例的方法的总的流程图; 
图9图示用于在训练周期期间操作优选实施例的方法的系统环境; 
图10图示用于在生产模式操作优选实施例的方法的系统环境; 
图11是在将优选实施例的方法实施为服务提供时的总的流程图。 
具体实施方式
图1图示了根据优选实施例的本发明的方法的环境。主系统(100)通过网络(115)连接到可以形成局域网(125、135、145)的服务器(155、125、135、145)。主系统作为服务器的中心点(central point)监视其自身的系统资源和交易性能。在优选实施例中,安装在主系统IBM Tivoli监视器(ITM)(120)、和IBM Tivoli交易性能监视器(130)上的软件工具,分别监视信息 技术(IT)系统资源和交易性能。注意,可以使用任何其它的用于监视系统资源(也称为RM或系统资源监视器或资源监视器)或用于测量交易性能的工具来实施本发明。也在主系统上操作的信号构造器(110)软件层包括本发明的优选实施例的新功能。操作员控制台连接到主系统,以便人工地监视操作。 
图2图示优选实施例的方法的一方面的TP数据库和RM数据库的融合。图2示出了组合的交易性能监视器(200)和资源监视器(220)。可以是图1的IBM Tivoli监视器(130)的交易性能监视器(200)利用由如今的TP产品使用的许多方法中的一种方法来收集交易响应时间。可以是图1的IBM Tivoli监视器(120)的IT资源监视器利用由如今的资源监视产品使用的许多方法中的一种方法来收集关于IT资源的可用性和性能的度量。这两个实体独立地将它们的数据写入共享数据库(230)中。基于周期地写入数据,鉴于该示例,我们将假设60秒的监视周期。 
图3示出在融合了TP数据库和RM数据库时在监视数据库中存储的测量结果。在图3中,观察到不稳定的交易性能,但是由于IT资源监视器正在60秒的周期内收集数据,所以如果在正在观察交易问题的同时收集到资源度量,则纯属是偶然的。融合由两个实体收集的信息可以允许作出与接下来的示例看上去相似的报告。该示例是有意过于简化的,并且只示出了非常少的度量。所示出的报告也是不现实的,这是由于它假设交易性能和IT资源监视数据收集是时间同步的。实际上,现在通过任何系统都是不能实现这种情况,而是由用于优选实施例的方法增加的。然而,在示例中为了清晰的目的,假设同步。 
图4示出在不使用优选实施例的方法的带有相关子(correlator)的触发的情况下、监视数据库的测量结果中的两个不完整测量。当在数据收集点不出现交易性能问题时,在该报告中无论如何都没有任何问题的痕迹。注意,在观察到较差的性能时,交易性能监视器可以写记录,但是没有对应的资源数据度量,没有什么引起该问题的指示。图4的测量结果报告示出了该情况。 
这里我们看到已经观察到两个问题,但是由于我们没有资源度量,所以我们不能得出关于什么对较慢的交易性能负责的任何结论。 
图5图示根据优选实施例的方法的、从TP到RM的带有相关子功能的触发。优选实施例的方案增加了交易性能和IT资源监视实体的协作,以对观 察到问题的时刻的情形拍完整的快照。 
在图5中,两个监视实体独立地监视它们的专门域,并且独立地将数据写入共享的数据库。当交易性能监视器观察到问题(响应时间超过阈值)时,其触发IT资源监视器在其正常监视周期之外收集数据。交易性能监视器还将相关子传递到资源监视器,以确保可以将交易数据和资源数据接合在一起,确保时间同步。因此,利用优选实施例的方法,可以捕捉到在先前报告中缺少的资源度量。 
优选实施例的方法增加了交易性能监视实体和IT资源监视实体之间的协作,以对观察到问题的时刻的情形拍完整的快照。这两个监视实体独立地监视它们的专门域,并且独立地将数据写入数据库(注意,该数据库可以是物理共享的,或者可以是两个分离的数据库、一个用于交易数据且一个用于资源数据,并在后面的步骤融合数据)。当交易性能监视器观察到问题时(响应时间超过阈值),其触发IT资源监视器在其正常监视周期之外收集数据。交易性能监视器还将相关子传递到资源监视器,以确保交易数据和资源数据可以接合在一起,确保时间同步。 
为了使该触发工作,资源监视器必须露出接口,以允许外部处理数据的收集。该接口将期待输入的参数,从而具有使得能够进行分离数据记录的融合的相关子。该相关子是唯一的标识符,其表示触发条件并且由交易监视器产生。在最简单的情况下,其可以是增量计数器。 
完整的测量结果报告可能与图6中所示的看上去一样。图6示出了当融合了TP数据库和RM数据库时且根据优选实施例的方法使用了带有相关子的触发时、如在监视数据库(230)中存储的测量结果。 
这里,我们可看到,当交易响应时间增加到超过可接受的水平时,可用存储量从可接受地执行交易时的正常值急剧地降低。我们还可看到,CPU使用是正常的,因此,CPU使用不是该问题的原因,而低存储器可用性或许是该问题的原因。在适当的时刻能够收集所有相关的数据并且能够使得来自不同源的数据相关联是识别性能问题的根本原因的关键,并且通过这两个监视组件的协作是有可能的。 
使用下面的方法来自动地确定哪些度量值是不利地(adversely)影响响应时间的问题的征兆。 
为每个收集时间间隔产生记录。每个记录包括下面信息: 
-时间戳 
-一列关键值对,每个表示度量类型及它在那个间隔的观察值 
-相关子(将为空,除非由交易性能监视器触发收集) 
计算在记录中包括的、具有非空相关子值的每个度量的平均值。类似地,计算在记录中包括的、具有空相关子值的每个度量的平均值。比较这两者。如果在异常条件下和在正常条件下观察到的度量的值之间存在很小的差异,则清楚的是那个特定度量的值不是影响交易响应时间的问题的征兆。如果在两个条件下的度量值中存在可观的差异,则或许可以将该度量用作减慢响应的问题的征兆。 
可以使用上述方法来构造“问题信号”,其用资源度量和资源值来表示当经历响应时间降级时系统的状态。这是非常有用的,因此之后IT资源监视器可以检测有可能引起响应时间问题的情形,即使是在系统中没有安装交易监视器并且交易监视器没有起作用也是如此。此外,由于交易监视在交易路径长度中加入了指令,所以监视交易响应时间无疑减慢了交易(虽然在实现得很好的监视器中为较小的等级),但在没有配置交易路径的情况下检测交易响应时间问题根本不增加任何通路长度。 
问题信号将包括示出正常状态和异常状态之间的值的显著差异的度量,以及在异常状态下这些度量呈现的值。如果资源监视器检测到所有的度量展现出匹配它们的异常状态水平的值,则将报告系统有可能经受降级的交易响应时间。与每个度量相关联的值将不是之前计算的平均值。如果之后通过限定而使用该相关联的值,则将只能识别出单个度量的“问题状态”的一半,甚至更少的总的问题信号。较佳的方式是使用在用于正常操作状态的平均和用于异常状态的平均中间的值、或在两个平均值之间的闭联集上的某个其它点。那个闭联集上的精确点是可以配置的,但是在优选实施例中,该点基于与异常状态中的平均值的标准偏差。 
在很快将要在文件中描述的、图中使用的示例示出了在收集到很少性能度量的单个系统上执行的单个交易。这是极简单的情况。优选实施例的方法也应用于商业交易,其跨越包括多个子交易的多个系统。 
例如,网络用户可以调用在网络服务器上、应用程序服务器上和数据库上产生子交易的操作。当交易监视器可以通过相关子的使用而与子交易绑在一起时,相同的相关子可以用于使得每个独立系统上的资源监视器数据与子 交易相关联,并且因此也与总的商业交易相关联。因此,优选实施例的方法可以对支持许多系统上的商业交易的所有资源的资源行为拍快照,并且突出在复杂情形下问题的原因。 
对IT资源监视的异常触发的扩展是使用TP触发机制以总是触发资源数据收集,从而总是可以传递相关子以允许来自各个组件的数据的精确加入。这也具有如下优点,即交易监视器一观察到交易开始,就可以指示资源监视器收集资源度量。这意味着度量值精确地反应正在执行交易时的情形。在先前描述的方法中,在交易监视器已经注意到慢响应时间之后(即,在交易已经完成之后)才收集度量。在大多数情况下,收集资源度量的较短延迟不会影响数据的有效性,但是在非常动态的环境下,情况可能很快地变化,并且甚至最小的延迟也会使得模式识别很困难。 
图7示出在根据优选实施例的、从其中提取出问题信号的监视数据库(230)中存储的测量结果。下面的示例示出如何可以容易地识别出其值在异常和非异常状态之间变化不大的度量。在这种情况下,度量A、C和D形成问题信号,而度量B和E不提供关于该问题任何有用的信息。 
图8是根据优选实施例的方法的总的流程图。将TP代码(200)安装(800)在主系统上,在主系统上已经操作了用于监视服务器的IT资源监视器(220)和信号构造器(110)。然后,从被监视的服务器上收集(810)TP数据和RM数据。在监视数据库中融合(820)所收集的数据。使用在TP记录和RM记录两者中包括的相关子将相关的信息相关联。对于每个度量,计算(830)平均值。识别重要的度量。识别出在“正常”记录和“异常”记录中一贯不同的度量,这是因为它们对问题信号作出了贡献。对于每个度量,计算(850)阈值。使用任意算法,或者可替代地,通过允许通过操作员控制台的消费者选择来计算“最佳”值。根据优选实施例,构造(850)封装了问题信号的资源模型。如在本公开中描述的资源模型概念是已经在诸如IBM Tivoli监视(ITM)的系统资源监视器中应用的概念。资源模型是机器可读的分组,其描述标识特定情形的条件。在ITM情况下,简单的RM包括可执行的脚本,其在ITM内运行以收集用来确定系统是否处于匹配正被监视的情形的状态所需的数据(度量)、相对于其比较度量值的一些阈值、以及组合比较结果以识别表示正被监视的情形的组合的一些布尔逻辑。ITM RM可以执行更复杂的逻辑,但是对于该方法的目的而言,资源模型表示由系统资源监视器消耗的、 并且使得它能够识别特定系统情形的机器可读的分组。 
然后,将资源模型部署(870)给被管理的服务器。如果需要较长的训练周期才能识别问题,则再次收集数据并执行相同的循环。如果用户不再需要该服务,则结束该方法。可以在特定的时间周期执行训练,并且然后(测试880的是),去除(885)TP代码并由资源监视工具使用所产生的信号。或者(测试880的否),可以继续执行训练,利用最近数据继续更新信号。如果TP代理可以在系统上保持有效,则这后一种方式是适合的。 
图9图示在训练周期期间、操作优选实施例的方法的系统环境。该图9示出在独立数据库(940、930、920)上收集数据、并且将该数据发送到它们各自的管理服务器组件的TP代理和RM代理。在该配置中,这两个代理在所有被管理的服务器上都运行,直到训练周期结束为止。一旦记录在数据库中继续存在,则新逻辑将记录融合在监视数据库(230)中,并构造信号。一般训练周期结束就将该信号部署到RM代理。 
图10图示了在生产模式下操作优选实施例的方法的系统环境。该图10示出了仅在一个被管理的服务器上运行的TP代理。当所有的管理服务器处理相同的交易并且在所有方面都非常相似时(它们形成HTTP服务器的群),该配置是适合的。可以利用在上面限于单个服务器的训练来进行“训练”。即使根据在仅仅一个服务器上收集的信息来构造信号,服务器也如此相似使得可以将所产生的信号应用于所有的服务器。 
可以将本发明实施为服务提供。资源监视工具的使用是非常繁琐的,大多数企业消费者将使用一种资源管理工具来进行传统的资源健康/可用性监视。交易监视工具的使用要简单得多,即使交易性能直接影响终端用户并且可以直接影响正在进行的商业。服务提供可以是资源监视信号的产生,其将检测降级的响应时间的情形,而不要求消费者购买额外的软件。这些信号转到消费者系统,因为它们将在消费者环境中从在训练周期期间收集的数据中产生。 
服务团队将在消费者系统中安装交易监视服务器,或带来在服务团队拥有的系统上预装的一个交易监视服务器,在消费者的、被管理的服务器上安装TP代理,并初始化数据的收集。在已经收集了足够的数据之后,服务团队将运行分析代码并构造信号,然后将其传递到消费者用于部署到资源监视器代理。 
图11是在被实施为服务提供时的优选实施例的方法的总的流程图。首先在要监视的服务器上安装(1100)TP代理。然后,从被监视的服务器收集(1110)TP数据和RM数据。然后,由代理将该数据发送(1120)到管理服务器。在管理服务器中执行下面的步骤(1130)。在监视数据库中,融合(1115)来自TP代理和RM代理的数据。在TP记录和RM记录两者中包括的相关子被用于使得相关的信息相关联。对于每个度量,计算(1125)平均值。识别(1135)重要的度量。识别出在“正常”记录和“异常”记录中一贯不同的度量,这是因为它们对问题信号作出了贡献。对于每个度量,计算(1145)阈值。使用任意算法,或者可替代地通过允许消费者选择来计算“最佳”值。构造(1155)封装了问题信号的资源模型。然后,将资源模型部署到消费者(1130)。如果网络服务的用户期望继续训练周期以识别问题,则再次收集数据并执行相同循环。如果用户不再需要该服务,则结束该方法。可以将训练执行一定时间周期,并且然后去除(1140)TP代理,监视方法结束(1150),且由资源监视代理使用所产生的信号。可替代地,训练可以继续执行,且利用最近数据继续更新信号。如果TP代理可以在被管理服务器的子集上保持有效,则该后一方式是适合的。 

Claims (8)

1.一种用于监视具有系统资源监视器和交易性能监视器的、基于交易的系统的方法,这些监视器基于时间周期地、周期性地收集各个系统资源度量值和交易性能度量值,这些监视器还检测什么时候超过交易性能度量阈值,所述方法包括步骤:
-每当超过交易性能度量阈值时,从交易性能监视器触发系统资源监视器在其正常时间周期之外额外地收集系统资源度量值;
-对于多个时间周期,计算每个周期性地收集的系统资源度量值的平均值;
-对于所述多个时间周期,计算每个额外地收集的系统资源度量值的平均值;
-识别在利用额外收集系统资源度量值所获得的平均值和在利用基于时间周期收集系统资源度量值所获得的平均值之间存在显著差异的系统资源度量;
-为所识别的系统资源度量设置在这两个计算的平均值之间的新阈值;
其中,所述每当超过交易性能度量阈值时,从交易性能监视器触发系统资源监视器在其正常时间周期之外额外地收集系统资源度量值的步骤还包括,每当超过交易性能度量阈值时,交易性能监视器本身执行交易性能度量值的额外收集,包括所述额外收集的将交易性能度量和系统资源度量相关联的标识符,将该标识符提供给系统性能监视器以包括在系统资源度量值的系统资源监视器额外收集中。
2.如权利要求1所述的方法,其中:
-所述对于多个时间周期、计算每个周期性地收集的系统资源度量值的平均值和/或对于所述多个时间周期、计算每个额外地收集的系统资源度量值的平均值的步骤还包括对于多个时间周期计算交易性能度量值的平均值。
3.如权利要求1或2所述的方法,还包括步骤:
-使用新阈值用于系统监视;以及
-按照需要将该方法的所有步骤重复多次,直到满足系统监视为止。
4.一种服务提供方法,用于从管理服务器监视基于交易的服务器、能够利用度量的阈值本地监视基于交易的服务器的系统资源和交易性能,所述方法包括:
-将系统资源和交易性能监视工具本地安装在被管理的服务器上;
-基于周期地,在被管理的服务器上本地收集系统资源数据和交易性能数据;
-每当超过交易性能度量阈值时,从交易性能监视器在被管理的服务器上本地触发系统资源监视器以在其正常时间周期之外额外地收集系统资源度量值;
-从被管理的服务器向管理服务器发送数据;
-在管理服务器上,对于多个时间周期,计算每个周期性地收集的系统资源度量值的平均值;
-在管理服务器上,对于所述多个时间周期,计算每个额外地收集的系统资源度量值的平均值;
-在管理服务器上,识别在利用额外收集系统资源度量值所获得的平均值和在利用基于时间周期收集系统资源度量值所获得的平均值之间存在显著差异的系统资源度量;
-为所识别的系统资源度量设置在这两个计算的平均值之间的新阈值;
-从管理服务器向被管理的服务器发送系统资源度量的新阈值;
其中所述每当超过交易性能度量阈值时,从交易性能监视器在被管理的服务器上本地触发系统资源监视器以在其正常时间周期之外额外地收集系统资源度量值的步骤还包括,每当超过交易性能度量阈值时,交易性能监视器本身执行交易性能度量值的额外收集,包括所述额外收集的将交易性能度量和系统资源度量相关联的标识符,将该标识符提供给系统性能监视器以包括在系统资源度量值的系统资源监视器额外收集中。
5.如权利要求4所述的方法,其中:
-所述在管理服务器上,对于多个时间周期、计算每个周期性地收集的系统资源度量值的平均值和/或在管理服务器上、对于所述多个时间周期,计算每个额外地收集的系统资源度量值的平均值的步骤还包括对于多个时间周期计算交易性能度量值的平均值。
6.如权利要求4或5所述的方法,还包括步骤:
-在被管理的服务器上本地使用所计算的新阈值来进行系统监视;
-按照需要将从所述基于周期地在被管理的服务器上本地收集系统资源数据和交易性能数据的步骤开始的该方法的所有步骤重复多次,直到满足系统资源的监视为止;以及
-在被管理的服务器上本地卸载交易性能数据监视工具。
7.一种用于监视具有系统资源监视器和交易性能监视器的、基于交易的系统的系统,这些监视器基于时间周期地、周期性地收集各个系统资源度量值和交易性能度量值,这些监视器还检测什么时候超过交易性能度量阈值,所述系统包括:
-每当超过交易性能度量阈值时,从交易性能监视器触发系统资源监视器在其正常时间周期之外额外地收集系统资源度量值的装置;
-对于多个时间周期,计算每个周期性地收集的系统资源度量值的平均值的装置;
-对于所述多个时间周期,计算每个额外地收集的系统资源度量值的平均值的装置;
-识别在利用额外收集系统资源度量值所获得的平均值和在利用基于时间周期收集系统资源度量值所获得的平均值之间存在显著差异的系统资源度量的装置;
-为所识别的系统资源度量设置在这两个计算的平均值之间的新阈值的装置;
其中,所述每当超过交易性能度量阈值时,从交易性能监视器触发系统资源监视器在其正常时间周期之外额外地收集系统资源度量值的装置还包括,每当超过交易性能度量阈值时,交易性能监视器本身执行交易性能度量值的额外收集,包括所述额外收集的将交易性能度量和系统资源度量相关联的标识符,将该标识符提供给系统性能监视器以包括在系统资源度量值的系统资源监视器额外收集中的装置。
8.一种服务提供系统,用于从管理服务器监视基于交易的服务器、能够利用度量的阈值本地监视基于交易的服务器的系统资源和交易性能,所述系统包括:
-将系统资源和交易性能监视工具本地安装在被管理的服务器上的装置;
-基于周期地,在被管理的服务器上本地收集系统资源数据和交易性能数据的装置;
-每当超过交易性能度量阈值时,从交易性能监视器在被管理的服务器上本地触发系统资源监视器以在其正常时间周期之外额外地收集系统资源度量值的装置;
-从被管理的服务器向管理服务器发送数据的装置;
-在管理服务器上,对于多个时间周期,计算每个周期性地收集的系统资源度量值的平均值的装置;
-在管理服务器上,对于所述多个时间周期,计算每个额外地收集的系统资源度量值的平均值的装置;
-在管理服务器上,识别在利用额外收集系统资源度量值所获得的平均值和在利用基于时间周期收集系统资源度量值所获得的平均值之间存在显著差异的系统资源度量的装置;
-为所识别的系统资源度量设置在这两个计算的平均值之间的新阈值的装置;
-从管理服务器向被管理的服务器发送系统资源度量的新阈值的装置;
其中所述每当超过交易性能度量阈值时,从交易性能监视器在被管理的服务器上本地触发系统资源监视器以在其正常时间周期之外额外地收集系统资源度量值的装置还包括,每当超过交易性能度量阈值时,交易性能监视器本身执行交易性能度量值的额外收集,包括所述额外收集的将交易性能度量和系统资源度量相关联的标识符,将该标识符提供给系统性能监视器以包括在系统资源度量值的系统资源监视器额外收集中的装置。
CN200580044692.9A 2004-12-24 2005-10-26 用于监视基于交易的系统的方法和系统 Expired - Fee Related CN101088072B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP04300953.9 2004-12-24
EP04300953 2004-12-24
PCT/EP2005/055580 WO2006066990A2 (en) 2004-12-24 2005-10-26 A method and system for monitoring transaction based systems

Publications (2)

Publication Number Publication Date
CN101088072A CN101088072A (zh) 2007-12-12
CN101088072B true CN101088072B (zh) 2011-04-20

Family

ID=36602114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200580044692.9A Expired - Fee Related CN101088072B (zh) 2004-12-24 2005-10-26 用于监视基于交易的系统的方法和系统

Country Status (6)

Country Link
US (1) US8856312B2 (zh)
EP (1) EP1828903B1 (zh)
JP (1) JP4866861B2 (zh)
CN (1) CN101088072B (zh)
TW (1) TWI374359B (zh)
WO (1) WO2006066990A2 (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8510430B2 (en) * 2006-08-03 2013-08-13 International Business Machines Corporation Intelligent performance monitoring based on resource threshold
WO2008056682A1 (fr) * 2006-11-06 2008-05-15 Nec Corporation Dispositif de collecte d'informations de ressource, procédé de collecte d'informations de ressource, programme et dispositif de génération de programme de collecte
KR100840129B1 (ko) * 2006-11-16 2008-06-20 삼성에스디에스 주식회사 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법
US8612573B2 (en) * 2008-08-28 2013-12-17 Ca, Inc. Automatic and dynamic detection of anomalous transactions
EP2350829B1 (en) * 2008-10-22 2019-04-10 6fusion USA Inc. Method and system for determining computer resource usage in utility computing
US20100122119A1 (en) * 2008-11-12 2010-05-13 International Business Machines Corporation Method to manage performance monitoring and problem determination in context of service
US8225119B2 (en) * 2009-02-23 2012-07-17 Microsoft Corporation Energy-aware server management
US8793694B2 (en) * 2009-02-26 2014-07-29 International Business Machines Corporation Policy driven autonomic performance data collection
CN102341789A (zh) * 2009-05-22 2012-02-01 国际商业机器公司 用于监视计算机系统的设备和方法
US10546332B2 (en) 2010-09-21 2020-01-28 Visa International Service Association Systems and methods to program operations for interaction with users
US9679299B2 (en) 2010-09-03 2017-06-13 Visa International Service Association Systems and methods to provide real-time offers via a cooperative database
US10055745B2 (en) 2010-09-21 2018-08-21 Visa International Service Association Systems and methods to modify interaction rules during run time
US8849469B2 (en) 2010-10-28 2014-09-30 Microsoft Corporation Data center system that accommodates episodic computation
US8677191B2 (en) * 2010-12-13 2014-03-18 Microsoft Corporation Early detection of failing computers
US8874733B2 (en) * 2011-12-14 2014-10-28 Microsoft Corporation Providing server performance decision support
US8862727B2 (en) * 2012-05-14 2014-10-14 International Business Machines Corporation Problem determination and diagnosis in shared dynamic clouds
US9773010B1 (en) * 2013-07-24 2017-09-26 Veritas Technologies Llc Information-driven file system navigation
US9798644B2 (en) * 2014-05-15 2017-10-24 Ca, Inc. Monitoring system performance with pattern event detection
US9933804B2 (en) 2014-07-11 2018-04-03 Microsoft Technology Licensing, Llc Server installation as a grid condition sensor
US10234835B2 (en) 2014-07-11 2019-03-19 Microsoft Technology Licensing, Llc Management of computing devices using modulated electricity
US11210669B2 (en) * 2014-10-24 2021-12-28 Visa International Service Association Systems and methods to set up an operation at a computer system connected with a plurality of computer systems via a computer network using a round trip communication of an identifier of the operation
US9864670B2 (en) * 2015-04-15 2018-01-09 International Business Machines Corporation Dynamically choosing data to collect in a system
CN105069296A (zh) * 2015-08-10 2015-11-18 国网浙江省电力公司电力科学研究院 一种设备阈值确定方法及系统
WO2017039627A1 (en) * 2015-08-31 2017-03-09 Hitachi, Ltd. Method and apparatus to manage it infrastructure based on application characteristics
US10452511B2 (en) 2016-04-29 2019-10-22 International Business Machines Corporation Server health checking
US10303576B1 (en) * 2018-05-04 2019-05-28 6Fusion Usa, Inc. Systems and methods for IT intelligence and management based on container-level metering
US11163633B2 (en) 2019-04-24 2021-11-02 Bank Of America Corporation Application fault detection and forecasting
CN110109803B (zh) * 2019-05-09 2022-05-06 腾讯科技(深圳)有限公司 一种用户行为上报方法及系统
CN110795003B (zh) * 2019-10-30 2021-07-13 邵忠 一种界面显示方法、装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09244998A (ja) 1996-03-14 1997-09-19 Nec Corp オンラインプログラム性能情報採取装置および採取方法
TW480394B (en) 2000-09-21 2002-03-21 Flystone Technology Co Ltd Method of remote monitor, maintenance, and generating electronic commerce
US20020099578A1 (en) * 2001-01-22 2002-07-25 Eicher Daryl E. Performance-based supply chain management system and method with automatic alert threshold determination
US20020198985A1 (en) * 2001-05-09 2002-12-26 Noam Fraenkel Post-deployment monitoring and analysis of server performance
US6643613B2 (en) 2001-07-03 2003-11-04 Altaworks Corporation System and method for monitoring performance metrics
WO2003009140A2 (en) 2001-07-20 2003-01-30 Altaworks Corporation System and method for adaptive threshold determination for performance metrics
JP2003263342A (ja) 2002-03-07 2003-09-19 Telecommunication Advancement Organization Of Japan 情報処理装置の監視装置および監視方法並びにそのプログラム
US8176154B2 (en) 2002-09-30 2012-05-08 Avaya Inc. Instantaneous user initiation voice quality feedback
US7310777B2 (en) * 2002-10-18 2007-12-18 Computer Associates Think, Inc. User interface for viewing performance information about transactions
US7693982B2 (en) * 2004-11-12 2010-04-06 Hewlett-Packard Development Company, L.P. Automated diagnosis and forecasting of service level objective states

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ROLIA JEROME ET AL.CORRELATING RESOURCE DEMANDINFORMATIONWITH ARM DATA FOR APPLICATIONSERVICES.PROCEEDINGS OF THE 1ST INTERNATIONAL WORKSHOP ON SOFTWARE AND PERFORMANCE..1998,219-230. *

Also Published As

Publication number Publication date
US20080097801A1 (en) 2008-04-24
JP4866861B2 (ja) 2012-02-01
EP1828903B1 (en) 2016-12-14
TW200634511A (en) 2006-10-01
WO2006066990A2 (en) 2006-06-29
JP2008537610A (ja) 2008-09-18
US8856312B2 (en) 2014-10-07
CN101088072A (zh) 2007-12-12
EP1828903A2 (en) 2007-09-05
WO2006066990A3 (en) 2007-01-18
TWI374359B (en) 2012-10-11

Similar Documents

Publication Publication Date Title
CN101088072B (zh) 用于监视基于交易的系统的方法和系统
US9672085B2 (en) Adaptive fault diagnosis
CN102436376B (zh) 用于分布式应用确认的模型检查
CN103069749B (zh) 虚拟环境中的问题的隔离的方法和系统
Wang et al. FD4C: Automatic fault diagnosis framework for Web applications in cloud computing
US7509343B1 (en) System and method of collecting and reporting system performance metrics
US9424157B2 (en) Early detection of failing computers
EP2759938B1 (en) Operations management device, operations management method, and program
US20160210515A1 (en) Event detection based on video metadata
Wang et al. Workload-aware anomaly detection for web applications
US20080195369A1 (en) Diagnostic system and method
CN102567185B (zh) 一种应用服务器的监控方法
Wang et al. Fault detection for cloud computing systems with correlation analysis
CN110888783A (zh) 微服务系统的监测方法、装置以及电子设备
US20140089744A1 (en) Information processing apparatus, information processing method, and recording medium
GB2434670B (en) Monitoring and management of distributed information systems
CN102257520A (zh) 应用的性能分析
US10360140B2 (en) Production sampling for determining code coverage
CN106030565B (zh) 使用搜索技术的计算机性能预测
CN105637488A (zh) 追踪源代码用于末端用户监控
Wang et al. Workload-aware online anomaly detection in enterprise applications with local outlier factor
CN102056200A (zh) 一种业务处理流程监控方法和系统
Cai et al. A real-time trace-level root-cause diagnosis system in alibaba datacenters
Yang et al. AID: efficient prediction of aggregated intensity of dependency in large-scale cloud systems
CN1963779A (zh) 用于测量计算系统的自主能力的方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110420

Termination date: 20201026

CF01 Termination of patent right due to non-payment of annual fee