CN101297536A - 用于准备在端点上执行系统管理任务的方法和系统 - Google Patents

用于准备在端点上执行系统管理任务的方法和系统 Download PDF

Info

Publication number
CN101297536A
CN101297536A CN200680040060.XA CN200680040060A CN101297536A CN 101297536 A CN101297536 A CN 101297536A CN 200680040060 A CN200680040060 A CN 200680040060A CN 101297536 A CN101297536 A CN 101297536A
Authority
CN
China
Prior art keywords
end points
system management
management server
data
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200680040060.XA
Other languages
English (en)
Inventor
C·科兰托诺
S·麦克莱伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of CN101297536A publication Critical patent/CN101297536A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0813Configuration setting characterised by the conditions triggering a change of settings
    • H04L41/0816Configuration setting characterised by the conditions triggering a change of settings the condition being an adaptation, e.g. in response to network events
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0876Aspects of the degree of configuration automation
    • H04L41/0886Fully automatic configuration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • H04L67/125Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks involving control of end-device applications over a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/149Network analysis or design for prediction of maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Automation & Control Theory (AREA)
  • Debugging And Monitoring (AREA)
  • Computer And Data Communications (AREA)
  • Hardware Redundancy (AREA)

Abstract

一种在计算机上自动定义用于在端点上执行系统管理任务的数据的方法、计算机程序和系统,所述端点由系统管理器管理。所述方法包括以下步骤:读取由系统管理服务器在同一时间段内针对所有端点收集的与所述端点相关的连接/断开连接信息;使用所述同一时间段内的连接/断开连接信息来计算可用性趋势;根据端点可用性趋势的预定分类和所计算的可用性趋势对端点进行分类;根据上述分类步骤的结果应用规则以创建用于定义在端点上执行系统管理任务的数据;以及使这些数据可用于所述系统管理服务器。在集中式实施例中,在所述系统管理服务器上执行所述方法的所有步骤。其他实施例包括使用业务服务器,所述业务服务器为所述系统管理服务器计算端点分类或用于定义系统管理任务的执行的数据。

Description

用于准备在端点上执行系统管理任务的方法和系统
技术领域
本发明一般地涉及系统管理,具体地说,涉及用于管理端点计算机和准备在这些端点上执行系统管理任务的方法和系统。
背景技术
系统管理员的任务是管理变得比以往更加复杂和多样的系统。任务包括安全性管理、可用性和性能管理、软件分发和配置,以及许多其他复杂的任务。存在很多专用于特定系统管理领域的系统管理产品,并且有助于管理员执行这些特定的任务,许多特定任务都需要在每个被管理系统上存在代理。系统管理供应商通常将此类被管理系统称为“端点”,虽然所述产品便于管理员执行系统管理任务,但是端点本身的管理通常成为管理员的沉重负担。
具体地说,集中系统管理通常要求管理服务器知道端点,并且在执行管理任务时可以与端点通信。为实现此目的,许多产品都采用端点注册表,在端点注册表中存储和维护有关所有端点的信息,并且采用诸如“心跳”之类的故障检测机制来维护管理系统的当前状况。与端点通信失败或端点未能通过心跳协议报告其运行状况表示存在需要注意的问题,以便将管理系统返回到完全功能状态。
在静态环境中,管理员将调查已断开端点的原因,并在由于出现问题而失去联系时将安排解决问题。如果失去通信的原因是由于系统已达使用寿命,则会从端点注册表中删除该端点。为简化此项工作,某些系统管理产品提供了显示已与其失去联系的端点的报告。但是,系统拓扑正变得比以往更加动态,并且按需计算将通过添加和移除服务器来自动扩展和收缩系统以适应工作负荷。这意味着端点的出现和消失是正常事件。此外,诸如VMware(VMware是VMware Inc.在美国和/或其他国家/地区的商标)之类的虚拟化环境的使用增加意味着将根据某一时刻的特定要求使用不同的系统映像(以及因此使用不同的端点)。管理员无法调查与端点失去联系的原因将变得更加常见,因为这将是一项永不停止且无效的任务。结果,已达使用寿命的端点未被标识,并且端点注册表未被清理。因此,管理员不知道系统中具有多少端点,并且系统本身无法有效地在被管理系统上执行管理任务。此外,如果系统出现了阻止端点与管理系统通信的问题,则不会检测到此问题并有效地将端点排除在正在进行的管理任务之外。
在端点系统上执行系统管理任务将提出能够预测何时将端点排除在正在进行的管理任务之外以及端点何时可供这些任务访问的问题。例如,当在端点上执行清单扫描以收集硬件和/或软件信息时,重要的是操作最有可能成功(多数系统正在运行),扫描过程不会明显影响系统性能(请勿在系统极度繁忙时进行扫描),并且最终数据收集在适当的期限内将减少以避免网络和数据服务器上的负载过多。当管理大量系统时,所有这些方面将变得尤其关键。
需要在端点上以最有效的方式执行诸如软件分发、工作负荷调度和可用性管理之类的系统管理任务。
无论是为了安装新产品或服务,还是为了应用维护(例如安全性修补程序)而将软件分发到端点时,重要的是分发最有可能成功并以有效的方式执行,以便从系统的角度在总体上优化操作。例如,安排在晚上将软件分发到“个人工作站”是毫无用处的,因为机器非常可能断开连接并且分发将失败。向这些机器的分发务必需要安排在工作时间进行。同样,安排在固定时间和天内将软件分发到“偶尔使用”端点也是无效的。此类分发非常可能失败,因为偶尔使用的端点很少处于活动状态。较好的方法是设置自动化以检测偶尔使用的端点何时连接,并立即以高优先级自动启动分发。另一方面,“高度可用的服务器”几乎始终处于连接状态,因此较好的策略就是当其他工作负荷未运行时,并且可能在未向其他类别进行分发的“空隙”期间,以低优先级分发到这些机器以便在网络上分散负载。
虽然传统的工作负荷调度器往往具有固定的作业执行目标,但是最近一些开发已经研究了动态选择执行目标的可能性。这与网格计算上下文尤其相关,在网格计算上下文中具有许多有时以“最大努力”为基础进行协同工作的计算系统。如果选择时考虑潜在目标的类别,则选择适当的目标将更加准确。例如,对于执行具有较长预期持续时间的作业而言,每次仅短期地连接到系统的端点将是不适当的选择。与选择具有较长平均连接时间的系统相比,此类工作站更可能在作业完成之前就断开连接。例如,如果要执行的作业需要在同一目标上重复运行以使用在同一系统上收集和存储的数据,则安排在“偶尔使用”端点上首先执行此作业将是不适当的。当需要连续执行时,应从查找活动端点确定性较大的类别中选择端点。如果每天连续运行或与系统用户的工作时间相符,则“高度可用的服务器”或“个人工作站”将是更适当的选择。
可用性管理集中于管理计算资源的可用性以使这些资源可以实现它们为所支持的企业提供服务的目的。可用性管理应影响当发现特定端点断开连接时所采取的操作。当“高度可用的服务器”处于非活动状态时,这是少见的情况,并且应该立即采取可以是警告操作员或执行自动化脚本的操作以重新激活机器。另一方面,如果发现“偶尔使用”端点处于非活动状态,这无关紧要,并且采取任何操作(即使发出事件)都将会增加混乱并分散对重要事件的注意力。当然,如果偶尔使用端点处于非活动状态的时间例如多于其连接之间的平均时间的5倍,则其行为已变得不同平常并且有理由进行调查。“个人工作站”可能无法直接用于业务过程,并且甚至在工作时间内它的不可用性可能仅表示用户在休假或生病。此外,如果不可用性超过特定限制(每年的假期天数),则可能表示必需采取某一操作。可能是机器出现故障并且其可以被从端点库移除(监视不再存在的端点毫无用处)。
题为“Agent Scheduler Incorporating Agent Profiles”的美国专利申请US2005/0138167号提出了针对将来某时间段内被分配用于在呼叫中心回答呼叫的人员数来自动提供职工总数建议以便与将来呼叫业务最好地匹配的问题。想法就是收集每日呼叫记录作为历史数据以预测将来的呼叫业务。因此职工总数建议将基于预测的数据以及基于工作人员和工作场所容量。
同样,收集和了解端点上的历史数据可以有助于选择在端点上执行系统管理任务的最佳时间。但是,需要定义什么是与端点相关的关键数据以及如何使用这些数据来帮助执行系统管理任务。
发明内容
因此,本发明的一个目标是提供一种方法和系统以便在由系统管理服务器管理的端点上自动定义系统管理任务的执行。
本发明的另一个目标是使用端点的历史数据预测端点的可能状态并自动定义成功机会最大的系统管理任务的执行。
如权利要求1中所述,这些目标通过一种在计算机上执行的用于自动创建数据的方法实现,所述数据用于由系统管理服务器定义系统管理任务在连接到所述系统管理服务器的分布式端点上的执行,所述方法包括以下步骤:
读取由所述系统管理服务器在一段时间内收集的与所述端点相关的连接/断开连接信息;
使用所述一段时间内的所述连接/断开连接信息来计算可用性趋势;
根据端点可用性趋势的预定分类和所计算的可用性趋势对端点进行分类;
根据上述分类步骤的结果应用规则以创建用于定义在端点上执行管理任务的数据;
使得所述系统管理服务器访问所创建的用于定义在端点上执行管理任务的数据。
这些目标还通过根据从属于权利要求1的权利要求2到12的方法实现。
根据权利要求13,这些目标还通过一种计算机程序产品实现,所述计算机程序产品包括当程序在计算机上执行时用于执行根据权利要求1到12中的任一权利要求所述的方法的各步骤的编程代码指令。
根据权利要求14,这些目标还通过一种包括适于执行根据权利要求1到12中的任一权利要求所述方法的装置的系统实现。
所附的从属权利要求中指定了本发明的更多实施例。
本发明通过分析端点的使用行为并识别代表其典型使用的使用模式,解决了预测端点状态以准备执行系统管理任务的问题。如果联系特定端点失败属于此端点的典型行为,则不会将此行为视为异常行为,并且不会向管理员报告此行为。另一方面,如果根据已观察的历史行为,此行为不是典型行为,则会向管理员报告此行为以采取操作调查异常情况。这允许管理员仅专注于异常行为。
本发明分析历史数据以便在端点处于活动状态并连接到管理系统时检测典型的端点行为。它使用几个因素来描述此行为,并在查看端点的当前状态时应用这些因素以了解当前状态是否为典型状态。这允许滤出正常端点行为的背景“噪音”,并且仅突出需要注意的异常行为以解决问题或清理注册表。将针对各个端点或针对行为相似的端点组执行此操作。可以对展示相似行为的端点进行分类,并且可以使用这些类别描述被引入系统的新端点以允许它们无需训练阶段即可受益于管理策略。
如在具体实施方式中所描述的那样,端点的分类允许实现非常有效的清单扫描策略。例如,可以在工作时间之外的任何时间定期扫描所有这些被识别为“高度可用的服务器”的系统,而“个人工作站”必须在工作时间内扫描(可能在非高峰时间,例如午休时间)。最后,应该在“偶尔使用”系统变为活动后立即对其进行扫描,因此扫描必须具有最高优先级并且应该由端点登录而被自动触发。
更具体地说,如在具体实施方式中所描述的那样,端点的分类将导致用于呈现总体上更有效并且可靠的系统管理的动态分组。将针对不同的类别定义不同的策略以便针对每个类别优化系统管理任务。
诸如清单扫描、软件分发、工作负荷调度和可用性管理之类的不同系统管理规则受益于将端点分组为各个类别,所述类别例如可以是“个人工作站”、“高度可用的服务器”、“季节使用”和“偶尔使用”。
应注意的是,类别并不限于本发明中所述的实施例中引用的实例,而是可以根据如上所述的端点行为分析的结果进行扩展和增加,并且进行细化或粗化。
附图说明
图1示出了用于运行优选实施例的方法的系统环境;
图2是优选实施例的方法的总体流程图;
图3示出了根据优选实施例的使用有关端点的已记录数据说明端点何时连接的图;
图4示出了根据优选实施例的说明根据优选实施例的不同端点类别的可用性周期的图;
图5(5A、5B、5C)示出了针对某些属于如根据优选实施例所定义的某些端点类别的端点而测量的使用模式的某些实际实例的图;
图6(6A、6B、6C)示出了当测量根据优选实施例的端点的最大连续运行时间时在实际环境中获取的数据;
图7示出了用于运行作为服务实现的本发明的方法的系统环境;
图8是作为服务实现的本发明的方法的总体流程图。
具体实施方式
图1示出了用于运行优选实施例的方法的系统环境。本发明的优选实施例在具有管理分布式计算机、端点(110、120)的系统管理服务器(SMS100)的分布式系统管理环境中实现,所述端点通过网络(130)连接到SMS(100)。在SMS上运行中央系统管理程序(140),中央系统管理程序与典型客户机/服务器体系结构中的每个端点上运行的代理(115)通信。所述通信使用TCP/IP的专用协议并且可以被加密或不加密。SMS由管理员通过管理员控制台(155)进行控制。
分布式环境中的系统管理程序的作用是与代理通信以收集代理连接信息并将此信息存储在可以是简单文件或数据库的中央日志(150)中。系统管理程序通过管理员控制台(155)与管理员联系以显示警告和端点信息,它还接收来自管理员的命令以在端点上启动/停止和调度工作负荷或调度向端点分发软件。
对于优选实施例的解决方案,分类程序(160)在SMS上运行。分类程序包括收集器模块(所谓的代理状态收集器)(165),以及分析器模块(所谓的使用模式分析器)(170)。
代理状态收集器负责收集端点上与每个端点上的活动相关的有用信息。要收集的信息是那些与端点计算机的使用相关的信息。这些信息可以使用批作业从系统管理程序的中央日志文件或数据库中提取,或者可以使用不停的后台进程动态且定期地收集。优选地,由代理状态收集器提取或直接收集的信息存储在历史数据库(175)中。
分类程序的第二模块是使用模式分析器。使用模式分析器负责解释代理状态收集器收集的历史数据并为系统管理程序提供处理后的数据以准备系统管理任务执行数据。使用模式分析器定期执行,优选地每周执行。它将读取历史数据库中的信息,处理这些信息以及创建对应于不同使用行为并将对应于不同系统管理任务执行策略的端点分类组。
可选地,使用模式分析器可以检测端点的使用行为的变化并且可以执行任务以响应特定变化,例如向管理员控制台发送警告或从被管理系统的列表中删除端点本身。当发生变化时,使用模式分析器执行的任务将在表(即,本文后面针对图2的说明所述的可由管理员修改的使用变化任务表)中列出。在实际环境中,管理员将检查此变化的原因,此变化可以是端点系统用户在使用端点系统中的实际变化或有待进一步调查的故障。
对于优选实施例的解决方案,系统管理程序(140)添加了新的模块,即应用策略程序(180),它能够读取使用模式分析器提供的分类结果并应用与分类相关的策略以便自动创建系统管理任务执行数据。然后,系统管理程序自动或在管理员正常请求时启动任务的执行。
图2是优选实施例的方法的总体流程图。在第一步(200),代理状态收集程序收集有关端点可用性的信息并使用每个被管理代理的连接状态填充表。代理状态收集器使用中央系统管理程序的服务来定期检查每个代理状态,并将每个被管理代理的连接状态存储在代理状态表(205)中。下文提供了代理状态表的一个实例,其中包含通过在每个小时对代理执行ping操作而获取的代理状态。
代理状态表:
Figure A20068004006000121
收集代理状态数据的一种备选方法是独立于系统管理程序而读取系统管理程序的中央日志(150)中的此信息:
代理状态表:(205)
Figure A20068004006000122
定期地(例如每周),使用模式分析器读取代理状态表以计算(210)所观察周期的相关参数。在优选实施例中,这些参数是max_connection_time和connection_ratio,计算如下:
connection_ratio=(总的连接时间)/(总的断开连接时间)
然后,使用模式分析器根据下表中预定义的活动类对代理进行分类(220):
使用模式分类表(225)
Figure A20068004006000132
使用模式分析器的代理分类数据输出被存储在历史数据库(175)中,如下所示:
历史数据库记录:
Figure A20068004006000141
可选地,使用模式分析器可以根据在上一步骤中获取的分类结果来执行(240)某些已在表,即使用变化任务表(235)中预定义的任务。作为一个实例,使用模式分析器将每个代理的当前分类与已在之前观察周期计算的分类进行比较。如果使用模式分析器检测到任何变化(对测试230的回答为“是”),则使用模式分析器执行(240)使用变化任务表中指定的任务:
使用变化任务表(235)
Figure A20068004006000142
Figure A20068004006000151
在执行系统管理任务之前,应用策略程序(180)处理(250)使用模式分析器在历史数据库中创建的数据并定期,优选地在使用模式分析器所用的同一周期(例如一周),检查历史数据库中代理的当前分类,并应用管理策略表(255)中(例如由管理员)预定义的管理策略以自动准备系统管理任务执行数据。应用策略程序可以使用本领域中存在的能够解释以预定语法编写的策略的程序。用于解释策略的技术的一个实例来自IBM TivoliEnterprise Console(TEC)产品。TEC收集从其他系统元件发送的事件并读取描述在收到预定事件组合时要采取何种操作的规则。TEC解释采用一种名为Prolog的语言表达的规则。任何能够定义和解释诸如TEC之类的规则的程序都可用于应用策略程序的执行。管理策略表的一个实例可以为:
管理策略表(255)
Figure A20068004006000152
Figure A20068004006000161
要指出的是,管理策略表(255)可以包含诸如工作负荷调度、可用性管理或软件分发之类的不同域的任务执行数据。对于可用性管理,一个策略可以包括设置不同阈值以便在系统不可用时发送警告:如果系统被分类为“高度可用”,则阈值较低(例如,不可用时间为1小时),如果系统被分类为“个人工作站”,则阈值较高(例如15天)。
应用策略程序(180)的输出中的数据可以是文件,即应用策略数据文件(290)。与端点上工作负荷调度相关的系统管理任务的数据包括日期、时间、端点标识符以及要在端点上启动的系统管理任务的标识符。系统管理程序将作为应用策略程序的输出自动获得此数据,如其从管理员控制台上的管理员输入的命令中获得相同的信息那样。
应用策略程序可以提供采用系统管理程序可直接理解的语言的应用策略数据文件(290)。然后,系统管理程序正常启动端点上的任务执行。要指出的是,管理员可以检查和覆盖包含系统管理任务数据的文件,如他通过系统管理程序用户接口对现有系统管理程序所采取的操作那样。
作为一种反馈回路,负责定义表,具体地说使用模式分类表(225)和管理策略表(255)的内容的管理员可以根据端点上执行的系统管理任务的成功来调整这些表的内容。
图3示出了使用有关端点的已记录数据说明端点何时连接的图。有关端点何时连接到管理系统的信息被记录和存储在代理状态表中。随时间查看的此信息可以通过包括如图3中所示的两种状态:活动(300)和非活动(310)的图来针对每个端点进行汇总。通过阅读此图,可以进行多个测量以获取一些也在图3中示出的对随时间变化的端点行为进行分类的因素。
测量a(a1、a2、a3、a4、a5)代表与管理系统连接的每个不同周期。
测量b(b1、b2、b3、b4)代表与管理系统断开连接的每个不同周期。
测量c代表与所需分类的类型相关的观察周期。例如,一天、一周、一年。
测量d代表从观察周期(c)的开始到观察周期内的第一次断开连接的连接时间段。
测量e(未示出)代表从观察周期内的最后一次连接到观察周期结束的连接时间段。
测量f(未示出)代表从观察周期的开始到观察周期内的第一次连接的断开连接时间段。
测量g代表从观察周期(c)内的最后一次断开连接到观察周期结束的断开连接时间段。
时间m(m1、m2、m3、m4、m5)代表发生(或发现)断开连接的时间。
时间n(n1、n2、n3、n4)代表发生(或发现)断开连接的时间。
可以从上述测量中导出其他因素:
连续连接之间的时间tconnect为ni-ni-1
连续断开连接之间的时间tdisconnect为mi-mi-1
观察周期(c)内的连接时间与断开连接时间的比率(connect_ratio)为(d+a1+...+an+e)/(f+b1+...+bn+g)。
图4示出了说明不同端点类别的可用性周期的图。这些图示出了可能成为使用模式的内容的一些实例。
个人工作站(430)
使用模式显示了计算机在工作日的非常规则的使用。实际上在工作日期间tconnect=1天,并且tdisconnect=1天。每周的总连接时间为a1+a2+a3+a4+a5=60小时。连接时间与断开连接时间的比率connect_ratio=60/108=0.56。
高度可用的服务器(400)
此计算机的特征是具有非常高的可用性。它通常处于连接状态,并且在一年内只有几次断开连接。tdisconnect可能平均为大约3个月,并且不一定是规则的。每个观察周期的总连接时间将趋向于观察周期(c)的总经过时间。connect_ratio将非常高。
季节使用(410)
此计算机显示了规则性和重复的可用性周期,即使它通常未处于连接状态也是如此。tconnect是规则的。每个观察周期(c)的总连接时间将随着c的增加而趋向于降低。当在较长观察周期内测量时,connect_ratio将不会非常高。
偶尔使用(420)
此计算机在较长观察周期内具有非常低的连接时间。tconnect不可预测。此类计算机被激活以再现特定的客户问题或在特定平台上进行回归测试。
图5(5A、5B、5C)示出了针对某些属于如所定义的某些端点类别的端点而测量的使用模式的某些实际实例的图。
个人工作站
曲线(500)显示了计算机在工作日的非常规则的使用。图5中监视的工作站在观察周期的第二个星期五未处于活动状态,这可能由于所有者正在休假。
高度可用的服务器
曲线(520)显示了此系统的非常高可用性的特性,此系统通常处于连接状态,并且在一年内只有几次断开连接。
偶尔使用
曲线(510)显示了有时出现的低连接时间。
图6(6A、6B、6C)示出了当测量端点的最大连续运行时间(即在固定观察周期(1周=168小时)中到管理系统的最长连接周期)时在实际环境中获取的数据。
第一曲线(600)显示了所有被观察机器的测量a的最大值的总体分布。此分布在大约a=10小时处具有一个高峰,并在观察周期结束处(a=168小时)具有另一个高峰。
下一个曲线(610)是曲线(600)在其大约10小时的高峰处的放大:测量a在此范围的所有端点通常可以被分类为“个人工作站”。
下一个曲线(620)是曲线(600)在观察周期结束处(168小时)的放大:测量在此范围的所有端点通常可以被分类为“高度可用的服务器”。
图7示出了用于运行作为服务实现的本发明的方法的系统环境。系统管理服务器(100)将使用业务组服务器(service team server)(700)的服务获取最佳系统管理任务执行数据以便在其端点上使用。对于优选实施例的集中解决方案,中央系统管理服务器(100)根据已计算的系统管理任务执行数据在通过网络(130)连接的端点(110)上执行系统管理任务。在每个端点上,代理(115)被激活并与在SMS上运行的系统管理程序(140)通信。在客户机服务器环境中,用作客户机的SMS的系统管理程序通过网络(130)与针对系统管理程序以服务器模式运行的业务组服务器(700)程序通信。与集中式优选实施例类似,包括代理状态收集器(765)和使用模式分析器(770)的分类程序(760)在业务组服务器上运行。
根据一个实施例,系统管理程序访问业务组服务器以请求对其端点进行分类。在业务组服务器(750)上,分类程序(760)本身并不收集端点信息,而是访问系统管理服务器上的系统管理程序的中央日志(150)。对于集中解决方案,分类程序存储在历史数据库(775)中的分类数据被发送到系统管理服务器。由分类程序在业务组服务器上维护历史数据库。安装在系统管理服务器上的应用策略程序(180)使用历史数据库数据来生成在端点上执行系统管理任务的信息。在此实施例中,业务组服务器上没有安装应用策略程序(780)。业务组服务器用于为系统管理服务器提供端点的分类,系统管理服务器能够使用此分类来生成如所述任何实施例创建的执行系统管理任务的那些数据。
在作为服务的本发明的第二实施例中,应用策略程序(780)在业务组服务器(750)上执行以创建它将发送到系统管理服务器上的系统管理程序的系统管理任务执行数据,将从系统管理服务器相应地启动端点上的系统管理任务的执行。在此实施例中,系统管理服务器上没有安装应用策略程序(180)。业务组服务器用于向订阅此服务的系统管理服务器提供系统管理任务执行数据。
图8是作为服务实现的本发明的方法的总体流程图。在初始步骤(未在图8中示出),SMS向业务组服务器发送请求,以便在一个实施例中提供系统管理任务执行数据或在作为服务的本发明的第二实施例中仅提供端点分类数据。位于业务组服务器上的代理状态收集程序(765)将获取位于SMS上的中央日志(150)的副本(750),读取(801)端点的连接数据,并使用每个被管理代理的连接状态填充表,即填充代理状态表(805)。代理状态表与优选实施例的集中解决方案相同,但位于业务组服务器上。
定期地(例如每周),位于业务组服务器上的使用模式分析器(770)读取代理状态表以计算(810)观察周期的相关参数。然后,位于业务组服务器上的使用模式分析器(770)根据位于业务组服务器上的使用模式分类表(825)中预定义的活动分类对代理进行分类(820)。使用模式分类表可以与优选实施例的集中解决方案相同。使用模式分析器所创建的代理分类数据被存储在历史数据库(775)中,该历史数据库可以与优选实施例的集中解决方案相同并位于业务组服务器上。
在作为服务的本发明的第一实施例中,位于业务组服务器上的应用策略程序(780)处理(850)使用模式分析器在历史数据库(775)中创建的数据并定期,优选地在使用模式分析器所用的同一周期(例如一周),检查历史数据库中代理的当前分类,并应用管理策略表(855)中(例如由管理员)预定义的管理策略,以自动准备系统管理任务执行数据。管理策略表可以与优选实施例的集中解决方案相同但位于业务组服务器上。对于集中解决方案,应用策略程序可以使用本领域中存在的能够解释以预定语法编写的策略的程序。用于解释策略的技术的一个实例来自IBM TivoliEnterprise Console(TEC)产品。TEC收集从其他系统元件发送的事件并读取描述在收到预定事件组合时要采取何种操作的规则。TEC解释采用一种名为Prolog的语言表达的规则。任何能够定义和解释诸如TEC之类的规则的程序都可用于应用策略程序的执行。
应用策略程序在输出中提供用于任务调度的数据,优选地在采用系统管理程序可理解的语言的应用策略数据文件(890)中提供所述数据。在最后步骤(未在图8中示出),应用策略程序向SMS发送(860)应用策略数据文件(890)。SMS将根据从业务组服务器接收的数据在其端点上完成系统管理任务的执行。对于集中解决方案,管理员可以检查和覆盖包含系统管理任务执行数据的文件,如他通过系统管理程序用户接口对现有系统管理程序所采取的操作那样。
作为一种反馈回路,要指出的是,负责调度优化和内部表定义(具体地说,使用模式分类表(825)和管理策略表(855)的内容)的业务组专家可以根据SMS站点提供的有关在端点上执行的系统管理任务的成功反馈来调整这些表的内容。
当根据作为服务的本发明的第二实施例实现本发明时,SMS向业务组服务器发送初始请求(未在图8中示出),以便为在SMS上运行的系统管理程序提供端点分类数据以执行系统管理任务。业务组服务器上的分类程序(760)在作为服务的本发明的第一实施例中运行以创建端点分类。最后,分类程序(760)向SMS发送历史数据库(775)中存储的分类数据。
在作为服务的本发明的第二实施例中,应用策略程序(180)位于系统管理服务器上,它处理(850)业务组服务器所发送的分类数据,并在输出(可以是文件(290))中以系统管理程序可理解的语言创建系统任务执行数据。应用策略程序(180)应用管理策略表(255)中(例如由管理员)预定义的管理策略,以自动准备系统管理任务执行数据。管理策略表可以与优选的集中解决方案相同。在SMS上,系统管理程序然后根据应用策略程序所创建的数据在其端点上完成系统管理任务的执行。

Claims (14)

1.一种在计算机上执行的用于自动创建数据的方法,所述数据用于由系统管理服务器定义系统管理任务在连接到所述系统管理服务器的分布式端点上的执行,所述方法包括以下步骤:
读取由所述系统管理服务器在一段时间内收集的与所述端点相关的连接/断开连接信息;
使用所述一段时间内的所述连接/断开连接信息来计算可用性趋势;
根据端点可用性趋势的预定分类和所计算的可用性趋势对端点进行分类;
根据上述分类步骤的结果应用规则以创建用于定义在端点上执行管理任务的数据;
使得所述系统管理服务器访问所创建的用于定义在端点上执行管理任务的数据。
2.如权利要求1中所述的方法,还包括:
预定义端点可用性趋势的分类;
预定义用于定义在端点上执行系统管理任务的规则。
3.如权利要求1或2中所述的方法,还包括以下步骤:
所述系统管理服务器接收用于定义在分布式端点上执行系统管理任务的数据。
4.如权利要求1到3中的任一权利要求所述的方法,其中所述应用规则的步骤包括应用与端点的工作负荷管理相关的规则以创建用于调度要在所述端点上执行的作业的数据。
5.如权利要求1到4中的任一权利要求所述的方法,其中所述应用规则的步骤包括应用与端点的系统可用性相关的规则以创建用于监视所述端点的可用性的数据。
6.如权利要求1到5中的任一权利要求所述的方法,其中所述应用规则的步骤包括应用与端点上的软件分发相关的规则以创建用于调度将软件分发到所述端点的数据。
7.如权利要求1到6中的任一权利要求所述的方法,还包括以下初始步骤:
所述系统管理服务器向在所述端点上运行的代理请求所述连接/断开连接信息并将所述信息存储在可由所述计算机访问的存储装置中。
8.如权利要求1到7中的任一权利要求所述的方法,其中所述计算步骤包括计算限定所述可用性趋势的预定参数的步骤。
9.如权利要求8中所述的方法,其中在所述计算步骤中,限定所述可用性趋势的第一预定参数是所述一段时间内的最大连接时间,并且限定所述可用性趋势的第二参数是被总断开连接时间相除的总连接时间。
10.如权利要求1到9中的任一权利要求所述的方法,还包括以下初始步骤:
从所述系统管理服务器向业务服务器请求所述应用步骤的结果;
所述业务服务器执行所述读取、计算、分类和应用步骤;
所述业务服务器通过向所述系统管理服务器发送所创建的用于定义在端点上执行管理任务的数据来执行所述访问步骤。
11.如权利要求1到9中的任一权利要求所述的方法,还包括以下初始步骤:
从所述系统管理服务器向业务服务器请求所述分类步骤的结果;
所述业务服务器执行所述读取、计算和分类步骤;
所述业务服务器向所述系统管理服务器发送所分类的端点;
所述系统管理服务器执行所述应用步骤;
所述系统管理服务器通过在存储装置中存储所述应用步骤的结果来执行所述访问步骤。
12.如权利要求1到9中的任一权利要求所述的方法,其中:
所述系统管理服务器执行所述读取、计算、分类和应用步骤;
所述系统管理服务器通过在存储装置中存储所述应用步骤的结果来执行所述访问步骤。
13.一种计算机程序产品,包括当程序在计算机上执行时用于执行根据权利要求1到12中的任一权利要求所述的方法的各步骤的编程代码指令。
14.一种系统,包括适于执行根据权利要求1到12中的任一权利要求所述的方法的装置。
CN200680040060.XA 2005-10-26 2006-08-30 用于准备在端点上执行系统管理任务的方法和系统 Pending CN101297536A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP05110040 2005-10-26
EP05110040.2 2005-10-26

Publications (1)

Publication Number Publication Date
CN101297536A true CN101297536A (zh) 2008-10-29

Family

ID=37968181

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200680040060.XA Pending CN101297536A (zh) 2005-10-26 2006-08-30 用于准备在端点上执行系统管理任务的方法和系统

Country Status (4)

Country Link
US (1) US8447848B2 (zh)
CN (1) CN101297536A (zh)
TW (1) TW200737830A (zh)
WO (1) WO2007048653A2 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112840323A (zh) * 2018-09-11 2021-05-25 纬湃科技有限责任公司 检测任务消失的方法

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8180873B2 (en) * 2006-11-14 2012-05-15 Fmr Llc Detecting fraudulent activity
JP2009151560A (ja) * 2007-12-20 2009-07-09 Hitachi Ltd リソースの管理方法、情報処理システム、情報処理装置、及びプログラム
US8102865B2 (en) * 2008-05-16 2012-01-24 Microsoft Corporation Group based allocation of network bandwidth
US20090326728A1 (en) * 2008-06-27 2009-12-31 Sharp Laboratories Of America, Inc. Systems and methods for controlling power usage on a device
US8717883B2 (en) * 2010-12-17 2014-05-06 Verizon Patent And Licensing Inc. Media gateway health
US9450839B2 (en) * 2012-11-09 2016-09-20 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Efficient network bandwidth utilization in a distributed processing system
US10642645B2 (en) 2013-06-21 2020-05-05 Microsoft Technology Licensing, Llc Network mode conflict resolution
US20140379884A1 (en) * 2013-06-21 2014-12-25 Microsoft Corporation Prioritization of network control operations
US10572248B2 (en) * 2015-08-12 2020-02-25 Blackberry Limited Groups of endpoints and targeting of releases and packages to endpoints
US10365912B2 (en) 2015-08-12 2019-07-30 Blackberry Limited Delivery mechanisms for deployment of releases of packages to endpoints
US10229137B2 (en) 2015-08-12 2019-03-12 Blackberry Limited Management of upgradeable endpoints
CN105471671A (zh) * 2015-11-10 2016-04-06 国云科技股份有限公司 一种云平台资源自定义监控规则的方法
CN105376100B (zh) * 2015-12-09 2019-05-21 国云科技股份有限公司 一种适用于云平台资源监控的分布式告警规则评估方法
US10831466B2 (en) * 2017-03-29 2020-11-10 International Business Machines Corporation Automatic patch management
US10289403B1 (en) 2018-03-29 2019-05-14 Microsoft Technology Licensing, Llc Enhanced server farm patching system for enabling developers to override off-peak patching schedules
US10585659B2 (en) * 2018-03-29 2020-03-10 Microsoft Technology Licensing, Llc Enabling tenant administrators to initiate request driven peak-hour builds to override off-peak patching schedules

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6038586A (en) * 1993-12-30 2000-03-14 Frye; Russell Automated software updating and distribution
US5914879A (en) * 1997-03-04 1999-06-22 Advanced Micro Devices System and method for calculating cluster tool performance metrics using a weighted configuration matrix
US6901442B1 (en) 2000-01-07 2005-05-31 Netiq Corporation Methods, system and computer program products for dynamic filtering of network performance test results
US7181519B2 (en) * 2000-12-11 2007-02-20 Silverback Technologies, Inc. Distributed network monitoring and control system
US7328261B2 (en) 2001-11-21 2008-02-05 Clearcube Technology, Inc. Distributed resource manager
US7827272B2 (en) * 2002-11-04 2010-11-02 Riverbed Technology, Inc. Connection table for intrusion detection
US7406171B2 (en) 2003-12-19 2008-07-29 At&T Delaware Intellectual Property, Inc. Agent scheduler incorporating agent profiles
US8549172B2 (en) * 2005-08-19 2013-10-01 International Business Machines Corporation Distribution of software based on scheduled time to deploy software dynamic resource state of systems involved in deployment of software and based upon environmental conditions
US20070094281A1 (en) * 2005-10-26 2007-04-26 Malloy Michael G Application portfolio assessment tool

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112840323A (zh) * 2018-09-11 2021-05-25 纬湃科技有限责任公司 检测任务消失的方法

Also Published As

Publication number Publication date
TW200737830A (en) 2007-10-01
WO2007048653A3 (en) 2008-05-29
WO2007048653A2 (en) 2007-05-03
US20080288584A1 (en) 2008-11-20
US8447848B2 (en) 2013-05-21

Similar Documents

Publication Publication Date Title
CN101297536A (zh) 用于准备在端点上执行系统管理任务的方法和系统
CN109714192B (zh) 一种监控云平台的监控方法及系统
CN105357038B (zh) 监控虚拟机集群的方法和系统
US9678964B2 (en) Method, system, and computer program for monitoring performance of applications in a distributed environment
US8819701B2 (en) Cloud computing monitoring and management system
KR100840129B1 (ko) 통계적인 분석을 이용한 성능장애 관리시스템 및 그 방법
EP1806002B1 (en) Method for managing resources in a platform for telecommunication service and/or network management, corresponding platform and computer program product therefor
US20030115204A1 (en) Structure of policy information for storage, network and data management applications
US20070006278A1 (en) Automated dissemination of enterprise policy for runtime customization of resource arbitration
US20020095524A1 (en) Method and apparatus for applying policies
US20050283788A1 (en) Autonomic monitoring in a grid environment
US20080155386A1 (en) Network discovery system
US11394719B2 (en) Dynamic user access control management
CN113242153B (zh) 一种基于网络流量监控的面向应用的监控分析方法
Shah et al. A methodology to measure and monitor level of operational effectiveness of a CSOC
CN107566172B (zh) 一种基于存储系统的主动式管理方法及系统
CN102916830B (zh) 一种资源服务优化配置容错管理实现系统
KR20090002587A (ko) 통합 모니터링 시스템 및 그 운용방법
US20040268176A1 (en) System and method for testing servers and taking remedial action
US7783752B2 (en) Automated role based usage determination for software system
CN113760634A (zh) 一种数据处理方法和装置
CN106341474B (zh) 一种基于icn与sdn网络的资料管控中心及其内容管理方法
CN112685157A (zh) 任务处理方法、装置、计算机设备及存储介质
Kokash Risk management for service-oriented systems
CN117319403A (zh) 算力路由网关控制系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20081029