CN103069749B - 虚拟环境中的问题的隔离的方法和系统 - Google Patents
虚拟环境中的问题的隔离的方法和系统 Download PDFInfo
- Publication number
- CN103069749B CN103069749B CN201080068756.XA CN201080068756A CN103069749B CN 103069749 B CN103069749 B CN 103069749B CN 201080068756 A CN201080068756 A CN 201080068756A CN 103069749 B CN103069749 B CN 103069749B
- Authority
- CN
- China
- Prior art keywords
- topology
- snapshot
- network device
- device operation
- irregular
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/12—Discovery or management of network topologies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0631—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
- H04L41/065—Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/12—Discovery or management of network topologies
- H04L41/122—Discovery or management of network topologies of virtualised topologies, e.g. software-defined networks [SDN] or network function virtualisation [NFV]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/40—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using virtualisation of network functions or resources, e.g. SDN or NFV entities
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
描述了虚拟环境中的问题隔离。在一个示例中,提供了用于在虚拟环境中隔离问题的方法(300)。该方法包括保持(310)虚拟环境中的网络设备的拓扑。可以针对超过阈值的网络设备操作不规则使用性能模块来监视(320)所述虚拟环境。可以识别(330)网络设备操作不规则以及与网络设备操作不规则相关联的拓扑的一部分。可以使用快照模块将与网络设备操作不规则相关联的拓扑部分分组(340)在一起以形成问题拓扑的快照。
Description
背景技术
分布式系统的部件之间的依赖性的识别和跟踪对于综合故障管理而言可能是重要的。在一个服务或系统的一部分中发生的故障可能常常影响其他服务、系统、设备等。在单个系统上的不同服务的部件之间以及在跨多个系统和域的服务的客户端和服务器部件之间也常常存在依赖性。
服务或系统部件常常可能具有依赖性,并且还依赖于另一服务或系统部件。在分布式系统的各种部件之间可能存在依赖性,诸如最终用户服务、系统服务、应用程序及关联逻辑和物理部件。然而,服务依赖性在现在的系统中常常是不明确的,因此使问题确定、隔离和解决的任务变得复杂。
当前解决方案具有许多缺点。例如,在问题确定、隔离和解决的解决方案中可能未明确地识别依赖性。并且,当前解决方案可能向系统管理员提供比有用的多得多的问题数据,使问题确定、隔离和解决的过程变得复杂。此外,提供给系统管理员的问题数据可能是以难以解释、筛选起来耗费时间且系统管理员常常为其接收专业训练和经验以能够理解和分析的方式呈现的。
由于问题隔离过程所涉及的分布式系统的部件的异构性,考虑到现有技术的限制,确定系统故障的影响可能是困难的。现有技术的一些附加缺点包括:现有技术解决了软件产品的安装和部署阶段,但并未尝试捕捉运行时间方面;现有技术并未处理跨多个系统的端对端应用程序或服务;软件库存信息常常是以专有格式描述的,使得在各种异构系统之间共享此信息变得困难;以及现有技术并未有效地发现和表示分布式应用和服务的拓扑。这些缺点以及其他可能导致浪费的时间、努力以及金钱。
附图说明
图1是根据示例的用于在虚拟环境中隔离问题的系统的方框图;
图2是根据示例的问题拓扑的快照(snapshot);
图3是根据示例的涉及将拓扑部分分组在一起的用于在虚拟环境中隔离问题的方法的流程图;以及
图4是根据示例的涉及将配置项分组在一起的用于在虚拟环境中隔离问题的方法的流程图。
具体实施方式
现在将对所示的示例进行参考,并且在本文中将使用特定语言来对其进行描述。然而,将理解的是并不从而意图技术范围的限制。根据结合附图进行的随后的详细描述,该技术的附加特征和优点将是显而易见的,附图一起以示例的方式图示出技术的特征。
存在在企业视野、理解信息技术(IT)资源并将其映射到商业目标的方式方面发生的变化。许多IT执行主管开始对监视IT资源的方式重新定向并更直接地基于商业需要而优化。企业正专注于由IT提供的商业过程(诸如订单处理)如何满足商业目标,而不是仅仅专注于构成IT基础设施的服务器、路由器以及应用程序的可用性和性能。
已经开发了用以允许组织从IT角度出发监视基础设施和服务的系统和方法。例如,专注于商业的度量可能着眼于服务器停机时间的美元影响,与识别用于同一服务器的正常运行时间百分比的专注于IT的度量相反。一些此类系统已经使用配置管理数据库(CMDB),其中,可以存储关于诸如服务器、路由器以及台式计算机的IT资产的信息。CMDB可以包括历史和系统部件之间的相互关系。与专注于商业的度量组合的CMDB已启用IT与商业经理之间的双向通信。这些系统能够提供包括问题管理的各种IT问题的解决方案。
问题管理过程可以具有反应性和前瞻性方面。反应性方面涉及响应于一个或多个事件而解决问题。前瞻性问题管理涉及在此类问题或事件发生之前识别和解决问题和事件前的已知错误。可以通过随着事件发生而分析事件(反应性问题管理)、分析不同时间段内的事件(前瞻性问题管理)、分析IT基础设施以及知识数据库的提供来识别问题和已知错误。
问题管理过程的一个部分可以包括问题的隔离以便识别该问题是什么。在已经识别了问题之后,管理员可以尝试补救该问题。以下公开描述问题隔离系统和方法。更特别地,在本文中描述了虚拟环境中的问题隔离。例如,提供了一种用于在虚拟环境中隔离问题的方法。该方法包括保持虚拟环境中的网络设备的拓扑。可以针对超过阈值的网络设备操作不规则使用性能模块来监视虚拟环境。可以识别网络设备操作不规则以及与网络设备操作不规则相关联的拓扑的一部分。可以使用快照模块将与网络设备操作不规则相关联的拓扑部分分组在一起以形成问题拓扑的快照。在本文中描述的问题隔离主要针对反应性问题管理,但是还可以包括在前瞻性问题管理解决中。
参考图1,示出了用于在虚拟或虚拟化环境中识别问题的系统100。虚拟环境可以包括虚拟和物理方面两者。例如,多个虚拟服务器可以存在于物理服务器上。虚拟网络可以被物理地连接到物理网络。虚拟机可以包括机器(例如,计算机)的软件或硬件辅助实施方式。虚拟化可以使得能够应要求创建系统基础设施,这又使得能够实现对企业面临的不断变化的问题的快速响应。虚拟化可以允许管理员跨企业管理集中资源。虚拟化为开发者给出了用以在没有构建专用测试系统的采购时间和费用的情况下且在不中断主操作系统的情况下创建测试配置、并且然后将其毁掉并重新开始的方式。服务器虚拟化可以带来对商业应用的新的可用性水平,其设置起来比传统方法更加可承受且不那么复杂。虚拟化技术可以扩展至网络、储存器、操作系统、应用程序以及膝上型计算机或服务器硬件,允许基础设施投资的更好利用。
虚拟系统趋向于比纯粹物理的系统更加动态且灵活,并且常常变化。结果,虚拟化环境中的问题隔离可能比在纯粹物理的系统中更具有挑战性。图1的系统100可以帮助甚至在环境已改变之后隔离和识别虚拟环境中的问题。
系统100可以包括问题隔离服务器110。问题隔离服务器可以与虚拟化环境进行通信。性能管理数据库(PMDB)130可以存在于问题隔离服务器上或与之通信,并且被配置成保持虚拟环境中的表示网络设备120的配置项(CI)的拓扑。
在商业服务的特定分级结构的背景下,PMDB130可以存储系统拓扑(诸如可以从CMDB获得的)、服务级信息以及商业服务测量结果(或事实度量)。PMDB的使用可以帮助问题隔离、商业服务优化以及关于分析结果和/或测量数据的报告。商业服务或商业服务模型可以参考诸如主机、虚拟机等的系统部件。主机和虚拟机可以具有唯一标识符。
监视系统可以产生需求追踪,其可能具有与主机和虚拟机相同的唯一标识符。当经由提取、变换、加载(ETL)过程将监视数据加载到PMDB中时,可以执行匹配过程以使来自监视系统的监视数据与商业服务拓扑中的特定主机和/或虚拟机相关。
PMDB可以包括用于存储拓扑信息、测量数据等的数据集市。该数据集市可以记录关于存储在数据集市中的数据的信息。例如,数据集市可以存储信息,诸如接收到数据的时间、从其接收到数据的服务器、事实(诸如拓扑或测量数据)、与事实相关联的服务等。
存储在PMDB中的CI可以对应于被管理对象。例如,被管理对象可以像中央处理单元(CPU)一样简单或者像企业的商业服务一样复杂。换言之,CI可以在虚拟的任何规模上包括系统部件的硬件、软件或文件编制。存在具有被定义成对关于复杂商业服务拓扑的信息进行建模的CI类型的许多预先存在的数据模型。诸如SAP(系统分析及程序开发)、.NET、MS(微软(Microsoft))邮件系统(Exchange)等的公共应用解决方案平台具有CI模型,其具有此类平台所特定的已知分级结构。
PMDB可以是来自CMDB的信息与操作使用信息的调和。PMDB的收集器基础设施可以从操作使用储存库和CMDB搜集信息。作为软件包的ETL内容包可以读取操作使用信息、在数据集市内创建测量表并记录测量结果和时间维度,所述软件包促进数据到数据仓库中的集成。来自CMDB的拓扑信息可以指导内容包的桥接表(即,在将设备测量结果放入上下文中的数据集市中,保持关系的表)定义。换言之,桥接表可以组织测量结果。可以将拓扑中的每个CI作为表行插入桥接表中,并且是用于将测量结果分类的维度。操作数据和拓扑数据两者共用的被管理对象标识符信息可以指导此调和过程,使得每个设备与相关上下文相关。例如,在PMDB内,可以使CPU测量表与多个维度相关联,其反映与虚拟机(VM)、应用服务器、应用服务器池、约束等的关系。在在先解决方案中,CPU测量结果可能仅与特定物理服务器的虚拟机相关联。在本文所述的系统中,多个关系维度可以反映整个商业服务拓扑内的CPU测量的背景。可以快速地概括或聚合各度量,诸如多个抽象层级处的CPU使用或功率使用(例如,用于特定应用服务器或用于商业服务)。以类似方式,可以使拓扑事实与其约束相关联。
在一方面,与PMDB一起使用的监视系统包括操作监视设备190。操作监视设备可以针对网络设备操作度量监视虚拟环境。在更特定示例中,操作监视设备可以针对突破(breach)基线的网络设备操作度量来监视虚拟环境。系统100可以包括与操作监视设备通信的操作跟踪模块170。操作跟踪模块和操作监视设备两者可以与PMDB进行直接或间接通信以访问或存储与网络设备120有关的信息。可以将操作跟踪模块配置成跟踪网络设备。特别地,操作跟踪模块可以在一段时间内跟踪网络设备的操作以建立什么是正常或普通设备操作。在另一示例中,可以将操作跟踪模块配置成跟踪正常网络设备操作或被已知没有问题的设备操作。在任一示例中,可以使用正常设备操作度量来建立被用来比较随后监视的度量的基线或标准。在一方面,操作跟踪模块可以直接地访问从操作监视设备获得的数据。在另一方面,操作跟踪模块可以检索存储在PMDB中的度量以建立基线。可以将操作跟踪模块配置成定期地更新基线,例如如果正常操作度量已改变、如果系统基础设施已改变等。
系统100可以包括突破检测模块180。可以将该突破检测模块配置成检测被监视网络设备操作度量何时突破基线。在一个示例中,基线包括基线套。基线套可以包括一定范围的度量,在该范围内,可以认为被监视网络设备操作度量是正常的。突破检测模块因此可以检测被监视网络设备操作度量何时突破基线套或落在“正常”范围之外。
当突破检测模块180检测到突破基线或基线套的被监视网络设备操作度量时,突破识别模块150可以识别与突破基线的网络设备操作度量有关的PMDB中的CI。
快照模块160可以使用处理器将相关CI分组在一起,并且可以基于存储在PMDB130内的拓扑来形成问题拓扑的快照。在一个示例中,被分组在一起的CI可以包括被突破识别模块150识别为与突破基线的网络设备操作度量有关的那些CI。因此,问题拓扑的快照可以包括系统的局部拓扑而不是整个系统拓扑。并且,局部拓扑仅包括与问题(即,突破基线的度量)有关的那些项,并且因此是供系统管理员考虑的专注的且容易理解的拓扑。换言之,快照排除与突破基线的网络设备操作度量无关的CI。可以将该快照存储在PMDB中。快照可以表示在网络设备操作不规则或基线突破的时间存在的问题拓扑的状态。
该系统还可以包括显示模块140。可以将显示模块配置成以图形方式来表示快照,包括相关CI的关系,以便在用户显示设备上显示。在图2中示出了示例快照。可以通过总线将快照发送到用户显示设备以显示在度量基线突破的时间存在的拓扑的快照,即使在虚拟化环境的拓扑变化之后。
图2表示被上文关于图1所述的快照模块捕捉的示例快照200。可以用示出被分组在一起以形成快照的CI或拓扑部分之间的关系的图表来表示快照。在图2中所示的示例中,还可以将快照组内的CI分组成更特定的CI子群组。例如,可以用应用程序组210、数据库组220、系统组230等来组织快照CI。可以在子群组内识别快照内的每个CI。例如,应用程序组可以包括CRM(客户关系管理)应用程序、“创建新订单”应用程序、人事关系(HR)门户、登录交易等。
因此,包括在快照中的关系可以包括CI子群组。然而,在另一示例中,该关系可以包括因果关系。例如,如果管理程序(Hypervisor)25度量突破基线,则管理员可以通过跟随从管理程序25返回至CRM主机至CRM数据库(DB)至J2EE应用服务器至J2EE应用程序至CRM应用程序的呼叫路径来找到在确定管理程序25的根源时有用的因果关系。
在另一示例中,包括在快照中的关系可以包括按时间顺序的关系。例如,快照可以示出哪些CI按照什么顺序突破基线。可以根据基线突破的时间或者甚至基线突破的持续时间来组织在快照的图表中示出的CI。例如,较早发生的突破可以接近于图表的顶部且稍后发生的突破可以接近于图表的底部。作为另一示例,较早发生的突破可以接近于图表的左侧且稍后发生的突破可以接近于图表的右侧。该图表还可以包括时间线以图示出突破的发生时间或持续时间。
在另一示例中,包括在快照中的关系可以包括拓扑关系。例如,根据CI之间的实际连接或通信路径,快照的图表可以示出哪些CI是相关的或者CI如何相关(如果有的话)。
在一个示例中,当网络设备操作不规则在相互的预定时间间隔内发生时,可以将与度量基线突破或不规则相关联的拓扑部分或CI分组在一起。
问题隔离系统可以近实时地检测问题。一旦检测到问题,则利用在本文中描述的技术的问题隔离系统可以获取问题区域的拓扑快照。管理员可以稍后分析问题,并且找到根源,即使环境已经由于虚拟化环境的灵活性质而改变。
上文所述的过程或系统部件可以导致表示问题拓扑的很好地定义的图表。该拓扑被很好地确定范围,并且拓扑的尺寸被限制为有问题区域。因此,问题隔离可以存储这些局部拓扑。这些拓扑可以在稍后被尝试分析问题和问题的根源的应用程序所有者或管理员使用。由于问题隔离系统已捕捉到发生问题时的问题拓扑,所以系统还可以示出在该时间周围发生的任何相关变化。捕捉问题拓扑的快照的能力在越来越多的IT组织正在快速地移动到虚拟化环境中的情况下可能是非常有价值的。虚拟环境常常是灵活的,并且虚拟机可以在单次点击中从一个管理程序移动至另一个。结果,获取问题拓扑的快照可以是分析问题并跟踪在该时间周围发生的变化的有价值工具。
在分析虚拟化环境中的问题的同时,发生问题时的IT系统的拓扑和在该时间或附近发生的任何变化可能在理解该问题时有用。虚拟环境的灵活架构趋向于产生其中环境在检测到问题的时间与管理员能够分析该问题的时间之间已经改变的情况,诸如机器例如从一个主机服务器移动至另一个。此类方案可能误导或扰乱用户,并且用户可能花费时间尝试分析不相干的配置项。
在大多数其他系统中,仅基于定期地获取快照且其可以包括整个拓扑。这些其他系统不能获取检测到问题时的问题的拓扑快照或仅在问题中涉及的那部分拓扑的快照。
如上所述,问题隔离系统可以在近实时分析中检测CI的度量的异常或不规则。如果连续地突破基线或基线套,可以将度量定义为异常、不规则或不正常。系统可以实现分析循环以定期地检测异常度量。可以将该分析循环设置成以预定时间间隔运行,诸如,例如每隔五分钟。在每个分析循环,问题隔离系统可以检测现有的连续异常度量,找到用于每个度量的相关配置项,基于PMDB内的操作数据库(ODB)模型将所有相关配置项分组,并且在表示单个问题拓扑的图表上连接每组的CI。
现在参考图3,示出了用于在虚拟环境中隔离问题的方法300。该方法可以包括保持310虚拟环境中的网络设备的拓扑。可以针对超过阈值的网络设备操作不规则来监视320虚拟环境,其中,监视是由性能模块执行的。可以识别330网络设备操作不规则。可以识别340与网络设备操作不规则相关联的拓扑的一部分。可以使用快照模块将与网络设备操作不规则相关联的拓扑部分分组350在一起以形成问题拓扑的快照。
用于获取问题快照的基础可以是度量异常的自动检测。根据所述方法的度量异常或不规则的检测可以使用基线确定和周期性学习方法来完成。获取问题的完全且准确的快照可以基于将异常度量集群成一个异常公开。
方法300可以包括创建表示快照的图表,其中,该图表示出被分组在一起的拓扑部分之间的关系。如上所述,被分组在一起的拓扑部分之间的关系可以是因果、按时间顺序的、拓扑或任何其他适当的分组。在一个示例中,当在相互的预定时间间隔内发生网络设备操作不规则时,将与网络设备操作不规则的拓扑部分分组在一起。在另一示例中,当网络设备操作不规则被以因果关系链接在一起时,将与网络设备操作不规则相关联的拓扑部分分组在一起。
该方法还可以包括将快照存储在问题隔离服务器上的快照数据库中。例如,快照数据库可以包括PMDB。
参考图4,示出了用于虚拟环境中的问题隔离的方法400。该方法包括使用问题隔离服务器上的性能管理数据库保持410虚拟环境中的表示网络设备的配置项的拓扑。可以针对突破基线或替换地基线套的网络设备操作度量来监视420虚拟环境。可以使用突破检测模块来检测430突破基线的网络设备操作度量。可以使用突破识别模块来识别440与突破基线的网络设备操作度量有关的配置项。可以使用处理器且基于拓扑来将相关配置项分组450在一起以形成问题拓扑的快照。
方法400还可以包括将快照存储在问题隔离服务器上的快照数据库中。该方法可以包括通过总线将快照发送到用户显示设备以在拓扑变化之后显示快照。如上所述,形成快照的步骤可以排除与突破基线的网络设备操作度量有关的配置项。该方法还可以包括创建表示问题拓扑的图表,其中,所述图表示出了配置项之间的关系。
用本文所述的问题隔离系统和方法,事件或被监视数据能够进入单个操作桥。该事件和数据可以用来建立能够用来确定根事件的问题拓扑快照。该快照数据可以用来确定可行动系统条件,并且可以基于商业影响将所采取的动作按优先次序排列。在一些情况下,可以将问题隔离系统配置成基于问题拓扑快照自动地、诸如通过使用工作流程表自动化来识别或检验系统问题的根源。为了帮助系统管理员从问题隔离快照识别问题,可以给快照添加额外状态信息和/或专家意见。
使用该技术的一些益处包括:高度灵活环境中的准确问题拓扑建模,诸如虚拟化数据中心;跟踪快照时间帧周围的该捕捉拓扑上的变化的能力;相对小的存储覆盖区域:由于仅在检测到问题且仅捕捉到最小的一组CI时获取拓扑快照,所以该技术仅使用小的存储覆盖区域。具有近实时问题检测能力的强的详细数据库模型的组合从准确度和容量角度出发产生用于捕捉快照的独特益处。此类快照工具可以为问题隔离或分析系统提供增强且有用的能力。
特定示例的方法和系统可以用硬件、软件、固件或其组合来实现。在一个示例中,可以用存储在存储器中且被适当的指令执行系统执行的软件或固件来执行该方法。如果用硬件来实现,如在替换示例中,可以用在本领域中众所周知的任何适当技术来实现该方法。
同样在示例的范围内的还有能够存储在非暂时性机器可读介质中以允许计算机执行任何上述方法的程序或代码的实施方式。
在本说明书中所述的一些功能单元已被标记为模块,以便更特别地强调其实施方式无关性。本文所讨论的各种模块、引擎、工具或模块可以是例如软件、固件、命令、数据文件、程序、代码、指令等,并且还可以包括适当的机制。例如,可以将模块实现为硬件电路,其包括自定义VLSI(超大规模集成)电路或门阵列、诸如逻辑芯片的成品半导体、晶体管或其他分立部件。还可以用可编程硬件设备来实现模块,诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等。
还可以用软件来实现模块以便由各种类型的处理器来执行。可执行代码的已识别模块可以例如包括计算机指令的一个或多个块,其可以被组织为对象、程序或函数。然而,所识别模块的可执行文件不需要在物理上一起定位,而是可以包括存储在不同位置上的完全不同的指令,所述不同位置包括模块且在被在逻辑上结合在一起时实现用于模块的所述目的。
事实上,可执行代码可以是单个指令或许多指令,并且甚至可以分布在多个不同代码段上、在不同的程序之间且跨多个存储设备。同样地,在这里,可以在模块内识别和示出操作数据,并且以任何适当的形式来体现并在任何适当类型的数据结构内组织。可以将操作数据收集为单个数据集,或者可以分布在不同位置上,包括在不同的存储设备上。该模块可以是被动或主动的,包括可操作用于执行期望功能的代理。
虽然前述示例说明了本技术在一个或多个特定应用中的原理,但对于本领域的技术人员而言将显而易见的是在没有发明机能的练习的情况下且在不脱离所述技术的原理和概念的情况下可以进行实施方式的形式、使用和细节方面的许多修改。因此,意图并不在于限制所述技术,除由下面阐述的权利要求之外。
Claims (15)
1.一种用于在虚拟环境中隔离问题的方法(300),包括:
保持(310)所述虚拟环境中的网络设备的拓扑;
针对超过阈值的网络设备操作不规则来监视(320)所述虚拟环境,其中,由问题隔离服务器上的性能模块来执行监视;
使用突破检测模块来识别(330)网络设备操作不规则;
使用处理器来识别(340)与所述网络设备操作不规则相关联的所述拓扑的一部分;以及
使用快照模块将与网络设备操作不规则相关联的拓扑部分分组(350)在一起以形成问题拓扑的快照。
2.如权利要求1所述的方法,还包括创建表示所述快照的图表,其中,所述图表示出被分组在一起的所述拓扑部分之间的关系。
3.如权利要求2所述的方法,其中,所述关系包括因果关系。
4.如权利要求2所述的方法,其中,所述关系包括按时间顺序的关系。
5.如权利要求1所述的方法,其中,将拓扑部分分组还包括当相互的预定时间间隔内发生所述网络设备操作不规则时,将与网络设备操作不规则相关联的拓扑部分分组在一起。
6.如权利要求1所述的方法,其中,将拓扑部分分组还包括当所述网络设备操作不规则被以因果关系链接在一起时将与网络设备操作不规则相关联的拓扑部分分组在一起。
7.如权利要求1所述的方法,其中,所述快照包括在所述网络设备操作不规则时存在的所述问题拓扑的状态。
8.如权利要求1所述的方法,还包括将所述快照存储在问题隔离服务器上的快照数据库中。
9.如权利要求1所述的方法,其中,所述快照排除与突破基线的所述网络设备操作度量无关的配置项。
10.如权利要求1所述的方法,还包括创建表示所述问题拓扑的图表,其中,所述图表示出配置项之间的关系。
11.一种用于识别虚拟环境中的问题的系统(100),包括:
问题隔离服务器(110);
性能管理数据库(130),所述性能管理数据库(130)在所述问题隔离服务器上且被配置成保持所述虚拟环境中的表示网络设备(120)的配置项的拓扑;
操作监视设备(190),其可操作用于针对突破基线的网络设备操作度量而监视所述虚拟环境;
突破检测模块(180),其被配置成检测突破所述基线的所述网络设备操作度量;
突破识别模块(150),其被配置成识别与突破所述基线的所述网络设备操作度量有关的配置项;以及
快照模块(160),其被配置成使用处理器将相关配置项分组在一起并基于所述拓扑而形成问题拓扑的快照。
12.如权利要求11所述的系统,其中,所述快照包括局部拓扑。
13.如权利要求11所述的系统,还包括被配置成以图形方式表示所述快照,包括所述相关配置项的关系,以便在用户显示设备上显示的显示模块(140)。
14.如权利要求11所述的系统,还包括被配置成跟踪正常网络设备操作以建立所述基线的操作跟踪模块(170)。
15.如权利要求11所述的系统,其中,所述快照模块被配置成基于存储在所述性能管理数据库中的信息对所述快照添加关于突破所述基线的所述网络设备操作度量的潜在原因的状态信息或专家意见。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2010/046856 WO2012026938A1 (en) | 2010-08-26 | 2010-08-26 | Isolation of problems in a virtual environment |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103069749A CN103069749A (zh) | 2013-04-24 |
CN103069749B true CN103069749B (zh) | 2016-02-24 |
Family
ID=45723706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201080068756.XA Active CN103069749B (zh) | 2010-08-26 | 2010-08-26 | 虚拟环境中的问题的隔离的方法和系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9122784B2 (zh) |
EP (1) | EP2609714A4 (zh) |
CN (1) | CN103069749B (zh) |
WO (1) | WO2012026938A1 (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10177984B2 (en) * | 2010-08-26 | 2019-01-08 | Entit Software Llc | Isolation of problems in a virtual environment |
US8667334B2 (en) * | 2010-08-27 | 2014-03-04 | Hewlett-Packard Development Company, L.P. | Problem isolation in a virtual environment |
US9495395B2 (en) * | 2013-04-11 | 2016-11-15 | Oracle International Corporation | Predictive diagnosis of SLA violations in cloud services by seasonal trending and forecasting with thread intensity analytics |
WO2015016925A1 (en) | 2013-07-31 | 2015-02-05 | Hewlett-Packard Development Company, L.P. | Automated remote network target computing device issue resolution |
EP3099012A1 (en) * | 2015-05-26 | 2016-11-30 | Alcatel Lucent | A method for determining a topology of a computer cloud at an event date |
US10248561B2 (en) | 2015-06-18 | 2019-04-02 | Oracle International Corporation | Stateless detection of out-of-memory events in virtual machines |
US10708344B1 (en) * | 2015-12-22 | 2020-07-07 | EMC IP Holding Company LLC | Continuous performance management in information processing systems |
US10467123B2 (en) | 2016-05-09 | 2019-11-05 | Oracle International Corporation | Compression techniques for encoding stack trace information |
US10346176B2 (en) | 2016-08-16 | 2019-07-09 | International Business Machines Corporation | Mainframe system structuring |
US10261839B2 (en) * | 2016-11-02 | 2019-04-16 | International Business Machines Corporation | Outlier and root cause determination of excessive resource usage in a virtual machine environment |
CN109728929B (zh) * | 2017-10-30 | 2022-02-22 | 中兴通讯股份有限公司 | 一种测试方法、装置及存储介质 |
US11182363B2 (en) * | 2018-06-29 | 2021-11-23 | International Business Machines Corporation | Data validation in copy repositories |
CN113595800B (zh) * | 2021-08-03 | 2022-07-05 | 腾云悦智科技(深圳)有限责任公司 | 一种应用连接关系自动发现与cmdb信息保鲜的方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101350044A (zh) * | 2008-09-02 | 2009-01-21 | 中国科学院软件研究所 | 一种虚拟环境信任构建方法 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5784359A (en) | 1996-06-28 | 1998-07-21 | Mci Communications Corporation | System and method for unreported trouble isolation |
US5704036A (en) | 1996-06-28 | 1997-12-30 | Mci Communications Corporation | System and method for reported trouble isolation |
US7213065B2 (en) | 2001-11-08 | 2007-05-01 | Racemi, Inc. | System and method for dynamic server allocation and provisioning |
US7240325B2 (en) | 2002-09-11 | 2007-07-03 | International Business Machines Corporation | Methods and apparatus for topology discovery and representation of distributed applications and services |
US7876694B2 (en) * | 2004-07-02 | 2011-01-25 | Hewlett-Packard Development Company, L.P. | Identifying VPN faults based on virtual routing address and edge interface relationship information |
US7796500B1 (en) * | 2004-10-26 | 2010-09-14 | Sprint Communications Company L.P. | Automated determination of service impacting events in a communications network |
US7523349B2 (en) * | 2006-08-25 | 2009-04-21 | Accenture Global Services Gmbh | Data visualization for diagnosing computing systems |
US8429748B2 (en) * | 2007-06-22 | 2013-04-23 | Red Hat, Inc. | Network traffic analysis using a dynamically updating ontological network description |
JP5083051B2 (ja) | 2008-06-06 | 2012-11-28 | 富士通株式会社 | 監視システム、監視装置、被監視装置、監視方法 |
US20100082922A1 (en) | 2008-09-30 | 2010-04-01 | Vmware, Inc. | Virtual machine migration using local storage |
US8499297B2 (en) * | 2008-10-28 | 2013-07-30 | Vmware, Inc. | Low overhead fault tolerance through hybrid checkpointing and replay |
US8284685B2 (en) * | 2008-11-12 | 2012-10-09 | At&T Intellectual Property I, L.P. | Method and apparatus for providing end to end virtual private network performance management |
JP5129725B2 (ja) * | 2008-11-19 | 2013-01-30 | 株式会社日立製作所 | 装置異常診断方法及びシステム |
-
2010
- 2010-08-26 CN CN201080068756.XA patent/CN103069749B/zh active Active
- 2010-08-26 WO PCT/US2010/046856 patent/WO2012026938A1/en active Application Filing
- 2010-08-26 EP EP10856518.5A patent/EP2609714A4/en not_active Withdrawn
- 2010-08-26 US US13/812,613 patent/US9122784B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101350044A (zh) * | 2008-09-02 | 2009-01-21 | 中国科学院软件研究所 | 一种虚拟环境信任构建方法 |
Also Published As
Publication number | Publication date |
---|---|
EP2609714A1 (en) | 2013-07-03 |
EP2609714A4 (en) | 2015-06-03 |
US9122784B2 (en) | 2015-09-01 |
WO2012026938A1 (en) | 2012-03-01 |
US20130132778A1 (en) | 2013-05-23 |
CN103069749A (zh) | 2013-04-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103069749B (zh) | 虚拟环境中的问题的隔离的方法和系统 | |
US10177984B2 (en) | Isolation of problems in a virtual environment | |
US8667334B2 (en) | Problem isolation in a virtual environment | |
US9672085B2 (en) | Adaptive fault diagnosis | |
CN101088072B (zh) | 用于监视基于交易的系统的方法和系统 | |
US9459942B2 (en) | Correlation of metrics monitored from a virtual environment | |
CN102436376B (zh) | 用于分布式应用确认的模型检查 | |
US9389946B2 (en) | Operation management apparatus, operation management method, and program | |
KR101971013B1 (ko) | 빅데이터 기반의 클라우드 인프라 실시간 분석 시스템 및 그 제공방법 | |
US9817742B2 (en) | Detecting hardware and software problems in remote systems | |
AU2020203735B2 (en) | Automated generation and dynamic update of rules | |
CN111858254B (zh) | 数据的处理方法、装置、计算设备和介质 | |
US20090307347A1 (en) | Using Transaction Latency Profiles For Characterizing Application Updates | |
CN106030565A (zh) | 使用搜索技术的计算机性能预测 | |
US9727663B2 (en) | Data store query prediction | |
Cai et al. | A real-time trace-level root-cause diagnosis system in alibaba datacenters | |
CN113949652B (zh) | 基于人工智能的用户异常行为检测方法、装置及相关设备 | |
CN116194894A (zh) | 原生云应用程序的故障定位 | |
Yu | Hard disk drive failure prediction challenges in machine learning for multi-variate time series | |
Meng et al. | IT troubleshooting with drift analysis in the DevOps era | |
Oppermann et al. | Anomaly Detection Approaches for Secure Cloud Reference Architectures in Legal Metrology. | |
Lyu et al. | Intelligent Software Engineering for Reliable Cloud Operations | |
US9372746B2 (en) | Methods for identifying silent failures in an application and devices thereof | |
CN112416896A (zh) | 数据异常的报警方法和装置、存储介质、电子装置 | |
AU2014200806B1 (en) | Adaptive fault diagnosis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20180612 Address after: American California Patentee after: Antite Software Co., Ltd. Address before: American Texas Patentee before: Hewlett-Packard Development Company, Limited Liability Partnership |
|
TR01 | Transfer of patent right | ||
CP03 | Change of name, title or address |
Address after: Utah, USA Patentee after: Weifosi Co., Ltd Address before: California, USA Patentee before: Antiy Software Co.,Ltd. |
|
CP03 | Change of name, title or address |