CN103853627A - 由与物理机器相关地分析虚拟机器性能问题原因的方法和系统 - Google Patents
由与物理机器相关地分析虚拟机器性能问题原因的方法和系统 Download PDFInfo
- Publication number
- CN103853627A CN103853627A CN201210551601.2A CN201210551601A CN103853627A CN 103853627 A CN103853627 A CN 103853627A CN 201210551601 A CN201210551601 A CN 201210551601A CN 103853627 A CN103853627 A CN 103853627A
- Authority
- CN
- China
- Prior art keywords
- physical
- level
- event
- application layer
- equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/44—Arrangements for executing specific programs
- G06F9/455—Emulation; Interpretation; Software simulation, e.g. virtualisation or emulation of application or operating system execution engines
- G06F9/45533—Hypervisors; Virtual machine monitors
- G06F9/45558—Hypervisor-specific management and integration aspects
- G06F2009/45591—Monitoring or debugging support
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Debugging And Monitoring (AREA)
Abstract
根据一个示范性实施例,一种用于分析根本原因的方法施加应用级依赖发现和异常检测,以找到一个或多个虚拟机器(VM)中的应用级依赖,并生成带有异常的应用级拓扑;并且然后将该带有异常的应用级拓扑转换为VM级依赖,并且经由物理和虚拟资源映射将该VM级依赖转换到物理机器级(PM级)依赖,并且最终生成一组事件集。通过对该组事件集区分优先次序来生成优先次序化的事件列表。
Description
技术领域
本公开一般涉及一种用于由与物理机器相关地分析虚拟机器当中的性能问题的根本原因的方法和系统。
背景技术
网络通信和硬件/软件技术中的快速发展带来大量的电子服务以丰富人类的日常生活。随着虚拟技术的发展和进步,可以将这些服务移动到虚拟机器上运行。一些技术可以提供新的经济模型,新的经济模型提供诸如计算能力、数据存取和网络变换作为效用。例如,一种模型亦称为可以计算领域中的基础设施即服务(IAAS)。作为拥有物理数据中心的IAAS提供商,绝对需要监视整个物理数据中心以知晓所述设备的条件,例如冷却系统和供电/UPS系统或者所述物理设备的使用,并且很多现有的监视系统,例如Zenoss和WhatsUp可以支持这些要求。
现有技术之一公开了集成在小规模数据中心上运行的Xen管理程序中以识别VM间的依赖的LWT方法。另一技术引入了使用虚拟化的服务器合并(consolidate)的概念。为了满足服务级别协议(SLA),该技术基于用于当检测到性能问题时在一组物理机器内迁移虚拟机器的算法。又另一种技术提供了一种虚拟环境中用于应用性能控制和动态资源分配的系统。此技术预测满足应用级性能要求的资源需求。又另一种技术公开了一种基于TCP/IP模式的警报关联算法,并且所述警报关联(或事件关联)是网络管理系统中的关键功能。此技术根据每一种TCP/IP协议类型的标识符,例如TCP中的端口号对所述警报分类,并且然后聚集所述警报以找到根本原因警报(rootcause alarm)。
存在一些关于应用性能问题的根本原因分析的工作。这些技术之一提到监视与多个组件的事务可以收集组件级信息。并且,对于超过门限的事务,可以分析从独立组件收集的数据以找到性能问题的可能的根本原因。另一种技术公开了一种包括代理组件的监视系统,该监视系统监视并报告性能参数,例如响应时间,并且可以使用基于网络的服务器来显示所收集的数据。此外,根本原因分析系统应用统计算法来检测特定参数中的性能下降,并且使用一些预定义的参数依赖规则来使该性能下降与问题的根本原因相关。又在另一种技术中,从用于事务的代理处聚集的性能度量用于与基线度量比较以自动检测异常,并且监视系统报告可接受范围之外的事务的组件作为根本原因。
一种技术公开了一种名为应用级依赖发现和维护的中心服务器,并且使用在管理程序之内集成的系统模块来收集线程粒度中的应用轨迹和用于特定应用的应用级依赖图。在图1中示出带有浏览器的根节点、开始时间和结束时间的应用轨迹的例子。其中图1中的应用轨迹100从浏览器1开始,并且如果应用A与另一应用B具有数据交换并且应用A是A到B连接的客户端侧,那么应用A依赖于应用B。例如,如果负载均衡器(应用A)与应用服务器2(应用B)具有数据交换,那么负载均衡器依赖于应用服务器2。换言之,应用轨迹可以相当于轨迹的静态视图。可以将虚拟机器或物理机器的信息添加在应用轨迹上以帮助理解应用部署。
以上工作或技术要么仅关心物理机器的使用和工作负载而忽略对于虚拟机器资源分配的硬件问题,要么仅关心物理机器上的硬件问题或性能问题而没有结合虚拟化的概念。然而,现在的监视系统或网络监视系统(NMS)可能不诊断在物理数据中心上运行的虚拟机器当中的性能问题,并且这些性能问题的根本原因可能来自物理数据中心的硬件问题,例如错误很多(buggy)的磁盘或者交换机过载等等。因此,解决虚拟机器当中的性能问题很重要。
发明内容
本公开的示范性实施例可以提供一种由与物理机器相关地分析虚拟机器中的性能问题的根本原因的方法和系统。
一个示范性实施例涉及一种适应于物理数据中心的方法,用于由与物理机器(PM)相关地分析虚拟机器(VM)当中的性能问题的根本原因。该方法包括:施加应用级依赖发现和异常检测以找到在物理数据中心中的多个PM上运行的一个或多个VM中的应用级依赖,并生成带有异常的应用级拓扑;将该带有异常的应用级拓扑转换到VM级依赖;经由物理和虚拟资源映射将该VM级依赖转换PM级依赖,并生成一组事件集;并且通过优先次序化该组事件集来生成优先次序化的事件列表。
另一示范性实施例涉及一种用于由与物理机器(PM)相关地分析虚拟机器(VM)当中的性能问题、的根本原因的系统。该系统可以适应于物理数据中心,并且可以包括应用级异常检测模块、提取模块以及事件生成和优先次序化模块。应用级异常检测模块被配置为找出在物理数据中心中的多个PM上运行的一个或多个VM中的应用级依赖,并且生成带有异常的应用级拓扑。提取模块被配置为从带有异常的应用级拓扑提取VM级依赖,然后将VM级依赖转换到PM级依赖。事件生成和优先次序化模块被配置为获得PM通信拓扑,通过使用该PM通信拓扑生成一组事件集,并且通过对该组事件集区分优先次序而生成优先次序化的事件列表。
附图说明
图1示出应用轨迹的例子;
图2示出根据示范性实施例的、用于由与物理机器相关地分析虚拟机器当中的性能问题的根本原因的方法的操作流;
图3示出根据示范性实施例,用于接收/响应PDCM请求的、在物理设备中安装的代理的示意图;
图4示出根据示范性实施例的虚拟数据中心中的示范性应用依赖拓扑的示意图;
图5示出图解根据示范性实施例的所述应用在其上运行的虚拟机器和在图4的应用级依赖图中检测的异常的示意图;
图6示出图解根据示范性实施例的用于图5的虚拟机器和虚拟卷当中的通信的示意图;
图7示出图解根据示范性实施例的从图6的虚拟机器级到物理机器级的提取的示意图;
图8示出图解根据示范性实施例的物理数据中心中的物理机器和物理网络存储器当中的通信的示意图;
图9示出根据示范性实施例的彼此进行通信的两个示范性物理机器之间的示范性路由路径,以及所得到的对应事件;
图10示出根据示范性实施例的、用于图8的物理机器通信拓扑的事件集的示范性组;
图11示出根据示范性实施例的、来自图10的事件集组的示范性优先次序化事件列表;
图12示出根据示范性实施例的用于根本原因分析的事件优先次序化的操作流;
图13示出根据示范性实施例的、用于由与物理机器相关地分析虚拟机器当中的性能问题的根本原因的系统。
具体实施方式
下面,将参照附图详细描述示范性实施例,以便由本领域普通技术人员容易地实现该示范性实施例。可以在各种形式中具体化本发明构思,而不限于此处阐述的示范性实施例。为了清楚省略公知部分的描述,并且通篇相似的参考标号指代相似的元素。
示范性实施例公开了一种用于由与物理机器相关地分析虚拟机器当中的性能问题的根本原因的技术。在本公开中,使用基础设施即服务(IAAS),其中一个或多个虚拟机器可以在装备有诸如物理机器、网络存储器和交换机的物理设备的至少一个数据中心上运行,并且该数据中心可以指物理数据中心。考虑如下示范性情形。作为从该物理数据中心操作员租借资源以创建他/她自己的虚拟数据中心的用户的虚拟数据中心操作员,发现他/她的虚拟数据中心中的应用性能问题。应用性能问题可以是,但不限于,从网站的响应时间非常长。在该情形中,示范性实施例可以监视其中运行了大量虚拟机器的物理数据中心中的物理设备,并且通过使性能问题与硬件问题相关来弄清同一虚拟数据中心中的虚拟机器当中的性能问题的根本原因。
根据示范性实施例,使在一个或多个物理机器上运行的虚拟机器当中的性能问题与所述物理机器的硬件问题相关,可以包含诸如应用级依赖发现和异常检测、物理和虚拟资源映射、用于事件产生和合并的硬件监视、用于根本原因分析的事件优先次序化流程图等等的分步骤(component)。换言之,所述示范性实施例将虚拟机器上的性能问题转换为物理机器的硬件问题,用于帮助弄清并解决根本原因,并且通过使用应用级依赖、物理/虚拟资源映射和网络路由信息可以实现根本原因分析技术。
图2示出根据一示范性实施例的、用于由与物理机器相关地分析虚拟机器当中的性能问题的根本原因的方法的操作流。参照图2,该方法可以施加应用级依赖发现和异常检测来找出一个或多个虚拟机器(VM)中的应用级依赖(步骤210),并生成带有异常的应用级拓扑,并向VM级依赖转换该带有异常的应用级拓扑(步骤220)。该方法然后执行物理和虚拟资源映射以将VM级依赖转换为物理机器级依赖,并最终生成一组事件集(步骤230)。该方法还可以通过对该组事件集区分优先次序来进一步生成优先次序化的事件列表(步骤240)。图2中所示方法的操作流可以向物理数据中心的管理员推荐客户的虚拟机器当中的性能问题的根本原因。以下进一步描述了用于所包含的每一步骤的细节。
在步骤210中,可以使用称为ADDM(应用级依赖发现和维护)的中心服务器和在管理程序中集成的系统模块,来收集用于特定应用的线程粒度中的应用轨迹和应用级依赖地图。可以在图1中示出具有浏览器的根节点、等于0:00的开始时间和等于4:00的结束时间的应用轨迹的例子。可以将虚拟机器或物理机器的信息添加在应用轨迹上以帮助理解应用部署。例如在所公开的实施例中,可以获得施加后向踪迹、延迟时间或与每一跳相关的延迟。在正常的环境下,它可以多次收集用于整个应用的开始和结束时间间隔,以找出与每一跳相关的平均延迟——这指的是训练阶段。换言之,在训练阶段可以找出应用轨迹上与每一跳相关的平均延迟。通过添加作为容差的相应的δ时间段到与每一跳相关的平均延迟(或者就使用与每一跳相关的平均延迟),可以产生每一跳的基线延迟。当请求ADDM服务器来收集用于整个特定应用的当前响应时间时,该ADDM服务器还可以检查以确定与每一跳相关的平均延迟是否超过它的对应基线延迟。将延迟超过它们对应的基线延迟的这些跳检测作为异常。
在步骤220中,虚拟机器的物理资源使用可以包括计算能力、数据存取和网络传输。在计算能力方面,所公开的实施例可以使用储存库(repository)来保存关于特定的虚拟机器在哪个物理机器上运行的信息。当创建虚拟机器时或者迁移虚拟机器之后,无论使用何种虚拟机器创建/迁移算法(诸如资源分配算法),都可以知道该虚拟机器在哪个物理机器上运行。在数据存取方面,所公开的实施例可以使用储存库来保存关于虚拟卷附属于哪个虚拟机器的信息,并且使用储存库来保存关于虚拟卷涉及哪些网络存储设备的信息。换言之,当创建虚拟卷并且然后将它们附属于特定的虚拟机器时,还可以在所述储存库中保存关于特定的虚拟机器使用哪些虚拟卷以及这些卷位于哪些网络存储器的信息。此外,保存此信息在所述储存库中可以与任何虚拟化算法结合。
另一方面,在网络传输方面,所公开的实施例可以使用至少一个储存库来保存关于如何向因特网传送虚拟机器的数据或者如何在同一虚拟数据中心中的两台虚拟机器之间传送数据的信息。为了知道答案,所公开的实施例保存多个物理机器的每一对之间的路由路径的信息,和所述多个物理机器的每一个和一个或多个物理设备的每一个之间的至少一条路由路径的信息。可以在至少一个储存库中保存该信息。物理设备可以是,但不限于网关或诸如交换机、物理存储器等的网络设备。一对物理机器之间的路由路径意思是物理机器沿着该路径向另一物理设备发送分组/帧。因为已知该虚拟机器在哪些物理机器上运行,所以可以知道两台虚拟机器之间如何传送数据。
如图3中所示,根据示范性实施例,可以在每一个被监视的物理设备中安装代理用于接收/响应物理数据中心管理(PDCM)请求。该代理可以收集物理设备信息,并在对应的储存库中保存该信息。该物理设备信息可以是,但不限于制造商、CPU/存储利用、空闲分区空间、接口的比特率/误比特率和其它信息。该代理可以通过IPMI、SMART或者甚至分析系统记录和诸如“top”或“xentop”的系统命令的结果来得到物理信息。当该代理从诸如PDCM服务器300的服务器的监视模块310接收请求时,它可以向该PDCM服务器300发回对应的值以得到在该PDCM服务器的物理设备信息。物理数据中心(PDC)的管理员可以设置探测时段,例如350秒,来向该PDC中的每一物理设备发送请求,并且每个探测时段(例如350秒)得到与每一物理设备对应的最后的值(例如在物理机器PM1,CPU温度50°C)。
在步骤230中,它也可以设置不同的门限,用于与不同物理设备对应的不同的最后值。当所获得的值超过它们对应的给定门限时,诸如PDCM服务器的服务器可以生成用于对应物理设备的对应事件以通知物理数据中心。此外,可以使用PING请求以检查物理设备是否可达到。已经使所述监视模块商业化,例如Zenoss或者WhatsUp。所产生的一些事件可以具有关联,其中一组事件可以具有同一根本原因。产生相关联的事件之后,所公开的示范性实施例可以施加现有的算法来合并该组事件。
在步骤240中,根据事件优先次序化算法可以对该组事件集区分优先次序,稍后将描述如下。在优先次序化的事件列表中,具有更靠前的顺序的事件可能具有较高的可能性成为该性能问题的根本原因,并且应该比具有更靠后顺序的事件更快地解决它们。合并步骤210~240中包含的以上分步骤,以下示出用于示范性应用的整体操作流,以通过使性能问题与硬件问题关联来分析同一虚拟数据中心中的虚拟机器当中的性能问题的根本原因。
根据步骤210,ADDM服务器可以用于被请求以得到虚拟数据中心中的应用的当前延迟并检测异常。所述虚拟数据中心中的示范性应用的应用依赖拓扑如图4中所示。从图4的应用依赖拓扑,该ADDM服务器还弄清所述应用在哪些虚拟机器上运行,并且进行检查以确定所获得的针对所述应用当中的每一跳的当前延迟是否超过它的对应基线。图5示出根据示范性实施例图解所述应用在其上运行的虚拟机器和在应用级依赖图中检测的异常的示意图。例如,针对从虚拟机器VM1中的浏览器到虚拟机器VM2中的DNS服务器的跳跃,检测到用虚线箭头表示的异常,并且在该应用级依赖图中检测到四个异常。可以向PDCM服务器发送用于所述四个异常的关于用VM1、VM2、VM3和VM4表示的对应虚拟机器的信息。
根据步骤220,从所述储存库可以获得针对VM的所使用的虚拟卷,并且从应用级提取VM级。因此,如图6中所示,找出每一虚拟机器VM1、VM2、VM3和VM4的附属虚拟卷,并且在该PDCM服务器中从应用级的视点提取虚假机级的视点。此外,任何两个虚拟机器,比如VMA和VMB彼此进行通信,意味着在它们上面运行的应用彼此进行通信。例如,图6中的VM2和VM3彼此进行通信。原因是VM2上的网络服务器对VM3上的负载均衡器进行通信。此外,认为这两个虚拟机器彼此进行通信,因此如图6中所示在VM2和VM3之间存在链接。虚拟机器和卷之间的链接指示该卷附属于该虚拟机器。例如,卷2附属于虚拟机器VM2。
根据步骤230,可以从所述储存库获得关于物理机器和诸如存储器设备的物理设备的信息,并且从虚假机级提取物理机级。因此,进一步从图6中的虚拟机器级的视点提取物理机器级的视点。换言之,可以从至少一个储存库找到所述虚拟机器或虚拟卷运行在或保存在哪些物理机器或物理存储器上。图7示出图解根据示范性实施例从图6的虚拟机器级到物理机器级的提取的示意图。任何两个物理机器,比如PMA和PMB彼此进行通信,意味着在它们上面运行的虚拟机器彼此进行通信。例如,图7中的PM1和PM3彼此进行通信,因为PM1中的VM2和PM3中的VM3彼此进行通信。物理机器和物理存储器彼此进行通信,意味着在该物理机器上运行的虚拟机器和附属于该物理存储器的卷彼此进行通信。例如,PM3中的VM3和物理存储器2中的卷3彼此进行通信。
图7的提取过程之后,如图5中的虚拟数据中心中的初始的应用级依赖被转换成物理数据中心中的物理机器级依赖。图8示出图解根据示范性实施例的物理数据中心中的物理机器和物理网络存储器当中的通信的示意图。其中,在该PM通信拓扑800中,两个物理机器之间的链接意味着该两个物理机器彼此进行通信,并且一个物理机器和一个物理存储器之间的链接意味着该物理机器和该物理存储器彼此进行通信。
如前所述,所公开的实施例可以使用至少一个储存库来保存多个物理机器的每一对之间的路由路径的信息,和所述多个物理机器的每一个和一个或多个物理设备的每一个之间的至少一条路由路径的信息。因此,对于被认为彼此进行通信的任何两个物理机器,所公开的示范性实施例可以从所述储存库得到该两个物理机器之间的路由路径(即数据传输路径),并且得到相应的事件。例如,图9示出根据示范性实施例的彼此进行通信的两个示范性物理机器(比如PMA和PMB)之间的示范性路由路径910,以及所得到的对应事件920。如图9中所示,从PMA到PMB的路由路径910经过交换机A、交换机B以及然后的交换机C。收集与该数据传输路径中包含的物理设备相关的(已经合并了的)所有当前事件之后,形成PMA_PMB对的事件集。该PMA_PMB对的事件集包括PMA的事件、交换机A的事件、交换机B的事件、交换机C的事件和PMB的事件。
因此,对于被认为彼此进行通信的任何两个物理机器,所公开的示范性实施例可以得到对应的事件集。因此,通过使用物理机器通信拓扑可以形成一组事件集。图10示出根据示范性实施例的、用于图8的物理机器通信拓扑800的事件集的示范性组1000。在图10中,该事件集组1000可以包括PM1_PS1对的事件集、PM1_PM3对的事件集、PM2_PM3对的事件集、PM3_PS2对的事件集和PM2_PS3对的事件集,其中PM表示物理机器而PS表示物理存储器。正如可以看出的,该组事件集中的事件集数目等于物理机器通信拓扑中链接的数目。换言之,PM级依赖是PM通信拓扑,并且通过使用PM通信拓扑可以产生该组事件集。
根据步骤240,可以进一步根据事件优先次序化算法对一组事件集区分优先次序。根据事件优先次序化算法的一个示范性实施例,对于该组事件集中的事件,当它包含在两个事件集中时,定义针对此事件的支持计数(supportcount)。可以用该事件在其中出现的事件集的数目来定义用于事件的支持计数。因此,可以计算该组事件集中每个事件的支持计数,然后按支持计数的递减顺序对所有对应事件排好序。当存在具有相同的支持计数的两事件时,它可以根据事件严重性对它们排序。如图11中示出示范性优先次序化事件列表1100,可以进一步将其发送到物理数据中心。
如图11中所示,该优先次序化的事件列表1100中的每个事件可以关联诸如物理机器或物理设备的设备,并且具有与到该设备的硬件问题对应的关联消息。如前所述,在该列表中具有更靠前顺序的事件可以具有更高的可能性成为特定的性能问题的根本原因。并且最好是早于具有更靠后顺序的事件的特定性能问题,解决该事件的特定性能问题。例如,与称为交换机A的设备关联的事件A具有CPU利用率超过85%的消息,并且CPU利用率超过85%的性能问题具有最高的可能性成为根本原因。
以上用于对该组事件集1000区分优先次序的原理是:通常的硬件问题,例如交换机的过载可能是同一虚拟数据中心中的虚拟机器当中对应性能问题的瓶颈,并且最高优先地解决它们可以加速提高性能。对该组事件集中事件的超过次数计数是优先次序化的基本思想。用于优先次序化一组事件集的算法可以变化。例如,它可以将事件严重性和设备类型考虑到用于每一类事件的特定权重(而不是1)上,并且通过使用加权的支持计数来对所述事件进行优先次序化。
因此,根据示范性实施例,可以如图12中总结用于根本原因分析的事件优先次序化的操作流,其可以包括:得到带有异常的应用级拓扑的应用级异常检测(步骤1210);得到VM级依赖的从应用级到虚拟机器级(VM级)的第一提取过程(步骤1220);得到PM级依赖的从VM级到PM级的第二提取过程(步骤1230);从该PM级依赖生成一组事件集(步骤1240);以及以产生优先次序化的事件列表的事件优先次序化(步骤1250)。其中,至少一个储存库可以用于保存所述两个提取过程期间PM/VM映射信息并产生所述事件集组。监视模块可以用于生成该组事件集的每个事件。
用于根本原因分析的公开的示范性实施例可以适应于具有物理机器、一个或多个网络存储器以及一个或多个网络设备的物理数据中心(PDC)。可以使用物理数据中心管理模块以连续地监视该物理机器、网络存储器以及网络设备,并生成针对硬件组件的事件以分析与所述硬件组件对应的性能问题。可以使用至少一个储存库以保存虚拟机器在哪个物理机器上运行、虚拟卷附属于哪个虚拟机器、虚拟卷与哪个(些)网络存储器有关以及任何两个物理设备之间的路由路径的信息。
因此,可以如图13中示出用于由与物理机器关联地分析虚拟机器当中的性能问题的根本原因的系统的一个示范性实施例。参照图13,该系统1300可以适应于物理数据中心,并且可以包括应用级异常检测模块1310、提取模块1320以及事件生成和优先次序化模块1330。应用级异常检测模块1310被配置为找出在物理数据中心中的多个物理机器(PM)上运行的一个或多个虚拟机器(VM)中的应用级依赖,并且生成带有异常的应用级拓扑。提取模块1320被配置为从带有异常的应用级拓扑提取VM级依赖,然后将VM级依赖转换到PM级依赖。事件生成和优先次序化模块1330被配置为得到PM通信拓扑,通过使用该PM通信拓扑生成一组事件集,并且通过对该组事件集区分优先次序而生成优先次序化的事件列表。
可以将该系统1300集成到物理数据中心管理系统模块中,以连续地监视该物理数据中心中的多个PM和一个或多个物理设备。物理设备可以是,但不限于网关或诸如交换机、物理存储器等的网络设备。该系统1300可以进一步包括至少一个储存库来保存所述多个物理机器的每一对之间的路由路径的信息,和所述多个物理机器的每一个和一个或多个物理设备的每一个之间的至少一条路由路径的信息。提取模块1320可以从该储存库得到用于VM的使用的虚拟卷的信息,用于从应用级提取VM级,并且可以从该储存库得到所述多个PM和一个或多个物理存储器的信息,用于从所述VM级依赖提取PM级依赖。事件生成和优先次序化模块可以从该储存库得到所述多个PM的每对PM之间的路由路径的信息,用于生成对应于该路由路径上多个物理设备的多个事件。之前已经描述了用于对该组事件集区分优先次序的示范性算法,并且在这里省略。
总之,所述示范性实施例提供了用于分析根本原因的技术,通过使用应用级依赖、物理/虚拟资源映射和网络路由信息实现该技术。该技术施加应用级异常检测以得到带有异常的应用级拓扑,执行(从应用级到VM级的)提取过程以得到VM级依赖,和执行(从VM级到PM级的)提取过程以得到PM通信拓扑,然后从该PM通信拓扑生成一组事件集。并且,通过执行优先次序化算法形成优先次序化的事件列表。
对本领域技术人员来说,显然可以对所公开的实施例进行各种修改和变化。旨在认为本说明书和例子仅是示范性的,本公开的真实范围由下面的权利要求及其等价内容指示。
Claims (18)
1.一种适应于物理数据中心的、用于由与物理机器(PM)相关地分析虚拟机器(VM)当中的性能问题的根本原因的方法,该方法包括:
施加应用级依赖发现和异常检测,以找出在该物理数据中心中多个PM上运行的一个或多个VM中的应用级依赖,并且生成带有异常的应用级拓扑;
将该带有异常的应用级拓扑转换到VM级依赖;
经由物理和虚拟资源映射将该VM级依赖转换到PM级依赖,并且生成一组事件集;以及
通过对该组事件集区分优先次序来生成优先次序化的事件列表。
2.如权利要求1所述的方法,其中应用级依赖发现和异常检测进一步包括:
在训练阶段找到与应用轨迹上的多跳的每一跳相关的平均延迟;并且
添加作为容差的相应δ时间段到所述与每一跳相关的平均延迟,并且生成所述每一跳的对应基线延迟。
3.如权利要求2所述的方法,其中进一步确定与所述多跳的每一跳相关的平均延迟是否超过它的对应基线延迟,并且将其延迟超过它们的对应基线延迟的这些跳检测为异常。
4.如权利要求1所述的方法,其中使用储存库以保存关于一个或多个虚拟机器的物理资源使用的至少一信息。
5.如权利要求1所述的方法,其中所述方法进一步使用至少一个储存库以保存:多个物理机器的每对之间的路由路径的第一信息,和所述多个物理机器的每个和至少一个物理设备的每个之间的至少一条路由路径的第二信息。
6.如权利要求1所述的方法,其中所述优先次序化的事件列表中的每个事件与设备关联,并且具有与该设备的硬件问题对应的关联消息。
7.如权利要求6所述的方法,其中所述每个事件所关联的设备是物理机器和物理设备之一,并且所述物理设备是物理机器、网络存储器和网络设备之一。
8.如权利要求1所述的方法,其中所述物理和虚拟资源映射进一步包括:
从至少一个储存库获得关于至少一个物理机器和至少一个物理设备的信息,并且从VM级依赖提取PM级依赖。
9.如权利要求1所述的方法,其中生成所述组事件集的步骤进一步包括:
对于多个PM的每对PM,得到该PM对和该PM对的第一对应事件集之间的路由路径;以及
对于所述多个PM的一个PM和至少一个物理存储器的一个物理存储器(PS)的每一对,得到该PM和该PS的第二对应事件集。
10.如权利要求1所述的方法,其中所述PM级依赖是PM通信拓扑,并且通过使用该PM通信拓扑生成所述组事件集。
11.一种适应于物理数据中心的、用于由与物理机器(PM)相关地分析虚拟机器(VM)当中的性能问题的根本原因的系统,该系统包括:
应用级异常检测模块,被配置为找出在该物理数据中心中的多个PM上运行的一个或多个VM中的应用级依赖,并且生成带有异常的应用级拓扑;
提取模块,被配置为从该带有异常的应用级拓扑提取VM级依赖,然后将该VM级依赖转换到PM级依赖;以及
事件生成和优先次序化模块,被配置为得到PM通信拓扑,通过使用该PM通信拓扑生成一组事件集,并且通过对该组事件集区分优先次序而生成优先次序化的事件列表。
12.如权利要求11所述的系统,其中在物理数据中心管理系统模块中集成所述系统,以连续地监视该物理数据中心中的所述多个PM和一个或多个物理设备。
13.如权利要求11所述的系统,其中该系统进一步包括至少一个储存库以保存:所述多个PM的每对之间的路由路径的第一信息,和所述多个PM的每个和一个或多个物理设备的每个之间的至少一条路由路径的第二信息。
14.如权利要求12所述的系统,其中所述优先次序化的事件列表中的每个事件与该物理数据中心中的一个或多个物理设备的一个物理设备关联,并且具有与该物理设备的硬件问题对应的关联消息。
15.如权利要求11所述的系统,其中提取模块从至少一个储存库得到对于所述一个或多个VM所使用的一个或多个虚拟卷的信息,用于从所述带有异常的应用级拓扑提取VM级依赖。
16.如权利要求11所述的系统,其中提取模块从至少一个储存库得到所述多个PM和一个或多个物理存储器的信息,用于从所述VM级依赖提取PM级依赖。
17.如权利要求11所述的系统,其中事件生成和优先次序化模块得到所述多个PM的每对PM之间的路由路径,用于生成与该路由路径上的多个物理设备对应的多个事件。
18.如权利要求11所述的系统,其中提取模块将该VM级依赖转换到PM通信拓扑。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/707,038 US9183033B2 (en) | 2012-12-06 | 2012-12-06 | Method and system for analyzing root causes of relating performance issues among virtual machines to physical machines |
US13/707,038 | 2012-12-06 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103853627A true CN103853627A (zh) | 2014-06-11 |
CN103853627B CN103853627B (zh) | 2017-03-01 |
Family
ID=50861311
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210551601.2A Active CN103853627B (zh) | 2012-12-06 | 2012-12-18 | 由与物理机器相关地分析虚拟机器性能问题原因的方法和系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9183033B2 (zh) |
CN (1) | CN103853627B (zh) |
TW (1) | TWI497286B (zh) |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9779260B1 (en) | 2012-06-11 | 2017-10-03 | Dell Software Inc. | Aggregation and classification of secure data |
US10333820B1 (en) | 2012-10-23 | 2019-06-25 | Quest Software Inc. | System for inferring dependencies among computing systems |
US9183092B1 (en) * | 2013-01-21 | 2015-11-10 | Amazon Technologies, Inc. | Avoidance of dependency issues in network-based service startup workflows |
US9405605B1 (en) * | 2013-01-21 | 2016-08-02 | Amazon Technologies, Inc. | Correction of dependency issues in network-based service remedial workflows |
US9503341B2 (en) * | 2013-09-20 | 2016-11-22 | Microsoft Technology Licensing, Llc | Dynamic discovery of applications, external dependencies, and relationships |
US9519513B2 (en) | 2013-12-03 | 2016-12-13 | Vmware, Inc. | Methods and apparatus to automatically configure monitoring of a virtual machine |
US9678731B2 (en) | 2014-02-26 | 2017-06-13 | Vmware, Inc. | Methods and apparatus to generate a customized application blueprint |
US11005738B1 (en) | 2014-04-09 | 2021-05-11 | Quest Software Inc. | System and method for end-to-end response-time analysis |
US20150378763A1 (en) | 2014-06-30 | 2015-12-31 | Vmware, Inc. | Methods and apparatus to manage monitoring agents |
EP2990950B1 (en) * | 2014-08-25 | 2021-05-12 | Tata Consultancy Services Limited | Monitoring activities of a software application |
TWI548236B (zh) * | 2014-10-06 | 2016-09-01 | 研華股份有限公司 | 具置入型管理機制的網路裝置、系統與管理暨監控方法 |
CN105591784A (zh) | 2014-10-24 | 2016-05-18 | 中兴通讯股份有限公司 | 告警处理方法及装置 |
US10291493B1 (en) | 2014-12-05 | 2019-05-14 | Quest Software Inc. | System and method for determining relevant computer performance events |
CN105812170B (zh) * | 2014-12-31 | 2019-01-18 | 华为技术有限公司 | 基于数据中心的故障分析方法和装置 |
US9996577B1 (en) | 2015-02-11 | 2018-06-12 | Quest Software Inc. | Systems and methods for graphically filtering code call trees |
JP2017187813A (ja) * | 2015-02-24 | 2017-10-12 | 株式会社野村総合研究所 | 稼働状況表示システム |
US10326748B1 (en) | 2015-02-25 | 2019-06-18 | Quest Software Inc. | Systems and methods for event-based authentication |
US10417613B1 (en) | 2015-03-17 | 2019-09-17 | Quest Software Inc. | Systems and methods of patternizing logged user-initiated events for scheduling functions |
US10270668B1 (en) * | 2015-03-23 | 2019-04-23 | Amazon Technologies, Inc. | Identifying correlated events in a distributed system according to operational metrics |
US9842220B1 (en) | 2015-04-10 | 2017-12-12 | Dell Software Inc. | Systems and methods of secure self-service access to content |
US10592308B2 (en) * | 2015-04-30 | 2020-03-17 | Micro Focus Llc | Aggregation based event identification |
US10187260B1 (en) | 2015-05-29 | 2019-01-22 | Quest Software Inc. | Systems and methods for multilayer monitoring of network function virtualization architectures |
JP2018530803A (ja) * | 2015-07-14 | 2018-10-18 | サイオス テクノロジー コーポレーションSios Technology Corporation | コンピュータ環境における根本原因分析および修復のために機械学習原理を活用する装置および方法 |
US10536352B1 (en) | 2015-08-05 | 2020-01-14 | Quest Software Inc. | Systems and methods for tuning cross-platform data collection |
US10200252B1 (en) | 2015-09-18 | 2019-02-05 | Quest Software Inc. | Systems and methods for integrated modeling of monitored virtual desktop infrastructure systems |
US10218588B1 (en) | 2015-10-05 | 2019-02-26 | Quest Software Inc. | Systems and methods for multi-stream performance patternization and optimization of virtual meetings |
US10157358B1 (en) | 2015-10-05 | 2018-12-18 | Quest Software Inc. | Systems and methods for multi-stream performance patternization and interval-based prediction |
CN105446861A (zh) * | 2015-11-11 | 2016-03-30 | 浪潮电子信息产业股份有限公司 | 一种基于linux的IPMI接口负载稳定性监测方法 |
US9537720B1 (en) * | 2015-12-10 | 2017-01-03 | International Business Machines Corporation | Topology discovery for fault finding in virtual computing environments |
EP3226493B1 (en) * | 2015-12-21 | 2020-03-25 | Huawei Technologies Co., Ltd. | Method, device, and system for discovering the relationship of applied topology |
CN106909436B (zh) * | 2015-12-23 | 2020-07-21 | 财团法人工业技术研究院 | 产生虚拟机消息队列应用程序的相关关系的方法与系统 |
US10142391B1 (en) * | 2016-03-25 | 2018-11-27 | Quest Software Inc. | Systems and methods of diagnosing down-layer performance problems via multi-stream performance patternization |
US10230601B1 (en) | 2016-07-05 | 2019-03-12 | Quest Software Inc. | Systems and methods for integrated modeling and performance measurements of monitored virtual desktop infrastructure systems |
US10261839B2 (en) * | 2016-11-02 | 2019-04-16 | International Business Machines Corporation | Outlier and root cause determination of excessive resource usage in a virtual machine environment |
GB2556132B (en) * | 2016-11-10 | 2018-11-14 | Metaswitch Networks Ltd | Modelling a network by combining physical and virtual dependency models |
GB2540902B (en) | 2016-11-10 | 2017-07-19 | Metaswitch Networks Ltd | Optimising a mapping of virtualised network functions onto physical resources in a network using dependency models |
US10873794B2 (en) * | 2017-03-28 | 2020-12-22 | Cisco Technology, Inc. | Flowlet resolution for application performance monitoring and management |
US11165856B2 (en) * | 2017-04-25 | 2021-11-02 | Citrix Systems, Inc. | Detecting uneven load balancing through multi-level outlier detection |
CN107231352A (zh) * | 2017-05-27 | 2017-10-03 | 郑州云海信息技术有限公司 | 一种面向Xen虚拟化环境的系统日志监控方法及装置 |
US10924329B2 (en) * | 2019-01-18 | 2021-02-16 | Vmware, Inc. | Self-healing Telco network function virtualization cloud |
US10887156B2 (en) | 2019-01-18 | 2021-01-05 | Vmware, Inc. | Self-healing Telco network function virtualization cloud |
US11126492B1 (en) * | 2019-11-05 | 2021-09-21 | Express Scripts Stategic Development, Inc. | Systems and methods for anomaly analysis and outage avoidance in enterprise computing systems |
US11966319B2 (en) * | 2021-02-23 | 2024-04-23 | Mellanox Technologies, Ltd. | Identifying anomalies in a data center using composite metrics and/or machine learning |
TWI793910B (zh) * | 2021-12-09 | 2023-02-21 | 中華電信股份有限公司 | 偵測異常及提供修復策略的微服務監控系統及其方法 |
CN116866154B (zh) * | 2023-09-05 | 2023-11-28 | 湖北华中电力科技开发有限责任公司 | 一种基于虚拟机集群的配电网通讯服务智能调度管理系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090028053A1 (en) * | 2007-07-27 | 2009-01-29 | Eg Innovations Pte. Ltd. | Root-cause approach to problem diagnosis in data networks |
GB2457344A (en) * | 2007-07-20 | 2009-08-19 | Eg Innovations Pte Ltd | Monitoring system for virtual application enviroments |
US20120005658A1 (en) * | 2007-06-05 | 2012-01-05 | Computer Associates Think, Inc. | Programmatic Root Cause Analysis For Application Performance Management |
JP2014007609A (ja) * | 2012-06-25 | 2014-01-16 | Hitachi Ltd | 仮想化システム、通信装置及びネットワーク障害監視方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6738933B2 (en) | 2001-05-09 | 2004-05-18 | Mercury Interactive Corporation | Root cause analysis of server system performance degradations |
US20070271560A1 (en) * | 2006-05-18 | 2007-11-22 | Microsoft Corporation | Deploying virtual machine to host based on workload characterizations |
US8484336B2 (en) * | 2006-11-15 | 2013-07-09 | Cisco Technology, Inc. | Root cause analysis in a communication network |
US7818418B2 (en) | 2007-03-20 | 2010-10-19 | Computer Associates Think, Inc. | Automatic root cause analysis of performance problems using auto-baselining on aggregated performance metrics |
US8180723B2 (en) | 2008-01-14 | 2012-05-15 | Hewlett-Packard Development Company, L.P. | Root cause analysis in a system having a plurality of inter-related elements |
TW201025065A (en) * | 2008-12-29 | 2010-07-01 | Lei Wang | Expandable secure server alternate system |
US8862727B2 (en) * | 2012-05-14 | 2014-10-14 | International Business Machines Corporation | Problem determination and diagnosis in shared dynamic clouds |
-
2012
- 2012-12-06 US US13/707,038 patent/US9183033B2/en active Active
- 2012-12-18 CN CN201210551601.2A patent/CN103853627B/zh active Active
- 2012-12-26 TW TW101150186A patent/TWI497286B/zh active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120005658A1 (en) * | 2007-06-05 | 2012-01-05 | Computer Associates Think, Inc. | Programmatic Root Cause Analysis For Application Performance Management |
GB2457344A (en) * | 2007-07-20 | 2009-08-19 | Eg Innovations Pte Ltd | Monitoring system for virtual application enviroments |
US20090028053A1 (en) * | 2007-07-27 | 2009-01-29 | Eg Innovations Pte. Ltd. | Root-cause approach to problem diagnosis in data networks |
JP2014007609A (ja) * | 2012-06-25 | 2014-01-16 | Hitachi Ltd | 仮想化システム、通信装置及びネットワーク障害監視方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103853627B (zh) | 2017-03-01 |
US20140165054A1 (en) | 2014-06-12 |
TW201423398A (zh) | 2014-06-16 |
US9183033B2 (en) | 2015-11-10 |
TWI497286B (zh) | 2015-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103853627B (zh) | 由与物理机器相关地分析虚拟机器性能问题原因的方法和系统 | |
CN107544839B (zh) | 虚拟机迁移系统、方法及装置 | |
KR102001898B1 (ko) | 알람 정보 처리 방법, 관련 디바이스 및 시스템 | |
US8352589B2 (en) | System for monitoring computer systems and alerting users of faults | |
US10462027B2 (en) | Cloud network stability | |
US9836952B2 (en) | Alarm causality templates for network function virtualization | |
CN104657250A (zh) | 一种对云主机进行性能监控的监控方法 | |
US20060026467A1 (en) | Method and apparatus for automatically discovering of application errors as a predictive metric for the functional health of enterprise applications | |
CN103069749B (zh) | 虚拟环境中的问题的隔离的方法和系统 | |
CN106027328A (zh) | 一种基于应用容器部署的集群监控的方法及系统 | |
CN102231681A (zh) | 一种高可用集群计算机系统及其故障处理方法 | |
CN102437935B (zh) | Web应用监控方法及设备 | |
US20090319658A1 (en) | Method and system to monitor equipment of an it infrastructure | |
CN105516293A (zh) | 一种智能变电站云资源监控系统 | |
CN106470123A (zh) | 日志收集方法、客户端、服务器和电子设备 | |
US20170168884A1 (en) | Generic alarm correlation by means of normalized alarm codes | |
JP2013054402A (ja) | 運用監視装置、運用監視プログラム及び記録媒体 | |
US20200394329A1 (en) | Automatic application data collection for potentially insightful business values | |
US12047839B2 (en) | Out of box user performance journey monitoring | |
CN117729576A (zh) | 告警监控方法、装置、设备及存储介质 | |
CN103457771B (zh) | 一种ha的虚拟机集群的管理方法和设备 | |
Perez-Espinoza et al. | A distributed architecture for monitoring private clouds | |
Abderrahim et al. | Dependability integration in cloud-hosted telecommunication services | |
Sousa et al. | M2-fot: a proposal for monitoring and management of fog of things platforms | |
Gao et al. | The diagnosis of wired network malfunctions based on big data and traffic prediction: An overview |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |