CN104796270A

CN104796270A - 在云应用的问题诊断中推荐可疑组件的方法及装置

Info

Publication number: CN104796270A
Application number: CN201410019532.XA
Authority: CN
Inventors: 余涛; 叶萌; 吴海珊
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2014-01-16
Filing date: 2014-01-16
Publication date: 2015-07-22
Anticipated expiration: 2034-01-16
Also published as: US9477544B2; US20150199226A1; CN104796270B

Abstract

本发明公开了一种在云应用的问题诊断中推荐可疑组件的方法及装置。在该方法中，首先构建用于表示云应用的分层结构的图形数据模型，其中，图形数据模型包括表示云应用的应用节点、表示云应用的多个组件的多个组件节点和用于指示节点间关系的节点间连接线。然后，响应于检测到云应用的性能降低，获取云应用的实时信息。基于所构建的图形数据模型和所获取的实时信息，获得多个组件节点对于云应用的所述性能降低的影响度，并根据多个组件节点的影响度，产生可疑组件序列。

Description

在云应用的问题诊断中推荐可疑组件的方法及装置

技术领域

本发明涉及云应用的问题诊断技术，更具体地，涉及在云应用的问题诊断中推荐可疑组件的方法及装置。

背景技术

在云应用的问题诊断中，如何快速而准确地找出云应用问题的根原因是非常重要的。在云计算环境中，云应用的执行涉及许多组件，例如，代理服务器、应用服务器、数据库、虚拟机等。当任何一个组件出现问题时，都会导致云应用的性能降低。

目前，云应用的问题诊断通常由系统管理员人工地执行。即，当云应用的性能降低时，系统管理员根据自身的经验，判断可能的问题组件，然后使用具体的问题诊断工具对该问题组件进行根原因分析。然而，这种问题诊断需要系统管理员具有较高的专业知识。而且，在云计算环境中，云应用的执行需要大量的组件，这些组件相互影响并可被设置不同的报警规则。当云应用的性能降低时，可能出现多个组件都报警的情形，造成系统管理员难以判断问题组件，从而不能快速且准确地确定根原因。

另外，现有的问题诊断工具大多是针对具体的组件的，因此，在进行根原因分析之前需要确定对哪个组件使用哪个问题诊断工具。然而，在现有技术中，这个过程通常由具有较高专业知识的专业人员来完成。

因此，通常的云应用的问题诊断过程可分为两个阶段。在第一个阶段，确定哪个组件出现问题；在第二个阶段，使用具体的问题诊断工具对该组件进行根原因分析。然而，在现有技术中没有关于在云应用的性能降低时引导缺乏专业知识的人员从哪个组件开始进行诊断或者推荐需要诊断的组件的技术。

发明内容

根据本发明的一个方面，提供了一种在云应用的问题诊断中推荐可疑组件的方法，包括：构建用于表示所述云应用的分层结构的图形数据模型，其中，所述图形数据模型包括代表所述云应用的应用节点、代表所述云应用的多个组件的多个组件节点和用于指示节点间关系的节点间连接线；响应于检测到所述云应用的性能降低，获取所述云应用的实时信息；基于所述图形数据模型和所述实时信息，获得所述多个组件对于所述云应用的所述性能降低的影响度；以及根据所述多个组件的所述影响度，产生可疑组件序列。

根据本发明的另一个方面，提供了一种在云应用的问题诊断中推荐可疑组件的装置，包括：构建模块，其被配置为构建用于表示所述云应用的分层结构的图形数据模型，其中，所述图形数据模型包括代表所述云应用的应用节点、代表所述云应用的多个组件的多个组件节点和用于指示节点间关系的节点间连接线；实时信息获取模块，其被配置为响应于检测到所述云应用的性能降低，获取所述云应用的实时信息；影响度获得模块，其被配置为基于所述图形数据模型和所述实时信息，获得所述多个组件对于所述云应用的所述性能降低的影响度；以及可疑组件产生模块，其被配置为根据所述多个组件的所述影响度，产生可疑组件序列。

附图说明

通过结合附图对本公开示例性实施方式进行更详细的描述，本公开的上述以及其它目的、特征和优势将变得更加明显，其中，在本公开示例性实施方式中，相同的参考标号通常代表相同部件。

图1表示根据本发明一实施例的云计算节点；

图2表示根据本发明一实施例的云计算环境；

图3表示根据本发明一实施例的抽象模型层；

图4是根据本发明的实施例的在云应用的问题诊断中推荐可疑组件的方法的流程图；

图5是根据本发明的实施例的表示云应用的分层结构的图形数据模型的一个例子的示意图；

图6是根据本发明的实施例的数据库组件的实时信息的一个例子的示意图；

图7是图4的实施例中获得多个组件对于云应用的性能降低的影响度的示意性流程图；

图8是用于说明获得影响度的例子的示意图；

图9是根据本发明的实施例的在云应用的问题诊断中推荐可疑组件的装置的示意性方框图。

具体实施方式

下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式，然而应该理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整的传达给本领域的技术人员。

首先应当理解，尽管本公开包括关于云计算的详细描述，但其中记载的技术方案的实现却不限于云计算环境，而是能够结合现在已知或以后开发的任何其它类型的计算环境而实现。

云计算是一种服务交付模式，用于对共享的可配置计算资源池进行方便、按需的网络访问。可配置计算资源是能够以最小的管理成本或与服务提供者进行最少的交互就能快速部署和释放的资源，例如可以是网络、网络带宽、服务器、处理、内存、存储、应用、虚拟机和服务。这种云模式可以包括至少五个特征、至少三个服务模型和至少四个部署模型。

特征包括：

按需自助式服务：云的消费者在无需与服务提供者进行人为交互的情况下能够单方面自动地按需部署诸如服务器时间和网络存储等的计算能力。

广泛的网络接入：计算能力可以通过标准机制在网络上获取，这种标准机制促进了通过不同种类的瘦客户机平台或厚客户机平台（例如移动电话、膝上型电脑、个人数字助理PDA）对云的使用。

资源池：提供者的计算资源被归入资源池并通过多租户（multi-tenant）模式服务于多重消费者，其中按需将不同的实体资源和虚拟资源动态地分配和再分配。一般情况下，消费者不能控制或甚至并不知晓所提供的资源的确切位置，但可以在较高抽象程度上指定位置（例如国家、州或数据中心），因此具有位置无关性。

迅速弹性：能够迅速、有弹性地（有时是自动地）部署计算能力，以实现快速扩展，并且能迅速释放来快速缩小。在消费者看来，用于部署的可用计算能力往往显得是无限的，并能在任意时候都能获取任意数量的计算能力。

可测量的服务：云系统通过利用适于服务类型（例如存储、处理、带宽和活跃用户帐号）的某种抽象程度的计量能力，自动地控制和优化资源效用。可以监测、控制和报告资源使用情况，为服务提供者和消费者双方提供透明度。

服务模型如下：

软件即服务(SaaS)：向消费者提供的能力是使用提供者在云基础架构上运行的应用。可以通过诸如网络浏览器的瘦客户机接口（例如基于网络的电子邮件）从各种客户机设备访问应用。除了有限的特定于用户的应用配置设置外，消费者既不管理也不控制包括网络、服务器、操作系统、存储、乃至单个应用能力等的底层云基础架构。

平台即服务(PaaS)：向消费者提供的能力是在云基础架构上部署消费者创建或获得的应用，这些应用利用提供者支持的程序设计语言和工具创建。消费者既不管理也不控制包括网络、服务器、操作系统或存储的底层云基础架构，但对其部署的应用具有控制权，对应用托管环境配置可能也具有控制权。

基础架构即服务（IaaS）：向消费者提供的能力是消费者能够在其中部署并运行包括操作系统和应用的任意软件的处理、存储、网络和其他基础计算资源。消费者既不管理也不控制底层的云基础架构，但是对操作系统、存储和其部署的应用具有控制权，对选择的网络组件（例如主机防火墙）可能具有有限的控制权。

部署模型如下：

私有云：云基础架构单独为某个组织运行。云基础架构可以由该组织或第三方管理并且可以存在于该组织内部或外部。

共同体云：云基础架构被若干组织共享并支持有共同利害关系（例如任务使命、安全要求、政策和合规考虑）的特定共同体。共同体云可以由共同体内的多个组织或第三方管理并且可以存在于该共同体内部或外部。

公共云：云基础架构向公众或大型产业群提供并由出售云服务的组织拥有。

混合云：云基础架构由两个或更多部署模型的云（私有云、共同体云或公共云）组成，这些云依然是独特的实体，但是通过使数据和应用能够移植的标准化技术或私有技术（例如用于云之间的负载平衡的云突发流量分担技术）绑定在一起。

云计算环境是面向服务的，特点集中在无状态性、低耦合性、模块性和语意的互操作性。云计算的核心是包含互连节点网络的基础架构。

现在参考图1，其中显示了云计算节点的一个例子。图1显示的云计算节点10仅仅是适合的云计算节点的一个示例，不应对本发明实施例的功能和使用范围带来任何限制。总之，云计算节点10能够被用来实现和/或执行以上所述的任何功能。

云计算节点10具有计算机系统/服务器12，其可与众多其它通用或专用计算系统环境或配置一起操作。众所周知，适于与计算机系统/服务器12一起操作的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任意系统的分布式云计算技术环境，等等。

计算机系统/服务器12可以在由计算机系统执行的计算机系统可执行指令（诸如程序模块）的一般语境下描述。通常，程序模块可以包括执行特定的任务或者实现特定的抽象数据类型的例程、程序、目标程序、组件、逻辑、数据结构等。计算机系统/服务器12可以在通过通信网络链接的远程处理设备执行任务的分布式云计算环境中实施。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

如图1所示，云计算节点10中的计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件（包括系统存储器28和处理单元16）的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构（ISA）总线，微通道体系结构（MAC）总线，增强型ISA总线、视频电子标准协会（VESA）局域总线以及外围组件互连（PCI）总线。

计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是能够被计算机系统/服务器12访问的任意可获得的介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器（RAM）30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质（图1未显示，通常称为“硬盘驱动器”）。尽管图1中未示出，可以提供用于对可移动非易失性磁盘（例如“软盘”）读写的磁盘驱动器，以及对可移动非易失性光盘（例如CD-ROM,DVD-ROM或者其它光介质）读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组（例如至少一个）程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组（至少一个）程序模块42的程序/实用工具40，可以存储在存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机系统/服务器12也可以与一个或多个外部设备14（例如键盘、指向设备、显示器24等）通信，还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信，和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备（例如网卡，调制解调器等等）通信。这种通信可以通过输入/输出（I/O）接口22进行。并且，计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络（例如局域网（LAN），广域网（WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白，尽管图中未示出，其它硬件和/或软件模块可以与计算机系统/服务器12一起操作，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

现在参考图2，其中显示了示例性的云计算环境50。如图所示，云计算环境50包括云计算消费者使用的本地计算设备可以与其相通信的一个或者多个云计算节点10，本地计算设备例如可以是个人数字助理（PDA）或移动电话54A，台式电脑54B、笔记本电脑54C和/或汽车计算机系统54N。云计算节点10之间可以相互通信。可以在包括但不限于如上所述的私有云、共同体云、公共云或混合云或者它们的组合的一个或者多个网络中将云计算节点10进行物理或虚拟分组（图中未显示）。这样，云的消费者无需在本地计算设备上维护资源就能请求云计算环境50提供的基础架构即服务（IaaS）、平台即服务（PaaS）和/或软件即服务（SaaS）。应当理解，图2显示的各类计算设备54A-N仅仅是示意性的，云计算节点10以及云计算环境50可以与任意类型网络上和/或网络可寻址连接的任意类型的计算设备（例如使用网络浏览器）通信。

现在参考图3，其中显示了云计算环境50（图2）提供的一组功能抽象层。首先应当理解，图3所示的组件、层以及功能都仅仅是示意性的，本发明的实施例不限于此。如图3所示，提供下列层和对应功能：

硬件和软件层60包括硬件和软件组件。硬件组件的例子包括：主机，例如系统；基于RISC（精简指令集计算机）体系结构的服务器，例如系统；系统;系统；存储设备；网络和网络组件。软件组件的例子包括：网络应用服务器软件，例如IBM应用服务器软件；数据库软件，例如数据库软件。（IBM,zSeries,pSeries,xSeries,BladeCenter,WebSphere以及DB2是国际商业机器公司在全世界各地的注册商标)。

虚拟层62提供一个抽象层，该层可以提供下列虚拟实体的例子：虚拟服务器、虚拟存储、虚拟网络（包括虚拟私有网络）、虚拟应用和操作系统，以及虚拟客户端。

在一个示例中，管理层64可以提供下述功能：资源供应功能：提供用于在云计算环境中执行任务的计算资源和其它资源的动态获取；计量和定价功能：在云计算环境内对资源的使用进行成本跟踪，并为此提供帐单和发票。在一个例子中，该资源可以包括应用软件许可。安全功能：为云的消费者和任务提供身份认证，为数据和其它资源提供保护。用户门户功能：为消费者和系统管理员提供对云计算环境的访问。服务水平管理功能：提供云计算资源的分配和管理，以满足必需的服务水平。服务水平协议（SLA）计划和履行功能：为根据SLA预测的对云计算资源未来需求提供预先安排和供应。

工作负载层66提供云计算环境可能实现的功能的示例。在该层中，可提供的工作负载或功能的示例包括：地图绘制与导航；软件开发及生命周期管理；虚拟教室的教学提供；数据分析处理；交易处理；以及在云应用的问题诊断中可疑组件的推荐。

图4是根据本发明的实施例的在云应用的问题诊断中推荐可疑组件的方法的流程图。下面结合附图，对本实施例进行详细描述。

如图4所示，在步骤S410，构建用于表示云应用的分层结构的图形数据模型。如前所述，在云计算环境中，云应用可被分布在不同层级的多个组件上。在本实施例中，通过对云应用建模来构建图形数据模型以图形化地表示云应用的分层结构。因此，本实施例的图形数据模型是以云应用的中心的拓扑结构。

在本实施例中，图形数据模型包括代表云应用的应用节点、代表云应用的多个组件的多个组件节点和用于指示节点间关系的节点间连接线。云应用的分层结构可包括应用层、中间件层、虚拟机层、管理程序层和网络层。相应地，图形数据模型也具有这些层。应用节点和组件节点位于不同的层。应用节点位于应用层，表示诸如代理服务器、应用服务器和数据库的组件的组件节点位于中间件层。应用节点与组件节点之间以及多个组件节点彼此之间的关系可通过节点间连线指示。在一个例子中，节点间关系可包括以下的至少一种：用于层间节点的父子关系、用于层内节点的前后关系和对等关系。通常，对于层间节点，位于上层的节点是父节点，位于下层的节点是子节点。对于层内节点，可根据云应用中的事务的处理过程确定前后关系和/或对等关系。

图5示出了根据本发明的实施例的表示云应用的分层结构的图形数据模型的一个例子。假定云应用是某一航空公司的网站的登录管理。如图5所示，在应用层，应用节点是“登录”。在中间件层，“登录”应用节点的组件节点包括表示代理服务器的组件节点Nigix、表示应用服务器的组件节点Liberty1、Liberty2、WXS和表示数据库的组件节点MongoDB。此外，虽然未图示，在虚拟机层、管理程序层和网络单元层也包括相应的组件节点。在位于应用层的应用节点“登录”与位于中间件层的组件节点Nigix之间存在父子关系，在中间层的组件节点Nigix与Liberty1、Liberty2之间分别存在前后关系，而在组件节点Liberty1与Liberty2之间存在对等关系，等等。

返回到图4，在步骤S420，响应于检测到云应用的性能降低，获取云应用的实时信息。通常，云应用的性能可通过终端用户体验（EUE）性能指标反映，例如响应时间、丢包率等。如果响应时间变长或丢包率增加，可认为云应用的性能降低。在本实施例中，云应用的实时信息是云应用的组件节点的实时信息的集合，其中实时信息可包括事务信息和运行状态信息。此外，组件节点的实时信息也可体现在通过步骤S410构建的图形数据模型中。

图6示出了数据库节点MongoDB的实时信息的一个例子的示意图。如图6所示，MongoDB的实时信息包括慢查询信息（即事务信息）和服务器状态信息（即运行状态信息）。在慢查询信息中例如包含各个慢查询的度量及其值，而在服务器状态信息中例如包括CPU信息、存储器信息、连接信息等。对于不同的组件节点，可设置不同的实时信息。

组件节点的实时信息可周期性地记录在其日志中。当检测到云应用的性能降低时，可从各组件节点的日志中获取实时信息。

接着，返回到图4，在步骤S430，基于在步骤S410中构建的图形数据模型和在步骤S420中获得的实时信息，获得多个组件节点对于云应用的性能降低的影响度。

在本实施例中，所谓组件节点对于云应用的性能降低的影响度是指组件节点对于该性能降低所做出的贡献程度，这可反映出组件节点出现问题的可能性。

图7示出了步骤S430的示意性流程图。如图7所示，首先，在步骤S701，分析在步骤S420中获得的实时信息，以获得云应用的具有最差性能指标的问题事务。在本实施例中，可根据代理服务器节点这一组件节点的事务信息，确定问题事务。具体地，可从所获得的实时信息中提取代理服务器节点的事务信息，然后根据所提取的代理服务器节点的事务信息，确定问题事务。代理服务器节点的事务信息可包括经过该代理服务器节点的所有事务的性能参数，例如响应时间等。

在确定问题事务的过程中，可从代理服务器节点的事务信息中获取各个事务的响应时间，然后将各个事务的响应时间进行比较，以获得具有最长响应时间的事务。在性能指标是响应时间的情况下，响应时间越长，则认为对应的事务出现问题的可能性越高。因此，将具有最长响应时间的事务确定为问题事务。

在另一个实施例中，在确定问题事务的过程中，首先可从代理服务器节点的事务信息中获取各个事务的响应时间，然后，计算各事务的响应时间超过参考响应时间的比例。事务的参考响应时间可以是事务的标准响应时间，也可以是通过对事务的历史响应时间进行统计而获得的平均响应时间。最后，将所计算的比例最大的事务确定为问题事务。

接着，在步骤S705，根据在步骤S410构建的图形数据模型，确定包括问题事务所涉及的组件节点的路径，作为关键路径。在确定了问题事务后，可以进一步根据各组件节点的事务信息，确定该问题事务所涉及的组件节点。如前所述，在图形数据模型中可反映各组件节点之间的关系，因此，可以确定问题事务所经过的组件节点的路径。在本实施例中，将以应用节点为端点并包括问题事务所涉及的组件节点的路径定义为关键路径。

然后，在步骤S710，获得多个组件节点对所确定的关键路径的影响度，作为多个组件节点对于云应用的性能降低的影响度。在本实施例中，影响度可包括反映组件节点对关键路径的影响的第一值和反映组件节点在图形数据模型中的位置的第二值。

在一个实施例中，对于每一个组件节点，计算从该组件节点到应用节点的至少一个路径中经过所确定的关键路径的路径的数量，作为该组件节点的第一值。同时，还计算从该组件节点到应用节点的至少一个路径的距离值。在本例中，路径的距离值可以用从组件节点到应用节点的跳数表示。所计算的最大距离值作为该组件节点的第二值。

在另一个实施例中，首先，选择与所确定的关键路径的组件节点具有节点间关系的至少一个相关组件节点。关键路径的组件节点和这些相关组件节点被认为有可能导致云应用的性能降低。接着，对于包括关键路径的组件节点和所选择的相关组件节点的节点集合中的每一个组件节点，计算从该组件节点到应用节点的至少一个路径中经过关键路径的路径的数量，作为该组件节点的第一值。同时，还计算从该组件节点到应用节点的至少一个路径的距离值，并将所计算的最大距离值作为该组件节点的第二值。

通过计算第一值和第二值，可获得各组件节点或各相关组件节点对云应用的性能降低的影响度。

图8是用于说明获得影响度的例子的示意图。在该例子中，假定所构建的云应用的图像数据模型具有应用层、中间件层和虚拟机层。如图8所示，应用节点App1位于应用层，作为组件节点的代理服务器节点Proxy、应用服务器节点AppServer1、AppServer2、AppServer3、数据库节点DB位于中间件层，作为组件节点的虚拟机节点VM1、VM2、VM3、VM5位于虚拟机层。所确定的关键路径在图中用粗实线表示。可以看出，关键路径的组件节点包括代理服务器节点Proxy和应用服务器节点AppServer1、AppServer3，而相关组件节点包括数据库节点DB和虚拟机节点VM1、VM2、VM5。分别计算代理服务器节点Proxy、应用服务器节点AppServer1、AppServer3、数据库节点DB和虚拟机节点VM1、VM2、VM5的第一值和第二值。可以得到，代理服务器节点Proxy的第一值和第二值分别为V1=1、V2=1，应用服务器节点AppServer1的第一值和第二值分别为V1=1、V2=2，应用服务器节点AppServer3的第一值和第二值分别为V1=1、V2=2，数据库节点DB的第一值和第二值分别为V1=2、V2=3，虚拟机节点VM1的第一值和第二值分别为V1=1、V2=2，虚拟机节点VM2的第一值和第二值分别为V1=1、V2=3，虚拟机节点VM5的第一值和第二值分别为V1=3、V2=4。

返回到图4，在步骤S440，根据在步骤S430中获得的多个组件节点的影响度，产生可疑组件序列。在该步骤中，通过将多个组件节点按照影响度从大到小的顺序进行排序来生成可疑组件序列。

在一个实施例中，首先根据各组件节点的第一值，对各组件节点按照降序进行排序，生成第一组件序列。然后，在第一组件序列中，根据第二值，对第一值相同的组件节点按照降序进行排序，从而生成第二组件序列。由此，第二组件序列作为可疑组件序列。

在另一个实施例中，首先，从在步骤S420中获取的实时信息中提取多个组件节点的运行状态信息。如前所述，组件节点的运行状态信息例如包括诸如CPU利用率的CPU信息、诸如存储器空间使用率的存储器信息等。接着，确定是否存在运行状态信息超过预定阈值的组件节点。通常，各组件节点被设置有各种报警规则，其限定了运行状态信息的阈值。当组件节点的运行状态信息超过阈值时，该组件节点将会报警。在本例中，将优先考虑运行状态信息超过预定阈值的组件节点（以下称为“优先组件节点”）。首先根据各优先组件节点的第一值，对各优先组件节点按照降序进行排序，以生成第一组件序列。接着，在第一组件序列中对第一值相同的优先组件节点按照降序进行排序，以生成第二组件序列。然后，对于除了优先组件节点之外的其它组件节点，根据第一值按照降序进行排序，以生成第三组件序列。然后，在第三组件节点序列中，根据第二值，对第一值相同的组件节点按照降序进行排序，以生成第四组件序列。最后，按照第二组件序列优先第四组件序列的顺序，合并第二组件序列和第四组件序列，以生成可疑组件序列。

在图8的例子中，假定优先组件节点为数据库节点DB和虚拟机节点VM2、VM5（在图中用灰度表示），则按照影响度对代理服务器节点Proxy、应用服务器节点AppServer1、AppServer3、数据库节点DB和虚拟机节点VM1、VM2、VM5进行排序，所获得的可疑组件序列为{VM5，DB，VM2，AppServer3，AppServer1，VM1，Proxy}，其中虚拟机节点VM5是最可疑的组件。上述的可疑组件序列可被推荐给系统管理员以进行进一步的处理。

虽然在以上的实施例中仅说明了组件节点的影响度包括第一值和第二值的情况，但本领域的技术人员能够理解，影响度还可以包括其它值，例如组件节点所在层级的权重等。

通过以上描述可以看出，本实施例的在云应用的问题诊断中推荐可疑组件的方法可通过获得云应用的组件节点对云应用的性能降低的影响度来自动地确定可疑组件序列，能够在检测到云应用的性能降低时引导系统管理员从哪个组件开始进行根原因分析，从而快速而准确地找到性能降低的根原因。

在相同的发明构思下，图9示出了根据本发明的实施例的在云应用的问题诊断中推荐可疑组件的装置900的示意性方框图。下面结合附图对本实施例进行详细描述，其中对于与前面实施例相同的部分，适当省略其说明。

如图9所示，本实施例的装置900包括：构建模块901，其构建用于表示云应用的分层结构的图形数据模型；实时信息获取模块902，其响应于检测到云应用的性能降低，获取云应用的实时信息；影响度获得模块903，其基于由构建模块901构建的图形数据模型和通过实时信息获取模块902获取的实时信息，获得多个组件节点对于云应用的性能降低的影响度；以及可疑组件产生模块904，其根据所获得的多个组件节点的影响度，产生可疑组件序列。

如前所述，图形数据模型可包括表示云应用的应用节点、表示云应用的多个组件的多个组件节点和用于指示节点间关系的节点间连接线，并可具有与云应用的分层结构相应的结构。通过图形数据模型，可反映应用节点与组件节点之间以及组件节点彼此之间的关系。

当检测到云应用的性能降低时，实时信息获取模块902获取云应用的实时信息，即所有组件节点的实时信息，其可包括组件节点的事务信息和运行状态信息。

然后，影响度获得模块903根据图形数据模型和实时信息，获得多个组件节点的影响度。在影响度获得模块903中，分析单元9031分析云应用的实时信息，以获得云应用的具有最差性能指标的问题事务。具体地，在分析单元9031中，事务信息提取单元从实时信息中提取代理服务器节点这一组件节点的事务信息，并由事务确定单元根据所提取的代理服务器节点的事务信息，确定问题事务。在本实施例中，性能指标使用响应时间。因此，响应时间最长的事务被确定为问题事务。

在一个实施例中，在事务确定单元中，首先，响应时间获取单元从代理服务器节点的事务信息中获取各个事务的响应时间，接着，比较单元比较各个事务的响应时间，并由确定单元将具有最长响应时间的事务确定为问题事务。

在另一个实施例中，在事务确定单元中，首先，响应时间获取单元从代理服务器节点的事务信息中获取各个事务的响应时间，接着，计算单元计算各个事务的响应时间超过各自的参考响应时间的比例。在该实施例中，参考响应时间可以是事务的标准响应时间或者是通过对事务的历史响应时间进行统计而获得的平均响应时间。然后，确定单元确定所计算的比例最大的事务为问题事务。

在获得了问题事务后，关键路径确定单元9032根据图形数据模型，确定包括问题事务所涉及的组件节点的路径。如前所述，关键路径是以应用节点为端点的经过问题事务的组件节点的路径。

然后，影响度获得单元9033获得多个组件节点对关键路径的影响度，作为这些组件节点对于云应用的性能降低的影响度。在本实施例中，如前所述，影响度包括第一值和第二值。

在一个实施例中，在影响度获得单元9033中，第一计算单元对于每一个组件节点，计算从该组件节点到应用节点的至少一个路径中经过关键路径的路径的数量，作为该组件节点的第一值，并且第二计算单元计算从该组件节点到应用节点的至少一个路径的距离值，其中，最大的距离值作为该组件节点的第二值。

在另一个实施例中，在影响度获得单元9033中，首先，选择单元选择与关键路径的组件节点具有节点间关系的至少一个相关组件节点。接着，第一计算单元对于包括关键路径的组件节点和至少一个相关组件节点的节点集合中的每一个组件节点，计算从该组件节点到应用节点的至少一个路径中经过关键路径的路径的数量，作为该组件节点的第一值。同时，第二计算单元计算从该组件节点到应用节点的至少一个路径的距离值，其中，最大的距离值作为该组件节点的第二值。

然后，可疑组件产生模块904根据由影响度获得模块903获得的多个组件节点的影响度，产生可疑组件序列。

在一个实施例中，在可疑组件产生模块904中，第一排序单元根据第一值，对多个组件节点按照降序进行排序，以生成第一组件序列。然后，第二排序单元根据第二值，在第一组件序列中对第一值相同的组件节点按照降序进行排序，以生成第二组件序列，第二组件序列作为可疑组件序列。

在另一个实施例中，在可疑组件产生模块904中，首先，运行状态信息提取单元9041从通过实时信息获取模块902获取的实时信息中提取多个组件节点的运行状态信息，并由节点确定单元9042确定运行状态信息超过预定阈值的优先组件节点。然后，第一排序单元9043根据第一值，对优先组件节点按照降序进行排序，以生成第一组件序列。另外，第一排序单元9043还根据第一值，对除了优先组件节点之外的其它组件节点按照降序进行排序，以生成第三组件序列。然后，第二排序单元9044根据第二值，在第一组件序列中对第一值相同的优先组件节点按照降序进行排序，以生成第二组件序列。另外，第二排序单元9044还根据第二值，在第三组件序列中对第一值相同的组件节点按照降序进行排序，以生成第四组件序列。最后，合并单元9045按照第二组件序列优先第四组件序列的顺序，合并第二组件序列和第四组件序列，以生成可疑组件序列。

应当注意，本实施例的装置900能够在操作上实现图4和图7所示的实施例的在云应用的问题诊断中推荐可疑组件的方法。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种在云应用的问题诊断中推荐可疑组件的方法，包括：

构建用于表示所述云应用的分层结构的图形数据模型，其中，所述图形数据模型包括表示所述云应用的应用节点、表示所述云应用的多个组件的多个组件节点和用于指示节点间关系的节点间连接线；

响应于检测到所述云应用的性能降低，获取所述云应用的实时信息；

基于所述图形数据模型和所述实时信息，获得所述多个组件节点对于所述云应用的所述性能降低的影响度；以及

根据所述多个组件节点的所述影响度，产生可疑组件序列。

2.根据权利要求1所述的方法，其中，所述节点间关系包括以下的至少一种：用于层间节点的父子关系、用于层内节点的前后关系和对等关系。

3.根据权利要求1所述的方法，其中，基于所述图形数据模型和所述实时信息，获得所述多个组件节点对于所述云应用的所述性能降低的影响度包括：

分析所述实时信息，以获得所述云应用的具有最差性能指标的问题事务；

根据所述图形数据模型，确定包括所述问题事务所涉及的组件节点的路径，作为关键路径，其中，所述关键路径的一个端点是所述应用节点；以及

获得所述多个组件节点对所述关键路径的影响度，作为所述多个组件节点对于所述云应用的所述性能降低的影响度。

4.根据权利要求3所述的方法，其中，分析所述实时信息，以获得所述云应用的具有最差性能指标的问题事务包括：

从所述实时信息中提取作为所述多个组件节点之一的代理服务器节点的事务信息；以及

根据所述代理服务器节点的所述事务信息，确定所述问题事务。

5.根据权利要求4所述的方法，其中，所述性能指标是响应时间。

6.根据权利要求5所述的方法，其中，根据所述代理服务器节点的所述事务信息，确定所述问题事务包括：

从所述事务信息中获取各个事务的响应时间；

比较所述各个事务的所述响应时间；以及

确定具有最长响应时间的事务为所述问题事务。

7.根据权利要求5所述的方法，其中，根据所述代理服务器节点的所述事务信息，确定所述问题事务包括：

从所述事务信息中获取各个事务的响应时间；

计算所述各个事务的所述响应时间超过各自的参考响应时间的比例；以及

确定所述比例最大的事务为所述问题事务。

8.根据权利要求3所述的方法，其中，获得所述多个组件节点对所述关键路径的影响度包括：

对于所述多个组件节点的每一个，计算从所述组件节点到所述应用节点的至少一个路径中经过所述关键路径的路径的数量，作为所述组件节点的第一值；以及

计算从所述组件节点到所述应用节点的至少一个路径的距离值，其中，最大的距离值作为所述组件节点的第二值；

其中，所述影响度包含所述第一值和所述第二值。

9.根据权利要求3所述的方法，其中，获得所述多个组件节点对所述关键路径的影响度包括：

选择与所述关键路径的组件节点具有节点间关系的至少一个相关组件节点；

对于包括所述关键路径的组件节点和所述至少一个相关组件节点的节点集合中的每一个组件节点，计算从该组件节点到所述应用节点的至少一个路径中经过所述关键路径的路径的数量，作为该组件节点的第一值；以及

计算从该组件节点到所述应用节点的至少一个路径的距离值，其中，最大的距离值作为该组件节点的第二值；

其中，所述影响度包括所述第一值和所述第二值。

10.根据权利要求8或9所述的方法，其中，根据所述多个组件节点的所述影响度，产生可疑组件序列包括：

根据所述第一值，对所述多个组件节点按照降序进行排序，以生成第一组件序列；以及

根据所述第二值，在所述第一组件序列中对所述第一值相同的组件节点按照降序进行排序，以生成第二组件序列，其中，所述第二组件序列作为所述可疑组件序列。

11.根据权利要求8或9所述的方法，其中，根据所述多个组件节点的所述影响度，产生可疑组件序列包括：

从所述实时信息中提取所述多个组件节点的运行状态信息；

确定所述运行状态信息超过预定阈值的优先组件节点；

根据所述第一值，对所述优先组件节点按照降序进行排序，以生成第一组件序列；

根据所述第二值，在所述第一组件序列中对所述第一值相同的优先组件节点按照降序进行排序，以生成第二组件序列；

根据所述第一值，对除了所述优先组件节点之外的其它组件节点按照降序进行排序，以生成第三组件序列；

根据所述第二值，在所述第三组件序列中对所述第一值相同的组件节点按照降序进行排序，以生成第四组件序列；以及

按照所述第二组件序列优先所述第四组件序列的顺序，合并所述第二组件序列和所述第四组件序列，以生成所述可疑组件序列。

12.一种在云应用的问题诊断中推荐可疑组件的装置，包括：

构建模块，其被配置为构建用于表示所述云应用的分层结构的图形数据模型，其中，所述图形数据模型包括表示所述云应用的应用节点、表示所述云应用的多个组件的多个组件节点和用于指示节点间关系的节点间连接线；

实时信息获取模块，其被配置为响应于检测到所述云应用的性能降低，获取所述云应用的实时信息；

影响度获得模块，其被配置为基于所述图形数据模型和所述实时信息，获得所述多个组件节点对于所述云应用的所述性能降低的影响度；以及

可疑组件产生模块，其被配置为根据所述多个组件节点的所述影响度，产生可疑组件序列。

13.根据权利要求12所述的装置，其中，影响度获得模块包括：

分析单元，其被配置为分析所述实时信息，以获得所述云应用的具有最差性能指标的问题事务；

关键路径确定单元，其被配置为根据所述图形数据模型，确定包括所述问题事务所涉及的组件节点的路径，作为关键路径，其中，所述关键路径的一个端点是所述应用节点；以及

影响度获得单元，其被配置为获得所述多个组件节点对所述关键路径的影响度，作为所述多个组件节点对于所述云应用的所述性能降低的影响度。

14.根据权利要求13所述的装置，其中，所述分析单元包括：

事务信息提取单元，其被配置为从所述实时信息中提取作为所述多个组件节点之一的代理服务器节点的事务信息；以及

事务确定单元，其被配置为根据所述代理服务器节点的所述事务信息，确定所述问题事务。

15.根据权利要求14所述的装置，其中，所述性能指标是响应时间。

16.根据权利要求15所述的装置，其中，所述事务确定单元包括：

响应时间获取单元，其被配置为从所述事务信息中获取各个事务的响应时间；

比较单元，其被配置为比较所述各个事务的所述响应时间；以及

确定单元，其被配置为确定具有最长响应时间的事务为所述问题事务。

17.根据权利要求15所述的装置，其中，所述事务确定单元包括：

计算单元，其被配置为计算所述各个事务的所述响应时间超过各自的参考响应时间的比例；以及

确定单元，其被配置为确定所述比例最大的事务为所述问题事务。

18.根据权利要求13所述的装置，其中，所述影响度获得单元包括：

第一计算单元，其被配置为对于所述多个组件节点的每一个，计算从所述组件节点到所述应用节点的至少一个路径中经过所述关键路径的路径的数量，作为所述组件节点的第一值；以及

第二计算单元，其被配置为计算从所述组件节点到所述应用节点的至少一个路径的距离值，其中，最大的距离值作为所述组件节点的第二值；

其中，所述影响度包含所述第一值和所述第二值。

19.根据权利要求13所述的装置，其中，所述影响度获得单元包括：

选择单元，其被配置为选择与所述关键路径的组件节点具有节点间关系的至少一个相关组件节点；

第一计算单元，其被配置为对于包括所述关键路径的组件节点和所述至少一个相关组件节点的节点集合中的每一个组件节点，计算从该组件节点到所述应用节点的至少一个路径中经过所述关键路径的路径的数量，作为该组件节点的第一值；以及

第二计算单元，其被配置为计算从该组件节点到所述应用节点的至少一个路径的距离值，其中，最大的距离值作为该组件节点的第二值；

其中，所述影响度包括所述第一值和所述第二值。

20.根据权利要求18或19所述的装置，其中，所述可疑组件产生模块包括：

第一排序单元，其被配置为根据所述第一值，对所述多个组件节点按照降序进行排序，以生成第一组件序列；以及

第二排序单元，其被配置为根据所述第二值，在所述第一组件序列中对所述第一值相同的组件节点按照降序进行排序，以生成第二组件序列，其中，所述第二组件序列作为所述可疑组件序列。

21.根据权利要求18或19所述的装置，其中，所述可疑组件产生模块包括：

运行状态信息提取单元，其被配置为从所述实时信息中提取所述多个组件节点的运行状态信息；

节点确定单元，其被配置为确定所述运行状态信息超过预定阈值的优先组件节点；

第一排序单元，其被配置为根据所述第一值，对所述优先组件节点按照降序进行排序，以生成第一组件序列，以及根据所述第一值，对除了所述优先组件节点之外的其它组件节点按照降序进行排序，以生成第三组件序列；

第二排序单元，其被配置为根据所述第二值，在所述第一组件序列中对所述第一值相同的优先组件节点按照降序进行排序，以生成第二组件序列，以及根据所述第二值，在所述第三组件序列中对所述第一值相同的组件节点按照降序进行排序，以生成第四组件序列；以及

合并单元，其被配置为按照所述第二组件序列优先所述第四组件序列的顺序，合并所述第二组件序列和所述第四组件序列，以生成所述可疑组件序列。