CN102143008A

CN102143008A - 用于数据中心的诊断故障事件的方法及装置

Info

Publication number: CN102143008A
Application number: CN2010101050029A
Authority: CN
Inventors: 李欣慧; 刘�英; 刘天成; 李影
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2010-01-29
Filing date: 2010-01-29
Publication date: 2011-08-03
Also published as: US8661291B2; US20110191630A1

Abstract

公开了一种用于数据中心的诊断故障事件的方法，包括：监控在数据中心内是否发生故障事件；如果发生故障事件，则确定在发生故障事件的节点中正在执行的业务逻辑；基于与数据中心对应的管理模型，选择与该业务逻辑的执行过程有关的日志文件，其中管理模型反映数据中心的业务逻辑的部署和应用依赖性；以及根据所述日志文件，对故障事件进行诊断。该方法使用管理模型以选择与业务逻辑的执行过程有关的日志文件，并将业务逻辑的信息以及应用之间的依赖关系写入日志文件中，能够自动、快速、准确地对故障事件进行诊断。还公开了相应的用于数据中心的诊断故障事件的装置。

Description

用于数据中心的诊断故障事件的方法及装置

技术领域

本发明涉及故障诊断技术，具体地，涉及在数据中心(尤其是分布式数据中心)中使用的诊断故障事件的方法及相应的装置。

背景技术

在数据中心中，事件管理在整个数据中心管理中占据了很大的比重。随着数据中心规模的扩大，驻留有各种应用、服务、操作系统等的物理机可能分布在不同的地理位置。在这种情况下，远程事件管理也成为数据中心管理的重要部分。当在数据中心中发生故障事件时，需要进行故障事件的诊断，从而提供相应的故障解决方案。

在现有的诊断故障事件的方法中，数据中心的管理员采用“试验检查”的方法，根据日志文件对数据中心的每一个应用、服务等进行检查以找出故障事件的原因。然而，作为数据中心的用户，数据中心的管理员不能完全知道数据中心中业务的部署以及应用之间和服务之间的依赖关系，这样，容易造成故障事件诊断的效率低下、耗时长、甚至不能准确地确定故障原因等问题。另外，对于分布式数据中心，由于物理机可能位于不同的地理位置，因此，也在一定程度上导致故障事件诊断的时间较长。

另外，当数据中心发生故障事件时，如果数据中心的拓扑发生变化，例如产生了新的虚拟机等，则也容易产生诊断错误的情况。

因此，需要提出一种在数据中心中自动、准确、快速地诊断故障事件的技术方案。

发明内容

本发明正是鉴于上述技术问题而提出的，其目的在于提供一种用于数据中心的诊断故障事件的方法及其装置，其能够自动、快速、准确地诊断故障事件。

根据本发明的第一个方面，提供一种用于数据中心的诊断故障事件的方法，包括：监控在所述数据中心内是否发生故障事件；如果发生故障事件，则确定在发生所述故障事件的节点中正在执行的业务逻辑；基于与所述数据中心对应的管理模型，选择与所述业务逻辑的执行有关的日志文件，其中所述管理模型反映所述数据中心的业务逻辑的部署和应用依赖性；以及根据所述日志文件，对所述故障事件进行诊断。

根据本发明的另一个方面，提供一种用于数据中心的诊断故障事件的装置，包括：故障事件监控模块，用于监控在所述数据中心内是否发生故障事件；业务逻辑确定模块，用于在发生故障事件时，确定在发生所述故障事件的节点中正在执行的业务逻辑；日志文件选择模块，用于基于与所述数据中心对应的管理模型，选择与所述业务逻辑的执行过程有关的日志文件，其中所述管理模型反映所述数据中心的业务逻辑的部署和应用依赖性；以及诊断模块，用于根据所述日志文件，对所述故障事件进行诊断。

附图说明

图1是根据本发明的一个实施例的用于诊断故障事件的方法的流程图；

图2是在本发明的实施例中使用的数据中心的管理模型的一个例子的示意图；

图3是用于说明图1所示的用于诊断故障事件的方法的例子的示意图；

图4是根据本发明的一个实施例的用于诊断故障事件的装置的示意性框图。

具体实施方式

相信通过以下结合附图对本发明的具体实施例的详细描述，本发明的上述和其它目的、特征和优点将会更加明显。

图1是根据本发明的一个实施例的用于诊断故障事件的方法的流程图。下面结合附图，对本实施例进行详细描述。

在本实施例中，“业务逻辑”代表能够完成某个任务的一个或多个独立应用的组合；“应用”代表用于某一应用目的的处理，可以采用例如软件等形式；“服务”代表用于支持应用的执行的功能。因此，在数据中心中，一个业务逻辑可涉及一个或多个应用、一个或多个服务、一个或多个操作系统以及一个或多个物理机。

如图1所示，在步骤S101，在业务逻辑的执行期间，在执行该业务逻辑的各个节点的日志文件中标识与该业务逻辑的执行过程对应的日志片断。在数据中心中，当某个业务逻辑被执行时，在该业务逻辑所涉及的各个应用、服务、操作系统等节点将执行相关的处理。业务逻辑有若干业务单元，这些业务单元通常被部署在不同的节点上。业务逻辑的执行过程按照一定的顺序陆续经过各个业务单元和相应的节点。当业务逻辑的执行过程到达某个节点时，运行事先注入该节点的代码，并在规定的时刻写日志。在本实施例中，除了记录业务逻辑在该节点的执行过程的有关信息之外，还对所记录的信息(日志片断)进行标识以区别与不同业务逻辑的执行过程对应的信息。在一个实施例中，通过将业务逻辑的标识符写入对应的日志片断中来标识日志片断。具体地，当在某个节点运行与业务逻辑有关的代码时，该业务逻辑的标识符被缓存在该节点中，然后，在写日志的时刻，业务逻辑的标识符被读出并写入相应的日志片断中。

这样，通过步骤S101，业务逻辑的信息可被动态地写入各个节点的日志文件中，从而各个应用之间和/或服务之间的依赖关系也可相应地通过日志文件体现。

本领域的普通技术人员应当理解，上述步骤S101是关于日志文件的处理，其并不必须包含在本实施例的方法中。

在步骤S105，监控在数据中心内是否发生故障事件。通常，当数据中心的某个应用、服务器、网络设备等发生故障时，会产生相应的事件报告或告警。因此，通过监控是否产生事件报告或告警，可以监控故障事件的发生。

如果发生故障事件，则在步骤S110，确定在发生该故障事件的节点中正在执行的业务逻辑。故障事件的节点可以是例如应用、服务器、网络设备等。

然后，在步骤S115，基于与数据中心对应的管理模型，选择与在步骤S110中确定的业务逻辑的执行过程有关的日志文件，其中，管理模型反映数据中心的业务逻辑的部署和应用依赖性。

在本实施例中，管理模型是在部署数据中心时建立的，其可包含以下的信息：

1)业务逻辑部署链，其对于数据中心内的每个业务逻辑，记录与该业务逻辑相关的节点，这些节点包括应用、服务、操作系统和物理机；该业务逻辑部署链反映了数据中心的业务逻辑的部署情况；以及

2)应用依赖链，其记录应用之间和/或服务之间的依赖关系，反映数据中心内的应用依赖性。

进一步地，管理模型还可以反映数据中心的物理拓扑结构，在这种情况下，管理模型还包含以下信息：3)拓扑链，其记录数据中心的物理拓扑结构，包括物理机及其所在的地理位置。

通过这样的管理模型，能够全面地反映数据中心的业务逻辑的部署、依赖关系以及物理拓扑结构。

图2示意性地给出了可在本实施例中使用的数据中心的管理模型的一个例子。为了清楚起见，只示出了数据中心的一个业务逻辑的情况。如图2所示，该业务逻辑可包含至少一个应用；该至少一个应用可部署在至少一个服务上或者直接部署在至少一个操作系统上，也可以依赖至少一个其它应用；该至少一个服务可部署在至少一个操作系统上，也可以依赖至少一个其它服务；该至少一个操作系统可部署在至少一个物理机上；该至少一个物理机可位于至少一个地理位置。在图2中，还示出了在物理机上虚拟化有至少一个虚拟机，而该至少一个虚拟机可部署在至少一个操作系统上。在图2所示的管理模型中，物理机和地理位置的关系反映了数据中心的物理拓扑结构，其余节点之间的关系反映了数据中心的业务逻辑的部署和依赖关系。

在管理模型包含业务逻辑部署链和应用依赖链的情况下，在步骤S115中，首先，基于管理模型中的业务逻辑部署链，获取与业务逻辑的执行过程相关的节点，即相关的应用、服务、操作系统和物理机，并获取这些节点的日志文件。然后，对于所获取的相关应用的每一个，遍历管理模型中的应用依赖链，以获取该应用所依赖的其它应用和/或服务，并获取这些其它应用和/或服务的日志文件。然后，对于这些其它应用的每一个，基于业务逻辑部署链，获取与该其它应用相关的节点，并获取这些节点的日志文件。这样，通过以上步骤，可以找到所有与在步骤S110中确定的业务逻辑的执行过程相关的日志文件。

进一步地，在管理模型还包含拓扑链的情况下，还对拓扑链进行遍历，以确定数据中心的物理拓扑结构是否改变。当确定物理拓扑结构发生了变化时，将导致该变化的节点写入专门记录物理拓扑变化的日志文件。

然后，在步骤S120，根据所选择的日志文件，对故障事件进行诊断。

在本实施例中，首先从所选择的日志文件中获取与所需业务逻辑的执行过程对应的日志片断。通常，在日志文件中记录了与对应节点相关的所有业务逻辑在该节点的执行过程的有关信息，并且如前所述，业务逻辑的标识符也被写入了日志文件中，因此，与各个业务逻辑的执行过程有关的信息(日志片断)可通过业务逻辑的标识符进行识别。这样，对于每一个日志文件，可根据业务逻辑的标识符，从该日志文件中获取对应的日志片断。

接着，对所获取的日志片断进行排序，从而获得日志片断的序列。在本实施例中，可以将日志片断按照业务逻辑的执行顺序进行排序。然后，对于排序后的日志片断，检查每一个日志片断以找出错误日志片断。在一个实施例中，比较每一个日志片断与存储在对应节点上的正确日志片断，如果该日志片断与正确日志片断不同，则将该日志片断确定为错误日志片断。

可选地，在另一个实施例中，在每一个日志片断中查找异常关键字，如果某个日志片断存在异常关键字，则将该日志片断确定为错误日志片断。

应当指出，对于本领域的普通技术人员来说，也可以使用其它方法确定错误日志片断。

此外，还可以进一步根据所确定的错误日志片断，确定故障事件的根原因。在本实施例中，可以基于预先确定的规则，分析错误日志片断，从而确定故障事件的根原因。

通常，用于诊断故障原因的规则被存储在数据库中。规则可以例如是：将日志片断的序列中最后一个错误日志片断确定为故障事件的根原因；如果错误日志片断表示“URL资源不可得”(错误代码为http 404)，则将该错误日志片断确定为根原因；如果错误日志片断表示“服务不可得”(错误代码为http 500)，则分析随后的错误日志片断；等等。实际上，本领域的普通技术人员容易知道，可以使用现有的专家诊断系统确定故障事件的根原因。

通过以上描述可以看出，本实施例的诊断故障事件的方法使用与数据中心对应的管理模型选择与业务逻辑的执行过程有关的日志文件，由于管理模型反映了数据中心的部署和应用依赖性，因此能够自动、快速地对故障事件进行诊断。，并进一步地，通过将业务逻辑的信息以及应用之间的依赖关系写入日志文件中并提供错误日志片断的序列以进行根原因的分析，能够快速、准确地确定故障事件的根原因。

图3示意性地示出了用于说明图1所示的用于诊断故障事件的方法的例子，其中图3(a)示出了业务逻辑的层结构和执行顺序，图3(b)示出了相关的日志文件，图3(c)示出了所获得的相关日志片断的序列。

如图3(a)所示，业务逻辑按照物理机-虚拟机1-WAS服务器-应用1-物理机-虚拟机2-数据库2的执行顺序被执行。在执行期间，该业务逻辑的标识符被写入各个节点的日志文件中。如果在HTTP服务器发生故障事件，则首先根据管理模型，找到与该业务逻辑的执行过程有关的日志文件，如图3(b)所示，日志文件Log 1、Log 2和Log 3分别来自应用1、WAS服务器和数据库2。然后，根据该业务逻辑的标识符，从这些日志文件中获取相关的日志片断，并按照业务逻辑的执行顺序进行排序，所得到的日志片断的序列如图3(c)所示。依次检查这些日志片断，以得到错误日志片断，其中，Http服务器的错误日志片断为“HTTP 500”，表示“Http请求不可得”，WAS服务器的错误日志片断表示“交易回滚”，应用1的错误日志片断表示“连接错误”，数据库2的错误日志片断表示“表空间满错误”，AIX操作系统的错误日志片断表示“文件系统满错误”。然后，根据这些错误日志片断，确定故障事件的根原因。，在上述错误日志片断的序列中，首先是“HTTP 500”，根据在前面所述的规则，此时需要进一步分析随后的错误日志片断，这样，最终确定故障事件的根原因是“文件系统满错误”。

在同一个发明构思下，图4是根据本发明的一个实施例的用于诊断故障事件的装置400的示意性框图。下面结合附图，对本实施例进行详细描述，其中对于与前面实施例相同的部分，适当省略其说明。

如图4所示，本实施例的用于诊断故障事件的装置400包括：标识模块401，其在业务逻辑的执行期间，在执行该业务逻辑的各个节点的日志文件中标识与该业务逻辑的执行过程对应的日志片断；故障事件监控模块402，其监控在数据中心内是否发生故障事件；业务逻辑确定模块403，其在故障事件监控模块402监控到发生故障事件时，确定在发生故障事件的节点中正在执行的业务逻辑；日志文件选择模块404，其基于与数据中心对应的管理模型，选择与业务逻辑确定模块403所确定的业务逻辑的执行过程有关的日志文件，其中管理模型反映对应的数据中心的业务逻辑的部署和应用依赖性；以及诊断模块405，其根据所选择的日志文件，对故障事件进行诊断。

在本实施例的装置400中，在业务逻辑的执行期间，标识模块401在执行该业务逻辑的各个节点的日志文件中对与该业务逻辑的执行过程有关的日志片断进行标识。如前所述，为了使业务逻辑以及应用之间和/或服务之间的依赖关系被写入日志文件中，当执行业务逻辑时，在该业务逻辑所涉及的应用/服务等节点，除了在日志文件中写入与执行过程有关的信息外，还通过标识模块401对这些信息(日志片断)进行标识。在一个实施例中，标识模块401可包括标识符写入单元4011，用于将业务逻辑的标识符写入对应的日志片断中。具体地，业务逻辑的标识符首先被缓存在节点中，然后在写日志的时刻被标识符写入单元4011写入该节点的日志文件的相应日志片断中。

应当理解，虽然在此为方便说明，将标识模块401包含在本实施例的装置400中，但是本领域的普通技术人员应当理解，该标识模块401用于执行对日志文件的处理，其并不必须包含在该装置400中。

故障事件监控模块402可通过监控事件报告的接收或故障告警的产生，监控数据中心内故障事件的发生。在故障事件监控模块402监控到发生故障事件时，业务逻辑确定模块403确定在发生故障事件的节点中正在执行的业务逻辑，然后由日志文件选择模块404根据与数据中心对应的管理模型，选择与所确定的业务逻辑的执行过程有关的日志文件。

如前所述，管理模型反映了对应数据中心的业务逻辑的部署、应用依赖性和物理拓扑结构，其可包含业务逻辑部署链、应用依赖链和拓扑链，其中，业务逻辑部署链记录与数据中心内每个业务逻辑相关的节点，包括应用、服务、操作系统和物理机，应用依赖链记录应用之间和/或服务之间的依赖关系，拓扑链则记录数据中心的物理拓扑结构，即物理机及其所在的地理位置。因此，本实施例的装置400还可以包括模型建立模块，其用于在部署数据中心时，建立该数据中心的管理模型。

在管理模型只包含业务逻辑部署链和应用依赖链的情况下，在日志文件选择模块404中，节点获取单元4041基于管理模型中的业务逻辑部署链，获取与业务逻辑相关的节点，并由日志文件获取单元4042获取这些节点的日志文件。接着，对于所获取的与业务逻辑相关的节点中的每一个应用，由遍历单元4043遍历管理模型中的应用依赖链，以获取该应用所依赖的其它应用和/或服务，并由日志文件获取单元4042获取其它应用和/或服务的日志文件。然后，对于所获取的其它应用的每一个，由节点获取单元4041基于管理模型中的业务逻辑部署链，获取与上述其它应用的每一个相关的节点。然后，由日志文件获取单元4042获取这些节点的日志文件。

在管理模型还包含拓扑链的情况下，遍历单元4041还将遍历拓扑链，以确定数据中心的物理拓扑结构是否变化。当确定数据中心的物理拓扑结构发生变化时，由日志文件选择模块404中的写入单元4044将导致该变化的节点写入用于记录物理拓扑结构的变化的日志文件中。

当通过日志文件选择模块404选择了与业务逻辑有关的日志文件后，诊断模块405根据这些日志文件，进行故障事件的诊断。

在诊断模块405中，日志片断获取单元4051从这些日志文件中获取与业务逻辑的执行过程对应的日志片断。在本实施例中，日志片断获取单元4051对于每一个日志文件，根据业务逻辑的标识符，从该日志文件中获取与业务逻辑的执行过程对应的日志片断。然后，排序单元4052按照业务逻辑的执行顺序，对所获取的日志片断进行排序。

对于排序后的日志片断，检查单元4053检查这些日志片断以找出错误日志片断。在一个实施例中，在检查单元4053中，比较单元比较每一个日志片断与存储在对应节点上的正确日志片断，并由确定单元将与对应的正确日志片断不同的日志片断确定为错误日志片断。在另一个实施例中，在检查单元4053中，查找单元在每一个日志片断中查找异常关键字，然后确定单元将存在异常关键字的日志片断确定为错误日志片断。当然，本领域的普通技术人员容易知道，还可以采用其它方式确定错误日志片断。

此外，在诊断模块405中还可以包括原因确定单元4054，其根据检查单元4053所找出的错误日志片断，确定故障事件的根原因。在本实施例中，原因确定单元4054基于预先确定的规则分析错误日志片断，以确定故障事件的根原因。实际上，原因确定单元4054可以采用现有的专家诊断系统。

应当指出，本实施例的用于数据中心的诊断故障事件的装置400在操作上能够实现如图1所示的用于数据中心的诊断故障事件的方法。

进一步地，本实施例的装置400可以设置在数据中心内。另外，本实施例的装置400也可以与数据中心分开地设置，此时，其中的写入模块401和故障事件监控模块402被设置在数据中心内，故障事件监控模块402可通过各种形式的通信与业务逻辑确定模块403连接。

以上所公开的实施例的用于数据中心的诊断故障事件的方法可以在软件、硬件、或软件和硬件的结合中实现。硬件部分可以利用专用逻辑来实现。例如，上述实施例中的用于数据中心的诊断故障事件的装置及其各个组成部分可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用由各种类型的处理器执行的软件实现，也可以由上述硬件电路和软件的结合实现。软件部分可以存储在存储器中，由适当的指令执行系统，例如微处理器、个人计算机(PC)或大型机来执行。

以上虽然通过示例性的实施例详细描述了本发明的用于数据中心的诊断故障事件的方法及其装置，但是以上这些实施例并不是穷举的，本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此，本发明并不限于这些实施例，本发明的范围仅由所附的权利要求限定。

Claims

1.一种用于数据中心的诊断故障事件的方法，包括：

监控在所述数据中心内是否发生故障事件；

如果发生故障事件，则

确定在发生所述故障事件的节点中正在执行的业务逻辑；

基于与所述数据中心对应的管理模型，选择与所述业务逻辑的执行过程有关的日志文件，其中所述管理模型反映所述数据中心的业务逻辑的部署和应用依赖性；以及

根据所述日志文件，对所述故障事件进行诊断。

2.根据权利要求1所述的方法，还包括：

在部署所述数据中心时，建立对应的管理模型；

其中，所述管理模型包含：

业务逻辑部署链，其对于所述数据中心内的每个业务逻辑，记录与该业务逻辑相关的节点，所述节点包括应用、服务、操作系统和物理机；以及

应用依赖链，其记录应用之间和/或服务之间的依赖关系。

3.根据权利要求2所述的方法，其中，所述选择与所述业务逻辑的执行过程有关的日志文件的步骤包括：

基于所述业务逻辑部署链，获取与所述业务逻辑相关的节点；

获取与所述业务逻辑相关的节点的日志文件；

对于与所述业务逻辑相关的节点中的应用，遍历所述应用依赖链，以获取所述应用所依赖的其它应用和/或服务；

获取所述其它应用和/或服务的日志文件；

对于所述其它应用，基于所述业务逻辑部署链，获取与所述其它应用相关的节点；以及

获取与所述其它应用相关的日志文件。

4.根据权利要求3所述的方法，其中，所述管理模型还包含：拓扑链，其记录所述数据中心的物理拓扑结构，所述物理拓扑结构包括物理机及其所在的地理位置；

所述选择与所述业务逻辑的执行过程有关的日志文件的步骤还包括：

遍历所述拓扑链，以确定所述数据中心的物理拓扑结构是否变化；以及

将导致所述变化的节点写入用于记录所述物理拓扑结构的变化的日志文件。

5.根据权利要求1所述的方法，其中，所述根据所述日志文件对所述故障事件进行诊断的步骤包括：

从所选择的日志文件中获取与所述业务逻辑的执行过程对应的日志片断；

对所述日志片断进行排序；以及

检查所述日志片断以找出错误日志片断。

6.根据权利要求5所述的方法，其中，所述根据所述日志文件对所述故障事件进行诊断的步骤还包括：

根据所述错误日志片断，确定所述故障事件的根原因。

7.根据权利要求5或6所述的方法，还包括：

在业务逻辑的执行期间，在执行该业务逻辑的各个节点的日志文件中标识与该业务逻辑的执行过程对应的日志片断。

8.根据权利要求7所述的方法，其中，所述在执行该业务逻辑的各个节点的日志文件中标识与该业务逻辑的执行过程对应的日志片断的步骤包括：

将业务逻辑的标识符写入对应的日志片断中。

9.根据权利要求8所述的方法，其中，所述从所选择的日志文件中获取与所述业务逻辑的执行过程对应的日志片断的步骤包括：

对于每一个日志文件，根据所述业务逻辑的标识符，从该日志文件中获取对应的日志片断。

10.根据权利要求5或6所述的方法，其中，所述对所述日志片断进行排序的步骤包括：

将所述日志片断按照所述业务逻辑的执行顺序进行排序。

11.根据权利要求5或6所述的方法，其中，所述检查所述日志片断以找出错误日志片断的步骤包括：

比较所述日志片断的每一个与存储在对应节点上的正确日志片断；以及

将与对应的正确日志片断不同的日志片断确定为错误日志片断。

12.根据权利要求5或6所述的方法，其中，所述检查所述日志片断以找出错误日志片断的步骤包括：

在所述日志片断中查找异常关键字；以及

将存在异常关键字的日志片断确定为错误日志片断。

13.根据权利要求6所述的方法，其中，所述确定所述故障事件的根原因的步骤包括：

基于预先确定的规则，分析所述错误日志片断，以确定所述故障事件的根原因。

14.一种用于数据中心的诊断故障事件的装置，包括：

故障事件监控模块，用于监控在所述数据中心内是否发生故障事件；

业务逻辑确定模块，用于在发生故障事件时，确定在发生所述故障事件的节点中正在执行的业务逻辑；

日志文件选择模块，用于基于与所述数据中心对应的管理模型，选择与所述业务逻辑的执行过程有关的日志文件，其中所述管理模型反映所述数据中心的业务逻辑的部署和应用依赖性；以及

诊断模块，用于根据所述日志文件，对所述故障事件进行诊断。

15.根据权利要求14所述的装置，还包括：模型建立模块，用于在部署所述数据中心时，建立对应的管理模型；

其中，所述管理模型包含：

应用依赖链，其记录应用之间和/或服务之间的依赖关系。

16.根据权利要求15所述的装置，其中，所述日志文件选择模块包括：

遍历单元，用于遍历所述应用依赖链，以获取某个应用所依赖的其它应用和/或服务；

节点获取单元，用于基于所述业务逻辑部署链，获取与所述业务逻辑相关的节点，以及获取与所述其它应用相关的节点；以及

日志文件获取单元，用于获取所述节点的日志文件，以及获取所述其它应用和/或服务的日志文件。

17.根据权利要求16所述的装置，其中，所述管理模型还包含：拓扑链，其记录所述数据中心的物理拓扑结构，所述物理拓扑结构包括物理机及其所在的地理位置；

所述遍历单元还用于遍历所述拓扑链，以确定所述数据中心的物理拓扑结构是否变化；

所述日志文件选择模块还包括：写入单元，用于将导致所述变化的节点写入用于记录所述物理拓扑结构的变化的日志文件。

18.根据权利要求14所述的装置，其中，所述诊断模块包括：

日志片断获取单元，用于从所选择的日志文件中获取与所述业务逻辑的执行过程对应的日志片断；

排序单元，用于对所述日志片断进行排序；以及

检查单元，用于检查所述日志片断以找出错误日志片断。

19.根据权利要求18所述的装置，其中，所述诊断模块还包括：

原因确定单元，用于根据所述错误日志片断，确定所述故障事件的根原因。

20.根据权利要求18或19所述的装置，还包括：

标识模块，用于在业务逻辑的执行期间，在执行该业务逻辑的各个节点的日志文件中标识与该业务逻辑的执行过程对应的日志片断。

21.根据权利要求20所述的装置，其中，所述标识模块包括：

标识符写入单元，用于将业务逻辑的标识符写入对应的日志片断中。

22.根据权利要求21所述的装置，其中，所述日志片断获取单元进一步被配置为对于每一个日志文件，根据所述业务逻辑的标识符，从该日志文件中获取对应的日志片断。

23.根据权利要求18或19所述的装置，其中，所述排序单元进一步被配置为将所述日志片断按照所述业务逻辑的执行顺序进行排序。

24.根据权利要求18或19所述的装置，其中，所述检查单元包括：

比较单元，用于比较所述日志片断的每一个与存储在对应的节点上的正确日志片断进行匹配；以及

确定单元，用于将与对应的正确日志片断不同的日志片断确定为错误日志片断。

25.根据权利要求18或19所述的装置，其中，所述检查单元包括：

查找单元，用于在所述日志片断中查找异常关键字；以及

确定单元，用于将存在异常关键字的日志片断确定为错误日志片断。

26.根据权利要求19所述的装置，其中，所述原因确定单元进一步被配置为基于预先确定的规则分析所述错误日志片断，以确定所述故障事件的根原因。