CN104348641A

CN104348641A - 一种故障的检测方法和故障检测装置

Info

Publication number: CN104348641A
Application number: CN201310324093.9A
Authority: CN
Inventors: 陶勇
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2013-07-30
Filing date: 2013-07-30
Publication date: 2015-02-11

Abstract

本发明公开一种故障的检测方法和故障检测装置，能够准确地检测系统故障。该方法包括：获取检测响应消息，所述检测响应消息中包括网元中每一节点的性能数据对应的至少一组检测数据，所述性能数据包括所述每一节点的应用状态数据、网络时延数据和进程数据中的至少一类数据；利用节点故障检测算法对所述至少一组检测数据进行处理，获得所述每一节点的故障检测结果；根据所述每一节点的故障检测结果，确定所述网元的故障状态。本发明适用于通信领域。

Description

一种故障的检测方法和故障检测装置

技术领域

本发明涉及通信领域，尤其涉及一种故障的检测方法和故障检测装置。

背景技术

业务分发平台（Service Delivery Platform，SDP）是一种运营商发布各种网络能力的业务开放平台。第三方服务提供商（ServiceProvider，SP）/内容提供商（Content Provider，CP）通过SDP实现业务的开发、上线运营等。SDP作为业务运营管理中的核心平台，对平台容灾要求非常高。

现有技术中，容灾检测和容灾框架耦合在一起。由于SDP缺乏统一的信令接口，因此，容灾框架采用用户数据报协议（User DatagramProtocol，UDP）应答协议方式探测物理主机的状态判断生产节点是否存活。采用UDP应答协议方式探测生产节点是否存活时，容灾框架通过策略控制定期主动向物理主机发送报文，检测是否返回响应来判断生产节点是否存活；若超时没有返回响应，则判定生产节点故障。并且，容灾框架采用分布式部署，每个网元部署一套容灾框架，容灾框架只检测属于自己的网元节点的主机状态，网元故障的判定依据每一节点配置的故障权重来计算，如果超过权重门限，则认为网元故障，上报给容灾管理中心。

上述技术中，判断一个网元的每个生产节点是否存活时，采用UDP应答协议方式探测物理主机的状态，无法准确判定检测对象是否真正故障，进而利用该网元的每一节点配置的故障权重来确定网元故障时，缺乏对系统性能、网络和节点应用内部状态的检测，导致对系统故障的判断不准确。

发明内容

本发明的实施例提供一种故障的检测方法和故障检测装置，能够更为准确地检测系统故障。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，本发明提供了一种故障的检测方法，该方法包括：

获取检测响应消息，所述检测响应消息中包括网元中每一节点的性能数据对应的至少一组检测数据，所述性能数据包括所述每一节点的应用状态数据、网络时延数据和进程数据中的至少一类数据；

利用节点故障检测算法对所述至少一组检测数据进行处理，获得所述每一节点的故障检测结果；

根据所述每一节点的故障检测结果，确定所述网元的故障状态。

在第一方面的第一种可能的实现方式中，根据第一方面，所述获取检测响应消息，所述检测响应消息中包括网元中每一节点的性能数据对应的至少一组检测数据具体包括：

接收容灾检测器代理发送的检测响应消息，所述检测响应消息中包括所述网元中每一节点的性能数据对应的至少一组检测数据，所述每一节点的性能数据对应的至少一组检测数据为所述每一节点发送给所述容灾检测器代理的。

在第一方面的第二种可能的实现方式中，根据第一方面，所述获取检测响应消息，所述检测响应消息中包括网元中每一节点的性能数据对应的至少一组检测数据具体包括：

接收所述每一节点发送的检测响应消息，所述检测响应消息中包括所述网元中每一节点的性能数据对应的至少一组检测数据。

在第一方面的第三种可能的实现方式中，结合第一方面或第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式，所述至少一组检测数据中的每组检测数据中包括至少一个采集对象和与所述至少一个采集对象对应的检测数据；

所述利用节点故障检测算法对所述至少一组检测数据进行处理，获得所述每一节点的故障检测结果具体包括：

将所述至少一组检测数据中的任一组检测数据中与所述至少一个采集对象对应的检测数据，或将所述至少一组检测数据中与所述至少一个采集对象对应的检测数据的平均值，与所述至少一个采集对象对应的第一预设门限值进行对比，以获得所述至少一个采集对象的故障状态；

根据预设的所述至少一个采集对象中每个采集对象的故障加权值，对所述至少一个采集对象的故障状态进行加权处理，以获得所述每一节点的加权处理结果；

将所述每一节点的加权处理结果与对应的第二预设门限值进行对比，以获得所述每一节点的故障检测结果。

在第一方面的第四种可能的实现方式中，根据第一方面的第三种可能的实现方式，所述至少一个采集对象对应的检测数据的平均值为根据所述至少一个采集对象的多个采集周期的检测数据获得的平均值。

在第一方面的第五种可能的实现方式中，结合第一方面或第一方面的第一种可能的实现方式至第一方面的第四种可能的实现方式，所述根据所述每一节点的故障检测结果，确定所述网元的故障状态具体包括：

根据预设的每一节点的故障加权，对所述每一节点的故障检测结果进行加权处理，以获得所述网元的加权处理结果；

若所述网元的加权处理结果大于或等于第三预设门限值，则确定所述网元故障；

若所述网元的加权处理结果小于所述第三预设门限值，则确定所述网元正常。

在第一方面的第六种可能的实现方式中，根据第一方面的第五种可能的实现方式，所述根据预设的每一节点的故障加权，对所述每一节点的故障检测结果进行加权处理，以获得所述网元的加权处理结果之后，还包括：

确定所述加权处理结果是否大于或等于第四预设门限值，并小于所述第三预设门限值；

若所述加权处理结果大于或等于所述第四预设门限值，并小于所述第三预设门限值，则确定所述网元趋于故障。

在第一方面的第七种可能的实现方式中，根据第一方面的第一种可能的实现方式，所述根据所述每一节点的故障检测结果，确定所述网元的故障状态之后，还包括：

若所述网元故障或趋于故障，向容灾框架组件发送网元故障检测结果消息，以使得所述容灾框架组件根据所述网元故障检测结果消息确定是否进行系统迁移。

在第一方面的第八种可能的实现方式中，根据第一方面的第二种可能的实现方式，所述根据所述故障检测结果，确定所述网元的故障状态之后，还包括：

若所述网元故障或趋于故障，向网管系统发送网元故障检测结果消息，以使得所述网管系统根据所述网管故障检测结果消息确定是否进行系统迁移。

在第一方面的第九种可能的实现方式中，根据第一方面的第一种可能的实现方式，在所述接收容灾检测器代理发送的检测响应消息之前，还包括：

向所述容灾检测器代理发送对所述每一节点的性能数据进行检测的请求消息，以使得所述容灾检测器代理获取所述每一节点的性能数据对应的至少一组检测数据。

在第一方面的第十种可能的实现方式中，根据第一方面的第二种可能的实现方式，在所述接收所述每一节点发送的检测响应消息之前，该方法还包括：

向所述每一节点发送对所述性能数据检测的检测请求消息。

第二方面，提供了一种故障检测装置，所述装置包括：获取单元、计算单元和确定单元；

所述获取单元，用于获取检测响应消息，所述检测响应消息中包括网元中每一节点的性能数据对应的至少一组检测数据，所述性能数据包括所述每一节点的应用状态数据、网络时延数据和进程数据中的至少一类数据；

所述计算单元，用于利用节点故障检测算法对所述获取单元获取的所述至少一组检测数据进行处理，获得所述每一节点的故障检测结果；

所述确定单元，用于根据所述计算单元获取的所述每一节点的故障检测结果，确定所述网元的故障状态。

在第二方面的第一种可能的实现方式中，根据第二方面，所述获取单元，具体用于：

接收容灾检测器代理发送的检测响应消息，所述检测响应消息中包括所述网元中所述每一节点的性能数据对应的至少一组检测数据，所述每一节点的性能数据对应的至少一组检测数据为所述每一节点发送给所述容灾检测器代理的。

在第二方面的第二种可能的实现方式中，根据第二方面，所述获取单元，具体用于：

在第二方面的第三种可能的实现方式中，结合第二方面或第二方面的第一种可能的实现方式或第二方面的第二种可能的实现方式，所述至少一组检测数据中的每组检测数据中包括至少一个采集对象和与所述至少一个采集对象对应的检测数据；所述故障检测装置还包括：存储单元；

所述存储单元，用于存储所述至少一个采集对象、所述至少一个采集对象对应的第一预设门限值与所述至少一个采集对象对应的故障加权值的对应关系，所述第一预设门限值是判断所述采集对象是否故障的阈值；

所述存储单元，还用于存储所述每一节点对应的第二预设门限值，所述第二预设门限值是判断所述节点是否故障的阈值；

所述计算单元，具体用于：

将所述获取单元获取的所述至少一组检测数据中的任一组检测数据中与所述至少一个采集对象对应的检测数据，或将所述至少一组检测数据中与所述至少一个采集对象对应的检测数据的平均值，与所述存储单元中存储的所述至少一个采集对象对应的第一预设门限值进行对比，以获得所述至少一个采集对象的故障状态；

根据所述存储单元中预设的所述至少一个采集对象中每个采集对象的故障加权值，对所述至少一个采集对象的故障状态进行加权处理，以获得所述每一节点的加权处理结果；

将所述每一节点的加权处理结果与所述存储单元存储的所述每一节点对应的第二预设门限值进行对比，以获得所述每一节点的故障检测结果。

在第二方面的第五种可能的实现方式中，结合第二方面或第二方面的第一种可能的实现方式至第二方面的第四种可能的实现方式，所述故障检测装置还包括：存储单元；

所述存储单元，用于存储故障库，所述故障库中包括所述每一节点与所述每一节点的故障加权的对应关系；

所述确定单元，具体用于:

根据所述存储单元中预设的所述每一节点的故障加权，对所述计算单元获得的每一节点的故障检测结果进行加权处理，以获得所述网元的加权处理结果；

在第二方面的第六种可能的实现方式中，根据第二方面的第五种可能的实现方式，所述确定单元，具体还用于：

在第二方面的第七种可能的实现方式中，根据第二方面的第一种可能的实现方式，所述故障检测装置还包括：发送单元；

所述发送单元，用于若所述网元故障或趋于故障，向容灾框架组件发送网元故障检测结果消息，以使得所述容灾框架组件根据所述网元故障检测结果消息确定是否进行系统迁移。

在第二方面的第九种可能的实现方式中，根据第二方面的第一种可能的实现方式，所述故障检测装置还包括：发送单元；

所述发送单元，用于向所述容灾检测器代理发送对所述每一节点的性能数据检测的请求消息，以使得所述容灾检测器代理获取所述每一节点的性能数据对应的至少一组检测数据。

在第二方面的第十种可能的实现方式中，根据第二方面的第二种可能的实现方式，所述故障检测装置还包括：发送单元；

所述发送单元，用于向所述每一节点发送对所述性能数据检测的检测请求消息。

本发明实施例提供一种故障的检测方法和故障检测装置，获取检测响应消息，所述检测响应消息中包括网元中每一节点的性能数据对应的至少一组检测数据，所述性能数据包括所述每一节点的应用状态数据、网络时延数据和进程数据中的至少一类数据；利用节点故障检测算法对所述至少一组检测数据进行处理，获得所述每一节点的故障检测结果；根据所述每一节点的故障检测结果，确定所述网元的故障状态。

通过该方案，提供将容灾检测框架中的容灾检测功能解耦出来的检测装置，并且该检测装置能够对网元的每一节点的应用状态数据、网络时延数据等多种数据进行检测，进而实现了容灾检测框架和容灾检测功能之间的灵活部署，丰富了检测结果，进一步能够更为准确地检测系统故障。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种故障的检测方法的流程示意图；

图2为本发明实施例提供的一种故障的检测方法的交互示意图；

图3为本发明实施例提供的另一种故障的检测方法的交互示意图；

图4为本发明实施例提供的一种故障检测装置的结构示意图；

图5为本发明实施例提供的另一种故障检测装置的结构示意图；

图6为本发明实施例提供的又一种故障检测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

实施例一、

本发明实施例提供一种故障的检测方法，该方法的执行主体为故障检测装置，如图1所示，该方法包括：

101、获取检测响应消息，所述检测响应消息中包括网元中每一节点的性能数据对应的至少一组检测数据获取网元中每一节点的至少一组检测数据。

需要说明的是，所述至少一组检测数据是所述每一节点对自身的性能数据进行测量获得的。

所述性能数据包括应用状态数据、网络时延数据和进程数据中的至少一类数据。

需要说明的是，所述性能数据包括至少一个采集对象，所述至少一个采集对象包括：中央处理器（Central Processing Unit，CPU）、内存、网络输入/输出(Input/Output，IO)接口、进程占用内存、应用的处理容灾检测消息时延中的至少一个。其中，对所述至少一个采集对象对应的性能数据进行分类，可以分为应用状态数据、网络时延数据和进程数据等。具体的，如表1所示，所述性能数据可以包括：

表1

具体的，可以通过以下方式获取网元中每一节点的性能数据对应的至少一组检测数据：

第一种方式，所述故障检测装置可以接收容灾检测器代理发送的检测响应消息，所述检测响应消息中包括所述网元中每一节点的性能数据对应的至少一组检测数据。

所述接收容灾检测器代理发送的检测响应消息，可以是所述容灾检测器代理定时上报的检测响应消息；也可以是所述故障检测装置向所述容灾检测器代理发送对所述每一节点的所述性能数据进行检测的请求消息之后，所述容灾检测器代理向所述故障检测装置发送的。

其中，所述容灾检测器代理获取的所述每一节点的至少一组检测数据检测响应消息，可以是所述每一节点对所述性能数据检测后，定时向所述容灾检测器代理上报的至少一组检测数据发送的。

当然，所述容灾检测器代理获取的检测响应消息，也可以是所述容灾检测器代理向所述每一节点发送检测请求消息之后，所述每一节点对所述性能数据进行检测后，向所述容灾检测器代理发送的。具体的，所述容灾检测器代理向所述每一节点发送检测请求消息，所述每一节点对所述性能数据进行检测后，向所述容灾检测器代理发送检测响应消息。

第二种方式，可以直接接收所述每一节点发送的检测响应消息，所述检测响应消息中包括所述网元中每一节点的性能数据对应的至少一组检测数据。

所述接收所述每一节点发送的检测响应消息，可以是所述每一节点对所述性能数据检测后，定时上报的；也可以是所述故障检测装置向所述每一节点发送对所述性能数据检测的检测请求消息之后，所述每一节点对所述性能数据检测后，向所述故障检测装置发送检测响应消息。

102、利用节点故障检测算法对所述至少一组检测数据进行处理，获得所述每一节点的故障检测结果。

由于每个网元中包括多个节点，因此，在确定网元的故障状态之前，需要首先确定网元中的每一节点的故障状态。所述每一节点的故障检测结果可以为故障或正常。

103、根据所述每一节点的故障检测结果，确定所述网元的故障状态。

具体的，所述故障检测装置可以首先确定所述网元中是否有故障节点。若所述故障检测结果中包括故障节点，则确定所述网元故障；若所述故障检测结果中不包括故障节点，则确定所述网元正常。

当然，为了能够更为准确的判断所述网元的故障状态，所述故障检测装置也可以不确定所述网元中是否有故障节点，而直接利用网元故障检测算法对所述每一节点的故障检测结果进行处理，确定所述网元的故障状态。其中，所述网元故障检测算法可以是加权算法。

本发明实施例提供一种故障的检测方法，获取检测响应消息，所述检测响应消息中包括网元中每一节点的性能数据对应的至少一组检测数据，所述性能数据包括所述每一节点的应用状态数据、网络时延数据和进程数据中的至少一类数据；利用节点故障检测算法对所述至少一组检测数据进行处理，获得所述每一节点的故障检测结果；根据所述每一节点的故障检测结果，确定所述网元的故障状态。

实施例二、

本发明实施例提供一种故障的检测方法，如图2所示，该方法包括：

201、故障检测装置向容灾检测器代理发送对网元的每一节点的性能数据检测的请求消息。

具体的，所述性能数据检测请求消息要求对所述容灾检测器代理对应网元的各个节点的性能数据进行检测。

其中，所述性能数据包括：应用状态数据、网络时延数据、进程数据中的至少一类数据。

需要说明的是，所述性能数据包括至少一个采集对象，所述至少一个采集对象为：CPU内存、IO接口、进程占用内存、应用的处理容灾检测消息时延中的至少一个。其中，对所述至少一个采集对象进行分类，可以分为应用状态数据、网络时延数据和进程数据等。

202、所述容灾检测器代理向网元的每一节点发送所述对所述性能数据进行检测的请求消息。

具体的，生产节点的物理主机与所述容灾检测器代理之间可以定义一个接口。具体的，对于SDP系统，可以定义一个容灾心跳检测接口。所述容灾检测器代理可以采用HTTP消息方式向所述网元的每一节点发送对所述性能数据检测的请求消息。所述请求消息具体可以是容灾心跳检测请求消息。

具体的，所述容灾检测器代理可以定义所述请求消息的格式。

示例性的，所述请求消息的消息头为检测请求命令字，消息体为类型长度值（Type-Length-Value，TLV）请求对象。

需要说明的是，TLV编码被用于表示被传送的信息类型（T）、要被传送的信息长度（L）以及传送的实际信息值（V）。包含在长度字段中的长度（L）参数可以表示从对象的类型字段的开始到结尾的长度，然而，长度通常表示值（V）字段的长度而不是类型（T）或长度（L）字段的长度。

本发明实施例中，可以令T为采集类型，如0采集节点的应用状态，1为采集节点的主机内存状态，3为采集节点的进程状态等。

所述容灾检测器代理向网元的每一节点发送所述对所述性能数据进行检测的请求消息时，对于不同的采集对象，发送请求消息的方式不同。

具体的，请求对网元中每一节点的CPU、内存、IO、进程数据进行检测时，可以通过脚本方式向所述网元的每一节点发送对所述性能数据进行检测的请求消息；请求对网元中每一节点的应用状态数据和网络时延数据进行检测时，可以通过容灾心跳检测请求消息（HB-GDR）向所述网元的每一节点发送对所述性能数据进行检测的请求消息。

具体数据举例及发送请求消息的方式参见如下表2所示。

表2

需要说明的是，所述容灾检测器代理向网元的每一节点发送所述对所述性能数据检测的请求消息时，可以首先通过一个消息发送对所述性能数据中的某类数据检测的请求消息，然后再通过其他消息发送对所述性能数据中除所述某类数据之外的其他数据检测的请求消息，本发明实施例对此不作具体限定。

203、所述每一节点对所述性能数据进行检测，并生成检测响应消息。

具体的，所述每一节点接收到所述容灾检测器代理发送的对所述性能数据检测的请求消息之后，可以检测至少一次，获得至少一组与所述性能数据对应的检测数据。然后，根据所述至少一组检测数据，生成检测响应消息，该检测响应消息中包括所述至少一组检测数据。

需要说明的是，可以定义所述检测响应消息的格式。具体的，所述检测响应消息的消息头可以是检测响应命令字，消息体是与所述检测请求消息的消息体中的TLV对应的响应内容。

204、所述每一节点向所述容灾检测器代理发送对所述性能数据检测的检测响应消息。

205、所述容灾检测器代理根据所述每一节点上报的对所述性能数据检测的检测响应消息，确定所述每一节点的检测数据，生成所述网元的检测响应消息。

206、所述容灾检测器代理向故障检测装置发送所述网元的检测响应消息。

207、所述故障检测装置利用节点故障检测算法对所述至少一组检测数据进行处理，获得所述每一节点的故障检测结果。

其中，所述至少一组检测数据中的每组检测数据中包括至少一个采集对象和与所述至少一个采集对象对应的检测数据。

示例性的，所述至少一类数据中包括进程数据和网络时延数据，而从表1中可以看出，所述进程数据中包括进程占用内存、CPU数据两个采集对象，所述网络时延数据中包括应用的处理容灾检测消息时延一个采集对象。则在每组所述至少一类检测数据中包括所述进程占用内存、CPU数据和所述应用的处理容灾检测消息对应的检测数据。

所述故障检测装置中存储所述至少一个采集对象、所述至少一个采集对象对应的第一预设门限值与所述至少一个采集对象对应的故障加权值的对应关系，所述第一预设门限值是判断所述采集对象是否故障的阈值。所述故障检测装置中还存储有所述每一节点对应的第二预设门限值，所述第二预设门限值是判断所述节点是否故障的阈值。

具体的，所述故障检测装置可以将所述每一节点的至少一组检测数据中的任一组检测数据中与所述至少一个采集对象对应的检测数据，或将所述每一节点的至少一组检测数据中与所述至少一个采集对象的检测数据的平均值与所述至少一个采集对象对应的第一预设门限值进行对比，以获得所述至少一个采集对象的故障状态；根据预设的所述至少一个采集对象中每个采集对象的故障加权值，对所述至少一个采集对象的故障状态进行加权处理，以获得所述每一节点的加权处理结果；将所述每一节点的加权处理结果与对应的第二预设门限值进行对比，以获得所述每一节点的故障检测结果。

其中，对所述至少一个采集对象的故障状态进行加权处理具体为：对所述至少一个采集对象中的故障状态为故障的每个对象对应的故障加权值进行累加。

举例来说，对于如表3所示的对不同节点的不同的采集对象设定不同的门限值和故障加权值的情况，对于节点1，首先判断内存剩余量、CPU使用率、磁盘空间剩余量、进程占用内存、进程占用CPU、业务A处理失败率、应用网络时延对应的数值是否超过对应的门限值，获得每个采集对象的故障状态；然后，根据每个采集对象的故障状态，结合每个采集对象对应的故障加权值对每个采集对象的故障状态进行加权处理，确定所述每一节点是否故障。

具体的，所述故障检测装置获得的每个采集对象的故障状态分为：故障或正常。所述故障的检测装置获得所述每个采集对象的故障状态后，结合获取的预设的所述每个采集对象对应的故障加权值，对每个节点对应的每个采集对象的故障状态与故障加权值的乘积进行累加，获得累加结果；若获得的某一节点累加结果大于或等于预设的第二门限值，则确定所述节点故障；若获得的某一节点累加结果小于所述预设的第二门限值，则确定所述节点正常。

例如，对于节点1，其中，内存剩余量、CPU使用率、磁盘空间剩余量、进程占用内存、进程占用CPU、业务A处理失败率对应的数值都超过了对应设定的门限值，进行加权处理后，得到的加权值为1.2,1.2大于1，则节点1故障。若进行加权处理后，得到的加权值小于1，则对应的节点正常。

需要说明的是，当进行加权处理，获得的加权值小于1时，节点正常；大于或等于1时，节点故障。

表3

208、所述故障检测装置根据所述故障检测结果，确定所述网元的故障状态。

具体的，所述故障检测装置根据预设的每一节点的故障加权，对所述每一节点的故障检测结果进行加权处理，以获得所述网元的加权处理结果；若所述网元的加权处理结果大于或等于第三预设门限值，则确定所述网元故障；若所述网元的加权处理结果小于所述第三预设门限值，则确定所述网元正常。其中，所述第三预设门限值是判断所述网元是否故障的阈值。

可选的，根据预设的每一节点的故障加权，对所述每一节点的故障检测结果进行加权处理，以获得所述网元的加权处理结果之后，所述故障检测装置还可以确定所述加权处理结果是否大于或等于第四预设门限值，并小于所述第三预设门限值；若所述加权处理结果大于或等于所述第四预设门限值，并小于所述第三预设门限值，则确定所述网元趋于故障。其中，所述第四预设门限值是判断所述网元是否趋于故障的阈值。

具体的，对于如表4所示的节点的故障加权值，当节点1、2、3故障，其它节点正常时，进行加权处理，获得加权值为0.7，小于1，该网元正常；当网元4的故障检测结果也为故障时，进行加权处理，获得的加权值为1，等于1，所述网元故障。

需要说明的是，当对所述每一节点的故障检测结果进行加权处理，获得的加权值小于1时，网元正常；大于或等于1时，网元故障。

表4

节点分类	故障加权（0-1）
		节点1	0.1
节点2	0.2
		节点3	0.4
节点4	0.3
		节点5	0.5
节点6	1
		节点7	0.5

进一步的，为了使得一线用户能够结合实际情况，对故障进行及时处理，所述故障检测装置中存储有故障库，所述故障库中包括所述每一节点以及所述网元的故障级别和故障加权的对应关系，具体如表5所示。则，可以利用所述存储的每一节点以及所述网元的故障级别和故障加权的对应关系，对所述每一节点的故障检测结果进行处理，确定所述网元的故障状态。

表5

可选的，在确定所述网元的故障状态之后，可以向容灾框架组件上报所述网元的故障状态，以使得所述容灾框架组件根据所述网元的故障状态确定是否进行系统迁移。当然，也可以在确定所述网元故障之后，向所述容灾框架组件上报所述网元的故障状态。

当然，也可以在所述网元的故障状态指示所述网元故障或所述网元趋于故障时，向所述容灾框架组件上报所述网元的故障状态，以使得所述容灾框架组件根据所述网元的故障状态确定是否进行系统迁移。

进一步的，为了使得用户能够根据不同的故障，及时做出处理，所述容灾检测框架中还存储了各个网元的故障级别以及对用的故障加权。具体如表6所示。

表6

故障分类	故障级别	故障加权（0-1）
			网元1故障	重要	0.5
网元2故障	致命	1

可选的，本发明实施例提供一种故障的检测方法，如图3所示，该方法包括：

301、故障检测装置向网元的每一节点发送对性能数据检测的检测请求消息。

所述检测请求消息的格式与本发明前述实施例中描述的相同，本发明实施例在此不再赘述。

302、所述每一节点对所述性能数据进行检测，并生成检测检测响应消息。

303、所述每一节点向所述故障检测装置发送对所述性能数据检测的检测响应消息，所述检测响应消息中包括至少一组检测数据。

304、所述故障检测装置利用节点故障检测算法对所述至少一组检测数据进行处理，获得所述每一节点的故障检测结果。

305、所述故障检测装置根据所述故障检测结果，确定所述网元的故障状态。

实施例三、

本发明实施例提供一种故障检测装置，如图4所示，所述装置40包括：获取单元41、计算单元42和确定单元43。

所述获取单元41，用于获取检测响应消息，所述检测响应消息中包括网元中每一节点的性能数据对应的至少一组检测数据，所述性能数据包括所述每一节点的应用状态数据、网络时延数据和进程数据中的至少一类数据。

所述计算单元42，用于利用节点故障检测算法对所述获取单元获取的所述至少一组检测数据进行处理，获得所述每一节点的故障检测结果。

所述确定单元43，用于根据所述计算单元获取的所述每一节点的故障检测结果，确定所述网元的故障状态。

进一步的，所述获取单元41，具体用于：

进一步的，所述至少一组检测数据中的每组检测数据中包括至少一个采集对象和与所述至少一个采集对象对应的检测数据。如图5所示，所述故障检测装置40还包括：存储单元44。

所述存储单元44，用于存储所述至少一个采集对象、所述至少一个采集对象对应的第一预设门限值与所述至少一个采集对象对应的故障加权值的对应关系，所述第一预设门限值是判断所述采集对象是否故障的阈值。

所述存储单元44，还用于存储所述每一节点对应的第二预设门限值，所述第二预设门限值是判断所述节点是否故障的阈值。

则，所述计算单元42，具体用于：

将所述获取单元41获取的所述至少一组检测数据中的任一组检测数据中与所述至少一个采集对象对应的检测数据，或将所述至少一组检测数据中与所述至少一个采集对象对应的检测数据的平均值，与所述存储单元44中存储的所述至少一个采集对象对应的第一预设门限值进行对比，以获得所述至少一个采集对象的故障状态；

根据所述存储单元44中预设的所述至少一个采集对象中每个采集对象的故障加权值，对所述至少一个采集对象的故障状态进行加权处理，以获得所述每一节点的加权处理结果；

将所述每一节点的加权处理结果与所述存储单元44中存储的所述每一节点对应的第二预设门限值进行对比，以获得所述每一节点的故障检测结果。

进一步的，所述至少一个采集对象对应的检测数据的平均值为根据所述至少一个采集对象的多个采集周期的检测数据获得的平均值。

进一步的，所述存储单元44，还可以用于存储故障库，所述故障库中包括所述每一节点与所述每一节点的故障加权的对应关系。

则，所述确定单元43，具体用于：

根据所述存储单元44中预设的所述每一节点的故障加权，对所述计算单元42获得的每一节点的故障检测结果进行加权处理，以获得所述网元的加权处理结果；

进一步的，所述确定单元43，具体还用于：

进一步的，如图5所示，所述故障检测装置40还包括：发送单元45。

所述发送单元45，用于若所述网元故障或趋于故障，向容灾框架组件发送网元故障检测结果消息，以使得所述容灾框架组件根据所述网元故障检测结果消息确定是否进行系统迁移。

或者，所述发送单元45，用于若所述网元故障或趋于故障，向网管系统发送网元故障检测结果消息，以使得所述网管系统根据所述网管故障检测结果消息确定是否进行系统迁移。

进一步的，所述发送单元45，向所述容灾检测器代理发送对所述每一节点的性能数据检测的请求消息，以使得所述容灾检测器代理获取所述每一节点的性能数据对应的至少一组检测数据。

或者，所述发送单元45，用于向所述每一节点发送对所述性能数据检测的检测请求消息。

本发明实施例提供一种故障检测装置，所述获取单元获取检测响应消息，所述检测响应消息中包括网元中每一节点的性能数据对应的至少一组检测数据，所述性能数据包括所述每一节点的应用状态数据、网络时延数据和进程数据中的至少一类数据；所述计算单元利用节点故障检测算法对所述至少一组检测数据进行处理，获得所述每一节点的故障检测结果；所述确定单元根据所述每一节点的故障检测结果，确定所述网元的故障状态。

实施例四、

图6为本发明实施例提供的一种故障检测装置的物理结构示意图，如图6所示，所述故障检测装置60包括：

处理器（processor）61、存储器62、通信接口（CommunicationsInterface）63和通信总线64。

所述处理器61、通信接口63以及存储器62通过通信总线64完成相互之间的通信。

所述通信接口63，用于与网元通信，比如源设备或目的设备等。

所述处理器61，用于执行程序610，具体可以执行上述图1至图3所示的方法实施例中的相关步骤。

具体的，所述程序610可以包括程序代码，所述程序代码包括计算机操作指令。

所述处理器61可能是一个中央处理器CPU，或者是特定集成电路ASIC（Application Specific Integrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路。

所述存储器62，用于存放程序610。存储器62可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

所述程序610中各功能模块的具体实现可以参见上述图4-5所示实施例中的相应模块的描述，在此不再赘述。

进一步的，所述存储器62，还用于存储所述至少一个采集对象、所述至少一个采集对象对应的第一预设门限值与所述至少一个采集对象对应的故障加权值的对应关系，所述第一预设门限值是判断所述采集对象是否故障的阈值。

所述存储器62还用于存储所述每一节点对应的第二预设门限值，所述第二预设门限值是判断所述节点是否故障的阈值。

进一步的，所述存储器62，还可以用于存储故障库，所述故障库中包括所述每一节点与所述每一节点的故障加权的对应关系。

本发明实施例提供一种故障检测装置，所述处理器获取检测响应消息，所述检测响应消息中包括网元中每一节点的性能数据对应的至少一组检测数据，所述性能数据包括所述每一节点的应用状态数据、网络时延数据和进程数据中的至少一类数据；所述处理器利用节点故障检测算法对所述至少一组检测数据进行处理，获得所述每一节点的故障检测结果；所述处理器根据所述每一节点的故障检测结果，确定所述网元的故障状态。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-OnlyMemory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种故障的检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取检测响应消息，所述检测响应消息中包括网元中每一节点的性能数据对应的至少一组检测数据具体包括：

3.根据权利要求1所述的方法，其特征在于，所述获取检测响应消息，所述检测响应消息中包括网元中每一节点的性能数据对应的至少一组检测数据具体包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，所述至少一组检测数据中的每组检测数据中包括至少一个采集对象和与所述至少一个采集对象对应的检测数据；

5.根据权利要求4所述的方法，其特征在于，所述至少一个采集对象对应的检测数据的平均值为根据所述至少一个采集对象的多个采集周期的检测数据获得的平均值。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述根据所述每一节点的故障检测结果，确定所述网元的故障状态具体包括：

根据预设的每一节点的故障加权值，对所述每一节点的故障检测结果进行加权处理，以获得所述网元的加权处理结果；

7.根据权利要求6所述的方法，其特征在于，所述根据预设的每一节点的故障加权值，对所述每一节点的故障检测结果进行加权处理，以获得所述网元的加权处理结果之后，还包括：

8.根据权利要求2所述的方法，其特征在于，所述根据所述每一节点的故障检测结果，确定所述网元的故障状态之后，还包括：

9.根据权利要求3所述的方法，其特征在于，所述根据所述故障检测结果，确定所述网元的故障状态之后，还包括：

10.根据权利要求2所述的方法，其特征在于，在所述接收容灾检测器代理发送的检测响应消息之前，还包括：

11.根据权利要求3所述的方法，其特征在于，在所述接收所述每一节点发送的检测响应消息之前，该方法还包括：

向所述每一节点发送对所述性能数据检测的检测请求消息。

12.一种故障检测装置，其特征在于，所述装置包括：获取单元、计算单元和确定单元；

13.根据权利要求12所述的故障检测装置，其特征在于，所述获取单元，具体用于：

14.根据权利要求12所述的故障检测装置，其特征在于，所述获取单元，具体用于：

15.根据权利要求12-14任一项所述的故障检测装置，其特征在于，所述至少一组检测数据中的每组检测数据中包括至少一个采集对象和与所述至少一个采集对象对应的检测数据；所述故障检测装置还包括：存储单元；

所述计算单元，具体用于：

16.根据权利要求15所述的故障检测装置，其特征在于，所述至少一个采集对象对应的检测数据的平均值为根据所述至少一个采集对象的多个采集周期的检测数据获得的平均值。

17.根据权利要求12-16任一项所述的故障检测装置，其特征在于，所述故障检测装置还包括：存储单元；

所述存储单元，用于存储故障库，所述故障库中包括所述每一节点与所述每一节点的故障加权值的对应关系；

所述确定单元，具体用于:

根据所述存储单元中预设的所述每一节点的故障加权值，对所述计算单元获得的每一节点的故障检测结果进行加权处理，以获得所述网元的加权处理结果；

18.根据权利要求17所述的故障检测装置，其特征在于，所述确定单元，具体还用于：

19.根据权利要求13所述的故障检测装置，其特征在于，所述故障检测装置还包括：发送单元；

20.根据权利要求14所述的故障检测装置，其特征在于，所述故障检测装置还包括：发送单元；

所述发送单元，用于若所述网元故障或趋于故障，向网管系统发送网元故障检测结果消息，以使得所述网管系统根据所述网管故障检测结果消息确定是否进行系统迁移。

21.根据权利要求13所述的故障检测装置，其特征在于，所述故障检测装置还包括：发送单元；

22.根据权利要求14所述的故障检测装置，其特征在于，所述故障检测装置还包括：发送单元；