CN112990255A

CN112990255A - 设备故障的预测方法、装置、电子设备、以及存储介质

Info

Publication number: CN112990255A
Application number: CN202011549382.5A
Authority: CN
Inventors: 何中炎; 陈维; 苏瑞文; 陈健
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Hangzhou Information Technology Co Ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2021-06-18
Anticipated expiration: 2040-12-23
Also published as: CN112990255B

Abstract

本发明实施例涉及电子设备领域，公开了一种设备故障的预测方法、装置、电子设备、以及存储介质。所述设备故障的预测方法包括：获取设备的测试数据X；根据决策树算法C5.0分类器对所述测试数据X进行评估，计算所述测试数据属于每个故障类别的第一概率；利用朴素贝叶斯算法分类器对所述测试数据X进行评估，计算所述测试数据X属于每个故障类别的第二概率；根据所述第一概率和所述决策树算法分类器的性能值以及所述第二概率和所述朴素贝叶斯算法分类器的性能值，评估所述测试数据X属于每个故障类别的最终概率；选取最终概率最大时对应的故障类别，作为所述测试数据所属的故障类别。本发明能够提高设备故障预测的准确率。

Description

设备故障的预测方法、装置、电子设备、以及存储介质

技术领域

本发明实施例涉及电子设备领域，特别涉及设备故障的预测方法、装置、电子设备、以及存储介质。

背景技术

随着信息技术的发展，数据的来源、采集方式更加多样化，由此可以获取大量的设备运行数据，但这些数据具有高维、数据量大等特点。如何从这些海量、高维的数据中获取对设备故障预测有效的数据，从而节约设备成本、提高经济效益是一个难题。进一步的，随着数据库技术、数据挖掘技术的发展，如何能从海量数据中挖掘出有用的数据，并为设备故障的预测提供可能。

目前的基于数据挖掘进行故障预测大体分成三步：第一步，从高维的数据中提取出有用数据；第二步，建立故障预测模型；第三部：应用，对设备进行监控。

发明人发现，相关技术中至少存在如下问题：

现有的故障预测模型采用一种算法，每种算法都有其局限性，因此设备故障预测的准确率比较低。

发明内容

本发明实施方式的目的在于提供一种设备故障的预测方法、装置、电子设备、以及存储介质，能够提高设备故障预测的准确率。

为解决上述技术问题，本发明的实施方式提供了一种设备故障的预测方法，包括以下步骤：

获取设备的测试数据X；

根据决策树算法C5.0分类器对所述测试数据X进行评估，计算所述测试数据X属于每个故障类别Ci的第一概率；

利用朴素贝叶斯算法RNB分类器对所述测试数据X进行评估，计算所述测试数据X属于每个故障类别Ci的第二概率；

根据所述第一概率和所述决策树算法C5.0分类器的性能值以及所述第二概率和所述朴素贝叶斯算法RNB分类器的性能值，评估所述测试数据X属于每个类别Ci的最终概率 P(Ci|X)；

选取最终概率P(Ci|X)最大时对应的故障类别Ci，作为所述测试数据X所属的故障类别。

本发明的实施方式还提供了一种设备故障的预测装置，包括：

获取模块，用于获取设备的测试数据X；

第一评估模块，根据决策树算法C5.0分类器对所述测试数据X进行评估，计算所述测试数据X属于每个故障类别Ci的第一概率；

第二评估模块，用朴素贝叶斯算法RNB分类器对所述测试数据X进行评估，计算所述测试数据X属于每个故障类别Ci的第二概率；

第三评估模块，根据所述第一概率和所述决策树算法C5.0分类器的性能值以及所述第二概率和所述朴素贝叶斯算法RNB分类器的性能值，评估所述测试数据X属于每个类别Ci的最终概率P(Ci|X)；

选择模块，选取最终概率P(Ci|X)最大时对应的故障类别Ci，即为所述测试数据X所属的故障类别。

本发明的实施方式还提供了一种电子设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行所述的方法。

本发明的实施方式还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现所述的方法。

本发明实施方式相对于现有技术而言，根据决策树算法C5.0分类器对所述测试数据X进行评估，计算所述测试数据X属于每个故障类别Ci的第一概率；利用朴素贝叶斯算法RNB分类器对所述测试数据X进行评估，计算所述测试数据X属于每个故障类别Ci的第二概率；根据所述第一概率和所述决策树算法C5.0分类器的性能值以及所述第二概率和所述朴素贝叶斯算法RNB分类器的性能值，评估所述测试数据X属于每个类别Ci的最终概率P(Ci|X)；选取最终概率P(Ci|X)最大时对应的故障类别Ci，作为所述测试数据X所属的故障类别。本发明实施例克服了单一算法的缺陷，采用朴素贝叶斯算法和决策树算法相结合的方式构建设备故障预测模型，提高了设备故障预测的准确率。

另外，所述利用朴素贝叶斯算法RNB分类器对所述测试数据X进行评估，计算所述测试数据X属于每个故障类别Ci的第二概率的步骤包括：

当P(X|C_i)不为0时，采用以下公式计算；

其中，P(X|C_i)是测试数据X在故障类别C_i下的条件概率，P(C_i)是故障类别C_i的先验概率，P(X)是测试数据X的全局概率，P(C_i|X)是测试数据X属于故障类别C_i的第二概率；

当P(X|C_i)为0时，采用以下公式计算：

其中，

其中，f_j是测试数据X属于故障类别C_i的第二概率；x_ti是特征属性；c_j是故障类别；

n_j代表P(Xi＝x_i|C＝c_i)为零的特征属性的个数，m代表测试实例个数，F_s为重要因素，n_s是n_j的最小值，且满足n_s≤n_s+1≤n_s+2≤...n_s+k-1，k为类别个数，表达式

表示捕获训练集P(X＝x|C＝ci)的依赖关系；Fa是估计因子。

上述实施例中，当P(X|C_i)为零或者不为零时，分别使用不同的计算公式处理，避免了朴素贝叶斯分类算法存在下溢和过度拟合的问题，提高了模型的精准度。

另外，所述获取设备的测试数据X的步骤之前，所述方法还包括：

获取原始数据集；所述原始数据集包含：设备的故障类别和对应的设备的特征属性；

对原始数据集进行预处理；

采用改进的遗传算法对预处理后的原始数据集进行特征属性选择；

从特征属性选择后的所述原始数据集中，随机抽取第一预定比例的数据用于训练朴素贝叶斯算法RNB分类器，抽取所述第一预定比率外的剩余比例的数据用于测试分类器性能，重复执行预定次数，获得朴素贝叶斯算法RNB分类器以及朴素贝叶斯算法RNB分类器对应的性能值ACC_RNB；

从特征属性选择后的所述原始数据集中，随机抽取第二预定比例的数据用于训练决策树算法C5.0分类器，抽取第二预定比例外的剩余比例的数据用于测试决策树算法C5.0分类器的性能，重复执行预定次数，获得决策树算法C5.0分类器以及决策树算法C5.0分类器对应的性能值ACCC_5.0。

上述实施例中，采用朴素贝叶斯算法和决策树算法相结合的方式构建设备故障预测模型，并通过计算性能值，以赋以不同算法不同的权重，提高了设备故障预测的准确率。

另外，所述采用改进的遗传算法对预处理后的原始数据集进行特征属性选择的步骤包括：

步骤a，对预处理后的原始数据集进行编码，生成故障类别对应的种群，所述种群包含至少一个个体，每个个体为一个故障的特征属性集；

步骤b，从所述种群中选择预定数量的个体，作为遗传算法操作的初始种群；

步骤c，将所述初始种群划分为预定个数量均等的子种群，作为当前子种群；当前迭代代数为1；

步骤d，分别对各个所述当前子种群进行如下处理：从所述当前子种群中选择出个体；

步骤e，对选择出的所述个体进行自适应交叉、变异改进处理；

步骤f，判断当前的迭代代数是否为预定迭代因子a的倍数；当为是时，选取出各个子种群中适应度最高的个体进行基因交流，以替换各个子种群中适应度最低的个体，生成当前子种群；

步骤g，判断当前是否符合终止条件；如果符合，则选择所述当前子种群中适应度最大的个体，对选择出的所述个体进行反编码，以确定最优特征属性集；如果不符合，则将当前迭代代数加1，并转到步骤d。

上述实施例中，在特征属性选择的操作中采用了基于相关度的属性选择(CFS)对适应度函数进行了改进，并在交叉、变异的过程中引入了相识度的方式提高种群变异概率，从而提高了算法的收敛效率。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本发明第一实施例所述的设备故障的预测方法的流程图；

图2是根据本发明第二实施例所述的设备故障的预测方法的流程图；

图3是本发明应用场景中的改进的遗传算法的流程图；

图4是本发明应用场景中的朴素贝叶斯算法的流程图；

图5是根据本发明另一实施例所述的设备故障的预测装置的架构示意图；

图6是根据本发明另一实施例所述的电子设备的架构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本发明的第一实施方式涉及一种设备故障的预测方法。其流程如图1所示，具体如下：

步骤11，获取设备的测试数据X；

步骤12，根据决策树算法C5.0分类器对所述测试数据X进行评估，计算所述测试数据X 属于每个故障类别Ci的第一概率；

步骤13，利用朴素贝叶斯算法RNB分类器对所述测试数据X进行评估，计算所述测试数据X属于每个故障类别Ci的第二概率；

步骤14，根据所述第一概率和所述决策树算法C5.0分类器的性能值以及所述第二概率和所述朴素贝叶斯算法RNB分类器的性能值，评估所述测试数据X属于每个故障类别Ci的最终概率P(Ci|X)；

步骤15，选取最终概率P(Ci|X)最大时对应的故障类别Ci，作为所述测试数据X所属的故障类别。

本发明实施例克服了单一算法的缺陷，采用朴素贝叶斯算法和决策树算法相结合的方式构建设备故障预测模型，提高了设备故障预测的准确率。

其中，故障类别可以包括故障的不同等级，例如：严重故障、轻度故障、正常。

其中，步骤12采用以下公式计算：

其中，i为叶子节点样本序号，n为叶子节点样本的容纳数；Ci为测试数据X对应的故障类别；C表示故障类别；P(C_i|X＝x)是测试数据X为x时属于故障类别Ci的第一概率。

其中，步骤13包括：

当P(X|C_i)不为0时，采用以下公式计算；

当P(X|C_i)为0时，采用以下公式计算：

其中，

表示捕获训练集P(X＝x|C＝ci)的依赖关系；Fa是估计因子。

上述实施例中，当P(X|C_i)为零或者不为零时，分别使用不同的计算公式，计算朴素贝叶斯算法RNB计算的测试数据X为x时属于故障类别Ci的第二概率，避免了朴素贝叶斯分类算法存在下溢和过度拟合的问题，提高了模型的精准度。

其中，步骤14包括：

其中，ACC_RNB为第二概率；P(C_i|X)_RNB为朴素贝叶斯算法RNB分类器的性能值；ACC_C5.0为第一概率；P(C_i|X)_C5.0为决策树算法C5.0分类器的性能值。

上述实施例中，采用朴素贝叶斯算法和决策树算法相结合的方式构建设备故障预测模型，不同算法的性能值对应不同的权重，提高了设备故障预测的准确率。

在一实施例中，如图2所示，所述方法中，所述步骤11之前，所述方法还包括：

步骤10A，获取原始数据集；所述原始数据集包含：设备的故障类别和对应的设备的特征属性；

步骤10B，对原始数据集进行预处理；包括：缺失处理、归一化处理、离散化处理等。

步骤10C，采用改进的遗传算法对预处理后的原始数据集进行特征属性选择；

步骤10D，从特征属性选择后的所述原始数据集中，随机抽取第一预定比例的数据用于训练朴素贝叶斯算法RNB分类器，抽取所述第一预定比率外的剩余比例的数据用于测试分类器性能，重复执行预定次数，获得朴素贝叶斯算法RNB分类器以及朴素贝叶斯算法RNB分类器对应的性能值ACC_RNB；

步骤10E，从特征属性选择后的所述原始数据集中，随机抽取第二预定比例的数据用于训练决策树算法C5.0分类器，抽取第二预定比例外的剩余比例的数据用于测试决策树算法 C5.0分类器的性能，重复执行预定次数，获得决策树算法C5.0分类器以及决策树算法C5.0 分类器对应的性能值ACCC_5.0。

其中，步骤10C包括：

步骤f，判断当前的迭代代数是否为预定迭代因子a的倍数；当为是时，选取出各个子种群中适应度最高的个体进行基因交流，以替换各个子种群中适应度最低的个体，生成当前子种群；当为否时，则将当前迭代代数加1，并转到步骤d；

步骤g，判断当前是否符合终止条件；如果符合，则选择所述当前子种群中适应度最大的个体，对选择出的所述个体进行反编码，以确定最优特征属性集；如果不符合，则将当前迭代代数加1，并转到步骤d。所述迭代的终止条件可以为：当前迭代代数达到迭代代数预定值，或者当前子种群中的个体适应度大于适应度预定值。

其中，当前子种群中的个体适应度根据以下公式计算：

其中，fit(h)是适应度函数，m代表个体集个数，

是特征属性与故障类别间的平均相关度，

是特征属性与特征属性之间的相关度，其中h为适应度函数的变量；

其中，每个特征属性与故障类别之间的相关度和特征属性与特征属性之间的相关度的计算公式如下：

其中，r(x,c)代表特征属性与故障类别的线性相关系数，N代表样本个数，x为特征属性， c为故障类别。

以下描述本发明实施例的应用场景。本发明提出一种设备故障的预测方法，包括：RNB-C5.0算法训练学习阶段、和测试阶段。

以下描述RNB-C5.0算法分类的训练。

输入：原始数据集；

输出：C5.0和RNB分类器：ACC_C5.0和ACC_RNB。

RNB-C5.0算法分类训练流程具体包括以下步骤：

Step1：对原始数据集进行预处理，包括：缺失处理、归一化处理、离散化处理等；

Step2：采用改进的遗传算法对原始数据集进行特征属性选择；

Step3：随机抽取80％的数据用于训练RNB分类器，20％的数据用于测试分类器性能，重复执行10次，最终获得RNB分类器以及分类器对应的性能ACC_RNB；

Step4：随机抽取80％的数据用于训练C5.0分类器，20％的数据用于测试分类器性能，重复执行10次，最终获得C5.0分类器以及分类器对应的性能ACCC₅.0。

其中ACC_C5.0和ACC_RNB分别代表决策树C5.0分类器的性能值和RNB分类器的性能值。性能值的计算可以通过统计进行计算，性能值代表正确率。

以下描述RNB-C5.0算法分类的测试。

输入：测试数据X，C5.0和RNB分类器，

输出：测试数据X对应的类别Ci。

RNB-C5.0算法分类的测试流程具体包括：

Step1：用C5.0分类器对测试数据X进行评估，用公式5-(22)分别计算X属于各个类别 Ci的P(C_i|X)_C5.0；

Step2：用RNB分类器对测试数据X进行评估。当P(X|C_i)不为0时，采用公式5-(6)计算X属于每个类别C_i的P(C_i|X)_RNB；当P(X|C_i)为0时，采用优化函数公式5-(11)计算 X属于每个类别C_i的P(C_i|X)_RNB。

Step3：根据公式

评估X属于每个类别的概率；

Step4：选取P(Ci|X)最大时对应的类别Ci，即为X所属的类别。

以下具体描述RNB-C5.0算法分类训练的设计思想，包括：

1、进行设备的特征属性的选择和提取。

遗传算法的主要遗传操作有选择(selection)、交叉(crossover)和变异(mutation) 这三个基本算子，为提高特征选择的效率，本发明实施例采用并行化的遗传算法，如图3所示，具体步骤如下：

(1)问题编码

遗传算法不能直接对问题的参数进行处理，需要将问题空间转化为由基因组成的个体，即将问题空间进行编码。本发明实施例采用二进制进行编码，0代表特征属性不选，1代表特征属性选用。

(2)种群初始化

选择适合数量的个体作为遗传算法操作的初始种群。本发明实施例中，种群包含多个个体，每个个体代表一个特征属性集。

(3)并行化计算改进

种群的并行化改进主要是为了充分利用计算机的资源，提高算法的运行效率，进而提高算法的响应速度。主要步骤是将初始种群划分为四个数量均等的子种群，各个子种群并行计算得到各自的最优解。

首先，对初始种群进行编号，为保证随机性，本文创建4个容器，并依次编号1、2、3、4，然后，将每个个体的编号与4进行取余运算，余数代表将该个体放入对应编号的容器中，这样就可以将初始种群划分为四个子种群。

(4)自适应交叉、变异改进

种群的交叉、变异运算主要是为了提高种群的多样性。为提高种群的全局收敛能力，本文采用自适应交叉、变异概率公式5-(3)、5-(4)对个体的交叉、变异可能性进行评估，进而从种群中选出个体进行交叉和变异操作。为提高种群多样性，一般会选择交叉、变异概率大的个体进行下面的运算(主要是根据概率大小选择个体)。

其中，P_mmax、P_mmin分别为最大、最小交叉概率，P_cmax、P_cmin分别为最大、最小变异概率； fit_max、fit、

fit’分别为种群的最大适应度、最大交叉适应度、平均适应度、变异适应度， P_m、P_c分别为交叉概率、变异概率。

为提高交叉产生新个体的概率，本发明实施例引入相似度的概念，即用个体间的相似度来确定个体间是否进行交叉，相似度公式如下5-(5)所示：

S(G_a,G_b)＝L/N 5-(3)

其中，S代表个体Ga和个体Gb的相似度，L代表个体Ga和个体Gb相同的基因片段，N代表基因编码总长度。基因在交叉的过程中，可以设定一个阈值来确定是否进行交叉操作。如果不进行交叉，则执行下一步骤。

为提高设备故障预测的准确率，本发明实施例采用基于相关度的属性选择(CFS)对算法的适应度函数进行改进，适应度函数表达式如式5-(1)所示：

其中，fit(h)是适应度函数，m代表特征属性集的个数，

是特征属性与故障类别间的平均相关度，

是特征属性与特征属性之间的相关度，h为适应度函数的变量。

算法中每个特征属性与类别之间的相关度和特征属性与特征属性之间的相关度采用 Pearson线性相关系数计算，公式如5-(2)所示：

其中，r(x,c)代表故障特征属性与故障类别的线性相关系数，N代表样本个数，x为特征属性；c为故障类别，故障类别包括严重故障、轻度故障、正常，用不同的值表示。

(6)进行判断当迭代的代数为a的倍数时，选取出各个子种群中适应度最高的个体进行基因交流，替换各个子种群中适应度最低的个体，其中Gen为迭代的次数。a是设定的，实验中可以设定多次，取效果最好的作为最终的设定值。

(7)终止

经过若干代繁衍后，达到想要适应度的个体时，终止算法。也可以采用设定的迭代次数作为终止条件。当迭代次数达到最大值时，输出种群中适应度最大的个体，通过反编码，确定最优属性集。反编码具体为：例如设备故障与使用时间、环境、设备的组成等等，这样对应的个体为101，代表使用时间、设备组成作为故障预测因素，而环境就不当作预测因素。

2、训练朴素贝叶斯算法RNB分类器和训练决策树算法C5.0分类器。

(1)朴素贝叶斯算法

朴素贝叶斯分类算法是一种结构较为简单且性能高效的分类算法，在现实生活中得到了广泛的运用。图4是本发明应用场景中所述的朴素贝叶斯算法的整体流程图，包括准备阶段、学习阶段、应用阶段。

假设数据集有n个属性x1,x2,...,xn；m个类别C₁,C₂,...,C_m；待分类样本的条件属性值为X，其中X＝{x1,x2,...,xn}，根据贝叶斯定理，有公式5-(6)：

其中，P(X|C_i)是测试数据X在类别C_i下的条件概率，P(C_i)是类别C_i的先验概率，P(X)是测试数据X的全局概率，P(C_i|X)是测试数据X是类别C_i的概率。

根据前面介绍的概率论相关知识得公式5-(7)：

朴素贝叶斯决策准则：对任意的i≠j，i j是记号标识，例如1,2,3...；都有 P(C_i|X)>P(C_j|X)，则判断属性集X的类别是Ci。由于P(X)与C无关，故朴素贝叶斯分类器模型公式如下5-(8),其中C(X)为特征属性集对应的最大概率。

C(X)＝argmaxP(C_i)P(X|C_i) 5-(8)

由于朴素贝叶斯分类器假设各属性相互独立，则根据概率论相关知识有公式5-(9)，其中Xk为第k组特征属性集。

故修正后的朴素贝叶斯分类器NB的公式5-(10)为

(2)朴素贝叶斯算法改进

由于概率的取值是0～1的数，这种数值会导致朴素贝叶斯分类算法存在下溢和过度拟合的问题。即当属于某一类别的训练样本对应的一个或多个属性不存在时，公式5-(6)中先验概率P(X＝xi|C＝ci)的值为零，导致后验概率P(C＝ci|X＝Xi)为零。为解决过度拟合的问题，本专利引入优化函数。优化函数采用重要因素来评估测试数据，通过重要因素F_s和可评估因素F_a的关系定义优化函数，测试数据所属类别由优化函数的值决定。优化函数的公式定义为如下公式

其中，n_j代表P(Xi＝x_i|C＝c_i)为零的属性个数，m代表测试实例个数，F_s为重要因素，由公式5-(12)计算，公式中n_s是n_j的最小值，且满足n_s≤n_s+1≤n_s+2≤...n_s+k-1，k为类别个数，表达式

表示捕获训练集P(X＝x|C＝ci)的依赖关系。Fa是一个估计因子，可以设定多个值，比较分类器性能，然后选取分类器性能最好时对应的值，一般Fa在0.7～0.9取值时分类器效果比较好。

(3)决策树算法

决策树C5.0一般采用如下方式计算信息增益率：设训练样本集T中的独立类别为ci，其中i＝1,2,...,m，训练样本集T中属于类别ci的子集记为Ri，用ri表示Ri中样本个数，则可以采用如下公式5-(11)计算S在分类中的期望信息量。

I(r₁,r₂,...，r_m)表示期望信息量。

其中，Pi代表样本属于类ci的概率，采用公式5-(12)计算，S代表训练样本集T中的元组数量。

令Sj为样本集T中属性A的取值为aj的子集，j＝1,2,...,k，K为自然数。用Sij表示Sj子集中属于类别Ci的元组数量，则特征属性A对于分类ci的熵E(A)可采用公式5-(13)计算：

E(A)表示熵；

其中，Wj为Sj在训练样本集T中的比重，即Sj的权重。属性A的每一个取值对类别ci的期望信息量I(S_1j+…+S_mj)可通过公式5-(15)计算：

其中Pij代表Sj中属于类别Cif的占比。由上述计算可得，A作为决策分类属性的信息增益计算公式如5-(17)所示：

Grain(A)＝I(r₁,r₁,...,r_m)-E(A) 5-(19)

I(r₁,r₂,...,r_m)是期望信息量；r1为特征属性集。

当信息增益在数据集划分为更小子集时，对属性的取值存在偏差。为改善这种问题，引入信息增益率(GrainRatio)公式5-(18)，来度量属性。

其中SplitInfo为信息熵，S为特征属性集，K为特征属性。

本文采用预剪枝的方式来解决决策树算法出现过度拟合的问题，采用公式5-(20)计算测试数据X对应的类别Ci，即叶子节点所属类别。

其中，n为叶子节点样本容纳数。

本发明提出的设备故障的预测方法，基于数据挖掘实现，采用遗传算法对设备运行测试数据进行特征提取。针对遗传算法存在的缺陷，在选择操作中采用了基于相关度的属性选择 (CFS)对适应度函数进行了改进，并在交叉、变异的过程中引入了适应度的方式提高种群变异概率，从而提高算法的收敛效率。另外，为了克服单一算法的缺陷，采用朴素贝叶斯算法和决策树算法相结合的方式构建设备故障预测模型，提高了设备故障预测的准确率，具有科学性、稳定性等特点，并让设备维护、预警变得更加简单、智能、高效。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本发明实施例还提供一种设备故障的预测装置，如图5所示，包括：

获取模块，用于获取设备的测试数据X；

其中，第一评估模块具体为：

其中，第二评估模块具体为：

当P(X|C_i)不为0时，采用以下公式计算；

当P(X|C_i)为0时，采用以下公式计算：

其中，

n_j代表P(Xi＝x_i|C＝c_i)为零的特征属性的个数，m代表测试实例个数，F_s为重要因素，n_s是n_j的最小值，且满足n_s≤n_s+1≤n_s+2≤...n_s+k-1，k为故障类别个数，表达式

表示捕获训练集P(X＝x|C＝ci)的依赖关系；Fa是估计因子。

所述装置还包括：预先处理模块，具体为：

对原始数据集进行预处理；

其中，所述采用改进的遗传算法对预处理后的原始数据集进行特征属性选择具体为：

对预处理后的原始数据集进行编码，生成故障类别对应的种群，所述种群包含至少一个个体，每个个体为一个故障的特征属性集；

从所述种群中选择预定数量的个体，作为遗传算法操作的初始种群；

将所述初始种群划分为预定个数量均等的子种群，作为当前子种群；当前迭代代数为1；

分别对各个所述当前子种群进行如下处理：从所述当前子种群中选择出个体；

对选择出的所述个体进行自适应交叉、变异改进处理；

判断当前的迭代代数是否为预定迭代因子a的倍数；当为是时，选取出各个子种群中适应度最高的个体进行基因交流，以替换各个子种群中适应度最低的个体，生成当前子种群；

判断当前是否符合终止条件；如果符合，则选择所述当前子种群中适应度最大的个体，对选择出的所述个体进行反编码，以确定最优特征属性集；如果不符合，则将当前迭代代数加1，继续处理。

其中，所述迭代终止的条件为：当前迭代代数达到迭代代数预定值，或者当前子种群中的个体适应度大于适应度预定值。

所述当前子种群中的个体适应度根据以下公式计算：

其中，fit(h)是适应度函数，m代表个体集个数，

是特征属性与故障类别间的平均相关度，

值得一提的是，本实施方式中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施方式中不存在其它的单元。

本发明另一实施方式涉及一种电子设备，如图6所示，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本发明另一实施方式涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。