CN104820716B

CN104820716B - 基于数据挖掘的装备可靠性评估方法

Info

Publication number: CN104820716B
Application number: CN201510264199.3A
Authority: CN
Inventors: 马良荔; 覃基伟; 李刚; 孙煜飞; 许国鹏
Original assignee: Naval University of Engineering PLA
Current assignee: Naval University of Engineering PLA
Priority date: 2015-05-21
Filing date: 2015-05-21
Publication date: 2017-11-28
Anticipated expiration: 2035-05-21
Also published as: CN104820716A

Abstract

本发明公开了一种基于数据挖掘的装备可靠性评估方法，它包括如下步骤：一是利用聚类算法对连续属性进行离散化；二是使用基于分类矩阵的决策树算法，对离散化数据建立分类模型，从而生成分类规则；三是基于分类规则对缺失数据和异常数据进行处理；四是使用基于目标项的Apriori算法，对装备可靠性影响因素进行挖掘，同时根据装备的基本数据建立装备的可靠性模型，利用灰色模型预测各个单元的可靠性，从而对装备整体可靠性进行评估。本发明的方法能快速准确的对装备的可靠性进行评估。

Description

基于数据挖掘的装备可靠性评估方法

技术领域

本发明涉及数据挖掘领域，更具体地指一种基于数据挖掘的装备可靠性评估方法。

背景技术

科学技术飞速发展并在各个领域得到广泛应用，先进、复杂、精密的现代高技术电子装备不断涌现并投入使用。这些装备的不断使用和更新产生了大量的有关可靠性的数据，分析评估装备的可靠性，有利于充分了解整个装备以及相关元件的可靠性水平，促使设计制造工艺的改进，充分发挥装备的固有能力，提高装备效能，从而保证装备战备完好性，降低维修保障费用，减少装备寿命周期费用。

过去的装备可靠性评估方法，都是通过参加装备故障维修、记录装备故障数据、依靠个人经验而对装备可靠性进行评估，往往缺乏完整的理论体系和科学依据，难以找出隐藏装备内部的可靠性规律。依托一定算法和计算机辅助计算，可以对装备已有故障数据进行分析计算，挖掘出装备可靠性影响因素和装备可靠性特征量，为装备的维修保障等后续工作提供了重要的参考指标。

目前的数据挖掘方法包括聚类分析、决策树、关联规则、神经网络和粗糙集等方法。

1、基于聚类分析的方法：将数据对象分为多个类或簇，同一簇中的对象之间具有较高的相似度，而不同簇之间差别较大。聚类中没有事先确定好的组别，也没有样本，记录按照自身特征的相似性聚集在不同类别中。聚类通常也作为数据挖掘或建模工作的第一步工作，其算法大体上可以划分为基于层次的方法、基于划分的方法、基于密度的方法、基于网格的方法、谱系聚类法等。

2、基于决策树的方法：通过将大量的数据有目的地分类，从中找出有价值的、潜在的信息，是一种为人工智能开发的有指导的归纳学习算法。该方法主要包括CLS(概念学习系统)方法、ID3(Iterative Dichotomiser 3迭代二叉树3代)算法、C4.5决策树算法算法，属于以逻辑方式输出的分类方法，主要用来解决数据挖掘中的分类和预测问题，其归纳学习的目标是建立一个分类模型。

3、基于关联规则的方法：由Agrawal等人于1993年对市场购物篮问题进行分析时首次提出，用以发现商品销售中的顾客购买模式。关联规则的主要目的就是发现存在于数据库中的项目或属性间的潜在关系，从而辅助决策。该方法挖掘形式简洁、易于理解和解释，并可以有效的捕捉数据间的重要关系。

4、基于神经网络的方法：通过网络中各连接权值的改变，实现信息的处理和存储。神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据的挖掘问题。典型的神经网络模型有误差逆传播神经网络、Hopfield神经网络、随机型神经网络、竞争型神经网络、自组织特征映射神经网络、对向传播神经网络等。

5、基于粗糙集理论的方法：由波兰科学家Z.Pawlak于1982年首先提出。其主要思想就是在保持分类能力不变的前提下，通过属性约简和知识约简，导出问题的决策或分类规则。该方法利用等价关系将一组数据划分成几个等价类，利用等价类近似的方法描述整个集合的特征。但找出可以描述给定数据集中所有概念的最小属性子集是个NP(Non-Deterministic Polynomial,非确定多项式)问题。

然而在实际的装备可靠性评估中，首先要对装备可靠性数据进行收集，不可避免的存在不完备性。这些数据若不经过预处理，有可能导致不必要的操作和漫长的等待时间，浪费不必要的人力和物力，而且还影响从数据集中抽取模式的正确性和导出规则的准确性，从而影响决策者判断；使用上述5种方法对预处理后的数据进行挖掘都需要进行复杂的运算，还需要大量的统计信息和专家经验，且信息量大，具有较大的冗余性，并且设计的可靠性评估系统人机交互性、可视化、直观性、可理解性不强。

因此，对于装备的可靠性评估，只应用一种数据挖掘方法就完全解决实际对象的诊断问题是不可能的，多种智能方法的有效结合是未来可靠性评估的总体趋势，特别是与灰色理论方法有效地结合在一起，发挥各自的优势，形成互补，建立新的装备可靠性评估方法，既简单易行又能明显提高装备评估效率，从而为装备的维修保障等后续工作提供了重要的参考指标。

发明内容

本发明的目的就是要提供一种基于数据挖掘的装备可靠性评估方法，以便快速准确地对装备的可靠性进行评估。

为实现此目的，本发明所设计的一种基于数据挖掘的装备可靠性评估方法，其特征在于，它包括如下步骤：

步骤1：需要将整个装备系统中装备可靠性相关的原始数据进行离散化，利用离散化的数据建立分类模型，再根据分类模型对原始数据中的异常数据进行处理，处理方法为通过分类模型进行规则匹配筛选得到异常数据，对于这些数据通过人工干预的方法进行修改或者删除，从而得到最终的规则数据集；

上述装备可靠性相关的原始数据包括装备基本数据、装备故障数据、装备资料数据、备品备件数据和操作人员数据，其中装备故障数据包括故障发现人信息、现场温度信息、现场湿度信息、故障等级信息、故障单元信息和故障现象描述信息，装备故障数据和装备基本数据一起构成该数据挖掘方法的主要对象；

上述分类模型的建立规则为用常规的基于分类矩阵的决策树算法来建立分类模型。首先删除与分类模型无关的属性，该属性为装备可靠性相关原始数据中数据库表的每个字段名，各个字段名分别反映装备可靠性的主题，各个数据库表中存储对应的装备可靠性相关的原始数据，对于上述装备可靠性相关的原始数据中的连续属性使用常规的K-means算法进行离散化处理，上述连续属性表示该属性取值范围为某一区间的任意实数，从而最终得到离散化的完整数据集，通过随机不放回抽样的方式选取该完整数据集75％的数据作为训练样例来构成决策树；

决策树的生成算法在ID3算法的基础上进行改进而来，通常的ID3算法是以计算信息增益量来选择信息增益最大的属性来进行决策树的分裂，假设在以上的原始数据的训练样例中，故障等级为目标属性，故障模式属性计算得到的信息增益最大，说明故障模式分类对故障等级属性的影响最大，则用故障模式属性作为决策树的根结点，决策树的二级节点由剩余属性信息增益最大值决定，以此类推最终形成决策树，目标属性作为决策树的叶节点，用目标属性以外的其它某一属性分别与目标属性间形成分类矩阵并建立属性间的映射，然后利用该分类矩阵完成对信息增益的计算，同时为了克服ID3算法的多值偏向问题，在ID3算法中引入一个权重因子来避免，在形成决策树的过程中，如果训练集中实例个数小于预设的阈值，则对决策树停止生长，形成的完整决策树即为所求的分类模型；

步骤2：利用步骤1得到的最终规则数据集中的故障数据集D通过以下步骤201～步骤206所述的基于目标项的Apriori算法生成强关联规则，设立最小支持度阈值，最终确定可靠性影响因素及其支持度；

步骤201：定义装备可靠性相关数据项集为I＝{i₁,i₂,…,i_n}，I中故障的装备单元项的集合为目标项集，记为I_T，I中各类因素项的集合为非目标项集，记为I_N，在关联规则项集生成过程中，非目标项集I_N的元素只作为强关联的条件，目标项集I_T的元素只作为强关联的结果，该种处理方法便于判定各种因素与装备单元间的联系，将步骤1预处理之后的最终规则数据集中的故障数据集定义为D，并从最终规则数据集中的故障数据集D中划分出非目标项集I_N和目标项集I_T，k-项集表示一个包含k个项的集合，定义L_k为频繁k-项集的集合，C_k是候选k-项集的集合，L为频繁项集的集合，定义min_sup表示最小支持度阈值，min_conf表示最小置信度，k-项集出现频度不小于min_sup视为频繁k-项集，表示某类因素项集和某类故障装备单元同时出现频数较高，若频繁项集中包含的目标项集I_T子集出现频度与非目标项集I_N子集出现频度的比值不小于最小置信度min_conf，则将该频繁项集视为强关联规则，表示在非目标项集I_N子集类因素发生的情况下目标项集I_T子集类故障装备及其单元出现的概率较高，为装备单元的可靠性影响因素；

对最终规则数据集中的故障数据集D进行扫描，计算最终规则数据集中的故障数据集D中每个不同项的频度，得到频繁1-项集的集合L₁；

步骤202：对频繁k-项集的集合L_k中的不同的两个频繁k-项集I₁和I₂进行扫描，若二者仅有一项不相同，则将两个频繁k-项集I₁和I₂进行连接，得到新的k+1-项集c，若新的k+1-项集c中所有项不同时包含目标项集I_T和非目标项集I_N中的项，说明生成新的k+1-项集c只包含故障因素或只包含故障装备单元，无法建立因素与故障装备单元的联系，因此将新的k+1-项集c删除，进入对频繁k-项集的集合L_k中下一对k-项集的扫描，如果新的k+1-项集c中所有项同时包含目标项集I_T和非目标项集I_N中的项，则提取新的k+1-项集c中1-项子集外的每个包含目标项的k-项子集s与频繁k-项集的集合L_k中的k-项集对比，若k-项子集s不出现在频繁k-项集的集合L_k中，说明该类因素与该类装备单元故障出现频度不满足要求，因此将新的k+1-项集c删除，进入对频繁k-项集的集合L_k中下一对k-项集的扫描，若k-项子集s不出现在频繁k-项集的集合L_k中，则将新的k+1-项集c添加至候选k+1-项集集合C_k+1，并进入对频繁k-项集的集合L_k中下一对k-项集的扫描，直到候选k+1-项集集合C_k+1生成完毕为止；

步骤203：对最终规则数据集中的故障数据集D进行扫描，定义最终规则数据集中的故障数据集D的故障事务记录为t，若候选k+1-项集集合C_k+1中的候选k+1-项集c为故障事务记录t的子集，则将新的k+1-项集c的出现频数加一，重复该过程直到最终规则数据集中的故障数据集D扫描完毕为止；

步骤204：判定C_k+1中的候选k+1-项集c出现频度是否不小于min_sup，如果是则说明候选k+1-项集c故障因素和故障装备单元同时出现的频数较高，满足频繁k+1-项集的情况，将满足条件的候选k+1-项集c添加到L_k+1；

步骤205：重复步骤202-步骤204，直到频繁k-项集不再扩大为止，然后将所有频繁k-项集的集合合并，得到频繁项集集合L；

步骤206：对频繁项集集合L中的频繁项集进行判定，若当前频繁项集中包含的I_T子集出现频度与I_N子集出现频度的比值不小于最小置信度min_conf，则将该频繁项集视为强关联规则，其概率值为所计算的I_T子集出现频度与I_N子集出现频度的比值，重复该过程对每个频繁项集进行判定和规则生成操作，最终得到的全部关联规则为装备单元的所有可靠性影响因素，上述装备单元的所有可靠性影响因素作为装备可靠性评估的依据。

与现有技术相比，本发明具有以下有益效果：

本发明分析评估装备的可靠性，充分了解整个装备以及相关元件的可靠性水平，促使设计制造工艺的改进，有利于充分发挥装备的固有能力，提高装备效能，从而保持装备完好、确保任务完成，同时又可以降低维修保障费用，减少装备寿命周期费用。

本发明根据步骤2的关联规则算法得到的装备的可靠性因素，可用于特定环境下使用装备的使用及维护保养注意事项，从而使得装备能够更好的完成任务，减小故障的发生概率。假设步骤2生成的三条强关联规则为：

1)

2)

3)

三条强关联规则分别说明：

规则1如果现场温度低，单元3故障的可能性为100％；

规则2如果在演习时，现场温度高，单元1故障的可能性为100％；

规则3如果在平时训练时，现场温度高，单元2故障的可能性为100％。

根据规则我们可以看出，如果单元1比较重要，在不考虑其他因素的条件下，那么在演习时应该适度降低现场温度；如果单元2比较重要，那么在平时应该适当降温；如果单元3比较重要，提高现场温度就是一个相对较好的选择。由例子可以看出，利用关联规则可以得到特定环境下，影响装备可靠性的主要因素；及在特定环境下，使装备某些属性达到最佳的建议等，从而达成上述有益效果。

步骤3的可靠性特征量的挖掘，通过计算得到各单元及装备的可靠度随时间变化的模型，该可靠度模型可用于定量的预测装备可靠性水平，以评价装备的性能，确定所提出装备可靠性要求的现实性；为装备生产厂家的选择提供依据；将可靠性的要求分配给分系统或单元；为元器件、材料、工艺的选择提供建议；为产品的可靠性增长计划提供信息；鉴别可靠性薄弱环节，以便制定装备的预防性维护修理方案。从而达到上述有益效果。

现有的装备维修保障方案需要技术人员对装备有着充分的了解，不利于突发情况下的装备维护；对于某些复杂的故障难以快速的排查故障情况；使用得到的可靠性数据缺少整理，厂家缺少装备的改进方向；缺少预防性装备维护修理方案等。而利用数据挖掘评估装备可靠性的方法建立在大量数据源的基础上并形成一定的规律，减小了技术人员在专业领域的知识要求，在一定程度上为突发情况下装备的维护修理提供帮助；对于无法第一时间判断的故障，可根据装备的使用条件或者装备及单元的可靠度确定装备发生故障的单元；数据挖掘形成的可靠性因素及可靠性特征量便于厂家得到及时的反馈，便于改进装备；而各单元的可靠度随时间变化模型可为装备的预防性维护方案的制定提供决策。

附图说明

图1为本发明的原理框图；

图2为基于目标项的Apriori算法的流程图。

具体实施方式

以下结合附图和具体实施例对本发明作进一步的详细说明：

如图1所示的基于数据挖掘的装备可靠性评估方法，该方法主要分为以下四部：一是利用聚类算法对连续属性进行离散化；二是使用基于分类矩阵的决策树算法，对离散化数据建立分类模型，从而生成分类规则；三是基于分类规则对缺失数据和异常数据进行处理；四是使用基于目标项的Apriori算法，对装备可靠性影响因素进行挖掘，同时根据装备的基本数据建立装备的可靠性模型，利用灰色模型预测各个单元的可靠性，从而对装备整体可靠性进行评估。本发明从海量的数据中挖掘出对装备十分有用的信息，具有重要的理论意义和实际应用价值。本发明分析评估装备的可靠性，充分了解整个装备以及相关元件的可靠性水平，促使设计制造工艺的改进，有利于充分发挥装备的固有能力，提高装备效能，从而保持装备完好、确保任务完成，同时又可以降低维修保障费用，减少装备寿命周期费用。

具体来说，本发明包括如下步骤：

上述分类模型的建立规则为用常规的基于分类矩阵的决策树算法来建立分类模型，首先删除与分类模型无关的属性，该属性为装备可靠性相关原始数据中数据库表的每个字段名，各个字段名分别反映装备可靠性的主题，各个数据库表中存储对应的装备可靠性相关的原始数据，对于上述装备可靠性相关的原始数据中的连续属性使用常规的K-means算法进行离散化处理，上述连续属性表示该属性取值范围为某一区间的任意实数，从而最终得到离散化的完整数据集，通过随机不放回抽样的方式选取该完整数据集75％的数据作为训练样例来构成决策树；

决策树的生成算法在ID3算法的基础上进行改进而来，通常的ID3算法是以计算信息增益量来选择信息增益最大的属性(信息增益是ID3算法中的一个概念，用于衡量一个属性区分数据样本的能力，信息增益越大，说明以该属性作为决策树的根节点能使得树更简洁)来进行决策树的分裂，假设在以上的原始数据的训练样例中，故障等级为目标属性，故障模式属性计算得到的信息增益最大，说明故障模式分类对故障等级属性的影响最大，则用故障模式属性作为决策树的根结点，决策树的二级节点由剩余属性信息增益最大值决定，以此类推最终形成决策树，目标属性作为决策树的叶节点，用目标属性以外的其它某一属性分别(分类矩阵一次只能计算目标属性和其他一个属性，因此需要形成多个分类矩阵分别计算)与目标属性间形成分类矩阵并建立属性间的映射，然后利用该分类矩阵完成对信息增益的计算，同时为了克服ID3算法的多值偏向问题，在ID3算法中引入一个权重因子来避免，在形成决策树的过程中，如果训练集中实例个数小于预设的阈值，则对决策树停止生长，形成的完整决策树即为所求的分类模型；

步骤206：对频繁项集集合L中的频繁项集进行判定，若当前频繁项集中包含的I_T子集出现频度与I_N子集出现频度的比值不小于最小置信度min_conf，则将该频繁项集视为强关联规则，其概率值为所计算的I_T子集出现频度与I_N子集出现频度的比值，重复该过程对每个频繁项集进行判定和规则生成操作，最终得到的全部关联规则为装备单元的所有可靠性影响因素，上述装备单元的所有可靠性影响因素作为装备可靠性评估的依据；

步骤3：依据步骤1中建立分类模型后并完成异常数据处理后的装备基本数据建立可靠性模型，利用装备可靠性相关的原始数据中装备故障数据计算装备各单元的可靠性，然后进行整个装备系统的可靠性预计(根据组成系统的单元结构所建立的可靠性模型，由低层到高层、由局部到整体，逐级依次估计出可靠度，最后综合得出系统可靠性的过程)完成整个装备系统的装备可靠性指标计算，得到整个装备系统的可靠度，上述整个装备系统的可靠度也作为装备可靠性评估的依据。

所述步骤3中进行整个装备系统的可靠性预计完成整个装备系统的装备可靠性指标计算，得到整个装备系统的可靠度的具体方法为：

步骤301：建立可靠性模型，该模型用于表示整个装备系统与装备单元之间的可靠性关系；根据装备的基本数据(如结构图、电路图和工作原理等信息)确定装备在执行某项任务时所有装备单元之间的相互依赖关系，该种依赖关系包括串联、并联和混联等连接方式，在确定依赖关系后，可利用不同连接方式的数学表达式表达各单元的可靠性与系统可靠性的关系，整个装备系统与装备单元之间的可靠性关系如下：

串联装备系统的可靠度R(t)与串联装备系统中各个装备单元的可靠度R_i(t)之间的关系为：

并联装备系统的可靠度R(t)与并联装备系统中各个装备单元的可靠度R_i(t)之间的关系为：

混联装备系统的可靠度关系模型需要将该系统分解为串联系统和并联系统，分别计算可靠度再合并；

步骤302：计算装备各单元的可靠性；由于在进行装备可靠性相关的原始数据测量时，存在着随着装备的老化，某些测量需要缩短时间间隔的情况；以及人员检测的不及时导致测量时间不等间隔等情况，导致得到数据为非等间隔，因此在计算各装备单元的可靠性的时候，需要考虑非等间隔下可靠度计算问题，在此采用非等间隔GM(1,1)模型(GM，GreyModel，灰色模型)方法求解，非等间隔GM模型不直接利用原始无规律的序列来建立模型，而是把原始序列作为基础，通过累加生成有指数变化规律的数列，然后对这一新数列用微分方程描述，以求其指数函数解，最终经累减生成，恢复为原始序列，得到单元的可靠度，GM(1,1)模型的具体步骤如下：

定义装备单元可靠性相关的原始数据的序列为X⁽⁰⁾＝(x⁽⁰⁾(t₁),x⁽⁰⁾(t₂),…,x⁽⁰⁾(t_n))，其对应的观测时段为T⁽⁰⁾(i)＝(t₁,t₂,…,t_n)，则其平均时间间隔为：

其中，X⁽⁰⁾代表装备某一单元的可靠度序列，装备的可靠性是指装备在规定时间内完成规定功能的概率，随着时间的推移，失效的装备逐渐增加，而正常工作的装备逐渐减少，那么可靠度关于时间t的函数，记作x(t_n)；假如t₀＝0时间有N个相同装备开始工作，而到了t_n时刻有n(t_n)个装备失效，仍有N-n(t_n)个装备继续工作，则t_n时刻x(t_n)的估计值为：

T为故障数据中记录观测的时间序列，t_n为每个观测时间点，n为故障数据中对同类单元记录的观测总次数；

定义各实际观测时间与相应平均时段的差系数为

其中，Δt₀为平均时间间隔，t_i为第i个观测时间点，i为1～n之间的整数；

定义各实际相邻观测时段的单元可靠度差值为：

Δx⁽⁰⁾(t_i)＝μ_i[x⁽⁰⁾(t_i)-x⁽⁰⁾(t_i-1)]

x⁽⁰⁾(t_i)与x⁽⁰⁾(t_i-1)为相邻观测时段；

从而得到相邻观测时段可靠度差值的序列为：

ΔX⁽⁰⁾＝(Δx⁽⁰⁾(t₁),Δx⁽⁰⁾(t₂),…,Δx⁽⁰⁾(t_n))

分别对序列X⁽⁰⁾，ΔX⁽⁰⁾累加得到累加序列X⁽¹⁾和ΔX⁽¹⁾(累加序列的作用：使非等间隔的可靠度值或者可靠度差值转化为非减的、递增的数列，使得生成的序列具有近似的指数规律)；

X⁽¹⁾为装备单元可靠性累加序列，与X⁽⁰⁾满足如下关系：

ΔX⁽¹⁾为可靠度差值累加序列，与ΔX⁽¹⁾满足如下关系：

其中，k是累和符号的下标，表示从第1项到第i项累和相加；

分别对序列X⁽¹⁾和ΔX⁽¹⁾作邻值等权生成(邻值等权生成是指使用相邻数据的平均值构造新的数据的方法，使得数据进一步稳定)得到序列和

序列为邻值等权生成单元可靠度序列，使用序列X⁽¹⁾中相邻数据的平均值生成；序列为邻值等权生成单元可靠度序列，使用序列ΔX⁽¹⁾中相邻数据的平均值生成；

令

上式中，带t_i的项表示序列中的一项，从而得到等间隔一次累加序列使用作累减生成，得到的一次累减序列(累减生成为累加生成的逆运算，操作步骤为将序列中前后相邻的两数据相减得到新的序列，累减生成起到将已转为规则序列的数据还原为原始序列的作用，从而使得非等间隔数据变的等间隔有规律)；

按照等间隔GM(1,1)模型的建模方法对累减序列进行建模，得到响应函数

u、a为GM(1,1)模型建模方法中白化微分方程的两个参数，t为时间，t₁为第一个观察时间点，Δt₀为平均时间间隔，白化微分方程公式如下：

其中u和a通过最小二乘法求解，响应函数通过白化微分方程经过拉普拉斯变换和逆变换得到；

得到装备单元可靠度累减生成模型：

其中，的模型公式为GM(1,1)模型的累减生成还原；

得到装备单元可靠度灰色预测模型，该预测模型为最终的装备单元可靠度模型：

其中，该公式为将上述响应函数代入装备单元可靠度累减生成模型得到的序列模型，上述与步骤301中的装备系统中各个装备单元的可靠度模型R_i(t)等价；

步骤303：进行装备的可靠度预计，计算得到装备的可靠性指标；根据步骤301所建立混联装备系统的可靠度关系模型，并结合步骤302得到的装备各单元的可靠度模型R_i(t)，由底层到高层、由局部到整体，逐级依次估计出可靠度，最后综合得出整个装备的可靠度R(t)。

上述技术方案中，所述异常数据为不符合相应分类模型的数据。数据集可能包含一些数据对象，它们与其他数据的一般行为或模型不一致，这些对象被成为异常数据。异常数据可以分为错误数据和偏激数据，错误数据一般由于仪器故障或录入人员疏忽而产生，偏激数据则是指评判事物看法偏激而产生的数据。本文提到的异常数据是指不符合相应分类模型的数据。

上述技术方案中，所述任务状态信息是指电子装备发生故障时所处的工作时段，由于电子装备在平时的工作强度较低，在演习时的工作强度较高，而工作强度的强弱在一定程度上对装备的故障率有影响，因此使用任务状态属性记录，以便于数据挖掘分析。

上述技术方案中，所述故障模式信息是对电子装备发生的、能被观察或测量到的故障现象的规范描述。

上述技术方案中，所述故障等级信息为根据故障对系统或子系统影响程度的不同而划分的等级。所述故障等级信息为根据故障对系统或子系统影响程度的不同而划分的等级。所述故障单元信息为发生故障电子装备中一组或自成系统的独立单位，指电子装备中的分机、子系统或者独立工作的元器件。

上述技术方案中，所述故障单元信息为发生故障电子装备中一组或自成系统的独立单位，指电子装备中的分机、子系统或者独立工作的元器件。

上述技术方案的步骤1中删除与分类模型无关的属性的方法为首先根据各个属性的值对原有的数据分别进行分类，然后将以上由各属性得到的不同分类相交，得到数据的分类，最后删除单个属性，将删除属性后的数据分类与未删除属性的分类相比较，如果分类未发生变化则认为该属性为无关属性，它所进行的分类可以使用其他属性代替，该属性可以在分类模型中删除。

上述技术方案的步骤1中，先将数据进行离散化，要求能自动地发现从数值属性值域到离散属性值域的对应关系。理想情况下，不能对预测或分类的性能产生不利影响，不会造成数据集出现不一致的现象，生成的区间适中。用户在进行后续的缺失数据填补、异常数据处理时可以有一定的调节空间，从而使数据在其监督下达到最优。

上述技术方案中，所述步骤1中的权重因子为t＝1/log₂m，m为分类矩阵中其它属性的取值个数；所述步骤1中的预设的阈值使用每个属性所有取值个数乘以5％确定(即阈值的决定使用概率的方法确定，当一个属性中某一取值的个数占该属性所有取值个数的百分比值在95％及以上时，即该属性其他取值个数百分比在5％及以下，说明该属性其他值发生的概率较低，没有进一步生成树的分枝的必要)。

上述技术方案中，针对收集的装备可靠性相关数据存在冗余数据、缺失数据、不确定数据和不一致数据等情况，利用基于决策树分类算法生成的模型，在人工干预的前提下，对缺失数据进行填补，对异常数据进行清除，确保用来进行可靠性分析数据的准确性、可靠性，最终达成对装备可靠性相关数据的预处理。

上述技术方案中，使用基于目标项的Apriori算法，对装备可靠性影响因素进行挖掘。首先找出所有的频繁项集，即出现的频繁性不小于最小支持度的项集；然后对这些频繁项集中满足最小置信度的项集，生成强关联规则。通过关联规则可以挖掘影响装备可靠性的因素及各个因素之间的关系，确保装备可靠性达到最佳。

上述技术方案中，所述的基于分类矩阵的决策树算法是指在保持ID3算法框架和优点的基础上，对增益标准进行重新定义，基于分类矩阵进行运算，从而寻找出更加优化的分类属性，克服ID3算法多值偏向性、降低对噪声的敏感性、减少分类时间、提高分类精确率。

上述技术方案中，步骤3中的可靠性特征量挖掘方法是指利用装备的基本信息确定装备的可靠性模型。根据装备基本数据建立装备可靠性模型，根据装备故障数据对装备各单元可靠性进行计算，然后进行装备可靠性预计，最终达成对装备可靠性指标的预算。研究了一种非等间隔的GM(1，1)模型，其不直接利用原始无规律的序列来建立模型，而是把原始序列作为基础，通过累加生成有指数变化规律的数列来建立模型，克服装备原始可靠性数据本身非等间隔的限制。

上述技术方案的步骤201中，故障的装备单元项为：故障的装备单元是指装备中发生故障的具体分机、组件和零部件等，这些项目存放以上举例原始数据的故障单元属性中，项是指该属性中每个不同的值，如在在以下预处理完毕后(湿度和温度经过离散化处理)的示例数据中的故障单元属性中的单元1、单元2和单元3即为每个不同的项。

上述技术方案的步骤201中，因素项为：上表中除去故障单元的其他属性(列)中每个不同的项即为因素项，可靠性影响因素挖掘即为分析何种(单个或者多个)因素发生的情况下，装备的某类(单个或多个)单元会发生故障。因素项不一定是单元发生故障的原因，具体单元故障因素的确定由整个步骤2得出。

上述技术方案的步骤201中，从最终规则数据集中的故障数据集D中划分出非目标项集I_N和目标项集I_T的方法举例为：上表中故障单元属性中不同项为I_T，I_T＝{单元1,单元2,单元3}，其他属性中所有不同的项的集合为I_N。

上述技术方案的步骤201中，k-项集物理意义：一个总计包含k个因素项或者故障单元项的集合，表示这些因素和某类单元发生故障的情况同时出现。如1-项集{单元1}、{开机时}。3-项集{高,温度1,单元1}，表示湿度为高，温度为温度1，故障单元为单元1出现的情况。

上述技术方案的步骤201中，出现次数(频数)不小于最小支持度阈值(min_sup)的k-项集才能称之为频繁k-项集，频繁k-项集表示某类因素项集和某类单元发生故障同时出现的次数较多，具有普遍性。

上述技术方案的步骤201中，候选k-项集的集合C_k是在生成频繁k-项集过程中一个临时存放k-项集的集合，C_k中每一个k-项集的频度需要经过与最小支持度阈值(min_sup)的判定，频度不小于该值的k-项集则为频繁k-项集。

上述技术方案的步骤201中，k-项集是一个定义，候选k-项集是在实际的生成频繁k-项集过程中临时生成的k-项集，至少出现一次即可。

上述技术方案的步骤2中，支持度表示项在表中出现的次数(频数)，例如上表中1-项集{温度1}的支持度为4，{演习}的支持度为3，3-项集{演习、温度1、单元1}的支持度为2等。最小支持度阈值为针对k-项集的频数进行评估，假设该值为2，表示某类因素项集和某类单元发生故障同时出现的次数不小于两次的即为频繁出现的情况，如候选3-项集{演习、温度1、单元1}的支持度为2，为频繁出现的情况，候选3-项集{平时,开机时，单元3}的支持度为1，小于最小支持度阈值，不为频繁出现的情况。

本发明将数据挖掘技术应用在装备可靠性研究中，引入了一种新的可靠性评估方法，从对可靠性相关数据进行离散、建立分类模型、预处理进行着手，应用基于目标项的Apriori算法和非等间隔的GM(1，1)模型，克服了装备可靠性相关数据的不完备性、随机性，最终快速准确地对装备可靠性进行评估，充分了解整个装备以及相关元件的可靠性水平，促使设计制造工艺的改进，充分发挥装备的固有能力，提高武器效能，从而保证装备战备完好性，降低维修保障费用，减少装备寿命周期费用。

本说明书未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种基于数据挖掘的装备可靠性评估方法，其特征在于，它包括如下步骤：

步骤2：利用步骤1得到的最终规则数据集中的故障数据集D通过以下步骤201～步骤206的基于目标项的Apriori算法生成强关联规则，设立最小支持度阈值，最终确定可靠性影响因素及其支持度；

步骤201：定义装备可靠性相关数据项集为I＝{i₁,i₂,…,i_n}，I中故障的装备单元项的集合为目标项集，记为I_T，I中各类因素项的集合为非目标项集，记为I_N，在关联规则项集生成过程中，非目标项集I_N的元素只作为强关联的条件，目标项集I_T的元素只作为强关联的结果，该种处理方法便于判定各种因素与装备单元间的联系，将步骤1预处理之后的最终规则数据集中的故障数据集定义为D，并从最终规则数据集中的故障数据集D中划分出非目标项集I_N和目标项集I_T，k-项集表示一个包含k个项的集合，定义L_k为频繁k-项集的集合，C_k是候选k-项集的集合，L为频繁项集的集合，定义min_sup表示最小支持度阈值，min_conf表示最小置信度，k-项集出现频度不小于min_sup视为频繁k-项集，若频繁项集中包含的目标项集I_T子集出现频度与非目标项集I_N子集出现频度的比值不小于最小置信度min_conf，则将该频繁项集视为强关联规则，为装备单元的可靠性影响因素；

步骤204：判定C_k+1中的候选k+1-项集c出现频度是否不小于min_sup，如果是则满足频繁k+1-项集的情况，将满足条件的候选k+1-项集c添加到L_k+1；

2.根据权利要求1所述的基于数据挖掘的装备可靠性评估方法，其特征在于：所述步骤206后还包括步骤3：依据步骤1中建立分类模型后并完成异常数据处理后的装备基本数据建立可靠性模型，利用装备可靠性相关的原始数据中装备故障数据计算装备各单元的可靠性，然后进行整个装备系统的可靠性预计完成整个装备系统的装备可靠性指标计算，得到整个装备系统的可靠度，上述整个装备系统的可靠度也作为装备可靠性评估的依据。

3.根据权利要求2所述的基于数据挖掘的装备可靠性评估方法，其特征在于：所述步骤3中进行整个装备系统的可靠性预计完成整个装备系统的装备可靠性指标计算，得到整个装备系统的可靠度的具体方法为：

步骤301：建立可靠性模型，该模型用于表示整个装备系统与装备单元之间的可靠性关系；根据装备的基本数据确定装备在执行某项任务时所有装备单元之间的相互依赖关系，该种依赖关系包括串联、并联和混联等连接方式，在确定依赖关系后，可利用不同连接方式的数学表达式表达各单元的可靠性与系统可靠性的关系，整个装备系统与装备单元之间的可靠性关系如下：

步骤302：计算装备各单元的可靠性；由于在进行装备可靠性相关的原始数据测量时，存在着随着装备的老化，某些测量需要缩短时间间隔的情况；以及人员检测的不及时导致测量时间不等间隔等情况，导致得到数据为非等间隔，因此在计算各装备单元的可靠性的时候，需要考虑非等间隔下可靠度计算问题，在此采用非等间隔GM(1，1)模型方法求解，非等间隔GM模型不直接利用原始无规律的序列来建立模型，而是把原始序列作为基础，通过累加生成有指数变化规律的数列，然后对这一新数列用微分方程描述，以求其指数函数解，最终经累减生成，恢复为原始序列，得到单元的可靠度，GM(1，1)模型的具体步骤如下：

<mrow> <msub> <mi>&Delta;t</mi> <mn>0</mn> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </mfrac> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>n</mi> </msub> <mo>-</mo> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> </mrow>

T⁽⁰⁾为故障数据中记录观测的时间序列，t_n为每个观测时间点，n为故障数据中对同类单元记录的观测总次数；

定义各实际观测时间与相应平均时段的差系数为

<mrow> <msub> <mi>&mu;</mi> <mi>i</mi> </msub> <mo>=</mo> <mfrac> <mrow> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>-</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <msub> <mi>&Delta;t</mi> <mn>0</mn> </msub> </mrow> <mrow> <msub> <mi>&Delta;t</mi> <mn>0</mn> </msub> </mrow> </mfrac> </mrow>

定义各实际相邻观测时段的单元可靠度差值为：

Δx⁽⁰⁾(t_i)＝μ_i[x⁽⁰⁾(t_i)-x⁽⁰⁾(t_i-1)]

x⁽⁰⁾(t_i)与x⁽⁰⁾(t_i-1)为相邻观测时段；

从而得到相邻观测时段可靠度差值的序列为：

ΔX⁽⁰⁾＝(Δx⁽⁰⁾(t₁),Δx⁽⁰⁾(t₂),…,Δx⁽⁰⁾(t_n))

分别对序列X⁽⁰⁾，ΔX⁽⁰⁾累加得到累加序列X⁽¹⁾和ΔX⁽¹⁾；

X⁽¹⁾为装备单元可靠性累加序列，与X⁽⁰⁾满足如X下关系：

<mrow> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>i</mi> </munderover> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mn>0</mn> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow>

ΔX⁽¹⁾为可靠度差值累加序列，与ΔX⁽¹⁾满足如下关系：

<mrow> <msup> <mi>&Delta;x</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>i</mi> </munderover> <msup> <mi>&Delta;x</mi> <mrow> <mo>(</mo> <mn>0</mn> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mrow> <mo>(</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mo>...</mo> <mi>n</mi> <mo>)</mo> </mrow> </mrow>

其中，k是累和符号的下标，表示从第1项到第i项累和相加；

分别对序列X⁽¹⁾和ΔX⁽¹⁾作邻值等权生成得到序列和

令

上式中，带t_i的项表示序列中的一项，从而得到等间隔一次累加序列使用作累减生成，得到的一次累减序列

<mrow> <msup> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <mi>t</mi> <mo>+</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mn>0</mn> <mo>)</mo> </mrow> </msup> <mo>(</mo> <mn>1</mn> <mo>)</mo> <mo>-</mo> <mfrac> <mi>u</mi> <mi>a</mi> </mfrac> <mo>)</mo> </mrow> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mfrac> <mrow> <mi>a</mi> <mi>t</mi> </mrow> <mrow> <msub> <mi>&Delta;t</mi> <mn>0</mn> </msub> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>+</mo> <mfrac> <mi>u</mi> <mi>a</mi> </mfrac> </mrow>

<mrow> <mfrac> <mrow> <mi>d</mi> <msup> <mover> <mi>X</mi> <mo>&OverBar;</mo> </mover> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </msup> </mrow> <mrow> <mi>d</mi> <mi>t</mi> </mrow> </mfrac> <mo>+</mo> <mi>a</mi> <msup> <mover> <mi>X</mi> <mo>&OverBar;</mo> </mover> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mi>u</mi> </mrow>

得到装备单元可靠度累减生成模型：

<mrow> <msup> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <mi>t</mi> <mo>+</mo> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msup> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <mi>t</mi> <mo>+</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>-</mo> <msup> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <mi>t</mi> <mo>+</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>-</mo> <msub> <mi>&Delta;t</mi> <mn>0</mn> </msub> <mo>)</mo> </mrow> </mrow>

其中，的模型公式为GM(1,1)模型的累减生成还原；

<mrow> <msup> <mover> <mi>x</mi> <mo>&OverBar;</mo> </mover> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </msup> <mrow> <mo>(</mo> <mi>t</mi> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mn>0</mn> <mo>)</mo> </mrow> </msup> <mo>(</mo> <mn>1</mn> <mo>)</mo> <mo>-</mo> <mfrac> <mi>u</mi> <mi>a</mi> </mfrac> <mo>)</mo> </mrow> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mfrac> <mrow> <mi>a</mi> <mi>t</mi> </mrow> <mrow> <msub> <mi>&Delta;t</mi> <mn>0</mn> </msub> </mrow> </mfrac> <mo>)</mo> </mrow> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>exp</mi> <mo>(</mo> <mi>a</mi> <mo>)</mo> <mo>)</mo> </mrow> <mi>exp</mi> <mrow> <mo>(</mo> <mo>-</mo> <mfrac> <mrow> <mi>a</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mn>2</mn> <msub> <mi>t</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>&Delta;t</mi> <mn>0</mn> </msub> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>

步骤303：进行装备的可靠度预计，计算得到装备的可靠性指标；根据步骤301所建立混联装备系统的可靠度关系模型，并结3合步骤302得到的装备各单元的可靠度模型R_i(t)，由底层到高层、由局部到整体，逐级依次估计出可靠度，最后综合得出整个装备的可靠度R(t)。

4.根据权利要求1所述的基于数据挖掘的装备可靠性评估方法，其特征在于：所述异常数据为不符合相应分类模型的数据。

5.根据权利要求1所述的基于数据挖掘的装备可靠性评估方法，其特征在于：所述故障模式信息是对电子装备发生的、能被观察或测量到的故障现象的规范描述。

6.根据权利要求1所述的基于数据挖掘的装备可靠性评估方法，其特征在于：所述故障等级信息为根据故障对系统或子系统影响程度的不同而划分的等级。

7.根据权利要求1所述的基于数据挖掘的装备可靠性评估方法，其特征在于：所述故障单元信息为发生故障电子装备中一组或自成系统的独立单位，指电子装备中的分机、子系统或者独立工作的元器件。

8.根据权利要求1所述的基于数据挖掘的装备可靠性评估方法，其特征在于：所述步骤1中的权重因子为t＝1/log₂m，m为分类矩阵中其它属性的取值个数；所述步骤1中的预设的阈值使用每个属性所有取值个数乘以5％确定。