CN110866331A

CN110866331A - 一种电力变压器家族质量缺陷的评估方法

Info

Publication number: CN110866331A
Application number: CN201911033539.6A
Authority: CN
Inventors: 高树国; 夏彦卫; 李刚; 刘云鹏; 孟亚云; 许自强; 臧谦; 赵军; 刘宏亮
Original assignee: Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd; North China Electric Power University
Current assignee: Electric Power Research Institute of State Grid Hebei Electric Power Co Ltd; North China Electric Power University
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2020-03-06
Anticipated expiration: 2039-10-28
Also published as: CN110866331B

Abstract

一种电力变压器家族质量缺陷的评估方法，所述方法包括以下步骤：a.搜集变压器事务数据；b.采用Apriori算法生成频繁项目；c.得到候选K项集C_(K)各项的支持度sup；d.得到频繁K项集L_(K)；e.若频繁K项集L_(K)为空，则执行第f步，否则返回到第c步；f.若扫描完所有块，则执行第i步，否则返回到第c步；i.将频繁项集合并；j.产生一条强关联规则；k.汇总所有强关联规则。本发明通过引入适应度函数对关联规则算法进行优化，解决了传统关联规则的置信度很高但是支持度却很低的问题；通过分块放置数组的方式提高关联规则算法的时间效率；同现有方法相比，本发明能够更加准确、高效地挖掘电力变压器家族质量缺陷信息。

Description

一种电力变压器家族质量缺陷的评估方法

技术领域

本发明涉及一种电力变压器家族质量缺陷的评估方法，属于电力变压器技术领域。

背景技术

随着电力大数据时代的到来，数据挖掘技术不断从不完整、有噪声、模糊且随机的大量数据中发现潜在规律、寻求有用知识的发展中拓展。从大量数据中发掘其潜在的有价值的信息，成为数据挖掘与电力科学深度融合的目标；从事物背后发掘各个指标之间的关联程度，并对其进行可靠评估成为两者相结合的重要逻辑。关联规则分析就是其中一种通过求解概率找到事务数据库中隐藏关联关系的数据挖掘方法。

电力变压器是建立电力系统和联络广大电力用户不可缺少的关键电气设备，应用最广泛的是油浸式变压器，一般由铁芯、线圈、引线、油箱及外围附件等组成，结构较为复杂，电力变压器设备的可靠运行对电力系统有着至关重要的影响。但由于设计方式、工艺控制、原材料选取等方面的因素，致使变压器出厂投运之后，其故障模式(或故障类型)在很大程度上表现出一定的家族性特征。《国家电网报》曾于2009年首次命名“家族性设备缺陷”这一概念，并对扬州供电局发现的缺陷做出总结与展望，表明家族性设备缺陷的发现对电力变压器的健康运行有着重要的影响。家族性质量缺陷是指经确认由设计、材质、制作工艺等共性因素导致的设备缺陷，如出现此类缺陷，则具有同一设计、材质、制作工艺的其他设备，在隐患未被消除之前，无论当前能否检测出缺陷，都判定为有家族性质量缺陷。若能及时发现家族性设备当前所包含的隐患，发现设备缺陷与故障之间的关联关系，那么，对于发现电力变压器的薄弱环节及其故障原因具有重要意义，并对业务部门及时采取预防和反事故措施有重要帮助。

研究表明，电力变压器故障数据中隐含着家族质量缺陷信息，已有不少基于数据挖掘方法的研究取得了一定的成效。例如，有的学者引入改进的层次聚类方法，通过网络通信的MMS 数据反映家族性缺陷对设备健康状态的影响，评估分数越高表明其影响越小；一些学者提出用同家族变压器状态变化曲线的斜率距离作为判据，同时采用曲线间点数值距离和斜率距离构成数据矩阵并采用凝聚层次聚类算法更准确地评估家族性缺陷史对变压器的状态影响。

关联规则分析，作为一种重要的数据挖掘方法，也在该问题上有较多的研究和应用，而且，其效果普遍好于上述基于聚类分析的方法。例如，有的学者采用基于关联规则的马尔科夫预测模型，挖掘状态参量与状态之间的关联规则构建状态转移矩阵，最终对变压器故障的发展趋势进行更准确的预测。有的学者通过灰色关联模型对变压器关键性指标做了不同改进措施下的状态评估和负荷曲线之间的关联程度分析，并验证了指标体系对变压器健康状态评估的准确性。一般来讲，在电力系统中单独使用关联规则解决实际问题的案例较少，需要综合多种特征值来辅助进行。例如，有的学者借助Apriori关联算法评估各个特征量与故障关系的可靠程度，提高了故障诊断的准确程度，表明关联规则可以用于变压器故障诊断类型的细致划分；有的学者采用矩阵块的形式对电力变压器数据进行关联程度分析，结果证明该算法可以发掘条件和决策属性之间的关联关系，并在时间效率上有所提高，适用于变压器缺陷关联分析。

目前，用于关联规则挖掘的算法主要有Apriori算法、基于划分的算法和FP-树频集算法，但最具影响力的还是Apriori算法，同时该算法更适用于电力变压器家族质量缺陷的挖掘发现。总结上述文献而言，直接用Apriori算法发掘电气设备缺陷的薄弱环节及其原因还存在一定的不足，即在电气设备家族性缺陷数据中，仅仅采用Apriori算法发现关联关系，其关联规则可能存在如下问题：

(1)关联规则的置信度很高但是支持度却很低，表明这条规则使用很少、不重要或者说是无效的关联规则；

(2)Apriori算法在挖掘关联规则时，由于每次都要重新扫描数据并产生候选项集，因此存在一定的时间效率问题。

发明内容

本发明的目的在于针对现有技术之弊端，提供一种电力变压器家族质量缺陷的评估方法，以准确、高效地挖掘电力变压器家族质量缺陷信息。

本发明所述问题是以下述技术方案解决的：

一种电力变压器家族质量缺陷的评估方法，所述方法包括以下步骤：

a.搜集变压器事务数据，并对数据进行预处理；

b.将预处理后的数据按照生产厂家进行分区，数据库中的事务根据不同区域的缺陷分为几个不相交的块，每次只考虑一个块，采用Apriori算法为其生成所有频繁项目；

c.扫描第n个块，得到候选K项集C_(K)各项的支持度sup；

d.根据sup＞min_sup条件，min_sup为最小支持度，由候选K项集C_(K)得到频繁K项集 L_(K)，并根据以下两条性质剪枝：如果一个集合是频繁项集，则它的所有子集都是频繁项集；如果一个集合不是频繁项集，则它的所有超集都不是频繁项集；所有的属性值均采用统一的标识，然后进行数据库扫描，后续将与做关联分析有关的数据全部保存到已定义的二维数组中，在频繁项集生成的过程中只扫描二维数组，不需要扫描数据库；

e.若上一步得到的频繁K项集L_(K)为空，则执行第f步，否则频繁K项集L_(K)组合形成候选(K+1)项集C_(K+1)，同时令K＝K+1，返回到第c步继续执行；

f.用N表示总块数，若扫描完所有块，即n＝N，则执行第i步，否则令n＝n+1，返回到第 c步继续执行；

g.将由N个事务块分别产生的N个频繁项集合并；

h.获取频繁项集中的非空子集M，若满足Support(L)/Support(M)＞＝Conf_min，则产生一条强关联规则，其中，Support()表示某项集的支持度，Conf_min表示最小置信度阈值，；

i.汇总第h步生成的所有强关联规则。

上述电力变压器家族质量缺陷的评估方法，采用Apriori算法生成数据的频繁项目时，对文本型数据采用关联规则的支持度定义适应度函数：

式中，R_i表示关联规则，当文本型数据关联规则的适应度函数值fit(R_i)大于1时，则R_i为满足要求的关联规则，否则该规则将会被删除；

对数值型数据采用分类的关联规则方法定义适应度函数：

acc＝c_on×c_om

式中，c_on表示规则的置信度，c_om表示规则的覆盖程度，acc表示数值型数据关联规则的适应度函数。

上述电力变压器家族质量缺陷的评估方法，所述数据进行预处理的方法如下：

a.数据离散化

①文本数据标准化：文本型的数据全部用设计完整的变量来表示；

②按照范围标准化：根据数值范围划定数据的级别分类，将数据按照正常与否范围标准化；

③数值离散化：采用ChiMerge算法将故障类型进行量化。

b.缺陷对应故障特征量

通过客观办法找到变压器数据对应的缺陷表现，将对应的故障类型量化。

上述电力变压器家族质量缺陷的评估方法，所述候选K项集的产生方法为：K-1项集连接自身产生K项集，执行连接K-1项集的前提是前K-2项集完全不相同，若有相同的项，则在该步骤中将这些相同的项删除。

上述电力变压器家族质量缺陷的评估方法，所述变压器事务数据包含文本型数据和连续监测数据；所述文本型数据包括生产厂家、设备类型、电压等级、缺陷设备、缺陷部件、部件种类、部件材料、结构设计；所述连续监测数据包括氢气含量、甲烷含量、乙烷含量、乙烯含量、乙炔含量、总烃含量、一氧化碳含量、二氧化碳含量。

本发明通过引入适应度函数对关联规则算法进行优化，解决了传统关联规则的置信度很高但是支持度却很低的问题；通过分块放置数组的方式提高关联规则算法的时间效率；同现有方法相比，本发明能够更加准确、高效地挖掘电力变压器家族质量缺陷信息。

附图说明

下面结合附图对本发明作进一步详述。

图1是本发明基于Apriori算法改进部分的具体流程图；

图2是经典Apriori算法流程图；

图3是本专利所述优化Apriori算法流程图；

图4是算法时间效率对比图。

文中所用符号为：C_(K)为候选K项集，L_(K)为频繁K项集，sup为支持度，min_sup为最小支持度，Support()表示某项集的支持度，Conf_min表示最小置信度阈值，fit(R_i)为文本型数据关联规则的适应度函数，c_on表示规则的置信度，c_om表示规则的覆盖程度，acc表示数值型数据关联规则的适应度函数。

具体实施方式

本发明是针对电力变压器家族质量缺陷评估问题，其改进之处有两点：其一，根据采集数据的不同特点，通过引入不同适应度函数对经典Apriori关联算法进行优化；其二，通过对数据分类分块放置的方式提升算法的时间效率。

数据预处理

由于本评估方法涉及到变压器家族性缺陷的相关数据，包含多种数据类型，数值型及在线监测到的连续数据，要找到缺陷之间的关联性及导致故障原因辨析，要对多样化的数据进行处理。其中包含连续监测数据以及文本型数据。

(1)数据离散化

A.文本数据标准化

在家族性缺陷数据中包含很多的文本型的数据，如生产厂家、设备类型、部件、原材料、缺陷设备以及电压等级等内容。这些在做关联规则时会带来很多不便，如读取问题、时间效率问题以及准确性问题。为解决文本类型数据操作不便、无法直接进行计算等问题，因此，引入相应的变量来表示相应的物理含义字段。对于该类问题完全可以用相应的变量类别代替。具体涉及到的部分具体指标如下表1所示。

表1 变压器家族性缺陷指标

这些变量分别代表了其涉及到的种类，如数据中包含5个厂家生产的10种设备类型，电压等级包含交流110kV及以上的，缺陷部件包括套管、分接开关、本体等，部件种类如“分接开关”部件包含有载分接开关和无载分接开关两种。以上所述的指标类别为文本类型的均用相对应的变量来表示。

B.按照范围标准化

在反映变压器的缺陷数据中，包含很多数据，该类数据根据范围划定数据的级别分类，如局放量，根据《GB/T_7354-2003局部放电测量标准》，局放量在小于等于10pC时属于正常范围，当超出时，判断为异常。在此范围内映射数据正常范围为0，异常范围则为1。如此将这些数据按照一些参照标准按照正常与否范围标准化。

C.数值离散化

本文数据的数值离散化采用ChiMerge算法。ChiMerge离散化方法思想源于卡方检验，是一种自底向上的算法。采用递归的方法，找出最佳临近区间合并在一起，直到找到满足停止的条件合并成最大区间。

表2 需要离散化的数值指标

ChiMerge的基本思想：对于准确的离散化，相对类频率在一个区间内应当完全一致。因此，如果两个相邻的间隔具有非常类似的类分布，则这两个区间可以合并；否则，它们本应保持分开。而低卡方值则标志着它们具有相似的类分布。现有家族缺陷表现数据如表2所示。

按照ChiMerge算法，连续数据离散化后得到如下表3所示指标对应量。

表3 离散化后对应指标量

对应变量采用ChiMerge算法后可得出其映射结果。

(2)缺陷对应故障特征量

在获得的变压器数据中，通过客观方法找到缺陷表现，是为了防止变压器故障。对应的变压器缺陷可能会引起相应的故障，如此将对应的故障类型量化。具体的故障类型如下表4 所示。

表4 故障类型表

这些特征量都是布尔类型，0和1表示是否发生绕组故障，发生了即为1，没有发生即为0。

改进一：

在算法改进之前，我们首先需要考虑一下缺陷数据的特点，即与电力设备质量缺陷相关的数据可以分为两类：文本型数据和数值型数据，那么就需要针对不同的数据特点引入不同的适应度函数来改进Apriori算法。针对“生产厂家”等这类文本数据可以采用前者适应度函数，即采用关联规则的支持度定义适应度函数；针对“油中溶解气体”这类数值型数据，可以将数据标准化之后采用后者适应度函数，即采用分类的关联规则方法定义适应度函数，然后求得条件与决策属性间的关联规则。

(1)采用关联规则的支持度定义适应度函数

该适应度函数主要是针对家族性缺陷中的文本等数据类型设计的。在Apriori可得支持度sup、最小支持度min_sup，在满足min_sup的关联规则中定义适应度函数，用以确定它的关联程度和关联性。具体函数如下式所示。

式中，R_i表示关联规则。当适应度函数值大于1时，则R_i为满足要求的关联规则，否则该规则将会被删除。

(2)采用分类的关联规则方法定义适应度函数

该适应度函数主要针对离散型数据，解决条件属性与类别属性的关系。首先离散型数据需要标准化，然后将标准化后的数据存入创建的矩阵中，再引入适于该类型数据的适应度函数。关系模式用R_j表示，以条件属性c_k与类别属性t_m为例具体说明，如表5所示。

表5 条件属性与类别属性关系表

表5中，若c_k发生导致t_m发生的概率为y_y，其余3项分别代表c_k发生未导致t_m和c_k未发生事件的概率分别为y_n，n_y，n_n。式中，c_on表示规则的置信度，c_om表示规则的覆盖程度，acc表示数值型数据关联规则的适应度函数。在此基础上导出适应度函数，如下式所示。

c_on＝y_y/y_y+y_n

c_om＝y_y/y_y+n_y

acc＝c_on×c_om

在此函数中，acc值越高说明该条规则的准确度越高。

改进二：

基于经典Apriori算法的电力变压器家族质量缺陷评估过程中，算法对数据库扫描过程次数较多。因此，随着数据量的增加，评估时间将变得不可接受。此处，通过对数据分类分块放置的方式改进算法对数据库的扫描方式，减少遍历全部数据的次数，进而提升算法的时间效率。

(1)按照数据的不同内容先划分成2个块。即分为文本块和数值块。每次只考虑1个块，并为其生成所有频繁项目。然后，对所生成的频繁项集进行非破坏性组合，以便创建所有可能的频繁项集。

(2)基于数组频繁项集挖掘算法，所有的属性值均采用统一的标识，然后进行数据库扫描，与做关联分析有关的数据全部保存到已定义的二维数组中。在频繁项集生成的过程中只扫描二维数组，不需要扫描数据库，如此避免了重复扫描数据库的时间。

本发明所提方法的具体步骤如下：

(1)按照生产厂家划分成若干个区，数据库中的事务根据不同区域的缺陷分为几个不相交的块，每次只考虑一个块，为其生成所有频繁项目。

(2)扫描第n(初值为1)个块，得到候选K(初值为1)项集C_(K)各项的支持度sup。候选K项集的产生方法：K-1项集连接自身产生K项集，执行连接K-1项集的前提是前K-2项集完全不相同，若有相同的项，则在该步骤中将这些相同的项删除。

(3)根据sup＞min_sup条件，由候选K项集C_(K)得到频繁K项集L_(K)，并根据以下两条性质剪枝。如果一个集合是频繁项集，则它的所有子集都是频繁项集；如果一个集合不是频繁项集，则它的所有超集都不是频繁项集。所有的属性值均采用统一的标识，然后进行数据库扫描，后续将与做关联分析有关的数据全部保存到已定义的二维数组中，在频繁项集生成的过程中只扫描二维数组，不需要扫描数据库，如此避免了重复扫描数据库的时间。

(4)若上一步得到的频繁K项集L_(K)为空，则执行第(5)步，否则频繁K项集L_(K)组合形成候选(K+1)项集C_(K+1)，同时令K＝K+1，返回到第(2)步继续执行。

(5)N是总块数，若扫描完所有块(n＝N)，则执行第(6)步，否则令n＝n+1，返回到第(2) 步继续执行。

(6)将由N个事务块分别产生的N个频繁项集合并。

(7)获取频繁项集中的非空子集M，若满足Support(L)/Support(M)＞＝Conf_min，则产生一条强关联规则。

(8)汇总第(7)步生成的所有强关联规则。

综上而言，将家族性质量缺陷的数据，按照生产厂家划分为多个块，将每个块存储到定义的数组中；在扫描之前对数据做统一标识，扫描过程中对数据进行判断，即事务数据库中已包含的项集用“1”表示，未包含的用“0”表示，并对扫描过的数据进行计数，计算其支持度，并与最小支持度min_sup比较，将小于min_sup的项集删除，只保留大于支持度min_sup 的项集，那么所存储的即为频繁项集，其改进部分的具体流程如附图1所示。经典Apriori 算法流程如附图2所示，本专利所述改进后的算法流程如附图3所示。

本方法与现有方法的比较：

电力变压器家族性缺陷对其运行的健康状态影响至关重要，及时发现家族性缺陷的原因并挖掘家族性缺陷与电力变压器故障之间的关联性也是电力变压器健康状态评估中的重要环节之一。本发明能够更准确的分析家族性缺陷的潜在原因以及缺陷与设备故障之间的关联关系，可为电力变压器相关生产、运营部门提供技术支撑与客观依据。从实例分析结果发现，本发明所述方法在一定程度上可以优化关联规则算法，对于发现缺陷与故障之间的相关性关系提供了技术支撑。另外，所述算法还可以发现设备的薄弱环节及其原因，与传统算法相比在准确度与效率上有较好优势。

1)Apriori算法

在算法未改进之前，只是将15个变量与对应故障放在关联模型里面，求解变量与故障类型的关联关系，其结果如表6所示。可以看出，最明显的无效关联规则是“套管与套管故障”的关联规则，且采用已有的Apriori算法求解出来的关联规则置信度普遍偏高，但支持度并不太高，如此就印证了前文所述问题，即需要对算法采用适应度函数优化。

表6 Apriori算法模型所得部分强关联规则

2)算法改进后

首先按照前文对缺陷相关数据的分类处理，获得整合的无破损频繁项集，并将数据按照二维数组形式设置条件变量与故障变量，所得关联规则情况如表7所示。与表6对比来看，表7从关联规则结果上，很明显的避免了“套管与套管故障”类似关联规则的出现，并且该关联规则结果不会出现支持度低而置信度高的情况。

表7 改进Apriori算法求解关联规则情况

3)时间效率对比

通过计算结果的对比可以发现，基于数组Apriori算法的效率要优于传统Apriori算法，由于基于数组Apriori算法扫描事务数据库的次数减少，减少了I/O的次数，所以时间效率有所提高。2种不同Apriori算法的效率对比分析如图4所示。

在实验结果中表现较为明显的是渗油故障、套管设计、原材料问题、局部放电及绕组故障等内容。其中突出为家族性缺陷的为“原材料问题”及“套管工艺设计”，具体表现如表1 所示。其中结合表1与关联规则7可得，厂家tb在绝缘介质原材料选取上，表现家族性缺陷特征较为明显。同理可以从图中看出厂家bd出现渗油故障明显，厂家xa表现部件套管设计工艺问题较为突出。除此之外，本发明所述关联规则可对现实中的工程领域具有如下指导意义：

1)根据规则1可推断，厂家bd生产的110kV变压器发生渗油故障，该故障在规则4中显示与油封玻璃原材料相关，且这一相关性的置信度可达68％。在生产中，可能会因为材料的原因导致变压器故障，而该类问题可能不仅出现在该变压器上，同批次的变压器也可能存在该风险，生产厂家bd应当适时解决该材料问题。

2)根据关联规则10可推断，在乙炔含量与传感器2显示的局部放电与绝缘介质故障有很强的关联性，且根据规则5分析可知绝缘介质导致局部放电的可信度高达98％。该规则通过置信度反应强关联性，在一定程度上可发现电力变压器家族性缺陷。

3)根据关联规则2和3可推断，在厂家xa生产的套管，由于工艺设计缺陷，导致套管故障的可能性很高。该问题是套管本身某个小部件的工艺控制缺陷，通过关联规则可发现其生产过程中可能存在的问题，适时补救，采取反事故措施。

4)根据关联规则11可推断，超期服役对绕组变形可能有较大的影响。当部件超期服役时，需及时更换绕组部件。针对设备家族性缺陷，在生产过程中注意在结构设计、原材料选取以及工艺控制方面严加防守。从源头进行控制，加强设计、生产、储运、投运等各环节的保护措施，延长各个部件的使用寿命

5)根据关联规则12、13可推断，厂家sd生产的变压器本体某部件，有管道锈蚀的现象，且该管道锈蚀现象主要体现在变压器本体上。针对该问题，厂家sd需从本体上的小部件入手，检查是否该管道材料与其他管道材质有出入，需要对与该变压器同批次生产的电力变压器进行详细检查，做好反事故措施。

本发明涉及的科技术语简介

关联规则简介：关联规则是分析属性与指标值之间的相关性，即用有效的方式在数据中寻找两者一起出现的具有关联性条件。数据挖掘则是抽取隐藏在数据中的这些有效信息的过程，而关联规则就是一种重要的数据挖掘方法，对于发现隐藏在数据集中的联系，这些联系可以用规则或频繁项集等形式表示。在关联规则中两个重要的量是支持度和置信度。支持度是很重要的度量，支持度低的事件可能是偶然事件。对于电力变压器的家族性质量缺陷来说，多半也是无意义的，因为该事件发生的概率较小可能并非是家族性质量缺陷。置信度则是通过规则进行推理，具有一定的可靠性，置信度高则表明该事件发生的可能性较高。

关联规则算法

a.关联规则定义

关联规则是分析属性与指标值之间的相关性，即用有效的方式在数据中寻找两者一起出现的具有关联性条件。数据挖掘则是抽取隐藏在数据中的这些有效信息的过程，而关联规则就是一种重要的数据挖掘方法，对于发现隐藏在数据集中的联系，这些联系可以用规则或频繁项集等形式表示。例如，令项集I＝{i₁,i₂,...,i_k}，项集I取自于数据库样本D，D中的每条记录T都是I的子集，k表示项集的长度。关联规则是两个不相交的非空集合X、Y，如果有X –>Y，就说X–>Y是一条关联规则，X和Y都是I的子集。

关联规则的强度是用“支持度”和“置信度”来度量的，其中支持度用下式表示。

sup＝P(X∪Y)

置信度表示通过规则推理具有的可靠性，置信度用下式表示。

con＝P(X∪Y)/P(X)

若项集满足最小支持度min_sup条件，则为频繁项集L_k，若同时满足最小支持度min_sup 条件和最小置信度min_con条件，则该规则是强关联规则。支持度和置信度是用来量化关联分析是否成功的方法，即支持度和置信度越高，说明关联规则越强，关联规则挖掘就是挖掘出满足一定强度的规则。

b.Apriori算法

目前Apriori算法是最经典的关联规则算法之一，该算法主要用于挖掘布尔型数据的关联关系，也是寻找频繁项集最基本的方法之一。

Apriori算法是一种逐层搜索迭代的方法，它使用k-频繁项集搜索第(k+1)项候选集，候选集用C_k表示。首先，找到1-频繁项集，并用L₁搜索候选集C₂，利用候选集C₂得到频繁项集L₂，依次迭代直到找到k阶频繁项集。值得提出的是，在搜索过程中，每次得到L_k都需要扫描一次数据库。

使用Apriori算法进行关联规则挖掘可以分为2部分：寻找频繁项集和发现关联规则。此外，涉及到该算法的2条性质：

1).如果一个集合是频繁项集，则它的所有子集都是频繁项集；

2).如果一个集合不是频繁项集，则它的所有超集都不是频繁项集。

Apriori算法的主要步骤：

1).通过算法的第1次迭代，对事务数据进行扫描，计算每个项目出现的频率，生成1- 候选集C₁，初始化k＝1，令k＝k+1；

2).使用迭代发现的频繁(k-1)-项集，产生新的候选k-项集；

3).算法每次扫描数据集都需要计算候选项的支持度，确定候选k-项集C_k。删除支持度小于最小支持度的所有候选项集；

4).当没有新的频繁项集产生时，算法结束。最终由频繁项集产生关联规则。

专业术语解释

关联规则：用有效的方式在数据中寻找两者一起出现的具有关联性条件；

频繁项集：满足最小支持度阈值的所有项集；

强规则：从频繁项集中发现高置信度的规则，即满足最小支持度和最低置信度阈值的规则成为强规则；

适应度函数：引用遗传算法中的适应度函数。在遗传算法中该函数是用来对种群中个体的适应性进行度量的。在本发明中采用该函数解决规则支持度低而置信度高的问题。

家族性质量缺陷：家族性质量缺陷是指经确认由设计、材质、制作工艺等共性因素导致的设备缺陷，如出现此类缺陷，则具有同一设计、材质、制作工艺的其他设备，在隐患未被消除之前，无论当前能否检测出缺陷，都判定为有家族性质量缺陷。“家族”的概念不等价于 “同厂同批次”，例如，同一设计可能在多个厂家生产，若设计存在缺陷，那么这些设备都属于有家族性缺陷设备。以油浸纸绝缘套管为例，如果不同品牌的变压器或其他设备共同使用的绝缘纸或油存在缺陷，那么尽管不属于同一类设备，但都属于具有家族性质量缺陷的设备。同时，如果同一批设备中，某缺陷的发生率明显高于预期，也将判定为有家族性质量缺陷设备，但必须明确的是，偶然的质量瑕疵，不属于材质瑕疵。除此之外，制作工艺缺陷则涉及到技术纰漏，其影响涉及到制作工艺的所有设备。

Claims

1.一种电力变压器家族质量缺陷的评估方法，其特征是，所述方法包括以下步骤：

a.搜集变压器事务数据，并对数据进行预处理；

c.扫描第n个块，得到候选K项集C_(K)各项的支持度sup；

d.根据sup＞min-sup条件，min_sup为最小支持度，由候选K项集C_(K)得到频繁K项集L_(K)，并根据以下两条性质剪枝：如果一个集合是频繁项集，则它的所有子集都是频繁项集；如果一个集合不是频繁项集，则它的所有超集都不是频繁项集，所有的属性值均采用统一的标识，然后进行数据库扫描，后续将与做关联分析有关的数据全部保存到已定义的二维数组中，在频繁项集生成的过程中只扫描二维数组，不需要扫描数据库；

f.用N表示总块数，若扫描完所有块，即n＝N，则执行第g步，否则令n＝n+1，返回到第c步继续执行；

g.将由N个事务块分别产生的N个频繁项集合并；

h.获取频繁项集中的非空子集M，若满足Support(L)/Support(M)＞＝Conf_min，Support()表示某项集的支持度，Conf_min表示最小置信度阈值，则产生一条强关联规则；

i.汇总第h步生成的所有强关联规则。

2.根据权利要求1所述的电力变压器家族质量缺陷的评估方法，其特征是，采用Apriori算法生成数据的频繁项目时，对文本型数据采用关联规则的支持度定义适应度函数：

对数值型数据采用分类的关联规则方法定义适应度函数：

acc＝c_on×c_om

3.根据权利要求2所述的电力变压器家族质量缺陷的评估方法，其特征是，所述数据进行预处理的方法如下：

a.数据离散化

③数值离散化：采用ChiMerge算法将故障类型进行量化；

b.缺陷对应故障特征量

4.根据权利要求3所述的电力变压器家族质量缺陷的评估方法，其特征是，所述候选K项集的产生方法为：K-1项集连接自身产生K项集，执行连接K-1项集的前提是前K-2项集完全不相同，若有相同的项，则在该步骤中将这些相同的项删除。

5.根据权利要求4所述的电力变压器家族质量缺陷的评估方法，其特征是，所述变压器事务数据包含文本型数据和连续监测数据；所述文本型数据包括生产厂家、设备类型、电压等级、缺陷设备、缺陷部件、部件种类、部件材料、结构设计；所述连续监测数据包括氢气含量、甲烷含量、乙烷含量、乙烯含量、乙炔含量、总烃含量、一氧化碳含量、二氧化碳含量。