CN110442609A

CN110442609A - 一种智能变电站二次设备关联缺陷的识别方法

Info

Publication number: CN110442609A
Application number: CN201910709586.1A
Authority: CN
Inventors: 陈勇; 戴志辉; 李胜男; 鲁浩; 卢佳; 李俊鹏
Original assignee: Electric Power Research Institute of Yunnan Power System Ltd
Current assignee: Electric Power Research Institute of Yunnan Power System Ltd
Priority date: 2019-08-02
Filing date: 2019-08-02
Publication date: 2019-11-12
Anticipated expiration: 2039-08-02
Also published as: CN110442609B

Abstract

本发明涉及智能变电站技术领域，公开了一种智能变电站二次设备关联缺陷的识别方法，本方法采用指定的项目构建数据库，然后扫描数据库，给相应的项目属性信息添加上项目识别码，形成频繁1项集L₁和缺陷记律编号集合M₁，指定项集的最小长度K值，连接候选K项集C_K和缺陷记录编号集合M_K，然后计算候选集的支持度和置信度，再将不符合最小支持度S_min和最小置信度C_min要求的候选集元素和对应缺陷记录编号集合删除，并生成频繁K项集和对应缺陷记录编号集合M_K，最后判断L_K是否为空来确定是否结束算法。本发明通过制定项目识别机制能够删除无效候选集，节约内存，减少不必要的频繁项集筛选过程，降低算法的时间复杂度和空间复杂度。

Description

一种智能变电站二次设备关联缺陷的识别方法

技术领域

本发明涉及智能变电站技术领域，尤其涉及一种智能变电站二次设备关联缺陷的识别方法。

背景技术

目前，随着经济的发展，通信技术与变电站的联系越来越紧密。智能变电站的出现使得二次设备种类多样化、结构复杂化，导致检修工作量的急剧增加和检修人员不足之间的矛盾日益严重。IEC61850主动上送报告服务的应用和光纤通讯的发展为变电站缺陷数据的传输提供了很好的基础，为缺陷数据的汇总和综合利用提供了支撑，使缺陷数据关联性分析的实现成为可能。另一方面，随着智能变电站各类二次设备的投入运行，相关缺陷数据记录不断积累，将数据挖掘技术引入数据管理系统势在必行。数据挖掘(DataMining，DM)又称为数据库知识发现(Knowledge discovery in databases，KDD)，是一种采用人工智能方式对大量的、随机的、模糊的、不完全的、有噪声的数据进行分析，从而获取有用的信息和知识的方法与技术。数据挖掘提取的知识通常可表示为概念、规则、规律、模式等形式，可以被用于信息管理、查询优化、决策支持和过程控制以及数据自身的维护。目前的数据挖掘技术已被广泛用于解决电力行业中存在的一些问题。例如，使用Apriori算法挖掘变压器状态参量与状态之间的关联规则以及各状态之间的关联规则，根据关联规则建立基于云–Petri网的变压器状态分析模型。有的研究通过数据挖掘技术将变压器状态量分成了单项状态量和综合状态量两类，分别计算单项状态量在故障类型中的常权重系数以及综合状态量的变权重系数，建立了一个较为客观、准确的变压器状态评估体系。

然而，目前关于变电站二次设备缺陷数据的处理还基本停留在对缺陷数据进行简单统计和面向对象的图表呈现阶段，在关联性分析方面的研究并不多见，无法充分挖掘缺陷数据的关联性。有的研究只能寻找二次设备薄弱环节和缺陷原因。另外，在建立候选集时没有根据缺陷模型特性对候选集进行筛选，整体算法的时间复杂度和内存占用量都较高，有的研究也提出了一些改进方案，但在产生初始关联规则时依旧需要消耗较多的时间，或者无法识别两个分区数据之间的关联性，还可能导致部分关联规则的缺失，所以开发出一种可靠的二次设备缺陷数据的识别方法显得尤为重要。

发明内容

有鉴于此，本发明的目的是提供一种智能变电站二次设备缺陷数据模型，其次，根据智能变电站缺陷数据模型特点提出了二次设备缺陷的关联性识别方法，在不扫描原数据库的情况下也能获得相同的支持度与置信度，降低了传统算法的时间复杂度，提高了算法速率；另外，随着数据库记录的增多，本发明节约时间的效果会随着数据库记录的增多而提升。

本发明通过以下技术手段解决上述技术问题：

本发明的一种智能变电站二次设备关联缺陷的识别方法，关联规则所涉及的一个事务被称为一个项目(Items)，由不同的项目构成的集合称为项集I(Itemset),其元素个数称为项集的长度，长度为K的项集称为K项集。支持度大于或等于阈值的所有K项集的集合就称之为K频繁项集，记为L_K，L_K中每一个K项集称之为K频繁项集的一个元素，数据库记为D，数据库D中的第i条记录记为T_i。

进一步，建立关联规则的二次设备缺陷数据库模型。二次设备的运维人员在日常工作中会对所发现和处理的缺陷进行记录和归档，方便日后查看、统计和分析。因此变电站缺陷管理系统中存储着大量的二次设备历史缺陷数据，给变电站二次设备关联性分析提供了数据基础。研究发现目前大部分的缺陷记录都包含多个属性的信息，而这些信息基本可以分为四类，如表1所示。

表1 信息分类

进一步，本发明基于生产厂家、设备类型、发现方式、缺陷部位和缺陷原因这五个属性构建数据库，部分缺陷数据库记录如表2所示。

表2 部分缺陷数据库记录表

生产厂家	设备类型	发现方式	缺陷部位	缺陷原因
					EXX公司	F线路保护	B监控信号	G二次回路及辅助设备	H调试质量不良
EXX公司	F母线保护	B检修过程	G保护装置本体	H制造质量不良
					EXX公司	F故障录波器	B专业巡视	G通道传输设备	H制造质量不良

进一步，第一次扫描数据库，从数据库D中抽取所有的项目，并一一记录包含该项目的缺陷记录编号。

进一步，制定项目识别码，生成1频繁项集L₁和包含该频繁项集的缺陷记录编号集合M₁，如表2所示，对于属于设备类型的“线路保护”、“母线保护”、“故障录波器”加上识别码F变为“F线路保护”、“F母线保护”、“F故障录波器”，就能识别这三种项目均属于设备类型属性，形成1频繁项集L₁，L₁为每个元素都对应一个缺陷记录编号的集合。项目识别码机制能够删除包含同属性多个项目的候选集元素，减少候选集元素数量这一作用将在下一步“连接”环节体现出来。

进一步，当K-1频繁项集L_K-1的两个元素L_K-1,1＝{I₁,I₂......I_K-2,I_K-1}和L_K-1,2＝{I₁,I₂......I_K-2,I_K}(I_K-1≠I_K)只有一项不同时，L_K-1,1和L_k-1,2能够连接形成K候选集的一个元素C_k,₁＝{I₁,I₂......I_K-2,I_K-1,I_K}，同时形成C_k,1的缺陷记录编号集合M_k,1＝{I₁,I₂......I_K-2,I_K-1,I_K}；由于传统算法是不分属性地随机将频繁项集的元素“连接”起来产生候选集元素，经常会出现一个候选集元素中包含同属性的多个项目。例如，{厂家1，监控信号，二次回路及辅助设备}与{厂家2，监控信号，二次回路及辅助设备}这两个频繁项集“连接”产生候选集{厂家1，厂家2，监控信号，二次回路及辅助设备}，这个候选集元素中含有两个厂家项目，而一台设备一般只有一个厂家，因此该候选集是无效的；

但本发明在算法开始已经对数据添加了项目识别码，原候选集就会变成{E厂家1，E厂家2，B监控信号，G二次回路及辅助设备}的形式。利用识别码对生成的候选集进行检查，很容易就识别出候选集元素包含了E厂家1，E厂家2这两个同属性项目，从而删除该无效候选集。可见项目识别码机制能够删除无效候选集，节约内存，减少不必要的频繁项集筛选过程，降低算法的时间复杂度和空间复杂度。

该环节在“连接”形成候选集元素的同时还会产生包含该候选集元素的缺陷记录编号集合MK’。例如，包含L_K-1,1＝{I₁,I₂......IK_-2,I_K-1}的数据库缺陷记录编号集合为M_K-1,1，包含L_K-1,2＝{I₁,I₂......I_K-2,I_K}的数据库缺陷记录编号为M_K-1,2，当L_K-1,1和L_K-1,2连接形成K候选集的一个元素C_k,1＝{I₁,I₂......I_K-2,I_K-1,I_K}的时候，也会产生包含C_k,1的缺陷记录编号集合M_K,₁＝M1∩M2。这些缺陷记录编号集合能够运用在后面的支持度和置信度的计算过程,极大减少了算法扫描数据库的次数，缩减了算法的时间复杂度。

进一步，计算频繁项集之间的支持度和置信度；

假设频繁项集I同时包含项目集A和项目集定义为关联规则M，则A为关联规则M的条件，B为关联规则M的结论。

传统算法的关联规则M的支持度如下式(1)；

传统算法的关联规则M的置信度C可如下式(2)；

式中：count(A)表示在数据库D中包含项目集A的记录条数；count(B)表示在数据库D中包含项目集B的记录条数；count(A∪B)为在数据库D中同时包含A和B的记录条数；count(D)则表示数据库D记录的总数。

关联规则需满足的支持度的最小阈值称之为最小支持度，记为Smin；需要满足的置信度的最小阈值称之为最小置信度，记为Cmin。只有符合最小支持度和最小置信度要求的候选集才是需要的频繁项集。

式(1)可见，支持度表示一条记录同时包含A和B两个项目集的概率。运用式(1)计算每一条关联规则的支持度必须对整个数据库D扫描一次获得count(A∪B)，才能计算该关联规则M的支持度。式(2)可见，置信度表示包含A项目集的记录包含B项目集的概率。运用式(2)计算每一条关联规则的置信度必须先扫描整个数据库D计算出包含项目集A的记录条数，然后再扫描整个数据库D计算出包含项目集A和项目集B的记录条数。显而易见，传统算法计算每一条关联规则的支持度需要扫描一次数据库D，计算置信度需要扫描两次数据库D，算法的时间复杂度较高，效率较低。

但是本发明的步骤3已经在形成候选集元素的同时产生包含该候选集元素的缺陷记录编号集合。通过存储的缺陷记录编号集合计算由该频繁项集“连接”生成的候选集元素的支持度和置信度的计算公式如式(3)和式(4)所示。

式中：C_K,1是由L_K-1,1和L_K-1,2两个K-1频繁项集元素“连接”而成的候选集，规则为而且

运用式(3)计算某候选集的支持度不需要扫描数据库，只需要利用“连接”成该候选集之前的两个频繁项集元素对应的记录编号集合的交集元素个数作为分母即可计算得到。同理，运用式(4)计算某候选集的置信度也不需要扫描整个数据库，只需要利用候选集“连接”之前的两个频繁项集元素对应的记录编号集合就能实现。

可见利用本发明的记录编号集合能够避开扫描数据库(除了初始生成1频繁项集需要扫描数据库)，算法的时间复杂度降低，算法效率较高。

进一步，生成频繁K项集和对应缺陷记录编号集合M_K；

在步骤4中已经计算得到了候选集C_K中每个元素对应的支持度和置信度，以及其对应的缺陷记录编号集合。

最小支持度Smin是用来衡量关联规则需要满足的最低要求，而最小置信度Cmin则用来衡量关联规则需要满足的最低可靠性。

本环节将不符合最小支持度Smin和最小置信度Cmin要求的候选集元素和对应缺陷记录编号集合删除，就能得到频繁K项集L_K和对应缺陷记录编号集合M_K。

进一步，判断频繁项集L_K是否为空来确定是否结束算法。

若L_K不为空，则K＝K+1，跳转到步骤(3)。若L_K为空，则输出所有的频繁项集，产生强关联性规则。

下面以表3所示数据库作为数据源说明本发明过程。

表3

TID	项目
		1	I<sub>1</sub>,I<sub>2</sub>
2	I<sub>2</sub>
		3	I<sub>2</sub>,I<sub>3</sub>
4	I<sub>1</sub>,I<sub>2</sub>
		5	I<sub>1</sub>,I<sub>3</sub>

首先扫描表3数据库生成频繁项集L₁，并把包含该频繁项集元素的缺陷记录编号存储在“记录编号”属性中，如表4所示。

表4 缺陷计量编号集合

L<sub>1</sub>	支持度	置信度	缺陷记录编号集合
				I<sub>1</sub>	3/5	100％	1,4,5
I<sub>2</sub>	4/5	100％	1,2,3,4
				I<sub>3</sub>	2/5	100％	3,5

此时使用本发明公式(3)和公式(4)计算候选集元素{I₁,I₂}的支持度和置信度。由表4可见，候选集元素{I₁,I₂}是由L₁的元素{I₁}和{I₂}连接而成，查找{I₁}的记录编号为{1,4,5}，{I₂}的记录编号为{1,2,3,4},这两个记录编号交集为{1,4}，并集为{1,2,3,4,5}。根据式(3)、(4)计算得{I₁,I₂}的支持度为S＝2/5＝0.4，置信度为C＝2/3≈0.666。如表5所示。

表5 候选集元素{I₁,I₂}的支持度和置信度

C<sub>2</sub>	支持度	置信度	缺陷记录编号集合
				I<sub>1</sub>,I<sub>2</sub>	0.4	66.6％	1,4
I<sub>1</sub>,I<sub>3</sub>	0.2	33.3％	5
				I<sub>2</sub>,I<sub>3</sub>	0.2	25％	3

可见，本发明可在不扫描原数据库的情况下也能获得相同的支持度与置信度，降低算法的时间复杂度，提高了算法速率。另外，随着数据库记录的增多，本发明节约时间的效果会随着数据库记录的增多而提升。

本发明的有益效果：根据智能变电站缺陷数据模型特点提出了二次设备缺陷的关联性识别方法，在不扫描原数据库的情况下也能获得相同的支持度与置信度，同时在生成缺陷记录编号集合M_K用于支持度和置信度的计算，不用重复扫描数据库，大大降低了传统算法的时间复杂度，提高了算法速率。另外，随着数据库记录的增多，本发明节约时间的效果会随着数据库记录的增多而提升。

附图说明

图1是本发明的算法流程示意图。

具体实施方式

以下将结合附图和具体实施例对本发明进行详细说明：

本发明的以某市一年的264条变电站二次设备缺陷数据为例进行关联性分析。首先按照步骤一提出的智能站二次设备数据库模型抽取缺陷数据形成二次设备缺陷数据库。

本实施例中，由于智能变电站二次设备具备高可靠性，二次设备缺陷类型具备分散性。在此情况下，盲目删除部分属性缺失的记录会缩小样本，易丢失一些小样本包含的关联规则，因此本发明不删除部分属性缺失的记录，而是通过查询检修报告、能量管理系统等方法补全缺失数据。

经统计，在该缺陷数据库中，共有生产厂家24个，设备类型有“线路保护”、“主变保护”、“合并单元”、“故障录波器”等13种类型，发现方式有“监控信号”、“专业巡视”、“运行巡视”、“检修过程”4种类型，缺陷部位包括“二次回路及辅助设备”、“保护装置本体”、“通道传输设备”、“保护通道及接口设备”等7种类型，缺陷原因包括“调试质量不良”、“制造质量不良”、“设备老化”、“运行维护不良”、“其它缺陷原因分类”这5种类型。

本实施例中、本实施例期望挖掘出生产厂家、设备类型、发现方式、缺陷部位和缺陷原因这五个属性之间的关联性，因此抽取这五个属性的数据构成缺陷数据库，并在过程中加入项目识别码表明项目所属的属性。每一个频繁项集元素中不能包含同属性的多个项目，因此最大的频繁项集就是5频繁项集，二次设备缺陷数据库如表6所示。

表6 二次设备缺陷数据库

在算例的数据库中，各类缺陷所占比例较小，在264条记录中某一种缺陷可能只有三到四条记录，若设置过高的最小支持度Smin和最小置信度Cmin容易失去一部分的强关联规则。因此，设置最小支持度值Smin＝1.1％，最小置信度Cmin＝40％。首先扫描数据库获得1频繁项集，并记录下包含各个频繁项集的记录编号。

本实施例中，接着运用改进的Apriori算法以及式(3)和式(4)计算各个频繁项集元素的支持度和置信度，筛选出支持度大于Smin的所有频繁项集。最后，筛选出2频繁项集、3频繁项集、4频繁项集和5频繁项集中置信度大于Cmin的频繁项集。

本实施例中，经对该市一年的变电站二次设备缺陷数据关联性分析，一共获得2个项目的强关联规则92个，3个项目的强关联规则87个，4个项目的强关联规则31个，5个项目的强关联规则1个。由于本发明样本较少，一种缺陷情况可能出现多次，或没有类似的缺陷情况，因此置信度偏高。

部分关联规则结果如表7所示。

表7 部分关联规则结果

从表7所展示的部分强关联规则中可以得出如下结论：

(1)关联规则能够根据已知条件推测缺陷所在部位。在关联规则1中，当条件为生产厂家1、监控信号时，结论为缺陷部位在保护装置本体关联规则置信度为75％。在关联规则4中，当条件为生产厂家3、故障录波器、监控信号时，结论为缺陷部位在通道传输设备的关联规则置信度为100％。检修人员在收到缺陷报警信号之后，将如关联规则1和4这种类型的关联规则与报警设备的厂家、设备类型、发现方式等现场信息相结合，推测该设备缺陷发生的部位。置信度越高的规则推测的缺陷发生部位越准确可靠。检修人员可以优先检查由置信度高的关联规则推测的缺陷部位。

本实施例中，关联规则能够根据已知条件推测设备发生缺陷的原因。在关联规则2中，当条件为生产厂家2、监控信号、保护装置本体时，结论为制造不良的置信度为100％。在关联规则5中，当条件为生产厂家4、线路保护、监控信号、保护装置本体时，结论为制造不良的缺陷原因的置信度为46.15％。检修人员在收到缺陷报警信号之后，将如关联规则2和5这种类型的关联规则与报警设备的生产厂家、设备类型、发现方式和缺陷部位等现场信息相结合，推测缺陷原因。置信度越高的规则推测的缺陷原因也就越准确可靠。由此可见，关联规则可以推测缺陷原因，提高检修人员排查缺陷的效率，缩短修理缺陷的时间。

本实施例中，关联规则能够根据已知条件为巡检方式的制定提供支持。在关联规则3中，当条件为生产厂家1、线路保护、保护装置本体时，结论为监控信号的置信度为100％。也就是说当厂家1生产的线路保护设备在保护装置本体处存在缺陷时，该缺陷基本都是通过监控信号发现的。对于该缺陷，检修人员可以有针对性地增强监控能力，消除这一类缺陷。这一类的关联规则能够呈现条件与发现方式之间的强关联性，作为运维人员安排何种运维排查缺陷方式的依据。如果某个缺陷发生较频繁，运维人员可根据该缺陷的关联规则有针对性地加强某一种运维排查缺陷方式来及时发现这一类缺陷。另外，当某一关联规则的结论是“检修过程”这一发现方式，并且该设备缺陷发生较频繁时，检修人员可以考虑缩短该设备的检修周期，提高检修频率来及时发现该设备缺陷。

本实施例中，关联规则能够发现二次设备的家族性缺陷。在关联规则6中，生产厂家5与制造不良具有强关联性，置信度为55.56％。可见生产厂家5生产的设备极有可能存在制造不良的问题，应建议该厂家提升制造工艺，提高设备出厂验收要求。

本实施例中，关联规则能够发现二次设备薄弱环节。在规则4中，当条件为生产厂家3、故障录波器、监控信号时，结论为缺陷部位在通道传输装置，置信度为100％。在规则7中，当条件为生产厂家6时，结论为缺陷部位在通道传输装置，置信度也是100％。可见生产厂家3的故障录波器设备薄弱环节在通道传输装置，生产厂家6的设备经常会发生通道传输装置缺陷告警。这一类的关联规则能够给检修人员提供二次设备薄弱环节的信息，帮助检修人员采取措施来加强二次设备薄弱环节的检测或者消除某一类设备的薄弱环节。

本实施例中，改进算法的时间复杂度

本实施例中将500条、1000条和5000条记录的五列随机生成数组作为算法时间复杂度的研究样本。运用传统Apriori算法和改进Apriori算法分别对不同记录总数的样本进行关联性分析，最小支持度取S_min＝4/count(D)，统计不同算法所需时间，结果如表8时间复杂度比较表所示。

表8 时间复杂度比较表

记录条数	Apriori算法	本发明方法	时间差
				500	48.2064s	18.5902s	29.6162s
1000	146.1682s	28.7855s	117.3827s
				5000	3330.5975s	377.9033s	2952.6942s

从表8可见，本发明方法时间复杂度较低、算法效率较高，在相同样本情况下，本发明方法所需时间小于Apriori算法，随着记录条数的增加，Apriori算法和本发明方法所需时间差将增大。即样本越大，本发明方法节约的时间越多。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。本发明未详细描述的技术、形状、构造部分均为公知技术。

Claims

1.一种智能变电站二次设备关联缺陷的识别方法，其特征在于，包括以下步骤：

步骤1：筛选智能变电站中二次设备的信息，并分类构建数据库；

步骤2：第一次扫描数据库，从数据库D中抽取所有的项目，并一一记录包含该项目的缺陷记录编号；

步骤3：制定项目识别码，生成1频繁项集L₁和包含该频繁项集的缺陷记录编号集合M₁，指定项集的最小长度K值，分别连接候选K项集C_K和缺陷记录编号集合M_K；

步骤4：计算频繁项集之间的支持度和置信度；

步骤5：删除不符合步骤4中最小支持度S_min和最小置信度C_min要求的候选集元素和对应缺陷记录编号集合，得到频繁K项集L_K和对应缺陷记录编号集合M_K；

步骤6：判断频繁项集L_K是否为空来确定是否结束算法。

2.根据权利要求1所述的一种智能变电站二次设备关联缺陷的识别方法，其特征在于，所述步骤3具体按如下步骤执行：

步骤3.1：对步骤1中不同种类的信息的前面加上项目识别码，让不同种类的信息分别具有各自相同的项目识别码，形成1频繁项集L₁，L₁中的每个元素都对应一个缺陷记录的项目识别码，

步骤3.2：当K-1频繁项集L_K-1的两个元素L_K-1,1＝{I₁,I₂......I_K-2,I_K-1}和L_K-1,2＝{I₁,I₂......I_K-2,I_K}(I_K-1≠I_K)只有一项不同时，L_K-1,1和L_k-1,2能够连接形成K候选集的一个元素C_k,1＝{I₁,I₂......I_K-2,I_K-1,I_K}，同时形成C_k,1的缺陷记录编号集合M_k,1＝{I₁,I₂......I_K-2,I_K-1,I_K}。

3.根据权利要求1所述的一种智能变电站二次设备关联缺陷的识别方法，其特征在于，所述步骤4具体按如下步骤执行：支持度的计算公式如下：

置信度的计算公式如下：

其中：C_K,1是由L_K-1,1和L_K-1,2两个K-1频繁项集元素“连接”而成的候选集，规则为而且

4.根据权利要求1所述的一种智能变电站二次设备关联缺陷的识别方法，其特征在于，所述步骤6按如下步骤执行：若L_K不为空，则K＝K+1，跳转到步骤(3)，若L_K为空，则输出所有的频繁项集，产生强关联性规则，运行结束。