CN112308118A

CN112308118A - 基于Apriori算法的继保装置缺陷数据关联性分析方法及系统

Info

Publication number: CN112308118A
Application number: CN202011100986.1A
Authority: CN
Inventors: 刘一民; 杨心平; 郑少明; 杨慧敏; 杜鹃; 王宁
Original assignee: North China Grid Co Ltd
Current assignee: North China Grid Co Ltd
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2021-02-02

Abstract

本发明涉及一种基于Apriori算法的继保装置缺陷数据关联性分析方法及系统，方法包括：S10：获取继保装置的缺陷统计信息，从缺陷统计信息的属性集中选择适用于缺陷分析的属性；S20：将选择的属性中所对应的文本信息转化为数字标签文件，作为数据样本，然后将数据样本按照厂家进行划分；S30：利用Apriori算法从划分好的数据样本中筛选出项目的所有频繁项集；S40：从所筛选的每个频繁项集中挖掘关联规则，并根据关联规则分析继保装置的缺陷。本发明对各类继电保护装置缺陷数据进行挖掘，较好的考虑了缺陷属性之间的关系，寻找继电保护装置薄弱环节，并找到诱发薄弱环节的原因，有利于进行家族性缺陷分析，并对现场运维人员的工作有较好的辅助作用。

Description

基于Apriori算法的继保装置缺陷数据关联性分析方法及系统

技术领域

本发明涉及电力系统数据挖掘领域，尤其涉及一种基于Apriori算法的继保装置缺陷数据关联性分析方法及系统。

背景技术

继电保护装置的运维人员在日常工作中会对所发现和处理的缺陷进行记录和归档，方便日后的查看、统计和分析。这些继电保护装置缺陷数据中蕴含着大量的有用信息，对缺陷数据进行挖掘和分析将对提升继电保护装置运维和管控水平有着重要的意义。

当前数据挖掘已经被用到电工领域的许多专业中去解决一些重要问题。但在继电保护系统分析中的运用并不多，主要侧重于基于数据挖掘实现对继电保护系统的状态评价。由于目前挖掘和分析缺乏理论和系统性的指导，主要体现在运用的分析方法简单，仅进行简单的分类和统计，对于数据之间的关联关系等重要性并未涉及，分析结果对继电保护装置运维管控的指导意义不大。所以有必要选择合适的数据挖掘方法，从继电保护装置缺陷整体数据出发，建立基于关联关系的继电保护装置缺陷模型，寻找继电保护装置薄弱环节，并找到诱发薄弱环节的原因，最终指导运维人员进行现场管控，提升电力系统继电保护装置的运维水平。

发明内容

本发明的目的是提供一种基于Apriori算法的继保装置缺陷数据关联性分析方法及系统，以解决目前挖掘和分析缺乏理论和系统性的指导、缺陷数据分类和统计简单，对于数据之间的关联关系等重要性并未涉及等技术问题。

本发明提供一种基于Apriori算法的继保装置缺陷数据关联性分析方法，包括：

S10：获取继保装置的缺陷统计信息，从缺陷统计信息的属性集中选择适用于缺陷分析的属性；

S20：将选择的属性中所对应的文本信息转化为数字标签文件，作为数据样本，然后将数据样本按照厂家进行划分；

S30：利用Apriori算法从划分好的数据样本中筛选出项目的所有频繁项集；

S40：从所筛选的每个频繁项集中挖掘关联规则，并根据关联规则分析继保装置的缺陷。

进一步的，所述步骤S10包括，对设备缺陷统计信息的属性集进行筛选，标注出标签属性和有效属性，其中，所述标签属性包括仅作为装置身份识别和厂站地理位置信息标识的属性，所述有效属性包括对缺陷薄弱点分析有效用的属性。

进一步的，所述步骤S10中的缺陷统计信息包括继保装置的设备信息、缺陷的评价信息和缺陷处理的日志文本信息。

进一步的，所述步骤S30包括，利用Apriori算法的先验原理，用逐层搜索的迭代方法获取满足支持度要求的频繁项集。

进一步的，所述步骤S30的具体方法步骤包括，

S31：根据缺陷数据总量预设一个最小支持度i(0<i<1)；

S32：在第一次迭代中，扫描所有的事务，对每个项的出现次数计数，根据如下公式求得各个支持度：

式中，A表示每个有效属性的具体取值，D表示所分析的样本总量；

S33：将得到的各个支持度与最小支持度i进行比较，保留不小于最小支持度i的项，确定频繁1项集的集合L₁；

S34；由集合L₁产生候选2项集集合C₂，集合C₂由集合L₁中每个频繁项集两两分配组成，扫描D样本中的事务，计算C₂中每个候选集的支持度，保留不小于最小支持度i的集合组合，确定频繁2项集的集合L₂；

S35：由集合L₂产生C₃时，使用Apriori性质剪枝，然后扫描D中事务，计算C₃中每个候选集的支持度，保留不小于最小支持度i的集合组合，确定频繁3项集L₃；

S36：按照步骤S31至S35，逐层搜索迭代，筛选出所有频繁项集，直至不能找到频繁k项集。

进一步的，所述步骤S40包括，根据筛选出的所有频繁项集设定最小置信度，每个频繁项集生成多个关联规则，去除频繁项集中可信度小于置信度的关联规则，得到满足最小置信度的关联规则。

进一步的，所述步骤S40的具体方法步骤包括，

S41：按照筛选出的频繁项集数据总量预设一个最小置信度u(0<u<1)；

S42：根据如下公式，计算L₁、L₂......L_k每个频繁项集所包括的项的置信度：

式中，A、B表示某个频繁项集的元素或元素集合，A＝>B表示某个元素或某个元素集合可能会推导出另一个元素；

S43：将上述计算出的多个关联规则的置信度与预设的最小置信度u进行比较，保留有影响作用且满足最小置信度要求的关联规则，并利用保留的关联规则确认继保装置的缺陷和薄弱环节。

本发明还提供一种基于Apriori算法的继保装置缺陷数据关联性分析系统，包括,

信息获取模块,用于获取继保装置的缺陷统计信息，从缺陷统计信息的属性集中选择适用于缺陷分析的属性；

信息转化模块,将选择的属性中所对应的文本信息转化为数字标签文件，作为数据样本，然后将数据样本按照厂家进行划分；

信息处理模块,用于利用Apriori算法从划分好的数据样本中筛选出项目的所有频繁项集；

信息分析模块,用于从所筛选的每个频繁项集中挖掘关联规则，并根据关联规则分析继保装置的缺陷。

本发明的有益效果在于，该方法通过python语言采用Apriori算法对各类继电保护装置缺陷数据进行挖掘，较好的考虑了缺陷属性之间的关系，建立了基于关联关系的二次设备缺陷模型，寻找继电保护装置薄弱环节，并找到诱发薄弱环节的原因，有利于进行家族性缺陷分析，并对现场运维人员的工作有较好的辅助作用。

附图说明

图1为本发明的基于Apriori算法的继保装置缺陷数据关联性分析方法的流程示意图；

图2为本发明的实施例某厂商A的继保装置强关联规则图；

图3为本发明的基于Apriori算法的继保装置缺陷数据关联性分析系统示意图.

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

如图1所示，为本发明的方法流程图，本发明为基于Apriori算法的继保装置缺陷数据关联性分析方法，本方法包括：

本继保装置缺陷数据关联性分析方法可用于寻找继电保护装置的薄弱环节和诱发薄弱环节的原因，同时还具有分析装置家族性缺陷的功能，下面将针对每个方法步骤对本方法作更加详细的叙述与说明。

S10：获取继保装置的缺陷统计信息，从缺陷统计信息的属性集中选择适用于缺陷分析的属性：

在本步骤中，对设备缺陷统计信息的属性集进行筛选，标注出标签属性和有效属性，其中，所述标签属性包括仅作为装置身份识别和厂站地理位置信息标识的属性，所述有效属性包括对缺陷薄弱点分析有效用的属性。

本实施例中，所述继电保护装置的缺陷统计信息包括继电保护装置的设备信息、缺陷的评价信息和缺陷处理的日志文本信息。其中，设备信息包括生产厂家、设备型号和投运时间等信息；缺陷的评价信息包括缺陷部位、缺陷原因和缺陷级别等信息。

其中，缺陷处理的日志文本信息用于对设备信息和缺陷的评价信息进行补充或是纠错。需要说明的是：本缺陷统计信息主要以表格形式进行存储，在转换为数据库格式时，设备信息和缺陷的评价信息有明显的属性标签进行表征，可简单的通过matlab将中文转换为数据矩阵，从而生成计算机可以存储的数据格式；而日志文本信息属于短文本，没有明显的属性标签进行表征，需要先对短文本进行信息表达式的提取工作，采用自然语言方法，对缺陷文本进行分词，然后用匹配中文的正则表达式进行提取。由于数据是人工输入的，会存在描述上的不统一，所以为了方便后续的挖掘工作，需要进行数据清洗工作。而针对日志文本信息的提取，可在很大程度上，对设备信息和缺陷评价信息中的某些错误信息进行数据修正。

通过对上述三类信息的综合分析，提取出适用于继电保护装置缺陷数据分析的挖掘对象。在将上述三类信息全部转化为有具体属性标签的数据结构后，对属性进行赋值。具体的，从自然数1开始，由小到大对每一属性所涉及到的分支属性进行赋值，直到每个属性的分支属性赋值完毕为止。得到的赋值属性矩阵A_m×n，m为缺陷数据条数，n为所选择的属性个数。随后，对缺陷等级属性按照1对应危急缺陷，2对应严重缺陷，3对应一般缺陷的赋值方法进行赋值。形成m条缺陷数据的结果矩阵B_m×1。将A_m×n与B_m×1合并得到新的矩阵C_m×n+1，即为包含缺陷属性与缺陷定级结果的数值矩阵。最后，若存在全部行向量一致，定级结果不一致的数据，采用少数服从多数的准则进行定级结果的修正。最后，将全部转化为数值信息的数据按照厂家类别和投运时间两个维度，分为若干个数据块，这些数据块集中构成数据库信息。

S20：将选择的属性中所对应的文本信息转化为数字标签文件，作为数据样本，然后将数据样本按照厂家进行划分：

在本步骤中，将原始缺陷统计信息数据记录的各属性分类按照数字编号进行赋值，最后将文字性质的记录信息表转化为纯数字标签的数据文件，为大数据编程处理提供基础。然后将数据按照厂家进行划分，以便于分析不同厂家的关联规则和考虑家族性缺陷，最终找出不同厂家生产的装置薄弱点差异性。

从转化完成的缺陷数据库当中，通过下面的元组来构建继电保护装置缺陷数据的挖掘集合：

Q＝(F,N(a,b,c,d,e))

式中，F用于确定数据挖掘的维度范围，包括厂家维度和时间维度，将数据分成了若干个数据存储块。N表示挖掘特征属性集合，参与规则的生成，分别代表缺陷设备分类、原因、具体原因、缺陷部位、缺陷等级。首先通过F确定挖掘的数据模块，例如某某厂家在具体某年度的缺陷数据，然后再按照N的模式进行关联性规则生成。不同数据模块所得到的关联规则侧重点有所差异。当F取到所有数据时考虑的是继电保护装置的共性特征，当F取不同的数据模块时，可以从横向的厂家层面考虑家族性特征或者从纵向的时间层面考虑服役年龄对装置的影响。

S30：利用Apriori算法从划分好的数据样本中筛选出项目的所有频繁项集：

在本步骤中，是利用Apriori算法的先验原理，用逐层搜索的迭代方法获取满足支持度要求的频繁项集，首先找到频繁1项集的集合，记为L₁，L₁用于找频繁2项集的集合L₂，重复上述过程，直至不能找到频繁项集。具体的分步骤如下：

S31：根据缺陷数据总量预设一个最小支持度i(0<i<1)；

通过上述步骤S30使用的迭代方法，有助于快速找出满足支持度要求的频繁项集，进入下一步骤。

S40：从所筛选的每个频繁项集中挖掘关联规则，并根据关联规则分析继保装置的缺陷：

在本步骤中，根据筛选出的所有频繁项集设定最小置信度，每个频繁项集生成多个关联规则，去除频繁项集中可信度小于置信度的关联规则，得到满足最小置信度的关联规则。具体分步骤如下：

从上述方法中可以看出，本发明结合现有的缺陷数据特征，对各类继电保护装置设备的缺陷数据进行挖掘，首先计算所选样本的每个具体属性值的支持度，生成频繁1项集，然后用逐层搜索的迭代方法获得频繁2项集、3项集，直到最终的k项集，频繁项集生成后，通过对频繁项集元素之间的置信度的计算，最终得到强关联规则，这些规则对现场运维人员的工作有较好的辅助作用。

下面结合具体实施例对上述方法进行进一步的论述与说明。

选取厂商A的继保装置，建立基于关联关系的继保装置缺陷模型，寻找继保装置薄弱环节，并找到诱发薄弱环节的原因。A厂商最终所生成的关联规则如下表1所示：

表1

综合上述关联规则，有以下几点分析：

(1)原始的台账数据显示，保护装置本体发生缺陷时，涉及到的缺陷部位有10种，根据算法筛选后，置信度达到规定的阈值5％及其以上的情况有3种，即上表1中提及的电源插件、CPU插件和液晶屏，其他部位由于具有不确定性故此处不予考虑。根据上述关联规则1，2和4可知，保护装置本体的缺陷集中在电源插件和CPU插件以及液晶屏上，其置信度分别为15.0％、44.5％和6.3％，所以它们是保护装置本体的薄弱环节，进一步分析可知，CPU插件的置信度接近电源插件的3倍，应对薄弱环节尤其是CPU插件进行针对性的管控。

(2)接着根据规则5和6可以看出，制造质量不良是导致CPU插件和电源插件损坏的主要原因。因此，为提升保护装置本体的可靠性，需要提高CPU插件和电源插件的设计合理性及质量，在运维层面上也要加强其力度。值得注意的是，根据规则3，可以看出，保护装置本体发生缺陷时，有很大部分缺陷无法准确定位缺陷部位，所以建议，运维人员要加强对继电保护装置的熟悉，从宏观上更加深入了解装置特性。

(3)由规则7可知，由于制造不良导致的保护装置本体发生缺陷的置信度达到了64.5％。根据规则8可知，非人为原因导致的装置本体发生缺陷的置信度为13.7％。对于不同成因的缺陷，需要采取不同的应对措施。缺陷诱因为制造质量不良的装置需要加强厂商的管控。而非人为原因是和电网设备超期服役有关，需要对服役时间较长的保护装置进行有针对性的运维，并及时更换超期服役的功能插件，也就是设立合适的定检周期。

(4)由规则9和10可以看出，通信传输设备的缺陷集中在光缆和PCM上，置信度分别达到了60.2％和28.9％，所以光缆和PCM是通信传输设备的薄弱环节。又根据规则11和12可以看出，PCM主要是由于制造质量不良引起的插件损坏导致缺陷的发生，应该有针对性地提升通信设备当中PCM的质量，光缆的运行维护以及及时更换的水平。

(5)由规则13和14可知，通道接口设备发生缺陷主要集中在接头和接口插件上，置信度分别为22.3％、20.3％，因此接头和接口插件是其薄弱环节。又根据15和16可知，导致这些薄弱点发生缺陷的主要原因都是制造质量不良，所以建议提高接头和接口插件的质量。

(6)由规则17和18可知，电源插件和CPU插件是其薄弱环节，又根据规则19合并单元发生缺陷主要是装置制造不良引起的。所以，有必要针对性提高其质量从而增加其可靠性。

综上，本发明所述的基于Apriori算法的继保装置缺陷数据关联性分析方法可行，且具有工程应用价值，本发明较好的考虑了缺陷属性之间的关系，建立了基于关联关系的继电保护装置缺陷模型，寻找继电保护装置薄弱环节，并找到诱发薄弱环节的原因，有利于进行家族性缺陷分析，并对现场运维人员的工作有较好的辅助作用。

另外,如图3所示,本发明还提供一种基于Apriori算法的继保装置缺陷数据关联性分析系统，包括,

本系统的具体流程已在上述方法中详细说明,故在此补在多做叙述,本系统同样可达到上述方法中的效果,即:较好的考虑了缺陷属性之间的关系，建立了基于关联关系的继电保护装置缺陷模型，寻找继电保护装置薄弱环节，并找到诱发薄弱环节的原因，有利于进行家族性缺陷分析，并对现场运维人员的工作有较好的辅助作用。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.基于Apriori算法的继保装置缺陷数据关联性分析方法，其特征在于，包括：

2.根据权利要求1所述的基于Apriori算法的继保装置缺陷数据关联性分析方法，其特征在于，所述步骤S10包括，对设备缺陷统计信息的属性集进行筛选，标注出标签属性和有效属性，其中，所述标签属性包括仅作为装置身份识别和厂站地理位置信息标识的属性，所述有效属性包括对缺陷薄弱点分析有效用的属性。

3.根据权利要求1所述的基于Apriori算法的继保装置缺陷数据关联性分析方法，其特征在于，所述步骤S10中的缺陷统计信息包括继保装置的设备信息、缺陷的评价信息和缺陷处理的日志文本信息。

4.根据权利要求1所述的基于Apriori算法的继保装置缺陷数据关联性分析方法，其特征在于，所述步骤S30包括，利用Apriori算法的先验原理，用逐层搜索的迭代方法获取满足支持度要求的频繁项集。

5.根据权利要求1或4所述的基于Apriori算法的继保装置缺陷数据关联性分析方法，其特征在于，所述步骤S30的具体方法步骤包括，

S31：根据缺陷数据总量预设一个最小支持度i(0<i<1)；

6.根据权利要求1所述的基于Apriori算法的继保装置缺陷数据关联性分析方法，其特征在于，所述步骤S40包括，根据筛选出的所有频繁项集设定最小置信度，每个频繁项集生成多个关联规则，去除频繁项集中可信度小于置信度的关联规则，得到满足最小置信度的关联规则。

7.根据权利要求6所述的基于Apriori算法的继保装置缺陷数据关联性分析方法，其特征在于，所述步骤S40的具体方法步骤包括，

8.基于Apriori算法的继保装置缺陷数据关联性分析系统，其特征在于，包括,