CN112329432B

CN112329432B - 一种基于改进Apriori的配电网电压越限问题关联分析方法

Info

Publication number: CN112329432B
Application number: CN202011105541.2A
Authority: CN
Inventors: 郑世明; 段新辉; 黄园芳; 罗宗杰; 赵永发; 吴莉琳; 林荣秋; 王志强; 徐沛东; 徐达艺; 王晓明; 魏焱; 李玲; 付振宇; 吴超成; 周艳伟; 谢卓均; 何海鹏; 刘云凯; 高振亚
Original assignee: Guangdong Power Grid Co Ltd; Zhanjiang Power Supply Bureau of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Zhanjiang Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2023-05-26
Anticipated expiration: 2040-10-15
Also published as: CN112329432A

Abstract

本发明提供一种基于改进Apriori的配电网电压越限问题关联分析方法，针对FP‑growth增长频繁模式受限于存储空间的局限性，本发明基于布尔矩阵生成项集索引表，由此挖掘频繁项集；针对传统Apriori算法存在较高时间复杂度的问题，本发明采用动态压缩矩阵方法减少数据扫描的规模，并且利用按位与运算代替传统Apriori算法的连接步的低速查找比较运算；针对描述性文本难以结构化表达的问题，本发明采用文本挖掘技术对描述性文本进行文本分类，以此实现文本预处理。

Description

一种基于改进Apriori的配电网电压越限问题关联分析方法

技术领域

本发明涉及配电网领域，更具体地，涉及一种基于改进Apriori的配电网电压越限问题关联分析方法。

背景技术

随着社会的发展和电力需求的扩大，人们对供电质量的要求日益提高，而配电网电压越限问题作为电力系统薄弱环节一直是供电企业关注和治理的重点对象。近年来，供电企业大力推广与应用智能电表、智能开关等终端设备，为电网大数据平台的构建积累了海量数据，这不仅克服了传统电气计算能力的局限性，也为电力系统运行分析与规划建设等方面提供新的研究思路。因此如何充分利用好电力大数据资源，辅助工作人员快速分析、处理电压越限问题，成为改善配电网电压质量过程中必须面对的难题。

相近似的实现方案有两种，分别是FP-growth算法和传统Apriori算法。

FP-growth是一种基于FP-tree(频繁模式树)的关联规则算法。其主要步骤是采用分治策略，通过两次扫描样本集建立FP-tree，利用树结构对样本进行压缩，不需产生候选项集，然后采用增长频繁集的方法挖掘满足关联规则的频繁项。FP-tree是哈希树的变种，树的子叶存储频繁1-项集，树的枝干用来表示特定的关联规则。但是FP-growth采用递归增长频繁项的模式存在两个方面的缺陷：一是由于自底向上挖掘时需要反复搜索FP-tree，容易产生较多的指针链；二是当FP-tree的分支数很多且长度较长时，存储项集将占用大量存储空间，内存开销大

Apriori是所有关联规则算法中最具影响力的一种经典算法，其核心思想是采用逐层搜索的迭代方法对事务集进行不断的连接、遍历与剪枝，直至找到最大频繁项集及其关联规则。针对事务数据库，Apriori算法从频繁k项集的集合L_k中迭代产生与其连接的k+1候选项集合C_k+1，然后将数据库压缩至C_k+1范围内搜索频繁k+1项集L_k+1，最后在所有频繁项集中生成给定条件的关联规则，用于发现海量数据中各项集间的关联信息；但是传统Apriori算法在生成候选项集后需要对大量候选项集计算支持度，再加上重复扫描数据集将显著增加运算时间，很大程度上影响算法效率；由于中文文本半结构化数据的复杂性以及文本书写过程中的主观经验性，导致与电压越限相关的描述性文本难以直接用于关联规则的计算过程。

现有的技术中，中国发明专利CN110266000A公开了“一种配电网电压越限原因分析方法、系统及存储介质”，公开日为2019年09月20日，其包括分析方法包括采集目标配电网区域内电压越限信息，形成电压越限待分析事件；根据电压越限待分析事件，基于信息化系统多源数据，获取配电网线路的馈线级有效信息，构建馈线信息库；将馈线信息库中的馈线级有效信息，分层级初步诊断电压越限的原因，并构建各层级电压越限事件分类判定模型参数库；根据各层级电压越限事件及电压越限的原因机理，构建电压越限原因诊断模型参数库，输出电压越限事件原因分析结果；该专利解决海量配电设备异常运行及配电网电压越限原因分析，配电网电压越限原因分析效率低的问题，但是分析解决电压越限问题是建立模型参数库，分层级初步诊断电压越限的原因，但是并没有分析配电网电压越限问题及其影响因素之间的关联关系，没有挖掘造成电压越限问题的主要影响因素，从而无法为制定电压治理方案的决策建议提供有价值的参考信息。

发明内容

本发明为解决FP-growth增长频繁模式受限于存储空间的局限性、传统Apriori算法存在较高时间复杂度和描述性文本难以结构化表达的技术缺陷，提供了一种基于改进Apriori的配电网电压越限问题关联分析方法。

为实现以上发明目的，采用的技术方案是：

一种基于改进Apriori的配电网电压越限问题关联分析方法，包括以下步骤：

S1：输入含配电网电压越限问题相关影响因素的文本信息，并按有关书写规范将其划分为约定性文本和描述性文本；

S2：通过文本挖掘对描述性文本进行文本分类，用类别标签标记描述性文本，并将其与约定性文本重新构成新的输入样本；

S3：根据不同事务和项集生成布尔矩阵，将新的输入样本输入至布尔矩阵，通过压缩矩阵向量的按位与运算得到项集支持度，并以此创建项集索引表；

S4：通过项集索引表筛选出所有不小于最小支持度的项集即为频繁项集，重复S4，直至得到最大的频繁项集；

S5：对频繁项集进行置信度计算，筛选出不小于最小置信度的频繁项集，即得到所需的关联规则。

上述方案中，针对FP-growth增长频繁模式受限于存储空间的局限性，本发明基于布尔矩阵生成项集索引表，由此挖掘频繁项集；针对传统Apriori算法存在较高时间复杂度的问题，本发明采用动态压缩矩阵方法减少数据扫描的规模，并且利用按位与运算代替传统Apriori算法的连接步的低速查找比较运算；针对描述性文本难以结构化表达的问题，本发明采用文本挖掘技术对描述性文本进行文本分类，以此实现文本预处理。

在步骤S1中，配电网电压越限问题相关影响因素主要划分为典型现状因素和环境因素，典型现状因素按照不同电网层级电压水平现状又分为10kV母线层、10kV线路层和配变台区层。

所述10kV母线层的典型现状因素包括主变分接头档位和主变功率因数；10kV线路层的典型现状因素包括10kV线路功率因数、供电半径、线路负载率和线路型号；配变台区层的典型现状因素包括配变分接头档位、配变负载率、配变三相不平衡、台区供电半径和低压线路截面积。

在步骤S2中，所述约定性文本是指具有固定语法结构与表述的专用词组，不同约定性文本具有各自特定的含义与类别；所述描述性文本是相对于约定性文本而言主观性强、规范程度低的文本，多以长句形式出现。

在步骤S2中，包括以下方法：

S21：结合电力分类词典，采用jieba分词算法对描述性文本进行中文分词处理，即将连续的字序列按照一定的规范重新组合成词序列；

S22：剔除无实际区分作用的停用词，例如一些常见的语气助词、副词和连接词等可作为停用词在分词处理后剔除掉；

S23：根据相关的电力分类词典，通过词典匹配的方式对分词进行筛选、分类，关键词相匹配，则将该条文本归为线路隐患类别。同一描述性文本可包含多个类别；

S24：借助类别标签来标记描述性文本，将其与约定性文本重新构成新的数据集，并作为改进Apriori算法的输入样本。

在步骤S3中，包括以下方法：S31：扫描输入样本，得到事务数据库T＝{T₁,T₂,Λ,T_n}，其中T_j是由若干个文本信息组成的具有唯一标识的事务，设I＝{I₁,I₂,Λ,I_m}是事务数据库T中不同项组成的集合，满足

即每个事务包含的k-项集都是I的子集，k表示项集中项的个数{I_i}表示为1-项集；S32：

设定最小支持度和最小置信度；

最小支持度公式为

最小置信度公式为

式中：

且X∩Y＝Φ，support_count(X∪Y)为支持度计数，表示项集X和Y同时出现在事务数据库的次数，total_count为事务数据库中事务的个数。

S33：将事务数据库T转换成布尔矩阵M，

其中行向量用不同项集标记，列向量用不同事务标记，行列按顺序排序，若第i个项集在第j个事务中，则矩阵的第i行、第j列的值d_ij为1，否则d_ij为0；

S34：计算k-项集的支持度计数：

式中：

为I中任取k个项合并形成的k-项集索引表，∧是对应行向量中各分量的与运算符。

在步骤S4中，k-项集索引表与最小支持度计数比较，筛选出所有不小于最小支持度计数的项集即为k-频繁项集L_k，根据第一频繁项集性质对布尔矩阵M进行列压缩，若T_j所在列向量之和小于等于1，则删除该列向量；各列向量逐列计算，得到压缩后的矩阵M₁，根据第二频繁项集性质对矩阵M₁进行行压缩，若I_i所在行向量之和小于最小支持度计数，则删去该行向量；各行向量逐行计算，得到压缩后的矩阵M₂，令k＝k+1，从矩阵M₂中任取两个项集组合成所有可能的k-项集，假设C_i,k-1和C_j,k-1分别是矩阵M₂中任意两个项集，并令项集中的项按顺序排序，若两个项集中的前(k-2)项相同，则连接组合，即C_p,k＝C_i,k-1∪C_j,k-1，否则不连接组合，从k-项集索引表中筛选出所有不小于最小支持度计数的项集即为k-频繁项集L_k，并根据k-频繁项集L_k重新生成布尔矩阵M，重复筛选，直到不再生成频繁项集，所有频繁项集L表示为L＝∪L_k。

在步骤S5中，对频繁项集计算置信度，其中X∈L,Y∈L,X∪Y∈L，且X∩Y＝Φ，筛选出不小于最小置信度的频繁项集，即得到所需的关联规则。

所述第一频繁项集性质为如果数据库中某条事务的长度为K，那么这条事务就不可能包含任何项数大于K的频繁项集。

所述第二频繁项集性质为非频繁项集的任一超集必定也是非频繁项集。

上述方案中，利用项集索引表避免产生大量的候选项集，而且每经过一次数据扫描，由于布尔矩阵的压缩，所占用的存储空间也在变小，有利于提高算法运行性能；通过对矩阵进行行列压缩将大幅减少扫描统计的数据量，对压缩后的矩阵向量作按位与运算来得到项集支持度，能够有效提高关联分析的计算效率；采用jieba分词算法、停用词过滤与词典匹配方式进行文本分类，并通过类别标签来标记描述性文本，有效实现描述性本文的结构化表达。

与现有技术相比，本发明的有益效果是：

本发明提供一种基于改进Apriori的配电网电压越限问题关联分析方法，针对FP-growth增长频繁模式受限于存储空间的局限性，本发明基于布尔矩阵生成项集索引表，由此挖掘频繁项集；针对传统Apriori算法存在较高时间复杂度的问题，本发明采用动态压缩矩阵方法减少数据扫描的规模，并且利用按位与运算代替传统Apriori算法的连接步的低速查找比较运算；针对描述性文本难以结构化表达的问题，本发明采用文本挖掘技术对描述性文本进行文本分类，以此实现文本预处理。

附图说明

图1为本发明的方法流程图；

图2为本发明的中文分词结果图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

以下结合附图和实施例对本发明做进一步的阐述。

实施例1

如图1所示，一种基于改进Apriori的配电网电压越限问题关联分析方法，包括以下步骤：

在步骤S2中，包括以下方法：

即每个事务包含的k-项集都是I的子集，k表示项集中项的个数{I_i}表示为1-项集；S32：设定最小支持度和最小置信度；

最小支持度公式为

最小置信度公式为

式中：

S33：将事务数据库T转换成布尔矩阵M，

S34：计算k-项集的支持度计数：

式中：

实施例2

如图2所示，本专利选取的实验数据为某地区配电网2018年共计140条电压越限问题的记录数据，包含的文本信息X＝{台区电压越限问题,与台区电压越限相关的典型现状因素,与台区电压越限相关的环境因素}，采用本专利所提方法对电压越限问题与其相关影响因素之间的关联关系进行分析。仿真实验通过python编程实现，所使用的计算机配置为英特尔i7-8550U处理器和8GB内存；

在执行关联规则算法之前，采用文本挖掘的方法对描述性文本进行文本分类。以某一条描述性文本为例，其分词结果如图2所示，其中“安全距离不足”与“设备残旧”两个分词分别与“线路隐患”和“设备残旧”分类词典中的关键词相匹配，则将该条文本归为线路隐患和设备残旧两个问题类别；

在重构得到新的输入样本的基础上采用改进Apriori算法分析电压越限问题与其相关影响因素之间的关联关系。设定最小支持度为10％，最小置信度为70％。改进Apriori算法运行时间共计0.046秒，生成的频繁项集共有43个，关联规则共有7个，部分结果如下所示：

表1关联分析得到的频繁项集(部分)

表2关联分析得到的关联规则(部分)

由关联分析结果可知，该地区配电网电压越限问题主要为配变台区电压偏高。频繁项集{配变台区电压偏高,台区供电半径过大}和{配变台区电压偏高,馈线供电半径过大}的支持度分别为0.27和0.18，说明频繁项集中的各元素具有较强的关联关系，这也印证了供电半径与电压越限在理论上的因果关系，根据这一关联统计结果，可将供电半径作为该地区配电网电压越限的主要影响原因，可进一步作为电压治理专项方案的解决目标。频繁项集{配变台区电压偏高,馈线存在设备残旧}的支持度高达0.51，远大于其它频繁项集，但考虑到设备残旧涉及的具体情况较为复杂、覆盖面较广，尚不足以推断设备残旧是否直接导致电压越限问题，而作为统计依据，可指导今后设备运维工作加强检测，注意是否会存在接触不良、接地泄漏等原因导致电压越限。根据配变台区电压偏高与所在地军民路之间的关联关系，可将军民路作为电压监测与排查的重点区域，也可以结合网络拓扑结构进一步分析该片区域电压越限的成因，另外由表2的第一条关联规则可知，当军民路存在配变台区电压偏高问题时，这些配变台区有百分之百可能接入于110kV金湾站，因此基于算法的关联分析结果，可重点排查110kV金湾站分接头与功率因数是否符合配电网运行规定的要求

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于改进Apriori的配电网电压越限问题关联分析方法，其特征在于，包括以下步骤：

S5：对频繁项集进行置信度计算，筛选出不小于最小置信度的频繁项集，即得到所需的关联规则；

在步骤S1中，配电网电压越限问题相关影响因素划分为典型现状因素和环境因素，典型现状因素按照不同电网层级电压水平现状又分为10kV母线层、10kV线路层和配变台区层；

所述10kV母线层的典型现状因素包括主变分接头档位和主变功率因数；10kV线路层的典型现状因素包括10kV线路功率因数、供电半径、线路负载率和线路型号；配变台区层的典型现状因素包括配变分接头档位、配变负载率、配变三相不平衡、台区供电半径和低压线路截面积；

在步骤S2中，所述约定性文本是指具有固定语法结构与表述的专用词组，不同约定性文本具有各自特定的含义与类别；所述描述性文本是相对于约定性文本而言主观性强、规范程度低的文本，多以长句形式出现；

在步骤S2中，包括以下方法：

S22：剔除无实际区分作用的停用词；

S23：根据电力分类词典，通过词典匹配的方式对分词进行筛选、分类，其中，同一描述性文本包含多个类别；

2.根据权利要求1所述的一种基于改进Apriori的配电网电压越限问题关联分析方法，其特征在于，在步骤S3中，包括以下方法：S31：扫描输入样本，得到事务数据库T＝{T₁,T₂,…,T_n}，其中T_j是由若干个文本信息组成的具有唯一标识的事务，设I＝{I₁,I₂,…,I_m}是事务数据库T中不同项组成的集合，满足

即每个事务包含的k-项集都是I的子集，k表示项集中项的个数，{I_i}表示为1-项集；S32：设定最小支持度和最小置信度；

最小支持度公式为

最小置信度公式为

/>

式中：

且X∩Y＝Φ，support_count(X∪Y)为支持度计数，表示项集X和Y同时出现在事务数据库的次数，total_count为事务数据库中事务的个数；

S33：将事务数据库T转换成布尔矩阵M，

S34：计算k-项集的支持度计数：

式中：

为I中任取k个项合并形成的k-项集索引表，&是对应行向量中各分量的与运算符。

3.根据权利要求2所述的一种基于改进Apriori的配电网电压越限问题关联分析方法，其特征在于，在步骤S4中，k-项集索引表与最小支持度计数比较，筛选出所有不小于最小支持度计数的项集即为k-频繁项集L_k，根据第一频繁项集性质对布尔矩阵M进行列压缩，若T_j所在列向量之和小于等于1，则删除该列向量；各列向量逐列计算，得到压缩后的矩阵M₁，根据第二频繁项集性质对矩阵M₁进行行压缩，若I_i所在行向量之和小于最小支持度计数，则删去该行向量；各行向量逐行计算，得到压缩后的矩阵M₂，令k＝k+1，从矩阵M₂中任取两个项集组合成所有可能的k-项集，假设C_i,k-1和C_j,k-1分别是矩阵M₂中任意两个项集，并令项集中的项按顺序排序，若两个项集中的前(k-2)项相同，则连接组合，即C_p,k＝C_i,k-1∪C_j,k-1，否则不连接组合，从k-项集索引表中筛选出所有不小于最小支持度计数的项集即为k-频繁项集L_k，并根据k-频繁项集L_k重新生成布尔矩阵M，重复筛选，直到不再生成频繁项集，所有频繁项集L表示为L＝∪L_k。

4.根据权利要求3所述的一种基于改进Apriori的配电网电压越限问题关联分析方法，其特征在于，在步骤S5中，对频繁项集计算置信度，其中X∈L,Y∈L,X∪Y∈L，且X∩Y＝Φ，筛选出不小于最小置信度的频繁项集，即得到所需的关联规则。

5.根据权利要求3所述的一种基于改进Apriori的配电网电压越限问题关联分析方法，其特征在于，所述第一频繁项集性质为如果数据库中某条事务的长度为K，那么这条事务就不可能包含任何项数大于K的频繁项集。

6.根据权利要求3所述的一种基于改进Apriori的配电网电压越限问题关联分析方法，其特征在于，所述第二频繁项集性质为非频繁项集的任一超集必定也是非频繁项集。