CN112329432B - 一种基于改进Apriori的配电网电压越限问题关联分析方法 - Google Patents

一种基于改进Apriori的配电网电压越限问题关联分析方法 Download PDF

Info

Publication number
CN112329432B
CN112329432B CN202011105541.2A CN202011105541A CN112329432B CN 112329432 B CN112329432 B CN 112329432B CN 202011105541 A CN202011105541 A CN 202011105541A CN 112329432 B CN112329432 B CN 112329432B
Authority
CN
China
Prior art keywords
text
sets
frequent
matrix
item set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011105541.2A
Other languages
English (en)
Other versions
CN112329432A (zh
Inventor
郑世明
段新辉
黄园芳
罗宗杰
赵永发
吴莉琳
林荣秋
王志强
徐沛东
徐达艺
王晓明
魏焱
李玲
付振宇
吴超成
周艳伟
谢卓均
何海鹏
刘云凯
高振亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Power Grid Co Ltd
Zhanjiang Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Guangdong Power Grid Co Ltd
Zhanjiang Power Supply Bureau of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Power Grid Co Ltd, Zhanjiang Power Supply Bureau of Guangdong Power Grid Co Ltd filed Critical Guangdong Power Grid Co Ltd
Priority to CN202011105541.2A priority Critical patent/CN112329432B/zh
Publication of CN112329432A publication Critical patent/CN112329432A/zh
Application granted granted Critical
Publication of CN112329432B publication Critical patent/CN112329432B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/328Management therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Water Supply & Treatment (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于改进Apriori的配电网电压越限问题关联分析方法,针对FP‑growth增长频繁模式受限于存储空间的局限性,本发明基于布尔矩阵生成项集索引表,由此挖掘频繁项集;针对传统Apriori算法存在较高时间复杂度的问题,本发明采用动态压缩矩阵方法减少数据扫描的规模,并且利用按位与运算代替传统Apriori算法的连接步的低速查找比较运算;针对描述性文本难以结构化表达的问题,本发明采用文本挖掘技术对描述性文本进行文本分类,以此实现文本预处理。

Description

一种基于改进Apriori的配电网电压越限问题关联分析方法
技术领域
本发明涉及配电网领域,更具体地,涉及一种基于改进Apriori的配电网电压越限问题关联分析方法。
背景技术
随着社会的发展和电力需求的扩大,人们对供电质量的要求日益提高,而配电网电压越限问题作为电力系统薄弱环节一直是供电企业关注和治理的重点对象。近年来,供电企业大力推广与应用智能电表、智能开关等终端设备,为电网大数据平台的构建积累了海量数据,这不仅克服了传统电气计算能力的局限性,也为电力系统运行分析与规划建设等方面提供新的研究思路。因此如何充分利用好电力大数据资源,辅助工作人员快速分析、处理电压越限问题,成为改善配电网电压质量过程中必须面对的难题。
相近似的实现方案有两种,分别是FP-growth算法和传统Apriori算法。
FP-growth是一种基于FP-tree(频繁模式树)的关联规则算法。其主要步骤是采用分治策略,通过两次扫描样本集建立FP-tree,利用树结构对样本进行压缩,不需产生候选项集,然后采用增长频繁集的方法挖掘满足关联规则的频繁项。FP-tree是哈希树的变种,树的子叶存储频繁1-项集,树的枝干用来表示特定的关联规则。但是FP-growth采用递归增长频繁项的模式存在两个方面的缺陷:一是由于自底向上挖掘时需要反复搜索FP-tree,容易产生较多的指针链;二是当FP-tree的分支数很多且长度较长时,存储项集将占用大量存储空间,内存开销大
Apriori是所有关联规则算法中最具影响力的一种经典算法,其核心思想是采用逐层搜索的迭代方法对事务集进行不断的连接、遍历与剪枝,直至找到最大频繁项集及其关联规则。针对事务数据库,Apriori算法从频繁k项集的集合Lk中迭代产生与其连接的k+1候选项集合Ck+1,然后将数据库压缩至Ck+1范围内搜索频繁k+1项集Lk+1,最后在所有频繁项集中生成给定条件的关联规则,用于发现海量数据中各项集间的关联信息;但是传统Apriori算法在生成候选项集后需要对大量候选项集计算支持度,再加上重复扫描数据集将显著增加运算时间,很大程度上影响算法效率;由于中文文本半结构化数据的复杂性以及文本书写过程中的主观经验性,导致与电压越限相关的描述性文本难以直接用于关联规则的计算过程。
现有的技术中,中国发明专利CN110266000A公开了“一种配电网电压越限原因分析方法、系统及存储介质”,公开日为2019年09月20日,其包括分析方法包括采集目标配电网区域内电压越限信息,形成电压越限待分析事件;根据电压越限待分析事件,基于信息化系统多源数据,获取配电网线路的馈线级有效信息,构建馈线信息库;将馈线信息库中的馈线级有效信息,分层级初步诊断电压越限的原因,并构建各层级电压越限事件分类判定模型参数库;根据各层级电压越限事件及电压越限的原因机理,构建电压越限原因诊断模型参数库,输出电压越限事件原因分析结果;该专利解决海量配电设备异常运行及配电网电压越限原因分析,配电网电压越限原因分析效率低的问题,但是分析解决电压越限问题是建立模型参数库,分层级初步诊断电压越限的原因,但是并没有分析配电网电压越限问题及其影响因素之间的关联关系,没有挖掘造成电压越限问题的主要影响因素,从而无法为制定电压治理方案的决策建议提供有价值的参考信息。
发明内容
本发明为解决FP-growth增长频繁模式受限于存储空间的局限性、传统Apriori算法存在较高时间复杂度和描述性文本难以结构化表达的技术缺陷,提供了一种基于改进Apriori的配电网电压越限问题关联分析方法。
为实现以上发明目的,采用的技术方案是:
一种基于改进Apriori的配电网电压越限问题关联分析方法,包括以下步骤:
S1:输入含配电网电压越限问题相关影响因素的文本信息,并按有关书写规范将其划分为约定性文本和描述性文本;
S2:通过文本挖掘对描述性文本进行文本分类,用类别标签标记描述性文本,并将其与约定性文本重新构成新的输入样本;
S3:根据不同事务和项集生成布尔矩阵,将新的输入样本输入至布尔矩阵,通过压缩矩阵向量的按位与运算得到项集支持度,并以此创建项集索引表;
S4:通过项集索引表筛选出所有不小于最小支持度的项集即为频繁项集,重复S4,直至得到最大的频繁项集;
S5:对频繁项集进行置信度计算,筛选出不小于最小置信度的频繁项集,即得到所需的关联规则。
上述方案中,针对FP-growth增长频繁模式受限于存储空间的局限性,本发明基于布尔矩阵生成项集索引表,由此挖掘频繁项集;针对传统Apriori算法存在较高时间复杂度的问题,本发明采用动态压缩矩阵方法减少数据扫描的规模,并且利用按位与运算代替传统Apriori算法的连接步的低速查找比较运算;针对描述性文本难以结构化表达的问题,本发明采用文本挖掘技术对描述性文本进行文本分类,以此实现文本预处理。
在步骤S1中,配电网电压越限问题相关影响因素主要划分为典型现状因素和环境因素,典型现状因素按照不同电网层级电压水平现状又分为10kV母线层、10kV线路层和配变台区层。
所述10kV母线层的典型现状因素包括主变分接头档位和主变功率因数;10kV线路层的典型现状因素包括10kV线路功率因数、供电半径、线路负载率和线路型号;配变台区层的典型现状因素包括配变分接头档位、配变负载率、配变三相不平衡、台区供电半径和低压线路截面积。
在步骤S2中,所述约定性文本是指具有固定语法结构与表述的专用词组,不同约定性文本具有各自特定的含义与类别;所述描述性文本是相对于约定性文本而言主观性强、规范程度低的文本,多以长句形式出现。
在步骤S2中,包括以下方法:
S21:结合电力分类词典,采用jieba分词算法对描述性文本进行中文分词处理,即将连续的字序列按照一定的规范重新组合成词序列;
S22:剔除无实际区分作用的停用词,例如一些常见的语气助词、副词和连接词等可作为停用词在分词处理后剔除掉;
S23:根据相关的电力分类词典,通过词典匹配的方式对分词进行筛选、分类,关键词相匹配,则将该条文本归为线路隐患类别。同一描述性文本可包含多个类别;
S24:借助类别标签来标记描述性文本,将其与约定性文本重新构成新的数据集,并作为改进Apriori算法的输入样本。
在步骤S3中,包括以下方法:S31:扫描输入样本,得到事务数据库T={T1,T2,Λ,Tn},其中Tj是由若干个文本信息组成的具有唯一标识的事务,设I={I1,I2,Λ,Im}是事务数据库T中不同项组成的集合,满足
Figure BDA0002726824950000031
即每个事务包含的k-项集都是I的子集,k表示项集中项的个数{Ii}表示为1-项集;S32:
设定最小支持度和最小置信度;
最小支持度公式为
Figure BDA0002726824950000041
最小置信度公式为
Figure BDA0002726824950000047
式中:
Figure BDA0002726824950000042
Figure BDA0002726824950000043
且X∩Y=Φ,support_count(X∪Y)为支持度计数,表示项集X和Y同时出现在事务数据库的次数,total_count为事务数据库中事务的个数。
S33:将事务数据库T转换成布尔矩阵M,
Figure BDA0002726824950000044
其中行向量用不同项集标记,列向量用不同事务标记,行列按顺序排序,若第i个项集在第j个事务中,则矩阵的第i行、第j列的值dij为1,否则dij为0;
S34:计算k-项集的支持度计数:
Figure BDA0002726824950000045
式中:
Figure BDA0002726824950000046
为I中任取k个项合并形成的k-项集索引表,∧是对应行向量中各分量的与运算符。
在步骤S4中,k-项集索引表与最小支持度计数比较,筛选出所有不小于最小支持度计数的项集即为k-频繁项集Lk,根据第一频繁项集性质对布尔矩阵M进行列压缩,若Tj所在列向量之和小于等于1,则删除该列向量;各列向量逐列计算,得到压缩后的矩阵M1,根据第二频繁项集性质对矩阵M1进行行压缩,若Ii所在行向量之和小于最小支持度计数,则删去该行向量;各行向量逐行计算,得到压缩后的矩阵M2,令k=k+1,从矩阵M2中任取两个项集组合成所有可能的k-项集,假设Ci,k-1和Cj,k-1分别是矩阵M2中任意两个项集,并令项集中的项按顺序排序,若两个项集中的前(k-2)项相同,则连接组合,即Cp,k=Ci,k-1∪Cj,k-1,否则不连接组合,从k-项集索引表中筛选出所有不小于最小支持度计数的项集即为k-频繁项集Lk,并根据k-频繁项集Lk重新生成布尔矩阵M,重复筛选,直到不再生成频繁项集,所有频繁项集L表示为L=∪Lk
在步骤S5中,对频繁项集计算置信度,其中X∈L,Y∈L,X∪Y∈L,且X∩Y=Φ,筛选出不小于最小置信度的频繁项集,即得到所需的关联规则。
所述第一频繁项集性质为如果数据库中某条事务的长度为K,那么这条事务就不可能包含任何项数大于K的频繁项集。
所述第二频繁项集性质为非频繁项集的任一超集必定也是非频繁项集。
上述方案中,利用项集索引表避免产生大量的候选项集,而且每经过一次数据扫描,由于布尔矩阵的压缩,所占用的存储空间也在变小,有利于提高算法运行性能;通过对矩阵进行行列压缩将大幅减少扫描统计的数据量,对压缩后的矩阵向量作按位与运算来得到项集支持度,能够有效提高关联分析的计算效率;采用jieba分词算法、停用词过滤与词典匹配方式进行文本分类,并通过类别标签来标记描述性文本,有效实现描述性本文的结构化表达。
与现有技术相比,本发明的有益效果是:
本发明提供一种基于改进Apriori的配电网电压越限问题关联分析方法,针对FP-growth增长频繁模式受限于存储空间的局限性,本发明基于布尔矩阵生成项集索引表,由此挖掘频繁项集;针对传统Apriori算法存在较高时间复杂度的问题,本发明采用动态压缩矩阵方法减少数据扫描的规模,并且利用按位与运算代替传统Apriori算法的连接步的低速查找比较运算;针对描述性文本难以结构化表达的问题,本发明采用文本挖掘技术对描述性文本进行文本分类,以此实现文本预处理。
附图说明
图1为本发明的方法流程图;
图2为本发明的中文分词结果图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
如图1所示,一种基于改进Apriori的配电网电压越限问题关联分析方法,包括以下步骤:
S1:输入含配电网电压越限问题相关影响因素的文本信息,并按有关书写规范将其划分为约定性文本和描述性文本;
S2:通过文本挖掘对描述性文本进行文本分类,用类别标签标记描述性文本,并将其与约定性文本重新构成新的输入样本;
S3:根据不同事务和项集生成布尔矩阵,将新的输入样本输入至布尔矩阵,通过压缩矩阵向量的按位与运算得到项集支持度,并以此创建项集索引表;
S4:通过项集索引表筛选出所有不小于最小支持度的项集即为频繁项集,重复S4,直至得到最大的频繁项集;
S5:对频繁项集进行置信度计算,筛选出不小于最小置信度的频繁项集,即得到所需的关联规则。
上述方案中,针对FP-growth增长频繁模式受限于存储空间的局限性,本发明基于布尔矩阵生成项集索引表,由此挖掘频繁项集;针对传统Apriori算法存在较高时间复杂度的问题,本发明采用动态压缩矩阵方法减少数据扫描的规模,并且利用按位与运算代替传统Apriori算法的连接步的低速查找比较运算;针对描述性文本难以结构化表达的问题,本发明采用文本挖掘技术对描述性文本进行文本分类,以此实现文本预处理。
在步骤S1中,配电网电压越限问题相关影响因素主要划分为典型现状因素和环境因素,典型现状因素按照不同电网层级电压水平现状又分为10kV母线层、10kV线路层和配变台区层。
所述10kV母线层的典型现状因素包括主变分接头档位和主变功率因数;10kV线路层的典型现状因素包括10kV线路功率因数、供电半径、线路负载率和线路型号;配变台区层的典型现状因素包括配变分接头档位、配变负载率、配变三相不平衡、台区供电半径和低压线路截面积。
在步骤S2中,所述约定性文本是指具有固定语法结构与表述的专用词组,不同约定性文本具有各自特定的含义与类别;所述描述性文本是相对于约定性文本而言主观性强、规范程度低的文本,多以长句形式出现。
在步骤S2中,包括以下方法:
S21:结合电力分类词典,采用jieba分词算法对描述性文本进行中文分词处理,即将连续的字序列按照一定的规范重新组合成词序列;
S22:剔除无实际区分作用的停用词,例如一些常见的语气助词、副词和连接词等可作为停用词在分词处理后剔除掉;
S23:根据相关的电力分类词典,通过词典匹配的方式对分词进行筛选、分类,关键词相匹配,则将该条文本归为线路隐患类别。同一描述性文本可包含多个类别;
S24:借助类别标签来标记描述性文本,将其与约定性文本重新构成新的数据集,并作为改进Apriori算法的输入样本。
在步骤S3中,包括以下方法:S31:扫描输入样本,得到事务数据库T={T1,T2,Λ,Tn},其中Tj是由若干个文本信息组成的具有唯一标识的事务,设I={I1,I2,Λ,Im}是事务数据库T中不同项组成的集合,满足
Figure BDA0002726824950000071
即每个事务包含的k-项集都是I的子集,k表示项集中项的个数{Ii}表示为1-项集;S32:设定最小支持度和最小置信度;
最小支持度公式为
Figure BDA0002726824950000072
最小置信度公式为
Figure BDA0002726824950000077
式中:
Figure BDA0002726824950000073
且X∩Y=Φ,support_count(X∪Y)为支持度计数,表示项集X和Y同时出现在事务数据库的次数,total_count为事务数据库中事务的个数。
S33:将事务数据库T转换成布尔矩阵M,
Figure BDA0002726824950000074
其中行向量用不同项集标记,列向量用不同事务标记,行列按顺序排序,若第i个项集在第j个事务中,则矩阵的第i行、第j列的值dij为1,否则dij为0;
S34:计算k-项集的支持度计数:
Figure BDA0002726824950000075
式中:
Figure BDA0002726824950000076
为I中任取k个项合并形成的k-项集索引表,∧是对应行向量中各分量的与运算符。
在步骤S4中,k-项集索引表与最小支持度计数比较,筛选出所有不小于最小支持度计数的项集即为k-频繁项集Lk,根据第一频繁项集性质对布尔矩阵M进行列压缩,若Tj所在列向量之和小于等于1,则删除该列向量;各列向量逐列计算,得到压缩后的矩阵M1,根据第二频繁项集性质对矩阵M1进行行压缩,若Ii所在行向量之和小于最小支持度计数,则删去该行向量;各行向量逐行计算,得到压缩后的矩阵M2,令k=k+1,从矩阵M2中任取两个项集组合成所有可能的k-项集,假设Ci,k-1和Cj,k-1分别是矩阵M2中任意两个项集,并令项集中的项按顺序排序,若两个项集中的前(k-2)项相同,则连接组合,即Cp,k=Ci,k-1∪Cj,k-1,否则不连接组合,从k-项集索引表中筛选出所有不小于最小支持度计数的项集即为k-频繁项集Lk,并根据k-频繁项集Lk重新生成布尔矩阵M,重复筛选,直到不再生成频繁项集,所有频繁项集L表示为L=∪Lk
在步骤S5中,对频繁项集计算置信度,其中X∈L,Y∈L,X∪Y∈L,且X∩Y=Φ,筛选出不小于最小置信度的频繁项集,即得到所需的关联规则。
所述第一频繁项集性质为如果数据库中某条事务的长度为K,那么这条事务就不可能包含任何项数大于K的频繁项集。
所述第二频繁项集性质为非频繁项集的任一超集必定也是非频繁项集。
上述方案中,利用项集索引表避免产生大量的候选项集,而且每经过一次数据扫描,由于布尔矩阵的压缩,所占用的存储空间也在变小,有利于提高算法运行性能;通过对矩阵进行行列压缩将大幅减少扫描统计的数据量,对压缩后的矩阵向量作按位与运算来得到项集支持度,能够有效提高关联分析的计算效率;采用jieba分词算法、停用词过滤与词典匹配方式进行文本分类,并通过类别标签来标记描述性文本,有效实现描述性本文的结构化表达。
实施例2
如图2所示,本专利选取的实验数据为某地区配电网2018年共计140条电压越限问题的记录数据,包含的文本信息X={台区电压越限问题,与台区电压越限相关的典型现状因素,与台区电压越限相关的环境因素},采用本专利所提方法对电压越限问题与其相关影响因素之间的关联关系进行分析。仿真实验通过python编程实现,所使用的计算机配置为英特尔i7-8550U处理器和8GB内存;
在执行关联规则算法之前,采用文本挖掘的方法对描述性文本进行文本分类。以某一条描述性文本为例,其分词结果如图2所示,其中“安全距离不足”与“设备残旧”两个分词分别与“线路隐患”和“设备残旧”分类词典中的关键词相匹配,则将该条文本归为线路隐患和设备残旧两个问题类别;
在重构得到新的输入样本的基础上采用改进Apriori算法分析电压越限问题与其相关影响因素之间的关联关系。设定最小支持度为10%,最小置信度为70%。改进Apriori算法运行时间共计0.046秒,生成的频繁项集共有43个,关联规则共有7个,部分结果如下所示:
表1关联分析得到的频繁项集(部分)
Figure BDA0002726824950000091
表2关联分析得到的关联规则(部分)
Figure BDA0002726824950000092
Figure BDA0002726824950000101
由关联分析结果可知,该地区配电网电压越限问题主要为配变台区电压偏高。频繁项集{配变台区电压偏高,台区供电半径过大}和{配变台区电压偏高,馈线供电半径过大}的支持度分别为0.27和0.18,说明频繁项集中的各元素具有较强的关联关系,这也印证了供电半径与电压越限在理论上的因果关系,根据这一关联统计结果,可将供电半径作为该地区配电网电压越限的主要影响原因,可进一步作为电压治理专项方案的解决目标。频繁项集{配变台区电压偏高,馈线存在设备残旧}的支持度高达0.51,远大于其它频繁项集,但考虑到设备残旧涉及的具体情况较为复杂、覆盖面较广,尚不足以推断设备残旧是否直接导致电压越限问题,而作为统计依据,可指导今后设备运维工作加强检测,注意是否会存在接触不良、接地泄漏等原因导致电压越限。根据配变台区电压偏高与所在地军民路之间的关联关系,可将军民路作为电压监测与排查的重点区域,也可以结合网络拓扑结构进一步分析该片区域电压越限的成因,另外由表2的第一条关联规则可知,当军民路存在配变台区电压偏高问题时,这些配变台区有百分之百可能接入于110kV金湾站,因此基于算法的关联分析结果,可重点排查110kV金湾站分接头与功率因数是否符合配电网运行规定的要求
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (6)

1.一种基于改进Apriori的配电网电压越限问题关联分析方法,其特征在于,包括以下步骤:
S1:输入含配电网电压越限问题相关影响因素的文本信息,并按有关书写规范将其划分为约定性文本和描述性文本;
S2:通过文本挖掘对描述性文本进行文本分类,用类别标签标记描述性文本,并将其与约定性文本重新构成新的输入样本;
S3:根据不同事务和项集生成布尔矩阵,将新的输入样本输入至布尔矩阵,通过压缩矩阵向量的按位与运算得到项集支持度,并以此创建项集索引表;
S4:通过项集索引表筛选出所有不小于最小支持度的项集即为频繁项集,重复S4,直至得到最大的频繁项集;
S5:对频繁项集进行置信度计算,筛选出不小于最小置信度的频繁项集,即得到所需的关联规则;
在步骤S1中,配电网电压越限问题相关影响因素划分为典型现状因素和环境因素,典型现状因素按照不同电网层级电压水平现状又分为10kV母线层、10kV线路层和配变台区层;
所述10kV母线层的典型现状因素包括主变分接头档位和主变功率因数;10kV线路层的典型现状因素包括10kV线路功率因数、供电半径、线路负载率和线路型号;配变台区层的典型现状因素包括配变分接头档位、配变负载率、配变三相不平衡、台区供电半径和低压线路截面积;
在步骤S2中,所述约定性文本是指具有固定语法结构与表述的专用词组,不同约定性文本具有各自特定的含义与类别;所述描述性文本是相对于约定性文本而言主观性强、规范程度低的文本,多以长句形式出现;
在步骤S2中,包括以下方法:
S21:结合电力分类词典,采用jieba分词算法对描述性文本进行中文分词处理,即将连续的字序列按照一定的规范重新组合成词序列;
S22:剔除无实际区分作用的停用词;
S23:根据电力分类词典,通过词典匹配的方式对分词进行筛选、分类,其中,同一描述性文本包含多个类别;
S24:借助类别标签来标记描述性文本,将其与约定性文本重新构成新的数据集,并作为改进Apriori算法的输入样本。
2.根据权利要求1所述的一种基于改进Apriori的配电网电压越限问题关联分析方法,其特征在于,在步骤S3中,包括以下方法:S31:扫描输入样本,得到事务数据库T={T1,T2,…,Tn},其中Tj是由若干个文本信息组成的具有唯一标识的事务,设I={I1,I2,…,Im}是事务数据库T中不同项组成的集合,满足
Figure FDA0004176089990000021
即每个事务包含的k-项集都是I的子集,k表示项集中项的个数,{Ii}表示为1-项集;S32:设定最小支持度和最小置信度;
最小支持度公式为
Figure FDA0004176089990000022
最小置信度公式为
Figure FDA0004176089990000023
/>
式中:
Figure FDA0004176089990000024
且X∩Y=Φ,support_count(X∪Y)为支持度计数,表示项集X和Y同时出现在事务数据库的次数,total_count为事务数据库中事务的个数;
S33:将事务数据库T转换成布尔矩阵M,
Figure FDA0004176089990000025
其中行向量用不同项集标记,列向量用不同事务标记,行列按顺序排序,若第i个项集在第j个事务中,则矩阵的第i行、第j列的值dij为1,否则dij为0;
S34:计算k-项集的支持度计数:
Figure FDA0004176089990000026
式中:
Figure FDA0004176089990000027
为I中任取k个项合并形成的k-项集索引表,&是对应行向量中各分量的与运算符。
3.根据权利要求2所述的一种基于改进Apriori的配电网电压越限问题关联分析方法,其特征在于,在步骤S4中,k-项集索引表与最小支持度计数比较,筛选出所有不小于最小支持度计数的项集即为k-频繁项集Lk,根据第一频繁项集性质对布尔矩阵M进行列压缩,若Tj所在列向量之和小于等于1,则删除该列向量;各列向量逐列计算,得到压缩后的矩阵M1,根据第二频繁项集性质对矩阵M1进行行压缩,若Ii所在行向量之和小于最小支持度计数,则删去该行向量;各行向量逐行计算,得到压缩后的矩阵M2,令k=k+1,从矩阵M2中任取两个项集组合成所有可能的k-项集,假设Ci,k-1和Cj,k-1分别是矩阵M2中任意两个项集,并令项集中的项按顺序排序,若两个项集中的前(k-2)项相同,则连接组合,即Cp,k=Ci,k-1∪Cj,k-1,否则不连接组合,从k-项集索引表中筛选出所有不小于最小支持度计数的项集即为k-频繁项集Lk,并根据k-频繁项集Lk重新生成布尔矩阵M,重复筛选,直到不再生成频繁项集,所有频繁项集L表示为L=∪Lk
4.根据权利要求3所述的一种基于改进Apriori的配电网电压越限问题关联分析方法,其特征在于,在步骤S5中,对频繁项集计算置信度,其中X∈L,Y∈L,X∪Y∈L,且X∩Y=Φ,筛选出不小于最小置信度的频繁项集,即得到所需的关联规则。
5.根据权利要求3所述的一种基于改进Apriori的配电网电压越限问题关联分析方法,其特征在于,所述第一频繁项集性质为如果数据库中某条事务的长度为K,那么这条事务就不可能包含任何项数大于K的频繁项集。
6.根据权利要求3所述的一种基于改进Apriori的配电网电压越限问题关联分析方法,其特征在于,所述第二频繁项集性质为非频繁项集的任一超集必定也是非频繁项集。
CN202011105541.2A 2020-10-15 2020-10-15 一种基于改进Apriori的配电网电压越限问题关联分析方法 Active CN112329432B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011105541.2A CN112329432B (zh) 2020-10-15 2020-10-15 一种基于改进Apriori的配电网电压越限问题关联分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011105541.2A CN112329432B (zh) 2020-10-15 2020-10-15 一种基于改进Apriori的配电网电压越限问题关联分析方法

Publications (2)

Publication Number Publication Date
CN112329432A CN112329432A (zh) 2021-02-05
CN112329432B true CN112329432B (zh) 2023-05-26

Family

ID=74313855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011105541.2A Active CN112329432B (zh) 2020-10-15 2020-10-15 一种基于改进Apriori的配电网电压越限问题关联分析方法

Country Status (1)

Country Link
CN (1) CN112329432B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948502B (zh) * 2021-03-26 2023-06-27 江门职业技术学院 多来源传输数据分类存储方法、装置、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625574A (zh) * 2019-12-09 2020-09-04 昆明理工大学 一种基于布尔矩阵约简的关联规则挖掘算法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807053A (zh) * 2019-11-12 2020-02-18 深圳易嘉恩科技有限公司 一种基于改进Apriori算法找出频繁项集的方法
CN110991179A (zh) * 2019-11-13 2020-04-10 国网山东省电力公司临沂供电公司 基于电力专业术语的语义分析方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111625574A (zh) * 2019-12-09 2020-09-04 昆明理工大学 一种基于布尔矩阵约简的关联规则挖掘算法

Also Published As

Publication number Publication date
CN112329432A (zh) 2021-02-05

Similar Documents

Publication Publication Date Title
CN107301296B (zh) 基于数据的断路器故障影响因素定性分析方法
Ni et al. A cluster based feature selection method for cross-project software defect prediction
CN113435759B (zh) 一种基于深度学习的一次设备风险智能评估方法
CN107784392A (zh) 一种基于机器学习的输电线路的缺陷预测方法及装置
CN113379313B (zh) 一种具有智能化的预防性试验作业管控系统
CN111738331A (zh) 用户分类方法及装置、计算机可读存储介质、电子设备
CN112329432B (zh) 一种基于改进Apriori的配电网电压越限问题关联分析方法
CN117131449A (zh) 面向数据治理的具有传播学习能力的异常识别方法及系统
Suo et al. Computer assistance analysis of power grid relay protection based on data mining
Gao et al. Defect analysis of the same batch of substation equipment based on big data analysis algorithm
CN111339167A (zh) 基于K-means和主成分线性回归的台区线损率影响因素分析方法
CN114021425A (zh) 电力系统运行数据建模与特征选择方法、装置、电子设备和存储介质
CN113268370A (zh) 一种根因告警分析方法、系统、设备及存储介质
CN113961708B (zh) 一种基于多层次图卷积网络的电力设备故障溯源方法
CN116739408A (zh) 基于数据标签的电网调度安全监控方法、系统及电子设备
Feijoo-Martinez et al. Event analysis on power communication networks with big data for maintenance forms
El Bekri et al. Assuring data quality by placing the user in the loop
Wang et al. A new method for redundancy analysis in feature selection
Hu et al. A classification model of power operation inspection defect texts based on graph convolutional network
CN111428756A (zh) 基于时间序列信息熵的规划数据融合实时态方法及装置
CN113487194A (zh) 一种基于文本分类的电力系统调度员等级评估系统
CN111966758A (zh) 一种基于画像数据分析技术的电力隐患排查方法
An et al. Intelligent Filling Method of Power Grid Working Ticket Based on Historical Ticket Knowledge Base
CN113377746B (zh) 一种试验报告数据库构建和智能诊断分析系统
Zheng et al. Research on Text Classification Method of Distribution Network Terminal Debugging Job Based on Hierarchical Comprehensive Context

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant