CN112329432B - 一种基于改进Apriori的配电网电压越限问题关联分析方法 - Google Patents
一种基于改进Apriori的配电网电压越限问题关联分析方法 Download PDFInfo
- Publication number
- CN112329432B CN112329432B CN202011105541.2A CN202011105541A CN112329432B CN 112329432 B CN112329432 B CN 112329432B CN 202011105541 A CN202011105541 A CN 202011105541A CN 112329432 B CN112329432 B CN 112329432B
- Authority
- CN
- China
- Prior art keywords
- text
- sets
- frequent
- matrix
- item set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000010219 correlation analysis Methods 0.000 title claims description 11
- 239000011159 matrix material Substances 0.000 claims abstract description 50
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 31
- 230000006835 compression Effects 0.000 claims abstract description 11
- 238000007906 compression Methods 0.000 claims abstract description 11
- 238000005065 mining Methods 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 32
- 238000012216 screening Methods 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 230000001172 regenerating effect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 abstract description 8
- 238000012097 association analysis method Methods 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000004458 analytical method Methods 0.000 description 4
- 238000012098 association analyses Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/328—Management therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于改进Apriori的配电网电压越限问题关联分析方法,针对FP‑growth增长频繁模式受限于存储空间的局限性,本发明基于布尔矩阵生成项集索引表,由此挖掘频繁项集;针对传统Apriori算法存在较高时间复杂度的问题,本发明采用动态压缩矩阵方法减少数据扫描的规模,并且利用按位与运算代替传统Apriori算法的连接步的低速查找比较运算;针对描述性文本难以结构化表达的问题,本发明采用文本挖掘技术对描述性文本进行文本分类,以此实现文本预处理。
Description
技术领域
本发明涉及配电网领域,更具体地,涉及一种基于改进Apriori的配电网电压越限问题关联分析方法。
背景技术
随着社会的发展和电力需求的扩大,人们对供电质量的要求日益提高,而配电网电压越限问题作为电力系统薄弱环节一直是供电企业关注和治理的重点对象。近年来,供电企业大力推广与应用智能电表、智能开关等终端设备,为电网大数据平台的构建积累了海量数据,这不仅克服了传统电气计算能力的局限性,也为电力系统运行分析与规划建设等方面提供新的研究思路。因此如何充分利用好电力大数据资源,辅助工作人员快速分析、处理电压越限问题,成为改善配电网电压质量过程中必须面对的难题。
相近似的实现方案有两种,分别是FP-growth算法和传统Apriori算法。
FP-growth是一种基于FP-tree(频繁模式树)的关联规则算法。其主要步骤是采用分治策略,通过两次扫描样本集建立FP-tree,利用树结构对样本进行压缩,不需产生候选项集,然后采用增长频繁集的方法挖掘满足关联规则的频繁项。FP-tree是哈希树的变种,树的子叶存储频繁1-项集,树的枝干用来表示特定的关联规则。但是FP-growth采用递归增长频繁项的模式存在两个方面的缺陷:一是由于自底向上挖掘时需要反复搜索FP-tree,容易产生较多的指针链;二是当FP-tree的分支数很多且长度较长时,存储项集将占用大量存储空间,内存开销大
Apriori是所有关联规则算法中最具影响力的一种经典算法,其核心思想是采用逐层搜索的迭代方法对事务集进行不断的连接、遍历与剪枝,直至找到最大频繁项集及其关联规则。针对事务数据库,Apriori算法从频繁k项集的集合Lk中迭代产生与其连接的k+1候选项集合Ck+1,然后将数据库压缩至Ck+1范围内搜索频繁k+1项集Lk+1,最后在所有频繁项集中生成给定条件的关联规则,用于发现海量数据中各项集间的关联信息;但是传统Apriori算法在生成候选项集后需要对大量候选项集计算支持度,再加上重复扫描数据集将显著增加运算时间,很大程度上影响算法效率;由于中文文本半结构化数据的复杂性以及文本书写过程中的主观经验性,导致与电压越限相关的描述性文本难以直接用于关联规则的计算过程。
现有的技术中,中国发明专利CN110266000A公开了“一种配电网电压越限原因分析方法、系统及存储介质”,公开日为2019年09月20日,其包括分析方法包括采集目标配电网区域内电压越限信息,形成电压越限待分析事件;根据电压越限待分析事件,基于信息化系统多源数据,获取配电网线路的馈线级有效信息,构建馈线信息库;将馈线信息库中的馈线级有效信息,分层级初步诊断电压越限的原因,并构建各层级电压越限事件分类判定模型参数库;根据各层级电压越限事件及电压越限的原因机理,构建电压越限原因诊断模型参数库,输出电压越限事件原因分析结果;该专利解决海量配电设备异常运行及配电网电压越限原因分析,配电网电压越限原因分析效率低的问题,但是分析解决电压越限问题是建立模型参数库,分层级初步诊断电压越限的原因,但是并没有分析配电网电压越限问题及其影响因素之间的关联关系,没有挖掘造成电压越限问题的主要影响因素,从而无法为制定电压治理方案的决策建议提供有价值的参考信息。
发明内容
本发明为解决FP-growth增长频繁模式受限于存储空间的局限性、传统Apriori算法存在较高时间复杂度和描述性文本难以结构化表达的技术缺陷,提供了一种基于改进Apriori的配电网电压越限问题关联分析方法。
为实现以上发明目的,采用的技术方案是:
一种基于改进Apriori的配电网电压越限问题关联分析方法,包括以下步骤:
S1:输入含配电网电压越限问题相关影响因素的文本信息,并按有关书写规范将其划分为约定性文本和描述性文本;
S2:通过文本挖掘对描述性文本进行文本分类,用类别标签标记描述性文本,并将其与约定性文本重新构成新的输入样本;
S3:根据不同事务和项集生成布尔矩阵,将新的输入样本输入至布尔矩阵,通过压缩矩阵向量的按位与运算得到项集支持度,并以此创建项集索引表;
S4:通过项集索引表筛选出所有不小于最小支持度的项集即为频繁项集,重复S4,直至得到最大的频繁项集;
S5:对频繁项集进行置信度计算,筛选出不小于最小置信度的频繁项集,即得到所需的关联规则。
上述方案中,针对FP-growth增长频繁模式受限于存储空间的局限性,本发明基于布尔矩阵生成项集索引表,由此挖掘频繁项集;针对传统Apriori算法存在较高时间复杂度的问题,本发明采用动态压缩矩阵方法减少数据扫描的规模,并且利用按位与运算代替传统Apriori算法的连接步的低速查找比较运算;针对描述性文本难以结构化表达的问题,本发明采用文本挖掘技术对描述性文本进行文本分类,以此实现文本预处理。
在步骤S1中,配电网电压越限问题相关影响因素主要划分为典型现状因素和环境因素,典型现状因素按照不同电网层级电压水平现状又分为10kV母线层、10kV线路层和配变台区层。
所述10kV母线层的典型现状因素包括主变分接头档位和主变功率因数;10kV线路层的典型现状因素包括10kV线路功率因数、供电半径、线路负载率和线路型号;配变台区层的典型现状因素包括配变分接头档位、配变负载率、配变三相不平衡、台区供电半径和低压线路截面积。
在步骤S2中,所述约定性文本是指具有固定语法结构与表述的专用词组,不同约定性文本具有各自特定的含义与类别;所述描述性文本是相对于约定性文本而言主观性强、规范程度低的文本,多以长句形式出现。
在步骤S2中,包括以下方法:
S21:结合电力分类词典,采用jieba分词算法对描述性文本进行中文分词处理,即将连续的字序列按照一定的规范重新组合成词序列;
S22:剔除无实际区分作用的停用词,例如一些常见的语气助词、副词和连接词等可作为停用词在分词处理后剔除掉;
S23:根据相关的电力分类词典,通过词典匹配的方式对分词进行筛选、分类,关键词相匹配,则将该条文本归为线路隐患类别。同一描述性文本可包含多个类别;
S24:借助类别标签来标记描述性文本,将其与约定性文本重新构成新的数据集,并作为改进Apriori算法的输入样本。
在步骤S3中,包括以下方法:S31:扫描输入样本,得到事务数据库T={T1,T2,Λ,Tn},其中Tj是由若干个文本信息组成的具有唯一标识的事务,设I={I1,I2,Λ,Im}是事务数据库T中不同项组成的集合,满足即每个事务包含的k-项集都是I的子集,k表示项集中项的个数{Ii}表示为1-项集;S32:
设定最小支持度和最小置信度;
S33:将事务数据库T转换成布尔矩阵M,
其中行向量用不同项集标记,列向量用不同事务标记,行列按顺序排序,若第i个项集在第j个事务中,则矩阵的第i行、第j列的值dij为1,否则dij为0;
在步骤S4中,k-项集索引表与最小支持度计数比较,筛选出所有不小于最小支持度计数的项集即为k-频繁项集Lk,根据第一频繁项集性质对布尔矩阵M进行列压缩,若Tj所在列向量之和小于等于1,则删除该列向量;各列向量逐列计算,得到压缩后的矩阵M1,根据第二频繁项集性质对矩阵M1进行行压缩,若Ii所在行向量之和小于最小支持度计数,则删去该行向量;各行向量逐行计算,得到压缩后的矩阵M2,令k=k+1,从矩阵M2中任取两个项集组合成所有可能的k-项集,假设Ci,k-1和Cj,k-1分别是矩阵M2中任意两个项集,并令项集中的项按顺序排序,若两个项集中的前(k-2)项相同,则连接组合,即Cp,k=Ci,k-1∪Cj,k-1,否则不连接组合,从k-项集索引表中筛选出所有不小于最小支持度计数的项集即为k-频繁项集Lk,并根据k-频繁项集Lk重新生成布尔矩阵M,重复筛选,直到不再生成频繁项集,所有频繁项集L表示为L=∪Lk。
在步骤S5中,对频繁项集计算置信度,其中X∈L,Y∈L,X∪Y∈L,且X∩Y=Φ,筛选出不小于最小置信度的频繁项集,即得到所需的关联规则。
所述第一频繁项集性质为如果数据库中某条事务的长度为K,那么这条事务就不可能包含任何项数大于K的频繁项集。
所述第二频繁项集性质为非频繁项集的任一超集必定也是非频繁项集。
上述方案中,利用项集索引表避免产生大量的候选项集,而且每经过一次数据扫描,由于布尔矩阵的压缩,所占用的存储空间也在变小,有利于提高算法运行性能;通过对矩阵进行行列压缩将大幅减少扫描统计的数据量,对压缩后的矩阵向量作按位与运算来得到项集支持度,能够有效提高关联分析的计算效率;采用jieba分词算法、停用词过滤与词典匹配方式进行文本分类,并通过类别标签来标记描述性文本,有效实现描述性本文的结构化表达。
与现有技术相比,本发明的有益效果是:
本发明提供一种基于改进Apriori的配电网电压越限问题关联分析方法,针对FP-growth增长频繁模式受限于存储空间的局限性,本发明基于布尔矩阵生成项集索引表,由此挖掘频繁项集;针对传统Apriori算法存在较高时间复杂度的问题,本发明采用动态压缩矩阵方法减少数据扫描的规模,并且利用按位与运算代替传统Apriori算法的连接步的低速查找比较运算;针对描述性文本难以结构化表达的问题,本发明采用文本挖掘技术对描述性文本进行文本分类,以此实现文本预处理。
附图说明
图1为本发明的方法流程图;
图2为本发明的中文分词结果图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
以下结合附图和实施例对本发明做进一步的阐述。
实施例1
如图1所示,一种基于改进Apriori的配电网电压越限问题关联分析方法,包括以下步骤:
S1:输入含配电网电压越限问题相关影响因素的文本信息,并按有关书写规范将其划分为约定性文本和描述性文本;
S2:通过文本挖掘对描述性文本进行文本分类,用类别标签标记描述性文本,并将其与约定性文本重新构成新的输入样本;
S3:根据不同事务和项集生成布尔矩阵,将新的输入样本输入至布尔矩阵,通过压缩矩阵向量的按位与运算得到项集支持度,并以此创建项集索引表;
S4:通过项集索引表筛选出所有不小于最小支持度的项集即为频繁项集,重复S4,直至得到最大的频繁项集;
S5:对频繁项集进行置信度计算,筛选出不小于最小置信度的频繁项集,即得到所需的关联规则。
上述方案中,针对FP-growth增长频繁模式受限于存储空间的局限性,本发明基于布尔矩阵生成项集索引表,由此挖掘频繁项集;针对传统Apriori算法存在较高时间复杂度的问题,本发明采用动态压缩矩阵方法减少数据扫描的规模,并且利用按位与运算代替传统Apriori算法的连接步的低速查找比较运算;针对描述性文本难以结构化表达的问题,本发明采用文本挖掘技术对描述性文本进行文本分类,以此实现文本预处理。
在步骤S1中,配电网电压越限问题相关影响因素主要划分为典型现状因素和环境因素,典型现状因素按照不同电网层级电压水平现状又分为10kV母线层、10kV线路层和配变台区层。
所述10kV母线层的典型现状因素包括主变分接头档位和主变功率因数;10kV线路层的典型现状因素包括10kV线路功率因数、供电半径、线路负载率和线路型号;配变台区层的典型现状因素包括配变分接头档位、配变负载率、配变三相不平衡、台区供电半径和低压线路截面积。
在步骤S2中,所述约定性文本是指具有固定语法结构与表述的专用词组,不同约定性文本具有各自特定的含义与类别;所述描述性文本是相对于约定性文本而言主观性强、规范程度低的文本,多以长句形式出现。
在步骤S2中,包括以下方法:
S21:结合电力分类词典,采用jieba分词算法对描述性文本进行中文分词处理,即将连续的字序列按照一定的规范重新组合成词序列;
S22:剔除无实际区分作用的停用词,例如一些常见的语气助词、副词和连接词等可作为停用词在分词处理后剔除掉;
S23:根据相关的电力分类词典,通过词典匹配的方式对分词进行筛选、分类,关键词相匹配,则将该条文本归为线路隐患类别。同一描述性文本可包含多个类别;
S24:借助类别标签来标记描述性文本,将其与约定性文本重新构成新的数据集,并作为改进Apriori算法的输入样本。
在步骤S3中,包括以下方法:S31:扫描输入样本,得到事务数据库T={T1,T2,Λ,Tn},其中Tj是由若干个文本信息组成的具有唯一标识的事务,设I={I1,I2,Λ,Im}是事务数据库T中不同项组成的集合,满足即每个事务包含的k-项集都是I的子集,k表示项集中项的个数{Ii}表示为1-项集;S32:设定最小支持度和最小置信度;
S33:将事务数据库T转换成布尔矩阵M,
其中行向量用不同项集标记,列向量用不同事务标记,行列按顺序排序,若第i个项集在第j个事务中,则矩阵的第i行、第j列的值dij为1,否则dij为0;
在步骤S4中,k-项集索引表与最小支持度计数比较,筛选出所有不小于最小支持度计数的项集即为k-频繁项集Lk,根据第一频繁项集性质对布尔矩阵M进行列压缩,若Tj所在列向量之和小于等于1,则删除该列向量;各列向量逐列计算,得到压缩后的矩阵M1,根据第二频繁项集性质对矩阵M1进行行压缩,若Ii所在行向量之和小于最小支持度计数,则删去该行向量;各行向量逐行计算,得到压缩后的矩阵M2,令k=k+1,从矩阵M2中任取两个项集组合成所有可能的k-项集,假设Ci,k-1和Cj,k-1分别是矩阵M2中任意两个项集,并令项集中的项按顺序排序,若两个项集中的前(k-2)项相同,则连接组合,即Cp,k=Ci,k-1∪Cj,k-1,否则不连接组合,从k-项集索引表中筛选出所有不小于最小支持度计数的项集即为k-频繁项集Lk,并根据k-频繁项集Lk重新生成布尔矩阵M,重复筛选,直到不再生成频繁项集,所有频繁项集L表示为L=∪Lk。
在步骤S5中,对频繁项集计算置信度,其中X∈L,Y∈L,X∪Y∈L,且X∩Y=Φ,筛选出不小于最小置信度的频繁项集,即得到所需的关联规则。
所述第一频繁项集性质为如果数据库中某条事务的长度为K,那么这条事务就不可能包含任何项数大于K的频繁项集。
所述第二频繁项集性质为非频繁项集的任一超集必定也是非频繁项集。
上述方案中,利用项集索引表避免产生大量的候选项集,而且每经过一次数据扫描,由于布尔矩阵的压缩,所占用的存储空间也在变小,有利于提高算法运行性能;通过对矩阵进行行列压缩将大幅减少扫描统计的数据量,对压缩后的矩阵向量作按位与运算来得到项集支持度,能够有效提高关联分析的计算效率;采用jieba分词算法、停用词过滤与词典匹配方式进行文本分类,并通过类别标签来标记描述性文本,有效实现描述性本文的结构化表达。
实施例2
如图2所示,本专利选取的实验数据为某地区配电网2018年共计140条电压越限问题的记录数据,包含的文本信息X={台区电压越限问题,与台区电压越限相关的典型现状因素,与台区电压越限相关的环境因素},采用本专利所提方法对电压越限问题与其相关影响因素之间的关联关系进行分析。仿真实验通过python编程实现,所使用的计算机配置为英特尔i7-8550U处理器和8GB内存;
在执行关联规则算法之前,采用文本挖掘的方法对描述性文本进行文本分类。以某一条描述性文本为例,其分词结果如图2所示,其中“安全距离不足”与“设备残旧”两个分词分别与“线路隐患”和“设备残旧”分类词典中的关键词相匹配,则将该条文本归为线路隐患和设备残旧两个问题类别;
在重构得到新的输入样本的基础上采用改进Apriori算法分析电压越限问题与其相关影响因素之间的关联关系。设定最小支持度为10%,最小置信度为70%。改进Apriori算法运行时间共计0.046秒,生成的频繁项集共有43个,关联规则共有7个,部分结果如下所示:
表1关联分析得到的频繁项集(部分)
表2关联分析得到的关联规则(部分)
由关联分析结果可知,该地区配电网电压越限问题主要为配变台区电压偏高。频繁项集{配变台区电压偏高,台区供电半径过大}和{配变台区电压偏高,馈线供电半径过大}的支持度分别为0.27和0.18,说明频繁项集中的各元素具有较强的关联关系,这也印证了供电半径与电压越限在理论上的因果关系,根据这一关联统计结果,可将供电半径作为该地区配电网电压越限的主要影响原因,可进一步作为电压治理专项方案的解决目标。频繁项集{配变台区电压偏高,馈线存在设备残旧}的支持度高达0.51,远大于其它频繁项集,但考虑到设备残旧涉及的具体情况较为复杂、覆盖面较广,尚不足以推断设备残旧是否直接导致电压越限问题,而作为统计依据,可指导今后设备运维工作加强检测,注意是否会存在接触不良、接地泄漏等原因导致电压越限。根据配变台区电压偏高与所在地军民路之间的关联关系,可将军民路作为电压监测与排查的重点区域,也可以结合网络拓扑结构进一步分析该片区域电压越限的成因,另外由表2的第一条关联规则可知,当军民路存在配变台区电压偏高问题时,这些配变台区有百分之百可能接入于110kV金湾站,因此基于算法的关联分析结果,可重点排查110kV金湾站分接头与功率因数是否符合配电网运行规定的要求
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (6)
1.一种基于改进Apriori的配电网电压越限问题关联分析方法,其特征在于,包括以下步骤:
S1:输入含配电网电压越限问题相关影响因素的文本信息,并按有关书写规范将其划分为约定性文本和描述性文本;
S2:通过文本挖掘对描述性文本进行文本分类,用类别标签标记描述性文本,并将其与约定性文本重新构成新的输入样本;
S3:根据不同事务和项集生成布尔矩阵,将新的输入样本输入至布尔矩阵,通过压缩矩阵向量的按位与运算得到项集支持度,并以此创建项集索引表;
S4:通过项集索引表筛选出所有不小于最小支持度的项集即为频繁项集,重复S4,直至得到最大的频繁项集;
S5:对频繁项集进行置信度计算,筛选出不小于最小置信度的频繁项集,即得到所需的关联规则;
在步骤S1中,配电网电压越限问题相关影响因素划分为典型现状因素和环境因素,典型现状因素按照不同电网层级电压水平现状又分为10kV母线层、10kV线路层和配变台区层;
所述10kV母线层的典型现状因素包括主变分接头档位和主变功率因数;10kV线路层的典型现状因素包括10kV线路功率因数、供电半径、线路负载率和线路型号;配变台区层的典型现状因素包括配变分接头档位、配变负载率、配变三相不平衡、台区供电半径和低压线路截面积;
在步骤S2中,所述约定性文本是指具有固定语法结构与表述的专用词组,不同约定性文本具有各自特定的含义与类别;所述描述性文本是相对于约定性文本而言主观性强、规范程度低的文本,多以长句形式出现;
在步骤S2中,包括以下方法:
S21:结合电力分类词典,采用jieba分词算法对描述性文本进行中文分词处理,即将连续的字序列按照一定的规范重新组合成词序列;
S22:剔除无实际区分作用的停用词;
S23:根据电力分类词典,通过词典匹配的方式对分词进行筛选、分类,其中,同一描述性文本包含多个类别;
S24:借助类别标签来标记描述性文本,将其与约定性文本重新构成新的数据集,并作为改进Apriori算法的输入样本。
2.根据权利要求1所述的一种基于改进Apriori的配电网电压越限问题关联分析方法,其特征在于,在步骤S3中,包括以下方法:S31:扫描输入样本,得到事务数据库T={T1,T2,…,Tn},其中Tj是由若干个文本信息组成的具有唯一标识的事务,设I={I1,I2,…,Im}是事务数据库T中不同项组成的集合,满足即每个事务包含的k-项集都是I的子集,k表示项集中项的个数,{Ii}表示为1-项集;S32:设定最小支持度和最小置信度;
S33:将事务数据库T转换成布尔矩阵M,
其中行向量用不同项集标记,列向量用不同事务标记,行列按顺序排序,若第i个项集在第j个事务中,则矩阵的第i行、第j列的值dij为1,否则dij为0;
3.根据权利要求2所述的一种基于改进Apriori的配电网电压越限问题关联分析方法,其特征在于,在步骤S4中,k-项集索引表与最小支持度计数比较,筛选出所有不小于最小支持度计数的项集即为k-频繁项集Lk,根据第一频繁项集性质对布尔矩阵M进行列压缩,若Tj所在列向量之和小于等于1,则删除该列向量;各列向量逐列计算,得到压缩后的矩阵M1,根据第二频繁项集性质对矩阵M1进行行压缩,若Ii所在行向量之和小于最小支持度计数,则删去该行向量;各行向量逐行计算,得到压缩后的矩阵M2,令k=k+1,从矩阵M2中任取两个项集组合成所有可能的k-项集,假设Ci,k-1和Cj,k-1分别是矩阵M2中任意两个项集,并令项集中的项按顺序排序,若两个项集中的前(k-2)项相同,则连接组合,即Cp,k=Ci,k-1∪Cj,k-1,否则不连接组合,从k-项集索引表中筛选出所有不小于最小支持度计数的项集即为k-频繁项集Lk,并根据k-频繁项集Lk重新生成布尔矩阵M,重复筛选,直到不再生成频繁项集,所有频繁项集L表示为L=∪Lk。
4.根据权利要求3所述的一种基于改进Apriori的配电网电压越限问题关联分析方法,其特征在于,在步骤S5中,对频繁项集计算置信度,其中X∈L,Y∈L,X∪Y∈L,且X∩Y=Φ,筛选出不小于最小置信度的频繁项集,即得到所需的关联规则。
5.根据权利要求3所述的一种基于改进Apriori的配电网电压越限问题关联分析方法,其特征在于,所述第一频繁项集性质为如果数据库中某条事务的长度为K,那么这条事务就不可能包含任何项数大于K的频繁项集。
6.根据权利要求3所述的一种基于改进Apriori的配电网电压越限问题关联分析方法,其特征在于,所述第二频繁项集性质为非频繁项集的任一超集必定也是非频繁项集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011105541.2A CN112329432B (zh) | 2020-10-15 | 2020-10-15 | 一种基于改进Apriori的配电网电压越限问题关联分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011105541.2A CN112329432B (zh) | 2020-10-15 | 2020-10-15 | 一种基于改进Apriori的配电网电压越限问题关联分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112329432A CN112329432A (zh) | 2021-02-05 |
CN112329432B true CN112329432B (zh) | 2023-05-26 |
Family
ID=74313855
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011105541.2A Active CN112329432B (zh) | 2020-10-15 | 2020-10-15 | 一种基于改进Apriori的配电网电压越限问题关联分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329432B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112948502B (zh) * | 2021-03-26 | 2023-06-27 | 江门职业技术学院 | 多来源传输数据分类存储方法、装置、设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111625574A (zh) * | 2019-12-09 | 2020-09-04 | 昆明理工大学 | 一种基于布尔矩阵约简的关联规则挖掘算法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110807053A (zh) * | 2019-11-12 | 2020-02-18 | 深圳易嘉恩科技有限公司 | 一种基于改进Apriori算法找出频繁项集的方法 |
CN110991179A (zh) * | 2019-11-13 | 2020-04-10 | 国网山东省电力公司临沂供电公司 | 基于电力专业术语的语义分析方法 |
-
2020
- 2020-10-15 CN CN202011105541.2A patent/CN112329432B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111625574A (zh) * | 2019-12-09 | 2020-09-04 | 昆明理工大学 | 一种基于布尔矩阵约简的关联规则挖掘算法 |
Also Published As
Publication number | Publication date |
---|---|
CN112329432A (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107301296B (zh) | 基于数据的断路器故障影响因素定性分析方法 | |
Ni et al. | A cluster based feature selection method for cross-project software defect prediction | |
CN113435759B (zh) | 一种基于深度学习的一次设备风险智能评估方法 | |
CN107784392A (zh) | 一种基于机器学习的输电线路的缺陷预测方法及装置 | |
CN113379313B (zh) | 一种具有智能化的预防性试验作业管控系统 | |
CN111738331A (zh) | 用户分类方法及装置、计算机可读存储介质、电子设备 | |
CN112329432B (zh) | 一种基于改进Apriori的配电网电压越限问题关联分析方法 | |
CN117131449A (zh) | 面向数据治理的具有传播学习能力的异常识别方法及系统 | |
Suo et al. | Computer assistance analysis of power grid relay protection based on data mining | |
Gao et al. | Defect analysis of the same batch of substation equipment based on big data analysis algorithm | |
CN111339167A (zh) | 基于K-means和主成分线性回归的台区线损率影响因素分析方法 | |
CN114021425A (zh) | 电力系统运行数据建模与特征选择方法、装置、电子设备和存储介质 | |
CN113268370A (zh) | 一种根因告警分析方法、系统、设备及存储介质 | |
CN113961708B (zh) | 一种基于多层次图卷积网络的电力设备故障溯源方法 | |
CN116739408A (zh) | 基于数据标签的电网调度安全监控方法、系统及电子设备 | |
Feijoo-Martinez et al. | Event analysis on power communication networks with big data for maintenance forms | |
El Bekri et al. | Assuring data quality by placing the user in the loop | |
Wang et al. | A new method for redundancy analysis in feature selection | |
Hu et al. | A classification model of power operation inspection defect texts based on graph convolutional network | |
CN111428756A (zh) | 基于时间序列信息熵的规划数据融合实时态方法及装置 | |
CN113487194A (zh) | 一种基于文本分类的电力系统调度员等级评估系统 | |
CN111966758A (zh) | 一种基于画像数据分析技术的电力隐患排查方法 | |
An et al. | Intelligent Filling Method of Power Grid Working Ticket Based on Historical Ticket Knowledge Base | |
CN113377746B (zh) | 一种试验报告数据库构建和智能诊断分析系统 | |
Zheng et al. | Research on Text Classification Method of Distribution Network Terminal Debugging Job Based on Hierarchical Comprehensive Context |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |