CN111160750A

CN111160750A - 一种基于关联规则挖掘的配网分析和投资决策方法

Info

Publication number: CN111160750A
Application number: CN201911341294.3A
Authority: CN
Inventors: 周建华; 朱倩
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-05-15

Abstract

本发明公开了一种基于关联规则挖掘的配网分析和投资决策方法。通过采集配网历史运行数据，并进行数据预处理，对坏数据/缺数据情况进行填补或剔除，并根据指标分析要求进行数据归一化处理；随后通过主成分分析进行降维处理，采用K‑means聚类对各指标进行聚类分析；对于不同主成分，通过数据关联规则挖掘频繁项集以及强/弱关联规则，确定影响各个主成分的强关联指标；与此同时，建立配网运行评估模型，根据综合评分和各层级得分寻找配网的薄弱点；根据指标年变化率和年度投资金额建立投资回报率模型，挖掘对投资敏感度的指标；最后综合配网运行现状、主成分强关联指标和投资回报率模型建立投资量化决策模型，进行定量投资决策分析。

Description

一种基于关联规则挖掘的配网分析和投资决策方法

技术领域

本发明涉及的一种基于关联规则挖掘的配网分析和投资决策方法，是一种以配电网运行状态分析为基础，采用数据清洗、数据关联规则挖掘配影响电网运行的关键指标，采用综合评价寻找配网运行薄弱环节，根据薄弱环节的影响指标和投资回报率进行后续投资决策，属于配网运行评估范畴。

背景技术

随着国家经济结构调整，电力企业投资管理的目标已从扩大规模逐渐向提高电网质量转变。然而配电网建设规模较大、不确定因素众多、其建设过程中存在诸多问题与挑战，针对复杂配电网综合评价与决策研究，简单根据设备规模、负载率等单方面指标的统计结果，依赖专家经验定性分析评价配电系统，已不能满足其科学化投资管理的需要，与此同时，随着电力大数据的不断普及，如何利用好大数据，深度挖掘配网运行中的薄弱环节，并为此后的投资提供决策依据，因此必要提出一种基于关联规则挖掘的配网分析和投资决策方法。

针对配电网发展现状的综合评价和决策分析，目前部分方法通过建立配电网投资决策评价指标体系，结合层次分析法、主成分分析、聚类分析等展开综合投资决策分析并确定了最优投资方案，但此类方法多从统计学角度进行分析，并未利用大数据技术对数据指标之间存在的潜在联系进行深层挖掘，且所得到的投资方案只是停留在方向上的指引，并未做出量化决策方案，因此关于配电网发展现状的综合评价和决策分析研究存在以下不足：

1.未考虑数据指标潜在的联系。电力大数据的不断普及使得采用传统统计方法对配网进行评估已远远不够，利用大数据技术挖掘配网运行的潜在问题的趋势未来会越来越明显，而当今鲜有研究将大数据技术运用在配网投资决策方案中。

2.未量化给出投资决策方案。绝大部分配网投资方案均只是根据配网的发展现状给出方向性的建议，并未具体给出投资量化分析，随着大数据技术的挖掘，投资量化的有效性分析可根据配网相应指标的实际年变化量和目标年变化量进行挖掘和资金量化分配。

综上所述，有必要将大数据技术与配网运行评估和投资决策进行融合，寻找配网运行指标内的潜在关联规则，为配网投资提出量化决策方案。

发明内容

为解决上述问题，为配网投资决策提供参考，本发明提出一种基于关联规则挖掘的配网分析和投资决策方法。通过采集配网历史运行数据，并进行数据预处理，对坏数据/缺数据情况进行填补或剔除，并根据指标分析要求进行数据归一化处理；随后通过主成分分析进行降维处理，采用K-means聚类对各指标进行聚类分析；对于不同主成分，通过数据关联规则挖掘频繁项集以及强/弱关联规则，确定影响各个主成分的强关联指标；与此同时，建立配网运行评估模型，根据综合评分和各层级得分寻找配网的薄弱点；根据指标年变化率和年度投资金额建立投资回报率模型，挖掘对投资敏感度的指标；最后综合配网运行现状、主成分强关联指标和投资回报率模型建立投资量化决策模型，进行定量投资决策分析。

为实现上述目的，本发明采用的技术方案为：

一种基于关联规则挖掘的配网分析和投资决策方法包含以下步骤：

步骤S1、获取配网运行数据，分别采用均值法、多重插补法进行坏数据和缺数据进行数据预处理，并用最大值-最小值进行归一化和标准化处理；

步骤S2、采用主成分分析法对数据进行降维分析，将所得数据分为n个维度；

步骤S3、采用K-means聚类方法，对各指标数据和各指标数据年变化量进行聚类分析，确定聚类中心，并根据距离聚类中心的长短确定等级范围；

步骤S4、设定最小支持度，采用FP-Growth算法从n个维度挖掘频繁项集；

步骤S5、采用关联规则挖掘各项指标与所述维度的关联规则、各指标年变化量与投资金额的关联规则，并设定最小置信度，寻找各维度上指标的强关联规则和各指标的投资回报率；

步骤S6、根据预处理后得到的指标数据建立配网运行评估模型，寻找配网运行薄弱点及其强关联指标；

步骤S7、根据强关联规则寻找影响配网运行的薄弱指标和各指标的投资回报率综合进行投资决策；

其中，步骤S1具体如下，为获得后续评估的有效完整的数据，构建坏数据和缺失数据的填补和删除模型：

针对缺失数据，采用多重插补模型处理，采用R语言的mice()函数对缺失数据集进行处理，生成多个完整数据集，再利用with()函数对完整数据集进行线性模型回归分析，最后采用pool()函数将单独的分析结果整合为一组结果，根据最终模型的标准误差和p值选取较为合理的值；

不可修复坏数据，直接删除该指标；可修复发坏数据，采用均值替换模型：

式中：x_i为指标坏数据，x_j为除指标坏数据外的同一类型的数据，I为除含坏数据外的指标数据集合。

其中，步骤S2具体如下，采用主成分分析对经预处理后得到的N_s个指标进行降维分析，并根据样本信息量确定主成分及其各主成分所包含的指标：

Y＝PX (2)

式中，Y为处理后得到的指标数据集合，P为转换向量，X为原始指标数据向量，其中

N_d为研究对象数量，N_s为降维分析前的指标数量，N_a为降维分析后的指标数量，N_d≤N_s。

其中，步骤S3具体如下，采用k-means聚类对N_s个指标进行聚类，并确定N_a个对象分别对应的N_s个指标的等级范围；

以年份为基本单元，对N_s个指标作k-means聚类，其基本步骤为：

1.对N_a个指标作归一化处理，归一化公式为：

x_ij ^*＝(x_ij-x_i,min)/(x_i,max-x_i,min)(i＝1,2,…N_a；j＝1,2,…N_d) (3)

式中，x_ij ^*为第i个指标第j个数据归一化后的值，x_i,min为第i个指标的最小值，x_i,max为第i个指标的最大值；

2.分别构造N_a个指标的k-means聚类样本：

式中，S_i为指标i的聚类样本；

3.从S_i中随机选取k个不重复行向量，初始化k个聚类中心，x_c1、x_c2…x_ck；4.计算每一个样本到各聚类中心的距离，并把样本归到各聚类中心，其中距离公式采用欧式距离公式：

4.计算每一类新的聚类中心，则第i个聚类中心的更新公式为：

5.重复上述步骤4，直至聚类中心收敛为止；

其中，步骤S4具体如下，采用FP-Growth算法分别从各个主成分挖掘频繁项集：

1.选取主成分i的最小支持度：

式中，N_{grade_I}为指标等级个数不小于D_min的事务个数；

2.将N_d组数据集中的等级按照出现的次数降序排列，删除小于min_sup_I的项，然后按照每个事务对应的支持度进行排序，删掉小于min_sup_I的项；

3.用排序好的事务构建前缀树，即FP-Tree树；

4.深度优先遍历FP-Tree树，生成其条件模式基；

5.以条件模式基当成数据库，重复(2-4)，最后生成频繁项集。

其中，步骤S5具体如下，采用关联规则算法挖掘与各主成分具有强相关的指标等级：

1.选取主成分i的最小置信度：

式中，C_{grade_A}为主成分i中包含A指标等级的事务个数，C_{mul_grade}为主成分i中同时包含A和B指标等级的最小事务个数，A，B为待判定的指标等级；

2.根据最小支持度确定主成分i的强关联规则，为寻找配网运行薄弱主成分的强关联规则作铺垫。

其中，步骤S6具体如下，建立配网运行评估模型；

1.根据上述经过预处理后得到的N_d*N_a*N_y个数据按其性质分类，构建层次结构指标体系，并用层次分析法构造判断矩阵，进一步计算第i个指标的主观权重值α_i(i＝1,2,…,n)；

2.利用熵权法计算第i个指标的客观权重值β_i；

3.根据α_i和β_i，进一步计算各个指标组合赋权值γ_i：

式中，θ₁、θ₂分别为层次分析法和熵权法的加权系数；

4.根据组合权重γ_i和隶属度函数，计算每个指标的得分；

5.将各个指标的得分相加，得出每个评价对象的综合得分，综合得分采用百分制计算，设定最低得分为60分，最高得分为100分；

6.根据专家组制定的综合得分等级划分区间，将综合得分进行等级划分和进一步的评估分析，得到配网运行的薄弱成分。

其中，步骤S7具体如下，建立综合配网运行现状、主成分强关联指标和投资回报率模型建立投资量化决策模型：

式中，f_i为指标i的投资回报率，Δx_i为指标i的实际年变化量，ΔO_i为指标i的目标年变化量，M_i为指标i是否为配网薄弱指标，C_i为指标i的置信度值

所述数据预处理方法，能够保证数据库的信息完整性和分析结果可靠性；

所述主成分分析法，能够降低数据指标分析的冗余度，精简意义相同的指标，提高分析效率；

所述K-means聚类方法，实现多数据的自动聚类，排除人为分类的主观性，提高决策分析的客观性；

所述数据关联规则技术，能够挖掘数据潜在关联，更加充分地利用数据特性，为决策提供更有效的参考的依据。

相对于现有技术，本发明的优点如下：该技术方案克服了现有技术的问题，考虑到数据指标潜在的联系，并且量化给出具体的投资决策分析。本发明首先采用大数据技术对初步选取的指标数据进行清洗，得到数据完整、合理和准确评价体系，采用主成分分析和聚类分析将评价指标体系按不同的性质进行指标关联分析，从不同角度和不同维度进行配电网评价分析；采用基于FP_Tree的关联规则和最小置信度和最小支持度确定不同性质下指标间的强弱关联关系，从指标本身数据间的关系入手，改变了通过传统专家经验法确定指标间的关联强度的方法，具有客观性和有效性；最后根据强弱关联规则和基础指标数据改善量建立基于投资回报率的投资量化决策模型，配电网可根据投资决策模型值的排序确定投资方向，以量化分析给出配电网投资决策方案，降低了专家根据经验给出配网改造方案带来的主观性和局限性，更加注重配电网本身的状况进行决策分析。

附图说明

图1为基于关联规则挖掘的配网分析和投资决策策略流程图。

图2为基于熵权层次分析法的配电网组合赋权综合评估方法流程图。

具体实施方式

为了加深对本发明的认识和理解，下面结合附图对本发明作更进一步的说明，

实施例1：参见图1、图2，一种基于关联规则挖掘的配网分析和投资决策方法包含以下步骤：

步骤S1、获得历史数据，并构建坏数据和缺失数据的填补和删除模型；

步骤S2、采用主成分分析对经预处理后得到的N_s个指标进行降维分析，并根据样本信息量确定主成分及其各主成分所包含的指标：

Y＝PX (2)

基本步骤如下：1.对所有样本进行中心化：

式中，x_i为第i个数据经中心化后的值，x_j为第j个数据未中心化的值。

2.计算样本协方差矩阵C：

3.求出协方差矩阵的特征值及对应的特征向量；4、将特征向量按对应特征值大小从上到下按行排列成矩阵，取前N_a行组成矩阵P；5、Y＝PX即为降维到N_a维后的数据。

步骤S3、采用k-means聚类对N_s个指标进行聚类，并确定N_d个对象分别对应的N_s个指标的等级范围；

以年份为基本单元，对N_s个指标作k-means聚类，其基本步骤为：1.对N_a个指标作归一化处理，归一化公式为：

x_ij ^*＝(x_ij-x_i,min)/(x_i,max-x_i,min)(i＝1,2,…N_a；j＝1,2,…N_d) (5)

式中，x_ij ^*为第i个指标第j个数据归一化后的值，x_i,min为第i个指标的最小值，x_i,max为第i个指标的最大值；2.分别构造N_a个指标的k-means聚类样本：

式中，S_i为指标i的聚类样本；

5.重复上述步骤4，直至聚类中心收敛为止；

步骤S4、采用FP-Growth算法分别从各个主成分挖掘频繁项集：

1.选取主成分i的最小支持度：

式中，N_{grade_I}为指标等级个数不小于D_min的事务个数；

2.将N_d组数据集中的等级按照出现的次数降序排列，删除小于min_sup_I的项，然后按照每个事务对应的支持度进行排序，删掉小于min_sup_I的项；3.用排序好的事务构建前缀树，即FP-Tree树；4.深度优先遍历FP-Tree树，生成其条件模式基；5.以条件模式基当成数据库，重复(2-4)，最后生成频繁项集。

步骤S5、采用关联规则算法挖掘与各主成分具有强相关的指标等级：

1.选取主成分i的最小置信度：

步骤S6、建立配网运行评估模型：

1.根据上述经过预处理后得到的N_d*N_a*N_y个数据按其性质分类，构建层次结构指标体系，并用层次分析法构造判断矩阵，进一步计算第i个指标的主观权重值α_i(i＝1,2,…,n)；2.利用熵权法计算第i个指标的客观权重值β_i；3.根据α_i和β_i，进一步计算各个指标组合赋权值γ_i：

式中，θ₁、θ₂分别为层次分析法和熵权法的加权系数；

4.根据组合权重γ_i和隶属度函数，计算每个指标的得分；5.将各个指标的得分相加，得出每个评价对象的综合得分，综合得分采用百分制计算，设定最低得分为60分，最高得分为100分；6.根据专家组制定的综合得分等级划分区间，将综合得分进行等级划分和进一步的评估分析，得到配网运行的薄弱成分。

步骤S7、建立综合配网运行现状、主成分强关联指标和投资回报率模型建立投资量化决策模型：

式中，f_i为指标i的投资回报率，Δx_i为指标i的实际年变化量，ΔO_i为指标i的目标年变化量，M_i为指标i是否为配网薄弱指标，C_i为指标i的置信度值。

需要说明的是上述实施例仅仅是本发明的较佳实施例，并没有用来限定本发明的保护范围，在上述技术方案的基础上做出的等同替换或者替代均属于本发明的保护范围。