CN110298373A - 基于信息熵动态规划的电网线路遥测数据聚类集成方法 - Google Patents

基于信息熵动态规划的电网线路遥测数据聚类集成方法 Download PDF

Info

Publication number
CN110298373A
CN110298373A CN201910370328.5A CN201910370328A CN110298373A CN 110298373 A CN110298373 A CN 110298373A CN 201910370328 A CN201910370328 A CN 201910370328A CN 110298373 A CN110298373 A CN 110298373A
Authority
CN
China
Prior art keywords
cluster
weight
clusters
class
dynamic programming
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910370328.5A
Other languages
English (en)
Inventor
张远来
晏欢
高至平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tai Hao Software Inc Co
Original Assignee
Tai Hao Software Inc Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tai Hao Software Inc Co filed Critical Tai Hao Software Inc Co
Priority to CN201910370328.5A priority Critical patent/CN110298373A/zh
Publication of CN110298373A publication Critical patent/CN110298373A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0637Strategic management or analysis, e.g. setting a goal or target of an organisation; Planning actions based on goals; Analysis or evaluation of effectiveness of goals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Educational Administration (AREA)
  • Evolutionary Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Water Supply & Treatment (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及电网数据分析与决策技术领域,具体涉及一种基于信息熵动态规划的电网线路遥测数据聚类集成方法。该方法步骤包括:第一步:候选集成聚类成员的生成;第二步:基于动态规划的局部权重算法选择基础聚类;第三步:对基础聚类进行集成;第四步:结束;与现有的技术相比较,本发明比较明显的提升集成聚类的抗干扰性、鲁棒性和集成聚类的最终效果,对于电力数据聚类提供了更有力的参考依据。

Description

基于信息熵动态规划的电网线路遥测数据聚类集成方法
技术领域
本发明涉及电网数据分析与决策技术领域,具体涉及一种基于信息熵动态规划的电网线路遥测数据聚类集成方法。
背景技术
电网线路遥测数据聚类对于电网线路故障或缺陷分析具有重要的支撑作用。当前电网互联是电力系统建设的一种大趋势,因为其具有无限广阔的经济效益以及广谱的统一管理性。互联电网系统中规模庞大、结构复杂的各个遥测点产生的遥测数据对分析电网安全稳定有着举足轻重的作用。聚类集成方法是一种高质量的聚类方法,其中基于聚类权重信息熵的集成策略是一种有效的新型集成方案。但是该方法存在计算量大、对基础聚类敏感等缺陷。
针对上述问题,本发明专利提出一种基于信息熵动态规划的电网线路遥测数据聚类集成方法。
发明内容
针对电网线路遥测数据具有复杂性程度高,数据量庞大等特点,本发明通过引入基于信息熵动态规划策略的思想,利用聚类集成方法分析数据,提出了一种基于信息熵动态规划的电网线路遥测数据聚类集成方法。
本发明专利提出了一种基于信息熵动态规划的电网线路遥测数据聚类集成方法,该方法包括:
第一步:候选集成聚类成员的生成;
第二步:基于动态规划的局部权重算法选择基础聚类;
第三步:对基础聚类进行集成;
第四步:结束;
该方法的步骤还包括:
1、研究对象为电力遥测数据集D={d1,d2,...,dx},对数据集D采用K均值聚类方法生产M种备选聚类,都标注为待定的聚类,其中每种聚类都有K簇,组成聚类集合为Π={π1,π2,...,πM},同时设定循环控制参数m为1,设定自定循环次数控制变量参数i为1,并指定循环次数为S;
2、通过信息熵法计算第m个聚类中各个类簇相对于聚类集合Π中所有标记为确定的和待定的聚类的熵值;
3、设定阈值0<=α<β<=1,对第m个备选聚类求其K个类簇熵值之和,并利用归一化权重转换法转化为权重wi与阈值(α,β)相比较;
4、当每个备选聚类的权重大于等于指定阈值β时,则将该类聚类保留,并且标注为确定聚类,即聚类效果相对较好,可以作为有效电力备选聚类数据;
5、当每个备选聚类的权重小于指定阈值α时,那么将该聚类标记为删除,即该备选聚类相对较差,不可以作为有效的电力备选聚类数据;
6、当每个备选聚类的权重大于等于指定阈值α,并且小于指定阈值β时,保留其待定状态;
7、返回步骤2,直至循环m次后所有聚类都打上标记;
8、将标记为删除的聚类剔除,并重新记聚类集合的个数为M;
9、若此时集合中所有标记都为确定则跳转到步骤11,否则到步骤10;
10、若M小于指定聚类个数N或是一级循环变量i大于指定循环次数S时,那么跳转到步骤11,否则需要调整阈值范围并将二级控制变量m置为1,一级循环变量i加1后跳转到步骤2;
11、输出最终聚类集合结果;
12、从上述聚类集合中取出所有确定的备选聚类组成新的备选聚类集合,并获得各确定聚类中类簇的权重信息,计算数据集D={d1,d2,...,dx}中任意二个元素在确定聚类集合中出现在各个聚类同一类簇中的次数及其与该类簇权重的乘积作为任意二个元素间的带权集成距离;
13、对象数据集D={d1,d2,...,dx}中任意二个元素间的带权集成距离,采用经典层次聚类方式完成最后的聚类。
优选的,该方法还包括:
所述第一步中候选集成聚类成员的生成,其详细步骤如下:
步骤1、对于初始数据集即遥测数据集D,有元素个数|D|为n,要生成的备选聚类个数为M;
步骤2、设定聚类的控制参数j并置初始值为1,定义参数k;
步骤3、若j小于M,则从数据集D中随机选取k个元素作为初始簇心;
步骤4、设定控制参数i并置为1,若i小于n-k,那么跳转到步骤5,否则跳转到步骤7;
步骤5、分别计算剩余n-k个元素中第i个元素到k个簇心的欧式距离,并选择距离簇心最近的簇;
步骤6、控制参数i+1,并转到步骤5;
步骤7、从k个簇中再次各选1个簇心组成k个新簇心,并计算元素到新簇心的欧氏距离,若新簇心都与前一次簇心相同,则跳转到步骤8,否则跳转到步骤4;
步骤8、得到备选聚类πj且标记为不确定聚类并加入备选聚类集合Π;
步骤9、控制参数j+1,并跳转到步骤3;
步骤10、备选聚类集合为Π={π1,π2,...,πM};
优选的,该方法还包括:
所述第二步中基于动态规划的局部权重算法选择基础聚类,其详细步骤如下:基于动态规划策略结合局部信息熵权重的计算方法实施动态规划迭代计算,最后筛选获得质量更高、数量更少的备选聚类;
步骤1、设置一级循环控制变量参数i并置为1,设置指定循环次数为S,设置二级循环控制参数m,设置循环次数限制为M,设置指定聚类个数为N;
步骤2、置循环参数m为1;
步骤3、判断控制参数m是否小于或等于M,若是则执行下一步骤,否则转到步骤10;
步骤4、计算Π={π1,π2,...,πM}中标有待定标记的聚类πm的任何一个类簇πm∈Π,相对于Π中所有待定和确定的聚类的不确定信息熵,其计算公式为:其中1≤m≤M,1≤n≤NM1≤μ≤M,1≤j≤NM|*|为集合*的元素个数;
步骤5、计算步骤4中得到的πm中每个类簇的和值Σ(πm);
计算公式为:其中Nm=|πm|;
步骤6、利用归一化权重转换法转换Σ(πm),计算公式W(*)=e-*归一化获得每个聚类中类簇的不确定信息熵和值Σ(πm),作为每个聚类的权重W(Σ(πm)),使得权重的取值区间为(0,1];
步骤7、设定阈值α和阈值β(或由步骤10指定阈值),并有0<=α<β<=1;
步骤8、将步骤6中计算得出的所有备选聚类的W(Σ(πm))与阈值α和阈值β相比较:
若某聚类πm∈Π满足β<W(Σ(πm))<=1,则保留该聚类,并将待定标记修改为确定标记;
若某聚类πm∈Π存在α<W(Σ(πm))<β的情况,则保留聚类待定状态;
若某聚类πm∈Π存在0<=W(Σ(πm))<α的情况,则从Π={π1,π2,...,πM}将这个聚类标记为删除;
步骤9、将控制参数m加1,返回步骤3;
步骤10、剔除Π中所有标记为删除的聚类,剩下的所有聚类重新组成聚类Π,并令|Π|为M;
步骤11、若Π中所有聚类都标为确定,那么跳转到步骤13,否则跳转到步骤12;
步骤12、若一级循环参数大于指定循环次数S或是M小于指定聚类个数M,那么跳转到步骤13,否则将设定新阈值0<α<α+x<0.5<β-x<β<1,并将新阈值α1=α+x重新记为α,β1=β-x重新记为β,并将指定控制参数i加1后跳转到步骤2;
步骤13输出聚类集合Π={π1,π2,...,πM}。
优选的,该方法还包括:
所述第三步中对基础聚类进行集成,其详细步骤如下:
步骤1、基于获得基础聚类中类簇的权重信息,计算数据集D中任意二个元素在确定聚类集合中出现在各个聚类同一类簇中的次数,及其与该类簇权重的乘积作为任意二个元素间的带权集成距离;
其中di∈D,dj∈D并且di≠dj,
Cn m为聚类πm中di所在的类簇,记为di∈Cn m,Cn m∈πm,n∈[1,Nm];
wi m等于
如果di∈Cn m时,dj也属于聚类πm中的类簇Cn m时Φij m=1
如果di∈Cn m时,dj不属于聚类πm中的类簇Cn m时Φij m=0
步骤2、基于步骤1获得的数据集D={d1,d2,…dx}中任意二个元素间的带权集成距离Dis(di,dj)作为层次聚类方法中元素间的聚类距离。对数据集D实施层次聚类,并获得最后的集成聚类输出。
本发明专利提出一种基于信息熵动态规划的电网线路遥测数据聚类集成方法,与现有的技术相比较,本发明比较明显的提升集成聚类的抗干扰性、鲁棒性和集成聚类的最终效果,对于电力数据聚类提供了更有力的参考依据。
附图说明
图1为本发明所提供的基于信息熵动态规划的电网线路遥测数据聚类集成方法的流程示意图;
图2为本发明所提供的基于信息熵动态规划的电网线路遥测数据聚类集成方法的动态规划选择基础聚类流程示意图;
图3为本发明所提供的基于信息熵动态规划的电网线路遥测数据聚类集成方法的基于动态规划的局部权重聚类集成法流程示意图。
具体实施方式
下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案,因此只是作为示例,而不能以此来限制本发明的保护范围。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。
如图1-图3所示,本发明专利提出了一种基于信息熵动态规划的电网线路遥测数据聚类集成方法,该方法包括:
第一步:候选集成聚类成员的生成;
第二步:基于动态规划的局部权重算法选择基础聚类;
第三步:对基础聚类进行集成;
第四步:结束;
该方法的步骤还包括:
1、研究对象为电力遥测数据集D={d1,d2,...,dx},对数据集D采用K均值聚类方法生产M种备选聚类,都标注为待定的聚类,其中每种聚类都有K簇,组成聚类集合为Π={π1,π2,...,πM},同时设定循环控制参数m为1,设定自定循环次数控制变量参数i为1,并指定循环次数为S;
2、通过信息熵法计算第m个聚类中各个类簇相对于聚类集合Π中所有标记为确定的和待定的聚类的熵值;
3、设定阈值0<=α<β<=1,对第m个备选聚类求其K个类簇熵值之和,并利用归一化权重转换法转化为权重wi与阈值(α,β)相比较;
4、当每个备选聚类的权重大于等于指定阈值β时,则将该类聚类保留,并且标注为确定聚类,即聚类效果相对较好,可以作为有效电力备选聚类数据;
5、当每个备选聚类的权重小于指定阈值α时,那么将该聚类标记为删除,即该备选聚类相对较差,不可以作为有效的电力备选聚类数据;
6、当每个备选聚类的权重大于等于指定阈值α,并且小于指定阈值β时,保留其待定状态;
7、返回步骤2,直至循环m次后所有聚类都打上标记;
8、将标记为删除的聚类剔除,并重新记聚类集合的个数为M;
9、若此时集合中所有标记都为确定则跳转到步骤11,否则到步骤10;
10、若M小于指定聚类个数N或是一级循环变量i大于指定循环次数S时,那么跳转到步骤11,否则需要调整阈值范围并将二级控制变量m置为1,一级循环变量i加1后跳转到步骤2;
11、输出最终聚类集合结果;
12、从上述聚类集合中取出所有确定的备选聚类组成新的备选聚类集合,并获得各确定聚类中类簇的权重信息,计算数据集D={d1,d2,...,dx}中任意二个元素在确定聚类集合中出现在各个聚类同一类簇中的次数及其与该类簇权重的乘积作为任意二个元素间的带权集成距离;
13、对象数据集D={d1,d2,...,dx}中任意二个元素间的带权集成距离,采用经典层次聚类方式完成最后的聚类。
如图1所示,该方法还包括:
所述第一步中候选集成聚类成员的生成,其详细步骤如下:
步骤1、对于初始数据集即遥测数据集D,有元素个数|D|为n,要生成的备选聚类个数为M;
步骤2、设定聚类的控制参数j并置初始值为1,定义参数k;
步骤3、若j小于M,则从数据集D中随机选取k个元素作为初始簇心;
步骤4、设定控制参数i并置为1,若i小于n-k,那么跳转到步骤5,否则跳转到步骤7;
步骤5、分别计算剩余n-k个元素中第i个元素到k个簇心的欧式距离,并选择距离簇心最近的簇;
步骤6、控制参数i+1,并转到步骤5;
步骤7、从k个簇中再次各选1个簇心组成k个新簇心,并计算元素到新簇心的欧氏距离,若新簇心都与前一次簇心相同,则跳转到步骤8,否则跳转到步骤4;
步骤8、得到备选聚类πj且标记为不确定聚类并加入备选聚类集合Π;
步骤9、控制参数j+1,并跳转到步骤3;
步骤10、备选聚类集合为Π={π1,π2,...,πM};
如图2所示,该方法还包括:
所述第二步中基于动态规划的局部权重算法选择基础聚类,其详细步骤如下:基于动态规划策略结合局部信息熵权重的计算方法实施动态规划迭代计算,最后筛选获得质量更高、数量更少的备选聚类;
步骤1、设置一级循环控制变量参数i并置为1,设置指定循环次数为S,设置二级循环控制参数m,设置循环次数限制为M,设置指定聚类个数为N;
步骤2、置循环参数m为1;
步骤3、判断控制参数m是否小于或等于M,若是则执行下一步骤,否则转到步骤10;
步骤4、计算Π={π1,π2,...,πM}中标有待定标记的聚类πm的任何一个类簇πm∈Π,相对于Π中所有待定和确定的聚类的不确定信息熵,其计算公式为:其中1≤m≤M,1≤n≤NM1≤μ≤M,1≤j≤NM|*|为集合*的元素个数;
步骤5、计算步骤4中得到的πm中每个类簇的和值Σ(πm);
计算公式为:其中Nm=|πm|;
步骤6、利用归一化权重转换法转换Σ(πm),计算公式W(*)=e-*归一化获得每个聚类中类簇的不确定信息熵和值Σ(πm),作为每个聚类的权重W(Σ(πm)),使得权重的取值区间为(0,1];
步骤7、设定阈值α和阈值β(或由步骤10指定阈值),并有0<=α<β<=1;
步骤8、将步骤6中计算得出的所有备选聚类的W(Σ(πm))与阈值α和阈值β相比较:
若某聚类πm∈Π满足β<W(Σ(πm))<=1,则保留该聚类,并将待定标记修改为确定标记;
若某聚类πm∈Π存在α<W(Σ(πm))<β的情况,则保留聚类待定状态;
若某聚类πm∈Π存在0<=W(Σ(πm))<α的情况,则从Π={π1,π2,...,πM}将这个聚类标记为删除;
步骤9、将控制参数m加1,返回步骤3;
步骤10、剔除Π中所有标记为删除的聚类,剩下的所有聚类重新组成聚类Π,并令|Π|为M;
步骤11、若Π中所有聚类都标为确定,那么跳转到步骤13,否则跳转到步骤12;
步骤12、若一级循环参数大于指定循环次数S或是M小于指定聚类个数M,那么跳转到步骤13,否则将设定新阈值0<α<α+x<0.5<β-x<β<1,并将新阈值α1=α+x重新记为α,β1=β-x重新记为β,并将指定控制参数i加1后跳转到步骤2;
步骤13输出聚类集合Π={π1,π2,...,πM}。
如图3所示,该方法还包括:
所述第三步中对基础聚类进行集成,其详细步骤如下:
步骤1、基于获得基础聚类中类簇的权重信息,计算数据集D中任意二个元素在确定聚类集合中出现在各个聚类同一类簇中的次数,及其与该类簇权重的乘积作为任意二个元素间的带权集成距离;
其中di∈D,dj∈D并且di≠dj,
Cn m为聚类πm中di所在的类簇,记为di∈Cn m,Cn m∈πm,n∈[1,Nm];
wi m等于
如果di∈Cn m时,dj也属于聚类πm中的类簇Cn m时Φij m=1
如果di∈Cn m时,dj不属于聚类πm中的类簇Cn m时Φij m=0
步骤2、基于步骤1获得的数据集D={d1,d2,…dx}中任意二个元素间的带权集成距离Dis(di,dj)作为层次聚类方法中元素间的聚类距离。对数据集D实施层次聚类,并获得最后的集成聚类输出。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims (4)

1.基于信息熵动态规划的电网线路遥测数据聚类集成方法,其特征在于,该方法包括:
第一步:候选集成聚类成员的生成;
第二步:基于动态规划的局部权重算法选择基础聚类;
第三步:对基础聚类进行集成;
第四步:结束;
该方法的步骤还包括:
(1)、研究对象为电力遥测数据集D={d1,d2,...,dx},对数据集D采用K均值聚类方法生产M种备选聚类,都标注为待定的聚类,其中每种聚类都有K簇,组成聚类集合为Π={π1,π2,...,πM},同时设定循环控制参数m为1,设定自定循环次数控制变量参数i为1,并指定循环次数为S;
(2)、通过信息熵法计算第m个聚类中各个类簇相对于聚类集合Π中所有标记为确定的和待定的聚类的熵值;
(3)、设定阈值0<=α<β<=1,对第m个备选聚类求其K个类簇熵值之和,并利用归一化权重转换法转化为权重wi与阈值(α,β)相比较;
(4)、当每个备选聚类的权重大于等于指定阈值β时,则将该类聚类保留,并且标注为确定聚类,即聚类效果相对较好,可以作为有效电力备选聚类数据;
(5)、当每个备选聚类的权重小于指定阈值α时,那么将该聚类标记为删除,即该备选聚类相对较差,不可以作为有效的电力备选聚类数据;
(6)、当每个备选聚类的权重大于等于指定阈值α,并且小于指定阈值β时,保留其待定状态;
(7)、返回步骤2,直至循环m次后所有聚类都打上标记;
(8)、将标记为删除的聚类剔除,并重新记聚类集合的个数为M;
(9)、若此时集合中所有标记都为确定则跳转到步骤11,否则到步骤10;
(10)、若M小于指定聚类个数N或是一级循环变量i大于指定循环次数S时,那么跳转到步骤11,否则需要调整阈值范围并将二级控制变量m置为1,一级循环变量i加1后跳转到步骤2;
(11)、输出最终聚类集合结果;
(12)、从上述聚类集合中取出所有确定的备选聚类组成新的备选聚类集合,并获得各确定聚类中类簇的权重信息,计算数据集D={d1,d2,...,dx}中任意二个元素在确定聚类集合中出现在各个聚类同一类簇中的次数及其与该类簇权重的乘积作为任意二个元素间的带权集成距离;
(13)、对象数据集D={d1,d2,...,dx}中任意二个元素间的带权集成距离,采用经典层次聚类方式完成最后的聚类。
2.根据权利要求1所述的基于信息熵动态规划的电网线路遥测数据聚类集成方法,其特征在于,该方法还包括:
所述第一步中候选集成聚类成员的生成,其详细步骤如下:
步骤1、对于初始数据集即遥测数据集D,有元素个数|D|为n,要生成的备选聚类个数为M;
步骤2、设定聚类的控制参数j并置初始值为1,定义参数k;
步骤3、若j小于M,则从数据集D中随机选取k个元素作为初始簇心;
步骤4、设定控制参数i并置为1,若i小于n-k,那么跳转到步骤5,否则跳转到步骤7;
步骤5、分别计算剩余n-k个元素中第i个元素到k个簇心的欧式距离,并选择距离簇心最近的簇;
步骤6、控制参数i+1,并转到步骤5;
步骤7、从k个簇中再次各选1个簇心组成k个新簇心,并计算元素到新簇心的欧氏距离,若新簇心都与前一次簇心相同,则跳转到步骤8,否则跳转到步骤4;
步骤8、得到备选聚类πj且标记为不确定聚类并加入备选聚类集合Π;
步骤9、控制参数j+1,并跳转到步骤3;
步骤10、备选聚类集合为Π={π1,π2,...,πM}。
3.根据权利要求1所述的基于信息熵动态规划的电网线路遥测数据聚类集成方法,其特征在于,该方法还包括:
所述第二步中基于动态规划的局部权重算法选择基础聚类,其详细步骤如下:基于动态规划策略结合局部信息熵权重的计算方法实施动态规划迭代计算,最后筛选获得质量更高、数量更少的备选聚类;
步骤1、设置一级循环控制变量参数i并置为1,设置指定循环次数为S,设置二级循环控制参数m,设置循环次数限制为M,设置指定聚类个数为N;
步骤2、置循环参数m为1;
步骤3、判断控制参数m是否小于或等于M,若是则执行下一步骤,否则转到步骤10;
步骤4、计算Π={π1,π2,...,πM}中标有待定标记的聚类πm的任何一个类簇πm∈Π,相对于Π中所有待定和确定的聚类的不确定信息熵,其计算公式为:其中1≤m≤M,1≤n≤NM1≤μ≤M,1≤j≤NM|*|为集合*的元素个数;
步骤5、计算步骤4中得到的πm中每个类簇的和值Σ(πm);
计算公式为:其中Nm=|πm|;
步骤6、利用归一化权重转换法转换Σ(πm),计算公式W(*)=e-*归一化获得每个聚类中类簇的不确定信息熵和值Σ(πm),作为每个聚类的权重W(Σ(πm)),使得权重的取值区间为(0,1];
步骤7、设定阈值α和阈值β(或由步骤10指定阈值),并有0<=α<β<=1;
步骤8、将步骤6中计算得出的所有备选聚类的W(Σ(πm))与阈值α和阈值β相比较:
若某聚类πm∈Π满足β<W(Σ(πm))<=1,则保留该聚类,并将待定标记修改为确定标记;
若某聚类πm∈Π存在α<W(Σ(πm))<β的情况,则保留聚类待定状态;
若某聚类πm∈Π存在0<=W(Σ(πm))<α的情况,则从Π={π1,π2,...,πM}将这个聚类标记为删除;
步骤9、将控制参数m加1,返回步骤3;
步骤10、剔除Π中所有标记为删除的聚类,剩下的所有聚类重新组成聚类Π,并令|Π|为M;
步骤11、若Π中所有聚类都标为确定,那么跳转到步骤13,否则跳转到步骤12;
步骤12、若一级循环参数大于指定循环次数S或是M小于指定聚类个数M,那么跳转到步骤13,否则将设定新阈值0<α<α+x<0.5<β-x<β<1,并将新阈值α1=α+x重新记为α,β1=β-x重新记为β,并将指定控制参数i加1后跳转到步骤2;
步骤13输出聚类集合Π={π1,π2,...,πM}。
4.根据权利要求1所述的基于信息熵动态规划的电网线路遥测数据聚类集成方法,其特征在于,该方法还包括:
所述第三步中对基础聚类进行集成,其详细步骤如下:
步骤1、基于获得基础聚类中类簇的权重信息,计算数据集D中任意二个元素在确定聚类集合中出现在各个聚类同一类簇中的次数,及其与该类簇权重的乘积作为任意二个元素间的带权集成距离;
其中di∈D,dj∈D并且di≠dj,
Cn m为聚类πm中di所在的类簇,记为di∈Cn m,Cn m∈πm,n∈[1,Nm];
wi m等于
如果di∈Cn m时,dj也属于聚类πm中的类簇Cn m时Φij m=1
如果di∈Cn m时,dj不属于聚类πm中的类簇Cn m时Φij m=0
步骤2、基于步骤1获得的数据集D={d1,d2,…dx}中任意二个元素间的带权集成距离Dis(di,dj)作为层次聚类方法中元素间的聚类距离。对数据集D实施层次聚类,并获得最后的集成聚类输出。
CN201910370328.5A 2019-05-06 2019-05-06 基于信息熵动态规划的电网线路遥测数据聚类集成方法 Pending CN110298373A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910370328.5A CN110298373A (zh) 2019-05-06 2019-05-06 基于信息熵动态规划的电网线路遥测数据聚类集成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910370328.5A CN110298373A (zh) 2019-05-06 2019-05-06 基于信息熵动态规划的电网线路遥测数据聚类集成方法

Publications (1)

Publication Number Publication Date
CN110298373A true CN110298373A (zh) 2019-10-01

Family

ID=68026748

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910370328.5A Pending CN110298373A (zh) 2019-05-06 2019-05-06 基于信息熵动态规划的电网线路遥测数据聚类集成方法

Country Status (1)

Country Link
CN (1) CN110298373A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113256096A (zh) * 2021-05-18 2021-08-13 西华大学 一种计及虚假数据注入攻击的电网故障诊断方法
CN114118296A (zh) * 2021-12-08 2022-03-01 昆明理工大学 一种基于聚类集成的岩体结构面优势产状分组方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113256096A (zh) * 2021-05-18 2021-08-13 西华大学 一种计及虚假数据注入攻击的电网故障诊断方法
CN113256096B (zh) * 2021-05-18 2022-07-12 西华大学 一种计及虚假数据注入攻击的电网故障诊断方法
CN114118296A (zh) * 2021-12-08 2022-03-01 昆明理工大学 一种基于聚类集成的岩体结构面优势产状分组方法

Similar Documents

Publication Publication Date Title
CN110443420B (zh) 一种基于机器学习的作物产量预测方法
CN108763319A (zh) 融合用户行为和文本信息的社交机器人检测方法和系统
Hafezi et al. Identification of representative patterns of time use activity through fuzzy C-means clustering
CN110298373A (zh) 基于信息熵动态规划的电网线路遥测数据聚类集成方法
CN112613720B (zh) 考虑多不确定性的水库灌溉优化调度方法
Subbotin et al. Individual prediction of the hypertensive patient condition based on computational intelligence
von Lücken et al. An overview on evolutionary algorithms for many‐objective optimization problems
CN108960486A (zh) 基于灰支持向量回归机预测适应值的交互式集合进化方法
Oukil et al. A DEA cross-efficiency inclusive methodology for assessing water quality: A Composite Water Quality Index
Lin et al. Data-driven prediction of building energy consumption using an adaptive multi-model fusion approach
Aziz et al. Increasing electrical grid stability classification performance using ensemble bagging of C4. 5 and classification and regression trees
CN110176309A (zh) 一种用于预测心血管疾病的医疗数据处理方法
CN106056167A (zh) 一种基于高斯核混合人工蜂群算法的归一化可能性模糊熵聚类方法
Carro-Calvo et al. Wind speed reconstruction from synoptic pressure patterns using an evolutionary algorithm
CN112215410A (zh) 基于改进深度学习的电力负荷预测方法
de Sá et al. Algorithm recommendation for data streams
US20210272137A1 (en) Apparatus for Fast Clustering of Massive Data Based on Variate-Specific Population Strata
Georgati et al. Spatial Disaggregation of Population Subgroups Leveraging Self-Trained Multi-Output Gradient Boosting Regression Trees
Haddawy et al. Complexity-based spatial hierarchical clustering for malaria prediction
RU80604U1 (ru) Автоматизированная система распределения ресурсов для оптимального решения целевых задач
CN105868435B (zh) 一种基于线性相关性分析实现光网络建设的高效控制方法
Kiang et al. A comparative analysis of an extended SOM network and K-means analysis
Gensollen et al. Coalition formation algorithm of prosumers in a smart grid environment
CN110516853B (zh) 一种基于欠采样改进的AdaBoost算法的脱贫时间预测方法
Tripathy et al. Parallel support vector machine used in map-reduce for risk analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination