CN111309718A - 一种配网电压数据缺失填补方法及装置 - Google Patents

一种配网电压数据缺失填补方法及装置 Download PDF

Info

Publication number
CN111309718A
CN111309718A CN202010102454.5A CN202010102454A CN111309718A CN 111309718 A CN111309718 A CN 111309718A CN 202010102454 A CN202010102454 A CN 202010102454A CN 111309718 A CN111309718 A CN 111309718A
Authority
CN
China
Prior art keywords
data
clustering
data set
missing
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010102454.5A
Other languages
English (en)
Other versions
CN111309718B (zh
Inventor
林跃欢
黄彦璐
袁智勇
雷金勇
罗俊平
陈柔伊
徐全
白浩
史训涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China South Power Grid International Co ltd
China Southern Power Grid Co Ltd
Original Assignee
China South Power Grid International Co ltd
China Southern Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China South Power Grid International Co ltd, China Southern Power Grid Co Ltd filed Critical China South Power Grid International Co ltd
Priority to CN202010102454.5A priority Critical patent/CN111309718B/zh
Publication of CN111309718A publication Critical patent/CN111309718A/zh
Application granted granted Critical
Publication of CN111309718B publication Critical patent/CN111309718B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • Quality & Reliability (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种配网电压数据缺失填补方法及装置,方法包括:对获取的历史断面数据进行预处理,得到无量纲断面数据集;采用欧式距离算法或者对数似然距离算法对无量纲断面数据集进行聚类分析,得到聚类成功后的第一聚类数据集;通过根据预置Apriori算法构建的强关联规则框架对第一聚类数据集进行校核,得到第二聚类数据集;根据第二聚类数据集与当前缺失数据构建时间序列组,时间序列组包括历史数据序列和当前缺失数据序列;通过根据时间序列组确定的相似度选择的最佳历史数据序列对当前缺失数据进行填补。本申请解决了现有的电网中电压数据的缺失填补技术太复杂且不具有实际针对性,不能满足电网发展需求的技术问题。

Description

一种配网电压数据缺失填补方法及装置
技术领域
本申请涉及电网技术领域,尤其涉及一种配网电压数据缺失填补方法及装置。
背景技术
近年来,世界各地掀起了大数据的研究热潮,大数据技术为智能电网的发展注入了新鲜的血液,并取得了一定的成绩,数据库技术也趋于完善,但由于人工录入的问题或机器发生故障,数据库中不可避免会有数据缺失的现象。
当前的电网中的数据缺失,尤其是电压数据的缺失多是采用传统机器学习的方法,构造复杂的经验模型或者核函数,方法复杂不易进行实际操作,并且没有考虑实际数据的特性和相关性,不能满足电网的发展需求。
发明内容
本申请提供了一种配网电压数据缺失填补方法及装置,用于解决现有的电网中电压数据的缺失填补技术太复杂且不具有实际针对性,不能满足电网发展需求的技术问题。
有鉴于此,本申请第一方面提供了一种配网电压数据缺失填补方法,包括:
对获取的历史断面数据进行预处理,得到无量纲断面数据集;
采用欧式距离算法或者对数似然距离算法对所述无量纲断面数据集进行聚类分析,得到聚类成功后的第一聚类数据集;
通过根据预置Apriori算法构建的强关联规则框架对所述第一聚类数据集进行校核,得到第二聚类数据集;
根据所述第二聚类数据集与当前缺失数据构建时间序列组,所述时间序列组包括历史数据序列和当前缺失数据序列;
通过根据所述时间序列组确定的相似度选择的最佳历史数据序列对所述当前缺失数据进行填补。
优选地,所述采用欧式距离算法或者对数似然距离算法对所述无量纲断面数据集进行聚类分析,得到聚类成功后的第一聚类数据集,包括:
判断所述无量纲断面数据集是否均为数值型,若是,则采用欧氏距离算法进行聚类分析,否则,采用对数似然距离算法进行聚类分析;
判定聚类结构是否满足预置显著条件,若是,则聚类成功,得到所述第一聚类数据集,否则,聚类失败,重新进行聚类分析。
优选地,所述通过根据预置Apriori算法构建的强关联规则框架对所述第一聚类数据集进行校核,得到第二聚类数据集,包括:
根据获取的所述历史断面数据设定最小支持度阈值,并由所述预置Apriori算法求得频繁项集:
Figure BDA0002387322120000021
其中support(A→B)为A到B的支持度,P(A∪B)为A和B的总支持度,supmin为所述最小支持度阈值;
根据获取的所述历史断面数据设定最小置信度阈值,并由所述预置Apriori算法求得强关联规则:
Figure BDA0002387322120000022
其中,confidence(A→B)为A到B的置信度,confmin为所述最小置信度阈值,P(B|A)为B在A发生的情况下的条件概率,所述强关联规则框架包括所述频繁项集和所述强关联规则;
根据所述强关联规则框架对所述第一聚类数据集进行校核,得到所述第二聚类数据集。
优选地,所述根据所述第二聚类数据集与当前缺失数据构建时间序列组,所述时间序列组包括历史数据序列和当前缺失数据序列,还包括:
根据所述历史数据序列和所述当前缺失数据序列构建距离平方矩阵。
优选地,所述通过根据所述时间序列组确定的相似度选择的最佳历史数据序列对所述当前缺失数据进行填补,包括:
从根据所述时间序列组确定的所述距离平方矩阵中选取多组弯曲距离路径序列组,并计算每组弯曲距离路径序列之间的新型DTW距离值,所述新型DTW距离值越小,所述相似度越大,两个所述弯曲距离路径序列为一组所述弯曲距离路径序列组;
选择最大的所述相似度对应的所述历史数据序列对所述当前缺失数据进行填补。
本申请第二方面提供了一种配网电压数据缺失填补装置,包括:
预处理模块,用于对获取的历史断面数据进行预处理,得到无量纲断面数据集;
聚类分析模块,用于采用欧式距离算法或者对数似然距离算法对所述无量纲断面数据集进行聚类分析,得到聚类成功后的第一聚类数据集;
强关联模块,用于通过根据预置Apriori算法构建的强关联规则框架对所述第一聚类数据集进行校核,得到第二聚类数据集;
时间序列模块,用于根据所述第二聚类数据集与当前缺失数据构建时间序列组,所述时间序列组包括历史数据序列和当前缺失数据序列;
缺失填补模块,用于通过根据所述时间序列组确定的相似度选择的最佳历史数据序列对所述当前缺失数据进行填补。
优选地,所述聚类分析模块包括:
第一判断模块,用于判断所述无量纲断面数据集是否均为数值型,若是,则采用欧氏距离算法进行聚类分析,否则,采用对数似然距离算法进行聚类分析;
第二判断模块,用于判定聚类结构是否满足预置显著条件,若是,则聚类成功,得到所述第一聚类数据集,否则,聚类失败,重新进行聚类分析。
优选地,所述强关联模块具体用于:
根据获取的所述历史断面数据设定最小支持度阈值,并由所述预置Apriori算法求得频繁项集:
Figure BDA0002387322120000031
其中support(A→B)为A到B的支持度,P(A∪B)为A和B的总支持度,supmin为所述最小支持度阈值;
根据获取的所述历史断面数据设定最小置信度阈值,并由所述预置Apriori算法求得强关联规则:
Figure BDA0002387322120000041
其中,confidence(A→B)为A到B的置信度,confmin为所述最小置信度阈值,P(B|A)为B在A发生的情况下的条件概率,所述强关联规则框架包括所述频繁项集和所述强关联规则;
根据所述强关联规则框架对所述第一聚类数据集进行校核,得到所述第二聚类数据集。
优选地,所述时间序列模块还用于:
根据所述历史数据序列和所述当前缺失数据序列构建距离平方矩阵。
优选地,所述缺失填补模块具体用于:
从根据所述时间序列组确定的所述距离平方矩阵中选取多组弯曲距离路径序列组,并计算每组弯曲距离路径序列之间的新型DTW距离值,所述新型DTW距离值越小,所述相似度越大,两个所述弯曲距离路径序列为一组所述弯曲距离路径序列组;
选择最大的所述相似度对应的所述历史数据序列对所述当前缺失数据进行填补。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请中,提供了一种配网电压数据缺失填补方法,包括:对获取的历史断面数据进行预处理,得到无量纲断面数据集;采用欧式距离算法或者对数似然距离算法对无量纲断面数据集进行聚类分析,得到聚类成功后的第一聚类数据集;通过根据预置Apriori算法构建的强关联规则框架对第一聚类数据集进行校核,得到第二聚类数据集;根据第二聚类数据集与当前缺失数据构建时间序列组,时间序列组包括历史数据序列和当前缺失数据序列;通过根据时间序列组确定的相似度选择的最佳历史数据序列对当前缺失数据进行填补。
本申请提供的配网电压数据缺失填补方法,对历史数据进行聚类分析,得到聚类数据集,然后用Apriori算法构建强关联规则框架,该框架可以校核得到的聚类数据集;将经过处理的历史数据,即第二聚类数据集与当前缺失的电压数据构建与数据相关的时间序列组,该时间序列组包括历史数据序列和当前缺失数据序列,判断二者之间的相似度,用相似度最大的历史数据序列填补配网中缺失的电压数据。从历史数据分析的角度出发,评估电压缺失的数据,寻找历史数据与缺失数据之间的特性和关联性,使得填补的缺失数据更加符合实际情况,更能满足电网的发展需求。因此,本申请提供的配网电压数据缺失填补方法能够解决现有的电网中电压数据的缺失填补技术太复杂且不具有实际针对性,不能满足电网发展需求的技术问题。
附图说明
图1为本申请实施例提供的一种配网电压数据缺失填补方法的一个流程示意图;
图2为本申请实施例提供的一种配网电压数据缺失填补方法的另一个流程示意图;
图3为本申请实施例提供的一种配网电压数据缺失填补装置的一个结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请提供的一种区块链快速共识方法的实施例一,包括:
步骤101、对获取的历史断面数据进行预处理,得到无量纲断面数据集。
需要说明的是,获取的历史断面数据是电能质量的原始数据,为了便于后续统一的处理,需要将这些量纲不同的断面数据进行预处理操作,得到无量纲断面数据,以备后续计算使用;进行无量纲化的预处理方法可以是归一化处理技术。
步骤102、采用欧式距离算法或者对数似然距离算法对无量纲断面数据集进行聚类分析,得到聚类成功后的第一聚类数据集。
需要说明的是,对无量纲断面数据集进行聚类分析的目的是增大数据的类间差异,聚类操作可以根据预置的条件不断进行,直至聚类成功,得到第一聚类数据集;如果聚类的数据为数值型,就直接使用欧氏距离进行聚类,如果不是,就需要同时考虑数值型和分类型的数据计算,采用对数似然距离进行聚类。对数似然函数能够反映类的内部变量的总体差异性,聚类分析过程中不在考虑模型的复杂程度,得到类间差距显著的聚类数据集,用于后续的填补操作,增强了缺失数据填补的可靠性。
步骤103、通过根据预置Apriori算法构建的强关联规则框架对第一聚类数据集进行校核,得到第二聚类数据集。
需要说明的是,Apriori算法是第一个关联规则挖掘算法,它利用逐层搜索的迭代方法找出数据库中项集的关系,然后形成规则,其过程由连接与剪枝组成,连接是类矩阵运算,剪枝是去掉没必要的中间结果;该算法中项集的概念即为项的集合,包含k个项的集合为k项集,项集出现的频率是包含项集的事务数,称为项集的频率。如果某项集满足最小支持度,则称它为频繁项集。通过Apriori算法构建的强关联规则框架,可以校核第一聚类数据集,过滤掉数据集中的错误的,干扰性的噪声记录,得到第二聚类数据集。
步骤104、根据第二聚类数据集与当前缺失数据构建时间序列组,时间序列组包括历史数据序列和当前缺失数据序列。
需要说明的是,历史数据和当前缺失数据确定的序列是时间属性的序列,在时间上是对应的,并且在时间上存在一定关联性,所以能够组建这样的序列组,进行关联性探讨,更有有利于挖掘二者之间关系。
步骤105、通过根据时间序列组确定的相似度选择的最佳历史数据序列对当前缺失数据进行填补。
需要说明的是,时间序列组中包括历史数据序列和当前数据序列,需要根据这两种序列确相似度,相似度越大,说明该时刻对应的历史数据与当前缺失的数据最相似,就可以利用此时刻对应的数据进行电压缺失填补。具体的相似度的确定可以用数据间的距离衡量,距离相距最近的即为最佳的历史数据序列;也可以通过其他方法选择最佳相似度的历史数据序列,具体不作限制,可以根据实际情况选择。
本实施例提供的配网电压数据缺失填补方法,对历史数据进行聚类分析,得到聚类数据集,然后用Apriori算法构建强关联规则框架,该框架可以校核得到的聚类数据集;将经过处理的历史数据,即第二聚类数据集与当前缺失的电压数据构建与数据相关的时间序列组,该时间序列组包括历史数据序列和当前缺失数据序列,判断二者之间的相似度,用相似度最大的历史数据序列填补配网中缺失的电压数据。从历史数据分析的角度出发,评估电压缺失的数据,寻找历史数据与缺失数据之间的特性和关联性,使得填补的缺失数据更加符合实际情况,更能满足电网的发展需求。因此,本实施例提供的配网电压数据缺失填补方法能够解决现有的电网中电压数据的缺失填补技术太复杂且不具有实际针对性,不能满足电网发展需求的技术问题。
为了便于理解,请参阅图2,本申请实施例中提供了一种区块链快速共识方法的实施例二,包括:
步骤201、对获取的历史断面数据进行预处理,得到无量纲断面数据集。
需要说明的是,本实施例采用预处理公式对无量纲断面数据集进行预处理操作,预处理公式如下:
Figure BDA0002387322120000071
其中,Xi为需要进行处理的历史断面数据的序列,
Figure BDA0002387322120000072
为基准值,基准值是从序列中挑选的,n为序列中元素的个数。
步骤202、判断无量纲断面数据集是否均为数值型,若是,则采用欧氏距离算法进行聚类分析,否则,采用对数似然距离算法进行聚类分析。
需要说明的是,无量纲断面数据集如果均为数值型,那么直接采用欧氏距离进行聚类,否则,就要同时考虑数值型和分类型的数据计算,用对数似然距离进行聚类分析,设有k个聚类变量V1,V2,......,Vk,其中数值型的聚类变量服从正态分布,在此不作过多描述,分类型聚类变量服从联合正态分布。如果聚类成J类,则对数似然函数定义为:
Figure BDA0002387322120000081
其中,ι为对数似然函数,Ij是第j类样本集合,θj是第j类的参数向量,Vi是第i个聚类,ιj是第j类的对数似然函数,聚类是一个增大类间距离的过程,将相似的类别合并为同类,记第j类和第s类合并后为<j,s>,则它们的对数似然距离定义为两类合并之前的对数似然函数
Figure BDA0002387322120000082
与合并后的对数似然
Figure BDA0002387322120000083
即:
Figure BDA0002387322120000084
其中,H(j,s)为第j类和第s类之间的对数似然距离,
Figure BDA0002387322120000085
Figure BDA0002387322120000086
分别是第j类的对数似然函数、第s类的对数似然函数和二者之间的对数似然函数;对数似然函数能够反映类间变量取值的总体差异性,数值型变量以方法为量度,分类型离散变量以信息熵为量度。要使聚类的变量数不断减少,从而提高类间的差异,需要不断修正粗略估计值J,具体的优修正公式如下:
Figure BDA0002387322120000087
其中,Hmin(CJ)表示CJ类别和J类别间的最小距离,Hmin(CJ+1)表示CJ+1类别和J类别间的最小距离;依据对数似然距离,在2,3,4,……,J类中选择一个恰当值,不在考虑模型的复杂程度。
步骤203、判定聚类结构是否满足预置显著条件,若是,则聚类成功,得到第一聚类数据集,否则,聚类失败,重新进行聚类分析。
需要说明的是,聚类有可能不是一次成功,需要进行多次聚类分析,所以需要判断聚类是否成功,校验聚类的方法是卡方校验法,假设各聚类变量的类别分布无显著差异,而检验统计量的概率值小于预置显著条件,一般预置显著条件设为0.05,那么就认为该相应聚类变量的均值在各类间存在显著差异,则拒绝原假设;如果检验统计量的概率值大于预置显著条件,则接受假设,说明聚类的各变量确实不存在显著的差异,聚类失败,重新进行聚类分析,直到聚类成功,得到第一集聚类数据集。
步骤204、根据获取的历史断面数据设定最小支持度阈值,并由预置Apriori算法求得频繁项集。
Figure BDA0002387322120000091
其中support(A→B)为A到B的支持度,P(A∪B)为A和B的总支持度,supmin为最小支持度阈值;
步骤205、根据获取的历史断面数据设定最小置信度阈值,并由预置Apriori算法求得强关联规则。
Figure BDA0002387322120000092
其中,confidence(A→B)为A到B的置信度,confmin为最小置信度阈值,P(B|A)为B在A发生的情况下的条件概率。
需要说明的是,强关联规则框架包括频繁项集和强关联规则构建的强关联规则框架能够深入挖掘数据之间的关联性,找到数据之间存在的潜在规则,能够更好的利用数据之间的关系进行数据相关操作。
步骤206、根据强关联规则框架对第一聚类数据集进行校核,得到第二聚类数据集。
需要说明的是,构建的强关联规则框架能反映出配网电压数据之间的关联,且能校核第一聚类数据集,过滤掉错误的、干扰性的噪声数据,得到更加可靠的第二聚类数据集。
步骤207、根据第二聚类数据集与当前缺失数据构建时间序列组,时间序列组包括历史数据序列和当前缺失数据序列。
步骤208、根据历史数据序列和当前缺失数据序列构建距离平方矩阵。
需要说明的是,假设历史数据序列为X={x1,x2,......,xm},当前缺失数据序列为Y={y1,y2,......,yn},其中m,n分别表示两个序列中的元素个数,构建一个m×n的距离平方矩阵如下:
Figure BDA0002387322120000093
其中d(xi,yi)=(xi-yi)2,即序列点xi和yi的距离的平方值。
步骤209、从根据时间序列组确定的距离平方矩阵中选取多组弯曲距离路径序列组,并计算每组弯曲距离路径序列之间的新型DTW距离值。
步骤210、选择最大的相似度对应的历史数据序列对当前缺失数据进行填补。
需要说明的是,其中,新型DTW距离值越小,相似度越大,两个弯曲距离路径序列为一组弯曲距离路径序列组。用l={l1,l2,...,lk,...,lw}表示一条弯曲距离路径,w是序列中的元素个数,满足条件的弯曲距离路径不止一条,可以定义一个弯曲距离路径序列组,该序列组包括序列V和序列U,该序列组的新型DTW距离可以表示为:
Figure BDA0002387322120000101
其中,lk表示弯曲距离路径中第k个元素。另外,弯曲距离路径l满足如下约束条件:
(1)边界性:l1=d(x1,y1)表示路径l的起点,lss=d(xm,yn)表示路径l的终点;
(2)单调性:对于起点和终点外的任意元素lα=d(xi,yj),其前一个元素lα-1=d(xa,yb)满足i≥a,j≥b;
(3)连续性:i-a≤1,j-b≤1。
需要说明的是,最佳历史数据序列是通过DTW选择的,当得到的DTW最小的时候,说明相似度最高,用此时对应的历史数据序列进行电压缺失数据的填补,结果更加可靠。本实施例从配网数据库中的历史数据出发,充分利用历史数据之间的相关性,选择具有强相关的属性数据作为电压缺失数据填补的参考依据,同时通过动态时间弯曲距离来衡量各属性缺失时刻数据与历史数据的相似程度,找到与电压缺失时刻最相似时刻的数据替代缺失时刻数据,从而提高了电压缺失数据填补的准确性。
为了便于理解,请参与图3,本申请中还提供了一种区块链快速共识装置的实施例,包括:
预处理模块301,用于对获取的历史断面数据进行预处理,得到无量纲断面数据集;
聚类分析模块302,用于采用欧式距离算法或者对数似然距离算法对无量纲断面数据集进行聚类分析,得到聚类成功后的第一聚类数据集;
强关联模块303,用于通过根据预置Apriori算法构建的强关联规则框架对第一聚类数据集进行校核,得到第二聚类数据集;
时间序列模块304,用于根据第二聚类数据集与当前缺失数据构建时间序列组,时间序列组包括历史数据序列和当前缺失数据序列;
缺失填补模块305,用于用于通过根据时间序列组确定的相似度选择的最佳历史数据序列对当前缺失数据进行填补。
进一步地,聚类分析模块302包括:
第一判断模块3021,用于判断无量纲断面数据集是否均为数值型,若是,则采用欧氏距离算法进行聚类分析,否则,采用对数似然距离算法进行聚类分析;
第二判断模块3022,用于判定聚类结构是否满足预置显著条件,若是,则聚类成功,得到第一聚类数据集,否则,聚类失败,重新进行聚类分析。
进一步地,强关联模块303具体用于:
根据获取的历史断面数据设定最小支持度阈值,并由预置Apriori算法求得频繁项集:
Figure BDA0002387322120000111
其中support(A→B)为A到B的支持度,P(A∪B)为A和B的总支持度,supmin为最小支持度阈值;
根据获取的历史断面数据设定最小置信度阈值,并由预置Apriori算法求得强关联规则:
Figure BDA0002387322120000112
其中,confidence(A→B)为A到B的置信度,confmin为最小置信度阈值,P(B|A)为B在A发生的情况下的条件概率,强关联规则框架包括频繁项集和强关联规则;
根据强关联规则框架对第一聚类数据集进行校核,得到第二聚类数据集。
进一步地,时间序列模块304还用于:
根据历史数据序列和当前缺失数据序列构建距离平方矩阵。
进一步地,缺失填补模块305具体用于:
从根据时间序列组确定的距离平方矩阵中选取多组弯曲距离路径序列组,并计算每组弯曲距离路径序列之间的新型DTW距离值,新型DTW距离值越小,相似度越大,两个弯曲距离路径序列为一组弯曲距离路径序列组;
选择最大的相似度对应的历史数据序列对当前缺失数据进行填补。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种配网电压数据缺失填补方法,其特征在于,包括:
对获取的历史断面数据进行预处理,得到无量纲断面数据集;
采用欧式距离算法或者对数似然距离算法对所述无量纲断面数据集进行聚类分析,得到聚类成功后的第一聚类数据集;
通过根据预置Apriori算法构建的强关联规则框架对所述第一聚类数据集进行校核,得到第二聚类数据集;
根据所述第二聚类数据集与当前缺失数据构建时间序列组,所述时间序列组包括历史数据序列和当前缺失数据序列;
通过根据所述时间序列组确定的相似度选择的最佳历史数据序列对所述当前缺失数据进行填补。
2.根据权利要求1所述的配网电压数据缺失填补方法,其特征在于,所述采用欧式距离算法或者对数似然距离算法对所述无量纲断面数据集进行聚类分析,得到聚类成功后的第一聚类数据集,包括:
判断所述无量纲断面数据集是否均为数值型,若是,则采用欧氏距离算法进行聚类分析,否则,采用对数似然距离算法进行聚类分析;
判定聚类结构是否满足预置显著条件,若是,则聚类成功,得到所述第一聚类数据集,否则,聚类失败,重新进行聚类分析。
3.根据权利要求1所述的配网电压数据缺失填补方法,其特征在于,所述通过根据预置Apriori算法构建的强关联规则框架对所述第一聚类数据集进行校核,得到第二聚类数据集,包括:
根据获取的所述历史断面数据设定最小支持度阈值,并由所述预置Apriori算法求得频繁项集:
Figure FDA0002387322110000011
其中support(A→B)为A到B的支持度,P(A∪B)为A和B的总支持度,supmin为所述最小支持度阈值;
根据获取的所述历史断面数据设定最小置信度阈值,并由所述预置Apriori算法求得强关联规则:
Figure FDA0002387322110000021
其中,confidence(A→B)为A到B的置信度,confmin为所述最小置信度阈值,P(B|A)为B在A发生的情况下的条件概率,所述强关联规则框架包括所述频繁项集和所述强关联规则;
根据所述强关联规则框架对所述第一聚类数据集进行校核,得到所述第二聚类数据集。
4.根据权利要求1所述的配网电压数据缺失填补方法,其特征在于,所述根据所述第二聚类数据集与当前缺失数据构建时间序列组,所述时间序列组包括历史数据序列和当前缺失数据序列,还包括:
根据所述历史数据序列和所述当前缺失数据序列构建距离平方矩阵。
5.根据权利要求4所述的配网电压数据缺失填补方法,其特征在于,所述通过根据所述时间序列组确定的相似度选择的最佳历史数据序列对所述当前缺失数据进行填补,包括:
从根据所述时间序列组确定的所述距离平方矩阵中选取多组弯曲距离路径序列组,并计算每组弯曲距离路径序列之间的新型DTW距离值,所述新型DTW距离值越小,所述相似度越大,两个所述弯曲距离路径序列为一组所述弯曲距离路径序列组;
选择最大的所述相似度对应的所述历史数据序列对所述当前缺失数据进行填补。
6.一种配网电压数据缺失填补装置,其特征在于,包括:
预处理模块,用于对获取的历史断面数据进行预处理,得到无量纲断面数据集;
聚类分析模块,用于采用欧式距离算法或者对数似然距离算法对所述无量纲断面数据集进行聚类分析,得到聚类成功后的第一聚类数据集;
强关联模块,用于通过根据预置Apriori算法构建的强关联规则框架对所述第一聚类数据集进行校核,得到第二聚类数据集;
时间序列模块,用于根据所述第二聚类数据集与当前缺失数据构建时间序列组,所述时间序列组包括历史数据序列和当前缺失数据序列;
缺失填补模块,用于通过根据所述时间序列组确定的相似度选择的最佳历史数据序列对所述当前缺失数据进行填补。
7.根据权利要求6中所述的配网电压数据缺失填补装置,其特征在于,所述聚类分析模块包括:
第一判断模块,用于判断所述无量纲断面数据集是否均为数值型,若是,则采用欧氏距离算法进行聚类分析,否则,采用对数似然距离算法进行聚类分析;
第二判断模块,用于判定聚类结构是否满足预置显著条件,若是,则聚类成功,得到所述第一聚类数据集,否则,聚类失败,重新进行聚类分析。
8.根据权利要求6中所述的配网电压数据缺失填补装置,其特征在于,所述强关联模块具体用于:
根据获取的所述历史断面数据设定最小支持度阈值,并由所述预置Apriori算法求得频繁项集:
Figure FDA0002387322110000031
其中support(A→B)为A到B的支持度,P(A∪B)为A和B的总支持度,supmin为所述最小支持度阈值;
根据获取的所述历史断面数据设定最小置信度阈值,并由所述预置Apriori算法求得强关联规则:
Figure FDA0002387322110000032
其中,confidence(A→B)为A到B的置信度,confmin为所述最小置信度阈值,P(B|A)为B在A发生的情况下的条件概率,所述强关联规则框架包括所述频繁项集和所述强关联规则;
根据所述强关联规则框架对所述第一聚类数据集进行校核,得到所述第二聚类数据集。
9.根据权利要求6中所述的配网电压数据缺失填补装置,其特征在于,所述时间序列模块还用于:
根据所述历史数据序列和所述当前缺失数据序列构建距离平方矩阵。
10.根据权利要求9中所述的配网电压数据缺失填补装置,其特征在于,所述缺失填补模块具体用于:
从根据所述时间序列组确定的所述距离平方矩阵中选取多组弯曲距离路径序列组,并计算每组弯曲距离路径序列之间的新型DTW距离值,所述新型DTW距离值越小,所述相似度越大,两个所述弯曲距离路径序列为一组所述弯曲距离路径序列组;
选择最大的所述相似度对应的所述历史数据序列对所述当前缺失数据进行填补。
CN202010102454.5A 2020-02-19 2020-02-19 一种配网电压数据缺失填补方法及装置 Active CN111309718B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010102454.5A CN111309718B (zh) 2020-02-19 2020-02-19 一种配网电压数据缺失填补方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010102454.5A CN111309718B (zh) 2020-02-19 2020-02-19 一种配网电压数据缺失填补方法及装置

Publications (2)

Publication Number Publication Date
CN111309718A true CN111309718A (zh) 2020-06-19
CN111309718B CN111309718B (zh) 2023-05-23

Family

ID=71149195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010102454.5A Active CN111309718B (zh) 2020-02-19 2020-02-19 一种配网电压数据缺失填补方法及装置

Country Status (1)

Country Link
CN (1) CN111309718B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732694A (zh) * 2021-01-19 2021-04-30 国网上海市电力公司 一种用电时序数据的清洗方法
CN113568898A (zh) * 2021-07-30 2021-10-29 浙江华云信息科技有限公司 电力数据漏点补全方法、装置、设备及可读存储介质
CN114065878A (zh) * 2022-01-17 2022-02-18 国网山东省电力公司泰安供电公司 一种基于多参量物联融合技术的电量缺失值填补方法
CN114638530A (zh) * 2022-03-29 2022-06-17 国网江苏省电力有限公司宿迁供电分公司 一种采用多维度断面扫描数据的台区电能质量分析方法
CN115736900A (zh) * 2022-11-18 2023-03-07 高创(苏州)电子有限公司 行为识别系统、方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002003256A1 (en) * 2000-07-05 2002-01-10 Camo, Inc. Method and system for the dynamic analysis of data
CN106407464A (zh) * 2016-10-12 2017-02-15 南京航空航天大学 一种基于knn的改进缺失数据填补算法
CN107463620A (zh) * 2017-07-05 2017-12-12 洛川闰土农牧科技有限责任公司 一种基于数据挖掘的电梯事故预警预报系统
CN110109899A (zh) * 2018-01-19 2019-08-09 阿里巴巴集团控股有限公司 物联网数据填补方法、装置及系统
AU2019101198A4 (en) * 2019-10-03 2020-01-16 Gu, Jingchao MR A statistical analysis method of mobile telecom data driven user loss prediction

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002003256A1 (en) * 2000-07-05 2002-01-10 Camo, Inc. Method and system for the dynamic analysis of data
CN106407464A (zh) * 2016-10-12 2017-02-15 南京航空航天大学 一种基于knn的改进缺失数据填补算法
CN107463620A (zh) * 2017-07-05 2017-12-12 洛川闰土农牧科技有限责任公司 一种基于数据挖掘的电梯事故预警预报系统
CN110109899A (zh) * 2018-01-19 2019-08-09 阿里巴巴集团控股有限公司 物联网数据填补方法、装置及系统
AU2019101198A4 (en) * 2019-10-03 2020-01-16 Gu, Jingchao MR A statistical analysis method of mobile telecom data driven user loss prediction

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
VICTOR O. K. LI等: "Deep Learning Model to Estimate Air Pollution Using M-BP to Fill in Missing Proxy Urban Data" *
王丽雯 等: "大数据分析下不完备数据多重准确填补仿真" *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732694A (zh) * 2021-01-19 2021-04-30 国网上海市电力公司 一种用电时序数据的清洗方法
CN113568898A (zh) * 2021-07-30 2021-10-29 浙江华云信息科技有限公司 电力数据漏点补全方法、装置、设备及可读存储介质
CN113568898B (zh) * 2021-07-30 2024-07-09 浙江华云信息科技有限公司 电力数据漏点补全方法、装置、设备及可读存储介质
CN114065878A (zh) * 2022-01-17 2022-02-18 国网山东省电力公司泰安供电公司 一种基于多参量物联融合技术的电量缺失值填补方法
CN114638530A (zh) * 2022-03-29 2022-06-17 国网江苏省电力有限公司宿迁供电分公司 一种采用多维度断面扫描数据的台区电能质量分析方法
CN115736900A (zh) * 2022-11-18 2023-03-07 高创(苏州)电子有限公司 行为识别系统、方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN111309718B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN111309718B (zh) 一种配网电压数据缺失填补方法及装置
CN112131673B (zh) 基于融合神经网络模型的发动机喘振故障预测系统及方法
KR101964412B1 (ko) 이동통신데이터 처리시스템의 이상로그 발생을 진단하는 방법 및 그 시스템
CN112365987A (zh) 诊断数据异常检测方法、装置、计算机设备及存储介质
CN109934301B (zh) 一种电力负荷聚类分析方法、装置和设备
CN112685324B (zh) 一种生成测试方案的方法及系统
CN117078048B (zh) 基于数字孪生的智慧城市资源管理方法及系统
CN113360722B (zh) 一种基于多维数据图谱的故障根因定位方法及系统
CN111368259B (zh) 一种配网电压数据缺失填补方法及相关装置
CN111612038A (zh) 异常用户检测方法及装置、存储介质、电子设备
CN113744089B (zh) 一种台区户变关系辨识方法及设备
CN111160329A (zh) 一种根因分析的方法及装置
CN115510042A (zh) 基于生成对抗网络的电力系统负荷数据填补方法及装置
CN114765574A (zh) 一种网络异常定界定位方法及装置
CN115794578A (zh) 一种电力系统的数据管理方法、装置、设备及介质
CN113268370A (zh) 一种根因告警分析方法、系统、设备及存储介质
CN109902731B (zh) 一种基于支持向量机的性能故障的检测方法及装置
CN115294397A (zh) 一种分类任务的后处理方法、装置、设备及存储介质
CN117237678A (zh) 用电行为异常检测方法、装置、设备及存储介质
CN110673997A (zh) 磁盘故障的预测方法及装置
CN114722941A (zh) 信贷违约识别方法、装置、设备和介质
CN114861753A (zh) 一种基于大规模网络的数据分类方法和装置
CN114357219A (zh) 一种面向移动端实例级图像检索方法及装置
CN113486086A (zh) 一种基于特征工程的数据挖掘方法及系统
CN112463643A (zh) 一种软件质量预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant