CN111309718A - 一种配网电压数据缺失填补方法及装置 - Google Patents
一种配网电压数据缺失填补方法及装置 Download PDFInfo
- Publication number
- CN111309718A CN111309718A CN202010102454.5A CN202010102454A CN111309718A CN 111309718 A CN111309718 A CN 111309718A CN 202010102454 A CN202010102454 A CN 202010102454A CN 111309718 A CN111309718 A CN 111309718A
- Authority
- CN
- China
- Prior art keywords
- data
- clustering
- data set
- missing
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 60
- 238000004458 analytical method Methods 0.000 claims abstract description 26
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000007621 cluster analysis Methods 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 14
- 230000008034 disappearance Effects 0.000 claims description 2
- 238000011161 development Methods 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 10
- 238000005452 bending Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000013138 pruning Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Quality & Reliability (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请公开了一种配网电压数据缺失填补方法及装置,方法包括:对获取的历史断面数据进行预处理,得到无量纲断面数据集;采用欧式距离算法或者对数似然距离算法对无量纲断面数据集进行聚类分析,得到聚类成功后的第一聚类数据集;通过根据预置Apriori算法构建的强关联规则框架对第一聚类数据集进行校核,得到第二聚类数据集;根据第二聚类数据集与当前缺失数据构建时间序列组,时间序列组包括历史数据序列和当前缺失数据序列;通过根据时间序列组确定的相似度选择的最佳历史数据序列对当前缺失数据进行填补。本申请解决了现有的电网中电压数据的缺失填补技术太复杂且不具有实际针对性,不能满足电网发展需求的技术问题。
Description
技术领域
本申请涉及电网技术领域,尤其涉及一种配网电压数据缺失填补方法及装置。
背景技术
近年来,世界各地掀起了大数据的研究热潮,大数据技术为智能电网的发展注入了新鲜的血液,并取得了一定的成绩,数据库技术也趋于完善,但由于人工录入的问题或机器发生故障,数据库中不可避免会有数据缺失的现象。
当前的电网中的数据缺失,尤其是电压数据的缺失多是采用传统机器学习的方法,构造复杂的经验模型或者核函数,方法复杂不易进行实际操作,并且没有考虑实际数据的特性和相关性,不能满足电网的发展需求。
发明内容
本申请提供了一种配网电压数据缺失填补方法及装置,用于解决现有的电网中电压数据的缺失填补技术太复杂且不具有实际针对性,不能满足电网发展需求的技术问题。
有鉴于此,本申请第一方面提供了一种配网电压数据缺失填补方法,包括:
对获取的历史断面数据进行预处理,得到无量纲断面数据集;
采用欧式距离算法或者对数似然距离算法对所述无量纲断面数据集进行聚类分析,得到聚类成功后的第一聚类数据集;
通过根据预置Apriori算法构建的强关联规则框架对所述第一聚类数据集进行校核,得到第二聚类数据集;
根据所述第二聚类数据集与当前缺失数据构建时间序列组,所述时间序列组包括历史数据序列和当前缺失数据序列;
通过根据所述时间序列组确定的相似度选择的最佳历史数据序列对所述当前缺失数据进行填补。
优选地,所述采用欧式距离算法或者对数似然距离算法对所述无量纲断面数据集进行聚类分析,得到聚类成功后的第一聚类数据集,包括:
判断所述无量纲断面数据集是否均为数值型,若是,则采用欧氏距离算法进行聚类分析,否则,采用对数似然距离算法进行聚类分析;
判定聚类结构是否满足预置显著条件,若是,则聚类成功,得到所述第一聚类数据集,否则,聚类失败,重新进行聚类分析。
优选地,所述通过根据预置Apriori算法构建的强关联规则框架对所述第一聚类数据集进行校核,得到第二聚类数据集,包括:
根据获取的所述历史断面数据设定最小支持度阈值,并由所述预置Apriori算法求得频繁项集:
其中support(A→B)为A到B的支持度,P(A∪B)为A和B的总支持度,supmin为所述最小支持度阈值;
根据获取的所述历史断面数据设定最小置信度阈值,并由所述预置Apriori算法求得强关联规则:
其中,confidence(A→B)为A到B的置信度,confmin为所述最小置信度阈值,P(B|A)为B在A发生的情况下的条件概率,所述强关联规则框架包括所述频繁项集和所述强关联规则;
根据所述强关联规则框架对所述第一聚类数据集进行校核,得到所述第二聚类数据集。
优选地,所述根据所述第二聚类数据集与当前缺失数据构建时间序列组,所述时间序列组包括历史数据序列和当前缺失数据序列,还包括:
根据所述历史数据序列和所述当前缺失数据序列构建距离平方矩阵。
优选地,所述通过根据所述时间序列组确定的相似度选择的最佳历史数据序列对所述当前缺失数据进行填补,包括:
从根据所述时间序列组确定的所述距离平方矩阵中选取多组弯曲距离路径序列组,并计算每组弯曲距离路径序列之间的新型DTW距离值,所述新型DTW距离值越小,所述相似度越大,两个所述弯曲距离路径序列为一组所述弯曲距离路径序列组;
选择最大的所述相似度对应的所述历史数据序列对所述当前缺失数据进行填补。
本申请第二方面提供了一种配网电压数据缺失填补装置,包括:
预处理模块,用于对获取的历史断面数据进行预处理,得到无量纲断面数据集;
聚类分析模块,用于采用欧式距离算法或者对数似然距离算法对所述无量纲断面数据集进行聚类分析,得到聚类成功后的第一聚类数据集;
强关联模块,用于通过根据预置Apriori算法构建的强关联规则框架对所述第一聚类数据集进行校核,得到第二聚类数据集;
时间序列模块,用于根据所述第二聚类数据集与当前缺失数据构建时间序列组,所述时间序列组包括历史数据序列和当前缺失数据序列;
缺失填补模块,用于通过根据所述时间序列组确定的相似度选择的最佳历史数据序列对所述当前缺失数据进行填补。
优选地,所述聚类分析模块包括:
第一判断模块,用于判断所述无量纲断面数据集是否均为数值型,若是,则采用欧氏距离算法进行聚类分析,否则,采用对数似然距离算法进行聚类分析;
第二判断模块,用于判定聚类结构是否满足预置显著条件,若是,则聚类成功,得到所述第一聚类数据集,否则,聚类失败,重新进行聚类分析。
优选地,所述强关联模块具体用于:
根据获取的所述历史断面数据设定最小支持度阈值,并由所述预置Apriori算法求得频繁项集:
其中support(A→B)为A到B的支持度,P(A∪B)为A和B的总支持度,supmin为所述最小支持度阈值;
根据获取的所述历史断面数据设定最小置信度阈值,并由所述预置Apriori算法求得强关联规则:
其中,confidence(A→B)为A到B的置信度,confmin为所述最小置信度阈值,P(B|A)为B在A发生的情况下的条件概率,所述强关联规则框架包括所述频繁项集和所述强关联规则;
根据所述强关联规则框架对所述第一聚类数据集进行校核,得到所述第二聚类数据集。
优选地,所述时间序列模块还用于:
根据所述历史数据序列和所述当前缺失数据序列构建距离平方矩阵。
优选地,所述缺失填补模块具体用于:
从根据所述时间序列组确定的所述距离平方矩阵中选取多组弯曲距离路径序列组,并计算每组弯曲距离路径序列之间的新型DTW距离值,所述新型DTW距离值越小,所述相似度越大,两个所述弯曲距离路径序列为一组所述弯曲距离路径序列组;
选择最大的所述相似度对应的所述历史数据序列对所述当前缺失数据进行填补。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请中,提供了一种配网电压数据缺失填补方法,包括:对获取的历史断面数据进行预处理,得到无量纲断面数据集;采用欧式距离算法或者对数似然距离算法对无量纲断面数据集进行聚类分析,得到聚类成功后的第一聚类数据集;通过根据预置Apriori算法构建的强关联规则框架对第一聚类数据集进行校核,得到第二聚类数据集;根据第二聚类数据集与当前缺失数据构建时间序列组,时间序列组包括历史数据序列和当前缺失数据序列;通过根据时间序列组确定的相似度选择的最佳历史数据序列对当前缺失数据进行填补。
本申请提供的配网电压数据缺失填补方法,对历史数据进行聚类分析,得到聚类数据集,然后用Apriori算法构建强关联规则框架,该框架可以校核得到的聚类数据集;将经过处理的历史数据,即第二聚类数据集与当前缺失的电压数据构建与数据相关的时间序列组,该时间序列组包括历史数据序列和当前缺失数据序列,判断二者之间的相似度,用相似度最大的历史数据序列填补配网中缺失的电压数据。从历史数据分析的角度出发,评估电压缺失的数据,寻找历史数据与缺失数据之间的特性和关联性,使得填补的缺失数据更加符合实际情况,更能满足电网的发展需求。因此,本申请提供的配网电压数据缺失填补方法能够解决现有的电网中电压数据的缺失填补技术太复杂且不具有实际针对性,不能满足电网发展需求的技术问题。
附图说明
图1为本申请实施例提供的一种配网电压数据缺失填补方法的一个流程示意图;
图2为本申请实施例提供的一种配网电压数据缺失填补方法的另一个流程示意图;
图3为本申请实施例提供的一种配网电压数据缺失填补装置的一个结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请提供的一种区块链快速共识方法的实施例一,包括:
步骤101、对获取的历史断面数据进行预处理,得到无量纲断面数据集。
需要说明的是,获取的历史断面数据是电能质量的原始数据,为了便于后续统一的处理,需要将这些量纲不同的断面数据进行预处理操作,得到无量纲断面数据,以备后续计算使用;进行无量纲化的预处理方法可以是归一化处理技术。
步骤102、采用欧式距离算法或者对数似然距离算法对无量纲断面数据集进行聚类分析,得到聚类成功后的第一聚类数据集。
需要说明的是,对无量纲断面数据集进行聚类分析的目的是增大数据的类间差异,聚类操作可以根据预置的条件不断进行,直至聚类成功,得到第一聚类数据集;如果聚类的数据为数值型,就直接使用欧氏距离进行聚类,如果不是,就需要同时考虑数值型和分类型的数据计算,采用对数似然距离进行聚类。对数似然函数能够反映类的内部变量的总体差异性,聚类分析过程中不在考虑模型的复杂程度,得到类间差距显著的聚类数据集,用于后续的填补操作,增强了缺失数据填补的可靠性。
步骤103、通过根据预置Apriori算法构建的强关联规则框架对第一聚类数据集进行校核,得到第二聚类数据集。
需要说明的是,Apriori算法是第一个关联规则挖掘算法,它利用逐层搜索的迭代方法找出数据库中项集的关系,然后形成规则,其过程由连接与剪枝组成,连接是类矩阵运算,剪枝是去掉没必要的中间结果;该算法中项集的概念即为项的集合,包含k个项的集合为k项集,项集出现的频率是包含项集的事务数,称为项集的频率。如果某项集满足最小支持度,则称它为频繁项集。通过Apriori算法构建的强关联规则框架,可以校核第一聚类数据集,过滤掉数据集中的错误的,干扰性的噪声记录,得到第二聚类数据集。
步骤104、根据第二聚类数据集与当前缺失数据构建时间序列组,时间序列组包括历史数据序列和当前缺失数据序列。
需要说明的是,历史数据和当前缺失数据确定的序列是时间属性的序列,在时间上是对应的,并且在时间上存在一定关联性,所以能够组建这样的序列组,进行关联性探讨,更有有利于挖掘二者之间关系。
步骤105、通过根据时间序列组确定的相似度选择的最佳历史数据序列对当前缺失数据进行填补。
需要说明的是,时间序列组中包括历史数据序列和当前数据序列,需要根据这两种序列确相似度,相似度越大,说明该时刻对应的历史数据与当前缺失的数据最相似,就可以利用此时刻对应的数据进行电压缺失填补。具体的相似度的确定可以用数据间的距离衡量,距离相距最近的即为最佳的历史数据序列;也可以通过其他方法选择最佳相似度的历史数据序列,具体不作限制,可以根据实际情况选择。
本实施例提供的配网电压数据缺失填补方法,对历史数据进行聚类分析,得到聚类数据集,然后用Apriori算法构建强关联规则框架,该框架可以校核得到的聚类数据集;将经过处理的历史数据,即第二聚类数据集与当前缺失的电压数据构建与数据相关的时间序列组,该时间序列组包括历史数据序列和当前缺失数据序列,判断二者之间的相似度,用相似度最大的历史数据序列填补配网中缺失的电压数据。从历史数据分析的角度出发,评估电压缺失的数据,寻找历史数据与缺失数据之间的特性和关联性,使得填补的缺失数据更加符合实际情况,更能满足电网的发展需求。因此,本实施例提供的配网电压数据缺失填补方法能够解决现有的电网中电压数据的缺失填补技术太复杂且不具有实际针对性,不能满足电网发展需求的技术问题。
为了便于理解,请参阅图2,本申请实施例中提供了一种区块链快速共识方法的实施例二,包括:
步骤201、对获取的历史断面数据进行预处理,得到无量纲断面数据集。
需要说明的是,本实施例采用预处理公式对无量纲断面数据集进行预处理操作,预处理公式如下:
步骤202、判断无量纲断面数据集是否均为数值型,若是,则采用欧氏距离算法进行聚类分析,否则,采用对数似然距离算法进行聚类分析。
需要说明的是,无量纲断面数据集如果均为数值型,那么直接采用欧氏距离进行聚类,否则,就要同时考虑数值型和分类型的数据计算,用对数似然距离进行聚类分析,设有k个聚类变量V1,V2,......,Vk,其中数值型的聚类变量服从正态分布,在此不作过多描述,分类型聚类变量服从联合正态分布。如果聚类成J类,则对数似然函数定义为:
其中,ι为对数似然函数,Ij是第j类样本集合,θj是第j类的参数向量,Vi是第i个聚类,ιj是第j类的对数似然函数,聚类是一个增大类间距离的过程,将相似的类别合并为同类,记第j类和第s类合并后为<j,s>,则它们的对数似然距离定义为两类合并之前的对数似然函数与合并后的对数似然即:
其中,H(j,s)为第j类和第s类之间的对数似然距离,和分别是第j类的对数似然函数、第s类的对数似然函数和二者之间的对数似然函数;对数似然函数能够反映类间变量取值的总体差异性,数值型变量以方法为量度,分类型离散变量以信息熵为量度。要使聚类的变量数不断减少,从而提高类间的差异,需要不断修正粗略估计值J,具体的优修正公式如下:
其中,Hmin(CJ)表示CJ类别和J类别间的最小距离,Hmin(CJ+1)表示CJ+1类别和J类别间的最小距离;依据对数似然距离,在2,3,4,……,J类中选择一个恰当值,不在考虑模型的复杂程度。
步骤203、判定聚类结构是否满足预置显著条件,若是,则聚类成功,得到第一聚类数据集,否则,聚类失败,重新进行聚类分析。
需要说明的是,聚类有可能不是一次成功,需要进行多次聚类分析,所以需要判断聚类是否成功,校验聚类的方法是卡方校验法,假设各聚类变量的类别分布无显著差异,而检验统计量的概率值小于预置显著条件,一般预置显著条件设为0.05,那么就认为该相应聚类变量的均值在各类间存在显著差异,则拒绝原假设;如果检验统计量的概率值大于预置显著条件,则接受假设,说明聚类的各变量确实不存在显著的差异,聚类失败,重新进行聚类分析,直到聚类成功,得到第一集聚类数据集。
步骤204、根据获取的历史断面数据设定最小支持度阈值,并由预置Apriori算法求得频繁项集。
其中support(A→B)为A到B的支持度,P(A∪B)为A和B的总支持度,supmin为最小支持度阈值;
步骤205、根据获取的历史断面数据设定最小置信度阈值,并由预置Apriori算法求得强关联规则。
其中,confidence(A→B)为A到B的置信度,confmin为最小置信度阈值,P(B|A)为B在A发生的情况下的条件概率。
需要说明的是,强关联规则框架包括频繁项集和强关联规则构建的强关联规则框架能够深入挖掘数据之间的关联性,找到数据之间存在的潜在规则,能够更好的利用数据之间的关系进行数据相关操作。
步骤206、根据强关联规则框架对第一聚类数据集进行校核,得到第二聚类数据集。
需要说明的是,构建的强关联规则框架能反映出配网电压数据之间的关联,且能校核第一聚类数据集,过滤掉错误的、干扰性的噪声数据,得到更加可靠的第二聚类数据集。
步骤207、根据第二聚类数据集与当前缺失数据构建时间序列组,时间序列组包括历史数据序列和当前缺失数据序列。
步骤208、根据历史数据序列和当前缺失数据序列构建距离平方矩阵。
需要说明的是,假设历史数据序列为X={x1,x2,......,xm},当前缺失数据序列为Y={y1,y2,......,yn},其中m,n分别表示两个序列中的元素个数,构建一个m×n的距离平方矩阵如下:
其中d(xi,yi)=(xi-yi)2,即序列点xi和yi的距离的平方值。
步骤209、从根据时间序列组确定的距离平方矩阵中选取多组弯曲距离路径序列组,并计算每组弯曲距离路径序列之间的新型DTW距离值。
步骤210、选择最大的相似度对应的历史数据序列对当前缺失数据进行填补。
需要说明的是,其中,新型DTW距离值越小,相似度越大,两个弯曲距离路径序列为一组弯曲距离路径序列组。用l={l1,l2,...,lk,...,lw}表示一条弯曲距离路径,w是序列中的元素个数,满足条件的弯曲距离路径不止一条,可以定义一个弯曲距离路径序列组,该序列组包括序列V和序列U,该序列组的新型DTW距离可以表示为:
其中,lk表示弯曲距离路径中第k个元素。另外,弯曲距离路径l满足如下约束条件:
(1)边界性:l1=d(x1,y1)表示路径l的起点,lss=d(xm,yn)表示路径l的终点;
(2)单调性:对于起点和终点外的任意元素lα=d(xi,yj),其前一个元素lα-1=d(xa,yb)满足i≥a,j≥b;
(3)连续性:i-a≤1,j-b≤1。
需要说明的是,最佳历史数据序列是通过DTW选择的,当得到的DTW最小的时候,说明相似度最高,用此时对应的历史数据序列进行电压缺失数据的填补,结果更加可靠。本实施例从配网数据库中的历史数据出发,充分利用历史数据之间的相关性,选择具有强相关的属性数据作为电压缺失数据填补的参考依据,同时通过动态时间弯曲距离来衡量各属性缺失时刻数据与历史数据的相似程度,找到与电压缺失时刻最相似时刻的数据替代缺失时刻数据,从而提高了电压缺失数据填补的准确性。
为了便于理解,请参与图3,本申请中还提供了一种区块链快速共识装置的实施例,包括:
预处理模块301,用于对获取的历史断面数据进行预处理,得到无量纲断面数据集;
聚类分析模块302,用于采用欧式距离算法或者对数似然距离算法对无量纲断面数据集进行聚类分析,得到聚类成功后的第一聚类数据集;
强关联模块303,用于通过根据预置Apriori算法构建的强关联规则框架对第一聚类数据集进行校核,得到第二聚类数据集;
时间序列模块304,用于根据第二聚类数据集与当前缺失数据构建时间序列组,时间序列组包括历史数据序列和当前缺失数据序列;
缺失填补模块305,用于用于通过根据时间序列组确定的相似度选择的最佳历史数据序列对当前缺失数据进行填补。
进一步地,聚类分析模块302包括:
第一判断模块3021,用于判断无量纲断面数据集是否均为数值型,若是,则采用欧氏距离算法进行聚类分析,否则,采用对数似然距离算法进行聚类分析;
第二判断模块3022,用于判定聚类结构是否满足预置显著条件,若是,则聚类成功,得到第一聚类数据集,否则,聚类失败,重新进行聚类分析。
进一步地,强关联模块303具体用于:
根据获取的历史断面数据设定最小支持度阈值,并由预置Apriori算法求得频繁项集:
其中support(A→B)为A到B的支持度,P(A∪B)为A和B的总支持度,supmin为最小支持度阈值;
根据获取的历史断面数据设定最小置信度阈值,并由预置Apriori算法求得强关联规则:
其中,confidence(A→B)为A到B的置信度,confmin为最小置信度阈值,P(B|A)为B在A发生的情况下的条件概率,强关联规则框架包括频繁项集和强关联规则;
根据强关联规则框架对第一聚类数据集进行校核,得到第二聚类数据集。
进一步地,时间序列模块304还用于:
根据历史数据序列和当前缺失数据序列构建距离平方矩阵。
进一步地,缺失填补模块305具体用于:
从根据时间序列组确定的距离平方矩阵中选取多组弯曲距离路径序列组,并计算每组弯曲距离路径序列之间的新型DTW距离值,新型DTW距离值越小,相似度越大,两个弯曲距离路径序列为一组弯曲距离路径序列组;
选择最大的相似度对应的历史数据序列对当前缺失数据进行填补。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文全称:Read-OnlyMemory,英文缩写:ROM)、随机存取存储器(英文全称:Random Access Memory,英文缩写:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种配网电压数据缺失填补方法,其特征在于,包括:
对获取的历史断面数据进行预处理,得到无量纲断面数据集;
采用欧式距离算法或者对数似然距离算法对所述无量纲断面数据集进行聚类分析,得到聚类成功后的第一聚类数据集;
通过根据预置Apriori算法构建的强关联规则框架对所述第一聚类数据集进行校核,得到第二聚类数据集;
根据所述第二聚类数据集与当前缺失数据构建时间序列组,所述时间序列组包括历史数据序列和当前缺失数据序列;
通过根据所述时间序列组确定的相似度选择的最佳历史数据序列对所述当前缺失数据进行填补。
2.根据权利要求1所述的配网电压数据缺失填补方法,其特征在于,所述采用欧式距离算法或者对数似然距离算法对所述无量纲断面数据集进行聚类分析,得到聚类成功后的第一聚类数据集,包括:
判断所述无量纲断面数据集是否均为数值型,若是,则采用欧氏距离算法进行聚类分析,否则,采用对数似然距离算法进行聚类分析;
判定聚类结构是否满足预置显著条件,若是,则聚类成功,得到所述第一聚类数据集,否则,聚类失败,重新进行聚类分析。
3.根据权利要求1所述的配网电压数据缺失填补方法,其特征在于,所述通过根据预置Apriori算法构建的强关联规则框架对所述第一聚类数据集进行校核,得到第二聚类数据集,包括:
根据获取的所述历史断面数据设定最小支持度阈值,并由所述预置Apriori算法求得频繁项集:
其中support(A→B)为A到B的支持度,P(A∪B)为A和B的总支持度,supmin为所述最小支持度阈值;
根据获取的所述历史断面数据设定最小置信度阈值,并由所述预置Apriori算法求得强关联规则:
其中,confidence(A→B)为A到B的置信度,confmin为所述最小置信度阈值,P(B|A)为B在A发生的情况下的条件概率,所述强关联规则框架包括所述频繁项集和所述强关联规则;
根据所述强关联规则框架对所述第一聚类数据集进行校核,得到所述第二聚类数据集。
4.根据权利要求1所述的配网电压数据缺失填补方法,其特征在于,所述根据所述第二聚类数据集与当前缺失数据构建时间序列组,所述时间序列组包括历史数据序列和当前缺失数据序列,还包括:
根据所述历史数据序列和所述当前缺失数据序列构建距离平方矩阵。
5.根据权利要求4所述的配网电压数据缺失填补方法,其特征在于,所述通过根据所述时间序列组确定的相似度选择的最佳历史数据序列对所述当前缺失数据进行填补,包括:
从根据所述时间序列组确定的所述距离平方矩阵中选取多组弯曲距离路径序列组,并计算每组弯曲距离路径序列之间的新型DTW距离值,所述新型DTW距离值越小,所述相似度越大,两个所述弯曲距离路径序列为一组所述弯曲距离路径序列组;
选择最大的所述相似度对应的所述历史数据序列对所述当前缺失数据进行填补。
6.一种配网电压数据缺失填补装置,其特征在于,包括:
预处理模块,用于对获取的历史断面数据进行预处理,得到无量纲断面数据集;
聚类分析模块,用于采用欧式距离算法或者对数似然距离算法对所述无量纲断面数据集进行聚类分析,得到聚类成功后的第一聚类数据集;
强关联模块,用于通过根据预置Apriori算法构建的强关联规则框架对所述第一聚类数据集进行校核,得到第二聚类数据集;
时间序列模块,用于根据所述第二聚类数据集与当前缺失数据构建时间序列组,所述时间序列组包括历史数据序列和当前缺失数据序列;
缺失填补模块,用于通过根据所述时间序列组确定的相似度选择的最佳历史数据序列对所述当前缺失数据进行填补。
7.根据权利要求6中所述的配网电压数据缺失填补装置,其特征在于,所述聚类分析模块包括:
第一判断模块,用于判断所述无量纲断面数据集是否均为数值型,若是,则采用欧氏距离算法进行聚类分析,否则,采用对数似然距离算法进行聚类分析;
第二判断模块,用于判定聚类结构是否满足预置显著条件,若是,则聚类成功,得到所述第一聚类数据集,否则,聚类失败,重新进行聚类分析。
8.根据权利要求6中所述的配网电压数据缺失填补装置,其特征在于,所述强关联模块具体用于:
根据获取的所述历史断面数据设定最小支持度阈值,并由所述预置Apriori算法求得频繁项集:
其中support(A→B)为A到B的支持度,P(A∪B)为A和B的总支持度,supmin为所述最小支持度阈值;
根据获取的所述历史断面数据设定最小置信度阈值,并由所述预置Apriori算法求得强关联规则:
其中,confidence(A→B)为A到B的置信度,confmin为所述最小置信度阈值,P(B|A)为B在A发生的情况下的条件概率,所述强关联规则框架包括所述频繁项集和所述强关联规则;
根据所述强关联规则框架对所述第一聚类数据集进行校核,得到所述第二聚类数据集。
9.根据权利要求6中所述的配网电压数据缺失填补装置,其特征在于,所述时间序列模块还用于:
根据所述历史数据序列和所述当前缺失数据序列构建距离平方矩阵。
10.根据权利要求9中所述的配网电压数据缺失填补装置,其特征在于,所述缺失填补模块具体用于:
从根据所述时间序列组确定的所述距离平方矩阵中选取多组弯曲距离路径序列组,并计算每组弯曲距离路径序列之间的新型DTW距离值,所述新型DTW距离值越小,所述相似度越大,两个所述弯曲距离路径序列为一组所述弯曲距离路径序列组;
选择最大的所述相似度对应的所述历史数据序列对所述当前缺失数据进行填补。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010102454.5A CN111309718B (zh) | 2020-02-19 | 2020-02-19 | 一种配网电压数据缺失填补方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010102454.5A CN111309718B (zh) | 2020-02-19 | 2020-02-19 | 一种配网电压数据缺失填补方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111309718A true CN111309718A (zh) | 2020-06-19 |
CN111309718B CN111309718B (zh) | 2023-05-23 |
Family
ID=71149195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010102454.5A Active CN111309718B (zh) | 2020-02-19 | 2020-02-19 | 一种配网电压数据缺失填补方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111309718B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732694A (zh) * | 2021-01-19 | 2021-04-30 | 国网上海市电力公司 | 一种用电时序数据的清洗方法 |
CN113568898A (zh) * | 2021-07-30 | 2021-10-29 | 浙江华云信息科技有限公司 | 电力数据漏点补全方法、装置、设备及可读存储介质 |
CN114065878A (zh) * | 2022-01-17 | 2022-02-18 | 国网山东省电力公司泰安供电公司 | 一种基于多参量物联融合技术的电量缺失值填补方法 |
CN114638530A (zh) * | 2022-03-29 | 2022-06-17 | 国网江苏省电力有限公司宿迁供电分公司 | 一种采用多维度断面扫描数据的台区电能质量分析方法 |
CN115736900A (zh) * | 2022-11-18 | 2023-03-07 | 高创(苏州)电子有限公司 | 行为识别系统、方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002003256A1 (en) * | 2000-07-05 | 2002-01-10 | Camo, Inc. | Method and system for the dynamic analysis of data |
CN106407464A (zh) * | 2016-10-12 | 2017-02-15 | 南京航空航天大学 | 一种基于knn的改进缺失数据填补算法 |
CN107463620A (zh) * | 2017-07-05 | 2017-12-12 | 洛川闰土农牧科技有限责任公司 | 一种基于数据挖掘的电梯事故预警预报系统 |
CN110109899A (zh) * | 2018-01-19 | 2019-08-09 | 阿里巴巴集团控股有限公司 | 物联网数据填补方法、装置及系统 |
AU2019101198A4 (en) * | 2019-10-03 | 2020-01-16 | Gu, Jingchao MR | A statistical analysis method of mobile telecom data driven user loss prediction |
-
2020
- 2020-02-19 CN CN202010102454.5A patent/CN111309718B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002003256A1 (en) * | 2000-07-05 | 2002-01-10 | Camo, Inc. | Method and system for the dynamic analysis of data |
CN106407464A (zh) * | 2016-10-12 | 2017-02-15 | 南京航空航天大学 | 一种基于knn的改进缺失数据填补算法 |
CN107463620A (zh) * | 2017-07-05 | 2017-12-12 | 洛川闰土农牧科技有限责任公司 | 一种基于数据挖掘的电梯事故预警预报系统 |
CN110109899A (zh) * | 2018-01-19 | 2019-08-09 | 阿里巴巴集团控股有限公司 | 物联网数据填补方法、装置及系统 |
AU2019101198A4 (en) * | 2019-10-03 | 2020-01-16 | Gu, Jingchao MR | A statistical analysis method of mobile telecom data driven user loss prediction |
Non-Patent Citations (2)
Title |
---|
VICTOR O. K. LI等: "Deep Learning Model to Estimate Air Pollution Using M-BP to Fill in Missing Proxy Urban Data" * |
王丽雯 等: "大数据分析下不完备数据多重准确填补仿真" * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112732694A (zh) * | 2021-01-19 | 2021-04-30 | 国网上海市电力公司 | 一种用电时序数据的清洗方法 |
CN113568898A (zh) * | 2021-07-30 | 2021-10-29 | 浙江华云信息科技有限公司 | 电力数据漏点补全方法、装置、设备及可读存储介质 |
CN113568898B (zh) * | 2021-07-30 | 2024-07-09 | 浙江华云信息科技有限公司 | 电力数据漏点补全方法、装置、设备及可读存储介质 |
CN114065878A (zh) * | 2022-01-17 | 2022-02-18 | 国网山东省电力公司泰安供电公司 | 一种基于多参量物联融合技术的电量缺失值填补方法 |
CN114638530A (zh) * | 2022-03-29 | 2022-06-17 | 国网江苏省电力有限公司宿迁供电分公司 | 一种采用多维度断面扫描数据的台区电能质量分析方法 |
CN115736900A (zh) * | 2022-11-18 | 2023-03-07 | 高创(苏州)电子有限公司 | 行为识别系统、方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111309718B (zh) | 2023-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111309718B (zh) | 一种配网电压数据缺失填补方法及装置 | |
CN112131673B (zh) | 基于融合神经网络模型的发动机喘振故障预测系统及方法 | |
KR101964412B1 (ko) | 이동통신데이터 처리시스템의 이상로그 발생을 진단하는 방법 및 그 시스템 | |
CN112365987A (zh) | 诊断数据异常检测方法、装置、计算机设备及存储介质 | |
CN109934301B (zh) | 一种电力负荷聚类分析方法、装置和设备 | |
CN112685324B (zh) | 一种生成测试方案的方法及系统 | |
CN117078048B (zh) | 基于数字孪生的智慧城市资源管理方法及系统 | |
CN113360722B (zh) | 一种基于多维数据图谱的故障根因定位方法及系统 | |
CN111368259B (zh) | 一种配网电压数据缺失填补方法及相关装置 | |
CN111612038A (zh) | 异常用户检测方法及装置、存储介质、电子设备 | |
CN113744089B (zh) | 一种台区户变关系辨识方法及设备 | |
CN111160329A (zh) | 一种根因分析的方法及装置 | |
CN115510042A (zh) | 基于生成对抗网络的电力系统负荷数据填补方法及装置 | |
CN114765574A (zh) | 一种网络异常定界定位方法及装置 | |
CN115794578A (zh) | 一种电力系统的数据管理方法、装置、设备及介质 | |
CN113268370A (zh) | 一种根因告警分析方法、系统、设备及存储介质 | |
CN109902731B (zh) | 一种基于支持向量机的性能故障的检测方法及装置 | |
CN115294397A (zh) | 一种分类任务的后处理方法、装置、设备及存储介质 | |
CN117237678A (zh) | 用电行为异常检测方法、装置、设备及存储介质 | |
CN110673997A (zh) | 磁盘故障的预测方法及装置 | |
CN114722941A (zh) | 信贷违约识别方法、装置、设备和介质 | |
CN114861753A (zh) | 一种基于大规模网络的数据分类方法和装置 | |
CN114357219A (zh) | 一种面向移动端实例级图像检索方法及装置 | |
CN113486086A (zh) | 一种基于特征工程的数据挖掘方法及系统 | |
CN112463643A (zh) | 一种软件质量预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |