CN115511002A - 一种电力缺失数据补全方法 - Google Patents
一种电力缺失数据补全方法 Download PDFInfo
- Publication number
- CN115511002A CN115511002A CN202211297032.3A CN202211297032A CN115511002A CN 115511002 A CN115511002 A CN 115511002A CN 202211297032 A CN202211297032 A CN 202211297032A CN 115511002 A CN115511002 A CN 115511002A
- Authority
- CN
- China
- Prior art keywords
- data
- matrix
- missing
- neighbor
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 239000011159 matrix material Substances 0.000 claims abstract description 155
- 238000009826 distribution Methods 0.000 claims abstract description 22
- 230000000295 complement effect Effects 0.000 claims abstract description 17
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 13
- 238000005457 optimization Methods 0.000 claims abstract description 3
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000012217 deletion Methods 0.000 claims description 8
- 230000037430 deletion Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 4
- 238000012935 Averaging Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000009825 accumulation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Water Supply & Treatment (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Public Health (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Supply And Distribution Of Alternating Current (AREA)
Abstract
本发明公开了一种电力缺失数据补全方法,包括获取原始电力数据,并划分为完备数据集和缺失数据集;采用动态时间规整算法确定动态时间规整距离,并采用K‑近邻算法根据电能序列的动态时间规整距离构建近邻数据矩阵;对近邻数据矩阵权重进行分配优化,得到第一补全值;根据近邻数据矩阵计算属性相关性影响系数,作为第二补全值;根据第一补全值和第二补全值确定缺失数据集中电能序列的补全值;将补全后的电能序列移出缺失数据集,添加到完备数据集中。本发明能够准确的将电力数据中的缺失数据补全,通过补全方法对缺失值有效修复能够真实反映用户的真实用电情况,为研究用户相关的用电行为分析提供了完整有效的基础电力数据。
Description
技术领域
本发明涉及电力技术领域,具体涉及一种电力缺失数据补全方法。
背景技术
随着智能电网的不断建设完善,电力数据呈现用户数量多、覆盖范围广、时间精度高等特点。基于完整的电力数据开展数据分析与数据建模应用,是电力系统开展电力负荷预测、区域性电力调配以及重点用电单位用电监测等诸多领域的重要基础。在电力数据采集过程中,由于智能电表故障、数据传输信道受阻等影响会导致数据产生无规律的缺失现象。其中,电力数据缺失属于随机缺失,表现为缺失的大小程度与缺失发生的时间点均不确定。包含缺失的电力数据集可以采用直接删除和填补的方式处理,当缺失样本量相对数据集而言不可忽略时,直接删除缺失样本会导致大量的信息丢失,进而使得分析结果可能产生结论性误判,相比之下在合理的缺失范围内研究补全方法十分必要。
现有的电力数据补全法中主要分为两类。一类是以均值法、差值法和回归法等经典补全方法对电力数据补全,其优点是方法原理简单且使用十分方便,但是此类经典补全方法仅考虑了数据数值分布形式,如果应用在电力数据的补全过程中会直接忽略电力数据的时空分布特性,导致数据补全的效果不理想。另一类是利用深度学习等复杂模型来构建数据补全方法,这种方法能有效的提取电力数据的时空关联性,但是由于模型的复杂性导致时间代价高且不易推广应用。电力序列缺失发生点可能在已知时序的任何一个时间点,可能会包含连续缺失与孤立点缺失等复杂缺失情景,以上两类方法都无法应对复杂缺失情况问题。
K-近邻算法(KNN)能依据数据是否完整较为简单的划分出完备数据集,从而快速构建足够的完备训练样本,并计算同一用户用电序列的距离自适应地补全自身缺失数据。首先,KNN方法可以简单的划分数据集,解决了电力序列缺失场景多的缺陷,但是该直接破坏了数据的时间关联性。其次,KNN方法在计算过程中需要计算两条序列的欧式距离,而缺失值的存在影响了距离的直接计算。最后,KNN方法可以依据完整数据较为可靠的补全缺失数据,但是在计算过程中需要遍历数据集,时间代价相对较大。
发明内容
针对现有技术中的上述不足,本发明提供了一种电力缺失数据补全方法,以准确的将电力数据中的缺失数据补全,通过补全方法对缺失值有效修复能够真实反映用户的真实用电情况,为研究用户相关的用电行为分析提供了完整有效的基础电力数据。
为了达到上述发明目的,本发明采用的技术方案为:
一种电力缺失数据补全方法,包括以下步骤:
S1、获取原始电力数据,并划分为完备数据集和缺失数据集;
S2、采用动态时间规整算法确定完备数据集和缺失数据集中电能序列的动态时间规整距离,并采用K-近邻算法根据电能序列的动态时间规整距离构建近邻数据矩阵;
S3、对近邻数据矩阵权重进行分配优化,得到第一补全值;
S4、根据近邻数据矩阵计算属性相关性影响系数,作为第二补全值;
S5、根据第一补全值和第二补全值确定缺失数据集中电能序列的补全值;
S6、将补全后的电能序列移出缺失数据集,添加到完备数据集中,并判断缺失数据集是否为空;若是,则将完备数据集和缺失数据集按原电力集合顺序排序;否则从缺失数据集中选取下一条电能序列,并返回步骤S2。
可选择地,步骤S2具体包括以下分步骤:
S2-1、从缺失数据集中选取一条包含缺失值的电能序列,将该电能序列遍历完备数据集中电能序列计算动态时间规整距离,构建动态时间规整距离矩阵;
S2-2、从动态时间规整距离矩阵中选取动态时间规整距离最小的设定数量的完备序列,构建近邻数据矩阵。
可选择地,步骤S2-1中计算动态时间规整距离的计算方法为:
ddtw_t=DTW(si,Strain_t)
Ddtw={ddtw_1,ddtw_2,…,ddtw_t}
其中,ddtw_t为缺失数据集中包含缺失值的电能序列si与完备数据集Strain_t中第t个电能序列计算的动态时间规整距离,Ddtw为动态时间规整距离矩阵。
可选择地,步骤S3具体包括以下分步骤:
S3-1、根据缺失数据集中包含缺失值的电能序列和近邻数据矩阵计算近邻数据矩阵的权重系数矩阵;
S3-2、根据近邻数据矩阵的权重系数矩阵计算对应的权重分配矩阵;
S3-3、根据近邻数据矩阵中对应缺失所在列的电力数据和权重分配矩阵计算第一补全值。
可选择地,步骤S3-1具体包括:
将缺失数据集中包含缺失值的电能序列分别除以近邻数据矩阵的各行近邻数据,得到近邻数据矩阵的权重系数矩阵,表示为
其中,si为缺失数据集中包含缺失值的电能序列,Sneighbor为近邻数据矩阵,WK为近邻数据矩阵第K行的权重系数向量,WK={w1,w2,…,w24},在缺失点定义wj=0,当分母为0时,wj=0。
可选择地,步骤S3-2具体包括:
将权重系数矩阵中各行权重系数求和取平均,得到近邻数据矩阵的权重分配矩阵,表示为
其中,WK为近邻数据矩阵第K行的权重系数向量,WK={w1,w2,…,w24},在缺失点定义wj=0,当分母为0时,wj=0;j为采样时段。
可选择地,步骤S3-3具体包括:
将近邻数据矩阵中对应缺失所在列的电力数据乘以权重分配矩阵,得到第一补全值,表示为
xi=∑W'yi
其中,xi为缺失电能序列缺失值,i为电能序列缺失值所在列,W'为近邻矩阵的权重分配矩阵,yi为对应缺失值所在列对应的近邻矩阵数据。
可选择地,步骤S4具体包括以下分步骤:
S4-1、对近邻数据矩阵计算协方差矩阵;
S4-2、计算近邻数据矩阵中每列近邻数据的均值,并将近邻数据矩阵中每列近邻数据减去对应列的均值,得到近邻数据矩阵的中心化矩阵;
S4-3、将近邻数据矩阵的中心化矩阵中非缺失值所在列乘以协方差矩阵,得到属性相关性影响系数,作为第二补全值。
可选择地,所述第二补全值表示为:
其中,r为中心化矩阵中非缺失值所在列的数量,cov(Y,Y)r为协方差矩阵,Y为近邻矩阵的列数据,zr为近邻数据矩阵的中心化矩阵中非缺失值所在列数据。
可选择地,步骤S5具体包括:
将第一补全值和第二补全值求和,得到缺失数据集中电能序列的补全值,表示为:
xfill=xi+x'
其中,xfill为缺失数据集中电能序列的补全值,xi为第一补全值,x'为第二补全值。
本发明具有以下有益效果:
(1)本发明提出一种基于DTWKNN的电力数据补全方法,在K-近邻(KNN)补全方法的基础上,运用DTW作为距离量度解决了数据缺失导致序列长度不等进而无法有效计算距离的难题,同时优化了权重组合方式,进一步提升了数据补全精度。面对KNN破坏了数据关联性的问题,本发明改进后的DTWKNN方法增加了属性影响关系计算重新建立了数据属性关联影响。
(2)本发明对KNN进行有效改进,改进后的DTWKNN算法在多种情景下补全效果优于KNN补全方法;同时,在一定范围内降低了补全所需时间代价,并且易于推广并广泛应用在企业用户用电数据补全过程中。
附图说明
图1为本发明中一种电力缺失数据补全方法的流程示意图;
图2为本发明中动态时间规整算法示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,本发明实施例提供了一种电力缺失数据补全方法,包括以下步骤S1至S6:
S1、获取原始电力数据,并划分为完备数据集和缺失数据集;
在本发明的一个可选实施例中,步骤S1的目的在于接入工业企业用户数据集,明确数据缺失情况。对数据缺失位置统计并加以标记,将依据电表采样频率将数据规整为n维(列)的日电量序列矩阵。通过检测数据标记将数据划分为完备数据集和缺失数据集。
具体而言,对电力数据每天以一定采集周期T进行采集,将原始电力数据整理矩阵形式。按日尺度构建用电量时间向量,积累若干天的数据,即可得到原始的用电数据量矩阵,表示为
S=[s1,s2,…,sn]'
其中,S为电力数据矩阵;n为天数;sn={y1,y2,…,y24}为由每天24个不同时刻的用电量组成的向量,代表当天的用电情况;将原始电力数据依据当日内各时刻是否存在缺失划分为缺失数据集Smiss,完整数据集Strain。
S2、采用动态时间规整算法确定完备数据集和缺失数据集中电能序列的动态时间规整距离,并采用K-近邻算法根据电能序列的动态时间规整距离构建近邻数据矩阵;
在本发明的一个可选实施例中,步骤S2依次取出缺失数据集的一条包含缺失值电能序列,将该电能序列遍历完备数据集计算动态时间规整距离(DTW距离),从而组成DTW距离矩阵。在KNN算法中,需要找到K个距离相近的完备数据用来补充缺失值,因此通过预先设定K值,找到K个DTW距离最小的完备电能序列,将K个完备电能序列组成近邻数据矩阵。
步骤S2具体包括以下分步骤:
S2-1、从缺失数据集中选取一条包含缺失值的电能序列si,将该电能序列遍历完备数据集中电能序列计算动态时间规整距离,构建动态时间规整距离矩阵,表示为:
ddtw_t=DTW(si,Strain_t)
Ddtw={ddtw_1,ddtw_2,…,ddtw_t}
其中,ddtw_t为缺失数据集中包含缺失值的电能序列si与完备数据集Strain_t中第t个电能序列计算的动态时间规整距离,Ddtw为动态时间规整距离矩阵。
DTW距离的计算规则为:
DTW距离本质上是要找到序列最短路径,其示意图如图2所示,设有两个电能序列E={e1,e2,…,en}和U={u1,u2,…,um},n和m是各自序列的长度。将电能序列E与U构造距离矩阵为
定义,d(i,j)=|ei-uj|。寻找训练距离,重新计算累加矩阵,表示为
其中:i=1,2,…,n;j=1,2,…,m;D(0,0)=0;D(i,0)=d(i,0)+D(i-1,0);D(0,j)=d(0,j)+D(0,j-1);
累加矩阵D中的右上角元素D(n,m)即为衡量电能序列相关性DTW距离量度,即D(n,m)=DTW(E,U)。
S2-2、从动态时间规整距离矩阵中选取动态时间规整距离最小的设定数量的完备序列,构建近邻数据矩阵。
S3、对近邻数据矩阵权重进行分配优化,得到第一补全值;
在本发明的一个可选实施例中,步骤S3目的在于优化近邻矩阵权重分配,具体地,将缺失值序列除以K行的近邻矩阵,得到K行的权重系数,对每行求和取平均得到K个序列的权重分配矩阵。将近邻矩阵中对应缺失所在列(维度)电量数据乘以对应数据乘以权重并加和得到第一补全值。
步骤S3具体包括以下分步骤:
S3-1、根据缺失数据集中包含缺失值的电能序列和近邻数据矩阵计算近邻数据矩阵的权重系数矩阵,具体包括:
将缺失数据集中包含缺失值的电能序列分别除以近邻数据矩阵的各行近邻数据,得到近邻数据矩阵的权重系数矩阵,表示为
其中,si为缺失数据集中包含缺失值的电能序列,Sneighbor为近邻数据矩阵,WK为近邻数据矩阵第K行的权重系数向量,WK={w1,w2,…,w24},在缺失点定义wj=0,当分母为0时,wj=0。
S3-2、根据近邻数据矩阵的权重系数矩阵计算对应的权重分配矩阵,具体包括:
将权重系数矩阵中各行权重系数求和取平均,得到近邻数据矩阵的权重分配矩阵,表示为
其中,WK为近邻数据矩阵第K行的权重系数向量,WK={w1,w2,…,w24},在缺失点定义wj=0,当分母为0时,wj=0;j为采样时段。
S3-3、根据近邻数据矩阵中对应缺失所在列的电力数据和权重分配矩阵计算第一补全值,具体包括:
将近邻数据矩阵中对应缺失所在列的电力数据乘以权重分配矩阵,得到第一补全值,表示为
xi=∑W'yi
其中,xi为缺失电能序列缺失值,i为电能序列缺失值所在列,W'为近邻矩阵的权重分配矩阵,yi为对应缺失值所在列对应的近邻矩阵数据。
S4、根据近邻数据矩阵计算属性相关性影响系数,作为第二补全值;
在本发明的一个可选实施例中,步骤S4目的在于计算属性相关性系数。具体地,对近邻数据矩阵求出其协方差得出协方差矩阵,同时计算将在原始数据集中每列减去每一列的均值将原始数据中心化,将近邻矩阵对应中心化矩阵数值中对应非缺失所在列乘以协方差系数,计算出属性相关系数并称为第二补全值。
步骤S4具体包括以下分步骤:
S4-1、对近邻数据矩阵计算协方差矩阵;
具体而言,协方差是一种衡量两个变量关系的量度,设有长度均为l的序列A和B,其协方差计算公式为:
实施例中Sneighbor按列表示为Sneighbor={Y1,Y2,…,Y24},每个维度两两之间可以求出一个协方差,将所有相关的协方差计算后可以得到一个24x24的协方差矩阵,表示为
S4-2、计算近邻数据矩阵中每列近邻数据的均值,并将近邻数据矩阵中每列近邻数据减去对应列的均值,得到近邻数据矩阵的中心化矩阵;
具体而言,为了消除数据分析的过程中会存在量纲的影响,本发明对近邻数据矩阵进行中心化处理,具体过程为对应数据点减去所在属性所有不为空值的数值平均值,表示为:
其中,i为近邻数据矩阵的各列,∑yi为近邻数据矩阵中每列近邻数据的和,m为近邻数据矩阵中每列近邻数据不为零的数据个数。
S4-3、将近邻数据矩阵的中心化矩阵中非缺失值所在列乘以协方差矩阵,得到属性相关性影响系数,作为第二补全值。
具体而言,本发明采用的属性相关性影响系数的计算公式为:
其中,r为中心化矩阵中非缺失值所在列的数量,cov(Y,Y)r为协方差矩阵,zr为近邻数据矩阵的中心化矩阵中非缺失值所在列。
S5、根据第一补全值和第二补全值确定缺失数据集中电能序列的补全值;
在本发明的一个可选实施例中,步骤S5具体包括:
将第一补全值和第二补全值求和,得到缺失数据集中电能序列的补全值,表示为:
xfill=xi+x'
其中,xfill为缺失数据集中电能序列的补全值,xi为第一补全值,x'为第二补全值。
S6、将补全后的电能序列移出缺失数据集,添加到完备数据集中,并判断缺失数据集是否为空;若是,则将完备数据集和缺失数据集按原电力集合顺序排序;否则从缺失数据集中选取下一条电能序列,并返回步骤S2。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (10)
1.一种电力缺失数据补全方法,其特征在于,包括以下步骤:
S1、获取原始电力数据,并划分为完备数据集和缺失数据集;
S2、采用动态时间规整算法确定完备数据集和缺失数据集中电能序列的动态时间规整距离,并采用K-近邻算法根据电能序列的动态时间规整距离构建近邻数据矩阵;
S3、对近邻数据矩阵权重进行分配优化,得到第一补全值;
S4、根据近邻数据矩阵计算属性相关性影响系数,作为第二补全值;
S5、根据第一补全值和第二补全值确定缺失数据集中电能序列的补全值;
S6、将补全后的电能序列移出缺失数据集,添加到完备数据集中,并判断缺失数据集是否为空;若是,则将完备数据集和缺失数据集按原电力集合顺序排序;否则从缺失数据集中选取下一条电能序列,并返回步骤S2。
2.根据权利要求1所述的一种电力缺失数据补全方法,其特征在于,步骤S2具体包括以下分步骤:
S2-1、从缺失数据集中选取一条包含缺失值的电能序列,将该电能序列遍历完备数据集中电能序列计算动态时间规整距离,构建动态时间规整距离矩阵;
S2-2、从动态时间规整距离矩阵中选取动态时间规整距离最小的设定数量的完备序列,构建近邻数据矩阵。
3.根据权利要求2所述的一种电力缺失数据补全方法,其特征在于,步骤S2-1中计算动态时间规整距离的计算方法为:
ddtw_t=DTW(si,Strain_t)
Ddtw={ddtw_1,ddtw_2,…,ddtw_t}
其中,ddtw_t为缺失数据集中包含缺失值的电能序列si与完备数据集Strain_t中第t个电能序列计算的动态时间规整距离,Ddtw为动态时间规整距离矩阵。
4.根据权利要求1所述的一种电力缺失数据补全方法,其特征在于,步骤S3具体包括以下分步骤:
S3-1、根据缺失数据集中包含缺失值的电能序列和近邻数据矩阵计算近邻数据矩阵的权重系数矩阵;
S3-2、根据近邻数据矩阵的权重系数矩阵计算对应的权重分配矩阵;
S3-3、根据近邻数据矩阵中对应缺失所在列的电力数据和权重分配矩阵计算第一补全值。
7.根据权利要求4所述的一种电力缺失数据补全方法,其特征在于,步骤S3-3具体包括:
将近邻数据矩阵中对应缺失所在列的电力数据乘以权重分配矩阵,得到第一补全值,表示为
xi=∑W'yi
其中,xi为缺失电能序列缺失值,i为电能序列缺失值所在列,W'为近邻矩阵的权重分配矩阵,yi为对应缺失值所在列对应的近邻矩阵数据。
8.根据权利要求1所述的一种电力缺失数据补全方法,其特征在于,步骤S4具体包括以下分步骤:
S4-1、对近邻数据矩阵计算协方差矩阵;
S4-2、计算近邻数据矩阵中每列近邻数据的均值,并将近邻数据矩阵中每列近邻数据减去对应列的均值,得到近邻数据矩阵的中心化矩阵;
S4-3、将近邻数据矩阵的中心化矩阵中非缺失值所在列乘以协方差矩阵,得到属性相关性影响系数,作为第二补全值。
10.根据权利要求1所述的一种电力缺失数据补全方法,其特征在于,步骤S5具体包括:
将第一补全值和第二补全值求和,得到缺失数据集中电能序列的补全值,表示为:
xfill=xi+x'
其中,xfill为缺失数据集中电能序列的补全值,xi为第一补全值,x'为第二补全值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211297032.3A CN115511002A (zh) | 2022-10-19 | 2022-10-19 | 一种电力缺失数据补全方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211297032.3A CN115511002A (zh) | 2022-10-19 | 2022-10-19 | 一种电力缺失数据补全方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115511002A true CN115511002A (zh) | 2022-12-23 |
Family
ID=84510659
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211297032.3A Pending CN115511002A (zh) | 2022-10-19 | 2022-10-19 | 一种电力缺失数据补全方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115511002A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116826977A (zh) * | 2023-08-28 | 2023-09-29 | 青岛恒源高新电气有限公司 | 一种光储直柔微电网智能管理系统 |
CN117290802A (zh) * | 2023-11-27 | 2023-12-26 | 惠州市鑫晖源科技有限公司 | 一种基于数据处理的主机电源运行监测方法 |
-
2022
- 2022-10-19 CN CN202211297032.3A patent/CN115511002A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116826977A (zh) * | 2023-08-28 | 2023-09-29 | 青岛恒源高新电气有限公司 | 一种光储直柔微电网智能管理系统 |
CN116826977B (zh) * | 2023-08-28 | 2023-11-21 | 青岛恒源高新电气有限公司 | 一种光储直柔微电网智能管理系统 |
CN117290802A (zh) * | 2023-11-27 | 2023-12-26 | 惠州市鑫晖源科技有限公司 | 一种基于数据处理的主机电源运行监测方法 |
CN117290802B (zh) * | 2023-11-27 | 2024-03-26 | 惠州市鑫晖源科技有限公司 | 一种基于数据处理的主机电源运行监测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108364085B (zh) | 一种外卖配送时间预测方法和装置 | |
CN112488395B (zh) | 一种配电网线损预测方法及系统 | |
CN115511002A (zh) | 一种电力缺失数据补全方法 | |
CN109726865A (zh) | 基于emd-qrf的用户负荷概率密度预测方法、装置和存储介质 | |
CN109145464B (zh) | 融合多目标蚁狮优化与迹稀疏正则化的结构损伤识别方法 | |
CN114548509B (zh) | 一种多能源系统多类型负荷联合预测方法及系统 | |
CN107133699A (zh) | 电影票房趋势预测方法和装置、设备、存储介质 | |
CN102509173B (zh) | 一种基于马尔科夫链的电力系统负荷准确预测方法 | |
Cao et al. | CNN-LSTM coupled model for prediction of waterworks operation data | |
CN104091216A (zh) | 基于果蝇优化最小二乘支持向量机的交通信息预测方法 | |
CN112598248A (zh) | 负荷预测方法、装置、计算机设备和存储介质 | |
CN109190810B (zh) | 基于tdnn的中国北方草原地区ndvi的预测方法 | |
CN112381673A (zh) | 一种基于数字孪生的园区用电信息分析方法及装置 | |
CN103268526A (zh) | 基于区间泰勒模型的电力系统短期负荷预测系统及方法 | |
CN116738822A (zh) | 一种基于LightGBM的排水管道最大腐蚀深度预测方法 | |
CN107590747A (zh) | 基于综合能源大数据分析的电网资产周转率计算方法 | |
CN101206727B (zh) | 数据处理装置和数据处理方法 | |
Wu et al. | A hydrologic similarity-based parameters dynamic matching framework: Application to enhance the real-time flood forecasting | |
Wan et al. | A novel time-power based grey model for nonlinear time series forecasting | |
CN117131654A (zh) | 基于预分析初猜值条件非线性最优扰动的目标观测方法 | |
CN110751400A (zh) | 一种风险评估方法及装置 | |
CN114943328A (zh) | 基于bp神经网络非线性组合的sarima-gru时序预测模型 | |
Deng et al. | Medium-term rolling load forecasting based on seasonal decomposition and long short-term memory neural network | |
CN115130924A (zh) | 一种源网荷储背景下微电网电力设备资产评估方法及系统 | |
CN114998048A (zh) | 电量变化因素分析方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |