CN114168574A - 一种面向工业负荷的数据缺失处理方法及装置 - Google Patents

一种面向工业负荷的数据缺失处理方法及装置 Download PDF

Info

Publication number
CN114168574A
CN114168574A CN202111256421.7A CN202111256421A CN114168574A CN 114168574 A CN114168574 A CN 114168574A CN 202111256421 A CN202111256421 A CN 202111256421A CN 114168574 A CN114168574 A CN 114168574A
Authority
CN
China
Prior art keywords
data
matrix
mining
missing
filling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111256421.7A
Other languages
English (en)
Inventor
仇瑜
高云鹏
褚晓泉
唐杰
李亚坤
王朝亮
胡若云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
Tsinghua University
Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University, Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd filed Critical Tsinghua University
Priority to CN202111256421.7A priority Critical patent/CN114168574A/zh
Publication of CN114168574A publication Critical patent/CN114168574A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/04Manufacturing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Optimization (AREA)
  • Business, Economics & Management (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Manufacturing & Machinery (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及电力系统负荷技术领域,尤其涉及一种面向工业负荷的数据缺失处理方法及装置。其中,一种面向工业负荷的数据缺失处理方法,包括:获取每个用户的负荷数据以及用户特征数据,根据用户特征数据将负荷数据拆分为多个数据集;对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充;利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。采用上述方案的本申请通过利用智能电表中多种不同类型量测数据之间的相关性,对数据中复杂的关联模式进行挖掘,有效挖掘出不同时刻、不同负荷分量之间的关联关系,从而提升缺失值填充的准确性,有效填充工业负荷数据的缺失值,从而实现对细粒度智能电表的缺失数据填充。

Description

一种面向工业负荷的数据缺失处理方法及装置
技术领域
本申请涉及电力系统负荷技术领域,尤其涉及一种面向工业负荷的数据缺失处理方法及装置。
背景技术
工业负荷是我国电力负荷的重要组成部分,随着电力系统的不断发展及智能电表技术的持续进步,如今电力系统中的工业负荷数据能够获取细粒度的多维度数据,相比常规负荷量测而言,工业负荷数据通常更为全面而细致,对各个工业区域、工业设备等均会配置智能电表,以实时监测工业负荷的健康状态。因此工业负荷数据相对而言规模较为庞大,数据维数较高,在时间粒度方面,工业负荷数据的测量周期通常为15分钟-1小时。
而由于通信问题、设备故障等方面的原因,工业负荷数据中经常存在较多以随机形式存在的缺失值,会为后续的负荷预测、负荷分解等任务带来显著的困难,而如果直接将含缺失值的样本删除则会损失大量的数据,因此,需要针对负荷数据的缺失值进行填充。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种面向工业负荷的数据缺失处理方法,以解决需要针对负荷数据的缺失值进行填充的技术问题。
本申请的第二个目的在于提出一种面向工业负荷的数据缺失处理装置。
为达到上述目的,本申请第一方面实施例提出的一种面向工业负荷的数据缺失处理方法,包括:
获取每个用户的负荷数据以及用户特征数据,根据所述用户特征数据将所述负荷数据拆分为多个数据集;
对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充;
利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。
可选地,在本申请的一个实施例中,所述根据所述用户特征数据将所述负荷数据拆分为多个数据集,包括:
所述用户特征数据包括行业标识;
根据所述行业标识将所述负荷数据逐层拆分为多个数据集,每进行一层拆分,判断拆分出来的所有数据集是否具有低秩性;
若拆分出来的任一数据集不具有低秩性,则对不具有低秩性的数据集进行下一层拆分,若拆分出来的所有数据集均具有低秩性,则停止拆分。
可选地,在本申请的一个实施例中,所述拆分出来的所有数据集是否具有低秩性,包括:
根据下式将数据集进行分解:
X=U∑VT
其中,X为m×n维的数据集,U为m×m维酉矩阵,V为n×n维酉矩阵,∑为m×n维对角阵;
根据下式确定数据集的范数比:
Figure BDA0003324238310000021
其中,βr为范数比,σ1,σ2,...,σl为矩阵∑中主对角线上的元素;
确定范数比近似等于1时的r值,当r值不大于预设的低秩性值时,该数据集具有低秩性。
可选地,在本申请的一个实施例中,所述根据所述用户特征数据将所述负荷数据拆分为多个数据集,还包括;对每个用户的负荷数据进行归一化处理,根据所述用户特征数据将归一化后的负荷数据拆分为多个数据集,其中,根据下式对每个用户的负荷数据进行归一化处理:
Figure BDA0003324238310000031
其中,
Figure BDA0003324238310000032
为电表i于t时刻的负荷数据,capi为电表i所属用户的用电合同容量,xi,t为归一化后的负荷数据。
可选地,在本申请的一个实施例中,所述对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充,包括:
基于物理定律根据已有的负荷数据对缺失数据进行精确填充,从而完成对数据集的初步填充。
可选地,在本申请的一个实施例中,所述利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充,包括:
确定初始拟合矩阵,并将所述初始拟合矩阵分解为行挖掘矩阵以及列挖掘矩阵;
对仍存在缺失数据的数据集进行矩阵分解;
利用梯度下降法迭代更新行挖掘矩阵以及列挖掘矩阵,得到迭代更新后的行挖掘矩阵以及列挖掘矩阵;
根据迭代更新后的行挖掘矩阵以及列挖掘矩阵得到拟合矩阵,利用拟合矩阵中的元素对存在缺失数据的数据集进行深度填充。
可选地,在本申请的一个实施例中,所述确定初始拟合矩阵,并将所述初始拟合矩阵分解为行挖掘矩阵以及列挖掘矩阵,包括:根据下式将初始拟合矩阵分解为行挖掘矩阵以及列挖掘矩阵:
Figure BDA0003324238310000033
其中,
Figure BDA0003324238310000034
为m×n维初始拟合矩阵,U为m×k维行挖掘矩阵,VT为n×k维列挖掘矩阵,k为预设好的嵌入向量维数。
可选地,在本申请的一个实施例中,所述对仍存在缺失数据的数据集进行矩阵分解,包括:
对行挖掘矩阵以及列挖掘矩阵进行时序正则化以及特征正则化:
根据下式对存在缺失数据的数据集进行矩阵分解:
Figure BDA0003324238310000041
其中,J为目标函数,目标函数最小时表示矩阵分解完成,⊙为哈达玛积即矩阵逐元素相乘,X为根据存在缺失数据的数据集确定的m×n维矩阵,
Figure BDA0003324238310000042
为m×n维初始拟合矩阵,λ1||U||2、λ2||V||2为正则项,λ3||BU||2为时序正则化项、λ4||cTV||2为特征正则化项,λ14为预设好的正则化系数;B为矩阵
Figure BDA0003324238310000043
c为预设好的1×k维向量;
根据矩阵X确定矩阵A,令矩阵X中缺失数据处的元素记为0,非缺失数据处的元素记为1,从而得到矩阵A。
可选地,在本申请的一个实施例中,所述利用梯度下降法迭代更新行挖掘矩阵以及列挖掘矩阵,包括:
确定学习率,根据下式利用梯度下降法迭代更新行挖掘矩阵以及列挖掘矩阵:
Figure BDA0003324238310000044
Figure BDA0003324238310000045
Figure BDA0003324238310000046
Figure BDA0003324238310000047
其中,
Figure BDA0003324238310000048
为行挖掘矩阵以及列挖掘矩阵的梯度,d为学习率,
Figure BDA0003324238310000049
为迭代更新后的行挖掘矩阵,
Figure BDA00033242383100000410
为迭代更新后的列挖掘矩阵。
综上,本申请第一方面实施例提出的方法,通过获取每个用户的负荷数据以及用户特征数据,根据所述用户特征数据将所述负荷数据拆分为多个数据集;对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充;利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。本申请能够利用智能电表中多种不同类型量测数据之间的相关性,对数据中复杂的关联模式进行挖掘,有效挖掘出不同时刻、不同负荷分量之间的关联关系,从而提升缺失值填充的准确性,有效填充工业负荷数据的缺失值,从而实现对细粒度智能电表的缺失数据填充,为工业负荷的缺失数据填充提供有效参考。
为达到上述目的,本申请第二方面实施例提出的一种面向工业负荷的数据缺失处理装置,包括:
拆分模块,用于获取每个用户的负荷数据以及用户特征数据,并根据所述用户特征数据将所述负荷数据拆分为多个数据集;
初步填充模块,用于对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充;
深度填充模块,用于利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。
综上,本申请实施例提供的技术方案至少带来以下有益效果:
1)通过利用矩阵分解方法处理多变量工业负荷数据填充,分解出的两个矩阵分别挖掘负荷数据在时序上的相关性及不同类型量测数据上的相关性,从而对数据中复杂的关联模式进行挖掘,实现对细粒度智能电表的缺失数据修复;
2)通过基于行业标识的分层划分数据集,使得划分后的各数据集均满足低秩性,使各数据集规模适中从而保证矩阵分解的可行性;
3)通过在矩阵分解时,基于工业负荷数据的固有特性,为行挖掘矩阵以及列挖掘矩阵设计合适的正则化项,使得矩阵分解结果具有合理性及可解释性。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例所提供的多重填充法的流程图;
图2为本申请实施例所提供的一种面向工业负荷的数据缺失处理方法的流程图;
图3为本申请实施例所提供的用户特征数据结构示意图;
图4为本申请实施例所提供的预处理后的负荷数据结构示意图;
图5为本申请实施例所提供的拟合矩阵分解示意图;
图6为本申请实施例所提供的缺失值填充效果表格对比示意图;
图7为本申请实施例所提供的缺失值填充效果折现对比示意图;
图8为本申请实施例所提供的一种面向工业负荷的数据缺失处理装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
对于电力系统中的负荷数据的缺失值,现有的处理方法主要是基于统计的方法进行填充,主要包括以下四种方法:
第一种方法:均值填充法,即利用同一特征的非缺失数据的均值来填充缺失值,具体通过以下公式进行填充:
Figure BDA0003324238310000061
其中,yimp表示特征y的填充值,Ykno表示特征y的已知数据(非缺失数据)的集合,n表示Ykno中的元素数目;
均值填充法虽然过程简单,应用广泛,但是其没有有效考虑不同特征之间的关联,因而误差往往较大;
第二种方法:回归填充法,即将特征y与特征x之间进行线性回归,使得当y缺失时可基于已知的x进行推断,具体通过以下公式进行填充:
Figure BDA0003324238310000071
Figure BDA0003324238310000072
其中,Xkno、Ykno分别为特征x、特征y中已知数据的集合,
Figure BDA0003324238310000073
分别为特征x、特征y中已知数据的均值,yimp,i为特征y中第i个数据的填充值;
回归填充法一定程度地考虑了不同特征之间的关联,但是将不同特征之间建模为线性关系,在应用于复杂的数据集时仍存在一定的误差;
第三种方法:K近邻法(k-Nearest Neighbor,KNN),即基于已知的数据计算样本之间的距离,从而找到距离待填充样本最近的k个样本,利用这k个样本在待填充维度上的均值作为待填充样本的填充值,距离的计算方式通常为欧式距离,具体通过下式计算距离样本y最近的k个样本x(1),...,x(k)
Figure BDA0003324238310000074
其中,x,y分别为特征x样本、特征y样本,xi、yi分别为特征x样本、特征y样本中第i个已知的特征;
通过下式计算填充值:
Figure BDA0003324238310000075
其中,ym为特征y样本的第m个待填充特征;
第四种方法:多重填充法,即基于一定的随机性对缺失数据进行多次填充,得到多组填充值,再基于一定的统计方法对这几组结果进行合并,得到最终的填充值,具体流程如图1所示,其中,mice函数对数据集进行多次填充,得到多组填充后的数据;with函数则基于统计的方法对多组填充后的数据进行分析;pool函数则基于分析结果将多组填充后的数据进行合并,并基于标准差和p值表示多重填充法带来的不确定性。
上述四种方法都是基于一些朴素的统计或计算方法对缺失值进行填充,较多应用于没有安装智能电表的电网变压器节点负荷、新能源缺数据填充中。这些节点的电量数据通常只包含电量信息,数据维数较为单一,数据并不复杂,数据修复的误差对后续预测等数据处理任务的影响也相对较小,因而用上述方法可以取得一定的效果,能够满足实际应用的需求。
而工业负荷数据相对而言较为复杂,一个工业用户对应着多个电表的数据,而每个电表又实时监控着多相有功、无功功率等数据,数据维数较高。因此对于装设了智能电表的多维度工业负荷数据而言,通常能够获取到细粒度的用户用电量测数据,通常包含了三相总的有功、无功以及A、B、C项的有功和无功数据。可以发现,智能电表提供的量测数据的各个维度之间可能存在着复杂的关联关系,甚至存在明确的物理规律上的相关约束,如果修复中不恰当对后续数据的分析的影响更大,因而传统的数据填充方法可能并不适用,但是目前面向细粒度工业负荷的量测数据缺失填充研究相对较少。
实施例1
图2为本申请实施例所提供的一种面向工业负荷的数据缺失处理方法的流程图。
如图2所示,本申请实施例提供的一种面向工业负荷的数据缺失处理方法,包括以下步骤:
步骤110,获取每个用户的负荷数据以及用户特征数据,根据用户特征数据将负荷数据拆分为多个数据集;
步骤120,对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充;
步骤130,利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。
具体地,原始数据中每个用户下有多个电表,每个电表的量测数据包括总有功功率、A相有功功率、B相有功功率、C相有功功率、总无功功率、A相无功功率、B相无功功率、C相无功功率,每个用户的数据分为负荷数据以及用户特征数据;
进一步地,用户特征数据结构如图3所示,其中,基于用户标识、电表标识、行业标识、运行容量对每个电表量测的原始负荷数据进行拆分以及预处理为合适的格式,预处理后的负荷数据结构如图4所示,其中,
Figure BDA0003324238310000091
中存在缺失值。
进一步地,由于不同电压等级、不同行业的负荷模式差异较大,因此基于行业标识对每个电表量测的原始负荷数据进行拆分为多个数据集,从而使得同一数据集中的用户具有较为相似的用电行为,进而再对拆分出的多个数据集分别进行训练以及缺失值填充。
在本申请实施例中,根据用户特征数据将负荷数据拆分为多个数据集,包括:
用户特征数据包括行业标识;
根据行业标识将负荷数据逐层拆分为多个数据集,每进行一层拆分,判断拆分出来的所有数据集是否具有低秩性;
若拆分出来的任一数据集不具有低秩性,则对不具有低秩性的数据集进行下一层拆分,若拆分出来的所有数据集均具有低秩性,则停止拆分。
需要说明的是,拆分后的每个数据集需要具备合适的规模,若数据集规模太大,则其中许多用户的用电行为差异大,数据集形成的矩阵难以满足低秩性,会为矩阵分解带来困难;若数据集规模太小,则有效数据较少,会影响数据填充的准确性。
具体地,行业标识是基于《国民经济行业分类标准(GB/T4754-2002)》的四位编码,前两位表示行业大类,前三位表示中类,前四位表示小类,例如行业标识为0111,则其中01表示农业,011表示谷物及其他作物的种植,0111表示谷物的种植;基于行业标识,将数据集由行业大类至小类逐层进行拆分。
在本申请实施例中,拆分出来的所有数据集是否具有低秩性,包括:
根据下式将数据集进行分解:
X=U∑VT
其中,X为m×n维的数据集,U为m×m维酉矩阵,V为n×n维酉矩阵,∑为m×n维对角阵;
根据下式确定数据集的范数比:
Figure BDA0003324238310000101
其中,βr为范数比,σ1,σ2,...,σl为矩阵∑中主对角线上的元素;
确定范数比近似等于1时的r值,当r值不大于预设的低秩性值时,该数据集具有低秩性。
具体地,σ1,σ2,...,σl为矩阵∑中主对角线上的元素即奇异值,其中,σ1≥σ2≥…≥σl≥0,r∈{1,2,…,l};
进一步地,基于行业标识,设置低秩性阈值为5,确定βr>0.99时的r值,若r≤5则说明X满足低秩性条件。
在本申请实施例中,根据用户特征数据将负荷数据拆分为多个数据集,还包括;对每个用户的负荷数据进行归一化处理,根据用户特征数据将归一化后的负荷数据拆分为多个数据集,其中,根据下式对每个用户的负荷数据进行归一化处理:
Figure BDA0003324238310000102
其中,
Figure BDA0003324238310000103
为电表i于t时刻的负荷数据,capi为电表i所属用户的用电合同容量,xi,t为归一化后的负荷数据。
具体地,基于运行容量对每个用户的负荷数据进行归一化,从而使得各个用户的负荷数据尺度一致,归一化后各用户的负荷数据尺度一致,均处于[0,1]区间。
在本申请实施例中,对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充,包括:
基于物理定律根据已有的负荷数据对缺失数据进行精确填充,从而完成对数据集的初步填充。
进一步地,对于总有功功率、A相有功功率、B相有功功率、C相有功功率这四项有功功率来说,若有且仅有一个有功功率缺失,则可基于其余三个有功功率将其精准填充;同理可得,对于总无功功率、A相无功功率、B相无功功率、C相无功功率这四项无功功率来说,若有且仅有一个无功功率缺失,则可基于其余三个无功功率将其精准填充。
进一步地,若总有功功率或者总无功功率缺失,则根据下式进行数据填充:
xtotal=xA+xB+xC
其中,xtotal为总有功功率或者总无功功率的填充值,xA为A相有功功率或者A相无功功率,xB为B相有功功率或者B相无功功率,xC为C相有功功率或者C相无功功率;
若总有功功率或者总无功功率已知,另外三项有功功率中任一项缺失或者另外三项无功功率中任一项缺失,则根据下式进行数据填充:
Figure BDA0003324238310000111
其中,xi为另外三项有功功率中缺失的那一项有功功率或者另外三项无功功率中缺失的那一项无功功率;x-i为另外三项有功功率中已有的两项有功功率或者另外三项无功功率中已有的两项无功功率;xtotal为总有功功率或者总无功功率。
在本申请实施例中,利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充,包括:
确定初始拟合矩阵,并将初始拟合矩阵分解为行挖掘矩阵以及列挖掘矩阵;
对仍存在缺失数据的数据集进行矩阵分解;
利用梯度下降法迭代更新行挖掘矩阵以及列挖掘矩阵,得到迭代更新后的行挖掘矩阵以及列挖掘矩阵;
根据迭代更新后的行挖掘矩阵以及列挖掘矩阵得到拟合矩阵,利用拟合矩阵中的元素对存在缺失数据的数据集进行深度填充。
在本申请实施例中,确定初始拟合矩阵,并将初始拟合矩阵分解为行挖掘矩阵以及列挖掘矩阵,包括:根据下式将初始拟合矩阵分解为行挖掘矩阵以及列挖掘矩阵:
Figure BDA0003324238310000121
其中,
Figure BDA0003324238310000122
为m×n维初始拟合矩阵,U为m×k维行挖掘矩阵,VT为n×k维列挖掘矩阵,k为预设好的嵌入向量维数。
具体地,矩阵分解的核心思想是用矩阵
Figure BDA0003324238310000123
拟合数据集X。如果
Figure BDA0003324238310000124
与X中未缺失部分之间的误差足够小,则说明
Figure BDA0003324238310000125
这样的矩阵分解能够有效挖掘出数据集X中各个样本及各个特征之间的关联,即认为
Figure BDA0003324238310000126
能够有效拟合X,从而可以用
Figure BDA0003324238310000127
中的元素填充数据集X中缺失的部分,如图5所示;
具体地,
Figure BDA0003324238310000128
为m×n维初始拟合矩阵,在对存在缺失数据的数据集进行深度填充时,m为时间点的数目,n为智能电表量测的变量数;矩阵U为每一行数据赋予一个k维嵌入向量,以挖掘各样本或者各行之间的关联;矩阵V为每一列数据赋予一个k维嵌入向量,以挖掘各特征或者各列之间的关联;
进一步地,不同行代表不同的电表及量测时间,不同列代表不同类型的量测数据,矩阵U挖掘时序数据之间的关联,矩阵V挖掘各类型量测数据之间的关联。
在本申请实施例中,对仍存在缺失数据的数据集进行矩阵分解,包括:
对行挖掘矩阵以及列挖掘矩阵进行时序正则化以及特征正则化:
根据下式对存在缺失数据的数据集进行矩阵分解:
Figure BDA0003324238310000131
其中,J为目标函数,目标函数最小时表示矩阵分解完成,⊙为哈达玛积即矩阵逐元素相乘,X为根据存在缺失数据的数据集确定的m×n维矩阵,
Figure BDA0003324238310000132
为m×n维初始拟合矩阵,λ1||U||2、λ2||V||2为正则项,λ3||BU||2为时序正则化项、λ4||cTV||2为特征正则化项,λ14为预设好的正则化系数;B为矩阵
Figure BDA0003324238310000133
c为预设好的1×k维向量;
根据矩阵X确定矩阵A,令矩阵X中缺失数据处的元素记为0,非缺失数据处的元素记为1,从而得到矩阵A。
具体地,
Figure BDA0003324238310000134
为拟合误差,由于工业负荷的负荷量较为平稳,相邻时刻之间的负荷变化量通常较小,所以通过时序正则化项λ3||BU||2为对矩阵U的一阶差分进行正则化,从而对矩阵U进行约束,使得拟合出的数据具有时序稳定性,避免出现负荷显著波动的情况。
具体地,装设了智能电表的工业负荷所提供的量测数据变量:总有功功率、A相有功功率、B相有功功率、C相有功功率、总无功功率、A相无功功率、B相无功功率、C相无功功率之间,根据基尔霍夫定律存在着明显的相关性,在修复过程中,通过对相关性的考虑可以有助于提升修复的精度。
进一步地,根据总有功功率、A相有功功率、B相有功功率、C相有功功率、总无功功率、A相无功功率、B相无功功率、C相无功功率这八个电表的量测数据,确定矩阵V为
Figure BDA0003324238310000135
向量c为
Figure BDA0003324238310000136
其中,v1代表总有功功率的嵌入向量,v2,v3,v4分别表示A相有功功率、B相有功功率、C相有功功率的嵌入向量;v5代表总无功功率的嵌入向量,v6,v7,v8分别代表A相无功功率、B相无功功率、C相无功功率的嵌入向量;
进一步地,基于矩阵V以及向量c可得到
cTV=(v1-v2-v3-v4)+(v5-v6-v7-v8)
由此可得特征正则化项λ4||cTV||2使得总有功功率嵌入向量与A相有功功率、B相有功功率、C相有功功率的嵌入向量之和尽可能接近,总无功功率嵌入向量与A相无功功率、B相无功功率、C相无功功率的嵌入向量之和尽可能接近,即赋予了总有功功率等于A相有功功率、B相有功功率、C相有功功率之和,总无功功率等于A相无功功率、B相无功功率、C相无功功率之和的约束,从而使矩阵分解的结果具备合理性以及可解释性。
在本申请实施例中,利用梯度下降法迭代更新行挖掘矩阵以及列挖掘矩阵,包括:
确定学习率,根据下式利用梯度下降法迭代更新行挖掘矩阵以及列挖掘矩阵:
Figure BDA0003324238310000141
Figure BDA0003324238310000142
Figure BDA0003324238310000143
Figure BDA0003324238310000144
其中,
Figure BDA0003324238310000145
为行挖掘矩阵以及列挖掘矩阵的梯度,d为学习率,
Figure BDA0003324238310000146
为迭代更新后的行挖掘矩阵,
Figure BDA0003324238310000147
为迭代更新后的列挖掘矩阵。
具体地,随机初始化矩阵U以及矩阵V,利用梯度下降法迭代更新矩阵U以及矩阵V,直至梯度
Figure BDA0003324238310000148
中各元素值均小于设定阈值时停止迭代,基于最终得到的矩阵
Figure BDA0003324238310000149
以及矩阵
Figure BDA00033242383100001410
得到拟合矩阵
Figure BDA00033242383100001411
利用
Figure BDA00033242383100001412
中的元素填充X中的缺失值。
以一种场景举例,选取某地区3个月的工业负荷数据作为算例,共包括200个工业用户共计345个电表的量测数据,负荷数据共有8个特征,即总有功功率、A相有功功率、B相有功功率、C相有功功率、总无功功率、A相无功功率、B相无功功率、C相无功功率;负荷每15分钟进行一次量测,每种负荷一天包含96个负荷数据;
从这3个月的工业负荷数据中随机剔除20%的数据作为缺失值,用本申请实施例提出的方法对缺失值进行补全,从而将填充结果与真实值进行对比,评价指标采用均方根误差(Root Mean Square Error,RMSE),通过下式确定均方根误差:
Figure BDA0003324238310000151
其中,xtrue,i为第i个真实值,ximp,i为第i个填充值。
具体地,基于评价指标将本申请实施例提出的方法与均值填充法、K近邻法、多重填充法的填充效果进行对比,对比结果如图6所示,其中,本申请实施例提出的方法的均方根误差为1.41,均值填充法的均方根误差为2.07,K近邻法的均方根误差为1.55,多重填充法的均方根误差为1.63,由此可得,本申请实施例提出的方法的均方根误差最小,验证了本申请实施例提出的方法应用于工业负荷数据的有效性。
进一步地,某电表某日的总有功功率曲线的缺失值填充效果如图7所示,其中,MF为本申请实施例提出的方法,KNN为K近邻法,MICE为多重填充法,由此可得,本申请实施例提出的方法与真实值较为接近,有着较好的缺失值填充效果。
综上,本申请实施例提出的方法,通过获取每个用户的负荷数据以及用户特征数据,根据用户特征数据将负荷数据拆分为多个数据集;对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充;利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。本申请能够利用智能电表中多种不同类型量测数据之间的相关性,对数据中复杂的关联模式进行挖掘,有效挖掘出不同时刻、不同负荷分量之间的关联关系,从而提升缺失值填充的准确性,有效填充工业负荷数据的缺失值,从而实现对细粒度智能电表的缺失数据填充,为工业负荷的缺失数据填充提供有效参考。
为了实现上述实施例,本申请还提出一种面向工业负荷的数据缺失处理装置。
图8为本申请实施例提供的一种面向工业负荷的数据缺失处理装置的结构示意图。
如图8所示,一种面向工业负荷的数据缺失处理装置,包括:
拆分模块810,用于获取每个用户的负荷数据以及用户特征数据,并根据用户特征数据将负荷数据拆分为多个数据集;
初步填充模块820,用于对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充;
深度填充模块830,用于利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。
综上,本申请实施例提出的装置,通过拆分模块获取每个用户的负荷数据以及用户特征数据,并根据用户特征数据将负荷数据拆分为多个数据集;初步填充模块对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充;深度填充模块利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。本申请能够利用智能电表中多种不同类型量测数据之间的相关性,对数据中复杂的关联模式进行挖掘,有效挖掘出不同时刻、不同负荷分量之间的关联关系,从而提升缺失值填充的准确性,有效填充工业负荷数据的缺失值,从而实现对细粒度智能电表的缺失数据填充,为工业负荷的缺失数据填充提供有效参考。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种面向工业负荷的数据缺失处理方法,其特征在于,所述方法包括:
获取每个用户的负荷数据以及用户特征数据,根据所述用户特征数据将所述负荷数据拆分为多个数据集;
对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充;
利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。
2.如权利要求1所述的方法,其特征在于,所述根据所述用户特征数据将所述负荷数据拆分为多个数据集,包括:
所述用户特征数据包括行业标识;
根据所述行业标识将所述负荷数据逐层拆分为多个数据集,每进行一层拆分,判断拆分出来的所有数据集是否具有低秩性;
若拆分出来的任一数据集不具有低秩性,则对不具有低秩性的数据集进行下一层拆分,若拆分出来的所有数据集均具有低秩性,则停止拆分。
3.如权利要求2所述的方法,其特征在于,所述拆分出来的所有数据集是否具有低秩性,包括:
根据下式将数据集进行分解:
X=UΣVT
其中,X为m×n维的数据集,U为m×m维酉矩阵,V为n×n维酉矩阵,Σ为m×n维对角阵;
根据下式确定数据集的范数比:
Figure FDA0003324238300000011
其中,βr为范数比,σ12,…,σl为矩阵Σ中主对角线上的元素;
确定范数比近似等于1时的r值,当r值不大于预设的低秩性值时,该数据集具有低秩性。
4.如权利要求1所述的方法,其特征在于,所述根据所述用户特征数据将所述负荷数据拆分为多个数据集,还包括;对每个用户的负荷数据进行归一化处理,根据所述用户特征数据将归一化后的负荷数据拆分为多个数据集,其中,根据下式对每个用户的负荷数据进行归一化处理:
Figure FDA0003324238300000021
其中,
Figure FDA0003324238300000022
为电表i于t时刻的负荷数据,capi为电表i所属用户的用电合同容量,xi,为归一化后的负荷数据。
5.如权利要求1-4任一项所述的方法,其特征在于,所述对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充,包括:
基于物理定律根据已有的负荷数据对缺失数据进行精确填充,从而完成对数据集的初步填充。
6.如权利要求1-4任一项所述的方法,其特征在于,所述利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充,包括:
确定初始拟合矩阵,并将所述初始拟合矩阵分解为行挖掘矩阵以及列挖掘矩阵;
对仍存在缺失数据的数据集进行矩阵分解;
利用梯度下降法迭代更新行挖掘矩阵以及列挖掘矩阵,得到迭代更新后的行挖掘矩阵以及列挖掘矩阵;
根据迭代更新后的行挖掘矩阵以及列挖掘矩阵得到拟合矩阵,利用拟合矩阵中的元素对存在缺失数据的数据集进行深度填充。
7.如权利要求6所述的方法,其特征在于,所述确定初始拟合矩阵,并将所述初始拟合矩阵分解为行挖掘矩阵以及列挖掘矩阵,包括:根据下式将初始拟合矩阵分解为行挖掘矩阵以及列挖掘矩阵:
Figure FDA0003324238300000023
其中,
Figure FDA0003324238300000024
为m×n维初始拟合矩阵,U为m×k维行挖掘矩阵,VT为n×k维列挖掘矩阵,k为预设好的嵌入向量维数。
8.如权利要求7所述的方法,其特征在于,所述对仍存在缺失数据的数据集进行矩阵分解,包括:
对行挖掘矩阵以及列挖掘矩阵进行时序正则化以及特征正则化:
根据下式对存在缺失数据的数据集进行矩阵分解:
Figure FDA0003324238300000031
其中,J为目标函数,目标函数最小时表示矩阵分解完成,⊙为哈达玛积即矩阵逐元素相乘,X为根据存在缺失数据的数据集确定的m×n维矩阵,
Figure FDA0003324238300000032
为m×n维初始拟合矩阵,λ1‖U‖2、λ2‖V‖2为正则项,λ3‖BU‖2为时序正则化项、λ4||cTV||2为特征正则化项,λ14为预设好的正则化系数;B为矩阵
Figure FDA0003324238300000033
c为预设好的1×k维向量;
根据矩阵X确定矩阵A,令矩阵X中缺失数据处的元素记为0,非缺失数据处的元素记为1,从而得到矩阵A。
9.如权利要求8所述的方法,其特征在于,所述利用梯度下降法迭代更新行挖掘矩阵以及列挖掘矩阵,包括:
确定学习率,根据下式利用梯度下降法迭代更新行挖掘矩阵以及列挖掘矩阵:
Figure FDA0003324238300000034
Figure FDA0003324238300000035
Figure FDA0003324238300000036
Figure FDA0003324238300000037
其中,
Figure FDA0003324238300000041
为行挖掘矩阵以及列挖掘矩阵的梯度,α为学习率,
Figure FDA0003324238300000042
为迭代更新后的行挖掘矩阵,
Figure FDA0003324238300000043
为迭代更新后的列挖掘矩阵。
10.一种面向工业负荷的数据缺失处理装置,其特征在于,包括:
拆分模块,用于获取每个用户的负荷数据以及用户特征数据,并根据所述用户特征数据将所述负荷数据拆分为多个数据集;
初步填充模块,用于对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充;
深度填充模块,用于利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。
CN202111256421.7A 2021-10-27 2021-10-27 一种面向工业负荷的数据缺失处理方法及装置 Pending CN114168574A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111256421.7A CN114168574A (zh) 2021-10-27 2021-10-27 一种面向工业负荷的数据缺失处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111256421.7A CN114168574A (zh) 2021-10-27 2021-10-27 一种面向工业负荷的数据缺失处理方法及装置

Publications (1)

Publication Number Publication Date
CN114168574A true CN114168574A (zh) 2022-03-11

Family

ID=80477401

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111256421.7A Pending CN114168574A (zh) 2021-10-27 2021-10-27 一种面向工业负荷的数据缺失处理方法及装置

Country Status (1)

Country Link
CN (1) CN114168574A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116578557A (zh) * 2023-03-03 2023-08-11 齐鲁工业大学(山东省科学院) 面向数据中台的缺失数据填充方法
CN116708514A (zh) * 2023-08-02 2023-09-05 深圳龙电华鑫控股集团股份有限公司 一种基于物联网的电能表数据采集方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116578557A (zh) * 2023-03-03 2023-08-11 齐鲁工业大学(山东省科学院) 面向数据中台的缺失数据填充方法
CN116578557B (zh) * 2023-03-03 2024-04-02 齐鲁工业大学(山东省科学院) 面向数据中台的缺失数据填充方法
CN116708514A (zh) * 2023-08-02 2023-09-05 深圳龙电华鑫控股集团股份有限公司 一种基于物联网的电能表数据采集方法及系统
CN116708514B (zh) * 2023-08-02 2023-10-31 深圳龙电华鑫控股集团股份有限公司 一种基于物联网的电能表数据采集方法及系统

Similar Documents

Publication Publication Date Title
CN111860982A (zh) 一种基于vmd-fcm-gru的风电场短期风电功率预测方法
CN114168574A (zh) 一种面向工业负荷的数据缺失处理方法及装置
CN115147012B (zh) 一种基于神经网络模型的碳排放量核算方法及装置
CN113126019A (zh) 一种智能电表误差远程估计方法、系统、终端和存储介质
CN113469570A (zh) 信息质量评价模型构建方法、装置、设备及存储介质
Beltran et al. Machine learning techniques suitability to estimate the retained capacity in lithium-ion batteries from partial charge/discharge curves
CN117253368A (zh) 交通流量异常检测方法、装置、计算机设备和存储介质
CN115809705B (zh) 基于量子计算的流体动力学计算系统及量子计算机
CN116384574A (zh) 一种基于w-lstm的非参数负荷区间预测方法
CN116304948A (zh) 一种融合多尺度模糊信息粒的无监督用电异常检测方法
CN114519429A (zh) 获取目标体系的可观测量的方法、装置及介质
CN115545164A (zh) 光伏发电功率预测方法、系统、设备及介质
CN112256735A (zh) 一种用电监测方法、装置、计算机设备和存储介质
CN117634101B (zh) 芯片表面形态确定方法、装置、计算机设备和存储介质
CN116776134B (zh) 一种基于PCA-SFFS-BiGRU的光伏出力预测方法
CN118011074B (zh) 台区电压波动的监测方法、装置、系统和存储介质
CN117435870B (zh) 一种负荷数据实时填充方法、系统、设备和介质
CN113919449B (zh) 基于精准模糊聚类算法的居民电力数据聚类方法及装置
CN113256018B (zh) 一种基于条件分位数回归模型的风电功率超短期概率预测方法
Li et al. Deep Echo State Network with Variable Memory Pattern for Solar Irradiance Prediction
CN118226280A (zh) 基于多源多尺度高维状态空间建模的电池老化评估方法
CN115577753A (zh) 电动汽车充电网络的负荷预测模型生成方法及系统
Cannon et al. Package ‘qrnn’
Lemus et al. SUQ2: Uncertainty Quantification Queries over Large Spatio-temporal Simulations.
Pratama et al. Species Distribution Modeling with Spatial Point Process: Comparing Poisson and Zero Inflated Poisson-Based Algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination