CN114168574A - 一种面向工业负荷的数据缺失处理方法及装置 - Google Patents
一种面向工业负荷的数据缺失处理方法及装置 Download PDFInfo
- Publication number
- CN114168574A CN114168574A CN202111256421.7A CN202111256421A CN114168574A CN 114168574 A CN114168574 A CN 114168574A CN 202111256421 A CN202111256421 A CN 202111256421A CN 114168574 A CN114168574 A CN 114168574A
- Authority
- CN
- China
- Prior art keywords
- data
- matrix
- mining
- missing
- filling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims abstract description 190
- 238000000034 method Methods 0.000 claims abstract description 63
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 13
- 238000005065 mining Methods 0.000 claims description 75
- 239000013598 vector Substances 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 13
- 238000011478 gradient descent method Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 10
- 239000000126 substance Substances 0.000 claims description 9
- 238000005293 physical law Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 3
- 238000005259 measurement Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 230000005611 electricity Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000007619 statistical method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/04—Manufacturing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Optimization (AREA)
- Business, Economics & Management (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Algebra (AREA)
- Manufacturing & Machinery (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Software Systems (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及电力系统负荷技术领域,尤其涉及一种面向工业负荷的数据缺失处理方法及装置。其中,一种面向工业负荷的数据缺失处理方法,包括:获取每个用户的负荷数据以及用户特征数据,根据用户特征数据将负荷数据拆分为多个数据集;对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充;利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。采用上述方案的本申请通过利用智能电表中多种不同类型量测数据之间的相关性,对数据中复杂的关联模式进行挖掘,有效挖掘出不同时刻、不同负荷分量之间的关联关系,从而提升缺失值填充的准确性,有效填充工业负荷数据的缺失值,从而实现对细粒度智能电表的缺失数据填充。
Description
技术领域
本申请涉及电力系统负荷技术领域,尤其涉及一种面向工业负荷的数据缺失处理方法及装置。
背景技术
工业负荷是我国电力负荷的重要组成部分,随着电力系统的不断发展及智能电表技术的持续进步,如今电力系统中的工业负荷数据能够获取细粒度的多维度数据,相比常规负荷量测而言,工业负荷数据通常更为全面而细致,对各个工业区域、工业设备等均会配置智能电表,以实时监测工业负荷的健康状态。因此工业负荷数据相对而言规模较为庞大,数据维数较高,在时间粒度方面,工业负荷数据的测量周期通常为15分钟-1小时。
而由于通信问题、设备故障等方面的原因,工业负荷数据中经常存在较多以随机形式存在的缺失值,会为后续的负荷预测、负荷分解等任务带来显著的困难,而如果直接将含缺失值的样本删除则会损失大量的数据,因此,需要针对负荷数据的缺失值进行填充。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本申请的第一个目的在于提出一种面向工业负荷的数据缺失处理方法,以解决需要针对负荷数据的缺失值进行填充的技术问题。
本申请的第二个目的在于提出一种面向工业负荷的数据缺失处理装置。
为达到上述目的,本申请第一方面实施例提出的一种面向工业负荷的数据缺失处理方法,包括:
获取每个用户的负荷数据以及用户特征数据,根据所述用户特征数据将所述负荷数据拆分为多个数据集;
对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充;
利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。
可选地,在本申请的一个实施例中,所述根据所述用户特征数据将所述负荷数据拆分为多个数据集,包括:
所述用户特征数据包括行业标识;
根据所述行业标识将所述负荷数据逐层拆分为多个数据集,每进行一层拆分,判断拆分出来的所有数据集是否具有低秩性;
若拆分出来的任一数据集不具有低秩性,则对不具有低秩性的数据集进行下一层拆分,若拆分出来的所有数据集均具有低秩性,则停止拆分。
可选地,在本申请的一个实施例中,所述拆分出来的所有数据集是否具有低秩性,包括:
根据下式将数据集进行分解:
X=U∑VT
其中,X为m×n维的数据集,U为m×m维酉矩阵,V为n×n维酉矩阵,∑为m×n维对角阵;
根据下式确定数据集的范数比:
其中,βr为范数比,σ1,σ2,...,σl为矩阵∑中主对角线上的元素;
确定范数比近似等于1时的r值,当r值不大于预设的低秩性值时,该数据集具有低秩性。
可选地,在本申请的一个实施例中,所述根据所述用户特征数据将所述负荷数据拆分为多个数据集,还包括;对每个用户的负荷数据进行归一化处理,根据所述用户特征数据将归一化后的负荷数据拆分为多个数据集,其中,根据下式对每个用户的负荷数据进行归一化处理:
可选地,在本申请的一个实施例中,所述对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充,包括:
基于物理定律根据已有的负荷数据对缺失数据进行精确填充,从而完成对数据集的初步填充。
可选地,在本申请的一个实施例中,所述利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充,包括:
确定初始拟合矩阵,并将所述初始拟合矩阵分解为行挖掘矩阵以及列挖掘矩阵;
对仍存在缺失数据的数据集进行矩阵分解;
利用梯度下降法迭代更新行挖掘矩阵以及列挖掘矩阵,得到迭代更新后的行挖掘矩阵以及列挖掘矩阵;
根据迭代更新后的行挖掘矩阵以及列挖掘矩阵得到拟合矩阵,利用拟合矩阵中的元素对存在缺失数据的数据集进行深度填充。
可选地,在本申请的一个实施例中,所述确定初始拟合矩阵,并将所述初始拟合矩阵分解为行挖掘矩阵以及列挖掘矩阵,包括:根据下式将初始拟合矩阵分解为行挖掘矩阵以及列挖掘矩阵:
可选地,在本申请的一个实施例中,所述对仍存在缺失数据的数据集进行矩阵分解,包括:
对行挖掘矩阵以及列挖掘矩阵进行时序正则化以及特征正则化:
根据下式对存在缺失数据的数据集进行矩阵分解:
其中,J为目标函数,目标函数最小时表示矩阵分解完成,⊙为哈达玛积即矩阵逐元素相乘,X为根据存在缺失数据的数据集确定的m×n维矩阵,为m×n维初始拟合矩阵,λ1||U||2、λ2||V||2为正则项,λ3||BU||2为时序正则化项、λ4||cTV||2为特征正则化项,λ1-λ4为预设好的正则化系数;B为矩阵c为预设好的1×k维向量;
根据矩阵X确定矩阵A,令矩阵X中缺失数据处的元素记为0,非缺失数据处的元素记为1,从而得到矩阵A。
可选地,在本申请的一个实施例中,所述利用梯度下降法迭代更新行挖掘矩阵以及列挖掘矩阵,包括:
确定学习率,根据下式利用梯度下降法迭代更新行挖掘矩阵以及列挖掘矩阵:
综上,本申请第一方面实施例提出的方法,通过获取每个用户的负荷数据以及用户特征数据,根据所述用户特征数据将所述负荷数据拆分为多个数据集;对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充;利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。本申请能够利用智能电表中多种不同类型量测数据之间的相关性,对数据中复杂的关联模式进行挖掘,有效挖掘出不同时刻、不同负荷分量之间的关联关系,从而提升缺失值填充的准确性,有效填充工业负荷数据的缺失值,从而实现对细粒度智能电表的缺失数据填充,为工业负荷的缺失数据填充提供有效参考。
为达到上述目的,本申请第二方面实施例提出的一种面向工业负荷的数据缺失处理装置,包括:
拆分模块,用于获取每个用户的负荷数据以及用户特征数据,并根据所述用户特征数据将所述负荷数据拆分为多个数据集;
初步填充模块,用于对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充;
深度填充模块,用于利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。
综上,本申请实施例提供的技术方案至少带来以下有益效果:
1)通过利用矩阵分解方法处理多变量工业负荷数据填充,分解出的两个矩阵分别挖掘负荷数据在时序上的相关性及不同类型量测数据上的相关性,从而对数据中复杂的关联模式进行挖掘,实现对细粒度智能电表的缺失数据修复;
2)通过基于行业标识的分层划分数据集,使得划分后的各数据集均满足低秩性,使各数据集规模适中从而保证矩阵分解的可行性;
3)通过在矩阵分解时,基于工业负荷数据的固有特性,为行挖掘矩阵以及列挖掘矩阵设计合适的正则化项,使得矩阵分解结果具有合理性及可解释性。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例所提供的多重填充法的流程图;
图2为本申请实施例所提供的一种面向工业负荷的数据缺失处理方法的流程图;
图3为本申请实施例所提供的用户特征数据结构示意图;
图4为本申请实施例所提供的预处理后的负荷数据结构示意图;
图5为本申请实施例所提供的拟合矩阵分解示意图;
图6为本申请实施例所提供的缺失值填充效果表格对比示意图;
图7为本申请实施例所提供的缺失值填充效果折现对比示意图;
图8为本申请实施例所提供的一种面向工业负荷的数据缺失处理装置的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
对于电力系统中的负荷数据的缺失值,现有的处理方法主要是基于统计的方法进行填充,主要包括以下四种方法:
第一种方法:均值填充法,即利用同一特征的非缺失数据的均值来填充缺失值,具体通过以下公式进行填充:
其中,yimp表示特征y的填充值,Ykno表示特征y的已知数据(非缺失数据)的集合,n表示Ykno中的元素数目;
均值填充法虽然过程简单,应用广泛,但是其没有有效考虑不同特征之间的关联,因而误差往往较大;
第二种方法:回归填充法,即将特征y与特征x之间进行线性回归,使得当y缺失时可基于已知的x进行推断,具体通过以下公式进行填充:
回归填充法一定程度地考虑了不同特征之间的关联,但是将不同特征之间建模为线性关系,在应用于复杂的数据集时仍存在一定的误差;
第三种方法:K近邻法(k-Nearest Neighbor,KNN),即基于已知的数据计算样本之间的距离,从而找到距离待填充样本最近的k个样本,利用这k个样本在待填充维度上的均值作为待填充样本的填充值,距离的计算方式通常为欧式距离,具体通过下式计算距离样本y最近的k个样本x(1),...,x(k):
其中,x,y分别为特征x样本、特征y样本,xi、yi分别为特征x样本、特征y样本中第i个已知的特征;
通过下式计算填充值:
其中,ym为特征y样本的第m个待填充特征;
第四种方法:多重填充法,即基于一定的随机性对缺失数据进行多次填充,得到多组填充值,再基于一定的统计方法对这几组结果进行合并,得到最终的填充值,具体流程如图1所示,其中,mice函数对数据集进行多次填充,得到多组填充后的数据;with函数则基于统计的方法对多组填充后的数据进行分析;pool函数则基于分析结果将多组填充后的数据进行合并,并基于标准差和p值表示多重填充法带来的不确定性。
上述四种方法都是基于一些朴素的统计或计算方法对缺失值进行填充,较多应用于没有安装智能电表的电网变压器节点负荷、新能源缺数据填充中。这些节点的电量数据通常只包含电量信息,数据维数较为单一,数据并不复杂,数据修复的误差对后续预测等数据处理任务的影响也相对较小,因而用上述方法可以取得一定的效果,能够满足实际应用的需求。
而工业负荷数据相对而言较为复杂,一个工业用户对应着多个电表的数据,而每个电表又实时监控着多相有功、无功功率等数据,数据维数较高。因此对于装设了智能电表的多维度工业负荷数据而言,通常能够获取到细粒度的用户用电量测数据,通常包含了三相总的有功、无功以及A、B、C项的有功和无功数据。可以发现,智能电表提供的量测数据的各个维度之间可能存在着复杂的关联关系,甚至存在明确的物理规律上的相关约束,如果修复中不恰当对后续数据的分析的影响更大,因而传统的数据填充方法可能并不适用,但是目前面向细粒度工业负荷的量测数据缺失填充研究相对较少。
实施例1
图2为本申请实施例所提供的一种面向工业负荷的数据缺失处理方法的流程图。
如图2所示,本申请实施例提供的一种面向工业负荷的数据缺失处理方法,包括以下步骤:
步骤110,获取每个用户的负荷数据以及用户特征数据,根据用户特征数据将负荷数据拆分为多个数据集;
步骤120,对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充;
步骤130,利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。
具体地,原始数据中每个用户下有多个电表,每个电表的量测数据包括总有功功率、A相有功功率、B相有功功率、C相有功功率、总无功功率、A相无功功率、B相无功功率、C相无功功率,每个用户的数据分为负荷数据以及用户特征数据;
进一步地,用户特征数据结构如图3所示,其中,基于用户标识、电表标识、行业标识、运行容量对每个电表量测的原始负荷数据进行拆分以及预处理为合适的格式,预处理后的负荷数据结构如图4所示,其中,中存在缺失值。
进一步地,由于不同电压等级、不同行业的负荷模式差异较大,因此基于行业标识对每个电表量测的原始负荷数据进行拆分为多个数据集,从而使得同一数据集中的用户具有较为相似的用电行为,进而再对拆分出的多个数据集分别进行训练以及缺失值填充。
在本申请实施例中,根据用户特征数据将负荷数据拆分为多个数据集,包括:
用户特征数据包括行业标识;
根据行业标识将负荷数据逐层拆分为多个数据集,每进行一层拆分,判断拆分出来的所有数据集是否具有低秩性;
若拆分出来的任一数据集不具有低秩性,则对不具有低秩性的数据集进行下一层拆分,若拆分出来的所有数据集均具有低秩性,则停止拆分。
需要说明的是,拆分后的每个数据集需要具备合适的规模,若数据集规模太大,则其中许多用户的用电行为差异大,数据集形成的矩阵难以满足低秩性,会为矩阵分解带来困难;若数据集规模太小,则有效数据较少,会影响数据填充的准确性。
具体地,行业标识是基于《国民经济行业分类标准(GB/T4754-2002)》的四位编码,前两位表示行业大类,前三位表示中类,前四位表示小类,例如行业标识为0111,则其中01表示农业,011表示谷物及其他作物的种植,0111表示谷物的种植;基于行业标识,将数据集由行业大类至小类逐层进行拆分。
在本申请实施例中,拆分出来的所有数据集是否具有低秩性,包括:
根据下式将数据集进行分解:
X=U∑VT
其中,X为m×n维的数据集,U为m×m维酉矩阵,V为n×n维酉矩阵,∑为m×n维对角阵;
根据下式确定数据集的范数比:
其中,βr为范数比,σ1,σ2,...,σl为矩阵∑中主对角线上的元素;
确定范数比近似等于1时的r值,当r值不大于预设的低秩性值时,该数据集具有低秩性。
具体地,σ1,σ2,...,σl为矩阵∑中主对角线上的元素即奇异值,其中,σ1≥σ2≥…≥σl≥0,r∈{1,2,…,l};
进一步地,基于行业标识,设置低秩性阈值为5,确定βr>0.99时的r值,若r≤5则说明X满足低秩性条件。
在本申请实施例中,根据用户特征数据将负荷数据拆分为多个数据集,还包括;对每个用户的负荷数据进行归一化处理,根据用户特征数据将归一化后的负荷数据拆分为多个数据集,其中,根据下式对每个用户的负荷数据进行归一化处理:
具体地,基于运行容量对每个用户的负荷数据进行归一化,从而使得各个用户的负荷数据尺度一致,归一化后各用户的负荷数据尺度一致,均处于[0,1]区间。
在本申请实施例中,对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充,包括:
基于物理定律根据已有的负荷数据对缺失数据进行精确填充,从而完成对数据集的初步填充。
进一步地,对于总有功功率、A相有功功率、B相有功功率、C相有功功率这四项有功功率来说,若有且仅有一个有功功率缺失,则可基于其余三个有功功率将其精准填充;同理可得,对于总无功功率、A相无功功率、B相无功功率、C相无功功率这四项无功功率来说,若有且仅有一个无功功率缺失,则可基于其余三个无功功率将其精准填充。
进一步地,若总有功功率或者总无功功率缺失,则根据下式进行数据填充:
xtotal=xA+xB+xC
其中,xtotal为总有功功率或者总无功功率的填充值,xA为A相有功功率或者A相无功功率,xB为B相有功功率或者B相无功功率,xC为C相有功功率或者C相无功功率;
若总有功功率或者总无功功率已知,另外三项有功功率中任一项缺失或者另外三项无功功率中任一项缺失,则根据下式进行数据填充:
其中,xi为另外三项有功功率中缺失的那一项有功功率或者另外三项无功功率中缺失的那一项无功功率;x-i为另外三项有功功率中已有的两项有功功率或者另外三项无功功率中已有的两项无功功率;xtotal为总有功功率或者总无功功率。
在本申请实施例中,利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充,包括:
确定初始拟合矩阵,并将初始拟合矩阵分解为行挖掘矩阵以及列挖掘矩阵;
对仍存在缺失数据的数据集进行矩阵分解;
利用梯度下降法迭代更新行挖掘矩阵以及列挖掘矩阵,得到迭代更新后的行挖掘矩阵以及列挖掘矩阵;
根据迭代更新后的行挖掘矩阵以及列挖掘矩阵得到拟合矩阵,利用拟合矩阵中的元素对存在缺失数据的数据集进行深度填充。
在本申请实施例中,确定初始拟合矩阵,并将初始拟合矩阵分解为行挖掘矩阵以及列挖掘矩阵,包括:根据下式将初始拟合矩阵分解为行挖掘矩阵以及列挖掘矩阵:
具体地,矩阵分解的核心思想是用矩阵拟合数据集X。如果与X中未缺失部分之间的误差足够小,则说明这样的矩阵分解能够有效挖掘出数据集X中各个样本及各个特征之间的关联,即认为能够有效拟合X,从而可以用中的元素填充数据集X中缺失的部分,如图5所示;
具体地,为m×n维初始拟合矩阵,在对存在缺失数据的数据集进行深度填充时,m为时间点的数目,n为智能电表量测的变量数;矩阵U为每一行数据赋予一个k维嵌入向量,以挖掘各样本或者各行之间的关联;矩阵V为每一列数据赋予一个k维嵌入向量,以挖掘各特征或者各列之间的关联;
进一步地,不同行代表不同的电表及量测时间,不同列代表不同类型的量测数据,矩阵U挖掘时序数据之间的关联,矩阵V挖掘各类型量测数据之间的关联。
在本申请实施例中,对仍存在缺失数据的数据集进行矩阵分解,包括:
对行挖掘矩阵以及列挖掘矩阵进行时序正则化以及特征正则化:
根据下式对存在缺失数据的数据集进行矩阵分解:
其中,J为目标函数,目标函数最小时表示矩阵分解完成,⊙为哈达玛积即矩阵逐元素相乘,X为根据存在缺失数据的数据集确定的m×n维矩阵,为m×n维初始拟合矩阵,λ1||U||2、λ2||V||2为正则项,λ3||BU||2为时序正则化项、λ4||cTV||2为特征正则化项,λ1-λ4为预设好的正则化系数;B为矩阵c为预设好的1×k维向量;
根据矩阵X确定矩阵A,令矩阵X中缺失数据处的元素记为0,非缺失数据处的元素记为1,从而得到矩阵A。
具体地,为拟合误差,由于工业负荷的负荷量较为平稳,相邻时刻之间的负荷变化量通常较小,所以通过时序正则化项λ3||BU||2为对矩阵U的一阶差分进行正则化,从而对矩阵U进行约束,使得拟合出的数据具有时序稳定性,避免出现负荷显著波动的情况。
具体地,装设了智能电表的工业负荷所提供的量测数据变量:总有功功率、A相有功功率、B相有功功率、C相有功功率、总无功功率、A相无功功率、B相无功功率、C相无功功率之间,根据基尔霍夫定律存在着明显的相关性,在修复过程中,通过对相关性的考虑可以有助于提升修复的精度。
进一步地,根据总有功功率、A相有功功率、B相有功功率、C相有功功率、总无功功率、A相无功功率、B相无功功率、C相无功功率这八个电表的量测数据,确定矩阵V为向量c为其中,v1代表总有功功率的嵌入向量,v2,v3,v4分别表示A相有功功率、B相有功功率、C相有功功率的嵌入向量;v5代表总无功功率的嵌入向量,v6,v7,v8分别代表A相无功功率、B相无功功率、C相无功功率的嵌入向量;
进一步地,基于矩阵V以及向量c可得到
cTV=(v1-v2-v3-v4)+(v5-v6-v7-v8)
由此可得特征正则化项λ4||cTV||2使得总有功功率嵌入向量与A相有功功率、B相有功功率、C相有功功率的嵌入向量之和尽可能接近,总无功功率嵌入向量与A相无功功率、B相无功功率、C相无功功率的嵌入向量之和尽可能接近,即赋予了总有功功率等于A相有功功率、B相有功功率、C相有功功率之和,总无功功率等于A相无功功率、B相无功功率、C相无功功率之和的约束,从而使矩阵分解的结果具备合理性以及可解释性。
在本申请实施例中,利用梯度下降法迭代更新行挖掘矩阵以及列挖掘矩阵,包括:
确定学习率,根据下式利用梯度下降法迭代更新行挖掘矩阵以及列挖掘矩阵:
以一种场景举例,选取某地区3个月的工业负荷数据作为算例,共包括200个工业用户共计345个电表的量测数据,负荷数据共有8个特征,即总有功功率、A相有功功率、B相有功功率、C相有功功率、总无功功率、A相无功功率、B相无功功率、C相无功功率;负荷每15分钟进行一次量测,每种负荷一天包含96个负荷数据;
从这3个月的工业负荷数据中随机剔除20%的数据作为缺失值,用本申请实施例提出的方法对缺失值进行补全,从而将填充结果与真实值进行对比,评价指标采用均方根误差(Root Mean Square Error,RMSE),通过下式确定均方根误差:
其中,xtrue,i为第i个真实值,ximp,i为第i个填充值。
具体地,基于评价指标将本申请实施例提出的方法与均值填充法、K近邻法、多重填充法的填充效果进行对比,对比结果如图6所示,其中,本申请实施例提出的方法的均方根误差为1.41,均值填充法的均方根误差为2.07,K近邻法的均方根误差为1.55,多重填充法的均方根误差为1.63,由此可得,本申请实施例提出的方法的均方根误差最小,验证了本申请实施例提出的方法应用于工业负荷数据的有效性。
进一步地,某电表某日的总有功功率曲线的缺失值填充效果如图7所示,其中,MF为本申请实施例提出的方法,KNN为K近邻法,MICE为多重填充法,由此可得,本申请实施例提出的方法与真实值较为接近,有着较好的缺失值填充效果。
综上,本申请实施例提出的方法,通过获取每个用户的负荷数据以及用户特征数据,根据用户特征数据将负荷数据拆分为多个数据集;对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充;利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。本申请能够利用智能电表中多种不同类型量测数据之间的相关性,对数据中复杂的关联模式进行挖掘,有效挖掘出不同时刻、不同负荷分量之间的关联关系,从而提升缺失值填充的准确性,有效填充工业负荷数据的缺失值,从而实现对细粒度智能电表的缺失数据填充,为工业负荷的缺失数据填充提供有效参考。
为了实现上述实施例,本申请还提出一种面向工业负荷的数据缺失处理装置。
图8为本申请实施例提供的一种面向工业负荷的数据缺失处理装置的结构示意图。
如图8所示,一种面向工业负荷的数据缺失处理装置,包括:
拆分模块810,用于获取每个用户的负荷数据以及用户特征数据,并根据用户特征数据将负荷数据拆分为多个数据集;
初步填充模块820,用于对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充;
深度填充模块830,用于利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。
综上,本申请实施例提出的装置,通过拆分模块获取每个用户的负荷数据以及用户特征数据,并根据用户特征数据将负荷数据拆分为多个数据集;初步填充模块对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充;深度填充模块利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。本申请能够利用智能电表中多种不同类型量测数据之间的相关性,对数据中复杂的关联模式进行挖掘,有效挖掘出不同时刻、不同负荷分量之间的关联关系,从而提升缺失值填充的准确性,有效填充工业负荷数据的缺失值,从而实现对细粒度智能电表的缺失数据填充,为工业负荷的缺失数据填充提供有效参考。
需要说明的是,在本申请的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本申请的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种面向工业负荷的数据缺失处理方法,其特征在于,所述方法包括:
获取每个用户的负荷数据以及用户特征数据,根据所述用户特征数据将所述负荷数据拆分为多个数据集;
对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充;
利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。
2.如权利要求1所述的方法,其特征在于,所述根据所述用户特征数据将所述负荷数据拆分为多个数据集,包括:
所述用户特征数据包括行业标识;
根据所述行业标识将所述负荷数据逐层拆分为多个数据集,每进行一层拆分,判断拆分出来的所有数据集是否具有低秩性;
若拆分出来的任一数据集不具有低秩性,则对不具有低秩性的数据集进行下一层拆分,若拆分出来的所有数据集均具有低秩性,则停止拆分。
5.如权利要求1-4任一项所述的方法,其特征在于,所述对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充,包括:
基于物理定律根据已有的负荷数据对缺失数据进行精确填充,从而完成对数据集的初步填充。
6.如权利要求1-4任一项所述的方法,其特征在于,所述利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充,包括:
确定初始拟合矩阵,并将所述初始拟合矩阵分解为行挖掘矩阵以及列挖掘矩阵;
对仍存在缺失数据的数据集进行矩阵分解;
利用梯度下降法迭代更新行挖掘矩阵以及列挖掘矩阵,得到迭代更新后的行挖掘矩阵以及列挖掘矩阵;
根据迭代更新后的行挖掘矩阵以及列挖掘矩阵得到拟合矩阵,利用拟合矩阵中的元素对存在缺失数据的数据集进行深度填充。
8.如权利要求7所述的方法,其特征在于,所述对仍存在缺失数据的数据集进行矩阵分解,包括:
对行挖掘矩阵以及列挖掘矩阵进行时序正则化以及特征正则化:
根据下式对存在缺失数据的数据集进行矩阵分解:
其中,J为目标函数,目标函数最小时表示矩阵分解完成,⊙为哈达玛积即矩阵逐元素相乘,X为根据存在缺失数据的数据集确定的m×n维矩阵,为m×n维初始拟合矩阵,λ1‖U‖2、λ2‖V‖2为正则项,λ3‖BU‖2为时序正则化项、λ4||cTV||2为特征正则化项,λ1-λ4为预设好的正则化系数;B为矩阵c为预设好的1×k维向量;
根据矩阵X确定矩阵A,令矩阵X中缺失数据处的元素记为0,非缺失数据处的元素记为1,从而得到矩阵A。
10.一种面向工业负荷的数据缺失处理装置,其特征在于,包括:
拆分模块,用于获取每个用户的负荷数据以及用户特征数据,并根据所述用户特征数据将所述负荷数据拆分为多个数据集;
初步填充模块,用于对数据集中可基于已有的负荷数据直接获取的缺失数据进行初步填充;
深度填充模块,用于利用矩阵分解算法对进行初步填充后仍存在缺失数据的数据集进行深度填充。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111256421.7A CN114168574A (zh) | 2021-10-27 | 2021-10-27 | 一种面向工业负荷的数据缺失处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111256421.7A CN114168574A (zh) | 2021-10-27 | 2021-10-27 | 一种面向工业负荷的数据缺失处理方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114168574A true CN114168574A (zh) | 2022-03-11 |
Family
ID=80477401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111256421.7A Pending CN114168574A (zh) | 2021-10-27 | 2021-10-27 | 一种面向工业负荷的数据缺失处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114168574A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116578557A (zh) * | 2023-03-03 | 2023-08-11 | 齐鲁工业大学(山东省科学院) | 面向数据中台的缺失数据填充方法 |
CN116708514A (zh) * | 2023-08-02 | 2023-09-05 | 深圳龙电华鑫控股集团股份有限公司 | 一种基于物联网的电能表数据采集方法及系统 |
-
2021
- 2021-10-27 CN CN202111256421.7A patent/CN114168574A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116578557A (zh) * | 2023-03-03 | 2023-08-11 | 齐鲁工业大学(山东省科学院) | 面向数据中台的缺失数据填充方法 |
CN116578557B (zh) * | 2023-03-03 | 2024-04-02 | 齐鲁工业大学(山东省科学院) | 面向数据中台的缺失数据填充方法 |
CN116708514A (zh) * | 2023-08-02 | 2023-09-05 | 深圳龙电华鑫控股集团股份有限公司 | 一种基于物联网的电能表数据采集方法及系统 |
CN116708514B (zh) * | 2023-08-02 | 2023-10-31 | 深圳龙电华鑫控股集团股份有限公司 | 一种基于物联网的电能表数据采集方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111860982A (zh) | 一种基于vmd-fcm-gru的风电场短期风电功率预测方法 | |
CN114168574A (zh) | 一种面向工业负荷的数据缺失处理方法及装置 | |
CN115147012B (zh) | 一种基于神经网络模型的碳排放量核算方法及装置 | |
CN113126019A (zh) | 一种智能电表误差远程估计方法、系统、终端和存储介质 | |
CN113469570A (zh) | 信息质量评价模型构建方法、装置、设备及存储介质 | |
Beltran et al. | Machine learning techniques suitability to estimate the retained capacity in lithium-ion batteries from partial charge/discharge curves | |
CN117253368A (zh) | 交通流量异常检测方法、装置、计算机设备和存储介质 | |
CN115809705B (zh) | 基于量子计算的流体动力学计算系统及量子计算机 | |
CN116384574A (zh) | 一种基于w-lstm的非参数负荷区间预测方法 | |
CN116304948A (zh) | 一种融合多尺度模糊信息粒的无监督用电异常检测方法 | |
CN114519429A (zh) | 获取目标体系的可观测量的方法、装置及介质 | |
CN115545164A (zh) | 光伏发电功率预测方法、系统、设备及介质 | |
CN112256735A (zh) | 一种用电监测方法、装置、计算机设备和存储介质 | |
CN117634101B (zh) | 芯片表面形态确定方法、装置、计算机设备和存储介质 | |
CN116776134B (zh) | 一种基于PCA-SFFS-BiGRU的光伏出力预测方法 | |
CN118011074B (zh) | 台区电压波动的监测方法、装置、系统和存储介质 | |
CN117435870B (zh) | 一种负荷数据实时填充方法、系统、设备和介质 | |
CN113919449B (zh) | 基于精准模糊聚类算法的居民电力数据聚类方法及装置 | |
CN113256018B (zh) | 一种基于条件分位数回归模型的风电功率超短期概率预测方法 | |
Li et al. | Deep Echo State Network with Variable Memory Pattern for Solar Irradiance Prediction | |
CN118226280A (zh) | 基于多源多尺度高维状态空间建模的电池老化评估方法 | |
CN115577753A (zh) | 电动汽车充电网络的负荷预测模型生成方法及系统 | |
Cannon et al. | Package ‘qrnn’ | |
Lemus et al. | SUQ2: Uncertainty Quantification Queries over Large Spatio-temporal Simulations. | |
Pratama et al. | Species Distribution Modeling with Spatial Point Process: Comparing Poisson and Zero Inflated Poisson-Based Algorithms |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |