CN111625399A - 一种计量数据恢复方法及系统 - Google Patents

一种计量数据恢复方法及系统 Download PDF

Info

Publication number
CN111625399A
CN111625399A CN202010423811.8A CN202010423811A CN111625399A CN 111625399 A CN111625399 A CN 111625399A CN 202010423811 A CN202010423811 A CN 202010423811A CN 111625399 A CN111625399 A CN 111625399A
Authority
CN
China
Prior art keywords
data
matrix
metering data
metering
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010423811.8A
Other languages
English (en)
Inventor
赵紫敬
李刚
肖杰
何泽昊
杨光
李野
季浩
马玉莹
孔祥玉
董得龙
窦健
顾强
郄爽
孙虹
卢静雅
李静
刘浩宇
张兆杰
乔亚男
翟术然
许迪
吕伟嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Tianjin Electric Power Co Ltd
Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd
Original Assignee
Tianjin University
State Grid Corp of China SGCC
China Electric Power Research Institute Co Ltd CEPRI
State Grid Tianjin Electric Power Co Ltd
Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University, State Grid Corp of China SGCC, China Electric Power Research Institute Co Ltd CEPRI, State Grid Tianjin Electric Power Co Ltd, Electric Power Research Institute of State Grid Tianjin Electric Power Co Ltd filed Critical Tianjin University
Priority to CN202010423811.8A priority Critical patent/CN111625399A/zh
Publication of CN111625399A publication Critical patent/CN111625399A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Operations Research (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Public Health (AREA)
  • Water Supply & Treatment (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及一种计量数据恢复方法及系统,本发明使用矩阵正则化可以避免过拟合的问题,提高具有稀疏矩阵的概率矩阵分解方法的性能。并在数据恢复过程中考虑异常数据对恢复效果的影响,采用孤立森林算法检测异常数据并剔除,可以实现异常数据快速挖掘,提高恢复缺失计量数据的准确性。

Description

一种计量数据恢复方法及系统
技术领域
本发明属于数据恢复领域,尤其是一种计量数据恢复方法及系统。
背景技术
随着泛在电力物联网建设的推进,智能电表及多种能源计量的部署,电量数据的获取效率与质量得到了极大的提升,但数据的记录误差与随机丢失仍然不可避免,而设备损坏、线路停电检修、大型节庆活动,甚至用户窃电等特殊情况也会引起异常的峰谷波动。这些数据误差与异常必将覆盖用电曲线的真实走向趋势,使后续用电管理与负载预测出现重大偏差,导致电力规划和运行维护成本的提高,直接影响到供电系统的自动化调度运行。因此,高效、精确地修补现有用电数据中的误差与缺失,检测异常用电情况已成为电力部门信息化进程中的关键研究课题,具有重要的现实意义。
用电数据恢复的最简单方法是均值替换,它会推算所有非缺失值的平均值以替换缺失值。但是,均值替换不能保留变量之间的关系,因此在大多数情况下不能提供正确的估计值。通常,概率矩阵分解(probabilistic matrix factorization,PMF)用于将单个矩阵分解为两个矩阵的乘积。PMF在电力系统中的应用有两个主要优势。首先,由于分解后所得矩阵的维数较低,因此PMF允许减少大数据数组的存储值总数。另外,由于PMF具有通过计算两个矩阵的乘积来获取原始矩阵的属性,因此也可以使用此属性来恢复原始矩阵中的缺失值。将PMF方法应用于丢失的数据恢复问题时,仍然存在一些挑战。首先,复杂度随着矩阵大小的增加而呈指数增长。其次,当算法试图使导致通用性丧失的错误最小化时,可能会出现过度拟合问题。同时,异常数据会降低数据恢复精度。
发明内容
本发明的目的在于克服现有技术的不足,解决电力系统中计量数据的异常检测与缺失数据修复问题,提供一种计量数据恢复方法及系统。
本发明解决其技术问题是采取以下技术方案实现的:
一种计量数据恢复方法,包括以下步骤:
步骤一,采集需要进行处理的计量数据;
步骤二,对采集的计量数据进行归一化处理,得到归一化矩阵;
步骤三,利用归一化矩阵中的计量数据构建iTree组成的孤立森林模型;
步骤四,利用建立的孤立森林模型计算计量数据的异常分数,判断数据是否为异常数据;
步骤五,剔除由孤立森林模型检测出的异常数据,形成计量数据集;
步骤六,利用计量数据集定义待修复数据矩阵、修复矩阵及描述丢失数据点位的矩阵;
步骤七,利用定义的待修复数据矩阵、修复矩阵及描述丢失数据点位的矩阵建立计量数据恢复优化模型并求解以获得最佳修复矩阵;
步骤八,将最佳修复矩阵进行反归一化,得到修复后的计量数据。
而且,所述的计量数据从智能电表及等电量计量终端中采集。
而且,所述需要进行处理的计量数据包括下述中的至少一种:台区信息、用户ID、用电时间及用电功率。
而且,所述对采集的计量数据进行归一化处理,得到归一化矩阵采用如下公式:
Figure BDA0002497936240000021
其中,元素xij,norm为归一化后的值,取值范围在[0,1]之间;元素xij表示第j个台区或用户在第i时刻的用电量,xij,min是矩阵X中元素的最小值,xij,max是矩阵X中元素的最大值。
而且,所述利用归一化矩阵中的计量数据构建iTree组成的孤立森林模型的方法为:
步骤1,从归一化矩阵Xnorm中均匀选取ψ条计量数据,作为iTree的样本;
步骤2,从iTree的样本中选取一个负荷特征量,并在该负荷特征量的取值范围内确定特征值k;
步骤3,对iTree的样本进行二叉划分,将样本中小于特征值k的数据放在左边,把大于等于特征值k的数据放在右边,递归执行此过程,直至数据不可再分或树的深度达到log2ψ;
步骤4,通过步骤1-3可生成多个iTree,将其组合为孤立森林模型。
而且,所述的负荷特征量包括下述中的至少一种:峰谷差、最高利用小时数、峰值负荷。
而且,所述的计算计量数据的异常分数,判断数据是否为异常数据的方法为:
将数据遍历每个iTree,计算其在每个iTree的深度和平均深度,按照下式计算计量数据的异常分数,
Figure BDA0002497936240000031
Figure BDA0002497936240000032
其中,h(xij,norm)是被计量数据xij,norm在iTree中检索到的深度,E(h(xij,norm))是平均深度,H(ψ)=ln(ψ)+ζ,ζ为欧拉常数,s(xij,norm)越接近1表示其为异常数据的可能性越大。
而且,所述利用计量数据集定义待修复数据矩阵、修复矩阵及描述丢失数据点位的矩阵的方法包括:
所述定义待修复数据矩阵的方法为:将剔除异常数据的计量数据集表示为N×M阶待修复矩阵R,如式下式所示:
Figure BDA0002497936240000041
所述定义修复矩阵的方法为:生成K×N阶随机矩阵U和K×M阶随机矩阵V,使得修复矩阵R′,如式下式所示:
Figure BDA0002497936240000042
其中,K表示U和V中的潜在特征列向量的数量;
所述定义描述丢失数据点位的矩阵I,其维度与R相同,
Figure BDA0002497936240000043
其中,I中的元素值Iij如式下式所示:
Figure BDA0002497936240000044
所述定义随机矩阵中潜在特征向量的数据分布方法为:令U和V的每一列都是具有均值μ=0的多元高斯且方差是单位矩阵I的倍数,对于U的倍数是σU,对于V的倍数是σV,如下式所示:
Figure BDA0002497936240000051
Figure BDA0002497936240000052
定义计量数据的条件分布,基于上两式中的先验分布,将计量数据的条件分布定义如下式所示:
Figure BDA0002497936240000053
计算随机矩阵的后验概率,矩阵U和V独立,根据贝叶斯公式计算U和V的后验概率,可得下式:
Figure BDA0002497936240000054
Figure BDA0002497936240000058
Figure BDA0002497936240000056
代入上式,并在等式两边取对数可得下式:
Figure BDA0002497936240000057
其中,C是一个独立的常数;
通过最大化上式中的对数后验,获得最佳修复矩阵R′。
而且,所述利用定义的待修复数据矩阵、修复矩阵及描述丢失数据点位的矩阵建立计量数据恢复优化模型并求解以获得最佳修复矩阵的方法为:包括在目标函数中引入正则项参数;采用最速下降法求解引入正则项参数的目标函数,得到修复矩阵;设定收敛判据以及更新得到的修复矩阵,直至满足收敛判据;
所述在目标函数中引入正则项参数的方法为:建立计量数据恢复优化模型:
Figure BDA0002497936240000061
其中,正则化项的参数λU和λV用于控制更新矩阵U和V的幅度,||U||和||V||为矩阵元素绝对平方和的平方根,
Figure BDA0002497936240000062
Figure BDA0002497936240000063
所述采用最速下降法求解引入正则项参数的目标函数,得到修复矩阵的方法为:固定方差参数并利用下式更新随机矩阵U和V,且R′=UT·V,
Figure BDA0002497936240000065
其中α定义了U和V中的元素需要调整的步长,重复执行本步骤,直到满足下式;
所述的设定收敛判据的方法为:将计量数据恢复优化模型中计算的RMSE值与最大可接受误差RMSEmax进行比较,
RMSE≤RMSEmax
如果满足上式,则获得最佳修复矩阵;否则,将继续执行步骤七继续更新修复矩阵。
本发明的优点和积极效果是:
1、本发明使用矩阵正则化可以避免过拟合的问题,提高具有稀疏矩阵的概率矩阵分解方法的性能。并在数据恢复过程中考虑异常数据对恢复效果的影响,采用孤立森林算法检测异常数据并剔除,可以实现异常数据快速挖掘,提高恢复缺失计量数据的准确性。
附图说明
图1为本发明的方法流程图;
图2为本发明利用归一化矩阵中的计量数据构建iTree组成的孤立森林模型,并利用建立的孤立森林模型计算计量数据的异常分数,判断数据是否为异常数据的方法流程图。
具体实施方式
以下结合附图对本发明实施例作进一步详述:
一种计量数据恢复方法,其创新之处在于:包括以下步骤:如图1所示:
步骤一:从智能电表及等电量计量终端采集需要进行处理的计量数据,具体包括台区信息、用户ID、用电时间及用电功率。通过采集N个不同台区或用户在M个等间隔不同时刻的用电数据构成计量数据矩阵X,其中元素xij表示第j个台区或用户在第i时刻的用电量;
步骤二:对计量数据进行归一化处理。为避免不同数据规模对数据修复效果的影响,将计量数据矩阵X中元素xij按照公式(1),进行归一化处理,得到归一化矩阵Xnorm,且元素xij,norm的值在[0,1]之间:
Figure BDA0002497936240000081
其中,元素xij,norm为归一化后的值,取值范围在[0,1]之间;元素xij表示第j个台区或用户在第i时刻的用电量,xij,min是矩阵X中元素的最小值,xij,max是矩阵X中元素的最大值;
步骤三:如图2所示,构建多个iTree组成的孤立森林模型。孤立森林检测方法适用于线性结构且检测速度较快,适用于大数据规模的电力计量数据,且精度高。实现过程如下:
步骤1,从矩阵Xnorm中均匀选取ψ条计量数据,作为iTree的样本;
步骤2,从iTree的样本中选取一个负荷特征量,例如峰谷差、最高利用小时数、峰值负荷等,并在该负荷特征量的取值范围内确定特征值k;
步骤3,对iTree的样本进行二叉划分,将样本中小于特征值k的数据放在左边,把大于等于特征值k的数据放在右边,递归执行此过程,直至数据不可再分或树的深度达到log2ψ;
步骤4,通过步骤1-3可生成多个iTree,将其组合为孤立森林模型。
步骤四:计算计量数据的异常分数,并判断数据是否为异常数据。将计量数据遍历每个iTree,计算其在每个iTree的深度(遍历方式与孤立森林模型一样,每走一步计为1)和平均深度,按照式(2)计算计量数据的异常分数。
Figure BDA0002497936240000082
Figure BDA0002497936240000091
其中,h(xij,norm)是被计量数据xij,norm在iTree中检索到的深度;E(h(xij,norm))是平均深度;H(ψ)=ln(ψ)+ζ,ζ为欧拉常数,s(xij,norm)越接近1表示其为异常数据的可能性越大。
步骤五:剔除由孤立森林模型检测出的异常数据。
步骤六:定义待修复数据矩阵及修复矩阵:
定义待修复数据矩阵。将剔除异常数据的计量数据集表示为N×M阶待修复矩阵R,如式(4)所示。
Figure BDA0002497936240000092
定义修复矩阵。生成K×N阶随机矩阵U和K×M阶随机矩阵V,使得修复矩阵R′如式(5)所示。
Figure BDA0002497936240000093
其中,K表示U和V中的潜在特征列向量的数量,可以是任意整数,这决定了PMF方法执行过程的灵活性并对PMF方法的性能有影响。
定义描述丢失数据点位的矩阵I,其维度与R相同。
Figure BDA0002497936240000094
其中,I中的元素值Iij如式(7)所示:
Figure BDA0002497936240000095
定义随机矩阵中潜在特征向量的数据分布。假设U和V的潜在特征向量均服从零均值高斯先验分布,即,U和V的每一列都是具有均值μ=0的多元高斯且方差是单位矩阵I的倍数。对于U的倍数是σU,对于V的倍数是σV。如式(8)、(9)所示:
Figure BDA0002497936240000101
Figure BDA0002497936240000102
(8)和(9)式中的先验值确保U和V的潜在变量不会从0增长得太多。这可以防止U和V矩阵的值过大。在不限制U和V值的情况下,PMF的收敛时间会因多次迭代而增加,从而导致更高的复杂度。
定义计量数据的条件分布。考虑到(8)和(9)中的先验分布,将计量数据的条件分布定义如式(10)所示:
Figure BDA0002497936240000103
计算随机矩阵的后验概率。假设矩阵U和V独立,根据贝叶斯公式计算U和V的后验概率,可得式(11):
Figure BDA0002497936240000104
将式(8)-(10)代入(11),并在等式两边取对数可得式(12):
Figure BDA0002497936240000105
其中,C是一个独立的常数。
为了获得最佳修复矩阵R′,需要最大化(12)中的对数后验,为了提高具有稀疏矩阵的PMF方法的性能,使用矩阵正则化来避免过拟合的问题。过度拟合意味着由于矩阵U和V在训练数据集上表现很好。由于缺乏通用性,测试数据集的性能较差。恢复矩阵非常精确地反映了已知值,但是丢失的数据值接近零,因为训练数据集已与单位矩阵I相乘。因此,通过避免出现过拟合问题,使提出的PMF方法更适合于一般性的数据丢失恢复问题。
步骤七:建立计量数据恢复优化模型并求解以获得最佳修复矩阵。为了避免数据过拟合,需要固定方差参数σ,σU和σV为常数,并将最大化后验概率问题简化为具有二次正则化的最小二乘矩阵完整化问题,即原始矩阵R和修复矩阵R′之间的均方根误差(root meansquare error,RMSE)最小化。计量数据恢复优化模型如式(13)所示。
Figure BDA0002497936240000111
其中,(13)中正则化项的参数λU和λV用于控制更新矩阵U和V的幅度,可以更好地获得R的近似值并降低迭代次数。||U||和||V||是Frobenius范数,定义为矩阵元素绝对平方和的平方根。如式(14)-(15)所示。
Figure BDA0002497936240000121
Figure BDA0002497936240000122
使用最速下降法求解模型中的目标函数。为了使学习更容易,固定方差参数并利用式(16)、(17)更新随机矩阵U和V。
Figure BDA0002497936240000123
Figure BDA0002497936240000124
其中α定义了U和V中的元素需要调整的步长。重复执行步骤七,直到满足式(18)。另外,合适的α值对收敛精度与收敛时间的影响较大。α值太大可能会导致精度降低,因为RMSE将会在RMSEmax附近跳跃。另一方面,α值太小使得RMSE在接近满足条件(9)的值之前,将导致许多不必要的迭代。
设定收敛判据。将式(13)中计算的RMSE值与最大可接受误差RMSEmax进行比较。
RMSE≤RMSEmax (18)
如果满足式(18),则PMF算法完成。否则,将继续执行步骤七。
步骤八:将修复后的计量数据矩阵进行反归一化得到完整计量数据。利用训练好的随机矩阵U和V获得修复矩阵R′,将修复后的计量数据矩阵进行反归一化,即可获得修复后的计量数据。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (10)

1.一种计量数据恢复方法,其特征在于:包括以下步骤:
步骤一,采集需要进行处理的计量数据;
步骤二,对采集的计量数据进行归一化处理,得到归一化矩阵;
步骤三,利用归一化矩阵中的计量数据构建iTree组成的孤立森林模型;
步骤四,利用建立的孤立森林模型计算计量数据的异常分数,判断数据是否为异常数据;
步骤五,剔除由孤立森林模型检测出的异常数据,形成计量数据集;
步骤六,利用计量数据集定义待修复数据矩阵、修复矩阵及描述丢失数据点位的矩阵;
步骤七,利用定义的待修复数据矩阵、修复矩阵及描述丢失数据点位的矩阵建立计量数据恢复优化模型并求解以获得最佳修复矩阵;
步骤八,将最佳修复矩阵进行反归一化,得到修复后的计量数据。
2.根据权利要求1所述的一种计量数据恢复方法,其特征在于:所述对采集的计量数据进行归一化处理,得到归一化矩阵,采用如下公式:
Figure FDA0002497936230000011
其中,元素xij,norm为归一化后的值,取值范围在[0,1]之间;元素xij表示第j个台区或用户在第i时刻的用电量,xij,min是矩阵X中元素的最小值,xij,max是矩阵X中元素的最大值。
3.根据权利要求2所述的一种计量数据恢复方法,其特征在于:所述利用归一化矩阵中的计量数据构建iTree组成的孤立森林模型的方法为:
步骤1,从归一化矩阵Xnorm中均匀选取ψ条计量数据,作为iTree的样本;
步骤2,从iTree的样本中选取一个负荷特征量,并在该负荷特征量的取值范围内确定特征值k;
步骤3,对iTree的样本进行二叉划分,将样本中小于特征值k的数据放在左边,把大于等于特征值k的数据放在右边,递归执行此过程,直至数据不可再分或树的深度达到log2ψ;
步骤4,通过步骤1-3可生成多个iTree,将其组合为孤立森林模型。
4.根据权利要求3所述的一种计量数据恢复方法,其特征在于:所述利用建立的孤立森林模型计算计量数据的异常分数,判断数据是否为异常数据的方法为:
将数据遍历每个iTree,计算其在每个iTree的深度和平均深度,按照下式计算计量数据的异常分数,
Figure FDA0002497936230000021
Figure FDA0002497936230000022
其中,h(xij,norm)是被计量数据xij,norm在iTree中检索到的深度,E(h(xij,norm))是平均深度,H(ψ)=ln(ψ)+ζ,ζ为欧拉常数,s(xij,norm)越接近1表示其为异常数据的可能性越大。
5.根据权利要求4所述的一种计量数据恢复方法,其特征在于:所述利用计量数据集定义待修复数据矩阵、修复矩阵及描述丢失数据点位的矩阵的方法包括:
所述定义待修复数据矩阵的方法为:将剔除异常数据的计量数据集表示为N×M阶待修复矩阵R,如式下式所示:
Figure FDA0002497936230000031
所述定义修复矩阵的方法为:生成K×N阶随机矩阵U和K×M阶随机矩阵V,使得修复矩阵R′,如式下式所示:
Figure FDA0002497936230000032
其中,K表示U和V中的潜在特征列向量的数量;
所述定义描述丢失数据点位的矩阵I,其维度与R相同,
Figure FDA0002497936230000033
其中,I中的元素值Iij如下式所示:
Figure FDA0002497936230000034
所述定义随机矩阵中潜在特征向量的数据分布方法为:令U和V的每一列都是具有均值μ=0的多元高斯且方差是单位矩阵I的倍数,对于U的倍数是σU,对于V的倍数是σV,如下式所示:
Figure FDA0002497936230000035
Figure FDA0002497936230000036
定义计量数据的条件分布,基于上两式中的先验分布,将计量数据的条件分布定义如下式所示:
Figure FDA0002497936230000041
6.根据权利要求5所述的一种计量数据恢复方法,其特征在于:所述利用定义的待修复数据矩阵、修复矩阵及描述丢失数据点位的矩阵建立计量数据恢复优化模型并求解以获得最佳修复矩阵的方法为:包括在目标函数中引入正则项参数;采用最速下降法求解引入正则项参数的目标函数,得到修复矩阵;设定收敛判据以及更新得到的修复矩阵,直至满足收敛判据;
所述在目标函数中引入正则项参数的方法为:建立计量数据恢复优化模型:
Figure FDA0002497936230000042
其中,正则化项的参数λU和λV用于控制更新矩阵U和V的幅度,||U||和||V||为矩阵元素绝对平方和的平方根,
Figure FDA0002497936230000043
Figure FDA0002497936230000044
所述采用最速下降法求解引入正则项参数的目标函数,得到修复矩阵的方法为:固定方差参数并利用下式更新随机矩阵U和V,且R′=UT·V,
Figure FDA0002497936230000051
Figure FDA0002497936230000052
其中α定义了U和V中的元素需要调整的步长,重复执行本步骤;
所述的设定收敛判据的方法为:将计量数据恢复优化模型中计算的RMSE值与最大可接受误差RMSEmax进行比较,
RMSE≤RMSEmax
如果满足上式,则获得最佳修复矩阵;否则,将继续执行步骤七继续更新修复矩阵。
7.一种计量数据恢复系统,其特征在于:包括计量数据采集模块、归一化处理模块、孤立森林模型构建模块、异常数据判断模块、异常数据剔除模块、相关矩阵定义模块、最佳修复矩阵构建模块及反归一化处理模块,
所述的计量数据采集模块用于采集需要进行处理的计量数据;
所述的归一化处理模块用于对采集的计量数据进行归一化处理,得到计量数据矩阵;
所述的孤立森林模型构建模块用于利用计量数据矩阵中的计量数据构建iTree组成的孤立森林模型;
所述的异常数据判断模块用于利用建立的孤立森林模型计算计量数据的异常分数,判断数据是否为异常数据;
所述的异常数据剔除模块用于剔除由孤立森林模型检测出的异常数据,形成计量数据集;
所述相关矩阵定义模块用于利用计量数据集定义待修复数据矩阵、修复矩阵及描述丢失数据点位的矩阵;
所述的最佳修复矩阵构建模块用于利用定义的待修复数据矩阵、修复矩阵及描述丢失数据点位的矩阵建立计量数据恢复优化模型并求解以获得最佳修复矩阵;
所述的反归一化处理模块用于将最佳修复矩阵进行反归一化,得到修复后的计量数据。
8.根据权利要求7所述的一种计量数据恢复系统,其特征在于:所述的归一化处理模块用于对采集的计量数据进行归一化处理,得到计量数据矩阵,采用如下公式:
Figure FDA0002497936230000061
其中,元素xij,norm为归一化后的值,取值范围在[0,1]之间;元素xij表示第j个台区或用户在第i时刻的用电量,xij,min是矩阵X中元素的最小值,xij,max是矩阵X中元素的最大值。
9.根据权利要求8所述的一种计量数据恢复系统,其特征在于:所述的孤立森林模型构建模块用于利用计量数据矩阵中的计量数据构建iTree组成的孤立森林模型的方法为:
步骤1,从归一化矩阵Xnorm中均匀选取ψ条计量数据,作为iTree的样本;
步骤2,从iTree的样本中选取一个负荷特征量,并在该负荷特征量的取值范围内确定特征值k;
步骤3,对iTree的样本进行二叉划分,将样本中小于特征值k的数据放在左边,把大于等于特征值k的数据放在右边,递归执行此过程,直至数据不可再分或树的深度达到log2ψ;
步骤4,通过步骤1-3可生成多个iTree,将其组合为孤立森林模型。
10.根据权利要求9所述的一种计量数据恢复系统,其特征在于:所述利用建立的孤立森林模型计算计量数据的异常分数,判断数据是否为异常数据的方法为:
将数据遍历每个iTree,计算其在每个iTree的深度和平均深度,按照下式计算计量数据的异常分数,
Figure FDA0002497936230000071
Figure FDA0002497936230000072
其中,h(xij,norm)是被计量数据xij,norm在iTree中检索到的深度,E(h(xij,norm))是平均深度,H(ψ)=ln(ψ)+ζ,ζ为欧拉常数,s(xij,norm)越接近1表示其为异常数据的可能性越大。
CN202010423811.8A 2020-05-19 2020-05-19 一种计量数据恢复方法及系统 Pending CN111625399A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010423811.8A CN111625399A (zh) 2020-05-19 2020-05-19 一种计量数据恢复方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010423811.8A CN111625399A (zh) 2020-05-19 2020-05-19 一种计量数据恢复方法及系统

Publications (1)

Publication Number Publication Date
CN111625399A true CN111625399A (zh) 2020-09-04

Family

ID=72259811

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010423811.8A Pending CN111625399A (zh) 2020-05-19 2020-05-19 一种计量数据恢复方法及系统

Country Status (1)

Country Link
CN (1) CN111625399A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948364A (zh) * 2021-02-08 2021-06-11 国网上海市电力公司 基于协同拟合的电能计量数据恢复方法
CN113344057A (zh) * 2021-05-31 2021-09-03 江苏海基新能源股份有限公司 一种储能系统电池插箱异常检测方法
CN113791275A (zh) * 2021-08-30 2021-12-14 国网福建省电力有限公司 一种单相谐波数据丢失的修复方法及系统
CN115599598A (zh) * 2022-10-08 2023-01-13 国网江苏省电力有限公司南通供电分公司(Cn) 一种电力负荷传感数据恢复方法和装置
CN116627953A (zh) * 2023-05-24 2023-08-22 首都师范大学 一种地下水位监测数据缺失的修复方法
CN117786587A (zh) * 2024-02-28 2024-03-29 深圳市福山自动化科技有限公司 基于数据分析的电网数据质量异常诊断方法
CN117786587B (zh) * 2024-02-28 2024-06-04 国网河南省电力公司经济技术研究院 基于数据分析的电网数据质量异常诊断方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112948364A (zh) * 2021-02-08 2021-06-11 国网上海市电力公司 基于协同拟合的电能计量数据恢复方法
CN113344057A (zh) * 2021-05-31 2021-09-03 江苏海基新能源股份有限公司 一种储能系统电池插箱异常检测方法
CN113791275A (zh) * 2021-08-30 2021-12-14 国网福建省电力有限公司 一种单相谐波数据丢失的修复方法及系统
CN113791275B (zh) * 2021-08-30 2022-12-06 国网福建省电力有限公司 一种单相谐波数据丢失的修复方法及系统
CN115599598A (zh) * 2022-10-08 2023-01-13 国网江苏省电力有限公司南通供电分公司(Cn) 一种电力负荷传感数据恢复方法和装置
CN115599598B (zh) * 2022-10-08 2023-08-15 国网江苏省电力有限公司南通供电分公司 一种电力负荷传感数据恢复方法和装置
CN116627953A (zh) * 2023-05-24 2023-08-22 首都师范大学 一种地下水位监测数据缺失的修复方法
CN116627953B (zh) * 2023-05-24 2023-10-27 首都师范大学 一种地下水位监测数据缺失的修复方法
CN117786587A (zh) * 2024-02-28 2024-03-29 深圳市福山自动化科技有限公司 基于数据分析的电网数据质量异常诊断方法
CN117786587B (zh) * 2024-02-28 2024-06-04 国网河南省电力公司经济技术研究院 基于数据分析的电网数据质量异常诊断方法

Similar Documents

Publication Publication Date Title
CN111625399A (zh) 一种计量数据恢复方法及系统
CN111444615B (zh) 一种基于k近邻和iv曲线的光伏阵列故障诊断方法
CN106548270B (zh) 一种光伏电站功率异常数据辨识方法及装置
CN110110434B (zh) 一种概率潮流深度神经网络计算的初始化方法
CN113505534B (zh) 一种考虑需求响应的负荷预测方法
CN110672905A (zh) 基于cnn的自监督电压暂降源辨识方法
CN116307291B (zh) 一种基于小波分解的分布式光伏发电预测方法及预测终端
CN115021679B (zh) 一种基于多维离群点检测的光伏设备故障检测方法
CN115049024B (zh) 风速预测模型的训练方法、装置、电子设备和存储介质
CN114819374A (zh) 区域新能源超短期功率预测方法及系统
CN112925824A (zh) 针对极端天气类型的光伏功率预测方法及系统
CN116629416A (zh) 光伏电站功率预测方法及装置
CN116014722A (zh) 基于季节分解和卷积网络的次日光伏发电预测方法及系统
CN116799796A (zh) 一种光伏发电功率预测方法、装置、设备及介质
CN114118401A (zh) 基于神经网络的配电网络流量预测方法、系统、装置及存储介质
CN110738363A (zh) 一种光伏发电功率预测模型及其构建方法和应用
CN117113086A (zh) 一种储能机组负荷预测方法、系统、电子设备及介质
CN115907131A (zh) 一种北方地区电采暖负荷预测模型搭建方法和系统
CN115689067A (zh) 太阳辐照度预测方法、装置及存储介质
CN115563848A (zh) 一种基于深度学习的分布式光伏总辐射预测方法及系统
CN114066239A (zh) 一种用户用电量异常检测方法及装置
CN113780644A (zh) 一种基于在线学习的光伏出力预测方法
CN112667957A (zh) 一种基于深度神经网络的智能电能表失效率预测方法
CN111027816A (zh) 一种基于数据包络分析的光伏发电效率计算方法
CN117291845B (zh) 一种点云地面滤波方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination