CN113469189A - 一种用电采集数据缺失值填充方法、系统及装置 - Google Patents
一种用电采集数据缺失值填充方法、系统及装置 Download PDFInfo
- Publication number
- CN113469189A CN113469189A CN202111024585.7A CN202111024585A CN113469189A CN 113469189 A CN113469189 A CN 113469189A CN 202111024585 A CN202111024585 A CN 202111024585A CN 113469189 A CN113469189 A CN 113469189A
- Authority
- CN
- China
- Prior art keywords
- data
- representing
- vector
- value
- function
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 230000009467 reduction Effects 0.000 claims abstract description 57
- 238000012549 training Methods 0.000 claims abstract description 46
- 230000005611 electricity Effects 0.000 claims abstract description 45
- 230000002159 abnormal effect Effects 0.000 claims abstract description 30
- 238000012545 processing Methods 0.000 claims abstract description 14
- 230000006870 function Effects 0.000 claims description 84
- 239000013598 vector Substances 0.000 claims description 84
- 230000008569 process Effects 0.000 claims description 36
- 239000000126 substance Substances 0.000 claims description 32
- 230000014509 gene expression Effects 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000003860 storage Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 4
- 238000003064 k means clustering Methods 0.000 abstract description 3
- 230000002411 adverse Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000007405 data analysis Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Pure & Applied Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Economics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- General Health & Medical Sciences (AREA)
- Marketing (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Databases & Information Systems (AREA)
- Human Resources & Organizations (AREA)
- Software Systems (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Complex Calculations (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种用电采集数据缺失值填充方法、系统及装置,所述方法包括:利用平均值‑方差法对用电采集数据异常值处理;利用用电采集数据去训练降噪自编码器模型,基于训练好的降噪自编码器网络模型去重构原始的用电样本数据,利用重构数据来填充缺失的用电采集样本数据,且模型中加入新提出的Depreciation‑FourOrder正则化方法;结合k‑means聚类技术利用数据的标准差来矫正填充的数据值。本发明通过降噪自编码器模型填充用电采集数据的缺失值,加入提出的新的正则化项,提高模型性能。根据网络层的单元数设置噪声水平。利用数据的标准差来矫正填充的数据值,使得填充值更加准确。
Description
技术领域
本发明属于配电网控制与信息科学的交叉领域,具体涉及一种用电采集数据缺失值填充方法、系统及装置。
背景技术
随着电网系统信息化和数据化程度的提高以及用户用电采集数据的迅速增加,与人们各方面息息相关的电力能源的地位也变得越来越重要。目前,电网公司实现了电力数据高频采集的功能,并且为了更好地实现对这些数据的管理和分析,电力企业普遍建立了统一、可复用的大数据中台。通过对用电采集数据进行数据分析可以实现对电网状态的智能感知,保障电力系统的安全平稳运行又能提高电网企业的经济效益。
然而,电网系统在收集用电采集数据时总是因为一些因素导致某些用电采集数据的缺失。不对缺失数据采取措施,可能会导致在后续用电采集数据的数据分析出现不好的影响。如果直接删除缺失的用电采集数据,那么会造成资源的浪费,减少隐藏在这些缺失数据中有价值的信息,甚至有可能会影响结果分析的正确性。因此,对用电采集数据进行填充是很有必要的。
发明内容
本发明的目的在于提供一种用电采集数据缺失值填充方法、系统及装置,为了避免用电采集数据中的异常数据对训练模型的不利影响,对样本数据的异常值进行了检测进行删除处理。为了填充用电采集数据中的缺失数据,用训练好的降噪自编码器模型去重构原始数据,从而用重构数据填充缺失值,并且模型中加入了新的正则化项,防止模型过拟合,提高模型的性能。其次,为了获得较佳的噪声衰减比,噪声值的比值设置为前一层的一半。最终,为了提高填充数据的精确性,通过标准差来对填充的数据值进行校正。
为实现上述目的,本发明提供一种用电采集数据缺失值填充方法、系统及装置。所述方法首先对用电采集数据利用平均值-方差法检测用电采集数据中的异常值,然后将异常的用电采集数据删除;接着利用用电采集数据去训练降噪自编码器模型,基于训练好的降噪自编码器网络模型去重构原始的用电样本数据,利用重构数据来填充缺失的用电采集样本数据;防止模型过拟合,提出了新的Depreciation-FourOrder正则化项;为了获得较佳的噪声衰减比,根据网络层的单元数降低噪声水平;然后,结合k-means聚类方法、邻近数据点到类簇中心的平均距离并利用数据的标准差来矫正填充的数据值。最终,通过系统和装置来完成上述的功能。
本发明提供一种用电采集数据缺失值填充方法,包括如下步骤:
步骤1:获取异常值处理后的用电采集数据;
步骤2:基于预先训练的降噪自编码器模型得到原始数据的重构数据,降噪自编码器模型通过以下步骤训练得到:
将缺失的值全部置零,并引入一个损坏过程,随机对原始输入数据进行损坏;
利用编码网络对损坏后的数据进行训练,转换为相对原始数据低维度隐含变量;
利用解码网络将前面得到的低维度隐含变量重构得到原始维度的输入变量;
为了防止过拟合,模型中提出一种Depreciation-FourOrder正则化方法;
步骤3:重构数据被用来填充用电采集数据中缺失的部分,作为临时的填充值,利用缺失数据的标准差校正填充的重构数据,得到最终的填充值。
进一步的,步骤1中所述异常值处理为平均值-方差法检测用电采集数据中的异常值,并将异常的用电采集数据删除,步骤如下:
进一步的,步骤2中所述降噪自编码器模型训练的具体步骤如下:
编码过程的数学表达式如公式(3)所示;
解码过程的数学表达式如公式(4)所示;
的差;
编码函数和解码函数采用的均为非线性激活函数,编码函数和解码函数的表达式如公式(6)、(7)所示;
则公式(4)可改写为如下:
原始向量和重构向量之间的差如公式(9)所示;
解码和编码网络都采用LSTM;
其次,根据层的单元数降低噪声水平,噪声值的比值设置为前一层的一半;
接着,在模型中引入一种Depreciation-FourOrder正则化方法,加入正则化项的目标函数表达式被更新为如公式(10)所示:
进一步的,步骤3包括以下步骤:
将降噪自编码器重构得到的变量值填充到相应的缺失值中;
接着,通过对用电采集数据缺失值的填充数据加减对应属性列的标准差来矫正填充数据;计算加减标准差后的填充数据与类簇中心的距离以及通过降噪自编码器得到的填充数据与类簇中心的距离,通过比较哪种情况下得到的距离最接近就选择该种情况下的数据作为最终的用电采集数据缺失的值的填充数据。
本发明还提供一种用电采集数据缺失值填充系统,包括:
获取模块:用于获取去除异常值后的去噪用电采集数据;
训练模块:用于通过以下步骤训练得到降噪自编码器模型:
将缺失的值全部置零,并引入一个损坏过程,随机对原始输入数据进行损坏;
利用编码网络对损坏后的数据进行训练,转换为相对原始数据低维度隐含变量;
利用解码网络将前面得到的低维度隐含变量重构得到原始维度的输入变量;
为了防止过拟合,模型中提出一种Depreciation-FourOrder正则化方法;
重构模块:用于利用训练好的降噪自编码器模型去得到原始输入的重构变量;
填充以及校正模块:用于降噪自编码器得到的重构变量值去填充缺失数据,得到临时的缺失数据填充值,并利用数据的标准差结合聚类、邻近点平均类簇中心距离去校正临时的填充值,确定最终的数据填充值。
本发明还提供一种用电采集数据缺失值填充装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行上述用电采集数据缺失值填充方法的步骤。
本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被设置为运行时执行上述用电采集数据缺失值填充方法的步骤。
本发明的有益效果是:
本发明针对用电采集数据的缺失值问题,提出了一种用电采集数据缺失值填充方法、系统及装置。通过对用电采集数据的缺失值进行填充,可以保留住缺失数据中蕴藏的数据价值,为后续数据分析带来有益的结果,从而更好地提高电力企业的服务水平。首选对原始样本数据进行了异常值检测和处理,避免了异常值对训练模型的不利影响。利用降噪自编码器模型训练正常的样本数据,得到输入数据和重构数据之间的关系,然后基于训练好的降噪自动编码器网络模型得到真实数据的重构数据,利用重构数据以及数据的标准差去填充用电采集数据中的缺失值。降噪自编码器模型中加入了新的正则化项,防止模型过拟合,提高模型的性能。其次,为了获得较佳的噪声衰减比,噪声值的比值设置为前一层的一半。最终,为了提高填充数据的精确性,通过标准差来对填充的数据值进行校正。
附图说明
图1是本发明的方法流程图。
具体实施方式
下面结合实施例对本发明做进一步的描述,有必要在此指出的是以下实施例只是用于对本发明进行进一步的说明,不能理解为对本发明保护范围的限制,该领域的技术熟练人员根据上述发明内容所做出的一些非本质的改进和调整,仍属于本发明的保护范围。
本发明实施方式的一方面提供一种用电采集数据缺失值填充方法,其流程图如图1所示。首先对用电采集数据利用平均值-方差法检测用电采集数据中的异常值,然后将异常的用电采集数据删除;接着利用用电采集数据去训练降噪自编码器模型,基于训练好的降噪自编码器网络模型去重构原始的用电采集数据,利用重构数据来填充缺失的用电采集数据,作为临时的填充数据;为了防止模型过拟合,提出了新的Depreciation-FourOrder正则化项;为了获得较佳的噪声衰减比,根据网络层的单元数降低噪声水平;然后,结合k-means聚类方法、填充数据距离类簇中心的距离、邻近数据点到类簇中心的平均距离并利用数据的标准差选择最接近平均距离的数据来矫正填充的数据值,得到最终的填充缺失数据。
首先,对异常值进行处理。
用电采集数据是指电能表采集回的用户侧电压、电流、有功功率、电量数据。用电采集数据过程中可能由于设备等问题采集到一些异常的数据信息。对于异常的用电采集数据要进行处理,否则在后续分析处理中会造成不良的影响。异常值是采集数据中的个例数据,因此,本发明将异常的用电采集数据直接删除。异常值的检查采用平均值-方差检测法。
其次,对缺失值进行填充。
(1)建立降噪自编码器模型
降噪自编码器是一种深度无监督模型,可以对采集的用电采集数据先进行数据降维,然后对降维得到的用电采集数据进行重构,得到重构的用电采集数据。相比较于传统的自编码器,其可以接受受损的用电采集数据作为输入,然后预测未受损的用电采集数据。预测的用电采集数据值可以被用来填充缺失的数据。
降噪自编码器是通过最小化输入与重构信号之间的误差来对网络参数进行调整,但是其的隐含层表示并不是由原始的用电输入数据直接映射得到,而是先将原始用电采集数据的一定比例的数据损坏,其它停电数据不做处理。对于缺失的用电采集数据,直接做置零处理。这样的话,原始输入中就会减少一定比例的用电采集数据信息。降噪自编码器可以通过学习的方式去填充这些缺失的信息,从而缺失的数据就可以通过这种方式被填充。
降噪自编码器是一种由编码网络和解码网络构成的无监督网络模型。编码网络是将原始数据转换为相对原始数据低维度隐含变量,解码网络就是将前面得到的低维度隐含变量重构得到原始维度的输入变量。降噪自编码的输入不会等同于输出,如果两者相同的话,降噪自编码器的处理就失去了意义。其编码过程是为了提取输入数据中更为重要、敏感的信息,解码过程就是利用这些被提取的特征去重构出接近原始输入的数据。解码和编码网络均采用LSTM。降噪自编码器模型的训练过程具体步骤如下所示:
编码过程数学表达式如公式(3)所示。
解码过程数学表达式如公式(4)所示。
的差;
为了能够学习到更为深层次的特征,编码函数和解码函数采用的均为非线性激活函数,编码函数和解码函数的表达式如公式(6)、(7)所示。
则公式(4)可改写为如下:
原始向量和重构向量之间的差如公式(9)所示;
为了提高模型的效果,解码和编码网络都采用LSTM。
其次,根据层的单元数降低噪声水平。为了获得较佳的噪声衰减比,噪声值的比值设置为前一层的一半。
接着,为了防止模型过拟合,在模型中引入一种称为Depreciation-FourOrder正则化的方法,加入正则化项的目标函数表达式被更新为如公式(10)所示:
通过降噪自编码模型重构的用电样本数据,重构得到的值就可以作为填充的缺失值。
(2) 对缺失值填充校正
接下来对用电样本数据聚类,得到若干个类簇,聚类的方法采用k-means方法,过程如下所示:
1)选取k个点做为初始聚集的簇心;
2)分别计算每个样本数据到k个簇核心的距离,根据计算得到的距离找到离该点最近的簇中心,那么该条样本数据就划分到对应的簇;
3)所有样本数据都划分到到相应的簇后,整个样本就分为了k个簇。然后重新计算每个簇的中心;
4)反复迭代 2 )- 3 )步骤,直到达到某个中止条件。
接着,通过对用电采集数据缺失值的填充数据加减对应属性列的标准差来矫正填充数据。
第j列标准差的计算如公式(12)所示:
本发明实施方式的另一方面还提供一种用电采集数据缺失值填充系统,系统一共包括四个模块,分别是获取模块、训练模块、重构模块、填充以及校正模块。
对于获取模块,它是用来获取去除异常值后的去噪用电采集数据的模块。用电采集数据过程中可能由于设备等问题采集到一些异常的用电采集数据信息。对于异常的用电采集数据要进行处理,否则可能会产生一些不利的影响,该模块就是用来实现该功能的。
对于训练模块,它是用于通过以下步骤训练得到降噪自编码器模型:
将缺失的值全部置零,并引入一个损坏过程,随机对原始输入数据进行损坏;
利用编码网络对损坏后的数据进行训练,转换为相对原始数据低维度隐含变量;
利用解码网络将前面得到的低维度隐含变量重构得到原始维度的输入变量;
为了防止过拟合,模型中提出一种Depreciation-FourOrder正则化方法。通过训练得到训练好的降噪自编码器模型,该模块就是用来实现该功能的。
对于重构模块,它是用于利用降噪自编码器模型去得到原始输入的重构变量。通过对采集的用电采集数据先进行数据降维,然后对降维得到的用电采集数据进行重构,得到重构的用电采集数据,该模块就是用来实现该功能的。
对于填充以及校正模块,它是用来降噪自编码器得到的重构变量值去填充缺失数据,得到临时的缺失数据填充值,并利用数据的标准差结合聚类、邻近点平均类簇中心距离去校正临时的填充值,确定最终的数据填充值,该模块就是用来实现该功能的。
训练模块中降噪自编码器模型训练的具体步骤如下:
编码过程的数学表达式如公式(3)所示;
解码过程的数学表达式如公式(4)所示;
的差;
编码函数和解码函数采用的均为非线性激活函数,编码函数和解码函数的表达式如公式(6)、(7)所示;
则公式(4)可改写为如下:
原始向量和重构向量之间的差如公式(9)所示;
解码和编码网络都采用LSTM;
其次,根据层的单元数降低噪声水平,噪声值的比值设置为前一层的一半;
接着,在模型中引入一种Depreciation-FourOrder正则化方法,加入正则化项的目标函数表达式被更新为如公式(10)所示:
本发明实施方式的另一方面还提供一种用电采集数据缺失值填充装置,填充装置包括存储介质和处理器。存储介质用来存储计算机程序指令,这些计算机程序用来实现系统功能。存储介质是通过一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。通过计算机或其他可编程数据处理设备的处理器执行计算机程序指令可以用于实现系统中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (8)
1.一种用电采集数据缺失值填充方法,其特征在于:包括如下步骤:
步骤1:获取异常值处理后的用电采集数据;
步骤2:基于预先训练的降噪自编码器模型得到原始数据的重构数据,降噪自编码器模型通过以下步骤训练得到:
将缺失的值全部置零,并引入一个损坏过程,随机对原始输入数据进行损坏;
利用编码网络对损坏后的数据进行训练,转换为相对原始数据低维度隐含变量;
利用解码网络将前面得到的低维度隐含变量重构得到原始维度的输入变量;
为了防止过拟合,模型中提出一种Depreciation-FourOrder正则化方法;
步骤3:重构数据被用来填充用电采集数据中缺失的部分,作为临时的填充值,利用缺失数据的标准差校正填充的重构数据,得到最终的填充值。
2.根据权利要求1所述的一种用电采集数据缺失值填充方法,其特征在于:步骤1中所述异常值处理为平均值-方差法检测用电采集数据中的异常值,并将异常的用电采集数据删除,步骤如下:
3.根据权利要求1所述的一种用电采集数据缺失值填充方法,其特征在于:步骤2中所述降噪自编码器模型训练的具体步骤如下:
编码过程的数学表达式如公式(3)所示;
解码过程的数学表达式如公式(4)所示;
编码函数和解码函数采用的均为非线性激活函数,编码函数和解码函数的表达式如公式(6)、(7)所示;
则公式(4)可改写为如下:
原始向量和重构向量之间的差如公式(9)所示;
解码和编码网络都采用LSTM;
其次,根据层的单元数降低噪声水平,噪声值的比值设置为前一层的一半;
接着,在模型中引入一种Depreciation-FourOrder正则化方法,加入正则化项的目标函数表达式被更新为如公式(10)所示:
4.根据权利要求1所述的一种用电采集数据缺失值填充方法,其特征在于:步骤3包括以下步骤:
将降噪自编码器重构得到的变量值填充到相应的缺失值中;
5.一种用电采集数据缺失值填充系统,其特征在于:包括:
获取模块:用于获取去除异常值后的去噪用电采集数据;
训练模块:用于通过以下步骤训练得到降噪自编码器模型:
将缺失的值全部置零,并引入一个损坏过程,随机对原始输入数据进行损坏;
利用编码网络对损坏后的数据进行训练,转换为相对原始数据低维度隐含变量;
利用解码网络将前面得到的低维度隐含变量重构得到原始维度的输入变量;
为了防止过拟合,模型中提出一种Depreciation-FourOrder正则化方法;
重构模块:用于利用训练好的降噪自编码器模型去得到原始输入的重构变量;
填充以及校正模块:用于降噪自编码器得到的重构变量值去填充缺失数据,得到临时的缺失数据填充值,并利用数据的标准差结合聚类、邻近点平均类簇中心距离去校正临时的填充值,确定最终的数据填充值。
6.根据权利要求5所述的一种用电采集数据缺失值填充系统,其特征在于:所述降噪自编码器模型训练的具体步骤如下:
编码过程的数学表达式如公式(3)所示;
解码过程的数学表达式如公式(4)所示;
的差;
编码函数和解码函数采用的均为非线性激活函数,编码函数和解码函数的表达式如公式(6)、(7)所示;
则公式(4)可改写为如下:
原始向量和重构向量之间的差如公式(9)所示;
解码和编码网络都采用LSTM;
其次,根据层的单元数降低噪声水平,噪声值的比值设置为前一层的一半;
接着,在模型中引入一种Depreciation-FourOrder正则化方法,加入正则化项的目标函数表达式被更新为如公式(10)所示:
7.一种用电采集数据缺失值填充装置,其特征在于:包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行权利要求1~4任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被设置为运行时执行权利要求1~4任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111024585.7A CN113469189B (zh) | 2021-09-02 | 2021-09-02 | 一种用电采集数据缺失值填充方法、系统及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111024585.7A CN113469189B (zh) | 2021-09-02 | 2021-09-02 | 一种用电采集数据缺失值填充方法、系统及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113469189A true CN113469189A (zh) | 2021-10-01 |
CN113469189B CN113469189B (zh) | 2021-11-19 |
Family
ID=77868072
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111024585.7A Active CN113469189B (zh) | 2021-09-02 | 2021-09-02 | 一种用电采集数据缺失值填充方法、系统及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113469189B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114189313A (zh) * | 2021-11-08 | 2022-03-15 | 广东电网有限责任公司广州供电局 | 一种电表数据重构方法及装置 |
CN116186501A (zh) * | 2023-04-20 | 2023-05-30 | 四川中电启明星信息技术有限公司 | 一种用户电表采集数据修复方法、系统、电子设备及介质 |
CN116611717A (zh) * | 2023-04-11 | 2023-08-18 | 南京邮电大学 | 一种基于显隐式的融合辅助信息的填充方法 |
CN116842410A (zh) * | 2023-09-01 | 2023-10-03 | 福建赛鲲鹏网络科技有限公司 | 一种基于动态感知的智能头盔防盗管理方法以及系统 |
CN116996869A (zh) * | 2023-09-26 | 2023-11-03 | 济南正大科技发展有限公司 | 一种网络异常数据处理方法及装置 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110231348A1 (en) * | 2010-03-18 | 2011-09-22 | Microsoft Corporation | Regularized Dual Averaging Method for Stochastic and Online Learning |
US20130325781A1 (en) * | 2012-05-31 | 2013-12-05 | Xerox Corporation | Tensor trace norm and inference systems and recommender systems using same |
CN106295175A (zh) * | 2016-08-09 | 2017-01-04 | 西安电子科技大学 | 基于svd算法的台站气象数据缺值填充方法 |
JP2017151904A (ja) * | 2016-02-26 | 2017-08-31 | 日本電信電話株式会社 | 解析装置、方法、及びプログラム |
CN107590778A (zh) * | 2017-07-31 | 2018-01-16 | 南京理工大学 | 一种基于无损约束降噪的自编码方法 |
CN109213753A (zh) * | 2018-08-14 | 2019-01-15 | 西安理工大学 | 一种基于在线pca的工业系统监测数据恢复方法 |
CN109657149A (zh) * | 2018-12-25 | 2019-04-19 | 合肥学院 | 一种基于生成对抗网络和双聚类的推荐方法及系统 |
US20190129819A1 (en) * | 2017-10-26 | 2019-05-02 | International Business Machines Corporation | Missing Values Imputation of Sequential Data |
CN109815223A (zh) * | 2019-01-21 | 2019-05-28 | 北京科技大学 | 一种针对工业监测数据缺失的补全方法及补全装置 |
CN110472190A (zh) * | 2018-05-09 | 2019-11-19 | 北京京东尚科信息技术有限公司 | 填充有序序列的方法和装置 |
CN111144214A (zh) * | 2019-11-27 | 2020-05-12 | 中国石油大学(华东) | 基于多层堆栈式自动编码器的高光谱图像解混方法 |
CN111429605A (zh) * | 2020-04-10 | 2020-07-17 | 郑州大学 | 一种基于生成式对抗网络的缺失值填充方法 |
CN112258337A (zh) * | 2020-09-14 | 2021-01-22 | 陕西讯格信息科技有限公司 | 一种自我补全修正的基站能耗模型预测方法 |
US20210049428A1 (en) * | 2019-08-16 | 2021-02-18 | Fico | Managing missing values in datasets for machine learning models |
CN113298131A (zh) * | 2021-05-17 | 2021-08-24 | 南京邮电大学 | 一种基于注意力机制的时序数据缺失值插补方法 |
-
2021
- 2021-09-02 CN CN202111024585.7A patent/CN113469189B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110231348A1 (en) * | 2010-03-18 | 2011-09-22 | Microsoft Corporation | Regularized Dual Averaging Method for Stochastic and Online Learning |
US20130325781A1 (en) * | 2012-05-31 | 2013-12-05 | Xerox Corporation | Tensor trace norm and inference systems and recommender systems using same |
JP2017151904A (ja) * | 2016-02-26 | 2017-08-31 | 日本電信電話株式会社 | 解析装置、方法、及びプログラム |
CN106295175A (zh) * | 2016-08-09 | 2017-01-04 | 西安电子科技大学 | 基于svd算法的台站气象数据缺值填充方法 |
CN107590778A (zh) * | 2017-07-31 | 2018-01-16 | 南京理工大学 | 一种基于无损约束降噪的自编码方法 |
US20190129819A1 (en) * | 2017-10-26 | 2019-05-02 | International Business Machines Corporation | Missing Values Imputation of Sequential Data |
CN110472190A (zh) * | 2018-05-09 | 2019-11-19 | 北京京东尚科信息技术有限公司 | 填充有序序列的方法和装置 |
CN109213753A (zh) * | 2018-08-14 | 2019-01-15 | 西安理工大学 | 一种基于在线pca的工业系统监测数据恢复方法 |
CN109657149A (zh) * | 2018-12-25 | 2019-04-19 | 合肥学院 | 一种基于生成对抗网络和双聚类的推荐方法及系统 |
CN109815223A (zh) * | 2019-01-21 | 2019-05-28 | 北京科技大学 | 一种针对工业监测数据缺失的补全方法及补全装置 |
US20210049428A1 (en) * | 2019-08-16 | 2021-02-18 | Fico | Managing missing values in datasets for machine learning models |
CN111144214A (zh) * | 2019-11-27 | 2020-05-12 | 中国石油大学(华东) | 基于多层堆栈式自动编码器的高光谱图像解混方法 |
CN111429605A (zh) * | 2020-04-10 | 2020-07-17 | 郑州大学 | 一种基于生成式对抗网络的缺失值填充方法 |
CN112258337A (zh) * | 2020-09-14 | 2021-01-22 | 陕西讯格信息科技有限公司 | 一种自我补全修正的基站能耗模型预测方法 |
CN113298131A (zh) * | 2021-05-17 | 2021-08-24 | 南京邮电大学 | 一种基于注意力机制的时序数据缺失值插补方法 |
Non-Patent Citations (8)
Title |
---|
JIANYE ZHANG等: ""Multivariate Time Series Missing Data Imputation Using Recurrent Denoising Autoencoder"", 《2019 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》 * |
SEUNGHYOUNG RYU等: ""Denoising Autoencoder-Based Missing Value Imputation for Smart Meters"", 《IEEE ACCESS》 * |
YOU LIN等: ""Reconstruction of Power System Measurements Based on Enhanced Denoising Autoencoder"", 《2019 IEEE POWER & ENERGY SOCIETY GENERAL MEETING (PESGM)》 * |
严远亭等: ""构造性覆盖下不完整数据修正填充方法"", 《智能系统学报》 * |
卜范玉等: ""基于聚类和自动编码机的缺失数据填充算法"", 《计算机工程与应用》 * |
张晓婷: ""基于正则化GEP的常微分方程模型研究及应用"", 《中国优秀硕士学位论文全文数据库 基础科学辑》 * |
杜婧涵: ""基于深度学习的机场噪声监测数据补全研究"", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 * |
罗永洪: ""基于生成对抗网络的时序数据缺失值填充算法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114189313A (zh) * | 2021-11-08 | 2022-03-15 | 广东电网有限责任公司广州供电局 | 一种电表数据重构方法及装置 |
CN114189313B (zh) * | 2021-11-08 | 2023-11-24 | 广东电网有限责任公司广州供电局 | 一种电表数据重构方法及装置 |
CN116611717A (zh) * | 2023-04-11 | 2023-08-18 | 南京邮电大学 | 一种基于显隐式的融合辅助信息的填充方法 |
CN116611717B (zh) * | 2023-04-11 | 2024-03-19 | 南京邮电大学 | 一种基于显隐式的融合辅助信息的填充方法 |
CN116186501A (zh) * | 2023-04-20 | 2023-05-30 | 四川中电启明星信息技术有限公司 | 一种用户电表采集数据修复方法、系统、电子设备及介质 |
CN116186501B (zh) * | 2023-04-20 | 2023-07-28 | 四川中电启明星信息技术有限公司 | 一种用户电表采集数据修复方法、系统、电子设备及介质 |
CN116842410A (zh) * | 2023-09-01 | 2023-10-03 | 福建赛鲲鹏网络科技有限公司 | 一种基于动态感知的智能头盔防盗管理方法以及系统 |
CN116842410B (zh) * | 2023-09-01 | 2023-11-17 | 福建赛鲲鹏网络科技有限公司 | 一种基于动态感知的智能头盔防盗管理方法以及系统 |
CN116996869A (zh) * | 2023-09-26 | 2023-11-03 | 济南正大科技发展有限公司 | 一种网络异常数据处理方法及装置 |
CN116996869B (zh) * | 2023-09-26 | 2023-12-29 | 济南正大科技发展有限公司 | 一种网络异常数据处理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113469189B (zh) | 2021-11-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113469189B (zh) | 一种用电采集数据缺失值填充方法、系统及装置 | |
CN113126019B (zh) | 一种智能电表误差远程估计方法、系统、终端和存储介质 | |
CN112734128B (zh) | 一种基于优化rbf的7日电力负荷峰值预测方法 | |
US20190384879A1 (en) | Meteorology sensitive load power estimation method and apparatus | |
CN112668611B (zh) | 一种基于Kmeans和CEEMD-PE-LSTM的短期光伏发电功率预测方法 | |
CN113160190A (zh) | 一种接触网紧固件异常检测方法、设备、检测装置及存储介质 | |
CN114740388A (zh) | 一种基于改进tcn的锂电池剩余寿命状态评估方法 | |
CN110781316A (zh) | 一种融合超平面和持续时间建模的时间感知知识表示学习方法 | |
CN113533952A (zh) | 一种基于ceemd和相空间重构的有载调压变压器分接开关机械故障诊断方法 | |
CN116842337A (zh) | 基于LightGBM优选特征与COA-CNN模型的变压器故障诊断方法 | |
CN116027217A (zh) | Ae-cfsfdp储能电站多源电池数据异常检测方法 | |
CN114742097A (zh) | 一种基于轴承振动信号自动确定变分模态分解参数的优化算法 | |
CN113127469B (zh) | 一种三相不平衡数据的缺失值的填补方法及系统 | |
CN117556369B (zh) | 一种动态生成的残差图卷积神经网络的窃电检测方法及系统 | |
CN117408394B (zh) | 电力系统的碳排放因子预测方法、装置及电子设备 | |
CN117131022B (zh) | 一种电力信息系统的异构数据迁移方法 | |
CN117171907A (zh) | 一种滚动轴承剩余寿命预测方法及系统 | |
CN115310373B (zh) | 一种制氢电解槽剩余寿命预测方法 | |
CN116595450A (zh) | 一种混合域特征优选的电能质量扰动识别方法 | |
CN107430869A (zh) | 参数决定装置、方法、程序及记录介质 | |
CN113158134B (zh) | 非侵入式负荷辨识模型的构建方法、装置和存储介质 | |
CN111476408B (zh) | 一种电力通信设备状态预测方法及系统 | |
CN114545066A (zh) | 一种非侵入式负荷监测模型聚合方法和系统 | |
Zhu et al. | End-to-end topology-aware machine learning for power system reliability assessment | |
CN114372618A (zh) | 一种学生成绩的预测方法、系统、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |