CN109978079A - 一种改进的堆栈降噪自编码器的数据清洗方法 - Google Patents

一种改进的堆栈降噪自编码器的数据清洗方法 Download PDF

Info

Publication number
CN109978079A
CN109978079A CN201910285971.8A CN201910285971A CN109978079A CN 109978079 A CN109978079 A CN 109978079A CN 201910285971 A CN201910285971 A CN 201910285971A CN 109978079 A CN109978079 A CN 109978079A
Authority
CN
China
Prior art keywords
data
model
cost
noise reduction
encoding encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910285971.8A
Other languages
English (en)
Inventor
娄建楼
李燕
孙博
曲朝阳
王蕾
郭晓利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeast Electric Power University
Original Assignee
Northeast Dianli University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeast Dianli University filed Critical Northeast Dianli University
Priority to CN201910285971.8A priority Critical patent/CN109978079A/zh
Publication of CN109978079A publication Critical patent/CN109978079A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明公开了一种改进的堆栈降噪自编码器的数据清洗方法,首先,引入Adam和SGD的混合算法,以不断调整堆栈降噪自编码器模型的网络参数;其次,利用模型训练正常状态数据,获取数据的隐藏特征,得到正常状态下的重构误差;再次,用该模型检测异常状态数据,根据其重构误差分析各种类型的数据对模型的影响,并对“脏数据”和反映设备故障的异常数据快速分类清洗修复。本发明的AS‑SDAE可以直接智能分析监测数据,能更好地挖掘数据隐藏的高阶特征,保证了“脏数据”清洗的高效性,保留了反映设备本身异常情况的有用数据,提高了数据分析效率。

Description

一种改进的堆栈降噪自编码器的数据清洗方法
技术领域
本发明涉及数据处理领域,具体涉及一种改进的堆栈降噪自编码器的数据清洗方法。
背景技术
随着电力企业的发展,国民用电需求量越来越大,锅炉作为电能生产的主要设备之一,其状态监测数据在生产过程中呈级数增长,符合大数据的特性,蕴藏着丰富的资源价值,对这些数据的挖掘和分析,有助于了解电力系统的整体运行规律。然而,电厂运行工况复杂多样,锅炉在实际运作过程中受外界的各种干扰,如环境多变、传感器短时异常、数据传输链受阻等,导致监测数据中必然含有噪声数据和缺失数据,这些数据统称为“脏数据”。除此之外,当锅炉设备出现故障时同样会产生异常数据,此类数据包含着诊断设备运行状况的重要信息,能够反映出设备本身的异常情况,不能与“脏数据”同等处理。因此,在对设备进行状态评估前应清洗修补“脏数据”,筛选出表示设备故障的有效异常数据,为电厂设备的质量诊断提供有利保障。
国内外关于数据清洗的研究如文献[1-4]所示。文献[1]将设备监测数据等同于每个状态量的时间序列,使用迭代检验法辨别数据中的噪声点和缺失数据,并完成数据的校正。文献[2]结合关联规则、聚类算法和小波神经网络对监测数据中可清洗的传感器和设备异常数据分类检测和修正。文献[3]通过设备输出功率的条件概率分布构建一定置信度水平下的功率等效边界模型识别和删除异常数据。文献[4]用混合Cuckoo搜索优化和引力搜索算法检测大数据中的错误并修复数据。由于数据集体现出越来越强的设备综合特征表达能力,目前的数据清洗方法仅考虑局部状态量的异常特征,忽略了整体属性间的相关性,破坏了数据的连续性和完整性,不利于后续分析数据和评估设备运行状况。
若要有效地清洗“脏数据”,必须深度提取数据的特征表示。Hinton 等人已证实深层神经网络具备比浅层神经网络更快提取有效特征的能力。近年来,深度神经网络获得了学术界和工业界的广泛关注,在算法研究和应用方面不断取得进展。根据学习方式的不同,深度学习分为有监督学习和无监督学习。无监督的逐层训练可以提取神经网络有价值的特征,将网络权重初始化为最佳值,促使之后的监督训练快速完成。在无监督学习方法中,较著名的有受限波尔兹曼机(Restricted Boltzmann Machine,RBM)、自编码器(Auto-Encoder,AE)以及生成式对抗网络(Generative Adversarial Networks,GAN)。自编码器具有简单重建、堆叠多层、以神经科学为支撑等优点,具备强大的特征提取能力,可更好地解决分类评估的各种复杂问题,在多个研究领域取得了令人瞩目的成绩,其中应用成功的有状态评估、模式识别、数据生成等。
[1] Yan Yingjie, Shen Gehao, Chen Yufeng, et al. Cleaning method forbig data of power transmission and transformation equipment sata based ontime sequence analysis[J]. Automation of Electric Power Systems, 2015, 39(07): 138-144 (in Chinese)
(严英杰, 盛戈皞, 陈玉峰, 等. 基于时间序列分析的输变电设备状态大数据清洗方法[J]. 电力系统自动化, 2015, 39(07): 138-144)
[2] Lin Jun, Yan Yingjie, Shen Gehao, et al. Online monitoring datacleaning of transformer considering time series correlation[J]. Power SystemTechnology, 2017, 41(11): 3733-3740 (in Chinese)
(林峻, 严英杰, 盛戈皞, 等. 考虑时间序列关联的变压器在线监测数据清洗[J].电网技术, 2017, 41(11): 3733-3740)
[3] Hu Yang, Qiao Yilin, Wind power data cleaning method based onconfidence equivalent boundary model[J]. Automation of Electric PowerSystems. 2018, 42(15): 18-23+149 (in Chinese)
(胡阳, 乔依林. 基于置信等效边界模型的风功率数据清洗方法[J]. 电力系统自动化, 2018, 42(15): 18-23+149)
Satish K V R, Kavya N P. Hybrid Optimization in Big Data: Error Detectionand Data Repairing by Big Data Cleaning Using CSO-GSA[J]. 2017, 26(01): 442-450。
发明内容
为解决上述问题,本发明提供了一种改进的堆栈降噪自编码器的数据清洗方法,通过结合Adam和SGD优化算法调整模型参数,训练后的模型可直接提取数据的隐层特征,正确区分“脏数据”和反映设备故障的异常数据,进一步修复“脏数据”以满足数据整体分布趋势,实验结果表明,该方法的清洗修补实验效果优于其他模型,自动化程度高且具有良好的自适应性。
为实现上述目的,本发明采取的技术方案为:
一种改进的堆栈降噪自编码器的数据清洗方法,首先,引入Adam和SGD的混合算法,以不断调整堆栈降噪自编码器模型的网络参数;其次,利用模型训练正常状态数据,获取数据的隐藏特征,得到正常状态下的重构误差;再次,用该模型检测异常状态数据,根据其重构误差分析各种类型的数据对模型的影响,并对“脏数据”和反映设备故障的异常数据快速分类清洗修复。具体包括如下步骤:
步骤1:在堆栈降噪自编码器模型训练前期先用Adam算法快速下降到平稳趋势,然后在某一轮训练后自动转化成SGD算法进行充分调优,以不断调整堆栈降噪自编码器模型的网络参数;
步骤2:从各个传感器采集设备历史监测数据;
步骤3:将历史监测数据分为正常状态数据和异常状态数据;
步骤4:把正常状态数据作为输入向量,进行AS-SDAE模型的训练,选取所有参数最优值,保证特征向量与输入向量之间的重构误差足够小,并确定重构误差cost;
步骤5:用步骤4中的AS-SDAE模型训练异常状态数据,比较每点重构误差cost'与cost,确定数据类型:
1)若cost'=cost,则判断该数据为正常值;
2)若cost'≠cost且该点周围不存在此类相同情况,则判断该数据为噪声数据;
3)若cost'≠cost且该点周围存在某一段数据与其同为某一固定值,则判断该数据为缺失值数据;
4)若cost'≠cost且该点周围数据存在类似变化趋势,则判断该数据为真正有用的异常值;
步骤6:利用AS-SDAE模型提取数据特征的特点对噪声点和缺失值自动修补。
进一步地,使用Adam的移动平均值当作转换成SGD后学习率的估计值,计算公式如下:
式中:λ t 为Adam的移动平均值,β 2 为控制二阶矩估计的超参数,α为学习率。
如权利要求1所述的一种改进的堆栈降噪自编码器的数据清洗方法,其特征在于:所述步骤1具体包括如下步骤:
定义:待优化参数a,初始学习率α,迭代训练次数ω,目标函数q(a),目标函数梯度g a ,梯度k a ,一阶矩估计m a ,二阶矩估计n a m a 的校正m a ' n a 的校正n a ' ,步长ε,下降梯度∆θ a ,超参数β 1 β 2
S1:根据下式计算参数a的目标函数梯度:
S2:根据下式计算Adam算法中参数的一阶矩估计和二阶矩估计:
S3:根据下式计算出当前时刻的下降梯度:
,
S4:根据下式计算转换成SGD算法的学习率估计值λ a
S5:当λ a 的指数平均值和学习率的差小于步长时优化算法转用SGD:
S6:计算从第i时刻转用SGD算法优化后的下降梯度:
本发明具有以下有益效果:
1)AS-SDAE相对于浅层神经网络模型实现了特征提取和分类识别两大功能,可以直接智能分析监测数据。
2)AS-SDAE的深层网络结构能更好地挖掘数据隐藏的高阶特征,保证了“脏数据”清洗的高效性,保留了反映设备本身异常情况的有用数据。
3)AS-SDAE的数据修补是针对数据整体规律而言的,这样有助于后续数据挖掘工作的正常进行,提高数据分析效率。
4)AS-SDAE相较其它模型在样本训练上有明显的时间优势。
附图说明
图1为自动编码器结构图。
图2为SDAE结构图。
图3为数据清洗修补流程图。
图4为三种SDAE模型数据收敛图;
图中:(a) SDAE(Adam);(b) SDAE(SGD);(c) AS-SDAE。
图5为重构误差。
图6为汽包水位归一化数据。
图7为五种SDAE模型修补效果。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
自编码器(Auto-Encoder,AE)是一种由一个输入层、一个隐藏层和一个输出层构成的对称神经网络,其组成结构如图1所示。AE的目的是使输出层的输出向量x ' 尽可能重构再现输入向量x.输入层的每一个向量x i 都来自训练集D=(x 1x 2,…,x n ),其中ip分别为训练集D的第i个向量和维数。一般来说,基本的自编码器主要包括编码器和解码器,且结构是对称的,即存在多个隐藏层时,编码阶段的隐层数量与解码阶段相同。编码阶段为输入层到隐藏层的过程,解码阶段为隐藏层到输出层的过程。AE的编码和解码阶段分别描述为:
式中:Wb表示编码阶段的权重和偏置系数,W'和b'表示解码阶段的权重和偏置系数,fg分别为编码和解码阶段的神经元激活函数。
本发明的激活函数选用“Sigmoid”函数,它能将各个向量映射到(0,1)区间,适合应用在向量特征相差较复杂的场景中,即:
式中:a为各个神经元相应的输入向量.
在AE中,输入向量x通过编码器被压缩为低维的特征向量输出,再经解码器重构为输出向量x ' ,当x ' x的重构误差足够小时,得到的x ' 即为x的隐层特征表示,重构误差公式如下:
堆栈降噪自编码器
在DAE中,经过一个随机映射对初始输入的纯净向量x增添噪声,产生一个有部分损坏的向量y。DAE的编码和解码阶段可描述为:
式中:y表示x添加噪声的向量,Wb表示编码阶段的权重和偏置系数,W'和b'表示解码阶段的权重和偏置系数,fg分别为编码和解码阶段的神经元激活函数;
堆栈降噪自编码器 (Stacked Denoising Auto-Encoders,SDAE)是由多个DAE堆叠而成的深层神经网络,模型上一隐藏层的输出向量即为下一层的输入向量,其结构如图2所示,通过DAE的逐层训练能获得更高级更有价值的特征表示。
在SDAE中,对输入的纯净向量x添加噪声,进入第一个DAE单元进行训练,用无监督学习的预训练初始化模型,得到向量的隐层特征表示,至此完成第一个DAE的训练;然后以第一个DAE的输出向量当做第二个DAE的输入向量,并按照同样的方式训练第二个DAE单元;重复上述训练过程,直到训练完所有的DAE单元;最后再用监督训练微调整个网络的参数,最后一个DAE单元的输出即为初始向量x隐含的特征表示。
基于Adam和SGD混合算法的SDAE模型
随机梯度下降(Stochastic Gradient Descent,SGD)是深度学习中普遍使用的一种网络参数优化算法,在更新参数时每次只在数据集中选取一个数据进行精准计算,大大加快了迭代速度,在多个调参实验中都取得了不错的成效,公式如下:
式中:α为学习率,g t 为梯度,∆θ t 为下降方向。
自适应性矩估计(Adaptive Moment Estimation,Adam)是深度学习中优化随机目标函数的一种算法,经过计算梯度的一阶矩估计和二阶矩估计为每个参数获得合适的学习率,有利于提高收敛速度,加快计算效率,减少内存需求,非常适合在含大规模数据或参数的数据集中以满足调优要求,公式如下:
式中:k t 为梯度,m t n t 分别为梯度的带权平均和带权有偏方差,m t ' n t ' 为对m t n t 的校正,β 1 β 2 分别为控制一阶矩估计和二阶矩估计的超参数,ε为步长,∆θ ' t 为下降方向。
根据Adam和SGD优化算法的优缺点,将两者混合应用到SDAE模型中,构建AS-SDAE模型;在模型训练前期先用Adam算法快速下降到平稳趋势,然后在某一轮训练后自动转化成SGD算法进行充分调优,其中,使用Adam的移动平均值当作转换成SGD后学习率的估计值,计算公式如下:
式中:λ t 为Adam的移动平均值,β 2 为控制二阶矩估计的超参数,α为学习率。
AS-SDAE模型优化算法步骤:
定义:待优化参数a,初始学习率α,迭代训练次数ω,目标函数q(a),目标函数梯度g a ,梯度k a ,一阶矩估计m a ,二阶矩估计n a m a 的校正m a ' n a 的校正n a ' ,步长ε,下降梯度∆θ a ,超参数β 1 β 2
步骤1:根据公式(7)计算参数a的目标函数梯度:
步骤2:根据公式(9) (10)计算Adam算法中参数的一阶矩估计和二阶矩估计:
步骤3:根据公式(13)计算出当前时刻的下降梯度:
步骤4:根据公式(14)计算转换成SGD算法的学习率估计值λ a
步骤5:当λ a 的指数平均值和学习率的差小于步长时优化算法转用SGD:
步骤6:计算从第i时刻转用SGD算法优化后的下降梯度:
本发明提供了一种基于上述改进的堆栈降噪自编码器的数据清洗方法,如图3所示,包括如下步骤:
步骤1:从各个传感器采集设备历史监测数据;
步骤2:将历史监测数据分为正常状态数据和异常状态数据;
步骤3:把正常状态数据作为输入向量,进行AS-SDAE模型的训练,选取所有参数最优值,如参数θ、隐含层数、学习率等来保证特征向量与输入向量之间的重构误差足够小,并确定重构误差cost;
步骤4:用步骤3中的AS-SDAE模型训练异常状态数据,比较每点重构误差cost'与cost,确定数据类型:
1)若cost'=cost,则判断该数据为正常值;
2)若cost'≠cost且该点周围不存在此类相同情况,则判断该数据为噪声数据;
3)若cost'≠cost且该点周围存在某一段数据与其同为某一固定值,则判断该数据为缺失值数据;
4)若cost'≠cost且该点周围数据存在类似变化趋势,则判断该数据为真正有用的异常值;
步骤5:利用AS-SDAE模型提取数据特征的特点对噪声点和缺失值自动修补。
实施例
以某火电厂1台330MW锅炉为例,选取其2016年6月至8月的900组锅炉的汽包水位、蒸汽压力和温度在线监测数据的正常状态数据作为训练样本,同时选取2016年10月至12月的900组相同状态量的异常状态数据作为测试样本,并将实验结果与该锅炉实际运行情况相比较来验证模型的有效性。
用正常状态数据训练构造AS-SDAE模型,得到模型的最佳网络参数,其中输入层节点数为272,3个隐藏层,节点数设为200、100、2,训练轮数为2500,数据添加噪声比例为20%,学习率为0.01。图4和表1分别为SDAE(Adam)、SDAE(SGD)和AS-SDAE模型收敛情况的对比图和数值统计表。
表1 三种模型收敛情况
图4和表1所示的实验结果表明,在趋于稳定方面,使用Adam算法优化的模型下降速度比使用SGD算法优化的模型有更明显的优势;在精准调参方面,使用SGD算法优化的模型运算速度远快于使用Adam算法优化的模型。相较两者而言,使用Adam和SGD混合算法优化的模型(AS-SDAE)在趋于稳定和精准调参方面都具有更好的实验效果,且其重构误差也远远小于前两者。
以锅炉汽包水位监测数据经过AS-SDAE模型分析后的结果进一步验证该模型的准确性和高效性。汽包水位异常状态数据经AS-SDAE模型训练后,得到900组数据的重构误差,其分布情况如图5所示。
根据3中的实验步骤分析可得:
1)在时间点48、93、224、388、509、589、670、710处每个时间点的数据周围都不存在与其相同情况的数据,因此这些数据被判定为噪声数据;
2)在时间点418周围存在时间点419~441与其同为固定值,因此418~441处数据被判定为缺失值;
3)在时间点843处周围数据呈现某一变化趋势,因此844~900处数据被判定为真正有用的异常值。
在实际运行情况中,锅炉汽包水位异常状态数据归一化处理后如图6所示。
通过与真实数据相对照,AS-SDAE模型对三种不同类型的异常数据的判别率几乎高达100%。为了进一步验证模型的可靠性,分别用五种不同的模型对汽包水位的异常状态数据进行训练试验,每种模型对三种类型的异常数据判别准确率如表2所示。
表2 五种模型测试结果
测试结果表明,在识别缺失值上五种模型都可以做到百分百准确,但AS-SDAE模型较其他几种模型在识别噪声点和异常值方面均有较为明显的优势。
为了更加有效地分析设备运行状况,必须修补处理“脏数据”。修补原则在于仅对气泡异常状态数据的噪声点和缺失值实施修复,保留体现设备故障的真实异常数据。五种模型修补异常数据的效果如图7所示。
数据修补实验表明,AS-SDAE模型修复完的数据是遵循数据整体分布规律的,且几乎保留了所有真正有用的异常数据,满足数据清洗的要求。然而,其余四种模型只修补了部分平稳趋势的数据,对非平稳趋势的数据修复效果极差,在修补过程中还将有用的异常数据误判为“脏数据”处理。
另外,训练样本所耗费的时间也是衡量模型可靠性和有效性的一个关键指标。分别用不同的模型对锅炉汽包水位、蒸汽压力和温度的异常状态数据进行训练试验,对每种模型的单个样本消耗时间进行对比,具体统计结果如表3所示。本实施例实验使用的计算机操作系统为Win7,内存为6GB,主频率为2.30GHz。
表3 每个样本耗费时间(s)
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (4)

1.一种改进的堆栈降噪自编码器的数据清洗方法,其特征在于:首先,引入Adam和SGD的混合算法,以不断调整堆栈降噪自编码器模型的网络参数;其次,利用模型训练正常状态数据,获取数据的隐藏特征,得到正常状态下的重构误差;再次,用该模型检测异常状态数据,根据其重构误差分析各种类型的数据对模型的影响,并对“脏数据”和反映设备故障的异常数据快速分类清洗修复。
2.如权利要求1所述的一种改进的堆栈降噪自编码器的数据清洗方法,其特征在于:具体包括如下步骤:
步骤1:在堆栈降噪自编码器模型训练前期先用Adam算法快速下降到平稳趋势,然后在某一轮训练后自动转化成SGD算法进行充分调优,以不断调整堆栈降噪自编码器模型的网络参数;
步骤2:从各个传感器采集设备历史监测数据;
步骤3:将历史监测数据分为正常状态数据和异常状态数据;
步骤4:把正常状态数据作为输入向量,进行AS-SDAE模型的训练,选取所有参数最优值,保证特征向量与输入向量之间的重构误差足够小,并确定重构误差cost;
步骤5:用步骤4中的AS-SDAE模型训练异常状态数据,比较每点重构误差cost'与cost,确定数据类型:
1)若cost'=cost,则判断该数据为正常值;
2)若cost'≠cost且该点周围不存在此类相同情况,则判断该数据为噪声数据;
3)若cost'≠cost且该点周围存在某一段数据与其同为某一固定值,则判断该数据为缺失值数据;
4)若cost'≠cost且该点周围数据存在类似变化趋势,则判断该数据为真正有用的异常值;
步骤6:利用AS-SDAE模型提取数据特征的特点对噪声点和缺失值自动修补。
3.如权利要求1所述的一种改进的堆栈降噪自编码器的数据清洗方法,其特征在于:使用Adam的移动平均值当作转换成SGD后学习率的估计值,计算公式如下:
式中:λ t 为Adam的移动平均值,β 2 为控制二阶矩估计的超参数,α为学习率。
4.如权利要求1所述的一种改进的堆栈降噪自编码器的数据清洗方法,其特征在于:所述步骤1具体包括如下步骤:
定义:待优化参数a,初始学习率α,迭代训练次数ω,目标函数q(a),目标函数梯度g a ,梯度k a ,一阶矩估计m a ,二阶矩估计n a m a 的校正m a ' n a 的校正n a ' ,步长ε,下降梯度∆θ a ,超参数β 1 β 2
S1:根据下式计算参数a的目标函数梯度:
S2:根据下式计算Adam算法中参数的一阶矩估计和二阶矩估计:
S3:根据下式计算出当前时刻的下降梯度:
,
S4:根据下式计算转换成SGD算法的学习率估计值λ a
S5:当λ a 的指数平均值和学习率的差小于步长时优化算法转用SGD:
S6:计算从第i时刻转用SGD算法优化后的下降梯度:
CN201910285971.8A 2019-04-10 2019-04-10 一种改进的堆栈降噪自编码器的数据清洗方法 Pending CN109978079A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910285971.8A CN109978079A (zh) 2019-04-10 2019-04-10 一种改进的堆栈降噪自编码器的数据清洗方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910285971.8A CN109978079A (zh) 2019-04-10 2019-04-10 一种改进的堆栈降噪自编码器的数据清洗方法

Publications (1)

Publication Number Publication Date
CN109978079A true CN109978079A (zh) 2019-07-05

Family

ID=67083999

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910285971.8A Pending CN109978079A (zh) 2019-04-10 2019-04-10 一种改进的堆栈降噪自编码器的数据清洗方法

Country Status (1)

Country Link
CN (1) CN109978079A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766056A (zh) * 2019-09-27 2020-02-07 中山大学 一种融合图像生成和多标签分类的异常图像检测方法
CN110866604A (zh) * 2019-10-28 2020-03-06 国网河北省电力有限公司电力科学研究院 一种电力变压器状态监测数据的清洗方法
CN111046080A (zh) * 2019-12-05 2020-04-21 武汉理工大学 一种基于卷积去噪自编码器的碳纤维原丝监测数据预处理方法
CN111122160A (zh) * 2019-09-25 2020-05-08 江苏省水文水资源勘测局 一种基于堆栈降噪自编码器的异常信号检测方法
CN111324600A (zh) * 2020-02-04 2020-06-23 杭州电子科技大学 数据清洗方法及装置
CN111930926A (zh) * 2020-08-05 2020-11-13 南宁师范大学 结合评论文本挖掘的个性化推荐算法
CN112215054A (zh) * 2020-07-27 2021-01-12 西北工业大学 一种用于水声信号去噪的深度生成对抗方法
CN112541874A (zh) * 2020-12-11 2021-03-23 福州大学 基于自编码器的无监督去噪特征学习方法
CN112699921A (zh) * 2020-12-16 2021-04-23 重庆邮电大学 一种基于堆栈降噪自编码的电网暂态故障数据聚类清洗方法
WO2021103675A1 (zh) * 2019-11-29 2021-06-03 百果园技术(新加坡)有限公司 神经网络的训练及人脸检测方法、装置、设备和存储介质
CN112904810A (zh) * 2021-01-13 2021-06-04 中南大学 基于有效特征选择的流程工业非线性过程监测方法
CN113049035A (zh) * 2021-03-12 2021-06-29 辽宁工程技术大学 一种基于物联网的变压器状态监测系统
CN113505850A (zh) * 2021-07-27 2021-10-15 西安热工研究院有限公司 基于深度学习的锅炉故障预测方法
CN116681356A (zh) * 2023-07-28 2023-09-01 华能济南黄台发电有限公司 一种电厂设备状态资料库系统处理数据的方法
US11948064B2 (en) 2021-12-08 2024-04-02 Visa International Service Association System, method, and computer program product for cleaning noisy data from unlabeled datasets using autoencoders

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107241106A (zh) * 2017-05-24 2017-10-10 东南大学 基于深度学习的极化码译码算法
CN109101986A (zh) * 2018-06-07 2018-12-28 国网山东省电力公司青岛供电公司 基于栈式降噪自编码器的输变电设备状态异常检测方法和系统
US20190098034A1 (en) * 2017-09-27 2019-03-28 Panasonic Intellectual Property Management Co., Ltd. Anomaly detection method and recording medium

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107241106A (zh) * 2017-05-24 2017-10-10 东南大学 基于深度学习的极化码译码算法
US20190098034A1 (en) * 2017-09-27 2019-03-28 Panasonic Intellectual Property Management Co., Ltd. Anomaly detection method and recording medium
CN109101986A (zh) * 2018-06-07 2018-12-28 国网山东省电力公司青岛供电公司 基于栈式降噪自编码器的输变电设备状态异常检测方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NITISH SHIRISH KESKAR ET AL.: "Improving Generalization Performance by Switching from Adam to SGD", 《ARXIV:1712.07628V1》 *
代杰杰 等: "基于栈式降噪自编码器的输变电设备状态数据清洗方法", 《电力系统自动化》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111122160A (zh) * 2019-09-25 2020-05-08 江苏省水文水资源勘测局 一种基于堆栈降噪自编码器的异常信号检测方法
CN111122160B (zh) * 2019-09-25 2022-01-04 江苏省水文水资源勘测局 一种基于堆栈降噪自编码器的异常信号检测方法
CN110766056A (zh) * 2019-09-27 2020-02-07 中山大学 一种融合图像生成和多标签分类的异常图像检测方法
CN110866604A (zh) * 2019-10-28 2020-03-06 国网河北省电力有限公司电力科学研究院 一种电力变压器状态监测数据的清洗方法
WO2021103675A1 (zh) * 2019-11-29 2021-06-03 百果园技术(新加坡)有限公司 神经网络的训练及人脸检测方法、装置、设备和存储介质
CN111046080A (zh) * 2019-12-05 2020-04-21 武汉理工大学 一种基于卷积去噪自编码器的碳纤维原丝监测数据预处理方法
CN111324600A (zh) * 2020-02-04 2020-06-23 杭州电子科技大学 数据清洗方法及装置
CN112215054A (zh) * 2020-07-27 2021-01-12 西北工业大学 一种用于水声信号去噪的深度生成对抗方法
CN112215054B (zh) * 2020-07-27 2022-06-28 西北工业大学 一种用于水声信号去噪的深度生成对抗方法
CN111930926A (zh) * 2020-08-05 2020-11-13 南宁师范大学 结合评论文本挖掘的个性化推荐算法
CN111930926B (zh) * 2020-08-05 2023-08-29 南宁师范大学 结合评论文本挖掘的个性化推荐算法
CN112541874A (zh) * 2020-12-11 2021-03-23 福州大学 基于自编码器的无监督去噪特征学习方法
CN112699921A (zh) * 2020-12-16 2021-04-23 重庆邮电大学 一种基于堆栈降噪自编码的电网暂态故障数据聚类清洗方法
CN112699921B (zh) * 2020-12-16 2022-07-15 重庆邮电大学 一种基于堆栈降噪自编码的电网暂态故障数据聚类清洗方法
CN112904810A (zh) * 2021-01-13 2021-06-04 中南大学 基于有效特征选择的流程工业非线性过程监测方法
CN112904810B (zh) * 2021-01-13 2022-07-01 中南大学 基于有效特征选择的流程工业非线性过程监测方法
CN113049035A (zh) * 2021-03-12 2021-06-29 辽宁工程技术大学 一种基于物联网的变压器状态监测系统
CN113049035B (zh) * 2021-03-12 2022-05-27 辽宁工程技术大学 一种基于物联网的变压器状态监测系统
CN113505850A (zh) * 2021-07-27 2021-10-15 西安热工研究院有限公司 基于深度学习的锅炉故障预测方法
US11948064B2 (en) 2021-12-08 2024-04-02 Visa International Service Association System, method, and computer program product for cleaning noisy data from unlabeled datasets using autoencoders
CN116681356A (zh) * 2023-07-28 2023-09-01 华能济南黄台发电有限公司 一种电厂设备状态资料库系统处理数据的方法

Similar Documents

Publication Publication Date Title
CN109978079A (zh) 一种改进的堆栈降噪自编码器的数据清洗方法
Li et al. A novel deep autoencoder and hyperparametric adaptive learning for imbalance intelligent fault diagnosis of rotating machinery
CN110542819B (zh) 一种基于半监督dbnc的变压器故障类型诊断方法
CN110929847A (zh) 一种基于深度卷积神经网络的换流变压器故障诊断方法
Sun et al. Stacked denoising autoencoder with density-grid based clustering method for detecting outlier of wind turbine components
CN114492675B (zh) 一种电容式电压互感器故障原因智能诊断方法
CN111259953B (zh) 一种基于电容型设备缺陷数据的设备缺陷时间预测方法
CN115563563A (zh) 基于变压器油色谱分析的故障诊断方法及装置
CN113191429A (zh) 一种电力变压器套管故障诊断方法及装置
CN115906949B (zh) 一种石油管道故障诊断方法及系统、存储介质和石油管道故障诊断设备
CN116842337A (zh) 基于LightGBM优选特征与COA-CNN模型的变压器故障诊断方法
CN116520799A (zh) 基于时空变分图注意力自编码器的复杂工业过程故障检测方法
Yang et al. A Fault Identification Method for Electric Submersible Pumps Based on DAE‐SVM
CN116821610B (zh) 一种利用大数据优化风力发电效率的方法
CN111487563B (zh) 基于遗传算法及属性支持度的变压器状态知识获取方法及设备
CN116664098A (zh) 一种光伏电站的异常检测方法及系统
CN116225752A (zh) 基于故障模式库的微服务系统故障根因分析方法及系统
CN116400168A (zh) 一种基于深度特征聚类的电网故障诊断方法及系统
Wang et al. Match-reinforcement learning with time frequency selection for bearing fault diagnosis
CN114565051A (zh) 基于神经元影响程度的产品分类模型的测试方法
Aihong et al. Notice of Retraction: Fault diagnosis based on adaptive genetic algorithm and BP neural network
CN113191556A (zh) 一种核电Loca事件故障预测与诊断方法
Shen et al. Time series data augmentation classifier for industrial process imbalanced fault diagnosis
Li et al. Bearing fault diagnosis under different operating conditions based on source domain multi sample joint distribution adaptation
Qiao et al. A Multihead Attention Self-Supervised Representation Model for Industrial Sensors Anomaly Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190705

RJ01 Rejection of invention patent application after publication