CN109978079A

CN109978079A - 一种改进的堆栈降噪自编码器的数据清洗方法

Info

Publication number: CN109978079A
Application number: CN201910285971.8A
Authority: CN
Inventors: 娄建楼; 李燕; 孙博; 曲朝阳; 王蕾; 郭晓利
Original assignee: Northeast Dianli University
Current assignee: Northeast Electric Power University
Priority date: 2019-04-10
Filing date: 2019-04-10
Publication date: 2019-07-05

Abstract

本发明公开了一种改进的堆栈降噪自编码器的数据清洗方法，首先，引入Adam和SGD的混合算法，以不断调整堆栈降噪自编码器模型的网络参数；其次，利用模型训练正常状态数据，获取数据的隐藏特征，得到正常状态下的重构误差；再次，用该模型检测异常状态数据，根据其重构误差分析各种类型的数据对模型的影响，并对“脏数据”和反映设备故障的异常数据快速分类清洗修复。本发明的AS‑SDAE可以直接智能分析监测数据，能更好地挖掘数据隐藏的高阶特征，保证了“脏数据”清洗的高效性，保留了反映设备本身异常情况的有用数据，提高了数据分析效率。

Description

一种改进的堆栈降噪自编码器的数据清洗方法

技术领域

本发明涉及数据处理领域，具体涉及一种改进的堆栈降噪自编码器的数据清洗方法。

背景技术

随着电力企业的发展，国民用电需求量越来越大，锅炉作为电能生产的主要设备之一，其状态监测数据在生产过程中呈级数增长，符合大数据的特性，蕴藏着丰富的资源价值，对这些数据的挖掘和分析，有助于了解电力系统的整体运行规律。然而，电厂运行工况复杂多样，锅炉在实际运作过程中受外界的各种干扰，如环境多变、传感器短时异常、数据传输链受阻等，导致监测数据中必然含有噪声数据和缺失数据，这些数据统称为“脏数据”。除此之外，当锅炉设备出现故障时同样会产生异常数据，此类数据包含着诊断设备运行状况的重要信息，能够反映出设备本身的异常情况，不能与“脏数据”同等处理。因此，在对设备进行状态评估前应清洗修补“脏数据”，筛选出表示设备故障的有效异常数据，为电厂设备的质量诊断提供有利保障。

国内外关于数据清洗的研究如文献[1-4]所示。文献[1]将设备监测数据等同于每个状态量的时间序列，使用迭代检验法辨别数据中的噪声点和缺失数据，并完成数据的校正。文献[2]结合关联规则、聚类算法和小波神经网络对监测数据中可清洗的传感器和设备异常数据分类检测和修正。文献[3]通过设备输出功率的条件概率分布构建一定置信度水平下的功率等效边界模型识别和删除异常数据。文献[4]用混合Cuckoo搜索优化和引力搜索算法检测大数据中的错误并修复数据。由于数据集体现出越来越强的设备综合特征表达能力，目前的数据清洗方法仅考虑局部状态量的异常特征，忽略了整体属性间的相关性，破坏了数据的连续性和完整性，不利于后续分析数据和评估设备运行状况。

若要有效地清洗“脏数据”，必须深度提取数据的特征表示。Hinton 等人已证实深层神经网络具备比浅层神经网络更快提取有效特征的能力。近年来，深度神经网络获得了学术界和工业界的广泛关注，在算法研究和应用方面不断取得进展。根据学习方式的不同，深度学习分为有监督学习和无监督学习。无监督的逐层训练可以提取神经网络有价值的特征，将网络权重初始化为最佳值，促使之后的监督训练快速完成。在无监督学习方法中，较著名的有受限波尔兹曼机(Restricted Boltzmann Machine,RBM)、自编码器(Auto-Encoder,AE)以及生成式对抗网络(Generative Adversarial Networks,GAN)。自编码器具有简单重建、堆叠多层、以神经科学为支撑等优点，具备强大的特征提取能力，可更好地解决分类评估的各种复杂问题，在多个研究领域取得了令人瞩目的成绩，其中应用成功的有状态评估、模式识别、数据生成等。

[1] Yan Yingjie, Shen Gehao, Chen Yufeng, et al. Cleaning method forbig data of power transmission and transformation equipment sata based ontime sequence analysis[J]. Automation of Electric Power Systems, 2015, 39(07): 138-144 (in Chinese)

(严英杰, 盛戈皞, 陈玉峰, 等. 基于时间序列分析的输变电设备状态大数据清洗方法[J]. 电力系统自动化, 2015, 39(07): 138-144)

[2] Lin Jun, Yan Yingjie, Shen Gehao, et al. Online monitoring datacleaning of transformer considering time series correlation[J]. Power SystemTechnology, 2017, 41(11): 3733-3740 (in Chinese)

(林峻, 严英杰, 盛戈皞, 等. 考虑时间序列关联的变压器在线监测数据清洗[J].电网技术, 2017, 41(11): 3733-3740)

[3] Hu Yang, Qiao Yilin, Wind power data cleaning method based onconfidence equivalent boundary model[J]. Automation of Electric PowerSystems. 2018, 42(15): 18-23+149 (in Chinese)

(胡阳, 乔依林. 基于置信等效边界模型的风功率数据清洗方法[J]. 电力系统自动化, 2018, 42(15): 18-23+149)

Satish K V R, Kavya N P. Hybrid Optimization in Big Data: Error Detectionand Data Repairing by Big Data Cleaning Using CSO-GSA[J]. 2017, 26(01): 442-450。

发明内容

为解决上述问题，本发明提供了一种改进的堆栈降噪自编码器的数据清洗方法，通过结合Adam和SGD优化算法调整模型参数，训练后的模型可直接提取数据的隐层特征，正确区分“脏数据”和反映设备故障的异常数据，进一步修复“脏数据”以满足数据整体分布趋势，实验结果表明，该方法的清洗修补实验效果优于其他模型，自动化程度高且具有良好的自适应性。

为实现上述目的，本发明采取的技术方案为：

一种改进的堆栈降噪自编码器的数据清洗方法，首先，引入Adam和SGD的混合算法,以不断调整堆栈降噪自编码器模型的网络参数；其次，利用模型训练正常状态数据，获取数据的隐藏特征，得到正常状态下的重构误差；再次，用该模型检测异常状态数据，根据其重构误差分析各种类型的数据对模型的影响，并对“脏数据”和反映设备故障的异常数据快速分类清洗修复。具体包括如下步骤：

步骤1：在堆栈降噪自编码器模型训练前期先用Adam算法快速下降到平稳趋势，然后在某一轮训练后自动转化成SGD算法进行充分调优，以不断调整堆栈降噪自编码器模型的网络参数；

步骤2：从各个传感器采集设备历史监测数据；

步骤3：将历史监测数据分为正常状态数据和异常状态数据；

步骤4：把正常状态数据作为输入向量，进行AS-SDAE模型的训练，选取所有参数最优值，保证特征向量与输入向量之间的重构误差足够小，并确定重构误差cost；

步骤5：用步骤4中的AS-SDAE模型训练异常状态数据，比较每点重构误差cost'与cost，确定数据类型：

1)若cost'＝cost，则判断该数据为正常值；

2)若cost'≠cost且该点周围不存在此类相同情况，则判断该数据为噪声数据；

3)若cost'≠cost且该点周围存在某一段数据与其同为某一固定值，则判断该数据为缺失值数据；

4)若cost'≠cost且该点周围数据存在类似变化趋势，则判断该数据为真正有用的异常值；

步骤6：利用AS-SDAE模型提取数据特征的特点对噪声点和缺失值自动修补。

进一步地，使用Adam的移动平均值当作转换成SGD后学习率的估计值，计算公式如下：

式中：λ _t为Adam的移动平均值，β ₂为控制二阶矩估计的超参数，α为学习率。

如权利要求1所述的一种改进的堆栈降噪自编码器的数据清洗方法，其特征在于：所述步骤1具体包括如下步骤：

定义：待优化参数a，初始学习率α，迭代训练次数ω,目标函数q(a)，目标函数梯度g _a，梯度k _a，一阶矩估计m _a，二阶矩估计n _a，m _a的校正m _a ^'，n _a的校正n _a ^'，步长ε，下降梯度∆θ _a，超参数β ₁和β ₂；

S1：根据下式计算参数a的目标函数梯度：

S2：根据下式计算Adam算法中参数的一阶矩估计和二阶矩估计：

S3：根据下式计算出当前时刻的下降梯度：

,

S4：根据下式计算转换成SGD算法的学习率估计值λ _a：

S5：当λ _a的指数平均值和学习率的差小于步长时优化算法转用SGD：

S6：计算从第i时刻转用SGD算法优化后的下降梯度：

。

本发明具有以下有益效果：

1)AS-SDAE相对于浅层神经网络模型实现了特征提取和分类识别两大功能，可以直接智能分析监测数据。

2)AS-SDAE的深层网络结构能更好地挖掘数据隐藏的高阶特征，保证了“脏数据”清洗的高效性，保留了反映设备本身异常情况的有用数据。

3)AS-SDAE的数据修补是针对数据整体规律而言的，这样有助于后续数据挖掘工作的正常进行，提高数据分析效率。

4)AS-SDAE相较其它模型在样本训练上有明显的时间优势。

附图说明

图1为自动编码器结构图。

图2为SDAE结构图。

图3为数据清洗修补流程图。

图4为三种SDAE模型数据收敛图；

图中：(a) SDAE(Adam）；(b) SDAE(SGD）；(c) AS-SDAE。

图5为重构误差。

图6为汽包水位归一化数据。

图7为五种SDAE模型修补效果。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明，但不以任何形式限制本发明。应当指出的是，对本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进。这些都属于本发明的保护范围。

自编码器(Auto-Encoder,AE)是一种由一个输入层、一个隐藏层和一个输出层构成的对称神经网络，其组成结构如图1所示。AE的目的是使输出层的输出向量x ^'尽可能重构再现输入向量x.输入层的每一个向量x _i都来自训练集D=(x ₁，x ₂，…，x _n)，其中i和p分别为训练集D的第i个向量和维数。一般来说，基本的自编码器主要包括编码器和解码器，且结构是对称的，即存在多个隐藏层时，编码阶段的隐层数量与解码阶段相同。编码阶段为输入层到隐藏层的过程，解码阶段为隐藏层到输出层的过程。AE的编码和解码阶段分别描述为：

式中：W和b表示编码阶段的权重和偏置系数，W'和b'表示解码阶段的权重和偏置系数，f和g分别为编码和解码阶段的神经元激活函数。

本发明的激活函数选用“Sigmoid”函数，它能将各个向量映射到(0，1）区间，适合应用在向量特征相差较复杂的场景中，即：

式中：a为各个神经元相应的输入向量.

在AE中，输入向量x通过编码器被压缩为低维的特征向量输出，再经解码器重构为输出向量x ^'，当x ^'和x的重构误差足够小时，得到的x ^'即为x的隐层特征表示，重构误差公式如下：

堆栈降噪自编码器

在DAE中，经过一个随机映射对初始输入的纯净向量x增添噪声，产生一个有部分损坏的向量y。DAE的编码和解码阶段可描述为：

式中：y表示x添加噪声的向量，W和b表示编码阶段的权重和偏置系数，W'和b'表示解码阶段的权重和偏置系数，f和g分别为编码和解码阶段的神经元激活函数；

堆栈降噪自编码器 (Stacked Denoising Auto-Encoders,SDAE)是由多个DAE堆叠而成的深层神经网络，模型上一隐藏层的输出向量即为下一层的输入向量，其结构如图2所示，通过DAE的逐层训练能获得更高级更有价值的特征表示。

在SDAE中，对输入的纯净向量x添加噪声，进入第一个DAE单元进行训练，用无监督学习的预训练初始化模型，得到向量的隐层特征表示，至此完成第一个DAE的训练；然后以第一个DAE的输出向量当做第二个DAE的输入向量，并按照同样的方式训练第二个DAE单元；重复上述训练过程，直到训练完所有的DAE单元；最后再用监督训练微调整个网络的参数，最后一个DAE单元的输出即为初始向量x隐含的特征表示。

基于Adam和SGD混合算法的SDAE模型

随机梯度下降(Stochastic Gradient Descent,SGD)是深度学习中普遍使用的一种网络参数优化算法，在更新参数时每次只在数据集中选取一个数据进行精准计算，大大加快了迭代速度，在多个调参实验中都取得了不错的成效，公式如下：

式中：α为学习率，g _t为梯度，∆θ _t为下降方向。

自适应性矩估计(Adaptive Moment Estimation,Adam)是深度学习中优化随机目标函数的一种算法，经过计算梯度的一阶矩估计和二阶矩估计为每个参数获得合适的学习率，有利于提高收敛速度，加快计算效率，减少内存需求，非常适合在含大规模数据或参数的数据集中以满足调优要求，公式如下：

式中：k _t为梯度，m _t和n _t分别为梯度的带权平均和带权有偏方差，m _t ^'和n _t ^'为对m _t和n _t的校正，β ₁和β ₂分别为控制一阶矩估计和二阶矩估计的超参数，ε为步长，∆θ ^' _t为下降方向。

根据Adam和SGD优化算法的优缺点，将两者混合应用到SDAE模型中，构建AS-SDAE模型；在模型训练前期先用Adam算法快速下降到平稳趋势，然后在某一轮训练后自动转化成SGD算法进行充分调优，其中，使用Adam的移动平均值当作转换成SGD后学习率的估计值，计算公式如下：

AS-SDAE模型优化算法步骤：

步骤1：根据公式(7)计算参数a的目标函数梯度：

步骤2：根据公式(9) (10)计算Adam算法中参数的一阶矩估计和二阶矩估计：

步骤3：根据公式(13)计算出当前时刻的下降梯度：

步骤4：根据公式(14)计算转换成SGD算法的学习率估计值λ _a：

步骤5：当λ _a的指数平均值和学习率的差小于步长时优化算法转用SGD：

步骤6：计算从第i时刻转用SGD算法优化后的下降梯度：

本发明提供了一种基于上述改进的堆栈降噪自编码器的数据清洗方法，如图3所示，包括如下步骤：

步骤1：从各个传感器采集设备历史监测数据；

步骤2：将历史监测数据分为正常状态数据和异常状态数据；

步骤3：把正常状态数据作为输入向量，进行AS-SDAE模型的训练，选取所有参数最优值，如参数θ、隐含层数、学习率等来保证特征向量与输入向量之间的重构误差足够小，并确定重构误差cost；

步骤4：用步骤3中的AS-SDAE模型训练异常状态数据，比较每点重构误差cost'与cost，确定数据类型：

1)若cost'＝cost，则判断该数据为正常值；

步骤5：利用AS-SDAE模型提取数据特征的特点对噪声点和缺失值自动修补。

实施例

以某火电厂1台330MW锅炉为例，选取其2016年6月至8月的900组锅炉的汽包水位、蒸汽压力和温度在线监测数据的正常状态数据作为训练样本，同时选取2016年10月至12月的900组相同状态量的异常状态数据作为测试样本，并将实验结果与该锅炉实际运行情况相比较来验证模型的有效性。

用正常状态数据训练构造AS-SDAE模型，得到模型的最佳网络参数，其中输入层节点数为272，3个隐藏层，节点数设为200、100、2，训练轮数为2500，数据添加噪声比例为20%，学习率为0.01。图4和表1分别为SDAE(Adam）、SDAE(SGD）和AS-SDAE模型收敛情况的对比图和数值统计表。

表1 三种模型收敛情况

图4和表1所示的实验结果表明，在趋于稳定方面，使用Adam算法优化的模型下降速度比使用SGD算法优化的模型有更明显的优势；在精准调参方面，使用SGD算法优化的模型运算速度远快于使用Adam算法优化的模型。相较两者而言，使用Adam和SGD混合算法优化的模型(AS-SDAE)在趋于稳定和精准调参方面都具有更好的实验效果，且其重构误差也远远小于前两者。

以锅炉汽包水位监测数据经过AS-SDAE模型分析后的结果进一步验证该模型的准确性和高效性。汽包水位异常状态数据经AS-SDAE模型训练后，得到900组数据的重构误差，其分布情况如图5所示。

根据3中的实验步骤分析可得：

1)在时间点48、93、224、388、509、589、670、710处每个时间点的数据周围都不存在与其相同情况的数据，因此这些数据被判定为噪声数据；

2)在时间点418周围存在时间点419~441与其同为固定值，因此418~441处数据被判定为缺失值；

3)在时间点843处周围数据呈现某一变化趋势，因此844~900处数据被判定为真正有用的异常值。

在实际运行情况中，锅炉汽包水位异常状态数据归一化处理后如图6所示。

通过与真实数据相对照，AS-SDAE模型对三种不同类型的异常数据的判别率几乎高达100%。为了进一步验证模型的可靠性，分别用五种不同的模型对汽包水位的异常状态数据进行训练试验，每种模型对三种类型的异常数据判别准确率如表2所示。

表2 五种模型测试结果

测试结果表明，在识别缺失值上五种模型都可以做到百分百准确，但AS-SDAE模型较其他几种模型在识别噪声点和异常值方面均有较为明显的优势。

为了更加有效地分析设备运行状况，必须修补处理“脏数据”。修补原则在于仅对气泡异常状态数据的噪声点和缺失值实施修复，保留体现设备故障的真实异常数据。五种模型修补异常数据的效果如图7所示。

数据修补实验表明，AS-SDAE模型修复完的数据是遵循数据整体分布规律的，且几乎保留了所有真正有用的异常数据，满足数据清洗的要求。然而，其余四种模型只修补了部分平稳趋势的数据，对非平稳趋势的数据修复效果极差，在修补过程中还将有用的异常数据误判为“脏数据”处理。

另外,训练样本所耗费的时间也是衡量模型可靠性和有效性的一个关键指标。分别用不同的模型对锅炉汽包水位、蒸汽压力和温度的异常状态数据进行训练试验，对每种模型的单个样本消耗时间进行对比，具体统计结果如表3所示。本实施例实验使用的计算机操作系统为Win7，内存为6GB，主频率为2.30GHz。

表3 每个样本耗费时间(s)

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变化或修改，这并不影响本发明的实质内容。在不冲突的情况下，本申请的实施例和实施例中的特征可以任意相互组合。

Claims

1.一种改进的堆栈降噪自编码器的数据清洗方法，其特征在于：首先，引入Adam和SGD的混合算法，以不断调整堆栈降噪自编码器模型的网络参数；其次，利用模型训练正常状态数据，获取数据的隐藏特征，得到正常状态下的重构误差；再次，用该模型检测异常状态数据，根据其重构误差分析各种类型的数据对模型的影响，并对“脏数据”和反映设备故障的异常数据快速分类清洗修复。

2.如权利要求1所述的一种改进的堆栈降噪自编码器的数据清洗方法，其特征在于：具体包括如下步骤：

步骤2：从各个传感器采集设备历史监测数据；

步骤3：将历史监测数据分为正常状态数据和异常状态数据；

1)若cost'＝cost，则判断该数据为正常值；

3.如权利要求1所述的一种改进的堆栈降噪自编码器的数据清洗方法，其特征在于：使用Adam的移动平均值当作转换成SGD后学习率的估计值，计算公式如下：

4.如权利要求1所述的一种改进的堆栈降噪自编码器的数据清洗方法，其特征在于：所述步骤1具体包括如下步骤：

S1：根据下式计算参数a的目标函数梯度：

S3：根据下式计算出当前时刻的下降梯度：

,

S4：根据下式计算转换成SGD算法的学习率估计值λ _a：

S6：计算从第i时刻转用SGD算法优化后的下降梯度：

。