CN109815223B

CN109815223B - 一种针对工业监测数据缺失的补全方法及补全装置

Info

Publication number: CN109815223B
Application number: CN201910055378.4A
Authority: CN
Inventors: 班晓娟; 刘婷; 袁兆麟; 王贻明; 王青海; 赵占斌
Original assignee: JCHX MINING MANAGEMENT CO Ltd; University of Science and Technology Beijing USTB
Current assignee: JCHX MINING MANAGEMENT CO Ltd; University of Science and Technology Beijing USTB
Priority date: 2019-01-21
Filing date: 2019-01-21
Publication date: 2020-09-25
Anticipated expiration: 2039-01-21
Also published as: CN109815223A

Abstract

本发明提供一种针对工业监测数据缺失的补全方法及补全装置，能够提高数据补缺效果。所述方法包括：获取原始数据集，其中，所述原始数据集为缺失类型为完全随机缺失的原始工业监测数据集；根据获取的原始数据集，构建自动编码机；其中，在构建自动编码机时，在输入的原始数据中加入噪声再训练自动编码机，训练好的自动编码机，用于实现原始数据中特征向量的升维和降维；根据获取的原始数据集，建立生成式模型；将构建好的自动编码机和生成式模型进行结合，利用原始数据集对结合后的模型进行优化训练，获得与原始数据特征分布相似的生成数据。本发明涉及工业生产和数据挖掘领域。

Description

一种针对工业监测数据缺失的补全方法及补全装置

技术领域

本发明涉及工业生产和数据挖掘领域，特别是指一种针对工业监测数据缺失的补全方法及补全装置。

背景技术

在工业领域，数据的价值越来越被人们所重视，通常采用机器学习和数据挖掘手段从数据中获取规律和信息。数据挖掘工程能否成功的核心因素是数据集的质量，如果数据集质量差或与所研究问题相关性不强，即使特征选择和模型建立的方法再先进也无法取得符合预期的成果。

数据缺失是工业监测数据经常面临的问题，出现缺失的主要原因可以包括：

(a)仪器工作状态不稳定：现场环境因素或人为原因导致某些仪表在某些时间段内没有正常工作，从而造成数据缺失；

(b)分布式控制系统(Distributed Control System，DCS)的原因：由于网络中断、操作员站系统宕机、软件故障等原因，导致现场监测数据没有录入到DCS系统或数据库；

(c)异常监测数据：生产过程中，由于传感器精准度、生产异常波动等原因，常常存在异常监测数据，此类“坏数据”与实际生产状况不符，需要剔除，而剔除的过程相当于引入了数据缺失。

数据缺失使得获得的数据不能够代表样本空间的整体分布，给后续数据分析工作带来很大的阻碍。数据缺失处理即为针对有缺失的数据集，根据其数据特点进行处理，达到补充数据集缺失信息的目标，是解决数据缺失问题，提高数据集质量的核心方法，一般的缺失处理手段有填补法、删除法和不做处理。本文主要研究的缺失处理手段为填补法。

数据缺失的机制主要有三类：随机缺失，完全随机缺失和非随机缺失。随机缺失指的是数据的缺失不是完全随机的，即该类数据的缺失依赖于其他完全变量；完全随机缺失指的是数据的缺失是完全随机的，不依赖与任何不完全变量或完全变量，不影响数据集整体的无偏性。

随机缺失和完全随机缺失可以通过统计学方法对数据集进行处理从而对缺失值进行估计，在缺失率较低的情况下能够较好的完成数据集的缺失补全。但是当数据集的缺失率达到30％以上时，现有的数据集无法视作完整数据集的随机样本，由于该类缺失存在的与变量完全不相关的特点，使得现有的基于统计原理的补缺方法难以取得较好的结果，反而为数据集引入了噪声，降低了数据集的质量。因此，现有技术中，针对完全随机缺失大多采用在数据预处理阶段不处理，而依赖能够忽视缺失的机器学习建模方法，例如贝叶斯网络和人工神经网络等。但是如上文所述，当数据缺失率较高时，机器学习算法也无法很好地完成数据挖掘任务。并且目前完全随机缺失机制在实际低维离散数据集中广泛存在，例如测量设备故障、不正确的数据迁移等行为均会引起数据集的完全随机缺失，这使得这些数据在应用中只能采取列删除法，将存在缺失值的数据记录删除，大大减少了数据的价值。

发明内容

本发明要解决的技术问题是提供一种针对工业监测数据缺失的补全方法及补全装置，以解决现有技术所存在的针对高缺失率的低维离散完全随机缺失类型数据集补缺效果差的问题。

为解决上述技术问题，本发明实施例提供一种针对工业监测数据缺失的补全方法，包括：

获取原始数据集，其中，所述原始数据集为缺失类型为完全随机缺失的原始工业监测数据集；

根据获取的原始数据集，构建自动编码机；其中，在构建自动编码机时，在输入的原始数据中加入噪声再训练自动编码机，训练好的自动编码机，用于实现原始数据中特征向量的升维和降维；

根据获取的原始数据集，建立生成式模型；

将构建好的自动编码机和生成式模型进行结合，利用原始数据集对结合后的模型进行优化训练，获得与原始数据特征分布相似的生成数据。

进一步地，所述获取原始数据集包括：

获取工业监测实际数据集，其中，所述工业监测实际数据集的维度为低维，低维指工业监测实际数据集中的特征数量小于预设的维度阈值；

对所述工业监测实际数据集中的数据随机制造缺失，得到低维离散的缺失率为第一预设值的完全随机缺失类型的原始数据集。

进一步地，所述自动编码机包括：编码器和解码器；

所述根据获取的原始数据集，构建自动编码机包括：

在原始数据集中加入预设比例的噪声；

构建编码器和解码器；其中，所述编码器，用于使用多层神经网络对加入噪声后的数据进行特征提取形成高维特征向量；所述解码器，用于通过逆向变化将高维特征向量还原成原始维度的数据；

将解码后的数据与原始数据之间的平方误差作为目标函数来训练所述自动编码机，使得平方误差小于第二预设值。

进一步地，加入噪声后的数据表示为：

x′＝x+ε，ε～N(u，σ²)

其中，x′为加入噪声后的数据，x为原始数据，ε表示要添加的噪声，ε表示服从均值为u、方差为σ²的高斯分布。

进一步地，编码器的输出结果表示为：

y＝s(Wx′+b)

其中，y表示编码器的输出结果；s表示非线性激活函数；W表示在编码器中，网络训练得到的权值矩阵；b为编码器网络中的偏移量；

解码器的输出结果表示为：

z＝s(W′y+b′)

其中，z表示解码器的输出结果；W′表示解码器网络的权值矩阵；b′表示解码器网络中的偏移量。

进一步地，所述根据获取的原始数据集，建立生成式模型包括：

构建生成器和鉴别器，其中，生成器和鉴别器均为多种激活函数组成的深层神经网络结构；

对所述生成器和鉴别器进行训练，直到鉴别器的损失函数收敛到第三预设值。

进一步地，所述将构建好的自动编码机和生成式模型进行结合，利用原始数据集对结合后的模型进行优化训练，获得与原始数据特征分布相似的生成数据包括：

将构建好的自动编码机和生成式模型进行结合，对原始数据加入噪声，将加入噪声后的数据输入到编码器中，由编码器使用多层神经网络对加入噪声后的数据进行特征向量的升维；

将升维得到的高维特征向量送入生成式模型中，对所述自动编码机和生成式模型进行优化训练，优化训练完成后，所述生成式模型生成指定数量的高维特征向量；

通过解码器对生成式模型生成的高维特征向量进行解码，获得与原始数据特征分布相似的生成数据。

进一步地，所述将升维得到的高维特征向量送入生成式模型中，对所述自动编码机和生成式模型进行优化训练，优化训练完成后，所述生成式模型生成指定数量的高维特征向量包括：

将升维得到的高维特征向量送入生成式模型中，采用Adam优化器作为生成式模型中生成器和鉴别器的优化器，调整自动编码机和生成式模型结合后的网络结构与网络参数，使得鉴别器的损失函数收敛到第三预设值，实现自动编码机和生成式模型的初步优化；

初步优化后，判断所述生成式模型生成数据的统计特性是否与原始数据的统计特性一致；

若不一致，则继续调整自动编码机和生成式模型结合后的网络结构与网络参数；

若一致，则利用所述生成式模型生成指定数量的高维特征向量。

进一步地，所述鉴别器的损失函数为：-((1-y)log(1-D(G(z)))+ylogD(x))；

其中，y表示升维得到的高维特征向量；x表示鉴别器的输入数据，为原始数据；D(x)为鉴别器的输出，表示输入x为真实数据的概率；z表示生成器接收的一个随机噪声；G(z)表示生成器的输出；D(G(z))表示鉴别器判断生成器生成的数据是否为真实的概率。

本发明实施例还提供一种针对工业监测数据缺失的补全装置，其特征在于，包括：

获取模块，用于获取原始数据集，其中，所述原始数据集为缺失类型为完全随机缺失的原始工业监测数据集；

构建模块，用于根据获取的原始数据集，构建自动编码机；其中，在构建自动编码机时，在输入的原始数据中加入噪声再训练自动编码机，训练好的自动编码机，用于实现原始数据中特征向量的升维和降维；

建立模块，用于根据获取的原始数据集，建立生成式模型；

生成模块，用于将构建好的自动编码机和生成式模型进行结合，利用原始数据集对结合后的模型进行优化训练，获得与原始数据特征分布相似的生成数据。

本发明的上述技术方案的有益效果如下：

上述方案中，获取原始数据集；根据获取的原始数据集，构建自动编码机；其中，在构建自动编码机时，在输入的原始数据中加入噪声再训练自动编码机，训练好的自动编码机，用于实现原始数据中特征向量的升维和降维；根据获取的原始数据集，建立生成式模型；将构建好的自动编码机和生成式模型进行结合，利用原始数据集对结合后的模型进行优化训练，获得与原始数据特征分布相似的生成数据。所述补全方法能够处理完全随机缺失类型数据集、低维高缺失率数据集、低维高缺失率的完全随机缺失类型数据集，并生成与原始数据特征分布相似的数据，解决了现有技术中针对高缺失率的低维离散完全随机缺失类型数据集补缺效果差的问题；同时由于在构建自动编码机时，在输入的原始数据中加入噪声，能够减小缺失带来的噪声，提高进一步填补的准确性。

附图说明

图1为本发明实施例提供的针对工业监测数据缺失的补全方法的流程示意图；

图2为本发明实施例提供的针对工业监测数据缺失的补全方法的原理示意图；

图3为本发明实施例提供的自动编码机的结构示意图；

图4为本发明实施例提供的自动编码机和生成对抗网络结合后的框架示意图；

图5为本发明实施例提供的箱型图；

图6为本发明实施例提供的原始数据与生成数据的箱型图对比示意图一；

图7为本发明实施例提供的原始数据与生成数据的箱型图对比示意图二；

图8为本发明实施例提供的不同缺失率下各种方法的处理效果示意图；

图9为本发明实施例提供的80％缺失率的情况下均值填充处理后的数据箱型图以及DAE+GAN处理后的数据的箱型图；

图10为本发明实施例提供的针对工业监测数据缺失的补全装置的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明针对现有的针对高缺失率的低维离散完全随机缺失类型数据集补缺效果差的问题，提供一种针对工业监测数据缺失的补全方法及补全装置。

实施例一

如图1和图2所示，本发明实施例提供的针对工业监测数据缺失的补全方法，包括：

步骤1，获取原始数据集，其中，所述原始数据集为缺失类型为完全随机缺失的原始工业监测数据集；

步骤2，根据获取的原始数据集，构建自动编码机；其中，在构建自动编码机时，在输入的原始数据中加入噪声再训练自动编码机，训练好的自动编码机，用于实现原始数据中特征向量的升维和降维；

步骤3，根据获取的原始数据集，建立生成式模型；

步骤4，将构建好的自动编码机和生成式模型进行结合，利用原始数据集对结合后的模型进行优化训练，获得与原始数据特征分布相似的生成数据。

本发明实施例所述的针对工业监测数据缺失的补全方法，获取原始数据集；根据获取的原始数据集，构建自动编码机；其中，在构建自动编码机时，在输入的原始数据中加入噪声再训练自动编码机，训练好的自动编码机，用于实现原始数据中特征向量的升维和降维；根据获取的原始数据集，建立生成式模型；将构建好的自动编码机和生成式模型进行结合，利用原始数据集对结合后的模型进行优化训练，获得与原始数据特征分布相似的生成数据。所述补全方法能够处理完全随机缺失类型数据集、低维高缺失率数据集、低维高缺失率的完全随机缺失类型数据集，并生成与原始数据特征分布相似的数据，解决了现有技术中针对高缺失率的低维离散完全随机缺失类型数据集补缺效果差的问题；同时由于在构建自动编码机时，在输入的原始数据中加入噪声，能够减小缺失带来的噪声，提高进一步填补的准确性。

本实施例中，高缺失率是指数据的缺失率超过预设的缺失阈值。

本实施例中，生成式模型是机器学习方法中的重要组成部分，针对数据量缺乏的场景，通过训练生成式模型生成数据来帮助数据挖掘工作的开展。当生成式模型训练完成后，可以认为真实样本和生成器生成的样本基本一致，便可获得一个能够生成接近真实的指定类型数据的生成式模型。但有些生成式模型，例如：生成式对抗网络(GenerativeAdversarial Networks，GAN)在低维数据上表现欠佳，一般来说只有在数据高维的情况下，才可以根据梯度略微改变合成的数据，否则会使得网络处于难以训练的状态。同时由于工业生产环境充满扰动，而且目前工业现代化程度不高，无法配置高精度抗干扰传感器，在采集得到的实际生产数据集上往往会存在噪声，噪声的种类根据实际情况而变化，从分布特点来看可能会出现高斯噪声、均匀噪声、泊松噪声等，同时噪声还存在多类叠加组合现象，这给传统的基于统计学的数据缺失处理方法又增添了阻碍，降低了填补的准确性。

为此，引入自动编码机来减小缺失带来的噪声，提高填补的准确性。本实施例中，所述自动编码机可以是去噪自动编码机(Denoising Autoencoder，DAE)，也可以是其他的自动编码机。去噪自动编码机在对输入数据进行维度提升的同时可以减小缺失带来的噪声，具体的：构建自动编码机时，在输入的原始数据中加入噪声再训练自动编码机，该处理方法也在类似于工业中完全随机缺失的产生过程，通过在训练过程中增添数据集完全随机缺失的特性，使得去噪自动编码机能够更好处理完全随机缺失数据，得到的高维特征更加具有鲁棒性，并使得生成式模型能够完成对实际完全随机缺失数据集进行补全。通过数据去噪和数据生成相结合，生成与原始数据特征分布完全相似的生成数据集，解决了现有技术中针对高缺失率的低维离散完全随机缺失类型数据集补缺效果差的问题。

本实施例中，以去噪自动编码机和生成式对抗网络对本实施例所述的针对工业监测数据缺失的补全方法进行详细说明，如图1和图2所示，所述方法具体可以包括以下步骤：

步骤1，获取原始数据集，具体可以包括以下步骤：

步骤(1-1)，获取工业监测实际数据集

本实施例中，所述工业监测实际数据集为矿山监测实际数据集；具体的：通过对目标铅锌矿山膏体充填系统进行监测，得到矿山监测实际数据集，所述矿山监测实际数据集，由矿山的自动化系统记录并存储于企业数据库中。所述膏体充填系统是将细颗粒含量较高的全尾砂浓密后制成不离析、不沉淀、不脱水的膏体料浆，然后泵送至井下进行充填。深锥浓密机适用于处理细颗粒物料，具有操作流程简单、生产能力大高等优点，是膏体充填系统的重要设备。深锥浓密机的工作原理是使尾砂颗粒在重力、一定高度泥层压力以及耙架搅拌作用下，形成较高浓度的底流。膏体充填采矿法能否成功的核心因素在于深锥浓密机的底流浓度高低，底流浓度过高易发生堵管、压耙等事故，底流浓度过低则会导致井下充填体强度不足，造成安全隐患。

本实施例中，对所述膏体充填系统进行监测，获取到的矿山监测实际数据记录跨度为3个月，总数据记录约300万余条，数据集中的各项监测参数共有6项(6维)，包括：深锥进料流量、深锥进料浓度、深锥稀释流量、深锥絮凝剂量、深锥耙扭矩、深锥回流浓度属性。这6个属性都不同程度地影响底流浓度，为了实现安全、高效率的膏体充填采矿，需要把握深锥浓密机的底流浓度的变化规律，准确预测底流浓度。即通过这几个属性建立和底流浓度之间的关系，从而预测出深锥浓密机的底流浓度的变化规律。而若这几个特征的数据出现高缺失率，则无法通过获取到的原始缺失数据集来进行底流浓度的预测，则需要对这6个特征的数据进行补全处理，然后用补全后的数据集准确预测出深锥浓密机的底流浓度，根据预测得到的深锥浓密机的底流浓度控制深锥浓密机的运行，从而保证底流浓度处于预设的范围内。

本实施例中，当特征数量小于预设的维度阈值(例如，100维)时，称为低维，否则，称为高维。由于矿山监测实际数据集中的监测参数有6项，小于100，因此，所述矿山监测实际数据集为低维数据集。

本实施例中，由于需要验证本发明提出的方法的有效性，获取到的矿山监测实际数据集是完整数据集，需要对完整数据集随机制造一定概率的缺失，生成数据集，将生成后的数据集称为原始数据集，并将原始数据集和矿山监测实际数据集进行比较，验证该方法的性能。

本实施例中，所述矿山监测实际数据集存储于企业数据库中，通过使用OPC服务器将企业数据库中的数据进行导出，得到excel文件保存在本地；接着，可以通过调用numpy库中的loadtxt()函数，从excel文件中读取数据，以便步骤(1-2)对读取的数据进行预处理。

步骤(1-2)，调用数据预处理的包：sklearn.preprocessing，使用MinMaxScaler()函数对读取到的数据进行最大最小标准化，即将数据缩放至0到1之间，得到最大最小标准化的数据，记为data_1，其中，data_1是一个二维数组。

步骤(1-3)，随机制造缺失：随机选择数据data_1中的数据置为0，具体可以包括以下步骤：

步骤(1-3-1)，确定要制造的数据缺失率。设X为缺失率，num_1为需要被置为0的数据量，row_1为数据data_1的行数，col_1为data_1的列数。当随机制造X的缺失率时，则需要被置为0的数据量为：num_1＝X*row_1*col_1，在本次实验中，共分别进行了10％、30％、50％、70％、80％五个数据缺失率梯度的实验。缺失率X的值在后续的实验过程中根据实验要求进行确定；

步骤(1-3-2)，利用行号和列号来确定需要被置为0的数据。在预处理后的数据中的第0行和第(row_1-1)行之间随机生成一个数作为要被置为0的行号x，同样的方法确定被置为0的数据的列号y，则data_1[x，y]就是需要被置为0的数据；

步骤(1-3-3)，重复步骤(1-3-2)，直到置为0的数据量有num_1个，得到的数据集即为缺失率为X的低维离散的完全随机缺失类型的原始数据集，记作data_2。

步骤2，构建自动编码机，所述自动编码机包括：编码器和解码器；其中，通过编码器实现原始数据向特征向量的升维，通过解码器实现特征向量到原始数据的还原，同时减少缺失带来的噪声；如图3所示，构建步骤具体可以包括：

步骤(2-1)，导入pytorch库，pytorch包含了内置的神经网络库以及提供模型训练功能；

步骤(2-2)，初始化DAE网络的参数。设置缺失率X为0，因为验证DAE是否构建好可以使用完整数据集，设标准化函数(Normalized)为Standard、训练次数(Epoch＝100)、批训练的数据个数(Batch size＝20)、学习率(Learning rate＝0.005)、高斯噪声比例(NoiseRatio＝0.025)、高斯噪声均值(Means Noise＝0.025)、高斯噪声标准差(Sigma Noise＝0.05)、激活函数为ReLU；

步骤(2-3)，在预处理后的数据集data_2中添加预设比例的噪声，增加算法的鲁棒性。在进行编码、解码之前，需要按照预设比例的破损原始数据。在本实施例中，选用的是在原始数据集中添加高斯噪声，表达式为：

x′＝x+ε，ε～N(u，σ²)

其中，x′为加入噪声后的数据，x表示原始数据，ε表示服从均值为u、方差为σ²的高斯分布(正态分布)。选择高斯噪声的主要原因是：现实生活中的噪声往往是由很多来源不同的比较小的随机噪声累积形成的，由中心极限定理可得，对于大量相互独立的随机变量，它们均值的分布的极限是正态分布，而高斯分布就是正态分布。所以高斯噪声能够比较真实的模拟现实中的噪声。具体步骤为：

步骤(2-3-1)，设置所添加的高斯噪声的比例。设添加的噪声比例为Y，需要被添加噪声的数据量为num_2，row_2为数据data_2的行数，col_2为数据data_2的列数，当添加比例为Y的高斯噪声时，则num_2为num_2＝Y*row_2*col_2；

步骤(2-3-2)，利用行号和列号来确定需要添加噪声的数据。在预处理后的数据中的第0行和第(row_2-1)行之间随机生成一个数作为要添加噪声的行号x，同样的方法确定被添加噪声的数据的列号y，则data_2[x，y]就是需要被添加噪声的数据；

步骤(2-3-3)，使用函数random.normal(means，sigma)生成均值为u，方差为σ²的高斯噪声，将生成的噪声和原始的data_2[x，y]相加，总共对num_2个数据添加噪声，添加完噪声的数据记为data_3，其中参数：高斯噪声的比例、高斯噪声的均值u、方差σ²的数值都能在后续的实验中进行调整；

步骤(2-4)，构建编码器，所述编码器，用于使用多层神经网络对加入噪声后的数据进行特征提取形成高维特征向量，实现原始数据向特征向量的升维。

本实施例中，一个7层的神经网络构成编码器f_θ，编码器的输出表示为：

y＝s(Wx′+b)

其中，y表示编码器的输出结果；s表示非线性激活函数；W表示在编码器中，网络训练得到的权值矩阵；b为编码器网络中的偏移量。

本实施例中，对于6维的原始数据，使用pytorch库中的linear函数将6维扩增到18维，然后进行ReLU激活层处理，再用linear函数将18维扩增到54维，同样进行ReLU激活层处理，用linear函数将54维扩增到108维，进行ReLU激活层处理，用linear函数将108维最终扩增到216维，最后输出结果。

步骤(2-5)，构建解码器，所述解码器，用于通过逆向变化将高维特征向量还原成原始维度的数据。

本实施例中，一个8层的神经网络构成解码器g_θ，解码器的输出结果表示为：

z＝s(W′y+b′)

本实施例中，将编码器升维过的216维的数据集作为解码器的输入，与编码器相反，解码器使用linear函数将216维的数据集降维到108维，然后进行ReLU激活层处理，再用linear函数将108维降维到54维，同样进行ReLU激活层处理，用linear函数将54维降维到18维，进行ReLU激活层处理，用linear函数将18维最终降维到6维，再使用Sigmoid激活函数将得到的6维的数据集的取值范围映射到0到1之间，最后输出结果。

步骤(2-6)，定义优化器为自适应矩估计(adaptive moment estimation，Adam)，并将解码后的数据z与原始数据x之间的平方误差作为目标函数L(x，z)，调用函数MSELoss()，误差反向传递，再进行优化器参数更新；

步骤(2-7)，根据目标函数L(x，z)对自动编码机进行训练，输出每一次训练得到的平方误差，并通过调整参数使平方误差小于第二预设值，使输出与输入尽量相似，即在特征向量的映射变化过程中不损失原始数据包含的信息。当自动编码器训练结束后，一般认为输出z与输入x在误差接受的范围内完全一致。

本实施例中，总共调试了DAE网络的八个参数：标准化函数(Normalized)、训练次数(Epoch)、批训练的数据个数(Batch size)、学习率(Learning rate)、高斯噪声比例(Noise Ratio)、高斯噪声均值(Means Noise)、高斯噪声标准差(Sigma Noise)、激活函数。调参过程如表1所示：

表1基于矿山监测实际数据集DAE调参过程

步骤(2-8)，验证去噪自动编码机的性能。经过多次调参后，能得到比较好的平方误差是0.00004，由于最开始将数据进行了最大最小标准化，则在这种参数设置下，将输出的数据调用函数inverse_transform()进行标准化的逆变换，从而得到最终的输出结果。随机选取矿山监测实际数据集中ID为103的一条记录，将真实值与解码值进行了比较，如表2所示：

表2矿山监测实际数据集中第103行数据真实值与DAE解码值对比

由表2可以看出，其解码值和真实值最大的差也只有0.0715，最小的差值达到了0.0003，该结果能够满足DAE的解码要求，表明DAE构建成功。

步骤3，建立生成式模型。

本实施例中，所述生成式模型采用的是生成式对抗网络，整体结构以一个生成器为核心，并使用一个鉴别器辅助生成器训练的复合生成式算法架构，生成器和鉴别器均为多种激活函数组成的深层神经网络结构，采用的激活函数包括ReLU、Sigmoid和Tanh等。

本实施例中，生成式对抗网络通过优化生成器和鉴别器之间的纳什均衡，控制生成数据的概率分布尽可能地接近真实数据分布。在实际应用中，无法得到真实数据的分布，现实中的数据集均为数据空间中通过概率采样所得到的子集，同理包含完全随机缺失的数据集相当于完整数据集的子集。通过生成式对抗网络的深度神经网络学习离散缺失数据集数据的概率分布信息，使得生成式对抗网络在缺失数据集上训练完毕后，生成器能够根据学习得到的样本空间概率分布生成与完整数据集相似的样本数据。

本实施例中，建立生成式模型具体可以包括以下步骤：

步骤(3-1)，数据获取及预处理。见步骤(1)。

步骤(3-2)，初始化GAN网络的参数，设置数据的缺失率X为80％，生成器的学习率LR_G＝0.0001，鉴别器的学习率LR_D＝0.0001，批训练的数据个数BATCH_SIZE＝300；

步骤(3-3)，构建生成对抗网络，其中，所述生成对抗网络包括：生成器和鉴别器，生成器和鉴别器均为多种激活函数组成的深层神经网络结构。构造3层网络结构的生成器，第一层为linear函数，将1维的数据转变成300维，第二层为ReLU激活函数，第三层使用linear函数，将300维的数据转变成1维。由于鉴别器的网络要比生成器的更强大些，构建了5层网络结构的鉴别器，第一层使用linear函数，将1维的数据转变成30维，第二层为Tanh激活函数，第三层为ReLU激活函数，第四层使用linear函数将30维的数据转变成300维，第五层为Sigmoid激活函数；

步骤(3-4)，确定损失函数，训练生成器和鉴别器。

本实施例中，鉴别器的损失函数为：-((1-y)log(1-D(G(z)))+ylogD(x))；其中，y表示升维得到的高维特征向量，x表示鉴别器的输入数据，即原始数据(步骤(3-1)预处理后的数据)；D(x)表示鉴别器的输出，即输入x为真实数据的概率；z表示生成器接收的一个随机噪声；G(z)表示生成器的输出；D(G(z))表示鉴别器判断生成器生成的数据是否为真实的概率。

本实施例中，生成器的损失函数为：(1-y)log(1-D(G(z)))。

本实施例中，设置训练次数为10000，使用Adam优化器作为生成器和鉴别器的优化器，并采用梯度下降法来调节权值，在训练过程中调整参数和网络结构，直到鉴别器的损失函数的值收敛到0.5。

步骤(3-3)，验证生成式对抗网络性能。同样由于最开始将数据进行了最大最小标准化，则在这种参数设置下，将输出的数据调用函数inverse_transform()进行标准化的逆变换，从而得到最终的输出结果。选取矿山监测实际数据集中的一列数据来验证，把这列数据的真实值与生成值各自的统计指标进行对比，调用函数describe()就能得到数据集的统计信息，统计指标包括平均数、标准差、中位数，如表3所示：

表3矿山监测实际数据集中某列数据真实值与GAN生成值的统计指标对比

统计指标	真实数据	GAN生成数据
			平均数	19.831	19.129
标准差	5.700	5.836
			中位数	17.244	17.054

由表3可得，在这样的网络结构下，该列数据的真实值和GAN所生成的数据的统计指标差值是比较小，虽然只是验证了一列数据，并且也只比较了平均数、标准差和中位数，但也足以说明这个GAN模型框架已成功搭好，但其中的参数及网络结构可能还得再继续调试。

步骤4，自动编码机和生成式模型结合：将构建好的去噪自动编码机和生成式模型进行结合，得到两者结合后的算法框架，记为DAE+GAN，对低维高缺失率的完全随机缺失类型数据集进行训练，获得与原始数据特征分布相似的生成数据。

本实施例中，如图4所示，将原始数据输入到DAE的编码器中，由编码器进行升维后，将输出的结果作为GAN的输入，经过GAN中一系列的训练后，再将输出输入到DAE的解码器中，解码器输出最终的生成数据。具体步骤如下：

步骤(4-1)，在自动编码机构建完成后使用其编码器部分对原始数据进行升维，具体可以包括以下步骤：

步骤(4-1-1)，首先顺序执行步骤1、步骤(2-1)、步骤(2-2)、步骤(2-3)、步骤(2-4)，需要注意的是要将步骤(2-1)中的缺失率X设置为80％，生成高维特征向量；

步骤(4-1-2)，将步骤(4-1-1)所得到的高维特征向量作为生成对抗网络的输入，执行步骤(3-2)、步骤(3-3)，并且步骤(3-2)中不需要再设置缺失率了，将生成对抗网络的输出作为去噪自动编码机中的解码器的输入，再执行步骤(2-5)；

步骤(4-1-3)，对于DAE，定义DAE的损失函数(目标函数)为解码后的数据与原始数据之间的平方误差，调用函数MSELoss()，误差反向传递，再进行Adam优化器参数更新。

步骤(4-2)，将Adam优化器作为GAN中生成器和鉴别器的优化器，调整DAE与GAN结合后的网络结构与网络参数，使得鉴别器的损失函数收敛到0.5，具体可以包括以下具体步骤：

步骤(4-2-1)，调整网络参数和网络结构使鉴别器的损失函数收敛到0.5。

本实施例中，需要调整的网络参数包括：DAE网络的参数和GAN网络的参数，DAE网络的参数包括：标准化函数(Normalized)、训练次数(Epoch)、批训练的数据个数(Batchsize)、学习率(Learning rate)、高斯噪声比例(Noise Ratio)、高斯噪声均值(MeansNoise)、高斯噪声标准差(Sigma Noise)、激活函数。GAN网络的参数包括：生成器的学习率LR_G，鉴别器的学习率LR_D，批训练的数据个数BATCH_SIZE。

将DAE与GAN结合之后，读入全部6维数据，用原有的网络结构(步骤(2-4)、步骤(2-5)、步骤(3-3)中的网络结构)只能收敛到0.83。继续加深网络结构，基本原则是：鉴别器要比生成器更加强大。当生成器由3层增加到7层，鉴别器由4层增加到10层时，鉴别器能够收敛到0.73了。考虑到原有的网络结构比较简单，只有linear、RELU、Tanh和Sigmoid，将RELU全部换成了P-RELU，又添加了Dropout(0.3)的激活函数这时候鉴别器能收敛到0.53，继续加深网络结构，当生成器为14层，鉴别器为15层时，鉴别器收敛到0.5。

步骤(4-2-2)，验证GAN性能。鉴别器收敛到0.5之后，先验证GAN的性能，包括以下具体步骤：

步骤(4-2-2-1)，由于GAN并不是在缺失数据集中进行插补，而是重新生成一份完整的数据集，两份数据具有相似的统计信息，但是新的数据集丢失了原有数据集的索引信息，均方误差(Mean-Square Error，MSE)等传统方法并不适用。所以在本实施例中选用余弦相似度和箱型图来评估算法的性能，余弦相似度是通过计算两个向量的夹角余弦值来评估他们的相似度，设两个向量分别为A、B，A_i为向量A中的第i个维度的数据，B_i同理，n为向量的维度，则两个向量的余弦相似度的表达式为：

cosθ表示两向量的夹角，当cosθ越接近1，说明两向量越相似。箱型图是一种用于表示一组数据分散情况资料的统计图。如图5所示，主要包含六个数据节点，将一组数据从大到小排列，分别计算出他的上边缘，上四分位数，中位数，下四分位数，下边缘，还有一个异常值。

步骤(4-2-2-2)，在鉴别器收敛为0.5时的网络参数和网络结构下，求出的余弦值为0.80587366。并调用函数describe()查看生成数据的统计特性，如表4、表5所示。

表4基于矿山监测实际数据集真实数据的统计特性

真实数据	进料流量	进料浓度	稀释流量	絮凝剂量	耙扭矩	回流浓度
							平均值	127.63	34.26	0.0467	0.2723	13.00	72.81
标准差	92.91	21.16	0.0125	0.2018	0.64	0.16
							最小值	0.00	0.00	0.0188	0.0000	11.65	72.32
上四分位数	45.21	24.02	0.0376	0.0768	12.60	72.70
							中位数	94.29	26.85	0.0448	0.2520	12.93	72.80
下四分位数	230.00	31.50	0.0535	0.4721	13.24	72.92
							最大值	250.00	80.00	0.0969	0.6000	15.63	73.27

表5基于矿山监测实际数据集GAN生成数据集的统计指标

生成数据	进料流量	进料浓度	稀释流量	絮凝剂量	耙扭矩	回流浓度
							平均值	132.22	61.69	0.0388	0.0928	13.55	72.85
标准差	37.14	13.44	0.0061	0.0564	0.31	0.08
							最小值	45.44	20.43	0.0282	0.0124	12.84	72.68
上四分位数	103.69	52.77	0.0343	0.0504	13.33	72.79
							中位数	134.09	65.45	0.0378	0.0790	13.55	72.85
下四分位数	162.75	72.90	0.0425	0.1234	13.77	72.90
							最大值	209.61	78.63	0.0659	0.3274	14.34	73.10

表4、表5表示真实数据的统计指标，包括平均值、中位数、1/4位数等。表5则是生成数据的统计特性，可以看出生成的数据并不是很理想。为了更直观的表示，采用了箱型图来进行比较。

画出原始数据与生成数据的箱型图，如图6所示。从图6中，可以很直观地看到虽然鉴别器已经收敛到0.5，但是所生成的数据集的特性不够理想。

步骤(4-2-3)，反复调整网络结构和参数。虽然鉴别器已经收敛到0.5，但是所生成的数据集的特性不够理想，主要是因为GAN的训练不稳定，在接下的调试中，大致有几下技巧：

超参数的调试：学习率，不要设置太大

网络结构的调试：为了降低产生稀疏梯度的概率，应尽量避免使用pooling和RELU层，可以使用LeakyRelu激活函数

对于GAN，Adam优化器是比较好的并且适用于GAN的优化器，或者SGD优化器也可以。

参数的调试是没有明确的规律的，主要采用的是枚举法，把可能的情况都试一遍，直到找到比较好的结果为止，所以调试的过程比较费时费力。最终得到的一个比较好的余弦值为0.84755，查看箱型图为图7所示。在图7中，左边是原始数据的箱型图，右边是最终调试的结果，可以看到所生成的数据的统计特性和原始数据的统计特性基本吻合。

步骤(4-3)，对比实验。为了进一步验证所述方法的有效性，本实施例共设计了10％、30％、50％、70％、80％五个数据缺失率梯度再次进行实验，并且在相同缺失率下，选取了其它4种数据缺失处理方法进行对比实验，包括：

kNN(k-Nearest Neighbor)：通过在数据集中寻找欧式距离最小的邻居点，来对当前的缺失值进行预测；

最大期望算法(Expectation Maximization Algorithm，EM)：首先根据己经给出的观测数据，估计出GAN网络参数的值；然后再依据上一步估计出的参数值估计缺失数据的值，再根据估计出的缺失数据加上之前己经观测到的数据重新再对参数值进行估计，然后反复迭代，直至最后收敛，迭代结束；

线性回归(Linear Regression)：对数据进行线性拟合，计算出缺失位置处的值；

均值填充(Mean)：用一列中其他数据的平均值作为缺失处的数值；

不附加DAE的GAN：将低维数据直接输入到生成对抗网络中生成数据集。

本实施例中，KNN的对比实验，主要包含以下步骤：

步骤(4-3-1-1)，读取缺失数据集；

步骤(4-3-1-2)，从sklearn.neighbors中导入包NearestNeighbors，设置NearestNeighbors的参数n_neighbors＝1；

步骤(4-3-1-3)，找到包含缺失值的行号，遍历包含缺失值的每一行，调用函数NearestNeighbors找到最近邻的行号；

步骤(4-3-1-4)，再次遍历一遍每一列，把缺失值替换成最近邻的数据；

步骤(4-3-1-5)，循环步骤(4-3-1-3)和步骤(4-3-1-4)，直到数据集中不再包含缺失值，从而得到一个被KNN算法补全的完整数据集。

本实施例中，EM和线性回归的对比实验采用SPSS(Statistical Product andService Solutions)软件来进行，SPSS为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称，里面包含使用EM和线性回归来对缺失数据进行补全的功能。

本实施例中，EM和线性回归的对比实验，具体可以包含以下步骤：

步骤(4-3-2-1)，下载并安装SPSS22.0；

步骤(4-3-2-2)，在软件SPSS22.0中打开缺失数据集，依次点击“分析”、“缺失值分析”、“使用所有变量”，再勾选回归(S)和EM，再点击确定，就能得到由EM和线性回归进行补全后的完整数据集，再保存到本地。

本实施例中，均值填充的对比实验，主要可以包含以下步骤：

步骤(4-3-3-1)，调用pandas中的resd_csv函数读取缺失数据集；

步骤(4-3-3-1)，遍历缺失数据集中每一列，调用函数mean()求出该列的均值，并将该列的所有缺失值都替换成该列的均值；

步骤(4-3-3-1)，循环步骤(4-3-3-1)，得到一个由均值填充算法补全的完整数据集。

本实施例中，不附加DAE的GAN的对比实验：执行步骤(3)，输入数据为不同缺失率的数据集，得到由不附加DAE的GAN生成的完整数据集。

本实施例中，分别使用余弦相似度和统计特性的方法来比较不同缺失处理算法的性能，主要包括以下步骤：

步骤(4-3-4-1)：计算使用各种缺失处理算法得到的完整数据集与缺失数据集的余弦相似度。得到以下的在某矿山实际生产数据集上不同缺失率下各种方法的余弦相似度对比，如表6和图8所示。

表6矿上实际生产监测数据集不同缺失率下各种方法的余弦相似度对比

缺失率	KNN	EM	Mean	LR	GAN	DAE+GAN
							10.00％	0.97008	0.98122	0.98733	0.97156	0.83389	0.84791
30.00％	0.93352	0.95446	0.95109	0.92479	0.83103	0.84873
							50.00％	0.86659	0.89645	0.92146	0.85671	0.83047	0.84612
70.00％	0.86301	0.84023	0.89421	0.80234	0.83011	0.84601
							80.00％	0.83147	0.84027	0.87346	0.77123	0.83378	0.84755

由于该数据集属性较多，并且分布差别较大，在缺失率达到50％的时候本文提出的基于深度学习的缺失处理方法就取得了最优的结果，同时本实施例所述的方法仍然展现出了针对不同缺失情况下的稳定性。在缺失率较的高情况下Mean的余弦相似度表现较好。

步骤(4-3-4-2)：调用函数describe()，分别求出各种算法处理过的数据集与原始数据集的统计特性，并进行对比，得到表7。

表7某矿山实际生产数据集80％缺失率下各种方法的统计信息对比

从表7中可以看出，由KNN处理过的数据集的平均值、标准差、中位数和原始数据的相差很大；由EM处理过得数据集中只有平均值和原始数据的近似；由Mean处理过得数据集的上四分位数、中位数、下四分位数都等于平均值，跟原始数据的相差很大；而由LR处理过的数据集的最小值、中位数、最大值和原始数据的相差很大；由DAE与GAN结合的算法处理过的数据集的统计特征信息与原始数据比较接近。

本实施例中，画出80％缺失率的情况下均值填充处理后的数据箱型图以及DAE+GAN处理后的数据的箱型图，如图9所示：图9(a)中左图是完整数据集的箱型图，右图是80％缺失率的情况下DAE与GAN结合处理后的数据箱型图，可以看到在高达80％缺失率的情况下，GAN仍能尽可能地还原真实数据。图9(b)中左图是完整数据集的箱型图，右图是80％缺失率的情况下均值填充处理后的数据箱型图，基本上丢失了数据集的信息，这是因为均值填充的特性使得处理后的数据集不会发生很严重的数据失真，而且能维持原有的数据均值不发生太大变化。但是，当缺失率高于30％之后，均值填充处理后的数据集中有大量重复的平均值，这导致数据集的分散程度越来越小，趋近于一个点。

综上，均值填充只有在缺失率很小的时候才适用。在缺失率较高的情况下，这种方法会导致数据的方差趋近于0，这意味着整个样本的信息量大幅下降，破坏了数据的随机性，并不适用于高缺失率的数据集。KNN、EM和线性回归的方法适合于变量之间具有较强相关性并且缺失率较高的数据集，它们的思想都是利用其他变量做预测模型，来计算出缺失变量。在这两个数据集的低缺失率的情况下，这三种方法都表现的较为良好。当缺失率达到50％以上时，变量之间的相关性也随之减弱，很明显他们的补缺效果下降的比较快。生成式对抗网络的表现几乎不受到数据缺失率的影响，在高达80％缺失率的情况下，GAN仍能尽可能地还原真实数据。在该缺失率下，KNN和线性回归会引入大量的噪声，破坏了数据集的原有结构，本文提出的方法通过去噪自动编码机来使数据的生成更加鲁棒。终上所述，在基于完全随机缺失的高缺失率数据集缺失处理问题上，GAN明显有着更强的竞争力。此外GAN一旦训练完成，便可以生成大量的数据，这在很大程度上可以解决目前大数据环境下经常遇到的特性主题数据量不足的问题。

步骤(4-4)，在步骤(4-3)之后，GAN生成指定数量的高维特征向量，通过解码器对生成器生成的高维特征向量进行解码，获得与原始数据特征分布完全相似的生成数据集。

本发明实施例所述的针对工业监测数据缺失的补全方法，具有以下优点：

1)采用自动编码机在对输入数据进行维度提升的同时减小缺失带来的噪声，提高填补的准确性；该方法解决了生成对抗网络针对低维离散数据集训练困难的问题，并尽可能降低高缺失率引入的噪声对生成式模型的影响，同时得到的高维特征更加具有鲁棒性。

2)根据生成式模型能够生成接近真实数据的指定类型数据的特点，采用基于生成式模型的数据缺失补全方法，能够在低维高缺失率的完全随机缺失类型数据集下进行模型训练，获得与原始数据特征分布完全相似的生成数据集。

实施例二

本发明还提供一种针对工业监测数据缺失的补全装置的具体实施方式，由于本发明提供的针对工业监测数据缺失的补全装置与前述针对工业监测数据缺失的补全方法的具体实施方式相对应，该针对工业监测数据缺失的补全装置可以通过执行上述方法具体实施方式中的流程步骤来实现本发明的目的，因此上述针对工业监测数据缺失的补全方法具体实施方式中的解释说明，也适用于本发明提供的针对工业监测数据缺失的补全装置的具体实施方式，在本发明以下的具体实施方式中将不再赘述。

如图10所示，本发明实施例还提供一种针对工业监测数据缺失的补全装置，其特征在于，包括：

获取模块11，用于获取原始数据集，其中，所述原始数据集为缺失类型为完全随机缺失的原始工业监测数据集；

构建模块12，用于根据获取的原始数据集，构建自动编码机；其中，在构建自动编码机时，在输入的原始数据中加入噪声再训练自动编码机，训练好的自动编码机，用于实现原始数据中特征向量的升维和降维；

建立模块13，用于根据获取的原始数据集，建立生成式模型；

生成模块14，用于将构建好的自动编码机和生成式模型进行结合，利用原始数据集对结合后的模型进行优化训练，获得与原始数据特征分布相似的生成数据。

本发明实施例所述的针对工业监测数据缺失的补全装置，能够处理完全随机缺失类型数据集、低维高缺失率数据集、低维高缺失率的完全随机缺失类型数据集，并生成与原始数据特征分布相似的数据，解决了现有技术中针对高缺失率的低维离散完全随机缺失类型数据集补缺效果差的问题；同时由于在构建自动编码机时，在输入的原始数据中加入噪声，能够减小缺失带来的噪声，提高进一步填补的准确性。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种针对工业监测数据缺失的补全方法，其特征在于，包括：

根据获取的原始数据集，建立生成式模型；

将构建好的自动编码机和生成式模型进行结合，利用原始数据集对结合后的模型进行优化训练，获得与原始数据特征分布相似的生成数据；

其中，所述将构建好的自动编码机和生成式模型进行结合，利用原始数据集对结合后的模型进行优化训练，获得与原始数据特征分布相似的生成数据包括：

2.根据权利要求1所述的针对工业监测数据缺失的补全方法，其特征在于，所述获取原始数据集包括：

3.根据权利要求1所述的针对工业监测数据缺失的补全方法，其特征在于，所述自动编码机包括：编码器和解码器；

所述根据获取的原始数据集，构建自动编码机包括：

在原始数据集中加入预设比例的噪声；

4.根据权利要求3所述的针对工业监测数据缺失的补全方法，其特征在于，加入噪声后的数据表示为：

x′＝x+ε,ε～N(u,σ²)

5.根据权利要求4所述的针对工业监测数据缺失的补全方法，其特征在于，编码器的输出结果表示为：

y＝s(Wx′+b)

解码器的输出结果表示为：

z＝s(W′y+b′)

6.根据权利要求5所述的针对工业监测数据缺失的补全方法，其特征在于，所述根据获取的原始数据集，建立生成式模型包括：

7.根据权利要求1所述的针对工业监测数据缺失的补全方法，其特征在于，所述将升维得到的高维特征向量送入生成式模型中，对所述自动编码机和生成式模型进行优化训练，优化训练完成后，所述生成式模型生成指定数量的高维特征向量包括：

8.根据权利要求7所述的针对工业监测数据缺失的补全方法，其特征在于，所述鉴别器的损失函数为：-((1-y)log(1-D(G(z)))+ylogD(x))；