CN115878603A

CN115878603A - 基于k近邻算法与gan网络的水质缺失数据插补算法

Info

Publication number: CN115878603A
Application number: CN202211706935.2A
Authority: CN
Inventors: 盖荣丽; 杨佳慧
Original assignee: Dalian University
Current assignee: Dalian University
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2023-03-31

Abstract

本发明提供一种基于K近邻算法与GAN网络的水质缺失数据插补算法，涉及数据插补方法领域，包括如下步骤：S1、对获取的水质数据集进行特征属性检验及特征选择；S2、水质数据集预处理：包括异常检测、对数据集模拟缺失、归一化；S3、针对缺失数据集构建基于K近邻算法和GAN网络的缺失值插补模型，用以探索水质数据的变化规律，进而插补水质数据的缺失值和剔除的异常值；S4、对上述基于K近邻算法和GAN网络的缺失值插补模型进行评价。本发明利用GAN插补模型无监督的特点通过对数据集进行KNN初始插补，能保证在水质缺失填补方面预测精度更高，模型更稳定。

Description

基于K近邻算法与GAN网络的水质缺失数据插补算法

技术领域

本发明涉及数据插补方法领域，具体为一种基于K近邻算法与GAN网络的水质缺失数据插补算法。

背景技术

水质安全在水环境问题日益严重的当下备受关注。我国的水资源现状存在总量紧缺、人均占有量低、地区分布不均、水土资源不相匹配、水体污染日益加重、城市缺水情况凸显等问题。城镇化步伐的加快和区域经济的发展，加重了局部水资源的负荷，也加剧了水污染。水污染已经成为我国经济社会发展的最重要制约因素之一，引起国家和地方政府的高度重视。高精度的水质监测数据是水质污染预测研究必不可少的输入参数。在监测设备的日常运行中，由于某些不可抗因素(网络故障、采集或传输设备故障等)，水质监测数据难免出现缺失。数据的缺失和不同的缺失处理方法会对研究结果产生一定的影响，因而研究如何更客观、科学的处理大规模水质监测数据中缺失问题具有重要的现实应用价值。

线性插值、均值插补和线性相关插补是传统插补方法。传统缺失值插补虽然插补方法简单，但是未考虑缺失值的属性特点和其他属性的相关性，插补值较为随机，所以发展水质缺失数据的插补方法和技术势在必行。利用机器学习神经网络模型将缺失的属性值作为目标进行预测，是目前的研究热点，可有效提高插补数据的准确率，从而提高水质预测研究精度。

众多存在的机器学习缺失值插补方法大都属于有监督算法，且模型训练时需要完整的数据集，如何实现高精度的水质缺失数据插补依然面临挑战。

发明内容

为克服现有技术中存在的不足，本发明提供一种基于K近邻算法与GAN网络的水质缺失数据插补算法，利用GAN插补模型无监督的特点通过对数据集进行KNN初始插补，能保证在水质缺失填补方面预测精度更高，模型更稳定。

本发明为解决其技术问题所采用的技术方案是：一种基于K近邻算法与GAN网络的水质缺失数据插补算法，包括如下步骤：

S1、对获取的水质数据集进行特征属性检验及特征选择；

S2、水质数据集预处理：包括异常检测、对数据集模拟缺失、归一化；

S3、针对缺失数据集构建基于K近邻算法和GAN网络的缺失值插补模型，用以探索水质数据的变化规律，进而插补水质数据的缺失值和剔除的异常值；

S4、对上述基于K近邻算法和GAN网络的缺失值插补模型进行评价。

进一步的，在步骤S1中，特征选择为盐度，对于盐度的缺失值插补选择盐度、电导率和可溶性盐浓度作为模型输入；包含缺失值的多元序列的原始数据集记为X＝(x₁₁,x₁₂,…,x₁n)∈R^mn，m为监测的样本数，n为监测的指标。

进一步的，步骤S2中异常检测具体为：

利用pauta准则进行异常值检测，公式如下：

其中

为样本均值，/>

σ为标准差，若样本的某个值x_i满足式(1)，则认为x_i应予以剔除；

模拟缺失具体为：将包含缺失值的数据集X，按照随机缺失机制，对其进行随机产生缺失值，生成包含一定比例缺失的数据集；

归一化具体为：

其中，x_i表示特定时间长度索引i处的特征向量，min表示数据中的最小值，max表示数据中的最大值。

进一步的，步骤S3中构建基于K近邻算法和GAN网络的缺失值插补模型的具体方法为：

S31、KNN网络初始插补；

距离度量方式使用欧式距离，即：

其中，x，y为数据点在n维向量上的表示点，计算点之间的距离；

计算预测样本和所有训练集中的样本的距离，通过距离分类，找到与缺失值距离最近的K个距离，计算这些值的平均水质数据进行缺失填充得数据集

S32、GAN网络插补；

KNN网络的输出馈送至GAN网络，GAN网络通过内部的生成和对抗网络对抗训练，最终使生成器生成与真实数据接近的新数据，具体为：

为表示原始数据序列中缺失值的位置，对其构建掩码向量M＝(m₁₁,m₁₂,…,m_1n)∈{0,1}^mn，维度与原始数据序列一样，形式如下式所示：

式中，m_ij＝1表示X可观测到值，m_ij＝0表示X值存在缺失；在原始数据序列进行模型训练前对其进行重构，对缺失值进行0值插补，新随机变量

仅保留原数据X向量中未缺失的部分，0指未观测到的数据，矩阵形式如下所示：

生成网络G将插补后的

M、Z作为输入，其中Z＝(z₁₁,z₁₂,…,z_1n)∈Rmn是一个d维的噪声，独立于所有变量；G输出Y＝(Y₁₁,Y₁₂,…,Y_1n)∈Rmn，G过程数学描述为：

G针对每一个值，包括非缺失值，相应输出一个插补值，Y为插补值，重建的样本Y取原始数据序列中未缺失部分和G网络输出中插补的缺失部分；将

输入到D，判别网络对/>

进行判别，计算判别网络的输出和M的值作为损失值，反馈给D；将D的损失值和原始数据与/>

的损失值反馈给G；使D和G不断优化，得最优解输出；G、D交替训练的目标函数公式表示如下：

进一步的，在步骤S4中，采用均方误差、均方根误差和决定系数对所述基于K近邻算法和GAN网络的缺失值插补模型进行评价。

进一步的，均方误差MSE、均方根误差RMSE和决定系数R2满足公式：

其中y是实际值、

是预测值、/>

是实际值的平均值、n为样本总量。

本发明的有益效果包括：通过异常数据剔除和插补，尽可能规避了由于多方面原因所带来的异常值现象，提高预测准确性。克服了传统插补方法未考虑缺失值的属性特点和其他属性间的相关性，插补值较为随机的不足。大多数机器学习插补方法属于有监督学习，模型训练时需要完整数据集，而本发明利用GAN插补模型无监督的特点通过对数据集进行KNN初始插补提高了插补数据准确率。基于K近邻算法和GAN网络的水质监测缺失数据的插补方法，在缺失率为5％、15％、25％的情况下，插补性能均优于K近邻算法、随机森林、极度随机森林、SVR、Zero-GAN插补方法。本发明基于K近邻算法和GAN模型性能更优，模型性能更稳定。

附图说明

图1是水质温盐度观测数据集；

图2是盐度观测数据在三种缺失比例下的缺失值分布图；

图3是KNN-GAN插补模型；

图4是六种模型在三种数据缺失率下的填补MSE结果对比；

图5是六种模型在三种数据缺失率下的填补RMSE结果对比；

图6是六种模型在三种数据缺失率下的填补R²结果对比；

图7是5％缺失情况下的插补效果图；

图8是15％缺失情况下的插补效果图；

图9是25％缺失情况下的插补效果图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

在众多深度学习时间序列数据插补模型中，GAN网络属于无监督学习，可用于学习多变量时间序列的总体分布，从而对观测数据中的缺失值进行填补。本发明提供一种基于K近邻算法与GAN网络的水质缺失数据插补算法，包括如下步骤：(1)获取河北省秦皇岛海域水质传感器的数据集并对其进行特征属性的相关性检验，进行特征选择；(2)预处理，预处理包括异常检测、对数据集模拟缺失和归一化；(3)针对缺失数据集构建基于K近邻算法和生成对抗网络(GAN网络)的缺失值插补模型，用于探索水质数据的变化规律，从而插补水质数据的缺失值和剔除的异常值；(4)对所述基于K近邻算法和GAN网络的缺失值插补模型进行评价。本发明能保证在水质缺失填补方面预测精度更高，模型更稳定。

(1)获取河北省秦皇岛海域水质传感器的数据集并对其进行特征属性的相关性检验，进行特征选择：

河北省秦皇岛海域采集的数据集包括温度(Temp)、盐度(Sal)、电导率(Cond)、可溶性盐浓度(EC)等5种属性，因为盐度不但对赤潮预报有重要作用，而且对于海水养殖生态调控也有很大意义，所以本实施例针对盐度进行预测。通过Person相关系数，用相关性热图展现特征属性间的相关性，最终确定电导率(Cond)和可溶性盐浓度(EC)与盐度相关性更高，所以对于盐度的缺失数据插补本实施例选择盐度、电导率和可溶性盐浓度作为模型输入。包含缺失值的多元序列的原始数据集记为X＝(x₁₁,x₁₂,…,x_1n)∈Rmn，m为监测的样本数，n为监测的指标。

(2)预处理，预处理包括异常检测、对数据集模拟缺失和归一化：

1.异常检测

利用pauta准则进行异常值检测，公式为：

其中

为样本均值，/>

σ为标准差，若样本的某个值x_i满足公式，则认为x_i应予以剔除。

2.随机缺失

将包含缺失值的数据集X，按照随机缺失机制，对其进行随机产生缺失值，生成包含一定比例缺失的数据集。

3.归一化

(3)针对缺失数据集构建基于K近邻算法和生成对抗网络(GAN网络)的缺失值插补模型，用于探索水质数据的变化规律，从而插补水质数据的缺失值和剔除的异常值：

将预处理数据输入模型，通过KNN网络利用相邻观测值对缺失数据初始插补。

1.KNN初始插补

确定K值；在填充水质数据的具体实施过程中，对于K值的选择，没有一个固定的数值，一般根据样本的分布，选择一个较小的值，之后可以通过交叉验证选择一个合适的K值；选择较小的K值，就相当于用较小的领域中的训练实例进行预测，训练误差会减小，只有与输入实例较近或相似的训练实例才会对预测结果起作用，但是泛化误差会增大，K值的减小就意味着整体模型变得复杂，容易发生过拟合；选择较大的K值，就相当于用较大领域中的训练实例进行预测，其优点是可以减少泛化误差，但缺点是训练误差会增大；与输入实例较远的(不相似的)训练实例也会对预测器作用，使预测发生错误，且K值的增大就意味着整体的模型变得简单；

本实施例中，距离度量方式使用欧式距离，即：

其中，x，y为数据点在n维向量上的表示点，计算点之间的距离。

2.GAN插补；KNN的输出被馈送到GAN网络，该层通过内部的生成和对抗网络对抗训练，最终使生成器生成与真实数据接近的新数据。

为了表示原始数据序列中缺失值的位置，对其构建掩码向量M＝(m₁₁,m₁₂,…,m_1n)∈{0,1}mn维度和原始数据序列一样，一般形式如下式所示：

式中，m_ij＝1表示X可观测到值，m_ij＝0表示X值存在缺失。在原始数据序列进行模型训练前需对其进行重构，对缺失值进行0值填充，新随机变量

生成网络G将插补后的

M、Z作为输入，其中Z＝(z₁₁,z₁₂,…,z_1n)∈Rmn是一个d维的噪声，独立于所有变量。G输出Y＝(Y₁₁,Y₁₂,…,Y_1n)∈Rmn。G过程数学描述为：

G会针对每一个值(包括非缺失值)相应输出一个填补值，Y为插补值，重建的样本Y取原始数据集中未缺失部分和G网络输出中填补的缺失部分。将

输入到D，判别网络对/>

的损失值反馈给G。使D和G不断优化，得最优解输出。G、D交替训练的目标函数公式表示如下：

(4)对所述基于K近邻算法和GAN网络的缺失值插补模型进行评价：

采用均方误差、均方根误差和决定系数对所述基于K近邻算法和GAN网络的缺失值插补模型进行评价，所述均方误差MSE、均方根误差RMSE和决定系数R2满足公式：

/>

其中y是实际值、

是预测值、/>

是实际值的平均值、n为样本总量。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。