CN115878603A - 基于k近邻算法与gan网络的水质缺失数据插补算法 - Google Patents
基于k近邻算法与gan网络的水质缺失数据插补算法 Download PDFInfo
- Publication number
- CN115878603A CN115878603A CN202211706935.2A CN202211706935A CN115878603A CN 115878603 A CN115878603 A CN 115878603A CN 202211706935 A CN202211706935 A CN 202211706935A CN 115878603 A CN115878603 A CN 115878603A
- Authority
- CN
- China
- Prior art keywords
- value
- missing
- data
- water quality
- interpolation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A20/00—Water conservation; Efficient water supply; Efficient water use
- Y02A20/152—Water filtration
Landscapes
- Complex Calculations (AREA)
Abstract
本发明提供一种基于K近邻算法与GAN网络的水质缺失数据插补算法,涉及数据插补方法领域,包括如下步骤:S1、对获取的水质数据集进行特征属性检验及特征选择;S2、水质数据集预处理:包括异常检测、对数据集模拟缺失、归一化;S3、针对缺失数据集构建基于K近邻算法和GAN网络的缺失值插补模型,用以探索水质数据的变化规律,进而插补水质数据的缺失值和剔除的异常值;S4、对上述基于K近邻算法和GAN网络的缺失值插补模型进行评价。本发明利用GAN插补模型无监督的特点通过对数据集进行KNN初始插补,能保证在水质缺失填补方面预测精度更高,模型更稳定。
Description
技术领域
本发明涉及数据插补方法领域,具体为一种基于K近邻算法与GAN网络的水质缺失数据插补算法。
背景技术
水质安全在水环境问题日益严重的当下备受关注。我国的水资源现状存在总量紧缺、人均占有量低、地区分布不均、水土资源不相匹配、水体污染日益加重、城市缺水情况凸显等问题。城镇化步伐的加快和区域经济的发展,加重了局部水资源的负荷,也加剧了水污染。水污染已经成为我国经济社会发展的最重要制约因素之一,引起国家和地方政府的高度重视。高精度的水质监测数据是水质污染预测研究必不可少的输入参数。在监测设备的日常运行中,由于某些不可抗因素(网络故障、采集或传输设备故障等),水质监测数据难免出现缺失。数据的缺失和不同的缺失处理方法会对研究结果产生一定的影响,因而研究如何更客观、科学的处理大规模水质监测数据中缺失问题具有重要的现实应用价值。
线性插值、均值插补和线性相关插补是传统插补方法。传统缺失值插补虽然插补方法简单,但是未考虑缺失值的属性特点和其他属性的相关性,插补值较为随机,所以发展水质缺失数据的插补方法和技术势在必行。利用机器学习神经网络模型将缺失的属性值作为目标进行预测,是目前的研究热点,可有效提高插补数据的准确率,从而提高水质预测研究精度。
众多存在的机器学习缺失值插补方法大都属于有监督算法,且模型训练时需要完整的数据集,如何实现高精度的水质缺失数据插补依然面临挑战。
发明内容
为克服现有技术中存在的不足,本发明提供一种基于K近邻算法与GAN网络的水质缺失数据插补算法,利用GAN插补模型无监督的特点通过对数据集进行KNN初始插补,能保证在水质缺失填补方面预测精度更高,模型更稳定。
本发明为解决其技术问题所采用的技术方案是:一种基于K近邻算法与GAN网络的水质缺失数据插补算法,包括如下步骤:
S1、对获取的水质数据集进行特征属性检验及特征选择;
S2、水质数据集预处理:包括异常检测、对数据集模拟缺失、归一化;
S3、针对缺失数据集构建基于K近邻算法和GAN网络的缺失值插补模型,用以探索水质数据的变化规律,进而插补水质数据的缺失值和剔除的异常值;
S4、对上述基于K近邻算法和GAN网络的缺失值插补模型进行评价。
进一步的,在步骤S1中,特征选择为盐度,对于盐度的缺失值插补选择盐度、电导率和可溶性盐浓度作为模型输入;包含缺失值的多元序列的原始数据集记为X=(x11,x12,…,x1n)∈Rmn,m为监测的样本数,n为监测的指标。
进一步的,步骤S2中异常检测具体为:
利用pauta准则进行异常值检测,公式如下:
模拟缺失具体为:将包含缺失值的数据集X,按照随机缺失机制,对其进行随机产生缺失值,生成包含一定比例缺失的数据集;
归一化具体为:
其中,xi表示特定时间长度索引i处的特征向量,min表示数据中的最小值,max表示数据中的最大值。
进一步的,步骤S3中构建基于K近邻算法和GAN网络的缺失值插补模型的具体方法为:
S31、KNN网络初始插补;
距离度量方式使用欧式距离,即:
其中,x,y为数据点在n维向量上的表示点,计算点之间的距离;
S32、GAN网络插补;
KNN网络的输出馈送至GAN网络,GAN网络通过内部的生成和对抗网络对抗训练,最终使生成器生成与真实数据接近的新数据,具体为:
为表示原始数据序列中缺失值的位置,对其构建掩码向量M=(m11,m12,…,m1n)∈{0,1}mn,维度与原始数据序列一样,形式如下式所示:
式中,mij=1表示X可观测到值,mij=0表示X值存在缺失;在原始数据序列进行模型训练前对其进行重构,对缺失值进行0值插补,新随机变量仅保留原数据X向量中未缺失的部分,0指未观测到的数据,矩阵形式如下所示:
G针对每一个值,包括非缺失值,相应输出一个插补值,Y为插补值,重建的样本Y取原始数据序列中未缺失部分和G网络输出中插补的缺失部分;将输入到D,判别网络对/>进行判别,计算判别网络的输出和M的值作为损失值,反馈给D;将D的损失值和原始数据与/>的损失值反馈给G;使D和G不断优化,得最优解输出;G、D交替训练的目标函数公式表示如下:
进一步的,在步骤S4中,采用均方误差、均方根误差和决定系数对所述基于K近邻算法和GAN网络的缺失值插补模型进行评价。
进一步的,均方误差MSE、均方根误差RMSE和决定系数R2满足公式:
本发明的有益效果包括:通过异常数据剔除和插补,尽可能规避了由于多方面原因所带来的异常值现象,提高预测准确性。克服了传统插补方法未考虑缺失值的属性特点和其他属性间的相关性,插补值较为随机的不足。大多数机器学习插补方法属于有监督学习,模型训练时需要完整数据集,而本发明利用GAN插补模型无监督的特点通过对数据集进行KNN初始插补提高了插补数据准确率。基于K近邻算法和GAN网络的水质监测缺失数据的插补方法,在缺失率为5%、15%、25%的情况下,插补性能均优于K近邻算法、随机森林、极度随机森林、SVR、Zero-GAN插补方法。本发明基于K近邻算法和GAN模型性能更优,模型性能更稳定。
附图说明
图1是水质温盐度观测数据集;
图2是盐度观测数据在三种缺失比例下的缺失值分布图;
图3是KNN-GAN插补模型;
图4是六种模型在三种数据缺失率下的填补MSE结果对比;
图5是六种模型在三种数据缺失率下的填补RMSE结果对比;
图6是六种模型在三种数据缺失率下的填补R2结果对比;
图7是5%缺失情况下的插补效果图;
图8是15%缺失情况下的插补效果图;
图9是25%缺失情况下的插补效果图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
在众多深度学习时间序列数据插补模型中,GAN网络属于无监督学习,可用于学习多变量时间序列的总体分布,从而对观测数据中的缺失值进行填补。本发明提供一种基于K近邻算法与GAN网络的水质缺失数据插补算法,包括如下步骤:(1)获取河北省秦皇岛海域水质传感器的数据集并对其进行特征属性的相关性检验,进行特征选择;(2)预处理,预处理包括异常检测、对数据集模拟缺失和归一化;(3)针对缺失数据集构建基于K近邻算法和生成对抗网络(GAN网络)的缺失值插补模型,用于探索水质数据的变化规律,从而插补水质数据的缺失值和剔除的异常值;(4)对所述基于K近邻算法和GAN网络的缺失值插补模型进行评价。本发明能保证在水质缺失填补方面预测精度更高,模型更稳定。
(1)获取河北省秦皇岛海域水质传感器的数据集并对其进行特征属性的相关性检验,进行特征选择:
河北省秦皇岛海域采集的数据集包括温度(Temp)、盐度(Sal)、电导率(Cond)、可溶性盐浓度(EC)等5种属性,因为盐度不但对赤潮预报有重要作用,而且对于海水养殖生态调控也有很大意义,所以本实施例针对盐度进行预测。通过Person相关系数,用相关性热图展现特征属性间的相关性,最终确定电导率(Cond)和可溶性盐浓度(EC)与盐度相关性更高,所以对于盐度的缺失数据插补本实施例选择盐度、电导率和可溶性盐浓度作为模型输入。包含缺失值的多元序列的原始数据集记为X=(x11,x12,…,x1n)∈Rmn,m为监测的样本数,n为监测的指标。
(2)预处理,预处理包括异常检测、对数据集模拟缺失和归一化:
1.异常检测
利用pauta准则进行异常值检测,公式为:
2.随机缺失
将包含缺失值的数据集X,按照随机缺失机制,对其进行随机产生缺失值,生成包含一定比例缺失的数据集。
3.归一化
其中,xi表示特定时间长度索引i处的特征向量,min表示数据中的最小值,max表示数据中的最大值。
(3)针对缺失数据集构建基于K近邻算法和生成对抗网络(GAN网络)的缺失值插补模型,用于探索水质数据的变化规律,从而插补水质数据的缺失值和剔除的异常值:
将预处理数据输入模型,通过KNN网络利用相邻观测值对缺失数据初始插补。
1.KNN初始插补
确定K值;在填充水质数据的具体实施过程中,对于K值的选择,没有一个固定的数值,一般根据样本的分布,选择一个较小的值,之后可以通过交叉验证选择一个合适的K值;选择较小的K值,就相当于用较小的领域中的训练实例进行预测,训练误差会减小,只有与输入实例较近或相似的训练实例才会对预测结果起作用,但是泛化误差会增大,K值的减小就意味着整体模型变得复杂,容易发生过拟合;选择较大的K值,就相当于用较大领域中的训练实例进行预测,其优点是可以减少泛化误差,但缺点是训练误差会增大;与输入实例较远的(不相似的)训练实例也会对预测器作用,使预测发生错误,且K值的增大就意味着整体的模型变得简单;
本实施例中,距离度量方式使用欧式距离,即:
其中,x,y为数据点在n维向量上的表示点,计算点之间的距离。
2.GAN插补;KNN的输出被馈送到GAN网络,该层通过内部的生成和对抗网络对抗训练,最终使生成器生成与真实数据接近的新数据。
为了表示原始数据序列中缺失值的位置,对其构建掩码向量M=(m11,m12,…,m1n)∈{0,1}mn维度和原始数据序列一样,一般形式如下式所示:
式中,mij=1表示X可观测到值,mij=0表示X值存在缺失。在原始数据序列进行模型训练前需对其进行重构,对缺失值进行0值填充,新随机变量仅保留原数据X向量中未缺失的部分,0指未观测到的数据,矩阵形式如下所示:
G会针对每一个值(包括非缺失值)相应输出一个填补值,Y为插补值,重建的样本Y取原始数据集中未缺失部分和G网络输出中填补的缺失部分。将输入到D,判别网络对/>进行判别,计算判别网络的输出和M的值作为损失值,反馈给D;将D的损失值和原始数据与/>的损失值反馈给G。使D和G不断优化,得最优解输出。G、D交替训练的目标函数公式表示如下:
(4)对所述基于K近邻算法和GAN网络的缺失值插补模型进行评价:
采用均方误差、均方根误差和决定系数对所述基于K近邻算法和GAN网络的缺失值插补模型进行评价,所述均方误差MSE、均方根误差RMSE和决定系数R2满足公式:
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (6)
1.一种基于K近邻算法与GAN网络的水质缺失数据插补算法,其特征在于,包括如下步骤:
S1、对获取的水质数据集进行特征属性检验及特征选择;
S2、水质数据集预处理:包括异常检测、对数据集模拟缺失、归一化;
S3、针对缺失数据集构建基于K近邻算法和GAN网络的缺失值插补模型,用以探索水质数据的变化规律,进而插补水质数据的缺失值和剔除的异常值;
S4、对上述基于K近邻算法和GAN网络的缺失值插补模型进行评价。
2.根据权利要求1所述的基于K近邻算法与GAN网络的水质缺失数据插补算法,其特征在于,在步骤S1中,特征选择为盐度,对于盐度的缺失值插补选择盐度、电导率和可溶性盐浓度作为模型输入;包含缺失值的多元序列的原始数据集记为X=(x11,x12,…,x1n)∈Rmn,m为监测的样本数,n为监测的指标。
4.根据权利要求3所述的基于K近邻算法与GAN网络的水质缺失数据插补算法,其特征在于,步骤S3中构建基于K近邻算法和GAN网络的缺失值插补模型的具体方法为:
S31、KNN网络初始插补;
距离度量方式使用欧式距离,即:
其中,x,y为数据点在n维向量上的表示点,计算点之间的距离;
S32、GAN网络插补;
KNN网络的输出馈送至GAN网络,GAN网络通过内部的生成和对抗网络对抗训练,最终使生成器生成与真实数据接近的新数据,具体为:
为表示原始数据序列中缺失值的位置,对其构建掩码向量M=(m11,m12,…,m1n)∈{0,1}mn,维度与原始数据序列一样,形式如下式所示:
式中,mij=1表示X可观测到值,mij=0表示X值存在缺失;在原始数据序列进行模型训练前对其进行重构,对缺失值进行0值插补,新随机变量 仅保留原数据X向量中未缺失的部分,0指未观测到的数据,矩阵形式如下所示:
G针对每一个值,包括非缺失值,相应输出一个插补值,Y为插补值,重建的样本Y取原始数据序列中未缺失部分和G网络输出中插补的缺失部分;将输入到D,判别网络对/>进行判别,计算判别网络的输出和M的值作为损失值,反馈给D;将D的损失值和原始数据与/>的损失值反馈给G;使D和G不断优化,得最优解输出;G、D交替训练的目标函数公式表示如下:
5.根据权利要求1所述的基于K近邻算法与GAN网络的水质缺失数据插补算法,其特征在于,在步骤S4中,采用均方误差、均方根误差和决定系数对所述基于K近邻算法和GAN网络的缺失值插补模型进行评价。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211706935.2A CN115878603A (zh) | 2022-12-27 | 2022-12-27 | 基于k近邻算法与gan网络的水质缺失数据插补算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211706935.2A CN115878603A (zh) | 2022-12-27 | 2022-12-27 | 基于k近邻算法与gan网络的水质缺失数据插补算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115878603A true CN115878603A (zh) | 2023-03-31 |
Family
ID=85757134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211706935.2A Pending CN115878603A (zh) | 2022-12-27 | 2022-12-27 | 基于k近邻算法与gan网络的水质缺失数据插补算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115878603A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116627953A (zh) * | 2023-05-24 | 2023-08-22 | 首都师范大学 | 一种地下水位监测数据缺失的修复方法 |
CN116996869A (zh) * | 2023-09-26 | 2023-11-03 | 济南正大科技发展有限公司 | 一种网络异常数据处理方法及装置 |
CN117113234A (zh) * | 2023-10-12 | 2023-11-24 | 济南泉晓电气设备有限公司 | 一种基于机器学习的输电线路故障检测方法及系统 |
CN117609706A (zh) * | 2023-10-20 | 2024-02-27 | 北京师范大学 | 一种碳水通量数据插补的方法 |
CN117828373A (zh) * | 2024-03-05 | 2024-04-05 | 四川省医学科学院·四川省人民医院 | 基于集合划分和自监督学习的缺失数据填充方法及系统 |
-
2022
- 2022-12-27 CN CN202211706935.2A patent/CN115878603A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116627953A (zh) * | 2023-05-24 | 2023-08-22 | 首都师范大学 | 一种地下水位监测数据缺失的修复方法 |
CN116627953B (zh) * | 2023-05-24 | 2023-10-27 | 首都师范大学 | 一种地下水位监测数据缺失的修复方法 |
CN116996869A (zh) * | 2023-09-26 | 2023-11-03 | 济南正大科技发展有限公司 | 一种网络异常数据处理方法及装置 |
CN116996869B (zh) * | 2023-09-26 | 2023-12-29 | 济南正大科技发展有限公司 | 一种网络异常数据处理方法及装置 |
CN117113234A (zh) * | 2023-10-12 | 2023-11-24 | 济南泉晓电气设备有限公司 | 一种基于机器学习的输电线路故障检测方法及系统 |
CN117609706A (zh) * | 2023-10-20 | 2024-02-27 | 北京师范大学 | 一种碳水通量数据插补的方法 |
CN117609706B (zh) * | 2023-10-20 | 2024-06-04 | 北京师范大学 | 一种碳水通量数据插补的方法 |
CN117828373A (zh) * | 2024-03-05 | 2024-04-05 | 四川省医学科学院·四川省人民医院 | 基于集合划分和自监督学习的缺失数据填充方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115878603A (zh) | 基于k近邻算法与gan网络的水质缺失数据插补算法 | |
CN110441065B (zh) | 基于lstm的燃气轮机在线检测方法与装置 | |
CN113792754B (zh) | 一种先除异后修复的换流变dga在线监测数据处理方法 | |
CN105302848A (zh) | 一种设备智能预警系统的评估值校准方法 | |
CN112016251B (zh) | 一种核动力装置故障的诊断方法及系统 | |
CN109919356B (zh) | 一种基于bp神经网络区间需水预测方法 | |
CN114861788A (zh) | 一种基于dbscan聚类的负荷异常检测方法及系统 | |
CN118133068B (zh) | 一种电网拓扑自动识别与构建方法及系统 | |
CN116579768B (zh) | 一种发电厂在线仪表运维管理方法及系统 | |
CN112395737A (zh) | 一种基于生成对抗网络高速列车量测数据缺失重建的方法 | |
CN112307410A (zh) | 基于船载ctd测量数据的海水温盐信息时序预测方法 | |
CN116432123A (zh) | 一种基于cart决策树算法的电能表故障预警方法 | |
CN114997496A (zh) | 一种基于时空序列数据约束的无监督储层智能分段方法 | |
CN104634265A (zh) | 一种基于多元图像特征融合的矿物浮选泡沫层厚度软测量方法 | |
CN118133203A (zh) | 一种电能计量检测信息故障诊断方法 | |
CN115345297A (zh) | 一种基于生成对抗网络的台区样本生成方法及系统 | |
CN113641733B (zh) | 一种河道断面流量实时智能推求方法 | |
CN115438897A (zh) | 一种基于blstm神经网络的工业过程产品质量预测方法 | |
Liu et al. | Research on the strategy of locating abnormal data in IOT management platform based on improved modified particle swarm optimization convolutional neural network algorithm | |
CN117913806A (zh) | 一种融合知识驱动的LightGBM-GRU风电功率组合预测方法 | |
CN117332702A (zh) | 基于ilstm的内涝水深预测与多因子时序分析方法 | |
CN112380763A (zh) | 一种基于数据挖掘的堆内构件可靠性分析系统及方法 | |
CN113887119A (zh) | 一种基于sarima-lstm的河流水质预测方法 | |
CN114971005B (zh) | 基于lstm与差分回归模型动态加权的海湾水温组合预测方法 | |
CN114676887A (zh) | 一种基于图卷积stg-lstm的河流水质预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |