CN109948715A - 一种水质监测数据缺失值填补方法 - Google Patents

一种水质监测数据缺失值填补方法 Download PDF

Info

Publication number
CN109948715A
CN109948715A CN201910225758.8A CN201910225758A CN109948715A CN 109948715 A CN109948715 A CN 109948715A CN 201910225758 A CN201910225758 A CN 201910225758A CN 109948715 A CN109948715 A CN 109948715A
Authority
CN
China
Prior art keywords
data
subordinated
water quality
iteration
missing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910225758.8A
Other languages
English (en)
Other versions
CN109948715B (zh
Inventor
蒋鹏
孙光培
许欢
林广�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN201910225758.8A priority Critical patent/CN109948715B/zh
Publication of CN109948715A publication Critical patent/CN109948715A/zh
Application granted granted Critical
Publication of CN109948715B publication Critical patent/CN109948715B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A20/00Water conservation; Efficient water supply; Efficient water use
    • Y02A20/152Water filtration

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开了一种水质监测数据缺失值填补方法。本发明把水质监测站的水质监测数据看成一个数据集,这个数据集包含正常水质数据和缺失的水质数据,然后使用改进的OCS‑FCM算法对对数据集中的缺失数据进行求解,主要表现为不断迭代更新隶属度矩阵,直到达到预设的迭代次数,停止迭代。最后,将求解的缺失数据填补到原始数据集中,得到不含缺失数据的完整数据集。本发明方法克服了传统FCM算法在隶属度矩阵参数选择困难的缺点,采用的实时更新隶属度矩阵的方法,实现了缺失数据填补正确率的提高,尤其是在大缺失率数据集的情况下。

Description

一种水质监测数据缺失值填补方法
技术领域
本发明属于水质监测领域,具体涉及一种水质监测数据缺失值填补方法。
背景技术
在水质监测工程应用中,前端传感器采集的数据往往不能直接使用,数据预处理成为了工程应用中一个不可缺失的步骤。由于传感器老化或者系统不稳定的原因,在水质监测数据采集过程中往往存在数据丢失的现象,造成了水质监测数据集的缺失,故在水质监测实际工程中对缺失数据的填补成为水质监测数据预处理环节的重要一部分。缺失值即数据库中的NULL值,目前水质监测领域中常见的NULL值处理方法有以下几种:
(1)直接丢弃法。即删除水质监测数据库中的NULL值,这种方法简单粗暴,适用于少量的非关键性的水质缺失数据。当缺失数据量比较大,或者缺失的数据属于数据集中的关键信息时,采用直接删除NULL值将会导致关键信息的丢失,造成关键信息资源的浪费。严重情况下会对后续的水质分析结果产生误导,得出错误的实验结果。此方法在实际工程中用的较少。
(2)相邻补齐法。即采用水质监测数据库中与之相邻的数据来填补NULL值,或者用采样序列中该NULL值前一时刻的水质采样数据或者另一时刻的水质采样数据来填补NULL值。该方法显然要比直接丢弃法好,但是采用这样简单的临近填补,不利于体现整个数据集的变化趋势,一定程度上该方法具有局限性。
(3)平均值填补法。与相邻补齐法不同的是,平均值填补是对邻域内一定数量的数据求平均值,取该平均值来填补NULL值。该方法本质上是用水质监测缺失数据的属性值来代替缺失值,多用在缺失值的预测上。
(4)K-means法。K-means法是采用欧式距离来确定缺失数据样本的K个最近的相邻样本,以欧式距离确定权值,对K个临近水质参数样本做加权平均,得到的值作为NULL的填补值。该方法的缺点是,在需要引入自相关分析时,会对增加算法分析的难度。
针对水质监测数据的缺失值填补问题,很多研究者提出了面向不同方向的多种有效方法。YANG提出一种基于模糊C均值聚类(FCM)的水质缺失数据填补方法,对水质监测数据集进行聚类分析,求解缺失的水质监测数据。BEZDEK对模糊C均值聚类方法进行了改进,提出一种基于优化补全策略的模糊C均值聚类(OCS-FCM)水质缺失数据填补方法,该方法是对模糊C均值聚类法的优化,一定程度上提高了水质缺失数据填补的准确率。这两种方法虽然在水质监测缺失数据的填补上表现出了一定程度的效果,但是由于算法本身存在隶属度矩阵取值优化的问题,限制了水质缺失数据填补的准确率,使得这两种方法对水质缺失数据的填补不是十分精确。
水质监测历史数据属性参数众多,缺失数据分布广泛,以上列举的方法均未能很好的实现对水质监测缺失数据的填补。为了解决水质缺失数据填补准确率低下的问题,有必要提出一种新的水质缺失数据填补方法,该方法是一种基于改进的OCS-FCM水质监测数据缺失值填补方法,该方法采用实时更新隶属度矩阵的方法对OCS-FCM算法的参数加以优化,以提高算法的聚类性能,最终得到填补效果较理想的完整水质监测数据集。
发明内容
本发明的主要目的是为了提高水质监测缺失数据填补的准确率,提出一种改进的OCS-FCM水质监测缺失数据填补方法。
本发明所述的基于改进的OCS-FCM算法的水质监测缺失数据填补方法,具体方案如下:
获取水质监测参数时间序列,采用改进OCS-FCM算法求解水质缺失数据。具体包括以下五个步骤:
步骤一:对模糊聚类优化补全策略算法的参数进行初始化,主要是模糊因子m,聚类数c,迭代次数t。考虑到水质参数CODMn的浓度范围在0-3mg/L之间,DO的浓度范围在0-15mg/L之间,pH的范围在0-14之间和TP的浓度范围在0-1之间,结合工程取值经验,取m=2,c=3,t=200时,模糊聚类优化补全策略算法对这四类水质参数能达到较好的聚类效果。同时,随机初始化聚类中心V。
步骤二:计算隶属度矩阵,隶属度矩阵用U表示。
约束条件为:
其中,表示经过r+1次迭代后的隶属度矩阵;表示经过r次迭代后第i行向量上的聚类中心,表示经过r次迭代后第j列向量上的聚类中心。
步骤三:更新聚类中心V。
其中,表示经过r+1次迭代后第i行向量上的聚类中心,表示经过r+1次迭代后第i行向量上的第k个隶属度矩阵。xj表示水质监测数据样本X的第j列向量。
步骤四:修正隶属度矩阵。
设样本点xk对c个类中心的隶属度分别为u1k,u2k,…,uck,每进行一次迭代,隶属度修正一次,即
u1k=u1k+(1-a)u2k+…+(1-al-1)uik+…+(1-ac-1)uck
u2k=au2k
uik=(ai-1)uik
uck=(ac-1)uck
其中,a∈[0,1]为增益系数。返回步骤二,重新计算隶属度矩阵。不断行进迭代过程,当达到最大的迭代次数200次时,停止迭代,跳转到步骤五;否则继续进行迭代。
步骤五:根据公式求解对应水质监测数据的缺失值。
xij为水质监测样本第i行j列处求解的缺失值,为对应的隶属度,vjk为对应的聚类中心。
本发明的有益效果:
一种改进的OCS-FCM方法,对杭州市某水质监测站CODMn,DO,pH和TP浓度监测数据进行了缺失数据的填补。该方法克服了传统FCM算法在隶属度矩阵参数选择困难的缺点,采用的实时更新隶属度矩阵的方法,实现了缺失数据填补正确率的提高,尤其是在大缺失率数据集的情况下,与改进前的算法相比,本发明提出的改进OCS-FCM算法的性能优于改进前的算法。本发明的方法可以应用在水质监测及相近领域,用作数据分析的预处理环节,为环保措施的实施提供重要参考依据。
附图说明
以下内容是对本发明方法中所用到的附图的简单说明:
图1为本发明方法的算法模型图;
图2为本发明的算法流程图。
具体实施方式
现在结合附图对本发明的技术方案做详细具体的说明。
如图1所示,本发明方法的算法模型如下:
首先把水质监测站的水质监测数据看成一个数据集,这个数据集包含正常水质数据和缺失的水质数据,然后使用改进的OCS-FCM算法对对数据集中的缺失数据进行求解,主要表现为不断迭代更新隶属度矩阵,直到达到预设的迭代次数,停止迭代。最后,将求解的缺失数据填补到原始数据集中,得到不含缺失数据的完整数据集。
如图2所示,本发明所使用算法填补缺失数据的步骤如下:
步骤一:选定数据集X,对模糊聚类优化补全策略算法的参数进行初始化,主要是模糊因子m,聚类数c,迭代次数t。考虑到水质参数CODMn的浓度范围在0-3mg/L之间,DO的浓度范围在0-15mg/L之间,pH的范围在0-14之间和TP的浓度范围在0-1之间,结合工程取值经验,取m=2,c=3,t=200。随机初始化聚类中心V。
步骤二:对隶属度矩阵进行更新,隶属度矩阵用U表示。
约束条件为:
步骤三:更新聚类中心V。
步骤四:修正隶属度矩阵。
每进行一次迭代,隶属度修正一次,不断行进迭代过程,当达到最大的迭代次数200次时,停止迭代,跳转到步骤五;否则继续进行迭代。
步骤五:算法最后一步,根据公式求解缺失值。

Claims (2)

1.一种水质监测数据缺失值填补方法,其特征在于该方法包括以下步骤:
步骤一:对模糊聚类优化补全策略算法的参数进行初始化,主要是模糊因子m,聚类数c,迭代次数t,同时,随机初始化聚类中心V;
步骤二:计算隶属度矩阵,隶属度矩阵用U表示;
约束条件为:
其中,表示经过r+1次迭代后的隶属度矩阵;Vi (r)表示经过r次迭代后第i行向量上的聚类中心,Vj (r)表示经过r次迭代后第j列向量上的聚类中心;
步骤三:更新聚类中心V;
其中,Vi (r+1)表示经过r+1次迭代后第i行向量上的聚类中心,表示经过r+1次迭代后第i行向量上的第k个隶属度矩阵;xj表示水质监测数据样本X的第j列向量;
步骤四:修正隶属度矩阵;
设样本点xk对c个类中心的隶属度分别为u1k,u2k,…,uck,每进行一次迭代,隶属度修正一次,即
u1k=u1k+(1-a)u2k+…+(1-al-1)uik+…+(1-ac-1)uck
u2k=au2k
uik=(ai-1)uik
uck=(ac-1)uck
其中,a∈[0,1]为增益系数;返回步骤二,重新计算隶属度矩阵;不断行进迭代过程,当达到最大的迭代次数200次时,停止迭代,跳转到步骤五;否则继续进行迭代;
步骤五:根据公式求解对应水质监测数据的缺失值;
xij为水质监测样本第i行j列处求解的缺失值,为对应的隶属度,vjk为对应的聚类中心。
2.根据权利要求1所述的一种水质监测数据缺失值填补方法,其特征在于:考虑到水质参数CODMn的浓度范围在0-3mg/L之间,DO的浓度范围在0-15mg/L之间,pH的范围在0-14之间和TP的浓度范围在0-1之间,结合工程取值经验,取m=2,c=3,t=200时,模糊聚类优化补全策略算法对这四类水质参数能达到较好的聚类效果。
CN201910225758.8A 2019-03-22 2019-03-22 一种水质监测数据缺失值填补方法 Expired - Fee Related CN109948715B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910225758.8A CN109948715B (zh) 2019-03-22 2019-03-22 一种水质监测数据缺失值填补方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910225758.8A CN109948715B (zh) 2019-03-22 2019-03-22 一种水质监测数据缺失值填补方法

Publications (2)

Publication Number Publication Date
CN109948715A true CN109948715A (zh) 2019-06-28
CN109948715B CN109948715B (zh) 2021-07-02

Family

ID=67011585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910225758.8A Expired - Fee Related CN109948715B (zh) 2019-03-22 2019-03-22 一种水质监测数据缺失值填补方法

Country Status (1)

Country Link
CN (1) CN109948715B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859275A (zh) * 2020-07-20 2020-10-30 厦门大学 一种基于非负矩阵分解的质谱数据缺失值填补方法及系统
CN112765141A (zh) * 2021-01-13 2021-05-07 杭州电子科技大学 基于迁移学习的连续大规模水质缺失数据填补方法
CN114994274A (zh) * 2022-05-30 2022-09-02 佛山市美的清湖净水设备有限公司 软水设备的原水硬度确定方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291765A (zh) * 2016-04-05 2017-10-24 南京航空航天大学 基于dc规划处理缺失数据的聚类方法
CN107729943A (zh) * 2017-10-23 2018-02-23 辽宁大学 信息反馈极限学习机优化估值的缺失数据模糊聚类算法及其应用
CN107818328A (zh) * 2016-09-14 2018-03-20 南京航空航天大学 结合局部信息的不完整数据相似性刻画方法
KR101865587B1 (ko) * 2016-04-29 2018-06-11 연세대학교 산학협력단 수질내 미생물 유해성 실시간 모니터링 장치 및 방법
CN109034231A (zh) * 2018-07-17 2018-12-18 辽宁大学 信息反馈rbf网络估值的不完整数据模糊聚类方法
CN109147875A (zh) * 2018-08-08 2019-01-04 合肥学院 基于模糊聚类的支持向量回归算法的污水溶解氧浓度预测方法
CN109210268A (zh) * 2018-10-19 2019-01-15 杭州电子科技大学 一种基于超低功率电磁阀的大数据处理方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291765A (zh) * 2016-04-05 2017-10-24 南京航空航天大学 基于dc规划处理缺失数据的聚类方法
KR101865587B1 (ko) * 2016-04-29 2018-06-11 연세대학교 산학협력단 수질내 미생물 유해성 실시간 모니터링 장치 및 방법
CN107818328A (zh) * 2016-09-14 2018-03-20 南京航空航天大学 结合局部信息的不完整数据相似性刻画方法
CN107729943A (zh) * 2017-10-23 2018-02-23 辽宁大学 信息反馈极限学习机优化估值的缺失数据模糊聚类算法及其应用
CN109034231A (zh) * 2018-07-17 2018-12-18 辽宁大学 信息反馈rbf网络估值的不完整数据模糊聚类方法
CN109147875A (zh) * 2018-08-08 2019-01-04 合肥学院 基于模糊聚类的支持向量回归算法的污水溶解氧浓度预测方法
CN109210268A (zh) * 2018-10-19 2019-01-15 杭州电子科技大学 一种基于超低功率电磁阀的大数据处理方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
D PENG等: "《Improving fuzzy c-means clustering based on local membership variation》", 《2010 INTERNATIONAL CONFERENCE ON IMAGE ANALYSIS AND SIGNAL PROCESSING》 *
RICHARD J. HATHAWAY等: "《Fuzzy c-Means Clustering of Incomplete Data》", 《IEEE TRANSACTIONS ON SYSTEMS》 *
于迪等: "《基于减法聚类改进的模糊c-均值算法的模糊聚类研究》", 《微型机与应用》 *
李宝兴: "《区间化分析的不完整数据模糊聚类算法研究》", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
潘文凯: "《改进的模糊聚类算法在电站运行优化中的应用》", 《中国优秀硕士学位论文全文数据库 工程科技Ⅱ辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859275A (zh) * 2020-07-20 2020-10-30 厦门大学 一种基于非负矩阵分解的质谱数据缺失值填补方法及系统
CN111859275B (zh) * 2020-07-20 2022-08-12 厦门大学 一种基于非负矩阵分解的质谱数据缺失值填补方法及系统
CN112765141A (zh) * 2021-01-13 2021-05-07 杭州电子科技大学 基于迁移学习的连续大规模水质缺失数据填补方法
CN114994274A (zh) * 2022-05-30 2022-09-02 佛山市美的清湖净水设备有限公司 软水设备的原水硬度确定方法及装置

Also Published As

Publication number Publication date
CN109948715B (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
CN109948715A (zh) 一种水质监测数据缺失值填补方法
CN111159426B (zh) 一种基于图卷积神经网络的产业图谱融合方法
CN106682355B (zh) 一种基于pso-ga混合算法的水文模型参数率定方法
CN108985269A (zh) 基于卷积和空洞卷积结构的融合网络驾驶环境感知模型
WO2023029461A1 (zh) 海量高维ais轨迹数据聚类方法
CN109272146A (zh) 一种基于深度学习模型和bp神经网络校正的洪水预测方法
CN110147450A (zh) 一种知识图谱的知识补全方法及装置
CN107862261A (zh) 基于多尺度卷积神经网络的图像人群计数方法
CN105206057B (zh) 基于浮动车居民出行热点区域的检测方法及系统
CN108763376A (zh) 融合关系路径、类型、实体描述信息的知识表示学习方法
CN106484758B (zh) 一种基于网格和聚类优化的实时数据流核密度估计方法
CN107292383B (zh) 基于深度学习算法与混合整数线性规划相结合的水质波动区间预测方法
CN108460485A (zh) 一种基于改进蚁群算法的旅行商问题求解方法
CN111723780A (zh) 基于高分辨率遥感图像的跨域数据的定向迁移方法及系统
CN107203810A (zh) 一种基于深度网络的降水量预测方法
CN109831392A (zh) 半监督网络流量分类方法
CN112966853B (zh) 基于时空残差混合模型的城市路网短时交通流预测方法
CN109933674A (zh) 一种基于属性聚合的知识图谱嵌入方法及其存储介质
CN107862877A (zh) 一种城市交通信号模糊控制方法
CN112633584B (zh) 基于改进的LSTM-seq2seq模型的河流突发水污染事故水质预测方法
CN111523706A (zh) 一种基于深度学习组合模型的断面车道级短时交通流预测方法
CN112950062B (zh) 基于动态系统响应曲线和lstm的山洪预报实时校正方法
CN105740917A (zh) 带有标签学习的高分遥感图像的半监督多视图特征选择方法
CN110289987B (zh) 基于表征学习的多智能体系统网络抗攻击能力评估方法
CN107274086A (zh) 一种基于隐马尔可夫模型的网格化社会治理信息方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210702