CN111275307A - 一种水质自动在线站高频连续观测数据质量控制方法 - Google Patents
一种水质自动在线站高频连续观测数据质量控制方法 Download PDFInfo
- Publication number
- CN111275307A CN111275307A CN202010048907.0A CN202010048907A CN111275307A CN 111275307 A CN111275307 A CN 111275307A CN 202010048907 A CN202010048907 A CN 202010048907A CN 111275307 A CN111275307 A CN 111275307A
- Authority
- CN
- China
- Prior art keywords
- value
- water quality
- sequence
- data
- abnormal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 title claims abstract description 127
- 238000003908 quality control method Methods 0.000 title claims abstract description 37
- 230000002159 abnormal effect Effects 0.000 claims abstract description 99
- 238000001514 detection method Methods 0.000 claims abstract description 81
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000013112 stability test Methods 0.000 claims abstract description 8
- 238000000034 method Methods 0.000 claims description 37
- 238000005070 sampling Methods 0.000 claims description 19
- RGCLLPNLLBQHPF-HJWRWDBZSA-N phosphamidon Chemical compound CCN(CC)C(=O)C(\Cl)=C(/C)OP(=O)(OC)OC RGCLLPNLLBQHPF-HJWRWDBZSA-N 0.000 claims description 13
- 238000010998 test method Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 230000004927 fusion Effects 0.000 claims description 8
- 238000007499 fusion processing Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000012544 monitoring process Methods 0.000 description 20
- 238000012360 testing method Methods 0.000 description 16
- 239000002352 surface water Substances 0.000 description 6
- 238000005259 measurement Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013450 outlier detection Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A20/00—Water conservation; Efficient water supply; Efficient water use
- Y02A20/152—Water filtration
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Testing Or Calibration Of Command Recording Devices (AREA)
- Testing And Monitoring For Control Systems (AREA)
Abstract
本发明公开的一种水质自动在线站高频连续观测数据质量控制方法,通过采集模块获取第一水质观测序列数据,得到时间序列数据集;对时间序列数据集进行差分运算,并进行平稳性检测,得到平稳差分时间序列数据;对其数据确定统计窗口值大小和滑动步长取值范围,按照统计窗口值大小和滑动步长开展滑动检测;通过若干种检测方法进行异常值检测,将得到相应异常值,并进行合并得到综合异常值;对异常值序列点位进行重构处理,得到第二水质观测序列数据,实现水质观测数据质量控制;本发明对水质进行异常值检测,并进行重构,结合数据差分处理、平稳性检验及统计窗口与滑动检测,实现水质自动在线站数据进行质量控制,具有行业推广价值和应用前景。
Description
技术领域
本发明涉及水环境信息技术的研究领域,特别涉及一种水质自动在线站高频连续观测数据质量控制方法。
背景技术
随着污染防治攻坚战不断深入、监测技术的不断发展,自动监测已进入水环境质量监测领域,具有时间和空间上连续监测的优势,弥补了手工监测的不足。地表水水质自动监测系统由地表水水质自动监测站(简称水站)、水质自动监测数据平台(简称数据平台)组成。目前全国已建成2000多个国家地表水水质自动站,大规模水质自动监测站建设和“互联网+”大数据时代的到来,对环境监测与环境管理提出了更高的要求。
河流水质观测异常值或缺失值未适当修正,将对河流水质及污染情况误判,从而可能导致错误的决策。数据质量控制离不开数据挖掘程序算法和专家经验。目前国内外数据质量控制技术的在海洋观测数据方面应用较多,对于地表水监测数据质量控制方面的研究较少。随着大规模地表水水质自动监测站建设,水质监测频率大幅提高,数据量日益增加,怎样结合人为经验与计算机算法有效地提取、选择和处理获取的数据,实现数据的可靠性、保证信息的完整性并降低数据的不确定性,是亟待解决的问题。地表水水质参数之间具有协同或相反变化趋势,通过专家先验知识对参数相关性与趋势性分析对数据异常值把控不可或缺。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种水质自动在线站高频连续观测数据质量控制方法,为了水质自动在线站高频连续观测数据异常值检测和数据集质量控制,提出了水质高频连续观测时间序列数据平稳处理方法并进行平稳性检验,在此基础上提出如下核心假设:在一个较短的时间内,获取测量属性的值近似表现为一种物理状态,即等同于异常值检测中的平行重复观测。选择3种核心质量控制算法应用于单参数和多参数高频观测时间序列的异常值检测,并在此基础上实现对异常数据的重构,是水质自动在线观测数据的质量控制一种实际可行的操作方法。
本发明的目的通过以下的技术方案实现:
一种水质自动在线站高频连续观测数据质量控制方法,其特征在于,包括以下步骤:
通过水质传感器采集模块连续获取第一水质观测序列数据,得到时间序列数据,并建立数据集;
对时间序列数据集进行差分运算,并对差分时间序列进行平稳性检测,得到平稳差分时间序列数据;
对平稳差分时间序列数据,确定统计窗口值大小和滑动步长取值范围,按照统计窗口值大小和滑动步长开展滑动检测;
通过若干种检测方法进行异常值检测,将得到相应异常值,并对不同方法的结果进行合并,得到综合异常值;
对异常值序列点位进行重构处理,得到第二水质观测序列数据,实现高频连续的水质观测数据质量控制。
进一步地,所述第一水质观测序列为水质传感器采集模块获得的连续高频数据序列;所述第二水质观测序列为异常值检测并进行重构处理后得到的新的序列。
进一步地,所述差分运算具体如下:
其中,Δy(i)t为第i个水质观测属性在时刻t的差分观测值,y(i)t为第i个水质观测属性在时刻t的实际观测值,y(i)t-1为第i个水质观测属性在时刻t-1的实际观测值,Δt为采样周期。
进一步地,所述采样周期范围是:1~14400s,即采样最高周期为1秒,采样最低周期为4小时。
进一步地,第一水质观测序列的长度不低于200个样本。
进一步地,所述序列平稳性检测采用单位根检测方法。
进一步地,所述进行统计窗口并进行滑动检测,具体如下:
通过实际序列的相关关系代替平行规则,统计窗口w即选取时间序列值大小,其中w∈[3,20],当采样周期越大时,统计窗口越小;当采样周期越小时,统计窗口越大;滑动步长即时间序列每次滑动距离,其取值范围为[1,w-1];统计窗口和滑动步长值的确定是人为经验自主设定,对于没有相关经验的用户来说可采用如下推荐方法:对于采样周期小于10分钟的序列,统计初始窗口可定义为20,对于采样周期大于10分钟的序列,统计初始窗口可定义为10;对于序列长度低于10000样本的序列,滑动窗口可默认为1,对于序列长度大于10000样本的序列,滑动窗口可默认为5。
进一步地,所述若干种检测方法进行异常值检测包括莱茵达检验法、狄克逊检验法、格拉布斯检验法。
进一步地,所述莱茵达检验法进行异常值检测具体如下:
计算并获得贝塞尔计算值S(i)t:
其中,δ(i)t为第i个水质观测属性在时刻t的差分统计窗口内标准差,S(i)t为第i个水质观测属性在时刻t的差分统计窗口内内赛尔计算值,w为统计窗口取值,Δy(i)t+j为时刻t+j的观测序列差分值,为差分序列窗口内的平均值,w-1为自由度;
所述狄克逊检验法进行异常值检测具体如下:
将第i个水质观测序列窗口内的差分值按照从小到大排列,将排列好序列数据的最高值和最低值作为异常值的检验对象,检验高端值和地端值是否异常按下列公式,算出Q值:
其中,Δy(i)'t+w为新排序后序列的最大值,Δy(i)'t+1为新排序后序列的最小值,Δy(i)'t+w-1为新排序后序列的次大值,Δy(i)'t+2为新排序后序列的次小值,Δy(i)'t+w-2为新排序后序列的第3大值,Δy(i)'t+3为新排序后序列的第3小值。
根据选定的显著水平a和水质观测序列窗口w,依据狄克逊准则检测临界值判断表得到临界值Qa,再根据离群数据判别准则,进行取舍;
所述离群数据判别准则如下:
若Q>Q0.01,则可疑值为异常值,可疑值进行再处理;
若Q0.05<Q<Q0.01,则可疑值为偏离值,可疑值进行保留或再处理;
若Q<Q0.05,则可疑值为正常值,可疑值进行保留;
所述格拉布斯检测法进行异常值检测具体如下:
将第i个水质观测序列窗口内的差分值从小到大排列,确定最大值或最小值为可疑值;即对序列按照从小到大进行排序,第一位是最小值,最后一位为最大值,按照格拉布斯方法的原理,最大值或者最小值先定为初步的可疑值;
计算并得到差分序列窗口内的平均值和标准差;
计算最大值和最小值与平均值的差值,得到最终的可疑值;
计算G(i)t+j值:
其中,t+j为时间序列对应的时刻,G(i)t+j为t+j时刻的格拉布斯值,Δy(i)t+j为时刻t+j的观测序列差分值,为差分序列窗口内的平均值,δ(i)t为第i个水质观测属性在时刻t的差分统计窗口内标准差。
对G(i)t+j值和Grubbs准则检测临界值Gp(w)比较,如果G(i)t+j值大于Grubbs准则检测临界值Gp(w),则该测量数据为异常值。G(i)t+j值是根据上述公式计算得到的结果值,命名为格拉布斯(G(i)t+j)值,通过与规定的Gp(w)比较,确定这个时刻的观测值是否异常。
进一步地,所述将不同检测结果的异常值进行合并,得到最后异常检测结果,具体如下:
ZHY(i)=LY(i)∪QY(i)∪GY(i)
其中,ZHY(i)表示综合异常值合并结果,LY(i)表示莱茵达检验法检测的结果,QY(i)表示狄克逊检验法检测的结果,GY(i)表示格拉布斯法检测的结果,三者检测结果取并集。
进一步地,所述对异常值进行重构,具体如下:
对于单要素水质数据,采用邻近K个点位观测值的几何平均值代替重构的单要素水质数据重构异常值,
其中,t+j为异常值排列序号,且检测出该时刻为值异常;Y(1)t+j为该时刻重构后的新值;y(1)t+j-2,y(1)t+j-1,y(1)t+j,y(1)t+j+1,y(1)t+j+2为对应时刻的原始观测值,K为点位个数;
对于多要素水质数据,将多要素水质差分数据进行融合,融合过程如下:
对差分序列进行归一化处理:
其中,ΔNy(i)t为归一化后序列值,Δy(i)t为第i个水质观测属性在时刻t的差分值,min(Δy(i)为第i个水质观测属性差分序列最小值,max(Δy(i))第i个水质观测属性差分序列最大值。
将归一化后序列值通过相关系数进行融合:
其中,ΔCNy(i)t为融合后序列值,k为观测水质个数,γik为参数i和参数k的相关系数;
分别对各个要素水质数据进行差分处理和平稳性检验后,设定统计窗口值大小和滑动步长,通过检测方法获得异常值并进行合并,得到最后异常值检测结果,采用邻近K个点位观测值的几何平均值代替重构的多要素水质数据重构异常值:
其中,t+J为时间序列对应的时刻,且通过多要素水质融合后检测出该时刻为值异常;Y(1)t+J为该时刻重构后的新值;y(1)t+J-2,y(1)t+J-1,y(1)t+J,y(1)t+J+1,y(1)t+J+2为对应时刻的原始观测值,K为点位个数。
本发明与现有技术相比,具有如下优点和有益效果:
本发明采用对水质自动在线站高频连续观测数据进行异常值检测,并对异常值进行处理和重构,结合数据差分处理、平稳性检验及统计窗口与滑动检测技术方法实现对水质自动在线站数据进行质量控制;实施过程可行强、计算过程便于程序集成、计算结果精度可靠,具有较高的行业推广价值和应用前景。
附图说明
图1为本发明所述一种水质自动在线站高频连续观测数据质量控制方法的流程图;
图2为本发明所述实施例中原始水位观测数据和一阶差分数据示意图;
图3(a)-图3(d)为本发明所述实施例中单要素数据质量控制结果示意图;
图4为本发明所述实施例中TP异常值检测与综合质量控制结果示意图;
图5为本发明所述实施例中NH3-N和TP观测数据散点示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例:
一种水质自动在线站高频连续观测数据质量控制方法,如图1所示,包括以下步骤:
第一步:通过水质传感器采集模块连续获取第一水质观测数据信息,得到观测时间序列数据,并建立数据集;具体为:在一个较短的时间内,获取测量属性的值近似表现为一种物理状态,即等同于异常值检测中的平行重复观测,因此序列要满足平稳性的需求;所述第一水质观测序列为水质传感器采集模块获得的连续高频数据序列;
第二步:对时间序列数据集进行差分运算,并对差分时间序列进行平稳性检测,得到平稳差分时间序列数据;具体为:对于观测时间序列数据而言,其序列数据本身通常都不是平稳数据,其差分运算的目的,就是使数据满足平稳性的需求,为后续工作的开展提供条件。非平稳序列往往一次到两次差分之后,就会变成平稳序列,计算观测序列的差分序列,结果如图2所示。所述差分运算具体如下:
Δy(i)t=y(i)t-y(i)t-1,
其中,Δy(i)t为第i个水质观测属性在时刻t的差分观测值,y(i)t为第i个水质观测属性在时刻t的实际观测值,y(i)t-1为第i个水质观测属性在时刻t-1的实际观测值;
对于不等时间间隔的数据差分计算,则要考虑时间因素,则公式可改为:
其中,Δt为采样周期;特别需要注意的是,采样周期必须在一个合理小尺度的时间范围内,时间间隔太长,监测属性变化可能会很大,这样,等同于平行实验的假设就不成立,这里的采样最高周期为1秒,采样最低周期为4小时,序列的长度不低于200个样本。对于序列平稳性的检验方法有很多,这里推荐最为常用的单位根(ADF,Augmented Dickey-Fuller test)检验方法。
第三步:对平稳差分时间序列数据,确定统计窗口值大小和滑动步长取值范围,按照统计窗口值大小和滑动步长开展滑动检测;具体为:统计窗口在本发明中相当于实验室平行观测实验的次数,由于水质自动观测站常放置于野外,难以做到平行观测,因此通过时间序列的相关关系代替平行观测,这里的统计窗口即为选取的时间序列值的大小,根经验,这里推荐统计窗口w的大小为[3,20]。传感器采样周期越大,窗口选择需越小,传感器采样周期越小,窗口选择需越大。由于需要质量控制和分析的观测序列通常规模很大,要实现所有数据的异常值检测和质量控制,需要借助时间序列滑动检测的技术进行处理,滑动步长即为时间序列每次滑动的距离,取值应该小于窗口的大小。滑动步长的推荐取值范围为[1,w-1],这里的w为统计窗口取值。统计窗口和滑动步长值的确定是人为经验自主设定,对于没有相关经验的用户来说可采用如下推荐方法:对于采样周期小于10分钟的序列,统计初始窗口可定义为20,对于采样周期大于10分钟的序列,统计初始窗口可定义为10;对于序列长度低于10000样本的序列,滑动窗口可默认为1,对于序列长度大于10000样本的序列,滑动窗口可默认为5。
第四步:通过若干种检测方法进行异常值检测,将得到相应异常值,并对不同方法的结果进行合并,得到综合异常值;具体为:所述若干种检测方法进行异常值检测包括莱茵达检验法、狄克逊检验法、格拉布斯检验法。
进一步地,所述莱茵达检验法又称3δ检验法,根据误差理论,一般情况下随机误差δ服从正态分布。δ为标准差,一般是未知的,通常用贝塞尔公式算得S代替δ,进行异常值检测具体如下:
计算并获得贝塞尔计算值S(i)t:
其中,δ(i)t为第i个水质观测属性在时刻t的差分统计窗口内标准差,S(i)t为第i个水质观测属性在时刻t的差分统计窗口内内赛尔计算值,w为统计窗口取值,Δy(i)t+j为时刻t+j的观测序列差分值,为差分序列窗口内的平均值,w-1为自由度;
所述狄克逊检验法又称Dixon检验法,根据测量数据按照大小排列的顺序差来识别粗差,常用于平行试验测量数据的一致性检验和剔除异常值检验,这里的平行观测试验以连续观测的统计窗口大小来代替,进行异常值检测具体如下:
将第i个水质观测序列窗口内的差分值Δy(i)t+1,Δy(i)t+2,…Δy(i)t+w按照从小到大排列Δy(i)'t+1,Δy(i)'t+2,…Δy(i)'t+w,将排列好序列数据的最高值和最低值作为异常值的检验对象,检验高端值和地端值是否异常按下列公式,算出Q值:
其中,Δy(i)'t+w为新排序后序列的最大值,Δy(i)'t+1为新排序后序列的最小值,Δy(i)'t+w-1为新排序后序列的次大值,Δy(i)'t+2为新排序后序列的次小值,Δy(i)'t+w-2为新排序后序列的第3大值,Δy(i)'t+3为新排序后序列的第3小值。
计算好Q值之后,根据选定的显著水平a和水质观测序列窗口w,依据狄克逊准则检测临界值判断表1-1得到临界值Qa,再根据离群数据判别准则,进行取舍;
所述离群数据判别准则如下:
若Q>Q0.01,则可疑值为异常值,可疑值进行再处理;
若Q0.05<Q<Q0.01,则可疑值为偏离值,可疑值进行保留或再处理;
若Q<Q0.05,则可疑值为正常值,可疑值进行保留;
表1-1狄克逊准则检测临界值判别表
所述格拉布斯检测法又称Grubbs检验法,是根据顺序统计量的某种分布规律提出的一种判别标准,一组测量数据中,如果个别数据偏离平均值很远,那么这个(这些)数据称作“可疑值”。格拉布斯法判断,能将“可疑值”从此组测量数据中剔除而不参与平均值的计算,那么该“可疑值”就称作“异常值(粗大误差)”,进行异常值检测具体如下:
将第i个水质观测序列窗口内的差分值Δy(i)t+1,Δy(i)t+2,…Δy(i)t+w从小到大排列Δy(i)'t+1,Δy(i)'t+2,…Δy(i)'t+w,确定最大值或最小值为可疑值;即对序列按照从从小到大进行排序,第一位是最小值,最后一位为最大值,按照格拉布斯方法的原理,最大值或者最小值先定为初步的可疑值;
计算并得到差分序列窗口内的平均值和标准差;
计算最大值和最小值与平均值的差值,得到最终的可疑值;
计算G(i)t+j值:
其中,t+j为时间序列对应的时刻,G(i)t+j为t+j时刻的格拉布斯值,Δy(i)t+j为时刻t+j的观测序列差分值,为差分序列窗口内的平均值,δ(i)t为第i个水质观测属性在时刻t的差分统计窗口内标准差。
对G(i)t+j值和Grubbs准则检测临界值判别表1-2中的Gp(w)比较,如果G(i)t+j值大于Grubbs准则检测临界值Gp(w),则该测量数据为异常值。G(i)t+j值是根据上述公式计算得到的结果值,命名为格拉布斯(G(i)t+j)值,通过与规定的Gp(w)比较,确定这个时刻的观测值是否异常。
表1-2 Grubbs准则检测临界值判别表
第五步:对异常值进行重构,得到高频率数据序列数据,实现水质质量控制;即得到第二水质观测序列数据,所述第二水质观测序列为异常值检测并进行重构处理后得到的新的序列。
其中,单要素异常值检测与重构。即i=1,分别对单要素水质数据进行差分处理和平稳性检验以后,设定统计窗口值大小和滑动步长,按照3种不同方法分别识别异常值后,对3种检测结果的异常值进行合并,得到最后异常值检测结果,异常值的重构采用临近5个点位观测值的几何平均值代替,具体计算方法如下:
其中,t+j是时间序列对应的时刻,且检测出该时刻为值异常;Y(1)t+j为该时刻重构后的新值;y(1)t+j-2,y(1)t+j-1,y(1)t+j,y(1)t+j+1,y(1)t+j+2为对应时刻的原始观测值,K为点位个数,这里取5。
多要素异常值检测与重构。考虑水质多参数之间可能存在相关关系,将不同传感器获取的数据进行综合考虑和异常值检测,会提高异常值检测结果的可靠程度,首先需要对多参数水质差分数据进行融合,融合方法如下:
对差分序列进行归一化处理,消除不同水质参数之间的量纲影响,
其中,ΔNy(i)t为归一化后序列值。Δy(i)t为第i个水质观测属性在时刻t的差分值,min(Δy(i)为第i个水质观测属性差分序列最小值,max(Δy(i))第i个水质观测属性差分序列最大值;
归一化后的多参数序列融合通过相关系数进行融合,具体计算如下:
上式中ΔCNy(i)t是融合后的新的序列值,k是观测水质的个数,γik是参数i和参数k的相关系数。
分别对各个要素水质数据进行差分处理和平稳性检验以后,设定统计窗口值大小和滑动步长,按照3种不同方法分别识别异常值后,对3种检测结果的异常值进行合并,得到最后异常值检测结果,同样异常值的重构采用临近5个点位观测值的几何平均值代替,即:
t+J为时间序列对应的时刻,且通过多要素水质融合后检测出该时刻为值异常;Y(1)t+J为该时刻重构后的新值;y(1)t+J-2,y(1)t+J-1,y(1)t+J,y(1)t+J+1,y(1)t+J+2为对应时刻的原始观测值,K为点位个数,这里取5。
本发明能够科学的对水质自动在线站高频连续观测数据进行异常值检测,并对异常值进行处理和重构,提出的数据差分处理、平稳性检验及统计窗口与滑动检测技术方法可实现对水质自动在线站数据进行质量控制的一种实际操作方法。本发明方法是水质自动观测数据质量控制方法的一项创新,其实施过程可行强、计算过程便于程序集成、计算结果精度可靠,具有较高的行业推广价值和应用前景。
为了验证本发明的实际应用效果,选择了某水质自动在线站点实际运行的实测的水质在线站高频连续观测数据进行验证。具体监测数据属性见表1-3所示:
表1-3自动监测站水质监测属性信息表
以Depth作为单因子要素,CODcr、NH3-N、TP、DO作为多因素水质因子验证本发明方法的有效性,单要素数据质量控制的结果如图3(a)-图3(d)所示,异常值检测结果相关指标信息见表1-4。
表1-4自动监测站单因素水质异常值检测指标信息表
CODcr、NH3-N、TP、DO等多因素水质因子的检测异常值检测信息表见表1-5所示,以TP为代表的异常值检测与综合质量控制结果如图4所示。
表1-5自动监测站多因素水质异常值检测指标信息表
采用ADF的平稳性检验方法对原始数据和一阶差分数据序列进行检验,得到的相关参数结果见表1-6所示,从表1中可以看出,原始水位数据原假设为H=0,即存在单位根,数据不平稳。一阶差分数据原假设为H=1,即不存在单位根,数据平稳。
表1-6原始水位数据和一阶差分数据检验结果
根据表1-7可以看出NH3-N和TP观测数据的相关性最大,两组数据的散点图见图5所示。
表1-7多参数水质数据相关系数表
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (9)
1.一种水质自动在线站高频连续观测数据质量控制方法,其特征在于,包括以下步骤:
通过水质传感器采集模块连续获取第一水质观测序列数据,得到时间序列数据,并建立数据集;
对时间序列数据集进行差分运算,并对差分时间序列进行平稳性检测,得到平稳差分时间序列数据;
对平稳差分时间序列数据,确定统计窗口值大小和滑动步长取值范围,按照统计窗口值大小和滑动步长开展滑动检测;
通过若干种检测方法进行异常值检测,将得到相应异常值,并对不同方法的结果进行合并,得到综合异常值;
对异常值序列点位进行重构处理,得到第二水质观测序列数据,实现高频连续的水质观测数据质量控制。
3.根据权利要求2所述的一种水质自动在线站高频连续观测数据质量控制方法,其特征在于,所述采样周期范围是:1~14400s,第一水质观测序列长度不低于200个样本。
4.根据权利要求1所述的一种水质自动在线站高频连续观测数据质量控制方法,其特征在于,所述序列平稳性检测采用单位根检测方法。
5.根据权利要求1所述的一种水质自动在线站高频连续观测数据质量控制方法,其特征在于,所述确定统计窗口值大小和滑动步长取值范围,按照统计窗口值大小和滑动步长开展滑动检测,具体如下:
通过实际序列的相关关系代替平行规则,统计窗口w即选取时间序列值大小,当采样周期越大时,统计窗口越小;当采样周期越小时,统计窗口越大;滑动步长即时间序列每次滑动距离,其取值范围为[1,w-1]。
6.根据权利要求1所述的一种水质自动在线站高频连续观测数据质量控制方法,其特征在于,所述若干种检测方法进行异常值检测包括莱茵达检验法、狄克逊检验法、格拉布斯检验法。
7.根据权利要求6所述的一种水质自动在线站高频连续观测数据质量控制方法,其特征在于,所述莱茵达检验法进行异常值检测具体如下:
计算并获得贝塞尔计算值S(i)t:
其中,δ(i)t为第i个水质观测属性在时刻t的差分统计窗口内标准差,S(i)t为第i个水质观测属性在时刻t的差分统计窗口内内赛尔计算值,w为统计窗口取值,Δy(i)t+j为时刻t+j的观测序列差分值,为差分序列窗口内的平均值,w-1为自由度;
所述狄克逊检验法进行异常值检测具体如下:
将第i个水质观测序列窗口内的差分值按照从小到大排列,将排列好序列数据的最高值和最低值作为异常值的检验对象,检验高端值和地端值是否异常按下列公式,算出Q值:
其中,Δy(i)'t+w为新排序后序列的最大值,Δy(i)'t+1为新排序后序列的最小值,Δy(i)'t+w-1为新排序后序列的次大值,Δy(i)'t+2为新排序后序列的次小值,Δy(i)'t+w-2为新排序后序列的第3大值,Δy(i)'t+3为新排序后序列的第3小值;
根据选定的显著水平a和水质观测序列窗口w,依据狄克逊准则检测临界值判断表得到临界值Qa,再根据离群数据判别准则,进行取舍;
所述离群数据判别准则如下:
若Q>Q0.01,则可疑值为异常值,可疑值进行再处理;
若Q0.05<Q<Q0.01,则可疑值为偏离值,可疑值进行保留或再处理;
若Q<Q0.05,则可疑值为正常值,可疑值进行保留;
所述格拉布斯检测法进行异常值检测具体如下:
将第i个水质观测序列窗口内的差分值从小到大排列,确定最大值或最小值为可疑值;即对序列按照从小到大进行排序,第一位是最小值,最后一位为最大值,按照格拉布斯方法的原理,最大值或者最小值先定为初步可疑值;计算并得到差分序列窗口内的平均值和标准差;
计算最大值和最小值与平均值的差值,得到最终可疑值;
计算G(i)t+j值:
其中,t+j为时间序列对应的时刻,G(i)t+j为t+j时刻的格拉布斯值,Δy(i)t+j为时刻t+j的观测序列差分值,为差分序列窗口内的平均值,δ(i)t为第i个水质观测属性在时刻t的差分统计窗口内标准差;
对G(i)t+j值和Grubbs准则检测临界值Gp(w)比较,如果G(i)t+j值大于Grubbs准则检测临界值Gp(w),则该测量数据为异常值。
8.根据权利要求7所述的一种水质自动在线站高频连续观测数据质量控制方法,其特征在于,所述将不同检测结果的异常值进行合并,得到最后异常检测结果,具体如下:
ZHY(i)=LY(i)∪QY(i)∪GY(i)
其中,ZHY(i)表示综合异常值合并结果,LY(i)表示莱茵达检验法检测的结果,QY(i)表示狄克逊检验法检测的结果,GY(i)表示格拉布斯法检测的结果,三者检测结果取并集。
9.根据权利要求8所述的一种水质自动在线站高频连续观测数据质量控制方法,其特征在于,所述对异常值序列点位进行重构处理,具体如下:
对于单要素水质数据,采用邻近K个点位观测值的几何平均值代替重构的单要素水质数据重构异常值,
其中,t+j为时间序列对应的时刻,且检测出该时刻为值异常;Y(1)t+j为该时刻重构后的新值;y(1)t+j-2,y(1)t+j-1,y(1)t+j,y(1)t+j+1,y(1)t+j+2为对应时刻的原始观测值,K为点位观测值个数;
对于多要素水质数据,将多要素水质差分数据进行融合,融合过程如下:
对差分序列进行归一化处理:
其中,ΔNy(i)t为归一化后序列值,Δy(i)t为第i个水质观测属性在时刻t的差分值,min(Δy(i))为第i个水质观测属性差分序列最小值,max(Δy(i))第i个水质观测属性差分序列最大值;
将归一化后序列值通过相关系数进行融合:
其中,ΔCNy(i)t为融合后序列值,k为观测水质个数,γik为参数i和参数k的相关系数;
分别对各个要素水质数据进行差分处理和平稳性检验后,设定统计窗口值大小和滑动步长,通过检测方法获得异常值并进行合并,得到最后异常值检测结果,采用邻近K个点位观测值的几何平均值代替重构的多要素水质数据重构异常值:
其中,t+J为时间序列对应的时刻,且通过多要素水质融合后检测出该时刻为值异常;Y(1)t+J为该时刻重构后的新值;y(1)t+J-2,y(1)t+J-1,y(1)t+J,y(1)t+J+1,y(1)t+J+2为对应时刻的原始观测值,K为点位个数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010048907.0A CN111275307B (zh) | 2020-01-16 | 2020-01-16 | 一种水质自动在线站高频连续观测数据质量控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010048907.0A CN111275307B (zh) | 2020-01-16 | 2020-01-16 | 一种水质自动在线站高频连续观测数据质量控制方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111275307A true CN111275307A (zh) | 2020-06-12 |
CN111275307B CN111275307B (zh) | 2023-09-05 |
Family
ID=71003470
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010048907.0A Active CN111275307B (zh) | 2020-01-16 | 2020-01-16 | 一种水质自动在线站高频连续观测数据质量控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111275307B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287988A (zh) * | 2020-10-19 | 2021-01-29 | 广东长天思源环保科技股份有限公司 | 一种水污染源在线监测数据异常的识别方法 |
CN113157204A (zh) * | 2021-01-29 | 2021-07-23 | 杭州优云软件有限公司 | 一种基于二阶差分法识别人工清理行为的磁盘容量预测方法 |
CN113157684A (zh) * | 2021-05-13 | 2021-07-23 | 中山大学 | 一种水利海量数据的查错方法 |
CN113225391A (zh) * | 2021-04-27 | 2021-08-06 | 东莞中山大学研究院 | 基于滑动窗口异常检测的大气环境监测质量监控方法及计算设备 |
CN113536233A (zh) * | 2021-07-12 | 2021-10-22 | 中国科学院海洋研究所 | 海洋浮标数据质量控制系统 |
CN113742927A (zh) * | 2021-09-08 | 2021-12-03 | 成都卡普数据服务有限责任公司 | 一种气象预报数据质量检测的方法 |
CN113792988A (zh) * | 2021-08-24 | 2021-12-14 | 河北先河环保科技股份有限公司 | 一种企业在线监测数据异常识别方法 |
CN113959635A (zh) * | 2021-09-02 | 2022-01-21 | 中国科学院合肥物质科学研究院 | 用于柔性力敏传感器阵列的液压型标定装置及标定方法 |
CN114564629A (zh) * | 2022-04-22 | 2022-05-31 | 国家海洋技术中心 | 异常数据处理方法、装置、计算机设备和存储介质 |
CN115859209A (zh) * | 2023-02-08 | 2023-03-28 | 烟台市福山区动物疫病预防控制中心 | 基于饲料消耗数据的畜牧业家禽养殖异常识别方法 |
CN117010232A (zh) * | 2023-06-27 | 2023-11-07 | 西安理工大学 | 基于gpu加速技术的城市非点源污染全过程高分辨率模拟方法 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005254880A (ja) * | 2004-03-09 | 2005-09-22 | Oiles Ind Co Ltd | ラックピニオン式ステアリング装置用のラックガイド |
US20080154512A1 (en) * | 2006-07-01 | 2008-06-26 | Harrison Leong | Systems and methods for baselining and real-time pcr data analysis |
US20080167837A1 (en) * | 2007-01-08 | 2008-07-10 | International Business Machines Corporation | Determining a window size for outlier detection |
US20110227786A1 (en) * | 2010-03-18 | 2011-09-22 | Takeshi Ono | Abnormal value detection apparatus for satellite positioning system, abnormal value detection method, and abnormal value detection program |
CN103020478A (zh) * | 2012-12-28 | 2013-04-03 | 杭州师范大学 | 一种海洋水色遥感产品真实性检验的方法 |
CN104268679A (zh) * | 2014-09-16 | 2015-01-07 | 国家海洋信息中心 | 海洋环境监测数据流程化处理方法及装置 |
CN106203730A (zh) * | 2016-07-21 | 2016-12-07 | 杭州中粮包装有限公司 | 一种基于感官品评预测铝瓶内涂层固化质量的方法 |
CN107862338A (zh) * | 2017-11-11 | 2018-03-30 | 福建四创软件有限公司 | 基于双检验法的海洋环境监测数据质量管理方法及系统 |
CN108520267A (zh) * | 2018-03-06 | 2018-09-11 | 河海大学 | 一种基于时空特征的水文遥测数据异常检测方法 |
CN108564229A (zh) * | 2018-04-26 | 2018-09-21 | 广东省广业科技集团有限公司 | 一种基于arima模型的工业污水进水量预测的方法 |
CN109472321A (zh) * | 2018-12-03 | 2019-03-15 | 北京工业大学 | 一种面向时间序列型地表水质大数据的预测与评估模型构建方法 |
CN110008080A (zh) * | 2018-12-25 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 基于时间序列的业务指标异常检测方法、装置和电子设备 |
CN110083803A (zh) * | 2019-04-22 | 2019-08-02 | 水利部信息中心 | 基于时间序列arima模型取水异常检测方法与系统 |
CN110231447A (zh) * | 2019-06-10 | 2019-09-13 | 精锐视觉智能科技(深圳)有限公司 | 水质异常检测的方法、装置及终端设备 |
CN110378858A (zh) * | 2019-07-04 | 2019-10-25 | 浙江大学 | 一种基于经验正交函数分解法的静止海洋水色卫星数据重构方法 |
-
2020
- 2020-01-16 CN CN202010048907.0A patent/CN111275307B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005254880A (ja) * | 2004-03-09 | 2005-09-22 | Oiles Ind Co Ltd | ラックピニオン式ステアリング装置用のラックガイド |
US20080154512A1 (en) * | 2006-07-01 | 2008-06-26 | Harrison Leong | Systems and methods for baselining and real-time pcr data analysis |
US20080167837A1 (en) * | 2007-01-08 | 2008-07-10 | International Business Machines Corporation | Determining a window size for outlier detection |
US20110227786A1 (en) * | 2010-03-18 | 2011-09-22 | Takeshi Ono | Abnormal value detection apparatus for satellite positioning system, abnormal value detection method, and abnormal value detection program |
CN103020478A (zh) * | 2012-12-28 | 2013-04-03 | 杭州师范大学 | 一种海洋水色遥感产品真实性检验的方法 |
CN104268679A (zh) * | 2014-09-16 | 2015-01-07 | 国家海洋信息中心 | 海洋环境监测数据流程化处理方法及装置 |
CN106203730A (zh) * | 2016-07-21 | 2016-12-07 | 杭州中粮包装有限公司 | 一种基于感官品评预测铝瓶内涂层固化质量的方法 |
CN107862338A (zh) * | 2017-11-11 | 2018-03-30 | 福建四创软件有限公司 | 基于双检验法的海洋环境监测数据质量管理方法及系统 |
CN108520267A (zh) * | 2018-03-06 | 2018-09-11 | 河海大学 | 一种基于时空特征的水文遥测数据异常检测方法 |
CN108564229A (zh) * | 2018-04-26 | 2018-09-21 | 广东省广业科技集团有限公司 | 一种基于arima模型的工业污水进水量预测的方法 |
CN109472321A (zh) * | 2018-12-03 | 2019-03-15 | 北京工业大学 | 一种面向时间序列型地表水质大数据的预测与评估模型构建方法 |
CN110008080A (zh) * | 2018-12-25 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 基于时间序列的业务指标异常检测方法、装置和电子设备 |
CN110083803A (zh) * | 2019-04-22 | 2019-08-02 | 水利部信息中心 | 基于时间序列arima模型取水异常检测方法与系统 |
CN110231447A (zh) * | 2019-06-10 | 2019-09-13 | 精锐视觉智能科技(深圳)有限公司 | 水质异常检测的方法、装置及终端设备 |
CN110378858A (zh) * | 2019-07-04 | 2019-10-25 | 浙江大学 | 一种基于经验正交函数分解法的静止海洋水色卫星数据重构方法 |
Non-Patent Citations (1)
Title |
---|
刘首华;陈满春;董明媚;高志刚;张建立;武双全;林峰竹;: "一种实用海洋浮标数据异常值质控方法", 海洋通报, no. 03 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287988A (zh) * | 2020-10-19 | 2021-01-29 | 广东长天思源环保科技股份有限公司 | 一种水污染源在线监测数据异常的识别方法 |
CN113157204A (zh) * | 2021-01-29 | 2021-07-23 | 杭州优云软件有限公司 | 一种基于二阶差分法识别人工清理行为的磁盘容量预测方法 |
CN113225391A (zh) * | 2021-04-27 | 2021-08-06 | 东莞中山大学研究院 | 基于滑动窗口异常检测的大气环境监测质量监控方法及计算设备 |
CN113157684A (zh) * | 2021-05-13 | 2021-07-23 | 中山大学 | 一种水利海量数据的查错方法 |
CN113536233A (zh) * | 2021-07-12 | 2021-10-22 | 中国科学院海洋研究所 | 海洋浮标数据质量控制系统 |
CN113536233B (zh) * | 2021-07-12 | 2023-05-30 | 中国科学院海洋研究所 | 海洋浮标数据质量控制系统 |
CN113792988A (zh) * | 2021-08-24 | 2021-12-14 | 河北先河环保科技股份有限公司 | 一种企业在线监测数据异常识别方法 |
CN113959635A (zh) * | 2021-09-02 | 2022-01-21 | 中国科学院合肥物质科学研究院 | 用于柔性力敏传感器阵列的液压型标定装置及标定方法 |
CN113742927A (zh) * | 2021-09-08 | 2021-12-03 | 成都卡普数据服务有限责任公司 | 一种气象预报数据质量检测的方法 |
CN113742927B (zh) * | 2021-09-08 | 2024-01-26 | 成都卡普数据服务有限责任公司 | 一种气象预报数据质量检测的方法 |
CN114564629A (zh) * | 2022-04-22 | 2022-05-31 | 国家海洋技术中心 | 异常数据处理方法、装置、计算机设备和存储介质 |
CN115859209A (zh) * | 2023-02-08 | 2023-03-28 | 烟台市福山区动物疫病预防控制中心 | 基于饲料消耗数据的畜牧业家禽养殖异常识别方法 |
CN117010232A (zh) * | 2023-06-27 | 2023-11-07 | 西安理工大学 | 基于gpu加速技术的城市非点源污染全过程高分辨率模拟方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111275307B (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111275307A (zh) | 一种水质自动在线站高频连续观测数据质量控制方法 | |
CN111123188A (zh) | 基于改进最小二乘法的电能表综合检定方法及系统 | |
CN109816031B (zh) | 一种基于数据不均衡度量的变压器状态评估聚类分析方法 | |
KR101799603B1 (ko) | 플라즈마 프로세싱 시스템 내에서의 자동적인 결함 검출 및 분류와 그 방법 | |
CN109446189A (zh) | 一种工业参数离群点检测系统及方法 | |
CN113344134B (zh) | 一种低压配电监控终端数据采集异常检测方法及系统 | |
CN109389145B (zh) | 基于计量大数据聚类模型的电能表生产厂商评价方法 | |
CN110929743B (zh) | 基于时间序列关联与聚类分析的水质污染物变化监测系统 | |
CN113838054B (zh) | 基于人工智能的机械零件表面损伤检测方法 | |
CN110083803B (zh) | 基于时间序列arima模型取水异常检测方法与系统 | |
CN108829878B (zh) | 一种工业实验数据异常点检测方法及装置 | |
CN110738346A (zh) | 一种基于威布尔分布的批次电能表可靠度预测方法 | |
CN109063885A (zh) | 一种变电站异常量测数据预测方法 | |
CN114817228A (zh) | 一种湖泊水位长时间序列监测数据的异常值剔除方法 | |
CN112202630A (zh) | 一种基于无监督模型的网路质量异常检测方法及装置 | |
CN117314020B (zh) | 一种浮游生物的湿地碳汇数据监测系统 | |
CN111161097A (zh) | 基于假设检验的事件检测算法检测开关事件的方法和装置 | |
CN112949735A (zh) | 一种基于离群数据挖掘的液态危化品挥发浓度异常发现方法 | |
CN116317103A (zh) | 一种配电网电压数据处理方法 | |
CN115062891A (zh) | 一种长距离有压输水管道渗漏快速定位方法 | |
CN107506824B (zh) | 一种配电网的不良观测数据检测方法及装置 | |
CN113312587A (zh) | 基于arima预测和回归预测的传感器采集数据缺失值处理方法 | |
CN112445632A (zh) | 基于故障数据建模的hpc可靠性评估方法 | |
CN117439827B (zh) | 一种网络流量大数据分析方法 | |
CN116992308B (zh) | 数据与知识融合的工艺波动分析与优化方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |