CN116467555A - 一种海洋剖面观测数据质量控制方法及系统 - Google Patents
一种海洋剖面观测数据质量控制方法及系统 Download PDFInfo
- Publication number
- CN116467555A CN116467555A CN202310234743.4A CN202310234743A CN116467555A CN 116467555 A CN116467555 A CN 116467555A CN 202310234743 A CN202310234743 A CN 202310234743A CN 116467555 A CN116467555 A CN 116467555A
- Authority
- CN
- China
- Prior art keywords
- observation
- vertical
- data
- profile data
- fluctuation range
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003908 quality control method Methods 0.000 title claims abstract description 61
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 69
- 230000002159 abnormal effect Effects 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000007689 inspection Methods 0.000 claims abstract description 13
- 230000000877 morphologic effect Effects 0.000 claims abstract description 6
- 230000008859 change Effects 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 6
- 150000003839 salts Chemical class 0.000 claims description 5
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 claims description 3
- 229910052760 oxygen Inorganic materials 0.000 claims description 3
- 239000001301 oxygen Substances 0.000 claims description 3
- 238000012876 topography Methods 0.000 description 5
- 238000011065 in-situ storage Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 239000003673 groundwater Substances 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000010792 warming Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000704 physical effect Effects 0.000 description 1
- 239000013535 sea water Substances 0.000 description 1
- 230000001932 seasonal effect Effects 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Testing Or Calibration Of Command Recording Devices (AREA)
Abstract
本发明公开了一种海洋剖面观测数据质量控制方法及系统。本方法为:1)对采集的海洋观测剖面数据进行分组;2)依据每一层海洋观测剖面数据的垂向分辨率,计算对应层的垂向梯度;3)计算每一分组中相邻两层观测点之间的垂向间隔中值h,若h小于垂向插值的最大允许间隔H,则在对应观测点之间进行插值;4)构建水团的水平气候学波动范围和垂向气候学波动范围;5)对于任一海洋观测剖面数据,若其原始观测值超过该海洋观测剖面数据所在地区所属的水团的水平气候学波动范围,或其垂向梯度超过该海洋观测剖面数据所在地区所属的水团的垂向气候学波动范围,则将该海洋观测剖面数据的观测值标记为异常值;6)对处理后的数据进行剖面垂向形态检查。
Description
技术领域
本发明属于数据处理系统领域,具体涉及一种基于水团气候学波动范围的海洋剖面观测数据质量控制方法及系统。
背景技术
从有现代海洋观测记录以来,人类通过各种观测手段,收集了总计不少于3600多万条温度、盐度、溶解氧等观测剖面数据,这些大量的数据支撑了海洋科学的发展,也为人类积极应对气候变化提供了数据支撑。但是,这些观测数据普遍存在质量参差不齐、元数据缺失、数据精度分辨率不高等问题,因此需要对数据进行质量控制(Quality control)。目前,在海洋数据质量控制领域中,方法大致分为两类:人工质量控制和自动化质量控制。人工质量控制依赖于专家的经验,可以保证较高的数据质量,但是不具备应用于大规模数据质控的能力。而自动化质量控制虽然能大量减少时间消耗,且具备应用于处理大量观测数据的能力,但是普遍存在识别准确率不高,容易把正确数据错误识别成异常值,或者把异常值错误识别成了正确数据。
由于海洋的水团性质在三维方向上存在明显的区域差异,因此发展自动化质量控制技术需要首先考虑不同区域水团的物理特征,但是目前这类方法往往假设观测数据为正态分布或者偏态分布,对海洋水团物理特征的区域差异性、地形相关性和剖面形态特点的差异等考虑不够充分,导致存在不准确的质量控制结果。因此,设计出一种质量控制方法,能真实反映海洋水团物理性质中的波动范围气候学特征,实现海洋剖面观测数据的质量控制的更高效、准确、自动化,对于目前海洋现场观测数据技术领域是迫切需要的。
传统海洋剖面观测数据质量控制方法的缺点包括:
(1)传统自动化质量控制对其他类型的数据(如长时序海表面浮标观测数据和气象数据)的支持较好,但是对于海洋垂向原位观测数据的支持不够充分。
(2)在构建水团温盐波动气候学性质范围时对环流特征的纬向依赖性和时空连续性的考虑不够充分,精度和敏感性差。
(3)质量控制中不随时间变化的阈值范围,限制了对气候变暖情况下的极端暖事件信号的识别。
(4)对于因观测仪器工作异常而导致剖面异常形态的识别考虑不够充分。
(5)普遍存在过度的漏判或错判情况(如NOAA/NCEI质量控制系统)。
发明内容
针对现有技术中存在的问题,本发明的目的在于提供一种基于水团气候学波动范围的海洋剖面观测数据质量控制方法及系统。本方法所涉及的数据质量控制方法及步骤适用范围包括但不限于海洋温度、盐度、溶解氧剖面观测数据。
针对海洋剖面观测数据的质量控制,如何检测因观测仪器工作异常而造成的异常剖面形态和错误观测值;如何更准确地统计海洋中水团的水平和垂向变化波动范围,准确反映局地历史观测水平分布特征;如何克服传统质控方法中关于使用气候平均态定义异常值中可能会出现把一些潜在良好的极值观测数据错误剔除的情况的弊端;如何更准确地统计海洋中水团的垂向变化波动范围,准确反映局地历史观测垂向分布特征;以及如何定义异常值以避免质量控制的阈值设置过大而导致错判或漏检的情况,这些都是需要考虑的内容。
本发明充分考虑了影响海洋剖面观测数据质量控制的多方面因素,提出技术方案如下:
步骤1:获取观测数据:将海洋原位剖面观测数据作为原始数据输入到系统中。注意,此类数据不包含定点、长时序观测的浮标数据或气象数据。
步骤2:对观测数据按月存储,并从起始观测时间T1开始,设定时间间隔Y1、Y2,将连续Y2时间内的数据为一组,相邻组的时间间隔Y1。假设T1=1980年,Y1=10年,Y2=20年,则将1980~2000的数据为第一组,1990~2010年的数据为第二组,第一组与第二组的数据时间间隔为10年。
步骤3:按如下公式考虑垂向分辨率,并计算剖面的垂向梯度,得到剖面的垂向梯度数据:
其中,Dk为第k层的原始观测数值,相邻N1+N2(左侧N1,右侧N2层)层的距离由垂向分辨率δZ表示,相邻两层的观测变量的差值由δD表示,为第k层的垂向梯度,L为常值,表示高分辨率剖面的垂向分辨率的临界阈值,单位为m;如果相邻N1+N2层距离(即垂向分辨率)大于L,用第一行公式计算梯度;否则用第二行公式计算梯度。
进一步的,L的取值为10m,表示高分辨率剖面垂向距离的最小阈值。L=10m能够较为有效地定义垂向高分辨率剖面和低分辨率剖面。如果L小于10m,那么在计算垂向梯度的过程中将会引入高频虚假噪声,使得Dmax’和结果偏小,将造成在实际质量控制当中大量的错判(即把一些良好的高分辨率剖面错误标记成异常值)。相反的,如果L大于10m,那么将会使得步骤9中的Dmax’和/>结果偏大,造成在实际质量控制过程中的漏判概率增加,不能较好地识别部分异常数数据。
步骤4:使用原始剖面观测深度数据Zk,分别计算每一分组相邻两层海洋观测剖面数据中垂向任意两相邻观测点k+1、k的间隔h=Zk+1-Zk,如果Zk+1=15m、Zk=5m,则h=10m;并根据相邻两观测点间的间隔中值按照下述公式计算允许进行插值的最大间隔H
其中,Q为任意相邻两观测点间的间隔中值。如果h<H,则使用抛物线插值方法将步骤3中得到的分组后的每一条剖面的垂向梯度数据连同步骤2中分组后的使用原始剖面观测数据Dk垂向插值到L1至L2米共P层的标准深度,否则不对这两个观测点进行插值。L1、L2和P是固定参数,例如L1=0m,L2=100m,P=40。垂向梯度数据假如分散在5m,20m,50m,78m,104m,则将这些离散的观测点插值到0-100m共40层标准深度上(假设标准深度是以2.5米为间隔的深度)。
通过步骤5~9构建水团的水平气候学波动范围和垂向梯度气候学波动范围:
步骤5:对步骤4所得的插值和每一分组后的剖面原始观测数据和剖面梯度数据映射到三维网格p(x,y,z)中,并按照下述公式计算三维网格场p(x,y,z)中每一个网格内对应变量Di(Di可以是剖面原始观测值,也可以是垂向梯度数据)的气候学平均值D和标准差σ
其中,x0、y0、z0分别代表网格点的经度、纬度和深度坐标,n代表对应网格中的数据量。D代表待计算的变量,Di(x0,y0,z0)为网格中的第i个数据,网格中共包含n个数据,为网格中的均值。
步骤6:使用三维网格场中每一个网格内对应变量的平均值D和标准差σ划定水团水平气候学波动范围:对于每一分组中的剖面观测数据Dk和垂向梯度数据在网格p(x,y,z)为中心的半径为R的范围内,若存在某一网格点q(x,y,z),其变量的气候学平均值D满足下述公式,则认为网格点q(x,y,z)的水团水平气候学波动范围与中心网格点p(x,y,z)的性质相似:
其中,A为常值;R为网格半径,随纬度增加而增加。
步骤7:调整步骤6中的水团q(x,y,z)的水平气候学波动范围,以适应复杂地形地貌特征:对于网格点q(xi,yj,z0),如果其地理坐标xi,yj满足下述公式
其中中心网格点p(x,y,z0)的经纬度坐标用(x0,y0)表示,陆地、海底所在的经纬度用(xL,yL)表示;如果满足上述公式所有方程,则认为网格点q(xi,yj)与网格点p(x,y,z0)存在空间不连续的特点(受陆地或海底地貌阻隔),不认为其水平气候学波动范围或垂向气候学波动范围与网格点p(x0,y0)的性质相似。基于此判定结果可以提高地形精度,更加准确构建水团的局地气候学波动特征,避免在空间上不连续的水团错误识别成同一个性质相同的水团。即对后续步骤11的准确性精度有影响,尤其在对于例如像印度-太平洋交汇区等地质地貌复杂的海区的观测数据的质量控制准确性有大幅提高。
步骤8:当每一分组中的剖面观测数据和剖面梯度数据均不服从于包括正态分布在内的任何分布形式,对水团的不同变量的气候学波动范围数据使用以下公式计算所有分组中水团波动范围的第P1个分位数的多年代际变化趋势特征Kmin和第P2个百分位数的多年代际变化趋势特征Kmax,其中P1的取值范围为[0th,5th],P2的取值范围在[95th,100th]
Kmax=(XTX-1)XTDmax
Kmin=(XTX-1)XTDmin
其中,矩阵X表示时间(年份),为[m*2]矩阵,m为观测样本个数,Dmax为剖面原始观测数据Dk或梯度数据按从小到大排列次序的第P2个百分位数的二维矩阵;Dmin为剖面原始观测数据Dk或梯度数据/>按从小到大排列次序的第P1个百分位数的二维矩阵。
步骤9:在得到水团波动范围阈值的多年代际变化趋势特征之后,计算所有分组中的每一个网格点每一年的水团水平气候学波动范围(Dmax’和Dmin’)和垂向梯度气候学波动范围(和/>):
D′max=Dmax+(Year-1980)*|kmax|
D′min=Dmin+(Year-1980)*|kmin|
其中,Year为观测数据的年份。
步骤10:将构建得到的每一年水团的水平气候学波动范围或垂向气候学波动范围Dmax’和Dmin’应用于海洋原位观测数据的质量控制系统中:对以任一观测数据,若其某一在深度为k的观测值(Dk)或垂向梯度超过该地所属的水团的水平、垂向气候学波动范围的最大值Dmax’、/>和最小值D min’、/>
则将该观测值标记为异常值。
步骤11:对剖面垂向形态进行检查:根据步骤10中的标记结果,判断某一观测层k的观测值是否大于该地水团的垂向梯度气候学波动范围,如果为真,则计算从该层观测值开始往下连续大于波动范围的观测层个数(N),并计算该剖面中连续大于波动范围的组数(M)。
进一步的,剖面的垂向形态检查方法如图2所述,其细化步骤为:
(1)依据剖面垂向分辨率计算200米深度以下的待质量控制的剖面观测数据的垂向梯度;
其中,Zk为第q层的观测数值,相邻两层的距离由δZ表示,相邻两层的观测变量的差值由δD表示,垂向梯度用表示,L为常值,表示高精度剖面垂向距离的最小阈值,单位为米;需要注意的是,虽然计算公式和步骤3相同,但此处面对的对象是待质量控制的剖面数据,而不是步骤1-3所示的插值且分组后的数据。
(2)将计算得到的剖面垂向梯度与步骤3-10中得到的水团的垂向气候学波动范围最大值和最小值/>进行比较,判断梯度是否大于气候学波动范围;
(3)如果某一观测层k的垂向梯度大于该地水团垂向气候学性质的波动范围,则计算从该层观测值开始往下连续大于波动范围的观测点个数(N);
(4)计算上述待质量控制的海洋观测剖面数据中连续大于波动范围的组数(M);根据步骤10中的标记结果可以确定出组数M,或者根据N的分组统计确定剖面中连续大于垂向梯度气候学波动范围的组数M;
(5)考虑不同的观测仪器类型,判断N和M是否大于提前预设的阈值。若大于阈值,则判断观测数据存在异常剖面形态(即不符合水团的垂向波动特征),并将观测层k以下的观测数据标记为异常值。
其中,对于仪器类型为T4/T6的投弃式温度深度仪观测数据,若N>=6且M>=2,则将观测层k往下的观测值标记为异常值;对于仪器类型为T7/DB的投弃式温度深度仪观测数据,若N>=6且M>=3,则将观测层k往下的温度观测值标记为异常值;对于仪器类型为机械式温度深度仪观测数据,若N>=5且M>=2,则将观测层k往下的温度观测值标记为异常值;对于由CTD温盐深仪的采集得到的观测数据,若N>=6且M>=4,则将观测层k往下的观测值标记为异常值。
基于步骤11的处理可以检测出:(1)投弃式温度深度仪中绝大部分(大于90%)因在数据采集过程中遇到的电流泄露、电压不稳定、仪器触碰海底等特定问题而造成的错误数据。(2)机械式温度深度仪中因电线拉伸、仪器触碰海底而造成的异常数据;(3)温盐深仪中因传感器工作异常而造成的数据“漂移”的异常数据。
步骤12:质控结果输出。在本专利发明中,异常值(坏数据)标记为1,良好数据标记为0。
步骤13:统计质量控制标记结果。本质量控制系统将会统计如下的指标:1)所有观测数据的拒绝率,定义为虚假值的个数在总观测个数中的百分比;2)每一个检查模块的观测数据拒绝率,定义为该检查模块下虚假值的个数在总观测个数中的百分比;3)剖面拒绝率:定义为至少有一个观测点被拒绝的剖面数量占所有剖面数量的百分比。
步骤14:选择输出格式,输出带有质控标记的原始数据文件。
本发明的优点如下:
(1)本发明专利的剖面的垂向形态检查可以有效准确识别剖面中因观测仪器工作异常而造成的异常观测值,显著提升观测数据数据质量。
(2)本发明专利提出的质控方法和系统考虑了水团的纬向依赖性和时空连续性,在保留传统的质量控制方法的优点基础之上,本发明专利的水团波动范围的确定具备准确反映局地历史观测状况的真实分布的能力,克服了以往发明专利中使用“3Σ莱茵达准则”可能造成的错判情况,提高了质量控制的去伪概率,有效降低了错判概率。
(3)该质控方案考虑了在海洋变暖的长期趋势背景下水团气候学波动范围随时间变化的特征,克服了传统质控系统使用气候平均态定义异常值中可能会出现把一些潜在良好的极值观测数据错误剔除的情况的弊端,进一步提高了质量控制系统的准确度和灵敏度。
(4)本发明专利的水团垂向梯度气候学波动范围的计算当中考虑了梯度数据的局地化差异特征,同时考虑了数据采样点之间的间隔大小,有效避免了采样点间隔过小而引入的高频噪声从而影响质量控制的准确性。
附图说明
图1为本发明方法流程图。
图2为剖面的垂向形态检查方法流程图。
图3为2021年随机挑选的6000条盐度剖面数据的质量控制前后对比图;
(a)是未经质量控制的原始数据,
(b)是通过本发明方法标记之后保留下来的良好数据。
具体实施方式
为使本发明的目的、内容和优点更加清楚,下面结合附图和实施例,以1940年至2021年海洋盐度观测数据为例,对本发明的具体实施方式作进一步详细描述。本方法包括但不限于以下个例。
本方法通过构建观测数据的水团三维(水平、垂向)波动范围的气候学数据,并对观测剖面的垂向形态进行检测来实现海洋观测数据的质量控制。具体而言:
步骤1:获取观测数据:将海洋原位观测剖面数据作为原始数据输入到系统中。
步骤2:对盐度数据按月整理,并从观测时间为1940年开始,每隔10年、以20年为间隔进行分组。
步骤3:按如下公式计算剖面的垂向分辨率,得到水团的盐度梯度剖面:
其中,Zk为第k层的观测数值,相邻两层的距离由δZ表示,相邻两层的观测变量的差值由δD表示,垂向梯度用表示,。
其中,Dk为第k层的原始观测数值,相邻N1+N2(左侧N1,右侧N2层)层的距离由δZ表示,相邻两层的观测变量的差值由δD表示,为第k层的垂向梯度,L为常值,表示高分辨率剖面的垂向分辨率的临界阈值,单位为m;如果相邻N1+N2层距离(即垂向分辨率)大于L,用第一行公式计算梯度;否则用第二行公式计算梯度。此处,L=10m,表示高精度剖面垂向距离的最小阈值。L=10m能够较为有效地定义垂向高分辨率剖面和低分辨率剖面。如果L小于10m,那么在计算垂向梯度的过程中将会引入高频虚假噪声,使得Dmax’和/>结果偏小,将造成在实际质量控制当中大量的错判(即把一些良好的高分辨率剖面错误标记成异常值)。相反的,如果L大于10m,那么将会使得Dmax’和/>结果偏大,造成在实际质量控制过程中的漏判概率增加,不能较好地识别部分异常数数据。
步骤4:使用原始剖面观测深度数据Zk,分别计算每一分组中垂向任意两相邻观测点k+1、k的间隔h=Zk+1-Zk,并根据相邻两观测点间的间隔中值按照下述公式计算允许进行插值的最大间隔H
其中,Q为任意两观测点间的间隔中值。如果h<H,则使用抛物线插值方法将现场观测温度、盐度、温度梯度、盐度梯度剖面数据垂向插值到海洋0-6000米共119层标准深度。否则不对这两个观测点进行插值:
步骤5:对步骤4所得的插值和每一分组后的剖面原始盐度观测数据和剖面梯度数据映射到三维网格p(x,y,z)中,并按照下述公式计算三维网格场p(x,y,z)中每一个网格内对应变量Di(Di为剖面原始观测Dk何梯度数据)的平均值D和标准差σ
其中,x0、y0、z0分别代表网格点的经度、纬度和深度坐标,n代表对应网格点的数据量。D代表盐度。
步骤6:使用三维网格场中每一个网格内对应变量的平均值T和标准差σ划定水团水平气候学波动范围:对于每一分组中的剖面观测数据Dk和垂向梯度数据在网格p(x,y,z)为中心的半径为R的范围内,若存在某一网格点q(x,y,z),其变量的气候学平均值D满足下述公式,则认为网格点q(x,y,z)的水团水平气候学波动范围与中心网格点p(x,y,z)的性质相似:
其中,A为常值(对于温度梯度:A=0.5,对于盐度梯度:A=0.4),R为网格半径(随纬度增加而变大,赤道为5度,南北极为20度)。当A=0.5的时候,温度梯度相似的水团选取将考虑到水团的季节循环变率、年代际和多年代际变率的气候学波动特征,同理,盐度选择0.4也是一样的道理,是在一个平衡的框架下选取性质相似的水团,最大限度减少不同性质(例如更加咸的水团)的水团的错误掺杂。这样的参数的选取可以提高识别出“牛眼”“小尖峰”“异常突出”等不易察觉的错误数据。
R的取值在5-20度的依据和效果如下:R值的选取在水团相似性判定的时候能尽可能考虑包括海洋中小尺度以及大尺度(例如罗斯贝波)的水团的影响。把这些不同尺度的水团信号特征实际上能更加准确的把握水团的纬向依赖性(即纬向依赖性)的特点。将有助于在质量控制当中提升错误数据的识别准确率。
步骤7:调整步骤6中的水团q(x,y,z)的盐度水平气候学波动范围,以适应复杂地形地貌特征:对于网格点q(xi,yj,z0),如果其地理坐标xi,yj满足下述公式
其中中心网格点p(x,y,z0)的经纬度坐标用(x0,y0)表示,陆地、海底所在的经纬度用(xL,yL)表示;如果满足上述公式所有方程,则认为网格点q(xi,yj)与网格点p(x,y,z0)存在空间不连续特征(受陆地或海底阻隔),不认为其水平气候学波动范围或垂向气候学波动范围与网格点p(x0,y0)的性质相似。
步骤8:假设每一分组中的盐度剖面观测数据和盐度梯度数据均不服从于包括正态分布在内的任何分布形式,对水团的不同变量的气候学波动范围数据使用以下公式计算所有分组中水团波动范围的第P1个分位数的多年代际变化趋势特征Kmin和第P2个百分位数的多年代际变化趋势特征Kmax,其中P1的取值范围为[0th,5th],P2的取值范围在[95th,100th]
Kmax=(XTX-1)XTDmax
Kmin=(XTX-1)XTDmin
其中,矩阵X为[m*2]矩阵,m为观测样本个数,Dmax为剖面原始观测数据Dk或梯度数据按从小到大排列次序的第P2个百分位数的二维矩阵;Dmin为剖面原始观测数据Dk或梯度数据/>按从小到大排列次序的第P1个百分位数的二维矩阵。在本实施案例中P1=1th,P2=99th。由于海洋观测数据变量不同的地方有不同的性质,因此数据的分布总是偏态分布。我们这里考虑的是使用百分位数两侧2%的数据定义临界气候波动范围的阈值,目的是尽可能去适应数据的高度偏态分布特征。传统的质量控制方案一般使用“莱茵达法则”来定义临界阈值,但是这样的做法是基于海洋观测数据是正态分布,这样会导致阈值的选择偏小,使得很多处于偏态分布边缘的正确数据错误被当成了异常值,造成了较大的错判概率。相反,本专利发明的方法不假设数据是何种分布特征,将会减少错判概率的发生,尤其是对于处于极值边缘的正确值而言更加友好。
在得到水团波动范围阈值的多年代际变化趋势特征之后,计算每一个网格点每一年的水团水平气候学波动范围(Dmax’和Dmin’)和垂向气候学波动范围(和/>):
D′max=Dmax+(Year-1980)*|kmax|
D′min=Dmin+(Year-1980)*|kmin|
其中,Year为观测数据的年份。在本实施例中,Year的取值为1940至2021年。
步骤9:将Dmax’和Dmin’应用于海洋盐度观测数据的质量控制系统中:对随机挑选的3500条2021年太平洋盐度观测数据进行质量控制,若某一在深度为k的盐度观测值(Dk)或盐度梯度观测值超过该地所属的水团的水平、垂向波动范围气候学的最大值Dmax’、Dmax’和最小值Dmin’、Dmin’:
将该观测值标记为异常值。
步骤10:对随机挑选的3500条2021年太平洋盐度观测数据的垂向形态进行检查:根据步骤9中的结果,依据剖面垂向分辨率计算随机挑选的3500条2021年太平洋盐度观测数据在200米深度以下观测数据的垂向梯度;
其中,Zk为第q层的观测数值,相邻两层的距离由δZ表示,相邻两层的观测变量的差值由δD表示,垂向梯度用表示,L为常值,表示高精度剖面垂向距离的最小阈值,单位为米;
随后判断某一观测层k的垂向梯度数据是否大于该地水团垂向气候学性质的波动范围,如果为真,则计算从该层观测值开始往下连续大于波动范围的个数(N),并计算该剖面中连续大于波动范围的组数(M)。对于仪器类型为T4/T6的投弃式温度深度仪观测数据,若N>=6且M>=2,则将观测层k往下的观测值标记为异常值;对于仪器类型为T7/DB的投弃式温度深度仪观测数据,若N>=6且M>=3,则将观测层k往下的温度观测值标记为异常值;对于仪器类型为机械式温度深度仪观测数据,若N>=5且M>=2,则将观测层k往下的温度观测值标记为异常值;对于仪器类型为CTD温盐深仪的观测数据,若N>=6且M>=4,则将观测层k往下的温度观测值标记为异常值。
步骤11:质控结果输出。在本专利发明中,异常值(坏数据)标记为1,良好数据标记为0。
步骤12:统计质量控制标记结果。本质量控制系统将会统计如下的指标:1)所有观测数据的拒绝率,定义为虚假值的个数在总观测个数中的百分比;2)每一个检查模块的观测数据拒绝率,定义为该检查模块下虚假值的个数在总观测个数中的百分比;3)剖面拒绝率:定义为至少有一个观测点被拒绝的剖面数量占所有剖面数量的百分比。
步骤13:选择输出格式,输出带有质控标记的原始数据文件。
图3为世界海洋数据库中2021年随机挑选的3500条盐度剖面数据的质量控制前后对比图,可以看到经本申请专利的质控系统处理后的剖面更加“整洁”,更加符合海水温度的基本物理形态,同时也已经检测出了一些明显的异常值和错误值。该图页进一步说明了本发明专利可实现对海洋观测数据质量的进一步提升。
尽管为说明目的公开了本发明的具体实施例,其目的在于帮助理解本发明的内容并据以实施,本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。因此,本发明不应局限于最佳实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。
Claims (10)
1.一种海洋剖面观测数据质量控制方法,其步骤包括:
1)对采集的海洋观测剖面数据进行分组,将连续Y1时间长度的海洋观测剖面数据作为一分组,相邻分组的时间重合度为Y2;
2)依据每一层海洋观测剖面数据的垂向分辨率,计算该层海洋观测剖面数据的垂向梯度;
其中(▽D)k为第k层海洋观测剖面数据的垂向梯度;
3)对于每一分组,计算该分组中相邻两层海洋观测剖面数据中观测点i、j之间的垂向间隔中值h,如果h<H,其中H为进行垂向插值的最大允许间隔,则使用抛物线插值方法在对应观测点i、j之间进行插值;
4)根据步骤3)处理后的数据,构建水团的水平气候学波动范围和垂向气候学波动范围,
得到每一个网格点每一年的水团水平气候学波动范围Dmax’~Dmin’和水团垂向气候学波动范围▽Dmax’~▽Dmin’;
5)对于任一海洋观测剖面数据,若其原始观测值超过该海洋观测剖面数据所在地区所属的水团的水平气候学波动范围Dmax’~Dmin’,或其垂向梯度超过该海洋观测剖面数据所在地区所属的水团的垂向气候学波动范围▽Dmax’~▽Dmin’,则将该海洋观测剖面数据的观测值标记为异常值;
6)按照步骤a)~e)对步骤5)处理后的数据进行剖面垂向形态检查:
a)计算设定深度以下每一待质量控制的海洋观测剖面数据的垂向梯度;
b)判断步骤a)计算得到的垂向梯度是否超出步骤4)得到的垂向气候学波动范围;
c)如果第q层海洋观测剖面数据的垂向梯度(▽D)q超出步骤4)得到的垂向气候学波动范围,则统计从该第q层海洋观测剖面数据开始往下连续大于垂向气候学波动范围的海洋观测剖面数据层数,记为N;即同一剖面内连续N个待质量控制的海洋观测剖面数据的垂向梯度超出步骤4)得到的垂向气候学波动范围;
d)统计出该连续N个待质量控制的海洋观测剖面数据中的分组个数M;
e)根据不同的观测仪器类型,判断N和M是否大于对应的阈值;若大于阈值,则判断第q层海洋观测剖面数据存在异常剖面形态,并将第q层海洋观测剖面数据及其以下的海洋观测剖面数据标记为异常值。
2.根据权利要求1所述的方法,其特征在于,计算垂向梯度(▽D)k的方法为:
其中,垂向分辨率用由相邻两层的距离δZ表示,为第k+N2层海洋观测剖面数据的观测数值,/>为第k-N1层海洋观测剖面数据的观测数值,Dk为第k层海洋观测剖面数据的原始观测数值,(▽D)k为第k层的垂向梯度,L为常值,表示高分辨率剖面的垂向分辨率的临界阈值,单位为m;如果相邻N1+N2层距离大于L,用第一行公式计算梯度;否则用第二行公式计算梯度。
3.根据权利要求2所述的方法,其特征在于,L=10m。
4.根据权利要求2所述的方法,其特征在于,对于仪器类型为T4/T6的投弃式温度深度仪观测数据,若N>=6且M>=2,则将第q层海洋观测剖面数据及其以下的观测值标记为异常值;对于仪器类型为T7/DB的投弃式温度深度仪观测数据,若N>=6且M>=3,则将第q层海洋观测剖面数据及其以下的温度观测值标记为异常值;对于仪器类型为机械式温度深度仪观测数据,若N>=5且M>=2,则将第q层海洋观测剖面数据及其以下的温度观测值标记为异常值;对于由CTD温盐深仪的采集得到的观测数据,若N>=6且M>=4,则将第q层海洋观测剖面数据及其以下的观测值标记为异常值。
5.根据权利要求1所述的方法,其特征在于,构建水团的水平气候学波动范围和垂向气候学波动范围的方法为:
51)对插值和分组后的海洋观测剖面数据,计算其在三维网格场中每一个网格内对应变量的平均值D和标准差σ;
52)使用三维网格场中每一个网格内对应变量的气候学平均值D和标准差σ划定水团水平气候学波动范围和垂向气候学波动范围;所述网格内的变量为原始剖面观测数据或梯度观测数据;
53)调整水团的水平气候学波动范围和垂向气候学波动范围,对于网格点q(x,y,z0),如果其地理坐标满足公式则认为网格点q(xi,yj)受陆地或海底阻挡,不认为其水平或垂向气候学波动范围与网格点p(x0,y0)的性质相似;其中中心网格点p(x,y,z0)的经纬度坐标用(x0,y0)表示,陆地、海底所在的经纬度用(xL,yL)表示;
54)当海洋观测剖面数据及其对应的垂向梯度数据均不服从于包括正态分布在内的任何分布形式,则对水团的不同变量的气候学波动范围数据计算水团波动范围的第P1、第P2个分位数的多年代际变化趋势特征Kmax和Kmin,Kmax=(XTX-1)XTDmax,Kmin=(XTX-1)XTDmin;矩阵X表示年份,为[m*2]矩阵,m为海洋观测剖面数据个数,Dmax为剖面原始观测数据Dk或梯度数据▽Dk按从小到大排列次序的第P2个百分位数的二维矩阵;Dmin为剖面原始观测数据Dk或梯度数据▽Dk按从小到大排列次序的第P1个百分位数的二维矩阵;
55)根据水团波动范围阈值的多年代际变化趋势特征,计算每一个网格点每一年的水团水平气候学波动范围Dmax’~Dmin’和垂向气候学波动范围▽Dmax’~▽Dmin’。
6.根据权利要求5所述的方法,其特征在于,步骤52)中,使用三维网格场中每一个网格内对应变量的气候学平均值D和标准差σ划定水团水平气候学波动范围的方法为:在网格p(x,y,z)为中心的半径为R的范围内,若存在一网格点q(x,y,z),其变量的气候学平均值D满足公式则认为网格点q(x,y,z)的水团水平气候学波动范围与网格点p(x,y,z)的性质相似;其中,A为常值;R为网格半径,R随纬度增加而增加;在步骤54)中,P1的取值范围为[0th,5th],P2的取值范围在[95th,100th]。
7.根据权利要求6所述的方法,其特征在于,对于温度剖面观测数据,A=1;对于盐度剖面观测数据,A=0.8;对于温度梯度数据,A=0.5,对于盐度梯度观测数据,A=0.4;R=5~20度。
8.根据权利要求1或5所述的方法,其特征在于,步骤a)中,设定深度为200米;步骤b)中,判断步骤a)计算得到的垂向梯度是否超出步骤4)得到的1°网格分辨率的水团的垂向气候学波动范围。
9.根据权利要求1所述的方法,其特征在于,所述观测剖面数据包括但不限于海洋温度剖面观测数据、海洋盐度剖面观测数据、海洋溶解氧剖面观测数据。
10.一种海洋剖面观测数据质量控制系统,其特征在于,包括分组模块、垂向梯度计算模块、插值处理模块、气候学波动范围计算模块、水团气候学波动范围检查模块和形态检查模块;
所述分组模块,用于对采集的海洋观测剖面数据进行分组,将连续Y1时间长度的海洋观测剖面数据作为一分组,相邻分组的时间重合度为Y2;
所述垂向梯度计算模块,用于计算每层海洋观测剖面数据的垂向梯度;其中(▽D)k为第k层海洋观测剖面数据的垂向梯度;
所述插值处理模块,用于对于每一分组,计算该分组中相邻的第k层海洋观测剖面数据中观测点i、第k+1层海洋观测剖面数据中观测点j之间的垂向间隔h,如果h<H,则使用抛物线插值方法在这两个观测点i、j之间进行插值;
所述气候学波动范围计算模块,用于根据所述插值处理模块处理后的数据,构建水团的水平气候学波动范围和垂向气候学波动范围,得到每一个网格点每一年的水团水平气候学波动范围Dmax’~Dmin’和垂向气候学波动范围▽Dmax’~▽Dmin’;
所述水团气候学波动范围检查模块,用于对于任一海洋观测剖面数据,若其观测值超过该海洋观测剖面数据所在地区所属的水团的水平气候学波动范围,或其垂向梯度超过该海洋观测剖面数据所在地区所属的水团的垂向气候学波动范围,则将该海洋观测剖面数据的观测值标记为异常值;
所述形态检查模块,用于按照步骤a)~e)对海洋观测剖面数据进行剖面垂向形态检查:a)计算设定深度以下每一待质量控制的海洋观测剖面数据的垂向梯度;b)判断步骤a)计算得到的垂向梯度是否超出垂向气候学波动范围;c)如果第q层海洋观测剖面数据的垂向梯度(▽D)q超出垂向气候学波动范围,则统计从该第q层海洋观测剖面数据开始往下连续大于垂向气候学波动范围的海洋观测剖面数据层数,记为N;即连续N个待质量控制的海洋观测剖面数据的垂向梯度超出垂向气候学波动范围;d)统计出该连续N个待质量控制的海洋观测剖面数据中的分组个数M;e)根据不同的观测仪器类型,判断N和M是否大于对应的阈值;若大于阈值,则判断第q层海洋观测剖面数据存在异常剖面形态,并将第q层海洋观测剖面数据及其以下的海洋观测剖面数据标记为异常值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310234743.4A CN116467555B (zh) | 2023-03-13 | 2023-03-13 | 一种海洋剖面观测数据质量控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310234743.4A CN116467555B (zh) | 2023-03-13 | 2023-03-13 | 一种海洋剖面观测数据质量控制方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116467555A true CN116467555A (zh) | 2023-07-21 |
CN116467555B CN116467555B (zh) | 2023-11-03 |
Family
ID=87181422
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310234743.4A Active CN116467555B (zh) | 2023-03-13 | 2023-03-13 | 一种海洋剖面观测数据质量控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116467555B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051795A (zh) * | 2021-03-15 | 2021-06-29 | 哈尔滨工程大学 | 一种面向海上平台保障的三维温盐场分析预报方法 |
CN113095009A (zh) * | 2021-04-09 | 2021-07-09 | 天津大学 | 基于卫星遥感的三维海流实时快速分析系统的构建方法 |
CN114490622A (zh) * | 2022-03-10 | 2022-05-13 | 中国科学院大气物理研究所 | 基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法和系统 |
CN115186755A (zh) * | 2022-07-18 | 2022-10-14 | 上海大学 | 一种考虑相关性的温盐数据垂向梯度误差检测方法 |
-
2023
- 2023-03-13 CN CN202310234743.4A patent/CN116467555B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113051795A (zh) * | 2021-03-15 | 2021-06-29 | 哈尔滨工程大学 | 一种面向海上平台保障的三维温盐场分析预报方法 |
US20220326211A1 (en) * | 2021-03-15 | 2022-10-13 | Harbin Engineering University | Marine Transportation Platform Guarantee-Oriented Analysis and Prediction Method for Three-Dimensional Temperature and Salinity Field |
CN113095009A (zh) * | 2021-04-09 | 2021-07-09 | 天津大学 | 基于卫星遥感的三维海流实时快速分析系统的构建方法 |
CN114490622A (zh) * | 2022-03-10 | 2022-05-13 | 中国科学院大气物理研究所 | 基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法和系统 |
CN115186755A (zh) * | 2022-07-18 | 2022-10-14 | 上海大学 | 一种考虑相关性的温盐数据垂向梯度误差检测方法 |
Non-Patent Citations (6)
Title |
---|
BRUCE INGLEBY 等: "Quality control of ocean temperature and salinity profiles—historical and real-time data", JOURNAL OF MARINE SYSTEMS, vol. 65, no. 1, pages 158 - 175 * |
ZHETAO TAN 等: "A new automatic quality control system for ocean profile abservations and impact on ocean warming estimate", DEEP-SEA RESEARCH PART I: OCEANOGRAPHIC RESEARCH PAPERS, vol. 197, pages 1 - 19 * |
李直龙: "基于剖面数据和海面信息重构三维温度场", 中国优秀硕士学位论文全文数据库 基础科学辑, no. 01, pages 010 - 11 * |
纪风颖 等: "基于气候性温盐关系模型对Argo数据进行质量控制的研究", 海洋通报, vol. 23, no. 06, pages 8 - 15 * |
谭哲韬 等: "海洋观测数据质量控制技术研究现状及展望", 中国科学:地球科学, vol. 52, no. 3, pages 418 - 437 * |
鲍森亮: "基于多源信息的卫星盐度产品质量控制和热带印度洋三维温盐场重构", 中国博士学位论文全文数据库 经济与管理科学辑, no. 02, pages 010 - 11 * |
Also Published As
Publication number | Publication date |
---|---|
CN116467555B (zh) | 2023-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543356B (zh) | 考虑空间非平稳性的海洋内部温盐结构遥感反演方法 | |
CN104156629B (zh) | 一种基于相对辐射校正的导航雷达图像反演海面风向方法 | |
CN102279973A (zh) | 基于高梯度关键点的海天线检测方法 | |
CN111709386B (zh) | 一种水下浅地层剖面图像底质分类方法及系统 | |
CN114782745B (zh) | 一种基于机器学习的海洋声速剖面分类方法及装置 | |
CN110569890A (zh) | 一种基于相似性度量的水文数据异常模式检测方法 | |
CN114490622A (zh) | 基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法和系统 | |
CN114817228B (zh) | 一种湖泊水位长时间序列监测数据的异常值剔除方法 | |
CN106646634B (zh) | 一种微电阻率扫描成像测井数据异常校正方法及装置 | |
CN108920429A (zh) | 一种水位动态监测的异常数据分析方法 | |
CN108537116B (zh) | 一种基于多尺度特征的海岸线二级类型提取方法及系统 | |
CN107831516A (zh) | 融合gnss和地面监测网获取大坝实时高精度位移的方法 | |
CN112711052B (zh) | 基于连续t检验的GNSS坐标序列阶跃探测改进方法及系统 | |
CN116467555B (zh) | 一种海洋剖面观测数据质量控制方法及系统 | |
CN113834547A (zh) | 一种河流虚拟站水位时序重建方法及系统 | |
CN116626685B (zh) | 基于机器学习的河道底泥实时监测方法及系统 | |
CN114047508B (zh) | 一种对海雷达探测范围统计评估方法及系统 | |
CN108268646B (zh) | 一种对加密自动气象站实测温度数值进行质量检查的方法 | |
CN104684083B (zh) | 一种基于分簇思想的ap选择方法 | |
CN114742849B (zh) | 一种基于图像增强的水准仪距离测量方法 | |
CN109387872B (zh) | 表面多次波预测方法 | |
CN115905877A (zh) | 基于VGGNet的测深模型反演方法及系统 | |
CN114563771A (zh) | 基于聚类分析的双阈值激光雷达云层检测算法 | |
Pereda García et al. | Model for the processing and estimation of dual frequency echo sounder observations in detailed bathymetries | |
CN113111956A (zh) | 一种精确定位鱼类产卵场位置的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |