CN114490622A - 基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法和系统 - Google Patents

基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法和系统 Download PDF

Info

Publication number
CN114490622A
CN114490622A CN202210233575.2A CN202210233575A CN114490622A CN 114490622 A CN114490622 A CN 114490622A CN 202210233575 A CN202210233575 A CN 202210233575A CN 114490622 A CN114490622 A CN 114490622A
Authority
CN
China
Prior art keywords
inspection
quality control
data
observation
observation data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210233575.2A
Other languages
English (en)
Inventor
成里京
谭哲韬
张斌
朱江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Oceanology of CAS
Institute of Atmospheric Physics of CAS
Original Assignee
Institute of Oceanology of CAS
Institute of Atmospheric Physics of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Oceanology of CAS, Institute of Atmospheric Physics of CAS filed Critical Institute of Oceanology of CAS
Priority to CN202210233575.2A priority Critical patent/CN114490622A/zh
Publication of CN114490622A publication Critical patent/CN114490622A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2291User-Defined Types; Storage management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Testing Or Calibration Of Command Recording Devices (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供的基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法和系统,属于数据处理系统领域。其包括获取海洋温盐观测数据;对观测数据进行数据预处理;对经过预处理后的观测数据进行核心模块的质量控制,依次进行基础信息检查、深度递增检查、仪器最大深度检测、局地最大深度检查、全球范围检查、海水冰点检查、等值检查、局地气候态检查、尖峰检查、极值检查、全球梯度检查、局地梯度气候态检查、以及仪器特性检查;对上述各项检查的质控结果进行标记输出;对各项质控标记输出结果进行统计;输出带有质控标记的观测数据文件。本发明用于对海洋观测的温盐数据进行质量控制,旨在为快速、低成本地提供高质量的观测数据集提供解决思路。

Description

基于气候态范围阈值的自动化海洋温盐观测数据质量控制方 法和系统
技术领域
本发明属于数据处理系统领域,具体是一种基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法。
背景技术
海洋温盐观测数据的质量控制是建立高质量海洋科学数据库的基础,其对于推动海洋科学及多学科交叉研究、海洋环境预测预报、海洋灾害预警等具有重要意义。近几十年来,随着各种海洋观测技术和设备的发展、海洋调查的深度和广度不断拓展,海洋科学已进入大数据时代。数据质量控制是指通过人工审查或计算机算法辅助的方式,对海洋观测数据进行全方位的质量评估,识别和剔除因各类错情产生的虚假观测数据(异常值),旨在为提高数据的准确性和可用性提供一种解决思路。目前,国内外对如何获得高质量的现场观测数据越来越重视;然而,由于获取数据手段多样、数据质量千差万别、数据错情类型繁多等因素,使得如何高效和精准地发现这些质量问题并对其进行质量控制是一个难点,也是数据处理中的核心技术。
目前,质量控制从质控技术方式分类上可分为自动化质控技术和(可视化)专家质控技术。其中,自动化质量控制技术一般是通过编写计算机程序,对每一条剖面的观测物理参数进行自动检查,随后对虚假数据(异常值)进行自动质控标记。而专家质控技术则是通过海洋学专家过往经验,对经过自动化质控技术处理后的数据,进行进一步的人工目视审查,这对提高数据的可用性和准确性有一定的作用。
目前海洋观测数据的质量控制系统通常采用多种类型质量控制模块来识别异常值或虚假数据,一般可分为以下几类:1)将观测数据与预先定义的全球或局地的气候态波动范围进行比较,例如气候态检查;(2)对比观测廓线的形状,例如梯度检查;3)依据不同仪器类型的特征对观测数据进行比较,例如仪器最大深度检查。这三种方法已在海洋数据质量控制领域达成共识,被广泛应用在海洋观测数据的质量控制当中。目前,对于异常值的定义暂无一个统一的标准,一些现有的技术中往往假设海洋观测数据是正态分布的,那么异常值通常被定义成超过设定的平均值的数倍标准偏差的数据点。还有一些系统会假设数据是偏态分布并采用箱型图或者是调整箱型图的方法来定义异常值,这都取得了一定的进展和成效。
在质量控制系统中,气候态检查通常被认为是质量控制系统的核心,它相比于其他检查模块而言可以识别更多错情的异常值。该检查旨在将观测到的海洋原位数据与预先构建的该地历史气候态及其波动范围进行比较,因为局地海洋观测获取到的数值通常在一个气候平均态确定的范围内波动。例如太平洋暖池的海表面温度大约在28℃上下范围内波动,并且从来不会低于15℃和高于35℃。目前,气候态检查已被广泛应用在大多数质量控制系统当中。尽管如此,现有的海洋观测数据质量控制技术存在如下的四个缺点:
(1)传统的质量控制系统在检测异常值方面往往假设数据是正态分布。但实际上,受观测数量、海洋环境变化等因素影响,海洋多源观测数据往往是偏态分布甚至是不规则分布。若假设数据仅仅是正态分布,那么将有部分异常值无法被准确识别出来。
(2)传统的质控系统在构建气候态阈值(范围)时没有考虑海洋环流的流依赖,并且没有适应复杂的海洋地形条件,这导致了在一些观测数据少甚至是无观测的区域,无法准确构建该地区的历史气候态变化范围,导致质量控制的精度过低。
(3)传统的自动化质量控制系统往往需要结合人工审查的方式进行数据质控,因为单一的自动化质量控制系统往往存在去伪概率(无法正确标记异常值)较低和错判概率(将正确数据错误标记成异常值)较高的情况。
(4)一些传统的质量控制系统主要是通过人工检查(专家质控)的方式实现,该类型系统需要消耗大量时间、人力、财力,在成本方面消耗过高,同时该类型系统也无法适应与日俱增的海洋实时数据流和具备构建实时联动的海洋数据库的能力,在效率方面不具备时效性。
发明内容
本发明能够解决上述问题或缺陷,提供一种基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法,其用于对海洋原位观测的温盐数据进行质量控制,旨在为快速、低成本地提供高质量的(实时)观测数据集提供解决思路。
为了实现上述目的,本发明的实施例可以这样实现:
第一方面,本发明实施例提供一种基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法,包括:
获取观测数据;
对所述观测数据进行数据预处理,所述数据预处理包括:格式统一、单位统一、删除缺测值、以及经纬度转换;
对经过预处理后的观测数据分别进行基础信息检查、深度递增检查、仪器最大深度检查、局地最大深度检查、全球范围检查、海水冰点检查、等值检查、局地气候态检查、尖峰检查、极值检查、全球梯度检查、局地梯度气候态检查、以及仪器特性检查;
对上述各项检查的质控结果进行标记输出;
对各项质控标记输出结果进行统计;
输出带有质控标记的原始数据文件。
进一步地,在可选的实施例中,所述基础信息检查的步骤包括:
检查所述观测数据的基础信息是否在合理值区间内。若所述观测数据的某一基础信息不在预设区间内,则将所有观测数据标记为异常值。
进一步地,在可选的实施例中,所述深度递增检查的步骤包括:
检查所述观测数据的深度是否是单调递增;若所述观测数据的深度不满足单调增加,则将全部所述观测数据标记为异常值。
进一步地,在可选的实施例中,所述仪器最大深度检查的步骤包括:
检查所述观测数据的深度是否超出测量仪器所允许的最大测量深度。若所述观测数据的深度超出测量仪器所允许的最大测量深度,则将超过最大测量深度的测量值标记为异常值。
进一步地,在可选的实施例中,所述局地最大深度检查的步骤包括:
检查所述观测数据的深度是否大于该地的海底最大深度。若所述观测数据的深度大于该地的海底最大深度,则将所述观测数据中深度大于该最大深度的所有测量值标记为异常值。
进一步地,在可选的实施例中,所述全球范围检查的步骤包括:
检查所述观测数据中廓线观测值是否在随深度变化的预设范围内。若所述观测数据中廓线观测值超出随深度变化的预设范围,则将超过预设范围的观测值标记为异常值。
进一步地,在可选的实施例中,所述海水冰点检查的步骤包括:
检查所述观测数据中的温度观测值是否低于当地的海水冰点温度。若所述观测数据中的温度观测值低于当地的海水冰点温度,则将所述观测数据中低于含税冰点温度的观测值标记为异常值。
进一步地,在可选的实施例中,所述等值检查的步骤包括:
检查所述观测数据中廓线的观测值在预设深度范围内是否完全相同。若在所述预设深度范围内出现多个相同的观测值,在排除等温层的因素之后,将所有观测值标记为异常值。
进一步地,在可选的实施例中,所述局地气候态检查的步骤包括:
将所述观测数据与预先构建的该地大量历史观测值及其波动范围或波动阈值进行比对。若某一深度的观测值超过设定的局地平均气候态范围阈值,则将该观测值标记为异常值。
进一步地,在可选的实施例中,所述全球梯度检查的步骤包括:
检查相邻的两个深度对应的观测值的垂直梯度是否超出了一定范围。若计算得到的垂直梯度落在设定的阈值范围之外时,相邻的两个观测值都将被标记为异常值。
进一步地,在可选的实施例中,所述局地梯度气候态检查的步骤包括:
将观测数据计算得到的垂直梯度数据与预先构建的该地大量历史梯度观测值及其波动范围进行比对。若某一深度的观测的对应梯度值超过设定的局地月平均梯度气候态范围阈值,则将该观测值标记为异常值。
进一步地,在可选的实施例中,所述仪器特性检查的步骤包括:
依据观测仪器类型的特征,检查因数据采集过程中遇到的特定问题而造成的错误数值。如果检测到观测数据与仪器特有的问题相关,则这些观测数据全部标记为异常值。
第二方面,本发明实施例提供一种基于气候态范围阈值的自动化海洋温盐观测数据质量控制系统,用于实施前述任意一项的基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法,所述控制系统包括:
获取模块:获取观测数据;
预处理模块:对所述观测数据进行数据预处理,所述数据预处理包括:格式统一、单位统一、删除缺测值、以及经纬度转换;
检查模块:对经过预处理后的观测数据分别进行基础信息检查、深度递增检查、仪器最大深度检检查、局地最大深度检查、全球范围检查、海水冰点检查、等值检查、局地气候态检查、尖峰检查、极值检查、全球梯度检查、局地梯度气候态检查、以及仪器特性检查;
标记模块:对上述各项检查的质控结果进行标记输出;
统计模块:对各项质控标记输出结果进行统计;
输出模块:输出带有质控标记的原始数据文件。
本发明提供的基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法和系统具有以下有益效果:
(1)质量控制系统对海洋观测数据不假设任何可能的数据分布,仅通过百分位数来定义数据的可能变化范围和对应的异常值。
(2)质量控制系统中的气候态阈值考虑了海洋环流的流依赖性和地形适应性,具备准确反映局地历史观测状况的真实分布的能力,提高了识别异常值的稳健性。
(3)通过验证,质量控制系统在保留良好数据和标记异常值的能力具有一定的优势:其可以具备通过牺牲非常少的良好数据来标记绝大多数虚假数据的能力,有效提高了海洋温盐观测数据的准确性。
(4)质量控制标识符输出结果包括每一个检查模块的质控结果和综合所有模块的质控结果,这可以帮助使用者了解同一个数据在不同的检查模块的结果。如果同一个观测值在多个检查模块中均被标记为异常值,那么将有足够高的可信度去相信该数据是错误数据。总之,系统的标记符是可选的多类别结果,决定数据的去与留取决于具体的使用场景和要求。
(5)质量控制系统完全通过计算机程序完成,不依赖人工目视审查,在不降低质量控制精度的基础上减少了人力、财力、时间的消耗和负担,有效提高了海洋观测数据质量控制的效率。具备批量导入数据、多核CPU并行计算、跨平台部署、应对实时数据流质量控制、应用于气候变化科学问题研究的能力。
综上,该系统可以用在海洋温盐原位数据的质量控制、高质量海洋数据库建设当中。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明具体实施例所述的基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法的示意图;
图2为本发明具体实施例所述的海洋温盐观测数据自动化质量控制系统流程图;
图3为本发明具体实施例所述的局地气候态构建的流依赖性示意图;
图4为本发明具体实施例所述的质量控制系统效果图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
需要说明的是,在不冲突的情况下,本发明的实施例中的特征可以相互结合。
下面结合附图,对本发明的具体实施方式进行详细说明。
请参阅图1,本实施例提供了一种基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法,其用于对海洋温盐观测数据进行质量控制,旨在为快速、低成本地提供高质量的观测数据集提供解决思路。
如图1所示,基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法,包括:
步骤S100:获取观测数据;
将海洋现场温盐观测数据作为原始数据输入到系统中。其中,系统可以自动在网络上获取公开的最新实时海洋观测数据。数据输入格式包括文本文件格式(*.txt)、netCDF格式(*.nc)或MATLAB的数据存储的标准格式(*.mat)。
步骤S200:对观测数据进行数据预处理,数据预处理包括:格式统一、单位统一、删除缺测值、以及经纬度转换;
步骤S300:对经过预处理后的观测数据分别进行基础信息检查、深度递增检查、仪器最大深度检查、局地最大深度检查、全球范围检查、海水冰点检查、等值检查、局地气候态检查、尖峰检查、极值检查、全球梯度检查、局地梯度气候态检查、以及仪器特性检查;
步骤S400:对上述各项检查的质控结果进行标记输出;
在本步骤中,质控系统的质量控制标识符采用二分法定义:对于每一个经过质控的观测值,0表示正确(良好)值,1表示虚假(坏)值。每一个检查模块均会输出对应的标识符。此外,还将在最后输出结合了所有不同的质量检查模块的最终质量控制标识符。
步骤S500:对各项质控标记输出结果进行统计;
本步骤将会输出以下的统计指标:1)所有观测数据的拒绝率,定义为虚假值的个数在总观测个数中的百分比;2)每一个检查模块的观测数据拒绝率,定义为该检查模块下虚假值的个数在总观测个数中的百分比;3)廓线拒绝率:定义为至少有一个观测点被拒绝的廓线数量占所有廓线数量的百分比。
步骤S600:输出带有质控标记的原始数据文件;
本步骤的输出格式可依据用户需求选择文本文件格式(*.txt)、netCDF格式(*.nc)或MATLAB的数据存储的标准格式(*.mat)。
请参阅图2,本实施例提供了一种基于气候态范围阈值的自动化海洋温盐观测数据质量控制系统,用于实施前述任一项的基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法,控制系统包括:
获取模块:获取观测数据;
预处理模块:对观测数据进行数据预处理,数据预处理包括:格式统一、单位统一、删除缺测值、以及经纬度转换;
检查模块:对经过预处理后的观测数据分别进行基础信息检查、深度递增检查、仪器最大深度检查、局地最大深度检查、全球范围检查、海水冰点检查、等值检查、局地气候态检查、尖峰检查、极值检查、全球梯度检查、局地梯度气候态检查、以及仪器特性检查;
标记模块:对上述各项检查的质控结果进行标记输出;
统计模块:对各项质控标记输出结果进行统计;
输出模块:输出带有质控标记的原始观测数据文件。
需要指出的是,在步骤S300中,需要进行十三项检查,以下对每一项检查进行详细介绍和说明。
在本发明实施例中,基础信息检查的步骤包括:检查观测数据的基础信息(如年份、月份、日份、时间、时区、经纬度)是否在合理值区间内;例如纬度的取值在南纬80°到北纬90°之间,且不可能在陆地上。若观测数据的某一基础信息不在预设区间内,则将所有观测数据标记为异常值。
在可选的实施例中,深度递增检查的步骤包括:检查观测数据的深度是否是单调递增;若观测数据的深度不满足单调增加,则将不满足单调递增的观测数据标记为异常值。
在可选的实施例中,仪器最大深度检查的步骤包括:检查深度观测数据是否超出测量仪器所允许的最大测量深度(例如,Argo浮标观测深度最大不超过6000米,MBT(机械式测温仪)最大观测深度不超过320米。);若观测到的深度值超出测量仪器所允许的最大测量深度,则将超过最大测量深度的测量值标记为异常值。
在可选的实施例中,局地最大深度检查的步骤包括:检查深度观测数据是否大于该地的海底最大深度(由海底深度通过电子测深仪获得);若观测数据的深度大于该地的海底最大深度,则将观测数据中深度大于该最大深度的所有测量值标记为异常值。
在可选的实施例中,全球范围检查的步骤包括:检查观测数据是否在随深度变化的预设合理范围内(例如300~400m的深度范围内,温度取值范围只能为[-2.0℃,27.0℃],盐度取值范围只能为[3psu,41psu]);若观测数据超出随深度变化的预设范围,则将超过预设范围的观测值标记为异常值。
在可选的实施例中,海水冰点检查的步骤包括:检查观测数据中的温度观测值是否低于当地的海水冰点温度;若观测数据中的温度观测值低于当地的海水冰点温度,则将观测数据中低于海水冰点温度的观测值标记为异常值。
需要指出的是,海水冰点检查中的海水冰点温度由温度、盐度和海水压力采用如下公式计算得到:
Figure BDA0003540872490000101
其中Tf为冰点摄氏温度,S为实用盐度(psu),P为海水压力(dbar)。如果盐度观测值缺测,将使用气候态盐度来替代S。
在可选的实施例中,等值检查的步骤包括:检查观测数据在预设深度范围内是否完全相同;若在预设深度范围内出现多个相同的观测值,在排除等温层的因素之后,将所有观测值标记为异常值。
需要指出的是,等值检查包括两个参数:1)H:最小等温层厚度,设定为300米(极地为400米)。2)N:在最小等温层厚度H内,数值完全相等的最少个数。N的设定依赖于不同的观测仪器类型。
在可选的实施例中,局地气候态检查的步骤包括:将观测数据与预先构建的该地大量历史观测值及其波动范围或波动阈值进行比对;若某一深度的观测值超过设定的局地平均气候态范围阈值,则将该观测值标记为异常值。若某一在深度为k的观测值(Tk)超过设定的经纬度(lat,lon)月(month)平均气候态范围阈值(最大值Tmax、最小值Tmin):
Figure BDA0003540872490000111
则将该观测值标记为异常值。
需要指出的是,局地气候态检查是首先根据历史观测数据的统计分布特征或概率分布(先验猜测)来定义一个局地气候态波动的范围,然后依据此定义每一个位置的上、下界阈值。在定义异常值的时候,本发明没有假设包括高斯分布在内的任何分布,因为海洋温盐数据的分布在不同的地点可能有着不同的分布形态(正态分布、偏态分布、均匀分布等)。相反,本发明仅假设在每一个网格内仅仅只有1%的数据为异常值,因此0.5%和99.5%的百分位数被用作定义局地气候态参数范围的阈值。基于此百分位数,本发明构建了适用于局地气候态检查模块的逐月局地温度气候态阈值范围场。该气候态范围场的构建是通过统计以格点为圆心,以一定范围为半径(气泡)内的所有数据的平均值、中位数、标准差及百分位数。气泡内的数据选取考虑了水团的各向异性和地形适应依赖性,以保证气候态符合海洋环流的基本规则形态。同时,局地气候态阈值范围构建算法对海洋观测数据的真实分布状态不做任何分布假设,仅使用百分数为作为气候态上下界的定义,保证了气候态阈值的真实性和准确性,提高了局地气候态检查模块的稳健性。
请参阅图3,该图展示了局地气候态检查的局地平均气候态范围阈值范围构建方法。其中(a)表示1月份10m深度的温度气候平均值和带有1°黑色格点的中心的圆形气泡,中心框的位置用星号表示;(b-d)表示按每一个格点的平均温度及标准差对所有格点进行升序排列,垂直虚线表示格点选取的温度变化范围。虚线范围内的格点被保留用作气候态数据的统计;(e-d)表示每个气泡内温度分布的直方图,两侧垂直虚线表示对应中心格点的温度平均气候态波动范围的阈值(最大值、最小值)。
在可选的实施例中,逐一对观测数据进行尖峰检查:检查廓线观测值是否存在较大的突变(尖峰“牛眼”)。对于定义温盐观测廓线的尖峰(S),本发明采用如下方法计算:
S1=|Tk+1-(Tk+Tk+2)*0.5|
S2=I(Tk+2+Tk)*0.5|
S=S1-S2
其中,Tk、Tk+1、Tk+2分别代表相邻的三个深度层(k、k+1、k+2)的温度或盐度观测,S表示由相邻是三个观测计算出来的数据差异大小。如果S大于阈值Smax:
Figure BDA0003540872490000121
那么在第k+1个深度的观测值将被定义为尖峰,并标记为异常值。
在可选的实施例中,逐一对观测数据进行极值检查:检查观测廓线在相邻深度(k、k-1、k+1)上是否具有不切实际的大量极端值。对于极端值的定义,本发明采用如下计算方法:
Tk-Tk+1<d and Tk-Tk-1<d
对于廓线连续的三个观测值(Tk-1,Tk,Tk+1),如果符合上述方程,那么第k个观测值(Tk)将定义为极端值,并被标记为异常值。
在可选的实施例中,逐一对观测数据进行全球梯度检查:检查相邻的两个深度对应的观测值的垂直梯度是否超出了一定范围(例如,盐度最大梯度值在400m以浅为9.000psu/m,400m以深为0.050psu/m)。当计算得到的垂直梯度落在设定的范围之外时,相邻的两个观测值都将被标记为异常值。
在可选的实施例中,逐一对观测数据进行局地梯度气候态检查:将观测数据计算得到的垂直梯度数据与预先构建的该地大量历史梯度观测值及波动范围(阈值)进行比对。由于观测值随深度的垂直分布是非线性的,因此垂直梯度的有限差分的计算取决于廓线垂直分辨率,计算梯度的大小随着两层之间垂直间隔的增加而减小。因此,本方案采用如下中央差分方法计算第k层的观测廓线的垂向梯度:
Figure BDA0003540872490000131
其中,Dk为第k层的观测数值,相邻两层的距离由δZ表示。在本发明中,考虑到一些高分辨率廓线可能会引入海洋小微尺度的垂向噪声,需要通过扩大采样间隔以保证δZ大于等于10m。随后,将计算得到的垂向梯度数据与预先构建的不同深度间隔的局地温度梯度气候态阈值范围场进行比较(该温度梯度气候态阈值范围场不假设数据的任何可能分布,而是采用99.5%和0.5%分位数作为气候态阈值的上下界)。若某一在深度为k的观测的对应梯度值超过设定的局地经纬度限定的(lat,lon)月平均(month)梯度气候态范围阈值(最大值Gmax、最小值Gmin):
Figure BDA0003540872490000132
则将该观测值标记为异常值。
需要指出的是,局地梯度气候态检查中的梯度气候态范围场的构建在选取数据时选取考虑了水团的“各向异性”(流依赖;与图3类似)和地形适应性,以保证气候态符合海洋环流的基本规则形态,提高了气候态检查模块的去伪概率和降低了错判概率。此外,垂直梯度的计算考虑了梯度数据的局地化差异特征,同时考虑了数据采样点之间的间隔大小,避免了采样点间隔过小而引入的高频噪声从而影响局地梯度气候态检查的准确性。一些在局地气候态检查模块当中无法正确识别的错误或异常值可以被局地梯度气候态检查模块正确识别出来。
在可选的实施例中,逐一对观测数据进行仪器特性检查。依据观测仪器类型的特征,检查因数据采集过程中遇到的特定问题而造成的错误数值。例如XBT(投弃式温度深度仪)仪器通常会出现电线拉伸、电线绝缘损坏、电流泄漏、电线噪音或仪器触碰海底等特有的问题。基于前述实施例中的的“逐一对观测数据进行局地梯度气候态检查”的结果,如果检测到观测数据与这些和仪器特有的问题相关,则将这些观测数据全部标记为异常值。
请参阅图4。其中,(a)图是从世界海洋数据库中提取出来的经专家质控的基准数据集中任意选择3000条原始温度观测廓线数据。(b)图是在(a)图的基础上,经专家人工审查之后保留下来的良好数据,以其作为基准;(c)图是在(a)图的基础之上,通过德国汉堡大学质量控制系统标记之后保留下来的良好数据;(d)图是在(a)图的基础之上,通过本发明的质控系统标记之后保留下来的良好数据;该图可以进一步说明本发明可实现对海洋温度观测数据质量的进一步提升。
本发明所指的自动化海洋温盐观测数据质量控制系统是基于气候态范围阈值的质量控制算法。该系统用于对海洋原位观测的温盐数据进行质量控制,旨在为快速、低成本地提供高质量的(实时)观测数据集提供解决思路。该系统共包含13个检查模块,分别是基础信息检查、深度递增检查、仪器最大深度检查、局地最大深度检查、全球范围检查、海水冰点检查、等值检查、局地气候态检查、尖峰检查、极值检查、全球梯度检查、局地梯度气候态检查和仪器特性检查。该质量控制系统时可以依据不同使用目的对模块进行自由组合,并可基于不同类型的质控标识符进行取舍。
本实施例提供的基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法,具有以下优点:
(1)质量控制系统对海洋观测数据不假设任何可能的数据分布,仅通过百分位数来定义数据的可能变化范围和对应的异常值。
(2)质量控制系统中的气候态阈值考虑了海洋环流的流依赖性和地形适应性,具备准确反映局地历史观测状况的真实分布的能力,提高了识别异常值的稳健性。
(3)通过验证,质量控制系统在保留良好数据和标记异常值的能力具有一定的优势:其可以具备通过牺牲非常少的良好数据来标记绝大多数虚假数据的能力。
(4)质量控制标识符输出结果包括每一个检查模块的质控结果和综合所有模块的质控结果,这可以帮助使用者了解同一个数据在不同的检查模块的结果。如果同一个观测值在多个检查模块中均被标记为异常值,那么将有足够高的可信度去相信该数据是错误数据。总之,系统的标记符是可选的多类别结果,决定数据的去与留取决于具体的使用场景和要求。
(5)质量控制系统完全通过计算机程序完成,不依赖人工目视审查,在不降低质量控制精度的基础上减少了人力、财力、时间的消耗和负担,具备批量导入数据、多核CPU并行计算、跨平台部署、应对实时数据流质量控制、应用于气候变化科学问题研究的能力。
综上,该方法可以用在海洋温盐原位数据的质量控制、高质量海洋数据库建设当中。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。

Claims (9)

1.一种基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法,其特征在于,包括:
获取观测数据;
对所述观测数据进行数据预处理,所述数据预处理包括:格式统一、单位统一、删除缺测值、以及经纬度转换;
对经过预处理后的观测数据分别进行基础信息检查、深度递增检查、仪器最大深度检查、局地最大深度检查、全球范围检查、海水冰点检查、等值检查、局地气候态检查、尖峰检查、极值检查、全球梯度检查、局地梯度气候态检查、以及仪器特性检查;
对上述各项检查的质控结果进行标记输出;
对各项质控标记输出结果进行统计;
输出带有质控标记的原始数据文件。
2.根据权利要求1所述的基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法,其特征在于,所述局地气候态检查的步骤包括:
将所述观测数据与预先构建的该地大量历史观测值及其波动范围或波动阈值进行比对;
若某一深度的观测值超过设定的局地平均气候态范围阈值,则将该观测值标记为异常值。
3.根据权利要求1所述的基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法,其特征在于,所述全球梯度检查的步骤包括:
检查相邻的两个深度对应的观测值的垂直梯度是否超出了一定范围;
当计算得到的垂直梯度落在设定的阈值范围之外时,相邻的两个观测值都将被标记为异常值。
4.根据权利要求1所述的基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法,其特征在于,所述局地梯度气候态检查的步骤包括:将观测数据计算得到的垂直梯度数据与预先构建的该地大量历史梯度观测平均值及其波动范围进行比对;
若某一深度的观测的对应梯度值超过设定的局地月平均梯度气候态范围阈值,则将该观测值标记为异常值。
5.根据权利要求1所述的基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法,其特征在于,所述仪器特性检查的步骤包括:
依据观测仪器类型的特征,检查因数据采集过程中遇到的特定问题而造成的错误数值;
如果检测到观测数据与仪器特有的问题相关,则这些观测数据全部标记为异常值。
6.根据权利要求1所述的基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法,其特征在于,所述全球范围检查的步骤包括:
检查所述观测数据中廓线观测值是否在随深度变化的预设范围内;
若所述观测数据中廓线观测值超出随深度变化的预设范围,则将超过预设范围的观测值标记为异常值。
7.根据权利要求1所述的基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法,其特征在于,所述海水冰点检查的步骤包括:
检查所述观测数据中的温度观测值是否低于当地的海水冰点温度;
若所述观测数据中的温度观测值低于当地的海水冰点温度,则将所述观测数据中低于海水冰点温度的观测值标记为异常值。
8.根据权利要求1所述的基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法,其特征在于,所述等值检查的步骤包括:
检查所述观测数据中廓线的观测值在预设深度范围内是否完全相同。
若在所述预设深度范围内出现多个相同的观测值,在排除等温层的因素之后,将所有观测值标记为异常值。
9.一种基于气候态范围阈值的自动化海洋温盐观测数据质量控制系统,用于实施如权利要求1-8中任一项所述的基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法,其特征在于,所述质量控制系统包括:
数据获取模块:获取观测数据;
预处理模块:对所述观测数据进行数据预处理,所述数据预处理包括:格式统一、单位统一、删除缺测值、以及经纬度转换;
检查模块:对经过预处理后的观测数据分别进行基础信息检查、深度递增检查、仪器最大深度检查、局地最大深度检查、全球范围检查、海水冰点检查、等值检查、局地气候态检查、尖峰检查、极值检查、全球梯度检查、局地梯度气候态检查、以及仪器特性检查;
标记模块:对上述各项检查的质控结果进行标记输出;
统计模块:对各项质控标记输出结果进行统计;
输出模块:输出带有质控标记的原始数据文件。
CN202210233575.2A 2022-03-10 2022-03-10 基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法和系统 Pending CN114490622A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210233575.2A CN114490622A (zh) 2022-03-10 2022-03-10 基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210233575.2A CN114490622A (zh) 2022-03-10 2022-03-10 基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法和系统

Publications (1)

Publication Number Publication Date
CN114490622A true CN114490622A (zh) 2022-05-13

Family

ID=81485358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210233575.2A Pending CN114490622A (zh) 2022-03-10 2022-03-10 基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法和系统

Country Status (1)

Country Link
CN (1) CN114490622A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115236772A (zh) * 2022-06-22 2022-10-25 中国气象局气象探测中心 一种漂流观测仪数据质量控制系统及其方法
CN116166680A (zh) * 2023-03-07 2023-05-26 北京铁科特种工程技术有限公司 一种铁路北斗基准站控制网自动更新维护方法和系统
CN116467555A (zh) * 2023-03-13 2023-07-21 中国科学院大气物理研究所 一种海洋剖面观测数据质量控制方法及系统
CN117648654A (zh) * 2023-12-04 2024-03-05 国家卫星海洋应用中心 一种海表温度反演数据的实时质量控制标识方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100167A (zh) * 2020-11-12 2020-12-18 航天宏图信息技术股份有限公司 一种生态保护红线数据的质检方法及装置
CN112685950A (zh) * 2020-12-02 2021-04-20 山东省计算中心(国家超级计算济南中心) 一种海洋时序观测数据的异常检测方法、系统和设备
CN113536233A (zh) * 2021-07-12 2021-10-22 中国科学院海洋研究所 海洋浮标数据质量控制系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100167A (zh) * 2020-11-12 2020-12-18 航天宏图信息技术股份有限公司 一种生态保护红线数据的质检方法及装置
CN112685950A (zh) * 2020-12-02 2021-04-20 山东省计算中心(国家超级计算济南中心) 一种海洋时序观测数据的异常检测方法、系统和设备
CN113536233A (zh) * 2021-07-12 2021-10-22 中国科学院海洋研究所 海洋浮标数据质量控制系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
谭哲韬 等: "海洋观测数据质量控制技术研究及展望", 《中国科学:地球科学》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115236772A (zh) * 2022-06-22 2022-10-25 中国气象局气象探测中心 一种漂流观测仪数据质量控制系统及其方法
CN116166680A (zh) * 2023-03-07 2023-05-26 北京铁科特种工程技术有限公司 一种铁路北斗基准站控制网自动更新维护方法和系统
CN116166680B (zh) * 2023-03-07 2023-12-05 北京铁科特种工程技术有限公司 一种铁路北斗基准站控制网自动更新维护方法和系统
CN116467555A (zh) * 2023-03-13 2023-07-21 中国科学院大气物理研究所 一种海洋剖面观测数据质量控制方法及系统
CN116467555B (zh) * 2023-03-13 2023-11-03 中国科学院大气物理研究所 一种海洋剖面观测数据质量控制方法及系统
CN117648654A (zh) * 2023-12-04 2024-03-05 国家卫星海洋应用中心 一种海表温度反演数据的实时质量控制标识方法
CN117648654B (zh) * 2023-12-04 2024-04-30 国家卫星海洋应用中心 一种海表温度反演数据的实时质量控制标识方法

Similar Documents

Publication Publication Date Title
CN114490622A (zh) 基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法和系统
Hosking et al. Some statistics useful in regional frequency analysis
CN109141426B (zh) 一种水下重力匹配导航适配区的方法
CN109543356A (zh) 考虑空间非平稳性的海洋内部温盐结构遥感反演方法
Mozejko Detecting and estimating trends of water quality parameters
KR101908865B1 (ko) 기온 측정 자료의 품질 분석방법
CN108920429A (zh) 一种水位动态监测的异常数据分析方法
CN104931040A (zh) 基于机器学习的北斗ⅱ代导航系统电力铁塔变形监测设备安装和调试方法
CN113487722A (zh) 一种基于三维激光扫描方法的混凝土构件自动化检测方法
CN115854999A (zh) 基于场景自适应的h-adcp断面平均流速自校正方法
CN114266796B (zh) 基于激光点云数据与平均大潮高潮面的自然岸线自动获取方法、设备、介质
CN115100819A (zh) 基于大数据分析的滑坡灾害预警方法、装置及电子设备
CN114279415A (zh) 一种基于卫星测高数据计算和校准河湖水位的方法
CN114387332A (zh) 一种管道测厚方法及装置
CN117171128A (zh) 一种基于四水耦合模型的水生生物保护阈值识别方法
CN108268646B (zh) 一种对加密自动气象站实测温度数值进行质量检查的方法
CN116912672A (zh) 一种基于无人测量船的大型底栖无脊椎动物生物完整性评价方法
CN116882731A (zh) 一种基于斜坡单元的地质灾害危险性评估方法及系统
CN114691661B (zh) 一种基于同化的云导风、温湿廓线预处理分析方法及系统
CN114047508B (zh) 一种对海雷达探测范围统计评估方法及系统
CN116051885A (zh) 用于海洋中尺度涡样本数据的处理及中尺度涡识别方法
CN115203643A (zh) 融合水文与生态要素的水源涵养功能定量诊断方法及系统
CN111122813B (zh) 基于区域地下水流场方向的水质类别评价方法
CN110837924B (zh) 一种水质浊度预测方法
CN114782211A (zh) 一种海山分布范围信息的获取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220513

RJ01 Rejection of invention patent application after publication