CN117408581B - 潜浮标数据质量控制方法、系统、计算机及存储介质 - Google Patents
潜浮标数据质量控制方法、系统、计算机及存储介质 Download PDFInfo
- Publication number
- CN117408581B CN117408581B CN202311728797.2A CN202311728797A CN117408581B CN 117408581 B CN117408581 B CN 117408581B CN 202311728797 A CN202311728797 A CN 202311728797A CN 117408581 B CN117408581 B CN 117408581B
- Authority
- CN
- China
- Prior art keywords
- data
- salinity
- temperature
- detection
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 238000001514 detection method Methods 0.000 claims abstract description 220
- 230000002159 abnormal effect Effects 0.000 claims abstract description 126
- 238000003908 quality control method Methods 0.000 claims abstract description 28
- 238000004422 calculation algorithm Methods 0.000 claims description 35
- 238000012549 training Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 230000008014 freezing Effects 0.000 claims description 9
- 238000007710 freezing Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 6
- 238000012876 topography Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 238000004519 manufacturing process Methods 0.000 claims description 4
- 239000013535 sea water Substances 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 8
- 239000000523 sample Substances 0.000 description 16
- 238000009826 distribution Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 150000003839 salts Chemical class 0.000 description 6
- 230000014759 maintenance of location Effects 0.000 description 5
- 238000005065 mining Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000013441 quality evaluation Methods 0.000 description 4
- 230000006872 improvement Effects 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Marketing (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Business, Economics & Management (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Game Theory and Decision Science (AREA)
- Primary Health Care (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Testing Or Calibration Of Command Recording Devices (AREA)
Abstract
本发明涉及电数据处理领域,特别是涉及潜浮标数据质量控制方法、系统、计算机及存储介质,其中,该方法包括:获取自持式剖面探测浮标的观测数据中的设备编号、浮标位置、观测日期及观测剖面的温度数据、盐度数据、压力数据、深度数据;根据所述设备编号及观测日期进行质量检测,根据所述温度数据、盐度数据、压力数据及深度数据进行统计检测,将检测到的异常信号剔除得到处理后的数据;根据所述温度数据、盐度数据计算温度梯度、盐度梯度,并将所述温度梯度、盐度梯度和所述观测数据输入一预训练的多层感知器MLP进行分类,以识别异常数据及可信数据。通过本发明实现了提高潜浮标数据质量控制精度及普遍适用性。
Description
技术领域
本发明涉及电数据处理领域,特别是涉及潜浮标数据质量控制方法、系统、计算机及存储介质。
背景技术
海洋观测数据是进行海洋科学研究、建设高质量海洋科学数据库、进行多学科交叉研究的重要基础。当前海洋观测技术领域中,监测获取的海洋数据普遍存在一系列质量问题,其成因包括但不限于:仪器偏差、仪器故障、外界干扰、转码错误、通信错误、观测人员失误或人为痕迹处理等。这样的质量问题会影响研究结果的准确性。
数据质量控制主要是通过人工审查或计算机辅助的方式,针对海洋观测数据,需要全方位的进行质量评估、识别及提出因各类成因产生的虚假观测数据,提高数据的准确性和可用性。
现有的质量控制方法大多进行基础要素的质量控制结合莱茵达准则或气候态检验等利用统计学手段或海洋模式的方法识别异常数据,其中,莱茵达准则是通过假定观测数据符合正态分布,然后以3σ为标准判断数据是否为异常值,如专利CN113536233A公开的一种海洋浮标数据质量控制系统;气候态检验是通过预先构建的目标地域的大量历史观测值(气候态)及其波动范围,根据历史观测数据的统计分布特征或概率分布(先验猜测)来界定一个阈值范围,若某一观测值超过设定的阈值,则将其标记为可疑值。
上述基于莱茵达准则的数据质量控制系统是假定观测数据符合正态分布,而实际情况中观测数据不一定符合正态分布,这使得异常值判断就会出现错误。上述基于气候态检验的现有技术,受限于观测剖面的数量,在一些较少观测甚至是无观测的区域无法准确构建该地区的历史气候态,通常会采用反距离加权平均的方法来近似重构历史气候态,则会引入诸多误差,导致结果不准确。
发明内容
本发明实施例提供了一种潜浮标数据质量控制方法、系统、计算机设备和计算机可读存储介质,以提高潜浮标数据质量控制精度。
第一方面,本发明实施例提供了一种潜浮标数据质量控制方法,包括:
数据获取步骤,获取自持式剖面探测浮标的观测数据,所述观测数据包括设备编号、浮标位置、观测日期及观测剖面的温度数据、盐度数据、压力数据、深度数据;
第一数据质量检测步骤,根据所述设备编号及观测日期进行质量检测,根据所述温度数据、盐度数据、压力数据及深度数据进行统计检测,将检测到的异常信号剔除得到处理后的数据;
第二数据质量检测步骤,获取在第一数据质量检测步骤处理后的数据,根据所述温度数据、盐度数据计算温度梯度、盐度梯度,并将所述温度梯度、盐度梯度和所述观测数据,可将输入的数据按照观测时间的月份进行分组,输入一预训练的多层感知器MLP(Multi-Layer Perceptron)进行分类,识别异常数据及可信数据,所述多层感知器是利用经质量控制后的历史数据和再分析数据形成的数据集经前向传播、反向传播训练得到的识别温度数据、盐度数据异常或可信的神经网络,以实现对输入温度梯度、盐度梯度和观测数据进行挖掘判断,提高观测数据质量评估能力,减少人工审核工作量。
在其中一些实施例中,所述方法进一步包括:
数据噪声识别步骤,将所述观测数据按照观测时间的月份进行分组后,通过预训练的无监督的支持向量数据描述SVDD算法(Support Vector Domain Descriptio,简称SVDD)判断观测数据中的离群点并标注噪声标签,将标注有噪声标签的数据经过人工复核后进行剔除。
为了进一步提高本发明无监督SVDD算法的鲁棒性,本发明引入模型的松弛因子并调整模型的惩罚系数,以避免算法模型过拟合和欠拟合,其中,松弛因子是用来给予训练样本一定的容错空间,允许一些样本点位于超球体外边界上,而不是严格位于边界内部,松弛因子是在无监督SVDD算法优化求解过程中计算的,惩罚系数则是用于平衡模型的拟合误差和正则项(n个松弛因子的和)之间的关系,也是控制松弛因子的取值不会过大,以防止过度拟合。惩罚系数是可以灵活调整的。
在其中一些实施例中,所述第一数据质量检测步骤进一步包括:
数据包检测步骤,检测所述设备编号是否与所述探测浮标对应且与浮标灰名单中的浮标编号不同,并检测所述观测日期是否符合预设日期条件,若否,则将数据识别为异常数据,其中,所述浮标灰名单是获取自全球Argo资料中心的因传感器故障导致观测数据无法矫正的浮标编号;所述观测日期包括年份、月份、日、小时、分钟及秒;
浮标数据检测步骤,根据所述浮标位置是否满足经纬度规范、预设投放目标区域及海陆界面规范检测异常数据,并根据二相近剖面的浮标位置和观测日期的时间计算所述探测浮标的漂移速度,根据一速度阈值检测超过所述速度阈值的异常数据;具体的,经纬度规范的纬度范围为-90°~90°,经度范围为-180°~180°,根据纬度范围和经度范围识别范围外的数据并标记为异常数据,进一步检测浮标位置是否属于预设投放目标区域内,若不属于,则标记为异常数据并剔除数据;由于探测浮标的观测位置为海洋,因此根据全球地形起伏模型(如E-TOP05)作为标准制作水陆点数据库,水陆点数据库中包括为海上的经纬度点及陆地的经纬度点,基于此识别浮标位置点不在海上的数据并标记为异常数据;其中,若所述漂移速度超过所述速度阈值,则表示探测浮标的位置和/或时间错误,或浮标平台识别码混淆;对比在正常情况下获取的不同的浮标位置即可识别出异常浮标的位置和/或时间,并标记为异常数据;
观测数据检测步骤,对观测剖面的所述温度数据、盐度数据、压力数据、深度数据进行范围检测和/或统计特征检测,识别异常数据并剔除。
在其中一些实施例中,所述观测数据检测步骤进一步包括:
温盐度数据检测步骤,对所述温度数据、盐度数据进行范围检测、毛刺信号检测、梯度检测、数位翻转检测、滞留检测、密度倒转检测、漂移检测及冻结检测其一或其任意组合,以识别观测的温度数据、盐度数据中异常数据并剔除;
压力数据检测步骤,检测所述压力数据是否符合单调递增且不超过预设压力阈值,否则识别为异常数据并剔除。具体的,若出现连续的非单调递增压力数据,则保留所述多个非单调递增压力数据中的首个数据,其他数据标记为异常数据并剔除。
第二方面,本发明实施例提供了一种潜浮标数据质量控制系统,包括:
数据获取模块,用于获取自持式剖面探测浮标的观测数据,所述观测数据包括设备编号、浮标位置、观测日期及观测剖面的温度数据、盐度数据、压力数据、深度数据;
第一数据质量检测模块,用于根据所述设备编号及观测日期进行质量检测,根据所述温度数据、盐度数据、压力数据及深度数据进行统计检测,将检测到的异常信号剔除得到处理后的数据;
第二数据质量检测模块,用于获取在第一数据质量检测模块输出的数据,根据所述温度数据、盐度数据计算温度梯度、盐度梯度,并将所述温度梯度、盐度梯度和所述观测数据,可将输入的数据按照观测时间的月份进行分组,输入一预训练的多层感知器MLP进行分类,识别异常数据及可信数据,所述多层感知器是利用经质量控制后的历史数据和再分析数据形成的数据集经前向传播、反向传播训练得到的识别温度数据、盐度数据异常或可信的神经网络,以实现对输入温度梯度、盐度梯度和观测数据进行挖掘判断,提高观测数据质量评估能力,减少人工审核工作量。
在其中一些实施例中,所述系统进一步包括:
数据噪声识别模块,用于将所述观测数据按照观测时间的月份进行分组后,通过预训练的无监督的支持向量数据描述SVDD算法判断观测数据中的离群点并标注噪声标签,将标注有噪声标签的数据经过人工复核后进行剔除。
为了进一步提高本发明无监督SVDD算法的鲁棒性,本发明引入模型的松弛因子并调整模型的惩罚系数,以避免算法模型过拟合和欠拟合,其中,松弛因子是用来给予训练样本一定的容错空间,允许一些样本点位于超球体外边界上,而不是严格位于边界内部,松弛因子是在无监督SVDD算法优化求解过程中计算的,惩罚系数则是用于平衡模型的拟合误差和正则项(n个松弛因子的和)之间的关系,也是控制松弛因子的取值不会过大,以防止过度拟合。惩罚系数是可以灵活调整的。
在其中一些实施例中,所述第一数据质量检测模块进一步包括:
数据包检测模块,用于检测所述设备编号是否与所述探测浮标对应且与浮标灰名单中的浮标编号不同,并检测所述观测日期是否符合预设日期条件,若否,则将数据识别为异常数据,其中,所述浮标灰名单是获取自全球Argo资料中心的因传感器故障导致观测数据无法矫正的浮标编号;所述观测日期包括年份、月份、日、小时、分钟及秒;
浮标数据检测模块,用于根据所述浮标位置是否满足经纬度规范、预设投放目标区域及海陆界面规范检测异常数据,并根据二相近剖面的浮标位置和观测日期的时间计算所述探测浮标的漂移速度,根据一速度阈值检测超过所述速度阈值的异常数据;具体的,经纬度规范的纬度范围为-90°~90°,经度范围为-180°~180°,根据纬度范围和经度范围识别范围外的数据并标记为异常数据,进一步检测浮标位置是否属于预设投放目标区域内,若不属于,则标记为异常数据并剔除数据;由于探测浮标的观测位置为海洋,因此根据全球地形起伏模型(如E-TOP05)作为标准制作水陆点数据库,水陆点数据库中包括为海上的经纬度点及陆地的经纬度点,基于此识别浮标位置点不在海上的数据并标记为异常数据;其中,若所述漂移速度超过所述速度阈值,则表示探测浮标的位置和/或时间错误,或浮标平台识别码混淆;对比在正常情况下获取的不同的浮标位置即可识别出异常浮标的位置和/或时间,并标记为异常数据;
观测数据检测模块,用于对观测剖面的所述温度数据、盐度数据、压力数据、深度数据进行范围检测和/或统计特征检测,识别异常数据并剔除。
在其中一些实施例中,所述观测数据检测模块进一步包括:
温盐度数据检测模块,用于对所述温度数据、盐度数据进行范围检测、毛刺信号检测、梯度检测、数位翻转检测、滞留检测、密度倒转检测、漂移检测及冻结检测其一或其任意组合,以识别观测的温度数据、盐度数据中异常数据并剔除;
压力数据检测模块,用于检测所述压力数据是否符合单调递增且不超过预设压力阈值,否则识别为异常数据并剔除。具体的,若出现连续的非单调递增压力数据,则保留所述多个非单调递增压力数据中的首个数据,其他数据标记为异常数据并剔除。
第三方面,本发明实施例提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的潜浮标数据质量控制方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的潜浮标数据质量控制方法。
相比于相关技术,本发明实施例提供的潜浮标数据质量控制方法、系统、计算机设备和计算机可读存储介质,本发明实施例结合统计手段及机器学习方法进行异常数据识别及处理,利用机器学习算法挖掘观测数据的内部特征,实现了提高潜浮标数据质量控制精度及普遍适用性,利用多层感知器MLP挖掘观测数据中的内在联系并进行高维到低维的分类映射,无需过多的利用先验知识建立计算模型和公示,即可拟合多种非线性函数进行观测值是否合理的判断,提升数据质量,加快计算效率,基于本发明实施例所得到的海洋观测数据集也可用于为业界单位提供数据支持、辅助。
本发明的一个或多个实施例的细节在以下附图和描述中提出,以使本发明的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的潜浮标数据质量控制方法的流程图;
图2是根据本发明实施例的潜浮标数据质量控制方法的另一流程图;
图3是根据本发明实施例的潜浮标数据质量控制方法分步骤S3的流程图;
图4是根据本发明实施例的潜浮标数据质量控制方法分步骤S33的流程图;
图5是根据本发明实施例的潜浮标数据质量控制系统结构框图。
图中:
1、数据获取模块;2、数据噪声识别模块;3、第一数据质量检测模块;
5、第二数据质量检测模块;
31、数据包检测模块;32、浮标数据检测模块;33、观测数据检测模块;
331、温盐度数据检测模块;332、压力数据检测模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。基于本发明提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
显而易见地,下面描述中的附图仅仅是本发明的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本发明应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本发明公开的内容相关的本领域的普通技术人员而言,在本发明揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本发明公开的内容不充分。
本实施例提供了一种潜浮标数据质量控制方法。图1-图4是根据本发明实施例的潜浮标数据质量控制方法的流程图,如图1-图4所示,该流程包括如下步骤:
数据获取步骤S1,获取自持式剖面探测浮标的观测数据,观测数据包括设备编号、浮标位置、观测日期及观测剖面的温度数据、盐度数据、压力数据、深度数据;
第一数据质量检测步骤S3,根据设备编号及观测日期进行质量检测,根据温度数据、盐度数据、压力数据及深度数据进行统计检测,将检测到的异常信号剔除得到处理后的数据;
第二数据质量检测步骤S5,获取在第一数据质量检测步骤S3处理后的数据,根据温度数据、盐度数据计算温度梯度、盐度梯度,并将温度梯度、盐度梯度和观测数据,也即设备编号、浮标位置、观测日期、温度数据、盐度数据、压力数据、深度数据,可将输入的数据按照观测时间的月份进行分组,输入一预训练的多层感知器MLP进行分类,识别异常数据及可信数据,多层感知器是利用经质量控制后的历史数据和再分析数据形成的数据集经前向传播、反向传播训练得到的识别温度数据、盐度数据异常或可信的神经网络,以实现对输入温度梯度、盐度梯度和观测数据进行挖掘判断,提高观测数据质量评估能力,减少人工审核工作量,其中,历史数据是经过已经过质量控制识别出的包括异常数据和可信数据标签的历史数据。
考虑到观测的温盐数据是在经度、纬度、深度和时间四个维度空间中变化的,如不同季节下相近的经度、纬度、深度观测到的温盐数据是不同的,本发明实施例为了保证多层感知器MLP的泛化性,使其实现四维空间中温盐数据的质量检测,将上述观测数据及温度梯度、盐度梯度均输入至多层感知器MLP。
需要说明的是,本发明实施例将温度梯度和盐度梯度作为输入,可以提供数据连续性的信息,使多层感知器MLP对数据的跳跃或峰值敏感,对温度梯度和盐度梯度的具体计算可以参照温盐度数据检测步骤中的梯度值计算模型。
考虑到在观测过程中会存在许多分布规律呈现离散特性的噪音数据,本发明实施例引入无监督算法识别离群点消除观测数据中的噪声。在另一实施例中,本发明方法进一步包括:
数据噪声识别步骤S2,将观测数据按照观测时间的月份进行分组后,通过预训练的无监督的支持向量数据描述SVDD算法判断观测数据中的离群点并标注噪声标签,将标注有噪声标签的数据经过人工复核后进行剔除。
在本发明实施例中,数据噪声识别步骤S2可以设置在第一数据质量检测步骤S3之前进行,如图2所示,也可以设置在第一数据质量检测步骤S3与第二数据质量检测步骤S5之间,利用无监督SVDD算法捕获多要素正样本数据集的形状与范围特征建立超球体,算法模型基于包含正样本数据的观测数据形成的训练集进行预训练,以使超球体包含训练集中的正样本数据,从而使模型可以识别不属于超球体范围内的观测数据作为离群点,只需少量优质正样本数据即可实现高速高质量的数据质量控制,有助于降低数据质量控制的处理成本,提高数据质量控制的效率。
考虑到温盐度数据随时间变化,数据特征和分布也会有变化,为了能适应该变化,对上述包含正样本数据的观测数据形成的训练集进行分组,按照月份分次进行预训练,从而生成12个具有时间特性的无监督SVDD算法模型,执行数据噪声识别步骤S2时,可将观测数据按照时间分别输入值对应月份的无监督SVDD算法模型,以提高算法模型对观测数据随时间变化的适应性,提高噪声消除准确性。
为了进一步提高本发明无监督SVDD算法的鲁棒性,本发明引入模型的松弛因子并调整模型的惩罚系数,以避免算法模型过拟合和欠拟合,其中,松弛因子是用来给予训练样本一定的容错空间,允许一些样本点位于超球体外边界上,而不是严格位于边界内部,松弛因子是在无监督SVDD算法优化求解过程中计算的,惩罚系数则是用于平衡模型的拟合误差和正则项(n个松弛因子的和)之间的关系,也是控制松弛因子的取值不会过大,以防止过度拟合。惩罚系数是可以灵活调整的。
参考图3所示,本发明实施例的第一数据质量检测步骤S3进一步包括:
数据包检测步骤S31,检测设备编号是否与探测浮标对应且与浮标灰名单中的浮标编号不同,并检测观测日期是否符合预设日期条件,若否,则将数据识别为异常数据,其中,浮标灰名单是获取自全球Argo资料中心的因传感器故障导致观测数据无法矫正的浮标编号;观测日期包括年份、月份、日、小时、分钟及秒,可选的,预设日期条件配置为:日期的年份大于1996年且大于探测浮标投放日期、月份M为1≤M≤12、日期D为1≤D≤31、小时H为0≤H≤23、分钟Min为0≤Min≤59,在另一实施例中,日期D也可以根据具体月份进行适应性配置,如2月的日期D2配置为1≤D2≤29;
浮标数据检测步骤S32,根据浮标位置是否满足经纬度规范、预设投放目标区域及海陆界面规范检测异常数据,并根据二相近剖面的浮标位置和观测日期的时间计算探测浮标的漂移速度,根据一速度阈值检测超过速度阈值的异常数据;具体的,经纬度规范的纬度范围为-90°~90°,经度范围为-180°~180°,根据纬度范围和经度范围识别范围外的数据并标记为异常数据,进一步检测浮标位置是否属于预设投放目标区域内,若不属于,则标记为异常数据并剔除数据;由于探测浮标的观测位置为海洋,因此根据全球地形起伏模型(如E-TOP05)作为标准制作水陆点数据库,水陆点数据库中包括为海上的经纬度点及陆地的经纬度点,基于此识别浮标位置点不在海上的数据并标记为异常数据;其中,若漂移速度超过速度阈值,则表示探测浮标的位置和/或时间错误,或浮标平台识别码混淆;对比在正常情况下获取的不同的浮标位置即可识别出异常浮标的位置和/或时间,并标记为异常数据;可选的,速度阈值可配置为3m/s,该值可根据浮标所在区域海况灵活配置。
需要说明的是,若上述数据包检测步骤、浮标数据检测步骤中识别为异常数据,则探测浮标的观测数据不可在全球通讯系统GTS上发送。
观测数据检测步骤S33,对观测剖面的温度数据、盐度数据、压力数据、深度数据进行范围检测和/或统计特征检测,识别异常数据并剔除。
参考图4所示,本发明实施例的观测数据检测步骤S33进一步包括:
温盐度数据检测步骤S331,对温度数据、盐度数据进行范围检测、毛刺信号检测、梯度检测、数位翻转检测、滞留检测、密度倒转检测、漂移检测及冻结检测其一或其任意组合,以识别观测的温度数据、盐度数据中异常数据并剔除;
其中,上述实施例的范围检测是根据预设温盐度范围检测温度数据、盐度数据中异常数据并剔除;可选的,预设温盐度范围包括:温度数据范围为-2.5~40.0℃、盐度数据范围为0.0~41.0PSU。
其中,上述实施例的毛刺信号检测中,毛刺信号是指在一组采样信号之中,某个值得大小与其相邻值完全不同,毛刺信号是由于海水突变层(或称跃层)中或传感器受外界干扰信号影响。可选的,本发明实施例根据不同压力下对温度和盐度数据配置对应的毛刺阈值,举例但不限于,当剖面所处压力小于500×102 hPa时,温度毛刺阈值配置为7.0,盐度毛刺阈值配置为0.9;当剖面所处压力大于或等于500×102 hPa时,温度毛刺阈值配置为2.5,盐度毛刺阈值配置为0.3,计算盐度数据或盐度数据尖峰值V2与其相邻数据(前、后相邻观测数据分别记为V1、V3)的测试值是否超过对应毛刺阈值判断是否为毛刺信号,若超过则识别尖峰值V2为异常数据,具体的,测试值通过如下计算模型计算得到:
测试值=|V2-(V3+V1)/2|-|(V3-V1)/2|。
其中,|V2-(V3+V1)/2|为观测值的梯度值,该梯度值也用于进行梯度检测,也用于上述第二数据质量检测步骤S5中温度梯度和盐度梯度的计算。
其中,上述实施例的梯度检测是基于垂向相邻的两个观测值的梯度识别异常数据,可选的,本发明实施例根据不同压力下对温度和盐度数据配置对应的梯度阈值,当剖面所处压力小于500×102 hPa时,温度梯度阈值配置为9.0,盐度梯度阈值配置为1.5;当剖面所处压力大于或等于500×102 hPa时,温度梯度阈值配置为3.0,盐度梯度阈值配置为0.5,若超过则识别尖峰值V2为异常数据。
其中,上述实施例的数位翻转是用于检测出温度数据、盐度数据的数位翻转,这是由于在剖面浮标中只有有限的数位用来存储温、盐值,而用这些有限的数位可能不足以容纳海洋中遇到的所有情况。当存储值超过该数位的区域范围时,存储值会翻转回到此区域的低端。本发明实施例中定义若相邻深度的温度数据、盐度数据的温度差大于10℃、盐度差大于5PSU为存在数位翻转并标记为异常数据。
其中,上述实施例的滞留检测是检测观测剖面上的相同的温度值和盐度值,即当温度数据、盐度数据在一条剖面上没有变化时识别为该条剖面为异常数据。
其中,上述实施例的密度倒转检测是通过计算出温度数据、盐度数据对应深度的密度值,对其同一观测剖面上的相邻深度的密度进行比较,若在压力较大处计算得到的密度值与压力较小处的密度值之间超出一定范围(0.03 kg/m3),或在压力较大处计算得到的密度值小于压力较小处的密度值,则表明观测的温度值和盐度值有误,识别为异常数据并剔除;具体的,密度值基于如下计算模型计算得到:
ρ=ρ0-α(T-T0)+β(S- S0)
其中,ρ是海水的绝对密度,ρ0是参考密度,T是温度,T0是参考温度,S是盐度,S0是参考盐度,α和β是校正系数;
其中,上述实施例的漂移检测是用于辨别传感器是否存在突然漂移。通过计算观测数据中每个剖面最后100×104 Pa深度范围内的平均盐度值、平均温度值,将计算的平均盐度值、平均温度值与该位置历史标准平均盐度值、平均温度值进行比较,若盐度值相差大于0.5,则将整个盐度剖面数据剔除,若温度值相差大于1℃,则将整个温度剖面数据剔除。
其中,上述实施例的冻结检测用于发现探测浮标是否重复生成相同的观测剖面数据,即不同观测剖面数据的偏差中,盐度值相差小于0.001,温度值相差小于0.01℃,则将对应的观测数据标记为异常数据并剔除。
另外,本发明上述第一数据质量检测步骤S3中,还包括人工检测步骤,通过技术审核人员对探测浮标观测数据进行目视质量控制,进行经验判断。
压力数据检测步骤S332,检测压力数据是否符合单调递增且不超过预设压力阈值,否则识别为异常数据并剔除。具体的,若出现连续的非单调递增压力数据,则保留多个非单调递增压力数据中的首个数据,其他数据标记为异常数据并剔除;可选的,压力阈值配置为最深压力的10%,最深压力为2000×104Pa。
基于上述第一数据质量检测步骤S3、第二数据质量检测步骤S5,本发明实施例结合统计手段及机器学习方法进行异常数据识别及处理,利用机器学习算法挖掘观测数据的内部特征,实现了提高潜浮标数据质量控制精度及普遍适用性,利用多层感知器MLP挖掘观测数据中的内在联系并进行高维到低维的分类映射,无需过多的利用先验知识建立计算模型和公示,即可拟合多种非线性函数进行观测值是否合理的判断,提升数据质量,加快计算效率,基于本发明实施例所得到的海洋观测数据集也可用于为业界单位提供数据支持、辅助。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种潜浮标数据质量控制系统,该系统用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本发明实施例的潜浮标数据质量控制系统的结构框图,如图5所示,该系统包括:
数据获取模块1,用于获取自持式剖面探测浮标的观测数据,观测数据包括设备编号、浮标位置、观测日期及观测剖面的温度数据、盐度数据、压力数据、深度数据;
数据噪声识别模块2,用于将观测数据按照观测时间的月份进行分组后,通过预训练的无监督的支持向量数据描述SVDD算法判断观测数据中的离群点并标注噪声标签,将标注有噪声标签的数据经过人工复核后进行剔除。基于数据噪声识别模块2,本发明实施例引入无监督算法识别离群点消除观测数据中的噪声,以消除在观测过程中会存在许多分布规律呈现离散特性的噪音数据。为了进一步提高本发明无监督SVDD算法的鲁棒性,本发明引入模型的松弛因子并调整模型的惩罚系数,以避免算法模型过拟合和欠拟合,其中,松弛因子是用来给予训练样本一定的容错空间,允许一些样本点位于超球体外边界上,而不是严格位于边界内部,松弛因子是在无监督SVDD算法优化求解过程中计算的,惩罚系数则是用于平衡模型的拟合误差和正则项(n个松弛因子的和)之间的关系,也是控制松弛因子的取值不会过大,以防止过度拟合。惩罚系数是可以灵活调整的。
第一数据质量检测模块3,用于根据设备编号及观测日期进行质量检测,根据温度数据、盐度数据、压力数据及深度数据进行统计检测,将检测到的异常信号剔除得到处理后的数据;
第二数据质量检测模块5,用于获取在第一数据质量检测模块3输出的数据,根据温度数据、盐度数据计算温度梯度、盐度梯度,并将温度梯度、盐度梯度和观测数据,也即设备编号、浮标位置、观测日期、温度数据、盐度数据、压力数据、深度数据,可将输入的数据按照观测时间的月份进行分组,输入一预训练的多层感知器MLP进行分类,识别异常数据及可信数据,多层感知器是利用经质量控制后的历史数据和再分析数据形成的数据集经前向传播、反向传播训练得到的识别温度数据、盐度数据异常或可信的神经网络,以实现对输入温度梯度、盐度梯度和观测数据进行挖掘判断,提高观测数据质量评估能力,减少人工审核工作量,其中,历史数据是经过已经过质量控制识别出的包括异常数据和可信数据标签的历史数据。
考虑到观测的温盐数据是在经度、纬度、深度和时间四个维度空间中变化的,如不同季节下相近的经度、纬度、深度观测到的温盐数据是不同的,本发明实施例为了保证多层感知器MLP的泛化性,使其实现四维空间中温盐数据的质量检测,将上述观测数据及温度梯度、盐度梯度均输入至多层感知器MLP。
需要说明的是,本发明实施例将温度梯度和盐度梯度作为输入,可以提供数据连续性的信息,使多层感知器MLP对数据的跳跃或峰值敏感,对温度梯度和盐度梯度的具体计算可以参照温盐度数据检测步骤中的梯度值计算模型。
在另一实施例中,数据噪声识别模块2可以配置为在第一数据质量检测模块3之前执行,也可以配置在第一数据质量检测模块3与第二数据质量检测模块5之间执行,利用无监督SVDD算法捕获多要素正样本数据集的形状与范围特征建立超球体,算法模型基于包含正样本数据的观测数据形成的训练集进行预训练,以使超球体包含训练集中的正样本数据,从而使模型可以识别不属于超球体范围内的观测数据作为离群点,只需少量优质正样本数据即可实现高速高质量的数据质量控制,有助于降低数据质量控制的处理成本,提高数据质量控制的效率。
在另一实施例中,考虑到温盐度数据随时间变化,数据特征和分布也会有变化,为了能适应该变化,对上述包含正样本数据的观测数据形成的训练集进行分组,按照月份分次进行预训练,从而生成12个具有时间特性的无监督SVDD算法模型,执行数据噪声识别模块2时,可将观测数据按照时间分别输入值对应月份的无监督SVDD算法模型,以提高算法模型对观测数据随时间变化的适应性,提高噪声消除准确性。
其中,第一数据质量检测模块3进一步包括:数据包检测模块31、浮标数据检测模块32及观测数据检测模块33。
数据包检测模块31用于检测设备编号是否与探测浮标对应且与浮标灰名单中的浮标编号不同,并检测观测日期是否符合预设日期条件,若否,则将数据识别为异常数据,其中,浮标灰名单是获取自全球Argo资料中心的因传感器故障导致观测数据无法矫正的浮标编号;观测日期包括年份、月份、日、小时、分钟及秒,可选的,预设日期条件配置为:日期的年份大于1996年且大于探测浮标投放日期、月份M为1≤M≤12、日期D为1≤D≤31、小时H为0≤H≤23、分钟Min为0≤Min≤59,在另一实施例中,日期D也可以根据具体月份进行适应性配置,如2月的日期D2配置为1≤D2≤29;
浮标数据检测模块32,用于根据浮标位置是否满足经纬度规范、预设投放目标区域及海陆界面规范检测异常数据,并根据二相近剖面的浮标位置和观测日期的时间计算探测浮标的漂移速度,根据一速度阈值检测超过速度阈值的异常数据;具体的,经纬度规范的纬度范围为-90°~90°,经度范围为-180°~180°,根据纬度范围和经度范围识别范围外的数据并标记为异常数据,进一步检测浮标位置是否属于预设投放目标区域内,若不属于,则标记为异常数据并剔除数据;由于探测浮标的观测位置为海洋,因此根据全球地形起伏模型(如E-TOP05)作为标准制作水陆点数据库,水陆点数据库中包括为海上的经纬度点及陆地的经纬度点,基于此识别浮标位置点不在海上的数据并标记为异常数据;其中,若漂移速度超过速度阈值,则表示探测浮标的位置和/或时间错误,或浮标平台识别码混淆;对比在正常情况下获取的不同的浮标位置即可识别出异常浮标的位置和/或时间,并标记为异常数据;可选的,速度阈值可配置为3m/s,该值可根据浮标所在区域海况灵活配置。
观测数据检测模块33,用于对观测剖面的温度数据、盐度数据、压力数据、深度数据进行范围检测和/或统计特征检测,识别异常数据并剔除。
需要说明的是,若上述数据包检测模块31、浮标数据检测模块32中识别为异常数据,则探测浮标的观测数据不可在全球通讯系统GTS上发送。
在其中一些实施例中,观测数据检测模块33进一步包括:温盐度数据检测模块331和压力数据检测模块332。其中,温盐度数据检测模块331,用于对温度数据、盐度数据进行范围检测、毛刺信号检测、梯度检测、数位翻转检测、滞留检测、密度倒转检测、漂移检测及冻结检测其一或其任意组合,以识别观测的温度数据、盐度数据中异常数据并剔除;本模块的范围检测、毛刺信号检测、梯度检测、数位翻转检测、滞留检测、密度倒转检测、漂移检测及冻结检测的具体实现方式参考上述实施例的温盐度数据检测步骤S331,相同之处在此不作赘述。
另外,本发明上述第一数据质量检测模块3中,还包括人工检测模块,用于通过技术审核人员对探测浮标观测数据进行目视质量控制,进行经验判断。
压力数据检测模块332,用于检测压力数据是否符合单调递增且不超过预设压力阈值,否则识别为异常数据并剔除。具体的,若出现连续的非单调递增压力数据,则保留多个非单调递增压力数据中的首个数据,其他数据标记为异常数据并剔除;可选的,压力阈值配置为最深压力的10%,最深压力为2000×104Pa。
基于上述第一数据质量检测模块3、第二数据质量检测模块5,用于本发明实施例结合统计手段及机器学习方法进行异常数据识别及处理,利用机器学习算法挖掘观测数据的内部特征,实现了提高潜浮标数据质量控制精度及普遍适用性,利用多层感知器MLP挖掘观测数据中的内在联系并进行高维到低维的分类映射,无需过多的利用先验知识建立计算模型和公示,即可拟合多种非线性函数进行观测值是否合理的判断,提升数据质量,加快计算效率,基于本发明实施例所得到的海洋观测数据集也可用于为业界单位提供数据支持、辅助。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
另外,结合上述本发明实施例潜浮标数据质量控制方法可以由计算机设备来实现。计算机设备可以包括处理器以及存储有计算机程序指令的存储器。
具体地,上述处理器可以包括中央处理器(CPU),或者特定集成电路(ApplicationSpecific Integrated Circuit,简称为ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
其中,存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器可在数据处理装置的内部或外部。在特定实施例中,存储器是非易失性(Non-Volatile)存储器。在特定实施例中,存储器包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(Random AccessMemory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器所执行的可能的计算机程序指令。
处理器通过读取并执行存储器中存储的计算机程序指令,以实现上述实施例中的任意一种潜浮标数据质量控制方法。
另外,结合上述实施例中的潜浮标数据质量控制方法,本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种潜浮标数据质量控制方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (4)
1.一种潜浮标数据质量控制方法,其特征在于,包括:
数据获取步骤,获取自持式剖面探测浮标的观测数据,所述观测数据包括设备编号、浮标位置、观测日期及观测剖面的温度数据、盐度数据、压力数据、深度数据;
数据噪声识别步骤,将所述观测数据按照观测时间的月份进行分组后,按照月份分次进行支持向量数据描述SVDD算法的预训练生成12个具有时间特性的支持向量数据描述SVDD算法,通过预训练的支持向量数据描述SVDD算法判断观测数据中的离群点并标注噪声标签,将标注有噪声标签的数据进行剔除;
第一数据质量检测步骤,根据所述设备编号及观测日期进行质量检测,根据所述温度数据、盐度数据、压力数据及深度数据进行统计检测,将检测到的异常信号剔除得到处理后的数据;
第二数据质量检测步骤,获取在第一数据质量检测步骤处理后的数据,根据所述温度数据、盐度数据计算温度梯度、盐度梯度,并将所述温度梯度、盐度梯度和所述观测数据按观测时间的月份进行分组后输入一预训练的多层感知器MLP拟合非线性函数进行观测值是否合理的判断从而进行分类,基于温度梯度和盐度梯度提供数据连续性的信息,使多层感知器MLP对数据的跳跃或峰值敏感,以识别异常数据及可信数据,所述多层感知器是利用经质量控制后的历史数据和再分析数据形成的数据集经前向传播、反向传播训练得到的用于识别温度数据、盐度数据异常或可信的神经网络,
所述第一数据质量检测步骤进一步包括:
数据包检测步骤,检测所述设备编号是否与所述探测浮标对应且与浮标灰名单中的浮标编号不同,并检测所述观测日期是否符合预设日期条件,若否,则将数据识别为异常数据,其中,浮标灰名单是获取自全球Argo资料中心的因传感器故障导致观测数据无法矫正的浮标编号;
浮标数据检测步骤,根据所述浮标位置是否满足经纬度规范、预设投放目标区域及海陆界面规范检测异常数据,并根据二相近剖面的浮标位置和观测日期的时间计算所述探测浮标的漂移速度,根据一速度阈值检测超过所述速度阈值的异常数据,进一步的,根据全球地形起伏模型作为标准制作水陆点数据库,水陆点数据库中包括为海上的经纬度点及陆地的经纬度点,基于此识别浮标位置点不在海上的数据并标记为异常数据;
观测数据检测步骤,对观测剖面的所述温度数据、盐度数据、压力数据、深度数据进行范围检测和/或统计特征检测,识别异常数据并剔除;
所述观测数据检测步骤进一步包括:
温盐度数据检测步骤,对所述温度数据、盐度数据进行范围检测、毛刺信号检测、梯度检测、数位翻转检测、滞留检测、密度倒转检测、漂移检测及冻结检测,以识别观测的温度数据、盐度数据中异常数据并剔除,温度数据、盐度数据范围检测对应的预设温盐度范围包括:温度数据范围为-2.5~40.0℃、盐度数据范围为0.0~41.0PSU,
毛刺信号检测是根据不同压力下对温度和盐度数据配置对应的毛刺阈值,当剖面所处压力小于500×102 hPa时,温度毛刺阈值配置为7.0,盐度毛刺阈值配置为0.9;当剖面所处压力大于或等于500×102 hPa时,温度毛刺阈值配置为2.5,盐度毛刺阈值配置为0.3,计算盐度数据或盐度数据尖峰值V2与其前相邻观测数据V1、后相邻观测数据V3的测试值是否超过对应毛刺阈值判断是否为毛刺信号,若超过则识别尖峰值V2为异常数据,具体的,测试值通过如下计算模型计算得到:
测试值=|V2-(V3+V1)/2|-|(V3-V1)/2|,其中,|V2-(V3+V1)/2|为观测值的梯度值;
根据不同压力下对温度和盐度数据配置对应的梯度阈值,当剖面所处压力小于500×102 hPa时,温度梯度阈值配置为9.0,盐度梯度阈值配置为1.5;当剖面所处压力大于或等于500×102 hPa时,温度梯度阈值配置为3.0,盐度梯度阈值配置为0.5,若超过则识别尖峰值V2为异常数据;
其中,数位翻转检测过程中定义若相邻深度的温度数据、盐度数据的温度差大于10℃、盐度差大于5PSU为存在数位翻转并标记为异常数据;
密度倒转检测通过计算出温度数据、盐度数据对应深度的密度值,对其同一观测剖面上的相邻深度的密度进行比较,若在压力较大处计算得到的密度值与压力较小处的密度值之间超出0.03 kg/m3,或在压力较大处计算得到的密度值小于压力较小处的密度值,则表明观测的温度值和盐度值有误,识别为异常数据并剔除,密度值基于如下计算模型计算得到:
ρ=ρ0-α(T-T0)+β(S- S0)
其中,ρ是海水的绝对密度,ρ0是参考密度,T是温度,T0是参考温度,S是盐度,S0是参考盐度,α和β是校正系数;
漂移检测通过计算观测数据中每个剖面最后100×104 Pa深度范围内的平均盐度值、平均温度值,将计算的平均盐度值、平均温度值与该位置历史标准平均盐度值、平均温度值进行比较,若盐度值相差大于0.5,则将整个盐度剖面数据剔除,若温度值相差大于1℃,则将整个温度剖面数据剔除;
冻结检测用于发现探测浮标是否重复生成相同的观测剖面数据,若不同观测剖面数据的偏差中,盐度值相差小于0.001,温度值相差小于0.01,则将对应的观测数据标记为异常数据并剔除;
压力数据检测步骤,检测所述压力数据是否符合单调递增且不超过预设压力阈值,否则识别为异常数据并剔除,若出现连续的非单调递增压力数据,则保留多个非单调递增压力数据中的首个数据,其他数据标记为异常数据并剔除,压力阈值配置为最深压力的10%,最深压力为2000×104Pa。
2.一种潜浮标数据质量控制系统,其特征在于,包括:
数据获取模块,用于获取自持式剖面探测浮标的观测数据,所述观测数据包括设备编号、浮标位置、观测日期及观测剖面的温度数据、盐度数据、压力数据、深度数据;
数据噪声识别模块,用于将所述观测数据按照观测时间的月份进行分组后,通过预训练的支持向量数据描述SVDD算法判断观测数据中的离群点并标注噪声标签,将标注有噪声标签的数据进行剔除;
第一数据质量检测模块,用于根据所述设备编号及观测日期进行质量检测,根据所述温度数据、盐度数据、压力数据及深度数据进行统计检测,将检测到的异常信号剔除得到处理后的数据;
第二数据质量检测模块,用于获取在第一数据质量检测模块输出的数据,根据所述温度数据、盐度数据计算温度梯度、盐度梯度,并将所述温度梯度、盐度梯度和所述观测数据按观测时间的月份进行分组后输入一预训练的多层感知器MLP拟合非线性函数进行观测值是否合理的判断从而进行分类,基于温度梯度和盐度梯度提供数据连续性的信息,使多层感知器MLP对数据的跳跃或峰值敏感,以识别异常数据及可信数据,所述多层感知器是利用经质量控制后的历史数据和再分析数据形成的数据集经前向传播、反向传播训练得到的用于识别温度数据、盐度数据异常或可信的神经网络,
所述第一数据质量检测模块进一步包括:
数据包检测模块,用于检测所述设备编号是否与所述探测浮标对应且与浮标灰名单中的浮标编号不同,并检测所述观测日期是否符合预设日期条件,若否,则将数据识别为异常数据,其中,浮标灰名单是获取自全球Argo资料中心的因传感器故障导致观测数据无法矫正的浮标编号;
浮标数据检测模块,用于根据所述浮标位置是否满足经纬度规范、预设投放目标区域及海陆界面规范检测异常数据,并根据二相近剖面的浮标位置和观测日期的时间计算所述探测浮标的漂移速度,根据一速度阈值检测超过所述速度阈值的异常数据,进一步的,根据全球地形起伏模型作为标准制作水陆点数据库,水陆点数据库中包括为海上的经纬度点及陆地的经纬度点,基于此识别浮标位置点不在海上的数据并标记为异常数据;
观测数据检测模块,用于对观测剖面的所述温度数据、盐度数据、压力数据、深度数据进行范围检测和/或统计特征检测,识别异常数据并剔除;
所述观测数据检测模块进一步包括:
温盐度数据检测模块,用于对所述温度数据、盐度数据进行范围检测、毛刺信号检测、梯度检测、数位翻转检测、滞留检测、密度倒转检测、漂移检测及冻结检测,以识别观测的温度数据、盐度数据中异常数据并剔除,温度数据、盐度数据范围检测对应的预设温盐度范围包括:温度数据范围为-2.5~40.0℃、盐度数据范围为0.0~41.0PSU,
毛刺信号检测是根据不同压力下对温度和盐度数据配置对应的毛刺阈值,当剖面所处压力小于500×102 hPa时,温度毛刺阈值配置为7.0,盐度毛刺阈值配置为0.9;当剖面所处压力大于或等于500×102 hPa时,温度毛刺阈值配置为2.5,盐度毛刺阈值配置为0.3,计算盐度数据或盐度数据尖峰值V2与其前相邻观测数据V1、后相邻观测数据V3的测试值是否超过对应毛刺阈值判断是否为毛刺信号,若超过则识别尖峰值V2为异常数据,具体的,测试值通过如下计算模型计算得到:
测试值=|V2-(V3+V1)/2|-|(V3-V1)/2|,其中,|V2-(V3+V1)/2|为观测值的梯度值;
根据不同压力下对温度和盐度数据配置对应的梯度阈值,当剖面所处压力小于500×102 hPa时,温度梯度阈值配置为9.0,盐度梯度阈值配置为1.5;当剖面所处压力大于或等于500×102 hPa时,温度梯度阈值配置为3.0,盐度梯度阈值配置为0.5,若超过则识别尖峰值V2为异常数据;
其中,数位翻转检测过程中定义若相邻深度的温度数据、盐度数据的温度差大于10℃、盐度差大于5PSU为存在数位翻转并标记为异常数据;
密度倒转检测通过计算出温度数据、盐度数据对应深度的密度值,对其同一观测剖面上的相邻深度的密度进行比较,若在压力较大处计算得到的密度值与压力较小处的密度值之间超出0.03 kg/m3,或在压力较大处计算得到的密度值小于压力较小处的密度值,则表明观测的温度值和盐度值有误,识别为异常数据并剔除,密度值基于如下计算模型计算得到:
ρ=ρ0-α(T-T0)+β(S- S0)
其中,ρ是海水的绝对密度,ρ0是参考密度,T是温度,T0是参考温度,S是盐度,S0是参考盐度,α和β是校正系数;
漂移检测通过计算观测数据中每个剖面最后100×104 Pa深度范围内的平均盐度值、平均温度值,将计算的平均盐度值、平均温度值与该位置历史标准平均盐度值、平均温度值进行比较,若盐度值相差大于0.5,则将整个盐度剖面数据剔除,若温度值相差大于1℃,则将整个温度剖面数据剔除;
冻结检测用于发现探测浮标是否重复生成相同的观测剖面数据,若不同观测剖面数据的偏差中,盐度值相差小于0.001,温度值相差小于0.01,则将对应的观测数据标记为异常数据并剔除;
压力数据检测模块,用于检测所述压力数据是否符合单调递增且不超过预设压力阈值,否则识别为异常数据并剔除,若出现连续的非单调递增压力数据,则保留多个非单调递增压力数据中的首个数据,其他数据标记为异常数据并剔除,压力阈值配置为最深压力的10%,最深压力为2000×104Pa。
3.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1所述的潜浮标数据质量控制方法。
4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1所述的潜浮标数据质量控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311728797.2A CN117408581B (zh) | 2023-12-15 | 2023-12-15 | 潜浮标数据质量控制方法、系统、计算机及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311728797.2A CN117408581B (zh) | 2023-12-15 | 2023-12-15 | 潜浮标数据质量控制方法、系统、计算机及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117408581A CN117408581A (zh) | 2024-01-16 |
CN117408581B true CN117408581B (zh) | 2024-03-26 |
Family
ID=89492992
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311728797.2A Active CN117408581B (zh) | 2023-12-15 | 2023-12-15 | 潜浮标数据质量控制方法、系统、计算机及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117408581B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033037A (zh) * | 2018-07-26 | 2018-12-18 | 厦门大学 | 浮标自动监测系统数据质量控制方法 |
CN113536233A (zh) * | 2021-07-12 | 2021-10-22 | 中国科学院海洋研究所 | 海洋浮标数据质量控制系统 |
CN114492680A (zh) * | 2022-04-18 | 2022-05-13 | 国家海洋技术中心 | 浮标数据质量控制方法、装置、计算机设备和存储介质 |
CN114925196A (zh) * | 2022-03-01 | 2022-08-19 | 健康云(上海)数字科技有限公司 | 多层感知网络下糖尿病血检异常值辅助剔除方法 |
CN116629026A (zh) * | 2023-07-18 | 2023-08-22 | 中国海洋大学 | 基于bp神经网络的涡核水下最大温度异常反演方法 |
CN116822381A (zh) * | 2023-08-30 | 2023-09-29 | 中国海洋大学 | 一种基于人工智能的海洋温盐结构反演方法 |
-
2023
- 2023-12-15 CN CN202311728797.2A patent/CN117408581B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033037A (zh) * | 2018-07-26 | 2018-12-18 | 厦门大学 | 浮标自动监测系统数据质量控制方法 |
CN113536233A (zh) * | 2021-07-12 | 2021-10-22 | 中国科学院海洋研究所 | 海洋浮标数据质量控制系统 |
CN114925196A (zh) * | 2022-03-01 | 2022-08-19 | 健康云(上海)数字科技有限公司 | 多层感知网络下糖尿病血检异常值辅助剔除方法 |
CN114492680A (zh) * | 2022-04-18 | 2022-05-13 | 国家海洋技术中心 | 浮标数据质量控制方法、装置、计算机设备和存储介质 |
CN116629026A (zh) * | 2023-07-18 | 2023-08-22 | 中国海洋大学 | 基于bp神经网络的涡核水下最大温度异常反演方法 |
CN116822381A (zh) * | 2023-08-30 | 2023-09-29 | 中国海洋大学 | 一种基于人工智能的海洋温盐结构反演方法 |
Non-Patent Citations (1)
Title |
---|
一种快速的离群点检测方法;冯震;付敬奇;熊南;;电子测量与仪器学报;20161115(11);第1727页左栏 * |
Also Published As
Publication number | Publication date |
---|---|
CN117408581A (zh) | 2024-01-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106600577B (zh) | 一种基于深度反卷积神经网络的细胞计数方法 | |
CN112733904B (zh) | 一种水质异常检测方法及电子设备 | |
CN112148955A (zh) | 一种物联网时序数据异常检测方法及系统 | |
CN112911627B (zh) | 无线网络性能检测方法、装置以及存储介质 | |
CN109188502B (zh) | 一种基于自编码器的束流位置监测器异常检测方法及装置 | |
CN112395382A (zh) | 基于变分自编码器的船舶异常航迹数据检测方法和装置 | |
CN113065525B (zh) | 年龄识别模型训练方法、人脸年龄识别方法及相关装置 | |
ES2332741T3 (es) | Uso de agrupamiento secuencial para seleccion de instancias en monitorizacion de estados de maquina. | |
US20210049513A1 (en) | Unsupervised model evaluation method, apparatus, server, and computer-readable storage medium | |
CN113218537B (zh) | 温度异常检测模型的训练方法、装置、设备和存储介质 | |
CN116821809B (zh) | 基于人工智能的生命体征数据采集系统 | |
CN114490622A (zh) | 基于气候态范围阈值的自动化海洋温盐观测数据质量控制方法和系统 | |
CN112461340B (zh) | 水位仪的故障纠正、检测方法及装置 | |
CN116804668B (zh) | 一种食盐碘含量检测数据标识方法及系统 | |
CN114911788B (zh) | 一种数据插补方法、装置及存储介质 | |
CN111967535A (zh) | 一种储粮管理场景温度传感器故障诊断方法及其诊断装置 | |
Koutsoyiannis | On the quest for chaotic attractors in hydrological processes | |
CN117408581B (zh) | 潜浮标数据质量控制方法、系统、计算机及存储介质 | |
CN117150402A (zh) | 基于生成式对抗网络的电力数据异常检测方法及模型 | |
CN117237678B (zh) | 用电行为异常检测方法、装置、设备及存储介质 | |
CN114279415A (zh) | 一种基于卫星测高数据计算和校准河湖水位的方法 | |
CN110751201B (zh) | 基于纹理特征变换的sar装备任务失效成因推理方法 | |
CN115630326B (zh) | 利用水听器监测海洋生态系统的健康状态的方法及装置 | |
CN112711052A (zh) | 基于连续t检验的GNSS坐标序列阶跃探测改进方法及系统 | |
CN105046707B (zh) | 基于n阶多项式函数拟合海杂波的SAR图像船只检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |