CN115935139A - 一种海洋观测数据的空间场插补方法 - Google Patents

一种海洋观测数据的空间场插补方法 Download PDF

Info

Publication number
CN115935139A
CN115935139A CN202310023122.1A CN202310023122A CN115935139A CN 115935139 A CN115935139 A CN 115935139A CN 202310023122 A CN202310023122 A CN 202310023122A CN 115935139 A CN115935139 A CN 115935139A
Authority
CN
China
Prior art keywords
data
ocean
value
information
missing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310023122.1A
Other languages
English (en)
Inventor
姜宇
齐红
赵明浩
王跃航
李志强
魏枫林
王凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jilin University
Original Assignee
Jilin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jilin University filed Critical Jilin University
Priority to CN202310023122.1A priority Critical patent/CN115935139A/zh
Publication of CN115935139A publication Critical patent/CN115935139A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明是一种海洋观测数据的空间场插补方法。本发明涉及海洋数据处理技术领域,本发明通过模糊区间规则对海洋浮标原始温盐场数据进行时段划分;使用滑动窗口构建深度学习训练集和标签;通过LSTM模型进行缺失数据点的检测;通过TCN对海洋浮标数据潜在时序性特征提取;利用多层TCN进行扩张卷积提取更多的历史信息;结合注意力机制进行插补特征关联特征的重要信息挖掘;经过多个Dense层信息还原输出插补的预测结果。通过本申请中的技术方案,通过兼具时空性的插值方法处理海洋观测数据集问题,更好的还原了真实的海洋浮标数据中的温盐空间场的稀疏和缺失值。

Description

一种海洋观测数据的空间场插补方法
技术领域
本发明涉及海洋数据的空间场缺失信息检测和补全,结合一维卷积和注意力机制网络在解决海洋数据处理领域问题的应用方法,本发明涉及海洋数据处理技术领域,是一种海洋观测数据的空间场插补方法。
背景技术
海洋观测资料为分析揭示海洋环境温盐分布和流场结构、理解和深化海洋环境特性和气候变化规律提供了关键的观测事实基础,其蕴涵的丰富信息资源具有重要的科学意义和应用价值。但是浮标的工作方式和自然损耗决定了数据资料的温盐场序列难以达到空间完整和序列连续(可视为要素场的缺失)。某些海洋观测数据集稀疏、零散、缺损等空间不规则和时间不连续的固有弱点和应用盲区,可能会导致在做海洋的温度和气候预测等研究中产生不准确的结果。
如果海洋数据的再分析研究者没有正确的处理稀疏或者缺失的数字可能就会对整个数据做出错误的结论,对未来建模阶段产生重大的影响。在分析数据的过程中如果发现有一个或者多个特征数据是缺失的,就很难完全理解或者相信由此所得到的结论或者建立的分析模型,海洋浮标数据中的缺失值可能会降低研究对象的统计能力,甚至由于估计的偏差而导致严重的错误结果。时间连续、空间均匀的网格化数据和标准化的资料是海面温度预测、洋流分析、气候预测等再分析研究的重要目标。所以需要对稀疏资料插值、缺损数据拟合和温盐空间场重构等工作。对于如何对复杂的海洋浮标观测数据进行空间场的重构和数据拟合,实现海洋气候的准确预测是本专利要解决的问题。
发明内容
本发明为克服现有技术的不足,本发明旨在对实际海洋要素场数据中普遍存在的数据稀疏和缺失问题进行数据的补全,可以通过兼具时空性的插值方法处理海洋观测数据稀疏问题,并且还能够实现准确的海洋温度和气候的预测任务。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本发明提供了一种海洋观测数据的空间场插补方法,本发明提供了以下技术方案:
一种海洋观测数据的空间场插补方法,所述方法包括以下步骤:
步骤1:通过模糊区间规则对海洋浮标原始温盐场数据进行时段划分;
步骤2,使用滑动窗口构建深度学习训练集和标签;
步骤3,通过LSTM模型进行缺失数据点的检测;
步骤4,通过TCN对海洋浮标数据潜在时序性特征提取;
步骤5,利用多层TCN进行扩张卷积提取更多的历史信息;
步骤6,结合注意力机制进行插补特征关联特征的重要信息挖掘;
步骤7,经过多个Dense层信息还原输出插补的预测结果。
优选地,所述步骤1具体为:
收集美国大气环境预报中心/美国大气环境研究中心的海面温度再分析资料以及真实的海洋浮标观测数据资料进行数据的插补实验,将不同的时间段根据模糊区间规则划分为不同的样本数据集,得到一组包含温度、湿度、盐度、风向等特征的完整原始训练集。
优选地,所述步骤2具体为:
采用滑动窗口的方法构建深度学习的标签样本集,对于以天为分段的时间序列,训练样本需要在没有缺失值的观测序列的基础上构建,其中缺失值的长度为m d,滑动窗口的长度需要大于 m d,通过在 m d的两端各保留长度为s d的观测数据,滑动窗口的长度为m+2s d,通过滑动窗口的方式就将从整个训练集中划分出了想要进行插补的标签,通过对整个训练集和标签进行划分得到了测试和验证集。
优选地,所述步骤3具体为:
进行海洋数据的稀疏数据和缺失数据进行插补,对稀疏和缺失的海洋浮标观测数据进行检测,采用长短期记忆网络模型进行缺失数据点的检测,通过向训练后的LSTM模型中输入历史序列,LSTM输出检测到时间窗口检测识别数据序列,基于预测的数据点序列能够得到某个时间段的值是否是数据的稀疏或者缺失。
优选地,所述步骤4具体为:
根据单个样本的稀疏数据和缺失数据检测序列m,对序列中标签为0的缺失数据进行填补,将训练集数据先通过Embedding层进行特征降维,通过一层时间卷积网络挖掘潜在的历史信息对于需要填充的数据能够确保通过历史数据进行信息挖掘;
给定时间序列,TCN输出相同长度的卷积结果,其中,值依赖于该时段之前的输入值;每一个隐藏层节点数和输入步长是相同的,并且隐藏层t时刻节点的值只依赖前一层t时刻及之前的值;TCN引入了因果卷积,在确保获取足够长的历史有效信息的情况下,降低了深度和复杂程度,TCN的计算公式通过下式表示:
其中,滤波器为F,序列为,第一个隐藏层的最后有一个节点为,K为卷积层数,k为可训练偏移参数。
优选地,所述步骤6具体为:
将因果卷积输出通过Attention将其中对于预测插补值有重要影响的特征进行提取,将输入特征的查询变量query(Q)和输入的键值对变量key-value pairs映射到输出上,其中输入特征的查询变量query、每个输入特征的键值变量key、每个输入的键通过计算得到的对应值value都是向量,输出是所有输出值的加权和V中所有values输入的键通过计算得到对应的值的加权,其中权重是由Query和每个key计算出来的;计算方法包括以下步骤:
第一步:计算比较Q和K的相似度,用f来表示:
第二步:将得到的相似度进行Softmax操作,进行归一化:
第三步:针对计算出来的权重,对V中所有的values进行加权求和计算,得到Attention向量:
优选地,所述步骤7具体为:
根据步骤6得到的特征信息Attention向量 ,放入Dense层进行特征信息的还原,进行信息解码;通过多层Dense层的输出,之后进行reshape得到一个预测海洋数据插补值;通过步骤3得到的稀疏和缺失数据标签进行插值,当某个位置上的标签是小于0.5的话就将该位置视为缺失值标记,当这个位置上的标签大于0.5时,将这个位置的值视为完整的值;通过时空信息插值方法对海洋数据中的严重缺失和稀疏的值进行插补。
一种海洋观测数据的空间场插补系统,所述系统包括:
划分模块,所述划分模块通过模糊区间规则对海洋浮标原始温盐场数据进行时段划分;
滑动窗口模块,所述滑动窗口模块使用滑动窗口构建深度学习训练集和标签;
缺失数据检测模块,所述缺失数据检测模块通过LSTM模型进行缺失数据点的检测;
特征提取模块,所述特征提取模块通过TCN对海洋浮标数据潜在时序性特征提取;
历史信息获取模块,所述历史信息获取模块利用多层TCN进行扩张卷积提取更多的历史信息;
信息挖掘模块,所述信息挖掘模块结合注意力机制进行插补特征关联特征的重要信息挖掘;
插补模块,所述插补模块经过多个Dense层信息还原输出插补的预测结果。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现一种海洋观测数据的空间场插补方法。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现一种海洋观测数据的空间场插补方法。
本发明具有以下有益效果:
本发明与现有技术相比:
本发明方法包括:步骤1,通过模糊区间规则对海洋浮标原始温盐场数据进行时段划分;步骤2,使用滑动窗口构建深度学习训练集和标签;步骤3,通过LSTM模型进行缺失数据点的检测;步骤4,通过TCN对海洋浮标数据潜在时序性特征提取;步骤5,利用多层TCN进行扩张卷积提取更多的历史信息;步骤6,结合注意力机制进行插补特征关联特征的重要信息挖掘;步骤7,经过多个Dense层信息还原输出插补的预测结果。通过本申请中的技术方案,通过兼具时空性的插值方法处理海洋观测数据集问题,更好的还原了真实的海洋浮标数据中的温盐空间场的稀疏和缺失值。
本发明通过以上步骤对海洋浮标观测数据的空间场参数进行插补,将海洋观测数据中稀疏、零散、缺失的数据进行拟合插补,为发掘和利用海洋数据内容进行再分析研究提供了良好的数据支撑,为改进提高大气、海洋的环境参数的数值预报能力提供完整的信息。促进了对海温、洋流、气候的预测研究工作。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是一种海洋观测数据的空间场插补方法的示意流程图;
图2是一种海洋观测数据的空间场插补方法的框图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
以下结合具体实施例,对本发明进行了详细说明。
具体实施例一:
根据图1至图2所示,本发明为解决上述技术问题采取的具体优化技术方案是:本发明涉及一种海洋观测数据的空间场插补方法。
一种海洋观测数据的空间场插补方法,所述方法包括以下步骤:
步骤1:通过模糊区间规则对海洋浮标原始温盐场数据进行时段划分;
步骤2,使用滑动窗口构建深度学习训练集和标签;
步骤3,通过LSTM模型进行缺失数据点的检测;
步骤4,通过TCN对海洋浮标数据潜在时序性特征提取;
步骤5,利用多层TCN进行扩张卷积提取更多的历史信息;
步骤6,结合注意力机制进行插补特征关联特征的重要信息挖掘;
步骤7,经过多个Dense层信息还原输出插补的预测结果。
具体实施例二:
本申请实施例二与实施例一的区别仅在于:
所述步骤1具体为:
收集美国大气环境预报中心/美国大气环境研究中心的海面温度再分析资料以及真实的海洋浮标观测数据资料进行数据的插补实验,将不同的时间段根据模糊区间规则划分为不同的样本数据集,得到一组包含温度、湿度、盐度、风向等特征的完整原始训练集。
具体实施例三:
本申请实施例三与实施例二的区别仅在于:
所述步骤2具体为:
采用滑动窗口的方法构建深度学习的标签样本集,对于以天为分段的时间序列,训练样本需要在没有缺失值的观测序列的基础上构建,其中缺失值的长度为m d,滑动窗口的长度需要大于 m d,通过在 m d的两端各保留长度为s d的观测数据,滑动窗口的长度为m+2s d,通过滑动窗口的方式就将从整个训练集中划分出了想要进行插补的标签,通过对整个训练集和标签进行划分得到了测试和验证集。
具体实施例四:
本申请实施例四与实施例三的区别仅在于:
所述步骤3具体为:
进行海洋数据的稀疏数据和缺失数据进行插补,对稀疏和缺失的海洋浮标观测数据进行检测,采用长短期记忆网络模型进行缺失数据点的检测,通过向训练后的LSTM模型中输入历史序列,LSTM输出检测到时间窗口检测识别数据序列,基于预测的数据点序列能够得到某个时间段的值是否是数据的稀疏或者缺失。
具体实施例五:
本申请实施例五与实施例四的区别仅在于:
所述步骤4具体为:
根据单个样本的稀疏数据和缺失数据检测序列m,对序列中标签为0的缺失数据进行填补,将训练集数据先通过Embedding层进行特征降维,通过一层时间卷积网络挖掘潜在的历史信息对于需要填充的数据能够确保通过历史数据进行信息挖掘;
给定时间序列,TCN输出相同长度的卷积结果,其中,值依赖于该时段之前的输入值;每一个隐藏层节点数和输入步长是相同的,并且隐藏层t时刻节点的值只依赖前一层t时刻及之前的值;TCN引入了因果卷积,在确保获取足够长的历史有效信息的情况下,降低了深度和复杂程度,TCN的计算公式通过下式表示:
 其中,滤波器为F,序列为,第一个隐藏层的最后有一个节点为,K为卷积层数,k为可训练偏移参数。
具体实施例六:
本申请实施例六与实施例五的区别仅在于:
所述步骤6具体为:
将因果卷积输出通过Attention将其中对于预测插补值有重要影响的特征进行提取,将输入特征的查询变量query(Q)和输入的键值对变量key-value pairs映射到输出上,其中输入特征的查询变量query、每个输入特征的键值变量key、每个输入的键通过计算得到的对应值value都是向量,输出是所有输出值的加权和V中所有values输入的键通过计算得到对应的值的加权,其中权重是由Query和每个key计算出来的;计算方法包括以下步骤:
第一步:计算比较Q和K的相似度,用f来表示:
第二步:将得到的相似度进行Softmax操作,进行归一化:
第三步:针对计算出来的权重,对V中所有的values进行加权求和计算,得到Attention向量:
具体实施例七:
本申请实施例七与实施例六的区别仅在于:
所述步骤7具体为:
根据步骤6得到的特征信息Attention向量 ,放入Dense层进行特征信息的还原,进行信息解码;通过多层Dense层的输出,之后进行reshape得到一个预测海洋数据插补值;通过步骤3得到的稀疏和缺失数据标签进行插值,当某个位置上的标签是小于0.5的话就将该位置视为缺失值标记,当这个位置上的标签大于0.5时,将这个位置的值视为完整的值;通过时空信息插值方法对海洋数据中的严重缺失和稀疏的值进行插补。
具体实施例八:
本申请实施例八与实施例七的区别仅在于:
本发明提供一种海洋观测数据的空间场插补系统,所述系统包括:
划分模块,所述划分模块通过模糊区间规则对海洋浮标原始温盐场数据进行时段划分;
滑动窗口模块,所述滑动窗口模块使用滑动窗口构建深度学习训练集和标签;
缺失数据检测模块,所述缺失数据检测模块通过LSTM模型进行缺失数据点的检测;
特征提取模块,所述特征提取模块通过TCN对海洋浮标数据潜在时序性特征提取;
历史信息获取模块,所述历史信息获取模块利用多层TCN进行扩张卷积提取更多的历史信息;
信息挖掘模块,所述信息挖掘模块结合注意力机制进行插补特征关联特征的重要信息挖掘;
具体实施例九:
本申请实施例九与实施例八的区别仅在于:
本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现如一种海洋观测数据的空间场插补方法。
一种海洋观测数据的空间场插补方法,所述方法包括: 数据处理模块,缺失信息检测模块,特征学习模块,数据插补模块。
所述数据处理模块用于对原始海洋浮标数据进行分段,通过滑动窗口方法处理数据集生成用于预测的标签;
所述缺失信息检测模块,用于使用LSTM估计原始数据的稀疏和缺失信息,对后期需要进行插补的位置进行检测;
所述特征学习模块,用于从历史海洋浮标数据的温度、湿度、盐度、风向等信息进行特征学习,发掘潜在关系和重要特征;
所述数据插补模型,用于使用多个网络层对网络模型进行信息还原,并将缺失数据完成对应的插补。
所述构建模块具体包含,LSTM缺失信息检测网络,TCN因果卷积进行特征提取,Attention注意力网络进行关键特征挖掘:
步骤1,根据LSTM输出检测到时间窗口检测识别数据序列,基于预测的数据点序列能够得到某个时间段的值是否是数据的稀疏或者缺失。
步骤2,根据时间卷积网络(TCN)挖掘潜在的历史信息对于需要填充的数据能够确保通过历史数据进行信息挖掘。
步骤3,根据Attention机制对未来的海洋数据的温度、湿度、风向、盐度的重要程度,重新分配资源。核心的思想就是基于原有的海洋历史温盐湿度数据找到其间的关联性,然后突出某些和要插补的数据具有重要联系的特征。
步骤4,根据步骤1、步骤3所述结果,对海洋数据中的严重缺失和稀疏的值进行插补。
所述信息提取网络模型的计算公式为:
其中滤波器为,序列为,第一个隐藏层的最后有一个节点为,根据公式为
所述的重要特征挖掘的计算步骤为:
第一步:计算比较Q和K的相似度,用f来表示:
第二步:将得到的相似度进行Softmax操作,进行归一化:
第三步:针对计算出来的权重,对V中所有的values进行加权求和计算,得到Attention向量:
具体实施例十:
本申请实施例十与实施例九的区别仅在于:
本发明提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其所述处理器执行所述计算机程序时实现一种海洋观测数据的空间场插补方法。
方法包括:
一种海洋观测数据的空间场插补方法
步骤1:首先搜集了美国大气环境预报中心(NCEP)/美国大气环境研究中心(NCAR)提供的海面温度(SST)再分析资料以及真实的海洋浮标观测数据资料进行数据的插补实验。因为海洋环境变量较为稳定、演变较为平缓,所以将邻近的不同时间点的观测数据近似的当成同一时段。这样将不同的时间段根据模糊区间规则划分为不同的样本数据集,通过这样的方式,就可以得到一组包含温度、湿度、盐度、风向等特征的完整原始训练集。
步骤2:采用滑动窗口的方法构建深度学习的标签样本集,对于以天为分段的时间序列,训练样本需要在没有缺失值的观测序列的基础上构建,样本中的观测值缺失的模式应该同实际情况一致,其中缺失值的长度为m d,那么滑动窗口的长度需要大于 m d,通过在 m d的两端各保留长度为s d的观测数据,这样滑动窗口的长度为m+2s d,通过这样滑动窗口的方式就将从整个训练集中划分出了想要进行插补的标签,通过对整个训练集和标签进行划分就得到了测试和验证集。
步骤3:本文的主要目的是进行海洋数据的稀疏数据和缺失数据进行插补,但是首先要对稀疏和缺失的海洋浮标观测数据进行检测,而海洋数据的人工成本消耗过高,再次通过一些现有的方法对原始数据集中的异常数据进行检测,因为海洋浮标观测数据存在时序关系, 采用长短期记忆网络(LSTM)模型进行缺失数据点的检测,通过向训练后的LSTM模型中输入历史序列,LSTM输出检测到时间窗口检测识别数据序列,基于预测的数据点序列能够得到某个时间段的值是否是数据的稀疏或者缺失。
步骤4:通过步骤3得到了单个样本的稀疏数据和缺失数据检测序列m d,所以需要对序列中标签为0的缺失数据进行填补,将训练集数据先通过Embedding层进行特征降维,之后通过一层时间卷积网络(TCN)挖掘潜在的历史信息对于需要填充的数据能够确保通过历史数据进行信息挖掘。给定时间序列,TCN能够输出相同长度的卷积结果,其中的值只依赖于该时段之前的输入值,与未来的输入值无关。每一个隐藏层节点数和输入步长是相同的,并且隐藏层t时刻节点的值只依赖前一层t时刻及之前的值。TCN引入了因果卷积,从而在确保获取足够长的历史有效信息的情况下,降低了深度和复杂程度。TCN的计算公式如下:
其中滤波器为v,序列为,第一个隐藏层的最后有一个节点为,根据公式为
步骤5:由于想要通过追溯更多的历史信息,所以就要设置更多的隐藏层。如果以第二层隐藏层作为输出,那么他在最后一个节点关联了输入的三个节点。如果第三层输出层作为输出,那么它的最后一个节点关联了输入的四个节点所以在此使用两层TCN,信息提取网络的模型分别为输入层,TCN,TCN,输出层。
步骤6:在TCN中结合全局的注意力机制,每一层的卷积末端都加入一层Attention层,用于捕获每层的输入的潜在的隐藏信息。通过Attention内部的分配机制,突出海洋数据的历史特征对于想要插补的数据的影响。根据Attention网络对未来的海洋数据的温度、湿度、风向、盐度的重要程度,重新分配资源。核心的思想就是基于原有的海洋历史温盐湿度数据找到其间的关联性,然后突出某些和要插补的数据具有重要联系的特征。将步骤5得到的因果卷积输出通过Attention将其中对于预测插补值有重要影响的特征进行提取,将query(Q)和key-value pairs映射到输出上,其中query、每个key、每个value都是向量,输出是V中所有values的加权,其中权重是由Query和每个key计算出来的。计算方法分为三步:
第一步:计算比较Q和K的相似度,用f来表示:
第二步:将得到的相似度进行Softmax操作,进行归一化:
第三步:针对计算出来的权重,对V中所有的values进行加权求和计算,得到Attention向量:
步骤7:将步骤6得到的特征信息Attention向量 ,放入Dense层进行特征信息的还原,进行信息解码。通过多层Dense层的输出,之后进行reshape可以得到一个预测海洋数据插补值。通过步骤3得到的稀疏和缺失数据标签进行插值,当某个位置上的标签如果是小于0.5的话就将该位置视为缺失值标记,当这个位置上的标签大于0.5时,将这个位置的值视为完整的值。通过时空信息插值方法可以对海洋数据中的严重缺失和稀疏的值很好的进行插补。
通过以上步骤对海洋浮标观测数据的空间场参数进行插补,将海洋观测数据中稀疏、零散、缺失的数据进行拟合插补,为发掘和利用海洋数据内容进行再分析研究提供了良好的数据支撑,为改进提高大气、海洋的环境参数的数值预报能力提供完整的信息。促进了对海温、洋流、气候的预测研究工作。
具体实施例十一:
本申请实施例十一与实施例十的区别仅在于:
本次实例选择在经过质量控制的美国大气环境预报中心(NCEP)/美国大气环境研究中心(NCAR)提供的海面温度(SST)再分析资料以及真实的海洋浮标观测数据资料进行进行本专利的步骤说明。海洋浮标受海洋的流场的影响驱动,浮标运行轨迹表现出明显的随机特征,浮标的观测数据空间分布零散。本次将试验的区域范围调整为。将经过误差检测和质量控制的海洋温盐度数据垂向插值到标准的层面。
首先将该区域内的所有浮标都根据坐标轴划分到对应的网格点上,之后通过按照时间序列的方式进行数据分段,将邻近的不同时间点的观测数据近似的当成同一时段。通过模糊无序规则归纳算法,引入模糊理论,将划分边界模糊化,则可以很好地描述从完全符合条件到完全不符合条件的渐变的过程。经过准备数据、规则增长、规则剪枝、规则优化、规则模糊化和预测输出这几个步骤。使划分的规则区间更加具有可理解性,模糊的规则更加的合理。在这个基础上划分为不同的样本数据集,通过这样的方式,就可以得到一组包含温度、湿度、盐度、风向等特征的完整原始训练集。
之后采用滑动窗口的方式构建训练样本集,按照天数来分段划分时间序列,训练样本需要在没有缺失值的观测序列的基础上构建,样本中的观测值缺失的模式应该同实际情况一致,其中缺失值的长度为m d,那么滑动窗口的长度需要大于 m d,通过在 m d的两端各保留长度为s d的观测数据,这样滑动窗口的长度为m+2s d,得到的完整序列为:
通过这样滑动窗口的方式就将从整个训练集中划分出了想要进行插补的标签,通过对整个训练集和标签进行划分就得到了测试和验证集,形成了具有完整观测值的序列。这样就能得到关于海洋浮标数据的时序性的温盐场训练数据和对应的标签。
因为海洋浮标观测数据(温度、湿度、盐度)存在时序关系,所以本次采用长短期记忆网络(LSTM)模型进行异常数据点的检测,通过向训练后的LSTM模型中输入以上完整的海洋浮标数据序列,LSTM输出检测到时间窗口检测识别数据序列。基于预测数据点得到的t时刻的海洋观测数据的预测值,将预测值和实际测量值得到的目标数x相减,计算差异值。如果通过激活函数得到的差异值小于0.5就视为该位置的数据点缺失,如果得到的是大于0.5就视为数据完整。基于预测的数据点序列能够得到某个时间段的值是否是数据的稀疏或者缺失。其中的数据计算公式为:
其中为输入门,为遗忘门,为当前的细胞态,是基于于当前的细胞状态的输出门。W和b是需要进行训练的参数。
通过以上步骤得到了单个样本的稀疏数据和缺失数据检测序列m d,所以需要对序列中标签为0的缺失数据进行填补,将训练集数据先通过Embedding层进行特征降维,之后通过一层时间卷积网络(TCN)挖掘潜在的历史信息对于需要填充的数据能够确保通过历史数据进行信息挖掘。给定时间序列,TCN能够输出相同长度的卷积结果,其中的值只依赖于该时段之前的输入值,与未来的输入值无关。每一个隐藏层节点数和输入步长是相同的,并且隐藏层t时刻节点的值只依赖前一层t时刻及之前的值。TCN引入了因果卷积,从而在确保获取足够长的历史有效信息的情况下,降低了深度和复杂程度。TCN的计算公式如下:
其中滤波器为,序列为,第一个隐藏层的最后有一个节点为,根据公式为
由于想要通过追溯更多的历史信息,所以就要设置更多的隐藏层。如果以第二层隐藏层作为输出,那么他在最后一个节点关联了输入的三个节点,即为。如果第三层输出层作为输出,那么它的最后一个节点关联了输入的四个节点,即。所以在此使用两层TCN,信息提取网络的模型分别为输入层,TCN,TCN,输出层。
在TCN中结合全局的注意力机制,每一层的卷积末端都加入一层Attention层,用于捕获每层的输入的潜在的隐藏信息。通过Attention内部的分配机制,突出海洋数据的历史特征对于想要插补的数据的影响。根据Attention对象对未来的海洋数据的温度、湿度、风向、盐度的重要程度,重新分配资源。核心的思想就是基于原有的海洋历史温盐湿度数据找到其间的关联性,然后突出某些和要插补的数据具有重要联系的特征。将上面得到的因果卷积输出通过Attention将其中对于预测插补值有重要影响的特征进行提取,将query(Q)和key-value pairs映射到输出上,其中query、每个key、每个value都是向量,输出是V中所有values的加权,其中权重是由Query和每个key计算出来的,计算方法分为三步:
第一步:计算比较Q和K的相似度,用f来表示:
第二步:将得到的相似度进行Softmax操作,进行归一化:
第三步:针对计算出来的权重,对V中所有的values进行加权求和计算,得到Attention向量:
将得到的特征信息Attention向量 ,放入Dense层进行特征信息的还原,进行信息解码。通过多层Dense层的输出,之后进行reshape可以得到一个预测海洋数据插补值。通过LSTM网络得到的稀疏和缺失数据标签进行插值,当某个位置上的标签如果是小于0.5的话就将该位置视为缺失值标记,当这个位置上的标签大于0.5时,将这个位置的值视为完整的值。通过时空信息插值方法可以对海洋数据中的严重缺失和稀疏的值很好的进行插补。
本次实例使用的所有区域内的数据训练本文组建的网络,并且在多个其他的数据集上测试本实例的模型插补的海洋浮标数据质量,得到的效果能够在补全海洋浮标数据集的信息,并能够在海温、海浪、洋流、气候等再分析和预测方向产生了很好的效果。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或 者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表 述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或 N 个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下, 本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特 征进行结合和组合。 此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性 或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“N个”的含义是至少两个,例如 两个,三个等,除非另有明确具体的限定。 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个 或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的 实施例所属技术领域的技术人员所理解。 在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实 现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设 备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播 或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM 或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进 行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存 储在计算机存储器中。 应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实 施方式中,N 个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或 固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离 散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场 可编程门阵列(FPGA)等。
以上所述仅是一种海洋观测数据的空间场插补方法的优选实施方式,一种海洋观测数据的空间场插补方法的保护范围并不仅局限于上述实施例,凡属于该思路下的技术方案均属于本发明的保护范围。应当指出,对于本领域的技术人员来说,在不脱离本发明原理前提下的若干改进和变化,这些改进和变化也应视为本发明的保护范围。

Claims (10)

1.一种海洋观测数据的空间场插补方法,其特征是:所述方法包括以下步骤:
步骤1:通过模糊区间规则对海洋浮标原始温盐场数据进行时段划分;
步骤2,使用滑动窗口构建深度学习训练集和标签;
步骤3,通过LSTM模型进行缺失数据点的检测;
步骤4,通过TCN对海洋浮标数据潜在时序性特征提取;
步骤5,利用多层TCN进行扩张卷积提取更多的历史信息;
步骤6,结合注意力机制进行插补特征关联特征的重要信息挖掘;
步骤7,经过多个Dense层信息还原输出插补的预测结果。
2.根据权利要求1所述的方法,其特征是:所述步骤1具体为:
收集美国大气环境预报中心/美国大气环境研究中心的海面温度再分析资料以及真实的海洋浮标观测数据资料进行数据的插补实验,将不同的时间段根据模糊区间规则划分为不同的样本数据集,得到一组包含温度、湿度、盐度、风向等特征的完整原始训练集。
3.根据权利要求2所述的方法,其特征是:所述步骤2具体为:
采用滑动窗口的方法构建深度学习的标签样本集,对于以天为分段的时间序列,训练样本需要在没有缺失值的观测序列的基础上构建,其中缺失值的长度为m d,滑动窗口的长度需要大于 m d,通过在 m d的两端各保留长度为s d的观测数据,滑动窗口的长度为m+2sd,通过滑动窗口的方式就将从整个训练集中划分出了想要进行插补的标签,通过对整个训练集和标签进行划分得到了测试和验证集。
4.根据权利要求3所述的方法,其特征是:所述步骤3具体为:
进行海洋数据的稀疏数据和缺失数据进行插补,对稀疏和缺失的海洋浮标观测数据进行检测,采用长短期记忆网络模型进行缺失数据点的检测,通过向训练后的LSTM模型中输入历史序列,LSTM输出检测到时间窗口检测识别数据序列,基于预测的数据点序列能够得到某个时间段的值是否是数据的稀疏或者缺失。
5.根据权利要求4所述的方法,其特征是:所述步骤4具体为:
根据单个样本的稀疏数据和缺失数据检测序列m,对序列中标签为0的缺失数据进行填补,将训练集数据先通过Embedding层进行特征降维,通过一层时间卷积网络挖掘潜在的历史信息对于需要填充的数据能够确保通过历史数据进行信息挖掘;
给定时间序列,TCN输出相同长度的卷积结果,其中,值依赖于该时段之前的输入值;每一个隐藏层节点数和输入步长是相同的,并且隐藏层t时刻节点的值只依赖前一层t时刻及之前的值;TCN引入了因果卷积,在确保获取足够长的历史有效信息的情况下,降低了深度和复杂程度,TCN的计算公式通过下式表示:
其中,滤波器为F,序列为,第一个隐藏层的最后有一个节点为,K为卷积层数,k为可训练偏移参数。
6.根据权利要求5所述的方法,其特征是:所述步骤6具体为:
将因果卷积输出通过Attention将其中对于预测插补值有重要影响的特征进行提取,将输入特征的查询变量query(Q)和输入的键值对变量key-value pairs映射到输出上,其中输入特征的查询变量query、每个输入特征的键值变量key、每个输入的键通过计算得到的对应值value都是向量,输出是所有输出值的加权和V中所有values输入的键通过计算得到对应的值的加权,其中权重是由Query和每个key计算出来的;计算方法包括以下步骤:
第一步:计算比较Q和K的相似度,用f来表示:
第二步:将得到的相似度进行Softmax操作,进行归一化:
第三步:针对计算出来的权重,对V中所有的values进行加权求和计算,得到Attention向量:
7.根据权利要求6所述的方法,其特征是:所述步骤7具体为:
根据步骤6得到的特征信息Attention向量 ,放入Dense层进行特征信息的还原,进行信息解码;通过多层Dense层的输出,之后进行reshape得到一个预测海洋数据插补值;通过步骤3得到的稀疏和缺失数据标签进行插值,当某个位置上的标签是小于0.5的话就将该位置视为缺失值标记,当这个位置上的标签大于0.5时,将这个位置的值视为完整的值;通过时空信息插值方法对海洋数据中的严重缺失和稀疏的值进行插补。
8.一种海洋观测数据的空间场插补系统,其特征是:所述系统包括:
划分模块,所述划分模块通过模糊区间规则对海洋浮标原始温盐场数据进行时段划分;
滑动窗口模块,所述滑动窗口模块使用滑动窗口构建深度学习训练集和标签;
缺失数据检测模块,所述缺失数据检测模块通过LSTM模型进行缺失数据点的检测;
特征提取模块,所述特征提取模块通过TCN对海洋浮标数据潜在时序性特征提取;
历史信息获取模块,所述历史信息获取模块利用多层TCN进行扩张卷积提取更多的历史信息;
信息挖掘模块,所述信息挖掘模块结合注意力机制进行插补特征关联特征的重要信息挖掘;
插补模块,所述插补模块经过多个Dense层信息还原输出插补的预测结果。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-7的方法。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征是:所述处理器执行所述计算机程序时实现权利要求1-7的方法。
CN202310023122.1A 2023-01-09 2023-01-09 一种海洋观测数据的空间场插补方法 Pending CN115935139A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310023122.1A CN115935139A (zh) 2023-01-09 2023-01-09 一种海洋观测数据的空间场插补方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310023122.1A CN115935139A (zh) 2023-01-09 2023-01-09 一种海洋观测数据的空间场插补方法

Publications (1)

Publication Number Publication Date
CN115935139A true CN115935139A (zh) 2023-04-07

Family

ID=86550729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310023122.1A Pending CN115935139A (zh) 2023-01-09 2023-01-09 一种海洋观测数据的空间场插补方法

Country Status (1)

Country Link
CN (1) CN115935139A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304540A (zh) * 2023-05-23 2023-06-23 吉林大学 海洋观测数据处理方法及装置
CN116401515A (zh) * 2023-06-07 2023-07-07 吉林大学 一种面向海洋观测数据的洋流预测方法
CN116541667A (zh) * 2023-06-29 2023-08-04 厦门大学 一种浮标时间序列数据缺失值的插补方法及系统
CN117009750A (zh) * 2023-09-28 2023-11-07 北京宝隆泓瑞科技有限公司 一种用于机器学习的甲烷浓度数据补全方法、装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569972A (zh) * 2021-08-03 2021-10-29 中国科学院地理科学与资源研究所 气象数据插补方法、装置、电子设备及存储介质
CN113780640A (zh) * 2021-08-27 2021-12-10 河北工业大学 一种基于TCN-Attention的太阳能辐射预测方法
CN114385619A (zh) * 2022-03-23 2022-04-22 山东省计算中心(国家超级计算济南中心) 一种多通道海洋观测时序标量数据缺失值预测方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569972A (zh) * 2021-08-03 2021-10-29 中国科学院地理科学与资源研究所 气象数据插补方法、装置、电子设备及存储介质
CN113780640A (zh) * 2021-08-27 2021-12-10 河北工业大学 一种基于TCN-Attention的太阳能辐射预测方法
CN114385619A (zh) * 2022-03-23 2022-04-22 山东省计算中心(国家超级计算济南中心) 一种多通道海洋观测时序标量数据缺失值预测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王军 等: "基于TCN-Attention 模型的多变量黄河径流量预测", 《人民黄河》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304540A (zh) * 2023-05-23 2023-06-23 吉林大学 海洋观测数据处理方法及装置
CN116401515A (zh) * 2023-06-07 2023-07-07 吉林大学 一种面向海洋观测数据的洋流预测方法
CN116541667A (zh) * 2023-06-29 2023-08-04 厦门大学 一种浮标时间序列数据缺失值的插补方法及系统
CN116541667B (zh) * 2023-06-29 2023-11-03 厦门大学 一种浮标时间序列数据缺失值的插补方法及系统
CN117009750A (zh) * 2023-09-28 2023-11-07 北京宝隆泓瑞科技有限公司 一种用于机器学习的甲烷浓度数据补全方法、装置
CN117009750B (zh) * 2023-09-28 2024-01-02 北京宝隆泓瑞科技有限公司 一种用于机器学习的甲烷浓度数据补全方法、装置

Similar Documents

Publication Publication Date Title
CN115935139A (zh) 一种海洋观测数据的空间场插补方法
US11921566B2 (en) Abnormality detection system, abnormality detection method, abnormality detection program, and method for generating learned model
CN112783940B (zh) 基于图神经网络的多源时序数据故障诊断方法和介质
CN112416643A (zh) 无监督异常检测方法与装置
Lee et al. Applying machine learning methods to detect convection using Geostationary Operational Environmental Satellite-16 (GOES-16) advanced baseline imager (ABI) data
CN112416662A (zh) 多时间序列数据异常检测方法与装置
CN115730684A (zh) 一种基于lstm-cnn模型的空气质量检测系统
Pathan et al. Efficient forecasting of precipitation using LSTM
Bello et al. Response-guided community detection: Application to climate index discovery
CN116186633A (zh) 一种基于小样本学习的用电异常诊断方法和系统
CN117150445B (zh) 一种区间隧道近距离下穿河流的沉降监测和评价方法
CN104573361B (zh) 一种gis设备评估的方法和装置
CN115063337A (zh) 埋地管道智能维修决策方法及装置
CN117271979A (zh) 一种基于深度学习的赤道印度洋表层海流流速预测方法
CN117494871A (zh) 一种考虑船舶交互影响的船舶轨迹预测方法
CN116719241A (zh) 一种基于3d可视化技术的信息化智能闸门自动控制方法
CN117235540A (zh) 基于特征匹配融合的传感器动态信息联动分析方法
Rajabi-Kiasari et al. Forecasting of absolute dynamic topography using deep learning algorithm with application to the Baltic Sea
CN113033414A (zh) 用电数据异常检测方法、装置、计算机设备和存储介质
CN115184054A (zh) 机械设备半监督故障检测分析方法、装置、终端及介质
Cofre-Martel et al. Uncovering the underlying physics of degrading system behavior through a deep neural network framework: The case of remaining useful life prognosis
CN112560252A (zh) 一种航空发动机剩余寿命预测方法
CN111625525A (zh) 一种环境数据修复/填充方法及系统
CN116304540A (zh) 海洋观测数据处理方法及装置
Yadav et al. Identification of storm eye from Satellite image data using fuzzy logic with machine learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230407

RJ01 Rejection of invention patent application after publication