CN114385619B - 一种多通道海洋观测时序标量数据缺失值预测方法及系统 - Google Patents

一种多通道海洋观测时序标量数据缺失值预测方法及系统 Download PDF

Info

Publication number
CN114385619B
CN114385619B CN202210285171.8A CN202210285171A CN114385619B CN 114385619 B CN114385619 B CN 114385619B CN 202210285171 A CN202210285171 A CN 202210285171A CN 114385619 B CN114385619 B CN 114385619B
Authority
CN
China
Prior art keywords
sequence
time
attention
scalar data
ocean
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210285171.8A
Other languages
English (en)
Other versions
CN114385619A (zh
Inventor
常文庆
董火民
李响
王英龙
赵志刚
王春晓
武鲁
王金伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Computer Science Center National Super Computing Center in Jinan
Original Assignee
Shandong Computer Science Center National Super Computing Center in Jinan
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Computer Science Center National Super Computing Center in Jinan filed Critical Shandong Computer Science Center National Super Computing Center in Jinan
Priority to CN202210285171.8A priority Critical patent/CN114385619B/zh
Publication of CN114385619A publication Critical patent/CN114385619A/zh
Application granted granted Critical
Publication of CN114385619B publication Critical patent/CN114385619B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于基于特定计算模型的计算机系统领域,提供了一种多通道海洋观测时序标量数据缺失值预测方法及系统,获取带有海洋缺失值的海洋观测时序标量数据;基于所述海洋观测时序标量数据,采用TA‑RNN模型,得到海洋缺失值预测结果;所述TA‑RNN模型包括卷积注意模块、空间注意模块和时间注意模块,所述卷积注意模块用于将所述海洋观测时序标量数据进行细化;所述空间注意模块用于捕获细化后的所述海洋观测时序标量数据的动态空间相关性;所述时间注意模块用于捕获空间注意模块输出数据中不同时间间隔之间的动态时间相关性。

Description

一种多通道海洋观测时序标量数据缺失值预测方法及系统
技术领域
本发明属于基于特定计算模型的计算机系统领域,尤其涉及一种多通道海洋观测时序标量数据缺失值预测方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
海洋监测依靠广泛部署的海洋浮标和观测站,这些浮标和观测站集成了各种类型的海洋传感器。海洋生态系统结构复杂,使得海洋观测数据具有复杂性和多样性。缺失值是指原始数据由于缺少信息而造成的数据聚类、分组、删失或截断,它指的是数据中的某个或某些特征值是不完整的。由于叶绿素、风速、溶解氧、盐分、温度、含氧量、风速、浊度等海洋观测数据,采用浮标系统、导航系统和数据库系统共同协作采集,各个采集系统容易受到外界环境因素的干扰,这使得数据存在缺失值。这些数据对下游应用的准确性造成了影响,如海洋数据同化和智能数据挖掘。传统的数理统计和经验预测等方法,对于具有多因子、不规则、复杂等特点的海洋观测数据无法达到预期的目标。因此,以数据为驱动,研究精准的海洋观测数据预测模型,对于海洋观测时序标量数据缺失值填补发挥着不可替代的作用。
发明内容
为了解决上述背景技术中存在的技术问题,本发明提供一种多通道海洋观测时序标量数据缺失值预测方法及系统,其通过多通道海洋观测时序标量数据的历史数据来预测它的未来变化趋势,并将预测出的数据用于缺失值的填充中。
为了实现上述目的,本发明采用如下技术方案:
本发明的第一个方面提供一种多通道海洋观测时序标量数据缺失值预测方法。
一种多通道海洋观测时序标量数据缺失值预测方法,包括:
获取带有海洋缺失值的海洋观测时序标量数据;带有海洋缺失值的海洋观测时序标量数据为目标序列,获取多通道海洋观测时序标量数据中与目标序列相关的多通道序列;
根据所述多通道序列,采用卷积注意模块,得到通道注意力映射和空间注意力映射;将多通道序列的通道注意力映射的序列与多通道序列进行逐元素相乘,得到初始细化序列;将所述初始细化序列与初始细化序列的空间注意力映射的序列进行逐元素相乘,得到最终细化序列;
基于所述最终细化序列,采用空间注意模块,捕获最终细化序列中不同输入特征之间的动态空间相关性,得到输入序列;
根据所述输入序列,采用编码器,学习从输入序列到编码器在t时刻的隐状态的映射,得到编码器在t时刻的隐状态;
根据编码器在t时刻的隐状态和解码器在t-1时刻的隐状态,采用时间注意模块,确定在t时刻每个输入特征的注意权重;基于在t时刻每个输入特征的注意权重,确定时间t处某个输入特征对预测值的注意权重;基于在t时刻所有输入特征对预测值的注意权重和编码器在t时刻的隐状态,得到所有编码器隐状态的加权和,即上下文向量;
确定在t时刻的上下文向量和在t-1时刻的目标序列结合起来,更新解码器在t时刻的隐状态;
将在T时刻的上下文向量与更新后解码器在T时刻的隐状态连接起来成为新的解码器的隐状态,预测海洋缺失值;其中,T是编码器的最后一个时刻,
Figure 989932DEST_PATH_IMAGE001
本发明的第二个方面提供一种多通道海洋观测时序标量数据缺失值预测系统。
一种多通道海洋观测时序标量数据缺失值预测系统,包括:
数据获取模块,其被配置为:获取带有海洋缺失值的海洋观测时序标量数据;带有海洋缺失值的海洋观测时序标量数据为目标序列,获取多通道海洋观测时序标量数据中与目标序列相关的多通道序列;
卷积注意模块,其被配置为:根据所述多通道序列,得到通道注意力映射和空间注意力映射;将多通道序列的通道注意力映射的序列与多通道序列进行逐元素相乘,得到初始细化序列;将所述初始细化序列与初始细化序列的空间注意力映射的序列进行逐元素相乘,得到最终细化序列;
空间注意模块,其被配置为:基于所述最终细化序列,捕获最终细化序列中不同输入特征之间的动态空间相关性,得到输入序列;根据所述输入序列,学习从输入序列到编码器在t时刻的隐状态的映射,得到编码器在t时刻的隐状态;
时间注意模块,其被配置为:根据编码器在t时刻的隐状态和解码器在t-1时刻的隐状态,确定在t时刻每个输入特征的注意权重;基于在t时刻每个输入特征的注意权重,确定时间t处某个输入特征对预测值的注意权重;基于在t时刻所有输入特征对预测值的注意权重和编码器在t时刻的隐状态,得到所有编码器隐状态的加权和,即上下文向量;确定在t时刻的上下文向量和在t-1时刻的目标序列结合起来,更新解码器在t时刻的隐状态;
预测模块,其被配置为:将在T时刻的上下文向量与更新后解码器在T时刻的隐状态连接起来成为新的解码器的隐状态,预测海洋缺失值;其中,T是编码器的最后一个时刻,
Figure 283510DEST_PATH_IMAGE001
与现有技术相比,本发明的有益效果是:
本发明在第一阶段,采用卷积注意模块,将输入序列进行细化操作,使新的输入序列具有更强的表征能力;在第二阶段,采用空间注意模块,使模型能够选择性地捕获不同输入序列之间的动态相关性;第三阶段,采用时间注意模块,使基于三阶段注意的递归神经网络(TA-RNN)模型,能够自适应捕获输入序列中不同时间间隔之间的动态时间相关性。
本发明能够对缺失值进行精准的填补,从而避免了缺失值填补不精准,误差较大等问题。
本发明解决了目前缺失值填补只能依赖单通道数据进行填补的缺陷,本发明针对海洋多通道观测时序标量数据,通过叶绿素和深度、温度、导电率、盐度、氧含量、溶解氧浓度、叶绿素(含缺失值)、浊度、PH值、风速等海洋观测时序标量数据之间的相关性,对叶绿素序列存在的缺失值进行填补。由于海洋数据丰富多样,在大多数场景下,目标序列往往不是单独存在,而是和众多的时间序列同时存在,共同组成了特定的场景数据集,对多通道海洋观测时序标量数据集进行缺失值填补,这样更贴近海洋采集系统采集上的数据集的实际情况。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明实施例示出的多通道海洋观测时序标量数据缺失值预测方法的流程图;
图2是本发明实施例示出的缺失值填补流程图;
图3是本发明实施例示出的基于三阶段注意的递归神经网络模型框架图;
图4是本发明实施例示出的卷积注意模块(CBAM)示意图;
图5是本发明实施例示出的通道注意模块示意图;
图6是本发明实施例示出的空间注意模块示意图;
图7是本发明实施例示出的带有缺失值的叶绿素序列图;
图8是本发明实施例示出的在没有缺失值的样本集的叶绿素序列预测效果图;
图9是本发明实施例示出的经过填补后的叶绿素序列图;
图10是本发明实施例示出的取其中一部分长度为50的含缺失值的叶绿素序列图;
图11是本发明实施例示出的经过线性插值处理后的叶绿素序列图;
图12是本发明实施例示出的经过模型预测后的叶绿素缺失填补效果图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
需要注意的是,附图中的流程图和框图示出了根据本公开的各种实施例的方法和系统的可能实现的体系架构、功能和操作。应当注意,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分可以包括一个或多个用于实现各个实施例中所规定的逻辑功能的可执行指令。也应当注意,在有些作为备选的实现中,方框中所标注的功能也可以按照不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,或者它们有时也可以按照相反的顺序执行,这取决于所涉及的功能。同样应当注意的是,流程图和/或框图中的每个方框、以及流程图和/或框图中的方框的组合,可以使用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以使用专用硬件与计算机指令的组合来实现。
正如背景技术中所介绍的目前常见的海洋多通道观测标量数据缺失值填补的方法大多采用定值、中位数、众数来填补缺失值,但这会出现填补的缺失值不精准,存在较大误差等问题。本发明提出的基于三阶段注意的递归神经网络(TA-RNN)模型,在第一阶段,采用卷积注意模块,将输入序列进行细化操作,使新的输入序列具有更强的表征能力;在第二阶段,采用空间注意模块,使模型能够选择性地捕获不同输入序列之间的动态相关性;第三阶段,采用时间注意模块。使模型能够自适应捕获输入序列中不同时间间隔之间的动态时间相关性。本发明能够对缺失值进行精准的填补,从而避免了缺失值填补不精准,误差较大等问题。
针对目前深度学习的缺失值填补算法存在着无法对多通道海洋观测时序标量数据缺失值进行缺失值填补的缺陷。目前对缺失值进行填补的主要方式是E2GAN,但是对于传感器输入至E2GAN进行缺失值填补时,大部分只有两列数据,时间与检测值。这在实际的海洋场景中基本上是不存在的,海洋浮标上集成了多种传感器同时工作,因此海洋传感器采集到的数据基本上都为多通道数据。本发明针对了海洋多通道观测时序标量数据,采用了基于三阶段注意的递归神经网络模型,利用目标序列的过去值和与目标序列相关的其它序列的当前值与过去值,对目标序列的当前值进行预测,并将预测值填充到当前数据集的缺失值位置上。
本发明提出了基于三阶段注意的递归神经网络模型对多通道的海洋数据缺失值进行精准的预测,三阶段注意的递归神经网络模型如图3所示,其中三阶段的注意模块分别是:
(1)卷积注意模块,卷积注意模块将原始的输入序列进行细化,增加了原始输入序列的表征能力。其中卷积注意模块是在2018年提出的,它将卷积模块中的空间注意力和通道注意力混合,该模块是一个轻量级和通用的模块,具有良好地可移植性,这里我们将它用于处理多通道输入序列。
(2)空间注意模块,空间注意模块能够使模型选择性地捕获不同输入序列之间的动态空间相关性。
(3)时间注意模块,时间注意模块能够使模型自适应地捕获输入序列中不同时间间隔之间的动态时间相关性。
如图3所示,卷积注意模块,它将原始的输入序列
Figure 730672DEST_PATH_IMAGE002
进行细化,生成新的输入序列
Figure 331463DEST_PATH_IMAGE003
,经过卷积注意力操作后,增加了原始输入序列的表征能力;空间注意模块,它能够有选择性地捕获不同输入序列之间的动态相关性;门控循环单元,它可以学习到输入序列的隐层表示,并根据输入序列和其上一个时刻隐状态来更新当前时刻的隐状态;时间注意模块。它可以自适应地捕获序列中不同时间间隔之间的动态时间相关性。
下面从多种实施方式来介绍本发明的具体实施方案:
实施例一
如图1所示,本实施例提供了一种多通道海洋观测时序标量数据缺失值预测方法。
这里我们采用加拿大海洋网的带有叶绿素缺失值的多通道海洋观测时序标量数据集,该多通道海洋观测时序标量数据集包括:深度、温度、导电率、盐度、氧含量、溶解氧浓度、叶绿素(含缺失值)、浊度、PH值、风速等海洋观测时序标量数据,带有缺失值的叶绿素序列如图7所示,其中x轴表示叶绿素序列的长度,y轴表示叶绿素的数值,缺失值如圆圈所示在此数据集中缺失值使用定值999填补。结合此数据集,本实施例的技术方案为:基于三阶段注意的递归神经网络预测模型的多通道海洋观测时序标量数据缺失值预测,如图2所示,包括以下步骤:
(1)将该数据集作为模型的输入,首先对其进行数据预处理,得到初始序列。预处理阶段包括:
(1-1)对待填补的叶绿素数据采用线性插值方式进行处理,得到初始数据;
(1-2)构建没有缺失值的样本集,将没有缺失值的样本集输入到模型中进行训练,并采用损失函数计算对应的数值。
(2)将叶绿素序列作为我们需要预测的目标序列,通过皮尔逊相关系数来测量其他序列与目标序列之间的相关性。通过计算目标序列与深度、温度、导电率、盐度、氧含量、溶解氧浓度、叶绿素(含缺失值)、浊度、PH值、风速等序列之间的协方差与标准差的商,我们选取深度、风速、氧含量、溶解氧、浊度、温度、盐分这七个序列与叶绿素序列最相关的序列和叶绿素序列一起构成输入序列
Figure 496865DEST_PATH_IMAGE004
,其中n表示不同类型序列的个数,L表示输入序列长度大小,
Figure 469500DEST_PATH_IMAGE005
表示深度、风速、氧含量、溶解氧、浊度、温度、盐分这七个序列构成的多通道序列。
(3)将(2)后的输入序列进行分解,分解为叶绿素序列
Figure 771168DEST_PATH_IMAGE006
和深度、风速、氧含量、溶解氧、浊度、温度、盐分这七个序列构成的多通道序列
Figure 662901DEST_PATH_IMAGE007
(4)将该多通道序列
Figure 705812DEST_PATH_IMAGE005
输入到CBAM模块中,CBAM模块如图4所示。首先通过平均池化和最大池化操作来聚合特征映射的空间信息,生成两个不同的空间上下文描述符分别表示平均池特征和最大池特征:
Figure 341193DEST_PATH_IMAGE008
Figure 762947DEST_PATH_IMAGE009
(5)如图5所示,将这两个描述符输入到由多层感知机和一个隐藏层组成的共享网络中,生成通道注意力映射
Figure 966526DEST_PATH_IMAGE010
即:
Figure 840941DEST_PATH_IMAGE011
式中
Figure 280013DEST_PATH_IMAGE012
表示sigmoid函数,
Figure 447951DEST_PATH_IMAGE013
Figure 681487DEST_PATH_IMAGE014
表示多层感知机权重。
(6)将原始输入序列
Figure 184143DEST_PATH_IMAGE005
与经过通道注意力映射的序列进行逐元素相乘操作。得到新的输入序列
Figure 895747DEST_PATH_IMAGE015
,即:
Figure 557673DEST_PATH_IMAGE016
式中,
Figure 86743DEST_PATH_IMAGE017
表示逐元素相乘。
(7)如图6所示,将新生成的序列
Figure 935751DEST_PATH_IMAGE015
沿着通道轴应用平均池化和最大池化操作,通过两个池操作聚合特征映射的通道信息,生成两个空间上下文描述符:
Figure 716625DEST_PATH_IMAGE018
Figure 842844DEST_PATH_IMAGE019
。并将它们连接起来以生成有效地特征描述符,在连接的特征描述符上,我们应用卷积层去生成空间注意映射
Figure 683761DEST_PATH_IMAGE020
,即:
Figure 20064DEST_PATH_IMAGE021
式中,
Figure 230728DEST_PATH_IMAGE012
表示sigmiod激活函数,
Figure 336087DEST_PATH_IMAGE022
表示滤波器大小为
Figure 223272DEST_PATH_IMAGE023
的卷积运算。
(8)将(6)中得到的新输入序列与经过空间注意力映射的序列进行逐元素相乘操作,得到最终细化的输出
Figure 781292DEST_PATH_IMAGE024
,即:
Figure 903969DEST_PATH_IMAGE025
(9)将细化后的输出
Figure 254048DEST_PATH_IMAGE024
,作为空间注意模块的输入,通过空间注意力机制生成新的输入序列
Figure 171188DEST_PATH_IMAGE026
,即:
Figure 747663DEST_PATH_IMAGE027
式中,
Figure 283818DEST_PATH_IMAGE028
表示第k个输入序列
Figure 363769DEST_PATH_IMAGE029
Figure 717390DEST_PATH_IMAGE030
表示t时刻编码器隐状态的注意权重,对注意权重
Figure 876101DEST_PATH_IMAGE030
进行SoftMax函数标准化处理得到
Figure 340580DEST_PATH_IMAGE031
是t-1时刻编码器隐状态,
Figure 275038DEST_PATH_IMAGE032
Figure 674927DEST_PATH_IMAGE033
是需要学习的参数矩阵,
Figure 694835DEST_PATH_IMAGE034
是衡量在t时刻的第k个输入特征重要性的注意权重。
(10)我们取得注意权重,我们可以在t时刻更新输入序列和编码器隐状态,即:
Figure 963006DEST_PATH_IMAGE035
(11)将t-1时刻解码器和编码器的隐状态与t时刻编码器的隐状态输入到时间注意模块中,通过时间注意机制,得到上下文向量
Figure 876604DEST_PATH_IMAGE036
,即:
Figure 572028DEST_PATH_IMAGE037
Figure 79232DEST_PATH_IMAGE038
式中,
Figure 760880DEST_PATH_IMAGE039
是需要学习的参数矩阵,
Figure 669931DEST_PATH_IMAGE040
Figure 536255DEST_PATH_IMAGE041
时刻解码器的隐状态,
Figure 891276DEST_PATH_IMAGE042
是t-1时刻编码器的隐状态,
Figure 501249DEST_PATH_IMAGE043
是t时刻编码器的隐状态,
Figure 530384DEST_PATH_IMAGE044
表示t时刻解码器的注意权重,对注意权重
Figure 177398DEST_PATH_IMAGE044
进行SoftMax函数标准化处理得到
Figure 924774DEST_PATH_IMAGE045
衡量在t时刻的第i个输入特征重要性的注意权重,
Figure 72858DEST_PATH_IMAGE046
是上下文向量。
(12)当获得t时刻上下文向量
Figure 346714DEST_PATH_IMAGE046
,将它们与目标时间序列结合起来,并更新t时刻解码器隐状态
Figure 430207DEST_PATH_IMAGE047
,即:
Figure 133721DEST_PATH_IMAGE048
式中,
Figure 351076DEST_PATH_IMAGE049
和b是将连接映射到解码器输入的参数矩阵,
Figure 449744DEST_PATH_IMAGE050
是t-1时刻解码器的输入,
Figure 828773DEST_PATH_IMAGE051
是计算出的上下文向量,
Figure 285162DEST_PATH_IMAGE052
表示连接操作,
Figure 650415DEST_PATH_IMAGE053
是经过线性变换后的新的输入,
Figure 243071DEST_PATH_IMAGE040
是t-1时刻解码器的隐状态。
(13)最后,将上下文向量
Figure 793001DEST_PATH_IMAGE054
与T时刻解码器的隐状态
Figure 595741DEST_PATH_IMAGE055
连接起来成为新的解码器的隐状态,从中做出最终预测:
Figure 889319DEST_PATH_IMAGE056
式中,矩阵
Figure 602060DEST_PATH_IMAGE057
和向量
Figure 198257DEST_PATH_IMAGE058
映射连接
Figure 629239DEST_PATH_IMAGE059
,最终我们使用线性变化(
Figure 460928DEST_PATH_IMAGE060
Figure 388695DEST_PATH_IMAGE061
)生成最终的叶绿素预测结果。预测效果图如图8所示:
(14)将预测得到的叶绿素数据填补到带有叶绿素缺失值的数据集中,得到最终的填补结果,结果如图9所示,其中,x轴表示叶绿素序列的长度,y轴表示叶绿素浓度的数值,圆圈部分表示缺失值填充后的数值。
在这里我们取其中一部分长度为50的含缺失值的叶绿素序列,如图10所示,其中x轴表示叶绿素序列的长度,y轴表示叶绿素的数值。圆圈部分表示叶绿素序列的缺失值,这里缺失值用999定值表示。
叶绿素序列经过线性插补后的结果如图11所示,其中x轴表示叶绿素序列的长度,y轴表示叶绿素的数值。圆圈部分表示叶绿素序列的缺失值经过线性插补后填充的结果。
叶绿素序列经过模型预测后的结果如图12所示,其中x轴表示叶绿素序列的长度,y轴表示叶绿素的数值。圆圈部分表示叶绿素序列的缺失值经过模型预测后填充的结果。
将图10、11、12进行对比,我们可以看出基于三阶段注意的递归神经网络模型对于缺失值填补的精准度是要高于线性插值的结果。
本实施例包括以下优点:
(1)本实施例基于叶绿素序列的先前值以及深度、风速、氧含量、溶解氧、浊度、温度、盐分序列的当前值和过去值来预测其当前值,弥补了目前缺失值填补技术只能针对海洋单通道观测时序标量数据集进行数据填补的缺陷。
(2)本实施例使用空间注意模块替代原有的输入注意模块,能够有选择性地捕获不同输入序列之间的动态空间相关性,使模型能够有针对地关注对预测任务相关联的特征,提高了模型地预测精准度,降低了模型的训练成本,提高了模型对缺失值填补的精准度。
(3)本实施例使用卷积注意模块对输入序列进行细化处理,与DA-RNN原有的输入注意模块相比它能够细化输入的序列,增强了输入序列的表征能力。克服了模型在训练大批量数据中存在的梯度衰退问题,并且预测性能不会由于数据量的增大,预测精度下降,具有良好的稳定性。模型能够有效地填补具有缺失值的大批量数据集。
实施例二
本实施例提供了一种多通道海洋观测时序标量数据缺失值预测系统。
本实施例的技术方案包括以下几个模块:
1、获取和预处理模块
获取带有叶绿素缺失值的多通道海洋观测时序标量数据集,对该数据集进行预处理,预处理过程如下:
(1)对叶绿素序列缺失致部分采用线性插值方式进行处理,构建没有叶绿素缺失值的样本集,将没有缺失值的样本集输入到本发明中模型进行训练,并采用损失函数计算对应的数值。
(2)将叶绿素序列作为我们需要预测的目标序列,通过皮尔逊相关系数来测量海洋多通道数据集中的深度、温度、导电率、盐度、氧含量、溶解氧浓度、叶绿素(含缺失值)、浊度、PH值、风速等序列与叶绿素序列之间的相关性。通过计算目标序列与其他序列之间的协方差与标准差的商,我们选取深度、风速、氧含量、溶解氧、浊度、温度、盐分这七个序列与叶绿素序列最相关的序列和目标序列一起构成输入序列:
Figure 546007DEST_PATH_IMAGE062
其中,n表示新输入序列中不同类型序列的个数。
(3)将(2)后的数据进行分解,分解为叶绿素序列
Figure 933126DEST_PATH_IMAGE063
和由深度、风速、氧含量、溶解氧、浊度、温度、盐分组成的新的输入序列
Figure 709452DEST_PATH_IMAGE007
,L表示输入序列长度。
2、卷积注意模块
Figure 131206DEST_PATH_IMAGE064
作为输入,卷积注意模块(CBAM)依次推断出一个一维通道注意力映射
Figure 584053DEST_PATH_IMAGE065
和二维空间注意力映射
Figure 458468DEST_PATH_IMAGE066
。其总过程可以表示如下:
Figure 897540DEST_PATH_IMAGE067
Figure 314746DEST_PATH_IMAGE068
其中,
Figure 548281DEST_PATH_IMAGE069
表示逐元素相乘,在乘法过程中通道注意值沿着空间维度传播,
Figure 909993DEST_PATH_IMAGE070
是最终细化的输出。
具体计算过程如下,首先通过平均池化和最大池化操作来聚合特征映射的空间信息,生成两个不同的空间上下文描述符分别表示平均池特征和最大池特征:
Figure 778854DEST_PATH_IMAGE071
Figure 175200DEST_PATH_IMAGE072
,然后这两个描述符发送到一个共享网络中生成通道注意力映射
Figure 720582DEST_PATH_IMAGE073
,共享网络由多层感知机和一个隐藏层组成,将共享层应用于每个描述符号后,我们使用元素求和合并输出特征向量,通道注意力计算公式如下:
Figure 569589DEST_PATH_IMAGE074
其中,
Figure 350463DEST_PATH_IMAGE075
表示sigmoid函数,
Figure 725950DEST_PATH_IMAGE076
Figure 566867DEST_PATH_IMAGE077
表示多层感知机权重。
计算空间注意,我们首先沿着通道轴应用平均池化和最大池化操作,并将它们连接起来以生成有效地特征描述符。沿通道轴应用池操作可以有效地突出显示信息区域。在连接的特征描述符上,我们应用卷积层去生成空间注意映射
Figure 637591DEST_PATH_IMAGE078
,通过两个池操作聚合特征映射的通道信息,生成两个空间上下文描述符:
Figure 97522DEST_PATH_IMAGE079
Figure 202882DEST_PATH_IMAGE080
,空间注意力的计算如下:
Figure 852517DEST_PATH_IMAGE081
其中,
Figure 676117DEST_PATH_IMAGE082
表示sigmiod激活函数,
Figure 798794DEST_PATH_IMAGE083
表示滤波器大小为
Figure 899605DEST_PATH_IMAGE084
的卷积运算。通过卷积注意机制对输入特征进行预处理,细化了输入特征,增强了输入特征的表征能力。
3、空间注意模块
将细化后的输出
Figure 816745DEST_PATH_IMAGE070
,作为空间注意模块的输入,通过空间注意力机制生成新的输入序列
Figure 127641DEST_PATH_IMAGE085
,即:
Figure 913063DEST_PATH_IMAGE086
式中,
Figure 258594DEST_PATH_IMAGE087
表示第k个输入序列
Figure 346636DEST_PATH_IMAGE088
Figure 20194DEST_PATH_IMAGE089
表示t时刻编码器隐状态的注意权重,对注意权重
Figure 484673DEST_PATH_IMAGE089
进行SoftMax函数标准化处理得到
Figure 310809DEST_PATH_IMAGE090
是t-1时刻编码器隐状态,
Figure 569752DEST_PATH_IMAGE091
Figure 855240DEST_PATH_IMAGE092
是需要学习的参数矩阵,
Figure 264355DEST_PATH_IMAGE093
是衡量在t时刻的第k个输入特征重要性的注意权重。通过空间注意机制,使得模型能够选择性地捕获不同输入特征之间的动态空间相关性。
4、编码器
编码器本质上是一个RNN,在机器翻译中它将输入序列编码为特征表示。对于经过空间注意操作后的输入序列
Figure 53320DEST_PATH_IMAGE094
,编码器用于学习从
Figure 873377DEST_PATH_IMAGE095
Figure 380582DEST_PATH_IMAGE096
(在时间t)的映射:
Figure 452443DEST_PATH_IMAGE097
其中,
Figure 502439DEST_PATH_IMAGE098
表示编码器在t时刻的隐状态,m表示隐状态的大小,
Figure 260441DEST_PATH_IMAGE099
表示一个非线性映射函数,这里我们使用门控循环单元(GRU)作为
Figure 989363DEST_PATH_IMAGE100
来捕获序列中的长期依赖。GRU由2个门组成:重置门
Figure 864915DEST_PATH_IMAGE101
,更新门
Figure 238259DEST_PATH_IMAGE102
。GRU的更新过程如下所示:
Figure 541064DEST_PATH_IMAGE103
其中,
Figure 757282DEST_PATH_IMAGE104
为t-1时刻的编码器隐状态
Figure 295579DEST_PATH_IMAGE105
和当前t时刻的输入
Figure 913643DEST_PATH_IMAGE095
的连接,
Figure 121770DEST_PATH_IMAGE106
为需要学习的参数。
Figure 966229DEST_PATH_IMAGE075
表示sigmoid激活函数,
Figure 918005DEST_PATH_IMAGE107
表示逐元素相乘。
5、时间注意模块
在解码阶段使用时间注意机制来建模输入序列中不同时间间隔之间的动态时间相关性,将t-1时刻解码器和编码器的隐状态与t时刻编码器的隐状态输入到时间注意模块中,通过时间注意机制,得到上下文向量
Figure 282252DEST_PATH_IMAGE108
,在t时刻每个解码器隐状态的注意权重定义如下:
Figure 661281DEST_PATH_IMAGE109
其中,
Figure 117670DEST_PATH_IMAGE110
是需要学习的参数矩阵,
Figure 482924DEST_PATH_IMAGE111
Figure 341158DEST_PATH_IMAGE112
时刻解码器的隐状态,
Figure 625509DEST_PATH_IMAGE113
是t-1时刻编码器的隐状态,
Figure 693828DEST_PATH_IMAGE114
是t时刻编码器的隐状态,
Figure 987406DEST_PATH_IMAGE115
表示t时刻解码器的注意权重,对注意权重
Figure 575513DEST_PATH_IMAGE115
进行SoftMax函数标准化处理得到
Figure 561924DEST_PATH_IMAGE116
衡量在t时刻的第i个输入特征重要性的注意权重,
Figure 461747DEST_PATH_IMAGE117
是上下文向量。
6、解码器
当获得t时刻的上下文向量
Figure 185114DEST_PATH_IMAGE117
,我们将它们与目标时间序列结合起来,并更t时刻的解码器新的隐状态
Figure 752362DEST_PATH_IMAGE118
Figure 785040DEST_PATH_IMAGE119
Figure 172159DEST_PATH_IMAGE120
和b是将连接映射到解码器输入的参数矩阵,
Figure 73119DEST_PATH_IMAGE121
是t-1时刻解码器的输入,
Figure 885086DEST_PATH_IMAGE122
是计算出的上下文向量,
Figure 947720DEST_PATH_IMAGE123
表示连接操作,
Figure 822135DEST_PATH_IMAGE124
是经过线性变换后的新的输入,
Figure 136573DEST_PATH_IMAGE111
是t-1时刻解码器的隐状态。我们将上下文向量
Figure 678413DEST_PATH_IMAGE125
与隐状态
Figure 538046DEST_PATH_IMAGE126
连接起来成为新的解码器的隐状态,从中做出最终预测:
Figure 165337DEST_PATH_IMAGE127
其中,矩阵
Figure 142520DEST_PATH_IMAGE128
和向量
Figure 414233DEST_PATH_IMAGE129
映射连接
Figure 818669DEST_PATH_IMAGE130
,最终我们使用线性变化(
Figure 57890DEST_PATH_IMAGE131
Figure 838764DEST_PATH_IMAGE132
)生成最终的叶绿素预测结果。
7、模型验证
如图11所示,当获得预测结果后,才用均方误差计算预测结果与插值填补后的多通道数据集的真实值之间的损失数值,并对模型的网络参数进行调整,得到最终的叶绿素预测结果。
8、缺失值填补
将最终的叶绿素预测结果填充至多通道数据集的缺失值单元中,得到填补结果。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种多通道海洋观测时序标量数据缺失值预测方法,其特征在于,包括:
获取带有海洋缺失值的海洋观测时序标量数据;带有海洋缺失值的海洋观测时序标量数据为目标序列,获取多通道海洋观测时序标量数据中与目标序列相关的多通道序列;
根据所述多通道序列,采用卷积注意模块,得到通道注意力映射和空间注意力映射;将多通道序列的通道注意力映射的序列与多通道序列进行逐元素相乘,得到初始细化序列;将所述初始细化序列与初始细化序列的空间注意力映射的序列进行逐元素相乘,得到最终细化序列;
基于所述最终细化序列,采用空间注意模块,捕获最终细化序列中不同输入特征之间的动态空间相关性,得到输入序列;
根据所述输入序列,采用编码器,学习从输入序列到编码器在t时刻的隐状态的映射,得到编码器在t时刻的隐状态;
根据编码器在t时刻的隐状态和解码器在t-1时刻的隐状态,采用时间注意模块,确定在t时刻每个输入特征的注意权重;基于在t时刻每个输入特征的注意权重,确定时间t处某个输入特征对预测值的注意权重;基于在t时刻所有输入特征对预测值的注意权重和编码器在t时刻的隐状态,得到所有编码器隐状态的加权和,即上下文向量;
确定在t时刻的上下文向量和在t-1时刻的目标序列结合起来,更新解码器在t时刻的隐状态;
将在T时刻的上下文向量与更新后解码器在T时刻的隐状态连接起来成为新的解码器的隐状态,预测海洋缺失值;
其中,T是编码器的最后一个时刻,
Figure 163538DEST_PATH_IMAGE001
2.根据权利要求1所述的多通道海洋观测时序标量数据缺失值预测方法,其特征在于,在所述获取带有海洋缺失值的海洋观测时序标量数据之后包括:对所述带有海洋缺失值的海洋观测时序标量数据进行预处理,得到初始序列。
3.根据权利要求1所述的多通道海洋观测时序标量数据缺失值预测方法,其特征在于,所述获取多通道海洋观测时序标量数据中与目标序列相关的多通道序列具体包括:若带有海洋缺失值的海洋观测时序标量数据为叶绿素序列,则选取深度序列、风速序列、氧含量序列、溶解氧序列、浊度序列、温度序列和盐分序列,根据深度序列、风速序列、氧含量序列、溶解氧序列、浊度序列、温度序列、盐分序列和所述叶绿素序列,构建多通道序列。
4.一种多通道海洋观测时序标量数据缺失值预测系统,其特征在于,包括:
数据获取模块,其被配置为:获取带有海洋缺失值的海洋观测时序标量数据;带有海洋缺失值的海洋观测时序标量数据为目标序列,获取多通道海洋观测时序标量数据中与目标序列相关的多通道序列;
卷积注意模块,其被配置为:根据所述多通道序列,得到通道注意力映射和空间注意力映射;将多通道序列的通道注意力映射的序列与多通道序列进行逐元素相乘,得到初始细化序列;将所述初始细化序列与初始细化序列的空间注意力映射的序列进行逐元素相乘,得到最终细化序列;
空间注意模块,其被配置为:基于所述最终细化序列,捕获最终细化序列中不同输入特征之间的动态空间相关性,得到输入序列;根据所述输入序列,学习从输入序列到编码器在t时刻的隐状态的映射,得到编码器在t时刻的隐状态;
时间注意模块,其被配置为:根据编码器在t时刻的隐状态和解码器在t-1时刻的隐状态,确定在t时刻每个输入特征的注意权重;基于在t时刻每个输入特征的注意权重,确定时间t处某个输入特征对预测值的注意权重;基于在t时刻所有输入特征对预测值的注意权重和编码器在t时刻的隐状态,得到所有编码器隐状态的加权和,即上下文向量;确定在t时刻的上下文向量和在t-1时刻的目标序列结合起来,更新解码器在t时刻的隐状态;
预测模块,其被配置为:将在T时刻的上下文向量与更新后解码器在T时刻的隐状态连接起来成为新的解码器的隐状态,预测海洋缺失值;
其中,T是编码器的最后一个时刻,
Figure 979047DEST_PATH_IMAGE001
CN202210285171.8A 2022-03-23 2022-03-23 一种多通道海洋观测时序标量数据缺失值预测方法及系统 Active CN114385619B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210285171.8A CN114385619B (zh) 2022-03-23 2022-03-23 一种多通道海洋观测时序标量数据缺失值预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210285171.8A CN114385619B (zh) 2022-03-23 2022-03-23 一种多通道海洋观测时序标量数据缺失值预测方法及系统

Publications (2)

Publication Number Publication Date
CN114385619A CN114385619A (zh) 2022-04-22
CN114385619B true CN114385619B (zh) 2022-07-15

Family

ID=81205385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210285171.8A Active CN114385619B (zh) 2022-03-23 2022-03-23 一种多通道海洋观测时序标量数据缺失值预测方法及系统

Country Status (1)

Country Link
CN (1) CN114385619B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115935139A (zh) * 2023-01-09 2023-04-07 吉林大学 一种海洋观测数据的空间场插补方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339234A (zh) * 2020-02-26 2020-06-26 上海澜启信息科技有限公司 定位数据采样缺失的修补方法、设备和存储介质
CN112232600A (zh) * 2020-11-17 2021-01-15 烟台海颐软件股份有限公司 一种基于变分模态分解的短期电力负荷预测方法及系统
CN112685950A (zh) * 2020-12-02 2021-04-20 山东省计算中心(国家超级计算济南中心) 一种海洋时序观测数据的异常检测方法、系统和设备
CN113094357A (zh) * 2021-04-23 2021-07-09 大连理工大学 一种基于时空注意力机制的交通缺失数据补全方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577649A (zh) * 2017-09-26 2018-01-12 广州供电局有限公司 缺失数据的插补处理方法及装置
US20200089650A1 (en) * 2018-09-14 2020-03-19 Software Ag Techniques for automated data cleansing for machine learning algorithms
US11093519B2 (en) * 2019-05-03 2021-08-17 Accenture Global Solutions Limited Artificial intelligence (AI) based automatic data remediation
US11223543B1 (en) * 2020-09-29 2022-01-11 Dell Products L.P. Reconstructing time series datasets with missing values utilizing machine learning
CN112527788B (zh) * 2020-12-17 2024-04-30 北京中恒博瑞数字电力科技有限公司 变压器监测数据异常值检测与清洗的方法及装置
CN113962432A (zh) * 2021-09-10 2022-01-21 国网江苏省电力有限公司电力科学研究院 一种融合三维卷积与轻量卷积门限单元的风电预测方法及系统
CN113988951A (zh) * 2021-11-19 2022-01-28 中核第四研究设计工程有限公司 基于张量分解和协同过滤的商品推荐学习模型构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339234A (zh) * 2020-02-26 2020-06-26 上海澜启信息科技有限公司 定位数据采样缺失的修补方法、设备和存储介质
CN112232600A (zh) * 2020-11-17 2021-01-15 烟台海颐软件股份有限公司 一种基于变分模态分解的短期电力负荷预测方法及系统
CN112685950A (zh) * 2020-12-02 2021-04-20 山东省计算中心(国家超级计算济南中心) 一种海洋时序观测数据的异常检测方法、系统和设备
CN113094357A (zh) * 2021-04-23 2021-07-09 大连理工大学 一种基于时空注意力机制的交通缺失数据补全方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Xiang Li等."ECNN: One Online Deep Learning Model for Streaming Ocean Data Prediction".《ACM ICEA "21: Proceedings of the 2021 ACM International Conference on Intelligent Computing and its Emerging Applications》.2021,第170-175页. *
孙晓丽 等."基于改进神经过程的缺失数据填充算法".《中国科学院大学学报》.2021,第280-287页. *

Also Published As

Publication number Publication date
CN114385619A (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN112347859B (zh) 一种光学遥感图像显著性目标检测方法
CN110427654B (zh) 一种基于敏感状态的滑坡预测模型构建方法及系统
CN111428789A (zh) 一种基于深度学习的网络流量异常检测方法
CN110210513A (zh) 数据分类方法、装置及终端设备
CN115390164B (zh) 一种雷达回波外推预报方法及系统
CN112257263B (zh) 基于自注意力机制的设备剩余寿命预测系统
CN113627093B (zh) 一种基于改进Unet网络的水下机构跨尺度流场特征预测方法
CN110930378A (zh) 基于低数据需求的肺气肿影像处理方法及系统
CN114385619B (zh) 一种多通道海洋观测时序标量数据缺失值预测方法及系统
CN116205962B (zh) 基于完整上下文信息的单目深度估计方法及系统
CN115311186B (zh) 一种红外与可见光图像跨尺度注意力对抗融合方法及终端
CN113988357A (zh) 基于深度学习的高层建筑风致响应预测方法及装置
CN114580710B (zh) 基于Transformer时序预测的环境监测方法
CN117094451B (zh) 一种耗电量的预测方法、装置及终端
CN113222209B (zh) 基于域适应的区域尾气迁移预测方法、系统及存储介质
CN112347531B (zh) 一种脆性大理石三维裂纹扩展路径预测方法及系统
CN116861262B (zh) 一种感知模型训练方法、装置及电子设备和存储介质
CN112949944A (zh) 一种基于时空特征的地下水位智能预测方法及系统
CN116109978A (zh) 基于自约束动态文本特征的无监督视频描述方法
CN114564512A (zh) 时间序列预测方法、装置、电子设备及存储介质
CN114239934A (zh) 一种基于生成式对抗网络的电网负荷序列预测方法及系统
CN111444614A (zh) 一种基于图卷积的流场重构方法
CN117493980B (zh) 一种集成特征提取和排序因果发现的轴承故障诊断方法
CN116882538B (zh) 一种海洋环境预测模型的训练方法及相关装置
CN117409354B (zh) 基于三路视频流和上下文感知的视频异常检测方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant