CN117172355A - 融合时空粒度上下文神经网络的海表温度预测方法 - Google Patents
融合时空粒度上下文神经网络的海表温度预测方法 Download PDFInfo
- Publication number
- CN117172355A CN117172355A CN202310990552.0A CN202310990552A CN117172355A CN 117172355 A CN117172355 A CN 117172355A CN 202310990552 A CN202310990552 A CN 202310990552A CN 117172355 A CN117172355 A CN 117172355A
- Authority
- CN
- China
- Prior art keywords
- model
- surface temperature
- input
- sea surface
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 17
- 230000015654 memory Effects 0.000 claims abstract description 29
- 238000012549 training Methods 0.000 claims abstract description 28
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 4
- 230000007787 long-term memory Effects 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 33
- 230000004913 activation Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- CIWBSHSKHKDKBQ-JLAZNSOCSA-N Ascorbic acid Chemical compound OC[C@H](O)[C@H]1OC(=O)C(O)=C1O CIWBSHSKHKDKBQ-JLAZNSOCSA-N 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 7
- 230000014759 maintenance of location Effects 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 2
- 101100109426 Rhodococcus fascians argJ gene Proteins 0.000 claims 1
- 230000003213 activating effect Effects 0.000 claims 1
- 238000012360 testing method Methods 0.000 abstract description 11
- 230000002708 enhancing effect Effects 0.000 abstract description 2
- 230000006403 short-term memory Effects 0.000 abstract description 2
- 230000008859 change Effects 0.000 description 10
- 238000005457 optimization Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 9
- 238000013136 deep learning model Methods 0.000 description 7
- 238000012795 verification Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000001932 seasonal effect Effects 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012804 iterative process Methods 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- FFBHFFJDDLITSX-UHFFFAOYSA-N benzyl N-[2-hydroxy-4-(3-oxomorpholin-4-yl)phenyl]carbamate Chemical compound OC1=C(NC(=O)OCC2=CC=CC=C2)C=CC(=C1)N1CCOCC1=O FFBHFFJDDLITSX-UHFFFAOYSA-N 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003313 weakening effect Effects 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009901 attention process Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 206010027175 memory impairment Diseases 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种融合时空粒度上下文神经网络的海表温度预测方法,首先,在循环神经网络RNN模型中将细粒度卷积长短期记忆ST‑GCFN模型作为RNN的细胞单元,构成预测模型;然后,训练预测模型;最后,用训练好的模型把新的海表温度数据作为模型的输入,模型的输出即为预测的海表温度。ST‑GCFN模型结合了FGCE模块与卷积长短期记忆模型ConvLSTM,捕捉海表温度数据中的时空关系和特征;FGCE模块嵌入CBAM模块,通过生成注意力权重图增强了模型的建模能力,并提供对历史状态的相关性建模。通过连接循环神经网络RNN层,构建了完整的时空数据建模网络,实现了训练阶段的时空关系和特征捕捉,以及测试阶段的准确预测。
Description
技术领域
本发明涉及深度学习、时空序列预测和大气海洋领域,具体涉及一种融合深度学习模型的海表温度预测方法。
背景技术
海表温度是大气海洋领域中一个重要的气候指标,对于气候变化研究、海洋生态系统保护以及天气灾害预警等具有重要的意义。然而,海表温度的预测一直是一个具有挑战性的任务,因为海洋环流、季节变化和长期趋势等因素都对海表温度产生复杂而非线性的影响。传统的海表温度预测方法主要基于物理模型和统计方法,这些方法依赖于对海洋环流、温度传输过程和海洋动力学等复杂机制的理解。然而,由于海洋系统的复杂性和不确定性,传统方法在预测精度和稳定性方面存在一定的局限性。
近年来,随着深度学习和时空序列预测方法的发展,融合深度学习模型的海表温度预测方法逐渐引起了研究者的关注。深度学习模型可以通过多层次的神经网络结构自动学习复杂的空间和时间依赖关系,能够更好地捕捉海洋环流、季节变化和长期趋势等因素对海表温度的影响。而时空序列预测方法则可以考虑海洋表面温度的时空分布特征,提高预测的准确性和可靠性。
发明内容
本发明的融合时空粒度上下文神经网络的海表温度预测方法的提出,旨在结合深度学习的强大建模能力和时空序列预测的特点,以改善传统方法在海表温度预测中的不足。通过融合多个深度学习模型,可以利用它们各自的优势,提高预测的准确性和稳定性。这种方法在海洋气候学、海洋资源开发和环境保护等领域具有广泛的应用前景,为更好地理解和预测海洋系统的变化提供了新的途径。海表温度的预测一直是一个具有挑战性的任务,传统方法在预测精度和稳定性方面存在局限性。为了解决这些技术问题,本发明提出了一种新的预测模型,用来根据已有的海表温度数据预测海表温度。
本发明的融合时空粒度上下文神经网络的海表温度预测方法,首先,在循环神经网络RNN模型中将细粒度卷积长短期记忆ST-GCFN模型作为RNN的细胞单元,构成预测模型;然后,训练预测模型;最后,用训练好的模型把新的海表温度数据作为模型的输入,模型的输出即为预测的海表温度。
本发明,通过引入通道空间注意力模块(CBAM),能够综合利用通道和空间的信息,提升特征的表达能力和预测性能。CBAM的设计允许逐层融合和残差连接,促进信息的流动和梯度的传播。
同时,为了提取时空变化的特征细节并改善隐藏状态之间的相关性,本发明将CBAM模块嵌入到细粒度上下文提取器(FGCE)模块中。
ST-GCFN模型结合了FGCE模块与卷积长短期记忆模型(ConvLSTM),能够充分利用多层次的神经网络结构和注意力权重图的融合,以更好地捕捉海洋系统的时空演变。该方法在海洋气候学、海洋资源开发和环境保护等领域具有广泛的应用前景,为更好地理解和预测海洋系统的变化提供了新的途径。
本发明的海表温度预测方法,通过引入通道空间注意力模块和细粒度上下文提取器的预测模型,能够综合利用通道和空间的信息,提升特征的表达能力和预测性能。这种方法能够更好地捕捉海洋环流、季节变化和长期趋势等因素对海表温度的影响,并提取重要的特征细节。通过FGCE模块与ConvLSTM的结合,可以更好地建模海表温度的时空演变。该方法在海洋气候学、海洋资源开发和环境保护等领域具有广泛的应用前景,为相关领域的研究和应用带来了重要的推动作用。
附图说明
图1是CBAM模块中的第一个过程的示意图;
图2是CBAM模块中的第二个过程的示意图;
图3是CBAM模块的整体示意图;
图4是FGCE模块的示意图;
图5是ST-GCFN模型的示意图;
图6是预测模型的示意图;
图7是实施例所的海表温度预测方法的流程图。
具体实施方式
为了更好地理解本发明的技术方案,下面将详细描述本发明的实施例,并结合附图进行说明。
本发明将整个数据集分为训练、验证集和测试三部分。这种分割数据的做法是为了有效评估深度神经网络模型的性能和泛化能力。较优的,首先,选择约70%的数据集用于深度神经网络模型的训练。在每次训练迭代结束后,选取约10%的数据集对模型进行验证,并保存表现最佳的模型。最后,利用剩余约20%的数据集对训练好的神经网络模型进行测试,评估其检测性能。
在训练阶段,首先选取部分特征数据集,这些特征可能是对问题或任务最相关的;然后,使用这些特征数据集来训练深度神经网络模型。训练的目标是通过调整模型的权重和参数,使其能够学习数据集中的特征和模式,从而对未见过的数据进行准确的预测。
在验证阶段,在每一轮训练完成后,都会利用验证集对训练得到的深度神经网络模型进行验证。验证集是从整个数据集中独立出来的一部分数据,它没有用于模型的训练过程,而是用来评估模型的性能和调整超参数。通过在验证集上进行验证,可以及时检测到模型是否出现了过拟合或欠拟合等问题。在验证过程中,会记录并保存效果最好的网络模型参数。这样做的目的是为了找到在验证集上表现最佳的模型,以便在后续的测试阶段使用。通过保存最佳模型的参数,可以确保在模型应用于新数据时获得最佳的预测性能。一旦完成了模型的训练和验证,就可以使用训练好的网络模型对剩余的数据集(被称为测试集)进行检测。
在测试阶段,通过在测试集上评估模型的性能,可以得出模型对未知数据的泛化能力。
测试集的结果是对模型性能的一个重要指标,它有助于了解模型在真实世界中的预测效果。
图1至图6为本预测方法以及的整体设计过程。
本发明实施例的融合深度学习模型的海表温度预测方法设计过程,步骤如下:
步骤1.根据真实的海表温度数据和模型训练所需要数据要求,对于非海洋区域的缺失数据,利用插值方法或者基于模型的预测方法进行填充。通过填充缺失数据,可以获得完整的大小形状为D的海表温度数据。
接下来,对填充后的数据进行归一化处理是为了方便后续模型的训练和学习。归一化将海表温度数据的值范围映射到[-1,1]之间,可以有效地消除不同特征量级之间的差异,确保模型在训练过程中更好地收敛和学习。
步骤2.根据深度学习中的时空预测和海洋大气学的相关资料,可以进一步明确海表温度时空预测的数据形式和问题定义。
首先,将海表温度的过去观测值表示为其中xτ表示一个时间片的海表温度数据,τ表示过去的时间片数,D表示填充缺失值后的海表温度数据的形状大小。
接下来的目标是给定过去τ个时间片的历史海表温度观测值x,预测未来的海表温度其中yi表示未来某个时间片的海表温度数据,T表示预测的时间片数。
步骤3.将步骤2得到的当前时刻海表温度观测值即xt,输入细粒度卷积长短期记忆(ST-GCFN)模型中,xt与隐藏状态Ht-1首先输入到细粒度上下文提取器(FGCE)模块中,它们同时经过通道空间注意力模块(CBAM)的处理,分别得到相应的通道空间注意力特征F″∈RC×H×w。
如图3所示详细介绍通道空间注意力模块(CBAM),CBAM包括两个不同的过程:
过程1:参考图1,提取输入特征图F∈RC×H×w的通道注意力特征(channelattention),其中C表示特征图的通道数,H表示特征图的高度,W表示特征图的宽度。具体来说,首先把输入特征图F从通道的角度分别进行平均池化(AvgPool)和最大池化(MaxPool)操作,生成两个具有不同类型的特征图,它们的形状均为RC×1×1;这两个不同类型的特征图经过一个共享的多层感知机(MLP)映射到一个更高维度的特征空间,并生成两个具备更强表达能力的新特征图;
然后,通过加法操作和激活函数的处理,实现了不同层次输出的逐元素相加,从而促进了信息的流动和梯度的传播,生成了通道注意力特征Mc。
最后,通过将输入特征图F与生成的通道注意力特征Mc进行残差连接,得到了最终的通道注意力特征F′∈RC×H×w。公式如下所示:
其中,给定一个具有两个不同卷积核的多层感知机(MLP),可以使用共享权重的方法来优化其性能。其中,σ代表sigmoid函数,MLP的权重包括两个卷积核W0和W1。ReLU激活函数将应用于w0之后。
过程2:如图2所示,利用过程1生成的通道注意力特征F′,从空间的角度进行平均池化(AvgPool)和最大池化(MaxPool)操作,生成了两个具有不同类型的特征图,它们的形状均为R1×W×H。然后,将这两个不同类型的特征图进行拼接,并经过卷积层的处理,以提取输入特征图中的局部特征和空间关系。最后,通过激活函数的作用,生成了空间注意力特征(spatial attention)MS。
最后,通过将输入特征图F′与生成的空间注意力特征Ms进行残差连接,得到了最终的通道空间注意力特征F″∈RC×H×w。通过这一通道空间注意力模块的设计,能够综合利用通道和空间的信息,并通过逐层融合和残差连接的方式提升特征的表达能力和预测性能,从而实现更准确的海表温度时空预测。
其中,σ表示sigmoid函数,而5×5则表示了卷积运算中滤波器的大小为5×5。卷积运算是一种重要的操作,它通过对输入数据应用滤波器的方式来提取特征。
整个注意力过程可以概括为:
其中,表示逐元素乘法,这是一种常见的操作,用于将注意力权重与特征图相乘,以加强或抑制特征图的某些部分。在乘法过程中,注意值会被广播,这意味着通道注意值会在空间维度上进行复制,反之亦然。这种操作有助于模型集中关注重要的空间区域或通道特征。F″被描述为最终的精炼输出。这可能表示F″是通过对特征图进行一系列操作和加权得到的最终表示。这个精炼输出可能是一个经过CBAM模块处理的特征图,它综合了通道注意力和空间注意力的信息,从而提高了海表温度时空预测的准确性和性能。
步骤4.如图4所示,为了提取时空变化的特征细节,并改善隐藏状态Ht-1与当前输入状态xt之间的隔离相关性,本发明将CBAM模块嵌入到细粒度上下文提取器(FGCE)中,并作用于隐藏状态Ht-1和当前输入状态xt,分别生成不同的注意力权重图AttH和Attx。AttH是基于隐藏状态Ht-1生成的注意力权重图,它反映了先前时间步的信息对当前预测的影响。
通过对Ht-1和Attx进行相乘,可以根据当前输入xt的趋势来鼓励上下文的Ht-1更新,即强制Ht-1启发细粒度的运动细节,同时削弱具有较低表达的可忽略部分。另一方面,通过对xt和AttH进行相乘,获得当前输入状态xt中对预测至关重要的特定区域,可以将过去的信息引入到时空预测中,从而提供对历史状态的相关性建模。
重复多次上述过程,以便模型能够同时考虑历史信息和当前特征,从而增强时空预测的性能,最终生成充满具有丰富时空特征的更新后的隐藏状态和输入状态/>
这种综合使用CBAM模块的方法,可以有效地改善时空预测任务中的特征提取和建模能力。通过捕捉时空变化的细节和调整上下文与当前输入之间的相关性,模型可以更好地理解海表温度的时空演变,并提取出最重要的特征。公式如下所示:
AttH=σ(CBAM(Ht-1))
Attx=σ(CBAM(xt))
其中,σ表示sigmoid激活函数,*表示Hadamard乘积。
步骤5.如图5所示,将步骤4生成充满时空变化细节的和/>分别经过卷积7×7的卷积操作,进一步提取它们的空间特征,并将所生成的空间特征进行拼接合并操作,获取海表温度数据的历史隐藏信息和此刻输入数据的重要特征的融合特征F。公式如下所示:
其中Conv表示卷积操作,表示不同特征的拼接融合。
重要特征指的是当前时刻输入数据xt经过卷积操作后提取的与海表温度预测任务密切相关且具有显著影响的空间特征,例如:海岸线和陆地效应、海流分布、季节变化、海洋环流模式等。这些特征在时空预测模型中起着关键作用,帮助捕捉海表温度的时空变化和趋势,从而提高模型的预测准确性和性能。通过拼接和合并历史隐藏信息与重要特征,模型能更好地理解和建模海表温度的时空演变,从而实现更准确的海表温度预测。
步骤6.沿着通道维度,对步骤5得到的融合特征F进行分割,分别形成遗忘门ft、输入门it、控制门gt和输出门ot。遗忘门ft控制了前一时刻的记忆单元Ct-1中哪些信息应该被遗忘。它接收前一时刻的隐藏状态Ht-1和当前时刻的输入xt作为输入,经过一个sigmoid激活函数,输出的值在0到1之间,表示每个记忆单元元素的保留程度。值为1的元素表示完全保留,值为0的元素表示完全遗忘。输入门it控制了当前时刻的输入xt和前一时刻的隐藏状态Ht-1对于记忆单元的更新的影响。它通过一个sigmoid激活函数决定应该更新哪些元素,并使用tanh激活函数计算一个候选记忆单元Ct。输入门的输出和候选记忆单元的元素逐元素相乘,以控制哪些信息会被写入记忆单元。控制门gt结合了输入门it的输出和候选记忆单元Ct,用于更新记忆单元Ct。它通过逐元素相加的方式将输入门的输出与候选记忆单元相乘的结果进行组合。控制门通过tanh激活函数将结果映射到-1到1的范围内,并将其与遗忘门的输出相乘,以控制记忆单元的更新。输出门Ot控制了当前时刻的隐藏状态Ht的哪些信息应该传递给下一个时间步或最终的输出。它接收前一时刻的隐藏状态Ht-1、当前时刻的输入xt和更新后的记忆单元Ct作为输入,经过sigmoid激活函数输出一个值在0到1之间的向量。通过将隐藏状态Ht与输出门的输出相乘,并经过tanh激活函数映射,得到最终的隐藏状态Ht。具体公式如下:
Ct=ft⊙Ct-1+it⊙gt
Ht=ot⊙tanh(Ct)
其中,it、ft、ot、gt、Ct和Ht分别表示输入门、遗忘门、输出门、控制门、细胞状态和隐藏状态。xt表示当前时刻的输入数据,Ht-1表示上一时刻的隐藏状态,W和U是输入和隐藏状态的权重矩阵,b是偏置向量。σ表示sigmoid函数,⊙表示逐元素相乘。*表示卷积运算符。
本发明的ST-GCFN模型结合了FGCE模块与卷积长短期记忆模型ConvLSTM。
隐藏状态Ht-1在ConvLSTM中扮演着重要角色,具有以下作用:
a.存储历史信息:Ht-1保存了之前所有时间步骤的关键信息,帮助ConvLSTM记忆过去的状态和模式,特别有助于理解历史海表温度的变化趋势和季节性;
b.建立时空依赖:Ht-1作为隐藏状态,与当前时间步t的输入特征图xt进行关联,从而建立时空依赖关系。这使得ConvLSTM能够在处理当前输入时,综合考虑前一个时间步骤的信息,更好地捕捉时空特征,适用于海表温度等时空序列预测问题。
步骤7.如图6所示,将步骤6提出的ST-GCFN模型嵌入RNN层,作为细胞单元。
首先,准备输入数据并构建循环神经网络RNN模型。
然后,将ST-GCFN模型作为RNN的细胞单元,用于捕捉时间序列数据中的时空关系和特征。连接网络并设置参数后,使用标记好的数据集进行模型训练。最后,使用训练好的模型对新的海表温度数据进行预测,得到输出的海表温度结果。
步骤8.定义损失函数:
根据任务类型和模型输出的特点,选择合适的损失函数,如均方误差(MeanSquared Error)或交叉熵损失(Cross-Entropy Loss)等。考虑是否需要添加正则化项来控制模型的复杂度。
步骤9.选择优化算法:
根据模型类型和数据集大小选择合适的优化算法,如随机梯度下降(SGD)、Adam、RMSProp等。调整学习率和其他超参数的初始值,以提高模型的收敛性和性能。
步骤10.训练模型:
将数据输入模型,并通过前向传播计算模型的输出。根据损失函数和模型输出计算损失值。通过反向传播计算梯度,并使用选择的优化算法来更新模型的参数。反复迭代上述步骤,直到达到预定的停止条件,如达到最大迭代次数或损失函数收敛。
步骤11.模型评估:
使用验证集或交叉验证来评估模型的性能。根据任务类型选择合适的评估指标,如准确率、均方误差、F1分数等。根据评估结果来调整模型超参数、损失函数或优化算法等,以进一步提升性能。
步骤12.模型测试和部署:
使用测试集对经过训练和评估的模型进行最终的性能测试。根据实际需求,将模型部署到生产环境中,可以是本地环境、服务器或云平台等。在部署时需要考虑模型的性能、可靠性和安全性等方面的问题。
总结:
步骤3引入了CBAM模块以增强特征提取和建模能力。具体而言,在海表温度预测任务中,CBAM模块可以提供重要的功能。通过在细粒度上下文提取器FGCE中嵌入CBAM模块,模型能够根据当前输入的趋势动态调整上下文的权重,并鼓励对当前重要特征的更敏感建模。这样,模型可以更好地捕捉到海表温度在不同区域和时间上的变化模式。另外,CBAM模块还能够通过将过去的信息引入时空预测中,提高对历史状态的相关性建模。在海表温度预测中,过去的温度分布和变化趋势对当前温度的预测有着重要影响。通过引入CBAM模块,模型可以自动学习并关注过去时间步的温度分布,并将其纳入综合建模,以更准确地预测未来的海表温度变化。
步骤4中FGCE模块通过细粒度的上下文建模和特定区域的注意力调整,能更好地理解和捕捉时空数据中的细微变化。通过将CBAM模块嵌入到细粒度上下文提取器FGCE中,该模块能够根据当前输入的趋势鼓励上下文的更新,并将过去的信息引入时空预测中,从而提高对历史状态的相关性建模。这种综合使用CBAM模块的方法可以有效改善时空预测任务的特征提取和建模能力,使得模型能够从海表温度数据中提取更多的细节和关键特征,而不仅仅是全局的趋势。通过细致地建模海域中不同区域的变化,模型可以更精确地预测未来海表温度的变化情况,为海洋气象、海洋生态和自然灾害预警等领域提供更准确的预测和决策依据。
综上所述,通过在细粒度上下文提取器FGCE中嵌入CBAM模块,可以实现对海表温度时空变化特征的精细提取。与传统方法相比,这种综合使用CBAM模块的方法不仅能够增强特征提取和建模能力,还能更好地捕捉海表温度数据中的细微变化,为海表温度预测任务带来更准确和可靠的结果。
步骤3引入了CBAM模块,以增强海表温度预测中的特征提取和建模能力。
在步骤5和6中,ST-GCFN模块将细粒度上下文提取器(FGCE)与ConvLSTM相结合,以更好地捕捉海表温度数据的时空关系和特征。FGCE模块的引入使得模型能够在细致的层次上提取时空变化的特征细节,并有效地调整上下文与当前输入之间的相关性。这种结合能够更好地理解海表温度数据的演变过程,并从中提取重要的特征。
进一步地,ST-GCFN模块通过引入CBAM模块进一步增强了海表温度预测的能力。
CBAM模块通过生成注意力权重图,使模型能够根据当前输入的趋势鼓励隐藏状态的更新,同时削弱可以忽略的部分。这样的机制有效地将当前时刻的关键信息与历史信息结合,提供对历史状态的相关性建模。CBAM模块的综合应用,极大地改善了海表温度预测任务中的特征提取和建模能力,使模型更好地理解海表温度数据的变化趋势。
最后,在步骤7中,ST-GCFN模块通过将循环神经网络RNN层作为细胞单元,构建了完整的时空数据建模网络。这个连接结构使得模型能够在训练阶段捕捉海表温度数据的时空关系和特征,并在测试阶段对新的数据进行准确的预测。通过选择合适的损失函数和优化算法,模型能够有效地进行训练和优化,进一步提升性能和泛化能力。
综上所述,ST-GCFN模块在海表温度预测中具有独特性、创新性和优越性。通过细粒度上下文提取、注意力调整和深度学习网络的连接,该模块能够全面建模海表温度数据的时空关系和特征。它为海表温度预测任务带来显著的改进,提高了预测准确性和对海表温度变化的理解能力。
结合图7,对本发明实施例预测模型构建、以及海表温度预测方法的步骤进行说明:
步骤101.为了满足需求,可以将连续的海表温度数据按时间顺序组织成训练数据集,包括样本数据和标签数据。在进行训练之前,需要对不规则的数据进行数值填充和归一化处理,以确保数据的完整性和可比性。
步骤102.根据步骤1至步骤6的要求,使用Python编程语言构建了CBAM模型、FGCE模型和ST-GCFN模型。模型的开发过程中采用了Pytorch框架。
步骤103.选择适当的损失函数,例如均方误差(MSE)或交叉熵损失(Cross-Entropy Loss),用于评估海表温度预测值和观测值之间的偏差程度,从而衡量当前模型的准确度。本发明所有损失函数如下:
其中,f(Xi)j代表模型对于第i个样本在第j天的海温的预测值,而Yi,j代表第i个样本在目标值中第j天的观测到的海温值。
步骤104.选择合适的优化函数,如随机梯度下降,动量优化,自适应学习率优化算法等。帮助模型收敛至最优解或近似最优解,并处理复杂问题,以快速而有效地搜索参数空间并找到较好的解。
步骤105.通过在训练数据上进行多次前向传播和反向传播的迭代过程,模型能够根据训练数据中的模式和规律自动调整其参数。这种迭代过程提高了模型对新数据的泛化能力,使其能够对输入数据进行准确的预测。
步骤106.在步骤105中,完成对所有训练数据的每个训练轮次后,使用验证集对训练得到的模型进行验证,以评估其预测精度是否较好。如果模型表现出卓越的性能,则直接进入步骤109进行评估。然而,如果模型的性能不佳,则需要考虑改进模型。在这种情况下,直接进入步骤108进行模型改进。相反,如果不需要进一步改进,则进入步骤107。
步骤107.为了找到最佳的参数组合,以提高模型性能。常见的超参数包括学习率、批量大小、迭代次数、正则化参数以及神经网络的层数和节点数。合适的超参数选择可以加快模型的收敛速度、提高泛化能力和防止过拟合。步骤107后,继续进行步骤105操作。
步骤108.通过调整网络结构、参数、激活函数、正则化技术、数据增强和优化算法等方式,提升深度学习模型的性能。这个迭代过程中,尝试不同方法和技术,并通过评估指标来衡量效果。进入步骤102,重新进行模型构建,改变结构、调整参数、选择适当的激活函数、应用正则化、数据增强和优化算法,提高泛化能力和鲁棒性,提高实际应用效果。
步骤109.除了考虑模型准确度外,还需要评估模型的时间复杂度和空间复杂度。时间复杂度关注模型推理和训练所需的计算资源,包括推理速度和训练时间。空间复杂度关注模型在内存或存储器中的占用空间,包括模型大小和内存占用。综合考虑时间复杂度和空间复杂度有助于评估模型的效率和可扩展性,以选择适合特定应用场景的模型。
以上所描述的实施例仅仅是本发明的一种优选方案,不对本发明进行任何形式的限制。在不超出权利要求所记载的技术方案的前提下,还可以存在其他的变体和改型。这些变体和改型仍然属于本发明的范围内。
Claims (3)
1.一种融合时空粒度上下文神经网络的海表温度预测方法,其特征是首先,在循环神经网络RNN模型中将细粒度卷积长短期记忆ST-GCFN模型作为RNN的细胞单元,构成预测模型;然后,训练预测模型;最后,用训练好的模型把新的海表温度数据作为模型的输入,模型的输出即为预测的海表温度;
海表温度数据在ST-GCFN模型中的处理步骤包括:
1)将的当前时刻海表温度观测值xt输入ST-GCFN模型中;ST-GCFN模型结合了FGCE模块与卷积长短期记忆模型ConvLSTM;
2)xt与前一时刻的隐藏状态Ht-1输入到细粒度上下文提取器FGCE模块中,经处理分别得到充满时空变化细节的和和/>
3)将和/>分别经过卷积操作,进一步提取它们各自的空间特征,并将所生成的空间特征进行拼接合并操作,获取海表温度数据的历史隐藏信息和此刻输入数据的重要特征的融合特征;
4)沿着通道维度,对步骤3)得到的融合特征进行分割,分别形成遗忘门ft、输入门it、控制门gt和输出门ot;
遗忘门ft控制了前一时刻的记忆单元Ct-1中哪些信息应该被遗忘;遗忘门接收前一时刻的隐藏状态Ht-1和当前时刻的输入xt作为输入,经过一个sigmoid激活函数,输出的值在0到1之间,表示每个记忆单元元素的保留程度,值为1的元素表示完全保留,值为0的元素表示完全遗忘;
输入门it控制了当前时刻的输入xt和前一时刻的隐藏状态Ht-1对于记忆单元的更新的影响;输入门通过一个sigmoid激活函数决定应该更新哪些元素,并使用tanh激活函数计算一个候选记忆单元Ct;输入门的输出和候选记忆单元的元素逐元素相乘,以控制哪些信息会被写入记忆单元;
控制门gt结合了输入门it的输出和候选记忆单元Ct,用于更新记忆单元Ct;控制门通过逐元素相加的方式将输入门的输出与候选记忆单元相乘的结果进行组合;控制门通过tanh激活函数将结果映射到-1到1的范围内,并将其与遗忘门的输出相乘,以控制记忆单元的更新;
输出门Ot控制了当前时刻的隐藏状态Ht的哪些信息应该传递给下一个时间步或最终的输出;输出门接收前一时刻的隐藏状态Ht-1、当前时刻的输入xt和更新后的记忆单元Ct作为输入,经过sigmoid激活函数输出一个值在0到1之间的向量;通过将隐藏状态Ht与输出门的输出相乘,并经过tanh激活函数映射,得到最终的隐藏状态Ht;
步骤2)中,FGCE模块嵌有CBAM模块,在FGCE模块中:
首先,由CBAM模块对隐藏状态Ht-1和当前输入xt分别处理,得到不同的注意力权重图AttH和Attx;
接着,对Ht-1和Attx进行相乘,用于根据当前输入xt的趋势来鼓励上下文的Ht-1更新;过对xt和AttH进行相乘,用于获得当前输入xt中对预测至关重要的特定区域;
最后,重复多次上述过程,最终生成充满时空变化细节的和/>
AttH是基于隐藏状态Ht-1生成的注意力权重图,它反映了先前时间步的信息对当前预测的影响;
所述CBAM模块对任一输入的处理包括2个过程:
第一个过程是提取输入特征图F∈RC×H×w的通道注意力特征,其中C表示特征图的通道数,H表示特征图的高度,W表示特征图的宽度,步骤包括:
首先,把输入特征图F从通道的角度分别进行平均池化AvgPool和最大池化MaxPool操作,生成两个具有不同类型的特征图,它们的形状均为RC×1×1;这两个特征图经过一个共享的多层感知机MLP映射到一个高维度的特征空间,并生成两个新特征图;
然后,两个新特征图通过加法操作和激活函数的处理,实现不同层次输出的逐元素相加,生成了通道注意力特征Mc;
最后,将输入特征图F与通道注意力特征Mc进行残差连接,得到了最终的通道注意力特征F′∈RC×H×w;
第二个过程是利用通道注意力特征F′得到通道空间注意力特征,步骤包括:
首先,把通道注意力特征F′从空间的角度进行平均池化AvgPool和最大池化MaxPool操作,生成了两个具有不同类型的特征图,它们的形状均为R1×W×H;
然后,将这两个特征图进行拼接,并经过卷积层的处理,提取输入特征图中的局部特征和空间关系;
接着,通过激活函数,生成了空间注意力特征Ms;
最后,将输入特征图F′与空间注意力特征Ms进行残差连接,得到了最终的通道空间注意力特征F″∈RC×H×w。
2.根据权利要求1所述的融合时空粒度上下文神经网络的海表温度预测方法,其特征是在训练预测模型时候,先对用于训练的海表温度数据进行数值填充和归一化处理;
在数值填充时候,采用插值方法或者采用预测模型进行预测方法进行填充,以获得完整的海表温度数据;
在归一化处理时候,将海表温度数据的值范围映射到[-1,1]之间。
3.根据权利要求1所述的融合时空粒度上下文神经网络的海表温度预测方法,其特征是在预测模型训练和预测之前:
将海表温度的过去观测值表示为其中xτ表示一个时间片的海表温度数据,τ表示过去的时间片数,D表示填充缺失值后的海表温度数据的形状大小;
给定过去τ个时间片的历史海表温度观测值X,预测未来的海表温度其中yi表示未来某个时间片的海表温度数据,T表示预测的时间片数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310990552.0A CN117172355A (zh) | 2023-08-08 | 2023-08-08 | 融合时空粒度上下文神经网络的海表温度预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310990552.0A CN117172355A (zh) | 2023-08-08 | 2023-08-08 | 融合时空粒度上下文神经网络的海表温度预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117172355A true CN117172355A (zh) | 2023-12-05 |
Family
ID=88940300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310990552.0A Pending CN117172355A (zh) | 2023-08-08 | 2023-08-08 | 融合时空粒度上下文神经网络的海表温度预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117172355A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117633712A (zh) * | 2024-01-24 | 2024-03-01 | 国家卫星海洋应用中心 | 一种基于多源数据的海表高度数据融合方法、装置及设备 |
-
2023
- 2023-08-08 CN CN202310990552.0A patent/CN117172355A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117633712A (zh) * | 2024-01-24 | 2024-03-01 | 国家卫星海洋应用中心 | 一种基于多源数据的海表高度数据融合方法、装置及设备 |
CN117633712B (zh) * | 2024-01-24 | 2024-04-19 | 国家卫星海洋应用中心 | 一种基于多源数据的海表高度数据融合方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Basha et al. | Rainfall prediction using machine learning & deep learning techniques | |
Alaloul et al. | Data processing using artificial neural networks | |
CN110321603A (zh) | 一种用于航空发动机气路故障诊断的深度计算模型 | |
CN112668804A (zh) | 一种地波雷达船只断裂航迹预测方法 | |
CN115545334B (zh) | 土地利用类型预测方法、装置、电子设备及存储介质 | |
CN117172355A (zh) | 融合时空粒度上下文神经网络的海表温度预测方法 | |
Jha et al. | Extracting low‐dimensional psychological representations from convolutional neural networks | |
CN115018193A (zh) | 基于lstm-ga模型的时间序列风能数据预测方法 | |
Vatanchi et al. | A comparative study on forecasting of long-term daily streamflow using ANN, ANFIS, BiLSTM and CNN-GRU-LSTM | |
CN114004383A (zh) | 时间序列预测模型的训练方法、时间序列预测方法及装置 | |
Regazzoni et al. | A physics-informed multi-fidelity approach for the estimation of differential equations parameters in low-data or large-noise regimes | |
CN115062779A (zh) | 基于动态知识图谱的事件预测方法及装置 | |
Ibarra et al. | Deep learning for predicting the thermomechanical behavior of shape memory polymers | |
KR102489473B1 (ko) | 인공 지능 모델을 이용한 기후 지수 예측 결과에 대한 불확실성과 기여도를 제공하는 기후 지수 예측 방법 및 시스템 | |
Cheraghi et al. | An adaptive artificial neural network for reliability analyses of complex engineering systems | |
El-Shafie et al. | Generalized versus non-generalized neural network model for multi-lead inflow forecasting at Aswan High Dam | |
CN115545159A (zh) | 一种深度神经网络的平均海表面温度预报方法 | |
CN116805384A (zh) | 自动搜索方法、自动搜索的性能预测模型训练方法及装置 | |
CN115204463A (zh) | 一种基于多注意力机制的剩余使用寿命不确定性预测方法 | |
Leke et al. | Missing data estimation using ant-lion optimizer algorithm | |
Harba | Hybrid Approach of Prediction Daily Maximum and Minimum Air Temperature for Baghdad City by Used Artificial Neural Network and Simulated Annealing | |
Gul | Detection of non-technical losses using sampling techniques and advance machine learning techniques to secure smart meters | |
CN117851802A (zh) | 一种水质预测方法、装置及计算机可读存储介质 | |
Yoshikawa et al. | Explanation-Based Training with Differentiable Insertion/Deletion Metric-Aware Regularizers | |
Prathipati | Physics-Informed Deep Learning For Prediction of CO2 Storage Site Response |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |