CN117421562A

CN117421562A - 海洋溶解氧含量时空分布预测方法、系统、介质及设备

Info

Publication number: CN117421562A
Application number: CN202311737895.2A
Authority: CN
Inventors: 周青鑫; 戚劲; 吴森森; 王敏钰; 毛怡睿
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-12-18
Filing date: 2023-12-18
Publication date: 2024-01-19
Anticipated expiration: 2043-12-18
Also published as: CN117421562B

Abstract

本发明公开了一种海洋溶解氧含量时空分布预测方法、系统、介质及设备，属于人工智能领域。该方法通过时空离散化，形成一系列时空坐标点并匹配得到每个时空坐标点的样本点，然后训练一个由时空距离神经网络、时空加权神经网络和回归模型级联而成的溶解氧含量预测模型来反演海洋溶解氧含量时空分布。本发明顾及解算时空非线性距离过程面临的海洋环境复杂特性，充分考虑了海洋溶解氧含量及其环境因子间的复杂非线性特征和时空非平稳特性，可通过模型求解各环境因子的回归参数，获取溶解氧与环境因子在不同时空位置上的相关关系，量化各因子对溶解氧含量的具体影响分布，并预测海洋溶解氧含量的时空分布。

Description

海洋溶解氧含量时空分布预测方法、系统、介质及设备

技术领域

本发明属于人工智能领域，具体涉及一种海洋溶解氧含量时空分布预测方法、系统、介质及设备。

背景技术

溶解氧（Dissolved Oxygen，DO）是海洋学的一个基本参数，其含量是衡量海水水质的重要指标之一，是控制海洋生态系统的关键要素。近半个世纪以来，由于海洋变暖与营养物污染等原因，全球海洋溶解氧含量下降了超过2%，其中，北太平洋和赤道太平洋的氧气减少幅度最大。溶解氧含量的下降是海洋中发生的最重要的变化之一，海洋脱氧会导致海洋生产力、生物多样性以及生物地球化学循环的重大变化。目前，学界普遍认为海水温度能够对海洋溶解氧的含量产生直接影响，而温度、盐度、营养盐等常见海洋要素对溶解氧含量的具体影响及其时空分布仍是未知的。如何准确地获取不同时空条件下海洋溶解氧含量与相关环境因子的复杂时空关系，并预测溶解氧的时空分布，探究海洋溶解氧的变化机理具有重要意义。

近年来，考虑到海洋溶解氧及其环境因子之间的复杂非线性关系，已有不少研究将深度学习方法应用于溶解氧的反演及其影响因素分析。这些研究大多使用各类黑盒式神经网络预测溶解氧含量，即利用输入参数直接获得输出参数。虽然相较于数值模拟等方法，这类方法在建模过程具有一定优势，但通常难以量化不同时空背景下溶解氧与环境因子间的复杂时空关系。

此外，现有的深度学习方法大多关注于数据本身，其性能在很大程度上受限于训练数据的质量和数量，较少考虑到时空非平稳问题，而由于海洋环境的复杂多变，时空非平稳特性普遍存在于溶解氧的建模过程中。另外，大多数模型在衡量样本点间的空间邻近关系时，往往只考虑欧式空间距离，而在海洋背景下，洋流作用会改变海水之间的物质交换，进而影响溶解氧的时空分布，传统的欧氏空间距离忽略了溶解氧在地理空间中变化过程的各向异性特征，可能面临不足以充分表征样本点间空间邻近关系的问题。因此，有必要在获取溶解氧含量与环境因子的关系以及预测溶解氧含量过程中顾及数据的时空背景，以妥善解决建模过程中的时空非平稳问题与空间邻近关系表达不充分问题。

发明内容

本发明的目的是克服现有技术中海洋溶解氧含量时空分布难以准确预测的问题，并提供一种海洋溶解氧含量时空分布预测方法。

为实现本发明目的，本发明具体提供的技术方案如下：

第一方面，本发明提供了一种海洋溶解氧含量时空分布预测方法，其包括：

S1、将目标海洋区域由海平面和深度方向构成的三维空间进行离散化，形成一系列子空间体；以子空间体为空间维度，以季节为时间维度，构建形成数量为子空间体数量4倍的时空坐标点；将每个时空坐标点在目标海洋区域的监测数据集中进行时空匹配，获得一个空间和时间均匹配的样本点，进而构建样本点集合；每个样本点中包含溶解氧含量、环境因子以及时空特征信息，所述环境因子包含温度、盐度、硝酸盐含量、磷酸盐含量和硅酸盐含量，所述时空特征信息包含所处季节、子空间体的经纬度坐标、子空间体的深度、子空间体的洋流在东西方向的流速以及在南北方向的流速；

S2、利用所述样本点集合作为训练数据，以输入样本点与所述样本点集合中每个样本点之间的时间距离、水平空间距离、垂直空间距离、洋流流向距离和洋流流速距离作为第一模型输入，以输入样本点的环境因子作为第二模型输入，以输入样本点的溶解氧含量为监督标签，训练一个由时空距离神经网络、时空加权神经网络和回归模型级联而成的溶解氧含量预测模型；所述溶解氧含量预测模型中，先由时空距离神经网络基于所述第一模型输入得到输入样本点与各时空坐标点之间的时空非线性距离，再由时空加权神经网络基于所述时空非线性距离得到输入样本点对应的时空权重，最后通过所述回归模型以输入样本点对应的时空权重对第二模型输入中的环境因子进行加权回归，得到输入样本点的溶解氧含量；

S3、在实际预测时，获取待预测时空坐标点的时空特征信息以及环境因子，然后分别构造成第一模型输入和第二模型输入，通过所述溶解氧含量预测模型预测得到待预测时空坐标点的溶解氧含量。

作为上述第一方面的优选，所述时空坐标点匹配到的样本点中，溶解氧含量和环境因子均取时空匹配到的监测数据的均值，而所述时空特征信息中的空间信息均按照子空间体中的中心确定。

作为上述第一方面的优选，所述时空特征信息中包含的季节信息，需要采用连续递增的不同整数分别表征冬、春、夏、秋四个季节。

作为上述第一方面的优选，所述第一模型输入中，两个样本点之间的时间距离为这两个样本点的季节整数表征值之差；两个样本点之间的水平空间距离为这两个样本点的经纬度坐标之间的欧氏距离；两个样本点之间的垂直空间距离为这两个样本点的深度之差；两个样本点之间的洋流流向距离为，其中/>为这两个样本点的洋流流向之差，/>为求余函数；两个样本点之间的洋流流速距离为这两个样本点的洋流流速向量模长之差；每个样本点的洋流流向和洋流流速向量模长均通过洋流在东西方向和南北方向的流速计算得到。

作为上述第一方面的优选，所述时空距离神经网络和时空加权神经网络均采用全连接神经网络。

作为上述第一方面的优选，所述回归模型采用线性加权回归模型，其因变量为溶解氧含量，自变量为所述环境因子中的温度、盐度、硝酸盐含量、磷酸盐含量和硅酸盐含量；且每个时空坐标点的线性加权回归模型各自具有独立的回归系数，所述时空加权神经网络针对该时空坐标点输出的时空权重包含6个权值，分别用于修正线性加权回归模型中5个自变量和1个误差项的原始回归系数；不同时空坐标点的线性加权回归模型中原始回归系数相同，均以所述样本点集合为拟合数据通过拟合算法优化得到。

作为上述第一方面的优选，所述拟合算法采用最小二乘法。

第二方面，本发明提供了一种海洋溶解氧含量时空分布预测系统，其包括：

样本点构建模块，用于将目标海洋区域由海平面和深度方向构成的三维空间进行离散化，形成一系列子空间体；以子空间体为空间维度，以季节为时间维度，构建形成数量为子空间体数量4倍的时空坐标点；将每个时空坐标点在目标海洋区域的监测数据集中进行时空匹配，获得一个空间和时间均匹配的样本点，进而构建样本点集合；每个样本点中包含溶解氧含量、环境因子以及时空特征信息，所述环境因子包含温度、盐度、硝酸盐含量、磷酸盐含量和硅酸盐含量，所述时空特征信息包含所处季节、子空间体的经纬度坐标、子空间体的深度、子空间体的洋流在东西方向的流速以及在南北方向的流速；

预测模型训练模块，用于利用所述样本点集合作为训练数据，以输入样本点与所述样本点集合中每个样本点之间的时间距离、水平空间距离、垂直空间距离、洋流流向距离和洋流流速距离作为第一模型输入，以输入样本点的环境因子作为第二模型输入，以输入样本点的溶解氧含量为监督标签，训练一个由时空距离神经网络、时空加权神经网络和回归模型级联而成的溶解氧含量预测模型；所述溶解氧含量预测模型中，先由时空距离神经网络基于所述第一模型输入得到输入样本点与各时空坐标点之间的时空非线性距离，再由时空加权神经网络基于所述时空非线性距离得到输入样本点对应的时空权重，最后通过所述回归模型以输入样本点对应的时空权重对第二模型输入中的环境因子进行加权回归，得到输入样本点的溶解氧含量；

溶解氧含量预测模块，用于在实际预测时，获取待预测时空坐标点的时空特征信息以及环境因子，然后分别构造成第一模型输入和第二模型输入，通过所述溶解氧含量预测模型预测得到待预测时空坐标点的溶解氧含量。

第三方面，本发明提供了一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如上述第一方面任一方案所述的海洋溶解氧含量时空分布预测方法。

第四方面，本发明提供了一种计算机电子设备，其包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如上述第一方面任一方案所述的海洋溶解氧含量时空分布预测方法。

相对于现有技术而言，本发明具有以下有益效果：

本发明针对现有深度学习方法难以量化海洋溶解氧含量与相关环境因子的复杂时空关系，建模过程没有顾及时空非平稳特性且空间邻近关系表达不充分的问题，通过时空距离神经网络融合时间距离、水平空间距离、垂直空间距离、洋流流向距离和流速距离以解算时空非线性距离，使用时空加权神经网络解算时空权重，将神经网络与地理时空加权回归模型结合，构建了顾及时空距离与时空权重的神经网络回归模型，充分表征样本点间的空间邻近关系，并顾及了海洋溶解氧含量及其环境因子间的复杂非线性特征和时空非平稳特性，通过模型求解各环境因子的回归参数，获取溶解氧与环境因子间的复杂时空关系，量化各因子对溶解氧含量的具体影响，并反演不同时空条件下的溶解氧含量。本发明可获取溶解氧含量与环境因子间的时空关系，预测溶解氧含量的时空分布，且由于充分表达了空间邻近关系，考虑了复杂非线性特征和时空非平稳特性，求解精度较高，对海洋脱氧机制探究具有重要意义。

附图说明

图1为本发明中海洋溶解氧含量时空分布预测方法的步骤示意图；

图2为本发明采用的溶解氧含量预测模型的网络结构以及训练方式示意图；

图3为本发明中海洋溶解氧含量时空分布预测系统的模块组成图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下，均可进行相应组合。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于区分描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。

如图1所示，在本发明的一个较佳实施例中，针对现有深度学习方法难以量化不同时空背景下溶解氧与各环境因子的复杂时空关系，没有顾及时空非平稳特性且空间邻近关系表达不充分的问题，提出了一种海洋溶解氧含量时空分布预测方法，其包括以下S1 ~ S3步骤，该方法通过建模可以对于目标海洋区域任意一个位点进行溶解氧含量预测，由此基于环境因子数据实现整个海区任意位置和深度的溶解氧含量预测。下面对S1 ~ S3步骤的具体实现方式进行详细展开描述。

S1、将目标海洋区域由海平面和深度方向构成的三维空间进行离散化，形成一系列子空间体；以子空间体为空间维度，以季节为时间维度，构建形成数量为子空间体数量4倍的时空坐标点；将每个时空坐标点在目标海洋区域的监测数据集中进行时空匹配，获得一个空间和时间均匹配的样本点，进而构建样本点集合；每个样本点中包含溶解氧含量、环境因子以及时空特征信息，所述环境因子包含温度、盐度、硝酸盐含量、磷酸盐含量和硅酸盐含量，所述时空特征信息包含所处季节、子空间体的经纬度坐标、子空间体的深度、子空间体的洋流在东西方向的流速以及在南北方向的流速。

需要说明的是，目标海洋区域的具体范围需要根据实际的预测需求而定，对此不做限制。目标海洋区域考虑海平面的经纬度和深度方向，可以视为一个三维空间。这个三维空间需要按照经度、纬度、深度三个维度进行划分，进而将整体三维空间分割为一系列的子空间体，每个子空间体内部溶解氧与各环境因子的时空关系可以视为相对固定，但还存在时间上的异质性。基于海洋中的溶解氧产生机制，时间维度上的粒度划分可以主要考虑季节，而不需要考虑过细的粒度。因此本发明划分子空间体后，需要以子空间体作为空间维度，而以春、夏、秋、冬四个季节作为时间维度，进而使得每个子空间体分别形成四个时空坐标点，最终形成数量为子空间体数量4倍的时空坐标点集合。时空坐标点集合中的每个时空坐标点，对应了一个子空间体和一个季节，且任意两个不同时空坐标点对应的子空间体和季节组合不完全相同。由此，即可完成整个预测空间的时空离散化。

而对于时空离散化之后的时空坐标点，可以分别通过建模来确定每个时空坐标点位置的环境因子与溶解氧含量之间的关系。建模所需的样本可从目标海洋区域的监测数据集中获取，本发明所需的监测数据集是指针对目标海洋区域进行环境要素监测形成的数据，具体形式不限。每个时空坐标点需要通过时空匹配获取到一个样本点，此处的时空匹配需要保证样本点中数据的时间和空间均与时空坐标点对应的时间和空间匹配。例如，某个空间维度坐标为、时间维度坐标为/>的时空坐标点/>，空间维度坐标/>对应于子空间体的索引，而时间维度坐标/>对应于季节，其需要从目标海洋区域的监测数据集中找到位于该子空间体中且在相应季节采集的监测数据条目，进而构建为样本点。

每个样本点中通过匹配获取的信息维度分为三类，分别是溶解氧含量、环境因子以及时空特征信息，所有信息的空间和时间维度均需要与时空坐标点匹配。其中，溶解氧含量是后续建模过程中的预测目标，环境因子则是建模时的自变量因素，时空特征信息需要用来确定对应的时空坐标点进而确定相应的修正系数。时空特征信息可以分为时间特征信息和空间特征信息，时间特征信息为所处季节，而空间特征信息包括子空间体的经纬度坐标、子空间体的深度、子空间体的洋流在东西方向的流速以及在南北方向的流速。

特别需要说明的是，为了便于模型输入，上述时空特征信息中包含的季节信息，需要采用连续递增的不同整数分别表征冬、春、夏、秋四个季节，例如可以用13、14、15、16来分别作为冬、春、夏、秋四个季节输入模型时的表征值。而子空间体的洋流在东西方向的流速、在南北方向的流速，均需要指定一个方向为正方向，通过正负来表示流速朝东还是朝西、朝南还是朝北。

另外，在本发明的实施例中，由于前述时空匹配过程中同一时空坐标点处可能匹配到一系列的监测数据条目，但最终一个时空坐标点仅对应于一个样本点，因此需要将匹配到的所有监测数据条目映射为一个样本点。因此，时空坐标点匹配到的样本点中，溶解氧含量和环境因子均取时空匹配到的监测数据条目的均值，而时空特征信息中的空间信息均按照子空间体中的中心确定。具体而言，如果某一子空间体中某一季节同时采集了多条监测数据条目，那么可以将其中的溶解氧含量进行平均，同时将环境因子中的每个要素也进行平均，平均值分别记录至样本点中。另外，这些多条监测数据条目可能来源于不同的深度，因此可以直接按照子空间体中的中心来确定样本点的空间信息，即空间特征信息中子空间体的经纬度坐标、子空间体的深度、子空间体的洋流在东西方向的流速以及在南北方向的流速，均是以子空间体的中心点作为基准进行确定的。

另外，原始数据在进行匹配之前，最好预先进行清洗。作为本发明实施例的一种具体实现方式，上述步骤S1中，数据的清洗、匹配的方法具体如下：

S11、对原始海洋监测数据（包含所需的环境要素和洋流）中存在属性值缺失的记录进行剔除，完成对原始海洋监测数据的清洗，形成第一数据集。数据清洗是为了剔除原始数据中的脏数据，以确保数据的质量和准确性。原始数据的每一个样本都需要包含样本采样时间、经度坐标、纬度坐标、深度、东西方向洋流流速、南北方向洋流流速、所属类别的属性值等信息，任何字段的数据缺失都应被视为需要清洗的脏数据。

S12、将第一数据集的监测时间特征转换为整数，分别以连续递增的不同整数表示冬、春、夏、秋四个季节，形成第二数据集。将时间特征转换为整数出于两方面考虑，一是将字符串格式的时间特征转换为整数后更便于量化样本间的时间距离，进而提高模型的计算效率；二是由于数据集的时间跨度往往较长，而溶解氧及其相关环境要素随时间变化过程中很可能存在周期性，在不同周期的同一阶段的属性值可能更为相似，如溶解氧、温度、盐度等参数在不同季节可能产生较大差异，而在不同年份的同一季节差异相对较小，将时间特征转换为连续递增的整数可以缩小不同年份相同季节的样本之间的时间距离，更符合海洋环境的客观规律。

S13、由于原始数据可能分散在多张表中，因此需要根据数据的时间特征和空间特征对第二数据集的数据表进行整合，将第二数据集中不同时间的数据表合并为一张表，形成第三数据集。

S14、根据预测任务对应的时间范围和目标海区的空间范围，筛选出第三数据集中对应时空范围内的数据，形成第四数据集。时间范围可以包括多个年份的多个季节，目标海区的空间范围包括经纬度范围和深度范围。

S15、将第四数据集按照前述划分的时空坐标点进行时空匹配，查找子空间体的中心点的位置（经纬度和深度），以及子空间体内部不同季节的监测数据条目，计算每个季节查找到的监测数据条目中所需的6个变量（其中1个变量为溶解氧含量，另外5个变量为环境因子）的平均值，并以此作为样本点中的信息，每个子空间体在四个季节分别形成不同的样本点，进而构成样本点集合。

需要说明的是，样本在时间、经度、纬度、深度四个维度上的尺度很可能是不同的，由于溶解氧与环境因子的时空关系建模过程中存在时空非平稳性，空间范围的划分应顾及目标样本分布的均匀性与样本数量的合理性，特征样本数据集的样本点应当尽量均匀地覆盖目标海区，且在计算效率允许范围内，样本量不应过少。

由此，经过上述S1步骤，可以获得整个目标海洋区域不同深度不同季节的样本点，这些样本点组成样本点集合，可作为特征样本用于后续的时空建模。

下面将通过S2步骤对具体的时空建模方式进行详细描述。

S2、利用所述样本点集合作为训练数据，以输入样本点与所述样本点集合中每个样本点之间的时间距离、水平空间距离、垂直空间距离、洋流流向距离和洋流流速距离作为第一模型输入，以输入样本点的环境因子作为第二模型输入，以输入样本点的溶解氧含量为监督标签，训练一个由时空距离神经网络（Spatial and Temporal Distance NeuralNetwork，STDNN）、时空加权神经网络（Spatial and Temporal Weighted Neural Network，STWNN）和回归模型级联而成的溶解氧含量预测模型；所述溶解氧含量预测模型中，先由时空距离神经网络基于所述第一模型输入得到输入样本点与各时空坐标点之间的时空非线性距离，再由时空加权神经网络基于所述时空非线性距离得到输入样本点对应的时空权重，最后通过所述回归模型以输入样本点对应的时空权重对第二模型输入中的环境因子进行加权回归，得到输入样本点的溶解氧含量。

在本发明的实施例中，如图2所示，展示了上述溶解氧含量预测模型的网络结构以及训练方式。整个模型由时空距离神经网络、时空加权神经网络和回归模型依次级联。为了便于描述，记样本点集合中样本点数量为n，对应于时空坐标点的数量也为n，将每个样本点的时空特征信息中时间特征信息记为T，经纬度、深度相关的空间信息记为S，洋流的相关信息记为C。因此，这n个样本点中的信息作为溶解氧含量预测模型的基本特征信息，而溶解氧含量预测模型对于任意一个样本点的溶解氧含量预测均需要基于这n个样本点中的信息来进行辅助，通过计算与这n个样本点的时空距离来生成时空权重，进而用时空权重来修正回归模型中的系数。

为了便于描述，将训练过程中溶解氧含量预测模型当前执行预测的样本点称为输入样本点，训练过程中的输入样本点实际上是从样本点集合中的n个样本点中采样得到的，但后续模型训练完毕推理的过程中输入样本点不一定来源于这n个样本点，可以是任意时空坐标点。对于输入样本点而言，其在溶解氧含量预测模型中的输入需要包含两部分，第一部分是输入样本点与前述样本点集合中每个样本点之间的时间距离、水平空间距离、垂直空间距离、洋流流向距离和洋流流速距离，可记为第一模型输入，第二部分是输入样本点的环境因子，可记为第二模型输入，另外训练过程中还需要以输入样本点的溶解氧含量为监督标签。在上述第一模型输入中，两个样本点之间的时间距离为这两个样本点的季节整数表征值之差；两个样本点之间的水平空间距离为这两个样本点的经纬度坐标之间的欧氏距离；两个样本点之间的垂直空间距离为这两个样本点的深度之差；两个样本点之间的洋流流向距离为，其中/>为这两个样本点的洋流流向之差，为求余函数；两个样本点之间的洋流流速距离为这两个样本点的洋流流速向量模长之差；每个样本点的洋流流向和洋流流速向量模长均通过洋流在东西方向和南北方向的流速计算得到。

在本发明的实施例中，上述溶解氧含量预测模型内的时空距离神经网络和时空加权神经网络均可以采用全连接神经网络，全连接神经网络包含输入层、隐藏层和输出层，隐藏层的数量可以根据实际进行优化调整。时空距离神经网络的输入为前述第一模型输入，输出作为时空加权神经网络的输入，时空加权神经网络的输出作为后续回归模型的输入，同时回归模型还需要以前述第二模型输入作为另一部输入，其输出即为输入样本点的溶解氧含量，由于输入样本点与时空坐标点是完全一一对应的，因此本质上输出即为时空坐标点的溶解氧含量。回归模型可采用线性加权回归模型，其因变量为溶解氧含量，自变量为前述环境因子中的温度、盐度、硝酸盐含量、磷酸盐含量和硅酸盐含量。且每个时空坐标点的线性加权回归模型各自具有独立的回归系数，每个时空坐标点的回归系数中包含6个系数维度，分别对应于5个自变量（温度、盐度、硝酸盐含量、磷酸盐含量和硅酸盐含量）和1个误差项（即线性偏置项），时空加权神经网络针对该时空坐标点输出的时空权重包含6个权值，分别用于修正线性加权回归模型中5个自变量和1个误差项的原始回归系数。不同时空坐标点的线性加权回归模型中原始回归系数相同，均以上述样本点集合为拟合数据通过拟合算法优化得到，拟合算法可以采用最小二乘法实现。需说明的是，时空加权神经网络针对时空坐标点输出的时空权重用于修正原始回归系数，使回归模型符合时空坐标点处的时空特征，而原始回归系数是事先进行拟合的，拟合原始回归系数时也采用了线性回归模型，其因变量为溶解氧含量，自变量为前述环境因子中的温度、盐度、硝酸盐含量、磷酸盐含量和硅酸盐含量。

作为本发明实施例的一种具体实现方式，在训练阶段，由于样本点是批量输入模型的，因此上述第一模型输入中的各种距离可以以矩阵形式进行输入。由此上述步骤S2中，参照图2所示，溶解氧含量预测模型解算时空非线性距离的具体方法可描述如下：

S21、计算所有特征样本点之间的时间距离、水平空间距离、垂直空间距离、洋流流向距离和流速距离，得到时间距离矩阵、水平空间距离矩阵、垂直空间距离矩阵、洋流流向距离矩阵和流速距离矩阵。本发明实施例中将两个样本点转换为整数后的时间作差并求取绝对值作为其时间距离，样本点i样本点j间的时间距离可记为。此外，考虑到水平空间和垂直空间的较大尺度差异，本发明实施例分别独立计算水平空间距离和垂直空间距离，即根据两个样本点的经度坐标和纬度坐标求取欧氏距离作为其水平空间距离，将两个样本点的深度作差并求取绝对值作为其垂直空间距离，其中，计算欧式距离的公式如下：

式中表示样本点i样本点j之间的水平空间距离，/>和/>分别表示样本点i样本点j的经度，/>和/>分别表示样本点i样本点j的纬度。

本发明实施例使用如下公式计算单个样本点的洋流流向：

其中，表示单个样本点的洋流流向，/>和/>分别表示样本点在东西方向和南北方向的洋流流速，使用本公式计算的洋流流向值在[-180, 180]区间范围内。

基于单样本点的洋流流向，本发明实施例使用如下公式计算样本点间的洋流流向距离：

其中，表示样本点i样本点j之间的洋流流向距离，/>和/>分别表示样本点i样本点j的洋流流向/>。

本发明实施例使用如下公式计算单个样本点的洋流流速：

其中，表示单个样本点的洋流流速，/>和/>分别表示样本点在东西方向和南北方向的洋流流速。

基于单样本的洋流流速，本发明实施例使用如下公式计算样本点间的洋流流速距离：

其中，表示样本点i样本点j之间的洋流流速距离，/>和/>分别表示样本点i样本点j的洋流流速/>。

S22、计算时间距离、水平空间距离、垂直空间距离、洋流流向距离和流速距离的最小值和最大值，对各距离矩阵进行归一化处理。

需要说明的是，此处的归一化处理是对时间、水平空间、垂直空间、洋流流向、洋流流速五个维度的距离分别执行的，其目的是将样本点间的各类距离统一映射到[0, 1]区间，以避免不同维度距离尺度不统一导致模型训练过慢等问题。在本发明实施例中，可根据各维度距离的最小值和最大值对距离进行归一化处理，具体计算公式如下所示：

其中，表示某一维度的距离矩阵，/>和/>分别为距离矩阵/>中的最小值和最大值。需要说明的是，由于/>为某一维度的距离矩阵，所以/>的计算相当于矩阵中的每一个元素都减去/>。

S23、将归一化后的时间距离矩阵、水平空间距离矩阵、垂直空间距离矩阵、洋流流向距离矩阵和流速距离矩阵输入时空距离神经网络STDNN，得到样本点之间的时空非线性距离。

需要说明的是，本发明实施例中的时空距离神经网络包含至少一层隐含层和一层输出层，该网络用于融合不同样本点之间的各类距离，利用隐含层充分拟合时间和空间的复杂非线性关系，得到两个样本之间的时空非线性距离，其数学表达如下：

其中，为样本点i样本点j之间的时空非线性距离值， />分别为样本点i样本点j之间的时间距离、水平空间距离、垂直空间距离、洋流流向距离和洋流流速距离。

S24、构建用于求解时空权重的时空加权神经网络STWNN，将时空距离神经网络STDNN输出的时空非线性距离输入时空加权神经网络STWNN，得到时空权重。

本发明实施例使用时空加权神经网络代替传统的时空地理加权回归中的权重核函数，该网络包含至少一层隐含层和一层输出层，用于通过时空非线性距离解算时空权重，其数学表达如下：

其中，为时空位置/>处的时空权重矩阵，/>表示样本点i到所有n个样本点的时空距离值合集。/>为对角矩阵，其形式如下：

其中，即为第k个回归系数在时空坐标点/>处的时空非平稳权重。第i个时空坐标点的权重/>实际包含了6个权重项/>。

S25、通过在普通线性回归中使用普通最小二乘法解算不考虑时空非平稳性的原始回归系数，再进一步将时空权重修正至普通线性回归的原始回归系数中，通过对各环境因子进行加权回归计算溶解氧含量的预测值。最终回归系数作为溶解氧含量与各环境因子间时空关系的表征量，可用于反映各因子对溶解氧的影响。

在本发明实施例中，最终的线性加权回归模型中，回归系数可视为两部分的乘积，第一部分是时空权重，第二部分是普通线性回归的原始回归系数。因此线性加权回归模型的表达式可以表述为如下形式：

其中，p为线性回归的自变量数量，本实施例中p=5；参数的下标i表示样本点i的时空坐标点索引，表示误差项原始回归系数/>在样本点i处的非平稳权重，/>表示第i个自变量的原始回归系数/>在样本点i处的非平稳权重，/>均是由普通最小二乘法独立计算所得的最优回归系数。

在本发明的实施例中，可将样本点集合中的各样本点的环境因子和溶解氧含量归一化，以归一化后的各环境因子为自变量，以归一化后的溶解氧含量为因变量，使用普通线性回归模型，采用普通最小二乘法解算回归系数，得到原始回归系数。需要说明的是，为了消除不同量纲和不同数据尺度对模型的影响，此处对各环境因子和溶解氧含量也需要进行归一化处理。本发明实施例中使用普通最小二乘法求得原始回归系数，其公式为：

其中，为自变量，/>为因变量。需要说明的是，使用普通线性回归解算的原始回归系数是所有样本点的最优无偏估计，并未考虑时空非平稳性。

将时空权重和原始回归系数相乘，得到最终的回归系数，最终的回归系数用于反映溶解氧在各时空位置点与环境因子间的时空关系。

S26、线性加权回归模型最终输出的溶解氧含量预测值可进一步与相应的监督标签计算损失值，进而优化两个神经网络的可学习参数。

需要说明的是，在实际预测时，待预测时空坐标点可以与样本点集合中的n个样本点的时空坐标不一致，由此实现了任意时空位置的溶解氧含量预测。待预测时空坐标点中用于作为第二模型输入的环境因子可以通过实测得到，也可以通过遥感反演、模型预测等手段得到，对此不做限制。

同样的，基于同一发明构思，如图3所示，本发明的另一较佳实施例中还提供了与上述实施例提供的海洋溶解氧含量时空分布预测方法对应的一种海洋溶解氧含量时空分布预测系统，其包括：

具体而言，在上述海洋溶解氧含量时空分布预测系统中，各模块与前述的S1~S3是一一对应的，因此各模块中的具体实现方式亦可参见上述S1~S3。

同样的，基于同一发明构思，本发明的另一较佳实施例中还提供了与上述实施例提供的海洋溶解氧含量时空分布预测方法对应的一种计算机电子设备，其包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如前所述的海洋溶解氧含量时空分布预测方法。

此外，上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

由此，基于同一发明构思，本发明的另一较佳实施例中还提供了与上述实施例提供的海洋溶解氧含量时空分布预测方法对应的一种计算机可读存储介质，该所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，能实现如前所述的海洋溶解氧含量时空分布预测方法。

具体而言，在上述两个实施例的计算机可读存储介质中，存储的计算机程序被处理器执行，可执行前述S1~S3的步骤。

可以理解的是，上述存储介质可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。同时存储介质还可以是U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可以理解的是，上述的处理器可以是通用处理器，包括中央处理器(CentralProcessing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

另外需要说明的是，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的各实施例中，所述的系统和方法中对于步骤或者模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或步骤可以结合或者可以集成到一起，一个模块或者步骤亦可进行拆分。

下面通过一个实施例来进一步展示本发明上述S1~S3所示海洋溶解氧含量时空分布预测方法的具体实现，同时展示其所能达到的技术效果。

实施例

在本实施例中，从公开的海洋数据集World Ocean Atlas 18获取溶解氧及其环境因子的原始数据，从GOFS 3.1: 41-layer HYCOM + NCODA Global 1/12° Reanalysis获取洋流数据，实现上述S1~S3所述的海洋溶解氧含量时空分布预测方法。

将数据入库后，不同季节数据存放在不同的数据表中。对属性值存在缺失的记录进行清洗，为每张表新建整数型时间要素列，将冬、春、夏、秋4个季节数据的时间要素字段分别设为13、14、15、16，再将不同季节的数据汇总到一张表中。接着筛选出北太平洋范围内（东经99°~西经78°、北纬 0°~90°、深度0m~500m）的数据，按照经度方向每12°一个划分步长、纬度方向每6°一个划分步长、深度方向一共7个步长（分别为0-30 m,35-65 m,70-100m,125-175 m,200-300 m,325-425 m,450-500m）的粒度，将整个三维空间离散为16*11*7个子空间体。再分别对应四个季节，对筛选出的数据进一步进行稀疏采样，在经度、纬度、深度、时间4个维度上查找出16*11*7*4个时空中心点及其相应范围内的数据，计算每个时空中心点相应范围内数据的溶解氧含量及温度、盐度、硝酸盐含量、磷酸盐含量、硅酸盐含量的平均值，并取时空中心点处东西方向洋流流速和南北方向洋流流速值，将其赋值为中心点的参数值，形成样本点集合，用于后续模型的训练和测试。

本实施例采用十折交叉验证的策略训练模型，在模型训练前，随机地将数据集中的90%划分为交叉验证集，10%划分为测试集，并将交叉验证集均匀地划分为10组。在每一轮交叉验证过程中，取交叉验证集中的9组作为训练集，剩下1组作为验证集，在完成10轮交叉验证后，交叉验证集中的每一组都将作为验证集产生一次结果。在进行模型训练前，分别计算训练集、验证集、测试集的时间距离矩阵、水平空间距离矩阵、垂直空间距离矩阵、洋流流向距离矩阵和流速距离矩阵，并进行归一化处理，归一化后的各距离矩阵作为时空距离神经网络的输入。

构建顾及时空距离与时空权重的神经网络回归模型，初始学习率为0.01，优化器为梯度下降优化器，最大迭代次数为20000，其中时空距离神经网络共一层隐含层，节点数为5，激活函数为ReLU，时空加权神经网络共两层隐含层，节点数分别为512、256，激活函数为PReLU。利用前述数据集对模型进行训练，直到网络收敛，然后用测试集对模型性能进行测试。选取其中最优的一组结果，得到用于后续获取溶解氧与环境因子关系的时空权重矩阵。

本实施例中，选用决定系数（R²）对模型性能进行评估，结果显示模型在训练集、验证集、测试集上的R²都高于0.9，表明顾及时空距离与时空权重的神经网络回归模型具有较好的精度。

将溶解氧含量和各环境因子归一化，并使用普通线性回归模型，采用普通最小二乘法解算回归系数，将前述时空加权神经网络中解算的时空权重矩阵与该回归系数相乘，得到新的回归系数，用以表征溶解氧含量与各环境因子间的时空关系。进一步地，将该系数与自变量相乘，即可得到溶解氧含量的预测值。本实施例获取了溶解氧含量与温度、盐度、硝酸盐含量、磷酸盐含量以及硅酸盐含量间的复杂时空关系，量化了不同时空条件下各环境因子对溶解氧含量的具体影响，并预测了溶解氧含量的时空分布，且具有较高精度，为探究海洋脱氧的原因提供了一条途径，对海洋环境的分析和保护具有一定价值。

以上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种海洋溶解氧含量时空分布预测方法，其特征在于，包括：

2.如权利要求1所述的海洋溶解氧含量时空分布预测方法，其特征在于，所述时空坐标点匹配到的样本点中，溶解氧含量和环境因子均取时空匹配到的监测数据的均值，而所述时空特征信息中的空间信息均按照子空间体中的中心确定。

3.如权利要求1所述的海洋溶解氧含量时空分布预测方法，其特征在于，所述时空特征信息中包含的季节信息，需要采用连续递增的不同整数分别表征冬、春、夏、秋四个季节。

4.如权利要求3所述的海洋溶解氧含量时空分布预测方法，其特征在于，所述第一模型输入中，两个样本点之间的时间距离为这两个样本点的季节整数表征值之差；两个样本点之间的水平空间距离为这两个样本点的经纬度坐标之间的欧氏距离；两个样本点之间的垂直空间距离为这两个样本点的深度之差；两个样本点之间的洋流流向距离为，其中/>为这两个样本点的洋流流向之差，/>为求余函数；两个样本点之间的洋流流速距离为这两个样本点的洋流流速向量模长之差；每个样本点的洋流流向和洋流流速向量模长均通过洋流在东西方向和南北方向的流速计算得到。

5.如权利要求1所述的海洋溶解氧含量时空分布预测方法，其特征在于，所述时空距离神经网络和时空加权神经网络均采用全连接神经网络。

6.如权利要求1所述的海洋溶解氧含量时空分布预测方法，其特征在于，所述回归模型采用线性加权回归模型，其因变量为溶解氧含量，自变量为所述环境因子中的温度、盐度、硝酸盐含量、磷酸盐含量和硅酸盐含量；且每个时空坐标点的线性加权回归模型各自具有独立的回归系数，所述时空加权神经网络针对该时空坐标点输出的时空权重包含6个权值，分别用于修正线性加权回归模型中5个自变量和1个误差项的原始回归系数；不同时空坐标点的线性加权回归模型中原始回归系数相同，均以所述样本点集合为拟合数据通过拟合算法优化得到。

7.如权利要求6所述的海洋溶解氧含量时空分布预测方法，其特征在于，所述拟合算法采用最小二乘法。

8.一种海洋溶解氧含量时空分布预测系统，其特征在于，包括：

9.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1~7任一所述的海洋溶解氧含量时空分布预测方法。

10.一种计算机电子设备，其特征在于，包括存储器和处理器；

所述存储器，用于存储计算机程序；

所述处理器，用于当执行所述计算机程序时，实现如权利要求1~7任一所述的海洋溶解氧含量时空分布预测方法。