CN116151136B

CN116151136B - 基于概率误差补偿的全球表层海水pH反演方法及系统

Info

Publication number: CN116151136B
Application number: CN202310443276.6A
Authority: CN
Inventors: 杜震洪; 赵佳晖; 吴森森; 刘仁义
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-04-24
Filing date: 2023-04-24
Publication date: 2023-06-27
Anticipated expiration: 2043-04-24
Also published as: CN116151136A

Abstract

本发明公开了一种基于概率误差补偿的全球表层海水pH反演方法及系统，属于机器学习和数据预测领域。本发明利用经过训练的第一机器学习模型，基于海表温度、海表盐度、点位坐标和监测时间获得不同数据点的总碱度后将其转换为pH估计值，再通过计算概率分布补偿因子和时空分布补偿因子，利用pH实测值对pH估计值进行误差补偿，最后利用误差补偿后的pH估计值作为训练样本的标签，对第二机器学习模型进行训练得到pH反演模型，用于反演全球海洋表层高空间分辨率pH分布。本发明可解决当前海洋pH实测样本时空分布稀疏、反演pH产品空间分辨率较低等问题，利用pH反演模型能够构建长时序高分辨率全球海表pH产品。

Description

基于概率误差补偿的全球表层海水pH反演方法及系统

技术领域

本发明属于机器学习和数据预测领域，具体涉及一种基于概率误差补偿和机器学习模型预测表层海水pH的方法。

背景技术

海洋酸化（Ocean Acidification）是指海水吸收了人为产生的二氧化碳，破坏了海洋中碳酸盐循环的化学平衡，导致海水的pH和碳酸钙饱和度下降的现象，也被誉为全球变暖的罪恶孪生兄弟。海洋酸化对海洋生态平衡有巨大的影响，表层海水直接响应大气CO₂浓度变化，使海洋钙化生物更难形成生物性碳酸钙，从而影响海洋生物的生长、代谢和繁殖进程，进而破坏海洋生态平衡。

由于科学界对海洋酸化的发现较晚，海洋常规的观测项目中不包括pH值，因此长时间大范围的pH的数据生产进度较为落后。虽然模式和传统经验公式可以在一定程度上推演全球海表pH分布和变化趋势，但区域性差异导致不同海域所需要的先验知识大相径庭，很难归纳出一个符合全球尺度的统一规律，模式对于全球表层海水pH的拟合能力有限。

现有技术中，已使用多种模式或机器学习方法反演全球以及区域范围内的表层海水pH分布。但是，当前海洋酸化研究中的pH实测样本时间跨度短、空间分布稀疏且不均匀，这导致机器学习模型难以有效训练。因此，仍然缺乏针对全球尺度高精度pH重构的有效方法，给pH时空特征分析带来较大的困难。

因此，如何克服pH实测数据稀缺所导致的机器学习模型难以准确反演全球表层海水pH的缺陷，是目前亟待解决的技术问题。

发明内容

本发明的目的是克服现有的pH实测数据稀缺性导致的机器学习模型无法准确反演全球表层海水pH的问题，并提供了一种基于概率误差补偿的全球表层海水 pH 反演方法及系统。

为实现本发明目的，本发明具体提供的技术方案如下：

第一方面，本发明提供了一种基于概率误差补偿的全球表层海水pH反演方法，其包括：

S1、根据全球范围内不同温盐实测点位的海表温度、海表盐度和二氧化碳逸度实测数据构建第一数据点集合，其中每个第一数据点包括海表温度、海表盐度、点位坐标和监测时间信息；

S2、将第一数据点集合中的各第一数据点输入预先经过训练的第一机器学习模型中，预测得到各第一数据点的总碱度，再根据各第一数据点的点位坐标和监测时间对应的二氧化碳逸度计算各第一数据点的pH估计值，并构建第二数据点集合，其中每个第二数据点包括pH估计值、点位坐标和监测时间信息；

S3、根据全球范围内不同pH实测点位的表层海水pH实测数据构建第三数据点集合，其中每个第三数据点包括pH实测值、点位坐标和监测时间信息；

S4、分别以第二数据点集合中的每个第二数据点为中心，按照预设的时空搜索范围对第三数据点集合和第二数据点集合分别进行时空搜索，基于搜索到的两个样本集合计算用于消除概率分布差异和时空分布差异的补偿权重，从而利用搜索到的所有第三数据点的pH实测值对当前第二数据点的pH估计值进行加权误差补偿，将第二数据点集合转换为第四数据点集合；

S5、将全球范围内与表层海水pH相关的遥感数据和再分析数据，与第四数据点集合中的各第四数据点进行时空匹配，以第四数据点中的pH估计值作为样本标签，以时空匹配得到的遥感数据特征指标、再分析数据理化指标、点位坐标和监测时间作为训练样本，构建带标签的训练样本集并对第二机器学习模型进行训练，得到pH反演模型；

S6、根据需反演的目标时刻，利用pH反演模型得到全球范围内每个空间位置的表层海水pH估计值，从而生成目标时刻对应的全球表层海水pH分布。

作为上述第一方面的优选，所述第一机器学习模型采用支持向量机、随机森林模型或BP神经网络。

作为上述第一方面的优选，所述S4中，对每个第二数据点进行误差补偿的具体做法为：

通过所述时空搜索，将第三数据点集合和第二数据点集合中位于所述时空搜索范围内的数据点分别构建为第一补偿样本集合和第二补偿样本集合，若第一补偿样本集合中的样本量超过预设的最小样本数量，则再根据两个补偿样本集合计算每个第三数据点对应的概率分布补偿因子和时空分布补偿因子，最后以两个补偿因子的乘积作为权重，将第一补偿样本集合中所有第三数据点的pH实测值与第二数据点的pH估计值的偏差加权叠加到第二数据点的pH估计值上，实现加权误差补偿；所述概率分布补偿因子为第一补偿样本集合的分位函数和第二补偿样本集合的累积分布函数的乘积，所述时空分布补偿因子为第一补偿样本集合中的第三数据点相对于当前第二数据点的时空距离权重。

作为上述第一方面的优选，每个第三数据点的时空距离权重为该第三数据点的空间距离权重和时间距离权重的加权和；且计算时空距离权重时，需先计算该第三数据点相对于当前第二数据点的空间距离值和时间距离值，所述空间距离权重为预设的最大空间搜索半径和所述空间距离值的平方差与平方和之比，所述时间距离权重为预设的最大时间搜索半径和所述时间距离值的平方差与平方和之比。

作为上述第一方面的优选，所述预设的最大空间搜索半径为450~550 km；所述预设的最大时间搜索半径为1.5~2.5个月，所述预设的最小样本数量为18~22。

作为上述第一方面的优选，所述第二机器学习模型采用LightGBM模型。

作为上述第一方面的优选，所述遥感数据特征指标为412~678nm波段的遥感反射率、443nm波长的后向散射系数、颗粒有机碳、颗粒无机碳、漫射衰减系数和叶绿素a浓度。

作为上述第一方面的优选，所述再分析数据理化指标为海平面十米风速、海表温度、海表盐度、海平面气压、混合层深度和海平面高度。

作为上述第一方面的优选，输入第一机器学习模型和第二机器学习模型的点位坐标包括点位经纬度和点位经纬度对应的球面坐标，输入第一机器学习模型和第二机器学习模型的监测时间包括年月日信息。

第二方面，本发明提供了一种基于概率误差补偿的全球表层海水pH反演系统，其包括：

第一数据点集合构建模块，用于根据全球范围内不同温盐实测点位的海表温度、海表盐度和二氧化碳逸度实测数据构建第一数据点集合，其中每个第一数据点包括海表温度、海表盐度、点位坐标和监测时间信息；

第二数据点集合构建模块，用于将第一数据点集合中的各第一数据点输入预先经过训练的第一机器学习模型中，预测得到各第一数据点的总碱度，再根据各第一数据点的点位坐标和监测时间对应的二氧化碳逸度计算各第一数据点的pH估计值，并构建第二数据点集合，其中每个第二数据点包括pH估计值、点位坐标和监测时间信息；

第三数据点集合构建模块，用于根据全球范围内不同pH实测点位的表层海水pH实测数据构建第三数据点集合，其中每个第三数据点包括pH实测值、点位坐标和监测时间信息；

第四数据点集合构建模块，用于分别以第二数据点集合中的每个第二数据点为中心，按照预设的时空搜索范围对第三数据点集合和第二数据点集合分别进行时空搜索，基于搜索到的两个样本集合计算用于消除概率分布差异和时空分布差异的补偿权重，从而利用搜索到的所有第三数据点的pH实测值对当前第二数据点的pH估计值进行加权误差补偿，将第二数据点集合转换为第四数据点集合；

pH反演模型训练模块，用于将全球范围内与表层海水pH相关的遥感数据和再分析数据，与第四数据点集合中的各第四数据点进行时空匹配，以第四数据点中的pH估计值作为样本标签，以时空匹配得到的遥感数据特征指标、再分析数据理化指标、点位坐标和监测时间作为训练样本，构建带标签的训练样本集并对第二机器学习模型进行训练，得到pH反演模型；

全球表层海水pH反演模块，用于根据需反演的目标时刻，利用pH反演模型得到全球范围内每个空间位置的表层海水pH估计值，从而生成目标时刻对应的全球表层海水pH分布。

本发明相对于现有技术而言，具有以下有益效果：

本发明针对海洋表面酸化数据时间频率低、空间分布稀的问题，提出一种通过机器学习模型以及概率误差补偿耦合来实现全球表层海水pH反演的方法。本发明通过海量近实测pH数据扩充策略，从少量实测数据中充分挖掘潜在的关键信息，应用碳酸盐理论和大量实测二氧化碳逸度数据计算pH值，从而将训练机器学习模型的pH数据样本扩充至百万数量级。为提高pH反演模型拟合精度，本发明还提出概率分布补偿因子和时空分布补偿因子，利用实测pH数据对估计pH数据进行误差补偿，结合LightGBM等机器学习模型构建pH反演模型，并进行特征筛选和超参数优化。本发明可针对现有全球海表pH产品分辨率低的问题，重构全球高空间分辨率下的表层海水pH分布，对全球海洋酸化的技术探究具有重要意义。

附图说明

图1为一种基于概率误差补偿的全球表层海水pH反演方法的流程示意图；

图2为一种基于概率误差补偿的全球表层海水pH反演系统的模块示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施例的限制。本发明各个实施例中的技术特征在没有相互冲突的前提下均可进行相应组合。

在本发明的描述中，需要理解的是，术语“第一”、“第二”仅用于区分描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

如图1所示，在本发明的一个较佳实施例中，提供了一种基于概率误差补偿的全球表层海水pH反演方法，其包括以下S1~S6步骤。下面对S1~S6步骤的具体实现方式进行详细展开描述。

S1、根据全球范围内不同温盐实测点位在不同监测时间下的海表温度、海表盐度和二氧化碳逸度实测数据，构建第一数据点集合，其中每个第一数据点包括海表温度、海表盐度、点位坐标和监测时间四个信息。

需要说明的是，本发明中所说的温盐实测点位，是指测定表层海水温度、盐度和二氧化碳逸度的实测点位，此类点位可以是近海的船舶、系泊设备、自主和漂流水面平台等类型的观测点位。同一个温盐实测点位会在不同的监测时刻不断采集海表温度、海表盐度和二氧化碳逸度数据，同时其自身会记录不同数据的监测时间，每个温盐实测点位具有对应的点位坐标（一般为经纬度形式）。由于本发明需要反演全球范围内的表层海水pH分布，而全球不同大洋区域存在空间异质性，因此温盐实测点位也应当尽可能覆盖全球范围，理论上密度越高越好。

另外，上述用于构建第一数据点集合的实测数据，可以是自行采集的数据，也可以直接采用现有的全球海洋观测数据。例如，作为本发明实施例的一种较佳实现方式，上述全球范围内不同温盐实测点位在不同监测时间下的海表温度、海表盐度和二氧化碳逸度实测数据，可以直接采用表层海洋二氧化碳地图集(SOCAT)，SOCAT是全球海洋观测系统GOOS认可的用于生物地球化学的核心全球海洋观测系统数据产品。例如，在最新版本的SOCATv2022中，包含了从 1957 年到 2021 年对全球海洋和沿海海域进行了3370万余次观测，估计精度优于5µatm。从SOCAT数据中即可提取全球范围内不同温盐实测点位在不同监测时间下的海表温度、海表盐度和二氧化碳逸度实测数据。

S2、将第一数据点集合中的各第一数据点输入预先经过训练的第一机器学习模型中，预测得到各第一数据点的总碱度，再根据各第一数据点的点位坐标和监测时间对应的二氧化碳逸度（可从S1中的温盐实测点位的记录数据中查找确定），计算各第一数据点的pH估计值，并构建第二数据点集合，其中每个第二数据点包括pH估计值、点位坐标和监测时间三个信息。

本发明中上述步骤S2中，采用第一机器学习模型预测第一数据点集合中各第一数据点的总碱度，然后再结合二氧化碳逸度计算各第一数据点的pH估计值，其目的是为了构建更为庞大的训练数据样本。因为，在目前已有的全球海洋观测数据中，pH的观测样本较少，其在全球范围内的覆盖密度不足，存在观测样本时空分布稀疏导致数据应用受限的问题。如果仅利用现有的pH观测样本进行模型训练，会导致其反演结果在精度和空间分辨率上存在不足。由于海水中总碱度与pH值之间可以通过碳酸盐理论模型进行换算，其换算准确性较高，因此第一机器学习模型可先预测总碱度，再通过结合碳酸盐理论进行转换。

需要说明的是，本发明中的第一机器学习模型可以是任意能够实现输入数据与预测目标拟合的网络模型。作为本发明实施例的一种较佳实现方式，上述第一机器学习模型可采用支持向量机、随机森林模型或BP神经网络，优选采用BP神经网络。而BP神经网络的网络结构和训练方式均属于现有技术。它是一种前馈式人工神经网络，通常由输入层、隐藏层和输出层构成，每一层包含不同的神经元和权重，被广泛用于分类、回归和预测等问题。BP神经网络的学习过程主要包括前向传播和误差反向传播两个步骤。在前向传播阶段中，输入向量被传递到网络中，通过一系列的加权和和激活函数的计算，最终得到输出向量，且权重保持不变。在反向传播阶段中，将输出误差反向传播回网络中，然后计算每个神经元的误差，通过梯度下降算法来更新权重和偏置，以使网络的预测误差最小化。经过不断地循环训练，直到训练次数达到上限或误差小于阈值后结束训练。BP神经网络在作为本发明的第一机器学习模型时，其输入为每个海表温度、海表盐度、点位坐标和监测时间四个信息，输出为对应的总碱度。因此，其网络层数和节点数量需要根据实际进行合理优化。

上述第一机器学习模型在用于对第一数据点集合中各第一数据点的总碱度进行预测之前，需要预先进行训练，使其预测精度满足要求后方可用于实际推理。同样的，第一机器学习模型训练所需的样本数据，其输入应当是海表温度、海表盐度、点位坐标和监测时间四个信息，输出应当为对应的总碱度，这些训练样本可由现有的全球海洋数据分析项目数据获取。

作为本发明实施例的一种较佳实现方式，上述第一机器学习模型训练所需的数据来源于全球海洋数据分析项目（Global Ocean Data Analysis Project，GLODAP）的数据集。在其GLODAPv2022版本中，包含了20世纪90年代世界大洋环流实验和联合全球海洋通量研究，以及1972年至2021年间覆盖全球海洋的1085次科学巡航的数据，核心观测要素为温度、盐度、氧气、硝酸盐、硅酸盐、磷酸盐、溶解无机碳、总碱度、pH值、CFC-11、CFC-12、CFC-113和CCl4等变量，共计1381248条数据。因此，可通过数据处理和质量控制，从中提取第一机器学习模型训练所需的12569条样本，进而对第一机器学习模型进行训练和验证。

另外需要说明的是，通过总碱度计算表层海水pH的具体方式属于现有技术，可基于海水碳酸盐理论进行换算，现有技术中也给出了众多经验公式和理论模型，对此可不做限定。作为本发明实施例的一种较佳实现方式，可通过PyCO2SYS工具包来实现总碱度与表层海水pH之间的换算，PyCO2SYS工具包的输入为总碱度、二氧化碳逸度、表层海水温度和表层海水盐度，输出即为表层海水pH。

S3、根据全球范围内不同pH实测点位的表层海水pH实测数据，构建第三数据点集合，其中每个第三数据点包括pH实测值、点位坐标和监测时间三个信息。

需要说明的是，本发明中所说的pH实测点位，是指测定表层海水pH值的实测点位，此类点位可以是近海的船舶、系泊设备、自主和漂流水面平台等类型的观测点位。同一个pH实测点位会在不同的监测时刻不断采集表层海水pH值，同时其自身会记录不同数据的监测时间，每个表层海水pH具有对应的点位坐标（一般为经纬度形式）。与温盐实测点位类似，上述用于构建第三数据点集合的pH实测数据，可以是自行采集的数据，也可以直接采用现有的全球海洋观测数据。例如，作为本发明实施例的一种较佳实现方式，上述用于构建第三数据点集合的pH实测数据可来源于GLODAP数据集。

由于全球不同大洋区域存在空间异质性，因此pH实测点位应当尽可能覆盖全球范围，理论上也是密度越高越好。虽然GLODAP数据集中包含了全球范围内的观测点，但仅有部分观测点存在pH实测数据，其密度存在不足。因此，本发明中并非直接用这些pH实测数据来训练模型，而是仅用于对第二数据点集合中的每个第二数据点进行误差补偿。经过误差补偿后可以使得第二数据点中的pH估计值更接近实际值，从而构建大样本量的训练样本数据。后续的步骤S4将对误差补偿的具体方式进行详细介绍。

S4、分别以第二数据点集合中的每个第二数据点为中心，按照预设的时空搜索范围对第三数据点集合和第二数据点集合分别进行时空搜索，基于搜索到的两个样本集合计算用于消除概率分布差异和时空分布差异的补偿权重，从而利用搜索到的所有第三数据点的pH实测值对当前第二数据点的pH估计值进行加权误差补偿，将第二数据点集合转换为第四数据点集合。

在本发明的实施例中，实际执行时可遍历第二数据点集合中的每个第二数据点，分别对每个第二数据点进行误差补偿，将第二数据点集合转换为第四数据点集合。为了便于描述，本发明中将遍历过程中正在被执行误差补偿的第二数据点称为当前第二数据点。由此，遍历过程中，可以每个当前第二数据点的点位坐标和监测时间分别作为空间中心和时间中心，按照预设的时空搜索半径确定时空搜索范围，将第三数据点集合中位于时空搜索范围内的第三数据点构建为第一补偿样本集合，且在第一补偿样本集合的样本量超过预设的最小样本数量N的条件下，将第二数据点集合中位于所述时空搜索范围内的第二数据点构建为第二补偿样本集合，再根据第一补偿样本集合和第二补偿样本集合计算概率分布补偿因子和时空分布补偿因子，以两个补偿因子的乘积作为权重并利用第一补偿样本集合中各第三数据点的pH实测值对当前第二数据点的pH估计值进行加权误差补偿。上述概率分布补偿因子为第一补偿样本集合的分位函数和第二补偿样本集合的累积分布函数的乘积，上述时空分布补偿因子为第一补偿样本集合中的第三数据点相对于当前第二数据点的时空距离权重。

需要注意的是，误差补偿的本质是利用每个第二数据点周围的其他pH实测点位的pH实测值来校正第二数据点自身的pH估计值，以弥补模型误差、系统误差、数据质量误差造成的概率分布偏差，最终获取准确可靠的全球海表pH产品。上述加权误差补偿时，需要将第一补偿样本集合中所有第三数据点的pH实测值与第二数据点的pH估计值的偏差加权叠加到第二数据点的pH估计值上，修正第二数据点的pH估计值，消除原始pH估计值与pH实测值之间的概率分布差异和时空分布差异。因此第二数据点周围的其他pH实测点位数量需要足够多才能够保证校准的结果准确性，否则反而会引入偏差。由此，在上述遍历过程中，第二数据点集合中的每个第二数据点都会被遍历到进行误差补偿，但是并不是每个第二数据点的pH估计值都被改变了，在第一补偿样本集合的样本量未超过预设的最小样本数量N的情况下，误差补偿本质上并没有进行，也就是pH估计值并没有改变，第二数据点中的pH估计值直接作为了第四数据点中的pH估计值。但在第一补偿样本集合的样本量超过预设的最小样本数量N的情况下，pH估计值被执行了误差补偿，其具体数值会发生变化。上述预设的最小样本数量N，可以是一个优化确定的超参数。

需要说明的是，前述的时空搜索半径包含了空间搜索半径和时间搜索半径，结合前述确定的空间中心和时间中心，即可形成相应的空间搜索范围和时间搜索范围，两者统称为时空搜索范围。具体的时空搜索方式属于现有技术，本质是对空间坐标和时间的匹配过程，对此不再赘述。

另外，需要说明的是，上述利用第一补偿样本集合中各第三数据点的pH实测值对当前第二数据点的pH估计值进行误差补偿时，其核心是需要计算概率分布补偿因子和时空分布补偿因子。概率分布补偿因子主要用于弥补模型误差、系统误差、数据质量误差造成的概率分布偏差，概率分布补偿因子本质上是一个过渡函数映射，通过该过渡函数映射可将第二补偿样本集合映射到第一补偿样本集合，使其拥有相同的概率密度分布。而时空分布补偿因子则主要用于弥补因时空异质性所导致的数据偏差，因为海表pH在空间上存在明显的分布差异，同时同一个位置也存在明显的季节性时间变化。

作为本发明实施例的一种较佳实现方式，上述对第二数据点集合中的每个第二数据点进行误差补偿的具体过程如下：

1）以当前第二数据点的点位坐标为空间中心，在第三数据点集合中通过自适应调整空间半径来搜索一个最小包围圈，使点位坐标落在该最小包围圈内的第三数据点个数等于第一预设数量值A。

2）将最小包围圈的半径与预设的最大空间搜索半径R进行对比，若最小包围圈的半径超过最大空间搜索半径R，则将当前第二数据点直接作为第四数据点无需进行误差补偿，否则继续以当前第二数据点的监测时间为时间中心，根据预设的最大时间搜索半径T对点位坐标落在上述最小包围圈内的第三数据点进行筛选，每个最小包围圈内的第三数据点需要计算其自身的监测时间与前述时间中心的间距，进而保留监测时间与时间中心的间隔小于最大时间搜索半径T的第三数据点作为第一补偿样本集合。

3）统计第一补偿样本集合中的第三数据点数量K，将第一补偿样本集合中的第三数据点数量K与预设的最小样本数量N进行对比，若第一补偿样本集合中的第三数据点数量K未超过预设的最小样本数量N，则将当前第二数据点直接作为第四数据点无需进行误差补偿，否则需要进行误差补偿操作，具体的误差补偿操作如下：

3.1）在第二数据点集合中按照与前述第一补偿样本集合相同的时空搜索范围进行搜索，并将搜索得到的第二数据点作为第二补偿样本集合。由此，第一补偿样本集合和第二补偿样本集合具有相同的时空搜索范围，即两者所处的监测时段和空间区域范围是近似的，满足误差补偿的样本近似性要求。将第二补偿样本集合中的第二数据点数量记为n。

3.2）再计算第一补偿样本集合中第三数据点pH实测值的分位函数和第二补偿样本集合中第二数据点pH估计值的累积分布函数，将分位函数和累积分布函数之积作为第一补偿样本集合中每个第三数据点的概率分布补偿因子。

需要说明的是，分位函数和累积分布函数的具体计算方式属于现有技术，其统计的基础是两个补偿样本集合中记录的pH值。在本发明的实施例中，将第一补偿样本集合中第三数据点的pH实测值的分位函数（逆CDF）记为

，将第二补偿样本集合中第二数据点的pH估计值的累积分布函数（CDF）记为/>

，两者皆可通过第一补偿样本集合的概率密度分布/>

和第二补偿样本集合的概率密度分布/>

计算。如前所述，概率分布纠正的原理就是找到一个过渡函数/>

来映射两个样本集合，使其拥有相同的概率密度分布。因此基于分位函数和累积分布函数即可计算过渡函数为/>

，而该过渡函数/>

也就是概率分布补偿因子/>

。

3.3）计算第一补偿样本集合中每个第三数据点相对于当前第二数据点的空间距离r和时间距离t，然后用距离权重函数将空间距离r和时间距离t转换为空间距离权重和时间距离权重并将两个权重加权求和得到时空距离权重，第一补偿样本集合中每个第三数据点以各自对应的时空距离权重作为时空分布补偿因子。

需要说明的是，时空距离权重是由空间距离权重和时间距离权重通过加权得到的，两者的加权权重可以根据实际进行优化。将空间距离r和时间距离t转换为空间距离权重和时间距离权重的距离权重函数，可以采用Cressman客观分析方法中的距离权重函数来实现，使得权重值能够随着距离增加而衰减。客观分析方法是一种对空间分布不规则的观测资料在一定约束下进行处理的分析方法。基于Cressman客观分析方法中的距离权重函数，在计算第一补偿样本集合中任意第k个第三数据点的空间距离权重和时间距离权重时，需先计算该第三数据点相对于当前第二数据点的空间距离值（记为

）和时间距离值（记为/>

），该第三数据点的空间距离权重为最大空间搜索半径R和空间距离值/>

的平方差与平方和之比，该第三数据点的时间距离权重为最大时间搜索半径T和时间距离值/>

的平方差与平方和之比。需说明的是，两个参数的平方差是指这两个参数各自的平方值之差，两个参数的平方和是指这两个参数各自的平方值之和。

在本发明的实施例中，上述第一补偿样本集合中第k个第三数据点相对于当前第二数据点的时空距离权重计算式可表达如下：

其中：α和β均为权重系数，两个权重系数均小于1但大于0，且满足α+β=1，此处加权的目的是消除时间和空间的尺度差异。

和/>

分别为通过客观分析方法转换得到的空间距离权重和时间距离权重，且两者的计算式均采用了距离权重函数，分别表示如下：

式中：

和/>

分别为第一补偿样本集合中第k个第三数据点相对于当前第二数据点的空间距离和时间距离，R和T分别表示最大空间搜索半径和最大时间搜索半径。/>

可通过半正矢公式将两个经纬度坐标转换为空间距离来计算，/>

可通过将两个数据点的监测时间取差值的绝对值来实现，取差值之前最好统一至相同的时间维度，例如均统一至月份。

上述时空距离权重

即为第一补偿样本集合中每个第三数据点的时空分布补偿因子。

3.4）最后第一补偿样本集合中每个第三数据点以各自对应的概率分布补偿因子和时空分布补偿因子的乘积作为权重，将第一补偿样本集合中所有第三数据点中pH实测值与当前第二数据点中pH估计值的偏差加权叠加到当前第二数据点的pH估计值上实现加权误差补偿，当前第二数据点在完成pH估计值的误差补偿后作为第四数据点位。

在本发明的实施例中，上述加权误差补偿过程中，第一补偿样本集合中任意第k个第三数据点的权重

即为对应的概率分布补偿因子/>

和时空分布补偿因子/>

的乘积，即/>

。基于这个权重/>

，即可进行加权误差补偿，补偿的表达式如下：

式中：

表示误差补偿前的当前第二数据点的pH估计值，/>

表示误差补偿后的当前第二数据点的pH估计值，/>

表示第一补偿样本集合中第k个第三数据点的pH实测值，K为第一补偿样本集合中第三数据点的数量。

特别需要注意的是，为了保证误差补偿后的当前第二数据点的pH估计值准确性，需要对权重

的总和进行归一化以满足无偏假设，具体而言需要满足：

由此，遍历万上述第二数据点集合中的每个第二数据点后，满足补偿条件的第二数据点均进行了误差补偿，第二数据点集合即被转换为第四数据点集合。第四数据点集合中的pH估计值相对于第二数据点集合更接近于pH实测值，能够降低模型训练误差。以前述的SOCAT数据为例，经过误差补偿后的第四数据点集合中的数据点样本量可以达到百万级，完全能够满足pH反演模型训练的需求。

需要注意的是，上述误差补偿过程中需要用到多个预设的超参数，分别为补偿样本集合中的第三数据点数量K、最大空间搜索半径R、最大时间搜索半径T、预设的最小样本数量N。这些超参数的最佳取值，需要根据实际的补偿准确性进行优化。在本发明的实施例中，第一预设数量值A可设置为28~32，最大空间搜索半径R可设置为450~550 km，最大时间搜索半径T可设置为1.5~2.5个月，预设的最小样本数量N可设置为18~22。进一步优选的，A可设置为30，R可设置为500 km，T可设置为2个月，N可设置为20。

S5、将全球范围内与表层海水pH相关的遥感数据和再分析数据，与第四数据点集合中的各第四数据点进行时空匹配，以第四数据点中的pH估计值作为样本标签，以时空匹配得到的遥感数据特征指标、再分析数据理化指标、点位坐标和监测时间作为训练样本，构建带标签的训练样本集并对第二机器学习模型进行训练，得到pH反演模型。

需要说明的是，上述时空匹配的目的是针对第四数据点集合中的每个第四数据点，构建pH反演模型所需的输入数据。每个第四数据点中含有的信息类型与第二数据点是一致的，即pH估计值、点位坐标和监测时间三个信息，只是pH估计值是经过误差补偿的，更为精确。

在本发明中，与表层海水pH相关的遥感数据和再分析数据可根据实际的数据情况进行选择，一般可采用海洋水色遥感数据和海面风速、海水温盐、降水、混合层深度、海面高度等再分析数据。

另外，遥感数据和再分析数据均含有大量的信息字段，具体选择哪些信息作为pH反演模型的输入特征，需要通过相关性分析等方式进行筛选，必要时可进行特征降维。

作为本发明实施例的一种较佳实现方式，上述遥感数据可采用海洋水色遥感数据（Ocean Color），从中提取的遥感数据特征指标为412~678nm波段的遥感反射率、443nm波长的后向散射系数、颗粒有机碳POC、颗粒无机碳PIC、漫射衰减系数KD和叶绿素a浓度。另外，再分析数据可采用第五代再分析大气数据集（ERA5）以及全球海洋物理再分析数据集（Global Ocean Physics Reanalysis）等，从中提取的再分析数据理化指标为海平面十米风速、海表温度、海表盐度、海平面气压、混合层深度和海平面高度。另外，输入第一机器学习模型和第二机器学习模型的点位坐标包括点位经纬度，但由于经纬度在球面上存在不连续，因此还可以辅助输入点位经纬度对应的球面坐标，传统的经纬度通过三角函数，转化为球面坐标

，即可保证在球体上的连续性。而输入第一机器学习模型和第二机器学习模型的监测时间则包括年、月、日三个字段信息。当然在实际应用中第二机器学习模型中输入的监测时间也可以根据所需预测的pH分布时间进行确定，例如可以至输入年、月两个字段信息来预测月度分布数据，对此可不做限制。另外，在本发明的实施例中，对于海平面十米风速而言，海面十米风速u分量和海平面十米风速v分量组成的向量在二维平面中具有特殊意义，还可以对其进行平方和开根号处理得到风速的模，然后将其也一并作为第一机器学习模型和第二机器学习模型的输入。

在一个最佳实施例中，第二机器学习模型的输入可采用遥感反射率的9个波段（412nm、443nm、469nm、488nm、531nm、547nm、555nm、667nm、678nm）、后向散射系数（bbp443nm）、颗粒有机碳POC、颗粒无机碳PIC、漫射衰减系数KD、叶绿素a浓度、海平面十米风速分量uv，海平面十米风速的模、海表面温度、海表面盐度、海平面气压、混合层深度、海平面高度、经纬度、经纬度对应的球面坐标、年月时间一共28个特征参数，模型输出为pH值。这个第二机器学习模型经过百万级样本的训练，就可准确根据输入的任意时刻任意位置的遥感数据特征指标、再分析数据理化指标、点位坐标和监测时间，来预测这个时刻这个位置的pH值。

需要说明的是，上述第二机器学习模型理论上可采用任意的能够实现上述预测功能的模型。作为本发明实施例的一种较佳实现方式，上述第二机器学习模型优选采用LightGBM模型。LightGBM模型的具体原理和结构属于现有技术，它是一种实现梯度提升决策树（Gradient Boosting Decision Tree）的算法框架，采用了机器学习中集成学习和梯度下降的思想，通过直方图加速算法（Histogram）、基于梯度的单边采样算法（GOSS）、互斥特征捆绑算法（EFB）等相关优化算法，解决传统的GBDT算法训练海量数据时内存占用高的问题，具有计算效率高、内存占用低、精度结果准确、扩展性高等优点。本质上来讲，LightGBM是基于预排序方法XGBoost的改进，但经测试对比同类型的XGBoost和CatBoost算法，LightGBM的运行速度分别快28倍和8倍左右。因此，LightGBM可以有效处理本发明中百万级的pH样本数据。LightGBM模型的训练属于现有技术，在实际应用中可结合十折交叉验证、特征筛选、超参数搜索等策略进一步优化LightGBM反演模型，综合考虑硬件和计算成本，选择达到目标精度的最优模型超参数。

需要说明的是，在上述S6步骤中，需反演的目标时刻是需要根据实际的反演需求而定的，并不限定具体时间。当确定需反演的目标时刻后，输入pH反演模型的监测时间即固定为该需反演的目标时刻，而其余的模型输入则需要从遥感数据和再分析数据的全球分布数据中读取。

另外，基于与上述实施例中提供的一种基于概率误差补偿的全球表层海水pH反演方法相同的发明构思，本发明的另一较佳实施例中提供了一种基于概率误差补偿的全球表层海水pH反演系统。如图2所示，该反演系统包括以下功能模块：

第一数据点集合构建模块，用于根据全球范围内不同温盐实测点位的海表温度、海表盐度和二氧化碳逸度实测数据构建第一数据点集合，其中每个第一数据点包括海表温度、海表盐度、点位坐标和监测时间信息。

第二数据点集合构建模块，用于将第一数据点集合中的各第一数据点输入预先经过训练的第一机器学习模型中，预测得到各第一数据点的总碱度，再根据各第一数据点的点位坐标和监测时间对应的二氧化碳逸度计算各第一数据点的pH估计值，并构建第二数据点集合，其中每个第二数据点包括pH估计值、点位坐标和监测时间信息。

第三数据点集合构建模块，用于根据全球范围内不同pH实测点位的表层海水pH实测数据构建第三数据点集合，其中每个第三数据点包括pH实测值、点位坐标和监测时间信息。

第四数据点集合构建模块，用于分别以第二数据点集合中的每个第二数据点为中心，按照预设的时空搜索范围对第三数据点集合和第二数据点集合分别进行时空搜索，基于搜索到的两个样本集合计算用于消除概率分布差异和时空分布差异的补偿权重，从而利用搜索到的所有第三数据点的pH实测值对当前第二数据点的pH估计值进行加权误差补偿，将第二数据点集合转换为第四数据点集合。

pH反演模型训练模块，用于将全球范围内与表层海水pH相关的遥感数据和再分析数据，与第四数据点集合中的各第四数据点进行时空匹配，以第四数据点中的pH估计值作为样本标签，以时空匹配得到的遥感数据特征指标、再分析数据理化指标、点位坐标和监测时间作为训练样本，构建带标签的训练样本集并对第二机器学习模型进行训练，得到pH反演模型。

由于上述基于概率误差补偿的全球表层海水pH反演方法解决问题的原理与本发明上述实施例的基于概率误差补偿的全球表层海水pH反演系统相似，因此该实施例中系统的各模块具体实现形式未尽之处亦可参见上述S1~S6所示方法部分的具体实现形式，重复之处不再赘述。

另外需要说明的是，上述实施例提供的系统中，各模块在被执行是相当于是按序执行的程序模块，因此其本质上是执行了一种数据处理的流程。且所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本申请所提供的各实施例中，所述方法和系统中对于步骤或者模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或步骤可以结合或者可以集成到一起，一个模块或者步骤亦可进行拆分。

下面本发明将进一步通过一个具体实例，来展示上述S1~S6所示的基于概率误差补偿的全球表层海水pH反演方法在具体实例上的详细实现过程，以便于理解本发明的实质。

实施例

在本实施例中，以全球海洋数据分析项目（Global Ocean Data AnalysisProject，GLODAP）、表层海洋二氧化碳图谱（Surface Ocean CO₂ Atlas，SOCAT）、2003年至2020年海洋水色遥感（Ocean Color）、第五代再分析大气数据集（ERA5）以及全球海洋物理再分析数据集（Global Ocean Physics Reanalysis，）为源数据，实现上述S1~S6所示的基于概率误差补偿的全球表层海水pH反演方法。

由于这些数据来源不同，因此需要对获得的多源数据进行数据预处理，首先对实测数据进行时间重采样，并剔除异常值，其次将遥感数据和再分析数据空间重采样，最后将实测数据和遥感数据及再分析数据进行时空匹配，并对不同量纲数值做标准化和对经纬度做空间化处理。具体而言，对SOCAT实测数据在时间上进行消频，即将同航次同年同月同天同时的数据取平均，部分样本数据存在异常值（例如温度盐度超出正常范围），通过分析也逐一剔除；同时将海洋水色遥感数据和海面风速、海水温盐、降水、混合层深度、海面高度等再分析数据的重采样至统一空间分辨率（8km×8km）。为了避免出现边界化问题，采用双线性插值法进行重采样。另外，将不同量纲的特征维度进行归一化处理，而且海面十米风速u分量和海平面十米风速v分量组成的向量在二维平面中具有特殊意义，对其进行平方和开根号的取模处理，传统的经纬度则通过三角函数转化为球面坐标

，保证在球体上的连续性。

而本实施例中的上述第一数据点集合是基于SOCAT数据来构建的，第一机器学习模型则利用GLODAP数据来进行训练。第一机器学习模型采用BP神经网络实现，其输入的指标为海表温度、海表盐度、经纬度坐标、经纬度坐标对应的球面坐标、年月日，由此BP神经网络输入节点数为9，共3层隐藏，每层节点数分别为256、128、64，输出节点数为1，训练时初始化学习率为0.01，优化器为Adam，激活函数为ReLU，最大迭代次数为70次。BP神经网络训练完毕后，即可准确预测第一数据点的总碱度。第一数据点的总碱度结合其对应的第一数据点的总碱度二氧化碳逸度、海表温度和海表盐度，通过PyCO2SYS工具包（https://pyco2sys.readthedocs.io/en/latest/）可输出第一数据点的表层海水pH，从而构建第二数据点集合。本实施例中的上述第三数据点集合是通过GLODAP数据中含有pH实测值的部分数据来构建的。按照前述S4的遍历和误差补偿方式，遍历第二数据点集合中的每个第二数据点进行误差补偿，即可将第二数据点集合转换为第四数据点集合。这个误差补偿过程中，α、β分别设置为0.6、0.4，A设置为30，R设置为500 km，T设置为2个月，N设置为20。本实施例中的上述第二机器学习模型采用LightGBM模型。LightGBM模型的输入采用遥感反射率的9个波段（412nm、443nm、469nm、488nm、531nm、547nm、555nm、667nm、678nm）、后向散射系数（bbp443nm）、颗粒有机碳POC、颗粒无机碳PIC、漫射衰减系数KD、叶绿素a浓度、海平面十米风速分量uv，海平面十米风速的模、海表面温度、海表面盐度、海平面气压、混合层深度、海平面高度、经纬度、经纬度对应的球面坐标、年月时间一共28个特征参数，模型输出为pH值。时空匹配得到百万级的训练样本后，即可结合十折交叉验证、特征筛选、超参数搜索等策略进一步优化LightGBM模型，综合考虑硬件和计算成本，选择达到目标精度的最优模型超参数。其中，超参数搜索包括对树的最大深度、最小叶权重、随机采样率、学习率、学习器数量，最终设定树的最大深度为19，最小叶权重为1，随机采样率为0.7，学习率为0.1，学习器数量为2000。

本实施例中，为了验证上述训练得到的基于LightGBM模型的pH反演模型准确性，通过R²、RMSE、MAE指标对其性能进行了评估，结果R²=0.9830，RMSE=4.3517×10^-3，MAE=1.8938×10^-5，表明该模型具有较好的拟合能力。

由此可见，训练得到pH反演模型后，即可针对任意需要反演的时刻，得到全球范围内每个空间位置的表层海水pH估计值，并生成目标时刻对应的全球表层海水pH分布。在实际应用中，可以生成月度的全球表层海水pH分布。

同时，为了对比本发明中训练样本数据进行误差补偿和不进行误差补偿对于训练得到的LightGBM模型精度的影响，在实测数据上进行了消融实验。结果表明，发现误差补偿LightGBM模型能够较好地预测全球的pH分布，且误差补偿操作的引入对于精度提升明显，说明基于概率分布的误差补偿确实可以修正数据集存在的概率误差，且更加贴近真实海表pH。

综上所述，本发明以多源遥感大数据的快速发展为背景，针对当前海洋pH实测样本时空分布稀疏且不均匀、反演pH产品空间分辨率较低等问题，重构大量近实测的pH样本数据，同时发挥现代机器学习对非线性关系的极强能力，构建长时序高分辨率全球海水pH产品，以提高对于全球海洋酸化时空分异特征和变化趋势的认识，为分析全球海洋pH时空特征提供了一条途径。

上所述的实施例只是本发明的一种较佳的方案，然其并非用以限制本发明。有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型。因此凡采取等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于概率误差补偿的全球表层海水pH反演方法，其特征在于，包括：

2.如权利要求1所述的基于概率误差补偿的全球表层海水pH反演方法，其特征在于，所述第一机器学习模型采用支持向量机、随机森林模型或BP神经网络。

3.如权利要求1所述的基于概率误差补偿的全球表层海水pH反演方法，其特征在于，所述S4中，对每个第二数据点进行误差补偿的具体做法为：

4.如权利要求3所述的基于概率误差补偿的全球表层海水pH反演方法，其特征在于，每个第三数据点的时空距离权重为该第三数据点的空间距离权重和时间距离权重的加权和；且计算时空距离权重时，需先计算该第三数据点相对于当前第二数据点的空间距离值和时间距离值，所述空间距离权重为预设的最大空间搜索半径和所述空间距离值的平方差与平方和之比，所述时间距离权重为预设的最大时间搜索半径和所述时间距离值的平方差与平方和之比。

5. 如权利要求4所述的基于概率误差补偿的全球表层海水pH反演方法，其特征在于，所述预设的最大空间搜索半径为450~550 km；所述预设的最大时间搜索半径为1.5~2.5个月，所述预设的最小样本数量为18~22。

6.如权利要求1所述的基于概率误差补偿的全球表层海水pH反演方法，其特征在于，所述第二机器学习模型采用LightGBM模型。

7.如权利要求1所述的基于概率误差补偿的全球表层海水pH反演方法，其特征在于，所述遥感数据特征指标为412~678nm波段的遥感反射率、443nm波长的后向散射系数、颗粒有机碳、颗粒无机碳、漫射衰减系数和叶绿素a浓度。

8.如权利要求1所述的基于概率误差补偿的全球表层海水pH反演方法，其特征在于，所述再分析数据理化指标为海平面十米风速、海表温度、海表盐度、海平面气压、混合层深度和海平面高度。

9.如权利要求1所述的基于概率误差补偿的全球表层海水pH反演方法，其特征在于，输入第一机器学习模型和第二机器学习模型的点位坐标包括点位经纬度和点位经纬度对应的球面坐标，输入第一机器学习模型和第二机器学习模型的监测时间包括年月日信息。

10.一种基于概率误差补偿的全球表层海水pH反演系统，其特征在于，包括：