CN117668477B

CN117668477B - 一种海洋大数据智能轻量化处理方法及系统

Info

Publication number: CN117668477B
Application number: CN202410130279.9A
Authority: CN
Inventors: 方泳; 王海僮; 孔元; 孙艳华; 荣国才; 吴迪; 孙久云
Original assignee: Shandong University of Science and Technology
Current assignee: Shandong University of Science and Technology
Priority date: 2024-01-31
Filing date: 2024-01-31
Publication date: 2024-04-26
Anticipated expiration: 2044-01-31
Also published as: CN117668477A

Abstract

本发明属于海洋数据处理技术领域，公开了一种海洋大数据智能轻量化处理方法及系统。该方法将海洋原始数据转换成按周期自主选择的数据，对所述按周期自主选择的数据进行先升维后降维，然后进行经验正交模态分解，再将自适应方法融入分解的经验正交模态中，捕捉海洋观测或监测数据的时空变异性，自动调整参数，完成海洋观测或监测不同数据轻量化。该方法通过对历史海洋数据的分解和重构，为我们提供了更快捷、高效的海洋信息轻量化处理方法，为深入了解和预测海洋系统的行为提供了有力支持，这一创新性的数据处理方式有望为海洋学、气象学等相关领域的科研工作打开新的局面。

Description

一种海洋大数据智能轻量化处理方法及系统

技术领域

本发明属于海洋数据处理技术领域，尤其涉及一种海洋大数据智能轻量化处理方法及系统。

背景技术

随着观测设备和信息技术的不断发展，海洋数据获取手段日益增多，海洋信息数据已呈现出海量特征。海洋大数据并不仅仅指海量数据，更是指半结构化、非结构化、数据量之大以至无法在一定时间内用传统方法进行获取、管理和处理的数据集合。因此，在大数据上云以后，受限于网络带宽、数据处理时效、存储成本以及模型训练复杂度等多方面，本发明需要对原始数据进行轻量化处理。这意味着在不损失大数据的价值性的前提下，减少原始数据的规模，以实现快速、准确地传递海洋数据的目标。

通过传递得到的海洋大数据，是了解海洋状态、发现海洋过程及规律，解决海洋综合业务的基础，其核心能力是预测未来一段时间内的海洋环境、气候及资源的时空变化，为人类的生存和发展提供帮助。因此，对海洋数据进行轻量化处理是十分必要的。

大数据轻量化是指在不损失数据价值性的基础上减少网络传输、存储和训练的数据量，是以价值需求为导向去发现数据和提取数据，并不是简单剔除异常数据。目前，大数据轻量化主要采用特征选取和数据压缩两种方法，但在现有技术中，更多倾向于采用数据压缩的方式。数据压缩是一种将文件压缩成小文件的无损压缩方式，通常采用编码方式进行压缩，例如游程编码、字典编码等。无损压缩意味着在解压缩后能够完整还原原始数据，没有对数据进行舍弃和处理。由于保留了所有原始数据，使数据压缩比较高，但压缩时间较长。无损压缩领域中的经典算法之一是（Lempel Zip）系列算法，它用一种巧妙的方式将字典技术应用于通用数据压缩领域，具有广泛的适用性和高压缩率，而这种方式存在着压缩时间和解压时间较长等缺点。例如，/>系列算法中的/>算法（串表压缩算法：Lempel-Ziv-Welch Encoding）对于不同的数据类型，有着不同的压缩率，但压缩率大多在10%以上，同时LZ系列算法都存在着词典更新问题和词典匹配速度较慢等问题，这导致了压缩的速度比解压明显较慢：每/>的数据压缩时间在100s左右，解压时间在10s左右。

特征提取也是已有的大数据轻量化技术之一，它相较于数据压缩有着很多优势，它能够转换数据为更具解释性的形式，提取最相关、最重要的特征，提高数据质量和可用性，同时加快数据处理速度，节省计算资源。例如，经验正交函数分解方法（EmpiricalOrthogonal Function，EOF）是一种典型的通过特征选取方式来实现数据轻量化目标的时空分解方法。该方法具有不依赖于固定基函数、能够快速将资料信息集中在几个模态、分解出的空间模态具有实际物理意义等优点，从而迅速成为近年来时空分解的重要方法之一。而这种传统的分解方法分离出的空间模态侧重解释整体时空分布特征，存在取样大小影响分解结果、不全面地描述时空关系等局限性。

通过上述分析，现有技术存在的问题及缺陷为：现有技术不能更好地适应不同的数据特征和分析目标。不能更好地实现了海洋大数据轻量化。使得海洋数据分析结果的准确性和可靠性差。

发明内容

为克服相关技术中存在的问题，本发明公开实施例提供了一种海洋大数据智能轻量化处理方法及系统。

本发明是这样实现的，海洋大数据智能轻量化处理方法，该方法将海洋原始数据利用周期自主选择进行先升维的操作，再根据周期和周期数自动进行降维，然后进行经验正交模态分解，再将自适应方法融入分解的经验正交模态中，捕捉海洋观测或监测数据的时空变异性，自动调整参数，完成海洋观测或监测数据不同数据轻量化；具体包括：

S1，数据分解：通过自主选择周期数将原始二维数据矩阵变成三维数据矩阵进行数据升维，再对数据升维的三维数据矩阵自动选择降维后的二维矩阵；对自动选择降维后的二维矩阵海洋历史数据分解成时空系数和时空模态；

S2，特征提取：对于要被压缩的数据，基于不同的分解方式进行时空模态以及时空模态/>的逆矩阵/>进行特征提取；

S3，数据重构：基于特征提取的数据，通过自适应方法选择主成分和时空模态的数量，对获得的主成分和时空模态的数量得到不同重构数据，所述重构数据包括含有时序信息的海洋或气候数据在空间和时间维度变化的时空特征。

在步骤S1中，原始二维数据矩阵为历史海洋数据的二维数据矩阵/>，表达式为：

；

其中，代表空间数据点，/>代表时间长度，/>为空间数据点/>在时间点/>的观测值或测量值。

所述通过自主选择周期数将原始二维数据矩阵变成三维数据矩阵进行数据升维包括：

按压缩率自主将时间长度分解为周期/>和周期数/>，利用功率谱分析估计海洋数据的主要周期/>；根据/>，其中[]表示取整符号，确定/>的取值，得到相对应的周期数/>；

当处理海洋大数据时，确立适切的压缩率ω，筛选出满足条件的周期T:，其中/>表示确定的压缩率，/>表示利用功率谱分析估计的海洋数据的主要周期，对于满足上述条件的集合为/>，对应的周期数为/>，其中/>表示周期数的合集，在满足条件/>的基础上，对于满足上述条件的集合为/>，对应的周期为/>，自主选择周期/>和相对应的周期/>；弃时间长度/>中超过的部分，并将海洋数据转化为三维矩阵/>，其中，/>代表空间数据点，/>代表一个周期的时间点，/>代表周期数；

选择的所有周期中第个周期下的全部时间/>和空间点/>对应的数据，一共有K个矩阵，K是由功率谱分析和自主选择确定；将原始数据从二维变成三维，利用周期数K和时间T进行降维计算；一个周期的数据为：

；

表示在第/>个周期下的全部时间/>和空间点/>，/>为在第/>个周期下空间数据点M在时间点/>的观测值或测量值。

在步骤S1中，对数据升维的三维数据矩阵自动选择降维后的二维矩阵包括：

对数据进行降维操作，按照/>和/>的大小自动选择降维后的二维矩阵大小，包括：

（1）当，周期小于等于周期数，将数据/>降维成/>，记，降维后的数据为/>，表达式为：

；

式中，和/>表示降维后的数据，/>表示数据点I在时间点/>的观测值或测量值。

（2）当，周期大于周期数，将数据/>降维成/>，记，降维后的数据为/>，表达式为：

；

式中，和/>表示降维后的数据，/>表示数据点H在周期/>的观测值或测量值。

在步骤S1中，通过不同的选取方式分解成时空系数和时空模态包括：

（i）；计算协方差矩阵/>，再通过矩阵变换获得/>矩阵的特征向量，/>矩阵的特征向量计算为：

；

式中，时空模态表示/>的特征向量，/>表示特征值的对角矩阵；

将时空模态投影到矩阵X上得到对应的主成分，即：

；

同时，计算历史数据时空模态/>的逆矩阵/>，通过逆矩阵的计算公式求出时空模态/>的逆矩阵/>，和计算出的PC相乘，计算出原始数据X，进行特征提取；表达式为：

；

其中，为/>的行列式，/>为/>的伴随矩阵，逆矩阵的计算用来进行数据的反演或反向推导，通过计算时空模态的逆矩阵，从已知的时空模态信息中推导出原始的/>数据；

海洋历史数据分解成时空系数/>和时空模态/>，即：；

其中，表示/>，其中/>代表空间数据点，/>代表一个周期的时间点，/>代表周期数；

（ii）；

计算协方差矩阵,再通过矩阵变换获得/>矩阵的特征向量，/>矩阵的特征向量计算为：

；

同时计算历史数据时空模态/>的逆矩阵/>，表示如下：

；

其中，为/>的行列式，/>为/>的伴随矩阵；将时空模态投影到矩阵X上得到对应的主成分，即：

；

海洋历史数据分解成时空系数/>和时空模态/>，表示如下：

；

其中，表示/>，其中/>代表空间数据点，/>代表一个周期的时间点，/>代表周期数。

在步骤S2中，对于要被压缩的数据，基于不同的分解方式进行特征提取：

（a）；

将得到的和/>做乘积得/>：

；

（b）；

首先将对数据进行降维，重构为：/>，再将得到的/>和被处理后的SLA数据/>做乘积得/>：

。

在步骤S3中，通过自适应方法选择主成分和时空模态的数量包括：

为选择适当数量的主成分和时空模态/>，引入自适应机制，设定目标/>，代表累计方差贡献率；累计方差贡献率/>：

；

式中，代表特征根，/>表示设定的衡量指标，在选择/>和/>的数量中满足停止。

进一步，所述自适应方法具体包括：

步骤i：初始化累计方差贡献率；

步骤ii：对每个特征根执行以下操作：计算每个/>对应的方差贡献率；

步骤iii：遍历循环每个，在此过程中逐步递增累计方差贡献率/>至/>，同时每完成一次循环/>；

在迭代过程中，不断检查累计方差贡献率是否达到了预设的目标阈值/>；

一旦累计方差贡献率超过或等于目标阈值/>，立即终止循环，并且选取前/>个特征向量作为数据的新表示，/>为选择的/>和/>数量。

在步骤S3对获得的主成分和时空模态的数量利用不同特征提取方式得到不同重构数据中，时，从以下特征提取方式得到数据重构：

第一步：由自适应机制可以得到前个个/>时空模态/>与时空系数的Q个元素/>。将得到的/>和/>即可得到重构/>数据，提出：

；

第二步：进行模型评估，将得到的与原始数据/>进行比较，若得到的相关系数/>，则返回上一步，令/>，重新进行数据重构，直到/>。

第1步：由自适应机制可以得到前Q个SLA时空模态与时空系数/>的Q个元素/>。将得到的/>和/>即可得到重构SLA数据/>：

；

第2步：进行模型评估，将得到的与原始数据/>进行比较，若得到的相关系数/>，则返回上一步，令/>，重新进行数据重构，直到/>。若得到的相关系数/>，将/>升维为/>，即得到重构数据。

本发明的另一目的在于提供一种海洋大数据智能轻量化处理系统，该系统通过所述的海洋大数据智能轻量化处理方法实现，该系统包括：

数据分解模块，用于通过自主选择周期数将原始二维数据矩阵变成三维数据矩阵进行数据升维，再对数据升维的三维数据矩阵自动选择降维后的二维矩阵；对所述自动选择降维后的二维矩阵海洋历史数据通过不同的选取方式分解成时空系数和时空模态；

特征提取模块，用于对于要被压缩的数据，基于不同的分解方式进行时空模态以及时空模态的逆矩阵进行特征提取；

数据重构模块，用于基于特征提取的数据，通过自适应方法选择主成分和时空模态的数量，对获得的主成分和时空模态的数量利用不同特征提取方式得到不同重构数据，所述重构数据包括含有时序信息的海洋或气候数据在空间和时间维度变化的时空特征。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明在现有的特征提取轻量化技术基础上进行改进，使其在原有基础上增添了自主选择和自适应能力，提出了一种新型的海洋大数据智能轻量化处理方法（Intelligent LightweightProcessing Method，ILPM）。该方法可以更好地适应不同的数据特征和分析目标。同时，克服了前期算法的缺陷和不足，更好地实现了海洋大数据轻量化。

本发明ILPM不仅有着压缩率低、压缩时间和解压时间短、提供更紧凑的表示和数据压缩的优点。此外，加入自适应机制有效提升了方法的适应性、灵活性和鲁棒性，同时可简化参数调整过程，使模型更具有适应不同数据和分析需求的能力，从而提高分析结果的准确性和可靠性。

本发明是对传统的经验正交函数分解方法进行的一次大的升级改造，使其在原有基础上增添了自主选择和自适应能力，从而实现了海洋大数据智能轻量化的目的。具体而言，为使传统的方法在处理具有明显时序性或周期性变化的数据集时表现更加优异，可将原始数据转换成按周期自主选择的数据，对其进行先升维后降维的操作，然后对其进行经验正交模态分解，最后将自适应方法融入分解出来的模态中，本发明称该改进方法为。该方法不仅可以捕捉数据的时空变异性，自动调整参数，适应不同数据，符合大数据轻量化标准。

本发明可能带来大幅度的成本节约，提高数据传输效率，能够大幅度减少数据存储和处理的成本。在该领域的前期研究和现有技术中，存在着一定的技术局限性和问题，不能够大幅度的减少数据存储，本发明的技术方案通过引入创新的思路和方法，克服了现有技术的限制，实现了海洋大数据智能轻量化。本发明的技术方案成功解决了海洋大数据轻量化的技术难题，通过深入的研究和创新思维，本发明的技术方案提供了一种全新的解决方案，成功实现了海洋大数据智能轻量化。在过去的研究和实践中，由于某些技术偏见或先入之见，人们对于经验正交分解进行海洋大数据降维存在一定的限制。然而，本发明的技术方案通过创新性的思考和独特的方法，打破了传统的技术思维模式，超越了技术偏见的限制，提供了一种全新的解决方案，实现了海洋大数据智能轻量化。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理；

图1是本发明实施例提供的海洋大数据智能轻量化处理方法流程图；

图2是本发明实施例提供的海洋大数据智能轻量化处理原理图；

图3是本发明实施例提供的2018年1月1日至12月26日重构数据与原始数据（sla）之间的相关系数图；

图4是本发明实施例提供的2018年1月1日至12月26日重构数据与原始数据（ugos）之间的相关系数图；

图5是本发明实施例提供的2018年1月1日至12月26日重构数据与原始数据（vgos）之间的相关系数图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图对本发明的具体实施方式做详细的说明。在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其他方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似改进，因此本发明不受下面公开的具体实施的限制。

本发明实施例提供的海洋大数据智能轻量化处理方法及系统创新点在于：

本发明旨在提出一种基于经验正交模态分解、自主选择和自适应方法的海洋观测数据轻量化方案，以捕捉海洋观测或监测数据的时空变异性并实现数据的有效降维。该方法通过将海洋原始数据转换为按周期自主选择的数据，对数据进行预处理。接下来，利用经验正交模态分解技术对处理后的数据进行分解，以提取数据中的主要模态。为了进一步优化该方法，我们将自适应方法融入到经验正交模态分解中，以自动调整参数，以便更好地捕捉海洋观测或监测数据的时空变异性。实验结果表明，所提出的方法能够有效地将海洋观测或监测数据进行轻量化，并保留主要的时空变化信息，为海洋观测或监测数据的存储、传输和分析提供了更高效的解决方案。

本发明是一种高度有效的数据压缩算法，充分考虑了非线性特征，以实现对海洋大数据的近乎无损压缩。此算法灵活地利用了特征提取、自主选择和自适应方法，旨在轻松应对庞大的海洋数据。本发明在考虑数据的时间和空间特性时，采用了一种独特的方法，将原始数据按照自主选择的周期进行分解，以适应不同的周期性变化。此外，与已有技术相比，本发明在压缩率、压缩和解压时间以及可靠性方面都表现出卓越的性能。

该发明的关键技术是利用数据的特性，可以自主选择周期，考虑了数据的周期性，根据不同的周期有不同的分解方法，从而弥补了传统压缩方法（系列算法等）的缺点和不足，克服了传统/>方法不能同时考虑时间和空间的不足，大幅提高了常用海洋观测或监测数据的压缩效率，从而有效节省了数据存储空间、提高了通信网络在单位时间内的吞吐传输能力，更好地实现了海洋大数据轻量化。因此，欲保护的专利技术是在传统的/>基础上添加了自主选择和自适应能力，对不同的周期数据有不同的分解方式，能够更快捷更高效更智能的实现海洋大数据轻量化。

实施例1，如图1所示，本发明实施例提供的海洋大数据智能轻量化处理方法包括：该方法将海洋原始数据利用周期自主选择进行先升维的操作，再根据周期和周期数自动进行降维，然后进行经验正交模态分解，再将自适应方法融入分解的经验正交模态中，捕捉海洋观测或监测数据的时空变异性，自动调整参数，完成海洋观测或监测数据不同数据轻量化；该方法具体包括以下步骤：

S1，数据分解：通过自主选择周期数将原始二维数据矩阵变成三维数据矩阵进行数据升维，再对数据升维的三维数据矩阵自动选择降维后的二维矩阵；对自动选择降维后的二维矩阵海洋历史数据分解成时空系数和时空模态。

实施例2，作为本发明另一种实施方式，如图2所示，本发明实施例提供的海洋大数据智能轻量化处理方法包括：

步骤1，数据介绍；假设历史海洋数据（例如：将海平面高度异常SLA作为数据集）是一个二维数据矩阵/>：

；

其中，代表空间数据点，/>代表时间长度，/>为空间数据点/>在时间点/>的观测值或测量值；对于海洋大数据轻量化方法而言，如果数据点较多且时间序列较长，即/>和足够大，该方法能够更好地处理海洋数据的规模和复杂性。它可以有效捕捉到海洋数据的时空特征，并通过降维和压缩来减少数据的大小和传输难度。因此，在海洋数据量庞大且需要传输或处理困难的情况下，这种综合的轻量化方法将会发挥优势。

步骤2，数据分解，包括：

2.1，数据升维；

首先进行数据升维，将原始二维数据矩阵变成三维数据矩阵，这里就需要本发明自主选择周期数，按压缩率自主将时间长度分解为周期/>和周期数/>，其中，需要先确定周期T，可以利用功率谱分析来估计海洋数据的主要周期/>，同时根据，其中[]表示取整符号，确定/>的取值，得到相对应的周期数/>。

当处理海洋大数据时，有必要考虑数据压缩的要求。首要任务是确立一个适切的压缩率（通常表示为ω），以确保在完成压缩处理后的数据依然能够满足压缩率小于ω的条件。为此，本发明可以进行初步估计，筛选出满足条件的周期T:，/>表示确定的压缩率，/>表示利用功率谱分析估计的海洋数据的主要周期；对于满足上述条件的集合统称为/>，其对应的周期数为/>，其中/>表示周期数的合集，进一步，在满足条件/>的基础上，对于满足上述条件的集合统称为/>，其对应的周期为/>，本发明可以自主选择适当的周期/>和相对应的周期/>。然后，舍弃时间长度/>中超过/>的部分，并将海洋数据转化为一个三维矩阵/>，其中，/>代表空间数据点，/>代表一个周期的时间点，/>代表周期数，这样的处理方法可以构建一个空间-时间-周期场，便于进一步的数据分析和处理。选择的所有周期中第/>个周期下的全部时间/>和空间点/>对应的数据，一共有K个矩阵，K是由功率谱分析和自主选择确定；将原始数据从二维变成三维，利用周期数K和时间T进行降维计算；本发明创新的给出一个周期的数据为：

；

式中，表示在第/>个周期下的全部时间/>和空间点/>，/>为在第/>个周期下空间数据点M在时间点/>的观测值或测量值。

2.2，数据降维；

为方便计算，接下来对数据进行降维操作，按照/>和/>的大小自动选择降维后的二维矩阵大小，因此有两种结果：

；

式中，和/>表示降维后的数据，/>表示数据点I在时间点/>的观测值或测量值；

；

2.3，数据分解选取方式；

由于上述降维方法的多样性，因此其分解过程也存在不同的选取方式：

（i）；

为减少计算成本，计算协方差矩阵，再通过矩阵变换获得/>矩阵的特征向量，/>矩阵的特征向量可以计算为：

；/>

该模型可以得到时空模态。其中，特征值表示了空间-周期场的变化程度，而特征向量表示了不同空间和周期模式的空间-周期结构。此外，/>表示/>的特征向量，/>表示特征值的对角矩阵。

将时空模态投影到矩阵X上就可以得到对应的主成分（时空系数），即：

；

同时，计算历史数据时空模态/>的逆矩阵/>，

；

其中，为/>的行列式，/>为/>的伴随矩阵。

逆矩阵的计算可以用来进行数据的反演或反向推导。具体而言，通过计算时空模态的逆矩阵，可以从已知的时空模态信息中推导出原始的数据。

因此，海洋历史数据就可以分解成时空系数/>和时空模态/>，即：

；

（ii）；

计算协方差矩阵,再通过矩阵变换获得/>矩阵的特征向量，/>矩阵的特征向量可以计算为：

；

该模型可以得到时空模态。其中，特征值表示了空间-时间场的变化程度，而特征向量表示了不同空间和时间模式的空间-时间结构。此外，/>表示/>的特征向量，/>表示特征值的对角矩阵。

同时计算历史数据时空模态/>的逆矩阵/>，表示如下：

；

其中，为/>的行列式，/>为/>的伴随矩阵。逆矩阵的计算可以用来进行数据的反演或反向推导。具体而言，通过计算时空模态的逆矩阵，可以从已知的时空模态信息中推导出原始的/>数据。

；

因此，海洋历史数据，就可以分解成时空系数/>和时空模态，表示如下：

；/>

步骤3，特征提取；

对于要被压缩的数据，可以基于不同的分解方式进行特征提取：

（a）；

将得到的和/>做乘积可得/>，本发明创新提出：

；

（b）；

首先将对数据进行降维，重构为：/>，再将得到的/>和被处理后的SLA数据/>做乘积可得/>，本发明创新提出：

；

步骤4，数据重构；

4.1，自适应机制；

在进行数据分解后，为了选择适当数量的主成分和时空模态/>，本发明引入自适应机制，设定了目标/>，代表累计方差贡献率。下面是考虑目标情况进行自适应，以达到更复杂的控制和优化目标。

本发明创新提出累计方差贡献率：

；

在上述过程中，本发明使用以下符号来表示不同的参数：代表特征根，/>表示设定的衡量指标，通常是累计方差率的大小。这个条件被视为终止条件，并且在选择/>和的数量时必须满足/>才能停止。其算法流程如下：

步骤i：初始化累计方差贡献率；

在这个迭代过程中，本发明会不断检查累计方差贡献率是否达到了预设的目标阈值/>。一旦累计方差贡献率/>超过或等于目标阈值/>，算法将立即终止循环，并且选取前/>个特征向量作为数据的新表示，本发明让/>为选择的/>和/>数量。

这样做的目的是根据累计方差贡献率，自适应地选择特征数量，以满足预设的累计方差贡献率要求，从而实现轻量化并保留足够多的信息。这种自适应机制可以根据不同的数据集，动态地选择合适的特征数量，以满足特定的数据分析或模型需求。

将自适应机制纳入该模型中可以使得模型更具适应性、准确性和普适性，能够更好地处理复杂的时空数据，随着新数据的不断产生，自适应机制可以迅速适应新的数据特征，保持模型的高效性和精确性，实现实时或近实时数据处理。

4.2，数据重构方式；

从两种特征提取方式可以得到两种数据重构方式：

第一种，；

第一步：由自适应机制可以得到前个/>时空模态/>与时空系数的Q个元素/>。将得到的/>和/>即可得到重构/>数据，本发明创新提出：

；

第二种，；

第1步：由自适应机制可以得到前Q个SLA时空模态与时空系数/>的Q个元素/>。将得到的/>和/>即可得到重构SLA数据/>，本发明创新提出：/>第2步：进行模型评估，将得到的/>与原始数据/>进行比较，若得到

的相关系数，则返回上一步，令/>，重新进行数据重构，直到。若得到的相关系数/>，将/>升维为/>，即可得到重构数据。

该方法能够同时考虑空间和时间维度上的变化，以捕捉数据的时空特征。

在处理含有时序信息的海洋或气候数据时，该模型能更好地反映数据的演变趋势和变化规律。通过融合降维和分解数据的方式，该方法使得数据处理更加高效，并能够保留主要信息，减少冗余和噪声。相比于现有轻量化技术，该方法具有综合考虑时空信息和提高数据解释性的优势。

通过重构原始的SLA数据，智能轻量化处理方法能够获得更低维度的表示，同时尽可能保留更多信息。这种方法有助于简化复杂的数据分析和处理过程，减少对存储和计算资源的需求，同时有效地保持对原始数据的表示。

实施例3，本发明提供一种海洋大数据智能轻量化处理系统，该系统包括：

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

上述装置/单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程。

本发明实施例还提供了一种计算机设备，该计算机设备包括：至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意各个方法实施例中的步骤。

本发明实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时可实现上述各个方法实施例中的步骤。

本发明实施例还提供了一种信息数据处理终端，所述信息数据处理终端用于实现于电子装置上执行时，提供用户输入接口以实施如上述各方法实施例中的步骤，所述信息数据处理终端不限于手机、电脑、交换机。

本发明实施例还提供了一种服务器，所述服务器用于实现于电子装置上执行时，提供用户输入接口以实施如上述各方法实施例中的步骤。

本发明实施例提供了一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行时可实现上述各个方法实施例中的步骤。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random AccessMemory，RAM）、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。

为进一步说明本发明实施例相关效果，进行如下实验。

案例一：ILPM在海平面高度异常数据集上的应用。

本发明选用中国南海长期卫星观测的海平面高度异常（Sea Level Anomaly，SLA）数据集为例进行实验，进行全时段连续的测试实验。数据集的空间分辨率为0.25°×0.25°，时间分辨率为1天，时间范围为1997年1月1日至2018年12月31日。其中，对于全时段连续，选用1997年至2017年的数据为训练集，2018年的数据作为测试集，构成三维原始数据矩阵。

本发明选择了周期，因此就是第一个分解方式。为了有效地对这些空间点进行处理，本发明选择了其中前4个主成分（/>）作为重构/>，这一选择仅占据了不到总/>的0.4%。此举旨在实现数据的高效压缩和处理，以便在后续分析中更好地应用这些数据。

值得强调的是，尽管本发明仅选取了0.4%的主成分进行重构，但本发明的研究确保了在数据压缩和解压缩后，其与原始数据的一致性保持在96%以上。这意味着本发明在数据压缩过程中并未丢失重要信息，并且本发明能够在后续分析中准确还原原始数据的大部分变化。

图3展示了2018年1月1日至12月26日重构数据与原始数据之间的日相关系数（Correlation Coefficient，CC）变化情况。其中，蓝色实线为日相关系数，灰色虚线代表平均相关系数。依图2可见，重构数据与原始数据之间日相关系数均超过0.97，而且重构数据与原始数据之间的平均相关系数达到了0.9949。由此可见，该数据压缩算法可近无损地进行数据压缩。

经过以上分析可知，基于21年连续的历史数据利用/>方法来重构2018年全年近实时/>数据具有良好的效果，具体表现为：选择了4个/>，仅占全部特征向量的0.4%，但还原的重构数据与原始数据的相关性却达到了0.99。

案例二：ILPM在绝对地转流数据集上的应用。

本发明选用中国南海长期卫星观测的绝对地转流（）数据集为例进行实验，进行全时段连续的测试实验。数据集的空间分辨率为0.25°×0.25°，时间分辨率为1天，时间范围为1997年1月1日至2018年12月31日。其中，对于全时段连续，选用1997年至2017年的数据为训练集，2018年的数据作为测试集，构成三维原始数据矩阵。

本发明对于和/>都选择了周期/>，因此就是第一个分解方式。为了有效地对这些空间点进行处理，本发明选择了其中前5个主成分（/>）作为重构，这一选择仅占据了不到总/>的0.4%。此举旨在实现数据的高效压缩和处理，以便在后续分析中更好地应用这些数据。

尽管本发明仅选取了0.4%的主成分进行重构，但本发明的研究确保了在数据压缩和解压缩后，其与原始数据的一致性保持在96%以上。这意味着本发明在数据压缩过程中并未丢失重要信息，并且本发明能够在后续分析中准确还原原始数据的大部分变化。

图4展示了2018年1月1日至12月26日重构数据与原始数据（）之间的日相关系数变化情况。其中，实线为日相关系数，灰色虚线代表平均相关系数。依图4可见，重构数据与原始数据之间日相关系数均超过0.98，而且重构数据与原始数据之间的平均相关系数达到了0.9966。由此可见，该数据压缩算法可近无损地进行数据压缩。

图5展示了2018年1月1日至12月26日重构数据与原始数据（）之间的日相关系数变化情况。其中，蓝色实线为日相关系数，灰色虚线代表平均相关系数。依图4可见，重构数据与原始数据之间日相关系数均超过0.975，而且重构数据与原始数据之间的年平均相关系数达到了0.9949。由此可见，该数据压缩算法可近无损地进行数据压缩。/>

经过以上分析可知，基于21年连续的历史数据利用/>方法来重构2018年全年近实时/>数据具有良好的效果，具体表现为：选择了5个/>，仅占全部特征向量的0.4%，但还原的重构数据与原始数据的相关性却达到了0.99。

这种高效而精确的重构方法为本发明提供了一种强大的大数据轻量化工具，使得在不丢失重要信息的前提下，能够大幅度减少数据存储和处理的成本。同时，通过对历史数据的分解和重构，本发明也能更深入地理解海洋表面高度异常、地转流的变化模式与演变规律，为对海洋动力学、气候变化等领域的研究提供了有力支持。

实验表明，海洋大数据不仅拥有海量的数据规模，而且是半结构化、非结构化、数据量之大以至无法在一定时间内用传统方法进行获取、管理和处理的数据集合，同时，其关联性很强，存储非常复杂，因此，本发明通过特征选取方式对海洋大数据进行轻量化处理极大缓解了其传输、存储等方面存在的约束。是对传统的经验正交函数分解方法进行的一次大的升级改造，使其在原有基础上增添了自主选择和自适应能力，从而实现了海洋大数据智能轻量化的目的。再者，海洋大数据具有典型的时空耦合特点，同时拥有时间和空间属性，所以数据分析过程需要同时从时间轴和空间轴两个维度进行分析，而本发明运用方法将原始数据分解为时空系数和时空模态两部分，可以充分展现其海洋数据空间特性，并且其空间特性可以在分解时快速集中到几个主要模态。同时，分解出的时空模态不仅具有实际物理意义，而且保留了数据的绝大部分特性，使其具有良好的可靠性。此外，本发明通过自适应机制对/>方法分解出的时空模态进行选择，使压缩率比传统的压缩算法低，一般在5%以下，同时可以确保最后进行的数据重构也就是解压数据的可靠性可以达到99%以上，也就是说其解压数据和原始数据的一致性在99%以上，而且可以保证本发明在1分钟内完成/>海洋数据的压缩和解压。综上所述，本发明压缩比高，海洋信号损失少，能够在保持可靠性的前提下快速满足数据压缩需求。

海洋蕴藏着巨大的价值，海洋大数据本身代表的物理机理能够为实现预测、预警和预报等提供数据支撑，因此，监测或者观测后获取的海洋大数据需要尽快传输到国家海洋综合数据库等职能部门，方便进一步研究。海洋大数据研究的主要目的是实现从海洋数据到海洋信息、海洋数据到海洋知识、海洋数据到海洋问题的理解、海洋数据到决策智慧的转换。例如：在海洋预报减灾方面：面临的海洋灾害种类繁多，包括风暴潮(台风风暴潮和温带风暴潮)等，为了尽可能的避免人员伤亡和经济损失，就需要对相应的灾害进行预报：以海洋灾害监测与信息分布为例，通过分析原始的海洋观测数据，可以提出风暴潮预报和警报的信息，可以及时预知海洋自然灾害的发生，开展海洋灾害的预警报，再通过制作和发布预警的方式，就可以帮助更多人避开海洋灾害，并逐步掌握避免海洋灾害的预警报能力。但是，一切的前提是，需要数据的快速传输，而本发明就提供了一种可靠的快速、精准的数据轻量化处理方法，为快速预测、预警和预报等提供了数据支撑。

海洋大数据对分析结果的精度要求很高，而且涉及不同应用主题，大多对时效性要求很高，同时大多数据分析过程需要从时间和空间两个维度进行分析。因此，本发明提供的方法可将原始海洋数据分解为时间系数和时空模态，加快了对海洋大数据传输和分析的速度，确保时效性。/>

对于广阔的海洋来说，卫星遥感具有速度快、成本低、监测范围广、便于长期动态监测等优势，成为监测全球变化背景下海气相互作用和海洋环境变化的重要手段，因此，本发明提供的数据压缩方案有助于卫星遥感数据快速传输到地面数据库中，帮助相关的海洋决策，帮助了解海洋产业的发展趋势，通过制定合理的产业政策和规划，推动产业有序运行，同时进行有效监管和调控。

以上所述，仅为本发明较优的具体的实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种海洋大数据智能轻量化处理方法，其特征在于，该方法将海洋原始数据转换成按周期自主选择的数据，对按周期自主选择的数据先升维后降维，进行经验正交模态分解，再将自适应方法融入分解的经验正交模态中，捕捉海洋观测或监测数据的时空变异性，自动调整参数，完成海洋观测或监测数据不同数据轻量化；具体包括：

S1，数据分解：通过自主选择周期数将原始二维数据矩阵变成三维数据矩阵进行数据升维，再对数据升维的三维数据矩阵自动选择降维后的二维矩阵；对自动选择降维后的二维矩阵海洋历史数据分解成时空系数和时空模态EOFs_H×H；

S2，特征提取：对于要被压缩的数据Y_M×T，基于不同的分解方式进行时空模态EOFs_H×H以及时空模态EOFs_H×H的逆矩阵进行特征提取；

S3，数据重构：基于特征提取的数据，通过自适应方法选择主成分和时空模态的数量，对获得的主成分和时空模态的数量得到不同重构数据，所述重构数据包括含有时序信息的海洋或气候数据在空间和时间维度变化的时空特征；

在步骤S1中，原始二维数据矩阵为历史海洋数据X的二维数据矩阵X_M×N，表达式为：

其中，M代表空间数据点，N代表时间长度，x_MN为空间数据点M在时间点N的观测值或测量值；

按压缩率自主将时间长度N分解为周期T和周期数K，利用功率谱分析估计海洋数据的主要周期根据/>其中[]表示取整符号，确定K的取值，得到相对应的周期数/>

当处理海洋大数据时，确立适切的压缩率ω，筛选出满足条件的周期T，表示为：ω表示确定的压缩率，/>表示利用功率谱分析估计的海洋数据的主要周期；对于满足上述条件的集合为/>对应的周期数为/>其中/>表示周期数的合集，在满足条件/>的基础上，对于满足上述条件的集合为/>对应的周期为/>自主选择周期/>和相对应的周期/>放弃时间长度N中超过T×K的部分，并将海洋数据转化为三维矩阵X_M×T×K，其中，M代表空间数据点，T代表一个周期的时间点，K代表周期数；

选择的所有周期中第K^*个周期下的全部时间T^*和空间点M对应的数据，一共有K个矩阵，K是由功率谱分析和自主选择确定；将原始数据从二维变成三维，利用周期数K和时间T进行降维计算；一个周期的数据表示为：

表示在第K^*个周期下的全部时间T^*和空间点M，/>为在第K^*个周期下空间数据点M在时间点T^*的观测值或测量值；

在步骤S1中，所述对数据升维的三维数据矩阵自动选择降维后的二维矩阵包括：

对数据X进行降维操作，按照T和K的大小自动选择降维后的二维矩阵大小，包括：

(1)当T≤K，周期小于等于周期数，将数据X_M×T×K降维成X_(M×K)×T，记M×K＝I，降维后的数据为X_I×T，表达式为：

式中，X_(M×K)×T和X_I×T表示降维后的数据，X_IT表示数据点I在时间点T的观测值或测量值；

(2)当T>K，周期大于周期数，将数据X_M×T×K降维成X_(M×T)×K，记M×T＝H，降维后的数据为X_H×K，表达式为：

式中，X_(M×T)×K和X_H×T表示降维后的数据，X_HK表示数据点H在周期K的观测值或测量值；

在步骤S1中，通过不同的选取方式分解成时空系数和时空模态EOFs_H×H包括：

(i)T≤K；计算协方差矩阵再通过矩阵变换获得C^*矩阵的特征向量，C^*矩阵的特征向量计算为：

C^*×EOF＝EOF×Λ

式中，时空模态EOF表示C^*的特征向量，Λ表示特征值的对角矩阵；

将时空模态投影到矩阵X上得到对应的主成分，即：

PC＝X×EOF

同时，计算历史SLA数据时空模态EOFs_T×T的逆矩阵通过逆矩阵的计算公式求出时空模态EOFs_T×T的逆矩阵/>和计算出的PC相乘，计算出原始数据X，进行特征提取；表达式为：

其中，|EOFs_T×T|为EOFs_T×T的行列式，为EOFs_T×T的伴随矩阵，逆矩阵的计算用来进行数据的反演或反向推导，通过计算时空模态的逆矩阵，从已知的时空模态信息中推导出原始的SLA数据；

海洋历史数据X_I×T分解成时空系数PCs_I×T和时空模态EOFs_T×T，即：

其中，I表示M×K，其中M代表空间数据点，T代表一个周期的时间点，K代表周期数；

(ii)T>K；

计算协方差矩阵再通过矩阵变换获得C矩阵的特征向量，C矩阵的特征向量计算为：

C×EOF＝EOF×Λ

同时计算历史SLA数据时空模态EOFs_H×H的逆矩阵表示如下：

其中，EOFs_H×H|为EOFs_H×H的行列式，为EOFs_H×H的伴随矩阵；

将时空模态投影到矩阵X上得到对应的主成分，即：

海洋历史数据X_H×K分解成时空系数PCs_H×K和时空模态EOFs_H×H，表示如下：

X_H×K＝EOFs_H×H×PCs_H×K

其中，H表示M×T，其中M代表空间数据点，T代表一个周期的时间点，K代表周期数；

在步骤S3中，所述通过自适应方法选择主成分和时空模态的数量包括：

为选择适当数量的主成分PC和时空模态EOF，引入自适应机制，设定目标Z₁，代表累计方差贡献率；累计方差贡献率Z₁：

式中，Λ代表特征根，表示设定的衡量指标，在选择EOF和PC的数量中满足停止；

所述自适应方法具体包括：

步骤i：初始化累计方差贡献率C＝0，Q＝0；

步骤ii：对每个特征根Λ(i)执行以下操作：计算每个Λ对应的方差贡献率；

步骤iii：遍历循环每个Λ(i)，在此过程中逐步递增累计方差贡献率C至C_i，同时每完成一次循环Q＝Q+1；

在迭代过程中，不断检查累计方差贡献率C是否达到了预设的目标阈值一旦累计方差贡献率C超过或等于目标阈值/>立即终止循环，并且选取前Q个特征向量作为数据的新表示，Q为选择的EOF和PC数量。

2.根据权利要求1所述的海洋大数据智能轻量化处理方法，其特征在于，在步骤S2中，对于要被压缩的数据Y_M×T，基于不同的分解方式进行特征提取：

(a)T≤K；

将得到的EOFs_T×T和Y_M×T做乘积得PCs_M×T：

PCs′_M×T＝Y_M×T×EOFs_T×T

(b)T>K；

首先将对数据进行降维，Y_M×T重构为：Y_(M×T)×1＝Y_H×1，再将得到的和被处理后的SLA数据Y_H×1做乘积得PCs_M×T：

3.根据权利要求1所述的海洋大数据智能轻量化处理方法，其特征在于，在步骤S3对获得的主成分和时空模态的数量利用不同特征提取方式得到不同重构数据中，T≤K时，从以下特征提取方式得到数据重构：

第一步：由自适应机制可以得到前Q个SLA时空模态与时空系数PCs′_M×T的Q个元素PCs_M×Q；将得到的/>和PCs_M×Q即可得到重构SLA数据Y′_M×T，提出：

第二步：进行模型评估，将得到的Y′_M×T与原始数据Y_M×T进行比较，若得到的相关系数则返回上一步，令Q＝Q+1，重新进行数据重构，直到/>

4.根据权利要求1所述的海洋大数据智能轻量化处理方法，其特征在于，在步骤S3对获得的主成分和时空模态的数量利用不同特征提取方式得到不同重构数据中，T>K时，从以下特征提取方式得到数据重构：

第1步：由自适应机制可以得到前Q个SLA时空模态EOFs_H×Q与时空系数PCs′_H×1的Q个元素PCs′_Q×1；将得到的EOFs_H×Q和PCs′_Q×1即可得到重构SLA数据Y′_H×1：

Y′_H×1＝EOFs_H×Q×PCs′_Q×1

第2步：进行模型评估，将得到的Y′_H×1与原始数据Y_H×1进行比较，若得到的相关系数则返回上一步，令Q＝Q+1，重新进行数据重构，直到/>若得到的相关系数将Y′_H×1升维为Y″_M×T，即得到重构数据。

5.一种海洋大数据智能轻量化处理系统，其特征在于，该系统通过权利要求1-4任意一项所述的海洋大数据智能轻量化处理方法实现，该系统包括：

特征提取模块，用于对于要被压缩的数据Y_M×T，基于不同的分解方式进行时空模态以及时空模态的逆矩阵进行特征提取；