CN109947879B

CN109947879B - 一种基于复杂网络的海洋观测大数据可视化分析方法

Info

Publication number: CN109947879B
Application number: CN201910083507.0A
Authority: CN
Inventors: 孙鑫; 罗新艳; 董军宇
Original assignee: Ocean University of China
Current assignee: Ocean University of China
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2023-07-04
Anticipated expiration: 2039-01-29
Also published as: CN109947879A

Abstract

一种基于复杂网络的海洋观测大数据可视化分析方法，包括将原始海洋观测大数据进行网格划分，将网格内的日均数据构建成单高斯和混合高斯模型，得到以概率特征向量代表的节点；确定单、多高斯网络内任意两节点之间的相似性，得到相似性矩阵；设定阈值，得到邻接矩阵，根据邻接矩阵对每一个节点计算其度数、聚类系数、节点介数，并在双对数坐标或上可视化或绘制在地图上。本发明首次将混合高斯模型与复杂网络理论结合，提出了一种海洋观测大数据分析和可视化的方法，最大限度地还原了海洋运动反映在数据上的波动，并利用模型参数来表达高维海洋数据，不仅解决了基于皮尔逊相似性构建的网络模型只能度量时序数据的缺点，在计算速度上也有所提升。

Description

一种基于复杂网络的海洋观测大数据可视化分析方法

技术领域

本发明涉及一种基于复杂网络的海洋观测大数据可视化分析方法，尤其是对长尺度的时间序列数据复杂网络建模及可视化分析，属于大数据分析领域。

背景技术

海洋对全球气候有着不可忽视的影响，其与大气之间相互作用的异常可引起全球性的极端气候事件。如异常海风与海水相互作用引发著名的厄尔尼诺与拉尼娜事件，海表气压与的大气环流的关联引起北美太平洋涛动(PNA)，大气气压与海流的相互作用造成北大西洋涛动(NAO)等。上述的气候模态引发的异常气候事件不仅会给全球造成严重的洪涝和干旱灾害,还会严重破坏海洋生物链，使许多国家的工农业生产遭受严重损失。因此，亟待需要研制有效的海洋状态的监控系统，以通过预测极端气候事件来减少其对人类社会的影响。

海洋卫星观测数据不仅提高了海洋学家对海洋的认识和理解，同时也提供了一个监测海洋稳定性的手段。随着探测设备和信息技术的不断发展，海洋数据获取手段日益增多，海洋信息获取的速度和精度也在不断提高。目前海洋科学领域积累的海洋数据浩如烟海，它涵盖了海表面温度、海面风速、海浪、海流、水位和海冰等各种要素的观测值。在特定的经纬度分辨率上观测的海洋数据具有海量性、多类性、模糊性、地理关联性和时空耦合性等特点。要通过海洋数据对海洋状态进行监测和海洋现象发现，首先需要对海洋数据进行挖掘与分析。而海洋观测数据的独特性质给海洋数据分析工作带来了很大的挑战，同时其随机性和动态性也严重影响着海洋数据应用的时效性和准确性，限制了海洋数据最大应用价值的挖掘。为了探索海洋数据提供的信息，海洋学家和气候学家不断地尝试将各种数据分析方法应用于海洋数据分析，如回归预测、统计分析和聚类分析等。上述方法虽然增强了人们对海洋数据的理解，但并没有将海洋数据的价值实现最大化。面向海洋数据的分析和处理技术滞后于观测技术使得海洋学家一直面临“大数据、小知识”的窘境。

现有技术中，在面对海洋观测大数据的分析问题时通常采用以下几种方案

EOF：Lorenz在20世纪50年代首次将EOF引入气象和气候研究，EOF首先通过计算出每个观测点的海洋时序数据之间的相关性得出相关矩阵，随后对相关矩阵进行特征分解，最后将非负最大特征值对应的特征向量(Leading EOF)作为海洋观测数据的一维投影。EOF方法展开收敛速度快，很容易将大量资料信息浓缩集中。此外，EOF还能对有限区域内不规则分布的站点进行分解，且分解的空间结构具有明确的物理意义。因此，EOF的结果具有一定的权威性，通常作为检验新方法结果正确性的标准。

然而使用EOF方法分析海洋数据时存在以下问题，通常使用时空分解来对海洋数据进行降维，其计算步骤异常繁琐，使得EOF方法无法满足日益增大的海洋数据所需分析技术的要求。

此外，EOF方法通常将最大特征值对应的特征向量(Leading EOF)作为海洋数据的特征进行分析。这不仅导致EOF方法的分析元素单一，也使EOF忽略了海洋系统的动态性、远距离海域相互作用的过程以及能量流动等更深层的信息。

又因为EOF方法在计算时将海洋数据转换为矩阵，它度量的是两个海域之间的线性相关性，忽略了海洋系统的非线性动态特征。

现有技术中还存在基于皮尔逊相关系数构建的海洋复杂网络：在自然科学领域中，皮尔逊相关系数广泛用于度量两个变量之间的相关程度。通过皮尔逊相关系数构建网络通常包含三个步骤：首先，选择网络节点的表示，直接将原始观测点的时序数据作为节点或者取特定经纬度内的数据作为节点；随后，用皮尔逊相关系数度量两个节点之间线性相关性，将它们的相关系数作为两个节点是否有连接的依据，构建网络模型；最后，根据构建出的网络模型，利用复杂网络的统计描述对网络进行分析，从而通过网络拓扑特征挖掘海洋数据的深层信息。值得注意的是皮尔逊系数是对称的，因此需对相关系数取绝对值。

基于皮尔逊相关系数构建网络模型的缺点在于：使用皮尔逊相关系数度量两个海域之间的相似性，将海洋系统模拟成一个复杂系统。构建复杂网络不仅解决了EOF方法存在的计算繁琐问题，同时复杂网络拓扑高阶特征可揭示海洋的能量流动现象解决了EOF方法的分析结果单一问题。但皮尔逊相关系数通常计算的是时序数据之间的相关性，导致对数据预处理空间较小；同时皮尔逊相关系数只能度量的是两海域之间的线性相关，因此基于皮尔逊相关系数构建的网络模型忽略了海洋数据分布的随机性从而导致构建的模型的准确性欠缺。

此外还有基于互信息构建的海洋复杂网络：网络模型构建过程与基于皮尔逊相关系数构建过程相似，区别在于度量两节点之间相关性的方法由皮尔逊相关系数替换成互信息。

然而，通过互信息度量两海域之间非线性相关性构建复杂海洋网络，还原了海洋系统的非线性动态性，但互信息的准确性需要的数据量太过庞大。

发明内容

本发明的目的是提供一种基于复杂网络的海洋观测大数据可视化分析方法，以克服现有技术的不足。

一种基于复杂网络的海洋观测大数据可视化分析方法，根据其最终的可视化结果，又可分为度分布可视化分析方法、聚集系数可视化分析方法、介数中心性可视化分析方法，其特征在于包括以下步骤：

1)海洋观测大数据的预处理

下载NOAA提供的海洋观测大数据，所述的海洋观测大数据在经纬度上是具有Lat*Lon分辨率的日均数据，而Lat与Lon均为千级；将原始数据根据经纬度进行网格划分，使每个网格的经纬度均为2度，每个网格数据在年度上为一M*N*T的三维矩阵，其中M表示网格内的纬度分辨率，N表示网格内的经度分辨率，T表示时间维度，T的最小取值单位为天数；

2)网络节点建模

将网格内的日均数据构建成单高斯和混合高斯模型，以保留数据在年度上分布的动态性和随机性；

假设有一随机变量X，若其分布服从期望为μ，方差为σ的高斯分布，则记之为N(x|μ,σ²)，其概率密度函数如下式：

其中μ、σ分别为该分布的期望和标准方差，高斯分布可看成一个单高斯模型；

用公式(一)拟合网格内日均数据，此时公式(一)内的x代表网格内的观测数据，拟合后网格内每日数据可用单高斯模型的μ、σ来表示，M*N*T的网格数据可转换为两个1*T的向量[μ₁,μ₂,…,μ_T]和[σ₁,σ₂,…,σ_T]，将其称为单高斯概率特征向量，并用其代表单高斯网络中节点；

混合高斯模型是由数个单高斯模型线性组合而成，每个单高斯模型称为混合模型中的一个分量(Component)，混合高斯模型可表示为下式：

其中N(x|μ_i,σ_i)表示混合模型中第i个分量，μ_i和σ_i表示第i个分量的期望与协方差矩阵；

混合高斯模型的概率密度函数表示为：

其中K表示混合高斯模型所包含分量的数量，

表示第i个分量对应的权重，且混合模型中各分量对应的权重之和为1；混合模型包含的分量数K需要人为指定，在保证模型中的高斯分布数量能精确地拟合网格内数据分布的基础上，考虑到实验的计算效率，将模型中高斯分布的数量K指定为3；

利用混合高斯模型模拟网格内数据时，网格数据可以用公式(三)内的期望μ_i、协方差矩阵σ_i和权重

表示，则年度的数据可表示为3个1*K*T的概率特征向量，称为多高斯概率特征向量，此向量可表达多高斯网络中节点；

3)构建网络中的边

在上一步骤之后，得到以概率特征向量代表的节点；为了构建网络中的边，需要度量节点之间的相似性，为了度量两概率特征向量之间的相似性，本发明引用贝叶斯定理，将特征向量属于另一向量的概率定义为它们之间的相似性，称为概率匹配；

则单高斯网络中节点Q和节点V之间相似性p可通过下式计算：

公式(四)为单高斯概率匹配计算方式，其中q_n和v_n分别是单高斯网络节点Q和V中第n个网格数据拟合而成的单高斯模型的概率密度函数；其中μ_q和μ_v分别是q_n和v_n的均值，σ_q和σ_v分别是q_n和v_n的方差；

由于混合高斯模型是由有限个单高斯模型线性组合而成的概率模型，因此本发明沿用以上单高斯概率匹配的计算方式来度量多高斯概率特征向量之间的相似性，将其相似性定义为向量内两两高斯分布相似性的乘积；

在混合高斯网络中，以节点Q和V为例，将它们之间的相似性记为P，其计算公式如下：

其中q_ni是节点Q中由第n个网格数据拟合而成的混合高斯模型的第i个分量的概率密度函数，相应的，v_jn是节点V中第n个网格数据拟合而成的混合高斯模型的第i个分量的概率密度函数，K为每个模型中分量数，本发明中指定为3，T为每个模型中时间序列的维度；

考虑到多高斯网络节点中存在多个分量，对两模型之间每个分量的相似性进行多次乘积会造成数据下溢；为了解决这个问题，引用最大似然估计(maximum likelihoodestimation,MLE)的思想，对公式(五)中的多项式乘积取对数；因此，多高斯概率匹配公式可进一步表示为：

根据公式(六)对两个多高斯概率特征向量内的多个分量相似性的对数求和可得多高斯网络中节点之间的相似性。

通过公式(四)和公式(六)可确定单、多高斯网络内任意两节点之间的相似性，将其记录于矩阵内，得到相似性矩阵；

接下来，需要设定阈值作为节点间是否存在边的依据，根据多位气候学家论证的结果：边密度ρ＝0.01在t-test中具有95％以上的置信度，结合边密度ρ来确定阈值，最终将网络中边密度设为ρ＝0.01。边密度的定义是网络中实际存在的边与网络中可能存在的边的比值，将相似度与阈值比较，若相似度矩阵中元素值大于等于阈值，则将相应元素标为1，否则记为0，由此得到邻接矩阵。

4)网络拓扑结构可视化分析

由上一步骤得到的邻接矩阵可确定网络结构，此时，网络结构仍然是透明的；为了得到对网络结构直观的了解，需要根据网络拓扑特征描述对网络拓扑进行量化分析；

本发明选择三种复杂网络拓扑特征来量化网络特性可视化于地图上，下面分别对三种网络特征描述进行简单的介绍：

(1)一种基于复杂网络的海洋观测大数据的度分布可视化分析方法

节点的度是指与其直接相连的邻居个数，节点的度越大，能够直接影响的邻居也就越多，因此该节点在网络中也就越重要；

以δ(k)表示网络中度数为k的节点数占网络中总节点数的比例称为度分布，k的取值为网络中度的波动范围；节点的度分布是网络中节点度的总体描述，是从宏观上研究个体间关联的差异程度的一个指标。

度分布的规律可以反应一个网络的性质，如无标度网络的度分布为幂律分布，规则网络的度分布为Delta分布，而完全随机网络的度分布为Poisson分布。

为了能直观看出网络中度分布的规律，本发明根据邻接矩阵对每一个节点计算其度数，将度分布δ(s)在双对数坐标上可视化，并将节点的度取对数后绘制在地图上。

(2)一种基于复杂网络的海洋观测大数据的聚集系数可视化分析方法

聚集系数是节点聚集程度的度量方式，是通过节点的邻居节点之间实际存在的边数和邻居节点之间所有可能存在的边数之比计算出，节点A_i的聚类系数计算公式可表示为：

C_i＝2E_i/G_i(G_i-1)公式(七)

其中，G_i是节点A_i的度，E_i为节点A_i的邻居节点之间实际存在的边的数量；

网络中某节点的聚类系数越高，说明了该节点的邻居之间成为邻居的可能性越大，对于整个网络而言，网络的聚类系数越高，说明网络的鲁棒性越强。

为了能直观看出海表温度网络中节点的聚类属性，本发明根据邻接矩阵对每一个节点计算其聚类系数，将节点聚类系数绘制在地图上。

(3)一种基于复杂网络的海洋观测大数据的介数中心性可视化分析方法

网络中任意不相邻的节点之间经过节点A_i的最短路径数量与其最短路径总数的比值为节点介数，节点A_i的介数计算公式可表示为：

其中l_st是节点s到节点t之间最短路径的数量，而l_st(i)为节点s到节点t最短路径中经过节点A_i的路径数。节点的介数越大，说明经过该节点的最短路径越多，同时也说明了该节点到达其他节点的最短路径越多。若删除一个具有较大介数中心性的节点，网路中许多节点之间的最短路径将被延长。更极端的情况是，当该节点为割点时，移除该节点会将网络分为两个独立的子网。因此，节点的介数可反映网络中能量的流动情况；

为了能直观从海表温度网络介数看出海洋行为的能量流动路径，本发明根据邻接矩阵对每一个节点计算其节点介数，将节点介数绘制在地图上。

有益效果

近年来，复杂网络理论在处理现实中由动态数据构成的复杂系统取得显著成效，例如，Internet数据、社交网路、发酵网络、交通网络等。海洋学家发现复杂网络是一个强大的海洋数据挖掘工具是因为复杂网络具有对时间序列数据的时空相关性的学习能力。在20世纪初，Gilbert T.Walker初次将复杂网络理论应用于气候数据挖掘，通过发现Walker环流和太平洋南方涛动成功预测了印度季风异常事件。目前，复杂网络已经在自然科学领域掀起一股研究热潮，多种由复杂网络演化而来的网络模型可从宏观上探索整个海洋系统的动态以及监测海洋系统的异常从而达到海洋现象发现以及预测的作用。

复杂网络可将海洋观测数据构建成网络模型，并从网络拓扑结构中深层挖掘海洋与气候的关联。因此，发明一种基于复杂网络的海洋数据模型，从微观与宏观上保证海洋系统整体的动态性，实现海洋数据的最大应用价值是有必要的。

本发明首次将混合高斯模型与复杂网络理论结合，提出了一种海洋观测大数据分析和可视化的方法，具有以下显著的创新：

使用混合高斯模型拟合海洋数据分布，并将模型参数组成的概率密度特征向量作为网络中节点的特征；

根据模型参数提出单高斯概率匹配和多高斯概率匹配的相似性度量方式，将海洋构建为一个网络结构；

利用复杂网络的度、聚类系数和介数中心性对构建的海洋网络结构视为一个随机动态系统，从而进行可视化分析。

本发明利用混合高斯模型非线性拟合海洋观测数据，最大限度地还原了海洋运动反映在数据上的波动，并利用模型参数来表达高维海洋数据，不仅解决了基于皮尔逊相似性构建的网络模型只能度量时序数据的缺点，在计算速度上也有所提升。

此外，本发明提出的模型根据混合高斯模型的参数选择不同的度量方法来度量两模型的相似性，保留了海域之间相互作用的真实性。解决了皮尔逊相关系数只能度量两时序数据之间的线性相似性，忽略了时序数据之间存在非线性相关的缺点。该模型能够根据长时段的海洋数据将海洋系统模拟成随机动态系统，从宏观上把握海洋的运动以及海洋与大气之间的能量交换过程。

此外，本发明引用度分布、聚类系数以及介数等复杂网络的特征描述量化网络拓扑性质并将其可视化于地图上，为海洋数据分析提供了一种新的视角。

附图说明

图1为本发明一种海洋观测大数据的分析方法的流程图。

图2为本发明构建的单高斯和混合高斯网络的度分布的双对数坐标可视化结果。

图3为本发明构建的单高斯和混合高斯网络的度分布在地球上的可视化结果。

图4为本发明构建的单高斯和混合高斯网络的聚类系数分布在地球上的可视化结果。

图5为本发明构建的单高斯和混合高斯网络的介数在地球上的可视化结果。

具体实施方式

将海洋观测数据通过复杂网络技术理论建模成基于高斯混合模型的复杂网络并进行可视化分析，建模及分析过程如图1所示，现以2010年的海表温度数据为例介绍网络建模的主要步骤，其他大数据均可采用同样的模式进行分析，由此可见，本发明的这种方法可作为一种普遍适用的工具，具有很强的通用性。

1.大数据数据预处理网络节点建模

下载NOAA提供的日均海表温度数据在经纬度上的分辨率为3600*7200，为使构建的网络结构尺度更合理，将原始数据划分为90*180个网格，在年度上，每个网格内包含的数据为40*40*365的三维矩阵；为了保留数据在年度上分布的动态性和随机性，本发明将网格内的日均数据构建成单高斯和混合高斯模型。

其中μ、σ分别为该分布的期望和标准方差，高斯分布可看成一个单高斯模型。用公式(一)拟合网格内日均维度为40*40数据时，式内的x代表网格内的观测数据，拟合后网格内每日数据可用单高斯模型的μ、σ来表示，在年度上，40*40*365的三维矩阵可转换为两个1*365的向量[μ₁,μ₂,…,μ₃₆₅]和[σ₁,σ₂,…,σ₃₆₅]，将其称为单高斯概率特征向量，并用其代表单高斯网络中节点的特征。

其中N(x|μ_i,σ_i)表示混合模型中第i个分量，μ_i和σ_i表示第i个分量的期望与协方差矩阵。

混合高斯模型中每个分量对应一个权重，其概率密度函数表示为：

其中K表示混合高斯模型所包含分量的数量，

表示第i个分量对应的权重，混合模型中各分量对应的权重之和为1；混合模型包含的分量数K需要人为指定，在保证模型中的高斯分布数量能精确地拟合网格内数据分布的基础上，考虑到实验的计算效率，我们将模型中高斯分布的数量K指定为3；利用混合高斯模型模拟网格内数据时，日均的网格数据可用模型的期望、协方差矩阵和权重表示，则年度的数据可表示为三个1*K*365的概率特征向量，称为多高斯概率特征向量，此向量可表达多高斯网络中节点的特征。

2.构建网络中的边

在第一步骤之后，得到以概率特征向量代表的节点。为了构建网络中的边，需要度量节点之间的相似性，为了度量两概率特征向量之间的相似性，本发明引用贝叶斯定理，将特征向量属于另一向量的概率定义为它们之间的相似性，称为概率匹配。则单高斯网络中节点Q和节点V之间相似性p可通过下式计算：

公式五为单高斯概率匹配计算方式，其中q_n和v_n分别是单高斯概率特征向量Q和V中第n天数据拟合而成的单高斯模型的概率密度函数。由于混合高斯模型是由有限个单高斯模型线性组合而成的概率模型，因此本发明沿用单高斯概率匹配的计算方式来度量多高斯概率特征向量之间的相似性，将其相似性定义为向量内两两高斯分布相似性的乘积。在多高斯网络中，以节点Q和V为例，将它们之间的相似性记为P，其计算公式如下：

其中q_ni是节点Q中由第n天数据拟合而成的混合高斯模型的第i个分量的概率密度函数，相应的，v_jn是节点V中第n天数据拟合而成的混合高斯模型的第i个分量的概率密度函数，K为每个模型中分量数，本发明中指定为3，D为每个模型中时间序列的维度，本例中D＝365。考虑到多高斯网络节点中存在多个分量，对两模型之间每个分量的相似性进行多次乘积会造成数据下溢。为了解决这个问题，引用最大似然估计(maximum likelihoodestimation,MLE)的思想，对公式六中的多项式乘积取对数。因此，多高斯概率匹配公式可进一步表示为：

根据公式(七)对两个多高斯概率特征向量内的多个分量相似性的对数求和可得多高斯网络中节点之间的相似性。

在网格划分后，网络中存在90*180＝16200个网格所代表的节点，在去掉陆地无效区域后，网络内剩下11769个有效节点。通过公式(五)和公式(七)可确定单、多高斯网络内任意两节点之间的相似性，将其记录于矩阵内，得到维度为11769*11769相似性矩阵。接下来，需要设定阈值作为节点间是否存在边的依据。阈值的设定非常关键，若阈值设定偏小，网络中将会存在过多冗余的边使得网络扭曲失真。若阈值设定较大，节点之间很多重要的边将被移除，导致最终的网络变为非连通网络。以上两种情况均不能有效获取海洋网络的本质特征。因此结合边密度ρ来确定阈值，边密度的定义是网络中实际存在的边与网络中可能存在的边的比值。根据多位气候学家论证的结果：ρ＝0.01在t-test中具有95％以上的置信度，最终将网络中边密度设为ρ＝0.01。通过程序调整边密度可计算出阈值，将相似度与阈值比较，若相似度矩阵中元素值大于等于阈值，则将相应元素标为1，否则记为0，由此得到邻接矩阵。

3.网络拓扑结构可视化分析

由邻接矩阵可确定网络结构，此时，网络结构仍然是透明的。为了得到对网络结构直观的了解，需要根据网络拓扑特征描述对网络拓扑进行量化分析。本发明选择三种复杂网络拓扑特征来量化网络特性可视化于地图上，下面分别对三种网络特征描述进行简单的介绍：

(1)度分布

节点的度是指与其直接相连的邻居个数，节点的度越大，能够直接影响的邻居也就越多，因此该节点在网络中也就越重要；网络中度数为k的节点数占网络中总节点数的比例称为度分布，并记为δ(k)，节点的度分布是网络中节点度的总体描述，是从宏观上研究个体间关联的差异程度的一个指标。度分布的规律可以反应一个网络的性质，如无标度网络的度分布为幂律分布，规则网络的度分布为Delta分布，而完全随机网络的度分布为Poisson分布。

为了能直观看出网络中度分布的规律，本发明将δ(k)在双对数坐标上可视化，并将节点的度取对数后绘制在地图上；如图2、3；

(2)聚集系数

聚集系数是节点聚集程度的度量方式，可通过节点的邻居节点之间实际存在的边数和邻居节点之间所有可能存在的边数之比计算出，节点A_i的聚类系数计算公式可表示为：

C_i＝2E_i/G_i(G_i-1) 公式(八)

其中，G_i是节点A_i的度数，E_i为节点A_i的邻居节点之间实际存在的边的数量。网络中某节点的聚类系数越高，说明了该节点的邻居之间成为邻居的可能性越大。对于整个网络而言，网络的聚类系数越高，说明网络的鲁棒性越强。

为了能直观看出海表温度网络中节点的聚类属性，本发明将节点聚类系数绘制在地图上；如图4；

(3)介数中心性

为了能直观从海表温度网络介数看出海洋行为的能量流动路径，将节点介数绘制在地图上，如图5。

通过对网络拓扑特征分析可知，我们的网络模型在度分布上表现为双峰分布，此分布可识别出海洋中比较稳定的状态和不稳定的状态。此外，将上述三个网络拓扑特征描述可视化在地图上的结果如图2-5所示。在全球度分布上，我们的网络中超节点的地理位置与著名的大型气候模型南方涛动、北大西洋涛动的发源地吻合，可初步认为我们的网络模型具有识别气候模型的功能，我们用正常年份以及爆发大型气候事件的年份实验结果对比验证了这一结论。聚类系数分布结果体现了哈德逊湾以及其附近区域气候的高度同步性，同时介数的可视化结果揭示了南方涛动期间的海洋与大气之间能量流动规律。

此外，1对于数据的网格划分环节，可采用其他分辨率，如180*360；2可以选择其他网络描述对网络拓扑特征进行分析，如面积加权连接；3混合高斯模型中分量总数K可指定为其他任意的正整数；4在设定阈值时，边密度可取其他0到1之间的数。

Claims

1.一种基于复杂网络的海洋观测大数据的度分布可视化分析方法，包括以下步骤：

1)海洋观测大数据的预处理

其特征在于还包括以下步骤：

2)网络节点建模

其中μ、σ分别为该分布的期望和标准方差，高斯分布看成一个单高斯模型；

用公式(一)拟合网格内日均数据，此时公式(一)内的x代表网格内的观测数据，拟合后网格内每日数据用单高斯模型的μ、σ来表示，M*N*T的网格数据转换为两个1*T的向量[μ₁,μ₂,…,μ_T]和[σ₁,σ₂,…,σ_T]，将其称为单高斯概率特征向量，并用其代表单高斯网络中节点；

混合高斯模型是由数个单高斯模型线性组合而成，每个单高斯模型称为混合模型中的一个分量，混合高斯模型表示为下式：

混合高斯模型的概率密度函数表示为：

其中K表示混合高斯模型所包含分量的数量，

利用混合高斯模型模拟网格内数据时，网格数据用公式(三)内的期望μ_i、协方差矩阵σ_i和权重

表示，则年度的数据表示为3个1*K*T的概率特征向量，称为多高斯概率特征向量，此向量表示多高斯网络中节点；

3)构建网络中的边

则单高斯网络中节点Q和节点V之间相似性p通过下式计算：

考虑到多高斯网络节点中存在多个分量，对两模型之间每个分量的相似性进行多次乘积会造成数据下溢；为了解决这个问题，引用最大似然估计的思想，对公式(五)中的多项式乘积取对数；因此，多高斯概率匹配公式进一步表示为：

根据公式(六)对两个多高斯概率特征向量内的多个分量相似性的对数求和得多高斯网络中节点之间的相似性；

通过公式(四)和公式(六)确定单、多高斯网络内任意两节点之间的相似性，将其记录于矩阵内，得到相似性矩阵；

接下来，需要设定阈值作为节点间是否存在边的依据，根据多位气候学家论证的结果：边密度ρ＝0.01在t-test中具有95％以上的置信度，结合边密度ρ来确定阈值，最终将网络中边密度设为ρ＝0.01，边密度的定义是网络中实际存在的边与网络中可能存在的边的比值，将相似度与阈值比较，若相似度矩阵中元素值大于等于阈值，则将相应元素标为1，否则记为0，由此得到邻接矩阵；

4)网络拓扑结构可视化分析

节点的度是指与其直接相连的邻居个数，

以δ(k)表示网络中度数为k的节点数占网络中总节点数的比例称为度分布，k的取值为网络中度的波动范围；节点的度分布是网络中节点度的总体描述，是从宏观上研究个体间关联的差异程度的一个指标，

根据邻接矩阵对每一个节点计算其度数，将度分布δ(s)在双对数坐标上可视化，并将节点的度取对数后绘制在地图上。

2.一种基于复杂网络的海洋观测大数据的聚集系数可视化分析方法，其特征在于该方法包括与权利要求1相同的步骤1)海洋观测大数据的预处理、步骤2)网络节点建模、步骤3)构建网络中的边，还包括步骤4)网络拓扑结构可视化分析，所述的步骤4)如下：

聚集系数是节点聚集程度的度量方式，是通过节点的邻居节点之间实际存在的边数和邻居节点之间所有可能存在的边数之比计算出，节点A_i的聚类系数计算公式表示为：

C_i＝2E_i/G_i(G_i-1)公式(七)其中，G_i是节点A_i的度，E_i为节点A_i的邻居节点之间实际存在的边的数量；

根据步骤3)得到的邻接矩阵对每一个节点计算其聚类系数，将节点聚类系数绘制在地图上。

3.一种基于复杂网络的海洋观测大数据的介数中心性可视化分析方法，其特征在于该方法包括与权利要求1相同的步骤1)海洋观测大数据的预处理、步骤2)网络节点建模、步骤3)构建网络中的边，还包括步骤4)网络拓扑结构可视化分析，所述的步骤4)如下：

网络中任意不相邻的节点之间经过节点A_i的最短路径数量与其最短路径总数的比值为节点介数，节点A_i的介数计算公式表示为：

其中l_st是节点s到节点t之间最短路径的数量，而l_st(i)为节点s到节点t最短路径中经过节点A_i的路径数，

根据步骤3)得到的邻接矩阵对每一个节点计算其节点介数，将节点介数绘制在地图上。