CN114579546A

CN114579546A - 基于多变量对抗生成网络的地理大数据缺值补入方法

Info

Publication number: CN114579546A
Application number: CN202210160575.4A
Authority: CN
Inventors: 胡一凡; 王国杰; 梁子凡; 魏锡坤; 路明月; 王艳君; 苏布达; 姜彤; 代文
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-02-22
Filing date: 2022-02-22
Publication date: 2022-06-03

Abstract

本发明公开了基于多变量对抗生成网络的地理大数据缺值补入方法，基于多变量对抗生成网络，创新性地引入循环神经网络模块对多变量地理数据包含的时间特征进行学习，创新性地引入图神经网络模块学习多变量地理数据之间的物理关联关系，对损失函数进行改进来获得更加接近原始数据的完整多变量地理数据集，其能够为相关人文社科与自然科学的研究提供最基础的数据支持。

Description

基于多变量对抗生成网络的地理大数据缺值补入方法

技术领域

本发明涉及人工智能和地理大数据领域，特别涉及了一种地理大数据缺值补入方法。

背景技术

地球系统由水圈、岩石圈、大气圈、生物圈与人类圈组成，这五大圈层相互作用、相互渗透，形成了一个完整的自然—社会—经济综合体，“水土气生人”五大地理要素及其构成的地理综合体对应了地球系统的五大圈层，通过研究五大地理要素及地理综合体的时空分布与变化规律，能够在局地、区域和全球不同尺度环境变化与经济发展的决策中发挥重要的作用，促进自然—社会—经济综合体的和谐发展。地理数据是开展地理学研究的基础，基于空间遥感的反演技术是获取地理数据的主要手段，随着近年来遥感卫星数量增加，使得通过遥感反演手段获取得到的地理数据呈现出“爆炸式”的增长，但随之而来的是由于人为质量控制、传感器损坏或大气云层干扰等主观或客观原因造成的数据缺失增多，缺失的地理数据很难直接用于研究中，因此需要对数据进行缺值的补入。

目前，处理地理数据缺失值的任务主要依靠一些传统插值算法实现，主要包括反距离加权平均法，样条函数法，克里金插值方法以及利用相邻时间相同区域的互补时间数据来进行插值的方法，但这些传统方法主要存在以下几方面的问题：(1)传统插值方法效率较低：由于传统插值方法往往只能逐一处理单个变量，无法同时处理多个变量，因此效率较低；(2)传统插值方法精度较低：地理数据具有很强的非线性特征，而传统插值方法往往是采用一些线性函数对数据进行处理，难以很好地模拟出地理数据的非线性特征，使得插值数据的数据分布与真实数据分布存在很大的差距；(3)传统插值方法特征利用率低：地理数据通常具有一定的时空特征，且与其他地理变量之间存在着高度动态的相互影响和时空关联，而传统插值方法很难有效利用这些时空特征以及各变量之间的内在关系。

近年来，深度学习方法在数据量增加和技术发展的背景下得到了快速的发展，并且在与各个学科领域的交叉研究中都取得了较好的成果，成为许多应用领域的首选模式。

发明内容

为了解决上述背景技术提到的技术问题，本发明提出了基于多变量对抗生成网络的地理大数据缺值补入方法。

为了实现上述技术目的，本发明的技术方案为：

基于多变量对抗生成网络的地理大数据缺值补入方法，包括：

对多变量地理数据进行预处理的步骤，所述预处理包括数据归一化与标准化、数据格式转换以及深度学习数据集的划分；

构建及训练多变量地理数据缺值补入模型的步骤，所述多变量地理数据缺值补入模型支持多变量的同时输入；采用生成对抗网络作为模型的主体网络框架；在生成对抗网络的生成器与判别器中引入循环神经网络框架和图卷积神经网络结构；优化生成对抗网络的损失函数，加入能够反映地理数据数值差异的偏差损失函数和保证生成器生成的假样本与真样本之间随时间变化的规律一致的相关系数损失函数；

多变量地理数据缺值补入的步骤，将多变量地理数据输入到训练好的多变量地理数据缺值补入模型中，获得完整的多变量地理大数据。

进一步地，所述数据归一化与标准化的方法如下：

其中，x₁、x₂、x₃分别为均值归一化后的数据、最大最小化归一化后的数据和标准化后的数据，x为原始数据，max表示取最大值，min表示取最小值，

为均值，δ为方差。

进一步地，所述数据格式转换是指，将数据转换成时间序列格式来作为多变量地理数据缺值补入模型的输入数据格式。

进一步地，所述生成对抗网络的目标函数如下：

其中，x表示具有缺值的地理大数据，P_data(x)表示具有缺值的地理大数据的数据分布，z表示随机噪声，P_G(z)表示生成器的输出的数据分布，D与G分别为判别器与生成器的抽象函数。

进一步地，将生成对抗网络的生成器与判别器中的卷积层替换为循环神经网络模块，依靠其特有的更新门与重置门来实现对多变量地理数据中包含的时间信息进行学习与利用，其中更新门z_t和重置门r_t的表达式如下：

z_t＝σ(W_zx_t+U_zh_t-1)

r_t＝σ(W_rx_t+U_rh_t-1)

其中，x_t表示t时刻的输入，h_t-1表示前一个时刻最终记忆内容，W_z、U_z、W_r和U_r为四个线性变化矩阵，σ表示Sigmoid激活函数；

利用更新门与重置门生成的结果来更新当前时刻保存的信息：

h_t′＝tanh(Wx_t+r_t⊙Uh_t-1)

h_t＝z_t⊙h_t-1+(1-z_t)⊙h_t′

其中，h_t′表示当前记忆内容，h_t表示当前时间步的最终记忆内容，W与U为线性变化矩阵，⊙为矩阵点乘，tanh为双曲正切激活函数。

进一步地，在生成对抗网络中引入图卷积神经网络结构来学习多变量地理数据之间潜在的关系，将生成对抗网络的生成器与判别器中的卷积层替换为图卷积模块，通过该模块对多变量地理数据之间潜在的关系特征进行学习与利用。

进一步地，将多变量地理数据中的每一个时刻的每一个变量看作是图卷积神经网络的一个节点，构成了一个节点数为n的节点集V；多变量地理数据之间的潜在关系看作是图卷积神经网络的边，共同构成了边集E；节点集V与边集E共同构成图G，图G中包含的图结构用邻接矩阵A进行表示，其是由0与1构成的一个n*n的矩阵，将各节点的连接情况用矩阵形式进行表示，即如果节点v_i与节点v_j与相连，则邻接矩阵中第i行第j列的元素A_ij记为1，否则记为0；图卷积神经网络对各节点及其邻近节点的特征做卷积，其提取到的特征不仅考虑到了节点本身，同时也考虑到了其邻近节点的特征，其具体计算式如下：

其中，H_l+1为网络第l层的输出，H_l为网络第l层的输入，σ′为非线性激活函数，W′为滤波器参数，

为邻接矩阵A标准化后的矩阵：

其中，度矩阵d是一个基于邻接矩阵A计算得到的对角矩阵，记录了各节点与其他节点的连接总数：

其中，d_ii为度矩阵d中第i个对角元素。

进一步地，所述偏差损失函数L_bias如下：

L_bias＝X-G(z)

其中，X为真样本，G(z)为生成对抗网络的假样本；

所述相关系数损失函数L_r如下：

其中，Cov表示协方差运算，Var表示方差运算；

多变量地理数据缺值补入模型完整的损失函数L如下：

L＝L_GAN+L_bias-L_r

其中，L_GAN为原始生成对抗网络的损失函数：

其中，V(D,G)为生成对抗网络的目标函数，D与G分别为判别器与生成器的抽象函数。

进一步地，所述深度学习数据集的划分是指，将数据按照设定的比例分割为训练集、验证集与测试集。

进一步地，利用训练集进行多变量地理数据缺值补入模型的训练，利用验证集对模型的泛用性进行验证，利用测试集对模型的缺值补入精度进行评价，通过不断调整深度学习模型中的超参数，以获得最优的模型。

采用上述技术方案带来的有益效果：

1、本发明考虑到传统手段无法实现对包含多个变量地理数据进行插值，因此提出一种基于生成对抗网络的深度学习改进方法，可以实现同时输入多个变量，一次性实现多个变量的缺值补入，能够有效提高缺值补入的效率；

2、本发明考虑到传统手段获得的数据与真实数据之间的数据分布差异较大，因此采用深度学习方法中的生成对抗网络模型作为缺值补入的主要框架，能够保证生成数据与真实数据具有相同的数据分布；

3、本发明考虑到多变量地理大数据具有很强的时间特征与随时间变化的变化规律，因此选择在生成对抗网络主体框架中中引入循环神经网络模块，使其能够对各变量的时间特征进行处理；

4、本发明考虑到多变量地理大数据之间具有潜在物理关系，因此在生成对抗网络中引入图神经网络模块，使其能够有效利用多变量地理数据之间潜在的关系，有效提高了数据的特征利用率；

5、本发明考虑到由于生成对抗网络生成的数据分布一致，但数据之间数值上的差距可能会很大，因此本发明根据所使用多变量地理大数据特点，对用于网络参数调整的损失函数进行优化，在其中加入偏差部分与时间相关性部分，以保证生成数据在数值上与原始多变量地理数据差距最小。

附图说明

图1为本发明的整体流程图；

图2为多变量地理数据的缺值补入模型框架图；

图3为生成对抗网络中生成器网络的结构图；

图4为生成对抗网络中判别器网络的结构图。

具体实施方式

以下将结合附图，对本发明的技术方案进行详细说明。

本发明设计了基于多变量对抗生成网络的地理大数据缺值补入方法，如图1所示，包括：

1、多变量地理数据的预处理

(1)数据归一化与标准化

本发明考虑到多变量地理数据其往往具有不同的数据范围，因此需要对地理数据进行归一化或标准化处理，根据不同来源与不同变量数据的数据分布特征，选择合适方法对数据进行归一化或标准化，从而缩小不同来源数据之间的差距。主要的方法有均值归一化(式(1))、最大最小值归一化(式(2))以及标准化(式(3))，其具体表达式如下所示：

为均值，δ为方差。

(2)数据格式转换

本发明考虑到遥感地理大数据在有着较强的时间特征，在时间维度上存在着一定的连续性与变化规律，同时，由于遥感地理大数据具有时空一致性，在对时间序列进行缺值补入后不仅能在时间维度上获得完整的数据，也能够在空间维度上获得完整的数据。因此在本发明中，选择将原始数据转换成时间序列格式来作为深度学习网络模型的输入数据格式。

(3)深度学习数据集的划分

将分割得到的数据按照一定的比例分割为训练集、验证集与测试集，用于后续深度学习网络的训练与精度的验证。在本实施例中，可以按照8：1：1的比例分为训练集、验证集与测试集。

2、多变量地理数据缺值补入模型的构建及训练

本发明构建多变量地理数据缺值补入模型是在充分考虑多变量地数据的时间特征、变化规律以及多变量地理数据之间的隐藏关系的基础上构建的，如图2所示，主要包含了以下五个创新点：

(1)首先本发明构建的多变量地理数据缺值补入模型支持多变量的同时输入，其是后续利用多变量地理数据之间潜在物理关系的前提与基础；

(2)其次，本发明考虑到生成数据需要与多变量地理数据具有相同的数据分布，因此创新性的采用生成对抗网络作为本发明的主体网络框架，其目标函数如下所示：

传统生成对抗网络可以通过该公式来衡量衡量具有缺值的地理大数据的数据分布P_data(x)和生成数据分布P_G(z)之间的不同程度，其中x表示具有缺值的地理大数据，P_data(x)表示具有缺值的地理大数据的数据分布，z表示随机噪声，P_G(z)表示生成器的输出的数据分布，D与G分别为判别器与生成器的抽象函数。网络的构建首先需要初始化一个由超参数决定的判别器D和由超参数决定的生成器G，然后经过多次迭代以获得最优结果。

(3)本发明考虑到多变量地理数据具有很强的时间特征与随时间变化的规律，因此创新性的在传统生成对抗网络生成器与判别器中引入循环神经网络框架，将传统生成对抗网络生成器与判别器中的卷积层替换为循环神经网络模块，依靠其特有的更新门与重置门两个门控制单元来实现对多变量地理数据中包含的时间信息进行学习与利用，在数据预处理阶段，多变量地理大数据已经被处理成时间序列格式，其记录了多变量地理数据在每一个时间步的值。其中更新门z_t决定了前一时间步和当前时间步的信息有哪些能够向下传递，而重置门r_t决定了哪些过去的信息要被遗忘，其具体表达式如下：

z_t＝σ(W_zx_t+U_zh_t-1) (5)

r_t＝σ(W_rx_t+U_rh_t-1) (6)

其中，x_t表示t时刻的输入，h_t-1表示前一个时刻记忆内容，W_z、U_z、W_r和U_r为四个线性变化矩阵，σ表示Sigmoid激活函数。

h_t′＝tanh(Wx_t+r_t⊙Uh_t-1) (7)

h_t＝z_t⊙h_t-1+(1-z_t)⊙h_t′ (8)

其中，h_t′表示当前记忆内容，W与U为线性变化矩阵，⊙为矩阵点乘，tanh为双曲正切激活函数。将经过线性变化之后的前一时刻信息与重置门进行矩阵点乘，可以控制信息的遗忘程度，如当重置门其中一个门控值为1时表示该信息完全被保留，而门控值为0时则表示该信息完全被遗忘。将得到的当前记忆内容与前一时刻记忆内容与更新门进行矩阵点乘，即可得到当前时刻的最终记忆内容。

(4)本发明考虑到多变量地理数据之间存在着一定的隐藏物理关系，为了充分利用这些隐藏关系，因此本发明创新性的在生成器与判别器中引入图卷积神经网络结构来学习这些潜在的隐藏关系，将传统生成对抗网络生成器与判别器中的卷积层替换为图卷积模块，通过该模块来对多变量地理数据之间潜在的关系特征进行学习与利用。多变量地理数据中的每一个时刻的每一个变量都可以看作是图卷积神经网络的一个节点，构成了一个节点数为n的节点集V；而多变量地理数据之间的潜在隐藏关系可以看作是图卷积神经网络的边，其共同构成了边集E。节点集V与边集E共同构成图G，图中包含的图结构可以用邻接矩阵A进行表示，其是由0与1构成的一个n*n的矩阵，其将各节点的连接情况用矩阵形式进行表示，即如果节点v_i与节点v_j与相连，则在邻接矩阵中将A_ij记为1，其他情况则记为0。度矩阵d是一个基于邻接矩阵计算得到的对角矩阵，其记录了各节点与其他节点的连接总数，其具体计算式如下：

利用计算得到的度矩阵对邻接矩阵进行对称标准化处理，用来得到各节点相连节点对其影响的程度大小，对称标准化方法不仅考虑了节点自身包含的性质，同时也考虑了与之相连的节点的性质，其具体计算式如下所示：

其中，

为邻接矩阵A标准化后的矩阵。

与卷积神经网络对图像上空间邻近的像素点做卷积提取相应特征类似，图卷积神经网络对各节点及其邻近节点的特征做卷积，其提取到的特征不仅考虑到了节点本身，同时也考虑到了其邻近节点的特征，其具体计算式如下：

其中，H_l+1为网络第l层的输出，H_l为网络第l层的输入，σ′为非线性激活函数，W′为滤波器参数。

由此得到本发明生成对抗网络中生成器网络以及判别器网络的结构，如图3、图4所示。

(5)损失函数是用来衡量模型预测值与真实值之间差距的一个评价指标，深度学习模型需要根据损失函数的值，来对模型中的参数进行优化。在计算机视觉研究领域，损失函数一般采用RMSE、MSE、MAE等，这些损失函数适用于学习计算机视觉领域图像特征。近几年来，深度学习模型被逐渐迁移到其他领域进行使用，但本领域的技术人员在使用模型时，通常不会对模型进行调整与修改，或是仅通过修改模型中的超参数这一简单直观的方法来对模型进行优化，很少考虑到对损失函数进行改进来实现对模型的优化。本发明考虑到原始生成对抗网络是根据数据分布来生成数据，所以其损失函数反映的是真假样本之间的数据分布的差异，并不能反映出真假样本之间数值上的差异，因此本发明创新性的对模型的损失函数进行了调整，使生成数据不仅可以在数据分布上与原始多变量地理数据接近，也可以在数值上与原始多变量地理数据的差距最小。原始的生成对抗网络的损失函数如下式所示：

本发明根据多变量地理大数据的特点，对原始的损失函数进行了优化。首先在损失函数中加入偏差部分作为偏差损失函数来反映地理数据数值差异，如下式所示：

L_bias＝X-G(z) (13)

其中，X为真样本，G(z)为生成对抗网络的假样本。同时由于输入数据是以时间序列格式进行输入，为了使得生成器生成的假样本与真样本之间随时间变化的规律的一致性，因此在损失函数中加入相关系数部分作为相关系数损失函数，如下式所示：

其中，Cov表示协方差运算，Var表示方差运算。

根据式(12)、(13)、(14)得到本发明网络模型的损失函数：

L＝L_GAN+L_bias-L_r (15)

由于相关系数部分的值越高越好，因此在其前面加上负号，以使得整体损失函数L越低越好。

利用训练集进行模型的训练，利用验证集对模型的泛用性进行验证，利用测试集对模型的缺值补入精度进行评价。在深度学习中，学习率、批次大小、迭代次数等会对深度学习模型训练效率与精度产生影响的参数被称为超参数，在模型训练过程中通过不断调整深度学习模型中的超参数，尝试不同的超参数组合，多次实验，以获得最优的模型。

3、多变量地理数据缺值的补入

利用训练得到的最优模型，将存在缺失值的多变量地理数据输入模型，通过生成器生成完整数据，将原始数据缺失部分用生成数据进行补全，即可得到完整的多变量地理数据。

通过本发明，一方面，获得的多变量地理数据可以为城市化、气候变化、环境变化、温室气体、生态系统、人地关系、土地利用等地理相关科学问题的研究提供基础的数据支持；另一方面也能够为各种政策的制定提供基本的数据支撑，具有良好的自然—社会—经济价值。

实施例仅为说明本发明的技术思想，不能以此限定本发明的保护范围，凡是按照本发明提出的技术思想，在技术方案基础上所做的任何改动，均落入本发明保护范围之内。

Claims

1.基于多变量对抗生成网络的地理大数据缺值补入方法，其特征在于，包括：

2.根据权利要求1所述基于多变量对抗生成网络的地理大数据缺值补入方法，其特征在于，所述数据归一化与标准化的方法如下：

为均值，δ为方差。

3.根据权利要求1所述基于多变量对抗生成网络的地理大数据缺值补入方法，其特征在于，所述数据格式转换是指，将数据转换成时间序列格式来作为多变量地理数据缺值补入模型的输入数据格式。

4.根据权利要求1所述基于多变量对抗生成网络的地理大数据缺值补入方法，其特征在于，所述生成对抗网络的目标函数V(D,G)如下：

5.根据权利要求1所述基于多变量对抗生成网络的地理大数据缺值补入方法，其特征在于，将生成对抗网络的生成器与判别器中的卷积层替换为循环神经网络模块，依靠其特有的更新门与重置门来实现对多变量地理数据中包含的时间信息进行学习与利用，其中更新门z_t和重置门r_t的表达式如下：

z_t＝σ(W_zx_t+U_zh_t-1)

r_t＝σ(W_rx_t+U_rh_t-1)

h_t′＝tanh(Wx_t+r_t⊙Uh_t-1)

h_t＝z_t⊙h_t-1+(1-z_t)⊙h_t′

6.根据权利要求1所述基于多变量对抗生成网络的地理大数据缺值补入方法，其特征在于，在生成对抗网络中引入图卷积神经网络结构来学习多变量地理数据之间潜在的关系，将生成对抗网络的生成器与判别器中的卷积层替换为图卷积模块，通过该模块对多变量地理数据之间潜在的关系特征进行学习与利用。

7.根据权利要求6所述基于多变量对抗生成网络的地理大数据缺值补入方法，其特征在于，将多变量地理数据中的每一个时刻的每一个变量看作是图卷积神经网络的一个节点，构成了一个节点数为n的节点集V；多变量地理数据之间的潜在关系看作是图卷积神经网络的边，共同构成了边集E；节点集V与边集E共同构成图G，图G中包含的图结构用邻接矩阵A进行表示，其是由0与1构成的一个n*n的矩阵，将各节点的连接情况用矩阵形式进行表示，即如果节点v_i与节点v_j与相连，则邻接矩阵中第i行第j列的元素A_ij记为1，否则记为0；图卷积神经网络对各节点及其邻近节点的特征做卷积，其提取到的特征不仅考虑到了节点本身，同时也考虑到了其邻近节点的特征，其具体计算式如下：

为邻接矩阵A标准化后的矩阵：

其中，d_ii为度矩阵d中第i个对角元素。

8.根据权利要求1所述基于多变量对抗生成网络的地理大数据缺值补入方法，其特征在于，所述偏差损失函数L_bias如下：

L_bias＝X-G(z)

其中，X为真样本，G(z)为生成对抗网络的假样本；

所述相关系数损失函数L_r如下：

其中，Cov表示协方差运算，Var表示方差运算；

多变量地理数据缺值补入模型完整的损失函数L如下：

L＝L_GAN+L_bias-L_r

其中，L_GAN为原始生成对抗网络的损失函数：

9.根据权利要求1所述基于多变量对抗生成网络的地理大数据缺值补入方法，其特征在于，所述深度学习数据集的划分是指，将数据按照设定的比例分割为训练集、验证集与测试集。

10.根据权利要求9所述基于多变量对抗生成网络的地理大数据缺值补入方法，其特征在于，利用训练集进行多变量地理数据缺值补入模型的训练，利用验证集对模型的泛用性进行验证，利用测试集对模型的缺值补入精度进行评价，通过不断调整深度学习模型中的超参数，以获得最优的模型。