CN114579546A - 基于多变量对抗生成网络的地理大数据缺值补入方法 - Google Patents

基于多变量对抗生成网络的地理大数据缺值补入方法 Download PDF

Info

Publication number
CN114579546A
CN114579546A CN202210160575.4A CN202210160575A CN114579546A CN 114579546 A CN114579546 A CN 114579546A CN 202210160575 A CN202210160575 A CN 202210160575A CN 114579546 A CN114579546 A CN 114579546A
Authority
CN
China
Prior art keywords
data
multivariate
network
geographic
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210160575.4A
Other languages
English (en)
Inventor
胡一凡
王国杰
梁子凡
魏锡坤
路明月
王艳君
苏布达
姜彤
代文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202210160575.4A priority Critical patent/CN114579546A/zh
Publication of CN114579546A publication Critical patent/CN114579546A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Remote Sensing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了基于多变量对抗生成网络的地理大数据缺值补入方法,基于多变量对抗生成网络,创新性地引入循环神经网络模块对多变量地理数据包含的时间特征进行学习,创新性地引入图神经网络模块学习多变量地理数据之间的物理关联关系,对损失函数进行改进来获得更加接近原始数据的完整多变量地理数据集,其能够为相关人文社科与自然科学的研究提供最基础的数据支持。

Description

基于多变量对抗生成网络的地理大数据缺值补入方法
技术领域
本发明涉及人工智能和地理大数据领域,特别涉及了一种地理大数据缺值补入方法。
背景技术
地球系统由水圈、岩石圈、大气圈、生物圈与人类圈组成,这五大圈层相互作用、相互渗透,形成了一个完整的自然—社会—经济综合体,“水土气生人”五大地理要素及其构成的地理综合体对应了地球系统的五大圈层,通过研究五大地理要素及地理综合体的时空分布与变化规律,能够在局地、区域和全球不同尺度环境变化与经济发展的决策中发挥重要的作用,促进自然—社会—经济综合体的和谐发展。地理数据是开展地理学研究的基础,基于空间遥感的反演技术是获取地理数据的主要手段,随着近年来遥感卫星数量增加,使得通过遥感反演手段获取得到的地理数据呈现出“爆炸式”的增长,但随之而来的是由于人为质量控制、传感器损坏或大气云层干扰等主观或客观原因造成的数据缺失增多,缺失的地理数据很难直接用于研究中,因此需要对数据进行缺值的补入。
目前,处理地理数据缺失值的任务主要依靠一些传统插值算法实现,主要包括反距离加权平均法,样条函数法,克里金插值方法以及利用相邻时间相同区域的互补时间数据来进行插值的方法,但这些传统方法主要存在以下几方面的问题:(1)传统插值方法效率较低:由于传统插值方法往往只能逐一处理单个变量,无法同时处理多个变量,因此效率较低;(2)传统插值方法精度较低:地理数据具有很强的非线性特征,而传统插值方法往往是采用一些线性函数对数据进行处理,难以很好地模拟出地理数据的非线性特征,使得插值数据的数据分布与真实数据分布存在很大的差距;(3)传统插值方法特征利用率低:地理数据通常具有一定的时空特征,且与其他地理变量之间存在着高度动态的相互影响和时空关联,而传统插值方法很难有效利用这些时空特征以及各变量之间的内在关系。
近年来,深度学习方法在数据量增加和技术发展的背景下得到了快速的发展,并且在与各个学科领域的交叉研究中都取得了较好的成果,成为许多应用领域的首选模式。
发明内容
为了解决上述背景技术提到的技术问题,本发明提出了基于多变量对抗生成网络的地理大数据缺值补入方法。
为了实现上述技术目的,本发明的技术方案为:
基于多变量对抗生成网络的地理大数据缺值补入方法,包括:
对多变量地理数据进行预处理的步骤,所述预处理包括数据归一化与标准化、数据格式转换以及深度学习数据集的划分;
构建及训练多变量地理数据缺值补入模型的步骤,所述多变量地理数据缺值补入模型支持多变量的同时输入;采用生成对抗网络作为模型的主体网络框架;在生成对抗网络的生成器与判别器中引入循环神经网络框架和图卷积神经网络结构;优化生成对抗网络的损失函数,加入能够反映地理数据数值差异的偏差损失函数和保证生成器生成的假样本与真样本之间随时间变化的规律一致的相关系数损失函数;
多变量地理数据缺值补入的步骤,将多变量地理数据输入到训练好的多变量地理数据缺值补入模型中,获得完整的多变量地理大数据。
进一步地,所述数据归一化与标准化的方法如下:
Figure BDA0003514468090000021
Figure BDA0003514468090000031
Figure BDA0003514468090000032
其中,x1、x2、x3分别为均值归一化后的数据、最大最小化归一化后的数据和标准化后的数据,x为原始数据,max表示取最大值,min表示取最小值,
Figure BDA0003514468090000034
为均值,δ为方差。
进一步地,所述数据格式转换是指,将数据转换成时间序列格式来作为多变量地理数据缺值补入模型的输入数据格式。
进一步地,所述生成对抗网络的目标函数如下:
Figure BDA0003514468090000033
其中,x表示具有缺值的地理大数据,Pdata(x)表示具有缺值的地理大数据的数据分布,z表示随机噪声,PG(z)表示生成器的输出的数据分布,D与G分别为判别器与生成器的抽象函数。
进一步地,将生成对抗网络的生成器与判别器中的卷积层替换为循环神经网络模块,依靠其特有的更新门与重置门来实现对多变量地理数据中包含的时间信息进行学习与利用,其中更新门zt和重置门rt的表达式如下:
zt=σ(Wzxt+Uzht-1)
rt=σ(Wrxt+Urht-1)
其中,xt表示t时刻的输入,ht-1表示前一个时刻最终记忆内容,Wz、Uz、Wr和Ur为四个线性变化矩阵,σ表示Sigmoid激活函数;
利用更新门与重置门生成的结果来更新当前时刻保存的信息:
ht′=tanh(Wxt+rt⊙Uht-1)
ht=zt⊙ht-1+(1-zt)⊙ht
其中,ht′表示当前记忆内容,ht表示当前时间步的最终记忆内容,W与U为线性变化矩阵,⊙为矩阵点乘,tanh为双曲正切激活函数。
进一步地,在生成对抗网络中引入图卷积神经网络结构来学习多变量地理数据之间潜在的关系,将生成对抗网络的生成器与判别器中的卷积层替换为图卷积模块,通过该模块对多变量地理数据之间潜在的关系特征进行学习与利用。
进一步地,将多变量地理数据中的每一个时刻的每一个变量看作是图卷积神经网络的一个节点,构成了一个节点数为n的节点集V;多变量地理数据之间的潜在关系看作是图卷积神经网络的边,共同构成了边集E;节点集V与边集E共同构成图G,图G中包含的图结构用邻接矩阵A进行表示,其是由0与1构成的一个n*n的矩阵,将各节点的连接情况用矩阵形式进行表示,即如果节点vi与节点vj与相连,则邻接矩阵中第i行第j列的元素Aij记为1,否则记为0;图卷积神经网络对各节点及其邻近节点的特征做卷积,其提取到的特征不仅考虑到了节点本身,同时也考虑到了其邻近节点的特征,其具体计算式如下:
Figure BDA0003514468090000041
其中,Hl+1为网络第l层的输出,Hl为网络第l层的输入,σ′为非线性激活函数,W′为滤波器参数,
Figure BDA0003514468090000042
为邻接矩阵A标准化后的矩阵:
Figure BDA0003514468090000043
其中,度矩阵d是一个基于邻接矩阵A计算得到的对角矩阵,记录了各节点与其他节点的连接总数:
Figure BDA0003514468090000044
其中,dii为度矩阵d中第i个对角元素。
进一步地,所述偏差损失函数Lbias如下:
Lbias=X-G(z)
其中,X为真样本,G(z)为生成对抗网络的假样本;
所述相关系数损失函数Lr如下:
Figure BDA0003514468090000051
其中,Cov表示协方差运算,Var表示方差运算;
多变量地理数据缺值补入模型完整的损失函数L如下:
L=LGAN+Lbias-Lr
其中,LGAN为原始生成对抗网络的损失函数:
Figure BDA0003514468090000052
其中,V(D,G)为生成对抗网络的目标函数,D与G分别为判别器与生成器的抽象函数。
进一步地,所述深度学习数据集的划分是指,将数据按照设定的比例分割为训练集、验证集与测试集。
进一步地,利用训练集进行多变量地理数据缺值补入模型的训练,利用验证集对模型的泛用性进行验证,利用测试集对模型的缺值补入精度进行评价,通过不断调整深度学习模型中的超参数,以获得最优的模型。
采用上述技术方案带来的有益效果:
1、本发明考虑到传统手段无法实现对包含多个变量地理数据进行插值,因此提出一种基于生成对抗网络的深度学习改进方法,可以实现同时输入多个变量,一次性实现多个变量的缺值补入,能够有效提高缺值补入的效率;
2、本发明考虑到传统手段获得的数据与真实数据之间的数据分布差异较大,因此采用深度学习方法中的生成对抗网络模型作为缺值补入的主要框架,能够保证生成数据与真实数据具有相同的数据分布;
3、本发明考虑到多变量地理大数据具有很强的时间特征与随时间变化的变化规律,因此选择在生成对抗网络主体框架中中引入循环神经网络模块,使其能够对各变量的时间特征进行处理;
4、本发明考虑到多变量地理大数据之间具有潜在物理关系,因此在生成对抗网络中引入图神经网络模块,使其能够有效利用多变量地理数据之间潜在的关系,有效提高了数据的特征利用率;
5、本发明考虑到由于生成对抗网络生成的数据分布一致,但数据之间数值上的差距可能会很大,因此本发明根据所使用多变量地理大数据特点,对用于网络参数调整的损失函数进行优化,在其中加入偏差部分与时间相关性部分,以保证生成数据在数值上与原始多变量地理数据差距最小。
附图说明
图1为本发明的整体流程图;
图2为多变量地理数据的缺值补入模型框架图;
图3为生成对抗网络中生成器网络的结构图;
图4为生成对抗网络中判别器网络的结构图。
具体实施方式
以下将结合附图,对本发明的技术方案进行详细说明。
本发明设计了基于多变量对抗生成网络的地理大数据缺值补入方法,如图1所示,包括:
1、多变量地理数据的预处理
(1)数据归一化与标准化
本发明考虑到多变量地理数据其往往具有不同的数据范围,因此需要对地理数据进行归一化或标准化处理,根据不同来源与不同变量数据的数据分布特征,选择合适方法对数据进行归一化或标准化,从而缩小不同来源数据之间的差距。主要的方法有均值归一化(式(1))、最大最小值归一化(式(2))以及标准化(式(3)),其具体表达式如下所示:
Figure BDA0003514468090000071
Figure BDA0003514468090000072
Figure BDA0003514468090000073
其中,x1、x2、x3分别为均值归一化后的数据、最大最小化归一化后的数据和标准化后的数据,x为原始数据,max表示取最大值,min表示取最小值,
Figure BDA0003514468090000074
为均值,δ为方差。
(2)数据格式转换
本发明考虑到遥感地理大数据在有着较强的时间特征,在时间维度上存在着一定的连续性与变化规律,同时,由于遥感地理大数据具有时空一致性,在对时间序列进行缺值补入后不仅能在时间维度上获得完整的数据,也能够在空间维度上获得完整的数据。因此在本发明中,选择将原始数据转换成时间序列格式来作为深度学习网络模型的输入数据格式。
(3)深度学习数据集的划分
将分割得到的数据按照一定的比例分割为训练集、验证集与测试集,用于后续深度学习网络的训练与精度的验证。在本实施例中,可以按照8:1:1的比例分为训练集、验证集与测试集。
2、多变量地理数据缺值补入模型的构建及训练
本发明构建多变量地理数据缺值补入模型是在充分考虑多变量地数据的时间特征、变化规律以及多变量地理数据之间的隐藏关系的基础上构建的,如图2所示,主要包含了以下五个创新点:
(1)首先本发明构建的多变量地理数据缺值补入模型支持多变量的同时输入,其是后续利用多变量地理数据之间潜在物理关系的前提与基础;
(2)其次,本发明考虑到生成数据需要与多变量地理数据具有相同的数据分布,因此创新性的采用生成对抗网络作为本发明的主体网络框架,其目标函数如下所示:
Figure BDA0003514468090000081
传统生成对抗网络可以通过该公式来衡量衡量具有缺值的地理大数据的数据分布Pdata(x)和生成数据分布PG(z)之间的不同程度,其中x表示具有缺值的地理大数据,Pdata(x)表示具有缺值的地理大数据的数据分布,z表示随机噪声,PG(z)表示生成器的输出的数据分布,D与G分别为判别器与生成器的抽象函数。网络的构建首先需要初始化一个由超参数决定的判别器D和由超参数决定的生成器G,然后经过多次迭代以获得最优结果。
(3)本发明考虑到多变量地理数据具有很强的时间特征与随时间变化的规律,因此创新性的在传统生成对抗网络生成器与判别器中引入循环神经网络框架,将传统生成对抗网络生成器与判别器中的卷积层替换为循环神经网络模块,依靠其特有的更新门与重置门两个门控制单元来实现对多变量地理数据中包含的时间信息进行学习与利用,在数据预处理阶段,多变量地理大数据已经被处理成时间序列格式,其记录了多变量地理数据在每一个时间步的值。其中更新门zt决定了前一时间步和当前时间步的信息有哪些能够向下传递,而重置门rt决定了哪些过去的信息要被遗忘,其具体表达式如下:
zt=σ(Wzxt+Uzht-1) (5)
rt=σ(Wrxt+Urht-1) (6)
其中,xt表示t时刻的输入,ht-1表示前一个时刻记忆内容,Wz、Uz、Wr和Ur为四个线性变化矩阵,σ表示Sigmoid激活函数。
利用更新门与重置门生成的结果来更新当前时刻保存的信息:
ht′=tanh(Wxt+rt⊙Uht-1) (7)
ht=zt⊙ht-1+(1-zt)⊙ht′ (8)
其中,ht′表示当前记忆内容,W与U为线性变化矩阵,⊙为矩阵点乘,tanh为双曲正切激活函数。将经过线性变化之后的前一时刻信息与重置门进行矩阵点乘,可以控制信息的遗忘程度,如当重置门其中一个门控值为1时表示该信息完全被保留,而门控值为0时则表示该信息完全被遗忘。将得到的当前记忆内容与前一时刻记忆内容与更新门进行矩阵点乘,即可得到当前时刻的最终记忆内容。
(4)本发明考虑到多变量地理数据之间存在着一定的隐藏物理关系,为了充分利用这些隐藏关系,因此本发明创新性的在生成器与判别器中引入图卷积神经网络结构来学习这些潜在的隐藏关系,将传统生成对抗网络生成器与判别器中的卷积层替换为图卷积模块,通过该模块来对多变量地理数据之间潜在的关系特征进行学习与利用。多变量地理数据中的每一个时刻的每一个变量都可以看作是图卷积神经网络的一个节点,构成了一个节点数为n的节点集V;而多变量地理数据之间的潜在隐藏关系可以看作是图卷积神经网络的边,其共同构成了边集E。节点集V与边集E共同构成图G,图中包含的图结构可以用邻接矩阵A进行表示,其是由0与1构成的一个n*n的矩阵,其将各节点的连接情况用矩阵形式进行表示,即如果节点vi与节点vj与相连,则在邻接矩阵中将Aij记为1,其他情况则记为0。度矩阵d是一个基于邻接矩阵计算得到的对角矩阵,其记录了各节点与其他节点的连接总数,其具体计算式如下:
Figure BDA0003514468090000091
利用计算得到的度矩阵对邻接矩阵进行对称标准化处理,用来得到各节点相连节点对其影响的程度大小,对称标准化方法不仅考虑了节点自身包含的性质,同时也考虑了与之相连的节点的性质,其具体计算式如下所示:
Figure BDA0003514468090000092
其中,
Figure BDA0003514468090000101
为邻接矩阵A标准化后的矩阵。
与卷积神经网络对图像上空间邻近的像素点做卷积提取相应特征类似,图卷积神经网络对各节点及其邻近节点的特征做卷积,其提取到的特征不仅考虑到了节点本身,同时也考虑到了其邻近节点的特征,其具体计算式如下:
Figure BDA0003514468090000102
其中,Hl+1为网络第l层的输出,Hl为网络第l层的输入,σ′为非线性激活函数,W′为滤波器参数。
由此得到本发明生成对抗网络中生成器网络以及判别器网络的结构,如图3、图4所示。
(5)损失函数是用来衡量模型预测值与真实值之间差距的一个评价指标,深度学习模型需要根据损失函数的值,来对模型中的参数进行优化。在计算机视觉研究领域,损失函数一般采用RMSE、MSE、MAE等,这些损失函数适用于学习计算机视觉领域图像特征。近几年来,深度学习模型被逐渐迁移到其他领域进行使用,但本领域的技术人员在使用模型时,通常不会对模型进行调整与修改,或是仅通过修改模型中的超参数这一简单直观的方法来对模型进行优化,很少考虑到对损失函数进行改进来实现对模型的优化。本发明考虑到原始生成对抗网络是根据数据分布来生成数据,所以其损失函数反映的是真假样本之间的数据分布的差异,并不能反映出真假样本之间数值上的差异,因此本发明创新性的对模型的损失函数进行了调整,使生成数据不仅可以在数据分布上与原始多变量地理数据接近,也可以在数值上与原始多变量地理数据的差距最小。原始的生成对抗网络的损失函数如下式所示:
Figure BDA0003514468090000103
本发明根据多变量地理大数据的特点,对原始的损失函数进行了优化。首先在损失函数中加入偏差部分作为偏差损失函数来反映地理数据数值差异,如下式所示:
Lbias=X-G(z) (13)
其中,X为真样本,G(z)为生成对抗网络的假样本。同时由于输入数据是以时间序列格式进行输入,为了使得生成器生成的假样本与真样本之间随时间变化的规律的一致性,因此在损失函数中加入相关系数部分作为相关系数损失函数,如下式所示:
Figure BDA0003514468090000111
其中,Cov表示协方差运算,Var表示方差运算。
根据式(12)、(13)、(14)得到本发明网络模型的损失函数:
L=LGAN+Lbias-Lr (15)
由于相关系数部分的值越高越好,因此在其前面加上负号,以使得整体损失函数L越低越好。
利用训练集进行模型的训练,利用验证集对模型的泛用性进行验证,利用测试集对模型的缺值补入精度进行评价。在深度学习中,学习率、批次大小、迭代次数等会对深度学习模型训练效率与精度产生影响的参数被称为超参数,在模型训练过程中通过不断调整深度学习模型中的超参数,尝试不同的超参数组合,多次实验,以获得最优的模型。
3、多变量地理数据缺值的补入
利用训练得到的最优模型,将存在缺失值的多变量地理数据输入模型,通过生成器生成完整数据,将原始数据缺失部分用生成数据进行补全,即可得到完整的多变量地理数据。
通过本发明,一方面,获得的多变量地理数据可以为城市化、气候变化、环境变化、温室气体、生态系统、人地关系、土地利用等地理相关科学问题的研究提供基础的数据支持;另一方面也能够为各种政策的制定提供基本的数据支撑,具有良好的自然—社会—经济价值。
实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

Claims (10)

1.基于多变量对抗生成网络的地理大数据缺值补入方法,其特征在于,包括:
对多变量地理数据进行预处理的步骤,所述预处理包括数据归一化与标准化、数据格式转换以及深度学习数据集的划分;
构建及训练多变量地理数据缺值补入模型的步骤,所述多变量地理数据缺值补入模型支持多变量的同时输入;采用生成对抗网络作为模型的主体网络框架;在生成对抗网络的生成器与判别器中引入循环神经网络框架和图卷积神经网络结构;优化生成对抗网络的损失函数,加入能够反映地理数据数值差异的偏差损失函数和保证生成器生成的假样本与真样本之间随时间变化的规律一致的相关系数损失函数;
多变量地理数据缺值补入的步骤,将多变量地理数据输入到训练好的多变量地理数据缺值补入模型中,获得完整的多变量地理大数据。
2.根据权利要求1所述基于多变量对抗生成网络的地理大数据缺值补入方法,其特征在于,所述数据归一化与标准化的方法如下:
Figure FDA0003514468080000011
Figure FDA0003514468080000012
Figure FDA0003514468080000013
其中,x1、x2、x3分别为均值归一化后的数据、最大最小化归一化后的数据和标准化后的数据,x为原始数据,max表示取最大值,min表示取最小值,
Figure FDA0003514468080000014
为均值,δ为方差。
3.根据权利要求1所述基于多变量对抗生成网络的地理大数据缺值补入方法,其特征在于,所述数据格式转换是指,将数据转换成时间序列格式来作为多变量地理数据缺值补入模型的输入数据格式。
4.根据权利要求1所述基于多变量对抗生成网络的地理大数据缺值补入方法,其特征在于,所述生成对抗网络的目标函数V(D,G)如下:
Figure FDA0003514468080000021
其中,x表示具有缺值的地理大数据,Pdata(x)表示具有缺值的地理大数据的数据分布,z表示随机噪声,PG(z)表示生成器的输出的数据分布,D与G分别为判别器与生成器的抽象函数。
5.根据权利要求1所述基于多变量对抗生成网络的地理大数据缺值补入方法,其特征在于,将生成对抗网络的生成器与判别器中的卷积层替换为循环神经网络模块,依靠其特有的更新门与重置门来实现对多变量地理数据中包含的时间信息进行学习与利用,其中更新门zt和重置门rt的表达式如下:
zt=σ(Wzxt+Uzht-1)
rt=σ(Wrxt+Urht-1)
其中,xt表示t时刻的输入,ht-1表示前一个时刻最终记忆内容,Wz、Uz、Wr和Ur为四个线性变化矩阵,σ表示Sigmoid激活函数;
利用更新门与重置门生成的结果来更新当前时刻保存的信息:
ht′=tanh(Wxt+rt⊙Uht-1)
ht=zt⊙ht-1+(1-zt)⊙ht
其中,ht′表示当前记忆内容,ht表示当前时间步的最终记忆内容,W与U为线性变化矩阵,⊙为矩阵点乘,tanh为双曲正切激活函数。
6.根据权利要求1所述基于多变量对抗生成网络的地理大数据缺值补入方法,其特征在于,在生成对抗网络中引入图卷积神经网络结构来学习多变量地理数据之间潜在的关系,将生成对抗网络的生成器与判别器中的卷积层替换为图卷积模块,通过该模块对多变量地理数据之间潜在的关系特征进行学习与利用。
7.根据权利要求6所述基于多变量对抗生成网络的地理大数据缺值补入方法,其特征在于,将多变量地理数据中的每一个时刻的每一个变量看作是图卷积神经网络的一个节点,构成了一个节点数为n的节点集V;多变量地理数据之间的潜在关系看作是图卷积神经网络的边,共同构成了边集E;节点集V与边集E共同构成图G,图G中包含的图结构用邻接矩阵A进行表示,其是由0与1构成的一个n*n的矩阵,将各节点的连接情况用矩阵形式进行表示,即如果节点vi与节点vj与相连,则邻接矩阵中第i行第j列的元素Aij记为1,否则记为0;图卷积神经网络对各节点及其邻近节点的特征做卷积,其提取到的特征不仅考虑到了节点本身,同时也考虑到了其邻近节点的特征,其具体计算式如下:
Figure FDA0003514468080000031
其中,Hl+1为网络第l层的输出,Hl为网络第l层的输入,σ′为非线性激活函数,W′为滤波器参数,
Figure FDA0003514468080000032
为邻接矩阵A标准化后的矩阵:
Figure FDA0003514468080000033
其中,度矩阵d是一个基于邻接矩阵A计算得到的对角矩阵,记录了各节点与其他节点的连接总数:
Figure FDA0003514468080000034
其中,dii为度矩阵d中第i个对角元素。
8.根据权利要求1所述基于多变量对抗生成网络的地理大数据缺值补入方法,其特征在于,所述偏差损失函数Lbias如下:
Lbias=X-G(z)
其中,X为真样本,G(z)为生成对抗网络的假样本;
所述相关系数损失函数Lr如下:
Figure FDA0003514468080000041
其中,Cov表示协方差运算,Var表示方差运算;
多变量地理数据缺值补入模型完整的损失函数L如下:
L=LGAN+Lbias-Lr
其中,LGAN为原始生成对抗网络的损失函数:
Figure FDA0003514468080000042
其中,V(D,G)为生成对抗网络的目标函数,D与G分别为判别器与生成器的抽象函数。
9.根据权利要求1所述基于多变量对抗生成网络的地理大数据缺值补入方法,其特征在于,所述深度学习数据集的划分是指,将数据按照设定的比例分割为训练集、验证集与测试集。
10.根据权利要求9所述基于多变量对抗生成网络的地理大数据缺值补入方法,其特征在于,利用训练集进行多变量地理数据缺值补入模型的训练,利用验证集对模型的泛用性进行验证,利用测试集对模型的缺值补入精度进行评价,通过不断调整深度学习模型中的超参数,以获得最优的模型。
CN202210160575.4A 2022-02-22 2022-02-22 基于多变量对抗生成网络的地理大数据缺值补入方法 Pending CN114579546A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210160575.4A CN114579546A (zh) 2022-02-22 2022-02-22 基于多变量对抗生成网络的地理大数据缺值补入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210160575.4A CN114579546A (zh) 2022-02-22 2022-02-22 基于多变量对抗生成网络的地理大数据缺值补入方法

Publications (1)

Publication Number Publication Date
CN114579546A true CN114579546A (zh) 2022-06-03

Family

ID=81770328

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210160575.4A Pending CN114579546A (zh) 2022-02-22 2022-02-22 基于多变量对抗生成网络的地理大数据缺值补入方法

Country Status (1)

Country Link
CN (1) CN114579546A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109360159A (zh) * 2018-09-07 2019-02-19 华南理工大学 一种基于生成对抗网络模型的图像补全方法
CN111540193A (zh) * 2020-03-13 2020-08-14 华南理工大学 一种基于图卷积时序生成对抗网络的交通数据修复方法
US20200364562A1 (en) * 2019-05-14 2020-11-19 Robert Bosch Gmbh Training system for training a generator neural network
CN113591954A (zh) * 2021-07-20 2021-11-02 哈尔滨工程大学 一种工业系统中缺失的时序数据的填充方法
CN113672871A (zh) * 2021-08-23 2021-11-19 广东电网有限责任公司 一种高比例缺失数据填补方法及相关装置
CN113762468A (zh) * 2021-08-13 2021-12-07 广东技术师范大学 一种基于缺失数据的分类模型生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109360159A (zh) * 2018-09-07 2019-02-19 华南理工大学 一种基于生成对抗网络模型的图像补全方法
US20200364562A1 (en) * 2019-05-14 2020-11-19 Robert Bosch Gmbh Training system for training a generator neural network
CN111540193A (zh) * 2020-03-13 2020-08-14 华南理工大学 一种基于图卷积时序生成对抗网络的交通数据修复方法
CN113591954A (zh) * 2021-07-20 2021-11-02 哈尔滨工程大学 一种工业系统中缺失的时序数据的填充方法
CN113762468A (zh) * 2021-08-13 2021-12-07 广东技术师范大学 一种基于缺失数据的分类模型生成方法
CN113672871A (zh) * 2021-08-23 2021-11-19 广东电网有限责任公司 一种高比例缺失数据填补方法及相关装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHANGWEI HU 等: "A Deep Structural Model for Analyzing Correlated Multivariate Time Series", 《2019 18TH IEEE INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND APPLICATIONS (ICMLA)》 *
徐东伟 等: "基于图自编码-生成对抗网络的路网数据修复", 《交通运输系统工程与信息》 *

Similar Documents

Publication Publication Date Title
CN114626512B (zh) 一种基于有向图神经网络的高温灾害预报方法
CN107833183B (zh) 一种基于多任务深度神经网络的卫星图像同时超分辨和着色的方法
CN109508360B (zh) 一种基于元胞自动机的地理多元流数据时空自相关分析方法
CN111563706A (zh) 一种基于lstm网络的多变量物流货运量预测方法
US20230215166A1 (en) Few-shot urban remote sensing image information extraction method based on meta learning and attention
CN112288086B (zh) 一种神经网络的训练方法、装置以及计算机设备
Wang et al. On deep learning-based bias correction and downscaling of multiple climate models simulations
CN112906982A (zh) 一种基于gnn-lstm结合的网络流量预测方法
CN109635917A (zh) 一种多智能体合作决策及训练方法
CN110138595A (zh) 动态加权网络的时间链路预测方法、装置、设备及介质
CN110570035B (zh) 同时建模时空依赖性和每日流量相关性的人流量预测系统
CN115471016B (zh) 一种基于cisso与daed的台风预测方法
CN114511021A (zh) 基于改进乌鸦搜索算法的极限学习机分类算法
CN113255995A (zh) 一种空气污染预测方法
CN114611608A (zh) 基于深度学习模型的海表面高度数值预报偏差订正方法
CN118295029B (zh) 融合自注意力与Mamba架构的地震数据去噪方法
CN117011668A (zh) 一种基于时序预测神经网络的天气雷达回波外推方法
CN116844041A (zh) 一种基于双向卷积时间自注意力机制的耕地提取方法
CN110188621B (zh) 一种基于ssf-il-cnn的三维人脸表情识别方法
CN116152206A (zh) 一种光伏输出功率预测方法、终端设备及存储介质
Legler et al. Combining data assimilation and machine learning to estimate parameters of a convective‐scale model
CN114723989A (zh) 多任务学习方法、装置及电子设备
CN112183721B (zh) 一种基于自适应差分进化的组合水文预测模型的构建方法
CN114579546A (zh) 基于多变量对抗生成网络的地理大数据缺值补入方法
CN115861930A (zh) 一种基于层级差异特征聚合的人群计数网络建模方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220603

RJ01 Rejection of invention patent application after publication