CN110826689A - 一种基于深度学习的预测县级单位时序gdp的方法 - Google Patents

一种基于深度学习的预测县级单位时序gdp的方法 Download PDF

Info

Publication number
CN110826689A
CN110826689A CN201910940640.3A CN201910940640A CN110826689A CN 110826689 A CN110826689 A CN 110826689A CN 201910940640 A CN201910940640 A CN 201910940640A CN 110826689 A CN110826689 A CN 110826689A
Authority
CN
China
Prior art keywords
data
county
level
gdp
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910940640.3A
Other languages
English (en)
Inventor
孙杰
赖祖龙
余俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Geosciences
Original Assignee
China University of Geosciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Geosciences filed Critical China University of Geosciences
Priority to CN201910940640.3A priority Critical patent/CN110826689A/zh
Publication of CN110826689A publication Critical patent/CN110826689A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于深度学习的预测县级单位时序GDP的方法,包括:首先基于GEE平台收集和管理研究区域内时间序列的多源遥感数据和县级矢量边界数据及年度县级GDP数据;然后基于GEE平台进行数据处理,并提出一种基于直方图统计的特征提取方法,将特征封装为深度学习所需的张量,按照时间将数据划分为训练集和验证集;再基于卷积神经网络建立深度学习体系结构,并将数据特征张量输入到网络中利用历史数据进行训练,保存训练后的模型;最后将验证实际数据输入模型,得到预测结果。本发明所提出的技术方案可以提高预测精度,节省人力成本,有利于帮助相关部门和政府统计到准确的社会经济数据,从而有针对性的提供产业援助和制定政策。

Description

一种基于深度学习的预测县级单位时序GDP的方法
技术领域
本发明涉及遥感数据地表参数反演技术领域,尤其涉及一种基于深度学习的预测县级单位时序GDP的方法。
背景技术
国内生产总值(GDP)作为经济增长分析中最重要的变量,代表了一个国家(或地区)所有常住单位在一定时期内生产活动的最终成果,在评价一个国家或地区的经济表现方面发挥着重要作用。然而,现存比较严重的问题是GDP数据往往被错误的衡量,特别是在发展中国家,经济活动比例不高,区域内的经济一体化程度较低,基础设施比较薄弱,这些因素使得相关部门难以统计准确的社会经济数据、贫困程度以及产业活动占比等等,从而难以帮助相关政府有针对性的提供产业援助和制定政策。即便在部分发达国家,有较完整的统计数据,但由于预测使用的模型都是线性,难以实现对时间序列GDP数据的预测,目前较为常用的线性回归模型等方法准确率都不高。
相较于传统统计数据的收集需要消耗大量劳动力和时间,遥感数据更容易获取,成本更低,并且本身具有多尺度、多种时空分辨率等特点。其中夜间灯光遥感数据DMSP/OLS(Defense Meteorological Satellite Program/Operational Linescan System),在GDP估算研究中使用的最广泛。自20世纪90年代末以来,遥感夜光(NTL)卫星图像已被证明与城市化、经济活动和人口在内的多种社会经济参数具有相关性。在缺乏可靠统计数据的国家区域和次级国家区域下,对于探测、估计和监测社会经济动态尤其有价值。但夜间灯光数据也具有局限性,很难全面准确地表达GDP的空间异质性分布。一方面是由于夜间灯光数据在农业地区的表现能力较差,不能反映无灯光区域(大部分为在农业用地)的GDP贡献;另一方面在某些强照明的研究区域,例如火力发电等地区,使用夜间灯光数据可能会高估该区域的GDP总量,而在以煤炭和铁矿石行业为主的地区,GDP的总量则会被低估。此外,由于土地利用动态和城市扩张与经济潜在驱动力存在联系,除了灯光数据,中等分辨率卫星数据、地面覆盖数据等也可以被用来进行GDP估算。已有很多研究证明了多时相的陆地卫星影像与社会经济数据建模的合理性;综合利用多种遥感数据,多源数据优势互补,是GDP估算的新方向。
在特征选择上,现有方法大多使用均值特征,或者总量特征,然而这些特征只能表达单一的数值信息,并且由于每一个县级区域内,特征值本身在空间分布上就具有差异,直接取均值或者总量来代替整个区域的特征值,可能会影响到后面训练的精度结果。而以直方图的形式提取特征信息,则可以更好的发现特征发布情况,挖掘出更多的特征信息。
在模型的选择上。目前用遥感数据对GDP进行预测的模型大多都是线性回归模型,另外一些其他的例如二次多项式模型,幂函数模型也常被拿来建模。但线性模型也存在一定的瑕疵,首先预测结果的精度不是特别高,存在较大误差,此外就是在对时序GDP预测时,效果不理想。很多研究都发现,在采用时序数据基于线性模型进行预测时,同一年内对空间分布不同的区域的GDP预测效果较好,而在对跨年或时间跨度较大的预测效果很差。
深度学习,是一种在大数据兴起下的产生的一种新的机器学习技术,通过建立具有阶层的人工神经网络,完成特征学习。目前在人像识别、机器翻译、自动驾驶等现实问题中应用十分广泛。相较于传统的线性模型,在提取遥感图像特征方面具有很大的优势,适用于对遥感图像进行分类和参数反演。目前深度学习在遥感数据的分类、参数反演领域具有很大优势,十分热门,只是在对时序GDP预测这方面研究不是很多,但效果却是很好的。就有学者以5个发展中国家为对象,基于卷积神经网络,使用夜间灯光数据来预测区域内的贫困指数,发现该模型解释了高达75%的研究区域内经济结果的变化,深度学习已被证明能够在经济参数估算中发挥作用,但是目前利用深度学习进行时序GDP建模的研究还较少。
发明内容
为了解决上述问题,本发明提供了一种基于深度学习的预测县级单位时序GDP的方法,一种基于深度学习的预测县级单位时序GDP的方法,主要包括以下步骤:
S101:基于GEE平台收集和管理待研究区域内的连续多年的多源遥感数据、县级矢量边界数据和年度县级GDP数据,并对所述多源元遥感数据进行预处理,得到预处理后的多源元遥感数据;
S102:基于GEE平台提出一种基于直方图统计的特征提取方法,并采用该方法,根据所述预处理后的多源元遥感数据和所述县级矢量边界数据提取所述预处理后的多源元遥感数据的数据特征;根据所述年度县级GDP数据和对应县级行政区面积计算得到县级GDP密度数据,并根据所述GDP密度数据得到标签数据;所述数据特征包括张量数据;
S103:建立卷积神经网络模型;
S104:将所述标签数据和所述张量数据根据预设时间节点和县级编码进行对应整合,并根据预设时间节点将对应整合后的部分标签数据和张量数据作为训练数据对所述卷积神经网络模型进行训练,得到训练好的卷积神经网络模型;
S105:基于GEE平台获取研究区域的待预测年份的多元遥感数据和县级矢量边界数据,进而采用所述训练好的卷积神经网络模型对待预测年份的GDP密度进行预测。
进一步地,步骤S101中,所述多源遥感数据包括MODIS地表反射率数据,Terra和Aqua组合的MODIS土地覆盖数据、NPP/VIIRS月合成夜间灯光遥感影像数据;
对所述多远遥感数据进行预处理包括:对所述MODIS地表反射率数据进行去云处理,对所述NPP/VIIRS月合成夜间灯光遥感影像数据依次进行重采样、相对校正及去饱和校正操作。
进一步地,步骤S102中,具体包括:
S201:分别计算所述预处理后的多源元遥感数据中的MODIS地表反射率数据和NPP/VIIRS月合成夜间灯光遥感影像数据的年平均综合值,使其与所述年度县级GDP数据具有相同的时间频率;进而在GEE中对MODIS地表反射率数据和NPP/VIIRS月合成夜间灯光遥感影像数据的年平均综合值以及所述MODIS土地覆盖数据进行波段叠加,得到总计n个波段的数据,n为MODIS地表反射率数据和NPP/VIIRS月合成夜间灯光遥感影像数据的年平均综合值以及所述MODIS土地覆盖数据的波段之和,且这三个数据的具体波段需要根据具体使用的数据产品的型号确定;
S202:在GEE中导入所述县级矢量边界数据,进而对研究区域的所有特征带进行全局统计,即分别计算研究区域下所有特征的最大值和最小值,并根据所述最大值和最小值确定波段特征数据数值的真实分布区间,为后续建立每个特征的32箱直方图确定分布界限;
S203:基于步骤S202中确定的分布界限,将所述n个波段的数据中每个波段的数据都转换成一个归一化的32箱直方图,一共有n个波段,每个县对应生成一个形状为1*32*n的张量;其中,1代表图像高度、32代表图像宽度,n代表图像波段;
S204:将所述年度县级GDP数据按照所述县级矢量边界数据进行划分,并根据各县级行政区的面积,计算GDP密度,然后进行对数计量,处理后得到各县级市的GDP的标签数据,具体计算公式如下:
Figure BDA0002222799410000041
上式中,yi为第i个县级市的GDP的标签数据,gi为第i个县级市的年度GDP数据总量,ai为第i个县级市行政区域面积;其中,i代表县级市序号,且i=1,2,...,m;m为研究区域县级市的总个数;
S205:根据县级编码将所有的标签数据与所有的张量进行对应整合,并舍弃没有对应的数据,将剩下的标签数据和张量作为最终的中国县级市的标签数据和张量数据;其中,所述县级编码为信息处理标准代码。
进一步地,步骤S103中,所述卷积神经网络模型包括顺次连接的二维卷积网络层、批标准化层、最大池化层、扁平层、Dropout层和神经元致密层;其中,二维卷积网络层有3层,每层的内核大小都为(1,3),且第一个二维卷积网络层的卷积核数目为32,第二个二维卷积网络层的卷积核数目为64,第三个二维卷积网络层的卷积核数目为128;每个二维卷积网络层后按序接入一个批标准化层和一个最大池化层;批标准化层帮助卷积神经网络在训练过程中抵抗梯度减小,避免梯度消失问题产生,从而减少训练时间;最大池化层具有1个内核,用以提高泛化性,鲁棒性,降低维数;Dropout层的下降概率为0.5,用来避免过度拟合;扁平层用来将输入“压平”,即把多维的输入一维化,常用在从卷积层到致密层的过渡。神经元致密层用于输出预测的GDP密度。
进一步地,步骤S104中,对所述卷积神经网络模型进行训练时;训练设置的优化器为Adam,训练次数epoch设置为300,损失函数为均方误差MSE,训练精度由val_loss显示,每迭代一次,会产生一个val_loss;在迭代次数大于30次且val_loss没有继续减少时终止迭代训练,并将此时的卷积神经网络作为最终训练好的卷积神经网络;
另外,在训练时,由于数据量过大,一次性导入到模型中进行训练会导致内存占用过大,因此,使用一个数据批生成器batch_generator导入训练数据,利用该生成器根据预设的批次大小对大量的训练数据进行分批次读取,然后放入待训练的卷积神经网络模型中训练。
进一步地,步骤S104中,将在预设时间节点之前的标签数据和张量数据作为训练数据,在预设时间节点之后的标签数据和张量数据作为验证数据。
进一步地,步骤S104中,得到训练好的卷积神经网络模型后,将所述验证数据中的标签数据和张量数据输入至所述训练好的卷积神经网络模型,以对所述卷积神经网络模型进行精度评估;精度评定标准为决定系数R2和均方根误差RMSE;其中,R2的取值范围为[0,1],R2越大,表示模型拟合效果越好,反之则模型拟合效果越差;RMSE越小,模型拟合效果越好,反之,则越差;R2的具体计算公式如下:
上式中,yi表示真实值,即第i个县级市的GDP的标签数据,
Figure BDA0002222799410000052
表示预测值;即第i个县级市的GDP的预测数据;
Figure BDA0002222799410000053
表示所有预测值的平均值;分子部分表示预测值与真实值的平方差之和,分母部分表示均值与真实值的平方差之和;其中,i代表县级市序号,且i=1,2,...,m;m为研究区域县级市的总个数;
RMSE的具体计算公式如下:
Figure BDA0002222799410000054
本发明提供的技术方案带来的有益效果是:本发明所提出的技术方案填补了深度学习在时序GDP估算方面研究的空白,可以大大提高预测精度,节省人力成本,有利于帮助相关部门和政府统计到准确的社会经济数据,从而有针对性的提供产业援助和制定政策。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明实施例中一种基于深度学习的预测县级单位时序GDP的方法的流程图;
图2是本发明实施例中一种基于深度学习的预测县级单位时序GDP的方法的详细流程图;
图3是本发明实施例中的基于GEE数据特征提取图;
图4是本发明实施例中卷积神经网络模型构造图;
图5是本发明实施例中2015年中国县级城市GDP密度图;
图6是本发明实施例中2015年中国县级城市GDP密度预测图;
图7是本发明实施例中2015年GDP密度真值与预测值散点图;
图8是本发明实施例中2015年中国县级城市GDP密度百分误差图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
本发明的实施例提供了一种基于深度学习的预测县级单位时序GDP的方法。
请参考图1,图1是本发明实施例中一种基于深度学习的预测县级单位时序GDP的方法的流程图,具体包括如下步骤:
S101:基于GEE平台收集和管理待研究区域内的连续多年的多源遥感数据、县级矢量边界数据和年度县级GDP数据,并对所述多源元遥感数据进行预处理,得到预处理后的多源元遥感数据;
S102:基于GEE平台提出一种基于直方图统计的特征提取方法,并采用该方法,根据所述预处理后的多源元遥感数据和所述县级矢量边界数据提取所述预处理后的多源元遥感数据的数据特征;根据所述年度县级GDP数据和对应县级行政区面积计算得到县级GDP密度数据,并根据所述GDP密度数据得到标签数据;所述数据特征包括张量数据;
S103:建立卷积神经网络模型;
S104:将所述标签数据和所述张量数据根据预设时间节点和县级编码进行对应整合,并根据预设时间节点将对应整合后的部分标签数据和张量数据作为训练数据对所述卷积神经网络模型进行训练,得到训练好的卷积神经网络模型;
S105:基于GEE平台获取研究区域的待预测年份的多元遥感数据和县级矢量边界数据,进而采用所述训练好的卷积神经网络模型对待预测年份的GDP密度进行预测。
步骤S101中,所述多源遥感数据包括MODIS地表反射率数据[MOD09A1V6(所使用的产品型号),7bands(波段数),每8天收集一次(数据采集频率)],Terra和Aqua组合的MODIS土地覆盖数据(MCD12Q1V6,1band,按年生成)、NPP/VIIRS月合成夜间灯光遥感影像数据(NPP/VIIRS,1band,按月生成);
对所述多源遥感数据进行预处理包括:对所述MODIS地表反射率数据进行去云处理,对所述NPP/VIIRS月合成夜间灯光遥感影像数据依次进行重采样、相对校正及去饱和校正操作。
步骤S102,具体包括:
S201:分别计算所述预处理后的多源元遥感数据中的MODIS地表反射率数据和NPP/VIIRS月合成夜间灯光遥感影像数据的年平均综合值,使其与所述年度县级GDP数据具有相同的时间频率;进而在GEE中对MODIS地表反射率数据和NPP/VIIRS月合成夜间灯光遥感影像数据的年平均综合值以及所述MODIS土地覆盖数据进行波段叠加,得到总计n个波段的数据,n为MODIS地表反射率数据和NPP/VIIRS月合成夜间灯光遥感影像数据的年平均综合值以及所述MODIS土地覆盖数据的波段之和,且这三个数据的具体波段需要根据具体使用的数据产品的型号确定;
S202:在GEE中导入所述县级矢量边界数据,进而对研究区域的所有特征带进行全局统计,即分别计算研究区域下所有特征的最大值和最小值,并根据所述最大值和最小值确定波段特征数据数值的真实分布区间,为后续建立每个特征的32箱直方图确定分布界限;
S203:基于步骤S202中确定的分布界限,将所述n个波段的数据中每个波段的数据都转换成一个归一化的32箱直方图,一共有n个波段,每个县对应生成一个形状为1*32*n的张量;其中,1代表图像高度、32代表图像宽度,n代表图像波段;
S204:将所述年度县级GDP数据按照所述县级矢量边界数据进行划分,并根据各县级行政区的面积,计算GDP密度,然后进行对数计量,处理后得到各县级市的GDP的标签数据,具体计算公式如下:
上式中,yi为第i个县级市的GDP的标签数据,gi为第i个县级市的年度GDP数据总量,ai为第i个县级市行政区域面积;其中,i代表县级市序号,且i=1,2,...,m;m为研究区域县级市的总个数;
S205:根据县级编码将所有的标签数据与所有的张量进行对应整合,并舍弃没有对应的数据,将剩下的标签数据和张量作为最终的中国县级市的标签数据和张量数据;其中,所述县级编码为信息处理标准代码(FIPS)。
步骤S103中,基于Python中的Keras开源神经网络库,建立卷积神经网络模型。
步骤S103中,所述卷积神经网络模型包括顺次连接的二维卷积网络层(Conv2D)、批标准化层(Batch Normalization Layer)、最大池化层(MaxPooling Layer)、扁平层(Flatten Layer)、Dropout层(Dropout Layer)和神经元致密层(Dense Layer);其中,二维卷积网络层有3层,每层的内核大小都为(1,3),且第一个二维卷积网络层的卷积核数目为32,第二个二维卷积网络层的卷积核数目为64,第三个二维卷积网络层的卷积核数目为128;每个二维卷积网络层后按序接入一个批标准化层和一个最大池化层;批标准化层帮助卷积神经网络在训练过程中抵抗梯度减小,避免梯度消失问题产生,从而减少训练时间;最大池化层具有1个内核,用以提高泛化性,鲁棒性,降低维数;Dropout层的下降概率为0.5,用来避免过度拟合;扁平层用来将输入“压平”,即把多维的输入一维化,常用在从卷积层到致密层的过渡。神经元致密层用于输出预测的GDP密度。
步骤S104中,对所述卷积神经网络进行训练时;训练设置的优化器为Adam,训练次数epoch设置为300,损失函数为均方误差MSE(Mean Squared Error),训练精度由val_loss显示,每迭代一次,会产生一个val_loss;在迭代次数大于30次且val_loss没有继续减少时终止迭代训练,并将此时的卷积神经网络作为最终训练好的卷积神经网络;
在训练网络前,设置了EarlyStopping参数,其作用主要是在val_loss经过多个epoch而不再增加时,默认已经达到最好结果,提前停止训练,这样也避免了时间的浪费和内存的过度使用。
另外,在训练时,由于数据量过大,一次性导入到模型中进行训练会导致内存占用过大,甚至崩溃,本申请引入一个数据批生成器batch_generator导入训练数据,利用该生成器根据预设的批次大小batch_size,对大量的训练数据进行分批次读取,然后放入待训练的卷积神经网络模型中训练。
在本实例中,设置的batch_size为16,生成器分批次读取的方法为:在训练数据所在的文件夹中随机的读取对应大小的数据,并通过yield获得经过生成器生成后的数据,再用以训练或者验证,这种生成器可以有效的帮助我们提高模型训练的效率,减少内存占用。
步骤S104中,将在预设时间节点之前的标签数据和张量数据作为训练数据,在预设时间节点之后的标签数据和张量数据作为验证数据。
步骤S105中,得到训练好的卷积神经网络模型后,将所述验证数据中的标签数据和张量数据输入至所述训练好的卷积神经网络模型,以对所述卷积神经网络模型进行精度评估;精度评定标准为决定系数R2和均方根误差RMSE;其中,R2的取值范围为[0,1],R2越大,表示模型拟合效果越好,反之则模型拟合效果越差;RMSE越小,模型拟合效果越好,反之,则越差;R2的具体计算公式如下:
Figure BDA0002222799410000091
上式中,yi表示真实值,即第i个县级市的GDP的标签数据,
Figure BDA0002222799410000092
表示预测值;即第i个县级市的GDP的预测数据;表示所有预测值的平均值;分子部分表示预测值与真实值的平方差之和,分母部分表示均值与真实值的平方差之和;其中,i代表县级市序号,且i=1,2,...,m;m为研究区域县级市的总个数;
RMSE的具体计算公式如下:
步骤S105中,预测结果导出后输入到ArcGIS中,结合县级边界矢量数据完成数据可视化,以供查看。
在本实例中,以中国县级市城市为研究对象,以2013-2015年三种多源遥感数据作为数据源,对中国县级市的GDP参数进行反演与预测,具体如下:
结合图2对本实例中的具体步骤进行描述,具体分为以下几步:
(一)数据获取与管理
(1)获取研究区2013-2015年地表反射率遥感数据、地面覆盖分类数据以及夜间灯光数据,并对数据进行必要的预处理;处理后图像数据堆叠在GEE的ImageCollection中;
(2)获取研究区2013-2015年县级GDP数据以及中国县级边界数据。
(二)数据特征提取
在本发明实施例中,数据特征提取工作基于GEE平台完成,结合图3,包括以下几个步骤:
(1)不同数据的时间频率不同,例如夜间灯光数据按月,地面反射率数据数据是间隔8天的产品;由于GDP统计数据是年度数据,分别计算这两种遥感数据的平均年综合值,使其与GDP数据具有相同的时间频率;
(2)获取三种数据总共9个波段,其中MODIS地表反射率7个波段,夜间灯光数据1个波段,MODIS土地覆盖数据1个波段,需要对三种数据进行波段叠加;
(3)在GEE中导入研究区域的县级边界数据,对每个特征带进行全局统计,确定直方图的界限;
(4)基于上述限制,将每个波段都转换成一个规范化的32箱的直方图,一共有9个波段,每个县生成一个形状为1*32*9(图像高度,图像宽度,图像波段)的张量;
(5)将中国GDP数据按照中国县级边界矢量数据划分,得到对应的GDP县级数据;并依据县级城市面积,计算所有县级市的GDP密度,然后进行对数计量,处理后作为该区域GDP的标签数据;
(6)根据信息处理标准代码(FIPS)将标签数据与之前完成的张量进行对应,舍弃没有对应的数据。
(三)基于Python的Keras框架,建立卷积神经网络模型;模型中使用到了二维卷积网络层(Conv2D),批标准化层(Batch Normalization Layer),最大池化层(MaxPoolingLayer)、扁平层(Flatten Layer)、致密层(Dense Layer)和Dropout层(Dropout Layer);图4中给出了基于CNN的体系结构;
该模型由三个Conv2D组成,内核大小为(1,3)。第一个Conv2D有32个过滤器,第二个有64个对应的,第三个有128个对应单位。首先遵循特征映射,然后是批量归一化层(Batch Normalization Layer),然后接着具有1个内核的二维最大池化层(MaxPoolingLayer)。其中,批量归一化层可以帮助卷积网络在训练过程中抵抗小时梯度,从而减少训练时间,产生更好的性能。最大池化层可以提高泛化性,鲁棒性。在此之后,使用了一个下降概率为0.5的Dropout层,避免过度拟合,最后用一个神经元致密层输出预测GDP。
将张量数据和标签数据依据时间节点分成训练数据(2013-2014)和验证数据(2015),并分开保存;训练时,获取训练数据,经过生成器导入,这里设置的批次处理单元为16,然后输入训练网络,并基于网络进行训练,训练设置的优化器为Adam,训练次数epoch设置为300,损失函数为均方误差MSE(Mean Squared Error);训练精度由val_loss来显示;一般来说,每一次训练,都会产生一个val_loss。而在实验前,还设置了一个EarlyStopping参数,用来提前停止训练;在本实例中,val_loss如果超过30个epoch没有再继续减少的话,模型就默认已经达到最好,会提前中止训练;最终,在经过84个epoch后,模型停止训练,得到的最终的val_loss和val_mse分别为0.0784和0.1674;训练完成后保存网络。
获取验证数据2015,输入生成器,导入训练好的卷积神经网络,进行预测,获取预测结果,并进行精度评定。预测结果导出后输入到ArcGIS中,结合县级边界矢量数据完成数据可视化,预测后的可视化结果如图6,2015年真实GDP密度数据如图5。
从图中可以看出,两幅图都很明确的显示中国东部以及东南沿海地区GDP_DENSITY较高,说明经济相对较发达;整个西部地区、内蒙古地区以及东北地区北部GDP_DENSITY较低,经济发展相对落后。
精度评定标准为R2以及RMSE,图7为真值和预测值的散点分布,图7中可以看出总计有2003个城市区域,R2为0.918,RMSE为0.237。
(四)计算GDP密度预测数据与真值之间的百分误差,划分为8个等级:(0%-5%,5%-10%,10%-15%,15%-20%,20%-25%,25%-30%,30%-40%,大于40%)。并将数据导入ArcGIS进行可视化,可视化结果如图8。
从图8中可以看出,在中国中部,南部以及东部地区,GDP的百分误差都较低,大部分处于0-15%之间,少数超过15%,只有东北极少数地区超过了30%,说明在这些地区,CNN预测的效果偏好;而在中国西部地区,可以看到除了西北角一些地区的百分误差较低,其他地区的百分误差都较高,超过了40%,这些地区的GDP在基于CNN模型预测下效果并不好。直观上看,预测不好的地区较多是属于西部地区,经济发展较慢,且区域内的县级市占地面积都比较大,这可能导致GDP数据本身由于面积的稀释产生了变化。再结合原先的2015年统计年鉴中GDP数据的可视化结果,我们发现百分误差较大的区域,本身GDP的总量就很低,所以GDP预测值与真值间的差异,在这些地区对GDP本身影响更大。
本发明的有益效果是:本发明所提出的技术方案填补了深度学习在时序GDP估算方面研究的空白,可以大大提高预测精度,节省人力成本,有利于帮助相关部门和政府统计到准确的社会经济数据,从而有针对性的提供产业援助和制定政策。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于深度学习的预测县级单位时序GDP的方法,其特征在于:包括以下步骤:
S101:基于GEE平台收集和管理待研究区域内的连续多年的多源遥感数据、县级矢量边界数据和年度县级GDP数据,并对所述多源元遥感数据进行预处理,得到预处理后的多源元遥感数据;
S102:基于GEE平台提出一种基于直方图统计的特征提取方法,并采用该方法,根据所述预处理后的多源元遥感数据和所述县级矢量边界数据提取所述预处理后的多源元遥感数据的数据特征;根据所述年度县级GDP数据和对应县级行政区面积计算得到县级GDP密度数据,并根据所述GDP密度数据得到标签数据;所述数据特征包括张量数据;
S103:建立卷积神经网络模型;
S104:将所述标签数据和所述张量数据根据预设时间节点和县级编码进行对应整合,并根据预设时间节点将对应整合后的部分标签数据和张量数据作为训练数据对所述卷积神经网络模型进行训练,得到训练好的卷积神经网络模型;
S105:基于GEE平台获取研究区域的待预测年份的多元遥感数据和县级矢量边界数据,进而采用所述训练好的卷积神经网络模型对待预测年份的GDP密度进行预测。
2.如权利要求1所述的一种基于深度学习的预测县级单位时序GDP的方法,其特征在于:步骤S101中,所述多源遥感数据包括MODIS地表反射率数据,Terra和Aqua组合的MODIS土地覆盖数据、NPP/VIIRS月合成夜间灯光遥感影像数据;
对所述多远遥感数据进行预处理包括:对所述MODIS地表反射率数据进行去云处理,对所述NPP/VIIRS月合成夜间灯光遥感影像数据依次进行重采样、相对校正及去饱和校正处理。
3.如权利要求1所述的一种基于深度学习的预测县级单位时序GDP的方法,其特征在于:步骤S102中,具体包括:
S201:分别计算所述预处理后的多源元遥感数据中的MODIS地表反射率数据和NPP/VIIRS月合成夜间灯光遥感影像数据的年平均综合值,使其与所述年度县级GDP数据具有相同的时间频率;进而在GEE中对MODIS地表反射率数据和NPP/VIIRS月合成夜间灯光遥感影像数据的年平均综合值以及所述MODIS土地覆盖数据进行波段叠加,得到总计n个波段的数据,n为MODIS地表反射率数据和NPP/VIIRS月合成夜间灯光遥感影像数据的年平均综合值以及所述MODIS土地覆盖数据的波段之和,且这三个数据的具体波段需要根据具体使用的数据产品的型号确定;
S202:在GEE中导入所述县级矢量边界数据,进而对研究区域的所有特征带进行全局统计,即分别计算研究区域下所有特征的最大值和最小值,并根据所述最大值和最小值确定波段特征数据数值的真实分布区间,为后续建立每个特征的32箱直方图确定分布界限;
S203:基于步骤S202中确定的分布界限,将所述n个波段的数据中每个波段的数据都转换成一个归一化的32箱直方图,一共有n个波段,每个县对应生成一个形状为1*32*n的张量;其中,1代表图像高度、32代表图像宽度,n代表图像波段;
S204:将所述年度县级GDP数据按照所述县级矢量边界数据进行划分,并根据各县级行政区的面积,计算GDP密度,然后进行对数计量,处理后得到各县级市的GDP的标签数据,具体计算公式如下:
上式中,yi为第i个县级市的GDP的标签数据,gi为第i个县级市的年度GDP数据总量,ai为第i个县级市行政区域面积;其中,i代表县级市序号,且i=1,2,...,m;m为研究区域县级市的总个数;
S205:根据县级编码将所有的标签数据与所有的张量进行对应整合,并舍弃没有对应的数据,将剩下的标签数据和张量作为最终的中国县级市的标签数据和张量数据;其中,所述县级编码为信息处理标准代码。
4.如权利要求1所述的一种基于深度学习的预测县级单位时序GDP的方法,其特征在于:步骤S103中,所述卷积神经网络模型包括顺次连接的二维卷积网络层、批标准化层、最大池化层、扁平层、Dropout层和神经元致密层;其中,二维卷积网络层有3层,每层的内核大小都为(1,3),且第一个二维卷积网络层的卷积核数目为32,第二个二维卷积网络层的卷积核数目为64,第三个二维卷积网络层的卷积核数目为128;每个二维卷积网络层后按序接入一个批标准化层和一个最大池化层;批标准化层帮助卷积神经网络在训练过程中抵抗梯度减小,避免梯度消失问题产生,从而减少训练时间;最大池化层具有1个内核,用以提高泛化性,鲁棒性,降低维数;Dropout层的下降概率为0.5,用来避免过度拟合;扁平层用来将输入“压平”,即把多维的输入一维化,常用在从卷积层到致密层的过渡;神经元致密层用于输出预测的GDP密度。
5.如权利要求1所述的一种基于深度学习的预测县级单位时序GDP的方法,其特征在于:步骤S104中,对所述卷积神经网络模型进行训练时;训练设置的优化器为Adam,训练次数epoch设置为300,损失函数为均方误差MSE,训练精度由val_loss显示,每迭代一次,会产生一个val_loss;在迭代次数大于30次且val_loss没有继续减少时终止迭代训练,并将此时的卷积神经网络作为最终训练好的卷积神经网络;
另外,在训练时,由于数据量过大,一次性导入到模型中进行训练会导致内存占用过大,因此,使用一个数据批生成器batch_generator导入训练数据,利用该生成器根据预设的批次大小对大量的训练数据进行分批次读取,然后放入待训练的卷积神经网络模型中训练。
6.如权利要求1所述的一种基于深度学习的预测县级单位时序GDP的方法,其特征在于:步骤S104中,将在预设时间节点之前的标签数据和张量数据作为训练数据,在预设时间节点之后的标签数据和张量数据作为验证数据。
7.如权利要求1所述的一种基于深度学习的预测县级单位时序GDP的方法,其特征在于:步骤S104中,得到训练好的卷积神经网络模型后,将所述验证数据中的标签数据和张量数据输入至所述训练好的卷积神经网络模型,以对所述卷积神经网络模型进行精度评估;精度评定标准为决定系数R2和均方根误差RMSE;其中,R2的取值范围为[0,1],R2越大,表示模型拟合效果越好,反之则模型拟合效果越差;RMSE越小,模型拟合效果越好,反之,则越差;R2的具体计算公式如下:
Figure FDA0002222799400000031
上式中,yi表示真实值,即第i个县级市的GDP的标签数据,
Figure FDA0002222799400000032
表示预测值;即第i个县级市的GDP的预测数据;
Figure FDA0002222799400000041
表示所有预测值的平均值;分子部分表示预测值与真实值的平方差之和,分母部分表示均值与真实值的平方差之和;其中,i代表县级市序号,且i=1,2,…,m;m为研究区域县级市的总个数;
RMSE的具体计算公式如下:
Figure FDA0002222799400000042
CN201910940640.3A 2019-09-30 2019-09-30 一种基于深度学习的预测县级单位时序gdp的方法 Pending CN110826689A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910940640.3A CN110826689A (zh) 2019-09-30 2019-09-30 一种基于深度学习的预测县级单位时序gdp的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910940640.3A CN110826689A (zh) 2019-09-30 2019-09-30 一种基于深度学习的预测县级单位时序gdp的方法

Publications (1)

Publication Number Publication Date
CN110826689A true CN110826689A (zh) 2020-02-21

Family

ID=69548777

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910940640.3A Pending CN110826689A (zh) 2019-09-30 2019-09-30 一种基于深度学习的预测县级单位时序gdp的方法

Country Status (1)

Country Link
CN (1) CN110826689A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814368A (zh) * 2020-06-09 2020-10-23 广东国地规划科技股份有限公司 基于张量的土地利用模拟方法、系统、设备及存储介质
CN111881976A (zh) * 2020-07-27 2020-11-03 盐城郅联空间科技有限公司 一种融合人工智能技术和大数据的多源影像自动解译方法
CN111898503A (zh) * 2020-07-20 2020-11-06 中国农业科学院农业资源与农业区划研究所 基于云覆盖遥感影像和深度学习的作物识别方法和系统
US20210349718A1 (en) * 2020-05-08 2021-11-11 Black Sesame International Holding Limited Extensible multi-precision data pipeline for computing non-linear and arithmetic functions in artificial neural networks

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210349718A1 (en) * 2020-05-08 2021-11-11 Black Sesame International Holding Limited Extensible multi-precision data pipeline for computing non-linear and arithmetic functions in artificial neural networks
US11687336B2 (en) * 2020-05-08 2023-06-27 Black Sesame Technologies Inc. Extensible multi-precision data pipeline for computing non-linear and arithmetic functions in artificial neural networks
CN111814368A (zh) * 2020-06-09 2020-10-23 广东国地规划科技股份有限公司 基于张量的土地利用模拟方法、系统、设备及存储介质
CN111814368B (zh) * 2020-06-09 2021-07-23 广东国地规划科技股份有限公司 基于张量的土地利用模拟方法、系统、设备及存储介质
CN111898503A (zh) * 2020-07-20 2020-11-06 中国农业科学院农业资源与农业区划研究所 基于云覆盖遥感影像和深度学习的作物识别方法和系统
CN111881976A (zh) * 2020-07-27 2020-11-03 盐城郅联空间科技有限公司 一种融合人工智能技术和大数据的多源影像自动解译方法

Similar Documents

Publication Publication Date Title
CN110826689A (zh) 一种基于深度学习的预测县级单位时序gdp的方法
Liu et al. A new model using multiple feature clustering and neural networks for forecasting hourly PM2. 5 concentrations, and its applications in China
Silvan-Cardenas et al. Assessing fine-spatial-resolution remote sensing for small-area population estimation
CN109726698B (zh) 基于遥感数据进行季度灌溉面积识别的方法
CN113902580B (zh) 一种基于随机森林模型的历史耕地分布重建方法
CN101853290A (zh) 基于地理信息系统的气象服务效益评估方法
CN116720984B (zh) 一种基于卫星地图技术的智慧电力审计方法
Biard et al. Automated detection of weather fronts using a deep learning neural network
CN113361742A (zh) 一种基于水文模拟的区域综合干旱识别方法
CN114595629A (zh) 基于gbdt-lr和信息量模型的滑坡易发性评价方法
CN117236674B (zh) 城市河网水动力精准调控和水环境提升方法及系统
CN108764527B (zh) 一种土壤有机碳库时空动态预测最优环境变量筛选方法
CN110849821B (zh) 基于贝叶斯定理的黑臭水体遥感识别方法
Liu et al. Spatial-temporal hidden Markov model for land cover classification using multitemporal satellite images
CN107742131A (zh) 金融资产分类方法和装置
CN116863341B (zh) 基于时间序列卫星遥感影像的作物分类和识别方法和系统
Huang et al. Modelling landslide susceptibility prediction: A review and construction of semi-supervised imbalanced theory
CN116796649A (zh) 一种基于机器学习的spei粗分辨率数据空间降尺度方法及装置
Ayana et al. Land use change analysis using remote sensing and Markov modeling in Fincha watershed, Ethiopia
Chao et al. A spatio-temporal neural network learning system for city-scale carbon storage capacity estimating
CN113742929B (zh) 一种针对格点气象实况的数据质量评价方法
CN111325384B (zh) 一种结合统计特征和卷积神经网络模型的ndvi预测方法
CN113269464A (zh) 一种生态恢复评估方法和生态恢复评估装置
Cao et al. Probabilistic runoff forecasting considering stepwise decomposition framework and external factor integration structure
CN117708551B (zh) 基于双精度gdp数据展布的洪涝灾害影响评估方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200221