一种基于GDP的决策方案数据分析模型的构建方法
技术领域
本发明涉及大数据信息技术领域,特别涉及一种基于GDP的决策方案数据分析模型的构建方法。
背景技术
在基于大数据的社会保险统计分析项目中,预测模块是以统计分析海量数据库为基础,利用经济学、人口学、数量统计、精算科学等理论,通过建立不同的经济模型,进行政策模拟。
现有的预测模型包括:
1、灰色预测模型:通过鉴别系统因素之间发展趋势的相似或相异程度,即进行关联度分析,并通过对原始数据的生成处理来寻求系统变动的规律。生成数据序列有较强的规律性,可以用它来建立相应的微分方程模型,从而预测事物未来的发展趋势和未来状态。灰色预测是用灰色模型GM(1,1)来进行定量分析的。灰色时间序列预测:用等时距观测到的反映预测对象特征的一系列数量(如产量、销量、人口数量、存款数量、利率等)构造灰色预测模型,预测未来某一时刻的特征量,或者达到某特征量的时间。
GM(1,1)模型是基于灰色系统的理论思想,将离散变量连续化,用微分方程代替差分方程,按时间累加后所形成的新的时间序列呈现的规律可用一阶线性微分方程的解来逼近,用生成数序列代替原始时间序列,弱化原始时间序列的随机性,这样可以对变化过程作较长时间的描述,进而建立微分方程形式的模型。其建模的实质是建立微分方程的系数,将时间序列转化为微分方程,通过灰色微分方程可以建立抽象系统的发展模型。经证明,经一阶线性微分方程的解逼近所揭示的原始时间数列呈指数变化规律时,灰色预测GM(1,1)模型的预测将是非常成功的。
2、ARIMA模型
ARIMA模型全称为自回归积分滑动平均模型(Auto regressive IntegratedMoving Average Model,简记ARIMA),是由博克思(Box)和詹金斯(Jenkins)于70年代初提出的著名时间序列预测方法,所以又称为box-jenkins模型、博克思-詹金斯法。其中ARIMA(p,d,q)称为差分自回归移动平均模型,AR是自回归,p为自回归项;MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。所谓ARIMA模型,是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。ARIMA模型根据原序列是否平稳以及回归中所含部分的不同,包括移动平均过程(MA)、自回归过程(AR)、自回归移动平均过程(ARMA)以及ARIMA过程。
ARIMA模型又称自回归移动平均模型。它是指将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立的模型。ARIMA模型将预测指标随时间推移而形成的数据序列看作是一个随机序列,这组随机变量所具有的依存关系体现着原始数据在时间上的延续性,它既受外部因素的影响,又有自身变动规律。
3、LSTM(Long-Short Term Memory)模型
长短期记忆模型(long-short term memory)是一种特殊的RNN模型,是为了解决RNN模型梯度弥散的问题而提出的;在传统的RNN中,训练算法使用的是BPTT,当时间比较长时,需要回传的残差会指数下降,导致网络权重更新缓慢,无法体现出RNN的长期记忆的效果,因此需要一个存储单元来存储记忆,因此LSTM模型被提出。
LSTM的核心是“cell state”,可以理解为传送带,其实就是整个模型中随着时间而变化的记忆空间;传送带本身是无法控制哪些信息是否被记忆,起控制作用的是控制门。
4、BP神经网络预测模型
在历史上,由于一直没有找到合适的多层神经网络学习算法,导致神经网络的研究一度处于低迷的状态。M.Minsky等仔细分析了以感知器为代表的神经网络系统的功能以及它的缺陷后,与1969年出版了“perceptron”一书,指出了感知器不能解决高阶谓词问题,他们的观点加深了人们对神经网络的悲观情绪。20世纪80年代中期,Rumelhart,McClelland等成立了Parallel Distributed Procession(PDP)小组,提出了著名的误差反向传播算法(Error BackPropagtion,BP),解决了多层神经网络的学习问题,极大地促进了神经网络的发展,这种神经网络就被称为BP神经网络。而通过BP神经网络可以对不同的数据进行预测。
在现有的决策分析中,城镇职工人数、退休人数、职工养老基金收入情况、职工养老基金支出情况,这几项数据对政府的决策起到重要参考作用,因此对这几项数据的准确预测也十分重要。现有的预测模型具有不同的特点,然而对于任何一种单一的模型来预测城镇职工人数、退休人数、职工养老基金收入情况、职工养老基金支出情况的数据都会存在预测不准确的情况,且这些预测模型仅仅根据历史数据进行建模数据,在高度发展的现实情况中,往往预测值与实际数值不准确的情况,如何选择一种准确的预测模型将成为政府决策的关键。
发明内容
为解决已上背景中提到的问题,本发明提供一种基于GDP的决策方案数据分析模型的构建方法,包括以下步骤:
步骤a、从数据库中获取近一期特定地区的GDP总值Q1作为预测期的参考GDP总值;
步骤b、选取GM(1,1)模型、ARIMA模型、LSTM模型和BP神经网络预测模型,并使用以上模型对城镇职工人数、城镇职工退休人数、职工养老基金收入、职工养老基金支出进行初步预测,GM(1,1)模型的初步预测数据记为A,ARIMA模型的初步预测数据记为B,LSTM模型的初步预测数据记为C,BP神经网络预测模型的初步预测数据记为D;
步骤c、根据GDP总值对所述A、B、C、D采用加权值m、n、x、y进行处理,即mA、nB、xC和yD,其中m+n+x+y=Q1,以计算城镇职工人数、城镇职工退休人数、职工养老基金收入和职工养老基金支出的预测值;
步骤d、根据实际值的反馈,对所述A、B、C、D的加权进行调整,得出下一期的预测值。
进一步地,城镇职工预测人数P1=(m1×A+n1×B+x1×C+y1×D)/Q1,其中,m1+n1+x1+y1=Q1,x1>y1>m1>n1,且0.5Q1<x1<0.65Q1,0.18Q1<y1<0.25Q1,0.1Q1<m1<0.20Q1,0.05Q1<n1<0.08Q1。
进一步地,城镇职工退休预测人数P2=((m2×A+n2×B+x2×C+y2×D)×(城镇职工预测人数/D))/Q1,其中,m2+n2+x2+y2=Q1,且m2>x2>y2>n2;0.5Q1<m2<0.65Q1,0.18Q1<x2<0.25Q1,0.1Q1<y2<0.20Q1,0.05Q1<n2<0.08Q1。
进一步地,职工养老基金预测总收入P3=(m3×A+n3×B+x3×C+y3×D)/Q1,其中,m3+n3+x3+y3=Q1,且y3>m3>x3>n3;0.5Q1<y3<0.65Q1,0.18Q1<m3<0.25Q1,0.1Q1<x3<0.20Q1,0.05Q1<n3<0.08Q1。
进一步地,职工养老基金预测总支出P4=(m4×A+n4×B+x4×C+y4×D)×(职工养老基金预测总收入/D))/Q1,其中,m4+n4+x4+y4=Q1,且y4>x4>m4>n4,0.5Q1<y4<0.65Q1,0.18Q1<x4<0.25Q1,0.1Q1<m4<0.20Q1,0.05Q1<n4<0.65Q1。
进一步地,根据实际值的反馈,对所述A、B、C、D的加权进行调整,下一期的参考GDP总值Q1’=(((城镇职工实际人数/城镇职工预测人数)+(城镇职工退休实际人数/城镇职工退休预测人数)+(职工养老基金实际总支出/职工养老基金预测总支出)+(职工养老基金预测总收入/职工养老基金预测总支出))/4)×Q1,其中,m’+n’+x’+y’=Q1’,m’、n’、x’、y’为调整后的加权值。
本发明提供一种基于GDP的决策方案数据分析模型的构建方法,能够根据每一期的GDP值对城镇职工人数、城镇职工退休人数、职工养老基金收入、职工养老基金支出进行预测并不断调整,预测得到的结果相比现有技术得出的结果更加可靠,相关部门能够根据预测数据做出相应的政策决定。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供一种基于GDP的决策方案数据分析模型的构建方法,其特征在于,包括以下步骤:
步骤a、从数据库中获取近一期特定地区的GDP总值Q1作为预测期的参考GDP总值;
步骤b、选取GM(1,1)模型、ARIMA模型、LSTM模型和BP神经网络预测模型,并使用以上模型对城镇职工人数、城镇职工退休人数、职工养老基金收入、职工养老基金支出进行初步预测,GM(1,1)模型的初步预测数据记为A,ARIMA模型的初步预测数据记为B,LSTM模型的初步预测数据记为C,BP神经网络预测模型的初步预测数据记为D;
步骤c、根据GDP总值对所述A、B、C、D采用加权值m、n、x、y进行处理,即mA、nB、xC和yD,其中m+n+x+y=Q1,以计算城镇职工人数、城镇职工退休人数、职工养老基金收入和职工养老基金支出的预测值;
步骤d、根据实际值的反馈,对所述A、B、C、D的加权进行调整,得出下一期的预测值。
本发明提供一种基于GDP的决策方案数据分析模型的构建方法,能够根据每一期的GDP值对城镇职工人数、城镇职工退休人数、职工养老基金收入、职工养老基金支出进行预测并不断调整,预测得到的结果相比现有技术得出的结果更加可靠。
优选地,城镇职工预测人数P1=(m1×A+n1×B+x1×C+y1×D)/Q1,其中,m1+n1+x1+y1=Q1,x1>y1>m1>n1,且0.5Q1<x1<0.65Q1,0.18Q1<y1<0.25Q1,0.1Q1<m1<0.20Q1,0.05Q1<n1<0.08Q1。
优选地,城镇职工退休预测人数P2=((m2×A+n2×B+x2×C+y2×D)×(城镇职工预测人数/D))/Q1,其中,m2+n2+x2+y2=Q1,且m2>x2>y2>n2;0.5Q1<m2<0.65Q1,0.18Q1<x2<0.25Q1,0.1Q1<y2<0.20Q1,0.05Q1<n2<0.08Q1。城镇职工退休预测人数与城镇职工预测人数具有一定关系,本发明通过城镇职工预测人数对城镇职工退休预测人数进行相关性调整。
优选地,职工养老基金预测总收入P3=(m3×A+n3×B+x3×C+y3×D)/Q1,其中,m3+n3+x3+y3=Q1,且y3>m3>x3>n3;0.5Q1<y3<0.65Q1,0.18Q1<m3<0.25Q1,0.1Q1<x3<0.20Q1,0.05Q1<n3<0.08Q1。
优选地,职工养老基金预测总支出P4=(m4×A+n4×B+x4×C+y4×D)×(职工养老基金预测总收入/D))/Q1,其中,m4+n4+x4+y4=Q1,且y4>x4>m4>n4,0.5Q1<y4<0.65Q1,0.18Q1<x4<0.25Q1,0.1Q1<m4<0.20Q1,0.05Q1<n4<0.65Q1。
优选地,根据实际值的反馈,对所述A、B、C、D的加权进行调整,下一期的参考GDP总值Q1’=(((城镇职工实际人数/城镇职工预测人数)+(城镇职工退休实际人数/城镇职工退休预测人数)+(职工养老基金实际总支出/职工养老基金预测总支出)+(职工养老基金预测总收入/职工养老基金预测总支出))/4)×Q1,其中,m’+n’+x’+y’=Q1’,m’、n’、x’、y’为调整后的加权值。本发明提供的技术方案中,通过实际值与预测值进行比较,并对下一周期的预测模型进行调整,具体通过多参考的GDP总值进行调整,由于m’+n’+x’+y’=Q1’,因此加权值也将得到相应的调整,该方案能使预测模型能够不断地自学习,从而使预测得到的数据更加准确。
具体地,本发明提供以下举例说明以进一步说明本发明提供的方案:
某市2016年的GDP总值为100亿元,现对2017年某市的城镇职工人数、城镇职工退休人数、职工养老基金收入、职工养老基金支出进行预测;其中,采用GM(1,1)模型的初步预测得到的数据记为A,采用ARIMA模型的初步预测得到的数据记为B,采用LSTM模型的初步预测得到的数据记为C,采用BP神经网络预测模型的初步预测得到的数据记为D;
城镇职工预测人数=(15×A+8×B+60×C+22×D)/100,其中,x1=60亿,y1=22亿,m1=15亿,n1=8亿;得出城镇职工预测人数为P1;
城镇职工退休预测人数=((m2×A+n2×B+x2×C+y2×D)×(P1/D))/100,其中,m2=55,x2=24,y2=15,n1=6;得出城镇职工退休预测人数为P2;
职工养老基金预测总收入=(m3×A+n3×B+x3×C+y3×D)/Q1,其中y3=56,m3=24,x3=14,n3=6;通过计算得出城镇职工预测人数为P3;
职工养老基金预测总支出=(m4×A+n4×B+x4×C+y4×D)×(P3/D))/Q1
将得到的P1、P2、P3、P4,与2017年相应的实际数值R1、R2、R3、R4;进行比较,若2017年的GDP总值Q1为120亿元,则2018年参考GDP总值Q1’=((R1/P1+R2/P2+R3/P3+R4/P4)/4)×120;
则2018年:
城镇职工预测人数=(m1×A+n1×B+x1×C+y1×D)/Q1’;
城镇职工退休预测人数=((m2×A+n2×B+x2×C+y2×D)×(城镇职工预测人数/D))/Q1’;
职工养老基金预测总收入=(m3×A+n3×B+x3×C+y3×D)/Q1’;
由此得出2018年的预测数据;
根据该技术方案,继而得出接下来周期所要得到额预测数据。
根据预测得到的城镇职工人数、城镇职工退休人数、职工养老基金总收入和职工养老基金总支出,政府部门可以做出相应的决策。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。