具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
参见图1所示,为本发明的指标权重获取方法的一个实施例。该实施例中的指标权重获取方法,包括以下步骤:
步骤S101:将各目标指标数据作为因变量,以各目标指标数据对应的理论指标数据作为自变量进行逐步回归,获取各目标指标数据对应的最大的拟合优度,根据各拟合优度分别获取各目标指标数据的同时独立数据;
步骤S102:针对每个目标指标数据,获取该目标指标数据与该目标指标数据对应的基准指标数据在不同第一时差值下的各时差相关系数,选取最大时差相关系数,根据最大时差相关系数和对应的第一时差值获取该目标指标数据的时差独立数据;
步骤S103:针对每个目标指标数据,获取该目标指标数据在不同第二时差值下的各自相关系数,选取绝对值最大的自相关系数,根据绝对值最大的自相关系数和对应的第二时差值,获取该目标指标数据的预测独立数据;
步骤S104:针对每个目标指标数据,将该目标指标数据的同时独立数据、时差独立数据和预测独立数据相加,获得该目标指标数据的权重参数;
步骤S105:对各目标指标数据的权重参数进行归一化处理,获得各目标指标数据的权重。
根据上述本发明的指标权重获取方法,其是以各目标指标数据为基础,分别获取目标指标数据的同时独立数据、时差独立数据、预测独立数据,根据同时独立数据、时差独立数据、预测独立数据获取目标指标数据的权重参数,对各目标指标数据的权重参数进行归一化处理后就可以获得各目标指标数据的权重。本方案以三种不同的数据的组合作为衡量各目标指标之间相关性的标准,这三种不同数据代表的重复信息均不完全相同,也就是目标指标间的信息重复程度小,使得目标指标的权重的变异系数大,也就是能体现出各个目标指标重要性的不同,可以突显出目标指标的预测能力,提高宏观经济景气的预测效果。
在一个优选的实施例中,最大拟合优度为目标指标数据的同时独立数据为SDi,其中,i表示目标指标数据的编号。
在一个优选的实施例中,根据以下公式计算目标指标数据与对应的基准指标数据的时差相关系数:
式中,y表示目标指标数据,x表示对应的基准指标数据,和分别是x和y的平均值,t表示目标指标数据的时间序列号,l表示时差值,n表示目标指标数据的个数。
在一个优选的实施例中,根据以下公式计算目标指标数据的自相关系数:
式中,y表示目标指标数据,是y的平均值,t表示目标指标数据的时间序列号,l表示时差值,n表示目标指标数据的个数;
选出其中绝对值最大的自相关系数,Rl's=max|Rls|,使用时差值作系数:Rsi=l'Rl's,得到目标指标数据的预测独立数据:PDi=Rsi。
在一个优选的实施例中,按照以下公式对各目标指标数据的权重参数进行归一化处理,获得各目标指标数据的权重:
式中,Wi表示第i个目标指标数据的权重,SDi是第i个目标指标数据的同时独立数据,DDi是第i个目标指标数据的时差独立数据,PDi是第i个目标指标数据的预测独立数据,l表示时差值,n表示目标指标数据的个数。
在其中一个实施例中,根据最大时差相关系数和对应的第一时差值获取该目标指标数据的时差独立数据的步骤包括以下步骤:
判断该目标指标数据的类型,类型包括先行指标数据、同步指标数据和滞后指标数据;
若该目标指标数据为先行指标数据,则将对应的第一时差值的绝对值和最大时差相关系数的商值作为该目标指标数据的时差独立数据;
若该目标指标数据为同步指标数据,则将最大时差相关系数的倒数值作为该目标指标数据的时差独立数据;
若该目标指标数据为滞后指标数据,则将对应的第一时差值和最大时差相关系数的积值的倒数值作为该目标指标数据的时差独立数据。
在本实施例中,对于不同类型的目标指标数据,需要不同的方式来获取相应的时差独立数据,使最终获得的目标指标数据的权重更加准确。
在一个优选的实施例中,在选出最大的时差相关系数Rl'=max Rl后,判断目标指标数据的类型;
若为先行指标数据,则该目标指标数据的时差相关系数作处理其中,l’最大的时差相关系数对应的时差值;若为滞后指标数据,则该目标指标数据的时差相关系数作处理Rmi=l'Rl',若为同步指标数据,则该目标指标数据的时差相关系数不作处理,为Rmi=Rl’,最后得到指标的时差独立信息:DDi=1/Rmi。
在其中一个实施例中,判断该目标指标数据为先行指标数据、同步指标数据或滞后指标数据的步骤包括以下步骤:
获取该目标指标数据的基准循环指标数据;
获取基准循环指标数据与该目标指标数据在不同第一时差值下的各相关性系数,确定各相关性系数中与数值1的差值的绝对值最小的目标相关性系数;
判断目标相关性系数对应的第一时差值与第一预设时差值、第二预设时差值的大小;
若目标相关性系数对应的第一时差值小于第一预设时差值,则该目标指标数据为先行指标数据;
若目标相关性系数对应的第一时差值大于或等于第一预设时差值,同时,目标相关性系数对应的第一时差值小于或等于第二预设时差值,则该目标指标数据为同步指标数据;
若目标相关性系数对应的第一时差值大于第二预设时差值,则该目标指标数据为滞后指标数据。
在本实施例中,根据基准循环指标数据与该目标指标数据在不同第一时差值下的各相关性系数的大小,可以确定该目标指标数据的最佳相关性系数,再判断其对应的时差值与预设的两个时差值进行比较,就可以确定该目标指标数据的类型。通过获取相关性系数,可以方便地确定目标指标数据的类型。
在一个优选的实施例中,按照以下公式计算目标指标数据的相关性数据:
式中,x为基准循环指标数据,y为目标指标数据;和为x、y的平均值;cxx(0)、cyy(0)为x、y的方差;l表示超前、滞后期,被称为时差或延迟数;L是最大延迟数,nl是数据取齐后的数据个数,即最大期数减去l,这里是120-l。
计算目标指标数据与基准循环指标数据的相关性系数,一般认为相关性系数越接近于1,效果就越好。判断最接近1的相关性系数的时差值与预设时差值的大小,若最接近1的相关性系数的时差值在正负3之间(包括正负3),则认为该目标指标数据是同步指标数据,若最接近1的相关性系数的时差值大于3,则认为该目标指标数据是滞后指标数据,若最接近1的相关性系数的时差值小于-3,则认为该目标指标数据是先行指标。
在其中一个实施例中,将各目标指标数据作为因变量的步骤之前还包括以下步骤:
判断各目标指标数据中是否缺失若干目标指标数据,若是,则采用平滑插值法对缺失的目标指标数据进行补充。
在本实施例中,当各目标指标数据中有数据缺失时,可以采用平滑插值法进行补充,避免因数据缺失导致指标权重错误。
在其中一个实施例中,将各目标指标数据作为因变量的步骤之前还包括以下步骤:
对目标指标数据进行数据季节调整。
在本实施例中,对各目标指标数据进行处理之前需要进行数据季节调整,以剔除季节因素对数据的影响。
在一个具体的实施例中,景气状况分析需要对数据进行平滑处理,剔除季节因素和不规则因素后对趋势因素和循环因素的波动情况进行分析,为此,在分析之前,必须首先对收集的数据进行预处理,以分解出数据的趋势因素和循环波动序列。一般时间序列的波动可归结为四大因素:趋势变动要素(T)、季节变动要素(S)、循环变动要素(C)、不规则变动要素(I)。四种变动与原序列(Y)的关系被概括为加法模型和乘法模型:
加法模型:Yt=Tt+Ct+St+It,At=Tt+Ct+It,
乘法模型:Yt=Tt×Ct×St×It,At=Tt×Ct×It,
其中,Yt=原始序列;Tt=趋势因素;Ct=循环因素;St=季节因素;It=不规则因素;At=调整后的序列。
关于季节调整的方法,主要采用的是CensusX11以及CensusX12方法。X11方法主要按以下步骤进行:第1步,估计趋势;第2步,消除序列中的趋势;第3步,估计季节因素;重复1~3步,进行了三次迭代,每一次迭代都提供了季节项S、趋势起伏项T和不规则成分I的估计,每次迭代改进了不规则成分中极端值的估计,在极端值被识别出来并修正之后,生成最终的季节成分、季节调整过的序列、趋势起伏和不规则成分的估计。
第一步,初步估计
(a)趋势因素的初步估计:
(b)初步SI比估计:
(c)季节因素的初步估计:
调整异常值,步骤如下:①从中除去季节因素得到不规则因素估计序列②根据计算移动标准偏差,③根据标准偏差函数计算权重,④根据自身值和同一时期内离它最近的4个值,调整该异常值并置换到原始序列Yt中。
第二步,修正估计
(a)趋势因素的估计修正:用长度为(2H+1)的Henderson过滤来计算趋势,H值由数据决定。
(b)修正的SI比估计(计算最后的季节-不规则因素比率):
(c)季节因素的修正估计:
用第一步(c)中同样的复杂运算规则替换异常值。于是得到修正的季节调整序列和不规则因素初步估计为:
修正的季节调整序列:
不规则因素的初步估计:
第三步,最终估计
(a)趋势因素的最终估计:
(b)不规则因素的最终估计:
CensusX12方法在初始估计与修正估计时运用了不同的移动平均方法,扩展了贸易日和节假日影响的调节功能,增加了季节、趋势循环和不规则要素分解模型选择和X12-ARIMA模型的建模和模型选择的功能。共包括4种季节调整的分解形式:乘法、加法、伪加法和对数加法模型。设Yt表示一个无奇异值的月度时间序列,通过预测和回推来扩展序列使得在序列的尾端不需要对季节调整公式进行修改。把Yt分解为趋势循环项、季节项和不规则要素。以加法模型为例,X12季节调整方法的核心算法共分为三个阶段:
第一阶段,季节调整的初始估计
(a)通过中心化12项移动计算平均趋势循环要素的初始估计:
(b)计算SI项的初始估计:
(c)通过3×3项移动平均计算季节因子S的初始估计:
(d)消除季节因子中的残余趋势:
(e)得到季节调整结果的初始估计:
第二阶段,计算暂定的趋势循环要素和最终的季节因子
(a)利用Henderson移动平均公式计算暂定的趋势循环要素:
(b)计算暂定的SI项:
(c)通过3×5项移动平均计算暂定的季节因子:
(d)计算最终的季节因子:
(e)得到季节调整的第二次估计结果:
第三阶段,计算最终的趋势循环要素和最终的不规则要素
(a)利用Henderson移动平均公式计算最终的趋势循环要素:
(b)计算最终的不规则要素:
在季节调整方法中,采用HP滤波法进行趋势分解。HP滤波可以看作是一个近似的高通滤波器(High-Pass Filter),其理论基础是时间序列的谱分析方法,即把时间序列看作是不同频率的成分的叠加,时间序列的High-Pass滤波就是要在这些所有的不同频率的成分中,分离出频率较高的成分,去掉频率较低的成分,也即去掉长期的趋势项,而对短期的随机波动项进行度量。该方法的原理简述如下:
设Yt是包含趋势成分和波动成分的经济时间序列,Yt T是其中含有的趋势成分,Yt C是其中含有的波动成分。则:
Yt=Yt T+Yt C t=1,2,…,N
计算HP滤波就是从Yt中将Yt T分离出来。一般地,时间序列Yt中的趋势Yt T常被定义为下面最小化问题的解:
其中,c(L)是滞后算子多项式
c(L)=(L-1-1)-(1-L)
于是,HP滤波的问题就是使下面的损失函数最小,即:
最小化问题用[c(L)Yt T]2来调整趋势变化,并随着λ的增大而增大。HP滤波依赖于参数λ,该参数需要先给定。这里存在一个权衡问题,要在趋势要素对实际序列的跟踪程度和趋势光滑度之间作一个选择。λ=0时,满足最小化问题的趋势等于序列Yt;λ增加时,估计趋势中的变化总数相对于序列中的变化减少,即λ越大,估计趋势越光滑;λ趋于无穷大时,估计趋势将接近线性函数。一般经验地,λ的取值如下:
在获取各目标指标数据的权重时,需要将各目标指标数据的权重参数做归一化处理,消除量纲影响并将指标处理为同向指标。不同的归一化方法,将得到不同的单项值,它反映了对单个指标中所包含的信息量及指标原值变动与信息量之间函数关系形式的变化。
正指标的功效化公式为:
逆指标的功效化公式为:
中值最优指标的功效化公式为:
ymid为指标数值从小到大排序后的位于中间的值(有两个时取二者的均值作为中间值)。
本发明提出的指标权重获取方法是一种新的复合独立信息赋权法,它具有能够突显优良预测能力指标的优势。其原理是使用复相关系数,时差相关系数,自相关系数,用时差进行修正,再进行归一化得到权重。使用多种相关系数的组合保证了各种相关系数代表的重复信息均不完全相同,目标指标间的信息重复程度小,使得目标指标的权重的变异系数大,也就是能体现出各个目标指标重要性的不同,可以突显出目标指标的预测能力,提高宏观经济景气的预测效果。
本发明的方法可以应用在广东省经济数据分析中,使用功效系数法对指标进行标准化,使用HP滤波法去除指标的趋势,由于时差相关系数法仅能对先行指标进行权重的赋予,因此仅同时计算简单相关系数法,复相关系数法,以及复合独立信息赋权法3种评价方法得到的权重,结果如下表所示:
|
简单相关系数 |
复相关系数 |
复合独立信息 |
GDP |
0.026675 |
0.04487 |
0.017661 |
出口 |
0.026578 |
0.045418 |
0.028888 |
消费 |
0.03031 |
0.04493 |
0.020322 |
第二产业比重 |
0.087437 |
0.05139 |
0.021083 |
第三产业比重 |
0.08047 |
0.049144 |
0.013157 |
工业总产值 |
0.027383 |
0.054518 |
0.028744 |
人均gdp |
0.026178 |
0.047457 |
0.016603 |
资本产出率 |
0.060201 |
0.051118 |
0.008781 |
劳动生产率 |
0.028336 |
0.047653 |
0.033561 |
科技人员比重 |
0.031629 |
0.052659 |
0.182774 |
科技经费 |
0.031871 |
0.045818 |
0.149881 |
固定资本投资总额 |
0.034722 |
0.075451 |
0.022505 |
收入增长 |
0.150181 |
0.144687 |
0.018642 |
能源强度 |
0.108713 |
0.045924 |
0.019784 |
电力强度 |
0.089124 |
0.045924 |
0.287861 |
污水达标率 |
0.108926 |
0.046927 |
0.101259 |
环境治理费用 |
0.051266 |
0.106113 |
0.028494 |
权重变异系数 |
0.024997 |
0.012341 |
0.102748 |
三种方法给予各个指标的权重大小排序都不相同,使用复合独立信息法得到的权重其变异系数最大,也就是说复合独立信息法最能体现各个指标重要性的不同。而且同时,对于使用时差相关系数判断出来的先行指标:科技人员比重,科技经费,电力强度与污水达标率,复合独立信息法均给予了比较大的权重。并且先行指标的权重排序与先行的程度也呈现相同的排序,如下表所示:
|
第二产业比重 |
科技人员比重 |
科技经费 |
电力强度 |
污水达标率 |
先行期数 |
1 |
9 |
9 |
9 |
5 |
复合独立信息 |
0.02108304 |
0.182773968 |
0.149881 |
0.287861 |
0.101259194 |
根据上述指标权重获取方法,本发明还提供一种指标权重获取系统,以下就本发明的指标权重获取系统的实施例进行详细说明。
参见图2所示,为本发明的指标权重获取系统的实施例。该实施例中的指标权重获取系统包括第一获取单元210、第二获取单元220、第三获取单元230、第四获取单元240和归一化单元250;
第一获取单元210用于将各目标指标数据作为因变量,以各目标指标数据对应的理论指标数据作为自变量进行逐步回归,获取各目标指标数据对应的最大的拟合优度,根据各拟合优度分别获取各目标指标数据的同时独立数据;
第二获取单元220用于针对每个目标指标数据,获取该目标指标数据与该目标指标数据对应的基准指标数据在不同第一时差值下的各时差相关系数,选取最大时差相关系数,根据最大时差相关系数和对应的第一时差值获取该目标指标数据的时差独立数据;
第三获取单元230用于针对每个目标指标数据,获取该目标指标数据在不同第二时差值下的自相关系数,选取绝对值最大的自相关系数,根据绝对值最大的自相关系数和对应的第二时差值,获取该目标指标数据的预测独立数据;
第四获取单元240用于针对每个目标指标数据,将该目标指标数据的同时独立数据、时差独立数据和预测独立数据相加,获得该目标指标数据的权重参数;
归一化单元250用于对各目标指标数据的权重参数进行归一化处理,获得各目标指标数据的权重。
在其中一个实施例中,第二获取单元220用于判断该目标指标数据的类型,类型包括先行指标数据、同步指标数据和滞后指标数据;
若该目标指标数据为先行指标数据,则将对应的第二时差值和最大时差相关系数的商值作为该目标指标数据的时差独立数据;
若该目标指标数据为同步指标数据,则将最大时差相关系数的倒数值作为该目标指标数据的时差独立数据;
若该目标指标数据为滞后指标数据,则将对应的第二时差值和最大时差相关系数的积值的倒数值作为该目标指标数据的时差独立数据。
在其中一个实施例中,第二获取单元220用于获取该目标指标数据的基准循环指标数据;获取基准循环指标数据与该目标指标数据在不同第一时差值下的各相关性系数,确定各相关性系数中与数值1的差值的绝对值最小的目标相关性系数;
判断目标相关性系数对应的第一时差值与第一预设时差值、第二预设时差值的大小;
若目标相关性系数对应的第一时差值小于第一预设时差值,则该目标指标数据为先行指标数据;
若目标相关性系数对应的第一时差值大于或等于第一预设时差值,同时,目标相关性系数对应的第一时差值小于或等于第二预设时差值,则该目标指标数据为同步指标数据;
若目标相关性系数对应的第一时差值大于第二预设时差值,则该目标指标数据为滞后指标数据。
在其中一个实施例中,如图3所示,指标权重获取系统还包括补充单元260,用于判断各目标指标数据中是否缺失若干目标指标数据,若是,则采用平滑插值法对缺失的目标指标数据进行补充。
在其中一个实施例中,如图4所示,指标权重获取系统还包括调整单元270,用于对目标指标数据进行数据季节调整。
在本发明中,“第一”、“第二”等序数词只是为了对所涉及的数据进行区分,并不是对数据本身进行限定。
本发明的指标权重获取系统与本发明的指标权重获取方法一一对应,在上述指标权重获取方法的实施例阐述的技术特征及其有益效果均适用于指标权重获取系统的实施例中。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。