CN113935535A

CN113935535A - 一种面向中长期预测模型的主成分分析方法

Info

Publication number: CN113935535A
Application number: CN202111228038.0A
Authority: CN
Inventors: 韩帅; 卢健斌; 郭小璇; 郭敏; 孙乐平
Original assignee: Electric Power Research Institute of Guangxi Power Grid Co Ltd
Current assignee: Electric Power Research Institute of Guangxi Power Grid Co Ltd
Priority date: 2021-10-21
Filing date: 2021-10-21
Publication date: 2022-01-14

Abstract

本发明公开了一种面向中长期预测模型的主成分分析方法，涉及数据分析预测技术领域，通过收集研究对象的影响因素；根据基于熵权法的灰色关联分析法计算所述影响因素与研究对象的关联度，根据所述关联度对所述影响因素进行初步筛选；采用皮尔逊积矩相关系数法对初步筛选后剩余的影响因素之间的关系进行分析，并判断是否要进行多重线性分析；若需要进行多重线性分析，则采用方差扩大因子的次因剔除法对初步筛选后的影响因素进行进一步筛选，以确定最终的主要影响因素，反之直接得到最终的主要影响因素，为关键影响因素的筛选提供数理依据。解决了现有目前对于主要影响因素的选择往往按照个人经验来确定，考虑不周的缺点。

Description

一种面向中长期预测模型的主成分分析方法

技术领域

本发明属于数据分析预测技术领域，尤其涉及一种面向中长期预测模型的主成分分析方法。

背景技术

在研究分析工作中，常常需要针对关注的研究对象，收集大量相关影响因素，从而对其进行观测和分析。收集越多的影响因素就越方便全方面的对事物进行细致的研究，对深层次的规律进行探寻。但随着样本影响因素数量的增多，需要分析处理的数据量也是直线上升的，在进行样本聚类、回归等数据分析的过程中，样本的数据维度过大，无疑会使得问题的研究变得愈加复杂。目前对于主要影响因素的选择往往按照个人经验来确定，缺乏数理实证。且在考虑主因素时往往只考虑因素与研究对象之间的相关关系，而很少会考虑到各影响因素之间的相关关系是否会影响研究对象预测模型精度。

发明内容

本发明的目的在于提供一种面向中长期预测模型的主成分分析方法，从而解决了现有目前对于主要影响因素的选择往往按照个人经验来确定，考虑不周的缺点。

为实现上述目的，本发明提供了一种面向中长期预测模型的主成分分析方法，包括以下步骤：

收集研究对象的影响因素；

根据基于熵权法的灰色关联分析法计算所述影响因素与研究对象的关联度，根据所述关联度对所述影响因素进行初步筛选；

采用皮尔逊积矩相关系数法对初步筛选后剩余的影响因素之间的关系进行分析，并判断是否要进行多重线性分析；

若需要进行多重线性分析，则采用方差扩大因子的次因剔除法对初步筛选后的影响因素进行进一步筛选，以确定最终的主要影响因素，反之直接得到最终的主要影响因素。

优选地，根据基于熵权法的灰色关联分析判断所述影响因素与研究对象的关联度，包括以下步骤：

设定所述影响因素为指标，根据评价目的确定评价指标体系，根据所述评价指标体系收集所述指标的评价数据，根据所述指标和评价数据确定原始评价矩阵及参考数列；

对指标数据进行标准化处理，得到标准化序列；

从所述标准化序列中获取被研究对象比较序列，计算所述被研究对象比较序列与参考数列对应元素的绝对差值，并确定所述绝对差值的极值；

计算各被研究对象比较序列与参考数列对应元素的关联系数；

根据所述关联系数和指标计算关联度，具体的，采用熵权法对各个指标赋予权重，根据所述权重计算灰色加权关联度；

根据灰色加权关联度，得出综合评价结。

优选地，采用极差变换法进行标准化处理。

优选地，所述原始评价矩阵通过指标的指标值构建，参考数列由指标的最终值组成。

优选地，灰色加权关联度越大，研究对象与理想的比较标准越相似，评价结果越优，反之则越劣。

优选地，灰色加权关联度低于0.6的影响因素可以被剔除。

优选地，采用皮尔逊积矩相关系数法对初步筛选后剩余的影响因素之间的关系进行分析，并判断是否要进行多重线性分析，具体包括：

获取初步筛选后的影响因素之间的皮尔逊积矩相关系数；

当初步筛选后的影响因素之间的皮尔逊积矩相关系数高于0.6时需要进行多重共线性分析。

优选地，采用方差扩大因子的次因剔除法对初步筛选后的影响因素进行进一步筛选，具体包括：

计算初步筛选后各指标的方差扩大因子，判断各指标间的多重共线性程度，根据所述多重共线性程度对指标进行进一步筛选。

优选地，所述方差扩大因子VIF的计算公式为：

上式中，R_i ²以自变量i为因变量时对其它自变量回归的复测定系数。

优选地，根据所述多重共线性程度对指标进行进一步筛选，具体包括：

根据初步筛选后的影响因素构建线性回归模型，当线性回归模型中存在多重共线性时，通过VIF值剔除变量。

与现有的技术相比，本发明具有如下有益效果：

本发明所提供的面向中长期预测模型的主成分分析方法，收集研究对象的影响因素；根据基于熵权法的灰色关联分析法计算所述影响因素与研究对象的关联度，根据所述关联度对所述影响因素进行初步筛选；采用皮尔逊积矩相关系数法对初步筛选后剩余的影响因素之间的关系进行分析，并判断是否要进行多重线性分析；若需要进行多重线性分析，则采用方差扩大因子的次因剔除法对初步筛选后的影响因素进行进一步筛选，以确定最终的主要影响因素，反之直接得到最终的主要影响因素，为关键影响因素的筛选提供数理依据。解决了现有目前对于主要影响因素的选择往往按照个人经验来确定，考虑不周的缺点。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一个实施例，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一种面向中长期预测模型的主成分分析方法的流程图。

具体实施方式

下面结合本发明实施例中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明所提供的面向中长期预测模型的主成分分析方法包括以下步骤：

S1、收集研究对象的影响因素；

S2、根据基于熵权法的灰色关联分析法计算所述影响因素与研究对象的关联度，根据所述关联度对所述影响因素进行初步筛选；

S3、根据初步筛选后的影响因素的皮尔逊积矩相关系数判断是否需要进行进一步的多重共线性分析；

S4、若需要进行多重共线性分析，采用方差扩大因子的次因剔除法对初步筛选后的影响因素进行进一步筛选，以确定最终的主要影响因素，反之直接得到最终的主要影响因素。

上述的面向中长期预测模型的主成分分析方法，通过收集研究对象的影响因素；根据基于熵权法的灰色关联分析法计算所述影响因素与研究对象的关联度，根据所述关联度对所述影响因素进行初步筛选；采用皮尔逊积矩相关系数法对初步筛选后剩余的影响因素之间的关系进行分析，并判断是否要进行多重线性分析；若需要进行多重线性分析，则采用方差扩大因子的次因剔除法对初步筛选后的影响因素进行进一步筛选，以确定最终的主要影响因素，反之直接得到最终的主要影响因素，为关键影响因素的筛选提供数理依据。解决了现有目前对于主要影响因素的选择往往按照个人经验来确定，考虑不周的缺点。

其中一个实施例，根据基于熵权法的灰色关联分析判断所述影响因素与研究对象的关联度，包括以下步骤：

S21、设定所述影响因素为指标，根据评价目的确定评价指标体系，根据所述评价指标体系收集所述指标的评价数据，根据所述指标和评价数据确定原始评价矩阵及参考数列；

其中，所述原始评价矩阵中的数据为指标数据，参考数列由各指标的最优值组成；

S22、对指标数据进行标准化处理，得到标准化序列；

S23、从所述标准化序列中获取被研究对象比较序列，计算被研究对象比较序列与参考数列对应元素的绝对差值，并确定所述绝对差值的极值；

S24、计算各被研究对象比较序列与参考数列对应元素的关联系数；

S25、根据所述关联系数和指标计算关联度，具体的，采用熵权法对各个指标赋予权重，根据所述权重计算灰色加权关联度；

S26、根据步骤S25得到的各研究对象的关联度(灰色加权关联度)，得出综合评价结。

其中一个实施例，步骤S22中，采用极差变换法进行标准化处理。

其中一个实施例，步骤S25中，灰色加权关联度越大，研究对象与理想的比较标准越相似，评价结果越优，反之则越劣。

其中一个实施例，步骤S25中，灰色加权关联度低于0.6的影响因素可以被剔除

其中一个实施例，判断所述皮尔逊积矩相关系数是否要进行多重线性分析，具体包括：初步筛选后的影响因素的皮尔逊积矩相关系数高于0.6时，需要进行多重共线性分析。

其中一个实施例，采用方差扩大因子的次因剔除法对初步筛选后的影响因素进行进一步筛选，具体包括：

其中一个实施例，所述方差扩大因子VIF的计算公式为：

其中一个实施例，根据所述多重共线性程度对指标进行进一步筛选，具体包括：根据初步筛选后的影响因素构建线性回归模型，当线性回归模型中存在多重共线性时，通过VIF值剔除变量，用于补救多重共线性。

其中一个实施例，基于熵权法的灰色关联度分析具体包括：

S1、首先要对影响研究目标(也称因变量)的相关因素进行定性分析，如表1所示可分列多个影响层面，选取其下包含的多个影响因素为指标(也称自变量)，并对其进行编号，如表1所示。

表1研究对象影响因素表

S2、由于研究对象的影响因素具有部分影响因素明确、部分影响因素不明确的不确定性，为针对各影响因素进行合理定性分析，本发明采用基于熵权法的灰色关联分析法，来判断各影响因素与研究对象的关联度，根据关联度对影响因素进行初步筛选。

灰色关联分析(Grey Relational Analysis)的基本思想是根据序列曲线几何形状的相似程度来判断其联系是否紧密。曲线越接近，相应序列之间关联度就越大，反之就越小。因此，灰色关联分析方法，是根据因素之间发展趋势的相似或相异程度，亦即“灰色关联度”，作为衡量因素间关联程度的一种方法。灰色关联的表示方法有灰色关联度、灰色绝对关联度、灰色相对关联度、灰色综合关联度、灰色斜率关联度等。

灰色关联度分析具体包括以下步骤：

S21、根据评价目的确定评价指标体系，收集评价数据，确定原始评价矩阵及参考数列。假设研究对象有m个，评价指标有n个，后续简称指标，则参考数列为X₀＝{x₀(j)|j＝1,2,...,n}。参考数列应该是一个理想的比较标准，可以以各指标的最优值或最劣值来构成参考数列，也可根据评价目的，选择其它参照值。此外，参考数列的确定，还应考虑指标的正反方向问题。

具体的，定义x_ij为第i个对象第j个指标的指标值，则原始评价矩阵X表示为：

S22、对指标数据进行标准化处理。

针对正相关型(即与目标间呈同向变化趋势)、负相关型(即与目标间呈反向变化趋势)、最优值为给定区间型等不同类型的指标，标准化处理策略有很多，如向量归一法、线性比例变换法、极差变换法等等。本发明采用极差变换法进行标准化处理为例，极差变换法又称为标准0-1变换，适用于对正相关型和负相关型指标进行标准化处理。

对于正相关型指标，有

而对于负相关型指标，则

则标准化处理后数据序列为

经过标准化处理后，指标值均在[0,1]区间内，正、负相关型指标均被化为正相关型指标，最优值为1，最劣值为0，即指标值越大，指标越优。

S23、计算被研究对象比较序列与参考数列对应元素的绝对差值并确定极值。即：

|Z_i-Z₀|＝|z_ij-z_0j|,i＝1,2,…,m,j＝1,2,…,n

确定最大值、最小值分别为

S24、计算各被研究对象比较序列与参考数列对应元素的关联系数。关联系数是不超过1的正数，它反映了i个比较序列X_i与参考序列X₀在第j个指标上的关联程度。定义ζ_ij为第i个被研究对象比较序列与参考序列第j个指标的关联系数，则有

上式中，η为分辨系数，η的值在[0,1]区间内。若η值越小，则关联系数之间的差异越大，分辨能力越强，反之则差异越小，分辨能力越差。通常情况下取η＝0.5。

S25、根据关联系数和指标计算关联度。各个指标与参考序列对应元素关联系数的均值，能反映各研究对象与参考序列的关联关系，即关联度P为：

P＝(p₀₁,p₀₂,…,p_0i,…p_0m)^T,i＝1,2,…,m

且有

为克服“平均主义”所带来的主观性影响，本发明采用熵权法对各个指标赋予权重，记为W＝(w₁,w₂,…,w_j,…,w_n),j＝1,2,…,n。

“熵权”理论是一种客观赋权方法，它借用信息论中熵的概念。在给定研究对象集后各种评价指标值确定的情况下，各指标在竞争意义上的相对激烈程度，即称之为熵权，它主要是根据各指标传递给决策者的信息量大小来确定其权数的。

根据熵权法理论，定义第j项指标的熵值为H_j，熵权为ω_j可由下式计算得到。

上式中，

且当f_ij＝0时，f_ijlnf_ij＝0。0≤ω_j≤1，且有

则此时的灰色加权关联度p_0i表示为：

S26、依据各研究对象的关联度，得出综合评价结果。

由于参考数列由各指标的最优值组成，则根据得到的灰色加权关联度表，如表2所示，关联度越大，该研究对象与理想的比较标准越相似，评价结果越优，反之则越劣。一般灰色加权关联度低于0.6的影响因素可以被剔除，至此完成指标的初步筛选。

表2灰色加权关联度判定表

S3、采用皮尔逊积矩相关系数法对初步筛选后剩余的影响因素之间的关系进行分析，其定义是两个变量协方差除以两个变量的标准差(方差的平方根)。相关系数是一个比率，且不是等单位量度。相关系数的正负号只表示相关的方向，绝对值表示相关的程度。对于相关程度的判定通常认为如表3所示。当初步筛选后剩余的影响因素间的皮尔逊积矩相关系数大于0.6时，说明影响因素间具有较强的相关属性，需要对剩余影响因素进行多重共线性分析，反之直接得到最终的主要影响因素。

表3相关程度判定表

S4、若初步筛选后剩余的影响因素间的皮尔逊积矩相关系数大于0.6，采用方差扩大因子的次因剔除法对初步筛选后的影响因素进行进一步筛选，以确定最终的主要影响因素。

采用方差扩大因子的次因剔除法对初步筛选后的影响因素进行进一步筛选为：根据初步筛选后的影响因素构建线性回归模型，当线性回归模型中存在多重共线性时，通过VIF值剔除变量，用于补救多重共线性。

多重共线性指自变量间存在相关系数较大的现象，在使用普通最小二乘法和线性回归方法时，多重共线性会使得估计系数的方差较大。在有限样本下这可能导致估计得不准确，t检验结果可能偏小，不利于理验证论。在时间序列估计特别是分布滞后模型等动态模型中，多重共线性非常常见，因此消除多重共线性成为参数估计的一个重要环节。在线性回归模型中，自变量之间的关系可分为三种，如表4所示。

表4自变量关系分类表

若自变量之间的相关系数很大，即相关度很高，会影响到线性回归模型中回归方程的参数估计值的准确性甚至稳定性。因而指标间的多重共线性问题，可能会造成估计的回归系数不准确，甚至增大参数估计量方差等问题，而严重的多重共线性会使统计推断检验做出不正确的判断，比如增大模型拟合优度检验的可决系数，得到的结论可能与实际意义不符合等。为解决这一问题，本发明根据初步筛选后的影响因素构建线性回归模型，采用基于方差扩大因子(Variance Inflation Factor，VIF)的次因剔除法来降低所选研究对象主要影响因素间的多重共线性影响。

VIF计算方法：

上式中，

以自变量i为因变量时对其它自变量回归的复测定系数。

当回归方程中存在多重共线性时，剔除变量是补救多重共线性最简单的方法。这种方法通过删除引起多重相关性但在方程中不重要的变量，来重新建立回归方程。在删除变量时，可将变量的VIF的大小来作为删除依据，各因素中VIF值大者应首先被剔除并重新进行剩余指标的VIF值计算，需要注意的是，若删除该变量后，多重共线性仍发生在新建立的回归方程中，则需要继续删除剩余方差扩大因子最大者的自变量，如此反复循环，直到多重共线性不存在回归方程中为止。当剩余全部指标的VIF值均不大于10时，当前全部指标满足要求，最终保留下来的即为研究对象的主要关键影响因素，可以为下一步的预测模型构建工作提供重要支撑。多重共线性程度判定可以根据表5判定。

表5多重共线性程度判定表

综上，本发明一种面向中长期预测模型的主成分分析方法，方法简单易行，所计算的各项参数意义明确，并提供了确切的判定标准，避免了主观经验臆测选择带来的误差。

以上所揭露的仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或变型，都应涵盖在本发明的保护范围之内。

Claims

1.一种面向中长期预测模型的主成分分析方法，其特征在于,包括以下步骤：

收集研究对象的影响因素；

2.根据权利要求1所述的面向中长期预测模型的主成分分析方法，其特征在于，根据基于熵权法的灰色关联分析判断所述影响因素与研究对象的关联度，包括以下步骤：

对指标数据进行标准化处理，得到标准化序列；

根据灰色加权关联度，得出综合评价结。

3.根据权利要求2所述的面向中长期预测模型的主成分分析方法，其特征在于，采用极差变换法进行标准化处理。

4.根据权利要求2所述的面向中长期预测模型的主成分分析方法，其特征在于，所述原始评价矩阵通过指标的指标值构建，参考数列由指标的最终值组成。

5.根据权利要求2所述的面向中长期预测模型的主成分分析方法，其特征在于，灰色加权关联度越大，研究对象与理想的比较标准越相似，评价结果越优，反之则越劣。

6.根据权利要求2所述的面向中长期预测模型的主成分分析方法，其特征在于，灰色加权关联度低于0.6的影响因素被剔除。

7.根据权利要求1所述的面向中长期预测模型的主成分分析方法，其特征在于采用皮尔逊积矩相关系数法对初步筛选后剩余的影响因素之间的关系进行分析，并判断是否要进行多重线性分析，具体包括：

获取初步筛选后的影响因素之间的皮尔逊积矩相关系数；

当初步筛选后的影响因素之间的皮尔逊积矩相关系数高于0.6时，需要进行多重共线性分析。

8.根据权利要求1所述的面向中长期预测模型的主成分分析方法，其特征在于，采用方差扩大因子的次因剔除法对初步筛选后的影响因素进行进一步筛选，具体包括：

9.根据权利要求7所述的面向中长期预测模型的主成分分析方法，其特征在于，所述方差扩大因子VIF的计算公式为：

上式中，

以自变量i为因变量时对其它自变量回归的复测定系数。

10.根据权利要求7所述的面向中长期预测模型的主成分分析方法，其特征在于，根据所述多重共线性程度对指标进行进一步筛选，具体包括：