CN105825288A - 一种消除复杂系统中回归数据共线性问题的优化分析方法 - Google Patents
一种消除复杂系统中回归数据共线性问题的优化分析方法 Download PDFInfo
- Publication number
- CN105825288A CN105825288A CN201510881058.6A CN201510881058A CN105825288A CN 105825288 A CN105825288 A CN 105825288A CN 201510881058 A CN201510881058 A CN 201510881058A CN 105825288 A CN105825288 A CN 105825288A
- Authority
- CN
- China
- Prior art keywords
- variable
- analysis
- regression
- data
- synteny
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000013433 optimization analysis Methods 0.000 title claims abstract description 5
- 238000000611 regression analysis Methods 0.000 claims abstract description 22
- 230000001419 dependent effect Effects 0.000 claims abstract description 20
- 238000000513 principal component analysis Methods 0.000 claims abstract description 19
- 239000000470 constituent Substances 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000012417 linear regression Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 claims description 2
- 238000010219 correlation analysis Methods 0.000 claims 2
- 238000007418 data mining Methods 0.000 abstract description 4
- 230000002596 correlated effect Effects 0.000 abstract description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 20
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012821 model calculation Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000001373 regressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Water Supply & Treatment (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种工程、社会学等领域的数据挖掘技术,具体为联合运用多次主成分分析与回归分析,分析复杂系统中存在回归数据共线性的多个自变量对因变量的关系的优化分析方法。它先利用主成分分析法,对多组存在共线性的自变量进行分析并逐步剔除共线性因素,当剩余的因素之间共线性不显著时停止主成分分析;进而对剩余的自变量和因变量做回归分析得到他们之间的关系。该优化分析方法通过反复多次的主成分分析,剔除相关变量,达到最终用于回归分析的数据之间共线性不显著的结果。
Description
[技术领域]
本发明可以分析复杂系统中回归数据存在共线性的多个自变量对因变量的关系。可用于工程、社会学等各个领域的数据挖掘中。
[背景技术]
近年来,随着在工程、社会学等领域中数据量的爆炸性增长,数据挖掘技术日趋成熟。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。其中回归分析是一种确定两种或两种以上变量间相互依赖的定量关系的统计分析方法,其目的在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型以便利用一个或多个自变量来预测研究者感兴趣的因变量。回归数据共线性是指回归模型中某些自变量之间是线性相关的。回归分析要求自变量之间相互独立,而在实际情况中,很难保证已有的数据组之间不存在共线性。
主成分分析(Principalcomponentanalysis,简称PCA)是考察多个变量间相关性的一种多元统计方法,具有数据压缩的作用。能够从原始变量中导出少数几个主要分量,使它们尽可能多地保留原始变量的信息并且彼此不相关。本发明使用多次主成分分析与回归分析联合的方法,具体是先将主成分分析法用于回归分析之前的数据处理,保留对主成分贡献最高的一组数据,剔除与这组数据共线性的其余数据。通过反复多次的主成分分析,使剩余的变量之间不相关,再进行回归分析,最终达到用于回归分析的数据之间共线性不显著的结果。
[发明内容]
本发明可以分析存在共线性的多个自变量对另一因变量的关系,并剔除共线性变量,使自变量和因变量之间的相关关系更准确。具体的,使用了多次主成分分析与回归分析联合的方法。
主成分分析法通常被用来探索事物的内在规律,寻找事物或现象的综合指标。例如,水库运行调度的变量之间一般存在线性相关关系,例如库容量是水位的函数,坝下生态需水量是根据多年放水量的历史数据计算得到的、在弃水量很小的情况下发电水量与放水量高度线性相关。如以上变量都用于回归分析,必然得到被共线性变量高度干扰的不准确回归方程。
为处理这种情况,使用多次PCA分析所有变量是否存在共线性,并剔除共线性干扰,建立自变量和因变量之间的相关关系。步骤是:
(1)确定系统变量:从整个系统中选取数据完整、能够体现复杂系统特征的若干组变量作为自变量X,体现研究目标的一组变量为因变量Z;
(2)对所有自变量X和因变量Z进行PCA分析,得到主成分1,对主成分1贡献显著的一组变量中,保留贡献最高的一个,剔除对主成分1高度相关的其余变量;
(3)对其它变量进行第二次PCA分析,得到主成分2,在对主成分2贡献显著的一组变量中保留第一名的,如此循环至所有变量不显著相关;
(4)使用剔除后的变量做散点图分析;
(5)分析变量的正态性、方差齐的问题,当认为各组变量数量级之间差异显著(如一组变量数量级为1,其余各组变量数量级都大于5时)做预处理;
(6)选择回归方法进行回归分析,得到剔除共线性后若干因素对因变量的回归函数,其中根据数据实际情况选择合适的回归方法,可以使用线性回归、非线性回归、一元回归、多元回归、多重线性回归等方法;
(7)使用图示法实施残差分析,分析残差间是否独立、是否为正态。残差均值越接近于0、越接近于正态分布,则说明用于回归分析的数据之间共线性越不显著,模型计算值与实际数据的相关性越好。
[实施例]
以水库调度为例。某水库调度因素有研究时段内:发电水量(VF),水库入流量(IF),水位(H),库存水量(V),弃水量(VQ),出库水量(VO),该时段内95%情况下坝下河流生态需水量(E95)。如以发电量最大为目标,兼顾生态需水的考虑,选取发电水量(VF)为因变量,其余因素为自变量。可知自变量之间存在共线性关系。按照本发明的方法,首先选取以上自变量指标的日均值进行主成分分析,结果见表1。
表1典型年变量主成分分析成分矩阵
自变量的相关系数见图1。图1是典型年水库变量相关性散点图和椭圆图,其中上部三角区域为散点图,下部区域为平滑拟合曲线和置信椭圆;主对角面板包含变量最大和最小值;矩阵的行列使用主成分分析法进行了重新排序。使用六个自变量第一次PCA结果可以看出,因变量VF和出库水量VO对主成分1的贡献均大于0.85,存在共线性,故在下一步回归分析中剔除自变量VO;从第二次PCA结果看出,库存水量V和水位H对主成分1的贡献均大于0.9,存在共线性;剔除这两个变量后对其它变量做第三次PCA,可知剩余变量中水库入流量IF和出库水量VO存在共线性。注意到每次PCA分析中E95单独对主成分2做出显著贡献。所以选择水位H和水库入流量IF,另取生态需水量E95做回归分析。
需要注意的是,由于水库调度的变量较少,实质上几个变量之间是存在运算关系的,如果直接选择全部变量进行回归分析,在提出变量时无论选择何种方法(前进、后退、进入)都由于拟合完美而生成错误的结果或者无结果。本文中使用多次PAC方法避免了这一问题的出现、正确剔除了共线性变量得到了较为准确的结果。
根据上一步多次PCA分析结果,选择水库入流量IF、水位H、95%情况坝下河流生态需水量E95回归得到:
VF=0.061IF-5923100.72H+1.001E95+923717838.0式(1)
三个回归系数的显著性水平Sig.=0.000均小于0.05,可以认为以上自变量对因变量VF均有显著影响。
回归标准化残差如图2所示。由图2可以看出,残差均值1.87E-14无限接近0;标准偏差0.996;绝大部分回归的残差呈正态分布,范围在(-3,+3)之间,没有明显偏离。图3是回归标准化正态P-P图,为观测残差值与预计正态分布残差值的回归分析,可以看到观测值的残差分布与假设的正态分布回归情况较好,模型计算值与实际数据的相关性较好。图4回归标准化预计值图,以标准化预测值为x轴,标准化残差作为y轴,第几天作为标签,可以看到残差分布情况。大部分残差分布在原点附近的2个标准差以内,较大偏离值非常少,仅有第238天的数据残差在3个标准差附近偏离。可见,通过反复多次的主成分分析,剔除了相关变量,达到最终用于回归分析的数据之间共线性不显著的结果。
以上所述仅为本发明的较佳实施实例,并不用以限制本发明,凡在本发明的精神和原则之内所做的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (3)
1.一种消除复杂系统中回归数据共线性问题的优化分析方法,具体为使用多次主成分分析与回归分析联合的方法,其特征在于,包括以下步骤:
(1)确定复杂系统的自变量和因变量:
从复杂系统中选取数据完整、能够体现系统特征的若干组变量作为自变量X,自变量是多维的,体现研究目标的一组变量为因变量Z;
(2)变量的相关性分析:
对所有自变量X和因变量Z进行PCA分析,得到主成分1,对主成分1贡献显著的一组变量中,保留贡献最高的一个,剔除对主成分1高度相关的其余变量;
(3)运用多次主成分分析的方法,多次进行变量的相关性分析:
对其它变量进行第二次PCA分析,得到主成分2,在对主成分2贡献显著的一组变量中保留第一名的,剔除与主成分2相关的其它变量。如此循环至所有变量不显著相关;
(4)使用剔除后的变量做散点图分析;
(5)分析变量的正态性、方差齐的问题,当认为各组变量数量级之间差异显著(如一组变量数量级为1,其余各组变量数量级都大于5时做预处理;
(6)选择回归方法进行回归分析,得到剔除共线性后若干因素对因变量的回归函数;
(7)使用图示法实施残差分析,分析残差间是否独立、是否为正态,检验共线性问题处理效果。
2.根据权利要求1所述的多次主成分分析方法,其特征在于:对数据多次使用主成分分析法,看是否有两组或两组以上数据存在共线性,保留对主成分贡献最高的一组数据,剔除与这组数据共线性的其余数据。如此重复至剩余的变量之间不相关。
3.根据权利要求1所述的与回归分析联合的方法,其特征在于:使用多次主成分分析剔除共线性变量后的变量与因变量一起进行回归分析。根据数据实际情况选择合适的回归方法,可以使用线性回归、非线性回归、一元回归、多元回归、多重线性回归等方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510881058.6A CN105825288B (zh) | 2015-12-07 | 2015-12-07 | 一种消除复杂系统中回归数据共线性问题的优化分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510881058.6A CN105825288B (zh) | 2015-12-07 | 2015-12-07 | 一种消除复杂系统中回归数据共线性问题的优化分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105825288A true CN105825288A (zh) | 2016-08-03 |
CN105825288B CN105825288B (zh) | 2019-12-10 |
Family
ID=56514575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510881058.6A Expired - Fee Related CN105825288B (zh) | 2015-12-07 | 2015-12-07 | 一种消除复杂系统中回归数据共线性问题的优化分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105825288B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106407601A (zh) * | 2016-10-18 | 2017-02-15 | 中国运载火箭技术研究院 | 一种基于数据挖掘技术的气动特性数据处理方法 |
WO2018068360A1 (zh) * | 2016-10-11 | 2018-04-19 | 国云科技股份有限公司 | 一种数据分析中获取因变量与自变量回归关系的方法 |
WO2020072496A1 (en) * | 2018-10-01 | 2020-04-09 | Sandbox Semiconductor, Inc | Visualization of data for optimization of multidimensional processes |
CN111383768A (zh) * | 2018-12-28 | 2020-07-07 | 医渡云(北京)技术有限公司 | 医疗数据回归分析方法、装置、电子设备及可读介质 |
CN112635064A (zh) * | 2020-12-31 | 2021-04-09 | 山西三友和智慧信息技术股份有限公司 | 一种基于深度pca变换的早期糖尿病风险预测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102313722A (zh) * | 2011-09-05 | 2012-01-11 | 华南理工大学 | 一种基于多元线性回归的煤质工业分析方法 |
CN103632013A (zh) * | 2013-12-18 | 2014-03-12 | 北京科技大学 | 基于主成分回归分析的晶粒尺寸影响无取向硅钢磁性能的分析方法 |
CN103678921A (zh) * | 2013-12-18 | 2014-03-26 | 北京科技大学 | 一种基于主成分回归分析的织构影响无取向硅钢磁性能的分析方法 |
CN103678922A (zh) * | 2013-12-18 | 2014-03-26 | 北京科技大学 | 基于主成分回归分析的夹杂物影响无取向硅钢磁性能的分析方法 |
-
2015
- 2015-12-07 CN CN201510881058.6A patent/CN105825288B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102313722A (zh) * | 2011-09-05 | 2012-01-11 | 华南理工大学 | 一种基于多元线性回归的煤质工业分析方法 |
CN103632013A (zh) * | 2013-12-18 | 2014-03-12 | 北京科技大学 | 基于主成分回归分析的晶粒尺寸影响无取向硅钢磁性能的分析方法 |
CN103678921A (zh) * | 2013-12-18 | 2014-03-26 | 北京科技大学 | 一种基于主成分回归分析的织构影响无取向硅钢磁性能的分析方法 |
CN103678922A (zh) * | 2013-12-18 | 2014-03-26 | 北京科技大学 | 基于主成分回归分析的夹杂物影响无取向硅钢磁性能的分析方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018068360A1 (zh) * | 2016-10-11 | 2018-04-19 | 国云科技股份有限公司 | 一种数据分析中获取因变量与自变量回归关系的方法 |
CN106407601A (zh) * | 2016-10-18 | 2017-02-15 | 中国运载火箭技术研究院 | 一种基于数据挖掘技术的气动特性数据处理方法 |
CN106407601B (zh) * | 2016-10-18 | 2019-08-09 | 中国运载火箭技术研究院 | 一种基于数据挖掘技术的气动特性数据处理方法 |
WO2020072496A1 (en) * | 2018-10-01 | 2020-04-09 | Sandbox Semiconductor, Inc | Visualization of data for optimization of multidimensional processes |
US11138773B2 (en) | 2018-10-01 | 2021-10-05 | Sandbox Semiconductor, Inc. | Visualization of data for optimization of multidimensional processes |
CN111383768A (zh) * | 2018-12-28 | 2020-07-07 | 医渡云(北京)技术有限公司 | 医疗数据回归分析方法、装置、电子设备及可读介质 |
CN111383768B (zh) * | 2018-12-28 | 2023-11-03 | 医渡云(北京)技术有限公司 | 医疗数据回归分析方法、装置、电子设备及计算机可读介质 |
CN112635064A (zh) * | 2020-12-31 | 2021-04-09 | 山西三友和智慧信息技术股份有限公司 | 一种基于深度pca变换的早期糖尿病风险预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN105825288B (zh) | 2019-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105825288A (zh) | 一种消除复杂系统中回归数据共线性问题的优化分析方法 | |
CN109740863A (zh) | 基于大电源接入系统的综合评价方法 | |
CN106447075B (zh) | 行业用电需求预测方法与系统 | |
CN110298663A (zh) | 基于序列宽深学习的欺诈交易检测方法 | |
Kittur | Optimal generation evaluation using SAW, WP, AHP and PROMETHEE multi-Criteria decision making techniques | |
CN104809660A (zh) | 低压台区线损率分析指标的动态筛选及综合权重设置方法 | |
CN106452825A (zh) | 一种基于改进决策树的配用电通信网告警关联分析方法 | |
CN107132266A (zh) | 一种基于随机森林的水质分类方法及系统 | |
Prabowo et al. | Stochastic frontier analysis of Indonesian firm efficiency: A note | |
Livan et al. | Fine structure of spectral properties for random correlation matrices: An application to financial markets | |
Bande et al. | Regional differences in the Okun’s relationship: new evidence for Spain (1980-2015) | |
CN107463993A (zh) | 基于互信息‑核主成分分析‑Elman网络的中长期径流预报方法 | |
CN106056235A (zh) | 基于古林法物元可拓模型的输电网效率效益检测方法 | |
Afzal et al. | Knowledge-based economy (KBE) frameworks and empirical investigation of KBE input-output indicators for ASEAN | |
CN104537432A (zh) | 基于证据推理的电力系统多目标优化调度的决策方法 | |
Francis et al. | The use of long-run restrictions for the identification of technology shocks | |
CN106056274A (zh) | 基于pca‑dea二维综合评价模型的电力施工主体效益分析方法 | |
Barton et al. | Transformations in resource peripheries: an analysis of the Chilean experience | |
Kantar et al. | Investigation of major international and Turkish companies via hierarchical methods and bootstrap approach | |
Färe et al. | Coalition formation and data envelopment analysis | |
CN104008493A (zh) | 一种数据获取方法及装置 | |
CN106779289A (zh) | 一种银杏复合经营系统可持续经营评价方法 | |
CN114091908A (zh) | 计及多模式储能站的配电网综合评价方法、装置和设备 | |
Chandra et al. | Estimation of district level poor households in the state of Uttar Pradesh in India by combining NSSO Survey and Census Data | |
CN114493078A (zh) | 一种能源电力产业链的风险预警方法、系统、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191210 Termination date: 20201207 |