CN115187064A - 基于主成分和聚类法的青岛市地产发展指标分析 - Google Patents
基于主成分和聚类法的青岛市地产发展指标分析 Download PDFInfo
- Publication number
- CN115187064A CN115187064A CN202210811538.5A CN202210811538A CN115187064A CN 115187064 A CN115187064 A CN 115187064A CN 202210811538 A CN202210811538 A CN 202210811538A CN 115187064 A CN115187064 A CN 115187064A
- Authority
- CN
- China
- Prior art keywords
- formula
- principal component
- score
- principal
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011161 development Methods 0.000 title claims abstract description 13
- 238000004458 analytical method Methods 0.000 title claims abstract description 10
- 238000000034 method Methods 0.000 title abstract description 19
- 239000011159 matrix material Substances 0.000 claims description 29
- 238000004364 calculation method Methods 0.000 claims description 25
- 230000001186 cumulative effect Effects 0.000 claims description 4
- 230000009897 systematic effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 4
- 230000001133 acceleration Effects 0.000 abstract description 3
- 238000000556 factor analysis Methods 0.000 abstract description 2
- 238000011160 research Methods 0.000 abstract description 2
- 238000012847 principal component analysis method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/16—Real estate
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Educational Administration (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于数据处理分析领域,具体涉及主成分和系统聚类相结合的青岛房价潜力预测的分析方法。本发明创造性的利用GDP、人均GDP、固定资产投资增速、全市人均可支配、房地产开发投资这5个指标数据计算成分得分、综合得分以及进行地区分类,而且综合考虑数据的有效性和可研究性,提供了一种主成分和系统聚类相结合的预测房价潜力算法。本发明利用青岛市10个地区5个指标数据进行主成分提取,确定各个主成分的成分得分和综合得分,并根据这两种得分析各个地区的房价潜力,基于主成分得分所形成的三维空间,采用欧式平方和类平均法把青岛市的10个地区根据其内部相似性分类,为青岛市的房价发展提供参考。由于本发明利用多因素来分析,相比于单因素,其得出的结果更加准确、全面。另外,本发明时限性不高,可用于不同时期的数据。
Description
技术领域
本发明属于数据处理和分析技术领域,具体涉及主成分分析法和聚类法。
背景技术
房价潜力预测是房地产未来发展趋势的一个重要参考指标。随着近几年来,新冠疫情的不定爆发,使许多产业都受到巨大的冲击,因此,精准掌握某个地区的房价潜力对于利益相关者而言,它可以了解到不确定因素带来的市场风险,可以根据实际情况开发营销决策,提高经济效益。目前,应用主成分和聚类法进行房价潜力预测已成为当前的重要技术手段。利用单因素进行预测具有片面性和单调性,不能够有效的判定某个地区的房价发展潜力。对于传统的预测方法,它把预测对象按照时间顺序排起,构成一个时间序列,然后以这个时间序列的内部规律推测未来的变化趋势,属于定量预测,不能反映事物的内在联系和分析两因素的相关关系。若其中出现异常值,则需要把异常值剔除,否则预测结果会有偏差,因此,只适用于数据均匀的序列。
因此,借鉴主成分分析和系统聚类归纳思想来分析每类区域房价潜力是值得探讨的。
发明内容
为改善上述的技术问题,本发明提供一种主成分分析法和聚类法相结合的数据分析法,所述数据分析法包括以下步骤:
1)原始数据标准化
2)分析相关系数矩阵
3)确定特征值
4)确定主成分信息贡献率和主成分累计贡献率
5)选取主成分个数
6)主成分得分和综合得分
7)两个样本点距离计算
8)两个类间距计算
步骤1)中,所述数据标准化就是把数据进行量化,所述数据包括GDP、人均GDP、人均可支配收入、固定资产投资、房地产开发投资,计算公式如式(1)所示:
步骤2)中,基于标准化数据建立5个指标之间的相关系数矩阵,计算公式如式(2)所示:
式中,n=10
步骤3)中,利用相关系数矩阵R的特征方程,得出R的特征值个数λj,计算公式如式(3)所示:
|R-λγI|=0 (3)
式中,I为4*5的单位矩阵,R是相关系数矩阵
步骤4)中,根据特征值λγ,求出主成分信息贡献率和主成分累计贡献率,计算公式如式(4)和式(5)所示:
步骤5)中,利用特征值λγ,根据式(6)选择主成分个数,但因为严格遵守累计方差解释率至少达到85%标准,重新选取主成分个数,根据主成分个数求出成分矩阵,计算公式如式(6)所示:
式中,由于式(3)求出特征值和式(4)求出主成分累计贡献率,遵守累计方差解释率至少达到85%标准,最终选取特征值个数γ=3
步骤6)中,基于成分矩阵、特征值以及标准化数据求出主成分得分矩阵,根据主成分得分求出各个地区的综合得分,计算公式如式(7)所示:
式中,bj为第j个主成分的信息贡献率,Yij是主成分得分矩阵
步骤7)中,根据每个地区的主成分得分形成一个多维空间,计算每两个地区的空间距离,选择两个地区距离的最小值合为一类,计算公式式(8)所示:
式中,Np,Nq分别表示GP,Gq的样本数
步骤8)中,利用求出的最小值距离地区为一类,与剩下的地区求出类间距并取最小值,依次循环,直到所有地区合为一大类为止,计算公式如式(9)和(10)所示:
式中,Np,Nq分别表示GP,Gq的样本数,Nr,Nk分别表示Gr,Gk的样本数
有益效果
本发明创造性的利用GDP、人均GDP、固定资产投资增速、全市人均可支配、房地产开发投资这5个指标数据计算成分得分、综合得分以及进行地区分类,而且综合考虑数据的有效性和可研究性,提供了一种主成分和系统聚类相结合的预测房价潜力算法。本发明利用青岛市10个地区5个指标数据进行主成分提取,确定各个主成分的成分得分和综合得分,并根据这两种得分析各个地区的房价潜力,基于主成分得分所形成的三维空间,采用欧式平方和类平均法把青岛市的10个地区根据其内部相似性分类,为青岛市的房价发展提供参考。由于本发明利用多因素来分析,相比于单因素,其得出的结果更加准确、全面。
另外,本发明时限性不高,可把此方法用于不同时期的数据。
附图说明
图1为分析法步骤图;
图2为聚类法的冰挂图;
图3为主成分分析法的流程图;
图4为聚类法的谱系图;
具体实施方式
为使本发明实施例的目的、技术手段和优势更加的清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术手段进行清楚、完整地说明,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所或得的所有其他实施例,都属于本发明保护的范围。
基于主成分分析法的数据处理,包括以下步骤:
步骤1:将10个地区的数据标准化。所述数据包括GDP、人均GDP、人均可支配收入、固定资产投资、房地产开发投资,计算公式如式(1)所示:
步骤2:相关系数矩阵的建立。利用标准化数据矩阵以及其转置矩阵求出5个指标之间的相关性矩阵,计算公式如式(2)所示:
式中,n=10
步骤3:得出特征值以及其个数,利用相关系数矩阵R的特征方程,得出R的特征值个数λj,计算公式如式(3)所示:
|R-λγI|=0 (3)
式中,I为4*5的单位矩阵,R是相关系数矩阵
步骤4:确定主成分信息贡献率和主成分累计贡献率。根据特征值λγ,依次求出每个的主成分信息贡献率和主成分累计贡献率,计算公式如式(4)和式(5)所示:
步骤5:成分矩阵的求取。利用特征值λγ,根据式(6)选择主成分个数,但因为严格遵守累计方差解释率至少达到85%标准,重新选取主成分个数,根据主成分个数求出成分矩阵,计算公式如式(6)所示:
式中,由于式(3)求出特征值和式(4)求出主成分累计贡献率,遵守累计方差解释率至少达到85%标准,最终选取特征值个数γ=3
步骤6:主成分得分和综合得分计算。基于成分矩阵、特征值求出的主成分载荷值,利用主成分载荷值和标准化数据求出主成分得分矩阵,根据主成分得分求出各个地区的综合得分,计算公式如式(7)所示:
式中,bj为第j个主成分的信息贡献率,Yij是主成分得分矩阵
根据主成分流程如图3所示,对山东省青岛市各个市区的房产数据指标利用主成分分析,将GDP、人均GDP、全市人均可支配收入、固定资产投资增速、房地产开发投资这5个指标中提中取出3个主成分,之后利用数据标准化、指标之间的相关性、确定主成分个数、主成分表达式这几个步骤求出主成分和综合得分,通过主成分和综合得分探讨房价潜力发展因素。
基于系统聚类法的各个地区分类处理,包括以下步骤:
步骤7:确定样本间距。根据每个地区的主成分得分形成一个多维空间,计算每两个地区的空间距离,选择两个地区距离的最小值合为一类,计算公式如式(8)所示:
式中,Np,Nq分别表示GP,Gq的样本数
步骤8:确定类间距。利用求出的最小值距离地区为一类,与剩下的地区求出类间距并取最小值,依次循环,直到所有地区合为一大类为止,计算公式如式(9)和(10)所示:
式中,Np,Nq分别表示GP,Gq的样本数,Nr,Nk分别表示Gr,Gk的样本数
根据冰挂图如图2和谱系图如图4所示,实现方式是先将每一个样本点看作是单独的一类,计算两个样本点之间距离,取距离最小的两类,把他们作为新类,并且计算新类和其他类之间的距离,再将距离最近的两类合并,重复以上行为直至到所有类归为一类。本发明以主成分得分作为样本点进行系统聚类分析,基于三个主成分得分来形成空间三维图,综合运用组间联接聚类和平方欧氏距离来测量,从而得出10个区之间的距离,根据距离把各个区进行分类.
参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或对其中部分技术特征进行同等替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (2)
1.一种基于主成分和系统聚类模型的分析法,其特征在于,此分析方法包括各个地区主成分综合得分以及类间距计算:利用各个主成分载荷值计算总载荷值即为综合得分,然后再基于主成分得分计算类间距进行地区分类,具体步骤如图1所示。
2.根据权利要求1所述的主成分和系统聚类分析法,其特征在于,所用的分析法为如下步骤:
(1)步骤1)中,所述数据标准化就是把数据进行量化,所述数据包括GDP、人均GDP、人均可支配收入、固定资产投资、房地产开发投资,计算公式如式(1)所示:
(2).步骤2)中,基于标准化数据建立5个指标之间的相关系数矩阵,计算公式如式(2)所示:
式中,n=10
(3).步骤3)中,利用相关系数矩阵R的特征方程,得出R的特征值个数λj,计算公式如式(3)所示:
|R-λγI|=0 (3)
式中,I为4*5的单位矩阵,R是相关系数矩阵
(4).步骤4)中,根据特征值λγ,求出主成分信息贡献率和主成分累计贡献率,计算公式如式(4)和式(5)所示:
(5).步骤5)中,利用特征值λγ,根据式(6)选择主成分个数,但因为严格遵守累计方差解释率至少达到85%标准,重新选取主成分个数,根据主成分个数求出成分矩阵,计算公式如式(6)所示:
式中,由于式(3)求出特征值和式(4)求出主成分累计贡献率,遵守累计方差解释率至少达到85%标准,最终选取特征值个数γ=3
(6).步骤6)中,基于成分矩阵、特征值以及标准化数据求出主成分得分矩阵,根据主成分得分求出各个地区的综合得分,计算公式如式(7)所示:
式中,bj为第j个主成分的信息贡献率,Yij是主成分得分矩阵
(7).步骤7)中,根据每个地区的主成分得分形成一个多维空间,计算每两个地区的空间距离,选择两个地区距离的最小值合为一类,计算公式如式(8)所示:
式中,Np,Nq分别表示GP,Gq的样本数
(8).步骤8)中,利用求出的最小值距离地区为一类,与剩下的地区求出类间距并取最小值,依次循环,直到所有地区合为一大类为止,计算公式如式(9)和(10)所示:
式中,Np,Nq分别表示GP,Gq的样本数,Nr,Nk分别表示Gr,Gk的样本数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210811538.5A CN115187064A (zh) | 2022-07-11 | 2022-07-11 | 基于主成分和聚类法的青岛市地产发展指标分析 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210811538.5A CN115187064A (zh) | 2022-07-11 | 2022-07-11 | 基于主成分和聚类法的青岛市地产发展指标分析 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115187064A true CN115187064A (zh) | 2022-10-14 |
Family
ID=83516780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210811538.5A Pending CN115187064A (zh) | 2022-07-11 | 2022-07-11 | 基于主成分和聚类法的青岛市地产发展指标分析 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115187064A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117114748A (zh) * | 2023-09-25 | 2023-11-24 | 青岛卓易策略数据信息技术有限公司 | 基于主成分和聚类法的地产区域价值预测方法 |
-
2022
- 2022-07-11 CN CN202210811538.5A patent/CN115187064A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117114748A (zh) * | 2023-09-25 | 2023-11-24 | 青岛卓易策略数据信息技术有限公司 | 基于主成分和聚类法的地产区域价值预测方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111163057B (zh) | 一种基于异构信息网络嵌入算法的用户识别系统及方法 | |
Kočišová et al. | Discriminant analysis as a tool for forecasting company's financial health | |
CN110309863B (zh) | 一种基于层次分析法和灰色关联分析的身份可信评价方法 | |
CN112132233A (zh) | 一种基于有效影响因子的服刑人员危险行为预测方法及系统 | |
WO2019200739A1 (zh) | 数据欺诈识别方法、装置、计算机设备和存储介质 | |
CN115309998B (zh) | 一种基于大数据的就业推荐方法及系统 | |
US20210397956A1 (en) | Activity level measurement using deep learning and machine learning | |
CN115412301A (zh) | 一种网络安全的预测分析方法及系统 | |
Yıldırım et al. | Robust Mahalanobis distance based TOPSIS to evaluate the economic development of provinces | |
CN115187064A (zh) | 基于主成分和聚类法的青岛市地产发展指标分析 | |
Chaudhary et al. | Comparative Analysis of Entropy Weight Method and C5 Classifier for Predicting Employee Churn | |
Haga et al. | Initial stage clustering when estimating accounting quality measures with self-organizing maps | |
CN116703455B (zh) | 基于时间序列的混合模型的医药数据销售预测方法及系统 | |
CN113344692A (zh) | 多信息源融合的网络借贷信用风险评估模型的建立方法 | |
CN116433333B (zh) | 基于机器学习的数字商品交易风险防控方法及装置 | |
CN112418522A (zh) | 一种基于三支集成预测模型的工业加热炉钢温预测方法 | |
CN112241832A (zh) | 一种产品质量分级评价标准设计方法及系统 | |
Zhang et al. | Determining statistical process control baseline periods in long historical data streams | |
Basha et al. | Enhancing red wine quality prediction through Machine Learning approaches with Hyperparameters optimization technique | |
CN115146890A (zh) | 企业运营风险告警方法、装置、计算机设备和存储介质 | |
Kontrimas et al. | Tracking of doubtful real estate transactions by outlier detection methods: a comparative study | |
CN117114748A (zh) | 基于主成分和聚类法的地产区域价值预测方法 | |
CN110673470A (zh) | 基于局部加权因子模型的工业非平稳过程软测量建模方法 | |
CN115409433B (zh) | 基于深度nlp的社区重点人员画像分析方法及装置 | |
Silva et al. | Detecting possible persons of interest in a physical activity program using step entries: Including a web‐based application for outlier detection and decision‐making |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |