CN114510648A - 城市社会群体与住宅空间的聚类与匹配程度的分析方法 - Google Patents
城市社会群体与住宅空间的聚类与匹配程度的分析方法 Download PDFInfo
- Publication number
- CN114510648A CN114510648A CN202210148086.7A CN202210148086A CN114510648A CN 114510648 A CN114510648 A CN 114510648A CN 202210148086 A CN202210148086 A CN 202210148086A CN 114510648 A CN114510648 A CN 114510648A
- Authority
- CN
- China
- Prior art keywords
- data
- attribute
- residential
- community
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000004458 analytical method Methods 0.000 claims abstract description 26
- 238000007418 data mining Methods 0.000 claims abstract description 19
- 238000000513 principal component analysis Methods 0.000 claims abstract description 19
- 238000005516 engineering process Methods 0.000 claims abstract description 12
- 230000000007 visual effect Effects 0.000 claims abstract description 9
- 235000008708 Morus alba Nutrition 0.000 claims abstract description 5
- 240000000249 Morus alba Species 0.000 claims abstract description 5
- 239000011159 matrix material Substances 0.000 claims description 29
- 230000009467 reduction Effects 0.000 claims description 15
- 230000004069 differentiation Effects 0.000 claims description 10
- 239000013598 vector Substances 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 230000002093 peripheral effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000010168 coupling process Methods 0.000 abstract description 8
- 230000008878 coupling Effects 0.000 abstract description 7
- 238000005859 coupling reaction Methods 0.000 abstract description 7
- 238000012545 processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 239000000126 substance Substances 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000007794 visualization technique Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A30/00—Adapting or protecting infrastructure or their operation
- Y02A30/60—Planning or developing urban green infrastructure
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Economics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Probability & Statistics with Applications (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Primary Health Care (AREA)
- Tourism & Hospitality (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种城市社会群体与住宅空间的聚类与匹配程度的分析方法,属于数据处理技术领域,具体包括:获取多源异构城市数据;提取社会群体属性数据和住宅空间属性数据;采用数据挖掘技术从社会群体属性数据中提取第一属性,并结合主成分分析和K均值得到社会群体类型与分异格局;采用数据挖掘技术从住宅属性数据中提取第二属性,并结合主成分分析和K均值得到住宅空间类型与分异格局;对不同类型社会群体在不同类型住宅的分布进行可视表达,利用桑基图可视呈现居住社会‑空间匹配程度。通过本发明的方案,基于多源异构城市数据提取群体属性数据和住宅属性数据,借助可视分析方法,科学归纳和全面阐释城市居住社会空间分异和耦合模式。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种城市社会群体与住宅空间的聚类与匹配程度的分析方法。
背景技术
目前,城市社会阶层和居住空间不断被解构和重构,社会群体和物质空间的不断异质嬗变、杂糅组合与相互作用,构成城市居住分异的社会-空间复杂面相与耦合过程。传统实证研究主要依托人口普查数据和以街道为空间单元的“社会区”分析,因对于社会群体与住宅空间的相互作用与耦合关系关注不够,不能更好反映新时期大城市内部多变复杂、多元异质、多维互动的居住分异现象。可见,亟需一种高效且适应性强的城市社会群体与住宅空间的聚类与匹配程度的分析方法。
发明内容
有鉴于此,本发明公开了一种城市社会群体与住宅空间的聚类与匹配程度的分析方法,至少部分解决现有技术中存在归纳效率和适应性较差的问题。
本发明公开了一种城市社会群体与住宅空间的聚类与匹配程度的分析方法,包括:
获取多源异构城市数据,其中,所述多源异构城市数据包括手机画像数据数据、社区属性数据、城市路网数据和兴趣点数据;
根据所述手机画像数据获得社会群体属性,并根据所述住宅属性数据、所述城市路网数据和所述兴趣点数据提取住宅空间属性数据;
采用数据挖掘技术从所述社会群体属性数据中获得第一属性,并结合主成分分析和K均值得到社会群体类型与分异格局,其中,所述第一属性包括年龄、性别、职业和消费能力;
采用数据挖掘技术从所述住宅空间属性数据中提取第二属性,并结合主成分分析和K均值得到住宅空间类型与分异格局,其中,所述第二属性包括小区价格、社区属性、区位交通和周边配套;
采用可视化方法对不同类型社会群体在不同类型住宅的分布进行可视表达,利用桑基图可视呈现居住社会-空间匹配程度。
根据本发明的一种具体实现方式,所述获取多源异构城市数据的步骤,包括:
将数据智能服务平台提供的手机用户画像数据作为所述手机画像数据;
将居住小区的社区属性和周边环境特征作为所述住宅属性数据;
将城市路网选择提供的矢量数据作为所述城市路网数据;
将导航软件的兴趣点位数据作为所述兴趣点数据;
将所述手机画像数据、所述住宅属性数据、所述城市路网数据和所述兴趣点数据形成所述多源异构城市数据。
根据本发明的一种具体实现方式,所述基于所述根据所述手机画像数据获得社会群体属性的步骤,包括:
基于所述手机画像数据获得用户位置、属性画像、行为画像和消费画像,进而获得预设尺寸的社会群体属性数据。
根据本发明的一种具体实现方式,所述根据所述住宅属性数据、所述城市路网数据和所述兴趣点数据提取住宅空间属性数据的步骤,包括:
基于所述社区属性数据、城市路网数据和所述兴趣点数据获得小区价格、社区属性,采用计算可达性方法提取区位交通和周边配套,进而提取居住小区尺度的住宅空间属性数据。
根据本发明的一种具体实现方式,所述采用数据挖掘技术从所述社会群体属性数据中获得第一属性,并结合主成分分析和K均值得到社会群体类型与分异格局的步骤,包括:
通过将年龄、性别、职业、家庭和消费属性的预设数量的指标进行降维和空间聚类分析得到群体空间分异与聚类结果。
根据本发明的一种具体实现方式,所述采用数据挖掘技术从所述住宅属性数据中提取第二属性,并结合主成分分析和K均值得到住宅空间类型与分异格局的步骤,包括:
通过将所述小区价格、所述社区属性、所述区位交通和所述周边配套的预设数量的指标进行降维和空间聚类分析得到住宅空间分异与聚类结果。
根据本发明的一种具体实现方式,所述通过将所述小区价格、所述社区属性、所述区位交通和所述周边配套的预设数量的指标进行降维和空间聚类分析得到住宅空间分异与聚类结果的步骤,包括:
根据所述小区价格、所述社区属性、所述区位交通和所述周边配套建立多个小区对应的多维矩阵,并对所述多维矩阵进行降维得到所述住宅空间分异;
利用K-Means算法对所述小区价格、所述社区属性、所述区位交通和所述周边配套进行聚类,得到所述聚类结果。
根据本发明的一种具体实现方式,所述根据所述小区价格、所述社区属性、所述区位交通和所述周边配套建立多个小区对应的多维矩阵,并对所述多维矩阵进行降维得到所述住宅空间分异的步骤,包括:
计算样本均值;
根据样本均值计算协方差矩阵;
基于奇异值分解所述协方差矩阵,得到特征值和特征向量,并选择特征值最大的多个特征所对应的特征向量组成的矩阵作为所述住宅空间分异。
根据本发明的一种具体实现方式,所述利用K-Means算法对所述小区价格、所述社区属性、所述区位交通和所述周边配套进行聚类,得到所述聚类结果的步骤,包括:
将多个小区划分为平方误差最小的K个簇;
利用启发式的迭代方式求解每个簇的均值向量,完成聚类并得到所述聚类结果。
本发明中的城市社会群体与住宅空间的聚类与匹配程度的分析方案,包括:获取多源异构城市数据,其中,所述多源异构城市数据包括手机画像数据数据、社区属性数据、城市路网数据和兴趣点数据;根据所述手机画像数据获得社会群体属性,并根据所述住宅属性数据、所述城市路网数据和所述兴趣点数据提取住宅空间属性数据;采用数据挖掘技术从所述社会群体属性数据中获得第一属性,并结合主成分分析和K均值得到社会群体类型与分异格局,其中,所述第一属性包括年龄、性别、职业和消费能力等社会特征数据;采用数据挖掘技术从所述住宅空间属性数据中提取第二属性,并结合主成分分析和K均值得到住宅空间类型与分异格局,其中,所述第二属性包括小区价格、社区属性、区位交通和周边配套;采用可视化方法对不同类型社会群体在不同类型住宅的分布进行可视表达,利用桑基图可视呈现居住社会-空间匹配程度。
本发明的有益效果为:通过本发明的方案,基于多源异构城市数据提取群体属性数据和住宅属性数据,从社会维度和空间维度分析大城市居住社会-空间分异格局和耦合模式,采用数据驱动的研究方式,借助数据挖掘、主成分分析、k均值和可视化等常用可视分析方法,科学归纳和全面阐释城市居住社会空间分异格局和耦合模式。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明提供的一种城市社会群体与住宅空间的聚类与匹配程度的分析方法的流程示意图;
图2为本发明提供的一种研究范围与研究对象示意图;
图3为本发明提供的一种五类社会群体空间分布示意图;
图4为本发明提供的一种五类住宅空间分布示意图;
图5为本发明提供的一种不同类型社会群体在不同类型住宅中的分布示意图。
具体实施方式
下面结合附图对本发明进行详细描述。
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见,本文中所描述的方面可体现于广泛多种形式中,且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本发明,所属领域的技术人员应了解,本文中所描述的一个方面可与任何其它方面独立地实施,且可以各种方式组合这些方面中的两者或两者以上。举例来说,可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外,可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。
还需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
另外,在以下描述中,提供具体细节是为了便于透彻理解实例。然而,所属领域的技术人员将理解,可在没有这些特定细节的情况下实践所述方面。
本发明提供一种城市社会群体与住宅空间的聚类与匹配程度的分析方法,所述方法可以应用于城市社会群体分异场景中的城市社会群体与住宅空间的聚类与匹配程度的分析过程。
参见图1,为本发明提供的一种城市社会群体与住宅空间的聚类与匹配程度的分析方法的流程示意图。如图1所示,所述方法主要包括以下步骤:
S101,获取多源异构城市数据,其中,所述多源异构城市数据包括手机画像数据数据、住宅属性数据、城市路网数据和兴趣点数据;
可选的,步骤S101所述的,获取多源异构城市数据,包括:
将数据智能服务平台提供的手机用户画像数据作为所述手机画像数据;
将居住小区的社区属性和周边环境特征作为所述住宅属性数据;
将城市路网选择提供的矢量数据作为所述城市路网数据;
将导航软件的兴趣点位数据作为所述兴趣点数据;
将所述手机画像数据、所述住宅属性数据、所述城市路网数据和所述兴趣点数据形成所述多源异构城市数据。
具体实施时,本实施例以杭州为案例城市,提供一种城市社会群体与住宅空间的聚类与匹配程度的分析方法。如图2所示,为杭州研究区,面积778平方公里,住宅小区2294个,占地面积158.49平方公里。
然后可以采用每日互动(个推)数据智能服务平台提供的手机用户画像数据(www.getui.com),主要包括对用户线上APP使用偏好、线下场景偏好的建模分析,不包括手机用户的任何个人隐私信息,也不违反相关法律规范。该平台通过对用户线上APP使用偏好、线下场景偏好的建模分析,从属性标签(性别、兴趣、职业、收入水平和年龄层次等)、行为偏好标签(近期线下场景偏好和线上行为偏好)、兴趣标签(购物、教育、娱乐、金融理财等)和场景标签(商场、景区、机场等),构建全面、精准、多维的用户画像体系以形成所述手机画像数据。
所述社区属性可以包括小区边界、小区价格、建成年代、占地面积、住宅套数、容积率和绿化率等,周边环境特征包括交通区位和服务设施等,将其作为所述住宅属性数据。然后可以将城市路网选择(open street map,简称OSM)提供的矢量数据作为所述城市路网数据。并将导航软件例如高德地图提供的兴趣点位数据(Point of Interest,简称POI),位置名、位置地理位置,基于此数据可以获得地铁站点和居住配套服务设施等位置信息作为所述兴趣点数据
S102,根据所述手机画像数据获得社会群体属性,并根据所述住宅属性数据、所述城市路网数据和所述兴趣点数据提取住宅空间属性数据;
进一步的,步骤S102所述的,基于所述根据所述手机画像数据获得社会群体属性,包括:
基于所述手机画像数据,得到用户画像,包括用户位置、属性画像、行为画像和消费画像,进而获得预设尺寸的社会群体属性数据;
可选的,步骤S102所述的,根据所述住宅属性数据、所述城市路网数据和所述兴趣点数据提取住宅空间属性数据,包括:
基于所述社区属性数据、城市路网数据和所述兴趣点数据获得小区价格、社区属性,采用计算可达性方法提取区位交通和周边配套,进而提取居住小区尺度的住宅空间属性数据。
基于手机用户画像数据,获得社区群体属性数据,包括年龄、性别、职业、消费,如表1所示,
表1社会群体属性指标
住宅空间属性包括居住小区的社区属性和周边环境两类,社区属性包括小区边界、小区价格、建成年代、占地面积、住宅套数、容积率和绿化率等,周边环境包括交通区位和服务设施等。其中:居住小区经纬度、小区价格、建筑特征等在内的居住小区属性数据由国内房价行情平台提供;小区范围来源于高德地图提供的AOI边界数据;城市路网选择OSM提供的矢量数据;地铁站点和居住配套服务设施等位置信息来自于高德地图提供的POI点位数据。
基于数据挖掘技术获得城市住宅空间属性,包括小区价格、社区属性、区位交通、周边配套,如表2所示,
表2住宅空间属性指标
S103,采用数据挖掘技术从所述社会群体属性数据中获得第一属性,并结合主成分分析和K均值得到社会群体类型与分异格局,其中,所述第一属性包括年龄、性别、职业和消费能力;
可选的,步骤S103所述的,采用数据挖掘技术从所述社会群体属性数据中提取第一属性,并结合主成分分析和K均值得到社会群体类型与分异格局,包括:
通过将年龄、性别、职业、家庭和消费属性的预设数量的指标进行降维和空间聚类分析得到群体空间分异与聚类结果。
具体实施时,可以通过将社会群体年龄、性别、职业、家庭和消费属性等12项社会特征数据指标进行降维和空间聚类分析,根据群体间差异较为明显的年龄和消费水平特征,本文将杭州的社会群体划分为类型Ⅰ到类型Ⅴ五类如表3和图3所示,为杭州五类社会群体占比与各项指标平均值,分别命名是:中老年高收入群体、中青年较高收入群体、中青年普通收入群体、中青年较低收入群体和年轻低收入群体。
表3杭州五类社会群体占比与各项指标平均值
S104,采用数据挖掘技术从所述住宅属性数据中提取第二属性,并结合主成分分析和K均值得到住宅空间类型与分异格局,其中,所述第二属性包括小区价格、社区属性、区位交通和周边配套;
可选的,步骤S104所述的,采用数据挖掘技术从所述住宅空间属性数据中提取第二属性,并结合主成分分析和K均值得到住宅空间类型与分异格局,包括:
通过将所述小区价格、所述社区属性、所述区位交通和所述周边配套的预设数量的指标进行降维和空间聚类分析得到住宅空间分异与聚类结果。
进一步的,所述通过将所述小区价格、所述社区属性、所述区位交通和所述周边配套的预设数量的指标进行降维和空间聚类分析得到住宅空间分异与聚类结果的步骤,包括:
根据所述小区价格、所述社区属性、所述区位交通和所述周边配套建立多个小区对应的多维矩阵,并对所述多维矩阵进行降维得到所述住宅空间分异;
利用K-Means算法对所述小区价格、所述社区属性、所述区位交通和所述周边配套进行聚类,得到所述聚类结果。
进一步的,所述根据所述小区价格、所述社区属性、所述区位交通和所述周边配套建立多个小区对应的多维矩阵,并对所述多维矩阵进行降维得到所述住宅空间分异的步骤,包括:
计算样本均值;
根据样本均值计算协方差矩阵;
基于奇异值分解所述协方差矩阵,得到特征值和特征向量,并选择特征值最大的多个特征所对应的特征向量组成的矩阵作为所述住宅空间分异。
进一步的,所述利用K-Means算法对所述小区价格、所述社区属性、所述区位交通和所述周边配套进行聚类,得到所述聚类结果的步骤,包括:
将多个小区划分为平方误差最小的K个簇;
利用启发式的迭代方式求解每个簇的均值向量,完成聚类并得到所述聚类结果。
具体实施时,可以利用主成分分析对构建的矩阵进行降维,具体步骤如下:
①对于n个小区(或画像网格)的d个特征维构建矩阵X∈Rn×d:
②计算样本的均值μ,
③计算协方差矩阵A,
其中n表示小区(或画像网格)总数,xi表示小区(或画像网格)第i个特征维,xj表示小区(或画像网格)第j个特征维,表示小区(或画像网格)第i个特征维的均值,表示小区(或画像网格)第j个特征维的均值,Cov(xi,xj)表示小区(或画像网格)第i个特征和小区第j个特征维的协方差矩阵。
④基于奇异值分解(Singular Value Decomposition,SVD)协方差矩阵计算得到特征值和特征向量,A=UΣVT,选择特征值最大(即方差最大)的m个特征所对应的特征向量组成的矩阵,本次实验m=2,即我们将n行d列的矩阵X降为到n行2列的数据矩阵,实现数据的降维。
以及,可以采用K-Means方法对数据进行聚类,具体步骤如下:
①对于n个小区(或画像网格)划分为K个簇,假设簇划分为(C1,C2,…Ck),则我们的目标是最小化平方误差E:
其中μi是簇Ci的均值向量,也称为质心
②采用启发式的迭代方法求解,表达式如下:
例如,可以通过将住宅小区住房价格、社区属性、区位交通和周边配套的12项指标进行降维和空间聚类分析,本文将杭州的住宅空间划分为类型A到类型E五类如表4所示,如图4所示,为杭州五类住宅规模占比与各类指标平均值,分别是:高端配套与稀缺景观住宅、优质区位高服务品质住宅、主城区成熟配套中档住宅、城市核心区外围普通住宅和边缘区低度配套新建住宅。
表4杭州五类住宅规模占比与各类指标平均值
S105,采用可视化方法对不同类型社会群体在不同类型住宅的分布进行可视表达,利用桑基图可视呈现居住社会-空间匹配程度。
具体实施时,分别对宁杭城市社会群体与住宅空间进行聚类分析的基础上,观察不同社会群体类型与不同住宅类型在空间上的对应匹配关系。首先,从不同类型住宅内聚居的社会群体类型构成来看(表5),高档次住宅内通常居住着具有高消费属性特征的高收入社会群体,比如杭州的住宅类型A中,类型Ⅰ居民占据主导,分别占群体规模的75.34%和59.97%,而群体类型Ⅴ居民占比极少,分别为0和0.29%;随着住宅类型由高房价向相对低房价类型转变(由A到E),类型Ⅰ高收入群体占比呈现显著下降趋势。
表5五类住宅空间内社会群体聚集比例
其次,从社会群体选择不同类型住宅的比例来看(表6),高收入群体在住宅市场中拥有更高的选择自由度,且通常首选具有更高居住品质和配套服务的住宅类型;相反,低收入群体则没有太多自由选择空间,在小区价格市场筛选机制下,更多只能购置或租住相对低价值住宅。例如杭州的群体类型Ⅰ中,选择住宅类型A的比例在个群体类型中最高,选择住宅类型E的比例则最低;再如群体类型Ⅴ中,居住在类型E住宅的比例分别高达48.59%和59.69%,而居住在类型A和类型B住宅的比例合计分别只有6.48%和2.31%。
表6五类社会群体内部选择不同类型住宅比例
社会群体与住宅空间在一定程度上存在着对应或耦合关系,这一点可以从桑基图(Sankey Diagram)分析中更加直观地反映出来。如图5所示,为杭州不同类型社会群体在不同类型住宅空间中的分布,从图5可以看出:群体类型Ⅰ主要居住在住宅类型A-D中,群体Ⅱ主要分布在住宅类型C和类型D中,群体类型Ⅲ-Ⅴ主要集中在住宅类型D和类型E中。也就是说,在城市居住分异的社会空间景观中,社会群体与住宅类型之间既存在某种空间关联又并非严格对应,充分表现出城市社会群体、住宅空间和居民择居等居住分异现象的规律性、复杂性和多样性,揭示出居住分异的社会-空间二维属性特征及其内在关联。
本实施例提供的城市社会群体与住宅空间的聚类与匹配程度的分析方法,通过基于多源异构城市数据提取群体属性数据和住宅属性数据,从社会维度和空间维度分析大城市居住社会-空间分异格局和耦合模式,有效克服了单一案例城市为研究对象,对城市间进行比较分析,采用数据驱动的研究方式,借助数据挖掘、主成分分析、k均值和可视化等常用可视分析方法,科学归纳和全面阐释城市居住社会空间分异格局和耦合模式。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (9)
1.一种城市社会群体与住宅空间的聚类与匹配程度的分析方法,其特征在于,包括:
获取多源异构城市数据,其中,所述多源异构城市数据包括手机画像数据数据、住宅属性数据、城市路网数据和兴趣点数据;
根据所述手机画像数据获得社会群体属性,并根据所述住宅属性数据、所述城市路网数据和所述兴趣点数据提取住宅空间属性数据;
采用数据挖掘技术从所述社会群体属性数据中获得第一属性,并结合主成分分析和K均值得到社会群体类型与分异格局,其中,所述第一属性包括年龄、性别、职业和消费能力;
采用数据挖掘技术从所述住宅空间属性数据中提取第二属性,并结合主成分分析和K均值得到住宅空间类型与分异格局,其中,所述第二属性包括小区价格、社区属性、区位交通和周边配套;
采用可视化方法对不同类型社会群体在不同类型住宅的分布进行可视表达,利用桑基图可视呈现居住社会-空间匹配程度。
2.根据权利要求1所述的方法,其特征在于,所述获取多源异构城市数据的步骤,包括:
将数据智能服务平台提供的手机用户画像数据作为所述手机画像数据;
将居住小区的社区属性和周边环境特征作为所述住宅属性数据;
将城市路网选择提供的矢量数据作为所述城市路网数据;
将导航软件的兴趣点位数据作为所述兴趣点数据;
将所述手机画像数据、所述社区属性数据、所述城市路网数据和所述兴趣点数据形成所述多源异构城市数据。
3.根据权利要求1所述的方法,其特征在于,所述基于所述根据所述手机画像数据获得社会群体属性的步骤,包括:
基于所述手机画像数据获得用户位置、属性画像、行为画像和消费画像,进而获得预设尺寸的社会群体属性数据。
4.根据权利要求1所述的方法,其特征在于,所述根据所述住宅属性数据、所述城市路网数据和所述兴趣点数据提取住宅空间属性数据的步骤,包括:
基于所述社区属性数据、城市路网数据和所述兴趣点数据获得小区价格、社区属性,采用计算可达性方法提取区位交通和周边配套,进而提取居住小区尺度的住宅空间属性数据。
5.根据权利要求1所述的方法,其特征在于,所述采用数据挖掘技术从所述社会群体属性数据中获得第一属性,并结合主成分分析和K均值得到社会群体类型与分异格局的步骤,包括:
通过将年龄、性别、职业、家庭和消费属性的预设数量的指标进行降维和空间聚类分析得到群体空间分异与聚类结果。
6.根据权利要求1所述的方法,其特征在于,所述采用数据挖掘技术从所述住宅空间属性数据中提取第二属性,并结合主成分分析和K均值得到住宅空间类型与分异格局的步骤,包括:
通过将所述小区价格、所述社区属性、所述区位交通和所述周边配套的预设数量的指标进行降维和空间聚类分析得到住宅空间分异与聚类结果。
7.根据权利要求6所述的方法,其特征在于,所述通过将所述小区价格、所述社区属性、所述区位交通和所述周边配套的预设数量的指标进行降维和空间聚类分析得到住宅空间分异与聚类结果的步骤,包括:
根据所述小区价格、所述社区属性、所述区位交通和所述周边配套建立多个小区对应的多维矩阵,并对所述多维矩阵进行降维得到所述住宅空间分异;
利用K-Means算法对所述小区价格、所述社区属性、所述区位交通和所述周边配套进行聚类,得到所述聚类结果。
8.根据权利要求7所述的方法,其特征在于,所述根据所述小区价格、所述社区属性、所述区位交通和所述周边配套建立多个小区对应的多维矩阵,并对所述多维矩阵进行降维得到所述住宅空间分异的步骤,包括:
计算样本均值;
根据样本均值计算协方差矩阵;
基于奇异值分解所述协方差矩阵,得到特征值和特征向量,并选择特征值最大的多个特征所对应的特征向量组成的矩阵作为所述住宅空间分异。
9.根据权利要求7所述的方法,其特征在于,所述利用K-Means算法对所述小区价格、所述社区属性、所述区位交通和所述周边配套进行聚类,得到所述聚类结果的步骤,包括:
将多个小区划分为平方误差最小的K个簇;
利用启发式的迭代方式求解每个簇的均值向量,完成聚类并得到所述聚类结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210148086.7A CN114510648A (zh) | 2022-02-17 | 2022-02-17 | 城市社会群体与住宅空间的聚类与匹配程度的分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210148086.7A CN114510648A (zh) | 2022-02-17 | 2022-02-17 | 城市社会群体与住宅空间的聚类与匹配程度的分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114510648A true CN114510648A (zh) | 2022-05-17 |
Family
ID=81550829
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210148086.7A Pending CN114510648A (zh) | 2022-02-17 | 2022-02-17 | 城市社会群体与住宅空间的聚类与匹配程度的分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114510648A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116957305A (zh) * | 2023-09-20 | 2023-10-27 | 安徽互联智库数据技术有限公司 | 基于大数据的区域服务资源智能适配方法及系统 |
-
2022
- 2022-02-17 CN CN202210148086.7A patent/CN114510648A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116957305A (zh) * | 2023-09-20 | 2023-10-27 | 安徽互联智库数据技术有限公司 | 基于大数据的区域服务资源智能适配方法及系统 |
CN116957305B (zh) * | 2023-09-20 | 2024-02-27 | 合肥工业大学 | 基于大数据的区域服务资源智能适配方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xia et al. | Analyzing spatial relationships between urban land use intensity and urban vitality at street block level: A case study of five Chinese megacities | |
Le Bagousse-Pinguet et al. | Phylogenetic, functional, and taxonomic richness have both positive and negative effects on ecosystem multifunctionality | |
Bell et al. | Applying the generalized-moments estimation approach to spatial problems involving micro-level data | |
Etienne et al. | Model-based count series clustering for bike sharing system usage mining: a case study with the Vélib’system of Paris | |
Sapena et al. | Estimating quality of life dimensions from urban spatial pattern metrics | |
Yang et al. | Hotel location evaluation: A combination of machine learning tools and web GIS | |
Wu et al. | Modified data-driven framework for housing market segmentation | |
Dendoncker et al. | A statistical method to downscale aggregated land use data and scenarios | |
CN110019568A (zh) | 基于空间聚类的选址方法、装置、计算机设备及存储介质 | |
CN110503485B (zh) | 地理区域分类方法及装置、电子设备、存储介质 | |
CN108717676A (zh) | 基于多数据融合的不同尺度下的职住空间评价方法及系统 | |
Qian et al. | Quantify city-level dynamic functions across China using social media and POIs data | |
CN108898244B (zh) | 一种耦合多源要素的数字标牌位置推荐方法 | |
Colantonio et al. | Smart regions in Italy: a comparative study through self–organizing maps | |
CN114510648A (zh) | 城市社会群体与住宅空间的聚类与匹配程度的分析方法 | |
CN109460444A (zh) | 用于输出信息的方法和装置 | |
Dou et al. | Incorporating neighborhoods with explainable artificial intelligence for modeling fine-scale housing prices | |
Lyu et al. | A multiscale spatial analysis of taxi ridership | |
CN111028012B (zh) | 景区客群定位方法、系统、装置及其可存储介质 | |
Yang et al. | Fusing mobile phone and travel survey data to model urban activity dynamics | |
Xiong et al. | Spatial characteristics and multifactorial driving analysis of fly-tipping bulky waste in Beijing based on the random forest model | |
CN109308313A (zh) | 基于文化资源评价的资源富集区识别方法 | |
Fan | Reexamining contemporary urbanism in the United States: convenient mix of the old and new | |
CN114359506A (zh) | 一种户型对比及解析户型对比结果的方法和装置 | |
Martinez et al. | An integrated application of zoning for mobility analysis and planning: the case of Paris Region |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |