CN117952658A

CN117952658A - 基于大数据的城市资源配置和产业特色分析方法及系统

Info

Publication number: CN117952658A
Application number: CN202410350935.6A
Authority: CN
Inventors: 吴敏; 姚慧平; 廖惠民; 曹劲浩; 黄德昌; 李福瑞; 熊慧玲
Original assignee: Jiangxi Provincial Science And Technology Affairs Center
Current assignee: Jiangxi Provincial Science And Technology Affairs Center
Priority date: 2024-03-26
Filing date: 2024-03-26
Publication date: 2024-04-30
Anticipated expiration: 2044-03-26
Also published as: CN117952658B

Abstract

本发明公开了基于大数据的城市资源配置和产业特色分析方法及系统，通过获取城市大数据，将大数据构建成一个数据集并存储；将数据集进行数据预处理，利用主成分分析方法降低数据集维度，从数据集中提取特征数据；基于提取的特征数据，通过K均值聚类算法对特征数据进行分析，建立决策树模型，得到城市产业特色和资源配置的特点；基于特征数据，通过线性回归分析方法分析城市产业特色和资源配置之间的内在联系；通过地理信息系统将城市资源配置和产业特色进行可视化呈现。本发明通过对大数据的收集和特征提取，并将所提取的数据通过大数据算法对城市资源配置和产业特色进行分析，基于分析结果为政府部门和企业提供决策支持。

Description

基于大数据的城市资源配置和产业特色分析方法及系统

技术领域

本发明属于大数据分析技术领域，特别涉及一种基于大数据的城市资源配置和产业特色分析方法及系统。

背景技术

大数据分析是指利用先进的技术和工具对海量、复杂、多样化的数据进行挖掘、处理和分析，以发现隐藏在数据背后的规律、趋势和洞见的过程，其主要包含以下几个步骤：数据的收集与整合、数据的处理、数据的分析与挖掘、结果解释与可视化。

传统的城市产业和资源配置分析方法已经很难满足如今社会的发展，具有很多的局限性，传统分析方法通常使用较小规模的样本数据进行分析，这可能导致分析结果的偏差和不够全面；传统分析方法对非结构化数据的处理能力有限，无法充分利用这些数据中潜在的信息；传统分析方法往往难以发现复杂的模式和规律，尤其是对于高维、非线性的数据。

专利CN201710352875.1公开了一种“针对企业产业链分析的移动应用平台与方法”，首先爬取企业信息形成数据库，再采用计算机自然语言处理技术对信息进行智能分类处理，再通过应用平台根据用户输入的搜索指令，在服务系统中查找出符合用户搜索要求的一系列企业，并传输到移动终端进行显示。但该方法只考虑了企业信息，数据样本较小，并且其分析方法过于冗余，导致分析结果的偏差和不够全面，无法对城市产业特色进行精确的分析。

随着城市化进程的不断加速，城市规模越来越大，城市经济和社会发展越来越复杂，如何有效的分析城市经济状况和未来发展趋势变得尤为重要。随着大数据分析技术快速发展，数量庞大、多样化和高维度的数据可以被采集、整理和分析。城市要实现科技高质量发展，势必要根据资源配置和产业特色等优势，找到适合自身发展的路径，不断推进产业结构向合理化、高级化发展。因此，如何利用大数据技术更加全面、深入地了解城市资源配置和产业特色，提供更为准确的分析结果和决策支持是需要解决的问题。

公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容

本发明的目的在于提供一种基于大数据的城市资源配置和产业特色分析方法及系统，从而克服上述现有技术中的缺陷。

为实现上述目的，本发明提供了一种基于大数据的城市资源配置和产业特色分析方法，其步骤为：

S01、通过API接口、网络爬虫技术获取城市企业、人口、地理环境、自然资源大数据，将大数据构建成一个数据集，根据数据集的特点、规模、访问需求，选择关系型数据库、非关系型数据库、文件系统中的一种作为数据存储方式；

S02、将数据集进行数据预处理，去除重复、异常的数据，根据研究目标和分析问题，利用主成分分析方法降低数据集维度，从数据集中提取主成分，主成分为反映出城市产业特色和资源配置的特征数据；

主成分分析方法的步骤为：计算数据集中各个特征之间的协方差矩阵；对协方差矩阵进行特征值分解，得到特征值和对应的特征向量，特征向量代表了原始变量空间中的新坐标系方向，而特征值则表示了数据在这些方向上的方差大小；根据特征值的大小，选择最大的W个特征值对应的特征向量作为主成分，通过累积贡献率来确定保留的主成分数量；将数据集投影到选定的主成分上，得到降维后的数据表示，以利用主成分来代表数据集的特征，即特征数据。

S03、基于步骤S02中提取的特征数据，通过K均值聚类算法对特征数据进行分析，建立决策树模型，通过决策树模型分析得到城市产业特色和资源配置的特点；

S04、基于步骤S02中提取的特征数据，通过线性回归分析方法分析城市产业特色和资源配置之间的内在联系，通过线性回归分析方法，衡量资源配置对产业特色的影响程度；

S05、通过地理信息系统将城市资源配置和产业特色进行可视化呈现；通过地理信息系统将线性回归结果以图形方式展示出来，量化资源因素对产业发展的贡献度，为未来城市发展政策的制定提供科学的依据。

优选地，技术方案中，步骤S02中，数据集的预处理过程为：使用Pandas库将数据集导入到数据分析环境中，形成数据框架，并使用Pandas库提供的函数对数据集进行数据预处理，去除重复、异常的数据，然后对经过预处理的数据进行标准化处理，将数据按照特征的均值和标准差进行缩放，使得特征的均值为0，标准差为1。

优选地，技术方案中，步骤S03中，将降维后的特征数据输入K均值聚类算法进行分析，将每个特征数据分配到对应的某个簇中，将这个簇赋予一个表示所属城市的标签，然后绘制类误差平方和的曲线图，找到肘部对应的聚类数目作为最佳的聚类数目；确定最佳聚类数目后，计算出每个簇的中心，得到所属城市中不同区域的聚类簇；使用带有簇标签的特征数据作为训练集，将所属城市的产业特色和资源配置作为目标变量，训练决策树模型；对训练好的决策树模型进行评估，检查其对城市产业特色和资源配置的预测性能，使用训练好的决策树模型，对新的城市特征数据进行预测，分析该城市内不同区域的产业特色，通过该城市的不同簇之间的特征分布，得出该城市内不同区域的资源配置的特点。

优选地，技术方案中，K均值聚类算法的误差平方和SSE计算公式为：，其中i表示聚类簇，K为聚类数目，表示第i个聚类簇，x为数据点，为第i个聚类簇的中心。

优选地，技术方案中，利用线性回归分析来建立城市产业特色与资源配置之间的数学模型，其中产业特色作为因变量，资源配置作为自变量；利用降维后的特征数据进行线性回归分析，拟合线性回归模型，并得出各资源配置对产业特色的影响程度，以及整体模型的拟合优度。

优选地，技术方案中，步骤S05中，通过地理信息系统导入降维后的特征数据，根据线性回归分析的结果，将回归系数对应到导入地理信息系统的空间数据中；在地理信息系统中创建符号化图层或热力图层，将线性回归结果以图形方式展示出来；根据回归系数的正负来设定颜色深浅，量化资源因素对产业发展的贡献度，评估不同资源配置对产业特色的影响程度。

一种基于大数据的城市资源配置和产业特色分析系统，包括数据采集模块、数据预处理模块、数据挖掘模块、数据分析模块、可视化模块；所述数据采集模块，用于收集城市企业、人口、地理环境、自然资源的数据，构建数据集；所述数据预处理模块，用于对数据集进行预处理并降维提取特征数据；所述数据挖掘模块，用于对特征数据进行挖掘，找出城市的产业特色和发展趋势，得出城市资源配置的特点和规律；所述数据分析模块，用于分析城市资源配置和产业特色之间的内在关系；所述可视化模块，用于将分析结果进行可视化呈现。

与现有技术相比，本发明具有如下有益效果：

对城市大数据进行收集构建一个大的数据集，通过计算机算法对数据进行分析，得出城市资源配置特点和产业特色，并分析两者之间的相互影响，最后将分析结果进行可视化呈现。该方法可以有效的解决传统城市产业和资源配置分析方法过于依赖有限的和静态的统计数据的限制，减少主观性对分析结果的影响。

附图说明

图1为本发明基于大数据的城市资源配置和产业特色分析系统的原理框图；

图2为本发明基于大数据的城市资源配置和产业特色分析方法步骤流程图。

具体实施方式

下面对本发明的具体实施方式进行详细描述，但应当理解本发明的保护范围并不受具体实施方式的限制。

除非另有其它明确表示，否则在整个说明书和权利要求书中，术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分，而并未排除其它元件或其它组成部分。

如图2所示，本发明提供了一种基于大数据的城市资源配置和产业特色分析方法，其步骤为：

S01、通过调用API接口发送请求，获取返回的数据；使用如Python和相应的爬虫库开发用于抓取网页数据的爬虫程序，使用爬虫程序向目标网站发起HTTP请求，获取网页的HTML内容，对获取的HTML内容进行解析，提取出城市企业（企业数量、类型、年营业额）、人口（总人口、人口密度、教育水平）、地理环境（城市面积、地形地貌、气候条件）、自然资源（水资源、矿产资源、土地利用情况）大数据，将大数据构建成一个数据集，根据数据的特点、规模、访问需求，选择关系型数据库、非关系型数据库、文件系统中的一种作为数据存储方式；

S02、将数据集进行数据预处理，去除重复、异常的数据；数据集的预处理过程为：使用Pandas库将数据集导入到数据分析环境中，形成数据框架，并使用Pandas库提供的函数对数据集进行数据预处理，去除重复、异常的数据，然后对经过预处理的数据进行标准化处理；

假设原始数据集矩阵为E，其中包括n个样本城市和m个特征（产业特色和资源配置指标），对数据集进行标准化处理，得到标准化数据集矩阵Z，标准化处理：, j= 1,2，……，m；

其中，分别是第j个特征的均值和标准差，Z_ij表示标准化数据集矩阵Z中第 i个样本城市的第j个特征取值，E_ij表示原始数据集矩阵E中第i个样本城市的第j个特征取值；

将数据按照特征的均值和标准差进行缩放，使得特征的均值为0，标准差为1；确保不同指标之间的数值范围相似，避免数据在主成分分析中受到不同变量量纲的影响；不同指标指的是数据集中的不同变量或特征，不同变量量纲是指它们在计量单位上的差异，不同变量可能使用不同的计量单位，比如长度、重量、时间等，这就导致它们的数值范围和单位不同；

根据研究目标和分析问题，利用主成分分析方法降低数据集维度，从数据集中识别出重要的主成分，提取出能够反映出城市产业特色和资源配置的特征数据；

主成分分析方法的步骤为：计算数据集中各个特征之间的协方差矩阵，协方差矩阵可以展现出不同变量之间的相关性，为主成分分析提供基础；

标准化数据集矩阵Z的协方差矩阵S：，表示矩阵 Z 的转置；

对协方差矩阵进行特征值分解，得到特征值和对应的特征向量 v_1，v_2，...，v_m，特征向量代表了原始变量空间中的新坐标系方向，而特征值则表示了数据在这些方向上的方差大小；原始变量指的是数据集中的各个特征或属性；根据特征值的大小，选择前W最大的个特征值对应的特征向量作为主成分，通过累积贡献率超过80%的特征值来确定保留的主成分数量W；将标准化数据集矩阵Z投影到选定的主成分上，得到降维后的数据表示，其中T是降维后的数据矩阵,是包含前W个特征向量的矩阵，以利用W个主成分来代表数据集的特征，即特征数据；

S03、基于步骤S02中提取的特征数据，通过K均值聚类算法对特征数据进行分析，建立决策树模型，通过决策树模型分析得到城市的产业特色和城市资源配置的特点；

将降维后的特征数据输入K均值聚类算法进行分析，将每个特征数据分配到对应的某个簇中，将这个簇赋予一个表示所属城市的标签，然后绘制类误差平方和SSE的曲线图，找到肘部对应的聚类数目作为最佳的聚类数目，肘部是指在聚类分析中，SSE曲线图中出现的一个拐点，通常是一个明显的突变点；确定最佳聚类数目后，计算出每个簇的中心，得到不同城市所属的聚类簇；使用带有簇标签的特征数据作为训练集，将城市的产业特色和资源配置作为目标变量，训练决策树模型；对训练好的决策树模型进行评估，检查其对城市产业特色和资源配置的预测性能，使用训练好的决策树模型，对新的城市特征数据进行预测，分析不同城市的产业特色，通过比较不同簇内部和不同簇之间的特征分布，得出城市资源配置的特点；

K均值聚类算法的误差平方和SSE计算公式为：，其中i表示聚类簇，K为聚类数目，表示第i个聚类簇，x为数据点，为第i个聚类簇的中心；

假设得到的降维后30个城市的特征数据，每个城市有以下特征：企业数量、人口密度、地形地貌、气候条件、水资源和土地利用情况；然后使用K均值聚类算法，随机选择3个样本作为初始聚类簇的中心，假设选择的初始聚类簇的中心分别是城市A：企业数量为2，人口密度为0.5，地形地貌为0.1，气候条件为-1，水资源为0.8，土地利用情况为-0.5；城市B：企业数量为5，人口密度为-1，地形地貌为-0.2，气候条件为0.7，水资源为-0.3，土地利用情况为0.9；城市C：企业数量为1，人口密度为0.2，地形地貌为-0.8，气候条件为0.5，水资源为-0.7，土地利用情况为-0.4；

开始进行K均值聚类算法的迭代过程；

分配数据点：对于每个数据点，计算其与每个聚类簇的中心之间的距离；假设某个城市的特征值：企业数量为3，人口密度为-0.3，地形地貌为0.5，气候条件为-0.5，水资源为0.2，土地利用情况为0.6；计算该企业与每个聚类簇的中心的距离，并将其分配到最近的聚类簇的中心所代表的类别；

更新聚类簇的中心：针对每个聚类，计算该类别所有数据点的平均值，即新的聚类簇的中心；假设在某次迭代中，第一个簇中的数据点有：企业数量为1，人口密度为0.1，地形地貌为-0.5，气候条件为-0.8，水资源为0.7，土地利用情况为-0.2；企业数量为2，人口密度为0.5，地形地貌为0.2，气候条件为-1，水资源为0.9，土地利用情况为-0.3；计算这两个数据点的平均值，得到聚类簇的中心；重复步骤1和2，直到聚类簇的中心不再发生变化或达到预定的迭代次数；

对于每个尝试的聚类数目（从2到7），将每个数据点与其所属聚类簇的中心之间的距离进行平方，并将所有数据点的平方距离进行累加，得到SSE，假设在尝试聚类数目为2时，计算得到的SSE为100；在尝试聚类数目为3时，计算得到的SSE为80；在尝试聚类数目为4时，计算得到的SSE为75；在尝试聚类数目为5时，计算得到的SSE为85；在尝试聚类数目为6时，计算得到的SSE为90；在尝试聚类数目为7时，计算得到的SSE为95；可以看到在聚类数目为4时，SSE出现了一个明显的拐点或肘部根据肘部法则，最佳的聚类数目应该是4；确定最佳聚类数目后，计算出每个簇的中心，得到不同城市所属的聚类簇；

将带有簇标签的特征数据作为训练集划分为训练集和测试集，通常可以采用70%的数据作为训练集，30%的数据作为测试集;使用训练集数据训练决策树模型并计算其准确率，使用测试集数据评估模型的性能，最后同过评估结果对模型进行调整；

S04、基于步骤S02中提取的特征数据，通过线性回归分析方法分析城市产业特色和资源配置之间的内在联系；通过线性回归分析方法，可以衡量资源配置对产业特色的影响程度，并揭示二者之间的复杂关系，为城市产业发展提供科学支持；

利用线性回归分析来建立城市产业特色与资源配置之间的线性回归模型：，其中，产业特色作为因变量y，资源配置作为自变量，是截距，是回归系数，是误差项；

利用降维后的特征数据进行回归分析，拟合线性回归模型，并得出各资源配置对产业特色的影响程度，以及整体模型的拟合优度；

通过最小化残差平方和来找到最优的回归系数，最小化残差平方和为：，

其中n是城市样本数量，是第个观测值的实际因变量值，是线性回归模型对第个观测值的预测值；

使用最小二乘法求解回归系数：,

其中，是回归系数的估计值，X是的设计矩阵，第一列为1，Y是的响应变量向量；通过解释回归系数来分析不同资源配置因数对产业特色的影响程度，判断影响大小和方向；

假设有10个城市的数据，进行线性回归分析后得到了如下结果：

产业特色 = 50 + 0.2人口数量 + 0.5人口密度 - 0.3地形地貌 + 0.4气候条件+ 0.6水资源 + 0.1土地利用情况；

通过系数的正负值和大小，我们可以分析得出以下结论：

人口密度和水资源对产业特色有正向影响，人口密度越大、水资源越丰富，产业特色得分越高；

地形地貌对产业特色有负向影响，地形地貌越复杂、困难，产业特色得分越低；

其他指标对产业特色影响不显著；

S05、通过地理信息系统将城市资源配置和产业特色进行可视化呈现；将降维后的特征数据整理成空间数据格式（Shapefile、GeoJSON）并导入到地理信息系统；根据线性回归的结果，将回归系数对应到导入地理信息系统的空间数据中；在地理信息系统中创建符号化图层或热力图层，将线性回归结果以图形方式展示出来；根据线性回归系数的正负来设定颜色深浅，以直观展示城市资源配置与产业特色关联程度，量化资源因数对产业发展的贡献度，评估不同资源配置对产业特色的影响程度，为未来城市发展政策的制定提供科学的依据。

如图1所示，本发明提供了一种基于大数据的城市资源配置和产业特色分析系统，包括数据采集模块、数据预处理模块、数据挖掘模块、数据分析模块、可视化模块；所述数据采集模块，用于收集城市企业、人口、地理环境、自然资源的数据，构建数据集；所述数据预处理模块，用于对数据集进行预处理并降维提取特征数据；所述数据挖掘模块，用于对特征数据进行挖掘，找出城市的产业特色和发展趋势，得出城市资源配置的特点和规律；所述数据分析模块，用于分析城市资源配置和产业特色之间的内在关系；所述可视化模块，用于将分析结果进行可视化呈现。

前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式，并且很显然，根据上述教导，可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用，从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。

Claims

1.基于大数据的城市资源配置和产业特色分析方法，其步骤为：

主成分分析方法的步骤为：计算数据集中各个特征之间的协方差矩阵；对协方差矩阵进行特征值分解，得到特征值和对应的特征向量，特征向量代表了原始变量空间中的新坐标系方向，而特征值则表示了数据在这些方向上的方差大小；根据特征值的大小，选择最大的W个特征值对应的特征向量作为主成分，通过累积贡献率来确定保留的主成分数量；将数据集投影到选定的主成分上，得到降维后的数据表示，以利用主成分来代表数据集的特征，即特征数据；

S05、通过地理信息系统将城市资源配置和产业特色进行可视化呈现；通过地理信息系统将线性回归结果以图形方式展示出来，量化资源因素对产业发展的贡献度。

2.根据权利要求1所述的基于大数据的城市资源配置和产业特色分析方法，其特征在于：步骤S02中，数据集的预处理过程为：使用Pandas库将数据集导入到数据分析环境中，形成数据框架，并使用Pandas库提供的函数对数据集进行数据预处理，去除重复、异常的数据，然后对经过预处理的数据进行标准化处理，将数据按照特征的均值和标准差进行缩放，使得特征的均值为0，标准差为1。

3.根据权利要求2所述的基于大数据的城市资源配置和产业特色分析方法，其特征在于：假设原始数据集矩阵为E，其中包括n个样本城市和m个特征，对数据集进行标准化处理，得到标准化数据集矩阵Z，标准化处理为：, j=1,2，……，m；

其中，分别是第j个特征的均值和标准差，Z_ij表示标准化数据集矩阵Z中第i个样本城市的第j个特征取值，E_ij表示原始数据集矩阵E中第i个样本城市的第j个特征取值。

4.根据权利要求3所述的基于大数据的城市资源配置和产业特色分析方法，其特征在于：标准化数据集矩阵Z的协方差矩阵S：，/>表示矩阵 Z 的转置；

对协方差矩阵进行特征值分解，得到特征值和对应的特征向量v_1，v_2，...，v_m，特征向量代表了原始变量空间中的新坐标系方向，而特征值则表示了数据在这些方向上的方差大小；原始变量指的是数据集中的各个特征或属性；根据特征值的大小，选择前W最大的个特征值对应的特征向量作为主成分，通过累积贡献率超过80%的特征值来确定保留的主成分数量W；将标准化数据集矩阵Z投影到选定的主成分上，得到降维后的数据表示/>，其中T是降维后的数据矩阵,/>是包含前W个特征向量的矩阵，以利用W个主成分来代表数据集的特征，即特征数据。

5.根据权利要求1所述的基于大数据的城市资源配置和产业特色分析方法，其特征在于：步骤S03中，将降维后的特征数据输入K均值聚类算法进行分析，将每个特征数据分配到对应的某个簇中，将这个簇赋予一个表示所属城市的标签，然后绘制类误差平方和的曲线图，找到肘部对应的聚类数目作为最佳的聚类数目；确定最佳聚类数目后，计算出每个簇的中心，得到所属城市中不同区域的聚类簇；使用带有簇标签的特征数据作为训练集，将所属城市的产业特色和资源配置作为目标变量，训练决策树模型；对训练好的决策树模型进行评估，检查其对城市产业特色和资源配置的预测性能，使用训练好的决策树模型，对新的城市特征数据进行预测，分析该城市内不同区域的产业特色，通过该城市的不同簇之间的特征分布，得出该城市内不同区域的资源配置的特点。

6.根据权利要求5所述的基于大数据的城市资源配置和产业特色分析方法，其特征在于：K均值聚类算法的误差平方和SSE计算公式为：，其中i表示聚类簇，K为聚类数目，/>表示第i个聚类簇，x为数据点，/>为第i个聚类簇的中心。

7.根据权利要求1所述的基于大数据的城市资源配置和产业特色分析方法，其特征在于：利用线性回归分析来建立城市产业特色与资源配置之间的数学模型，其中产业特色作为因变量，资源配置作为自变量；利用降维后的特征数据进行线性回归分析，拟合线性回归模型，并得出各资源配置对产业特色的影响程度，以及整体模型的拟合优度。

8.根据权利要求1所述的基于大数据的城市资源配置和产业特色分析方法，其特征在于：步骤S05中，通过地理信息系统导入降维后的特征数据，根据线性回归分析的结果，将回归系数对应到导入地理信息系统的空间数据中；在地理信息系统中创建符号化图层或热力图层，将线性回归结果以图形方式展示出来；根据回归系数的正负来设定颜色深浅，量化资源因素对产业发展的贡献度，评估不同资源配置对产业特色的影响程度。

9.基于大数据的城市资源配置和产业特色分析系统，其特征在于：所述系统应用如权利要求1至8任意一项所述的基于大数据的城市资源配置和产业特色分析方法，包括数据采集模块、数据预处理模块、数据挖掘模块、数据分析模块、可视化模块；所述数据采集模块，用于收集城市企业、人口、地理环境、自然资源的数据，构建数据集；所述数据预处理模块，用于对数据集进行预处理并降维提取特征数据；所述数据挖掘模块，用于对特征数据进行挖掘，找出城市的产业特色和发展趋势，得出城市资源配置的特点和规律；所述数据分析模块，用于分析城市资源配置和产业特色之间的内在关系；所述可视化模块，用于将分析结果进行可视化呈现。