CN117952658A - 基于大数据的城市资源配置和产业特色分析方法及系统 - Google Patents
基于大数据的城市资源配置和产业特色分析方法及系统 Download PDFInfo
- Publication number
- CN117952658A CN117952658A CN202410350935.6A CN202410350935A CN117952658A CN 117952658 A CN117952658 A CN 117952658A CN 202410350935 A CN202410350935 A CN 202410350935A CN 117952658 A CN117952658 A CN 117952658A
- Authority
- CN
- China
- Prior art keywords
- data
- resource allocation
- urban
- feature
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013468 resource allocation Methods 0.000 title claims abstract description 75
- 238000004458 analytical method Methods 0.000 title claims abstract description 61
- 238000012417 linear regression Methods 0.000 claims abstract description 27
- 238000007781 pre-processing Methods 0.000 claims abstract description 19
- 238000003066 decision tree Methods 0.000 claims abstract description 17
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 14
- 238000003064 k means clustering Methods 0.000 claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 11
- 238000012847 principal component analysis method Methods 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 26
- 238000011161 development Methods 0.000 claims description 17
- 238000007405 data analysis Methods 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 10
- 238000012549 training Methods 0.000 claims description 8
- 238000007418 data mining Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 7
- 239000013598 vector Substances 0.000 claims description 7
- 238000012800 visualization Methods 0.000 claims description 7
- 208000025174 PANDAS Diseases 0.000 claims description 6
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 claims description 6
- 240000004718 Panda Species 0.000 claims description 6
- 235000016496 Panda oleosa Nutrition 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 6
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 230000001419 dependent effect Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 claims description 4
- 238000005065 mining Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013500 data storage Methods 0.000 claims description 3
- 238000011160 research Methods 0.000 claims description 3
- 238000013178 mathematical model Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 abstract 1
- 238000012876 topography Methods 0.000 description 13
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 11
- 230000008569 process Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 241000764238 Isis Species 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了基于大数据的城市资源配置和产业特色分析方法及系统,通过获取城市大数据,将大数据构建成一个数据集并存储;将数据集进行数据预处理,利用主成分分析方法降低数据集维度,从数据集中提取特征数据;基于提取的特征数据,通过K均值聚类算法对特征数据进行分析,建立决策树模型,得到城市产业特色和资源配置的特点;基于特征数据,通过线性回归分析方法分析城市产业特色和资源配置之间的内在联系;通过地理信息系统将城市资源配置和产业特色进行可视化呈现。本发明通过对大数据的收集和特征提取,并将所提取的数据通过大数据算法对城市资源配置和产业特色进行分析,基于分析结果为政府部门和企业提供决策支持。
Description
技术领域
本发明属于大数据分析技术领域,特别涉及一种基于大数据的城市资源配置和产业特色分析方法及系统。
背景技术
大数据分析是指利用先进的技术和工具对海量、复杂、多样化的数据进行挖掘、处理和分析,以发现隐藏在数据背后的规律、趋势和洞见的过程,其主要包含以下几个步骤:数据的收集与整合、数据的处理、数据的分析与挖掘、结果解释与可视化。
传统的城市产业和资源配置分析方法已经很难满足如今社会的发展,具有很多的局限性,传统分析方法通常使用较小规模的样本数据进行分析,这可能导致分析结果的偏差和不够全面;传统分析方法对非结构化数据的处理能力有限,无法充分利用这些数据中潜在的信息;传统分析方法往往难以发现复杂的模式和规律,尤其是对于高维、非线性的数据。
专利CN201710352875.1公开了一种“针对企业产业链分析的移动应用平台与方法”,首先爬取企业信息形成数据库,再采用计算机自然语言处理技术对信息进行智能分类处理,再通过应用平台根据用户输入的搜索指令,在服务系统中查找出符合用户搜索要求的一系列企业,并传输到移动终端进行显示。但该方法只考虑了企业信息,数据样本较小,并且其分析方法过于冗余,导致分析结果的偏差和不够全面,无法对城市产业特色进行精确的分析。
随着城市化进程的不断加速,城市规模越来越大,城市经济和社会发展越来越复杂,如何有效的分析城市经济状况和未来发展趋势变得尤为重要。随着大数据分析技术快速发展,数量庞大、多样化和高维度的数据可以被采集、整理和分析。城市要实现科技高质量发展,势必要根据资源配置和产业特色等优势,找到适合自身发展的路径,不断推进产业结构向合理化、高级化发展。因此,如何利用大数据技术更加全面、深入地了解城市资源配置和产业特色,提供更为准确的分析结果和决策支持是需要解决的问题。
公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。
发明内容
本发明的目的在于提供一种基于大数据的城市资源配置和产业特色分析方法及系统,从而克服上述现有技术中的缺陷。
为实现上述目的,本发明提供了一种基于大数据的城市资源配置和产业特色分析方法,其步骤为:
S01、通过API接口、网络爬虫技术获取城市企业、人口、地理环境、自然资源大数据,将大数据构建成一个数据集,根据数据集的特点、规模、访问需求,选择关系型数据库、非关系型数据库、文件系统中的一种作为数据存储方式;
S02、将数据集进行数据预处理,去除重复、异常的数据,根据研究目标和分析问题,利用主成分分析方法降低数据集维度,从数据集中提取主成分,主成分为反映出城市产业特色和资源配置的特征数据;
主成分分析方法的步骤为:计算数据集中各个特征之间的协方差矩阵;对协方差矩阵进行特征值分解,得到特征值和对应的特征向量,特征向量代表了原始变量空间中的新坐标系方向,而特征值则表示了数据在这些方向上的方差大小;根据特征值的大小,选择最大的W个特征值对应的特征向量作为主成分,通过累积贡献率来确定保留的主成分数量;将数据集投影到选定的主成分上,得到降维后的数据表示,以利用主成分来代表数据集的特征,即特征数据。
S03、基于步骤S02中提取的特征数据,通过K均值聚类算法对特征数据进行分析,建立决策树模型,通过决策树模型分析得到城市产业特色和资源配置的特点;
S04、基于步骤S02中提取的特征数据,通过线性回归分析方法分析城市产业特色和资源配置之间的内在联系,通过线性回归分析方法,衡量资源配置对产业特色的影响程度;
S05、通过地理信息系统将城市资源配置和产业特色进行可视化呈现;通过地理信息系统将线性回归结果以图形方式展示出来,量化资源因素对产业发展的贡献度,为未来城市发展政策的制定提供科学的依据。
优选地,技术方案中,步骤S02中,数据集的预处理过程为:使用Pandas库将数据集导入到数据分析环境中,形成数据框架,并使用Pandas库提供的函数对数据集进行数据预处理,去除重复、异常的数据,然后对经过预处理的数据进行标准化处理,将数据按照特征的均值和标准差进行缩放,使得特征的均值为0,标准差为1。
优选地,技术方案中,步骤S03中,将降维后的特征数据输入K均值聚类算法进行分析,将每个特征数据分配到对应的某个簇中,将这个簇赋予一个表示所属城市的标签,然后绘制类误差平方和的曲线图,找到肘部对应的聚类数目作为最佳的聚类数目;确定最佳聚类数目后,计算出每个簇的中心,得到所属城市中不同区域的聚类簇;使用带有簇标签的特征数据作为训练集,将所属城市的产业特色和资源配置作为目标变量,训练决策树模型;对训练好的决策树模型进行评估,检查其对城市产业特色和资源配置的预测性能,使用训练好的决策树模型,对新的城市特征数据进行预测,分析该城市内不同区域的产业特色,通过该城市的不同簇之间的特征分布,得出该城市内不同区域的资源配置的特点。
优选地,技术方案中,K均值聚类算法的误差平方和SSE计算公式为:,其中i表示聚类簇,K为聚类数目,表示第i个聚类簇,x为数据点,为第i个聚类簇的中心。
优选地,技术方案中,利用线性回归分析来建立城市产业特色与资源配置之间的数学模型,其中产业特色作为因变量,资源配置作为自变量;利用降维后的特征数据进行线性回归分析,拟合线性回归模型,并得出各资源配置对产业特色的影响程度,以及整体模型的拟合优度。
优选地,技术方案中,步骤S05中,通过地理信息系统导入降维后的特征数据,根据线性回归分析的结果,将回归系数对应到导入地理信息系统的空间数据中;在地理信息系统中创建符号化图层或热力图层,将线性回归结果以图形方式展示出来;根据回归系数的正负来设定颜色深浅,量化资源因素对产业发展的贡献度,评估不同资源配置对产业特色的影响程度。
一种基于大数据的城市资源配置和产业特色分析系统,包括数据采集模块、数据预处理模块、数据挖掘模块、数据分析模块、可视化模块;所述数据采集模块,用于收集城市企业、人口、地理环境、自然资源的数据,构建数据集;所述数据预处理模块,用于对数据集进行预处理并降维提取特征数据;所述数据挖掘模块,用于对特征数据进行挖掘,找出城市的产业特色和发展趋势,得出城市资源配置的特点和规律;所述数据分析模块,用于分析城市资源配置和产业特色之间的内在关系;所述可视化模块,用于将分析结果进行可视化呈现。
与现有技术相比,本发明具有如下有益效果:
对城市大数据进行收集构建一个大的数据集,通过计算机算法对数据进行分析,得出城市资源配置特点和产业特色,并分析两者之间的相互影响,最后将分析结果进行可视化呈现。该方法可以有效的解决传统城市产业和资源配置分析方法过于依赖有限的和静态的统计数据的限制,减少主观性对分析结果的影响。
附图说明
图1为本发明基于大数据的城市资源配置和产业特色分析系统的原理框图;
图2为本发明基于大数据的城市资源配置和产业特色分析方法步骤流程图。
具体实施方式
下面对本发明的具体实施方式进行详细描述,但应当理解本发明的保护范围并不受具体实施方式的限制。
除非另有其它明确表示,否则在整个说明书和权利要求书中,术语“包括”或其变换如“包含”或“包括有”等等将被理解为包括所陈述的元件或组成部分,而并未排除其它元件或其它组成部分。
如图2所示,本发明提供了一种基于大数据的城市资源配置和产业特色分析方法,其步骤为:
S01、通过调用API接口发送请求,获取返回的数据;使用如Python和相应的爬虫库开发用于抓取网页数据的爬虫程序,使用爬虫程序向目标网站发起HTTP请求,获取网页的HTML内容,对获取的HTML内容进行解析,提取出城市企业(企业数量、类型、年营业额)、人口(总人口、人口密度、教育水平)、地理环境(城市面积、地形地貌、气候条件)、自然资源(水资源、矿产资源、土地利用情况)大数据,将大数据构建成一个数据集,根据数据的特点、规模、访问需求,选择关系型数据库、非关系型数据库、文件系统中的一种作为数据存储方式;
S02、将数据集进行数据预处理,去除重复、异常的数据;数据集的预处理过程为:使用Pandas库将数据集导入到数据分析环境中,形成数据框架,并使用Pandas库提供的函数对数据集进行数据预处理,去除重复、异常的数据,然后对经过预处理的数据进行标准化处理;
假设原始数据集矩阵为E,其中包括n个样本城市和m个特征(产业特色和资源配置
指标),对数据集进行标准化处理,得到标准化数据集矩阵Z,标准化处理:, j=
1,2,……,m;
其中,分别是第j个特征的均值和标准差,Zij表示标准化数据集矩阵Z中第
i个样本城市的第j个特征取值,Eij表示原始数据集矩阵E中第i个样本城市的第j个特征取
值;
将数据按照特征的均值和标准差进行缩放,使得特征的均值为0,标准差为1;确保不同指标之间的数值范围相似,避免数据在主成分分析中受到不同变量量纲的影响;不同指标指的是数据集中的不同变量或特征,不同变量量纲是指它们在计量单位上的差异,不同变量可能使用不同的计量单位,比如长度、重量、时间等,这就导致它们的数值范围和单位不同;
根据研究目标和分析问题,利用主成分分析方法降低数据集维度,从数据集中识别出重要的主成分,提取出能够反映出城市产业特色和资源配置的特征数据;
主成分分析方法的步骤为:计算数据集中各个特征之间的协方差矩阵,协方差矩阵可以展现出不同变量之间的相关性,为主成分分析提供基础;
标准化数据集矩阵Z的协方差矩阵S:,表示矩阵 Z 的转置;
对协方差矩阵进行特征值分解,得到特征值和对应的特征向量
v1,v2,...,vm,特征向量代表了原始变量空间中的新坐标系方向,而特征值则表示了数据在这
些方向上的方差大小;原始变量指的是数据集中的各个特征或属性;根据特征值的大小,选
择前W最大的个特征值对应的特征向量作为主成分,通过累积贡献率超过80%的特征值来确
定保留的主成分数量W;将标准化数据集矩阵Z投影到选定的主成分上,得到降维后的数据
表示,其中T是降维后的数据矩阵,是包含前W个特征向量的矩阵,以利用W个主
成分来代表数据集的特征,即特征数据;
S03、基于步骤S02中提取的特征数据,通过K均值聚类算法对特征数据进行分析,建立决策树模型,通过决策树模型分析得到城市的产业特色和城市资源配置的特点;
将降维后的特征数据输入K均值聚类算法进行分析,将每个特征数据分配到对应的某个簇中,将这个簇赋予一个表示所属城市的标签,然后绘制类误差平方和SSE的曲线图,找到肘部对应的聚类数目作为最佳的聚类数目,肘部是指在聚类分析中,SSE曲线图中出现的一个拐点,通常是一个明显的突变点;确定最佳聚类数目后,计算出每个簇的中心,得到不同城市所属的聚类簇;使用带有簇标签的特征数据作为训练集,将城市的产业特色和资源配置作为目标变量,训练决策树模型;对训练好的决策树模型进行评估,检查其对城市产业特色和资源配置的预测性能,使用训练好的决策树模型,对新的城市特征数据进行预测,分析不同城市的产业特色,通过比较不同簇内部和不同簇之间的特征分布,得出城市资源配置的特点;
K均值聚类算法的误差平方和SSE计算公式为:,其中i表示聚类
簇,K为聚类数目,表示第i个聚类簇,x为数据点,为第i个聚类簇的中心;
假设得到的降维后30个城市的特征数据,每个城市有以下特征:企业数量、人口密度、地形地貌、气候条件、水资源和土地利用情况;然后使用K均值聚类算法,随机选择3个样本作为初始聚类簇的中心,假设选择的初始聚类簇的中心分别是城市A:企业数量为2,人口密度为0.5,地形地貌为0.1,气候条件为-1,水资源为0.8,土地利用情况为-0.5;城市B:企业数量为5,人口密度为-1,地形地貌为-0.2,气候条件为0.7,水资源为-0.3,土地利用情况为0.9;城市C:企业数量为1,人口密度为0.2,地形地貌为-0.8,气候条件为0.5,水资源为-0.7,土地利用情况为-0.4;
开始进行K均值聚类算法的迭代过程;
分配数据点:对于每个数据点,计算其与每个聚类簇的中心之间的距离;假设某个城市的特征值:企业数量为3,人口密度为-0.3,地形地貌为0.5,气候条件为-0.5,水资源为0.2,土地利用情况为0.6;计算该企业与每个聚类簇的中心的距离,并将其分配到最近的聚类簇的中心所代表的类别;
更新聚类簇的中心:针对每个聚类,计算该类别所有数据点的平均值,即新的聚类簇的中心;假设在某次迭代中,第一个簇中的数据点有:企业数量为1,人口密度为0.1,地形地貌为-0.5,气候条件为-0.8,水资源为0.7,土地利用情况为-0.2;企业数量为2,人口密度为0.5,地形地貌为0.2,气候条件为-1,水资源为0.9,土地利用情况为-0.3;计算这两个数据点的平均值,得到聚类簇的中心;重复步骤1和2,直到聚类簇的中心不再发生变化或达到预定的迭代次数;
对于每个尝试的聚类数目(从2到7),将每个数据点与其所属聚类簇的中心之间的距离进行平方,并将所有数据点的平方距离进行累加,得到SSE,假设在尝试聚类数目为2时,计算得到的SSE为100;在尝试聚类数目为3时,计算得到的SSE为80;在尝试聚类数目为4时,计算得到的SSE为75;在尝试聚类数目为5时,计算得到的SSE为85;在尝试聚类数目为6时,计算得到的SSE为90;在尝试聚类数目为7时,计算得到的SSE为95;可以看到在聚类数目为4时,SSE出现了一个明显的拐点或肘部根据肘部法则,最佳的聚类数目应该是4;确定最佳聚类数目后,计算出每个簇的中心,得到不同城市所属的聚类簇;
将带有簇标签的特征数据作为训练集划分为训练集和测试集,通常可以采用70%的数据作为训练集,30%的数据作为测试集;使用训练集数据训练决策树模型并计算其准确率,使用测试集数据评估模型的性能,最后同过评估结果对模型进行调整;
S04、基于步骤S02中提取的特征数据,通过线性回归分析方法分析城市产业特色和资源配置之间的内在联系;通过线性回归分析方法,可以衡量资源配置对产业特色的影响程度,并揭示二者之间的复杂关系,为城市产业发展提供科学支持;
利用线性回归分析来建立城市产业特色与资源配置之间的线性回归模型:,其中,产业特色作为因变量y,资源配置作
为自变量, 是截距,是回归系数,是误差项;
利用降维后的特征数据进行回归分析,拟合线性回归模型,并得出各资源配置对产业特色的影响程度,以及整体模型的拟合优度;
通过最小化残差平方和来找到最优的回归系数,最小化残差平方和为:,
其中n是城市样本数量,是第个观测值的实际因变量值,是线性回归模型对
第个观测值的预测值;
使用最小二乘法求解回归系数:,
其中,是回归系数的估计值,X是的设计矩阵,第一列为1,Y是的响
应变量向量;通过解释回归系数来分析不同资源配置因数对产业特色的影响程度,判断影
响大小和方向;
假设有10个城市的数据,进行线性回归分析后得到了如下结果:
产业特色 = 50 + 0.2人口数量 + 0.5人口密度 - 0.3地形地貌 + 0.4气候条件+ 0.6水资源 + 0.1土地利用情况;
通过系数的正负值和大小,我们可以分析得出以下结论:
人口密度和水资源对产业特色有正向影响,人口密度越大、水资源越丰富,产业特色得分越高;
地形地貌对产业特色有负向影响,地形地貌越复杂、困难,产业特色得分越低;
其他指标对产业特色影响不显著;
S05、通过地理信息系统将城市资源配置和产业特色进行可视化呈现;将降维后的特征数据整理成空间数据格式(Shapefile、GeoJSON)并导入到地理信息系统;根据线性回归的结果,将回归系数对应到导入地理信息系统的空间数据中;在地理信息系统中创建符号化图层或热力图层,将线性回归结果以图形方式展示出来;根据线性回归系数的正负来设定颜色深浅,以直观展示城市资源配置与产业特色关联程度,量化资源因数对产业发展的贡献度,评估不同资源配置对产业特色的影响程度,为未来城市发展政策的制定提供科学的依据。
如图1所示,本发明提供了一种基于大数据的城市资源配置和产业特色分析系统,包括数据采集模块、数据预处理模块、数据挖掘模块、数据分析模块、可视化模块;所述数据采集模块,用于收集城市企业、人口、地理环境、自然资源的数据,构建数据集;所述数据预处理模块,用于对数据集进行预处理并降维提取特征数据;所述数据挖掘模块,用于对特征数据进行挖掘,找出城市的产业特色和发展趋势,得出城市资源配置的特点和规律;所述数据分析模块,用于分析城市资源配置和产业特色之间的内在关系;所述可视化模块,用于将分析结果进行可视化呈现。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权利要求书及其等同形式所限定。
Claims (9)
1.基于大数据的城市资源配置和产业特色分析方法,其步骤为:
S01、通过API接口、网络爬虫技术获取城市企业、人口、地理环境、自然资源大数据,将大数据构建成一个数据集,根据数据集的特点、规模、访问需求,选择关系型数据库、非关系型数据库、文件系统中的一种作为数据存储方式;
S02、将数据集进行数据预处理,去除重复、异常的数据,根据研究目标和分析问题,利用主成分分析方法降低数据集维度,从数据集中提取主成分,主成分为反映出城市产业特色和资源配置的特征数据;
主成分分析方法的步骤为:计算数据集中各个特征之间的协方差矩阵;对协方差矩阵进行特征值分解,得到特征值和对应的特征向量,特征向量代表了原始变量空间中的新坐标系方向,而特征值则表示了数据在这些方向上的方差大小;根据特征值的大小,选择最大的W个特征值对应的特征向量作为主成分,通过累积贡献率来确定保留的主成分数量;将数据集投影到选定的主成分上,得到降维后的数据表示,以利用主成分来代表数据集的特征,即特征数据;
S03、基于步骤S02中提取的特征数据,通过K均值聚类算法对特征数据进行分析,建立决策树模型,通过决策树模型分析得到城市产业特色和资源配置的特点;
S04、基于步骤S02中提取的特征数据,通过线性回归分析方法分析城市产业特色和资源配置之间的内在联系,通过线性回归分析方法,衡量资源配置对产业特色的影响程度;
S05、通过地理信息系统将城市资源配置和产业特色进行可视化呈现;通过地理信息系统将线性回归结果以图形方式展示出来,量化资源因素对产业发展的贡献度。
2.根据权利要求1所述的基于大数据的城市资源配置和产业特色分析方法,其特征在于:步骤S02中,数据集的预处理过程为:使用Pandas库将数据集导入到数据分析环境中,形成数据框架,并使用Pandas库提供的函数对数据集进行数据预处理,去除重复、异常的数据,然后对经过预处理的数据进行标准化处理,将数据按照特征的均值和标准差进行缩放,使得特征的均值为0,标准差为1。
3.根据权利要求2所述的基于大数据的城市资源配置和产业特色分析方法,其特征在于:假设原始数据集矩阵为E,其中包括n个样本城市和m个特征,对数据集进行标准化处理,得到标准化数据集矩阵Z,标准化处理为:, j=1,2,……,m;
其中,分别是第j个特征的均值和标准差,Zij表示标准化数据集矩阵Z中第i个样本城市的第j个特征取值,Eij表示原始数据集矩阵E中第i个样本城市的第j个特征取值。
4.根据权利要求3所述的基于大数据的城市资源配置和产业特色分析方法,其特征在于:标准化数据集矩阵Z的协方差矩阵S:,/>表示矩阵 Z 的转置;
对协方差矩阵进行特征值分解,得到特征值和对应的特征向量v1,v2,...,vm,特征向量代表了原始变量空间中的新坐标系方向,而特征值则表示了数据在这些方向上的方差大小;原始变量指的是数据集中的各个特征或属性;根据特征值的大小,选择前W最大的个特征值对应的特征向量作为主成分,通过累积贡献率超过80%的特征值来确定保留的主成分数量W;将标准化数据集矩阵Z投影到选定的主成分上,得到降维后的数据表示/>,其中T是降维后的数据矩阵,/>是包含前W个特征向量的矩阵,以利用W个主成分来代表数据集的特征,即特征数据。
5.根据权利要求1所述的基于大数据的城市资源配置和产业特色分析方法,其特征在于:步骤S03中,将降维后的特征数据输入K均值聚类算法进行分析,将每个特征数据分配到对应的某个簇中,将这个簇赋予一个表示所属城市的标签,然后绘制类误差平方和的曲线图,找到肘部对应的聚类数目作为最佳的聚类数目;确定最佳聚类数目后,计算出每个簇的中心,得到所属城市中不同区域的聚类簇;使用带有簇标签的特征数据作为训练集,将所属城市的产业特色和资源配置作为目标变量,训练决策树模型;对训练好的决策树模型进行评估,检查其对城市产业特色和资源配置的预测性能,使用训练好的决策树模型,对新的城市特征数据进行预测,分析该城市内不同区域的产业特色,通过该城市的不同簇之间的特征分布,得出该城市内不同区域的资源配置的特点。
6.根据权利要求5所述的基于大数据的城市资源配置和产业特色分析方法,其特征在于:K均值聚类算法的误差平方和SSE计算公式为:,其中i表示聚类簇,K为聚类数目,/>表示第i个聚类簇,x为数据点,/>为第i个聚类簇的中心。
7.根据权利要求1所述的基于大数据的城市资源配置和产业特色分析方法,其特征在于:利用线性回归分析来建立城市产业特色与资源配置之间的数学模型,其中产业特色作为因变量,资源配置作为自变量;利用降维后的特征数据进行线性回归分析,拟合线性回归模型,并得出各资源配置对产业特色的影响程度,以及整体模型的拟合优度。
8.根据权利要求1所述的基于大数据的城市资源配置和产业特色分析方法,其特征在于:步骤S05中,通过地理信息系统导入降维后的特征数据,根据线性回归分析的结果,将回归系数对应到导入地理信息系统的空间数据中;在地理信息系统中创建符号化图层或热力图层,将线性回归结果以图形方式展示出来;根据回归系数的正负来设定颜色深浅,量化资源因素对产业发展的贡献度,评估不同资源配置对产业特色的影响程度。
9.基于大数据的城市资源配置和产业特色分析系统,其特征在于:所述系统应用如权利要求1至8任意一项所述的基于大数据的城市资源配置和产业特色分析方法,包括数据采集模块、数据预处理模块、数据挖掘模块、数据分析模块、可视化模块;所述数据采集模块,用于收集城市企业、人口、地理环境、自然资源的数据,构建数据集;所述数据预处理模块,用于对数据集进行预处理并降维提取特征数据;所述数据挖掘模块,用于对特征数据进行挖掘,找出城市的产业特色和发展趋势,得出城市资源配置的特点和规律;所述数据分析模块,用于分析城市资源配置和产业特色之间的内在关系;所述可视化模块,用于将分析结果进行可视化呈现。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410350935.6A CN117952658B (zh) | 2024-03-26 | 2024-03-26 | 基于大数据的城市资源配置和产业特色分析方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410350935.6A CN117952658B (zh) | 2024-03-26 | 2024-03-26 | 基于大数据的城市资源配置和产业特色分析方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117952658A true CN117952658A (zh) | 2024-04-30 |
CN117952658B CN117952658B (zh) | 2024-06-14 |
Family
ID=90803431
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410350935.6A Active CN117952658B (zh) | 2024-03-26 | 2024-03-26 | 基于大数据的城市资源配置和产业特色分析方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117952658B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104123451A (zh) * | 2014-07-16 | 2014-10-29 | 河海大学常州校区 | 基于偏最小二乘回归的疏浚作业产量预测模型建立方法 |
CN108416524A (zh) * | 2018-03-13 | 2018-08-17 | 泰华智慧产业集团股份有限公司 | 基于一张图通用框架的产业规划精细化解读方法 |
CN108491991A (zh) * | 2018-01-30 | 2018-09-04 | 西安电子科技大学 | 基于工业大数据产品工期的约束条件分析系统与方法 |
CN109685635A (zh) * | 2018-09-11 | 2019-04-26 | 深圳平安财富宝投资咨询有限公司 | 金融业务的风险评估方法、风控服务端及存储介质 |
CN110175557A (zh) * | 2019-05-24 | 2019-08-27 | 北京交通大学 | 基于驾驶特征群的驾驶员驾驶行为识别分类方法及系统 |
CN110390478A (zh) * | 2019-07-17 | 2019-10-29 | 江苏云脑数据科技有限公司 | 基于物联网的金融贷后监管系统与监管方法 |
CN110390077A (zh) * | 2018-11-30 | 2019-10-29 | 上海德拓信息技术股份有限公司 | 一种用于识别商品价格异常风险的方法 |
CN110472882A (zh) * | 2019-08-21 | 2019-11-19 | 河南大学 | 基于主成分分析的城市开发用地适宜性评价方法 |
CN111339167A (zh) * | 2020-03-02 | 2020-06-26 | 国网江苏省电力有限公司扬州供电分公司 | 基于K-means和主成分线性回归的台区线损率影响因素分析方法 |
CN113032898A (zh) * | 2021-03-10 | 2021-06-25 | 中国重汽集团济南动力有限公司 | 一种半挂牵引车工况的构建方法 |
CN113393169A (zh) * | 2021-07-13 | 2021-09-14 | 大商所飞泰测试技术有限公司 | 基于大数据技术的金融行业交易系统性能指标分析方法 |
CN113657966A (zh) * | 2021-08-20 | 2021-11-16 | 中国建设银行股份有限公司 | 订单数据分析方法及装置 |
CN117314006A (zh) * | 2023-10-09 | 2023-12-29 | 海南经贸职业技术学院 | 一种智能化数据分析方法及系统 |
CN117473305A (zh) * | 2023-12-27 | 2024-01-30 | 西南石油大学 | 一种近邻信息增强的储层参数预测方法及系统 |
-
2024
- 2024-03-26 CN CN202410350935.6A patent/CN117952658B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104123451A (zh) * | 2014-07-16 | 2014-10-29 | 河海大学常州校区 | 基于偏最小二乘回归的疏浚作业产量预测模型建立方法 |
CN108491991A (zh) * | 2018-01-30 | 2018-09-04 | 西安电子科技大学 | 基于工业大数据产品工期的约束条件分析系统与方法 |
CN108416524A (zh) * | 2018-03-13 | 2018-08-17 | 泰华智慧产业集团股份有限公司 | 基于一张图通用框架的产业规划精细化解读方法 |
CN109685635A (zh) * | 2018-09-11 | 2019-04-26 | 深圳平安财富宝投资咨询有限公司 | 金融业务的风险评估方法、风控服务端及存储介质 |
CN110390077A (zh) * | 2018-11-30 | 2019-10-29 | 上海德拓信息技术股份有限公司 | 一种用于识别商品价格异常风险的方法 |
CN110175557A (zh) * | 2019-05-24 | 2019-08-27 | 北京交通大学 | 基于驾驶特征群的驾驶员驾驶行为识别分类方法及系统 |
CN110390478A (zh) * | 2019-07-17 | 2019-10-29 | 江苏云脑数据科技有限公司 | 基于物联网的金融贷后监管系统与监管方法 |
CN110472882A (zh) * | 2019-08-21 | 2019-11-19 | 河南大学 | 基于主成分分析的城市开发用地适宜性评价方法 |
CN111339167A (zh) * | 2020-03-02 | 2020-06-26 | 国网江苏省电力有限公司扬州供电分公司 | 基于K-means和主成分线性回归的台区线损率影响因素分析方法 |
CN113032898A (zh) * | 2021-03-10 | 2021-06-25 | 中国重汽集团济南动力有限公司 | 一种半挂牵引车工况的构建方法 |
CN113393169A (zh) * | 2021-07-13 | 2021-09-14 | 大商所飞泰测试技术有限公司 | 基于大数据技术的金融行业交易系统性能指标分析方法 |
CN113657966A (zh) * | 2021-08-20 | 2021-11-16 | 中国建设银行股份有限公司 | 订单数据分析方法及装置 |
CN117314006A (zh) * | 2023-10-09 | 2023-12-29 | 海南经贸职业技术学院 | 一种智能化数据分析方法及系统 |
CN117473305A (zh) * | 2023-12-27 | 2024-01-30 | 西南石油大学 | 一种近邻信息增强的储层参数预测方法及系统 |
Non-Patent Citations (1)
Title |
---|
张凤超等: ""产业集聚、城市人口规模与区域经济协调发展"", 《华南师范大学学报》, no. 2, 31 March 2021 (2021-03-31), pages 157 * |
Also Published As
Publication number | Publication date |
---|---|
CN117952658B (zh) | 2024-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107633265B (zh) | 用于优化信用评估模型的数据处理方法及装置 | |
CN108595414B (zh) | 基于源汇空间变量推理的土壤重金属企业污染源识别方法 | |
CN105069470A (zh) | 分类模型训练方法及装置 | |
CN104636449A (zh) | 基于lsa-gcc的分布式大数据系统风险识别方法 | |
CN109635010B (zh) | 一种用户特征及特征因子抽取、查询方法和系统 | |
CN111160473A (zh) | 一种分类标签的特征挖掘方法及装置 | |
CN112735097A (zh) | 一种区域滑坡预警方法及系统 | |
Hayden et al. | Statistical methods to develop rating models | |
CN111292008A (zh) | 一种基于知识图谱的隐私保护数据发布风险评估方法 | |
CN111080356A (zh) | 一种利用机器学习回归模型计算住宅价格影响因素的方法 | |
CN111797188B (zh) | 一种基于开源地理空间矢量数据的城市功能区定量识别方法 | |
CN114399367A (zh) | 保险产品推荐方法、装置、设备及存储介质 | |
CN113591947A (zh) | 基于用电行为的电力数据聚类方法、装置和存储介质 | |
CN117952658B (zh) | 基于大数据的城市资源配置和产业特色分析方法及系统 | |
CN112506907A (zh) | 基于大数据的工程机械营销策略推送方法、系统及装置 | |
CN112506930B (zh) | 一种基于机器学习技术的数据洞察系统 | |
CN115293641A (zh) | 一种基于金融大数据的企业风险智能识别方法 | |
CN115392351A (zh) | 风险用户识别方法、装置、电子设备及存储介质 | |
Bolaños-Martinez et al. | Clustering study of vehicle behaviors using license plate recognition | |
CN110097126B (zh) | 基于dbscan聚类算法的核查重点人员、房屋漏登记的方法 | |
CN114281994B (zh) | 一种基于三层加权模型的文本聚类集成方法及系统 | |
CN117114105B (zh) | 基于科研大数据信息的目标对象推荐方法和系统 | |
CN117131756B (zh) | 一种基于地表时序形变和孕灾背景的地裂缝易发性评价方法 | |
CN115018258B (zh) | 一种目标地区企业类型及产业链空间识别方法 | |
Suryani et al. | Prediction Of Election Participant With Malang City Demographic Data Using The K-Nn Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |