CN113240209A - 一种基于图神经网络的城市产业集群发展路径预测方法 - Google Patents
一种基于图神经网络的城市产业集群发展路径预测方法 Download PDFInfo
- Publication number
- CN113240209A CN113240209A CN202110720084.6A CN202110720084A CN113240209A CN 113240209 A CN113240209 A CN 113240209A CN 202110720084 A CN202110720084 A CN 202110720084A CN 113240209 A CN113240209 A CN 113240209A
- Authority
- CN
- China
- Prior art keywords
- industry
- network
- cluster
- neural network
- enterprise
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000011161 development Methods 0.000 title claims abstract description 40
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 18
- 238000004519 manufacturing process Methods 0.000 claims abstract description 10
- 238000003062 neural network model Methods 0.000 claims abstract description 10
- 238000003012 network analysis Methods 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 35
- 230000002776 aggregation Effects 0.000 claims description 22
- 238000004220 aggregation Methods 0.000 claims description 22
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 238000012360 testing method Methods 0.000 claims description 15
- 239000006185 dispersion Substances 0.000 claims description 9
- 238000012795 verification Methods 0.000 claims description 9
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000012098 association analyses Methods 0.000 claims description 4
- 238000007621 cluster analysis Methods 0.000 claims description 4
- 238000002360 preparation method Methods 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000018109 developmental process Effects 0.000 description 24
- 230000006870 function Effects 0.000 description 17
- 230000009467 reduction Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 230000004069 differentiation Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- 102100029469 WD repeat and HMG-box DNA-binding protein 1 Human genes 0.000 description 1
- 101710097421 WD repeat and HMG-box DNA-binding protein 1 Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015271 coagulation Effects 0.000 description 1
- 238000005345 coagulation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000006116 polymerization reaction Methods 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000007115 recruitment Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06313—Resource planning in a project environment
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- Software Systems (AREA)
- Development Economics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biodiversity & Conservation Biology (AREA)
- Educational Administration (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于图神经网络的城市产业集群发展路径预测方法,包括产业集群历史发展数据库构建,利用Scholl集聚指数进行分行业分区域的集聚指数测度,产业集聚区与集群识别,基于会话将集群内产业的引入序列构建复杂网络,复杂网络的节点为不同的产业,其引入顺序构成有向的会话关系,从而生成产业发展路径网络;而集群内的网络和集群之间的网络共同构成了整体的复杂网络;对整体网络使用社会网络分析方法分析,并采用神经网络模型对产业发展路径进行预测。本发明可为城市或产业园区进行产业招商、产业规划时的产业选择提供决策依据,为规划工作者和园区管理者在制定产业发展策略时提供更加强有力的数据支撑和方向研判。
Description
技术领域
本发明涉及一种基于图神经网络的城市产业集群发展路径预测方法,属于城市产业规划技术领域。
背景技术
目前城市产业集群及产业规划在理论方法层面,以“点-轴”、区位论和增长极等理论为产业布局的传统理论基础,而随着信息时代的到来,空间区域的影响降低,流动空间成为城市区域之间的新空间形态,传统产业理论的作用逐渐减弱,亟需一种适应新的地方化和信息化的产业规划理论和模式产生。
目前园区的产业及产业布局决策方式仍存在经验主义的掣肘,大量的规划方案趋同,并没有形成科学合理、有数据支撑、可实践的规划方法,从而导致许多产业园区发展并不理想。
发明内容
发明目的:针对目前城市或园区产业规划的实践技术缺失,本发明提供一种基于图神经网络的城市产业集群发展路径预测方法,以海量城市和园区产业招商及产业发展情况作为学习数据,从集聚与联系这两个产业集群成长的核心要素出发,基于海量专利数据、企业位置数据、企业统计数据、海关进出口数据等,利用图神经网络(GNN)等人工智能技术建立城市或园区产业规划推荐和发展模型,实现Al辅助产业决策以期为城市产业规划方案提供科学合理的评价和决策方式。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于图神经网络的城市产业集群发展路径预测方法,包括以下步骤:
步骤1,产业集群历史发展数据库构建
步骤11,获取企业原始数据,企业原始数据包括企业基本信息、企业经营成果信息。企业基本信息包括企业身份、地址、经营范围、经营状态。企业经营成果信息包括资金流量、生产总值和盈亏数额。
步骤12,对企业原始数据进行清洗和筛选,保留对网络分析和训练模型有关键作用的企业身份、地址、经营范围和产值利润。
步骤13,利用地图API接口(应用程序接口)地址转坐标,获取所有企业的具体坐标信息,得到企业空间分布情况。
步骤14,根据企业的经营范围信息,利用朴素贝叶斯算法对企业进行所属行业分类,得到企业所属行业信息。
步骤15,按企业的入驻时间进行排序,最后得到构建产业关联网络和训练推荐模型的数据。
步骤2,集群分析与集群识别
步骤21,分行业区域集聚指数测度:利用Scholl集聚指数进行分行业分区域的集聚指数测度。
步骤22,产业集聚区与集群识别
步骤221,当企业距离小于等于预设阈值时,直接使用直接距离法确定最终集群。
步骤222,当企业距离大于预设阈值时,先使用网格法,再使用直接距离法确定最终集群。
步骤3,产业关联分析
步骤31,产业关联网络建模
基于会话将集群内产业的引入序列构建复杂网络,复杂网络的节点为不同的产业,其引入顺序构成有向的会话关系,从而生成产业发展路径网络。而集群内的网络和集群之间的网络共同构成了整体的复杂网络。
步骤32,网络与重要节点分析
对整体网络使用社会网络分析方法分析,使用DeepWalk(深度游走)与t-SNE方法(学生t分布的随机邻点嵌入法)对网络中的产业节点进行聚类,得到会话推荐表数据。
步骤4,产业发展路径预测
步骤41,数据准备
对绘画推荐表数据进行数据预处理得到训练集、验证集、测试集。
步骤42,模型训练
模型训练阶段通过训练集对神经网络模型的进行训练,训练时通过多轮训练过程中反馈loss值函数(损失值函数)来调整模型参数,从而训练出拟合度最优的神经网络模型,并避免过拟合。
步骤43,模型验证与测试
采用验证集对训练出的拟合度最优的神经网络模型进行验证。通过训练出的拟合度最优的神经网络模型对测试集进行测试。
优选的:步骤211中设距离门槛值为200m,小于门槛值的距离均按200m计算。
优选的:步骤221中直接使用直接距离法确定最终集群的方法:对于待测的p个点,循环计算每个点至其他点的距离,在距离阈值内的点记录集群,并标记。计算至有标记点时跳过,直至完成循环。再根据邻接状态与行政区划判定最终集群。
优选的:步骤222中先使用网格法,再使用直接距离法确定最终集群的方法。在待测区域中划出网格,网格距离由待测区域大小决定。首先根据阈值计算待测网格的密度是否符合要求,再将符合要求的矩形网格通过直接距离法进一步聚合为集聚区。最后根据邻接状态与行政区划判定最终集群。
优选的:步骤21中利用Scholl集聚指数进行分行业分区域的集聚指数测度的方法:
步骤211,首先计算各样本组企业间的平均距离Di:
式中:J为样本组的企业数量,dij为企业间的距离。
步骤212,将包括n个企业平均距离Di的数组导入核函数,计算这一数组的概率密度函数曲线:
式中:gi(D)为概率密度函数。D为自变量。f()为高斯核函数。h为最优带宽,使用Silverman法计算各样本组的最优带宽,如下式:
式中:σ为样本组的标准差。
步骤213,通过集聚概率与分散概率的差值计算“净集聚概率”:
其中,θ表示净集聚概率,gb(D)为全部服务业企业的分布概率密度函数。m为gb(D)最大值对应的Di值,小于该值为分散区间,大于该值为聚集区间。集聚概率和分散概率即为概率密度曲线上通过定积分计算得到的gi(D)高于gb(D)的面积。
优选的:步骤41中数据预处理包括时间戳转换、去单要素session(会话),转换为二进制。
优选的:步骤41中处预理后的数据按照6∶2∶2的比例划分为训练集、验证集、测试集。
本发明相比现有技术,具有以下有益效果:
本发明利用图神经网络(GNN)等算法建立城市或园区产业规划推荐和发展模型。该模型提出了:①精确化、规范化、可复用的区域产业集聚程度评判方法。②从区域产业发展路径入手的产业发展网络系统分析方法。③可挖掘产业隐含联系和数据支撑下的前景产业推荐方法。④为解决“引入什么产业”的问题提出了新的思路、方案与数据支撑。
本发明可为城市或产业园区进行产业招商、产业规划时提供一定的数据指导,规划工作者和决策者在制定产业发展策略时将更加具有经验数据支撑和明确的方向。
附图说明
图1为产业网络拓扑示意图。
图2为江苏省产业集群识别结果。
图3为江苏省发展路径产业网络。
图4为t-SNE降维结果。
图5为神经网络推荐模型训练指标。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于图神经网络的城市产业集群发展路径预测方法,包括以下步骤:
1.产业集群历史发展数据库构建:
研究所用的原始数据来自于购买的中国工业企业数据库、工商企业注册数据,自有记录注企业始至2013年的全部规上企业,包括企业基本信息如企业身份、生产内容、具体地址、经营状态等。企业经营成果信息如资金流量、生产总值和盈亏数额等数据。①通过编写程序对海量原始数据进行清洗和筛选,保留对网络分析和训练模型有关键作用的企业身份信息、地址、产品经营范围和产值利润等字段。②编写程序,利用地图API接口地址转坐标,获取所有企业的具体坐标信息,得到企业空间分布情况,以便于识别产业集群、测度产业集聚程度。③编写程序,根据企业的产品和经营范围信息,利用朴素贝叶斯算法对企业进行所属行业分类,得到企业所属行业信息。朴素贝叶斯算法基于贝叶斯定理,是机器学习领域的一种统计学习方法,有计算快速、不需要迭代、适用性广等特点。根据企业的名称及经营范围信息,对其所处行业进行分类。主要方法是分别计算分词后的公司名称训练集、经营范围训练集TF-IDF值并构建关键词矩阵。将待分类公司的公司名称与经营范围分词在矩阵中进行比较,输出候选行业名称及其概率值。最后基于各候选行业概率,综合确定公司所属行业。④对上述企业的入驻时间进行排序,最后得到构建产业关联网络和训练推荐模型的数据,如表1所示数据类型包括行业类型(item_id)、所在地址(user_id)和企业成立时间(eventdate)以及会话(session_id)。
2.集群分析与集群识别:
2.1分行业区域集聚指数测度
为分析不同产业的集聚程度区别和研究区域的集聚特征、以及为后续集群识别提供数据支持,首先利用Scholl集聚指数进行分行业分区域的集聚指数测度。在本部分中选用的数据为微观点状数据,主要为企业工商注册数据、POI兴趣点数据。Scholl指数使用双曲线反距离权重函数,分组导入核函数,具体计算过程如下:①首先计算各样本组企业间的平均距离Di:
式中:J为样本组的企业数量,dij为企业间的距离(m)。由于使用了双曲线的反距离权重函数,在距离过小的情况下Di值会过大,因此设距离门槛值为200m,小于门槛值的距离均按200m计算。
②将包括n个企业Di值的数组导入核函数,计算这一数组的概率密度函数曲线。
式中:gi(D)为概率密度函数。D为自变量。f()为高斯核函数。h为最优带宽,使用Silverman法计算各样本组的最佳带宽,如下式:
式中:σ为样本组的标准差。
③通过集聚概率与分散概率的差值计算“净集聚概率”,集聚概率和分散概率即为概率密度曲线上通过定积分计算得到的gi(D)高于gb(D)的面积。
式中:gb(D)为全部服务业企业的分布概率密度函数,为服务业的参照分布水平。m为gb(D)最大值对应的Di值,小于该值为分散区间,大于该值为聚集区间。集聚概率和分散概率即为概率密度曲线上通过定积分计算得到的gi(D)高于gb(D)的面积。
2.2产业集聚区与集群试别
本发明使用的点聚合算法包括直接距离法与网格法与直接距离法结合两种方法。
研究区域较小时,直接使用直接距离法。对于待测的n个点,循环计算每个点至其他点的距离,在距离阈值内的点记录集群,并标记。计算至有标记点时跳过,直至完成循环。对此步得出的集群,再根据邻接状态与行政区划判定最终集群。
当研究距离较大时,先使用网格法,再使用直接距离法。在待测区域中划出网格,网格距离由待测区域大小决定。首先根据阈值计算待测网格的密度是否符合要求,再将符合要求的小矩形网格通过直接距离法进一步聚合为集聚区。最后根据邻接状态与行政区划判定最终集群。
3.产业关联分析
3.1产业关联网络建模
基于会话将集群内产业的引入序列构建复杂网络,网络拓扑示意如图1所示,对其进行网络模式分析以发现产业发展“隐含关系”的规律,并通过该网络进行后续的模型训练。在前文提到,本研究中复杂网络的节点为不同的产业,其引入顺序构成有向的会话关系,从而生成产业发展路径网络。而集群内的网络和集群之间的网络共同构成了整体的复杂网络。通过编写程序,对表1的数据进行进一步处理,使会话表格转换为边表格,如表2所示。
表1训练数据集的数据类型表
表2边表格示意
3.2网络与重要节点分析
本研究中对整体网络分析主要使用社会网络分析(SNA)方法。为发现重要的产业节点,除了使用常规的度分析外,还使用了DeepWalk与t-SNE算法对网络中的产业节点进行聚类。常规的社会网络分析方法凝聚子群是社群识别算法,仅考虑网络中的亲近疏远关系。而DeepWalk是聚类算法,关注的是节点有哪些特征可以与其他节点区别开,从而聚为一类。图数据与文本、图像等不同,结构多变。Embedding嵌入将节点映射成固定维度的特征向量,以便后续的机器学习算法使用。DeepWalk算法利用图结构中的随机游走的序列的信息,用于学习图中顶点的潜在表。t-SNE是一种非线性的降维方法,降维的目的是在低维图中尽可能保留高维数据的重要结构,非线性降维算法通常更重视保持相似性,使低维空间中的相似的点之间的距离较小,适用于将高维数据降维到2维或者3维,便于进行可视化。
4.产业发展路径预测
4.1数据准备
数据准备阶段使用上一子模块建立网络模型时所生成的session表数据。数据预处理过程主要使用SR-GNN模型配套提供的数据预处理工具,主要工作包括时间戳转换、去单要素session,转换为二进制等。处理后的数据按照6∶2∶2的比例划分为训练集、验证集、测试集。
4.2模型训练
模型训练阶段同一班神经网络模型的训练过程,通过多轮训练过程中反馈loss值函数来调整模型参数,从而训练出拟合度最优的模型,并避免过拟合。在百度研发的开源深度学习框架PaddlePaddle(飞桨)上构建神经网络。PaddlePaddle的算法实现较容易,支持也较丰富,对于SR-GNN网络的实现也较容易。训练平台为GTX960,CUDA10.0。综合考虑模型表现与耗费时间,模型训练所需要的超参数调为:epoch=20,batch_size=100,l2=1e-5,hidden_size=100,lr=0.001。其他超参数为模型默认值。
4.3模型验证
在总数据库中选择20%作为测试集。收敛后的epoch的测试结果为:Recall@20∶0.4550。作为对比,SR-GNN论文中给出的Diginetica数据集的recall@20为0.7070,Yoochoose1/64数据集的recall@20是0.5127。
实例
1.产业集群历史发展数据库构建
从企业数据库中提取南京市和江苏省的企业数据,并按照步骤进行数据清洗。
2.集群分析与集群识别:
2.1分行业区域集聚指数测度
本实践案例将Scholl集聚指数测度方法应用于南京新街口CBD服务业集聚特征演变的研究之中。将南京市不同产业门类的数据代入Scholl指数的测算公式中,得到南京市新街口CBD的产业集聚可视化结果(如表3所示)。
表3新街口CBD各服务业行业集聚指数变动(2000-2018)
2.2产业集聚区与集群试别
“江苏省产业集群与重点产业识别研判”实践案例综合应用了步骤2、3、4中提到的各类方法。首先进行了产业集群的识别。在中国工业企业数据库(1997-2013)中筛选江苏省工业企业数据,经过数据清洗,合并历年追踪重复数据,地址转坐标等预处理步骤后得到原始数据。由于研究区尺度较大,使用网格法与直接距离法相结合的方法对产业集群进行识别。由于苏南苏中苏北发展水平不均,对集群的认定标准也有不同,具体的搜索距离由各地集聚指数曲线图分别设定,集群连绵区根据行政区划切分。结果如图2所示。
3.产业关联分析
在识别出产业集群之后,将各个集群的产业发展路径按照步骤3中提到的方法连接组合成产业网络,使用Gephi将构建的产业网络可视化,进行凝聚子群、出度分析,结果如图3所示。最后使用DeepWalk与t-SNE算法对江苏省的产业节点进行embedding及聚类过程,结果如图4所示,色带标注代表依据Scholl集聚算法计算得到的江苏省产业的不同集聚程度,1为最集聚,-1为最分散。t-SNE降维后的结果显示,江苏省整体层面不存在在网络中具有特殊连接地位的主导型行业,且产业的集聚程度与产业的网络地位不存在相关关系。这反映出江苏省全省范围内不具有节点地位较为特殊的关键节点,且行业的集聚效益有待加强。
4.产业发展路径预测
案例训练模型使用江苏省工业企业数据库与工商企业数据库制造业企业信息。适当调整参数,训练20轮。训练结果如图5所示,loss与acc指标均收敛,召回率Recall@20为0.4550,表明此模型具有一定的适用性。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (7)
1.一种基于图神经网络的城市产业集群发展路径预测方法,其特征在于,包括以下步骤:
步骤1,产业集群历史发展数据库构建
步骤11,获取企业原始数据,企业原始数据包括企业基本信息、企业经营成果信息;企业基本信息包括企业身份、地址、经营范围、经营状态;企业经营成果信息包括资金流量、生产总值和盈亏数额;
步骤12,对企业原始数据进行清洗和筛选,保留对网络分析和训练模型有关键作用的企业身份、地址、经营范围和产值利润;
步骤13,利用地图API接口地址转坐标,获取所有企业的具体坐标信息,得到企业空间分布情况;
步骤14,根据企业的经营范围信息,利用朴素贝叶斯算法对企业进行所属行业分类,得到企业所属行业信息;
步骤15,按企业的入驻时间进行排序,最后得到构建产业关联网络和训练推荐模型的数据;
步骤2,集群分析与集群识别
步骤21,分行业区域集聚指数测度:利用Scholl集聚指数进行分行业分区域的集聚指数测度;
步骤22,产业集聚区与集群识别
步骤221,当企业距离小于等于预设阈值时,直接使用直接距离法确定最终集群;
步骤222,当企业距离大于预设阈值时,先使用网格法,再使用直接距离法确定最终集群;
步骤3,产业关联分析
步骤31,产业关联网络建模
基于会话将集群内产业的引入序列构建复杂网络,复杂网络的节点为不同的产业,其引入顺序构成有向的会话关系,从而生成产业发展路径网络;而集群内的网络和集群之间的网络共同构成了整体的复杂网络;
步骤32,网络与重要节点分析
对整体网络使用社会网络分析方法分析,使用DeepWalk与t-SNE方法对网络中的产业节点进行聚类,得到会话推荐表数据;
步骤4,产业发展路径预测
步骤41,数据准备
对会话推荐表数据进行数据预处理得到训练集、验证集、测试集;
步骤42,模型训练
模型训练阶段通过训练集对神经网络模型的进行训练,训练时通过多轮训练过程中反馈loss值函数来调整模型参数,从而训练出拟合度最优的神经网络模型,并避免过拟合;
步骤43,模型验证与测试
采用验证集对训练出的拟合度最优的神经网络模型进行验证;通过训练出的拟合度最优的神经网络模型对测试集进行测试。
2.根据权利要求1所述基于图神经网络的城市产业集群发展路径预测方法,其特征在于:步骤211中设距离门槛值为200m,小于门槛值的距离均按200m计算。
3.根据权利要求2所述基于图神经网络的城市产业集群发展路径预测方法,其特征在于:步骤221中直接使用直接距离法确定最终集群的方法:对于待测的p个点,循环计算每个点至其他点的距离,在距离阈值内的点记录集群,并标记;计算至有标记点时跳过,直至完成循环;再根据邻接状态与行政区划判定最终集群。
4.根据权利要求3所述基于图神经网络的城市产业集群发展路径预测方法,其特征在于:步骤222中先使用网格法,再使用直接距离法确定最终集群的方法;在待测区域中划出网格,网格距离由待测区域大小决定;首先根据阈值计算待测网格的密度是否符合要求,再将符合要求的矩形网格通过直接距离法进一步聚合为集聚区;最后根据邻接状态与行政区划判定最终集群。
5.根据权利要求4所述基于图神经网络的城市产业集群发展路径预测方法,其特征在于:步骤21中利用Scholl集聚指数进行分行业分区域的集聚指数测度的方法:
步骤211,首先计算各样本组企业间的平均距离Di:
式中:J为样本组的企业数量,dij为企业间的距离;
步骤212,将包括n个企业平均距离Di的数组导入核函数,计算这一数组的概率密度函数曲线:
式中:gi(D)为概率密度函数;D为自变量;f()为高斯核函数;h为最优带宽,使用Silverman法计算各样本组的最优带宽,如下式:
式中:σ为样本组的标准差;
步骤213,通过集聚概率与分散概率的差值计算“净集聚概率”:
其中,θ表示净集聚概率,gb(D)为全部服务业企业的分布概率密度函数;m为gb(D)最大值对应的Di值,小于该值为分散区间,大于该值为聚集区间。
6.根据权利要求5所述基于图神经网络的城市产业集群发展路径预测方法,其特征在于:步骤41中数据预处理包括时间戳转换、去单要素session,转换为二进制。
7.根据权利要求6所述基于图神经网络的城市产业集群发展路径预测方法,其特征在于:步骤41中处预理后的数据按照6∶2∶2的比例划分为训练集、验证集、测试集。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110720084.6A CN113240209A (zh) | 2021-06-28 | 2021-06-28 | 一种基于图神经网络的城市产业集群发展路径预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110720084.6A CN113240209A (zh) | 2021-06-28 | 2021-06-28 | 一种基于图神经网络的城市产业集群发展路径预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113240209A true CN113240209A (zh) | 2021-08-10 |
Family
ID=77141011
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110720084.6A Pending CN113240209A (zh) | 2021-06-28 | 2021-06-28 | 一种基于图神经网络的城市产业集群发展路径预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113240209A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114493346A (zh) * | 2022-02-16 | 2022-05-13 | 重庆大学 | 一种乡村产业集聚化布局方法、系统、装置及存储介质 |
CN116452014A (zh) * | 2023-03-21 | 2023-07-18 | 深圳市蕾奥规划设计咨询股份有限公司 | 应用于城市规划的企业集群确定方法、装置及电子设备 |
-
2021
- 2021-06-28 CN CN202110720084.6A patent/CN113240209A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114493346A (zh) * | 2022-02-16 | 2022-05-13 | 重庆大学 | 一种乡村产业集聚化布局方法、系统、装置及存储介质 |
CN116452014A (zh) * | 2023-03-21 | 2023-07-18 | 深圳市蕾奥规划设计咨询股份有限公司 | 应用于城市规划的企业集群确定方法、装置及电子设备 |
CN116452014B (zh) * | 2023-03-21 | 2024-02-27 | 深圳市蕾奥规划设计咨询股份有限公司 | 应用于城市规划的企业集群确定方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ma et al. | Analyzing driving factors of land values in urban scale based on big data and non-linear machine learning techniques | |
Straka et al. | Predicting popularity of electric vehicle charging infrastructure in urban context | |
CN112232909A (zh) | 一种基于企业画像的商机挖掘方法 | |
CN107330734B (zh) | 基于Co-location模式和本体的商业地址选择方法 | |
Ibanez et al. | Cluster methods for assessing research performance: exploring Spanish computer science | |
CN104573130A (zh) | 基于群体计算的实体解析方法及装置 | |
CN113240209A (zh) | 一种基于图神经网络的城市产业集群发展路径预测方法 | |
CN108898244A (zh) | 一种耦合多源要素的数字标牌位置推荐方法 | |
Liu et al. | Enhancing input parameter estimation by machine learning for the simulation of large-scale logistics networks | |
CN109919227A (zh) | 一种面向混合属性数据集的密度峰值聚类方法 | |
Ozyirmidokuz et al. | A data mining based approach to a firm's marketing channel | |
Gunawan et al. | Information Systems Students' Study Performance Prediction Using Data Mining Approach | |
Dahal | Effect of different distance measures in result of cluster analysis | |
Saini et al. | Customer Segmentation using K-Means Clustering | |
CN108647189B (zh) | 一种识别用户人群属性的方法及装置 | |
CN116307761A (zh) | 基于云平台的招商数据管理系统 | |
Fuchs et al. | Clustering: Hierarchical, k-Means, DBSCAN | |
CN112506930B (zh) | 一种基于机器学习技术的数据洞察系统 | |
Condrobimo et al. | Data mining technique with cluster anaysis use K-means algorithm for LQ45 index on Indonesia stock exchange | |
Fan et al. | Spatially enabled customer segmentation using a data classification method with uncertain predicates | |
Nadinta et al. | A clustering-based approach for reorganizing bus route on bus rapid transit system | |
Bochkaryov et al. | Application of the ensemble clustering algorithm in solving the problem of segmentation of users taking into account their loyalty | |
CN112650949A (zh) | 基于多源特征融合协同过滤的区域poi需求识别方法 | |
Yang et al. | Application Research of K-means Algorithm based on Big Data Background | |
Du et al. | Mining multicity urban data for sustainable population relocation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |