CN113240209A - 一种基于图神经网络的城市产业集群发展路径预测方法 - Google Patents

一种基于图神经网络的城市产业集群发展路径预测方法 Download PDF

Info

Publication number
CN113240209A
CN113240209A CN202110720084.6A CN202110720084A CN113240209A CN 113240209 A CN113240209 A CN 113240209A CN 202110720084 A CN202110720084 A CN 202110720084A CN 113240209 A CN113240209 A CN 113240209A
Authority
CN
China
Prior art keywords
industry
network
cluster
neural network
enterprise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110720084.6A
Other languages
English (en)
Inventor
沈丽珍
崔喆
刘梦雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202110720084.6A priority Critical patent/CN113240209A/zh
Publication of CN113240209A publication Critical patent/CN113240209A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06313Resource planning in a project environment

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Game Theory and Decision Science (AREA)
  • Software Systems (AREA)
  • Development Economics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Educational Administration (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于图神经网络的城市产业集群发展路径预测方法,包括产业集群历史发展数据库构建,利用Scholl集聚指数进行分行业分区域的集聚指数测度,产业集聚区与集群识别,基于会话将集群内产业的引入序列构建复杂网络,复杂网络的节点为不同的产业,其引入顺序构成有向的会话关系,从而生成产业发展路径网络;而集群内的网络和集群之间的网络共同构成了整体的复杂网络;对整体网络使用社会网络分析方法分析,并采用神经网络模型对产业发展路径进行预测。本发明可为城市或产业园区进行产业招商、产业规划时的产业选择提供决策依据,为规划工作者和园区管理者在制定产业发展策略时提供更加强有力的数据支撑和方向研判。

Description

一种基于图神经网络的城市产业集群发展路径预测方法
技术领域
本发明涉及一种基于图神经网络的城市产业集群发展路径预测方法,属于城市产业规划技术领域。
背景技术
目前城市产业集群及产业规划在理论方法层面,以“点-轴”、区位论和增长极等理论为产业布局的传统理论基础,而随着信息时代的到来,空间区域的影响降低,流动空间成为城市区域之间的新空间形态,传统产业理论的作用逐渐减弱,亟需一种适应新的地方化和信息化的产业规划理论和模式产生。
目前园区的产业及产业布局决策方式仍存在经验主义的掣肘,大量的规划方案趋同,并没有形成科学合理、有数据支撑、可实践的规划方法,从而导致许多产业园区发展并不理想。
发明内容
发明目的:针对目前城市或园区产业规划的实践技术缺失,本发明提供一种基于图神经网络的城市产业集群发展路径预测方法,以海量城市和园区产业招商及产业发展情况作为学习数据,从集聚与联系这两个产业集群成长的核心要素出发,基于海量专利数据、企业位置数据、企业统计数据、海关进出口数据等,利用图神经网络(GNN)等人工智能技术建立城市或园区产业规划推荐和发展模型,实现Al辅助产业决策以期为城市产业规划方案提供科学合理的评价和决策方式。
技术方案:为实现上述目的,本发明采用的技术方案为:
一种基于图神经网络的城市产业集群发展路径预测方法,包括以下步骤:
步骤1,产业集群历史发展数据库构建
步骤11,获取企业原始数据,企业原始数据包括企业基本信息、企业经营成果信息。企业基本信息包括企业身份、地址、经营范围、经营状态。企业经营成果信息包括资金流量、生产总值和盈亏数额。
步骤12,对企业原始数据进行清洗和筛选,保留对网络分析和训练模型有关键作用的企业身份、地址、经营范围和产值利润。
步骤13,利用地图API接口(应用程序接口)地址转坐标,获取所有企业的具体坐标信息,得到企业空间分布情况。
步骤14,根据企业的经营范围信息,利用朴素贝叶斯算法对企业进行所属行业分类,得到企业所属行业信息。
步骤15,按企业的入驻时间进行排序,最后得到构建产业关联网络和训练推荐模型的数据。
步骤2,集群分析与集群识别
步骤21,分行业区域集聚指数测度:利用Scholl集聚指数进行分行业分区域的集聚指数测度。
步骤22,产业集聚区与集群识别
步骤221,当企业距离小于等于预设阈值时,直接使用直接距离法确定最终集群。
步骤222,当企业距离大于预设阈值时,先使用网格法,再使用直接距离法确定最终集群。
步骤3,产业关联分析
步骤31,产业关联网络建模
基于会话将集群内产业的引入序列构建复杂网络,复杂网络的节点为不同的产业,其引入顺序构成有向的会话关系,从而生成产业发展路径网络。而集群内的网络和集群之间的网络共同构成了整体的复杂网络。
步骤32,网络与重要节点分析
对整体网络使用社会网络分析方法分析,使用DeepWalk(深度游走)与t-SNE方法(学生t分布的随机邻点嵌入法)对网络中的产业节点进行聚类,得到会话推荐表数据。
步骤4,产业发展路径预测
步骤41,数据准备
对绘画推荐表数据进行数据预处理得到训练集、验证集、测试集。
步骤42,模型训练
模型训练阶段通过训练集对神经网络模型的进行训练,训练时通过多轮训练过程中反馈loss值函数(损失值函数)来调整模型参数,从而训练出拟合度最优的神经网络模型,并避免过拟合。
步骤43,模型验证与测试
采用验证集对训练出的拟合度最优的神经网络模型进行验证。通过训练出的拟合度最优的神经网络模型对测试集进行测试。
优选的:步骤211中设距离门槛值为200m,小于门槛值的距离均按200m计算。
优选的:步骤221中直接使用直接距离法确定最终集群的方法:对于待测的p个点,循环计算每个点至其他点的距离,在距离阈值内的点记录集群,并标记。计算至有标记点时跳过,直至完成循环。再根据邻接状态与行政区划判定最终集群。
优选的:步骤222中先使用网格法,再使用直接距离法确定最终集群的方法。在待测区域中划出网格,网格距离由待测区域大小决定。首先根据阈值计算待测网格的密度是否符合要求,再将符合要求的矩形网格通过直接距离法进一步聚合为集聚区。最后根据邻接状态与行政区划判定最终集群。
优选的:步骤21中利用Scholl集聚指数进行分行业分区域的集聚指数测度的方法:
步骤211,首先计算各样本组企业间的平均距离Di
Figure BDA0003136638290000031
式中:J为样本组的企业数量,dij为企业间的距离。
步骤212,将包括n个企业平均距离Di的数组导入核函数,计算这一数组的概率密度函数曲线:
Figure BDA0003136638290000032
式中:gi(D)为概率密度函数。D为自变量。f()为高斯核函数。h为最优带宽,使用Silverman法计算各样本组的最优带宽,如下式:
Figure BDA0003136638290000033
式中:σ为样本组的标准差。
步骤213,通过集聚概率与分散概率的差值计算“净集聚概率”:
Figure BDA0003136638290000034
其中,θ表示净集聚概率,gb(D)为全部服务业企业的分布概率密度函数。m为gb(D)最大值对应的Di值,小于该值为分散区间,大于该值为聚集区间。集聚概率和分散概率即为概率密度曲线上通过定积分计算得到的gi(D)高于gb(D)的面积。
优选的:步骤41中数据预处理包括时间戳转换、去单要素session(会话),转换为二进制。
优选的:步骤41中处预理后的数据按照6∶2∶2的比例划分为训练集、验证集、测试集。
本发明相比现有技术,具有以下有益效果:
本发明利用图神经网络(GNN)等算法建立城市或园区产业规划推荐和发展模型。该模型提出了:①精确化、规范化、可复用的区域产业集聚程度评判方法。②从区域产业发展路径入手的产业发展网络系统分析方法。③可挖掘产业隐含联系和数据支撑下的前景产业推荐方法。④为解决“引入什么产业”的问题提出了新的思路、方案与数据支撑。
本发明可为城市或产业园区进行产业招商、产业规划时提供一定的数据指导,规划工作者和决策者在制定产业发展策略时将更加具有经验数据支撑和明确的方向。
附图说明
图1为产业网络拓扑示意图。
图2为江苏省产业集群识别结果。
图3为江苏省发展路径产业网络。
图4为t-SNE降维结果。
图5为神经网络推荐模型训练指标。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于图神经网络的城市产业集群发展路径预测方法,包括以下步骤:
1.产业集群历史发展数据库构建:
研究所用的原始数据来自于购买的中国工业企业数据库、工商企业注册数据,自有记录注企业始至2013年的全部规上企业,包括企业基本信息如企业身份、生产内容、具体地址、经营状态等。企业经营成果信息如资金流量、生产总值和盈亏数额等数据。①通过编写程序对海量原始数据进行清洗和筛选,保留对网络分析和训练模型有关键作用的企业身份信息、地址、产品经营范围和产值利润等字段。②编写程序,利用地图API接口地址转坐标,获取所有企业的具体坐标信息,得到企业空间分布情况,以便于识别产业集群、测度产业集聚程度。③编写程序,根据企业的产品和经营范围信息,利用朴素贝叶斯算法对企业进行所属行业分类,得到企业所属行业信息。朴素贝叶斯算法基于贝叶斯定理,是机器学习领域的一种统计学习方法,有计算快速、不需要迭代、适用性广等特点。根据企业的名称及经营范围信息,对其所处行业进行分类。主要方法是分别计算分词后的公司名称训练集、经营范围训练集TF-IDF值并构建关键词矩阵。将待分类公司的公司名称与经营范围分词在矩阵中进行比较,输出候选行业名称及其概率值。最后基于各候选行业概率,综合确定公司所属行业。④对上述企业的入驻时间进行排序,最后得到构建产业关联网络和训练推荐模型的数据,如表1所示数据类型包括行业类型(item_id)、所在地址(user_id)和企业成立时间(eventdate)以及会话(session_id)。
2.集群分析与集群识别:
2.1分行业区域集聚指数测度
为分析不同产业的集聚程度区别和研究区域的集聚特征、以及为后续集群识别提供数据支持,首先利用Scholl集聚指数进行分行业分区域的集聚指数测度。在本部分中选用的数据为微观点状数据,主要为企业工商注册数据、POI兴趣点数据。Scholl指数使用双曲线反距离权重函数,分组导入核函数,具体计算过程如下:①首先计算各样本组企业间的平均距离Di:
Figure BDA0003136638290000051
式中:J为样本组的企业数量,dij为企业间的距离(m)。由于使用了双曲线的反距离权重函数,在距离过小的情况下Di值会过大,因此设距离门槛值为200m,小于门槛值的距离均按200m计算。
②将包括n个企业Di值的数组导入核函数,计算这一数组的概率密度函数曲线。
Figure BDA0003136638290000052
式中:gi(D)为概率密度函数。D为自变量。f()为高斯核函数。h为最优带宽,使用Silverman法计算各样本组的最佳带宽,如下式:
Figure BDA0003136638290000053
式中:σ为样本组的标准差。
③通过集聚概率与分散概率的差值计算“净集聚概率”,集聚概率和分散概率即为概率密度曲线上通过定积分计算得到的gi(D)高于gb(D)的面积。
Figure BDA0003136638290000054
式中:gb(D)为全部服务业企业的分布概率密度函数,为服务业的参照分布水平。m为gb(D)最大值对应的Di值,小于该值为分散区间,大于该值为聚集区间。集聚概率和分散概率即为概率密度曲线上通过定积分计算得到的gi(D)高于gb(D)的面积。
2.2产业集聚区与集群试别
本发明使用的点聚合算法包括直接距离法与网格法与直接距离法结合两种方法。
研究区域较小时,直接使用直接距离法。对于待测的n个点,循环计算每个点至其他点的距离,在距离阈值内的点记录集群,并标记。计算至有标记点时跳过,直至完成循环。对此步得出的集群,再根据邻接状态与行政区划判定最终集群。
当研究距离较大时,先使用网格法,再使用直接距离法。在待测区域中划出网格,网格距离由待测区域大小决定。首先根据阈值计算待测网格的密度是否符合要求,再将符合要求的小矩形网格通过直接距离法进一步聚合为集聚区。最后根据邻接状态与行政区划判定最终集群。
3.产业关联分析
3.1产业关联网络建模
基于会话将集群内产业的引入序列构建复杂网络,网络拓扑示意如图1所示,对其进行网络模式分析以发现产业发展“隐含关系”的规律,并通过该网络进行后续的模型训练。在前文提到,本研究中复杂网络的节点为不同的产业,其引入顺序构成有向的会话关系,从而生成产业发展路径网络。而集群内的网络和集群之间的网络共同构成了整体的复杂网络。通过编写程序,对表1的数据进行进一步处理,使会话表格转换为边表格,如表2所示。
表1训练数据集的数据类型表
Figure BDA0003136638290000061
表2边表格示意
Figure BDA0003136638290000062
Figure BDA0003136638290000071
3.2网络与重要节点分析
本研究中对整体网络分析主要使用社会网络分析(SNA)方法。为发现重要的产业节点,除了使用常规的度分析外,还使用了DeepWalk与t-SNE算法对网络中的产业节点进行聚类。常规的社会网络分析方法凝聚子群是社群识别算法,仅考虑网络中的亲近疏远关系。而DeepWalk是聚类算法,关注的是节点有哪些特征可以与其他节点区别开,从而聚为一类。图数据与文本、图像等不同,结构多变。Embedding嵌入将节点映射成固定维度的特征向量,以便后续的机器学习算法使用。DeepWalk算法利用图结构中的随机游走的序列的信息,用于学习图中顶点的潜在表。t-SNE是一种非线性的降维方法,降维的目的是在低维图中尽可能保留高维数据的重要结构,非线性降维算法通常更重视保持相似性,使低维空间中的相似的点之间的距离较小,适用于将高维数据降维到2维或者3维,便于进行可视化。
4.产业发展路径预测
4.1数据准备
数据准备阶段使用上一子模块建立网络模型时所生成的session表数据。数据预处理过程主要使用SR-GNN模型配套提供的数据预处理工具,主要工作包括时间戳转换、去单要素session,转换为二进制等。处理后的数据按照6∶2∶2的比例划分为训练集、验证集、测试集。
4.2模型训练
模型训练阶段同一班神经网络模型的训练过程,通过多轮训练过程中反馈loss值函数来调整模型参数,从而训练出拟合度最优的模型,并避免过拟合。在百度研发的开源深度学习框架PaddlePaddle(飞桨)上构建神经网络。PaddlePaddle的算法实现较容易,支持也较丰富,对于SR-GNN网络的实现也较容易。训练平台为GTX960,CUDA10.0。综合考虑模型表现与耗费时间,模型训练所需要的超参数调为:epoch=20,batch_size=100,l2=1e-5,hidden_size=100,lr=0.001。其他超参数为模型默认值。
4.3模型验证
在总数据库中选择20%作为测试集。收敛后的epoch的测试结果为:Recall@20∶0.4550。作为对比,SR-GNN论文中给出的Diginetica数据集的recall@20为0.7070,Yoochoose1/64数据集的recall@20是0.5127。
实例
1.产业集群历史发展数据库构建
从企业数据库中提取南京市和江苏省的企业数据,并按照步骤进行数据清洗。
2.集群分析与集群识别:
2.1分行业区域集聚指数测度
本实践案例将Scholl集聚指数测度方法应用于南京新街口CBD服务业集聚特征演变的研究之中。将南京市不同产业门类的数据代入Scholl指数的测算公式中,得到南京市新街口CBD的产业集聚可视化结果(如表3所示)。
表3新街口CBD各服务业行业集聚指数变动(2000-2018)
Figure BDA0003136638290000081
Figure BDA0003136638290000091
2.2产业集聚区与集群试别
“江苏省产业集群与重点产业识别研判”实践案例综合应用了步骤2、3、4中提到的各类方法。首先进行了产业集群的识别。在中国工业企业数据库(1997-2013)中筛选江苏省工业企业数据,经过数据清洗,合并历年追踪重复数据,地址转坐标等预处理步骤后得到原始数据。由于研究区尺度较大,使用网格法与直接距离法相结合的方法对产业集群进行识别。由于苏南苏中苏北发展水平不均,对集群的认定标准也有不同,具体的搜索距离由各地集聚指数曲线图分别设定,集群连绵区根据行政区划切分。结果如图2所示。
3.产业关联分析
在识别出产业集群之后,将各个集群的产业发展路径按照步骤3中提到的方法连接组合成产业网络,使用Gephi将构建的产业网络可视化,进行凝聚子群、出度分析,结果如图3所示。最后使用DeepWalk与t-SNE算法对江苏省的产业节点进行embedding及聚类过程,结果如图4所示,色带标注代表依据Scholl集聚算法计算得到的江苏省产业的不同集聚程度,1为最集聚,-1为最分散。t-SNE降维后的结果显示,江苏省整体层面不存在在网络中具有特殊连接地位的主导型行业,且产业的集聚程度与产业的网络地位不存在相关关系。这反映出江苏省全省范围内不具有节点地位较为特殊的关键节点,且行业的集聚效益有待加强。
4.产业发展路径预测
案例训练模型使用江苏省工业企业数据库与工商企业数据库制造业企业信息。适当调整参数,训练20轮。训练结果如图5所示,loss与acc指标均收敛,召回率Recall@20为0.4550,表明此模型具有一定的适用性。
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种基于图神经网络的城市产业集群发展路径预测方法,其特征在于,包括以下步骤:
步骤1,产业集群历史发展数据库构建
步骤11,获取企业原始数据,企业原始数据包括企业基本信息、企业经营成果信息;企业基本信息包括企业身份、地址、经营范围、经营状态;企业经营成果信息包括资金流量、生产总值和盈亏数额;
步骤12,对企业原始数据进行清洗和筛选,保留对网络分析和训练模型有关键作用的企业身份、地址、经营范围和产值利润;
步骤13,利用地图API接口地址转坐标,获取所有企业的具体坐标信息,得到企业空间分布情况;
步骤14,根据企业的经营范围信息,利用朴素贝叶斯算法对企业进行所属行业分类,得到企业所属行业信息;
步骤15,按企业的入驻时间进行排序,最后得到构建产业关联网络和训练推荐模型的数据;
步骤2,集群分析与集群识别
步骤21,分行业区域集聚指数测度:利用Scholl集聚指数进行分行业分区域的集聚指数测度;
步骤22,产业集聚区与集群识别
步骤221,当企业距离小于等于预设阈值时,直接使用直接距离法确定最终集群;
步骤222,当企业距离大于预设阈值时,先使用网格法,再使用直接距离法确定最终集群;
步骤3,产业关联分析
步骤31,产业关联网络建模
基于会话将集群内产业的引入序列构建复杂网络,复杂网络的节点为不同的产业,其引入顺序构成有向的会话关系,从而生成产业发展路径网络;而集群内的网络和集群之间的网络共同构成了整体的复杂网络;
步骤32,网络与重要节点分析
对整体网络使用社会网络分析方法分析,使用DeepWalk与t-SNE方法对网络中的产业节点进行聚类,得到会话推荐表数据;
步骤4,产业发展路径预测
步骤41,数据准备
对会话推荐表数据进行数据预处理得到训练集、验证集、测试集;
步骤42,模型训练
模型训练阶段通过训练集对神经网络模型的进行训练,训练时通过多轮训练过程中反馈loss值函数来调整模型参数,从而训练出拟合度最优的神经网络模型,并避免过拟合;
步骤43,模型验证与测试
采用验证集对训练出的拟合度最优的神经网络模型进行验证;通过训练出的拟合度最优的神经网络模型对测试集进行测试。
2.根据权利要求1所述基于图神经网络的城市产业集群发展路径预测方法,其特征在于:步骤211中设距离门槛值为200m,小于门槛值的距离均按200m计算。
3.根据权利要求2所述基于图神经网络的城市产业集群发展路径预测方法,其特征在于:步骤221中直接使用直接距离法确定最终集群的方法:对于待测的p个点,循环计算每个点至其他点的距离,在距离阈值内的点记录集群,并标记;计算至有标记点时跳过,直至完成循环;再根据邻接状态与行政区划判定最终集群。
4.根据权利要求3所述基于图神经网络的城市产业集群发展路径预测方法,其特征在于:步骤222中先使用网格法,再使用直接距离法确定最终集群的方法;在待测区域中划出网格,网格距离由待测区域大小决定;首先根据阈值计算待测网格的密度是否符合要求,再将符合要求的矩形网格通过直接距离法进一步聚合为集聚区;最后根据邻接状态与行政区划判定最终集群。
5.根据权利要求4所述基于图神经网络的城市产业集群发展路径预测方法,其特征在于:步骤21中利用Scholl集聚指数进行分行业分区域的集聚指数测度的方法:
步骤211,首先计算各样本组企业间的平均距离Di
Figure FDA0003136638280000021
式中:J为样本组的企业数量,dij为企业间的距离;
步骤212,将包括n个企业平均距离Di的数组导入核函数,计算这一数组的概率密度函数曲线:
Figure FDA0003136638280000022
式中:gi(D)为概率密度函数;D为自变量;f()为高斯核函数;h为最优带宽,使用Silverman法计算各样本组的最优带宽,如下式:
Figure FDA0003136638280000031
式中:σ为样本组的标准差;
步骤213,通过集聚概率与分散概率的差值计算“净集聚概率”:
Figure FDA0003136638280000032
其中,θ表示净集聚概率,gb(D)为全部服务业企业的分布概率密度函数;m为gb(D)最大值对应的Di值,小于该值为分散区间,大于该值为聚集区间。
6.根据权利要求5所述基于图神经网络的城市产业集群发展路径预测方法,其特征在于:步骤41中数据预处理包括时间戳转换、去单要素session,转换为二进制。
7.根据权利要求6所述基于图神经网络的城市产业集群发展路径预测方法,其特征在于:步骤41中处预理后的数据按照6∶2∶2的比例划分为训练集、验证集、测试集。
CN202110720084.6A 2021-06-28 2021-06-28 一种基于图神经网络的城市产业集群发展路径预测方法 Pending CN113240209A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110720084.6A CN113240209A (zh) 2021-06-28 2021-06-28 一种基于图神经网络的城市产业集群发展路径预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110720084.6A CN113240209A (zh) 2021-06-28 2021-06-28 一种基于图神经网络的城市产业集群发展路径预测方法

Publications (1)

Publication Number Publication Date
CN113240209A true CN113240209A (zh) 2021-08-10

Family

ID=77141011

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110720084.6A Pending CN113240209A (zh) 2021-06-28 2021-06-28 一种基于图神经网络的城市产业集群发展路径预测方法

Country Status (1)

Country Link
CN (1) CN113240209A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114493346A (zh) * 2022-02-16 2022-05-13 重庆大学 一种乡村产业集聚化布局方法、系统、装置及存储介质
CN116452014A (zh) * 2023-03-21 2023-07-18 深圳市蕾奥规划设计咨询股份有限公司 应用于城市规划的企业集群确定方法、装置及电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114493346A (zh) * 2022-02-16 2022-05-13 重庆大学 一种乡村产业集聚化布局方法、系统、装置及存储介质
CN116452014A (zh) * 2023-03-21 2023-07-18 深圳市蕾奥规划设计咨询股份有限公司 应用于城市规划的企业集群确定方法、装置及电子设备
CN116452014B (zh) * 2023-03-21 2024-02-27 深圳市蕾奥规划设计咨询股份有限公司 应用于城市规划的企业集群确定方法、装置及电子设备

Similar Documents

Publication Publication Date Title
Ma et al. Analyzing driving factors of land values in urban scale based on big data and non-linear machine learning techniques
Straka et al. Predicting popularity of electric vehicle charging infrastructure in urban context
CN112232909A (zh) 一种基于企业画像的商机挖掘方法
CN107330734B (zh) 基于Co-location模式和本体的商业地址选择方法
Ibanez et al. Cluster methods for assessing research performance: exploring Spanish computer science
CN104573130A (zh) 基于群体计算的实体解析方法及装置
CN113240209A (zh) 一种基于图神经网络的城市产业集群发展路径预测方法
CN108898244A (zh) 一种耦合多源要素的数字标牌位置推荐方法
Liu et al. Enhancing input parameter estimation by machine learning for the simulation of large-scale logistics networks
CN109919227A (zh) 一种面向混合属性数据集的密度峰值聚类方法
Ozyirmidokuz et al. A data mining based approach to a firm's marketing channel
Gunawan et al. Information Systems Students' Study Performance Prediction Using Data Mining Approach
Dahal Effect of different distance measures in result of cluster analysis
Saini et al. Customer Segmentation using K-Means Clustering
CN108647189B (zh) 一种识别用户人群属性的方法及装置
CN116307761A (zh) 基于云平台的招商数据管理系统
Fuchs et al. Clustering: Hierarchical, k-Means, DBSCAN
CN112506930B (zh) 一种基于机器学习技术的数据洞察系统
Condrobimo et al. Data mining technique with cluster anaysis use K-means algorithm for LQ45 index on Indonesia stock exchange
Fan et al. Spatially enabled customer segmentation using a data classification method with uncertain predicates
Nadinta et al. A clustering-based approach for reorganizing bus route on bus rapid transit system
Bochkaryov et al. Application of the ensemble clustering algorithm in solving the problem of segmentation of users taking into account their loyalty
CN112650949A (zh) 基于多源特征融合协同过滤的区域poi需求识别方法
Yang et al. Application Research of K-means Algorithm based on Big Data Background
Du et al. Mining multicity urban data for sustainable population relocation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination