CN113240209A

CN113240209A - 一种基于图神经网络的城市产业集群发展路径预测方法

Info

Publication number: CN113240209A
Application number: CN202110720084.6A
Authority: CN
Inventors: 沈丽珍; 崔喆; 刘梦雨
Original assignee: Nanjing University
Current assignee: Nanjing University
Priority date: 2021-06-28
Filing date: 2021-06-28
Publication date: 2021-08-10

Abstract

本发明公开了一种基于图神经网络的城市产业集群发展路径预测方法，包括产业集群历史发展数据库构建，利用Scholl集聚指数进行分行业分区域的集聚指数测度，产业集聚区与集群识别，基于会话将集群内产业的引入序列构建复杂网络，复杂网络的节点为不同的产业，其引入顺序构成有向的会话关系，从而生成产业发展路径网络；而集群内的网络和集群之间的网络共同构成了整体的复杂网络；对整体网络使用社会网络分析方法分析，并采用神经网络模型对产业发展路径进行预测。本发明可为城市或产业园区进行产业招商、产业规划时的产业选择提供决策依据，为规划工作者和园区管理者在制定产业发展策略时提供更加强有力的数据支撑和方向研判。

Description

一种基于图神经网络的城市产业集群发展路径预测方法

技术领域

本发明涉及一种基于图神经网络的城市产业集群发展路径预测方法，属于城市产业规划技术领域。

背景技术

目前城市产业集群及产业规划在理论方法层面，以“点-轴”、区位论和增长极等理论为产业布局的传统理论基础，而随着信息时代的到来，空间区域的影响降低，流动空间成为城市区域之间的新空间形态，传统产业理论的作用逐渐减弱，亟需一种适应新的地方化和信息化的产业规划理论和模式产生。

目前园区的产业及产业布局决策方式仍存在经验主义的掣肘，大量的规划方案趋同，并没有形成科学合理、有数据支撑、可实践的规划方法，从而导致许多产业园区发展并不理想。

发明内容

发明目的：针对目前城市或园区产业规划的实践技术缺失，本发明提供一种基于图神经网络的城市产业集群发展路径预测方法，以海量城市和园区产业招商及产业发展情况作为学习数据,从集聚与联系这两个产业集群成长的核心要素出发，基于海量专利数据、企业位置数据、企业统计数据、海关进出口数据等，利用图神经网络(GNN)等人工智能技术建立城市或园区产业规划推荐和发展模型，实现Al辅助产业决策以期为城市产业规划方案提供科学合理的评价和决策方式。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于图神经网络的城市产业集群发展路径预测方法，包括以下步骤：

步骤1，产业集群历史发展数据库构建

步骤11，获取企业原始数据，企业原始数据包括企业基本信息、企业经营成果信息。企业基本信息包括企业身份、地址、经营范围、经营状态。企业经营成果信息包括资金流量、生产总值和盈亏数额。

步骤12，对企业原始数据进行清洗和筛选，保留对网络分析和训练模型有关键作用的企业身份、地址、经营范围和产值利润。

步骤13，利用地图API接口(应用程序接口)地址转坐标，获取所有企业的具体坐标信息，得到企业空间分布情况。

步骤14，根据企业的经营范围信息，利用朴素贝叶斯算法对企业进行所属行业分类，得到企业所属行业信息。

步骤15，按企业的入驻时间进行排序，最后得到构建产业关联网络和训练推荐模型的数据。

步骤2，集群分析与集群识别

步骤21，分行业区域集聚指数测度：利用Scholl集聚指数进行分行业分区域的集聚指数测度。

步骤22，产业集聚区与集群识别

步骤221，当企业距离小于等于预设阈值时，直接使用直接距离法确定最终集群。

步骤222，当企业距离大于预设阈值时，先使用网格法，再使用直接距离法确定最终集群。

步骤3，产业关联分析

步骤31，产业关联网络建模

基于会话将集群内产业的引入序列构建复杂网络，复杂网络的节点为不同的产业，其引入顺序构成有向的会话关系，从而生成产业发展路径网络。而集群内的网络和集群之间的网络共同构成了整体的复杂网络。

步骤32，网络与重要节点分析

对整体网络使用社会网络分析方法分析，使用DeepWalk(深度游走)与t-SNE方法(学生t分布的随机邻点嵌入法)对网络中的产业节点进行聚类，得到会话推荐表数据。

步骤4，产业发展路径预测

步骤41，数据准备

对绘画推荐表数据进行数据预处理得到训练集、验证集、测试集。

步骤42，模型训练

模型训练阶段通过训练集对神经网络模型的进行训练，训练时通过多轮训练过程中反馈loss值函数(损失值函数)来调整模型参数，从而训练出拟合度最优的神经网络模型，并避免过拟合。

步骤43，模型验证与测试

采用验证集对训练出的拟合度最优的神经网络模型进行验证。通过训练出的拟合度最优的神经网络模型对测试集进行测试。

优选的：步骤211中设距离门槛值为200m，小于门槛值的距离均按200m计算。

优选的：步骤221中直接使用直接距离法确定最终集群的方法：对于待测的p个点，循环计算每个点至其他点的距离，在距离阈值内的点记录集群，并标记。计算至有标记点时跳过，直至完成循环。再根据邻接状态与行政区划判定最终集群。

优选的：步骤222中先使用网格法，再使用直接距离法确定最终集群的方法。在待测区域中划出网格，网格距离由待测区域大小决定。首先根据阈值计算待测网格的密度是否符合要求，再将符合要求的矩形网格通过直接距离法进一步聚合为集聚区。最后根据邻接状态与行政区划判定最终集群。

优选的：步骤21中利用Scholl集聚指数进行分行业分区域的集聚指数测度的方法：

步骤211，首先计算各样本组企业间的平均距离D_i：

式中：J为样本组的企业数量，d_ij为企业间的距离。

步骤212，将包括n个企业平均距离D_i的数组导入核函数，计算这一数组的概率密度函数曲线：

式中：g_i(D)为概率密度函数。D为自变量。f()为高斯核函数。h为最优带宽，使用Silverman法计算各样本组的最优带宽，如下式：

式中：σ为样本组的标准差。

步骤213，通过集聚概率与分散概率的差值计算“净集聚概率”：

其中，θ表示净集聚概率，g_b(D)为全部服务业企业的分布概率密度函数。m为g_b(D)最大值对应的Di值，小于该值为分散区间，大于该值为聚集区间。集聚概率和分散概率即为概率密度曲线上通过定积分计算得到的g_i(D)高于g_b(D)的面积。

优选的：步骤41中数据预处理包括时间戳转换、去单要素session(会话)，转换为二进制。

优选的：步骤41中处预理后的数据按照6∶2∶2的比例划分为训练集、验证集、测试集。

本发明相比现有技术，具有以下有益效果：

本发明利用图神经网络(GNN)等算法建立城市或园区产业规划推荐和发展模型。该模型提出了：①精确化、规范化、可复用的区域产业集聚程度评判方法。②从区域产业发展路径入手的产业发展网络系统分析方法。③可挖掘产业隐含联系和数据支撑下的前景产业推荐方法。④为解决“引入什么产业”的问题提出了新的思路、方案与数据支撑。

本发明可为城市或产业园区进行产业招商、产业规划时提供一定的数据指导，规划工作者和决策者在制定产业发展策略时将更加具有经验数据支撑和明确的方向。

附图说明

图1为产业网络拓扑示意图。

图2为江苏省产业集群识别结果。

图3为江苏省发展路径产业网络。

图4为t-SNE降维结果。

图5为神经网络推荐模型训练指标。

具体实施方式

下面结合附图和具体实施例，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

1.产业集群历史发展数据库构建：

研究所用的原始数据来自于购买的中国工业企业数据库、工商企业注册数据，自有记录注企业始至2013年的全部规上企业，包括企业基本信息如企业身份、生产内容、具体地址、经营状态等。企业经营成果信息如资金流量、生产总值和盈亏数额等数据。①通过编写程序对海量原始数据进行清洗和筛选，保留对网络分析和训练模型有关键作用的企业身份信息、地址、产品经营范围和产值利润等字段。②编写程序，利用地图API接口地址转坐标，获取所有企业的具体坐标信息，得到企业空间分布情况，以便于识别产业集群、测度产业集聚程度。③编写程序，根据企业的产品和经营范围信息，利用朴素贝叶斯算法对企业进行所属行业分类，得到企业所属行业信息。朴素贝叶斯算法基于贝叶斯定理，是机器学习领域的一种统计学习方法，有计算快速、不需要迭代、适用性广等特点。根据企业的名称及经营范围信息，对其所处行业进行分类。主要方法是分别计算分词后的公司名称训练集、经营范围训练集TF-IDF值并构建关键词矩阵。将待分类公司的公司名称与经营范围分词在矩阵中进行比较，输出候选行业名称及其概率值。最后基于各候选行业概率，综合确定公司所属行业。④对上述企业的入驻时间进行排序，最后得到构建产业关联网络和训练推荐模型的数据，如表1所示数据类型包括行业类型(item_id)、所在地址(user_id)和企业成立时间(eventdate)以及会话(session_id)。

2.集群分析与集群识别：

2.1分行业区域集聚指数测度

为分析不同产业的集聚程度区别和研究区域的集聚特征、以及为后续集群识别提供数据支持，首先利用Scholl集聚指数进行分行业分区域的集聚指数测度。在本部分中选用的数据为微观点状数据，主要为企业工商注册数据、POI兴趣点数据。Scholl指数使用双曲线反距离权重函数，分组导入核函数，具体计算过程如下：①首先计算各样本组企业间的平均距离Di：

式中：J为样本组的企业数量，d_ij为企业间的距离(m)。由于使用了双曲线的反距离权重函数，在距离过小的情况下Di值会过大，因此设距离门槛值为200m，小于门槛值的距离均按200m计算。

②将包括n个企业Di值的数组导入核函数，计算这一数组的概率密度函数曲线。

式中：g_i(D)为概率密度函数。D为自变量。f()为高斯核函数。h为最优带宽，使用Silverman法计算各样本组的最佳带宽，如下式：

式中：σ为样本组的标准差。

③通过集聚概率与分散概率的差值计算“净集聚概率”，集聚概率和分散概率即为概率密度曲线上通过定积分计算得到的g_i(D)高于g_b(D)的面积。

式中：g_b(D)为全部服务业企业的分布概率密度函数，为服务业的参照分布水平。m为g_b(D)最大值对应的Di值，小于该值为分散区间，大于该值为聚集区间。集聚概率和分散概率即为概率密度曲线上通过定积分计算得到的g_i(D)高于g_b(D)的面积。

2.2产业集聚区与集群试别

本发明使用的点聚合算法包括直接距离法与网格法与直接距离法结合两种方法。

研究区域较小时，直接使用直接距离法。对于待测的n个点，循环计算每个点至其他点的距离，在距离阈值内的点记录集群，并标记。计算至有标记点时跳过，直至完成循环。对此步得出的集群，再根据邻接状态与行政区划判定最终集群。

当研究距离较大时，先使用网格法，再使用直接距离法。在待测区域中划出网格，网格距离由待测区域大小决定。首先根据阈值计算待测网格的密度是否符合要求，再将符合要求的小矩形网格通过直接距离法进一步聚合为集聚区。最后根据邻接状态与行政区划判定最终集群。

3.产业关联分析

3.1产业关联网络建模

基于会话将集群内产业的引入序列构建复杂网络，网络拓扑示意如图1所示，对其进行网络模式分析以发现产业发展“隐含关系”的规律，并通过该网络进行后续的模型训练。在前文提到，本研究中复杂网络的节点为不同的产业，其引入顺序构成有向的会话关系，从而生成产业发展路径网络。而集群内的网络和集群之间的网络共同构成了整体的复杂网络。通过编写程序，对表1的数据进行进一步处理，使会话表格转换为边表格，如表2所示。

表1训练数据集的数据类型表

表2边表格示意

3.2网络与重要节点分析

本研究中对整体网络分析主要使用社会网络分析(SNA)方法。为发现重要的产业节点，除了使用常规的度分析外，还使用了DeepWalk与t-SNE算法对网络中的产业节点进行聚类。常规的社会网络分析方法凝聚子群是社群识别算法，仅考虑网络中的亲近疏远关系。而DeepWalk是聚类算法，关注的是节点有哪些特征可以与其他节点区别开，从而聚为一类。图数据与文本、图像等不同，结构多变。Embedding嵌入将节点映射成固定维度的特征向量，以便后续的机器学习算法使用。DeepWalk算法利用图结构中的随机游走的序列的信息，用于学习图中顶点的潜在表。t-SNE是一种非线性的降维方法，降维的目的是在低维图中尽可能保留高维数据的重要结构,非线性降维算法通常更重视保持相似性，使低维空间中的相似的点之间的距离较小,适用于将高维数据降维到2维或者3维，便于进行可视化。

4.产业发展路径预测

4.1数据准备

数据准备阶段使用上一子模块建立网络模型时所生成的session表数据。数据预处理过程主要使用SR-GNN模型配套提供的数据预处理工具，主要工作包括时间戳转换、去单要素session，转换为二进制等。处理后的数据按照6∶2∶2的比例划分为训练集、验证集、测试集。

4.2模型训练

模型训练阶段同一班神经网络模型的训练过程，通过多轮训练过程中反馈loss值函数来调整模型参数，从而训练出拟合度最优的模型，并避免过拟合。在百度研发的开源深度学习框架PaddlePaddle(飞桨)上构建神经网络。PaddlePaddle的算法实现较容易，支持也较丰富，对于SR-GNN网络的实现也较容易。训练平台为GTX960，CUDA10.0。综合考虑模型表现与耗费时间，模型训练所需要的超参数调为：epoch＝20，batch_size＝100，l2＝1e-5，hidden_size＝100，lr＝0.001。其他超参数为模型默认值。

4.3模型验证

在总数据库中选择20％作为测试集。收敛后的epoch的测试结果为：Recall@20∶0.4550。作为对比，SR-GNN论文中给出的Diginetica数据集的recall@20为0.7070，Yoochoose1/64数据集的recall@20是0.5127。

实例

1.产业集群历史发展数据库构建

从企业数据库中提取南京市和江苏省的企业数据，并按照步骤进行数据清洗。

2.集群分析与集群识别：

2.1分行业区域集聚指数测度

本实践案例将Scholl集聚指数测度方法应用于南京新街口CBD服务业集聚特征演变的研究之中。将南京市不同产业门类的数据代入Scholl指数的测算公式中，得到南京市新街口CBD的产业集聚可视化结果(如表3所示)。

表3新街口CBD各服务业行业集聚指数变动(2000-2018)

2.2产业集聚区与集群试别

“江苏省产业集群与重点产业识别研判”实践案例综合应用了步骤2、3、4中提到的各类方法。首先进行了产业集群的识别。在中国工业企业数据库(1997-2013)中筛选江苏省工业企业数据，经过数据清洗，合并历年追踪重复数据，地址转坐标等预处理步骤后得到原始数据。由于研究区尺度较大，使用网格法与直接距离法相结合的方法对产业集群进行识别。由于苏南苏中苏北发展水平不均，对集群的认定标准也有不同，具体的搜索距离由各地集聚指数曲线图分别设定，集群连绵区根据行政区划切分。结果如图2所示。

3.产业关联分析

在识别出产业集群之后，将各个集群的产业发展路径按照步骤3中提到的方法连接组合成产业网络，使用Gephi将构建的产业网络可视化，进行凝聚子群、出度分析，结果如图3所示。最后使用DeepWalk与t-SNE算法对江苏省的产业节点进行embedding及聚类过程，结果如图4所示，色带标注代表依据Scholl集聚算法计算得到的江苏省产业的不同集聚程度，1为最集聚，-1为最分散。t-SNE降维后的结果显示，江苏省整体层面不存在在网络中具有特殊连接地位的主导型行业，且产业的集聚程度与产业的网络地位不存在相关关系。这反映出江苏省全省范围内不具有节点地位较为特殊的关键节点，且行业的集聚效益有待加强。

4.产业发展路径预测

案例训练模型使用江苏省工业企业数据库与工商企业数据库制造业企业信息。适当调整参数，训练20轮。训练结果如图5所示，loss与acc指标均收敛，召回率Recall@20为0.4550，表明此模型具有一定的适用性。

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于图神经网络的城市产业集群发展路径预测方法，其特征在于，包括以下步骤：

步骤1，产业集群历史发展数据库构建

步骤11，获取企业原始数据，企业原始数据包括企业基本信息、企业经营成果信息；企业基本信息包括企业身份、地址、经营范围、经营状态；企业经营成果信息包括资金流量、生产总值和盈亏数额；

步骤12，对企业原始数据进行清洗和筛选，保留对网络分析和训练模型有关键作用的企业身份、地址、经营范围和产值利润；

步骤13，利用地图API接口地址转坐标，获取所有企业的具体坐标信息，得到企业空间分布情况；

步骤14，根据企业的经营范围信息，利用朴素贝叶斯算法对企业进行所属行业分类，得到企业所属行业信息；

步骤15，按企业的入驻时间进行排序，最后得到构建产业关联网络和训练推荐模型的数据；

步骤2，集群分析与集群识别

步骤21，分行业区域集聚指数测度：利用Scholl集聚指数进行分行业分区域的集聚指数测度；

步骤22，产业集聚区与集群识别

步骤221，当企业距离小于等于预设阈值时，直接使用直接距离法确定最终集群；

步骤222，当企业距离大于预设阈值时，先使用网格法，再使用直接距离法确定最终集群；

步骤3，产业关联分析

步骤31，产业关联网络建模

基于会话将集群内产业的引入序列构建复杂网络，复杂网络的节点为不同的产业，其引入顺序构成有向的会话关系，从而生成产业发展路径网络；而集群内的网络和集群之间的网络共同构成了整体的复杂网络；

步骤32，网络与重要节点分析

对整体网络使用社会网络分析方法分析，使用DeepWalk与t-SNE方法对网络中的产业节点进行聚类，得到会话推荐表数据；

步骤4，产业发展路径预测

步骤41，数据准备

对会话推荐表数据进行数据预处理得到训练集、验证集、测试集；

步骤42，模型训练

模型训练阶段通过训练集对神经网络模型的进行训练，训练时通过多轮训练过程中反馈loss值函数来调整模型参数，从而训练出拟合度最优的神经网络模型，并避免过拟合；

步骤43，模型验证与测试

采用验证集对训练出的拟合度最优的神经网络模型进行验证；通过训练出的拟合度最优的神经网络模型对测试集进行测试。

2.根据权利要求1所述基于图神经网络的城市产业集群发展路径预测方法，其特征在于：步骤211中设距离门槛值为200m，小于门槛值的距离均按200m计算。

3.根据权利要求2所述基于图神经网络的城市产业集群发展路径预测方法，其特征在于：步骤221中直接使用直接距离法确定最终集群的方法：对于待测的p个点，循环计算每个点至其他点的距离，在距离阈值内的点记录集群，并标记；计算至有标记点时跳过，直至完成循环；再根据邻接状态与行政区划判定最终集群。

4.根据权利要求3所述基于图神经网络的城市产业集群发展路径预测方法，其特征在于：步骤222中先使用网格法，再使用直接距离法确定最终集群的方法；在待测区域中划出网格，网格距离由待测区域大小决定；首先根据阈值计算待测网格的密度是否符合要求，再将符合要求的矩形网格通过直接距离法进一步聚合为集聚区；最后根据邻接状态与行政区划判定最终集群。

5.根据权利要求4所述基于图神经网络的城市产业集群发展路径预测方法，其特征在于：步骤21中利用Scholl集聚指数进行分行业分区域的集聚指数测度的方法：

步骤211，首先计算各样本组企业间的平均距离D_i：

式中：J为样本组的企业数量，d_ij为企业间的距离；

式中：g_i(D)为概率密度函数；D为自变量；f()为高斯核函数；h为最优带宽，使用Silverman法计算各样本组的最优带宽，如下式：

式中：σ为样本组的标准差；

其中，θ表示净集聚概率，g_b(D)为全部服务业企业的分布概率密度函数；m为g_b(D)最大值对应的Di值，小于该值为分散区间，大于该值为聚集区间。

6.根据权利要求5所述基于图神经网络的城市产业集群发展路径预测方法，其特征在于：步骤41中数据预处理包括时间戳转换、去单要素session，转换为二进制。

7.根据权利要求6所述基于图神经网络的城市产业集群发展路径预测方法，其特征在于：步骤41中处预理后的数据按照6∶2∶2的比例划分为训练集、验证集、测试集。