CN113704371A

CN113704371A - 一种地理信息网络中自适应检测划分子区域的方法

Info

Publication number: CN113704371A
Application number: CN202110806758.4A
Authority: CN
Inventors: 屈盈飞
Original assignee: Chongqing Technology and Business University
Current assignee: Chongqing Technology and Business University
Priority date: 2021-07-16
Filing date: 2021-07-16
Publication date: 2021-11-26

Abstract

本发明公开了一种地理信息网络中自适应检测划分子区域的方法，步骤包括：根据地理信息网络G构建模型，基于不同节点之间的位置关系和距离进行边权重的规则化，接着利用产生式推理和标签传播的集成算法计算节点的参数值或标签，最后根据节点的隐含参数值或者节点标签参数的相似性，将地理信息网络G划分子区域，并输出图形显示。本发明的有益效果：本方法对边权重的物理模型进行了定义，不需要预先确定子区域数量，根据网络结构能够自适应的检测划分明确的子区域或重叠子区域。

Description

一种地理信息网络中自适应检测划分子区域的方法

技术领域

本发明属于计算机数据挖掘和模式识别领域领域，涉及地理信息网络分析和挖掘，具体涉及一种地理信息网络中自适应检测划分子区域的方法。

背景技术

在日常生活中，地理信息系统(GIS)扮演着重要的角色，如路线规划、基于位置的业务推荐等。研究者对地理信息系统的分析利用，除了对全球定位系统(GPS)技术和电子地图的研究，还运用复杂网络理论对地理信息系统进行整体研究，以科学分析系统结构，优化城市规划。空间位置数据和相应的属性数据是GIS的两个关键指标。近年来，随着物联网和GPS技术的发展，空间位置数据和相应的属性数据呈指数级增长。海量的空间数据和属性数据以及它们之间复杂的关系，给GIS的分析和理解以及可视化带来了困难。为了解决这些问题，将GIS抽象地表示为地理信息网络，其中空间元素表示为节点，空间元素与属性信息的关系表示为边。地理信息网络不同于文本语义网络和社交网络等传统的信息网络，它所具有的空间信息在GIS的结构分析中具有重要意义。对地理信息网络进行适当且充分的划分，形成不同的位置信息集合，即子区域，才能更好地利用地理信息网络。然而地理信息网络的子区域数量、重叠等结构信息通常是未知的。例如，道路网络受道路位置和距离的影响，没有明确的分类，这给信息的可视化呈现和信息利用带来不便。在地理信息网络中，需要考虑不同位置之间的距离，可以用不同的边权值来表示，从而形成加权网络。对于复杂网络的结构研究，社团检测是目前研究的热点之一。现有用于加权网络的社团检测算法，虽然能够检测到社团，但社团和边权重的物理意义不明确，并且有的需要预先确定社团的数量，有的只能检测到划分明确的社团，都极大地限制了网络结构信息的挖掘。因此，需要发展新的检测和划分子区域的方法。

发明内容

有鉴于此，本发明提供一种地理信息网络中自适应检测划分子区域的方法。

其技术方案如下：

一种地理信息网络中自适应检测划分子区域的方法，其关键在于包括以下步骤：

S1，根据地理信息网络G构建模型：定义模型的节点空间θ，为所述地理信息网络G定义隐含参数γ，所有隐含参数γ构成隐含参数空间γ，并建立所述节点空间θ与所述隐含参数空间γ之间的联系，根据节点位置信息和节点邻接关系计算节点距离D、连边权重ω、节点强度s_i和所述地理信息网络G的总强度l；

S2，所述隐含参数γ的外层循环迭代计算：定义所述隐含参数γ的映射函数F(x,y)，所述映射函数F(x,y)将归一化后的所述隐含参数对映射到[0,1]区间，所述映射函数F(x,y)按式(1)进行计算；

其中

是伯恩斯坦多项式，如式(2)所示，α为1，M为伯恩斯坦多项式的阶数，

其中β_uv为模型组合系数，且β_uv＝β_vu，初始化设置为[0,2]区间内的随机小数；

S3，置信传播消息的内层循环迭代：将所述隐含参数Υ的概率q_i(x)定义为隐含参数值，表示节点i具有隐含参数x的概率分布，所述隐含参数值根据步骤S2得到的映射函数F(x,y)值、前一次迭代的置信传播消息Msg以及节点i的强度和节点i的相邻节点的强度计算得到，初始化所述隐含参数Υ的概率q_i(x)为[0,1]区间内的随机小数；

根据前一次迭代的置信传播消息值Msg和所述隐含参数值，进行所述置信传播消息Msg的迭代更新计算，将前后两次所述置信传播消息变化量和迭代次数作为所述置信传播消息的内层循环迭代的结束条件，当所述置信传播循环迭代结束时，保存当前所述模型组合系数β_uv，作为模型参数，用P_old表示；

S4，根据当前迭代的所述置信传播消息Msg和所述映射函数F(x，y)的值，计算一对节点的隐含参数联合概率q_ij(x，y)；

S5，模型组合系数的内层循环迭代：根据步骤S4得到的隐含参数联合概率q_ij(x，y)值和前一次迭代的所述模型组合系数β_uv，进行所述模型组合系数β_uv的迭代更新计算，将所述模型组合系数的内层循环迭代的迭代精度作为迭代结束条件，并保存迭代循环结束时的所述模型组合系数，作为新的模型参数，用P_new表示；

S6，计算前后两次外层迭代的模型参数的最大变化量δ，δ＝MAX(P_new-P_old)；

S7，判断若前后两次外层迭代的模型参数的最大变化量δ大于设定的外层迭代精度ACC_EM并且当前迭代次数小于外层最大迭代次数MAX_EM时，执行步骤S3～S7，进入下一次外层迭代循环；否则算法达到收敛，执行步骤S8；

S8，设置标准差阈值σ_R，计算所有节点隐含参数概率q_i(x)的平均值和标准差σ；判断若σ小于阈值σ_R时，执行步骤S9，否则以节点的所述隐含参数值对节点进行子区域划分，并执行步骤S10；

S9，标签传播的迭代循环，并对标签进行数值处理得到节点标签参数，以对节点进行子区域划分；

S10，根据节点的所述隐含参数值或者步骤S9得到的所述节点标签参数的相似性，将地理信息网络G划分子区域，并输出图形显示。

作为优选，上述步骤S1具体包括：

S11，节点构成的空间定义为θ，且

为所述地理信息网络G定义隐含参数γ，所有隐含参数γ构成的空间为γ，且

对于任意节点i，其隐含参数γ_i通过空间θ×γ中的泊松过程获得；

S12，根据地理信息网络数据，获取所述地理信息网络G中的节点邻接关系；

S13，根据节点位置信息计算相邻节点间的距离D；

S14，将节点距离规则化得到连边权重ω，

其中ρ是权重分布的调整参数；

S15，计算节点强度，节点i的强度记作s_i，

其中

指节点i的邻接节点集合；

S16，根据步骤S15中得到的所有所述节点强度数据，计算地理信息网络G的总强度l，

作为优选，上述步骤S3具体包括：

设置所述置信传播循环迭代的最大迭代次数MAX_BP，迭代精度ACC_BP；

S31，根据式(3)计算新的所述隐含参数值，

其中zⁱ为归一化因子，是所有所述隐含参数Υ的概率之和，按照式(4)计算，

其中

即为前一次迭代的所述置信传播消息值Msg_old，初始化置信传播消息Msg为[0,1]区间内的随机小数；

S32，根据前一次迭代的所述置信传播消息值Msg_old和所述隐含参数值，根据式(5)计算新的所述置信传播消息值，记作Msg_new，

其中ω_ij为节点i和节点j之间的连边权重，

其中z^i→j为归一化因子，是所有所述置信传播消息Msg的和，按照式(6)计算，

S33，计算前后两次迭代的所述置信传播消息Msg的最大变化量δ_msg，同时迭代次数加1，其中δ_msg计算式为δ_msg＝MAX(Msg_new-Msg_old)；

S34，判断若两次迭代的所述置信传播消息变化量δ_msg大于ACC_BP并且当前迭代次数小于MAX_BP时，执行步骤S31～S34进行下一次迭代；否则置信传播达到收敛，执行步骤S35；

S35，保存当前迭代使用的所述模型组合系数β_uv，即所述模型参数P_old。

作为优选，上述步骤S4中，根据式(7)计算一对节点的隐含参数联合概率q_ij(x,y)，

作为优选，上述步骤S5具体包括：设置模型组合系数的内层循环迭代的迭代精度ACC_BETA，

S51，根据当前迭代的模型组合系数β_uv_old计算函数Q(x,y)，计算公式如式(8)，

其中首次迭代时β_uv_old取值为步骤S3中得到的P_old；

S52，根据步骤S51得到的函数Q(x,y)值和当前的隐含参数概率分布，按式(9)计算新的模型组合系数β_uv_new，

其中

S53，计算前后两次迭代的所述模型组合系数β_uv的最大变化量δ_β，

δ_β＝MAX(β_uv_new-β_uv_old)；

S54，判断若所述模型组合系数β_uv的最大变化量δ_β大于ACC_BETA时，执行步骤S51～S54进行下一次迭代；否则就将当前的模型组合系数β_uv_new作为新的所述模型参数，记为P_new，并执行步骤S6。

作为优选，上述步骤S9具体包括：

S91，初始化标签传播最大迭代次数MAX_LP，初始化所有节点的标签为整数序列1,2,…,n，其中n为输入所述地理信息网络G的节点数量；

S92，标签传播迭代开始，初始化节点顺序，统计每个节点的邻接节点的标签和出现的次数；

S93，将该节点的标签改为其邻接节点中出现次数最多的标签，如果存在多个标签出现次数一样多，则将该节点的标签随机改为其中一个标签；

S94，迭代次数加1；

S95，判断当存在某节点的标签与其邻接节点中数量最多的标签不一致，并且迭代次数小于MAX_LP时，执行步骤S92～S95进入下一次迭代，否则执行步骤S96；

S96，将节点标签的整数值除以网络节点数n，得到小数，作为用于对节点进行子区域划分的节点标签参数，并执行步骤S10。

作为优选，上述步骤S10具体包括：

在步骤S8之后，将节点的所述隐含参数值直接赋值给色调参数hue；

或在步骤S9之后，将所述节点标签参数赋值给色调参数hue；

再将所述色调参数hue作为节点的颜色色调值，输出图形显示。

作为优选，上述步骤S10还包括：设置饱和度参数saturation为1.0，设置亮度参数brightness为1.0，再结合所述色调参数hue，根据HSB颜色模式输出节点的颜色表示。

与现有技术相比，本发明的有益效果：本方法对边权重的物理模型进行了定义，基于产生式推理和标签传播的集成算法计算网络节点的隐含参数，并据此对节点进行划分，不需要预先确定子区域数量，根据网络结构能够自适应的检测划分明确的子区域或重叠子区域。

附图说明

图1为本发明方法的结构框架；

图2为本发明方法的算法流程图；

图3为以某城市部分地铁线组成的地理信息网络的节点位置信息(a)和节点连通性信息(b)；

图4为直接将地理信息网络的节点和连边根据其位置信息嵌入图像输出的图形显示；

图5为使用本发明的方法对输入的地理信息网络进行挖掘后输出的图形显示，图中节点以多种颜色显示，并且以相同颜色显示同一子区域的节点；

图6为对图3的地理信息网络添加更多的道路数据后形成的更复杂的地理信息网络，然后使用本发明的方法进行挖掘后，输出的图形显示，图中节点以多种颜色显示，并且以同一种颜色显示同一子区域的节点，重叠结构部分节点则以近似颜色显示。

具体实施方式

以下结合实施例和附图对本发明作进一步说明。

如图1，一种地理信息网络中自适应检测划分子区域的方法，通过提取地理信息网络的节点位置信息，并根据节点之间的连通性信息计算出相邻节点的距离，对距离进行规则化获得网络权重，根据地理信息网络的拓扑信息和计算到的权重信息，利用产生式推理和标签传播的集成算法计算节点的参数值或标签，以此参数值或标签的相似性对节点进行划分，划分后的节点及其连接关系结合位置信息所覆盖的区域作为地理信息网络的子区域划分结果。该方法主要包含三个主要模块，第一个模块是基于地理信息网络的模型构建，主要基于不同位置之间的关系和距离进行边权重的规则化；第二个模块是基于统计推理理论的生成式模型构建与计算，主要计算生成式模型中节点的隐含参数；第三个模块是基于隐含参数分布的标签传播集成，主要根据各节点隐含参数分布的标准差值，自适应地应用标签传播。

该方法的算法主要包含三个循环，即隐含参数的外层循环迭代、置信传播消息的内层循环迭代以及模型组合系数的内层循环迭代。其中，外层循环终止条件为两次迭代的参数变化量小于允许的一个较小的值或者超过最大迭代次数，循环终止时方法收敛就可以计算隐含参数的分布。置信传播消息的内层循环的终止条件为两次迭代的消息变化量小于允许的一个较小的值或者超过最大迭代次数。模型组合系数的内层循环的终止条件为新旧模型组合系数的变化量小于允许的一个较小的值。

本方法的具体算法流程如图2所示。一种地理信息网络中自适应检测划分子区域的方法，包括以下步骤：

S1，根据地理信息网络G构建模型，节点的经纬度可以表示为坐标形式，如(lat,lon)。具体包括：

S11，节点构成的空间定义为θ，且

为了发现地理信息网络G的隐含结构，为地理信息网络G定义隐含参数γ，所有隐含参数Υ构成的空间为Υ，且

对于任意节点i，其隐含参数Υ_i通过空间θ×Υ中的泊松过程获得；

因此，节点i被表示为(θ_i,Υ_i)；对于每一对节点(θ_i,γ_i)和(θ_j,γ_j)，它们之间存在连边的概率为

其中d_i和d_j分别表示节点i和节点j的度，

表示网络G中存在的连边的数量，F(x,y)是一个映射函数，它将归一化后的的隐含参数对映射到[0,1]区间；

这个模型定义将节点的经纬度与隐含参数γ联系起来，因此后续计算出隐含参数的值以后，就可以根据隐含参数的值来设置相应节点的颜色或者对相应节点的子区域进行划分；

S13，根据节点位置信息计算相邻节点间的距离D，根据节点的经纬度坐标计算两个节点之间的距离，假设两个节点的经纬度是(lat₁,lon₁)，(lat₂,lon₂)，它们之间的距离D可以用

来计算，其中R是地球的半径，为6371.004千米，π是圆周率，为3.14；

S14，将节点距离规则化得到连边权重ω，由于地理位置相近的节点通常具有更高的相似性，因此距离越小，权重应该越大，使用

对距离进行转换，其中ρ是权重分布的调整参数，使分布更加均匀，ρ可取0.2；

S15，计算节点强度，节点i的强度记作s_i，

其中

指节点i的邻接节点集合；

S16，根据步骤S14中得到的所有所述节点强度数据，计算地理信息网络G的总强度l，

S2，进行外层循环迭代，计算所述隐含参数γ的映射函数F(x,y)，按式(1)进行计算，

其中

是伯恩斯坦多项式，如式(2)所示，α为1，设置伯恩斯坦多项式的阶数M＝4，

其中β_uv为模型组合系数，初始化设置为[0,2]区间内的随机小数，且β_uv＝β_vu；

其中x、y的取值分别为隐含参数γ归一化后的值，隐含参数γ归一化公式为

式中γ_min、γ_max分别是隐含参数的最小值和最大值。

S3，置信传播循环迭代，根据步骤S2得到的映射函数F(x,y)值以及前一次迭代的置信传播消息Msg，进行所述置信传播消息Msg的迭代更新计算，并获得迭代循环结束时的所述模型组合系数β_uv，设置置信传播循环迭代的最大迭代次数MAX_BP＝100，内层循环的迭代精度ACC_BP＝1e-3；具体包括：

S31，将所述隐含参数γ的概率q_i(x)定义为隐含参数值，表示节点i具有隐含参数x的概率，初始化所述隐含参数Υ的概率q_i(x)为[0,1]区间内的随机小数，根据前一次迭代的置信传播消息值Msg_old和所述隐含参数值，利用式(3)计算新的所述隐含参数值，

其中

其中ω_ij为节点i和节点j之间的连边权重，

S34，判断两次迭代的所述置信传播消息变化量δ_msg大于ACC_BP并且当前迭代次数小于MAX_BP时，执行步骤S31～S34进行下一次迭代；否则置信传播达到收敛，执行步骤S35；

S35，保存当前迭代使用的所述模型组合系数β_uv，作为模型参数，用P_old表示；

S4，根据当前迭代的所述置信传播消息Msg和所述映射函数F(x,y)的值，根据式(7)计算一对节点的隐含参数联合概率q_ij(x,y)，

S5，模型组合系数的内层循环迭代，根据步骤S4得到的含参数联合概率q_ij(x,y)值和前一次迭代的所述模型组合系数β_uv，进行所述模型组合系数β_uv的迭代更新计算，并获得迭代循环结束时的所述模型组合系数值P_new，设置模型组合系数的内层循环迭代的迭代精度ACC_BETA＝1e-4，具体包括：

其中首次迭代时β_uv_old取值为步骤S3中得到的P_old；

其中

δ_β＝MAX(β_uv_new-β_uv_old)；

S54，判断若前后两次迭代的所述模型组合系数β_uv的最大变化量δ_β大于ACC_BETA时，执行步骤S51～S54进行下一次迭代；否则就将新的所述模型组合系数作为新的模型参数，记为P_new，并执行步骤S6。

S6，计算前后两次外层迭代的模型参数的最大变化量δ，δ＝MAX(P_new-P_old)。

S7，判断前后两次外层迭代的模型组合系数的最大变化量δ大于ACC_EM并且当前迭代次数小于MAX_EM时，执行步骤S3～S7，进入下一个外层迭代循环；否则算法达到收敛，执行步骤S8。

S8，设置标准差阈值σ_R＝1e-4，计算所有节点隐含参数概率q_i(x)的平均值和标准差σ；判断σ小于阈值σ_R时，执行步骤S9，否则以节点的所述隐含参数值对节点进行子区域划分，并执行步骤S10。

S9，标签传播的迭代循环，并对标签进行数值处理，以对节点进行子区域划分，具体包括：

S91，初始化标签传播最大迭代次数MAX_LP＝100，初始化所有节点的标签为整数序列1,2,…,n，其中n为输入所述地理信息网络G的节点数量；

S94，迭代次数加1；

S10，根据节点的所述隐含参数值或者步骤S96得到的所述节点标签参数的相似性，将地理信息网络划分子区域，并输出图形显示：

具体地，在步骤S8之后，将节点的所述隐含参数值直接赋值给参数hue；或者在步骤S96之后，将节点的所述隐含参数值赋值给参数hue；

接着，设置饱和度参数saturation为1.0，设置亮度参数brightness为1.0，再结合上述色调参数hue，即可根据HSB颜色模式输出节点的颜色表示。

步骤S10的目的在于以可视化的结果展示划分子区域后的地理信息网络。本领域技术人员应当认识到，本实施例中不同子区域内的节点之间以不同色调进行区分，是一种较为简便的方法，实际上，只要同一所述子区域内的节点以相同的图形特征显示，不同的所述子区域的节点以不同的图形特征显示，都能达到便于使用者理解地理信息网络的效果。

使用本方法进行网络挖掘时，可以在输入GIS网络前，统一初始化超参数，即设置外层循环的最大迭代次数MAX_EM，外层循环的迭代精度ACC_EM、内层循环的最大迭代次数MAX_BP、内层循环的迭代精度ACC_BP、内层组合系数的迭代精度ACC_BETA以及伯恩斯坦多项式的阶数M。

一个具体的地理信息网络由重庆市部分地铁站点构成，部分站点的经纬度坐标和地铁线路图如图3所示。将地理信息网络的节点和连边根据其位置信息嵌入图像，输出图形显示如图4所示，直接观察，难以从图4得到有用的信息。本领域技术人员可以预见，对于规模较大的网络，其结构更加复杂，更加难以辨识。

采用本发明的方法对如图3所示的地理信息网络进行挖掘处理后，输出的图形如图5所示，所有节点以不同的颜色显示，同一子区域的节点以相同颜色显示，整个网络被自动划分为边界清晰的不同子区域。

对如图3所示的地理信息网络添加更多的道路数据，也就是增加节点之间的连接信息，以增加网络的复杂性，仍然采用本发明的方法对地理信息网络进行挖掘处理，输出的图形如图6所示，整个网络中不同子区域以不同颜色显示，同时重叠结构的节点以近似颜色显示。

对比图4、5和6，可以看出本方法能够对地理信息网络进行自动检测和划分子区域，并自适应的检测重叠结构，使得使用者对地理信息网络有更好的理解。

本发明的方法利用提出的产生式网络模型计算各个节点的隐含参数，并通过隐含参数分布的标准差大小对产生式推理和标签传播进行算法集成，一定程度上克服了产生式模型对地理信息网络的欠拟合问题，提高了子区域划分的稳定性。本方法可以应用于地理信息网络可视化、城市规划、含位置信息的社交网络分析与挖掘等相关领域。

最后需要说明的是，上述描述仅仅为本发明的优选实施例，本领域的普通技术人员在本发明的启示下，在不违背本发明宗旨及权利要求的前提下，可以做出多种类似的表示，这样的变换均落入本发明的保护范围之内。

Claims

1.一种地理信息网络中自适应检测划分子区域的方法，其特征在于包括以下步骤：

S1，根据地理信息网络G构建模型：定义模型的节点空间θ，为所述地理信息网络G定义隐含参数Υ，所有隐含参数Υ构成隐含参数空间Υ，并建立所述节点空间θ与所述隐含参数空间Υ之间的联系，根据节点位置信息和节点邻接关系计算节点距离D、连边权重ω、节点强度s_i和所述地理信息网络G的总强度l；

S2，所述隐含参数Υ的外层循环迭代计算：定义所述隐含参数Υ的映射函数F(x，y)，所述映射函数F(x，y)将归一化后的所述隐含参数对映射到[0，1]区间，所述映射函数F(x，y)按式(1)进行计算；

其中

其中β_uv为模型组合系数，且β_uv＝β_vu，初始化设置为[0，2]区间内的随机小数；

S3，置信传播消息的内层循环迭代：将所述隐含参数Υ的概率q_i(x)定义为隐含参数值，表示节点i具有隐含参数x的概率分布，所述隐含参数值根据步骤S2得到的映射函数F(x，y)值、前一次迭代的置信传播消息Msg以及节点i的强度和节点i的相邻节点的强度计算得到，初始化所述隐含参数Υ的概率q_i(x)为[0，1]区间内的随机小数；