CN112417078A

CN112417078A - 一种航空地球物理制图数据空间点聚合方法

Info

Publication number: CN112417078A
Application number: CN202011375697.2A
Authority: CN
Inventors: 孙晨星; 陈占龙; 董宇璇; 王林飞; 闫红雨; 江宝得; 熊盛青; 陶留锋; 何辉; 周彰
Original assignee: China University of Geosciences; China Aero Geophysical Survey and Remote Sensing Center for Natural Resources
Current assignee: China University of Geosciences; China Aero Geophysical Survey and Remote Sensing Center for Natural Resources
Priority date: 2020-11-30
Filing date: 2020-11-30
Publication date: 2021-02-26
Anticipated expiration: 2040-11-30
Also published as: CN112417078B

Abstract

本发明提供一种航空地球物理制图数据空间点聚合方法，包括对提取出来的目标点群进行数据划分，构建相似度矩阵；使用聚类算法对构建的相似度矩阵进行聚类操作，得到聚类结果；对得到的聚类结果进行数据重构，得到最终点注记目标结果；本发明在一定程度上，能够提升海量航空地球物理数据处理效率，提高成果图展示效果，给用户带来更好的体验，达到快速制图的目的。

Description

一种航空地球物理制图数据空间点聚合方法

技术领域

本发明涉及制图数据处理技术领域，尤其涉及一种航空地球物理制图数据空间点聚合方法。

背景技术

在地理空间中，存在某些区域有大量注记类标识与对象需要显示的情况，而在有限范围内同时显示这些空间点会相互堆叠和覆盖。然而在某一固定区域的样本数据中，往往并不只有一种类型，通常是多种不同的样本对象存在于同一片范围内，如同一片区域内的酒店、商场、加油站。此时就需要对该区域的注记对象，根据语义特征进行数据划分，得到不同语义特征的样本数据。之后对同一类型的数据进行聚合，得到理想的结果。

聚类是一种机器学习技术，它设计到数据点的分组。即给定一组数据，通过聚类算法将每个数据点划分为一个特定的组。聚类的结果满足在同一个子集内部各个样本之间相似度较高，不同子集的样本之间的没有相同的。相似度的标准由聚类算法本身的准则决定。常见的聚类算法有基于层次的聚类、基于质心的聚类、基于概率分布的聚类、基于密度的聚类和基于图的聚类。其中基于图的聚类把样本集中的每个数据看作图结点，结点之间构建连接边，为每条连接边赋权重后形成图结构；然后通过图切割把图分割为若干个子图，每个子图即为一个子簇。基于图聚类与基于质心聚类的不同点在于，基于图聚类使用数据之间的连接边权重代替了数据之间的相似度值。所以，基于图聚类需要定义连接边的权值计算方法。

为了实现对复杂区域内大量样本的数据划分，更高效的获取不同语义特征的样本数据，本发明基于现有的AP算法进行改进，使用一种较为稀疏的图结构作为信息传播的载体，在全连接图被KD树划分的基础上，各个分区里构建k邻近图时各个数据点只与其最邻近的k个点建立连接关系可以大量的减少点之间的连接边的数量，从而减少大量的连接边，进而提高聚类操作的效率。

发明内容

有鉴于此，本发明目的是提供一种航空地球物理制图数据空间点聚合方法，包括以下步骤：

S1、对提取出来的目标点群进行数据划分，构建相似度矩阵；

S2、使用聚类算法对步骤S1构建的相似度矩阵进行聚类操作，得到聚类结果；

S3、对步骤S2得到的聚类结果进行数据重构，得到最终点注记目标结果。

本发明提供的技术方案带来的有益效果是：在一定程度上，能够提升海量航空地球物理数据处理效率，提高成果图展示效果，给用户带来更好的体验，达到快速制图的目的。

附图说明

图1是本发明一种航空地球物理制图数据空间点聚合方法的空间点聚合模型构建流程图；

图2是本发明一种航空地球物理制图数据空间点聚合方法的聚类算法示例图；

图3是本发明一种航空地球物理制图数据空间点聚合方法的近邻传播算法实现过程；

图4是本发明一种航空地球物理制图数据空间点聚合方法的构建相似度矩阵的图结构；

图5是本发明一种航空地球物理制图数据空间点聚合方法的点注记典型化模型构建；

图6是本发明一种航空地球物理制图数据空间点聚合方法的近邻传播算法信息传递过程；

图7是本发明一种航空地球物理制图数据空间点聚合方法的目标重构过程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地描述。

请参考图1，本发明基于现有的AP算法进行改进，使用一种较为稀疏的图结构作为信息传播的载体，在全连接图被KD树划分的基础上，各个分区里构建k邻近图时各个数据点只与其最邻近的k个点建立连接关系可以大量的减少点之间的连接边的数量，从而减少大量的连接边，进而提高聚类操作的效率，请参考图2，本发明一种航空地球物理制图数据空间点聚合方法，包括以下步骤：

S1、对提取出来的目标点群进行数据划分，构建相似度矩阵，具体如下：

S11、输入原始注记数据Z＝{z₁,z₂,…,z_n}，根据注记外包矩形参数T_size，提取注记目标控制点数据M＝{m₁,m₂,…,m_n}；

S12、对提取的控制点数据M＝{m₁,m₂,…,m_n}，根据数据的特征值E＝{e₁,e₂,…,e_n}，进行控制点数据区分，得到具有单一特征的点集数据X＝{x₁,x₂,…,x_n}；

S13、对单一特征的点集数据X＝{x₁,x₂,…,x_n}，根据提前确定的阈值Num, 进行KD树分区，得到多个分区的点集数据X＝{x₁,x₂,…,x_n}；

S131、更新KD树深度，输出分区点集数据大小n；

S132、若n＝＝Num，输出X，否则执行S131；

S14、根据分区的点集数据X，计算相似度矩阵S，设置统一参考度p；

假设点注记目标群集合为X＝{x₁,x₂,…x_i,…x_j,…x_n}，某目标比例尺下点群的保留数量为n，则其相似度矩阵S如下：

如图4所示，构建k(k＝5)邻近连接图，可以大量的减少点之间的连接边的数量，从而减少大量的连接边，进而提高聚类操作的效率。此时，数据点x_i和x_j之间的相似度定义为s_ij，表示点x_j作为点x_i的聚类中心的能力，使用负的欧氏距离作为两点间的相似度，如下式所示：

上式中，d表示每个数据点的描述特征的个数，x_ik和x_jk分别表示x_i和x_j的第 k个特征属性值，1≤k≤d，且s_ij越大，两个数据点的距离越近，相似度越高；

参考度s_ii的定义如下：

在相似度矩阵对角线位置的参考度取值会对类代表点的选择产生影响。当所有样本数据的性质都相同时，设置统一的参考度值为p，p一般采用所有取值为非-∞的顶点相似度的平均值或中位数，q表示目标x_i的语义重要性程度，0≤ q≤1,q的取值越大，表示目标x_i的语义重要性程度越高，p<0，q取值越接近 1，参考度s_ii的值越接近0，x_i被选为聚类中心的概率越高。

AP算法的顶点相似度矩阵建立在全连接的图结构G＝(V,E)上，其中，顶点 vi∈V对应目标x_i，连接边e_ij∈E表示目标x_i与目标x_j之间的连接关系，e_ij的欧氏距离定义为两个目标之间的相似度，如图3所示，该算法的时间复杂度较高，为O(N²T)，其中N为样本数，T为迭代次数，因此当N比较大时(N>3000)， AP聚类算法往往需要算很久；如上文所述，KD树能够解决样本数量过多造成的算法效率低的问题，基于KD树进行AP聚类算法，能够在一定程度上对算法效率进行提升；

S21、构建k邻近图，计算相似度矩阵S，设置点注记目标语义重要性Q＝ {q₁,q₂,…}，参考度数值p，阻尼系数λ，吸引度矩阵和归属度矩阵的最大迭代次数t_max，聚类结果稳定次数e，参考度调整步长μ，先设k＝1；

S22、执行第k轮AP聚类；

S221、设吸引度矩阵R＝[r_ik]＝[0]、归属度矩阵A＝[a_ik]＝[0]、更新迭代次数t＝0以及聚类稳定次数e_k＝0；

S222、更新R和A，t＝t+1；

S223、若当前聚类结果判断与t-1次聚类结果一致，e_k＝e_k+1，否则e_k＝0；

S224、若t达到最大迭代次数t_max或者聚类结果稳定次数达到e，则终止该轮聚类过程，记录聚类结果并统计子类数量a_k，执行步骤S23；否则，执行步骤S222；

S23、判断是否满足a_k-1≤n≤a_k或者a_k≤n≤a_k-1其中之一，若满足，按步骤S231输出最终聚类结果；否则，执行步骤S232；

S231、若|a_k-1-n|＜|a_k-n|，输出第k-1轮聚类结果；否则，输出第k轮聚类结果；

S232、若a_k＞n，调整参数p＝(1+μ)×p；否则，调整p＝(1-μ)×p；重新计算每个目标参考度并更新相似度矩阵S，k＝k+1，执行步骤S22。

空间点聚合模型构建如图5所示，确定相似度矩阵后，需要设置吸引度(Responsibility)和归属度(Availability)矩阵。吸引度指点x_k适合作为数据点 x_i的聚类中心的程度，记为r(x_i,x_k)。而归属度指点x_i选择点x_k作为其聚类中心的适合程度，记为a(x_i,x_k)，近邻传播算法信息传递过程见图6。

归属度矩阵和吸引度矩阵需要多次更新迭代，以得到公平的聚类中心。在初次迭代时，归属度矩阵被初始化为0，a(x_i，x_k)＝0，而吸引度矩阵定义如下：

在后面的迭代中，为了避免振荡，AP算法更新信息时引入了阻尼系数λ，λ∈ [0，1]，一般默认为0.5，每条信息都被设置为前一次迭代更新值的λ倍加上本次信息更新值的1-λ倍。

设t为矩阵更新次数，则吸引度矩阵R的更新迭代方法如下：

r_t+1(x_i，x_k)＝(1-λ)·r_t+1(x_i，x_k)+λ·r_t(x_i，x_k)

其中，

其中，t为矩阵R的更新次数，x_k′为竞争点，候选点x_k适合作为数据点x_i的聚类中心的程度，记为吸引度r(x_i，x_k)，数据点x_i选择候选点x_k作为其聚类中心的适合程度，记为归属度a(x_i，x_k)，数据点x_i与候选点x_k的相似度矩阵记为 s(x_i，x_k)。

归属度矩阵A的更新迭代方法如下：

a_t+1(x_i，x_k)＝(1-λ)·a_t+1(x_i，x_k)+λ·a_t(x_i，x_k)

其中，

其中，t为矩阵A的更新次数，x_k′为竞争点，数据点x_i选择候选点x_k作为其聚类中心的适合程度，记为归属度a(x_i，x_k)，候选点x_k适合作为数据点x_i的聚类中心的程度，记为吸引度r(x_i，x_k)。

请参考图7，所述步骤S3具体如下：

S31、设当前需要重构的点群子类为Y＝{y₁，y₂，…，y_k}，语义重要性分别为 Q＝{q₁，q₂，…，q_k}，获取子类Y中所有目标的包括字体、尺寸、位置、子类个数、以及语义重要度信息；

S32、设聚类中心点y_c，的语义重要性为q_c，c≤k，0≤q_c≤1，当

时，通过当前子类所有目标的综合属性，包括字体、尺寸、位置以及个数的，计算得出聚类中心点y_c的多项属性，包括字体、尺寸、位置和子类个数；

S33、对各个分区中重构后的聚类中心点注记进行融合，得到最终的全局聚类结果。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种航空地球物理制图数据空间点聚合方法，其特征在于，包括以下几个步骤：

2.根据权利要求1所述的一种航空地球物理制图数据空间点聚合方法，其特征在于，步骤S1所述构建的相似度矩阵具体如下：

假设数据点集合为X＝{x₁，x₂，…，x_n}，则其相似度矩阵S如下：

数据点x_i和x_j之间的相似度定义为s_ij，表示点x_j作为点x_i的聚类中心的能力，使用负的欧氏距离作为两点间的相似度，如下式所示：

上式中，d表示每个数据点的描述特征的个数，x_ik和x_jk分别表示x_i和x_j的第k个特征属性值，1≤k≤d，且s_ij越大，两个数据点的距离越近，相似度越高；

参考度s_ii的定义如下：

s_ii＝(1-q)×p

其中，p为设置的参考度值，q表示目标x_i的语义重要性程度，0≤q≤1，q的取值越大，表示目标x_i的语义重要性程度越高，p＜0，q取值越接近1，参考度s_ii的值越接近0，x_i被选为聚类中心的概率越高。

3.根据权利要求1所述的一种航空地球物理制图数据空间点聚合方法，其特征在于，步骤S2中所述聚类操作具体如下：

S21、构建k邻近图，计算相似度矩阵S，设置点注记目标语义重要性Q＝{q₁，q₂，…}，参考度数值p，阻尼系数λ，吸引度矩阵和归属度矩阵的最大迭代次数t_max，聚类结果稳定次数e，参考度调整步长μ，先设k＝1；

S22、执行第k轮AP聚类；

S222、更新R和A，t＝t+1；

4.根据权利要求3所述的一种航空地球物理制图数据空间点聚合方法，其特征在于，设t为矩阵更新次数，则吸引度矩阵R的更新迭代方法如下：

r_t+1(x_i，x_k)＝(1-λ)·r_t+1(x_i，x_k)+λ·r_t(x_i，x_k)

其中，

其中，λ为阻尼系数，λ∈[0，1]，t为矩阵R的更新次数，x_k′为竞争点，候选点x_k适合作为数据点x_i的聚类中心的程度，记为吸引度r(x_i，x_k)，数据点x_i选择候选点x_k作为其聚类中心的适合程度，记为归属度a(x_i，x_k)，数据点x_i与候选点x_k的相似度矩阵记为s(x_i，x_k)。

5.根据权利要求3所述的一种航空地球物理制图数据空间点聚合方法，其特征在于，归属度矩阵A的更新迭代方法如下：

a_t+1(x_i，x_k)＝(1-λ)·a_t+1(x_i，x_k)+λ·a_t(x_i，x_k)

其中，

其中，λ为阻尼系数，λ∈[0，1]，t为矩阵A的更新次数，x_k′为竞争点，数据点x_i选择候选点x_k作为其聚类中心的适合程度，记为归属度a(x_i，x_k)，候选点x_k适合作为数据点x_i的聚类中心的程度，记为吸引度r(x_i，x_k)。

6.根据权利要求1所述的一种航空地球物理制图数据空间点聚合方法，其特征在于，所述步骤S3具体如下：

S31、设当前需要重构的点群子类为Y＝{y₁，y₂，…，y_k}，语义重要性分别为Q＝{q₁，q₂，…，q_k}，获取子类Y中所有目标的包括字体、尺寸、位置、子类个数、以及语义重要度信息；