CN112446559B

CN112446559B - 一种基于深度学习的大范围地面沉降时空预测方法和系统

Info

Publication number: CN112446559B
Application number: CN202110134060.2A
Authority: CN
Inventors: 刘青豪; 张永红; 魏钜杰
Original assignee: Chinese Academy of Surveying and Mapping
Current assignee: Chinese Academy of Surveying and Mapping
Priority date: 2021-02-01
Filing date: 2021-02-01
Publication date: 2021-05-25
Anticipated expiration: 2041-02-01
Also published as: CN112446559A

Abstract

本申请公开了一种基于深度学习的大范围地面沉降时空预测方法和系统，首先获取等时间间距的地面沉降数据，利用空间聚类算法进行空间分区，得到若干个同质子区域。对同质子区域的任意点目标进行空间建模，采用反距离加权方法获取点目标的时空特征邻域，然后获取点目标的训练样本和测试样本。在同质子区域中构建基于长短期记忆网络的时空预测模型，对模型进行训练，随后对时空预测模型进行测试后，对大范围地面沉降进行预测。通过处理InSAR技术获取的地面沉降数据，创新性地运用深度学习技术对大区域下的点目标做出预测，提高了现有地面沉降预测方法的精度与效率，减小了大速率、不均匀的沉降对人类生活造成的危害。

Description

一种基于深度学习的大范围地面沉降时空预测方法和系统

技术领域

本申请涉及城市地质灾害技术领域，特别涉及一种基于深度学习的大范围地面沉降时空预测方法和系统。

背景技术

随着城市化的快速发展，人类对自然资源的需求不断增加，煤、石油、天然气、地下水等自然资源的不断开采使得地面沉降问题变得越发严重，大速率、不均匀的沉降已经对人类生活造成了巨大的危害，地面沉降问题已成为世界性的地质问题。因此，开展大范围地面沉降预测预报分析，对国土空间规划、防灾减灾等具有重要的研究价值和现实意义。

现有的地面沉降预测方法可以分为三类：物理机制方法、数理统计方法和机器学习方法。基于物理机制的方法从沉降内部的物理演化过程出发，通过实地检测和实验的方式获取包含岩性特征、水文特征在内的一系列复杂的物理参数，进而，对地面沉降进行模拟与预测，由于各种参数的存在，该类方法通常需要做出严格的假设才能应用，这些假设有时可能会失效。第二类方法旨在构造明确的统计表达式来预测时空变量。第二类方法可以对任何已知的时空数据进行建模，但是，线性假设使其难以解决时空数据之间的非线性关系，另一方面，由于未考虑地下岩土介质的本构关系，该类方法通常难以推广。基于机器学习的方法是在计算机的运算下进行沉降特征的学习，该类方法不受研究区域地质及水文等复杂物理参数的限制，此外，他们不需要可解释的关系形式化在自变量和因变量之间。支持向量回归、人工神经网络、贝叶斯网络、迁移学习等经典的方法在沉降时间序列预测方面均取得了不错的效果。然而，由于特征选择困难或数据粒度的差异，现有的机器学习方法通常难以得到较高的预测精度，此外，虽然机器学习方法可以建模复杂的非线性时序关系，但是，他们并没有很好地处理时空异质现象，这导致一个普遍的问题是结果缺乏可解释性。

发明内容

（一）申请目的

基于此，为了充分顾及沉降特性在空间分布上的差异，发挥深度学习技术在非线性拟合问题上的优势，提高现有地面沉降预测方法的精度与效率，减小大速率、不均匀的沉降对人类生活造成的危害，本申请公开了以下技术方案。

（二）技术方案

本申请公开了一种基于深度学习的大范围地面沉降时空预测方法，包括：

获取等时间间距的大范围地面沉降数据；

利用空间聚类算法将研究区域进行空间分区，得到若干个同质子区域；

对所述同质子区域的任意点目标进行空间建模，采用反距离加权方法获取所述任意点目标的时空特征邻域，通过所述时空特征邻域获取点目标的训练样本和测试样本；

在所述同质子区域中构建基于长短期记忆网络的时空预测模型，并根据所述训练样本和测试样本对所述时空预测模型进行模型训练，获取网格搜索优化所得超参数，基于所述超参数对所述测试样本的集合重训练得到网络内部参数；

利用所述测试样本的集合基于期望时刻的预测样本输入，对大范围地面沉降进行预测。

在一种可能的实施方式中，所述地面沉降需满足InSAR技术的形变处理要求，即研究位置可以提取出稳定的点目标。

在一种可能的实施方式中，所述获取等时间间距的大范围地面沉降数据包括：

利用雷达进行监测获取雷达影像数据；

将所述雷达影像数据利用InSAR技术进行处理获取大范围沉降时空数据；

通过现场实测水准点数据对InSAR形变结果进行精度验证，获取高精度点目标沉降时序数据；

对所述高精度点目标沉降时序数据进行差分、时间序列差值和标准化处理得到等时间间距的大范围地面沉降数据。

在一种可能的实施方式中，所述利用空间聚类算法将研究区域进行空间分区，得到得到若干个同质子区域包括：

利用Kmeans聚类算法获取聚类簇，将所述聚类簇作为形变区；

将所述形变区构建三角网，通过调整预先设定的约束常数对所述三角网的边长进行边长约束，进而得到若干个同质子区域。

在一种可能的实施方式中，所述Kmeans聚类算法所得聚类簇的最优数量采用DB指数以及DUNN指数来评价，DB指数如下：

式中，n表示聚类簇的数量，i、j表示聚类簇的索引，

是簇i内数据到簇i质心的平均距离，

是簇j内数据到簇j质心的平均距离，

表示簇i与簇j之间的质心距离；

DUNN指数如下：

式中，n表示聚类簇的数量，i、j表示聚类簇的索引，

是簇i内数据到簇j内数据的距离最小值，

表示簇k内点目标之间距离的最大值；

其中，DB指数为任意两个类别的类内平均距离之和与两聚类质心间距之比的最大值，表示簇内点目标到簇内聚类中心之间距离估计簇的紧密性；

DUNN指数为任意两簇间最短距离与任意簇的类内最大距离之比，表示簇内紧密性与簇间分离性。

在一种可能的实施方式中，基于所述超参数对所述测试样本的集合重训练得到网络内部参数包括：

根据前向计算方法计算长短期记忆网络细胞的输出值；

反向计算每个长短期记忆网络细胞的误差项；

根据所述误差项，计算每个权重的梯度；

利用基于所述梯度的优化算法更新权重。

作为本申请的第二方面，本申请还公开了一种基于深度学习的大范围地面沉降时空预测系统，包括：

数据获取模块用于获取等时间间距的大范围地面沉降数据；

区域划分模块用于利用空间聚类算法将研究区域进行空间分区，得到若干个同质子区域；

样本获取模块用于对所述同质子区域的任意点目标进行空间建模，采用反距离加权方法获取所述任意点目标的时空特征邻域，通过所述时空特征邻域获取点目标的训练样本和测试样本；

模型建立与训练模块在所述同质子区域中构建基于长短期记忆网络的时空预测模型，并根据所述训练样本和测试样本对所述时空预测模型进行模型训练，获取网格搜索优化所得超参数，基于所述超参数对所述测试样本的集合重训练得到网络内部参数；

沉降预测模块利用所述测试样本的集合基于期望时刻的预测样本输入，对大范围地面沉降进行预测。

在一种可能的实施方式中，所述数据获取模块包括：

雷达影像获取单元用于利用雷达进行监测获取雷达影像数据；

数据处理单元用于将所述雷达影像数据利用InSAR技术进行处理获取大范围沉降时空数据；

数据验证单元用于通过现场实测水准点数据对InSAR形变结果进行精度验证，获取高精度点目标沉降时序数据；

数据获取单元用于对所述高精度点目标沉降时序数据进行差分、时间序列差值和标准化处理得到等时间间距的大范围地面沉降数据。

在一种可能的实施方式中，所述区域划分模块包括：

形变区划分单元用于利用Kmeans聚类算法获取聚类簇，将所述聚类簇作为形变区；

同质子区域获取单元用于将所述形变区构建三角网，通过调整预先设定的约束常数对所述三角网的边长进行边长约束，进而得到若干个同质子区域。

式中，n表示聚类簇的数量，i、j表示聚类簇的索引，

是簇i内数据到簇i质心的平均距离，

是簇j内数据到簇j质心的平均距离，

表示簇i与簇j之间的质心距离；

DUNN指数如下：

式中，n表示聚类簇的数量，i、j表示聚类簇的索引，

是簇i内数据到簇j内数据的距离最小值，

表示簇k内点目标之间距离的最大值；

在一种可能的实施方式中，所述模型建立与训练模块包括：

模型建立单元用于在不同同质子区中分别建立时空预测模型；

超参数优化单元用于利用多层网格搜索算法获取最优超参数组合；

细胞输出值计算单元用于根据前向计算方法计算长短期记忆网络细胞的输出值；

误差项计算单元用于反向计算每个长短期记忆网络细胞的误差项；

权重梯度计算单元用于根据相应的误差项，计算每个权重的梯度；

权重更新单元用于利用基于梯度的优化算法更新权重。

（三）有益效果

本申请公开的一种基于深度学习的大范围地面沉降时空预测方法及系统，充分顾及了沉降特性在空间分布上的差异，发挥了深度学习技术在非线性拟合问题上的优势，提高了现有地面沉降预测方法的精度与效率，减小了大速率、不均匀的沉降对人类生活造成的危害。

附图说明

以下参考附图描述的实施例是示例性的，旨在用于解释和说明本申请，而不能理解为对本申请的保护范围的限制。

图1是本申请公开的一种基于深度学习的大范围地面沉降时空预测方法的流程示意图。

图2是本申请实施例提供的沉降时空数据累计形变空间分布图。

图3是本申请实施例提供的时空长短期记忆网络（STLSTM）预测框架。

图4是本申请实施例提供的差分沉降真实值与预测值可视化结果。

图5是本申请公开的一种基于深度学习的大范围地面沉降时空预测系统的结构框图。

具体实施方式

为使本申请实施的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行更加详细的描述。

下面参考图1详细描述本申请公开的一种基于深度学习的大范围地面沉降时空预测方法实施例。如图1所示，本实施例公开的方法主要包括有以下步骤100至步骤500。

步骤100，获取等时间间距的大范围地面沉降数据。

采用InSAR技术获取大范围沉降时空数据，经过一系列处理，最终得到等时间间隔的地面沉降数据。

在至少一种实施方式中，所述地面沉降需满足InSAR技术的形变处理要求，即研究位置可以提取出稳定的点目标。

在至少一种实施方式中，步骤100还包括步骤110至步骤140，

步骤110，利用雷达进行监测获取雷达影像数据。

所述雷达影像数据为单视复数SAR图像，SAR即合成孔径雷达，合成孔径雷达安装在移动平台上，移动平台可以为飞机等，在跟随移动平台移动过程中合成孔径雷达天线相位中心向地面发射电磁波并接收地面的回波，通过距离向脉冲压缩和方位向孔径合成处理，最终得到观测区域的SAR图像。SAR图像的基线包括时间基线与空间基线，空间基线描述的是两幅SAR图像成像时所对应的两个天线相位中心之间的距离，时间基线描述的是两幅SAR图像成像时所对应的两个时刻之间的时间差异。

步骤120，将所述雷达影像数据利用InSAR技术进行处理获取大范围沉降时空数据。

将步骤110得到的单视复数SAR图像利用InSAR技术进行处理，InSAR技术即合成孔径雷达干涉技术，是利用同一地区的两张SAR图像为基本处理数据，通过求取两幅SAR图像的相位差，获取干涉图像，然后经相位解缠，从干涉条纹中获取地形高程数据的空间对地观测技术，InSAR技术包括StaMPS、PS-InSAR、MCTSB-InSAR等方法，主要技术流程为影像配准，影像地理编码、点目标提取、主形变反演、大气校正、非线性反演等。

步骤130，通过现场实测水准点数据对InSAR形变结果进行精度验证，获取高精度点目标沉降时序数据。

水准测量是利用高精度水准仪和水准标尺测定两点间高差，通过平差获得水准点的高程，通过多期复测获取水准点的垂直运动速率，从而获得区域的垂直形变时空演化规律的方法，为了验证步骤120中得到的大范围沉降时空数据的精度，通过同一时期现场实际水准测量数据对InSAR形变结果进行精度验证，精度验证结果需满足当前《时间序列InSAR地表形变监测数据处理规范》，最终获得高精度点目标沉降时空序列数据。

步骤140，对所述高精度点目标沉降时序数据进行差分、时间序列差值、标准化处理得到等时间间距的大范围地面沉降数据。

步骤130中得到的高精度点目标沉降时空序列数据由于时空失相干等原因可能导致部分时刻形变信息缺失，则对相应时刻进行时间序列插值，得到等时间间距的大范围地埋沉降数据，设某一稳定点目标插值后的沉降时间序列为

，

，其中，m为插值后时间序列的长度，

表示第m时刻与前一时刻的差分沉降量。然后对差分沉降数据进行标准化，最终获取等时间间距的大范围地面沉降数据的时空矩阵

，其中，n代表稳定点目标的数量，m代表插值后时间序列的长度。

步骤200，利用空间聚类算法将研究区域进行空间分区，得到若干个同质子区域。

研究区域即指步骤100中得到的大范围沉降时空数据所在的区域，将研究区域划分为若干个同质子区域进行分别研究，同质子区域的特点是形变属性均质、空间位置邻近。后续根据不同的同质子区域分别进行建模，使得预测结果更精准。

在至少一种实施方式中，步骤200还包括步骤210至步骤220，

步骤210，利用Kmeans聚类算法获取聚类簇，将所述聚类簇作为形变区。

Kmeans聚类算法即k均值聚类算法，是一种迭代求解的聚类分析算法，其步骤是，预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本，聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有（或最小数目）对象被重新分配给不同的聚类，没有（或最小数目）聚类中心再发生变化，误差平方和局部最小。

根据每个点目标的平均形变速率或累积形变量，将沉降时空序列采用Kmeans聚类算法，首先获取K个聚类簇，最优聚类族的数量根据DB指数以及DUNN指数来评价，随机选取K个对象作为初始的聚类中心，经过不断计算最终确定每个聚类簇的聚类中心，将每个聚类簇视为一个级别的形变区。

在至少一种实施方式中，所述Kmeans聚类算法所得聚类簇的最优数量采用DB指数以及DUNN指数来评价，DB指数如下：

式中，n表示聚类簇的数量，i、j表示聚类簇的索引，

是簇i内数据到簇i质心的平均距离，

是簇j内数据到簇j质心的平均距离，

表示簇i与簇j之间的质心距离；

DUNN指数如下：

式中，n表示聚类簇的数量，i、j表示聚类簇的索引，

是簇i内数据到簇j内数据的距离最小值，

表示簇k内点目标之间距离的最大值；

步骤220，将所述形变区构建三角网，通过调整预先设定的约束常数对所述三角网的边长进行边长约束，进而得到若干个同质子区域。

首先设定边长约束常数

，对于步骤210得到的形变区，构建Delaunay三角网，通过调整边长约束常数来取消一些异常的边连接，最后将形变区划分为新的空间簇。该策略在对每个空间对象进行类别归属判断时，不仅考虑对象与某类别中心的属性距离，而且考虑了对象与该类别中已有空间对象的邻接关系，具体边长约束规则如下：

该式表示每个聚类簇构成的Delaunay三角网的边长判别准则，式中

，

分别表示局部Delaunay三角网中所有边长的平均值与标准差，L表示某一条边长，若某边长与平均边长的差的绝对值大于

倍的标准差，则删除该异常边，反之则保留该边长。最终，空间上不同位置的点目标将根据邻近性以及形变模式相似性近似得被划分为多个集合，获取边长约束后的聚类结果，作为若干个同质子区域

其中，z 表示同质子区的个数。

步骤300，对所述同质子区域的任意点目标进行空间建模，采用反距离加权方法获取所述任意点目标的时空特征邻域，通过所述时空特征邻域获取点目标的训练样本和测试样本。

反距离加权法插值也可称为距离倒数乘方法。是指距离倒数乘方格网化方法是一个加权平均插值法，可以进行确切的或者圆滑的方式插值。方次参数控制着权系数如何随着离开一个格网结点距离的增加而下降。对于一个较大的方次，较近的数据点被给定一个较高的权重份额，对于一个较小的方次，权重比较均匀地分配给各数据点。

针对步骤220得到的不同同质子区域中的任意点目标进行空间建模。采用反距离加权的方式获取任意点目标任意空间邻域的空间计算结果，生成的时间序列作为对应阶的空间特征，最终获取一个的时空矩阵

作为该点目标的时空特征邻域，其中，p表示空间特征的维度，m表示时间特征的维度。

点目标的沉降序列估计值如下：

其中，n表示邻域点目标的数量，i表示第i个邻域点目标，

表示第i个邻域点目标沉降序列向量，p为距离的幂，

为中心点目标与邻域点目标之间的距离，

如下：

其中，

，

分别为点目标与邻域点目标的坐标值。

表示邻域点目标的空间影响程度。p显著影响反距离加权计算的结果，它的选择标准是最小平均绝对误差。

建模完成后，得到以矩阵表示的任意点目标的时空特征邻域

，在时空特征邻域

中，以第m-1时刻作为时间截尾，长度为L的时空序列作为训练样本

，其中，前L-1时刻的时空信息作为样本输入，第L时刻的原始点目标时间序列形变值作为样本标签，同理，将训练样本向右滑动一个时刻获取该点目标处的测试样本，最终，在每个点目标处均可获取一个训练样本及一个测试样本。

步骤400，在所述同质子区域中构建基于长短期记忆网络的时空预测模型，并根据所述训练样本和测试样本对所述时空预测模型进行模型训练，获取网格搜索优化所得超参数，基于所述超参数对所述测试样本的集合重训练得到网络内部参数。

长短期记忆网络（LSTM）是一种时间循环神经网络，是为了解决一般的RNN（循环神经网络）存在的长期依赖问题而专门设计出来的，所有的RNN都具有一种重复神经网络模块的链式形式。在标准RNN中，这个重复的结构模块只有一个非常简单的结构。在步骤200中得到的多个同质子区域中并行建立时空长短期记忆网络（STLSTM）模型，步骤300中得到多个训练样本和测试样本，训练样本的集合即为训练集，测试样本的集合即为测试集，在整个研究区域中，测试集与训练集的样本数量一致。

在对步骤400建立的LSTM模型进行模型训练时，首先进行超参数的设置并对超参数进行调整优化，训练集与测试集在网格搜索中共同确定超参数设置。超参数是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。通常情况下，需要对超参数进行优化，给学习机选择一组最优超参数，以提高学习的性能和效果。采用网格搜索的方法对步骤400中建立的LSTM模型中的样本划分长度L、空间邻域阶数p、网络层数K和每层LSTM隐藏层的特征数量S等超参数进行优选，以平均

预测精度最高作为参数优选的依据，即预测样本的沉降量预测误差

最小，目标函数可以表示为：

式中：

,

和

分别为对应参数的网格搜索步长。

、

、p和

这4个参数构成了一个三维搜索空间，可以通过多层网格搜索算法获取最优参数组合。其中，网格搜索范围

与

需要根据预测效果由人为经验设定，m则取决于时间序列长度,考虑到计算复杂度，空间邻域通常取阶数p=1，该值与点目标的空间密度及网络训练效果有关。此外，学习率

也是模型训练过程中影响较大的参数，该方法中采用衰减学习率的方式，即根据实际效果每迭代20次乘以一个0.1的衰减系数。适应性动量估计(Adam)算法作为模型优化器。隐含层输出

、样本标签Y均是

的一维数组。选用均方误差作为误差统计指标，训练过程的损失函数可以定义为：

损失函数表示在单个样本上的预测误差，用于计算一个样本预测值与真实值之间的偏差，进而在反向传播过程中通过梯度下降优化模型参数。

对更新后的训练样本，基于优化后的超参数，利用与经典的反向传播算法原理类似的BPTT算法，即时间反向传播算法对模型进一步训练（该步骤会更新网络的内部参数，而非更改超参数）。两步训练后的模型是最终使用的预测模型。

在至少一种实施方式中，步骤400中的基于所述超参数对所述测试样本的集合重训练得到网络内部参数还包括步骤410至步骤440

步骤410，根据前向计算方法计算长短期记忆网络细胞的输出值；

其前向计算方法可表示为：

其中，

表示样本时间序列中第时刻的输入，

表示相应细胞单元的隐含状态输出。式中

分别表示输入门、遗忘门、细胞状态、输出门，W和

分别为对应的权重系数矩阵和偏置项，

和

分别为

和双曲正切激活函数。

步骤420，反向计算每个长短期记忆网络细胞的误差项。

根据步骤410得到的细胞输出值反向计算每个长短期记忆网络细胞的误差项。

步骤430，根据相应的误差项，计算每个权重的梯度。

根据步骤420计算得到的误差项，计算每个权重的梯度。

步骤440，利用基于梯度的优化算法更新权重。

根据步骤430得到的权重梯度，利用基于梯度的优化算法更新权重。

步骤500，利用所述测试样本的集合基于期望时刻的预测样本输入，对大范围地面沉降进行预测。

预测样本为测试样本向右滑动一个时刻所产生的相同点目标处的样本输入与样本标签。步骤400建立模型并对模型进行训练后，利用测试样本的集合即测试集对模型进行测试，测试集用来检验最终选择最优的模型的性能如何。保存优化得到的网络超参数，将标准化后的子区预测样本逐点输入训练好的模型中，最终获取拼接后的输出结果，可以表示为：

其中，

表示模型对不同高相干点的时空预测结果集合，y表示点目标，n表示点目标的索引。通过计算网络训练及网络预测过程中输出结果

与真实样本标签Y的偏差，定量地给出模型训练和预测的精度，具体表示为：

其中，

表示模型预测精度，MAE表示平均绝对误差，MAP表示平均实际形变量。

沧州地区近年来地表沉降现象十分严重，本实施例选取该地区为研究区域。下面结合此实施例说明本发明进行时空预测的具体实施步骤：

1）沉降时空数据准备。以2017年1月至2019年12月获取的80期Sentinel-1A影像为遥感数据源，采用多主影像相干目标小基线（MCTSB-InSAR）技术开展数据准备工作。结果，得到430476个高相干点的沉降时序（图2），采用沧州地区国家二等水准数据进行对比验证，结果表明，本文数据源的形变反演精度为7.2mm，足以支持本项研究。经过差分、时间序列插值、标准化处理后，每个观测点位拥有89个等时间间隔的形变数据。

2）本实施例提供的STLSTM时空预测框架，如图3所示。

3）采用Kmeans、Delaunay边长约束两种聚类策略，将研究区域分别按照沉降属性相似性、空间邻近性划分为7个同质子区，边长约束参数

设置为7。

4）采用图3所示大范围地面沉降时空预测框架，对每个同质子区并行建立深度学习模型，通过网格搜索方法遍历获取最优超参数，进而对测试样本进行预测，大部分点目标的预测误差在0.5mm以内，差分沉降真实值与预测值可视化结果如图4所示。

5）采用相同的沉降数据，对现有沉降预测方法的预测误差及建模时间做出对比分析，STLSTM具有优异的表现，是一种高精度、高时效的大范围地面沉降预测方法，对于生产安全防范具有重要意义，具体结果如表1所示。

表1 时空预测误差对比表

注：表中MAE代表平均绝对误差，SD代表标准差，MSE代表均方误差，MT代表建模时间。

下面参考图5详细描述本申请公开的一种基于深度学习的大范围地面沉降时空预测系统实施例。如图5所示，本实施例公开的系统包括：

数据获取模块用于获取等时间间距的大范围地面沉降数据；

模型建立与训练模块用于在所述同质子区域中构建基于长短期记忆网络的时空预测模型，并根据所述训练样本和测试样本对所述时空预测模型进行模型训练，获取网格搜索优化所得超参数，基于所述超参数对所述测试样本的集合重训练得到网络内部参数；

沉降预测模块用于利用所述测试样本的集合基于期望时刻的预测样本输入，对大范围地面沉降进行预测。

在至少一种实施方式中，所述数据获取模块包括：

在至少一种实施方式中，所述区域划分模块包括：

式中，n表示聚类簇的数量，i、j表示聚类簇的索引，

是簇i内数据到簇i质心的平均距离，

是簇j内数据到簇j质心的平均距离，

表示簇i与簇j之间的质心距离；

DUNN指数如下：

式中，n表示聚类簇的数量，i、j表示聚类簇的索引，

是簇i内数据到簇j内数据的距离最小值，

表示簇k内点目标之间距离的最大值；

在至少一种实施方式中，所述模型建立与训练模块包括：

权重更新单元用于利用基于梯度的优化算法更新权重。

本文中的模块、单元或子单元的划分仅仅是一种逻辑功能的划分，在实际实现时可以有其他的划分方式，例如多个模块和/或单元可以结合或集成于另一个系统中。作为分离部件说明的模块、单元、子单元在物理上可以是分开的，也可以是不分开的。作为单元显示的部件可以是物理单元，也可以不是物理单元，即可以位于一个具体地方，也可以分布到网格单元中。因此可以根据实际需要选择其中的部分或全部的单元来实现实施例的方案。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。