CN113177575A

CN113177575A - 一种基于动态时间规整与k-means聚类的边坡形变区域划分方法

Info

Publication number: CN113177575A
Application number: CN202110345076.8A
Authority: CN
Inventors: 田卫明; 杜琳; 胡程; 邓云开; 董锡超
Original assignee: Beijing Institute of Technology BIT; Chongqing Innovation Center of Beijing University of Technology
Current assignee: Beijing Institute of Technology BIT; Chongqing Innovation Center of Beijing University of Technology
Priority date: 2021-03-31
Filing date: 2021-03-31
Publication date: 2021-07-27
Anticipated expiration: 2041-03-31
Also published as: CN113177575B

Abstract

本发明提供一种基于动态时间规整与k‑means聚类的边坡形变区域划分方法，通过比较监测区间各监测点累计位移量变化情况，选取基准点位移时间序列；之后采用移动平均平滑预处理，提取监测区域内各监测点变化趋势，通过设置门限值筛选进行后续分类的监测点坐标位置集合，从而利用动态时间规整算法计算集合内位移时间序列相似度；最后以监测区间内累计位移量和DTW相似度矩阵为输入特征，建立以k‑means无监督聚类算法的监测点位移时间序列分类模型，从而获得边坡形变区域在不同类簇数目下的初步划分结果，再通过计算多指标综合评价不同类簇数目下的分类结果，为边坡形变区域划分提供了一种简洁、高效的分类方法。

Description

一种基于动态时间规整与k-means聚类的边坡形变区域划分方法

技术领域

本发明属于微波遥感和地质灾害预测预警的技术领域，尤其涉及一种基于动态时间规整与k-means聚类的边坡形变区域划分方法。

背景技术

基于地基合成孔径雷达差分干涉测量技术，通过对同一位置、不同时刻获取的两幅雷达图像进行差分干涉处理，基于相位信息可以获得监测区域的位移信息。从大范围的目标区域中准确提取出各处形变区域，并结合各处形变区域的时间演变和空间分布信息等，有利于分析监测区域的整体稳定性，评估滑坡发生风险等级等。因此，边坡形变区域划分是滑坡稳定性监测中很重要的一步。

边坡形变区域划分方法，根据是否含有标签集，分为有监督学习算法和无监督学习算法两类。有监督学习算法主要通过搭建神经网络模型，进行监测区域内监测点的分类，但通常需要利用人为经验设置隐藏层个数、每层包含神经元个数等参数。无监督学习算法，如k-means聚类算法等，通常是以形变速率为单一指标进行各监测点的分类，由于形变速率无法评估监测点所处变形阶段，分类准确度较低。

理想位移-时间曲线包含初始变形阶段、等速变形阶段、加速变形阶段三个阶段，其滑坡演变阶段以累计加速度、累计加加速度为定量依据进行划分。位移时间序列能够描述一个监测点的变形演变情况及潜在变化，因此可引入各监测点所处形变状态作为边坡形变区域划分的评价标准。动态时间规整算法为一种模版匹配方法，通过遍历模版库内所有对象，选择出相似度足够高的结果，即认为其与该模版匹配。因此，可以通过动态时间规整算法计算不同监测点位移时间序列的相似度，来判断各监测点所处状态是否相近。

因此，针对常规边坡形变区域划分方法所存在的各项问题，有必要研究基于动态时间规整与k-means聚类的边坡形变区域划分方法。

发明内容

为解决无监督边坡形变区域划分中计算量大、以位移速率为单一指标等问题，本发明提供一种基于动态时间规整与k-means聚类的边坡形变区域划分方法，能够实现边坡形变区域的有效划分。

一种基于动态时间规整与k-means聚类的边坡形变区域划分方法，包括以下步骤：

S1：在待监测边坡区域中，选取监测时间区间内累计位移量绝对值最大的监测点作为基准点；

S2：采用移动平均法分别从基准点与待监测边坡区域内其余监测点对应的位移时间序列中提取基准点与其余监测点的趋势项位移；

S3：分别对其余监测点的趋势项位移进行求导，得到其余监测点的变形速率序列，再将变形速率序列中变形速率零值的占比小于门限值的监测点作为备选监测点；

S4：采用动态时间规整算法分别获取各备选监测点的趋势项位移与基准点的趋势项位移之间的DTW相似度矩阵；

S5：将DTW相似度矩阵与监测时间区间内的累计位移量作为各备选监测点与基准点在k-means无监督聚类算法中对应的特征向量，并设定两个以上的类簇数目，再分别在不同类簇数目下，根据确定好特征向量的k-means无监督聚类算法对各备选监测点与基准点进行分类，得到各类簇数目对应的分类结果；

S6：按照设定的评价指标分别对各类簇数目对应的分类结果进行评估，将最大评估值对应的类簇数目作为边坡形变区域被划分的类别数，并将该类簇数目对应的分类结果作为边坡形变区域的划分结果。

进一步地，步骤S2中所述的基准点与其余监测点的趋势项位移的提取方法为：

S21：将基准点对应的位移时间序列表示为

其余监测点对应的位移时间序列表示为

其中，N为监测时间区间内的监测周期数量，m为监测点的序号；

S22：根据各监测点对应的位移时间序列

来获取各监测点在第n个监测周期的移动平均结果

得到各监测点的趋势项位移

其中，移动平均结果

的计算公式如下：

其中，T为移动平均法中设定的滑动周期，

表示第m个监测点在第n个监测周期的累计位移量，且n＝T，T+1，…，N；

S23：根据基准点对应的位移时间序列

来获取基准点在第n个监测周期的移动平均结果

得到基准点的趋势项位移

其中，移动平均结果

的计算公式如下：

其中，

表示基准点在第n个监测周期的累计位移量。

进一步地，采用Max-Min归一化方法对各备选监测点的趋势项位移与基准点的趋势项位移进行归一化后，再采用动态时间规整算法分别获取各备选监测点的趋势项位移与基准点的趋势项位移之间的DTW相似度矩阵。

进一步地，采用动态时间规整算法分别获取各备选监测点的趋势项位移与基准点的趋势项位移之间的DTW相似度矩阵具体为：

S41：将基准点的趋势项位移记为

备选监测点的趋势项位移记为

其中，

为基准点在第T～N个监测周期的移动平均结果，

为备选各监测点在第T～N个监测周期的移动平均结果，且N为监测时间区间内的监测周期数量，m为监测点的序号，T为移动平均法中设定的滑动周期；

S42：分别将各备选监测点作为当前监测点m执行以下步骤，得到各备选监测点的趋势项位移与基准点的趋势项位移之间的DTW相似度矩阵：

采用当前监测点m的趋势项位移

与基准点的趋势项位移

建立矩阵网格D_m，其中，矩阵网格D_m中的矩阵元素D_m(i，j)表示趋势项位移

第i个向量元素

与趋势项位移

第j个向量元素

的欧氏距离

其中，i＝1，2，…，N-T+1，j＝1，2，…，N-T+1；

根据当前监测点m对应的矩阵网格D_m获取当前监测点m对应的DTW相似度矩阵R_m，其中，DTW相似度矩阵R_m第一列中各元素R_m(i，1)的计算公式为：

(i＝1，…，N-T+1)

DTW相似度矩阵R_m第一行中各元素R_m(1，j)的计算公式为：

(j＝1，…，N-T+1)

DTW相似度矩阵R_m其余行其余列各元素R_m(i，j)的计算公式为：

(i＝2，…，N-T+1；j＝2，…，N-T+1)

其中，DTW相似度矩阵R_m中的各元素R_m(i，j)表示当前监测点m的趋势项位移

的前i项构成的序列与基准点的趋势项位移

前j项构成的序列的DTW相似度。

进一步地，所述根据确定好特征向量的k-means无监督聚类算法对各备选监测点与基准点进行分类具体为：

S51：构建目标函数如下：

其中，I⁽¹⁾～I^(R)为样本点对应的特征向量f(1)～f(R)所指定的簇的索引值，μ_v为对应簇的聚类中心，r＝1，2，3，…，R，R为基准点和备选监测点的总数，v＝1，2，3，…，V，V为聚类簇的个数，且所述样本点包括基准点和备选监测点；

S52：优化解算所述目标函数，以实现对各备选监测点与基准点的分类。

进一步地，步骤S6中所述的评价指标包括误差平方和点积PNSSE、DB指数以及CH分数，各类簇数目对应的分类结果的评估值的获取方法为：

S61：基于熵值法确定误差平方和点积PNSSE、DB指数以及CH分数的权值；

S62：分别获取各类簇数目对应的分类结果的误差平方和点积PNSSE、DB指数以及CH分数；

S63：分别将每一个类簇数目对应的分类结果的误差平方和点积PNSSE、DB指数以及CH分数按照对应的权值进行加权求和，所得和值为各类簇数目对应的分类结果的评估值。

进一步地，各类簇数目对应的分类结果的误差平方和点积PNSSE的计算方法为：

其中，V为类簇数目，SSE为类簇数目V对应的分类结果中，各样本点与其对应的聚类中心的欧式距离的平方和，其中，样本点包括备选监测点与基准点。

有益效果：

本发明提供一种基于动态时间规整与k-means聚类的边坡形变区域划分方法，首先提取基准点和其他监测点的形变数据的趋势项位移，然后采用动态时间调整算法计算监测点的趋势项位移与基准点的趋势项位移之间的相似度，最后基于k-means聚类实现形变区域划分，并通过计算多指标综合评价不同类簇数目下的分类结果，选取评价结果最优的类簇数目作为监测区域内各监测点的分类类别数量，从而获得监测区域内不同监测点位移时间序列分类信息，能够实现边坡形变区域划分结果的自动获取；由此可见，本发明有效弥补了以位移速率为单一指标的无监督学习算法在形变区域划分中的不足，为边坡形变区域划分提供了一种方便、准确的分类方法。

附图说明

图1为本发明实施例中边坡实例场景照片。

图2为本发明方法流程图。

图3为本发明实施例单一监测周期的累计位移量结果图。

图4为本发明实施例基准点位移时间序列变化结果图。

图5为本发明实施例基准点累积位移量变化及移动平均结果图。

图6为本发明实施例滤除点分布及监测区间内累计位移量结果图。

图7为本发明实施例监测区域DTW相似度结果图。

图8为本发明实施例多指标综合评价结果曲线变化结果图。

图9为本发明实施例边坡形变区域划分结果图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本发明提出一种基于动态时间规整与k-means聚类的边坡形变区域划分方法，在滑坡灾害预测预警方面有重要用途。通过比较监测区间内累计位移量变化情况，选取基准点位移时间序列，经过归一化及移动平均预处理，提取各监测点累计位移量变化趋势；之后设置变形速率零值所占比门限值，选取需要进行后续分类的监测点集合后，采用动态时间规整算法计算各点位移时间序列与基准位移时间序列的相似度；最终选取累计位移量和对应相似度为特征，利用k-means聚类算法进行各监测点位移时间序列的分类，同时计算不同个数分类簇多指标综合评价结果得分，从而获得最优边坡形变区域划分结果。

以青海威斯特铜矿为例，说明本发明的具体实施过程。青海威斯特露天铜矿位于青海省果洛藏族自治州，监测场景照片如图1所示。实验采用地基合成孔径雷达(GB-SAR)进行连续多天边坡形变监测，基于差分干涉技术实现了高精度形变监测。本发明给出青海威斯特铜矿的边坡形变区域划分方法，如图2所示，实施步骤如下：

S1：在待监测边坡区域中，选取监测时间区间内累计位移量绝对值最大的监测点作为基准点。

需要说明的是，步骤S1是为了获取基准点位移时间序列，具体的，本发明基于地基合成孔径雷达差分干涉测量技术，获取监测边坡区域的长时间形变信息。选取监测时间区间内累计位移量绝对值最大的监测点，以其位移时间序列作为基准点位移时间序列，设整个监测区间共包含等时间间隔的N个监测周期，基准时间序列表示为

图3所示为累计位移量数据。基准点累积位移量变化如图4所示。

S2：采用移动平均法分别从基准点与待监测边坡区域内其余监测点对应的位移时间序列中提取基准点与其余监测点的趋势项位移。

需要说明的是，边坡的运动状态具有不确定性，因此监测区域内各点累计位移量通常是一个随时间变化的非稳定时间序列。在忽略地震、人类活动等随机扰动的情况下，通常将单点累计位移量分解为趋势项位移和周期项位移，其中趋势项位移可以表示该点累计位移量的变化趋势。

本发明采用移动平均法提取监测区域内各点及基准点位移时间序列的趋势项位移，包括以下步骤：

S21：将基准点对应的位移时间序列表示为

其余监测点对应的位移时间序列表示为

S22：根据各监测点对应的位移时间序列

来获取各监测点在第n个监测周期的移动平均结果

得到各监测点的趋势项位移

其中，移动平均结果

均计算公式如下：

其中，T为移动平均法中设定的滑动周期，

S23：根据基准点对应的位移时间序列

来获取基准点在第n个监测周期的移动平均结果

得到基准点的趋势项位移

其中，移动平均结果

的计算公式如下：

其中，

表示基准点在第n个监测周期的累计位移量，且基准点累积位移量变化及移动平均结果如图5所示。

S3：分别对其余监测点的趋势项位移进行求导，得到其余监测点的变形速率序列，再将变形速率序列中变形速率零值的占比小于门限值的监测点作为备选监测点。

需要说明的是，步骤S3实际为对待监测边坡区域中的监测点作剪枝预处理操作，其目的是在区域划分前，先初步检测出场景中的形变区域，滤除场景中在监测区间内基本保持稳定的监测点，从而降低模型运算量。设置变形速率零值所占比门限值α，筛选监测区间内各监测点变形速率零值点占比小于α的监测点集合用于形变区域划分，从而确定滑坡失稳关键区域，滤除点分布及监测区间内累计位移量如图6所示。

S4：采用动态时间规整算法分别获取各备选监测点的趋势项位移与基准点的趋势项位移之间的DTW相似度矩阵。

需要说明的是，由于监测区间内累计位移量大小与位移时间序列的变化趋势不直接相关，为了使得各点位移时间序列变化趋势具有可比性，因此可以采用Max-Min归一化方法对各备选监测点的趋势项位移与基准点的趋势项位移进行归一化，使得各点累计位移量处于同一数量级后，再采用动态时间规整算法(DTW)计算监测区域内位移时间序列的相似度，具体为：

S41：将基准点的趋势项位移记为

备选监测点的趋势项位移记为

其中，

为基准点在第T～N个监测周期的移动平均结果，

采用当前监测点m的趋势项位移

与基准点的趋势项位移

第i个向量元素

与趋势项位移

第j个向量元素

的欧氏距离

其中，i＝1，2，…，N-T+1，j＝1，2，…，N-T+1；

由于通过动态规划寻找从矩阵元素D_m(1，1)至D_m(N-T+1，N-T+1)距离累计值最小的路径即为最优路径，且时间序列相似度即为最优路径所得距离累计值，则可以根据当前监测点m对应的矩阵网格D_m获取当前监测点m对应的DTW相似度矩阵R_m，其中，DTW相似度矩阵R_m第一列中各元素R_m(i，1)的计算公式为：

(i＝1，…，N-T+1)

DTW相似度矩阵R_m第一行中各元素R_m(1，j)的计算公式为：

(j＝1，…，N-T+1)

DTW相似度矩阵R_m其余行其余列各元素R_m(i，j)的计算公式为：

(i＝2，…，N-T+1；j＝2，…，N-T+1)

的前i项构成的序列与基准点的趋势项位移

前j项构成的序列的DTW相似度，也即从起始点D_m(1，1)至D_m(i，j)最优路径的距离累计值，因此第m个监测点的趋势项位移

与基准点趋势项位移

的DTW相似度即为矩阵元素R_m(N-T+1，N-T+1)。

也就是说，动态时间规整算法即通过计算最优路径的距离累计值，比较监测点位移时间序列与基准点位移时间序列的相关性，监测区域内所有监测点的DTW相似度结果图如图7所示。

S5：将DTW相似度矩阵与监测时间区间内的累计位移量作为各备选监测点与基准点在k-means无监督聚类算法中对应的特征向量，并设定两个以上的类簇数目，再分别在不同类簇数目下，根据确定好特征向量的k-means无监督聚类算法对各备选监测点与基准点进行分类，得到各类簇数目对应的分类结果。

下面详细说明如何根据确定好特征向量的k-means无监督聚类算法对各备选监测点与基准点进行分类，实现边坡形变区域的划分。

选取监测区间内R个监测点(包括备选监测点和基准点)的第N个监测周期的累计位移量

(r＝1，2，…，R)和DTW相似度矩阵R_r(r＝1，2，…，R)为特征，构成单一监测点的特征向量f(r)(r＝1，2，…，R)，从而构建用于边坡形变区域划分的样本集

k-means聚类为本发明用于边坡形变区域划分的无监督算法，单一样本点通过比较对应特征向量与各聚类中心的欧氏距离进行簇分配，从而基于贪心算法实现监测区域内所有监测点的分类，则优化目标函数J可以表示为：

在第r(r＝1，2，3，…，R)次迭代中，前r-1次簇分配所得聚类中心为{μ₁，μ₂，…，μ_V}，则第r个样本点f(r)的分类过程可分为以下两个步骤：

I^(m)＝argmin_{i∈{1，2，...，V}}||f_m-μ_i||₂

其中，r＝1，2，3，…，R，f(r)为第r个监测点的特征向量，μ_i(i＝1，2，…，V)为前r-1次迭代所得聚类中心，同时将样本点f(r)划入相应的簇

即

为第I^(r)个簇更新后所包含的样本点特征向量集合；

其中，i＝1，2，3，…，V，μ′_i为更新后所得聚类中心，C_i为第i个聚类簇所包含样本点的特征向量集合，即通过移动聚类中心使得当前目标函数取得最小值。

需要说明的是，对于形变区域内的单一监测点，k-means无监督聚类算法分别通过改变索引值和移动聚类中心进行分类，从而优化目标函数；进一步地，为了获得簇聚合程度较高的分类结果，本发明利用误差平方和点积PNSSE、DB指数以及CH分数评价无监督边坡形变区域划分结果，其中，本发明获得的边坡形变区域划分结果如图9所示。

下面详细介绍误差平方和点积PNSSE、DB指数以及CH分数的计算方法。

假设共选择K个不同的分类簇个数V_i(i＝1，2，…，K)，则一共需要进行K次k-means预分类。设当前分类簇个数为V_i，为了考虑分类簇个数V_i及误差平方与SSE结果值曲线变化的相关性对于分类结果的综合影响，构建评价指标分类误差平方和点积PNSSE，可以表示为：

其中，SSE为分类后各样本点与其对应聚类中心的欧式距离的平方和。根据K次计算结果构建PNSSE结果值向量R₁＝[PNSSE₁，PNSSE₂，…，PNSSE_K]，PNSSE_i为第i个分类簇个数对应的分类误差平方和点积。

为了衡量样本点分类结果内部的距离，引入DB指数为评价指标。设簇C_q内样本点间的平均距离为avg(C_q)，可以表示为：

其中，|C_q|为簇C_q包含的样本点个数，基于上式可计算DB指数所得结果值，为：

则DB结果值向量可以表示为R₂＝[DB₁，DB₂，…，DB_K]。

为了评估各类之间的离散程度，引入CH分数为评价指标，可以表示为：

其中，M为监测点样本总数，trB(V_i)表示类间离差矩阵的迹，trW(V_i)表示类内离差矩阵的迹，则CH结果值向量可以表示为R₃＝[CH₁，CH₂，…，CH_K]，因此可建立评价指标结果值矩阵

为了获取合理的多指标综合评价结果得分，本发明利用熵值法计算各评价指标权重分配，首先，计算各项评价指标在各次分类结果中所占比重，则当前更新结果值矩阵R′的矩阵元素可以表示为：

其中，i＝1，2，…，K，j＝1，2，3；然后，计算各项指标的熵值，可以表示为：

即可求得各项指标的信息熵冗余度d_j，可以表示为：

d_j＝1-e_j

最终，可求得各项指标权值，即为：

则各次分类结果所得多指标综合评价结果得分s_i(i＝1，2，…，K)可以表示为：

因此，当前数据集设置下多指标综合评价结果得分变化曲线如图8所示，获得最优边坡形变区域划分结果如图9所示。

由此可见，本发明通过比较监测区间各监测点累计位移量变化情况，选取基准点位移时间序列；之后采用归一化及移动平均平滑预处理，提取监测区域内各监测点变化趋势，通过设置门限值进行剪枝预处理，筛选进行后续分类的监测点坐标位置集合，从而利用动态时间规整算法计算集合内位移时间序列相似度；最后以监测区间内累计位移量和DTW相似度矩阵为输入特征，建立以k-means无监督聚类算法的监测点位移时间序列分类模型，从而获得边坡形变区域划分结果；本发明能仅利用监测区域内各监测点位移时间序列得到该点趋势项位移变化情况，并通过结合剪枝预处理、动态时间规整算法、k-means无监督聚类算法得到更有效的监测点分类模型，从而为边坡形变区域划分提供了一种简洁、高效的分类方法。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当然可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。