CN116821799A

CN116821799A - 基于gru-dnn的地灾预警数据分类方法

Info

Publication number: CN116821799A
Application number: CN202311085851.6A
Authority: CN
Inventors: 冷小鹏; 蒋浩; 姚亮
Original assignee: Chengli Zhiyuan Technology Chengdu Co ltd; Chengdu Univeristy of Technology
Current assignee: Chengli Zhiyuan Technology Chengdu Co ltd; Chengdu Univeristy of Technology
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-09-29
Anticipated expiration: 2043-08-28
Also published as: CN116821799B

Abstract

本发明开了一种基于GRU‑DNN的地灾预警数据分类方法，包括根据地灾报警的点位的数据构造原始数据样本、进行类别标注得到标注样本；从标注样本中构造多个时序特征和非时序特征，用决策树模型筛选有分类能力的特征，构造出最终训练样本，并用最终训练样本训练深度神经网络得到能识别正常报警和误报警的分类模型，用于分类识别。本发明充分结合时序特征与非时序特征的特点，提高模型的分类能力，采用编码器结构提高模型的特征提取能力，还引入加权交叉熵函数进一步提高模型召回率，大幅降低了误报率、提高单次预警可靠度，从而在确保不漏报的前提下最大限度的降低预警误报率，有效减少因误报导致的人力、物力消耗。

Description

基于GRU-DNN的地灾预警数据分类方法

技术领域

本发明涉及一种数据分类方法，尤其涉及一种基于GRU-DNN的地灾预警数据分类方法。

背景技术

我国幅员辽阔，山地纵横，自然地理情况复杂多样，地质灾害频发，国家在地灾预警方面投入了大量资源。然而，目前每年产生的海量地灾预警信息中，存在许多的误报警，导致浪费人力物力。考虑到地质灾害对附近环境安全的影响以及对周边人民生命财产安全的重大威胁，减少地灾预警误报十分重要。但是地灾预警数据的数据量大、种类繁杂，传统的误报数据分类识别手段已经无法满足需求，这就导致地灾预警信息中仍然存在许多误报，分散了处理真实灾害地区的资源。

导致误报的原因很多，一是地灾预警数据本身不准确。二是对地灾数据的特征识别不准确。

对于地灾预警数据本身不准确，大致是因为：地灾预警数据包本身具有数据量级大、种类繁杂、原数据可分类性差，而且还有（1）监测设备附近存在自然环境、行人和机动车的干扰，导致数据波动，（2）设备故障，导致数据异常；（3）网络出现问题，导致数据重传或漏传。

对于地灾数据的特征识别，目前国内外对地灾误报数据进行识别分类的主要方法有决策树、K均值聚类算法、波动检测等。在基于决策树的地灾数据分类方法中，依次对一个或多个地灾数据的属性进行判断，直到决策树的叶节点并导出最终分类结果，可以处理不相关特征数据，并且对缺失值不敏感。然而它在处理特征关联性比较强的数据时表现不佳，并且对于地灾数据的时间序列特征不敏感。在基于K均值聚类算法的地灾数据分类方法中，将数据集分为K个簇，每个簇使用簇内所有样本均值来表示，将该均值称为质心。它的聚类效果较优，收敛速度快。然而地灾预警数据各类型的数据量严重失衡，导致聚类效果不佳，并且得到的结果只是局部最优。在基于波动检测的地灾数据分类方法中，对样本几天内的数据波动情况进行分析，判断是否为误报。然而这种方式只能识别剧烈波动类型的误报数据，误报警分类识别率较低。

发明内容

本发明的目的就在于提供一种解决上述问题，能对地灾预警信息进行准确识别，减少误报警的基于GRU-DNN的地灾预警数据分类方法。

为了实现上述目的，本发明采用的技术方案是这样的：一种基于GRU-DNN的地灾预警数据分类方法，包括以下步骤：

（1）构造原始数据样本；

从数据库找到发生地灾报警的点位，取出该点位从预警时刻往前△T时间段内的所有监测数据，预处理后构成一个原始数据样本，每条监测数据至少包括点位ID、预警时间和位移监测值；

（2）对原始数据样本进行类别标注，得到标注样本，所述类别包括正常报警和误报警；

（3）从标注样本中构造特征集合，特征集合包括时序特征和非时序特征；

所述时序特征包括监测值序列、位移增量特征序列、速度特征序列和速度倒数特征序列，其中监测值序列由该标注样本内所有位移监测值按时间序列排列而成，其余序列由监测值序列得到；

所述非时序特征包括中位数特征、方差特征、标准差特征和n个非时序位移增量特征△d₁~△d_n，n≥5；

（4）对标注样本中的每条监测数据，增加对应时刻的时序特征和非时序特征，得到重构数据，所有重构数据构成重构样本；

（5）对重构样本进行缩放，形成数据长度相等且量纲一致的初始训练样本；

（6）将初始训练样本送入决策树模型中，用特征集合中每个特征初始训练样本进行分类，筛选出分类能力最强的时序特征标记为B₀，Q个具有分类能力的非时序特征分别标记为B₁~ B_Q；

（7）在初始训练样本中，对每条重构数据，仅保留点位ID、预警时间、B₀、B₁~B_Q，构成最终训练样本；

（8）构造一深度神经网络，将最终训练样本送入深度神经网络中训练，得到能识别正常报警和误报警的分类模型；

（9）获取待识别的预警数据样本，包含所述预警数据样本包含从预警时刻往前△T时间段内的所有监测数据，按照步骤（2）-（7）处理后，送入步骤（8）的分类模型中，输出分类结果。

作为优选，步骤（1）中：

所述地灾报警的点位为，在需要监测地灾的区域布设监测设备的点位，所述监测设备与点位绑定并用于获取该点位一段时间内的监测数据；

所述数据库由所有监测设备获取的监测数据构成，包括GNSS原始数据和裂缝原始数据；

所述监测数据中，点位ID为点位名称和/或监测设备ID，监测数据中还包括远端接收受监测数据的接受时间、预警等级、预警类型和/或设备类型。

作为优选，步骤（1）中预处理为，对每条监测数据，进行数据清洗，对存在缺失值的监测数据进行剔除或缺失值填充。

作为优选，所述位移增量特征序列、速度特征序列和速度倒数特征序列的构造方法为：

对监测值序列中的相邻两位移监测值，用一阶差分求差值作为位移增量，将位移增量按时间序列排序构成增量特征序列；

对每个位移增量，除以其对应两项位移监测值的时间差，得到速度特征，将所有速度特征按时间序列排序构成速度特征序列；

对速度特征序列中每个元素求倒数，得到速度倒数特征序列。

作为优选，所述非时序特征的构造方法为；

中位数特征、方差特征、标准差特征，由集合内的所有位移监测值，分别求中位数、方差、标准差得到；

对第i个非时序位移增量特征△d_i，由T_i时刻的位移监测值减去T₀时刻的位移监测值得到，所述T_i为时间段△T内的任一时刻，T₀为△T的初始时刻，n≤i≤n。

作为优选，步骤（5）具体为，将每个重构样本进行线性插值操作至长度相同，再对每个重构样本，将其中每个元素进行归一化处理，得到初始训练样本。

作为优选，步骤（6）具体为，将初始训练样本送入决策树模型中，用时序特征中的每个特征对初始训练样本进行分类，筛选出基尼系数最小的特征标记为B₀，再用非时序特征中的每个特征对初始训练样本进行分类，筛选出具有分类能力的特征，共Q个，分别标记为B₁~ B_Q。

作为优选，步骤（8）中，深度神经网络为一GRU-DNN网络，包括GRU、编码器模块、MLP层、第一DNN、第二DNN和Softmax分类器，所述编码器模块包括依次设置的线性层、多头注意力层、残差和归一化层、一维卷积层、全局平均池化层；

所述GRU-DNN网络用于输入最终训练样本，最终训练样本的时序特征B₀经GRU、编码器模块和MLP层，得到包含时序特征信息的1×64的第一矩阵，B₁~ B_Q构成一行数据，经第一DNN得到包含非时序信息的1×128的第二矩阵，再将第一矩阵和第二矩阵合并为1×192的合并矩阵，所述合并矩阵经第二DNN得到特征输出，再经Softmax分类器输出该最终训练样本的预测类别；

训练GRU-DNN网络时，以最终训练样本为输入，该最终训练样本对应的的类别标注为期望输出，训练得到能识别正常报警和误报警的分类模型。

关于时序特征和非时序特征：时序特征是指按时间序列排布的数据集合，数据之间有关联，而且这些时序数据发生不规律波动的具体时刻会直接影响最终分类结果，比如一天前不正常波动是划分为误报，但三天前不正常波动则可能划分为正常报警。而非时序特征是针对整个样本某些具有分类能力的非时间序列的特征集合，比如波动次数，预警时刻前1h位移变化之类的，样本这些特征均不关心具体发生时刻，且非时序特征之间最好没有相关性，分类效果才会更好。

关于GRU-DNN网络：同一个模型对时序数据和非时序数据的处理效果不同，仅采用单一模型，会影响分类效果。因此分别针对样本的时序特征和非时序特征，找出最适合的模型进行学习训练，能进一步提高整体模型对正负样本的识别效率和精度。同时引入了编码器模块和加权交叉熵函数，进一步提高模型对时间序列数据的特征提取能力和模型整体召回率。

与现有技术相比，本发明的优点在于：

（1）本发明针对地灾数据的特点针对性的使用了优化性特征工程。在数据清洗阶段，除了筛除监测数据大量缺失的样本和完整样本中的重复数据，还对仅缺失少量监测值的样本进行缺失值填充，确保了训练样本的完整性。还提出了一种数据去重方法，在保持原数据趋势的前提下，解决因为网络干扰或环境影响导致的位移监测值时间节点重复的问题。并针对各地灾监测点实际灾情和监测设备的不同，监测数值和尺度可能差距较大，引入了归一化对数据进行处理，消除量纲对模型运算的影响。在特征构造阶段构造出新的时间序列数据和非时序特征，更多方面多维度的展现正负样本的特点，提高模型的分类准确度。在特征筛选阶段，使用决策树模型和pearson相关性分析找出其中具有较好分类能力的时间序列特征和非时序特征，确保了进入后续模型的样本特征是有良好分类能力的。

（2）本发明根据地灾数据训练样本包含时序特征与非时序特征的结构特点，提出了一种GRU-DNN网络，该网络中用结构更简单更轻量化的GRU网络训练时序特征，用DNN网络训练非时序特征，然后对两个网络获得的信息矩阵进行拼接后再综合得出最终分类结果，进一步提高了模型鲁棒性和对于地灾误报警的分类准确度。使用本发明中GRU和DNN网络的结合，对于地灾预警数据能达到优秀的分类效果，优于LSTM网络、LSTM-DNN网络和GRU网络。

（3）本发明在进行时间序列数据的学习中，引入了编码器结构，进一步提高模型对时间序列数据的深层特征提取能力。并且引入了全局平均池化进行特征降维，能够有效防止过拟合，提高模型的泛化能力。还使用了Hyperband算法对部分网络参数进行寻优，解决人工经验选取参数耗时且不准确的问题。

（4）本发明针对地灾预警现实存在的高召回率需求引入加权交叉熵作为损失函数，而不是普通的交叉熵函数。使用这个加权交叉熵来提高将正常报警样本错误分类为误报警的代价，进一步提高了模型的召回率，降低模型在实际应用时出现漏报的概率。

综上，本发明能大幅降低误报率、提高单次预警可信度，从而在确保不漏报的前提下最大限度的降低预警误报率，有效减少因误报导致的人力、物力消耗。

附图说明

图1为本发明流程图；

图2为特征工程流程图；

图3为GRU-DNN网络架构图；

图4为GRU-DNN网络训练流程图。

具体实施方式

下面将结合附图对本发明作进一步说明。

实施例1：参见图1到图4，一种基于GRU-DNN的地灾预警数据分类方法，包括以下步骤：

（1）构造原始数据样本；

步骤（1）中：所述地灾报警的点位为，在需要监测地灾的区域布设监测设备的点位，所述监测设备与点位绑定并用于获取该点位一段时间内的监测数据；所述数据库由所有监测设备获取的监测数据构成，包括GNSS原始数据和裂缝原始数据；所述监测数据中，点位ID为点位名称和/或监测设备ID，监测数据中还包括远端接收受监测数据的接受时间、预警等级、预警类型和/或设备类型。

步骤（1）中预处理为，对每条监测数据，进行数据清洗，对存在缺失值的监测数据进行剔除或缺失值填充。

所述位移增量特征序列、速度特征序列和速度倒数特征序列的构造方法为：

所述非时序特征的构造方法为：

步骤（5）具体为，将每个重构样本进行线性插值操作至长度相同，再对每个重构样本，将其中每个元素进行归一化处理，得到初始训练样本。

步骤（6）具体为，将初始训练样本送入决策树模型中，用时序特征中的每个特征对初始训练样本进行分类，筛选出基尼系数最小的特征标记为B₀，再用非时序特征中的每个特征对初始训练样本进行分类，筛选出具有分类能力的特征，共Q个，分别标记为B₁~ B_Q。

步骤（8）中，深度神经网络为一GRU-DNN网络，包括GRU、编码器模块、MLP层、第一DNN、第二DNN和Softmax分类器，所述编码器模块包括依次设置的线性层、多头注意力层、残差和归一化层、一维卷积层、全局平均池化层；

本发明中，步骤（2）-（6）为特征工程。

步骤（1）中，△T时间段可根据实际情况设定，例如3天、4天、5天等等。且数据预处理时，对存在缺失值的监测数据进行剔除或缺失值填充，具体为，筛除存在大量缺失值的样本，对于仅缺失少量监测值的样本根据前后数据进行缺失值填充。

步骤（2）中，类别标注时，一个原始数据样本仅标注一次。

步骤（5）的归一化处理，其中一种方法为min-max规范化操作，将所有样本的监测数据都归一化处理值至[0,1]，处理方式为各监测数据与所在时间序列的最小监测值作差，再除以极差。归一化处理手段很多，本发明不仅限于此。

步骤（6）中，决策树模型的原理为：设某个特征为特征A，若样本集合D根据特征A是否取某一数值a被划分为D ₁和D ₂两部分，即，D ₂=D-D ₁，则在特征A的条件下，集合D的基尼指数定义为：

其中，基尼指数Gini(D)表示集合D的数据混乱度，基尼指数Gini(D,A)表示经A=a分割后集合D的数据混乱度。基尼系数越小，数据集的纯度越高；基尼系数越大，数据集纯度越低。

关于深度神经网络模型：由于地灾预警数据的特殊性，原数据可分类性不强，且召回率要求非常高，在满足高召回率的前提下误报率居高不下。因此在特征工程上，我们针对分类能力不强的原数据进行处理构造了多个时间序列特征和非时序特征，使用决策树选出其中分类能力较好的几个特征，然后进入模型训练阶段。针对样本中同时存在时序特征和非时序特征的特点，提出了新型的GRU-DNN网络。该网络使用GRU模型学习样本的时序特征，DNN模型学习非时序特征。同时为了进一步提高模型对时间序列数据的特征提取能力，在模型中引入编码器模块，还使用了全局平均池化进行特征降维，提高模型整体的运算速度与训练效率。模型采用加权交叉熵作为损失函数，再通过Hyperband算法对部分网络参数进行寻优，解决人工经验选取参数耗时且不准确的问题，不断优化调整超参和各网络层数后，得到了最终的GRU-DNN网络。

由于本发明是二分类，模型最后需要预测的结果只有两种情况，对于每个类别我们的预测得到的概率为p和1-p，此时加权交叉熵L的表达式如下：

式中，N为一次训练中，输入最终训练样本的总数量，对其中一最终训练样本i，其对应的类别标注为，若样本i为正常报警，则/>=1，样本i为误报警，则/>=0，/>为样本i预测为正常报警的概率，/>为样本i的权重；

预测类别和类别标注的权重如下：

预测类别为0、类别标注为0时，权重为1；

预测类别为0、类别标注为1时，权重为3；

预测类别为1、类别标注为0时，权重为2；

预测类别为1、类别标注为1时，时权重为1。

为样本i预测为正常报警的概率，最后一轮训练得到的这个值会和预设的阈值进行比较，输出最终预测类别，例如预设阈值为0.5，若/>大于等于0.5，则判断为正常报警，预测类别为1，反之为误报警，预测类别为0。

样本i进入模型后，一条路通过一层GRU、编码器模块和MLP层学习样本的时间序列特征后得到一个1×64的矩阵，另一条路通过两层DNN网络学习样本的非时间序列特征得到一个1×128的矩阵，将这两个矩阵拼接后再通过两层DNN得到最终分类结果。

此模型在结构上与一般的GRU-DNN模型有区别，根据单数据源内的不同特征自动选择相应模型同时进行训练，引入编码器结构提高对时间序列数据的特征提取能力，整体优化了模型对地灾数据的学习效率和分类效果。还考虑到地灾预警系统必须保证高召回率，引入了加权交叉熵作为损失函数，提高那些实际为正常报警却被分类为误报警的样本的权重，使模型更关注这部分样本，提高模型整体召回率。本模型在满足高召回率的前提下，不仅大幅的降低误报率，提高了单次预警可靠度，还能有效减少由于地灾预警过程中误报警导致的人力物力消耗。

实施例2：参见图1到图4，在实施例1的基础上，对重庆真实地区的数据库采用本发明进行验证。

（1）同实施例1步骤（1），其中，数据库为在重庆真实地区多个不同点位布设监测设备后，通过监测设备长期监测获取到的到的监测数据，包括GNSS原始数据和裂缝原始数据。当监测设备为BSW时，采集到GNSS原始数据，当监测设备为LF时，采集到裂缝原始数据。本实施例中，我们设△T=3天。但时间段可根据需要进行设定，2天、3天、5天等。

关于监测数据，至少要包括点位ID、预警时间和位移监测值，同时还可以包括其它一些客户需要的信息，由于长期连续监测，一段时间内的监测数据见下表1：

表1 伍几田滑坡点位一段时间内的监测数据表；

那么，当工作人员从数据库获取多个发生地灾报警的点位时，得到的信息如下表2所示。

表2 数据库中发生地灾报警的点位信息表

对每个点位，取出从预警时刻往前3天内的所有监测数据，构成一个原始数据样本。

（2）对原始数据样本进行数据清洗，具体是对每个原始数据样本的数据进行检验，如果关键数据项如设备ID、预警时间、位移监测值有缺失，则对这些不完整样本进行筛除或缺失值填充，最终形成包含20000个原始数据样本的数据集合，其中，我们GNSS原始数据和裂缝原始数据10000个。

再对20000个原始数据样本分别进行类别标注，具体是先对原始数据样本进行数据可视化操作，再根据这些图的数据变化趋势人工来进行类别标注，只区分为正常报警和误报警两大类，误报警样本标0，正常报警样本标1。

（3）从标注样本中构造时序特征和非时序特征；

时序特征的构造与实施例1相同。

关于n个非时序位移增量特征△d₁~△d_n，对第1个非时序位移增量特征△d₁，由T₁时刻的位移监测值减去T₀时刻的位移监测值得到，T₁为初始时刻向前推1小时，得到的就是1小时位移变化量，同理，第2个非时序位移增量特征△d₂，由T₂=2小时的位移监测值减去T₀时刻的位移监测值得到，得到2小时位移变化量，依次类推，我们可以确定n个非时序位移增量特征分别是1小时位移变化量、2小时位移变化量...3天位移变化量作为非时序位移增量特征。

（4）同实施例1步骤（4），得到的重构样本见表3；

表3 重构样本示例表

时序特征中各特征的存储顺序为：位移监测值、位移增量、速度、速度倒数。

非时序特征中各特征的存储顺序为：中位数、方差、标准差、非时序位移增量、1小时位移变化量、2小时位移变化量、3小时位移变化量、4小时位移变化量、5小时位移变化量、1天位移变化量、2天位移变化量、3天位移变化量。

（5）对重构样本进行缩放，形成数据长度相等且量纲一致的初始训练样本。这是因为每个重构样本对应的监测设备种类和实际情况有所不同，它们所包含的数据长度及数值量纲也不同。比如有的样本三天内只有几百条监测数据，监测值处于[-50mm,100mm]之间；而有些样本有几千条监测数据，监测值处于[1000mm,1200mm]之间。这样不便于模型对时序特征进行统一操作，因此需要采取措施将样本长度和量纲进行规范化。针对样本的时间序列数据进行min-max规范化处理，将所有数据的值映射到[0,1]的范围内。然后通过遍历所有样本数据后确定所有样本的数据长度均未超过11000条，因此在保持样本原变化趋势的前提下对所有样本进行线性插值操作，使所有样本均保持11000条监测数据的统一长度。实际条数根据情况自定义。

（6）同实施例1步骤（6），本实施例中，筛选出来的特征为：

时序特征B₀为：位移增量。

非时序特征筛B₁~ B₉为：非时序位移增量、1小时位移变化量、2小时位移变化量、3小时位移变化量、4小时位移变化量、5小时位移变化量、1天位移变化量、2天位移变化量、3天位移变化量。本实施例中，Q=9。

（7）得到最终训练样本如表4所示。

表4 最终训练样本示例表

（8）同实施例1步骤（8）；

（9）同实施例1步骤（9）。

实施例3：参见图1到图4，为了验证本发明效果，本实施例针对10000个GNSS原始数据和10000个裂缝原始数据，分别标注构成2个数据集，从这2个数据集中各选取了6000条包含各种正常报警与误报警的预警数据，制作成正负样本比例接近的训练数据集。然后由于地灾数据原始采集值直接用于分类学习的效果不佳，通过特征变换、特征构造，特征选择等特征工程形成更能表现数据本质特征的数据集。

为了能更了解本模型的泛化能力，即对陌生预警数据的误报分类识别能力，又分别从2个数据集中不同时间周期抽取了149条裂缝数据和894条GNSS数据形成了两个独立测试集。针对地灾数据误报分类情况选取的对比指标有准确率、召回率、F1和误报识别率。分别采用了GRU、LSTM、LSTM-DNN为模型与本发明GRU-DNN作对比，裂缝和GNSS实验结果客观对比指标如表5、表6所示。

表5 不同模型对裂缝数据的分类情况表

表6不同模型对GNSS数据的分类情况表

由于按不同时间周期随机选取的测试数据集中正负样本比例不均衡，所以需要主要关注的指标是召回率和误报识别率。召回率接近1可以确保正常的报警基本不会被误判，不会漏报。在确保召回率的前提下，误报识别率的大小则代表了本模型对于误报警的拦截率，误报识别率越高说明经过本模型筛选后的预警信息中误报信息越少。由表5、表6可知，GRU-DNN模型的召回率更高，对误报警样本的识别效果也更好。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于GRU-DNN的地灾预警数据分类方法，其特征在于，包括以下步骤：

（1）构造原始数据样本；

2.根据权利要求1所述的基于GRU-DNN的地灾预警数据分类方法，其特征在于，步骤（1）中：

3.根据权利要求1所述的基于GRU-DNN的地灾预警数据分类方法，其特征在于，步骤（1）中预处理为，对每条监测数据，进行数据清洗，对存在缺失值的监测数据进行剔除或缺失值填充。

4.根据权利要求1所述的基于GRU-DNN的地灾预警数据分类方法，其特征在于，所述位移增量特征序列、速度特征序列和速度倒数特征序列的构造方法为：

5.根据权利要求1所述的基于GRU-DNN的地灾预警数据分类方法，其特征在于，所述非时序特征的构造方法为；

6.根据权利要求1所述的基于GRU-DNN的地灾预警数据分类方法，其特征在于，步骤（5）具体为，将每个重构样本进行线性插值操作至长度相同，再对每个重构样本，将其中每个元素进行归一化处理，得到初始训练样本。

7.根据权利要求1所述的基于GRU-DNN的地灾预警数据分类方法，其特征在于，步骤（6）具体为，将初始训练样本送入决策树模型中，用时序特征中的每个特征对初始训练样本进行分类，筛选出基尼系数最小的特征标记为B₀，再用非时序特征中的每个特征对初始训练样本进行分类，筛选出具有分类能力的特征，共Q个，分别标记为B₁~ B_Q。

8.根据权利要求1所述的基于GRU-DNN的地灾预警数据分类方法，其特征在于，步骤（8）中，深度神经网络为一GRU-DNN网络，包括GRU、编码器模块、MLP层、第一DNN、第二DNN和Softmax分类器，所述编码器模块包括依次设置的线性层、多头注意力层、残差和归一化层、一维卷积层、全局平均池化层；