CN113139570A

CN113139570A - 一种基于最优混合估值的大坝安全监测数据补全方法

Info

Publication number: CN113139570A
Application number: CN202110242719.6A
Authority: CN
Inventors: 朱思敏; 吕鑫; 迟福东; 彭欣欣; 余意; 廖贵能; 陈豪; 王顺波; 吴光耀
Original assignee: Hohai University HHU; Huaneng Group Technology Innovation Center Co Ltd; Huaneng Lancang River Hydropower Co Ltd
Current assignee: Hohai University HHU; Huaneng Group Technology Innovation Center Co Ltd; Huaneng Lancang River Hydropower Co Ltd
Priority date: 2021-03-05
Filing date: 2021-03-05
Publication date: 2021-07-20

Abstract

本发明公开了一种基于最优混合估值的大坝安全监测数据补全方法，包括，将大坝安全监测数据集划分为训练集和测试集，其中，训练集为完整子数据集，测试集为缺失子数据集；基于训练集采用XgBoost算法构建最优预测模型；采用最优预测模型对测试集中各数据所属类的概率分布进行预测，生成测试集样本概率向量；基于测试集样本概率向量进行聚类；对于连续型数据存在缺失，则用所属类中对应特征属性的均值来补全数据；对于离散型数据缺失，则将该条数据所属类的极大似然估计作为补全数据。本发明方法解决了混合数据集中各类数据缺失的问题，可对大坝安全监测数据集的特征进行有效评估，具有更强的泛化能力和更精确的补全效果。

Description

一种基于最优混合估值的大坝安全监测数据补全方法

技术领域

本发明涉及一种基于最优混合估值的大坝安全监测数据补全方法，属于数据补全技术领域。

背景技术

随着数据采集和存储能力的高速发展，为了提高挖掘可靠信息的效率，对缺失数据补全的技术越来越受关注。Gao等人提出基于最小二乘法支持向量机的归并算法，并采用粒子群算法搜索参数的最优值，通过节点的以往数据和邻居节点数据共同对数据进行估计，解决了核电站辐射监控数据的缺失问题，然而这个算法的局限是只有在缺失数据与有效数据之间存在高度相关时，才具有较好的预测精度。Bertini等人利用完全二部属性决策图来估计缺失值，该模型可以在考虑所有描述数据的属性的情况下，找到丢失属性值的适当间隔。实际中该方法需要数据的属性标签尽量完整，不适用于在噪声较多的数据集。He等人基于深度学习的框架重建缺失的数据，以利于时间序列的分析。但是，这类所提方法并不能够处理混合分类连续缺失等问题。

发明内容

本发明所要解决的技术问题是克服现有技术的缺陷，提供一种基于最优混合估值的大坝安全监测数据补全方法，

为解决上述技术问题，本发明采用的技术方案如下：

本发明提供一种基于最优混合估值的大坝安全监测数据补全方法，包括：

将大坝安全监测数据集划分为训练集和测试集；所述大坝安全监测数据集中每条数据由多个特征属性和一个类标签构成；

基于训练集构建最优预测模型，预测样本所属各个类的概率分布；

采用最优预测模型对测试集中各数据所属类的概率分布进行预测，生成测试集样本概率向量；

基于测试集样本概率向量进行聚类；

基于聚类结果和缺失数据类型对测试集中缺失数据进行补全。

进一步的，所述将大坝安全监测数据集划分为训练集和测试集，包括：

将大坝安全监测数据集分为完整子数据集和非完整子数据集，将完整子数据集作为训练集，非完整子数据集作为测试集；

所述非完整子数据集是指，如果一条数据的某些特征属性或类标签缺失，则该条数据被分为非完整子数据集。

进一步的，所述基于训练集构建最优预测模型，预测样本所属各个类的概率分布，包括，

建立XgBoost预测模型：

采用训练集对所述XgBoost预测模型进行训练，得到最优XgBoost预测模型。

进一步的，在训练过程中，采用贪心调参法，对XgBoost预测模型参数先粗调后再精调；通过粗调得出参数最优取值范围，精调采用缩小步长的方法，在最优取值范围内找到最优的参数值，从而得出最优XgBoost预测模型。

进一步的，所述采用最优预测模型对测试集中各数据所属类的概率分布进行预测，生成测试集样本概率向量，包括，

将测试集放入最优XgBoost预测模型中，得出测试集中每个样本所属各个类的概率分布；

将测试集中各个样本所属类的概率值转化为测试集样本概率向量。

进一步的，所述基于测试集样本概率向量进行聚类，包括：

采用K-Means算法对测试集样本概率向量进行聚类，得出每个样本所属的类和对应的K个类中心。

进一步的，所述基于聚类结果和缺失数据类型对测试集中缺失数据进行补全，包括：

对于测试集中每条数据的每个缺失特征属性判断数据类型，

如果是连续型数据存在缺失，则用该条数据所属的聚类的类中所有样本对应特征属性的均值来补全缺失的特征属性；

如果是离散型数据缺失，则将该条数据所属的聚类的类的极大似然估计作为补全的特征属性。

本发明所达到的有益效果：

本发明提出的基于最优混合估值的大坝安全监测数据补全方法，在拥有良好的分类性能的同时，很好的解决了分类的硬性归属问题。解决了混合数据集中各类数据缺失的问题。特别的，其可对大坝安全监测数据集的特征属性进行有效评估，具有更强的泛化能力和更精确的补全效果。

附图说明

图1是本发明的基于最优混合估值的大坝安全监测数据补全方法流程图。

具体实施方式

下面对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示，本发明提供一种基于最优混合估值的大坝安全监测数据补全方法，包括如下步骤：

1)对大坝安全监测数据集进行划分：将监测数据集划分为训练集和测试集；

2)基于训练集构建最优预测模型，对测试集中各数据所属类的概率分布进行预测，生成样本概率向量；

3)进行估值分析及缺失数据补全：根据样本所属类的概率分布情况进行估值，通过聚类分析得到样本的类中心，然后根据缺失数据所属数据类型，分别对缺失数据进行最优补全。

本实施例中，对大坝安全监测数据进行划分，包括：

将大坝安全监测数据集D分为完整子数据集D_com和非完整子数据集D_incom，将完整子数据集D_com作为训练集，非完整子数据集D_incom作为测试集。

大坝安全监测数据集中的一条数据是由多个特征属性和一个类标签构成的。一条数据的某些特征属性或类标签如果缺失，则该条数据被分为非完整子数据集，反之则分为完整子数据集。

本实施例中，生成样本概率向量包括：

步骤2-1：首先建立XgBoost模型，XgBoost预测模型为：

其中，K是树的总个数，f_k(x_i)表示第k颗树，z′_i表示样本x_i的预测结果。本发明实施例中，样本的预测结果为样本所属各个类的概率分布。

损失函数表示为：

其中，l(z_i,z′_i)是样本x_i的训练误差，n为样本数，Ω(f_k)表示第k颗树的正则项。

XgBoost是由很多CART回归树集成的。本质而言，分类和回归是一个类型的东西。分类的结果是离散值，回归是连续值，都是特征到结果/标签之间的映射。分类树的样本输出是类的形式，如得到蘑菇有毒还是无毒，周末去看电影还是不去。回归树的样本输出是数值的形式，如给某人发放贷款的数额就是具体的数值。所以此时基尼系数就不能用来判断树的节点分裂了，就需要预测误差，节点也不再是类别，是数值(预测值)，通过优化得出的数值。

XgBoost首先是一个boosting的集成学习，这个集成学习中下一棵决策树的输入样本会与前一颗决策树的训练和预测有关。

得到了预测模型和损失函数后，求解和优化每个叶子节点的得分值，即每棵树的预测值。XgBoost是由很多CART回归树集成，但并不是简单重复将几个CART树组合，而是结合了加法策略。

步骤2-2：利用XgBoost算法训练完整子数据集D_com，调整模型参数，得到最优XgBoost预测模型。

训练过程如下，

大坝安全监测数据集中的一条数据是由多个特征属性和一个类标签构成的，假如训练集数据(完整数据集)本身被分为a类和b类并带有该类标签。在训练的时候模型会根据训练集数据的特征属性给每个数据一个预测结果——该条数据a类的概率和b类的概率(此处即为预测数据类别)。

模型得到的类别的概率和实际类标签的结果不同则需要重新学习再打标签，直到模型使用训练集训练到预测成功率很高。

通过不断训练优化模型，使得模型最终可以根据数据的多种特征属性得到正确的类别的概率，比如a标签的数据的结果可能a类80％，b类20％。

本发明实施例，在训练过程中，使用贪心调参法，对XgBoost预测模型参数先粗调后再精调。粗调得出参数根据结果的变化趋势，一般情况下步长较大；精调是确定参数最优取值范围后，通过缩小步长的方法，在最优范围内找到最优的参数值，从而得出最优XgBoost预测模型，并对特征属性的重要性进行排序。

大坝安全监测数据集中一条数据包含特征属性和类标签，在训练模型的过程中，对数据中的特征属性根据重要性(对训练结果的影响)排序后，能得到更好的训练结果，即准确率。则可根据训练集最后得到的排序结果来处理测试集数据。

XgBoost预测模型中存在5个参数，以下：

max_depth：决策树的最大深度。深度越大拟合度越好。但深度过大时就需要考虑过拟合现象的产生。在这里将决策树的最大深度定为4。

min_child_weight：孩子节点最小样本权重和，默认值是1。当叶结点的样本权重和小于这个值时，停止拆分。例如当h在0.01附近，min_child_weight值为1意味着叶子节点中至少包含100个数据样本。这个参数控制叶子节点中二阶导的和的最小值，其值越小越容易导致过拟合。

colsample_bytree：特征属性的采样比例，默认值是1，表示全采样。

eta：收缩步长，类似于学习率，在这个试验中默认值为0.005。

num_round：迭代次数，初始值设置较大，通过观察错误率来确定迭代次数范围。当错误率不再降低或者开始有上升趋势时，将此时的迭代次数设置为算法迭代次数。

步骤2-3：将测试集放入最优XgBoost预测模型中，得出测试集中每个缺失样本在最优XgBoost预测模型中所属各个类的概率分布；

将最优预测模型得出的各个样本所属类的概率值转化为测试集全体样本的概率向量值。

本实施例中，进行估值分析及缺失数据补全包括：

步骤3-1：将步骤2-3得到的测试集全体样本的概率向量值作为K-Means算法的输入进行估值分析：

根据每个样本所属类的概率分布，进行聚类划分，将所属类概率相近的样本归于同一类中，得出每个样本所属的类和对应的K个类中心。

步骤3-2：通过这K个类对应属性的极大似然估计来补全缺失值：

假设聚类后一个类样本X，X₁,X₂,....,X_n是样本X的样本值，似然函数为：

其中，Lθ为似然函数，θ为估计参数向量；

然后对似然函数两边取对数得到：

然后对lnLθ/θ求其导数并令之为0，解得对数似然方程，即未知数据的极大似然估计。

针对每个有缺失的样本数据，根据其缺失的特征属性判断连续型还是离散型，再进行补全；

当连续型数据存在缺失时，用该数据所在的类对应属性的均值来补全缺失数据对应的属性；补全一个类中一个特征属性，就需要计算一次该类的该特征属性的平均值。

当离散型数据缺失时，将该数据对应类的极大似然估计作为补全的值；

在混合型数据集中，需要对两种缺失类型数据分别进行补全。

依照本发明的步骤，当对存在数据缺失的混合型水利数据集应用本发明的基于最优混合估值的大坝安全监测数据补全方案时，首先对数据集进行划分，将数据集分为完整子数据集和非完整子数据集。用完整子数据集训练模型得到最优模型，并使用非完整子数据集测试最优模型，进行估值分析，得到K个类中心以及每个样本数据的所属类。然后判断数据类型，对连续型数据使用该类对应属性的均值来补全缺失数据对应的属性，对离散型数据缺失使用其对应类的极大似然估计作为补全的值。该方法构造简单，执行高效，且可以用来处理缺失的混合型数据。需要说明的是，对每个数据的每个缺失特征属性都需要进行数据类型判断，根据数据类型进行补全。

所以，本发明带来的有益效果是：解决了混合数据集中各类数据缺失的问题。特别的，其可对大坝安全监测数据集的特征进行有效评估，具有更强的泛化能力和更精确的补全效果。

对上述技术方案涉及的相关概念进行说明和解释：

K-Means算法

K-Means算法是机器学习中经典的聚类算法之一，常被用于数据挖掘中的聚类分析。其算法思想是：针对某一样本，其最近邻的K个样本大多属于一个类别，则判定该样本也属于这一类别。对应到缺失数据补全方法中，基于这个思想的算法过程为：先将给定的数据集划分成完整数据集D_com和不完整数据集D_miss，计算D_miss中样本和D_com中样本的相似性，寻找D_miss中样本相似性最高的K个样本，再通过这K个样本对应属性的极大似然估计来补全D_miss中的缺失值。

K-Means算法具有很强的普适性，但也存在两个问题。首先，K值的确定对补全的效果是有明显影响的，在数据缺失率较高时，一味地使用某一特定K值对数据进行补全会对结果造成较大的偏差。因此，对数据K值的选取首先要对数据有充分的了解。其次，对最近邻的紧密度划分或者相似性的度量也十分关键。

集成学习算法

集成学习(Ensemble Learning)相比于单一学习模型，能够将多个单一学习模型所获得的多个预测结果进行有机组合来完成学习任务，。它可以用于解决分类问题集成、回归问题集成、特征选取集成以及异常点检测集成等等。通过某种策略将多个“个体学习器”(Individual Learning)融合到一起，构成一个强学习器。强学习器有“同质”和“异质”两类，集成中只包含同类型的学习器；同理，集成中包含多类型的个体学习器则被称为异质学习器，也被称之为“组件学习器”。

常见的个体学习器算法有Boosting序列化方法。对于m个样本训练集，首先从其中训练出第一个弱学习器，得到其学习误差率，并调整其样本分布，更新权重系数，目的是使误差率高的训练样本获得更高的权重，以便在第二个弱学习器中得到更多训练，循环进行直至达到指定数目。最后，结合策略组合这多个弱学习器，得到最终的强学习器。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于最优混合估值的大坝安全监测数据补全方法，其特征在于，包括：

基于测试集样本概率向量进行聚类；

2.根据权利要求1所述的一种基于最优混合估值的大坝安全监测数据补全方法，其特征在于，所述将大坝安全监测数据集划分为训练集和测试集，包括：

3.根据权利要求2所述的一种基于最优混合估值的大坝安全监测数据补全方法，其特征在于，所述基于训练集构建最优预测模型，预测样本所属各个类的概率分布，包括，

建立XgBoost预测模型：

4.根据权利要求3所述的一种基于最优混合估值的大坝安全监测数据补全方法，其特征在于，在训练过程中，采用贪心调参法，对XgBoost预测模型参数先粗调后再精调；通过粗调得出参数最优取值范围，精调采用缩小步长的方法，在最优取值范围内找到最优的参数值，从而得出最优XgBoost预测模型。

5.根据权利要求3所述的一种基于最优混合估值的大坝安全监测数据补全方法，其特征在于，所述采用最优预测模型对测试集中各数据所属类的概率分布进行预测，生成测试集样本概率向量，包括，

6.根据权利要求5所述的一种基于最优混合估值的大坝安全监测数据补全方法，其特征在于，所述基于测试集样本概率向量进行聚类，包括：

7.根据权利要求6所述的一种基于最优混合估值的大坝安全监测数据补全方法，其特征在于，所述基于聚类结果和缺失数据类型对测试集中缺失数据进行补全，包括：

对于测试集中每条数据的每个缺失特征属性判断数据类型，