CN115526032A

CN115526032A - 一种基于模糊建模的隧道掘进数据缺失值插补方法

Info

Publication number: CN115526032A
Application number: CN202211108654.7A
Authority: CN
Inventors: 宋学官; 王一棠; 庞勇; 张立勇; 孙伟
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2022-09-13
Filing date: 2022-09-13
Publication date: 2022-12-27

Abstract

一种基于模糊建模的隧道掘进数据缺失值插补方法，通过模糊建模的方法，对不完整掘进数据集进行缺失值插补。首先，对掘进数据进行采集，再对数据集进行检测是否包含缺失值。若为不完整数据集，将其通过模糊聚类的方法进行划分，划分为若干个模糊线性子集，并且通过拉格朗日乘子法迭代优化获取聚类后簇原型、单属性在各个子集的前件参数和预插补数据集。然后，基于该预插补数据集利用最小二乘法求解聚类簇中的后件参数。之后，再计算每个子集的输出并进行加权求和得到系统的全局输出。最后，使用缺失样本相应的模型输出值代替预插补值，当所有预插补值都被替换，则得到最终的插补数据集。

Description

一种基于模糊建模的隧道掘进数据缺失值插补方法

技术领域

本发明属于数据处理技术领域，涉及一种基于模糊建模的隧道掘进数据缺失值插补方法。

背景技术

盾构机是隧道建设施工中的重要机械装备，对于提升施工效率、保障作业安全具有十分重要的意义。然而，在盾构运行实测数据采集过程中，由于设备故障、存储错误、人为因素等多种原因，数据缺失问题无法完全避免。数据中缺失值的存在不仅会影响数据集的完整性还会降低数据挖掘的可靠性。因此，如何对缺失值进行有效处理，是实现数据与装备有机融合和推进掘进装备智能化过程中亟待解决的问题。

目前，缺失数据处理的方法一般是直接删除包含缺失值的样本或用属性均值对缺失样本进行填补。然而，上述处理方法太过简单粗暴，当缺失数据过多时不仅会进一步增加数据建模难度，还会产生不可信的分析结果。相较于上述方法，采样人工智能算法对不完整数据集进行有效分析，推导出尽可能合理的近似值，以此获得一个与原始数据集规模相同的插补数据集，更有利于后续的数据挖掘和分析。基于人工智能算法的这类方法主要是对不完整数据建模，从数据中提取有效信息，并使用它来估计缺失值。现实世界中所获取的数据集，属性间大多为非线性关系。模糊控制理论，由于其能对复杂的系统做出较为合理的估计，而被广泛应用于非线性系统分析。该理论的基本思想是将非线性系统划分成多个线性系统，然后利用隶属度函数将各个线性模型依次连接起来，形成完整的非线性模型。盾构机掘进系统各性能指标之间的相关性十分复杂，具有高度非线性的特点。因此，模糊建模方法十分适用于掘进数据中缺失值的插补，本发明采用模糊建模的方法来进行隧道掘进数据缺失值插补。

发明内容

针对现有技术存在的问题，本发明提供了一种基于模糊建模的隧道掘进数据缺失值插补方法，用以对各种原因所造成的不完整隧道掘进数据集进行缺失值插补，以此形成与原始数据集规模相同的新的数据集，便于后续数据分析。

为了达到上述目的，本发明采用的技术方案为：

一种基于模糊建模的隧道掘进数据缺失值插补方法，包括以下步骤：

第一步，采集掘进运行实测数据集，将采集后的数据集利用软件MATLAB进行读取，然后用该软件中的isnan函数来判断数据中是否存在缺失值，若存在缺失值，则该数据集为待插补的不完整数据集矩阵X＝{x₁,x₂,…,x_n}∈R^s，其中，n表示样本个数，R表示输入空间，s表示样本属性个数，向量x_i＝[x_i1,x_i2,…,x_is]^T(i＝1,2,…,n)表示第i个样本，T表示向量的转置。模糊聚类的目标函数如公式(1)，聚类的约束公式如公式(2)。

其中，U表示划分矩阵，大小为n行K列，V表示原型矩阵，大小为K行s列，u_ik表示隶属度，v_k表示第k(k＝1,2,…,K)个聚类簇的中心，K表示模糊子集个数，z∈(1,∞)表示模糊化参数。利用拉格朗日乘子法对划分矩阵和原型矩阵进行求解。拉格朗日函数求解公式为(3)。公式(3)的满足极小值的必要条件为公式(4)、公式(5)和公式(6)。

其中，向量λ＝[λ₁,λ₂,…,λ_n]^T表示拉格朗日乘子，v_t表示第t(t＝1,2,…,k)个聚类簇的中心。通过迭代优化公式(4)、公式(5)和公式(6)，便可获得原型矩阵V、划分矩阵U和预插补数据集矩阵

将U直接作为前件参数，

中的元素由公式(6)计算得到。

第二步，对各个模糊线性子集进行回归建模，线性回归模型总数为K，然后通过权重将各线性回归模型进行组合，构成如公式(7)所示的全局非线性模型。

其中，向量y_i表示样本x_i对应的模糊模型输出，向量w_ik表示计算该输出时第k个线性模型输出的权重，向量P_k＝[P_0k,P_1k,…,P_sk]表示第k条模糊子集的后件参数。w_ik的求解公式为公式(8)，后件参数采样最小二乘法进行求解，目标函数求解公式为公式(9)。

其中，向量

表示样本x_i对应的期望输出，向量y_i表示样本x_i对应的真实输出。根据最小二乘法，将公式(7)改写为公式(10)所示的矩阵形式。

Y＝H·P (10)

其中，Y表示各样本输出所构成的矩阵，H表示样本和权重相乘所构成的矩阵，P表示后件参数向量。求解后件参数的目标函数公式由公式(9)改写为公式(11)。

根据最小二乘法，公式(11)的最终求解公式为公式(12)。

P＝(H^TH)^-1H^TY (12)

第三步，根据第一步获得的前件参数和第二步获得的后件参数，利用公式(13)对各子集输出进行加权求和求解全局输出值。

y_i＝H_i·P (13)

其中，向量H_i表示矩阵H的第i行。

第四步，将第三步获得的模型输出值代替第一步所获得的预插补值，构成最终和原始不完整数据集规模相同的插补数据集。

本发明的有效增益效果为：本发明通过模糊建模的方法对隧道掘进数据缺失值进行插补，数据集中缺失值的存在不仅会对数据的质量和可靠性造成不良的影响，也会增加后续数据分析的难度和数据挖掘的可靠性。本发明在数据采集后就及时对不完整数据集进行合理有效的缺失值插补处理，可有效提高隧道掘进数据分析与建模的准确性，为盾构机的智能运维提供支撑。

附图说明

图1为本发明的缺失值插补流程图。

图2为本发明实施例的盾构机施工示意图。

图3为本发明实施例的缺失属性刀盘转速散点图。

图4为本发明实施例的缺失属性刀盘转速数据局部放大图。

图5为本发明实施例的缺失属性刀盘转速插补值散点图。

图6为本发明实施例的缺失属性刀盘转速插补值和真实值散点图。

具体实施方式

以下结合具体实施例对本发明做进一步说明。

如图1所示，本发明提供了一种基于模糊建模的隧道掘进数据缺失值插补方法，通过模糊建模的方法，对不完整掘进数据集进行缺失值插补。首先，对深圳地铁某隧道施工标段的掘进数据进行采集，再对所获取的掘进数据集进行检测，判断其是否包含缺失值。若为不完整数据集，将其通过模糊聚类的方法进行划分。首先，将不完整掘进数据集通过聚类的方法划分为若干个模糊线性子集，并且通过拉格朗日乘子法迭代优化获取聚类后簇原型、单属性在各个子集的前件参数和预插补数据集。然后，基于该预插补数据集利用最小二乘法求解聚类簇中的后件参数。之后，再计算每个子集的输出并进行加权求和得到系统的全局输出。最后，使用缺失样本相应的模型输出值代替预插补值，当所有预插补值都被替换，则得到最终的插补数据集。本实施例包括以下步骤：

第一步，采集盾构机在该深圳隧道标段施工时的掘进运行实测数据集，其施工示意图如图2所示，该标段由地表至地面包含多种地层，涵盖多种工况。该数据集包含1480个数据样本，47个属性参数。该数据集为完整数据集，以10％的缺失比例对原始数据集中的数据进行随机删除，组成待插补的不完整数据集矩阵X＝{x₁,x₂,…,x_n}∈R^s。其中，缺失比例为缺失值数目占属性值总数的比例，n表示样本个数，R表示输入空间，s表示样本属性个数，向量x_i＝[x_i1,x_i2,…,x_is]^T(i＝1,2,…,n)表示第i个样本，T表示向量的转置。为方便观察，以运行参数刀盘转速为例进行展示。图3为包含缺失值的刀盘转速数据的散点图，图4为该数据的局部放大图。模糊聚类的目标函数如公式(1)，聚类的约束公式如公式(2)。

其中，U表示划分矩阵，大小为n行K列，V表示原型矩阵，大小为K行s列，u_ik表示隶属度，v_k表示第k(k＝1,2,…,K)个聚类簇的中心，K表示模糊子集个数，z∈(1,∞)表示模糊化参数。在本实例中，n的取值为1480，K的取值为4，s的取值为47，z的取值为2。然后，利用拉格朗日乘子法对划分矩阵和原型矩阵进行求解。拉格朗日函数求解公式为(3)。公式(3)的满足极小值的必要条件为公式(4)、公式(5)和公式(6)。

将U直接作为前件参数，，

中的元素由公式(6)计算得到。

第二步，对第一步通过聚类划分后的4个模糊线性子集进行回归建模，然后通过权重将这4个线性回归模型进行组合，构成如公式(7)所示的全局非线性模型。

其中，向量y_i表示样本x_i对应的模糊模型输出，向量w_ik表示计算该输出时第k个线性模型输出的权重，向量P_k＝[P_0k,P_1k,…,P_sk]表示第k条模糊子集的后件参数，该实例中k的总数为4。w_ik的求解公式为公式(8)，后件参数采样最小二乘法进行求解，目标函数求解公式为公式(9)。

其中，向量

表示样本x_i对应的期望输出，向量y_i表示样本x_i对应的真实输出。为方便求解，根据最小二乘法，将公式(7)改写为公式(10)所示的矩阵形式。

Y＝H·P (10)

其中，Y表示掘进数据集中各样本输出所构成的矩阵，H表示样本和权重相乘所构成的矩阵，P表示后件参数向量。求解后件参数的目标函数公式由公式(9)改写为公式(11)。

根据最小二乘法，目标函数对后件参数P求偏导且取值为0，公式(11)的最终求解公式为公式(12)。

P＝(H^TH)^-1H^TY (12)

通过公式(12)便可获得后件参数。

第三步，根据第一步获得的前件参数和第二步获得的后件参数，利用公式(13)构建的模糊模型对4个线性子集输出进行加权求和求解全局输出值。

y_i＝H_i·P (13)

其中，向量H_i表示矩阵H的第i行。

第四步，将第三步获得的模型输出值代替第一步所获得的预插补值，把每一个缺失位的插补值替换后，构成最终和原始掘进不完整数据集规模相同的插补数据集，即大小为1480行47列的矩阵，掘进数据的缺失值插补即完成。图5为刀盘转速的插补值，图6为表示刀盘转速插补值和真实值关系的散点图，由图6可以看出两组数据呈正相关性，插补结果是合理的。

Claims

1.一种基于模糊建模的隧道掘进数据缺失值插补方法，其特征在于，具体步骤如下：

(1)、采集掘进运行实测数据集，将采集后的数据集利用软件MATLAB进行读取，然后用软件中的isnan函数来判断数据中是否存在缺失值，若存在缺失值，则该数据集为待插补的不完整数据集矩阵X＝{x₁,x₂,…,x_n}∈R^s，其中，n表示样本个数，R表示输入空间，s表示样本属性个数，向量x_i＝[x_i1,x_i2,…,x_is]^T(i＝1,2,…,n)表示第i个样本，T表示向量的转置；模糊聚类的目标函数如公式(1)，聚类的约束公式如公式(2)；

其中，U表示划分矩阵，大小为n行K列，V表示原型矩阵，大小为K行s列，u_ik表示隶属度，v_k表示第k个聚类簇的中心，k＝1,2,…,K，K表示模糊子集个数，z∈(1,∞)表示模糊化参数；利用拉格朗日乘子法对划分矩阵和原型矩阵进行求解；拉格朗日函数求解公式为(3)；公式(3)的满足极小值的必要条件为公式(4)、公式(5)和公式(6)；