CN115526032A - 一种基于模糊建模的隧道掘进数据缺失值插补方法 - Google Patents

一种基于模糊建模的隧道掘进数据缺失值插补方法 Download PDF

Info

Publication number
CN115526032A
CN115526032A CN202211108654.7A CN202211108654A CN115526032A CN 115526032 A CN115526032 A CN 115526032A CN 202211108654 A CN202211108654 A CN 202211108654A CN 115526032 A CN115526032 A CN 115526032A
Authority
CN
China
Prior art keywords
formula
data set
matrix
vector
interpolation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211108654.7A
Other languages
English (en)
Inventor
宋学官
王一棠
庞勇
张立勇
孙伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN202211108654.7A priority Critical patent/CN115526032A/zh
Publication of CN115526032A publication Critical patent/CN115526032A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Operations Research (AREA)
  • Complex Calculations (AREA)

Abstract

一种基于模糊建模的隧道掘进数据缺失值插补方法,通过模糊建模的方法,对不完整掘进数据集进行缺失值插补。首先,对掘进数据进行采集,再对数据集进行检测是否包含缺失值。若为不完整数据集,将其通过模糊聚类的方法进行划分,划分为若干个模糊线性子集,并且通过拉格朗日乘子法迭代优化获取聚类后簇原型、单属性在各个子集的前件参数和预插补数据集。然后,基于该预插补数据集利用最小二乘法求解聚类簇中的后件参数。之后,再计算每个子集的输出并进行加权求和得到系统的全局输出。最后,使用缺失样本相应的模型输出值代替预插补值,当所有预插补值都被替换,则得到最终的插补数据集。

Description

一种基于模糊建模的隧道掘进数据缺失值插补方法
技术领域
本发明属于数据处理技术领域,涉及一种基于模糊建模的隧道掘进数据缺失值插补方法。
背景技术
盾构机是隧道建设施工中的重要机械装备,对于提升施工效率、保障作业安全具有十分重要的意义。然而,在盾构运行实测数据采集过程中,由于设备故障、存储错误、人为因素等多种原因,数据缺失问题无法完全避免。数据中缺失值的存在不仅会影响数据集的完整性还会降低数据挖掘的可靠性。因此,如何对缺失值进行有效处理,是实现数据与装备有机融合和推进掘进装备智能化过程中亟待解决的问题。
目前,缺失数据处理的方法一般是直接删除包含缺失值的样本或用属性均值对缺失样本进行填补。然而,上述处理方法太过简单粗暴,当缺失数据过多时不仅会进一步增加数据建模难度,还会产生不可信的分析结果。相较于上述方法,采样人工智能算法对不完整数据集进行有效分析,推导出尽可能合理的近似值,以此获得一个与原始数据集规模相同的插补数据集,更有利于后续的数据挖掘和分析。基于人工智能算法的这类方法主要是对不完整数据建模,从数据中提取有效信息,并使用它来估计缺失值。现实世界中所获取的数据集,属性间大多为非线性关系。模糊控制理论,由于其能对复杂的系统做出较为合理的估计,而被广泛应用于非线性系统分析。该理论的基本思想是将非线性系统划分成多个线性系统,然后利用隶属度函数将各个线性模型依次连接起来,形成完整的非线性模型。盾构机掘进系统各性能指标之间的相关性十分复杂,具有高度非线性的特点。因此,模糊建模方法十分适用于掘进数据中缺失值的插补,本发明采用模糊建模的方法来进行隧道掘进数据缺失值插补。
发明内容
针对现有技术存在的问题,本发明提供了一种基于模糊建模的隧道掘进数据缺失值插补方法,用以对各种原因所造成的不完整隧道掘进数据集进行缺失值插补,以此形成与原始数据集规模相同的新的数据集,便于后续数据分析。
为了达到上述目的,本发明采用的技术方案为:
一种基于模糊建模的隧道掘进数据缺失值插补方法,包括以下步骤:
第一步,采集掘进运行实测数据集,将采集后的数据集利用软件MATLAB进行读取,然后用该软件中的isnan函数来判断数据中是否存在缺失值,若存在缺失值,则该数据集为待插补的不完整数据集矩阵X={x1,x2,…,xn}∈Rs,其中,n表示样本个数,R表示输入空间,s表示样本属性个数,向量xi=[xi1,xi2,…,xis]T(i=1,2,…,n)表示第i个样本,T表示向量的转置。模糊聚类的目标函数如公式(1),聚类的约束公式如公式(2)。
Figure BDA0003842365310000021
Figure BDA0003842365310000022
其中,U表示划分矩阵,大小为n行K列,V表示原型矩阵,大小为K行s列,uik表示隶属度,vk表示第k(k=1,2,…,K)个聚类簇的中心,K表示模糊子集个数,z∈(1,∞)表示模糊化参数。利用拉格朗日乘子法对划分矩阵和原型矩阵进行求解。拉格朗日函数求解公式为(3)。公式(3)的满足极小值的必要条件为公式(4)、公式(5)和公式(6)。
Figure BDA0003842365310000023
Figure BDA0003842365310000024
Figure BDA0003842365310000025
Figure BDA0003842365310000026
其中,向量λ=[λ12,…,λn]T表示拉格朗日乘子,vt表示第t(t=1,2,…,k)个聚类簇的中心。通过迭代优化公式(4)、公式(5)和公式(6),便可获得原型矩阵V、划分矩阵U和预插补数据集矩阵
Figure BDA0003842365310000027
将U直接作为前件参数,
Figure BDA0003842365310000028
中的元素由公式(6)计算得到。
第二步,对各个模糊线性子集进行回归建模,线性回归模型总数为K,然后通过权重将各线性回归模型进行组合,构成如公式(7)所示的全局非线性模型。
Figure BDA0003842365310000029
其中,向量yi表示样本xi对应的模糊模型输出,向量wik表示计算该输出时第k个线性模型输出的权重,向量Pk=[P0k,P1k,…,Psk]表示第k条模糊子集的后件参数。wik的求解公式为公式(8),后件参数采样最小二乘法进行求解,目标函数求解公式为公式(9)。
Figure BDA00038423653100000210
Figure BDA00038423653100000211
其中,向量
Figure BDA0003842365310000031
表示样本xi对应的期望输出,向量yi表示样本xi对应的真实输出。根据最小二乘法,将公式(7)改写为公式(10)所示的矩阵形式。
Y=H·P (10)
其中,Y表示各样本输出所构成的矩阵,H表示样本和权重相乘所构成的矩阵,P表示后件参数向量。求解后件参数的目标函数公式由公式(9)改写为公式(11)。
Figure BDA0003842365310000032
根据最小二乘法,公式(11)的最终求解公式为公式(12)。
P=(HTH)-1HTY (12)
第三步,根据第一步获得的前件参数和第二步获得的后件参数,利用公式(13)对各子集输出进行加权求和求解全局输出值。
yi=Hi·P (13)
其中,向量Hi表示矩阵H的第i行。
第四步,将第三步获得的模型输出值代替第一步所获得的预插补值,构成最终和原始不完整数据集规模相同的插补数据集。
本发明的有效增益效果为:本发明通过模糊建模的方法对隧道掘进数据缺失值进行插补,数据集中缺失值的存在不仅会对数据的质量和可靠性造成不良的影响,也会增加后续数据分析的难度和数据挖掘的可靠性。本发明在数据采集后就及时对不完整数据集进行合理有效的缺失值插补处理,可有效提高隧道掘进数据分析与建模的准确性,为盾构机的智能运维提供支撑。
附图说明
图1为本发明的缺失值插补流程图。
图2为本发明实施例的盾构机施工示意图。
图3为本发明实施例的缺失属性刀盘转速散点图。
图4为本发明实施例的缺失属性刀盘转速数据局部放大图。
图5为本发明实施例的缺失属性刀盘转速插补值散点图。
图6为本发明实施例的缺失属性刀盘转速插补值和真实值散点图。
具体实施方式
以下结合具体实施例对本发明做进一步说明。
如图1所示,本发明提供了一种基于模糊建模的隧道掘进数据缺失值插补方法,通过模糊建模的方法,对不完整掘进数据集进行缺失值插补。首先,对深圳地铁某隧道施工标段的掘进数据进行采集,再对所获取的掘进数据集进行检测,判断其是否包含缺失值。若为不完整数据集,将其通过模糊聚类的方法进行划分。首先,将不完整掘进数据集通过聚类的方法划分为若干个模糊线性子集,并且通过拉格朗日乘子法迭代优化获取聚类后簇原型、单属性在各个子集的前件参数和预插补数据集。然后,基于该预插补数据集利用最小二乘法求解聚类簇中的后件参数。之后,再计算每个子集的输出并进行加权求和得到系统的全局输出。最后,使用缺失样本相应的模型输出值代替预插补值,当所有预插补值都被替换,则得到最终的插补数据集。本实施例包括以下步骤:
第一步,采集盾构机在该深圳隧道标段施工时的掘进运行实测数据集,其施工示意图如图2所示,该标段由地表至地面包含多种地层,涵盖多种工况。该数据集包含1480个数据样本,47个属性参数。该数据集为完整数据集,以10%的缺失比例对原始数据集中的数据进行随机删除,组成待插补的不完整数据集矩阵X={x1,x2,…,xn}∈Rs。其中,缺失比例为缺失值数目占属性值总数的比例,n表示样本个数,R表示输入空间,s表示样本属性个数,向量xi=[xi1,xi2,…,xis]T(i=1,2,…,n)表示第i个样本,T表示向量的转置。为方便观察,以运行参数刀盘转速为例进行展示。图3为包含缺失值的刀盘转速数据的散点图,图4为该数据的局部放大图。模糊聚类的目标函数如公式(1),聚类的约束公式如公式(2)。
Figure BDA0003842365310000041
Figure BDA0003842365310000042
其中,U表示划分矩阵,大小为n行K列,V表示原型矩阵,大小为K行s列,uik表示隶属度,vk表示第k(k=1,2,…,K)个聚类簇的中心,K表示模糊子集个数,z∈(1,∞)表示模糊化参数。在本实例中,n的取值为1480,K的取值为4,s的取值为47,z的取值为2。然后,利用拉格朗日乘子法对划分矩阵和原型矩阵进行求解。拉格朗日函数求解公式为(3)。公式(3)的满足极小值的必要条件为公式(4)、公式(5)和公式(6)。
Figure BDA0003842365310000043
Figure BDA0003842365310000044
Figure BDA0003842365310000045
Figure BDA0003842365310000051
其中,向量λ=[λ12,…,λn]T表示拉格朗日乘子,vt表示第t(t=1,2,…,k)个聚类簇的中心。通过迭代优化公式(4)、公式(5)和公式(6),便可获得原型矩阵V、划分矩阵U和预插补数据集矩阵
Figure BDA0003842365310000052
将U直接作为前件参数,,
Figure BDA0003842365310000053
中的元素由公式(6)计算得到。
第二步,对第一步通过聚类划分后的4个模糊线性子集进行回归建模,然后通过权重将这4个线性回归模型进行组合,构成如公式(7)所示的全局非线性模型。
Figure BDA0003842365310000054
其中,向量yi表示样本xi对应的模糊模型输出,向量wik表示计算该输出时第k个线性模型输出的权重,向量Pk=[P0k,P1k,…,Psk]表示第k条模糊子集的后件参数,该实例中k的总数为4。wik的求解公式为公式(8),后件参数采样最小二乘法进行求解,目标函数求解公式为公式(9)。
Figure BDA0003842365310000055
Figure BDA0003842365310000056
其中,向量
Figure BDA0003842365310000058
表示样本xi对应的期望输出,向量yi表示样本xi对应的真实输出。为方便求解,根据最小二乘法,将公式(7)改写为公式(10)所示的矩阵形式。
Y=H·P (10)
其中,Y表示掘进数据集中各样本输出所构成的矩阵,H表示样本和权重相乘所构成的矩阵,P表示后件参数向量。求解后件参数的目标函数公式由公式(9)改写为公式(11)。
Figure BDA0003842365310000057
根据最小二乘法,目标函数对后件参数P求偏导且取值为0,公式(11)的最终求解公式为公式(12)。
P=(HTH)-1HTY (12)
通过公式(12)便可获得后件参数。
第三步,根据第一步获得的前件参数和第二步获得的后件参数,利用公式(13)构建的模糊模型对4个线性子集输出进行加权求和求解全局输出值。
yi=Hi·P (13)
其中,向量Hi表示矩阵H的第i行。
第四步,将第三步获得的模型输出值代替第一步所获得的预插补值,把每一个缺失位的插补值替换后,构成最终和原始掘进不完整数据集规模相同的插补数据集,即大小为1480行47列的矩阵,掘进数据的缺失值插补即完成。图5为刀盘转速的插补值,图6为表示刀盘转速插补值和真实值关系的散点图,由图6可以看出两组数据呈正相关性,插补结果是合理的。

Claims (1)

1.一种基于模糊建模的隧道掘进数据缺失值插补方法,其特征在于,具体步骤如下:
(1)、采集掘进运行实测数据集,将采集后的数据集利用软件MATLAB进行读取,然后用软件中的isnan函数来判断数据中是否存在缺失值,若存在缺失值,则该数据集为待插补的不完整数据集矩阵X={x1,x2,…,xn}∈Rs,其中,n表示样本个数,R表示输入空间,s表示样本属性个数,向量xi=[xi1,xi2,…,xis]T(i=1,2,…,n)表示第i个样本,T表示向量的转置;模糊聚类的目标函数如公式(1),聚类的约束公式如公式(2);
Figure FDA0003842365300000011
Figure FDA0003842365300000012
其中,U表示划分矩阵,大小为n行K列,V表示原型矩阵,大小为K行s列,uik表示隶属度,vk表示第k个聚类簇的中心,k=1,2,…,K,K表示模糊子集个数,z∈(1,∞)表示模糊化参数;利用拉格朗日乘子法对划分矩阵和原型矩阵进行求解;拉格朗日函数求解公式为(3);公式(3)的满足极小值的必要条件为公式(4)、公式(5)和公式(6);
Figure FDA0003842365300000013
Figure FDA0003842365300000014
Figure FDA0003842365300000015
Figure FDA0003842365300000016
其中,向量λ=[λ12,…,λn]T表示拉格朗日乘子,vt表示第t个聚类簇的中心,t=1,2,…,k;通过迭代优化公式(4)、公式(5)和公式(6),获得原型矩阵V、划分矩阵U和预插补数据集矩阵
Figure FDA0003842365300000017
将U直接作为前件参数,
Figure FDA0003842365300000018
中的元素由公式(6)计算得到;
(2)对各个模糊线性子集进行回归建模,线性回归模型总数为K,然后通过权重将各线性回归模型进行组合,构成如公式(7)所示的全局非线性模型;
Figure FDA0003842365300000019
其中,向量yi表示样本xi对应的模糊模型输出,向量wik表示计算该输出时第k个线性模型输出的权重,向量Pk=[P0k,P1k,…,Psk]表示第k条模糊子集的后件参数;wik的求解公式为公式(8),后件参数采样最小二乘法进行求解,目标函数求解公式为公式(9);
Figure FDA0003842365300000021
Figure FDA0003842365300000022
其中,向量
Figure FDA0003842365300000023
表示样本xi对应的期望输出,向量yi表示样本xi对应的真实输出;根据最小二乘法,将公式(7)改写为公式(10)所示的矩阵形式;
Y=H·P (10)
其中,Y表示各样本输出所构成的矩阵,H表示样本和权重相乘所构成的矩阵,P表示后件参数向量;求解后件参数的目标函数公式由公式(9)改写为公式(11);
Figure FDA0003842365300000024
根据最小二乘法,公式(11)的最终求解公式为公式(12);
P=(HTH)-1HTY (12)
(3)根据步骤(1)获得的前件参数和步骤(2)获得的后件参数,利用公式(13)对各子集输出进行加权求和求解全局输出值;
yi=Hi·P (13)
其中,向量Hi表示矩阵H的第i行;
(4)最后,将步骤(3)获得的模型输出值代替步骤(1)所获得的预插补值,构成最终和原始不完整数据集规模相同的插补数据集。
CN202211108654.7A 2022-09-13 2022-09-13 一种基于模糊建模的隧道掘进数据缺失值插补方法 Pending CN115526032A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211108654.7A CN115526032A (zh) 2022-09-13 2022-09-13 一种基于模糊建模的隧道掘进数据缺失值插补方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211108654.7A CN115526032A (zh) 2022-09-13 2022-09-13 一种基于模糊建模的隧道掘进数据缺失值插补方法

Publications (1)

Publication Number Publication Date
CN115526032A true CN115526032A (zh) 2022-12-27

Family

ID=84697448

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211108654.7A Pending CN115526032A (zh) 2022-09-13 2022-09-13 一种基于模糊建模的隧道掘进数据缺失值插补方法

Country Status (1)

Country Link
CN (1) CN115526032A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118194075A (zh) * 2024-05-17 2024-06-14 大连理工大学 一种基于模糊聚类的矿用挖掘机实测数据划分方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118194075A (zh) * 2024-05-17 2024-06-14 大连理工大学 一种基于模糊聚类的矿用挖掘机实测数据划分方法

Similar Documents

Publication Publication Date Title
CN114036841A (zh) 基于半监督支持向量机模型的滑坡易发性预测方法及系统
CN115526032A (zh) 一种基于模糊建模的隧道掘进数据缺失值插补方法
CN113688172B (zh) 滑坡易发性评估模型训练方法、评估方法、装置及介质
CN113762360B (zh) 一种基于smote+adacost算法的tbm掘进过程中的围岩等级预测方法
CN112364917B (zh) 地质类型的识别方法及装置、存储介质、计算机设备
CN117154704B (zh) 一种基于多尺度时空图注意力卷积网络的光伏功率预测方法
CN112734119A (zh) 一种基于空间养分聚类分析的玉米产量预测方法
CN113420506A (zh) 掘进速度的预测模型建立方法、预测方法及装置
CN112784906A (zh) 基于多条件时间序列的农机监测数据清洗方法与装置
Ayub et al. Wheat Crop Field and Yield Prediction using Remote Sensing and Machine Learning
CN113421255B (zh) 一种基于栅格的耕地复种指数提取方法及系统
CN114782835B (zh) 作物倒伏面积比例检测方法及装置
CN116612383A (zh) 基于生成对抗网络数据扩充策略的滑坡识别方法及装置
CN116627953A (zh) 一种地下水位监测数据缺失的修复方法
CN106652032B (zh) 一种基于Linux集群平台的DEM并行等高线生成方法
CN115271343A (zh) 一种缺水区作物种植结构监测和调整决策的方法及系统
CN114936765A (zh) 一种考虑空间异质性的农业干旱指数构建方法
CN114063063A (zh) 基于合成孔径雷达和点状传感器的地质灾害监测方法
CN113052433A (zh) 基于关键时相和农田景观特征参量的作物单产估算方法
CN116579254B (zh) 一种大蒜挖掘阻力及损伤率预测系统、方法及存储介质
CN117253141B (zh) 森林调查样地的样地数据确定方法、装置及电子设备
CN117633449B (zh) 基于Spark-Cassandra框架的DE-DOA改进RRDBNet降水数据降尺度方法
CN116204760B (zh) 一种基于gru网络的钻孔应变数据异常提取方法
CN118097435B (zh) 基于超图神经网络的玉米倒伏分类方法及装置
Mishra et al. An Investigation into Farming Suitability Prediction using Advanced ML Models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination