CN113468156A - 基于特征融合增强的数据集缺失值填补方法 - Google Patents

基于特征融合增强的数据集缺失值填补方法 Download PDF

Info

Publication number
CN113468156A
CN113468156A CN202110772157.6A CN202110772157A CN113468156A CN 113468156 A CN113468156 A CN 113468156A CN 202110772157 A CN202110772157 A CN 202110772157A CN 113468156 A CN113468156 A CN 113468156A
Authority
CN
China
Prior art keywords
neuron
output
neurons
model
filling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110772157.6A
Other languages
English (en)
Inventor
杜圣东
刘心瑶
李天瑞
滕飞
邢焕来
龚勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Jiaotong University
Original Assignee
Southwest Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Jiaotong University filed Critical Southwest Jiaotong University
Priority to CN202110772157.6A priority Critical patent/CN113468156A/zh
Publication of CN113468156A publication Critical patent/CN113468156A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于特征融合增强的数据集缺失值填补方法。首先,设计了一种新型神经网络隐藏层,通过去跟踪神经元与径向基函数神经元从不同维度学习数据特征。去跟踪神经元可以降低自编码器无效恒等映射问题,有效挖掘数据属性间的关联特征;径向基函数神经元的自动聚类能力,可以更好地学习到缺失样本间的共性特征。其次,采用了一种迭代优化的缺失值动态填补策略,缺失值被视为代价函数的变量与模型的参数一起随着优化函数动态变化,在训练期间缺失值的估计误差会随着迭代优化的深入而渐进降低,模型的准确性和填补精度得以持续提升,同时提升模型对不完整数据的学习填补适应能力。

Description

基于特征融合增强的数据集缺失值填补方法
技术领域
本发明涉及数据清洗领域,特别是一种基于特征融合增强的数据集缺失值填补方法。
背景技术
数据质量问题是数据分析研究及应用过程中面临的关键挑战之一,处理不好就会是“Garbage In Garbage Out”(垃圾进垃圾出),尤其在机器学习应用中,若直接对缺失数据进行建模,会增加分析过程的不确定性,并降低模型的准确性和可靠性。因此,需要在数据预处理时,对数据缺失值进行妥善的处理,一般通过直接删除缺失值会造成大量信息失真,降低数据质量和可靠度。而通过缺失值填补方法为缺失数据找到一个合理的替代或补充,从而保持原始数据集的特征分布,提升数据质量。缺失值填补因其重要的应用价值而受到广泛关注,许多研究者从多种角度出发,提出了不同的缺失值填补方法。要对数据缺失值进行有效填补,关键问题在于如何深度挖掘缺失数据的内部特征,通过足够的内部特征分析,找到合理的值进行缺失值填补。一般来讲,缺失值填补需要找到缺失数据集中的两类关键特征:
(1)数据共性特征:它是指基于数据之间的相似性进行特征挖掘,为每一个不完整的数据找到一组最相似的数据,并根据相似数据的属性值来填充缺失的值。
(2)数据关联特征:现实生活中的数据往往存在着较为复杂的非线性关系,如何建模学习到缺失数据集中的数据关联性特征,直接影响缺失值填补效果。当前深度神经网络因其优秀的非线性映射学习能力,被广泛运用于数据关联特征挖掘,为新的缺失值填补性模型设计提供了新的参考。
随着机器学习的快速发展,许多基于神经网络的缺失值填补方法被提出,其中包含自组织映射(Self-Organizing Map,SOM),多层感知机(Multi-Layer Perceptron,MLP),自编码器(AutoEncoder,AE)等方法。其中自组织映射方法虽然结构简洁,但忽略了属性间的相关性,导致模型的填补精度不高。而在多层感知机模型中,该模型会根据数据集中每种不完整属性组合构建专属的MLP模型,即建立不完整属性为模型输出,其他属性为模型输入的MLP回归模型,虽然能较好的学习到属性间的关联特征,但是由于每个专属模型都需要完成一次训练,训练过程比较耗时间,开销较大。基于简单的自编码器模型仅借助一个网络结构即可实现各类数据缺失形式下的填补任务,极大降低了缺失数据集建模的复杂性,它也因此在缺失值填补领域备受关注。但在使用传统自编码器用于缺失值填补时,模型输出和输入间的误差在训练过程中不断缩小,输出将高度追踪对应的输入,从而表现出自跟踪性。由于自编码器填补模型高度的结构简洁性,许多研究人员在自编码器模型上进行改进,提出了径向基函数神经网络(radial basis function neural network)、广义回归神经网络(Generalized Regression Neural Network,GRNN)、对偶传播网络(CouterpropagationNetwork,CPN),去跟踪自编器(Tracking-removed Autoencoder),关联增强型自编码器(Correlation-enhanced Autoassociative Neural Network,CE-AANN)等各类自编码器变体模型用于缺失值填补,但目前上述方法都只是从数据属性间的关联特征维度进行学习。
基于自编码器的缺失值填补模型,一般采用的填补方法是由训练阶段和填补阶段组成。它先通过完整的记录来训练网络,然后将预处理的不完整记录输入到训练好的网络中,并使用相应的网络输出来计算缺失值。但这种方法在数据缺失率过大时,模型的训练精度会由于完整样本较少而快速降低,模型难以学习到不完整数据内部的信息结构及特征,适应能力存在一定的瓶颈。
发明内容
本发明的目的是提供一种基于特征融合增强的数据集缺失值填补方法。首先,设计了一种新型神经网络隐藏层,通过去跟踪神经元与径向基函数神经元从不同维度学习数据特征,去跟踪神经元可以降低自编码器无效恒等映射问题,有效挖掘数据属性间的关联特征;径向基函数神经元的自动聚类能力,可以更好地学习到缺失样本间的共性特征。通过两类神经元的输出彼此参考制约,使得模型可以从数据关联特征和数据共性特征两个维度进行特征融合,实现多维度的特征融合学习。其次,采用了一种迭代优化的缺失值动态填补策略(Missing Values Participating in Training,MVPT)。在该策略中,缺失值被视为代价函数的变量与模型的参数一起随着优化函数动态变化,在训练期间缺失值的估计误差会随着迭代优化的深入而渐进降低,模型的准确性和填补精度得以持续提升,同时提升模型对不完整数据的学习填补适应能力。
实现本发明目的的技术方案如下:
基于特征融合增强的数据集缺失值填补方法,包括:
步骤1:使用随机森林对包含缺失值的数据集进行预填补,得到预填补后的数据集X,
X={xij|i=1,2,...,n;j=1,2,...,s};
步骤2:初始化神经网络中的连接权重和阈值;
步骤3:将X输入神经网络隐藏层,发掘出关联特征和共性特征;
所述神经网络隐藏层包括m1个去跟踪神经元,通过去跟踪神经元发掘出关联特征,如下:
Figure BDA0003149775560000021
其中,k=1,2...,m1,netikj为第k个去跟踪神经元在剔除对应输入xij后得到的输出,s为属性个数即X的列数,
Figure BDA0003149775560000031
为xil和第k个去跟踪神经元的连接权重,
Figure BDA0003149775560000032
为第k个去跟踪神经元的阈值;
所述神经网络隐藏层还包括m2个径向基函数神经元,通过径向基函数隐藏层神经元发掘出共性特征,如下:
Figure BDA0003149775560000033
其中,g=1,2,...,m2,netigj为第g个径向基函数神经元针对输入xij的输出;μg是第g个径向基函数神经元的中心点,σg是第g个径向基函数神经元的宽度,通过基于k-means聚类算法在X中找到m2个中心点后计算得到,
Figure BDA0003149775560000034
cmax表示m2个中心点间的最大距离;
步骤4:将关联特征和共性特征输入神经网络输出层,得到模型输出yij和参考输出rij;其中,模型输出
Figure BDA0003149775560000035
式中,yij为对输入xij产生的模型输出,
Figure BDA0003149775560000036
为隐藏层第k个去跟踪神经元和输出层第j个神经元的连接权重,
Figure BDA0003149775560000037
为输出层第j个神经元的阈值;
参考输出
Figure BDA0003149775560000038
式中,rij为对输入xij产生的参考输出,
Figure BDA0003149775560000039
为隐藏层第g个径向基函数神经元和输出层第j个神经元的连接权重;
步骤5:设置目标函数,
Figure BDA00031497755600000310
使用Adam优化算法最小化目标函数L,更新连接权重和阈值,并填补缺失值。
与现有技术相比,本发明的有益效果为:
1、通过引入去跟踪神经元和径向基函数神经元两类神经元构建了一种新的神经网络隐藏层,通过两类输出的相互制约,可以综合两类神经元的特点,在去除自跟踪性的基础上挖掘样本属性间的关联特征和样本共性特征,从多维度进行数据特征融合学习,提高缺失填补性能。
2、采用动态填补策略MVPT,训练过程中允许缺失数据集动态加入,与参数一起训练优化以提升填补效果。
附图说明
图1为基于特征融合增强自编码器的缺失值填补模型框架示意图。
图2为不同隐藏层神经元的差异示意图。
具体实施方式
本发明针对经典自编码器模型用于缺失值填补中存在的主要问题,提出了一种基于特征融合增强自编码器的缺失值填补方法(Feature Fusion Enhanced AutoencoderModel for Missing Value Filling,FFEAM)。如图1所示,本发明设计了一种基于去跟踪神经元和径向基函数神经元的新型神经网络隐藏层,以协同训练填补缺失值。
本发明的具体实施步骤如下:
步骤1:使用随机森林对包含缺失值的数据集进行预填补,得到预填补后的数据集X,
X={xij|i=1,2,...,n;j=1,2,...,s};
步骤2:初始化基于特征融合增强自编码器的缺失值填补模型的权重和阈值;
步骤3:数据输入神经网络隐藏层,利用新型隐藏层中的去跟踪神经元发掘数据属性间的关联特征,利用径向基函数神经元发掘数据间的共性特征,得到两类隐藏层输出,具体表现为:
去跟踪神经元输出如下式所示:
Figure BDA0003149775560000041
上式中netikj代表第k个去跟踪神经元在剔除对应输入xij后得到的输出,s代表属性个数也就是xij数据集的列数,k代表第k个去跟踪神经元,m1为去跟踪神经元的个数,wlk (1)代表输入层第l个节点和隐藏层的第k个去跟踪神经元的连接权重,其中第l个节点代表在输入层的第l个神经元也就是输入值xil,bk (1)表示隐藏层的第k个去跟踪神经元的阈值;
径向基函数隐藏层神经元输出如下式所示:
Figure BDA0003149775560000051
上式中netigj代表第g个径向基函数神经元针对输入xij的输出;μg是第g个径向基函数神经元的中心点,σg是第g个径向基函数神经元的宽度,通过基于k-means聚类算法在xij数据集中找到m2个中心点后计算得到,
Figure BDA0003149775560000052
cmax表示m2个中心点间的最大距离;
步骤4:在神经网络输出层得到两类输出,具体表现为:
网络的模型输出yij按照下式计算:
Figure BDA0003149775560000053
上式中,yij为对输入xij产生的对应模型输出,netikj为第k个去跟踪神经元的输出;m1为去跟踪神经元的个数;s为属性个数;wkj (2)代表隐藏层第k个去跟踪神经元和输出层的第j个输出层神经元的连接权重,bj (2)表示第j个输出层神经元间的阈值;
网络的参考输出rij按照下式计算:
Figure BDA0003149775560000054
上式中,rij为对输入xij产生的对应模型参考输出,netigj为第g个径向基函数神经元的输出;s为属性个数;m2为径向基函数神经元个数;wgj (2)代表隐藏层第g个径向基函数神经元和输出层的第j个输出层神经元的连接权重,bj (2)表示第j个输出层神经元间的阈值;
步骤5:最小化目标函数式更新模型权重和阈值,并将缺失值被视为目标函数的变量与模型的参数一起随着目标函数动态变化,具体为:
目标函数如下式:
Figure BDA0003149775560000055
如果样本xij为不完整样本,基于Adam优化算法更新xij中的缺失值变量,进而填补缺失值,否则继续下一个样本。
为了验证本发明的有效性,本发明实验采用的四个数据集是源于UCI的开源数据集,详见下表1,实验从完整数据中随机删除部分现有值,从而构造不完整数据集,缺失率分别设置为20%,30%,40%,50%。
表1实验数据集描述
Figure BDA0003149775560000061
为了验证模型的填补性能,将FFEAM与均值填补(Means),自编码器(AE),关联增强型自编码器(CE-AANN)三个基准模型进行比较:
(1)Means:比较传统的统计填补方法,数值型数据以不完整属性列中全部现有值的平均值作为填补值。
(2)AE:基于经典自编码器的填补模型,该模型通过输出端复现输入端的值,填补缺失值。根据2.1节所描述的方法建立自编码器填补模型,接着根据MVPT方案展开填补。
(3)CE-AANN:Lai等提出的一种关联增强型自编码器填补模型。
实验使用均方根误差(Root Mean Square Error,RMSE)和平均绝对误差(MeanAbsolute Error,MAE)作为填补性能的评价指标,RMSE和MAE的计算公式如下:
Figure BDA0003149775560000062
Figure BDA0003149775560000063
其中n为样本总数,yi表示填补值,xi表示与该填补值对应的真实值。
实验结果如表2所示:
表2实验结果
Figure BDA0003149775560000064
实验结果表明,本发明构建的FFEAM模型不管针对不同缺失率的设置,还是在不同数据集上的实验表现,均比其他基准对比模型具有更优的填补性能。其主要原因是在于FFEAM通过引入去跟踪神经元来约束网络输出对相应输入的过度依赖,即避免直接学习到输出复现输入的无效映射,还通过径向基函数神经元,对样本数据进行聚类计算。通过去跟踪神经元与径向基函数神经元的有机融合,使得模型可以从两个个维度进行融合特征学习,让模型可以学习到数据属性间关联特征的同时能挖掘数据共性特征,从而提高了模型填补精度。

Claims (1)

1.基于特征融合增强的数据集缺失值填补方法,其特征在于,包括:
步骤1:使用随机森林对包含缺失值的数据集进行预填补,得到预填补后的数据集X,
X={xij|i=1,2,...,n;j=1,2,...,s};
步骤2:初始化神经网络中的连接权重和阈值;
步骤3:将X输入神经网络隐藏层,发掘出关联特征和共性特征;
所述神经网络隐藏层包括m1个去跟踪神经元,通过去跟踪神经元发掘出关联特征,如下:
Figure FDA0003149775550000011
其中,k=1,2...,m1,netikj为第k个去跟踪神经元在剔除对应输入xij后得到的输出,s为属性个数即X的列数,
Figure FDA0003149775550000012
为xil和第k个去跟踪神经元的连接权重,
Figure FDA0003149775550000013
为第k个去跟踪神经元的阈值;
所述神经网络隐藏层还包括m2个径向基函数神经元,通过径向基函数隐藏层神经元发掘出共性特征,如下:
Figure FDA0003149775550000014
其中,g=1,2,...,m2,netigj为第g个径向基函数神经元针对输入xij的输出;μg是第g个径向基函数神经元的中心点,σg是第g个径向基函数神经元的宽度,通过基于k-means聚类算法在X中找到m2个中心点后计算得到,
Figure FDA0003149775550000015
cmax表示m2个中心点间的最大距离;
步骤4:将关联特征和共性特征输入神经网络输出层,得到模型输出yij和参考输出rij;其中,
模型输出
Figure FDA0003149775550000016
式中,yij为对输入xij产生的模型输出,
Figure FDA0003149775550000017
为隐藏层第k个去跟踪神经元和输出层第j个神经元的连接权重,
Figure FDA0003149775550000021
为输出层第j个神经元的阈值;
参考输出
Figure FDA0003149775550000022
式中,rij为对输入xij产生的参考输出,
Figure FDA0003149775550000023
为隐藏层第g个径向基函数神经元和输出层第j个神经元的连接权重;
步骤5:设置目标函数,
Figure FDA0003149775550000024
使用Adam优化算法最小化目标函数L,更新连接权重和阈值,并填补缺失值。
CN202110772157.6A 2021-07-06 2021-07-06 基于特征融合增强的数据集缺失值填补方法 Pending CN113468156A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110772157.6A CN113468156A (zh) 2021-07-06 2021-07-06 基于特征融合增强的数据集缺失值填补方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110772157.6A CN113468156A (zh) 2021-07-06 2021-07-06 基于特征融合增强的数据集缺失值填补方法

Publications (1)

Publication Number Publication Date
CN113468156A true CN113468156A (zh) 2021-10-01

Family

ID=77879166

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110772157.6A Pending CN113468156A (zh) 2021-07-06 2021-07-06 基于特征融合增强的数据集缺失值填补方法

Country Status (1)

Country Link
CN (1) CN113468156A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114328742A (zh) * 2021-12-31 2022-04-12 广东泰迪智能科技股份有限公司 一种中央空调的缺失数据预处理方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114328742A (zh) * 2021-12-31 2022-04-12 广东泰迪智能科技股份有限公司 一种中央空调的缺失数据预处理方法

Similar Documents

Publication Publication Date Title
CN112434169B (zh) 一种知识图谱的构建方法及其系统和计算机设备
WO2022083009A1 (zh) 一种基于异源数据差补融合的定制产品性能预测方法
US20230196076A1 (en) Method for optimally selecting flood-control operation scheme based on temporal convolutional network
CN104281617A (zh) 一种基于领域知识的多层关联规则挖掘方法及系统
CN110555455A (zh) 一种基于实体关系的在线交易欺诈检测方法
CN113190654B (zh) 一种基于实体联合嵌入和概率模型的知识图谱补全方法
CN111506760B (zh) 一种基于困难感知的深度集成度量图像检索方法
CN110309907A (zh) 一种基于去跟踪自编码器的动态缺失值填补方法
CN109978050A (zh) 基于svm-rf的决策规则提取及约简方法
CN109492816B (zh) 一种基于混合智能的煤与瓦斯突出动态预测方法
CN109754122A (zh) 一种基于随机森林特征提取的bp神经网络的数值预测方法
CN113420868A (zh) 一种基于深度强化学习的旅行商问题求解方法及求解系统
CN113901448B (zh) 基于卷积神经网络和轻量级梯度提升机的入侵检测方法
CN111062421A (zh) 基于相关性分析的网络节点多维数据社团划分算法
CN113761221A (zh) 基于图神经网络的知识图谱实体对齐方法
CN113361279A (zh) 一种基于双邻域图神经网络的医疗实体对齐方法及系统
CN116386899A (zh) 基于图学习的药物疾病关联关系预测方法及相关设备
CN112507077A (zh) 基于关系图注意力神经网络的事件时序关系识别方法
CN113987203A (zh) 一种基于仿射变换与偏置建模的知识图谱推理方法与系统
CN113515540A (zh) 一种数据库的查询重写方法
CN114519107A (zh) 一种联合实体关系表示的知识图谱融合方法
CN113468156A (zh) 基于特征融合增强的数据集缺失值填补方法
CN110852435A (zh) 一种基于神经进化计算模型
CN118013207A (zh) 一种勘探作业数据采集和质检的管理方法及系统
CN114780879A (zh) 一种用于知识超图的可解释性链接预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20211001

RJ01 Rejection of invention patent application after publication