CN113468156A - 基于特征融合增强的数据集缺失值填补方法 - Google Patents
基于特征融合增强的数据集缺失值填补方法 Download PDFInfo
- Publication number
- CN113468156A CN113468156A CN202110772157.6A CN202110772157A CN113468156A CN 113468156 A CN113468156 A CN 113468156A CN 202110772157 A CN202110772157 A CN 202110772157A CN 113468156 A CN113468156 A CN 113468156A
- Authority
- CN
- China
- Prior art keywords
- neuron
- output
- neurons
- model
- filling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000004927 fusion Effects 0.000 title claims abstract description 16
- 210000002569 neuron Anatomy 0.000 claims abstract description 70
- 238000013528 artificial neural network Methods 0.000 claims abstract description 21
- 238000005457 optimization Methods 0.000 claims abstract description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000007637 random forest analysis Methods 0.000 claims description 3
- 238000003064 k means clustering Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 abstract description 34
- 238000012549 training Methods 0.000 abstract description 8
- 238000013507 mapping Methods 0.000 abstract description 5
- 238000002474 experimental method Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于特征融合增强的数据集缺失值填补方法。首先,设计了一种新型神经网络隐藏层,通过去跟踪神经元与径向基函数神经元从不同维度学习数据特征。去跟踪神经元可以降低自编码器无效恒等映射问题,有效挖掘数据属性间的关联特征;径向基函数神经元的自动聚类能力,可以更好地学习到缺失样本间的共性特征。其次,采用了一种迭代优化的缺失值动态填补策略,缺失值被视为代价函数的变量与模型的参数一起随着优化函数动态变化,在训练期间缺失值的估计误差会随着迭代优化的深入而渐进降低,模型的准确性和填补精度得以持续提升,同时提升模型对不完整数据的学习填补适应能力。
Description
技术领域
本发明涉及数据清洗领域,特别是一种基于特征融合增强的数据集缺失值填补方法。
背景技术
数据质量问题是数据分析研究及应用过程中面临的关键挑战之一,处理不好就会是“Garbage In Garbage Out”(垃圾进垃圾出),尤其在机器学习应用中,若直接对缺失数据进行建模,会增加分析过程的不确定性,并降低模型的准确性和可靠性。因此,需要在数据预处理时,对数据缺失值进行妥善的处理,一般通过直接删除缺失值会造成大量信息失真,降低数据质量和可靠度。而通过缺失值填补方法为缺失数据找到一个合理的替代或补充,从而保持原始数据集的特征分布,提升数据质量。缺失值填补因其重要的应用价值而受到广泛关注,许多研究者从多种角度出发,提出了不同的缺失值填补方法。要对数据缺失值进行有效填补,关键问题在于如何深度挖掘缺失数据的内部特征,通过足够的内部特征分析,找到合理的值进行缺失值填补。一般来讲,缺失值填补需要找到缺失数据集中的两类关键特征:
(1)数据共性特征:它是指基于数据之间的相似性进行特征挖掘,为每一个不完整的数据找到一组最相似的数据,并根据相似数据的属性值来填充缺失的值。
(2)数据关联特征:现实生活中的数据往往存在着较为复杂的非线性关系,如何建模学习到缺失数据集中的数据关联性特征,直接影响缺失值填补效果。当前深度神经网络因其优秀的非线性映射学习能力,被广泛运用于数据关联特征挖掘,为新的缺失值填补性模型设计提供了新的参考。
随着机器学习的快速发展,许多基于神经网络的缺失值填补方法被提出,其中包含自组织映射(Self-Organizing Map,SOM),多层感知机(Multi-Layer Perceptron,MLP),自编码器(AutoEncoder,AE)等方法。其中自组织映射方法虽然结构简洁,但忽略了属性间的相关性,导致模型的填补精度不高。而在多层感知机模型中,该模型会根据数据集中每种不完整属性组合构建专属的MLP模型,即建立不完整属性为模型输出,其他属性为模型输入的MLP回归模型,虽然能较好的学习到属性间的关联特征,但是由于每个专属模型都需要完成一次训练,训练过程比较耗时间,开销较大。基于简单的自编码器模型仅借助一个网络结构即可实现各类数据缺失形式下的填补任务,极大降低了缺失数据集建模的复杂性,它也因此在缺失值填补领域备受关注。但在使用传统自编码器用于缺失值填补时,模型输出和输入间的误差在训练过程中不断缩小,输出将高度追踪对应的输入,从而表现出自跟踪性。由于自编码器填补模型高度的结构简洁性,许多研究人员在自编码器模型上进行改进,提出了径向基函数神经网络(radial basis function neural network)、广义回归神经网络(Generalized Regression Neural Network,GRNN)、对偶传播网络(CouterpropagationNetwork,CPN),去跟踪自编器(Tracking-removed Autoencoder),关联增强型自编码器(Correlation-enhanced Autoassociative Neural Network,CE-AANN)等各类自编码器变体模型用于缺失值填补,但目前上述方法都只是从数据属性间的关联特征维度进行学习。
基于自编码器的缺失值填补模型,一般采用的填补方法是由训练阶段和填补阶段组成。它先通过完整的记录来训练网络,然后将预处理的不完整记录输入到训练好的网络中,并使用相应的网络输出来计算缺失值。但这种方法在数据缺失率过大时,模型的训练精度会由于完整样本较少而快速降低,模型难以学习到不完整数据内部的信息结构及特征,适应能力存在一定的瓶颈。
发明内容
本发明的目的是提供一种基于特征融合增强的数据集缺失值填补方法。首先,设计了一种新型神经网络隐藏层,通过去跟踪神经元与径向基函数神经元从不同维度学习数据特征,去跟踪神经元可以降低自编码器无效恒等映射问题,有效挖掘数据属性间的关联特征;径向基函数神经元的自动聚类能力,可以更好地学习到缺失样本间的共性特征。通过两类神经元的输出彼此参考制约,使得模型可以从数据关联特征和数据共性特征两个维度进行特征融合,实现多维度的特征融合学习。其次,采用了一种迭代优化的缺失值动态填补策略(Missing Values Participating in Training,MVPT)。在该策略中,缺失值被视为代价函数的变量与模型的参数一起随着优化函数动态变化,在训练期间缺失值的估计误差会随着迭代优化的深入而渐进降低,模型的准确性和填补精度得以持续提升,同时提升模型对不完整数据的学习填补适应能力。
实现本发明目的的技术方案如下:
基于特征融合增强的数据集缺失值填补方法,包括:
步骤1:使用随机森林对包含缺失值的数据集进行预填补,得到预填补后的数据集X,
X={xij|i=1,2,...,n;j=1,2,...,s};
步骤2:初始化神经网络中的连接权重和阈值;
步骤3:将X输入神经网络隐藏层,发掘出关联特征和共性特征;
所述神经网络隐藏层包括m1个去跟踪神经元,通过去跟踪神经元发掘出关联特征,如下:
所述神经网络隐藏层还包括m2个径向基函数神经元,通过径向基函数隐藏层神经元发掘出共性特征,如下:
其中,g=1,2,...,m2,netigj为第g个径向基函数神经元针对输入xij的输出;μg是第g个径向基函数神经元的中心点,σg是第g个径向基函数神经元的宽度,通过基于k-means聚类算法在X中找到m2个中心点后计算得到,
cmax表示m2个中心点间的最大距离;
步骤4:将关联特征和共性特征输入神经网络输出层,得到模型输出yij和参考输出rij;其中,模型输出
参考输出
步骤5:设置目标函数,
使用Adam优化算法最小化目标函数L,更新连接权重和阈值,并填补缺失值。
与现有技术相比,本发明的有益效果为:
1、通过引入去跟踪神经元和径向基函数神经元两类神经元构建了一种新的神经网络隐藏层,通过两类输出的相互制约,可以综合两类神经元的特点,在去除自跟踪性的基础上挖掘样本属性间的关联特征和样本共性特征,从多维度进行数据特征融合学习,提高缺失填补性能。
2、采用动态填补策略MVPT,训练过程中允许缺失数据集动态加入,与参数一起训练优化以提升填补效果。
附图说明
图1为基于特征融合增强自编码器的缺失值填补模型框架示意图。
图2为不同隐藏层神经元的差异示意图。
具体实施方式
本发明针对经典自编码器模型用于缺失值填补中存在的主要问题,提出了一种基于特征融合增强自编码器的缺失值填补方法(Feature Fusion Enhanced AutoencoderModel for Missing Value Filling,FFEAM)。如图1所示,本发明设计了一种基于去跟踪神经元和径向基函数神经元的新型神经网络隐藏层,以协同训练填补缺失值。
本发明的具体实施步骤如下:
步骤1:使用随机森林对包含缺失值的数据集进行预填补,得到预填补后的数据集X,
X={xij|i=1,2,...,n;j=1,2,...,s};
步骤2:初始化基于特征融合增强自编码器的缺失值填补模型的权重和阈值;
步骤3:数据输入神经网络隐藏层,利用新型隐藏层中的去跟踪神经元发掘数据属性间的关联特征,利用径向基函数神经元发掘数据间的共性特征,得到两类隐藏层输出,具体表现为:
去跟踪神经元输出如下式所示:
上式中netikj代表第k个去跟踪神经元在剔除对应输入xij后得到的输出,s代表属性个数也就是xij数据集的列数,k代表第k个去跟踪神经元,m1为去跟踪神经元的个数,wlk (1)代表输入层第l个节点和隐藏层的第k个去跟踪神经元的连接权重,其中第l个节点代表在输入层的第l个神经元也就是输入值xil,bk (1)表示隐藏层的第k个去跟踪神经元的阈值;
径向基函数隐藏层神经元输出如下式所示:
上式中netigj代表第g个径向基函数神经元针对输入xij的输出;μg是第g个径向基函数神经元的中心点,σg是第g个径向基函数神经元的宽度,通过基于k-means聚类算法在xij数据集中找到m2个中心点后计算得到,
cmax表示m2个中心点间的最大距离;
步骤4:在神经网络输出层得到两类输出,具体表现为:
网络的模型输出yij按照下式计算:
上式中,yij为对输入xij产生的对应模型输出,netikj为第k个去跟踪神经元的输出;m1为去跟踪神经元的个数;s为属性个数;wkj (2)代表隐藏层第k个去跟踪神经元和输出层的第j个输出层神经元的连接权重,bj (2)表示第j个输出层神经元间的阈值;
网络的参考输出rij按照下式计算:
上式中,rij为对输入xij产生的对应模型参考输出,netigj为第g个径向基函数神经元的输出;s为属性个数;m2为径向基函数神经元个数;wgj (2)代表隐藏层第g个径向基函数神经元和输出层的第j个输出层神经元的连接权重,bj (2)表示第j个输出层神经元间的阈值;
步骤5:最小化目标函数式更新模型权重和阈值,并将缺失值被视为目标函数的变量与模型的参数一起随着目标函数动态变化,具体为:
目标函数如下式:
如果样本xij为不完整样本,基于Adam优化算法更新xij中的缺失值变量,进而填补缺失值,否则继续下一个样本。
为了验证本发明的有效性,本发明实验采用的四个数据集是源于UCI的开源数据集,详见下表1,实验从完整数据中随机删除部分现有值,从而构造不完整数据集,缺失率分别设置为20%,30%,40%,50%。
表1实验数据集描述
为了验证模型的填补性能,将FFEAM与均值填补(Means),自编码器(AE),关联增强型自编码器(CE-AANN)三个基准模型进行比较:
(1)Means:比较传统的统计填补方法,数值型数据以不完整属性列中全部现有值的平均值作为填补值。
(2)AE:基于经典自编码器的填补模型,该模型通过输出端复现输入端的值,填补缺失值。根据2.1节所描述的方法建立自编码器填补模型,接着根据MVPT方案展开填补。
(3)CE-AANN:Lai等提出的一种关联增强型自编码器填补模型。
实验使用均方根误差(Root Mean Square Error,RMSE)和平均绝对误差(MeanAbsolute Error,MAE)作为填补性能的评价指标,RMSE和MAE的计算公式如下:
其中n为样本总数,yi表示填补值,xi表示与该填补值对应的真实值。
实验结果如表2所示:
表2实验结果
实验结果表明,本发明构建的FFEAM模型不管针对不同缺失率的设置,还是在不同数据集上的实验表现,均比其他基准对比模型具有更优的填补性能。其主要原因是在于FFEAM通过引入去跟踪神经元来约束网络输出对相应输入的过度依赖,即避免直接学习到输出复现输入的无效映射,还通过径向基函数神经元,对样本数据进行聚类计算。通过去跟踪神经元与径向基函数神经元的有机融合,使得模型可以从两个个维度进行融合特征学习,让模型可以学习到数据属性间关联特征的同时能挖掘数据共性特征,从而提高了模型填补精度。
Claims (1)
1.基于特征融合增强的数据集缺失值填补方法,其特征在于,包括:
步骤1:使用随机森林对包含缺失值的数据集进行预填补,得到预填补后的数据集X,
X={xij|i=1,2,...,n;j=1,2,...,s};
步骤2:初始化神经网络中的连接权重和阈值;
步骤3:将X输入神经网络隐藏层,发掘出关联特征和共性特征;
所述神经网络隐藏层包括m1个去跟踪神经元,通过去跟踪神经元发掘出关联特征,如下:
所述神经网络隐藏层还包括m2个径向基函数神经元,通过径向基函数隐藏层神经元发掘出共性特征,如下:
其中,g=1,2,...,m2,netigj为第g个径向基函数神经元针对输入xij的输出;μg是第g个径向基函数神经元的中心点,σg是第g个径向基函数神经元的宽度,通过基于k-means聚类算法在X中找到m2个中心点后计算得到,
cmax表示m2个中心点间的最大距离;
步骤4:将关联特征和共性特征输入神经网络输出层,得到模型输出yij和参考输出rij;其中,
模型输出
参考输出
步骤5:设置目标函数,
使用Adam优化算法最小化目标函数L,更新连接权重和阈值,并填补缺失值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110772157.6A CN113468156A (zh) | 2021-07-06 | 2021-07-06 | 基于特征融合增强的数据集缺失值填补方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110772157.6A CN113468156A (zh) | 2021-07-06 | 2021-07-06 | 基于特征融合增强的数据集缺失值填补方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113468156A true CN113468156A (zh) | 2021-10-01 |
Family
ID=77879166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110772157.6A Pending CN113468156A (zh) | 2021-07-06 | 2021-07-06 | 基于特征融合增强的数据集缺失值填补方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468156A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114328742A (zh) * | 2021-12-31 | 2022-04-12 | 广东泰迪智能科技股份有限公司 | 一种中央空调的缺失数据预处理方法 |
-
2021
- 2021-07-06 CN CN202110772157.6A patent/CN113468156A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114328742A (zh) * | 2021-12-31 | 2022-04-12 | 广东泰迪智能科技股份有限公司 | 一种中央空调的缺失数据预处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112434169B (zh) | 一种知识图谱的构建方法及其系统和计算机设备 | |
WO2022083009A1 (zh) | 一种基于异源数据差补融合的定制产品性能预测方法 | |
US20230196076A1 (en) | Method for optimally selecting flood-control operation scheme based on temporal convolutional network | |
CN104281617A (zh) | 一种基于领域知识的多层关联规则挖掘方法及系统 | |
CN110555455A (zh) | 一种基于实体关系的在线交易欺诈检测方法 | |
CN113190654B (zh) | 一种基于实体联合嵌入和概率模型的知识图谱补全方法 | |
CN111506760B (zh) | 一种基于困难感知的深度集成度量图像检索方法 | |
CN110309907A (zh) | 一种基于去跟踪自编码器的动态缺失值填补方法 | |
CN109978050A (zh) | 基于svm-rf的决策规则提取及约简方法 | |
CN109492816B (zh) | 一种基于混合智能的煤与瓦斯突出动态预测方法 | |
CN109754122A (zh) | 一种基于随机森林特征提取的bp神经网络的数值预测方法 | |
CN113420868A (zh) | 一种基于深度强化学习的旅行商问题求解方法及求解系统 | |
CN113901448B (zh) | 基于卷积神经网络和轻量级梯度提升机的入侵检测方法 | |
CN111062421A (zh) | 基于相关性分析的网络节点多维数据社团划分算法 | |
CN113761221A (zh) | 基于图神经网络的知识图谱实体对齐方法 | |
CN113361279A (zh) | 一种基于双邻域图神经网络的医疗实体对齐方法及系统 | |
CN116386899A (zh) | 基于图学习的药物疾病关联关系预测方法及相关设备 | |
CN112507077A (zh) | 基于关系图注意力神经网络的事件时序关系识别方法 | |
CN113987203A (zh) | 一种基于仿射变换与偏置建模的知识图谱推理方法与系统 | |
CN113515540A (zh) | 一种数据库的查询重写方法 | |
CN114519107A (zh) | 一种联合实体关系表示的知识图谱融合方法 | |
CN113468156A (zh) | 基于特征融合增强的数据集缺失值填补方法 | |
CN110852435A (zh) | 一种基于神经进化计算模型 | |
CN118013207A (zh) | 一种勘探作业数据采集和质检的管理方法及系统 | |
CN114780879A (zh) | 一种用于知识超图的可解释性链接预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211001 |
|
RJ01 | Rejection of invention patent application after publication |