CN107273445A

CN107273445A - 一种大数据分析中缺失数据混合多重插值的装置和方法

Info

Publication number: CN107273445A
Application number: CN201710385780.XA
Authority: CN
Inventors: 林劼; 钟德建; 李年华; 马骏; 周正斌
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-05-26
Filing date: 2017-05-26
Publication date: 2017-10-20

Abstract

本发明公开了一种大数据分析中缺失数据混合多重插值的装置和方法，以深度神经网络为基础模型，结合数据驱动的多阶段、多模型混合缺失数据填补方法，该模型鲁棒性更高，填补结果更准确，可以填补大数据分析中由于各种数据缺失模型而引起的不完整数据，本混合填补模型可控在数据缺失率15%以下，平均填补准确率在89%~99.95%之间。一种大数据分析中缺失数据混合多重插值的装置包括数据预处理模块、模型训练模块和数据填补模块；一种大数据分析中缺失数据混合多重插值的方法包括数据预处理、模型训练和数据填补。

Description

一种大数据分析中缺失数据混合多重插值的装置和方法

技术领域

本发明涉及一种混合多重插值装置和方法，具体涉及一种大数据分析中缺失数据混合多重插值的装置和方法。

背景技术

目前，人们进入一个全新的大数据时代，大数据在越来越多的领域中都有着重要的影响，同时对数据的质量要求也越来越高。由于数据量级不断的增大，数据质量和数据可用性问题也随着不断增加，例如数据缺失、数据冗余等，数据量越大，数据质量问题也就越严重，从而对大数据的应用和分析将带来影响和误差。如何解决数据缺失，剔除掉缺失数据对大数据分析的影响，这是保证大数据分析下原始数据质量至关重要的问题。

大数据中不可忽视的问题就是存在数据不完整的情况，这类数据称之为缺失数据。缺失数据存在三种缺失机制，完全随机缺失，随机缺失和非随机缺失。完全随机缺失表示数据的丢失是随机性的，它的缺失与数据集中任何属性变量都无关；然而随机缺失表示数据的缺失与其他属性变量有一定联系，与其自身的属性变量没有关系；非随机缺失表示数据的缺失只有自身的属性变量存在联系。除此之外，数据本身的缺失情况也分为单一缺失和任意缺失两种模式，其中单一缺失表示数据的一个属性其值缺失以后，该属性随后的所有属性的直接都将缺失，而任意缺失就是完全意义上的值随意缺失。因此，通过分析大数据下缺失数据的机制以及模式，需要对缺失数据进行处理，以保证减少大数据下各种研究应用受到原始数据质量问题影响。

为了减少解决数据缺失，常常采用列表删除法或数据填补法。列表删除法虽然简便但是可能造成数据信息量的丢失，因此数据填补法更加常用。在数据填补法中，平均插补、虚拟变量法、单一回归，多重插补、马尔科夫链插补、深度置信网络插补、数据驱动插补等。由于大数据下缺失数据的复杂性以及数量巨大化，如果用传统的平均插补、单一回归这类插补方式，希望通过建模预估出一个缺失值从而进行插补，这将可能降低缺失数据的可变性并且单一的值可能存在过度拟合以及具有偏差的估计。多重插补的出现，解决了这一问题，多重插补不只生成一个单一的值对缺失值进行插补，它会生成许多后备值，通过这些后备值分析计算得到该个缺失值的分布，从而从这个分布中进行随机抽样对缺失值进行填补，但是多重插补得到后备值得方法还是才是回归，马尔科夫链等，因此插补数据的准确性还有待提升。近期，数据插补领域提出采用深度神经网络技术进行缺失数据插补。由于深度神经网络不需要精确的数学模型，非线性映射能力好，擅长从输入输出数据中学习有用的知识，揭示数据特征，处理随机因素。通过对深度神经网络充分的训练，利用深度神经网络自组织优化建模的能力，不断的以训练数据进行自组织优化，从而形成最优的提取原始数据特征的模型，将提取的特征基于数据驱动，多重插值等方式建模，从而提升插补数据的精度。

发明内容

本发明的目的在于克服现有技术的不足，提供一种本发明的目的在于改进现有大数据下缺失数据插补的准确性，提供一种能有效提高插补准确率，并且数据缺失率保持在15％以下，平均填补准确率在89％～99.95％之内的大数据分析中缺失数据混合多重插值装置和方法。

本发明的目的是通过以下技术方案来实现的，一种大数据分析中缺失数据混合多重插值的装置，该装置包括以下模块：

模型训练模块，根据事先采集得到的训练数据与目标数据建立以训练数据各个属性为输入变量参数，缺失数据的预估为输出的混合多重插值模型；

缺失数据插补模块，将训练模块中得到的特征向量输入到缺失数据填充模型中，得到缺失数据预估值，将缺失数据预估值填补到原始数据，得到完整数据。

一种大数据分析中缺失数据混合多重插值的装置还包括数据预处理模块，所述数据预处理模块用于分析数据缺失模式以及对数据进行归一化处理。

所述的预处理模块通过加载原始数据，同时对原始数据进行分类，得到完整数据集和不完整数据集；再通过对完整数据集采样得到训练数据集，并对训练数据集进行归一化处理；最后对训练数据集进行模拟缺失，缺失数据形成目标数据集合，得到用于训练模型的输入和输出数据集合。

所述的模型训练模块包括以下子模块：数据特征向量提取模块和目标训练模块，其中所述的目标训练模块包括以下子模块：单一缺失模式训练模型和任意缺失模型。

所述的模型训练模块是根据采集训练数据和目标数据建立以各属性为输入的变量参数，缺失数据的预估为输出的混合多重插值模型。

所述的模型训练模块是根据预处理获得的输入数据，利用深度信念网络提取出原数据特征，并在深度信念网络训练中加入干扰因子，提升网络鲁棒性；然后将预处理获得的输入数据和利用深度信念网络获得的原数据特征构成训练数据集合，系统根据缺失数据分为单一缺失和任意缺失模型数据集，采用不同的模型训练策略；若数据集为单一缺失模型数据集，将加入随机扰动因子的原数据特征作为输入，进行多元回归模型训练，得到针对单一缺失模型的特征回归插值模型，并将训练得到的权重和偏置储存起来；若数据集为任意缺失模型数据集，将加入干燥因子的原数据特征作为特征字典，通过K-Means将特征字典划分为K个聚类，并存储聚类的K个聚类中心用于实际插补使用，从而得到针对任意缺失模型的特征驱动插值模型。

一种大数据分析中缺失数据混合多重插值的方法，该方法包括以下步骤：

S1：数据预处理，加载分析原始数据并对数据进行归一化处理；

S2：提取数据集特征；

S3：数据插补，通过反复插补过程得到数据插补值。

所述的数据预处理包括以下子步骤：

S11：加载原始数据，同时对原始数据进行分类，得到完整数据集和不完整数据集；

S12：通过对完整数据集采样得到训练数据集，并对训练数据集进行归一化处理；

S13：对训练数据集进行模拟缺失，缺失数据形成目标数据集合，得到用于训练模型的输入和输出数据集合。

所述的提取数据集特征，将训练数据集分为单一缺失模型数据集和任意缺失模型数据集，将数据带入已经训练好的具有稳定的单元变量干燥因子、扰动因子、权重和偏置的稳定深度信念网络中，提取数据特征，为数据集插补做准备。

所述的数据插补包括以下子步骤：

S31：若数据集为单一缺失模型数据集，将特征值代入特征回归插值模型，得到插补值；

S32：若数据集为任意缺失模型数据集，采用特征驱动的方式进行插补，根据特征值计算与K个聚类中心距离，距离最近的聚类集，并计算特征值和该聚类集中每条特征的聚类，选取最近的K条特征，通过K条特征原始数据与对于权重想成得到任意缺失模式下的插补数据；

S33：将插补过程重复多次并求平均，最终得到大数据中缺失数据的混合多重插值的数据插补。

本发明的有益效果是：

1)基于深度信念网络模型构建多层次、多模型缺失数据插补方法，所构建的模型能够稳定良好提取原始数据特征，从而很好的对大量原始数据中冗余或无关数据进行简化，使模型拟合度更高，插补结果更准确。

2)通过训练多种缺失概率和缺失模式下的深度信念网络，并通过网络提取数据特征，基于多重差值和数据驱动的方式利用数特征，对大数据下缺失数据进行插值，能够有效添补大数据应用中由于各类原因造成的数据缺失，并且数据缺失率15％以下平均填补准确率可控在89％～99.95％之内。

附图说明

图1为一种大数据分析中缺失数据混合多重插值的装置框架图；

图2为混合多重插值模型训练过程中数据预处理流程图；

图3为数据真实插补过程中数据预处理流程图；

图4为一种大数据分析中缺失数据混合多重插值模型训练方法流程图；

图5为一种大数据分析中缺失数据混合多重插值数据插补流程图。

具体实施方式

下面结合具体实施例进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

实施例1

如图1，一种大数据分析中缺失数据混合多重插值的装置，该装置包括以下模块：

如图3，所述的模型训练模块中的数据预处理通过加载不完整数据集；然后将不完整数据集分为单一缺失模型数据集和任意缺失模型数据集；最后分别对单一缺失模型数据集和任意缺失模式数集进行归一化处理，得到用于插补的输入数据集

所述的模型训练模块中包括数据向量提取模块和目标训练模块，其中目标训练模块又包括单一缺失子模型和任意缺失子模型；所述的模型训练模块是根据采集训练数据和目标数据建立以各属性为输入的变量参数，且缺失数据的预估为输出的混合多重插值模型；

如图4，所述的缺失数据插补训练模块中的插补过程是将原始数据中label作为分类标签，作为训练数据利用半监督学习训练得到稳定深度信念网络DBNs，其中网络的训练加入干扰因子β提高网络的鲁棒性；通过训练好的深度信念网络提取输入数据的特征向量i＝(1,2,3...,d)，d＝输入数据的条数；其中特征向量维度为l，l根据实际数据集而定；

然后以混合多重插值模型训练过程中预处理模块获得的输出数据为输出值G_training＝{g¹,g²,…,g^d}，利用深度信念网络获得的数据特征量feature_i(i＝1,2,…,d)为输入值，构成训练数据集合，系统根据缺失数据分为单一缺失和任意缺失模型数据集，采用不同的模型训练策略；

若数据集为单一缺失模型数据集，通过数据特征量T_feature＝{F₁,F₂,…,F_i}(i＝1,2,…,d)作为输入，对应的输出值G_training＝{g¹,g²,…,g^d}作为训练目标并加上随机扰动因子z基于多元回归进行模型训练，并存储训练得到的权重和偏置得到针对单一缺失模式的特征回归插值模型，并用于后面的实际插补过程；

若数据集为任意缺失模型数据集，将加入干燥因子的原数据特征作为特征字典T_feature＝{F₁,F₂,…,F_i}(i＝1,2,…,d)，通过K-Means将特征字典划分为K个聚类集合，并存储每个聚类集合中心Center＝{center₁,center₂,center₃,…,center_k}用于实际插补使用，从而得到针对任意缺失模型的特征驱动插值模型。

S2：提取数据集特征；

S3：数据插补，通过反复插补过程得到数据插补值。

如图2，所述的数据预处理包括以下子步骤：

S11：加载原始数据，同时对原始数据进行分类，得到完整数据集C_o和不完整数据集I_m；

S12：通过对完整数据集采样得到训练数据集E＝{xⁱ|i＝1,2,…,d}，并对训练数据集中的数据进行归一化处理；

S13：对训练数据集进行模拟缺失，得到输入数据缺失数据形成目标数据集合G_training＝{g¹,g²,…,g^d}，得到用于训练模型的输入和输出数据集合。

所述的模型训练，是将训练数据集分为单一缺失模型数据集和任意缺失模型数据集，将单元变量干燥因子、扰动因子、权重和偏置加入模型训练中，为数据集插补做准备；

如图5，所述的数据插补包括以下子步骤：

数据插补过程中数据预处理模块获得的输入数据入根据不同的缺失模式和数据缺失率，输入数据采用不同模型作为输入；

利用稳定深度信念网络DBNs提取输入数据的特征值j＝(1,2,3...,m)，m＝输入数据的条数；

S31：若数据集为单一缺失模型数据集，将提取的特征值F_j带入S33训练好的特征回归插值模型从而得到插补值；

S32：数据集为任意缺失模型数据集，采用特征驱动的方式进行插补，对每一条特征F_j(j＝1,2,3,…,m)计算其与K个聚类中心Center＝{center₁,center₂,center₃,…,center_k}距离Dis＝{dis₁,dis₂,…,dis_k}，选择距离最聚类集及dis最小的假设为聚类集合h,并计算特征F_j与该聚类集中每条特征F_hp(p＝1,2,3,…,聚类集中特征数)的距离Dis_h＝{dis_h1,dis_h2,dis_h3,…,dis_hp}，选取距离最近的k条特征，通过得到任意缺失模式下的插补数据,其中gⁱ表示选定的特征其对应原始完整数据。

S33：将S233和S234的插补过程重复M次，得到M个插补后备值，从而综合分析计算得到缺失数据分布并进行随机抽样，最终得到大数据中缺失数据的混合多重插值的数据插补。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种大数据分析中缺失数据混合多重插值的装置，其特征在于，该装置包括以下模块：

2.根据权利要求1所述的一种大数据分析中缺失数据混合多重插值的装置,其特征在于，还包括数据预处理模块，所述数据预处理模块用于分析数据缺失模式以及对数据进行归一化处理。

3.根据权利要求2所述的数据预处理模块，其特征在于，所述的预处理模块通过加载原始数据，同时对原始数据进行分类，得到完整数据集和不完整数据集；再通过对完整数据集采样得到训练数据集，并对训练数据集进行归一化处理；最后对训练数据集进行模拟缺失，缺失数据形成目标数据集合，得到用于训练模型的输入和输出数据集合。

4.根据权利要求1所述的一种大数据分析中缺失数据混合多重插值的装置,其特征在于，所述的模型训练模块包括以下子模块：数据特征向量提取模块和目标训练模块，其中所述的目标训练模块包括以下子模块：单一缺失模式训练模型和任意缺失模型；所述的数据特征向量提取模块，用于提取数据的特征向量；所述的目标训练模块，用于利用提取的数据特征向量训练得到缺失数据填充模型。

5.根据权利要求1所述的一种大数据分析中缺失数据混合多重插值的装置，其特征在于，所述的模型训练模块是根据采集训练数据和目标数据建立以各属性为输入的变量参数，缺失数据的预估为输出的混合多重插值模型。

6.根据权利要求1所述的一种大数据分析中缺失数据混合多重插值的装置,其特征在于，所述的模型训练模块，根据预处理获得的输入数据，利用深度信念网络提取出原数据特征，并在深度信念网络训练中加入干扰因子，提升网络鲁棒性；然后将预处理获得的输入数据和利用深度信念网络获得的原数据特征构成训练数据集合，系统根据缺失数据分为单一缺失和任意缺失模型数据集，采用不同的模型训练策略；若数据集为单一缺失模型数据集，将加入随机扰动因子的原数据特征作为输入，进行多元回归模型训练，得到针对单一缺失模型的特征回归插值模型，并将训练得到的权重和偏置储存起来；若数据集为任意缺失模型数据集，将加入干燥因子的原数据特征作为特征字典，通过K-Means将特征字典划分为K个聚类，并存储聚类的K个聚类中心用于实际插补使用，从而得到针对任意缺失模型的特征驱动插值模型。

7.一种大数据分析中缺失数据混合多重插值的方法，其特征在于，该方法包括以下步骤：

S2：提取数据集特征；

S3：数据插补，通过反复插补过程得到数据插补值。

8.根据权利要求7所述的一种大数据分析中缺失数据混合多重插值的装置和方法，其特征在于，所述的插补过程中的数据预处理包括以下子步骤：

S11：加载不完整数据集；

S12：将不完整数据集分为单一缺失模型数据集和任意缺失模型数据集；

S13：分别对单一缺失模型数据集和任意缺失模式数集进行归一化处理，得到用于插补的输入数据集。

9.根据权利要求7所述的一种大数据分析中缺失数据混合多重插值的装置和方法，其特征在于，所述的提取数据集特征，将训练数据集分为单一缺失模型数据集和任意缺失模型数据集，将数据带入已经训练好的具有稳定的单元变量干燥因子、扰动因子、权重和偏置的稳定深度信念网络中，提取数据特征，为数据集插补做准备。

10.根据权利要求7所述的一种大数据分析中缺失数据混合多重插值的装置和方法，其特征在于，所述的数据插补包括以下子步骤：