CN104598618A

CN104598618A - 一种基于完备相容类的云平台不完备大数据填补方法

Info

Publication number: CN104598618A
Application number: CN201510051653.7A
Authority: CN
Inventors: 袁景凌; 杨光; 钟珞; 陈旻骋
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan Zeta Cloud Technology Co ltd
Priority date: 2015-01-30
Filing date: 2015-01-30
Publication date: 2015-05-06
Anticipated expiration: 2035-01-30
Also published as: CN104598618B

Abstract

本发明公开了一种基于完备相容类的云平台不完备大数据填补方法，通过不完备大数据中的完备信息并行填补其缺失属性。本方法提高不完备数据填补的效率，有效填补缺失值过多的不完备大数据。建立了完备数据和不完备数据更为直接的联系，结合缺失属性的倒排索引和不完备数据的相容类，将数据集划分为若干完备相容类。获取完备部分中各缺失属性的频繁项集，根据频繁项集生成填补信息，并行填补具有相容关系的不完备数据，充分利用大数据的完备信息的频繁项集，并行填补具有相容关系的不完备数据。采用并行填补的方式也即采用多台机器同时去填补不同记录的缺失值也加大了填补的效率。

Description

一种基于完备相容类的云平台不完备大数据填补方法

技术领域

本发明涉及不完备信息处理和大数据处理领域，具体是指一种基于完备相容类的云平台不完备大数据填补方法。

背景技术

不完备信息处理是指根据一定的策略和方法，处理不完备信息系统中属性缺失的数据信息，从而让不完备数据发挥与完备数据相同的价值。随着信息技术的不断发展，数据呈爆发式增长。大数据成为各行各业日益关注的对象。大数据不仅具有数据量大，数据多样化，数据变化快和数据价值大的4V特性，而且大数据往往是不完备的。不完备信息的处理，特别是不完备大数据的处理具有十分重大的意义。

目前处理不完备数据的方法主要是数据填补和模型扩充，数据填补具有更为广泛的适应范围，填补后的数据可以直接作为完备数据进行应用。目前的不完备数据填补大多是依据粗糙集中的相容块和极大相容块填补缺失属性值。但是相容块和极大相容块的求取本身是十分耗时的过程，而且无法有效处理空值过多的不完备数据集，填补记录的过程也十分低效。

为了解决这个问题，需要研究怎样有效利用完备信息，发现完备信息与不完备信息的联系；并且高效的计算需要填补的值，以及高效的填补缺失数据。云计算是一种有效的手段。云计算是指利用云平台的并行化有效，采用分布式并行系统处理问题。在云平台结合大数据分析，是云计算的一种实际运用。根据大数据的完备信息，划分数据集为完备相容类，能够高效计算填补值，并行填补不完备数据，以满足填补不完备大数据的信息需求。如何将上述技术应用于不完备数据的填补，是一个亟待研究的课题。

发明内容：

本发明的目的是为了解决上述背景技术存在的不足，提出一种基于完备相容类的云平台不完备大数据填补方法，提高不完备数据填补的效率，有效填补缺失值过多的不完备大数据。

为了实现上述目的，本发明所采用的技术方案为：

一种基于完备相容类的云平台不完备大数据填补方法，该方法包括如下步骤：步骤一，扫描待处理的大数据，生成以缺失属性序列为关键字的倒排索引；步骤二，依据倒排索引将待处理的大数据中的不完备数据划分为若干相容类；步骤三，对待处理的大数据中完备数据进行映射端连接操作，得到映射端输出中间结果，结合步骤二所得的若干相容类将待处理的大数据划分为若干完备相容类；步骤四，依次读取各个完备相容类中对于缺失属性序列的频繁项集，从频繁项集中生成对缺失属性序列的值覆盖，用值覆盖填补该完备相容类中的不完备数据。

较佳地，步骤二是依据缺失属性序列的倒排索引，比较缺失属性相同的不完备数据记录；将除缺失属性外剩余属性值相同的记录划分到同一相容类。

较佳地，步骤三具体包括以下步骤：31)对待处理的大数据中完备数据进行映射端连接操作，得到映射端输出中间结果；32)读取映射端输出文件与步骤二所得相容类中不完备数据具有相容关系的完备数据；33)将步骤32)所得的完备数据与步骤二所得的相容类组合成为若干完备相容类。

较佳地，每个完备相容类包括具有相容关系的不完备数据记录和用于获取填补值的完备数据。

较佳地，完备相容类具有类标签，类标签包括缺失属性序列及除缺失属性序列之外剩余属性值。

较佳地，步骤四是依次对步骤三所得各完备相容类做如下操作：41)读取完备相容类在缺失属性序列中的属性值，从所有属性值中挖掘频繁项集；42)从频繁项集中生成对缺失属性序列的值覆盖；43)用值覆盖填补完备相容类中的缺失数据；44)若缺失属性序列未填补完毕，则从填补后的完备相容类中剩余的缺失属性序列中继续挖掘频繁项集，然后回到步骤42)；若缺失属性序列均已填补完毕则退出。

较佳地，步骤41)是采用频繁模式增长方法FP-growth从所有属性值中挖掘频繁项集。

较佳地，步骤42)从频繁项集中生成对缺失属性序列的值覆盖时，优先选择包含属性序列个数最多的频繁项。

较佳地，生成对缺失属性序列的值覆盖时，若存在多个频繁项所包含的属性序列个数相同，则从中选择出现频度最大的频繁项。

较佳地，用所述值覆盖填补完备相容类中的缺失数据时采用并行填补方式。

本发明的有益效果在于：提出了一种基于完备相容类的云平台不完备大数据填补方法，通过不完备大数据中的完备信息并行填补其缺失属性。本方法提高不完备数据填补的效率，有效填补缺失值过多的不完备大数据。建立了完备数据和不完备数据更为直接的联系，结合缺失属性的倒排索引和不完备数据的相容类，将数据集划分为若干完备相容类。获取完备部分中各缺失属性的频繁项集，根据频繁项集生成填补信息，并行填补具有相容关系的不完备数据，充分利用大数据的完备信息的频繁项集，并行填补具有相容关系的不完备数据。采用并行填补的方式也即采用多台机器同时去填补不同记录的缺失值也加大了填补的效率。

附图说明

图1是本发明实施例的流程图，

图2是本发明实施例缺失属性序列的倒排索引结构图。

具体实施方式

下面结合附图和实施例对本发明做进一步的说明。

一种基于完备相容类的云平台不完备大数据填补方法(图1)，该方法包括如下步骤：

步骤S1，扫描待处理的大数据，生成以缺失属性序列为关键字的倒排索引；

扫描待处理的数据集，检测每条数据记录的是否存在缺失值。统计缺失属性序列及其对应的记录，以缺失属性序列为关键字，生成指向缺失属性所在记录的倒排索引。读取全部记录后，生成缺失属性序列的列表以及缺失属性序列的倒排索引。

序列1、3和序列2、5分别表示两种缺失属性序列(图2)。序列1、3表示记录中存在属性缺失，而且缺失的属性为第1个属性和第3个属性。其中“*”表示缺失属性值，Vi,j表示第i条记录的第j个属性的值。这样，每个缺失属性序列指向对应的数据记录。根据缺失属性的倒排索引结构，只需比较相同缺失属性序列的剩余属性值，就可判断不完备数据间是否具有相容关系。

这种方法可以高效的将具有相容关系的完备数据划分到相同相容类。而且可以在划分完备相容类和并行填补过程中，都可通过该索引直接找到目标记录或目标数据块。

步骤S2，依据所述倒排索引将待处理的大数据中的不完备数据划分为若干相容类；

依据缺失属性序列的倒排索引，比较缺失属性相同的不完备数据记录；将除缺失属性外剩余属性值相同的记录划分到同一相容类。

具体的，根据步骤S1所得的缺失属性序列的倒排索引结构，以缺失属性为key，剩余属性为value构成键值对(key/value)，并交由hadoop平台的多个mapreduce任务处理。通过reduce任务规约合并相同缺失属性key的不完备记录，此处的不完备记录包括缺失属性记录，将相同剩余属性value的原始记录值输出到相同文件，这里所说的原始记录为包括缺失属性和剩余属性共同在内的各个记录。通过上述方法将除缺失属性之外的各剩余属性值相同的记录划分到同一相容类，完成了将大数据中的不完备数据划分为若干相容类的步骤。

步骤S3，划分大数据为若干完备相容类。对待处理的大数据中完备数据进行映射端连接操作，得到映射端输出中间结果，结合步骤二所得的若干相容类将所述待处理的大数据划分为若干完备相容类；具体为：

S31对待处理的大数据中完备数据进行映射端连接操作，得到映射端输出中间结果；

具体是将步骤S2所得全部相容类以数据块的形式上传至分布式文件系统，按照属性序列及其属性值，对原始数据集中的完备数据进行Map端的连接操作(map端join)。

S32读取所述映射端输出文件与所述步骤S2所得相容类中不完备数据具有相容关系的完备数据；

S33将步骤S32所得的完备数据与步骤S2所得的相容类组合成为若干完备相容类。

每个完备相容类包括具有相容关系的不完备数据记录和用于获取填补值的完备数据。所述完备相容类具有类标签，所述类标签包括缺失属性序列及除缺失属性序列之外剩余属性值。

步骤S4，依次读取各个所述完备相容类中对于缺失属性序列的频繁项集，从所述频繁项集中生成对缺失属性序列的值覆盖，用所述值覆盖并行填补该完备相容类中的不完备数据。

依次对所述步骤S3所得各完备相容类做如下操作：

S41读取完备相容类在缺失属性序列中的属性值，从所有属性值中挖掘频繁项集；采用频繁模式增长方法FP-growth从所有属性值中挖掘频繁项集。

S42从所述频繁项集中生成对所述缺失属性序列的值覆盖；从所述频繁项集中生成对所述缺失属性序列的值覆盖时，优先选择包含属性序列个数最多的频繁项。生成对所述缺失属性序列的值覆盖时，若存在多个频繁项所包含的属性序列个数相同，则从中选择出现频度最大的频繁项。

S43用所述值覆盖并行填补完备相容类中的缺失数据。以完备相容类为单位，结合L的倒排索引，找到完备相容类中不完备数据。本实施例采用并行填补的方式也即采用多台机器机器同时去填补不同记录的缺失值也大大提高了填补的效率。

S44若缺失属性序列未填补完毕，则从填补后的完备相容类中剩余的缺失属性序列中继续挖掘频繁项集，然后回到步骤42)，依据步骤S42所述的方法继续挖掘剩余未填补缺失属性序列的频繁项集，读取剩余部分的最长频繁项，继续生成对剩余的缺失属性序列的值覆盖。若缺失属性序列均已填补完毕则退出循环，数据填补完毕。

依次对所述步骤三所得各完备相容类做上述步骤S41至步骤S44的操作时，根据完备相容类的数目和集群环境中节点数目，设置每个job任务中map任务的数目。将同一完备相容类中的数据交由不同map任务处理。

本实施例所述方法中，对不完备数据构建了以缺失属性序列为关键字的倒排索引。然后结合相容类，建立包含不完备数据及其相关完备信息的完备相容类。通过求得完备相容类中完备部分的属性频繁项集，分析出缺失属性序列的合理填补值。并且并行填补各完备相容类中具有相容关系的不完备数据，在保障数据效用的同时，高效填补不完备大数据。更重要的是，面对云平台上的不完备的大数据，可以使用此方法来进行不完备数据填补，能够在保证数据效用的同时，高效填补大数据中过多的缺失属性值，具有很大的价值，可以有效的进行不完备大数据的处理。

应当理解的是，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于完备相容类的云平台不完备大数据填补方法，其特征在于，该方法包括如下步骤：

步骤一，扫描待处理的大数据，生成以缺失属性序列为关键字的倒排索引；

步骤二，依据所述倒排索引将待处理的大数据中的不完备数据划分为若干相容类；

步骤三，对待处理的大数据中完备数据进行映射端连接操作，得到映射端输出中间结果，结合步骤二所得的若干相容类将所述待处理的大数据划分为若干完备相容类；

步骤四，依次读取各个所述完备相容类中对于缺失属性序列的频繁项集，从所述频繁项集中生成对缺失属性序列的值覆盖，用所述值覆盖填补该完备相容类中的不完备数据。

2.根据权利要求1所述的一种基于完备相容类的云平台不完备大数据填补方法，其特征在于，所述步骤二是依据缺失属性序列的倒排索引，比较缺失属性相同的不完备数据记录；将除缺失属性外剩余属性值相同的记录划分到同一相容类。

3.根据权利要求1所述的一种基于完备相容类的云平台不完备大数据填补方法，其特征在于，所述步骤三具体包括以下步骤：

31)对待处理的大数据中完备数据进行映射端连接操作，得到映射端输出中间结果；

32)读取所述映射端输出文件与所述步骤二所得相容类中不完备数据具有相容关系的完备数据；

33)将步骤32)所得的完备数据与步骤二所得的相容类组合成为若干完备相容类。

4.根据权利要求3所述的一种基于完备相容类的云平台不完备大数据填补方法，其特征在于：每个完备相容类包括具有相容关系的不完备数据记录和用于获取填补值的完备数据。

5.根据权利要求3所述的一种基于完备相容类的云平台不完备大数据填补方法，其特征在于：所述完备相容类具有类标签，所述类标签包括缺失属性序列及除缺失属性序列之外剩余属性值。

6.根据权利要求1所述的一种基于完备相容类的云平台不完备大数据填补方法，其特征在于，所述步骤四是依次对所述步骤三所得各完备相容类做如下操作：

41)读取完备相容类在缺失属性序列中的属性值，从所有属性值中挖掘频繁项集；

42)从所述频繁项集中生成对所述缺失属性序列的值覆盖；

43)用所述值覆盖填补完备相容类中的缺失数据；

44)若缺失属性序列未填补完毕，则从填补后的完备相容类中剩余的缺失属性序列中继续挖掘频繁项集，然后回到步骤42)；若缺失属性序列均已填补完毕则退出。

7.根据权利要求6所述的一种基于完备相容类的云平台不完备大数据填补方法，其特征在于：所述步骤41)是采用频繁模式增长方法FP-growth从所有属性值中挖掘频繁项集。

8.根据权利要求6所述的一种基于完备相容类的云平台不完备大数据填补方法，其特征在于：所述步骤42)从所述频繁项集中生成对所述缺失属性序列的值覆盖时，优先选择包含属性序列个数最多的频繁项。

9.根据权利要求8所述的一种基于完备相容类的云平台不完备大数据填补方法，其特征在于：生成对所述缺失属性序列的值覆盖时，若存在多个频繁项所包含的属性序列个数相同，则从中选择出现频度最大的频繁项。

10.根据权利要求6所述的一种基于完备相容类的云平台不完备大数据填补方法，其特征在于：用所述值覆盖填补完备相容类中的缺失数据时采用并行填补方式。