CN104598618A - 一种基于完备相容类的云平台不完备大数据填补方法 - Google Patents

一种基于完备相容类的云平台不完备大数据填补方法 Download PDF

Info

Publication number
CN104598618A
CN104598618A CN201510051653.7A CN201510051653A CN104598618A CN 104598618 A CN104598618 A CN 104598618A CN 201510051653 A CN201510051653 A CN 201510051653A CN 104598618 A CN104598618 A CN 104598618A
Authority
CN
China
Prior art keywords
complete
data
incomplete
attributes
large data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510051653.7A
Other languages
English (en)
Other versions
CN104598618B (zh
Inventor
袁景凌
杨光
钟珞
陈旻骋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Zeta Cloud Technology Co ltd
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN201510051653.7A priority Critical patent/CN104598618B/zh
Publication of CN104598618A publication Critical patent/CN104598618A/zh
Application granted granted Critical
Publication of CN104598618B publication Critical patent/CN104598618B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于完备相容类的云平台不完备大数据填补方法,通过不完备大数据中的完备信息并行填补其缺失属性。本方法提高不完备数据填补的效率,有效填补缺失值过多的不完备大数据。建立了完备数据和不完备数据更为直接的联系,结合缺失属性的倒排索引和不完备数据的相容类,将数据集划分为若干完备相容类。获取完备部分中各缺失属性的频繁项集,根据频繁项集生成填补信息,并行填补具有相容关系的不完备数据,充分利用大数据的完备信息的频繁项集,并行填补具有相容关系的不完备数据。采用并行填补的方式也即采用多台机器同时去填补不同记录的缺失值也加大了填补的效率。

Description

一种基于完备相容类的云平台不完备大数据填补方法
技术领域
本发明涉及不完备信息处理和大数据处理领域,具体是指一种基于完备相容类的云平台不完备大数据填补方法。
背景技术
不完备信息处理是指根据一定的策略和方法,处理不完备信息系统中属性缺失的数据信息,从而让不完备数据发挥与完备数据相同的价值。随着信息技术的不断发展,数据呈爆发式增长。大数据成为各行各业日益关注的对象。大数据不仅具有数据量大,数据多样化,数据变化快和数据价值大的4V特性,而且大数据往往是不完备的。不完备信息的处理,特别是不完备大数据的处理具有十分重大的意义。
目前处理不完备数据的方法主要是数据填补和模型扩充,数据填补具有更为广泛的适应范围,填补后的数据可以直接作为完备数据进行应用。目前的不完备数据填补大多是依据粗糙集中的相容块和极大相容块填补缺失属性值。但是相容块和极大相容块的求取本身是十分耗时的过程,而且无法有效处理空值过多的不完备数据集,填补记录的过程也十分低效。
为了解决这个问题,需要研究怎样有效利用完备信息,发现完备信息与不完备信息的联系;并且高效的计算需要填补的值,以及高效的填补缺失数据。云计算是一种有效的手段。云计算是指利用云平台的并行化有效,采用分布式并行系统处理问题。在云平台结合大数据分析,是云计算的一种实际运用。根据大数据的完备信息,划分数据集为完备相容类,能够高效计算填补值,并行填补不完备数据,以满足填补不完备大数据的信息需求。如何将上述技术应用于不完备数据的填补,是一个亟待研究的课题。
发明内容:
本发明的目的是为了解决上述背景技术存在的不足,提出一种基于完备相容类的云平台不完备大数据填补方法,提高不完备数据填补的效率,有效填补缺失值过多的不完备大数据。
为了实现上述目的,本发明所采用的技术方案为:
一种基于完备相容类的云平台不完备大数据填补方法,该方法包括如下步骤:步骤一,扫描待处理的大数据,生成以缺失属性序列为关键字的倒排索引;步骤二,依据倒排索引将待处理的大数据中的不完备数据划分为若干相容类;步骤三,对待处理的大数据中完备数据进行映射端连接操作,得到映射端输出中间结果,结合步骤二所得的若干相容类将待处理的大数据划分为若干完备相容类;步骤四,依次读取各个完备相容类中对于缺失属性序列的频繁项集,从频繁项集中生成对缺失属性序列的值覆盖,用值覆盖填补该完备相容类中的不完备数据。
较佳地,步骤二是依据缺失属性序列的倒排索引,比较缺失属性相同的不完备数据记录;将除缺失属性外剩余属性值相同的记录划分到同一相容类。
较佳地,步骤三具体包括以下步骤:31)对待处理的大数据中完备数据进行映射端连接操作,得到映射端输出中间结果;32)读取映射端输出文件与步骤二所得相容类中不完备数据具有相容关系的完备数据;33)将步骤32)所得的完备数据与步骤二所得的相容类组合成为若干完备相容类。
较佳地,每个完备相容类包括具有相容关系的不完备数据记录和用于获取填补值的完备数据。
较佳地,完备相容类具有类标签,类标签包括缺失属性序列及除缺失属性序列之外剩余属性值。
较佳地,步骤四是依次对步骤三所得各完备相容类做如下操作:41)读取完备相容类在缺失属性序列中的属性值,从所有属性值中挖掘频繁项集;42)从频繁项集中生成对缺失属性序列的值覆盖;43)用值覆盖填补完备相容类中的缺失数据;44)若缺失属性序列未填补完毕,则从填补后的完备相容类中剩余的缺失属性序列中继续挖掘频繁项集,然后回到步骤42);若缺失属性序列均已填补完毕则退出。
较佳地,步骤41)是采用频繁模式增长方法FP-growth从所有属性值中挖掘频繁项集。
较佳地,步骤42)从频繁项集中生成对缺失属性序列的值覆盖时,优先选择包含属性序列个数最多的频繁项。
较佳地,生成对缺失属性序列的值覆盖时,若存在多个频繁项所包含的属性序列个数相同,则从中选择出现频度最大的频繁项。
较佳地,用所述值覆盖填补完备相容类中的缺失数据时采用并行填补方式。
本发明的有益效果在于:提出了一种基于完备相容类的云平台不完备大数据填补方法,通过不完备大数据中的完备信息并行填补其缺失属性。本方法提高不完备数据填补的效率,有效填补缺失值过多的不完备大数据。建立了完备数据和不完备数据更为直接的联系,结合缺失属性的倒排索引和不完备数据的相容类,将数据集划分为若干完备相容类。获取完备部分中各缺失属性的频繁项集,根据频繁项集生成填补信息,并行填补具有相容关系的不完备数据,充分利用大数据的完备信息的频繁项集,并行填补具有相容关系的不完备数据。采用并行填补的方式也即采用多台机器同时去填补不同记录的缺失值也加大了填补的效率。
附图说明
图1是本发明实施例的流程图,
图2是本发明实施例缺失属性序列的倒排索引结构图。
具体实施方式
下面结合附图和实施例对本发明做进一步的说明。
一种基于完备相容类的云平台不完备大数据填补方法(图1),该方法包括如下步骤:
步骤S1,扫描待处理的大数据,生成以缺失属性序列为关键字的倒排索引;
扫描待处理的数据集,检测每条数据记录的是否存在缺失值。统计缺失属性序列及其对应的记录,以缺失属性序列为关键字,生成指向缺失属性所在记录的倒排索引。读取全部记录后,生成缺失属性序列的列表以及缺失属性序列的倒排索引。
序列1、3和序列2、5分别表示两种缺失属性序列(图2)。序列1、3表示记录中存在属性缺失,而且缺失的属性为第1个属性和第3个属性。其中“*”表示缺失属性值,Vi,j表示第i条记录的第j个属性的值。这样,每个缺失属性序列指向对应的数据记录。根据缺失属性的倒排索引结构,只需比较相同缺失属性序列的剩余属性值,就可判断不完备数据间是否具有相容关系。
这种方法可以高效的将具有相容关系的完备数据划分到相同相容类。而且可以在划分完备相容类和并行填补过程中,都可通过该索引直接找到目标记录或目标数据块。
步骤S2,依据所述倒排索引将待处理的大数据中的不完备数据划分为若干相容类;
依据缺失属性序列的倒排索引,比较缺失属性相同的不完备数据记录;将除缺失属性外剩余属性值相同的记录划分到同一相容类。
具体的,根据步骤S1所得的缺失属性序列的倒排索引结构,以缺失属性为key,剩余属性为value构成键值对(key/value),并交由hadoop平台的多个mapreduce任务处理。通过reduce任务规约合并相同缺失属性key的不完备记录,此处的不完备记录包括缺失属性记录,将相同剩余属性value的原始记录值输出到相同文件,这里所说的原始记录为包括缺失属性和剩余属性共同在内的各个记录。通过上述方法将除缺失属性之外的各剩余属性值相同的记录划分到同一相容类,完成了将大数据中的不完备数据划分为若干相容类的步骤。
步骤S3,划分大数据为若干完备相容类。对待处理的大数据中完备数据进行映射端连接操作,得到映射端输出中间结果,结合步骤二所得的若干相容类将所述待处理的大数据划分为若干完备相容类;具体为:
S31对待处理的大数据中完备数据进行映射端连接操作,得到映射端输出中间结果;
具体是将步骤S2所得全部相容类以数据块的形式上传至分布式文件系统,按照属性序列及其属性值,对原始数据集中的完备数据进行Map端的连接操作(map端join)。
S32读取所述映射端输出文件与所述步骤S2所得相容类中不完备数据具有相容关系的完备数据;
S33将步骤S32所得的完备数据与步骤S2所得的相容类组合成为若干完备相容类。
每个完备相容类包括具有相容关系的不完备数据记录和用于获取填补值的完备数据。所述完备相容类具有类标签,所述类标签包括缺失属性序列及除缺失属性序列之外剩余属性值。
步骤S4,依次读取各个所述完备相容类中对于缺失属性序列的频繁项集,从所述频繁项集中生成对缺失属性序列的值覆盖,用所述值覆盖并行填补该完备相容类中的不完备数据。
依次对所述步骤S3所得各完备相容类做如下操作:
S41读取完备相容类在缺失属性序列中的属性值,从所有属性值中挖掘频繁项集;采用频繁模式增长方法FP-growth从所有属性值中挖掘频繁项集。
S42从所述频繁项集中生成对所述缺失属性序列的值覆盖;从所述频繁项集中生成对所述缺失属性序列的值覆盖时,优先选择包含属性序列个数最多的频繁项。生成对所述缺失属性序列的值覆盖时,若存在多个频繁项所包含的属性序列个数相同,则从中选择出现频度最大的频繁项。
S43用所述值覆盖并行填补完备相容类中的缺失数据。以完备相容类为单位,结合L的倒排索引,找到完备相容类中不完备数据。本实施例采用并行填补的方式也即采用多台机器机器同时去填补不同记录的缺失值也大大提高了填补的效率。
S44若缺失属性序列未填补完毕,则从填补后的完备相容类中剩余的缺失属性序列中继续挖掘频繁项集,然后回到步骤42),依据步骤S42所述的方法继续挖掘剩余未填补缺失属性序列的频繁项集,读取剩余部分的最长频繁项,继续生成对剩余的缺失属性序列的值覆盖。若缺失属性序列均已填补完毕则退出循环,数据填补完毕。
依次对所述步骤三所得各完备相容类做上述步骤S41至步骤S44的操作时,根据完备相容类的数目和集群环境中节点数目,设置每个job任务中map任务的数目。将同一完备相容类中的数据交由不同map任务处理。
本实施例所述方法中,对不完备数据构建了以缺失属性序列为关键字的倒排索引。然后结合相容类,建立包含不完备数据及其相关完备信息的完备相容类。通过求得完备相容类中完备部分的属性频繁项集,分析出缺失属性序列的合理填补值。并且并行填补各完备相容类中具有相容关系的不完备数据,在保障数据效用的同时,高效填补不完备大数据。更重要的是,面对云平台上的不完备的大数据,可以使用此方法来进行不完备数据填补,能够在保证数据效用的同时,高效填补大数据中过多的缺失属性值,具有很大的价值,可以有效的进行不完备大数据的处理。
应当理解的是,对本领域普通技术人员来说,可以根据上述说明加以改进或变换,而所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种基于完备相容类的云平台不完备大数据填补方法,其特征在于,该方法包括如下步骤:
步骤一,扫描待处理的大数据,生成以缺失属性序列为关键字的倒排索引;
步骤二,依据所述倒排索引将待处理的大数据中的不完备数据划分为若干相容类;
步骤三,对待处理的大数据中完备数据进行映射端连接操作,得到映射端输出中间结果,结合步骤二所得的若干相容类将所述待处理的大数据划分为若干完备相容类;
步骤四,依次读取各个所述完备相容类中对于缺失属性序列的频繁项集,从所述频繁项集中生成对缺失属性序列的值覆盖,用所述值覆盖填补该完备相容类中的不完备数据。
2.根据权利要求1所述的一种基于完备相容类的云平台不完备大数据填补方法,其特征在于,所述步骤二是依据缺失属性序列的倒排索引,比较缺失属性相同的不完备数据记录;将除缺失属性外剩余属性值相同的记录划分到同一相容类。
3.根据权利要求1所述的一种基于完备相容类的云平台不完备大数据填补方法,其特征在于,所述步骤三具体包括以下步骤:
31)对待处理的大数据中完备数据进行映射端连接操作,得到映射端输出中间结果;
32)读取所述映射端输出文件与所述步骤二所得相容类中不完备数据具有相容关系的完备数据;
33)将步骤32)所得的完备数据与步骤二所得的相容类组合成为若干完备相容类。
4.根据权利要求3所述的一种基于完备相容类的云平台不完备大数据填补方法,其特征在于:每个完备相容类包括具有相容关系的不完备数据记录和用于获取填补值的完备数据。
5.根据权利要求3所述的一种基于完备相容类的云平台不完备大数据填补方法,其特征在于:所述完备相容类具有类标签,所述类标签包括缺失属性序列及除缺失属性序列之外剩余属性值。
6.根据权利要求1所述的一种基于完备相容类的云平台不完备大数据填补方法,其特征在于,所述步骤四是依次对所述步骤三所得各完备相容类做如下操作:
41)读取完备相容类在缺失属性序列中的属性值,从所有属性值中挖掘频繁项集;
42)从所述频繁项集中生成对所述缺失属性序列的值覆盖;
43)用所述值覆盖填补完备相容类中的缺失数据;
44)若缺失属性序列未填补完毕,则从填补后的完备相容类中剩余的缺失属性序列中继续挖掘频繁项集,然后回到步骤42);若缺失属性序列均已填补完毕则退出。
7.根据权利要求6所述的一种基于完备相容类的云平台不完备大数据填补方法,其特征在于:所述步骤41)是采用频繁模式增长方法FP-growth从所有属性值中挖掘频繁项集。
8.根据权利要求6所述的一种基于完备相容类的云平台不完备大数据填补方法,其特征在于:所述步骤42)从所述频繁项集中生成对所述缺失属性序列的值覆盖时,优先选择包含属性序列个数最多的频繁项。
9.根据权利要求8所述的一种基于完备相容类的云平台不完备大数据填补方法,其特征在于:生成对所述缺失属性序列的值覆盖时,若存在多个频繁项所包含的属性序列个数相同,则从中选择出现频度最大的频繁项。
10.根据权利要求6所述的一种基于完备相容类的云平台不完备大数据填补方法,其特征在于:用所述值覆盖填补完备相容类中的缺失数据时采用并行填补方式。
CN201510051653.7A 2015-01-30 2015-01-30 一种基于完备相容类的云平台不完备大数据填补方法 Active CN104598618B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510051653.7A CN104598618B (zh) 2015-01-30 2015-01-30 一种基于完备相容类的云平台不完备大数据填补方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510051653.7A CN104598618B (zh) 2015-01-30 2015-01-30 一种基于完备相容类的云平台不完备大数据填补方法

Publications (2)

Publication Number Publication Date
CN104598618A true CN104598618A (zh) 2015-05-06
CN104598618B CN104598618B (zh) 2018-03-27

Family

ID=53124403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510051653.7A Active CN104598618B (zh) 2015-01-30 2015-01-30 一种基于完备相容类的云平台不完备大数据填补方法

Country Status (1)

Country Link
CN (1) CN104598618B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809238A (zh) * 2015-05-12 2015-07-29 国家电网公司 用于数据采集系统的数据处理方法及装置
CN106778048A (zh) * 2017-03-10 2017-05-31 广州视源电子科技股份有限公司 数据处理的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177088A (zh) * 2013-03-08 2013-06-26 北京理工大学 一种生物医学空缺数据弥补方法
CN103810392A (zh) * 2013-12-13 2014-05-21 北京航空航天大学 基于支持向量机和rbf神经网络的退化数据缺失插补方法
CN104091081A (zh) * 2014-07-15 2014-10-08 中国科学院自动化研究所 一种交通数据弥补方法
CN104133866A (zh) * 2014-07-18 2014-11-05 国家电网公司 一种面向智能电网的缺失数据填充方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103177088A (zh) * 2013-03-08 2013-06-26 北京理工大学 一种生物医学空缺数据弥补方法
CN103810392A (zh) * 2013-12-13 2014-05-21 北京航空航天大学 基于支持向量机和rbf神经网络的退化数据缺失插补方法
CN104091081A (zh) * 2014-07-15 2014-10-08 中国科学院自动化研究所 一种交通数据弥补方法
CN104133866A (zh) * 2014-07-18 2014-11-05 国家电网公司 一种面向智能电网的缺失数据填充方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
武森等: ""基于不完备数据聚类的缺失数据填补方法"", 《计算机学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104809238A (zh) * 2015-05-12 2015-07-29 国家电网公司 用于数据采集系统的数据处理方法及装置
CN104809238B (zh) * 2015-05-12 2018-02-23 国家电网公司 用于数据采集系统的数据处理方法及装置
CN106778048A (zh) * 2017-03-10 2017-05-31 广州视源电子科技股份有限公司 数据处理的方法及装置
CN106778048B (zh) * 2017-03-10 2019-07-16 广州视源电子科技股份有限公司 数据处理的方法及装置

Also Published As

Publication number Publication date
CN104598618B (zh) 2018-03-27

Similar Documents

Publication Publication Date Title
CN105550268B (zh) 大数据流程建模分析引擎
CN103473171B (zh) 一种基于函数调用路径的覆盖率动态跟踪方法及装置
CN102332125B (zh) 基于后继任务的工作流挖掘方法
CN106709035A (zh) 一种电力多维全景数据的预处理系统
Taleb et al. Big data pre-processing: closing the data quality enforcement loop
CN109559054B (zh) 一种电力工程施工信息处理系统
CN104850629A (zh) 一种基于改进k-means算法的海量智能用电数据分析方法
CN105574730A (zh) 基于物联网大数据平台的智能用户画像方法及装置
CN106611246A (zh) 一种国土资源综合管理系统
CN105205105A (zh) 一种基于storm的数据ETL系统及处理方法
CN106980699A (zh) 一种数据处理平台和系统
CN104679864A (zh) 一种基于gis的嫌疑目标智能跟踪方法和装置
CN103412889A (zh) 智能电表的数据存储和查询方法及其系统
CN103631788A (zh) 基于共享数据库的车辆制造质量问题诊断系统
CN104731953A (zh) 一种基于r的数据预处理系统的构建方法
CN105138650A (zh) 一种基于孤立点挖掘的Hadoop数据清洗方法及系统
CN106471501A (zh) 数据查询的方法、数据对象的存储方法和数据系统
CN116843107B (zh) 一种基于bim技术的建筑信息智能管理系统
CN108121530A (zh) 一种多学科复杂产品的概念设计分析方法
CN109829076B (zh) 一种生成区块链的方法及设备
CN102609501A (zh) 一种基于实时历史数据库的数据清洗方法
CN104598618A (zh) 一种基于完备相容类的云平台不完备大数据填补方法
CN106776704B (zh) 统计信息收集方法和装置
CN104834709A (zh) 一种基于负载均衡的并行余弦模式挖掘方法
CN112148942A (zh) 基于数据聚类的业务指标数据分类方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230411

Address after: 430050 No. 1, 14 / F, HUAFA Siji phase II office building, No. 19, Meilin East Road, Hanyang District, Wuhan City, Hubei Province

Patentee after: Wuhan zeta cloud Technology Co.,Ltd.

Address before: 430070 Hubei city of Wuhan province Luoshi Road No. 122, Wuhan University of Technology

Patentee before: WUHAN University OF TECHNOLOGY

TR01 Transfer of patent right