CN106598492B

CN106598492B - 一种应用于海量不完整数据的压缩优化方法

Info

Publication number: CN106598492B
Application number: CN201611081153.9A
Authority: CN
Inventors: 王妍; 孙凌峰; 李玉诺; 王俊陆; 宋宝燕
Original assignee: Liaoning University
Current assignee: Liaoning University
Priority date: 2016-11-30
Filing date: 2016-11-30
Publication date: 2019-04-09
Anticipated expiration: 2036-11-30
Also published as: CN106598492A

Abstract

本发明涉及一种应用于海量不完整数据的压缩优化方法，包括硬优化方法、软优化方法；该方法通过将海量不完整数据的压缩与传统粗糙理论相集合，并对其中的方法进行改进，利用其对不完整数据压缩过程中的属性进行属性重要性以及属性综合权重进行计算。同时在属性综合权重的基础上设计一种新的不完整数据集中属性值字段的编码方式。该方法提高海量不完整数据的压缩效率，减少海量不完整数据的存储空间，能够在减少冗余的前提下实现海量不完整数据的高效率压缩。它适应于海量不完整数据的减冗余压缩。

Description

一种应用于海量不完整数据的压缩优化方法

技术领域

本发明涉及一种应用于海量不完整数据的压缩优化方法，属于数据库领域。

背景技术

随着大数据时代的到来，数据规模呈指数倍增加，各种形式的海量数据不断产生。数据的压缩对于海量数据的存储、查询、以及应用至关重要，为了有效地管理海量数据，人们提出了各种数据压缩技术。而在海量数据中由于网络错误、收集错误以及人为错误等原因导致的数据缺失是一个很常见的现象。对于海量不完整的不合理的压缩方法会造成严重的损失。因此针对海量不完整数据压缩方法的研究是十分重要的现实意义。

目前对于海量数据压缩方法的研究，主要集中在对完整数据的压缩，例如基于索引的压缩方法,面向块的增量压缩方法,算术编码压缩方法等，但是这些方法都是需要针对特定的数据特点来进行实现，不具有一定的普遍性。而对海量不完整数据的压缩，通常是在数据预处理之后，“清洗”或者“填补”之后得到完整数据，在其基础上进行压缩操作。AQ-MI方法根据用户频繁查询条件实现了对海量不完整数据的压缩，但是由于基本数据结构的设计，以及为了获得更加精确的查询结果，使得在压缩时存在压缩数据冗余问题，即存在属性值缺失的元组会重复压缩多次的问题。这会使压缩文件的大小增大，造成了存储空间浪费和压缩效率降低，大大加大了压缩的代价。这些方法都不适合海量不完整数据的有效压缩。

发明内容

本发明针对现有技术的不足，本发明提供一种应用于海量不完整数据压缩优化的方法。

本发明的是通过下述技术方案实现的：

一种应用于海量不完整数据的压缩优化方法，其特征在于：包括硬优化方法(1)、软优化方法(2)；

所述的硬优化方法(1)实现步骤如下：

(1.1)：确定属性字段的编码方式：在一个元组中，当属性值字段没有发生缺失时，根据确定性查询条件，利用位编码形式对属性值字段进行编码，:利用“0”，“1”对元组中确定性查询条件对应的属性字段进行编码；当属性值发生缺失时候，利用“*”对属性值缺失字段进行编码；

(1.2)：不管当前元组中是否存在属性值缺失字段，根据(1.1)中的编码方式，计算当前元组t所满足的确定性查询条件所对应的Def_Query值；

(1.3)：将元组t写入为该Def_Query值所准备的待压缩缓存块Block_{Def_Query}中，设定其序号为Block_Id_{Def_Query}；将元组t的不确定性查询条件的值Undef_Vals以及Def_Query值和缓存块号Block_Id_{Def_Query}插入到数据库索引表中；

(1.4)：如果Block_Id_{Def_Query}所代表的压缩缓存块已满，则利用压缩算法对该缓存块进行压缩；将得到的Block_Id_{Def_Query}以及压缩得到的地址Address_{Def_Query}写入地址表中，得到使用硬优化算法后的压缩数据和索引文件；

所述的Def_Query代表用户使用的确定性查询条件，Block代表压缩缓存块，Block_Id代表数据元组所在的缓存块的序号，Undef_Vals代表不确定性查询条件所对应的属性值，Address代表缓存块压缩后的压缩文件地址；

所述的软优化方法(2)实现步骤如下：

(2.1)：确定海量不完整数据集中确定性查询条件所对应的属性主观权重；通过计算用户的频繁查询条件的使用概率，计算得到不完整数据集中相关属性的主观权重；

(2.2)：计算不完整数据集中的属性客观权重，步骤具体为：

①查询结果数值化：将查询结果集中的非数值属性列删除，使结果集中都是数值型数据；

②结果集划分：将数值化后的结果集进行划分，将其划分为完备结果集和不完备结果集；此时数据集中不再存在缺失数据；

③条件属性集合和决策属性集合确定：当一个结果集不存在明显的决策属性集合时，将结果集中的全部属性集合既作为条件属性集合又作为决策属性集合；

④属性客观权重计算：通过利用粗糙集中相关理论求得结果集中各个属性的属性重要性，同时计算各个属性对应的属性客观权重；

(2.3)：属性综合权重计算：通过利用用户偏好系数，对各个属性进行属性综合权重的计算，得到属性的综合权重；

(2.4)：结合属性综合权重以及海量不完整数据硬优化方法中的属性值缺失字段编码方式，重新设计元组中属性字段的编码方式，对元组中的确定性查询条件所对应的属性字段进行编码；

①设置属性综合权重的权重阈值，比较Def_query对应的属性集合中各个属性的综合权重与权重阈值y的大小关系。

②对于一个元组t，如果其中的属性综合权重大于y，那么当它发生属性值缺失时候，该属性需要被编码为“0”和“1”；如果属性值未发生缺失，那么该属性需要根据确定性查询条件，编码为“0”或者“1”。

③如果其中的属性综合权重小于y，那么当它发生属性值缺失时候，该属性需要被编码为“*”；如果属性值未发生缺失，那么该属性需要根据确定性查询条件，编码为“0”或者“1”。

(2.5)：计算当前元组t所满足的确定性查询条件的Def_Query值；将元组写入为该Def_Query值所准备的待压缩缓存块Block_{Def_Query}中，设定其序号为Block_Id_{Def_Query}；

(2.6)：将元组t的不确定性查询条件的值Undef_Vals以及Def_query值和Block_Id_{Def_Query}插入到数据库索引表中；

(2.7)：如果该Block_Id_{Def_Query}所代表的压缩缓存块已满，则利用压缩算法对该缓存块进行压缩。将得到的Block_Id_{Def_Query}以及压缩得到的地址Address_{Def_Query}写入地址表中，得到海量不完整数据软优化算法后的压缩数据和索引文件。

所述的不完整数据集中综合权重计算步骤具体为：

(1)：属性主观权重计算：通过计算用户的频繁查询条件的使用概率，计算得到不完整数据集中相关属性的主观权重：

其中p(i)代表属性i的属性主观权重，t(i)代表i属性使用的次数，代表压缩过程中确定性查询条件所对应的所有属性的使用次数之和。

(2)：属性客观权重计算：结合粗糙集理论，对不完整数据集中属性客观权重进行计算，计算步骤如下：

①确定等价关系：首先得到全部确定性查询条件所对应的属性集合U的等价关系IND(U)，依次删除集合U中每一个属性i(i∈U)，得到删除该属性后的属性集合U-i的等价关系IND(U-i)；

②确定属性的依赖度，首先得到全部属性集合U对的依赖度为γ_U(U)＝1，接着可以得到在删除属性i后，集合U中剩余属性集合的依赖度为：

其中U代表数据集中全部的属性集合，i代表每次要删除的属性，POS_U-{i}(U)代表集合U的U-{i}正域，|POS_U-{i}(U)|代表正域中的元组数，|U|代表U中的元组数；

③利用第二步所得到的γ_U(U)和γ_U-{i}(U)，可以求得在本技术中的属性重要性计算方法：SGF(i,U,U)＝γ_U(U)-γ_U-{i}(U)

其中SGF(i,U,U)代表属性i加入集合U中对分类变化的影响重要程度，即是属性i的属性重要性，γ_U(U)代表属性i存在于U中时，U对U的属性依赖度，γ_U-{i}(U)代表集合U对U中除i以外的其它属性集合U-{i}的属性依赖度；

④依次计算各个属性i对于属性集合U的属性重要性，利用属性重要性的占比计算它们各自的属性客观权重ω(i)，计算方法如下：

其中SGF(i,U,U)代表属性i的属性重要性，代表U中所有属性的属性重要性之和。

(3)：属性综合权重计算：通过利用用户偏好系数，对各个属性进行属性综合权重的计算，得到属性的综合权重。

cw(i)＝αp(i)+(1-α)×ω(i)

其中α为用户的偏好系数，cw(i)代表属性综合权重，p(i)代表属性主观权重，ω(i)代表属性客观权重。

本发明的有益效果：与现有技术相比，本发明根据海量不完整数据的特点，提供了一种海量不完整数据压缩优化方法。本方法采用粗糙理论来计算不完整数据中的属性重要性，同时设计一种新的属性值缺失字段的编码方式。本方法提高海量不完整数据的压缩效率，减少海量不完整数据的存储空间，能够在减少冗余的前提下实现海量不完整数据的高效率压缩。它适应于海量不完整数据的减冗余压缩。

附图说明

图1为海量不完整数据部分数据示例图。

图2为海量不完整数据硬优化方法索引示例图。

图3为海量不完整数据软优化方法索引示例图

图4为海量不完整数据硬优化方法流程图。

图5为属性综合权重计算流程图。

图6为海量不完整数据软优化方法流程图。

具体实施方式

下面结合附图对本发明进一步说明。如图1所示为某地环境测试的温度部分数据示例图，在此仅选择其中几条数据用来说明本发明中的方法，在图中数据所代表的海量数据有所缺失。如果采用以前的海量不完整数据压缩方法进行压缩会产生元组2和元组3进行多次压缩，产生压缩数据冗余问题。本发明中使用的硬优化算法当确定性查询条件对应的属性值字段缺失时，对其进行编码时，将该字段用*表示。此时不管元组中有多少属性值缺失字段，元组就只能计算出唯一的Def_Query值，从而将元组写入为Def_Query值分配的待压缩缓存块Block_{Def_Query}中。通过这种编码方式，不管元组中是否发生属性值缺失，元组都会被压缩至一个压缩文件。如图2所示，会得到使用硬优化算法后得到的图1中数据的索引文件示例表。根据图4所示的不完整数据硬优化算法的流程图，该算法的具体步骤为：

第一步：确定属性字段的编码方式。在一个元组中，当属性值字段没有发生缺失时，根据确定性查询条件，利用位编码形式对属性值字段进行编码，即是利用“0”，“1”对元组中属性值字段进行编码；当属性值字段发生缺失时候，利用“*”对属性值缺失字段进行编码。

第二步：不管当前元组中是否存在属性值缺失字段，计算当前元组t所满足的确定性查询条件的Def_Query值。

第三步：将元组写入为该Def_query值所准备的待压缩缓存块Block_{Def_Query}中，设定其序号为Block_Id_{Def_Query}；将元组t的不确定性查询条件的值Undef_Vals以及Def_query值和Block_Id_{Def_Query}插入到数据库索引表中。

第四步：如果元组所对应的Block_Id_{Def_Query}所代表的压缩缓存块已满，则利用压缩算法对该缓存块进行压缩。将得到的Block_Id_{Def_Query}以及压缩得到的地址Address_{Def_Query}写入地址表中。

第五步：得到使用硬优化算法后的压缩数据和索引文件

同样对于图1所示的示例数据，本发明中的软优化方法会计算其中属性Temperature和Duration的综合权重，在这其中需要计算Temperature和Duration两个属性的属性主观权重和客观权重。根据图6所示的软优化方法的流程图以及图5所示的属性综合权重计算流程所示，它的具体步骤为：

第一步：确定不完整数据集中属性的主观权重。通过计算使用这两个属性概率，计算得到不完整数据集中相关属性的主观权重。

第二步：计算不完整数据集中属性的属性综合权重，步骤具体为：

1)查询结果数值化：将查询结果集中的非数值属性列删除即是Place属性列，使结果集中都是数值型属性列。

2)结果集划分：将数值型的结果集进行划分，将其划分为完备结果集(即数据集中不再存在缺失数据)和不完备结果集。

3)条件属性集合和决策属性集合确定：本方法在一个结果集不存在明显的决策属性集合时，将结果集中的全部属性既作为条件属性集合又作为决策属性集合。

4)属性客观权重计算：通过利用粗糙集中相关理论求得结果集中各个属性的属性重要性，同时计算各个属性对应的属性客观权重。

属性客观权重计算的具体步骤如下：

①确定等价关系，首先得到全部属性集合的等价关系IND(U)，依次删除集合U中每一个属性i(i∈U)，得到删除该属性后的等价关系IND(U-i)

②确定属性的依赖度，首先得到全部属性集合的依赖度为γ_U(U)＝1，接着可以得到在删除属性i后，集合U中剩余属性集合的依赖度为：

③利用第二步所得到的γ_U(U)和γ_U-{i}(U)，可以求得在本技术中的属性综合重要性计算方法：

SGF(i,U,U)＝γ_U(U)-γ_U-{i}(U)

其中SGK(i,U,U)代表属性i的属性重要性，代表U中所有属性的属性重要性之和；

5)属性综合权重计算：通过利用用户偏好系数，对各个属性进行属性综合权重的计算，得到属性的综合权重。

cw(i)＝αp(i)+(1-α)×ω(i)

第三步：通过结合属性综合权重与海量不完整数据硬优化方法中的属性值缺失字段编码思想，重新设计元组中字段的编码方式，对元组中的确定性查询条件所对应的字段进行编码。如流程图6中所示的编码以及后续的压缩工作的流程图，具体实现步骤如下：

①设置属性综合权重的权重阈值，比较Def_query对应的属性集合中各个属性的综合权重与权重阈值y的大小关系

通过这种编码方式可以得到如图3所示的索引示例表，可以看到不完整数据压缩的次数减少。

第四步：计算当前元组t所满足的确定性查询条件的Def_Query值。将元组写入为该Def_query值所准备的待压缩缓存块Block_{Def_Query}中，设定其序号为Block_Id_{Def_Query}。

第五步：将元组t的不确定性查询条件的值Undef_Vals以及Def_query值和Block_Id_{Def_Query}插入到数据库索引表中。

第六步：如果该Block_Id_{Def_Query}所代表的压缩缓存块已满，则利用压缩算法对该缓存块进行压缩。将得到的Block_Id_{Def_Query}以及压缩得到的地址Address_{Def_Query}写入地址表中。

第七步：得到海量不完整数据软优化算法后的压缩数据和索引文件。

Claims

1.一种应用于海量不完整数据的压缩优化方法，其特征在于：包括硬优化方法(1)、软优化方法(2)；

所述的硬优化方法(1)实现步骤如下：

(1.1)：确定属性字段的编码方式：在一个元组中，当属性值字段没有发生缺失时，根据确定性查询条件，利用位编码形式对属性值字段进行编码，利用“0”，“1”对元组中确定性查询条件对应的属性字段进行编码；当属性值发生缺失时候，利用“*”对属性值缺失字段进行编码；

(1.2)：确定Def_query值：不管当前元组中是否存在属性值缺失字段，根据(1.1)中的编码方式，计算当前元组t所满足的确定性查询条件所对应的Def_Query值；

(1.4)：如果Block_Id_{Def_Query}所代表的压缩缓存块已满，则利用压缩算法对该缓存块进行压缩；将得到的Block_Id_{Def_Query}以及压缩得到的地址Address_{Def_Query}写入压缩地址表中，得到使用硬优化算法后的压缩数据和索引文件；

所述的软优化方法(2)实现步骤如下：

(2.1)：确定海量不完整数据集中确定性查询条件所对应属性的属性主观权重；通过计算用户的频繁查询条件的使用概率，计算得到不完整数据集中相关属性的主观权重；

(2.2)：计算不完整数据集中属性的客观权重，步骤具体为：

(2.3)：属性综合权重计算：通过利用用户偏好系数，对各个属性进行属性综合权重的计算，得到属性的综合权重，具体为：

(2.3.1)：属性主观权重计算：通过计算用户的频繁查询条件的使用概率，

计算得到不完整数据集中相关属性的主观权重：

其中p(i)代表属性i的属性主观权重，t(i)代表i属性使用的次数，代表压缩过程中确定性查询条件所对应的所有属性的使用次数之和；

(2.3.2)：属性客观权重计算：结合粗糙集理论，对不完整数据集中属性客观权重进行计算，计算步骤如下：

其中SGF(i,U,U)代表属性i的属性重要性，代表U中所有属性的属性重要性之和；

(2.3.3)：属性综合权重计算：通过利用用户偏好系数，对各个属性进行属性综合权重的计算，得到属性的综合权重；

cw(i)＝αp(i)+(1-α)×ω(i)

其中α为用户的偏好系数，cw(i)代表属性综合权重，p(i)代表属性主观权重，ω(i)代表属性客观权重；

(2.4)：结合属性综合权重以及海量不完整数据硬优化方法中的属性字段编码方式，重新设计元组中属性字段的编码方式，对元组中的确定性查询条件所对应的属性字段进行编码；

①设置属性综合权重的权重阈值，比较Def_query对应的属性集合中各个属性的综合权重与权重阈值y的大小关系；

②对于一个元组t，如果其中的属性综合权重大于y，那么当它发生属性值缺失时候，该属性需要被编码为“0”和“1”；如果属性值未发生缺失，那么该属性需要根据确定性查询条件，编码为“0”或者“1”；

③如果其中的属性综合权重小于y，那么当它发生属性值缺失时候，该属性需要被编码为“*”；如果属性值未发生缺失，那么该属性需要根据确定性查询条件，编码为“0”或者“1”；

(2.7)：如果该Block_Id_{Def_Query}所代表的压缩缓存块已满，则利用压缩算法对该缓存块进行压缩；将得到的Block_Id_{Def_Query}以及压缩得到的地址Address_{Def_Query}写入地址表中，得到海量不完整数据软优化算法后的压缩数据和索引文件。