CN106598492B - 一种应用于海量不完整数据的压缩优化方法 - Google Patents

一种应用于海量不完整数据的压缩优化方法 Download PDF

Info

Publication number
CN106598492B
CN106598492B CN201611081153.9A CN201611081153A CN106598492B CN 106598492 B CN106598492 B CN 106598492B CN 201611081153 A CN201611081153 A CN 201611081153A CN 106598492 B CN106598492 B CN 106598492B
Authority
CN
China
Prior art keywords
attribute
query
data
def
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611081153.9A
Other languages
English (en)
Other versions
CN106598492A (zh
Inventor
王妍
孙凌峰
李玉诺
王俊陆
宋宝燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Liaoning University
Original Assignee
Liaoning University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liaoning University filed Critical Liaoning University
Priority to CN201611081153.9A priority Critical patent/CN106598492B/zh
Publication of CN106598492A publication Critical patent/CN106598492A/zh
Application granted granted Critical
Publication of CN106598492B publication Critical patent/CN106598492B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/134Distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种应用于海量不完整数据的压缩优化方法,包括硬优化方法、软优化方法;该方法通过将海量不完整数据的压缩与传统粗糙理论相集合,并对其中的方法进行改进,利用其对不完整数据压缩过程中的属性进行属性重要性以及属性综合权重进行计算。同时在属性综合权重的基础上设计一种新的不完整数据集中属性值字段的编码方式。该方法提高海量不完整数据的压缩效率,减少海量不完整数据的存储空间,能够在减少冗余的前提下实现海量不完整数据的高效率压缩。它适应于海量不完整数据的减冗余压缩。

Description

一种应用于海量不完整数据的压缩优化方法
技术领域
本发明涉及一种应用于海量不完整数据的压缩优化方法,属于数据库领域。
背景技术
随着大数据时代的到来,数据规模呈指数倍增加,各种形式的海量数据不断产生。数据的压缩对于海量数据的存储、查询、以及应用至关重要,为了有效地管理海量数据,人们提出了各种数据压缩技术。而在海量数据中由于网络错误、收集错误以及人为错误等原因导致的数据缺失是一个很常见的现象。对于海量不完整的不合理的压缩方法会造成严重的损失。因此针对海量不完整数据压缩方法的研究是十分重要的现实意义。
目前对于海量数据压缩方法的研究,主要集中在对完整数据的压缩,例如基于索引的压缩方法,面向块的增量压缩方法,算术编码压缩方法等,但是这些方法都是需要针对特定的数据特点来进行实现,不具有一定的普遍性。而对海量不完整数据的压缩,通常是在数据预处理之后,“清洗”或者“填补”之后得到完整数据,在其基础上进行压缩操作。AQ-MI方法根据用户频繁查询条件实现了对海量不完整数据的压缩,但是由于基本数据结构的设计,以及为了获得更加精确的查询结果,使得在压缩时存在压缩数据冗余问题,即存在属性值缺失的元组会重复压缩多次的问题。这会使压缩文件的大小增大,造成了存储空间浪费和压缩效率降低,大大加大了压缩的代价。这些方法都不适合海量不完整数据的有效压缩。
发明内容
本发明针对现有技术的不足,本发明提供一种应用于海量不完整数据压缩优化的方法。
本发明的是通过下述技术方案实现的:
一种应用于海量不完整数据的压缩优化方法,其特征在于:包括硬优化方法(1)、软优化方法(2);
所述的硬优化方法(1)实现步骤如下:
(1.1):确定属性字段的编码方式:在一个元组中,当属性值字段没有发生缺失时,根据确定性查询条件,利用位编码形式对属性值字段进行编码,:利用“0”,“1”对元组中确定性查询条件对应的属性字段进行编码;当属性值发生缺失时候,利用“*”对属性值缺失字段进行编码;
(1.2):不管当前元组中是否存在属性值缺失字段,根据(1.1)中的编码方式,计算当前元组t所满足的确定性查询条件所对应的Def_Query值;
(1.3):将元组t写入为该Def_Query值所准备的待压缩缓存块BlockDef_Query中,设定其序号为Block_IdDef_Query;将元组t的不确定性查询条件的值Undef_Vals以及Def_Query值和缓存块号Block_IdDef_Query插入到数据库索引表中;
(1.4):如果Block_IdDef_Query所代表的压缩缓存块已满,则利用压缩算法对该缓存块进行压缩;将得到的Block_IdDef_Query以及压缩得到的地址AddressDef_Query写入地址表中,得到使用硬优化算法后的压缩数据和索引文件;
所述的Def_Query代表用户使用的确定性查询条件,Block代表压缩缓存块,Block_Id代表数据元组所在的缓存块的序号,Undef_Vals代表不确定性查询条件所对应的属性值,Address代表缓存块压缩后的压缩文件地址;
所述的软优化方法(2)实现步骤如下:
(2.1):确定海量不完整数据集中确定性查询条件所对应的属性主观权重;通过计算用户的频繁查询条件的使用概率,计算得到不完整数据集中相关属性的主观权重;
(2.2):计算不完整数据集中的属性客观权重,步骤具体为:
①查询结果数值化:将查询结果集中的非数值属性列删除,使结果集中都是数值型数据;
②结果集划分:将数值化后的结果集进行划分,将其划分为完备结果集和不完备结果集;此时数据集中不再存在缺失数据;
③条件属性集合和决策属性集合确定:当一个结果集不存在明显的决策属性集合时,将结果集中的全部属性集合既作为条件属性集合又作为决策属性集合;
④属性客观权重计算:通过利用粗糙集中相关理论求得结果集中各个属性的属性重要性,同时计算各个属性对应的属性客观权重;
(2.3):属性综合权重计算:通过利用用户偏好系数,对各个属性进行属性综合权重的计算,得到属性的综合权重;
(2.4):结合属性综合权重以及海量不完整数据硬优化方法中的属性值缺失字段编码方式,重新设计元组中属性字段的编码方式,对元组中的确定性查询条件所对应的属性字段进行编码;
①设置属性综合权重的权重阈值,比较Def_query对应的属性集合中各个属性的综合权重与权重阈值y的大小关系。
②对于一个元组t,如果其中的属性综合权重大于y,那么当它发生属性值缺失时候,该属性需要被编码为“0”和“1”;如果属性值未发生缺失,那么该属性需要根据确定性查询条件,编码为“0”或者“1”。
③如果其中的属性综合权重小于y,那么当它发生属性值缺失时候,该属性需要被编码为“*”;如果属性值未发生缺失,那么该属性需要根据确定性查询条件,编码为“0”或者“1”。
(2.5):计算当前元组t所满足的确定性查询条件的Def_Query值;将元组写入为该Def_Query值所准备的待压缩缓存块BlockDef_Query中,设定其序号为Block_IdDef_Query
(2.6):将元组t的不确定性查询条件的值Undef_Vals以及Def_query值和Block_IdDef_Query插入到数据库索引表中;
(2.7):如果该Block_IdDef_Query所代表的压缩缓存块已满,则利用压缩算法对该缓存块进行压缩。将得到的Block_IdDef_Query以及压缩得到的地址AddressDef_Query写入地址表中,得到海量不完整数据软优化算法后的压缩数据和索引文件。
所述的不完整数据集中综合权重计算步骤具体为:
(1):属性主观权重计算:通过计算用户的频繁查询条件的使用概率,计算得到不完整数据集中相关属性的主观权重:
其中p(i)代表属性i的属性主观权重,t(i)代表i属性使用的次数,代表压缩过程中确定性查询条件所对应的所有属性的使用次数之和。
(2):属性客观权重计算:结合粗糙集理论,对不完整数据集中属性客观权重进行计算,计算步骤如下:
①确定等价关系:首先得到全部确定性查询条件所对应的属性集合U的等价关系IND(U),依次删除集合U中每一个属性i(i∈U),得到删除该属性后的属性集合U-i的等价关系IND(U-i);
②确定属性的依赖度,首先得到全部属性集合U对的依赖度为γU(U)=1,接着可以得到在删除属性i后,集合U中剩余属性集合的依赖度为:
其中U代表数据集中全部的属性集合,i代表每次要删除的属性,POSU-{i}(U)代表集合U的U-{i}正域,|POSU-{i}(U)|代表正域中的元组数,|U|代表U中的元组数;
③利用第二步所得到的γU(U)和γU-{i}(U),可以求得在本技术中的属性重要性计算方法:SGF(i,U,U)=γU(U)-γU-{i}(U)
其中SGF(i,U,U)代表属性i加入集合U中对分类变化的影响重要程度,即是属性i的属性重要性,γU(U)代表属性i存在于U中时,U对U的属性依赖度,γU-{i}(U)代表集合U对U中除i以外的其它属性集合U-{i}的属性依赖度;
④依次计算各个属性i对于属性集合U的属性重要性,利用属性重要性的占比计算它们各自的属性客观权重ω(i),计算方法如下:
其中SGF(i,U,U)代表属性i的属性重要性,代表U中所有属性的属性重要性之和。
(3):属性综合权重计算:通过利用用户偏好系数,对各个属性进行属性综合权重的计算,得到属性的综合权重。
cw(i)=αp(i)+(1-α)×ω(i)
其中α为用户的偏好系数,cw(i)代表属性综合权重,p(i)代表属性主观权重,ω(i)代表属性客观权重。
本发明的有益效果:与现有技术相比,本发明根据海量不完整数据的特点,提供了一种海量不完整数据压缩优化方法。本方法采用粗糙理论来计算不完整数据中的属性重要性,同时设计一种新的属性值缺失字段的编码方式。本方法提高海量不完整数据的压缩效率,减少海量不完整数据的存储空间,能够在减少冗余的前提下实现海量不完整数据的高效率压缩。它适应于海量不完整数据的减冗余压缩。
附图说明
图1为海量不完整数据部分数据示例图。
图2为海量不完整数据硬优化方法索引示例图。
图3为海量不完整数据软优化方法索引示例图
图4为海量不完整数据硬优化方法流程图。
图5为属性综合权重计算流程图。
图6为海量不完整数据软优化方法流程图。
具体实施方式
下面结合附图对本发明进一步说明。如图1所示为某地环境测试的温度部分数据示例图,在此仅选择其中几条数据用来说明本发明中的方法,在图中数据所代表的海量数据有所缺失。如果采用以前的海量不完整数据压缩方法进行压缩会产生元组2和元组3进行多次压缩,产生压缩数据冗余问题。本发明中使用的硬优化算法当确定性查询条件对应的属性值字段缺失时,对其进行编码时,将该字段用*表示。此时不管元组中有多少属性值缺失字段,元组就只能计算出唯一的Def_Query值,从而将元组写入为Def_Query值分配的待压缩缓存块BlockDef_Query中。通过这种编码方式,不管元组中是否发生属性值缺失,元组都会被压缩至一个压缩文件。如图2所示,会得到使用硬优化算法后得到的图1中数据的索引文件示例表。根据图4所示的不完整数据硬优化算法的流程图,该算法的具体步骤为:
第一步:确定属性字段的编码方式。在一个元组中,当属性值字段没有发生缺失时,根据确定性查询条件,利用位编码形式对属性值字段进行编码,即是利用“0”,“1”对元组中属性值字段进行编码;当属性值字段发生缺失时候,利用“*”对属性值缺失字段进行编码。
第二步:不管当前元组中是否存在属性值缺失字段,计算当前元组t所满足的确定性查询条件的Def_Query值。
第三步:将元组写入为该Def_query值所准备的待压缩缓存块BlockDef_Query中,设定其序号为Block_IdDef_Query;将元组t的不确定性查询条件的值Undef_Vals以及Def_query值和Block_IdDef_Query插入到数据库索引表中。
第四步:如果元组所对应的Block_IdDef_Query所代表的压缩缓存块已满,则利用压缩算法对该缓存块进行压缩。将得到的Block_IdDef_Query以及压缩得到的地址AddressDef_Query写入地址表中。
第五步:得到使用硬优化算法后的压缩数据和索引文件
同样对于图1所示的示例数据,本发明中的软优化方法会计算其中属性Temperature和Duration的综合权重,在这其中需要计算Temperature和Duration两个属性的属性主观权重和客观权重。根据图6所示的软优化方法的流程图以及图5所示的属性综合权重计算流程所示,它的具体步骤为:
第一步:确定不完整数据集中属性的主观权重。通过计算使用这两个属性概率,计算得到不完整数据集中相关属性的主观权重。
其中p(i)代表属性i的属性主观权重,t(i)代表i属性使用的次数,代表压缩过程中确定性查询条件所对应的所有属性的使用次数之和。
第二步:计算不完整数据集中属性的属性综合权重,步骤具体为:
1)查询结果数值化:将查询结果集中的非数值属性列删除即是Place属性列,使结果集中都是数值型属性列。
2)结果集划分:将数值型的结果集进行划分,将其划分为完备结果集(即数据集中不再存在缺失数据)和不完备结果集。
3)条件属性集合和决策属性集合确定:本方法在一个结果集不存在明显的决策属性集合时,将结果集中的全部属性既作为条件属性集合又作为决策属性集合。
4)属性客观权重计算:通过利用粗糙集中相关理论求得结果集中各个属性的属性重要性,同时计算各个属性对应的属性客观权重。
属性客观权重计算的具体步骤如下:
①确定等价关系,首先得到全部属性集合的等价关系IND(U),依次删除集合U中每一个属性i(i∈U),得到删除该属性后的等价关系IND(U-i)
②确定属性的依赖度,首先得到全部属性集合的依赖度为γU(U)=1,接着可以得到在删除属性i后,集合U中剩余属性集合的依赖度为:
其中U代表数据集中全部的属性集合,i代表每次要删除的属性,POSU-{i}(U)代表集合U的U-{i}正域,|POSU-{i}(U)|代表正域中的元组数,|U|代表U中的元组数;
③利用第二步所得到的γU(U)和γU-{i}(U),可以求得在本技术中的属性综合重要性计算方法:
SGF(i,U,U)=γU(U)-γU-{i}(U)
其中SGF(i,U,U)代表属性i加入集合U中对分类变化的影响重要程度,即是属性i的属性重要性,γU(U)代表属性i存在于U中时,U对U的属性依赖度,γU-{i}(U)代表集合U对U中除i以外的其它属性集合U-{i}的属性依赖度;
④依次计算各个属性i对于属性集合U的属性重要性,利用属性重要性的占比计算它们各自的属性客观权重ω(i),计算方法如下:
其中SGK(i,U,U)代表属性i的属性重要性,代表U中所有属性的属性重要性之和;
5)属性综合权重计算:通过利用用户偏好系数,对各个属性进行属性综合权重的计算,得到属性的综合权重。
cw(i)=αp(i)+(1-α)×ω(i)
其中α为用户的偏好系数,cw(i)代表属性综合权重,p(i)代表属性主观权重,ω(i)代表属性客观权重。
第三步:通过结合属性综合权重与海量不完整数据硬优化方法中的属性值缺失字段编码思想,重新设计元组中字段的编码方式,对元组中的确定性查询条件所对应的字段进行编码。如流程图6中所示的编码以及后续的压缩工作的流程图,具体实现步骤如下:
①设置属性综合权重的权重阈值,比较Def_query对应的属性集合中各个属性的综合权重与权重阈值y的大小关系
②对于一个元组t,如果其中的属性综合权重大于y,那么当它发生属性值缺失时候,该属性需要被编码为“0”和“1”;如果属性值未发生缺失,那么该属性需要根据确定性查询条件,编码为“0”或者“1”。
③如果其中的属性综合权重小于y,那么当它发生属性值缺失时候,该属性需要被编码为“*”;如果属性值未发生缺失,那么该属性需要根据确定性查询条件,编码为“0”或者“1”。
通过这种编码方式可以得到如图3所示的索引示例表,可以看到不完整数据压缩的次数减少。
第四步:计算当前元组t所满足的确定性查询条件的Def_Query值。将元组写入为该Def_query值所准备的待压缩缓存块BlockDef_Query中,设定其序号为Block_IdDef_Query
第五步:将元组t的不确定性查询条件的值Undef_Vals以及Def_query值和Block_IdDef_Query插入到数据库索引表中。
第六步:如果该Block_IdDef_Query所代表的压缩缓存块已满,则利用压缩算法对该缓存块进行压缩。将得到的Block_IdDef_Query以及压缩得到的地址AddressDef_Query写入地址表中。
第七步:得到海量不完整数据软优化算法后的压缩数据和索引文件。

Claims (1)

1.一种应用于海量不完整数据的压缩优化方法,其特征在于:包括硬优化方法(1)、软优化方法(2);
所述的硬优化方法(1)实现步骤如下:
(1.1):确定属性字段的编码方式:在一个元组中,当属性值字段没有发生缺失时,根据确定性查询条件,利用位编码形式对属性值字段进行编码,利用“0”,“1”对元组中确定性查询条件对应的属性字段进行编码;当属性值发生缺失时候,利用“*”对属性值缺失字段进行编码;
(1.2):确定Def_query值:不管当前元组中是否存在属性值缺失字段,根据(1.1)中的编码方式,计算当前元组t所满足的确定性查询条件所对应的Def_Query值;
(1.3):将元组t写入为该Def_Query值所准备的待压缩缓存块BlockDef_Query中,设定其序号为Block_IdDef_Query;将元组t的不确定性查询条件的值Undef_Vals以及Def_Query值和缓存块号Block_IdDef_Query插入到数据库索引表中;
(1.4):如果Block_IdDef_Query所代表的压缩缓存块已满,则利用压缩算法对该缓存块进行压缩;将得到的Block_IdDef_Query以及压缩得到的地址AddressDef_Query写入压缩地址表中,得到使用硬优化算法后的压缩数据和索引文件;
所述的Def_Query代表用户使用的确定性查询条件,Block代表压缩缓存块,Block_Id代表数据元组所在的缓存块的序号,Undef_Vals代表不确定性查询条件所对应的属性值,Address代表缓存块压缩后的压缩文件地址;
所述的软优化方法(2)实现步骤如下:
(2.1):确定海量不完整数据集中确定性查询条件所对应属性的属性主观权重;通过计算用户的频繁查询条件的使用概率,计算得到不完整数据集中相关属性的主观权重;
(2.2):计算不完整数据集中属性的客观权重,步骤具体为:
①查询结果数值化:将查询结果集中的非数值属性列删除,使结果集中都是数值型数据;
②结果集划分:将数值化后的结果集进行划分,将其划分为完备结果集和不完备结果集;此时数据集中不再存在缺失数据;
③条件属性集合和决策属性集合确定:当一个结果集不存在明显的决策属性集合时,将结果集中的全部属性集合既作为条件属性集合又作为决策属性集合;
④属性客观权重计算:通过利用粗糙集中相关理论求得结果集中各个属性的属性重要性,同时计算各个属性对应的属性客观权重;
(2.3):属性综合权重计算:通过利用用户偏好系数,对各个属性进行属性综合权重的计算,得到属性的综合权重,具体为:
(2.3.1):属性主观权重计算:通过计算用户的频繁查询条件的使用概率,
计算得到不完整数据集中相关属性的主观权重:
其中p(i)代表属性i的属性主观权重,t(i)代表i属性使用的次数,代表压缩过程中确定性查询条件所对应的所有属性的使用次数之和;
(2.3.2):属性客观权重计算:结合粗糙集理论,对不完整数据集中属性客观权重进行计算,计算步骤如下:
①确定等价关系:首先得到全部确定性查询条件所对应的属性集合U的等价关系IND(U),依次删除集合U中每一个属性i(i∈U),得到删除该属性后的属性集合U-i的等价关系IND(U-i);
②确定属性的依赖度,首先得到全部属性集合U对的依赖度为γU(U)=1,接着可以得到在删除属性i后,集合U中剩余属性集合的依赖度为:
其中U代表数据集中全部的属性集合,i代表每次要删除的属性,POSU-{i}(U)代表集合U的U-{i}正域,|POSU-{i}(U)|代表正域中的元组数,|U|代表U中的元组数;
③利用第二步所得到的γU(U)和γU-{i}(U),可以求得在本技术中的属性重要性计算方法:SGF(i,U,U)=γU(U)-γU-{i}(U)
其中SGF(i,U,U)代表属性i加入集合U中对分类变化的影响重要程度,即是属性i的属性重要性,γU(U)代表属性i存在于U中时,U对U的属性依赖度,γU-{i}(U)代表集合U对U中除i以外的其它属性集合U-{i}的属性依赖度;
④依次计算各个属性i对于属性集合U的属性重要性,利用属性重要性的占比计算它们各自的属性客观权重ω(i),计算方法如下:
其中SGF(i,U,U)代表属性i的属性重要性,代表U中所有属性的属性重要性之和;
(2.3.3):属性综合权重计算:通过利用用户偏好系数,对各个属性进行属性综合权重的计算,得到属性的综合权重;
cw(i)=αp(i)+(1-α)×ω(i)
其中α为用户的偏好系数,cw(i)代表属性综合权重,p(i)代表属性主观权重,ω(i)代表属性客观权重;
(2.4):结合属性综合权重以及海量不完整数据硬优化方法中的属性字段编码方式,重新设计元组中属性字段的编码方式,对元组中的确定性查询条件所对应的属性字段进行编码;
①设置属性综合权重的权重阈值,比较Def_query对应的属性集合中各个属性的综合权重与权重阈值y的大小关系;
②对于一个元组t,如果其中的属性综合权重大于y,那么当它发生属性值缺失时候,该属性需要被编码为“0”和“1”;如果属性值未发生缺失,那么该属性需要根据确定性查询条件,编码为“0”或者“1”;
③如果其中的属性综合权重小于y,那么当它发生属性值缺失时候,该属性需要被编码为“*”;如果属性值未发生缺失,那么该属性需要根据确定性查询条件,编码为“0”或者“1”;
(2.5):计算当前元组t所满足的确定性查询条件的Def_Query值;将元组写入为该Def_Query值所准备的待压缩缓存块BlockDef_Query中,设定其序号为Block_IdDef_Query
(2.6):将元组t的不确定性查询条件的值Undef_Vals以及Def_query值和Block_IdDef_Query插入到数据库索引表中;
(2.7):如果该Block_IdDef_Query所代表的压缩缓存块已满,则利用压缩算法对该缓存块进行压缩;将得到的Block_IdDef_Query以及压缩得到的地址AddressDef_Query写入地址表中,得到海量不完整数据软优化算法后的压缩数据和索引文件。
CN201611081153.9A 2016-11-30 2016-11-30 一种应用于海量不完整数据的压缩优化方法 Active CN106598492B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611081153.9A CN106598492B (zh) 2016-11-30 2016-11-30 一种应用于海量不完整数据的压缩优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611081153.9A CN106598492B (zh) 2016-11-30 2016-11-30 一种应用于海量不完整数据的压缩优化方法

Publications (2)

Publication Number Publication Date
CN106598492A CN106598492A (zh) 2017-04-26
CN106598492B true CN106598492B (zh) 2019-04-09

Family

ID=58594070

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611081153.9A Active CN106598492B (zh) 2016-11-30 2016-11-30 一种应用于海量不完整数据的压缩优化方法

Country Status (1)

Country Link
CN (1) CN106598492B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110287992A (zh) * 2019-05-22 2019-09-27 广东精点数据科技股份有限公司 基于大数据的农业特征信息提取方法
CN110209598B (zh) * 2019-05-28 2021-05-18 首都师范大学 一种高速缓冲存储器、一种数据读写控制方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104220979A (zh) * 2009-05-27 2014-12-17 章寅 时空压缩感知方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8046200B2 (en) * 2006-09-05 2011-10-25 Colorado State University Research Foundation Nonlinear function approximation over high-dimensional domains

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104220979A (zh) * 2009-05-27 2014-12-17 章寅 时空压缩感知方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于压缩的海量不完整数据近似查询方法;王妍;《计算机研究与发展》;20160301;第55卷(第3期);第574,578页

Also Published As

Publication number Publication date
CN106598492A (zh) 2017-04-26

Similar Documents

Publication Publication Date Title
CN109669934B (zh) 一种切合电力客服业务的数据仓库系统及其构建方法
US11263215B2 (en) Methods for enhancing rapid data analysis
US20150227521A1 (en) System and method for analysis and management of data distribution in a distributed database environment
US10204111B2 (en) System and method for compressing data in a database
WO2017096892A1 (zh) 索引构建方法、查询方法及对应装置、设备、计算机存储介质
CN109325062B (zh) 一种基于分布式计算的数据依赖挖掘方法及系统
CN106598492B (zh) 一种应用于海量不完整数据的压缩优化方法
WO2021128523A1 (zh) 一种基于科技大数据的技术成熟度判断方法和系统
CN112990776B (zh) 一种配网设备健康度评价方法
CN110825744B (zh) 一种基于集群环境的空气质量监测大数据分区存储方法
Nguyen et al. Detecting correlated columns in relational databases with mixed data types
US8548980B2 (en) Accelerating queries based on exact knowledge of specific rows satisfying local conditions
Wang et al. Stull: Unbiased online sampling for visual exploration of large spatiotemporal data
CN117217933A (zh) 用于保险行业的数据多维分析方法及装置
CN116611914A (zh) 一种基于分组统计的薪资预测方法及设备
CN112862179A (zh) 一种用能行为的预测方法、装置及计算机设备
CN112148719A (zh) 基于olap预计算模型的数据加工查询方法及装置
CN109783520A (zh) 基于滑动窗口的可伸缩的大规模流数据顺序特征维持方法
CN113987372B (zh) 一种领域业务对象模型的热点数据获取方法、装置及设备
CN117273953A (zh) 数据资产价值评估方法、装置和计算机设备
CN114238258B (zh) 数据库数据处理方法、装置、计算机设备、存储介质
Li Research on Association Mining Method of Frequent Itemsets in High-dimensional Multi-source Big Data
Zhang et al. Data preprocessing for web data mining
Han et al. Research on grey relational evaluation of the competitiveness of aviation industrial cluster: By taking Xi'an Yanliang Aviation Park as an example
Chen et al. The trend of the Chinese Gini coefficient

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant