CN110268397B - 应用于数据仓库系统的高效优化数据布局方法 - Google Patents

应用于数据仓库系统的高效优化数据布局方法 Download PDF

Info

Publication number
CN110268397B
CN110268397B CN201680090379.7A CN201680090379A CN110268397B CN 110268397 B CN110268397 B CN 110268397B CN 201680090379 A CN201680090379 A CN 201680090379A CN 110268397 B CN110268397 B CN 110268397B
Authority
CN
China
Prior art keywords
data
columns
file
column
block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680090379.7A
Other languages
English (en)
Other versions
CN110268397A (zh
Inventor
李挥
李鑫
危奕
黄志浩
朱兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fair Rays Electronic Technology (shenzhen) Ltd
Original Assignee
Fair Rays Electronic Technology (shenzhen) Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fair Rays Electronic Technology (shenzhen) Ltd filed Critical Fair Rays Electronic Technology (shenzhen) Ltd
Publication of CN110268397A publication Critical patent/CN110268397A/zh
Application granted granted Critical
Publication of CN110268397B publication Critical patent/CN110268397B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理领域,其公开了一种应用于数据仓库系统的高效优化数据布局方法,包括如下步骤:(A)进行块文件基础数据布局;(B)进行列分类处理;(C)进行表文件存储。本发明的有益效果是:使得上层的数据仓库系统在处理大规模结构化数据时,能够获得比传统方案更快的查询速率和占用更少的存储空间。

Description

应用于数据仓库系统的高效优化数据布局方法
【技术领域】
本发明涉及数据处理领域,尤其涉及一种应用于数据仓库系统的高效优化数据布局方法。
【背景技术】
在当今大数据时代,在数据仓库系统中,对大规模归档数据的处理是最重要和复杂的挑战之一。结构化数据是数据库管理系统中最常见的数据存储类型,对于分布式系统来说,结构化数据中的表结构的分割方法对于查询和空间效率有很大的影响,这是由单个节点上的数据处理效率和不同节点间的网络数据传输差异导致的。
为了能够更方便的在分布式系统中像操作数据库管理系统那样处理数据,在以hadoop为代表的分布式系统的基础上,又产生了一些更为高层次的数据管理技术。在这样的背景下,位于存储层面的数据布局方案会在很大程度上影响系统处理效率。
行存储是一种常用的数据布局结构,即将表中的数据按行的格式分割,然后将分割后的数据块存储在不同的数据节点上,其中每个节点将各行依次存储在磁盘上。它的缺点是在查询过程中,即使是用不到的列,整行数据也需要加载到内存并进行不必要的查询操作,这样就延长了查询时间。另一种常用数据布局结构是列存储,即将表中的数据按列进行分割,然后将不同的列存储在不同的数据节点上,其中每个节点将各列依次存储在磁盘上。它的劣势在于在查询过程中不同的列得到的结果需要在节点间传输而产生最终结果,这样的方式增加了数据传输损耗,降低了查询效率。
另一方面,在存储空间效率上,分布式系统通常采用多副本的方式来保证数据可靠性,这样当一个节点出现故障时,则可以从其它节点取得该数据。这样的方式需要存储系统提供较原始数据大小几倍的存储空间,这样会带来更高的存储成本。纠错码被用于通过生成冗余数据而防止数据损坏丢失,RDP码是一种在磁盘冗余阵列中被常用到的擦除码,它将不同磁盘上的数据生成额外的冗余数据,这样的冗余数据由行运算和对角线运算生成,它可以防止系统中最多两个磁盘的失效。这样的技术同时也可以应用在分布式系统中的块文件容错中,但是如何将其有效构建和存储是一个需要解决的问题。
论文[Y.He,R.Lee,S.Zheng,N.Jain,Z.Xu,and X.Zhang,“RCFile:A Fast andSpace-efficient Data Placement Structure in MapReduce-based WarehouseSystems,”InICDE,2011.]提出的RCFile是一种应用于分布式存储系统中的常用数据布局方案,它主要结合了行存储和列存储两种布局方案的存储方式来构建文件块内的数据。在表数据需要存储时,它先将表文件按照行格式来进行分割,其中每个分割后的行组大小相同,然后将行组存储在文件块的不同区域,同时在每个行组内部按照列次序连续存储,这样的存储方式同时避免了行存储和列存储模式的缺陷。但是,RCFile的数据压缩方式较为单一,将每个行组中的各个列数据单独压缩存储。这样压缩全部数据的方式不利用于常用数据的读取使用,比如说,一个表中的主键几乎在每个查询中都会使用到,在对于它的每一次查询中,都需要进行一次列数据的解压缩,这样的方式造成了更高的时间和计算开销。同时,它对于数据的容错采用的方式是底层存储系统的多副本方式,这种方法相比于纠错码来说会占用更大的存储空间。
Zebra是一种面向列的数据布局结构,为了避免列布局固有的多节点重组查询结果的缺陷,它将数据表的列划分为多个列组,对每个列组单独进行存储,在存储的每个列组中,数据按照行存储的格式进行存储。其中每个列组由多个列组成,一个列可以同属于不同的列组,这样的存储方式在很大程度上避免了查询结果在多节点上的存储。但是,Zebra存储布局需要在存储数据表之前提前对表中的列进行分组,而对于一个查询来说,无法保证要使用到的所有列都位于同一个列组中,在这样的情况下,对于查询结果依然需要在多节点间进行数据行的重组。基于列组位于同一节点的原因,一个列可以同时位于多个列组中,这样实际上是在原有数据中添加了重复数据,增大了存储开销。
【发明内容】
为了解决现有技术中的问题,本发明提供了一种应用于数据仓库系统的高效优化数据布局方法,解决现有技术中增大查询开销以及占用更大存储空间的问题。
本发明是通过以下技术方案实现的:设计、制造了一种应用于数据仓库系统的高效优化数据布局方法,包括如下步骤:(A)进行块文件基础数据布局;(B)进行列分类处理;(C)进行表文件存储。
作为本发明的进一步改进:所述步骤(A)中,先将表文件横向分割成大小相等的行组,然后在块文件中依次用列存储的方式存储这些行组;每一个行组由三部分组成,分别是同步部分、元数据部分以及实际的数据部分,所述同步部分用于系统在读取数据时区分两个相邻的行组,所述元数据部分包含系统可以在行组中区分不同列和每个列中不同域的大小信息以及用于系统区分不同种类的列的列分类信息,所述实际的数据部分用于存储实际的数据。
作为本发明的进一步改进:所述步骤(B)中,采用基于使用频率的列分类策略来降低常用列的解压缩代价,列被分成查询列和编码列。
作为本发明的进一步改进:所述步骤(C)中,同时使用副本和RDP码校验块的方式来存储数据。
作为本发明的进一步改进:RDP码生成的矩阵为文件组,每个文件组的数据块在存储时存储包含两个副本以及两个由这些存储块生成的RDP码校验块;两个副本存储在不同的节点上,而另外的两个校验块被存储在不包含该文件组任意数据块的节点上。
作为本发明的进一步改进:一个RDP码生成组是一个(p-1)×(p+1)的矩阵,其中参数p是一个大于2的任意素数,每一个矩阵的最后两列是生成的校验数据,其它列存储信息数据;RDP码分为行校验块和对角线校验块,所述行校验块由信息数据横向相加得到,所述对角线校验块由信息数据对角线相加得到;所述RDP码组织信息块文件生成校验文件。
作为本发明的进一步改进:所述步骤(B)中,使用编码阀值来划分数据列,使用频率大于或等于编码阀值的列划分为查询列,使用频率小于编码阀值的则为编码列。
本发明的有益效果是:使得上层的数据仓库系统在处理大规模结构化数据时,能够获得比传统方案更快的查询速率和占用更少的存储空间;在查询速率方面,通过设置不同的编码阀值来满足数据管理的需求,一般来说,编码阀值越小,查询速率相对就会越高,而数据占用的存储空间也就会越大。数据仓库管理者通过实际的业务需求,设置合理的编码阀值,可以使得数据仓库系统在查询速率和空间占用两方面得到一个很好的折衷;在存储空间方面,使用构建参数来决定行组和文件组的大小,通过构建行组,使得数据在查询时避免了额外的数据读取和结果重组,通过构建文件组,使得数据表在容错方面的空间占用少于三副本的容错方法,同时容错能力不低于三副本,这样的存储方式使得系统可以在数据容错方面占用更少的存储空间,节约了物理存储成本。
【附图说明】
图1为本发明空间占用示意图;
图2为本发明查询速率示意图。
【具体实施方式】
下面结合附图说明及具体实施方式对本发明进一步说明。
缩略语和关键术语定义
RCFile Record Columnar File 行列存储文件布局
EStore Effective Store 高效数据布局存储系统
RDP Row-Diagonal Parity 行对角线校验
一种应用于数据仓库系统的高效优化数据布局方法,包括如下步骤:(A)进行块文件基础数据布局;(B)进行列分类处理;(C)进行表文件存储。
所述步骤(A)中,先将表文件横向分割成大小相等的行组,然后在块文件中依次用列存储的方式存储这些行组;每一个行组由三部分组成,分别是同步部分、元数据部分以及实际的数据部分,所述同步部分用于系统在读取数据时区分两个相邻的行组,所述元数据部分包含系统可以在行组中区分不同列和每个列中不同域的大小信息以及用于系统区分不同种类的列的列分类信息,所述实际的数据部分用于存储实际的数据。
所述步骤(B)中,采用基于使用频率的列分类策略来降低常用列的解压缩代价,列分成查询列和编码列。
所述步骤(C)中,同时使用副本和RDP码校验块的方式来存储数据。
RDP码生成的矩阵为文件组,每个文件组的数据块在存储时存储包含两个副本以及两个由这些存储块生成的RDP码校验块;两个副本存储在不同的节点上,而另外的两个校验块被存储在不包含该文件组任意数据块的节点上。
一个RDP码生成组是一个(p-1)×(p+1)的矩阵,其中参数p是一个大于2的任意素数,每一个矩阵的最后两列是生成的校验数据,其它列存储信息数据;RDP码分为行校验块和对角线校验块,所述行校验块由信息数据横向相加得到,所述对角线校验块由信息数据对角线相加得到;所述RDP码组织信息块文件生成校验文件。
所述步骤(B)中,使用编码阀值来划分数据列,使用频率大于或等于编码阀值的列划分为查询列,使用频率小于编码阀值的则为编码列。
本发明EStore用于分布式存储系统底层存储文件块数据布局,通过对于数据在结构上的优化布局使得能够提升系统查询执行速率,同时降低数据用于纠错的存储空间占用。
在一具体实施例中,EStore在块文件数据布局方面,先将表文件横向分割成大小相等的行组,然后在块文件中依次用列存储的方式存储这些行组。行组的大小由系统的构建参数决定,系统的构建参数同时还影响文件组的大小,下面部分将会介绍。
在一个基于块分布式存储系统中,文件被分割成块存储在不同节点上。EStore系统将行组存储在这样的块上。在一个行组中,有三个部分。第一个部分是同步部分,用于系统在读取数据时区分两个相邻的行组。第二个部分是元数据部分,包含了系统可以在行组中区分不同列和每个列中不同域的大小信息。除此之外,还包含列分类信息用于系统区分不同种类的列。第三个部分是实际的数据部分,这个部分用于存储实际的数据,它们是用列存储形式组织在行组中的。
列分类处理:
使用了一种基于使用频率的列分类策略来降低常用列的解压缩代价。系统将一个数据表中的列分成两种类型,一种为查询列,另一种为编码列。每一个列都会被划分成其中一种类型。
系统使用编码阀值这个参数来划分数据列。在常用的数据仓库系统中,使用者通常会定期执行一些查询来进行信息决策或者数据挖掘。在这样的情况下,认为这样的查询就是有使用频率的,每一个查询对于一个数据表来说,会使用到的列往往不是相同的。在数据表进行存储前,对数据表进行预处理,统计这个表中每一个列被使用到的查询,将这些查询的使用频率相加得到的值,则就是该列的使用频率。用这样的方式可以得到每一个列的使用频率。通过设置合理的编码阀值,将使用频率大于编码阀值的列划分为查询列,使用频率小于编码阀值的则是编码阀值的为编码列。
这里举一个例子来说明列分类方法,如下表所示。这里有一个数据表显示一个购物网站的商品信息,它有7个不同的列。在这个商场的日常管理中,有30个查询需要周期性执行,用于商场的信息决策。假定这30个查询的使用频率都相同,即1/30。之后对于每个列统计包含该类的查询,然后将这些查询的使用频率相加得到每个列的使用频率。将编码阀值设置为0.2,那么第一列为查询列,其余列为编码列。
TABLE I. COLUMNS OF THE TABLE ITEM
Figure BDA0002038694200000051
在实际存储行组中的每一个列时,依据这些列的种类将列按照不同形式存储。查询列要求数据读取快,那么按照数据的原生格式来存储数据,而对于编码列,基于存储空间的需求,使用常用数据压缩算法对列进行压缩存储。这些列的分类信息被保存在行组的第二个部分中。这样的方式降低了查询时需要解压数据的可能性,同时提高了系统的查询效率,数据系统管理者通过设置不同的编码阀值,使得系统可以在查询速率和存储空间上得到一个很好的平衡。
表文件存储:
EStore使用RDP码对数据进行容错。一个RDP码生成组是一个(p-1)×(p+1)的矩阵,其中参数p是一个大于2的任意素数,每一个矩阵的最后两列是生成的校验数据,其它列存储信息数据。在两个校验列中,第一个列是由信息数据横向相加得到,叫做行校验块。第二列是由信息数据对角线相加得到,叫做对角线校验块。将RDP码应用于分布式存储系统的块校验的主要问题是如何组织信息块文件生成校验文件。
EStore会使用构建参数来决定这个校验矩阵的大小。EStore定义构建参数为一个大于2的任意素数,如果构建素数的大小为k,那么它的RDP生成矩阵就是一个(k-1)×(k+1)大小的矩阵,即一共包括k+1个文件,每个文件内部被分成了k-1块,从前面的部分已经知道文件块是由大小相同的行组构成的,因此将行组看做RDP生成矩阵中的基本符号,每个文件块会包含k-1个行组,所以文件块中行组的大小是由块的大小和构建参数一起决定的。
在EStore中将每个RDP码生成的矩阵称作文件组。通常来说,对于一个大规模的表文件,它往往会包含很多个存储块,EStore根据构建参数的大小来划分这些存储块,将存储块划分到不同的文件组中,其中每个文件组包含k-1个这样的存储块,然后在每个文件组中用这些存储块再生成2个校验块,这样最终每个文件组都会包含k+1个文件块。
下图显示了数据表的一个文件组的构造过程,其中构建参数为5,块0到块3是数据块,块4和块5是校验块。块4中的每一个行组包含所有的行校验符,比如说,r0,4是行组{r0,0,r0,1,r0,2,r0.3}的异或和。块5包含所有的对角线校验符号,例如,r0,5是行组{r0,0,r3,2,r2,3,r1,4}的异或和。
Figure BDA0002038694200000061
在EStore中同时使用副本和校验块的方式来存储数据。它的每个文件组的数据块在存储系统中包含两个副本,同时还存储两个由这些存储块生成的RDP码校验块。系统仍然采用副本方式的原因是RDP码在文件恢复时需要很大的传输带宽。所以对于每个数据块,系统仍然会多存储一个副本在其它节点上,这样当单节点发生故障时,仍可以通过副本传输的方式获得该数据块。只有当存储同一个数据块的两个节点同时故障时,才需要通过RDP码数据恢复的方式来还原数据块。由于这样的情况在分布式存储系统中不会经常发生,那么对于这种在构建参数不是很大的情况下RDP码修复的传输带宽,仍然是可以接受的。
在EStore的文件组存储中,将每个数据块的两个副本存储在不同的节点上,而另外的两个校验块被存储在不包含该文件组任意数据块的节点上,这样可以在任意数据块的两个副本同时损坏时,使用RDP修复方式恢复原数据块。
本发明使用了三种优化策略来提高数据仓库系统数据处理性能,表现在查询速率的提升和容错空间占用的降低。
在块文件基础数据布局方面,将数据合理的组织在hdfs的文件块中。先将关系型数据中的表文件横向划分成大小相等的行组,每个hdfs文件块存储一个或多个行组,在每个行组内部用列存储的方式保存数据。
在列分类策略中,通过在存储数据表前对数据进行预处理,统计不同列的使用频率,设置编码阀值对列进行分类,低于编码阀值的为编码列,使用数据压缩方式存储。高于编码阀值的为查询列,以数据原生格式来保存数据。
在数据表文件存储方面,采用了RDP码的方式构建了纠错策略,将数据表文件划分成为不同的文件组,文件组的大小由系统构建参数决定。系统在每个文件组内生成两个额外的校验文件块用于数据修复。系统采用双副本加校验块的方式来进行数据容错。文件组内的每个数据块被保存在两个不同节点上,校验块被保存在其它节点上。
系统使用构建参数来编码阀值两个重要参数来进行表文件的存储,通过设置不同的参数,可以使系统在查询效率和空间占用方面满足具体的数据管理需求。
下面通过具体实施例来进行性能的评价:
在实际分布式系统中搭建EStore系统,并在存储空间占用和查询速率这两个方面将EStore和现有常用数据布局结构RCFile做出性能对比。在这部分中,使用参数t表示编码阀值。
图1显示了在不同数据布局下,采用了容错措施的数据布局在分布式文件系统中的空间占用。可以观察到在t=0.4的情况下EStore很显著地降低了数据的空间占用。编码阀值的不同会影响到存储空间的大小,这依赖于查询列的数量和数据类型。
图2显示了不同数据布局下查询速率的区别。可以看到EStore在所有的编码阀值下查询速率都高于RCFile,这是由于EStore在查询过程中降低了数据解压缩的时间消耗。
通过用不同编码阀值的EStore来与RCFile进行性能比较,对比的性能包括空间占用和查询执行时间。上面的实验结果反映了EStore的列分类和容错策略为系统带来的性能优势。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (4)

1.一种应用于数据仓库系统的高效优化数据布局方法,其特征在于:包括如下步骤:(A)进行块文件基础数据布局;(B)进行列分类处理;(C)进行表文件存储;
所述步骤(B)中,采用基于使用频率的列分类策略来降低常用列的解压缩代价,列分成查询列和编码列;
所述步骤(B)中,使用编码阀值来划分数据列,通过设置合理的编码阈值,将使用频率大于或等于编码阀值的列划分为查询列,使用频率小于编码阀值的则为编码列;
所述步骤(A)中,先将表文件横向分割成大小相等的行组,然后在块文件中依次用列存储的方式存储这些行组;每一个行组由三部分组成,分别是同步部分、元数据部分以及实际的数据部分,所述同步部分用于系统在读取数据时区分两个相邻的行组,所述元数据部分包含系统可以在行组中区分不同列和每个列中不同域的大小信息以及用于系统区分不同种类的列的列分类信息,所述实际的数据部分用于存储实际的数据;
所述查询列是通过按照数据的原生格式来存储数据提高数据读取速度;所述编码列是基于存储空间的需求,使用常用数据压缩算法对列进行压缩存储。
2.根据权利要求1所述的应用于数据仓库系统的高效优化数据布局方法,其特征在于:所述步骤(C)中,同时使用副本和RDP码校验块的方式来存储数据。
3.根据权利要求2所述的应用于数据仓库系统的高效优化数据布局方法,其特征在于:RDP码生成的矩阵为文件组,每个文件组的数据块在存储时存储包含两个副本以及两个由这些存储块生成的RDP码校验块;两个副本存储在不同的节点上,而另外的两个校验块被存储在不包含该文件组任意数据块的节点上。
4.根据权利要求3所述的应用于数据仓库系统的高效优化数据布局方法,其特征在于:一个RDP码生成组是一个(p- 1) ×(p + 1)的矩阵,其中参数p是一个大于2的任意素数,每一个矩阵的最后两列是生成的校验数据,其它列存储信息数据;RDP码分为行校验块和对角线校验块,所述行校验块由信息数据横向异或相加得到,所述对角线校验块由信息数据对角线异或相加得到;所述RDP码组织信息块文件生成校验文件。
CN201680090379.7A 2016-12-30 2016-12-30 应用于数据仓库系统的高效优化数据布局方法 Active CN110268397B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2016/113364 WO2018119976A1 (zh) 2016-12-30 2016-12-30 应用于数据仓库系统的高效优化数据布局方法

Publications (2)

Publication Number Publication Date
CN110268397A CN110268397A (zh) 2019-09-20
CN110268397B true CN110268397B (zh) 2023-06-13

Family

ID=62706678

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680090379.7A Active CN110268397B (zh) 2016-12-30 2016-12-30 应用于数据仓库系统的高效优化数据布局方法

Country Status (2)

Country Link
CN (1) CN110268397B (zh)
WO (1) WO2018119976A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579597B (zh) * 2020-12-15 2023-03-21 西安邮电大学 一种压缩敏感的数据库文件存储方法及系统
CN116719822B (zh) * 2023-08-10 2023-12-22 深圳市连用科技有限公司 一种海量结构化数据的存储方法及系统
CN116931845B (zh) * 2023-09-18 2023-12-12 新华三信息技术有限公司 一种数据布局方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3694813A (en) * 1970-10-30 1972-09-26 Ibm Method of achieving data compaction utilizing variable-length dependent coding techniques
CN102521363A (zh) * 2011-12-15 2012-06-27 武汉达梦数据库有限公司 基于列分解的列存储数据库数值数据压缩方法
CN102737132A (zh) * 2012-06-25 2012-10-17 天津神舟通用数据技术有限公司 基于数据库行列混合存储的多规则复合压缩方法
CN104239391A (zh) * 2013-06-14 2014-12-24 国际商业机器公司 用于数据编码及处理列数据的系统和方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677208B2 (en) * 2007-09-21 2014-03-18 Hewlett-Packard Development Company, L.P. Generating a parallel recovery plan for a data storage system
CN100570573C (zh) * 2008-05-22 2009-12-16 清华大学 大规模磁盘阵列存储系统的磁盘容错方法
CN103186566B (zh) * 2011-12-28 2017-11-21 中国移动通信集团河北有限公司 一种数据分级存储方法、装置及系统
CN103118133B (zh) * 2013-02-28 2015-09-02 浙江大学 基于文件访问频次的混合云存储方法
CN103688515B (zh) * 2013-03-26 2016-10-05 北京大学深圳研究生院 一种最小带宽再生码的编码和存储节点修复方法
CN103440244A (zh) * 2013-07-12 2013-12-11 广东电子工业研究院有限公司 一种大数据存储优化方法
CN103699676B (zh) * 2013-12-30 2017-02-15 厦门市美亚柏科信息股份有限公司 基于mssql server表分区及自动维护方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3694813A (en) * 1970-10-30 1972-09-26 Ibm Method of achieving data compaction utilizing variable-length dependent coding techniques
CN102521363A (zh) * 2011-12-15 2012-06-27 武汉达梦数据库有限公司 基于列分解的列存储数据库数值数据压缩方法
CN102737132A (zh) * 2012-06-25 2012-10-17 天津神舟通用数据技术有限公司 基于数据库行列混合存储的多规则复合压缩方法
CN104239391A (zh) * 2013-06-14 2014-12-24 国际商业机器公司 用于数据编码及处理列数据的系统和方法

Also Published As

Publication number Publication date
CN110268397A (zh) 2019-09-20
WO2018119976A1 (zh) 2018-07-05

Similar Documents

Publication Publication Date Title
US20220368457A1 (en) Distributed Storage System Data Management And Security
US10719250B2 (en) System and method for combining erasure-coded protection sets
CA2717549C (en) Dynamically quantifying and improving the reliability of distributed data storage systems
US20080313241A1 (en) Distributed data storage using erasure resilient coding
CN106708653B (zh) 一种基于纠删码与多副本的混合税务大数据安全保护方法
CN105956128B (zh) 一种基于简单再生码的自适应编码存储容错方法
US20120089799A1 (en) Data backup processing method, data storage node apparatus and data storage device
CN102591947A (zh) 用于数据去重复的快速且低ram占用的索引
CN110268397B (zh) 应用于数据仓库系统的高效优化数据布局方法
US11656942B2 (en) Methods for data writing and for data recovery, electronic devices, and program products
US20120198195A1 (en) Data storage system and method
WO2024021594A1 (zh) Raid6磁盘阵列的编码方法、解码方法、装置及介质
CN103761195A (zh) 一种利用分布式数据编码的存储方法
CN102843212B (zh) 编解码处理方法及装置
CN109445681A (zh) 数据的存储方法、装置和存储系统
WO2024001974A1 (zh) 数据局部恢复方法、设备及存储介质
CN108073472B (zh) 一种基于热度感知的内存纠删码分布方法
Gafsi et al. Modeling and performance comparison of reliability strategies for distributed video servers
CN114115729B (zh) 一种raid下的高效数据迁移方法
CN111459710A (zh) 感知热度与风险的纠删码内存恢复方法、设备及内存系统
EP3803601B1 (en) Meta-copysets for fault-tolerant data storage
Li et al. Parallelism-aware locally repairable code for distributed storage systems
US10929040B1 (en) RAID 1—half compressed data storage
Agrawal et al. Coding-based replication schemes for distributed systems
US9183255B1 (en) Spool management and checkpointing in a multi-database system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant