CN104731864B - 一种海量非结构化数据的数据存储方法 - Google Patents

一种海量非结构化数据的数据存储方法 Download PDF

Info

Publication number
CN104731864B
CN104731864B CN201510088785.7A CN201510088785A CN104731864B CN 104731864 B CN104731864 B CN 104731864B CN 201510088785 A CN201510088785 A CN 201510088785A CN 104731864 B CN104731864 B CN 104731864B
Authority
CN
China
Prior art keywords
file
hash
record
data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510088785.7A
Other languages
English (en)
Other versions
CN104731864A (zh
Inventor
王�琦
刘阳
杨鹏
陈训逊
王树鹏
王勇
王振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
National Computer Network and Information Security Management Center
Original Assignee
Institute of Information Engineering of CAS
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS, National Computer Network and Information Security Management Center filed Critical Institute of Information Engineering of CAS
Priority to CN201510088785.7A priority Critical patent/CN104731864B/zh
Publication of CN104731864A publication Critical patent/CN104731864A/zh
Application granted granted Critical
Publication of CN104731864B publication Critical patent/CN104731864B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种海量非结构化数据的数据存储方法。本方法为:1)设定一时间间隔T,将数据存储集群划分为多个分区,用于将同一时间间隔T内的记录存储到同一分区内;同时将每一分区划分为n个散列区;2)对于每条非结构化记录,提取其产生的时间t以及一个或多个唯一表示该记录的关键信息key;3)根据每条记录的时间t,确定其要存储到的分区,然后根据该记录的关键信息key计算其在该分区中对应的散列区值;4)根据步骤3)的计算结果,将属于同一时间间隔且散列区值相同的记录写入同一文件F中并统计该文件F的记录数,如果记录数大于设定阈值K,则在当前散列区中创建另一文件进行存储。本发明存储方法能够大大提升了数据检索效率。

Description

一种海量非结构化数据的数据存储方法
技术领域
该发明涉及一种海量非结构化数据的数据存储方法,特别涉及一种在分布式存储场景下,支持按照时间间隔(Interval)和散列(Hash)两级划分规则策略进行非结构化数据组织的、按照数据量进行动态调整的海量数据管理模型和方法,并支持在该数据组织基础上进行数据索引创建,以实现更高效的检索速率。属于海量数据存储管理研究领域。
背景技术
计算机应用的不断发展导致了数据量的急剧增加,由于数据结构化过程受限于人工处理速度,导致了非结构化数据的增长速度远远大于结构化数据。对于目前不断增加以致达到TB、PB级的大规模数据,需要更好的工具或技术来对文件进行组织和管理,高效的数据组织方法能够帮助人们在需要时迅速地从后台大规模数据中获取自己想要的数据。
文件系统作为本地存储系统的数据组织管理者,它在不同操作系统平台下有不同的组织结构和操作形式。基于多种主机文件系统和分布式文件系统的研究成果,适用于大规模数据组织的文件系统,例如Cluster File System的Lustre,Google的GFS,以及基于语义的文件系统等在海量数据组织上都提供了良好的性能。
Cluster File System公司Lustre是面向下一代存储的分布式文件系统。Lustre对于文件管理采取的是数据与元数据分离,元数据集中管理的机制。它采取单一的元数据服务器来对元数据进行存储和管理。这种分离机制可以更好的利用各自存储设备和传输网络的特性,提高系统的性能,有效降低系统的成本。
由于很多的小文件在实际存储的时候都是通过汇聚的方式形成一个较大的文件存储在磁盘上的,这样做可以避免很多小文件导致的元数据规模变大的问题,也可以有效降低磁盘寻址的时间消耗,并且可以使用缓存技术进行数据预存储,但是,上述场景的技术实现难度主要是数据(数据:单个小文件)来源、数据大小、数据在某个时间段内的总量均不可预期,无法使用一个固定模式设定数据存储规则,即无法保证数据汇集的这个大文件能有效控制在一定范围,因为如果汇聚的文件过大会导致加载困难,太小又没什么用。
发明内容
针对现有技术中存在的技术问题,本发明提出了一种按照时间间隔(Interval)和散列(Hash)两级划分的方式进行非结构化数据存储组织的数据模型,支持先按照不同时间粒度进行数据分区,再对不同时间粒度下的数据分成不同的散列区进行存储,实现非结构化数据的有效组织,并在此基础上支持数据索引的创建,提升了数据检索效率,解决了数据按照热点访问的提取难题,同时支持灵活调整时间粒度和散列区的大小,针对不同的业务场景进行自由变更,结合分布式环境下多节点、每个节点多盘位的现状,减少数据合并和迁移的场景,有效提升了数据访问的并发度和读取效率,进一步降低了系统扩容的复杂度。
本发明是通过时间间隔进行数据汇总,因此就可以记录一个时间指标,因为数据访问有一个特点,即最近的数据会被经常访问,时间越久,数据访问的频率会越低,所以本发明设定一个热点时间范围,比如最近7天为最热,再往前7天次之,依次类推,然后按照热度缓存数据,比如最近7天的数据全部缓存,再往前7天的数据只缓存索引,该缓存策略可以根据业务场景进行动态调整,提示数据检索效率。
本发明所采用的技术方案如下:
一种海量非结构化数据的数据存储方法,其步骤为:
1)设定一时间间隔T,将数据存储集群划分为多个分区,用于将同一时间间隔T内的记录存储到同一分区内;同时将每一分区划分为n个散列区;
2)对于每条非结构化记录,提取其产生的时间t以及一个或多个唯一表示该记录的关键信息key;
3)根据每条记录的时间t,确定其要存储到的分区,然后根据该记录的关键信息key计算该记录在该分区中对应的散列区值;
4)根据步骤3)的计算结果,将属于同一个时间间隔且散列区值相同的记录写入同一个文件F中并统计该文件F的记录数,如果记录数大于设定阈值K,则在当前散列区中创建另一文件进行存储。
进一步的,对于每一文件,提取其元数据信息并保存到元数据文件中;其中,所述元数据信息包括:文件所在的存储节点信息、文件所在的盘位信息、文件所在的分区信息和散列区信息、文件中的记录数信息、文件的创建时间。
进一步的,所述散列区信息的表示方法为:n-n’,其中,n’为散列区值。
进一步的,每一分区的散列区数量值n可调,当n值调整后,n-n’中的散列区值n’保持不变。
进一步的,根据公式abs(hash(key))%n=n’计算所述散列区值n;即取所述关键信息key的哈希值的绝对值,再对绝对值取模操作,得到的余数作为n'。
进一步的,所述关键信息key为记录所在源文件的文件名。
进一步的,对每一文件创建一个或多个索引,然后将所建索引文件所在位置标记到该文件上。
进一步的,设定一热点时间范围,对于属于该热点时间范围内的文件进行缓存,对于该热点时间范围之前的文件只缓存对应的索引文件。
进一步的,当输入检索请求进行查询时,检索引擎根据检索请求中的时间间隔、散列区信息从所述元数据文件中查询符合输入信息的元数据信息,然后将属于同一个存储节点的文件发到对应的存储节点上并行执行检索请求,返回命中的记录。
进一步的,每一所述文件具有一生命周期。
根据本发明的第一个方面,提供了一种支持时间间隔和散列两级划分方法的海量非结构化数据组织模型。该数据模型主要描述如何进行统一数据组织的方法。首先,提取业务场景中的每条非结构化记录(数据)产生的时间或其他有效时间转换为标准Unix时间戳t,同时提取一个或多个可以唯一表示该条记录关键信息作为key,比如如果非结构化数据的文件名字是唯一的,则该处的key就是文件名,如果文件本身是唯一的,则可以使用其hash+size的组合作为key;第二步,选定初始时间间隔(Interval)为T,散列区数量为n;第三步,计算每条记录所属的分区信息,不仅包括时间分区,还包括在时间间隔内的哪个散列区中,即分区信息包含两个:时间间隔和对应间隔的hash分区,同一条记录需要计算两次;本发明中时间粒度分区规定为左闭右开,T1<t<=T2,其中T1、T2与T的模为0,即T2-T1=T,散列区的大小记为abs(hash(key))%n=n’,即取key的哈希值的绝对值,再对绝对值取模操作,即除以n,得到的余数就是n'(即其所在散列分区的值),此处的哈希函数可以取MD5或其他任意哈希函数,保持一致即可;第四步,将t属于同一个时间区间(T1,T2),且散列区值(n-n’)相同的数据写入同一个文件中F1,F1若不存在则创建,记录数为1,如果已经存在,则F1的记录数加1,并将时间区间信息(T1,T2)和散列区间信息(n-n’)作为划分规则信息写入该文件元数据中;第五步:当文件F的记录数k超过设定值K后,则新建另一个文件F1’。本模型中的文件元数据需要记录节点信息、文件(包括F,F')所在盘位信息、划分规则信息、F文件中的记录数信息、文件创建时间。
根据本发明的第二个方面,提供了一种划分规则动态调整机制,在当前划分规则(interval=T,hash=n)下,如果产生了较多的文件或者仅有一个文件,但是记录数远小于合理值K,则需要动态进行划分规则的调整,根据具体的场景,主要包括如下两个调整逻辑:1)调大划分规则粒度:将划分规则粒度调大是将时间区间或散列区间的范围调大,使得新的划分规则下可以容纳更多的数据记录;2)调小划分规则粒度:将划分规则粒度调小是将时间区间或散列区间的范围调小,使得新的划分规则下存储更少的数据记录。不论是调大还是调小划分规则,都是使每个文件中的记录数尽可能接近记录数的合理值K,以保证每个文件的大小在合理范围,便于迁移或容错时的恢复。划分规则的调整步骤如下:
1)收集初始划分规则产生的文件信息,主要观察文件记录数和文件数量;
2)当文件记录数过低或相同划分规则下的文件数量较多时,根据需要调整划分规则,包括调大或调小划分规则;
3)新数据进入新文件中,新文件标记新的划分规则。
根据本发明的第三个方面,提供了一种基于动态文件划分规则进行数据索引和检索的方法,其中数据索引流程如下:
1)当文件写入完成关闭后,系统即对该文件进行索引的创建;
2)索引创建程序扫描待索引文件,按照设定的索引字段进行信息提取;
3)将每条记录在原始文件中的偏移量和索引关键字作为索引信息记入索引文件中;
4)扫描原始文件的所有记录后,将该文件中索引信息的最大值、最小值、总记录数、无重复记录数输出到索引文件的元数据信息中;
5)更新原始文件信息,即标记该文件的索引文件所在位置,一般情况下,索引文件和原始文件在相同节点的同一个磁盘上。
在索引基础上的数据查找流程如图4所示,其步骤如下:
1)检索引擎收到用户的包括划分规则项和索引项的检索请求,此处如果用户的请求中不包括上述存储过程中涉及的划分规则(时间间隔和散列区信息)和索引项(索引字段)信息,则直接对所有文件扫描,如果涉及划分规则或索引项的任意一个以及两者同时包括,则进入到第2步;
2)检索引擎通过访问元数据服务,收集涉及本次查询请求的所有汇聚文件的元数据信息,包括划分规则信息(含不同历史版本)、节点信息、磁盘信息;
3)检索引擎根据元数据中的划分规则信息,结合用户的查询请求进行文件数据的裁剪,将时间范围不在用户请求时间段内、在用户请求时间段内但关键信息key的散列区不符合检索条件的汇聚文件移除;
4)检索引擎将裁剪后的文件数据按照节点、磁盘进行执行优化处理,即将同一个节点的汇聚文档放在一起,发到对应的节点上,同时控制不同的节点中的数量,保证每个节点上接收到的请求数量大概一致,实现负载均衡的效果;
5)检索引擎并发执行检索请求;
6)每个节点收到原始文件的检索请求后,判断该文件是否有索引文件,如果没有,则将原始文件扫描后,将命中的记录分批或全部返回给客户端;如果有索引文件,则首先扫描索引文件,将命中的检索项的偏移量提取出来,直接读取原始文件中对应的偏移量所在的记录,将结果返回给用户。
此外,因为使用了业务时间作为分区标示,检索引擎还可以在此基础上设定按照时间热度的缓存策略,以支持检索提速。
根据本发明的第四个方面,提出了一套基于划分规则中的时间区间的生命周期管理方法,如图5所示,具体流程如下:
1)检测当前分区是否在热点周期范围内,热点范围可以通过配置进行指定;
2)如果当前分区在热点周期范围内,则忽略,否则进入到3);
3)判定当前数据分区是否在存档周期范围内,存档范围是通过配置文件进行指定的,如果在则进行存档管理,否则进入到4);
4)判定当前数据是否需要移除(不在生命周期范围内),如果是,则标记为下线,否则进入到5)
5)将已经标记为下线的分区文件进行物理删除;
与现有技术相比,本发明的积极效果:
本发明提出了一种按照时间间隔(Interval)和散列(Hash)两级划分的方式进行数据存储组织的数据模型,支持先按照不同时间粒度进行数据分区,再对不同时间粒度下的数据分成不同的散列区进行存储,实现数据的有效组织,解决了数据按照热点访问的提取难题,同时支持灵活调整时间粒度和散列区的大小,针对不同的业务场景进行自由变更,结合分布式环境下多节点、每个节点多盘位的现状,减少数据合并和迁移的场景,有效提升了数据访问的并发度和读取效率,进一步降低了系统扩容的复杂度。本发明具备良好的海量数据存储管理适应性和可扩展性。
通过本发明中提及的数据存储组织方案,使得在相同条件下的等值检索时间由原先的平均3s~10s降低到200ms以内,每秒钟的并发度由1个提高到20个。得益于按照时间进行数据分区的划分,系统避免了检索过程中的随机扫描频率,在进行热点数据检索时,整体检索耗时控制在300ms以内,实现了项目中10亿规模数据检索耗时在秒级的目标,并将90%以上的检索请求的响应时间控制在150ms~200ms之间,极大提升了检索的效率。同时,每次业务规则的调整都无需对历史数据进行修改,单个磁盘的数据迁移时间由之前的2h降低到30min,每个节点同时最大支持更换不超过50%磁盘总量的磁盘,使得运维工作效率也得到了提升。
附图说明
图1示出支持时间间隔和散列两级划分方法的数据模型示意图;
图2示出数据组织流程图;
图3示出文件划分规则调整流程图;
图4示出数据检索流程图;
图5示出生命周期管理流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图,对根据本发明一个实施例的层次分段式的备份数据组织管理方法进一步详细说明。
图1给出了支持时间间隔和散列两级划分方法的数据模型示意图,该数据模型下,原始文件的元数据信息主要包括文件名、文件中的记录数、文件所属划分规则、文件所在节点、文件所在磁盘、文件创建时间等信息,索引文件的元数据则包括最大值、最小值、总记录数、无重复记录数等信息,通过上述元素设定,有效提供了文件组织管理过程中需要的各种信息。
附图2给出了一个数据组织的典型流程图。首先,提取业务场景中的每条非结构化记录(数据)产生的时间或其他有效时间转换为标准Unix时间戳t,同时提取一个或多个可以唯一表示该条记录关键信息作为key;第二步,选定初始时间间隔(Interval)为T,散列区大小为n,每个分区记录数量的合理值为K;第三步,计算每条记录所属的分区信息,时间粒度分区规定为左闭右开,T1<t<=T2,其中T1、T2与T的模为0,T2-T1=T,散列区的大小记为abs(hash(key))%n=n’,即取key的哈希值的绝对值,再对绝对值取模操作,此处的哈希函数可以取MD5或其他任意哈希函数,保持一致即可;第四步,将t属于同一个时间区间(T1,T2),且散列区值(n-n’)相同的数据写入同一个文件中F1,F1若不存在则创建,记录数为1,如果已经存在,则F1的记录数加1,并将时间区间信息(T1,T2)和散列区间信息(n-n’)作为划分规则信息写入该文件元数据中;第五步:当文件F的记录数超过K后,则新建另一个文件F1’。
附图3示出划分规则变更流程图,具体如下:
1)收集初始划分规则产生的文件信息,主要观察文件记录数和文件数量;
2)当文件记录数过低或相同划分规则下的文件数量较多时,根据需要调整划分规则;
3)新数据进入新文件中,新文件标记新的划分规则。

Claims (8)

1.一种海量非结构化数据的数据存储方法,其步骤为:
1)设定一时间间隔T,将数据存储集群划分为多个分区,用于将同一时间间隔T内的记录存储到同一分区内;同时将每一分区划分为n个散列区;
2)对于每条非结构化记录,提取其产生的时间t以及一个或多个唯一表示该记录的关键信息key;
3)根据每条记录的时间t,确定其要存储到的分区,然后根据该记录的关键信息key计算该记录在该分区中对应的散列区值;
4)根据步骤3)的计算结果,将属于同一个时间间隔且散列区值相同的记录写入同一个文件F中并统计该文件F的记录数,如果记录数大于设定阈值K,则在当前散列区中创建另一文件进行存储;
其中,所述散列区信息的表示方法为:n-n’,n’为散列区值;每一分区的散列区数量值n可调,当n值调整后,n-n’中的散列区值n’保持不变。
2.如权利要求1所述的方法,其特征在于,对于每一文件,提取其元数据信息并保存到元数据文件中;其中,所述元数据信息包括:文件所在的存储节点信息、文件所在的盘位信息、文件所在的分区信息和散列区信息、文件中的记录数信息、文件的创建时间。
3.如权利要求1或2所述的方法,其特征在于,根据公式abs(hash(key))%n=n’计算所述散列区值n;即取所述关键信息key的哈希值的绝对值,再对绝对值取模操作,得到的余数作为n'。
4.如权利要求1或2所述的方法,其特征在于,所述关键信息key为记录所在源文件的文件名。
5.如权利要求1或2所述的方法,其特征在于,对每一文件创建一个或多个索引,然后将所建索引文件所在位置标记到该文件上。
6.如权利要求5所述的方法,其特征在于,设定一热点时间范围,对于属于该热点时间范围内的文件进行缓存,对于该热点时间范围之前的文件只缓存对应的索引文件。
7.如权利要求2所述的方法,其特征在于,当输入检索请求进行查询时,检索引擎根据检索请求中的时间间隔、散列区信息从所述元数据文件中查询符合输入信息的元数据信息,然后将属于同一个存储节点的文件发到对应的存储节点上并行执行检索请求,返回命中的记录。
8.如权利要求1或2所述的方法,其特征在于,每一所述文件具有一生命周期。
CN201510088785.7A 2015-02-26 2015-02-26 一种海量非结构化数据的数据存储方法 Expired - Fee Related CN104731864B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510088785.7A CN104731864B (zh) 2015-02-26 2015-02-26 一种海量非结构化数据的数据存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510088785.7A CN104731864B (zh) 2015-02-26 2015-02-26 一种海量非结构化数据的数据存储方法

Publications (2)

Publication Number Publication Date
CN104731864A CN104731864A (zh) 2015-06-24
CN104731864B true CN104731864B (zh) 2018-05-29

Family

ID=53455751

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510088785.7A Expired - Fee Related CN104731864B (zh) 2015-02-26 2015-02-26 一种海量非结构化数据的数据存储方法

Country Status (1)

Country Link
CN (1) CN104731864B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372077A (zh) * 2015-07-22 2017-02-01 北京京东尚科信息技术有限公司 基于数据使用频率建立数据分区的方法及设备
CN106407191B (zh) * 2015-07-27 2020-06-12 中国移动通信集团公司 一种数据处理方法及服务器
CN106682047B (zh) * 2015-11-11 2019-11-01 杭州华为数字技术有限公司 一种数据导入方法以及相关装置
CN105956164A (zh) * 2016-05-19 2016-09-21 海尔优家智能科技(北京)有限公司 一种存储数据的方法、装置及其对应的系统
CN106227794B (zh) * 2016-07-20 2019-09-17 北京航空航天大学 时态图数据中动态属性数据的存储方法和装置
CN106775461B (zh) * 2016-11-30 2020-01-21 华为技术有限公司 热点数据确定方法、设备及装置
CN107239485A (zh) * 2017-04-18 2017-10-10 北京小度信息科技有限公司 数据库操作方法、装置及系统
CN107392745B (zh) * 2017-07-14 2021-11-30 上海瀚之友信息技术服务有限公司 一种对帐数据碎片化处理方法
CN107968818B (zh) * 2017-11-17 2021-06-04 北京联想超融合科技有限公司 数据的存储方法、装置及服务器集群
CN108563697B (zh) * 2018-03-22 2021-02-26 腾讯科技(深圳)有限公司 一种数据处理方法、装置和存储介质
CN108446399B (zh) * 2018-03-29 2021-07-30 重庆大学 一种结构化海量实时数据的动态存储优化方法
CN110555075B (zh) * 2018-03-29 2023-07-07 阿里云计算有限公司 数据处理方法、装置、电子设备以及计算机可读存储介质
CN108804594A (zh) * 2018-05-28 2018-11-13 国家计算机网络与信息安全管理中心 一种新闻内容全文检索引擎的构建方法及装置
CN109213761A (zh) * 2018-08-06 2019-01-15 北京马上慧科技术有限公司 一种自由扩展免迁移的分库分表方法
CN109726177A (zh) * 2018-12-29 2019-05-07 北京赛思信安技术股份有限公司 一种基于HBase的海量文件分区索引方法
CN109726175A (zh) * 2018-12-29 2019-05-07 北京赛思信安技术股份有限公司 一种基于HBase的海量文件离线分区管理方法
CN110222209B (zh) * 2019-06-14 2020-01-03 北京马赫谷科技有限公司 图片存储方法、查询方法、装置及存取系统
CN111190992B (zh) * 2019-12-10 2023-09-08 华能集团技术创新中心有限公司 一种非结构化数据的海量存储方法及存储系统
CN111159232A (zh) * 2019-12-16 2020-05-15 浙江中控技术股份有限公司 一种数据缓存方法及系统
CN113282582B (zh) * 2021-05-21 2023-06-20 海南超船电子商务有限公司 一种船位数据的高效存储方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102662968A (zh) * 2012-03-09 2012-09-12 浪潮通信信息系统有限公司 一种对于Oracle大数据量存储的优化方法
CN103279582A (zh) * 2013-06-24 2013-09-04 浙江宇天科技股份有限公司 一种基于Oracle分区的数据存储方法及装置
CN103562914A (zh) * 2011-03-31 2014-02-05 伊姆西公司 节约资源型扩展文件系统
CN103635900A (zh) * 2011-03-31 2014-03-12 伊姆西公司 基于时间的数据分割
CN104298687A (zh) * 2013-07-18 2015-01-21 阿里巴巴集团控股有限公司 一种哈希分区管理方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8078825B2 (en) * 2009-03-11 2011-12-13 Oracle America, Inc. Composite hash and list partitioning of database tables

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103562914A (zh) * 2011-03-31 2014-02-05 伊姆西公司 节约资源型扩展文件系统
CN103635900A (zh) * 2011-03-31 2014-03-12 伊姆西公司 基于时间的数据分割
CN102662968A (zh) * 2012-03-09 2012-09-12 浪潮通信信息系统有限公司 一种对于Oracle大数据量存储的优化方法
CN103279582A (zh) * 2013-06-24 2013-09-04 浙江宇天科技股份有限公司 一种基于Oracle分区的数据存储方法及装置
CN104298687A (zh) * 2013-07-18 2015-01-21 阿里巴巴集团控股有限公司 一种哈希分区管理方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"大型数据库的分布式管理策略研究与应用";丁键;《万方数据企业知识服务平台》;20120630;第3.2节正文第18-20页、第4.4.2节正文第33页 *

Also Published As

Publication number Publication date
CN104731864A (zh) 2015-06-24

Similar Documents

Publication Publication Date Title
CN104731864B (zh) 一种海量非结构化数据的数据存储方法
CN101103355B (zh) 管理数据删除的方法和装置
Liu et al. Implementing WebGIS on Hadoop: A case study of improving small file I/O performance on HDFS
US9836514B2 (en) Cache based key-value store mapping and replication
JP4648723B2 (ja) データ価値に基づく階層型ストレージ管理の為の方法と装置
KR101672901B1 (ko) 분산 파일 시스템에서 소형 파일에 대한 접근성 향상을 위한 캐시 관리 시스템
EP3944556B1 (en) Block data storage method and apparatus, and block data access method and apparatus
CN103530387A (zh) 一种hdfs针对小文件的改进方法
CN108021717B (zh) 一种轻量级嵌入式文件系统的实现方法
JP2012098934A (ja) 文書管理システム、文書管理システムの制御方法、プログラム
CN102169507A (zh) 一种分布式实时搜索引擎
CN109522283A (zh) 一种重复数据删除方法及系统
EP3495964A1 (en) Apparatus and program for data processing
CN107368608A (zh) 基于arc替换算法的hdfs小文件缓存管理方法
JP2015510174A (ja) ロケーション非依存のファイル
CN107426319A (zh) 存储受约束的共享内容项同步
US8583662B2 (en) Managing data across a plurality of data storage devices based upon collaboration relevance
JP2021092950A (ja) データ処理装置およびデータ処理プログラム
CN110858210A (zh) 数据查询方法及装置
CN109634911A (zh) 一种基于hdfs光盘库的存储方法
CN117687970A (zh) 一种元数据检索方法、装置及电子设备和存储介质
CN105068757A (zh) 一种基于文件语义和系统实时状态的冗余数据去重方法
CN112241396A (zh) 基于Spark的对Delta进行小文件合并的方法及系统
JP2020502605A (ja) プレースホルダーを介したコンテンツ管理システムの履歴コンテンツアイテムへのアクセス
Cheng et al. Optimizing small file storage process of the HDFS which based on the indexing mechanism

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180529

CF01 Termination of patent right due to non-payment of annual fee