CN104915376B - 一种云存储中文件的归档压缩方法 - Google Patents
一种云存储中文件的归档压缩方法 Download PDFInfo
- Publication number
- CN104915376B CN104915376B CN201510223848.5A CN201510223848A CN104915376B CN 104915376 B CN104915376 B CN 104915376B CN 201510223848 A CN201510223848 A CN 201510223848A CN 104915376 B CN104915376 B CN 104915376B
- Authority
- CN
- China
- Prior art keywords
- file
- cloud storage
- filing
- account
- starting point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 230000006835 compression Effects 0.000 title claims abstract description 40
- 238000007906 compression Methods 0.000 title claims abstract description 40
- 239000000284 extract Substances 0.000 claims abstract description 7
- 238000012360 testing method Methods 0.000 claims abstract description 4
- 230000008569 process Effects 0.000 claims description 27
- 238000004064 recycling Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 230000008901 benefit Effects 0.000 abstract description 6
- 238000012545 processing Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000284 resting effect Effects 0.000 description 1
- 230000001568 sexual effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/113—Details of archiving
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/1737—Details of further file system functions for reducing power consumption or coping with limited storage space, e.g. in mobile devices
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种云存储中文件的归档压缩方法,步骤:设置归档文件大小阈值S和文件冷热程度阀值H;根据归档服务请求分发归档起点和归档终点,获取到处于归档起点和归档终点分发区间的账户;在云存储对外服务闲置时段,将各账户下访问次数少于文件冷热程度阀值H且文件小于等于归档文件大小阈值S的文件提取出来;对所提取的文件的完整性进行检验,判断所提取的文件与原文件是否一致;若否,则重新提取该文件,针对该文件的完整性进行重新检验,直到获取到与原文件相同的文件;根据文件的特性,对与原文件一致的文件进行归档压缩及存储。本发明根据据云存储中文件访问热度进行归档压缩,实现了云存储文件数目增加速度收敛和存储效益的提高。
Description
技术领域
本发明涉及云存储平台的海量文件归档压缩的技术,特别涉及一种云存储中文件的归档压缩方法。
背景技术
云存储是在云计算概念上延伸和衍生发展出来的一个新的概念。云计算是分布式处理(Distributed Computing)、并行处理(Parallel Computing)和网格计算(GridComputing)的发展,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经计算分析之后将处理结果回传给用户。通过云计算技术,网络服务提供者可以在数秒之内,处理数以千万计甚至亿计的信息,达到和超级计算机同样强大的网络服务。云存储是一种服务,和云计算相似,通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一整套系统。
云计算技术在生活中的应用越来越广泛,云存储作为云计算的底层支撑,集中了云计算后端架构的难点,而云存储性能的好坏将直接影响到云计算向用户提供服务的性能,也因此影响到用户的体验。在云存储基础设施服务领域,面对存储池中的海量文件,能有效的提高云存储的存储容量、减缓存储中文件数目的增长速度的同时保证存储文件的可靠性,目前仍未找到有效可行的解决方案。目前较多的云存储服务提供商的解决方案并没有对文件进行归档压缩的处理步骤,而Facebook的Haystack云存储解决方案也只是对文件进行归档,但并没有进行压缩处理,这样虽然减缓了文件数目的增长速度,但是没有节省云存储的存储容量,而过大的单个文件出现故障时的文件迁移耗时较长并且会影响集群性能。
而现有的云存储平台在后台存储中采用单文件多备份的方式进行存储,并将备份均衡地放置到不同的磁盘上,然而随着文件数的指数式增长,磁盘的读写性能会下降从而影响服务质量,存储空间也是固定的占用了文件的大小乘以备份数的容量,因此采取此种方式无法使得云存储的存储效益最优化。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种云存储中文件的归档压缩方法,该方法根据云存储中文件访问热度调整存储方式,实现了云存储文件数目增加速度收敛和存储效益的提高。
本发明的目的通过下述技术方案实现:一种云存储中文件的归档压缩方法,步骤如下:
S1、设置归档文件大小阈值S和文件冷热程度阀值H,通过归档服务进程提出归档服务请求;
S2、根据归档服务进程的归档服务请求分发归档起点和归档终点,然后获取到处于归档起点和归档终点分发区间的账户;
S3、在云存储对外服务闲置时段,归档服务进程执行任务:归档服务进程依次遍历处于归档起点和归档终点分发区间的账户,将各账户下访问次数少于文件冷热程度阀值H且文件小于等于归档文件大小阈值S的文件提取出来;
S4、对所提取的文件的完整性进行检验,判断所提取的各文件与原文件是否一致;
若否,则重新提取该文件,然后针对该文件的完整性进行重新检验,直到获取到与原文件相同的文件;
若是,则进入步骤S5;
S5、根据文件的特性,对步骤S4中获取的与原文件一致的文件进行归档压缩,然后将压缩后的文件存储到云存储中,并且将云存储中对应的原文件进行删除。
优选的,还包括以下步骤:
设置访问时间间隔I,当文件被访问时,判断该文件是否已归档压缩;
若是,则查询文件的具体存储路径,然后从压缩文件中提取出目标文件并返回文件的内容;
若否,则判断该文件当前访问时间与上次访问时间之差是否超过访问时间间隔I,若是,则将该文件的访问次数置1,若否,则将其访问次数加1。
优选的,所述访问时间间隔I为15天以上。
优选的,还包括以下步骤:文件写入时,将其访问次数置为文件冷热程度阀值H。
优选的,所述步骤S2中,归档起点至归档终点分发区间的账户是按照账户的注册时间获取的,按照账户的注册时间进行排序后获取到归档起点至归档终点分发区间的账户。
优选的,所述步骤S3中,对归档起点、终点和归档服务进程特征码进行记录,当归档服务进程在提取访问次数少于文件冷热程度阀值H且文件小于等于归档文件大小阈值S的文件过程中,若出现异常退出,则回收归档服务进程执行的该任务,并且将回收的任务添加到待分发任务的列表中。
优选的,所述步骤S5中,在压缩后的文件存储到云存储中后,在确保存储成功后将压缩后的相关信息添加到所压缩文件的原来的信息中。
优选的,所述步骤S5中,归档服务进程定时反馈心跳信息和汇报任务完成进度。
优选的,所述归档文件大小阈值S为8MB,文件冷热程度阀值H为100。
本发明相对于现有技术具有如下的优点及效果:
(1)本发明方法根据文件的大小以及被访问的次数进行归档压缩,在云存储对外服务闲置时段,将小于文件大小阈值S以及被访问次数小于文件冷热程度阀值H的文件进行归档以及压缩处理,使得存储池中的文件数目会缓慢增长,相对于指数增加而言,大大地降低了文件数目的增长速度,减少了磁盘上文件的数目,提高磁盘的性能,并且节省了存储空间和存储成本,提高了存储效益。另外本发明方法在云存储对外服务闲置时段才进行归档和压缩处理,由于在存储对外服务闲置时段,计算资源使用率是很低的,而将其用于归档压缩处理则充分提高了其利用率,并节省了额外购置压缩归档处理服务器的开支。通过本发明方法对云存储中海量文件进行合理的归档压缩,能有效地提高单位存储空间里存储文件的密度并避免磁盘上文件数过多带来的性能下降的弊端,从而进一步体现云计算的高性价比和高可靠性的优势。
(2)本发明方法在文件被访问时,当文件当前访问时间与上次访问时间之差超过访问时间间隔I,则将该文件的访问次数置1,没有超过时,则将该文件的访问次数加1,因此本发明方法将文件的访问频率考虑进去,将文件访问频率低的文件进行归档压缩。
(3)本发明方法在新文件写入时,将其访问次数首先置为文件冷热程度阀值H,避免新文件刚刚写入时,由于访问次数少于冷热程度阀值H而被误归档压缩。
附图说明
图1是本发明方法流程图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
实施例
如图1所示,本实施例公开一种云存储中文件的归档压缩方法,步骤如下:
S1、设置归档文件大小阈值S和文件冷热程度阀值H,通过归档服务进程提出归档服务请求;其中在本实施例中归档文件大小阈值S为8MB,文件冷热程度阀值H为100。
S2、根据归档服务进程的归档服务请求分发归档起点和归档终点,然后获取到处于归档起点和归档终点分发区间的账户;其中,归档起点和归档终点是指按账户注册时间排序后账户区间起点和区间终点,归档起点至归档终点分发区间的账户是按照账户的注册时间获取的,按照账户的注册时间进行排序后获取到归档起点至归档终点分发区间的账户。
S3、在云存储对外服务闲置时段,归档服务进程执行任务:归档服务进程依次遍历处于归档起点和归档终点分发区间的账户,将各账户下访问次数少于文件冷热程度阀值H且文件小于等于归档文件大小阈值S的文件提取出来;其中在本步骤中,对归档起点、终点和归档服务进程特征码进行记录,当归档服务进程在提取访问次数少于文件冷热程度阀值H且文件小于等于归档文件大小阈值S的文件过程中,若出现异常退出,则回收归档服务进程执行的该任务,并且将回收的任务添加到待分发任务的列表中。
S4、对步骤S3所提取的文件的完整性进行检验,判断所提取的各文件与原文件是否一致;
若否,则重新提取该文件,然后针对该文件的完整性进行重新检验,直到获取到与原文件相同的文件;
若是,则进入步骤S5;
S5、根据文件的特性,对步骤S4中获取的与原文件一致的文件分别进行归档压缩,即将这些文件中具有某些相同特性(如属于同一个账户的文件、存放时间相近的文件、大小相近的文件等特性)的一些文件存放到同一个目录下,然后对该目录进行压缩,将压缩后的文件存储到云存储中,并且将云存储中对应的原文件进行删除。本步骤中,归档服务进程定时反馈心跳信息和汇报任务完成进度,其中心跳信息就是归档服务进程进行其运行状态是否正常的一种汇报的信息。在压缩后的文件存储到云存储中后,在确保存储成功后将压缩后的相关信息添加到所压缩文件的原来的信息中。其中,压缩后的相关信息是指压缩前的文件现在是压缩文件的第几个文件的位置信息以及该压缩文件的具体存储路径。压缩文件原来的信息是指在压缩前云存储中记录的该文件的存储路径、文件大小、文件名称和文件的校验和等文件信息。
本实施例方法还包括以下步骤:
设置访问时间间隔I,当文件被访问时,判断该文件是否已归档压缩;
若是,则查询文件的具体存储路径,即找到具体哪台机器上哪个磁盘上的哪个目录下的哪个压缩文件里面的第几个文件,然后从压缩文件中提取出目标文件并返回文件的内容;
若否,则判断该文件当前访问时间与上次访问时间之差是否超过访问时间间隔I,若是,则将该文件的访问次数置1,若否,则将其访问次数加1。
在本实施例中访问时间间隔I为15天,当然也可以为15天以上或者其他合适的天数。
在本实施例中方法中文件写入时,将其访问次数置为文件冷热程度阀值H。避免新文件刚刚写入时,由于访问次数少于冷热程度阀值H而被误归档压缩。待该新文件当前访问时间与上次访问时间之差超过访问时间间隔超过I时,其访问次数被置为1,此时由于其被访问的频率下降,而有可能被归档压缩。因此本实施例方法将文件的访问频率考虑进去,将文件访问频率低的文件进行归档压缩。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (7)
1.一种云存储中文件的归档压缩方法,其特征在于,步骤如下:
S1、设置归档文件大小阈值S和文件冷热程度阀值H,通过归档服务进程提出归档服务请求;
S2、根据归档服务进程的归档服务请求分发归档起点和归档终点,然后获取到处于归档起点和归档终点分发区间的账户;
S3、在云存储对外服务闲置时段,归档服务进程执行任务:归档服务进程依次遍历处于归档起点和归档终点分发区间的账户,将各账户下访问次数少于文件冷热程度阀值H且文件小于等于归档文件大小阈值S的文件提取出来;
S4、对所提取的文件的完整性进行检验,判断所提取的各文件与原文件是否一致;
若否,则重新提取该文件,然后针对该文件的完整性进行重新检验,直到获取到与原文件相同的文件;
若是,则进入步骤S5;
S5、根据文件的特性,对步骤S4中获取的与原文件一致的文件进行归档压缩,然后将压缩后的文件存储到云存储中,并且将云存储中对应的原文件进行删除;
还包括以下步骤:
设置访问时间间隔I,当文件被访问时,判断该文件是否已归档压缩;
若是,则查询文件的具体存储路径,然后从压缩文件中提取出目标文件并返回文件的内容;
若否,则判断该文件当前访问时间与上次访问时间之差是否超过访问时间间隔I,若是,则将该文件的访问次数置1,若否,则将其访问次数加1;
文件写入时,将其访问次数置为文件冷热程度阀值H。
2.根据权利要求1所述的云存储中文件的归档压缩方法,其特征在于,所述访问时间间隔I为15天以上。
3.根据权利要求1所述的云存储中文件的归档压缩方法,其特征在于,所述步骤S2中,归档起点至归档终点分发区间的账户是按照账户的注册时间获取的,按照账户的注册时间进行排序后获取到归档起点至归档终点分发区间的账户。
4.根据权利要求1所述的云存储中文件的归档压缩方法,其特征在于,所述步骤S3中,对归档起点、终点和归档服务进程特征码进行记录,当归档服务进程在提取访问次数少于文件冷热程度阀值H且文件小于等于归档文件大小阈值S的文件过程中,若出现异常退出,则回收归档服务进程执行的该任务,并且将回收的任务添加到待分发任务的列表中。
5.根据权利要求1所述的云存储中文件的归档压缩方法,其特征在于,所述步骤S5中,在压缩后的文件存储到云存储中后,在确保存储成功后将压缩后的相关信息添加到所压缩文件的原来的信息中。
6.根据权利要求1所述的云存储中文件的归档压缩方法,其特征在于,所述步骤S5中,归档服务进程定时反馈心跳信息和汇报任务完成进度。
7.根据权利要求1所述的云存储中文件的归档压缩方法,其特征在于,所述归档文件大小阈值S为8MB,文件冷热程度阀值H为100。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510223848.5A CN104915376B (zh) | 2015-05-05 | 2015-05-05 | 一种云存储中文件的归档压缩方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510223848.5A CN104915376B (zh) | 2015-05-05 | 2015-05-05 | 一种云存储中文件的归档压缩方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104915376A CN104915376A (zh) | 2015-09-16 |
CN104915376B true CN104915376B (zh) | 2019-03-26 |
Family
ID=54084439
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510223848.5A Expired - Fee Related CN104915376B (zh) | 2015-05-05 | 2015-05-05 | 一种云存储中文件的归档压缩方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104915376B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107465413B (zh) * | 2017-07-07 | 2020-11-17 | 南京城市职业学院 | 一种自适应数据压缩系统及其方法 |
CN109344310B (zh) * | 2018-09-19 | 2021-10-26 | 合肥泓泉档案信息科技有限公司 | 一种基于区域联动的智能化档案信息调控系统 |
CN109597791A (zh) * | 2018-11-30 | 2019-04-09 | 华录光存储研究院(大连)有限公司 | 基于OpenStack平台的归档系统 |
CN111741106A (zh) * | 2020-06-19 | 2020-10-02 | 星辰天合(北京)数据科技有限公司 | 基于文件存储系统的文件归档方法及装置、电子设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102713878A (zh) * | 2009-11-06 | 2012-10-03 | 皮斯佩斯有限公司 | 在分布式存储系统中管理文件的装置及方法 |
CN103294794A (zh) * | 2013-05-23 | 2013-09-11 | 上海爱数软件有限公司 | 一种在线归档和访问文件的系统 |
CN103593351A (zh) * | 2012-08-15 | 2014-02-19 | 中国银联股份有限公司 | 一种电子文件归档方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8880478B2 (en) * | 2006-12-28 | 2014-11-04 | International Business Machines Corporation | Scan-free archiving |
-
2015
- 2015-05-05 CN CN201510223848.5A patent/CN104915376B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102713878A (zh) * | 2009-11-06 | 2012-10-03 | 皮斯佩斯有限公司 | 在分布式存储系统中管理文件的装置及方法 |
CN103593351A (zh) * | 2012-08-15 | 2014-02-19 | 中国银联股份有限公司 | 一种电子文件归档方法和系统 |
CN103294794A (zh) * | 2013-05-23 | 2013-09-11 | 上海爱数软件有限公司 | 一种在线归档和访问文件的系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104915376A (zh) | 2015-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11314613B2 (en) | Graphical user interface for visual correlation of virtual machine information and storage volume information | |
US20180113771A1 (en) | Transaction consistency query support for replicated data from recovery log to external data stores | |
CN104239166B (zh) | 一种对运行中虚拟机实现文件备份的方法 | |
CN103116661B (zh) | 一种数据库的数据处理方法 | |
US20180113766A1 (en) | Recovery log analytics with a big data management platform | |
CN109271435B (zh) | 一种支持断点续传的数据抽取方法及系统 | |
CN111475483B (zh) | 数据库迁移方法、装置及计算设备 | |
CN104598495A (zh) | 基于分布式文件系统的分级存储方法及系统 | |
CN109901786B (zh) | 数据迁移方法、系统、装置及计算机可读存储介质 | |
CN103927314B (zh) | 一种数据批量处理的方法和装置 | |
CN109947668A (zh) | 存储数据的方法和装置 | |
CN104915376B (zh) | 一种云存储中文件的归档压缩方法 | |
CN106021445A (zh) | 一种加载缓存数据的方法及装置 | |
EP3788505B1 (en) | Storing data items and identifying stored data items | |
CN105824846B (zh) | 数据迁移方法及装置 | |
CN111443867B (zh) | 一种数据存储方法、装置、设备及存储介质 | |
CN112100182B (zh) | 数据入库处理方法、装置和服务器 | |
CN105512283A (zh) | 数据质量管理控制方法及装置 | |
CN103955530A (zh) | 一种在线重复数据删除系统的数据重建优化方法 | |
CN104462185A (zh) | 一种基于混合结构的数字图书馆云存储系统 | |
CN114490527B (zh) | 元数据检索方法、系统、终端及存储介质 | |
CN109885642B (zh) | 面向全文检索的分级存储方法及装置 | |
CN109710454A (zh) | 一种云主机快照方法及装置 | |
CN105610921A (zh) | 一种集群下基于数据缓存的纠删码归档方法 | |
CN116643704A (zh) | 存储管理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190326 |