CN105373349A - 一种可删除重复数据的大数据存储系统 - Google Patents

一种可删除重复数据的大数据存储系统 Download PDF

Info

Publication number
CN105373349A
CN105373349A CN201510744661.XA CN201510744661A CN105373349A CN 105373349 A CN105373349 A CN 105373349A CN 201510744661 A CN201510744661 A CN 201510744661A CN 105373349 A CN105373349 A CN 105373349A
Authority
CN
China
Prior art keywords
data
size
duplication
deleting
heavily
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510744661.XA
Other languages
English (en)
Inventor
温立平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Hanno Information & Technology Co Ltd
Original Assignee
Jiangsu Hanno Information & Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Hanno Information & Technology Co Ltd filed Critical Jiangsu Hanno Information & Technology Co Ltd
Priority to CN201510744661.XA priority Critical patent/CN105373349A/zh
Publication of CN105373349A publication Critical patent/CN105373349A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于信息技术领域,具体的是一种可删除重复数据的大数据存储系统。重复数据删除功能可根据文件系统的大小进行调整块的大小,设置块大小为128KB,块的大小可以自动配置,重删技术可以有选择地设置,可以针对包含重复多的数据,在存储时就进行重复数据删除工作,节约硬盘的使用,对重复数据少的数据不进行重删,提高数据的读写速度。

Description

一种可删除重复数据的大数据存储系统
技术领域
本发明属于信息技术领域,具体的是一种可删除重复数据的大数据存储系统。
背景技术
伴随着全球化电子商务、无纸化办公和云计算的大规模开展,在各种应用系统的存储设备上,信息正以数据存储的TB甚至是PB级方式高速增长.正如EMCCEO乔图斯对股东们说的那样“IT行业出现了最势不可挡的两种趋势:云计算和海量数据”。伴随着云计算的迅猛发展,海量数据的高效存储需求和管理成为一个研究的重点。
发明内容
针对上述现有技术,本发明提出了一种可删除重复数据的大数据存储系统,具体技术方案如下:
一种可删除重复数据的大数据存储系统,包括自动精简的属性设置和重删技术的属性设置;自动精简的属性设置建立的NAS分区可以创建大于物理存储的逻辑卷,各个逻辑卷共享整个存储池的大小,使用setquota设置逻辑卷的大小.建立的SAN分区可以创建大于物理存储大小的逻辑卷,建立的分区大小是自己设定的,独立于存储池大小之外,但可用存储池的大小还是原来存储池的大小,只是在分区显示时存储池的利用率是假象还是真实的情况,使用zfscreate-s-b128K-V设置逻辑卷的大小;映射出来的磁盘就是自动精简配置设置的大小,但可用的容量还是原来总存储池的大小,当LiveStor管理员通过设置的存储池告警获得警告信息,就要按需扩容后端存储,添加硬盘,为用户提供持续可用的高效存储;
重删技术的属性设置的重删功能是基于块级的重复数据删除,默认使用的是SHA-256,不作校验;利用SHA-256哈希函数提供数据块级重复数据删除功能,开启重复数据删除的LiveStor需要较强的处理能力,因此提高处理器能力和内存就可以提高重复数据删除的速度;对重复数据删除技术设置了3个属性值,分别为on,off,verify;当属性设置为on时,这种方法是在重删技术中速度最快的,因为它是按块的哈希值进行对比重删的,但是这种重删存在2256的可能性将不同的数据作为相同的哈希值来删除;为了确保散列重复数据删除的安全性,可以将重删功能的属性值设为verify,让存储数据进行全部字节对比;针对重复数据删除,也可以使用改进的、简单的散列算法来减少所需的处理能力,并将它与验证功能结合在一起以提高重复数据删除的整体速度;重复数据删除功能可根据文件系统的大小进行调整块的大小,设置块大小为128KB,块的大小可以自动配置,重删技术可以有选择地设置,可以针对包含重复多的数据,在存储时就进行重复数据删除工作,节约硬盘的使用,对重复数据少的数据不进行重删,提高数据的读写速度。
有益效果:
1.本发明提出的大数据存储系统具有高性能、高可用性、易用、易管理的特点。能提高存储性能,减少环境的压力,降低总体实现成本,降低能耗和降低二氧化碳排放量,符合绿色存储的要求。
2.本发明提出的大数据存储系统不仅提供高效存储,还能基于快照技术为用户提供本地逻辑分区的持续数据保护,结合本地CDP提供远程复制和恢复功能,满足生产运行的连续性和灾难恢复的需求,最大程度地保护用户数据安全。
具体实施方式
一种可删除重复数据的大数据存储系统,包括自动精简的属性设置和重删技术的属性设置;
自动精简的属性设置建立的NAS分区可以创建大于物理存储的逻辑卷,各个逻辑卷共享整个存储池的大小,使用setquota设置逻辑卷的大小.建立的SAN分区可以创建大于物理存储大小的逻辑卷,建立的分区大小是自己设定的,独立于存储池大小之外,但可用存储池的大小还是原来存储池的大小,只是在分区显示时存储池的利用率是假象还是真实的情况,使用zfscreate-s-b128K-V设置逻辑卷的大小;映射出来的磁盘就是自动精简配置设置的大小,但可用的容量还是原来总存储池的大小,当LiveStor管理员通过设置的存储池告警获得警告信息,就要按需扩容后端存储,添加硬盘,为用户提供持续可用的高效存储;
重删技术的属性设置的重删功能是基于块级的重复数据删除,默认使用的是SHA-256,不作校验;利用SHA-256哈希函数提供数据块级重复数据删除功能,开启重复数据删除的LiveStor需要较强的处理能力,因此提高处理器能力和内存就可以提高重复数据删除的速度;对重复数据删除技术设置了3个属性值,分别为on,off,verify;当属性设置为on时,这种方法是在重删技术中速度最快的,因为它是按块的哈希值进行对比重删的,但是这种重删存在2256的可能性将不同的数据作为相同的哈希值来删除;为了确保散列重复数据删除的安全性,可以将重删功能的属性值设为verify,让存储数据进行全部字节对比;针对重复数据删除,也可以使用改进的、简单的散列算法来减少所需的处理能力,并将它与验证功能结合在一起以提高重复数据删除的整体速度;重复数据删除功能可根据文件系统的大小进行调整块的大小,设置块大小为128KB,块的大小可以自动配置,重删技术可以有选择地设置,可以针对包含重复多的数据,在存储时就进行重复数据删除工作,节约硬盘的使用,对重复数据少的数据不进行重删,提高数据的读写速度。

Claims (1)

1.一种可删除重复数据的大数据存储系统,包括自动精简的属性设置和重删技术的属性设置;
自动精简的属性设置建立的NAS分区可以创建大于物理存储的逻辑卷,各个逻辑卷共享整个存储池的大小,使用setquota设置逻辑卷的大小.建立的SAN分区可以创建大于物理存储大小的逻辑卷,建立的分区大小是自己设定的,独立于存储池大小之外,但可用存储池的大小还是原来存储池的大小,只是在分区显示时存储池的利用率是假象还是真实的情况,使用zfscreate-s-b128K-V设置逻辑卷的大小;映射出来的磁盘就是自动精简配置设置的大小,但可用的容量还是原来总存储池的大小,当LiveStor管理员通过设置的存储池告警获得警告信息,就要按需扩容后端存储,添加硬盘,为用户提供持续可用的高效存储;
重删技术的属性设置的重删功能是基于块级的重复数据删除,默认使用的是SHA-256,不作校验;利用SHA-256哈希函数提供数据块级重复数据删除功能,开启重复数据删除的LiveStor需要较强的处理能力,因此提高处理器能力和内存就可以提高重复数据删除的速度;对重复数据删除技术设置了3个属性值,分别为on,off,verify;当属性设置为on时,这种方法是在重删技术中速度最快的,因为它是按块的哈希值进行对比重删的,但是这种重删存在2256的可能性将不同的数据作为相同的哈希值来删除;为了确保散列重复数据删除的安全性,可以将重删功能的属性值设为verify,让存储数据进行全部字节对比;针对重复数据删除,也可以使用改进的、简单的散列算法来减少所需的处理能力,并将它与验证功能结合在一起以提高重复数据删除的整体速度;重复数据删除功能可根据文件系统的大小进行调整块的大小,设置块大小为128KB,块的大小可以自动配置,重删技术可以有选择地设置,可以针对包含重复多的数据,在存储时就进行重复数据删除工作,节约硬盘的使用,对重复数据少的数据不进行重删,提高数据的读写速度。
CN201510744661.XA 2015-10-30 2015-10-30 一种可删除重复数据的大数据存储系统 Pending CN105373349A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510744661.XA CN105373349A (zh) 2015-10-30 2015-10-30 一种可删除重复数据的大数据存储系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510744661.XA CN105373349A (zh) 2015-10-30 2015-10-30 一种可删除重复数据的大数据存储系统

Publications (1)

Publication Number Publication Date
CN105373349A true CN105373349A (zh) 2016-03-02

Family

ID=55375583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510744661.XA Pending CN105373349A (zh) 2015-10-30 2015-10-30 一种可删除重复数据的大数据存储系统

Country Status (1)

Country Link
CN (1) CN105373349A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930223A (zh) * 2016-04-24 2016-09-07 湖南大学 一种减少检查点文件大小的方法
CN110018988A (zh) * 2017-11-08 2019-07-16 阿里巴巴集团控股有限公司 快照删除方法、处理方法、装置及系统
CN114556243A (zh) * 2019-09-20 2022-05-27 诺信公司 用于plc通信的具有应用数据标识符的灵活映射
CN114556243B (zh) * 2019-09-20 2024-06-04 诺信公司 用于plc通信的具有应用数据标识符的灵活映射

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930223A (zh) * 2016-04-24 2016-09-07 湖南大学 一种减少检查点文件大小的方法
CN110018988A (zh) * 2017-11-08 2019-07-16 阿里巴巴集团控股有限公司 快照删除方法、处理方法、装置及系统
CN110018988B (zh) * 2017-11-08 2023-04-04 阿里巴巴集团控股有限公司 快照删除方法、处理方法、装置及系统
CN114556243A (zh) * 2019-09-20 2022-05-27 诺信公司 用于plc通信的具有应用数据标识符的灵活映射
CN114556243B (zh) * 2019-09-20 2024-06-04 诺信公司 用于plc通信的具有应用数据标识符的灵活映射

Similar Documents

Publication Publication Date Title
US10417202B2 (en) Storage system deduplication
US10387661B2 (en) Data reduction with end-to-end security
CN102629258B (zh) 重复数据删除方法和装置
KR102537119B1 (ko) 메모리 디바이스에 있어서 논리 대 물리 맵 동기화
US20180089033A1 (en) Performing data backups using snapshots
CN104360914B (zh) 增量快照方法和装置
CN102982122A (zh) 一种适用于海量存储系统的重复数据删除方法
WO2007049109A3 (en) Method and system for compression of logical data objects for storage
CN102073808A (zh) 一种通过sata接口加密存储的方法和加密卡
CN104463020A (zh) 存储器数据完整性保护的方法
CN103810247A (zh) 基于分桶算法的灾备数据比对方法
CN105373349A (zh) 一种可删除重复数据的大数据存储系统
CN105205416A (zh) 一种移动硬盘密码模块
CN104463510A (zh) 一种财务管理系统
CN204904279U (zh) 具有数据自销毁机构的存储装置
CN104317532A (zh) 一种多功能数据销毁机
CN102999728B (zh) 基于安全桌面的数据存储方法及装置
CN202394238U (zh) 一种利用图形处理器并行计算的高速加解密系统
US20220123932A1 (en) Data storage device encryption
CN104392187A (zh) 一种移动加密硬盘
CN107608825A (zh) 一种云备份快照数据的方法及装置
CN204229406U (zh) 一种数据加密的移动硬盘
CN105573677A (zh) 一种高效存储的实现方法
CN102117249A (zh) 一种数据存储设备、数据存储方法及其数据访问控制方法
CN204331712U (zh) 一种新型固态硬盘

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160302