CN103714123B - 企业云存储分块对象重复数据删除和重组版本控制方法 - Google Patents

企业云存储分块对象重复数据删除和重组版本控制方法 Download PDF

Info

Publication number
CN103714123B
CN103714123B CN201310657167.0A CN201310657167A CN103714123B CN 103714123 B CN103714123 B CN 103714123B CN 201310657167 A CN201310657167 A CN 201310657167A CN 103714123 B CN103714123 B CN 103714123B
Authority
CN
China
Prior art keywords
file
piecemeal
data
user
version
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310657167.0A
Other languages
English (en)
Other versions
CN103714123A (zh
Inventor
刘军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wenzhou University
Original Assignee
Wenzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wenzhou University filed Critical Wenzhou University
Priority to CN201310657167.0A priority Critical patent/CN103714123B/zh
Publication of CN103714123A publication Critical patent/CN103714123A/zh
Application granted granted Critical
Publication of CN103714123B publication Critical patent/CN103714123B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments

Abstract

本发明公开的企业云存储分块对象重复数据删除方法,将文件输入到分块对象重复数据删除模块;确定用户上传文件的类型;在文件类型表里查找当前文件类型的最优分块大小;若文件的大小小于确定的分块大小,则不进行分块而对文件计算指纹并标记该文件不可再分块后进入查询指纹步骤;若文件能分块则进入下一步骤;对文件的分块和重复数据删除。本发明还公开了企业云存储分块对象重组版本控制方法,用户使用云存储平台时由对象重组文件版本控制模块确定用户请求,根据用户的请求执行重组文件版本。本发明的对象重复数据删除及重组版本控制方法创建文件的对象重组版本索引,解决企业云存储平台中大量用户对同一文档操作导致的文档版本问题。

Description

企业云存储分块对象重复数据删除和重组版本控制方法
技术领域
本发明属于计算机存储方法技术领域,涉及一种企业云存储分块对象重复数据删除方法,本发明还涉及企业云存储分块对象重组版本控制方法。
背景技术
云存储平台是通过集群应用、网格技术或分布式文件系统的功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能。
现有的FTP服务、WEB存储服务等均存在以下问题:可靠性低,一旦磁盘或者系统宕机将导致数据永久丢失;安全性差,单一的密码口令访问方式容易被攻击;成本也比较高,企业用户需要自己维护和建立机房,派专人维护和管理存储系统软硬件;共享效率低,网络因素导致的文件信息分享率低。
云存储服务平台,能为企业用户提供一个高可用的服务机制,其建立在高速网络和高速存储设备之上,只要接入互联网就可实现数据的高速共享,平台内部的高可靠性机制能保证数据的安全性,分布式的集群为地理域不同的用户提供高速共享。企业租户使用云存储平台,由于企业内部使用人员多,从而数据产出量高,往往会出现大量重复数据;并且由于人员的增多对相同文件的修改可能性增大,出现版本问题的可能性更高。多人操作数据会出现覆盖、误删及人员手中数据不一致的问题;覆盖导致丢失原有版本数据;误删导致数据无法恢复原有版本;没有版本记录则导致不同人员在不同时间,有人员下载修改过的文件,也有人员保留原有未修改的文件,最终出现数据不一致。这些问题也会导致系统的数据可靠性降低。
发明内容
本发明的目的在于提供一种企业云存储分块对象重复数据删除方法,能有效提高云存储系统的可靠性,不仅解决由于企业级用户产出的大量重复数据导致的存储设备资源浪费的问题,还降低网络因重复数据传输导致的占用带宽问题。
本发明的另一目的在于提供一种企业云存储分块对象重组版本控制方法,基于分块对象,创建文件的对象重组版本索引,用于云存储平台中解决企业云存储平台中大量用户对同一文档操作导致的文档版本问题。
本发明的所采用的第一种技术方案是,企业云存储分块对象重复数据删除方法,具体按照以下步骤实施:
步骤1、用户有文件要上传到云存储平台时,将文件输入到分块对象重复数据删除模块内;
步骤2、由分块对象重复数据删除模块内的文件类型库先确定步骤1中用户上传文件的类型;
步骤3、经步骤2确定好文件的类型后,由分块对象重复数据删除模块中的文件类型表里查找当前文件类型的最优分块大小;
步骤4、若整个文件的大小小于步骤3确定的分块大小,即文件无法分成块,则不进行分块操作,直接对整个文件计算哈希指纹,并标记该文件不可再分块后直接进入步骤5.4中用快速指纹查询表查询是否有匹配的哈希指纹;
若整个文件的大小大于步骤3确定的分块大小,即文件能够分块,则直接进入步骤5;
步骤5、对经步骤4处理后文件的分块和重复数据进行删除,具体按照以下步骤实施:
步骤5.1、分块对象重复数据删除模块将文件指针偏移到头部末尾;
步骤5.2、对文件进行分块处理,文件分块后的大小为步骤3中确定的分块大小;
步骤5.3、计算经步骤5.2得到的文件块的哈希指纹;
步骤5.4、根据经步骤5.3计算出文件块的哈希指纹,用快速指纹查询表查询是否有匹配的指纹:
若有匹配,则说明有重复数据,对这个文件的有重复数据的分块不创建对象,只创建一个指向已存在指纹的链接;
若没有匹配,则说明数据是不重复的,必须给没有重复数据的分块创建一个对象,并将该创建的对象保存到对象存储设备中,再将指纹信息和分块信息分别写入快速指纹查询表和系统文件索引表;
步骤5.5、重复步骤5.2直到文件不能再分块为止,当整个文件分块不能再分块,则重复数据删除完成。
本发明第一种技术方案的特点还在于,
步骤1中的分块对象重复数据删除模块用于在文件的上传和更新过程中,云存储用户的文件要存储在对象存储设备中,必须经过分块对象重复数据删除模块,目的在于降低对平台存储设备的资源浪费。
步骤2中文件类型的确定方法为:由分块对象重复数据删除模块内的文件类型库根据文件扩展名和文件头部共同确定文件的实际类型;
步骤3中的文件类型表集成于所述分块对象重复数据删除模块内,是在数据库中建立的数据表,用于存储计算机可存储的文件类型,根据经验值确定各种类型的常用分块大小并存储,并对相应的文件类型的文件头部建立并存储对象,生成哈希指纹,一行数据确定一个文件类型,由经验值确定当前文件类型的最优分块大小,以及该类型文件头部的对象地址和哈希指纹。
本发明所采用的第二种技术方案是,企业云存储分块对象重组版本控制方法,具体按照以下方法实施:
用户使用云存储平台时,由对象重组文件版本控制模块确定用户请求,用户进行的操作请求有:新建版本请求、读取版本请求、更新版本请求及删除版本请求,再根据用户的请求执行重组文件版本;
新建版本请求用于用户上传文件,或用户使用了系统提供的新建版本功能,具体按照以下步骤实施:
步骤1、为新版本文件创建出版本号,按日期和用户输入号进行确定;
步骤2、根据文件循环分块过程,确定整个文件的分块记录:
步骤2.1、对文件进行分块处理,文件分块后的大小为步骤3中确定的分块大小;
步骤2.2、计算经步骤2.1到得到的文件分块后的哈希指纹;
步骤2.3、根据经步骤2.2计算出的文件块的哈希指纹,用快速指纹查询表查询是否有匹配的哈希指纹:
若有匹配,则说明有重复数据,对这个文件的有重复数据的分块不创建对象,只创建一个指向已存在指纹的链接;
若没有匹配,则说明数据是不重复的,必须给没有重复数据的分块创建一个对象,并将该创建的对象保存到对象存储设备中,再将指纹信息和分块信息分别写入快速指纹查询表和系统文件索引表;
步骤2.4、重复步骤2.1直到文件不能再分块为止,当整个文件分块不能再分块,则重复数据删除完成;
步骤3、经步骤2将整个文件的分块对象信息创建新版本信息,写入文件版本索引表内。
本发明所采用的第二种技术方案的特点还在于,
读取版本请求用于用户下载文件,或用户使用了系统提供的查看文件所有版本功能,具体按照以下步骤实施:
步骤1、根据用户提供的文件版本号,在文件版本索引表中,查询出这个版本的整条文件记录;
步骤2、在系统文件索引表查找并读取出步骤1中提供的文件的头部;
步骤3、在文件版本索引表内,读取文件请求版本的整个分块索引记录;
步骤4、从对象存储系统读取所有分块,为链接的,转到链接实际指向的对象,读取分块;
步骤5、经步骤4后,组装文件头部和所有分块;
步骤6、将步骤5组装好文件后,返回组装好的文件给用户。
更新版本请求用于用户上传同名文件,或用户使用了系统提供的更新某个文件特定版本的功能,具体按照以下步骤实施:
步骤1、根据用户提供的文件版本号,在文件版本索引表中,查询相对的文件版本的整条文件记录;
步骤2、从文件头部和尾部,分别查找修改过的文件块对象;
步骤3、对经步骤2修改过的块对象,创建新对象,记录指纹,写入系统文件索引表;
对未修改过的块对象,复制已存在版本,存储一个指向已存在的块对象引用指针;
步骤4、经步骤3处理后,将整个文件的分块对象信息更新为当前版本信息,再写入文件版本索引表。
删除版本请求用于用户删除某个版本文件,具体按照以下步骤实施:
步骤1、根据用户提供的文件版本号,在文件版本索引表中,查询这个版本的整条文件记录;
步骤2、查找当前版本创建的块对象,判断块对象是否被其他版本或文件引用:
若有引用,则不删除这个块对象;
若没有引用,则删除当前版本的文件版本索引表记录。
本发明的有益效果在于:
1.本发明的企业云存储分块对象重复数据删除和重组版本控制方法,不仅解决了由于企业级用户产出的大量重复数据导致的存储设备资源浪费的问题,还有效降低了网络因重复数据传输导致的占用带宽问题;
2.本发明的企业云存储分块对象重复数据删除和重组版本控制方法均基于分块对象,能有效提高文件系统的可靠性;
3.本发明的企业云存储分块对象重复数据删除和重组版本控制方法基于企业租户使用云存储平台,由于企业内部使用人员多,对相同文件的修改可能性增大,出现版本问题的可能性更高,多人操作数据会出现覆盖、误删及人员手中数据不一致的问题,而覆盖导致丢失原有版本数据,误删导致数据无法恢复原有版本,没有版本记录则导致不同人员在不同时间,有人员下载修改过的文件,也有人员保留原有未修改的文件,最终出现数据不一致,这些问题也会导致系统的数据可靠性降低,本发明的本发明的企业云存储分块对象重复数据删除和版本控制方法能有效解决上述问题;
4.本发明的企业云存储分块对象重复数据删除和重组版本控制方法用于云存储平台中,解决企业云存储平台中大量用户对同一文档操作导致的文档版本问题。
附图说明
图1是本发明的企业云存储分块对象重复数据删除和重组版本控制方法中对文件进行分块的原理示意图;
图2是本发明的企业云存储分块对象重复数据删除方法的流程图;
图3是本发明的企业云存储分块对象重组版本控制方法中文件传递与重组的流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明的企业云存储分块对象重复数据删除和重组版本控制方法基于两个模块和一个设备,分别是分块对象重复数据删除模块1、对象重组文件版本控制模块2、对象存储设备3,如图1所示,分块对象重复数据删除模块1通过数据线与对象存储设备3连接,对象存储设备3通过数据线与对象重组文件版本控制模块2连接。
其中,分块对象重复数据删除模块1,即为本发明的企业云存储分块对象重复数据删除方法所应用的核心,而云存储平台的核心是数据,在分块对象重复数据删除模块中,将核心数据做为数据对象,将数据对象存储于云存储平台下的对象存储设备中;本发明的企业云存储分块对象重复数据删除方法主要作用在文件的上传和更新过程中,云存储用户的文件要存储在对象存储设备中,必须经过分块对象重复数据删除模块,目的在于降低对平台存储设备的资源浪费。
对象重组文件版本控制模块2是基于分块对象的版本控制方法,主要作用在文件的上传、下载、删除和更新过程中,云存储用户对文件版本的操作,即上传、修改、下载的过程中,都会根据云存储用户的版本请求,新建、修改、组装请求的文件版本。
对象存储设备3是云存储后端众多高效存储技术之一,它安全性高、可靠性高、操作简单、易于访问,结合了存储域网络和网络附联存储系统的优点,支持直接访问存储介质以提高性能,同时通过共享的文件和元数据以简化管理;对象存储同时具有SAN的高速直接访问和NAS的数据共享的优势,提供了高可靠性、跨平台性以及安全的数据共享的存储体系结构。
本发明的企业云存储分块对象重复数据删除方法,如图2所示,具体按照以下步骤实施:
步骤1、用户有文件要上传到云存储平台时,将文件输入到分块对象重复数据删除模块1内;
步骤2、由分块对象重复数据删除模块1内的文件类型库先确定步骤1中用户上传文件的类型:
其中,文件类型的确定原则为:由分块对象重复数据删除模块1内的文件类型库根据文件扩展名和文件头部共同确定文件的实际类型。
步骤3、经步骤2确定好文件的类型后,由分块对象重复数据删除模块1在文件类型表里查找当前文件类型的最优分块大小;
文件类型表:集成于分块对象重复数据删除模块1内,是在数据库中建立的数据表,用于存储计算机可存储的文件类型,根据经验值,确定各种类型的常用分块大小并存储,并对相应的文件类型的文件头部建立并存储对象,生成哈希指纹,一行数据(即一条记录)确定一个文件类型,由经验值确定当前文件类型的最优分块大小,以及该类型文件头部的对象地址和哈希指纹。
步骤4、若整个文件的大小小于步骤3确定的分块大小,即文件无法分成块,则不进行分块操作,直接对整个文件计算哈希指纹,并标记该文件不可再分块后直接进入步骤5.4中用快速指纹查询表查询是否有匹配的哈希指纹;
若整个文件的大小大于步骤3确定的分块大小,即文件能够分块,则直接进入步骤5;
步骤5、对经步骤4处理后文件的分块和重复数据进行删除,具体按照以下步骤实施:
步骤5.1、分块对象重复数据删除模块1将文件指针偏移到头部末尾;
步骤5.2、对文件进行分块处理,文件分块后的大小为步骤3中确定的分块大小;
步骤5.3、计算经步骤5.2到得到的文件块的哈希指纹;
步骤5.4、根据经步骤5.3计算出文件块的哈希指纹,用快速指纹查询表查询是否有匹配的指纹:
若有匹配,则说明有重复数据,对这个文件的有重复数据的分块不创建对象(即不占用系统的存储空间),只创建一个指向已存在指纹的链接;
若没有匹配,则说明数据是不重复的,必须给没有重复数据的分块创建一个对象(该对象存储于存储系统内部,占用存储空间),再将指纹信息和分块信息分别写入快速指纹查询表和系统文件索引表;
快速指纹查询表:在数据库中建立的数据表,为确保云存储平台下极大量的分块对象指纹信息的快速查询,存储系统中已存在的所有分块的指纹记录和对应的分块对象地址;为了确保指纹的低碰撞率,采用MD5和SHA-1共同确定指纹;一行数据(即一条记录)确定一个分块对象的指纹,和分块对象ID名称和地址。
步骤5.5、重复步骤5.2直到文件不能再分块为止,当整个文件分块不能再分块,则重复数据删除完成。
本发明的企业云存储分块对象重复数据删除方法,当有文件输入时,在文件类型表里确定当前文件的最优分块大小,去除文件头部后,开始对文件进行分块,计算出分块指纹;查询快速指纹查询表,若有匹配的则说明有重复数据,对这个文件的这一块不创建对象(不占用系统的存储空间),只创建一个指向已存在指纹的链接;若没有匹配,则说明数据是不重复的,必须给这一块创建一个对象(存储系统内部,占用存储空间),将指纹信息和分块信息分别写入快速指纹查询表和系统文件索引表。
在上述过程中,发现已存在的文件块,只需要创建连接,即为达到不占用系统存储空间的目的;使用块对象存储,即为达到可靠性的目的;分块过程在客户端进行,查找到存在的指纹后,就可以不用传送这个块的实际数据到服务端,达到降低网络使用率的目的。
完成重复数据删除后,则进入本发明的另一技术方案,即企业云存储分块对象重组版本控制方法,如图3所示,具体按照以下方法实施:
用户使用云存储平台时,由对象重组文件版本控制模块2确定用户请求,其中,用户进行的操作请求有:新建版本请求、读取版本请求、更新版本请求及删除版本请求,再根据用户的请求执行重组文件版本。
新建版本请求:用户上传文件,或用户使用了系统提供的新建版本功能,具体按照以下步骤实施:
步骤1、为新版本文件创建出版本号,按日期和用户输入号进行确定;
步骤2、根据文件循环分块过程,确定整个文件的分块记录:
步骤2.1、对文件进行分块处理,文件分块后的大小为步骤3中确定的分块大小;
步骤2.2、计算经步骤2.1到得到的文件分块后的哈希指纹;
步骤2.3、根据经步骤2.2计算出的文件块的哈希指纹,用快速指纹查询表查询是否有匹配的哈希指纹:
若有匹配,则说明有重复数据,对这个文件的有重复数据的分块不创建对象(即不占用系统的存储空间),只创建一个指向已存在指纹的链接;
若没有匹配,则说明数据是不重复的,必须给没有重复数据的分块创建一个对象(该对象存储于存储系统内部,占用存储空间),再将指纹信息和分块信息分别写入快速指纹查询表和系统文件索引表。
步骤2.4、重复步骤2.1直到文件不能再分块为止,当整个文件分块不能再分块,则重复数据删除完成;
步骤3、经步骤2将整个文件的分块对象信息(新建或者指向已存在的引用)创建新版本信息,写入文件版本索引表内。
读取版本请求:用户下载文件,或用户使用了系统提供的查看文件所有版本功能,具体按照以下步骤实施:
步骤1、根据用户提供的文件版本号,在文件版本索引表中,查询出这个版本的整条文件记录;
步骤2、在系统文件索引表查找并读取出步骤1中提供的文件的头部;
步骤3、在文件版本索引表内,读取文件请求版本的整个分块索引记录;
步骤4、从对象存储系统读取所有分块,为链接的,转到链接实际指向的对象,读取分块;
步骤5、经步骤4后,组装文件头部和所有分块;
步骤6、将步骤5组装好文件后,返回组装好的文件给用户。
更新版本请求:用户上传同名文件,或用户使用了系统提供的更新某个文件特定版本的功能,具体按照以下步骤实施:
步骤1、根据用户提供的文件版本号,在文件版本索引表中,查询相对的文件版本的整条文件记录;
步骤2、从文件头部和尾部,分别查找修改过的文件块对象;
步骤3、对经步骤2修改过的块对象,创建新对象,记录指纹,写入系统文件索引表;
对未修改过的块对象,复制已存在版本,存储一个指向已存在的块对象引用指针;
步骤4、经步骤3处理后,将整个文件的分块对象信息(新建或者指向已存在的引用)更新为当前版本信息,再写入文件版本索引表。
删除版本请求:用户删除某个版本文件,具体按照以下步骤实施:
步骤1、根据用户提供的文件版本号,在文件版本索引表中,查询这个版本的整条文件记录;
步骤2、查找当前版本创建的块对象,判断块对象是否被其他版本或文件引用:
若有引用,则不删除这个块对象;
若没有引用,则删除当前版本的文件版本索引表记录。
基于上述对一个文件的版本管理,即达到解决企业云存储平台中大量用户对同一文档操作导致的文档版本问题的目的。对新版本文件,只为修改的块创建新对象,为改变的部分创建索引,也达到降低重复数据对存储空间使用率的目的。

Claims (2)

1.企业云存储分块对象重复数据删除方法,其特征在于,具体按照以下步骤实施:
步骤1、用户有文件要上传到云存储平台时,将文件输入到分块对象重复数据删除模块(1)内;
所述分块对象重复数据删除模块(1)用于在文件的上传和更新过程中,云存储用户的文件要存储在对象存储设备(3)中,必须经过分块对象重复数据删除模块,目的在于降低对平台存储设备的资源浪费;
步骤2、由分块对象重复数据删除模块(1)内的文件类型库先确定步骤1中用户上传文件的类型;
所述文件类型的确定方法为:由分块对象重复数据删除模块(1)内的文件类型库根据文件扩展名和文件头部共同确定文件的实际类型;
步骤3、经步骤2确定好文件的类型后,由分块对象重复数据删除模块(1)中的文件类型表里查找当前文件类型的最优分块大小;
所述文件类型表集成于所述分块对象重复数据删除模块(1)内,是在数据库中建立的数据表,用于存储计算机可存储的文件类型,根据经验值确定各种类型的常用分块大小并存储,并对相应的文件类型的文件头部建立并存储对象,生成哈希指纹,一行数据确定一个文件类型,由经验值确定当前文件类型的最优分块大小,以及该类型文件头部的对象地址和哈希指纹;
步骤4、若整个文件的大小小于步骤3确定的分块大小,即文件无法分成块,则不进行分块操作,直接对整个文件计算哈希指纹,并标记该文件不可再分块后直接进入步骤5.4中用快速指纹查询表查询是否有匹配的哈希指纹;
若整个文件的大小大于步骤3确定的分块大小,即文件能够分块,则直接进入步骤5;
步骤5、对经步骤4处理后文件的分块和重复数据进行删除,具体按照以下步骤实施:
步骤5.1、分块对象重复数据删除模块(1)将文件指针偏移到头部末尾;
步骤5.2、对文件进行分块处理,文件分块后的大小为步骤3中确定的分块大小;
步骤5.3、计算经步骤5.2得到的文件块的哈希指纹;
步骤5.4、根据经步骤5.3计算出文件块的哈希指纹,用快速指纹查询表查询是否有匹配的指纹:
若有匹配,则说明有重复数据,对这个文件的有重复数据的分块不创建对象,只创建一个指向已存在指纹的链接;
若没有匹配,则说明数据是不重复的,必须给没有重复数据的分块创建一个对象,并将该创建的对象保存到对象存储设备中,再将指纹信息和分块信息分别写入快速指纹查询表和系统文件索引表;
步骤5.5、重复步骤5.2直到文件不能再分块为止,当整个文件分块不能再分块,则重复数据删除完成。
2.企业云存储分块对象重组版本控制方法,其特征在于,具体按照以下方法实施:
用户使用云存储平台时,由对象重组文件版本控制模块(2)确定用户请求,用户进行的操作请求有:新建版本请求、读取版本请求、更新版本请求及删除版本请求,再根据用户的请求执行重组文件版本;
所述新建版本请求用于用户上传文件,或用户使用了系统提供的新建版本功能,具体按照以下步骤实施:
步骤1、为新版本文件创建出版本号,按日期和用户输入号进行确定;
步骤2、根据文件循环分块过程,确定整个文件的分块记录:
步骤2.1、对文件进行分块处理,文件分块后的大小确定方式为:
由分块对象重复数据删除模块(1)中的文件类型表里查找当前文件类型的最优分块大小;
步骤2.2、计算经步骤2.1到得到的文件分块后的哈希指纹;
步骤2.3、根据经步骤2.2计算出的文件块的哈希指纹,用快速指纹查询表查询是否有匹配的哈希指纹:
若有匹配,则说明有重复数据,对这个文件的有重复数据的分块不创建对象,只创建一个指向已存在指纹的链接;
若没有匹配,则说明数据是不重复的,必须给没有重复数据的分块创建一个对象,并将该创建的对象保存到对象存储设备中,再将指纹信息和分块信息分别写入快速指纹查询表和系统文件索引表;
步骤2.4、重复步骤2.1直到文件不能再分块为止,当整个文件分块不能再分块,则重复数据删除完成;
步骤3、经步骤2将整个文件的分块对象信息创建新版本信息,写入文件版本索引表内;
所述读取版本请求用于用户下载文件,或用户使用了系统提供的查看文件所有版本功能,具体按照以下步骤实施:
步骤a、根据用户提供的文件版本号,在文件版本索引表中,查询出这个版本的整条文件记录;
步骤b、在系统文件索引表查找并读取出步骤a中提供的文件的头部;
步骤c、在文件版本索引表内,读取文件请求版本的整个分块索引记录;
步骤d、从对象存储系统读取所有分块,为链接的,转到链接实际指向的对象,读取分块;
步骤e、经步骤d后,组装文件头部和所有分块;
步骤f、将步骤e组装好文件后,返回组装好的文件给用户;
所述更新版本请求用于用户上传同名文件,或用户使用了系统提供的更新某个文件特定版本的功能,具体按照以下步骤实施:
步骤I、根据用户提供的文件版本号,在文件版本索引表中,查询相对的文件版本的整条文件记录;
步骤II、从文件头部和尾部,分别查找修改过的文件分块对象;
步骤III、对经步骤II修改过的分块对象,创建新对象,记录指纹,写入系统文件索引表;
对未修改过的分块对象,复制已存在版本,存储一个指向已存在的分块对象引用指针;
步骤IV、经步骤III处理后,将整个文件的分块对象信息更新为当前版本信息,再写入文件版本索引表;
所述删除版本请求用于用户删除某个版本文件,具体按照以下步骤实施:
步骤①、根据用户提供的文件版本号,在文件版本索引表中,查询这个版本的整条文件记录;
步骤②、查找当前版本创建的分块对象,判断分块对象是否被其他版本或文件引用:
若有引用,则不删除这个分块对象;
若没有引用,则删除当前版本的文件版本索引表记录。
CN201310657167.0A 2013-12-06 2013-12-06 企业云存储分块对象重复数据删除和重组版本控制方法 Active CN103714123B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310657167.0A CN103714123B (zh) 2013-12-06 2013-12-06 企业云存储分块对象重复数据删除和重组版本控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310657167.0A CN103714123B (zh) 2013-12-06 2013-12-06 企业云存储分块对象重复数据删除和重组版本控制方法

Publications (2)

Publication Number Publication Date
CN103714123A CN103714123A (zh) 2014-04-09
CN103714123B true CN103714123B (zh) 2017-06-16

Family

ID=50407098

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310657167.0A Active CN103714123B (zh) 2013-12-06 2013-12-06 企业云存储分块对象重复数据删除和重组版本控制方法

Country Status (1)

Country Link
CN (1) CN103714123B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104410692B (zh) * 2014-11-28 2019-03-22 上海爱数信息技术股份有限公司 一种用于重复文件上传的方法和系统
CN104932841B (zh) * 2015-06-17 2018-05-08 南京邮电大学 一种云存储系统中节约型重复数据删除方法
CN105205118A (zh) * 2015-09-10 2015-12-30 邯郸职业技术学院 一种基于文件分块的镜像文件同步方法
CN105653209A (zh) * 2015-12-31 2016-06-08 浪潮(北京)电子信息产业有限公司 一种对象存储数据传输方法及装置
CN106020722A (zh) * 2016-05-19 2016-10-12 浪潮(北京)电子信息产业有限公司 一种云存储系统的重复数据去重方法、装置及系统
CN106611035A (zh) * 2016-06-12 2017-05-03 四川用联信息技术有限公司 一种云存储中重复数据删除的检索算法
CN108243207B (zh) * 2016-12-23 2019-03-15 中科星图股份有限公司 一种网络云盘的数据存储方法
CN107391669A (zh) * 2017-07-20 2017-11-24 郑州云海信息技术有限公司 一种基于文件系统的多版本文件管理方法及装置
CN107741889A (zh) * 2017-09-01 2018-02-27 广州视源电子科技股份有限公司 文档恢复方法、系统、可读存储介质及终端
CN108958773A (zh) * 2018-07-10 2018-12-07 北京贞宇科技有限公司 智能机器人
CN110908589B (zh) * 2018-09-14 2023-06-27 阿里巴巴集团控股有限公司 数据文件的处理方法、装置、系统和存储介质
CN109241023A (zh) * 2018-09-21 2019-01-18 郑州云海信息技术有限公司 分布式存储系统数据存储方法、装置、系统及存储介质
CN109344131B (zh) * 2018-10-10 2022-03-29 国网安徽省电力有限公司信息通信分公司 数据存储方法、装置及管理服务器
CN109634927A (zh) * 2018-12-13 2019-04-16 维沃移动通信有限公司 一种文件处理方法及终端设备
CN110096483B (zh) * 2019-05-08 2021-04-30 北京奇艺世纪科技有限公司 一种重复文件检测方法、终端和服务器
CN110636141B (zh) * 2019-10-17 2021-11-09 中国人民解放军陆军工程大学 基于云雾协同的多云存储系统及其管理方法
CN110795408A (zh) * 2019-10-28 2020-02-14 柏科数据技术(深圳)股份有限公司 基于对象存储的数据处理方法、装置、服务器和存储介质
CN113127421A (zh) * 2021-04-01 2021-07-16 山东英信计算机技术有限公司 一种存储系统检索文件内容的方法和设备
CN115757328B (zh) * 2022-11-15 2023-06-27 百润红科技有限公司 一种基于云平台的数据储存方法及存储管理系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102316131A (zh) * 2010-07-02 2012-01-11 戴元顺 云平台系统智能备份
CN103136243A (zh) * 2011-11-29 2013-06-05 中国电信股份有限公司 基于云存储的文件系统去重方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8307177B2 (en) * 2008-09-05 2012-11-06 Commvault Systems, Inc. Systems and methods for management of virtualization data
CN103118104B (zh) * 2013-01-28 2017-12-26 刘海峰 一种基于版本矢量的数据还原方法及服务器
CN103095843B (zh) * 2013-01-28 2018-01-30 刘海峰 一种基于版本矢量的数据备份方法及客户端

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102316131A (zh) * 2010-07-02 2012-01-11 戴元顺 云平台系统智能备份
CN103136243A (zh) * 2011-11-29 2013-06-05 中国电信股份有限公司 基于云存储的文件系统去重方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
重复数据删除技术的发展及应用;王树鹏;《中兴通讯技术》;20101031;第16卷(第5期);第10页第2.2节、第12页第2.6节 *
重复数据检测在多版本数据备份中的应用;崔兴华等;《计算机应用研究》;20090131;第26卷(第1期);第208页 *

Also Published As

Publication number Publication date
CN103714123A (zh) 2014-04-09

Similar Documents

Publication Publication Date Title
CN103714123B (zh) 企业云存储分块对象重复数据删除和重组版本控制方法
CN104731921B (zh) Hadoop分布式文件系统针对日志型小文件的存储和处理方法
US9223817B2 (en) Virtual repository management
CN103020315B (zh) 一种基于主从分布式文件系统的海量小文件存储方法
CN103731483B (zh) 一种基于云计算的虚拟文件系统
CN104618482B (zh) 访问云数据的方法、服务器、传统存储设备、系统
CN102629247B (zh) 一种数据处理方法、装置和系统
US8700567B2 (en) Information apparatus
JP2012098934A (ja) 文書管理システム、文書管理システムの制御方法、プログラム
CN104881466B (zh) 数据分片的处理以及垃圾文件的删除方法和装置
CN103812939A (zh) 一种大数据存储系统
US20140258315A9 (en) Method And Process For Enabling Distributing Cache Data Sources For Query Processing And Distributed Disk Caching Of Large Data And Analysis Requests
DE102010043265A1 (de) Systeme und Verfahren zum Verarbeiten und Verwalten von objektbezogenen Daten zur Verwendung durch mehrere Anwendungen
CN107077479A (zh) 使用分立数据库系统基于查询需求从行存储数据库自适性建立并更新列存储数据库的基于语句的迁移
CN104133882A (zh) 一种基于hdfs的小文件处理方法
DE202009019149U1 (de) Asynchron verteilte Speicherbereinigung für replizierte Speichercluster
CN107391306A (zh) 一种异构数据库备份文件恢复方法
CN106155934B (zh) 一种云环境下基于重复数据的缓存方法
CN108509437A (zh) 一种ElasticSearch查询加速方法
EP3788505B1 (en) Storing data items and identifying stored data items
CN103559229A (zh) 基于MapFile的小文件管理服务SFMS系统及其使用方法
US20070174360A1 (en) Storage system embedding database
CN107679420A (zh) 一种基于分布式文件系统的权限设置方法及系统
CN108509507A (zh) 统一入口的账户管理系统及其实现方法
CN105407044B (zh) 一种基于nfs的云存储网关系统的实现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Liu Jun

Inventor before: Xue Tao

Inventor before: Liu Yulong

CB03 Change of inventor or designer information
TA01 Transfer of patent application right

Effective date of registration: 20170516

Address after: 325036 Zhejiang, Ouhai, South East Road, No. 38, Wenzhou National University Science Park Incubator

Applicant after: Wenzhou University

Address before: 710048 Shaanxi province Xi'an Beilin District Jinhua Road No. 19

Applicant before: XI'AN POLYTECHNIC University

TA01 Transfer of patent application right
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20140409

Assignee: Big data and Information Technology Research Institute of Wenzhou University

Assignor: Wenzhou University

Contract record no.: X2020330000098

Denomination of invention: Version control method for data duplication and reorganization of partitioned objects in Enterprise Cloud Storage

Granted publication date: 20170616

License type: Common License

Record date: 20201115

EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20140409

Assignee: Tigerman Polytron Technologies Inc.

Assignor: Wenzhou University

Contract record no.: X2022330000707

Denomination of invention: Enterprise cloud storage chunking object deduplication and reorganization version control method

Granted publication date: 20170616

License type: Common License

Record date: 20221202

EE01 Entry into force of recordation of patent licensing contract