CN103514210B - 小文件处理方法及装置 - Google Patents

小文件处理方法及装置 Download PDF

Info

Publication number
CN103514210B
CN103514210B CN201210217046.XA CN201210217046A CN103514210B CN 103514210 B CN103514210 B CN 103514210B CN 201210217046 A CN201210217046 A CN 201210217046A CN 103514210 B CN103514210 B CN 103514210B
Authority
CN
China
Prior art keywords
small documents
data
file
deblocking
sliding window
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210217046.XA
Other languages
English (en)
Other versions
CN103514210A (zh
Inventor
叶林睿
张宗全
钟延辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201210217046.XA priority Critical patent/CN103514210B/zh
Priority to PCT/CN2013/072039 priority patent/WO2014000458A1/zh
Publication of CN103514210A publication Critical patent/CN103514210A/zh
Application granted granted Critical
Publication of CN103514210B publication Critical patent/CN103514210B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/162Delete operations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明所提供的小文件处理方法,针对海量小文件的重复数据删除的处理,将小文件整合为一个大文件后,对整合后的大文件整体进行分块后,在分块的过程中,如果当前正在划分的数据块中,包括了任一个小文件的尾部时,需要以这个小文件的尾部作为当前数据分块的结束位置,对整合后的大文件分块完成后再作重复数据查找等操作,提高了小文件的重复数据删除效率。

Description

小文件处理方法及装置
技术领域
本发明涉及文件处理技术,尤其涉及小文件处理方法及装置。
背景技术
重复数据删除技术是存储系统中的一种新型应用。通过删除存储系统中重复的数据,只保留其中的一份,从而消除冗余数据。重删文件需要对文件进行分块、相似性分析、查询重复块等操作,那么,在对一个小文件进行重删时,都会耗费很多时间在消除小块冗余数据上,不仅耗时,而且占用系统资源。
现有技术中,在重删过程中,在对大量小文件的处理,通常采用如下方式:将多个小文件按照一定方式合并为一个大文件,这个大文件头中记录小文件信息,用于大量小文件的存放与读取。
由于上述方法只是将小文件整合在一个大文件中,不对大文件进行重复数据删除,增加文件头记录小文件信息,增加了小文件的空间占用,对大文件的存放与读取操作速度较慢;而且只是减少了小文件的占用空间,对大于最小读写块的小文件没有作用。
发明内容
本发明实施例提供小文件处理方法,应用在重复数据删除操作中,能够加快大量小文件重复数据删除速度、减少大量小文件占用空间。
本发明实施例所提供的一种小文件处理方法,包括:
读取N个小文件,其中,所述小文件为小于预置大小的小文件;
将所述读取的N个小文件整合为一个大文件,利用滑动窗口对所述整合后的大文件进行分块;所述利用滑动窗口对所述整合后的大文件进行分块,包括:
判断所述滑动窗口的结束位置是否是所述任一小文件的尾部,如果是,则将从上一个分块的结束位置到当前滑动窗口的结束位置之间的数据作为一个数据分块;如果否,则判断滑动窗口当前覆盖的数据,是否满足数据分块条件;
如果满足所述分块条件,则将从上一个分块的结束位置到当前滑动窗口的结束位置之间的数据作为一个数据分块;如果不满足所述分块条件,则将所述滑动窗口移动一个字节,继续利用滑动窗口对所述整合后的大文件进行分块,直到完成对所述整合后大文件的数据分块;
根据预先设置的数据块元据数信息库,在得到的数据分块中确定重复块和新块;
将确定得到的新块的元数据信息添加到所述的元数据信息库中,并将新块的数据添加到记录文件中,在所述元数据信息库中更新重复块的引用次数。
本发明实施例还提供一种小文件处理装置,包括:
读取单元,用于读取N个小文件,其中,所述小文件为小于预置大小的小文件;
拆分单元,用于将所述读取的N个小文件整合为一个大文件,对整合后的大文件进行数据分块;
确定单元,用于根据预先设置的数据块元数据信息库,在得到的数据分块中确定重复块和新块;
处理单元,将确定得到的新块的元数据信息添加到所述的元数据信息库中,并将新块的数据添加到记录文件中,在所述元数据信息库中更新重复块的引用次数;
其中,所述拆分单元,包括:
整合单元,用于将所述读取的小文件整合为一个大文件;
第一判断单元,用于判断所述滑动窗口的结束位置是否是所述任一小文件的尾部,如果是,将判断结果发送给拆分处理单元;如果否,将判断结果发送给第二判断单元;
第二判断单元,用于判断滑动窗口当前覆盖的数据,是否满足数据分块条件,如果是,将判断结果发送给拆分处理单元,如果否,将滑动窗口移动一个字节后,返回执行所述第一判断单元功能以继续利用滑动窗口对所述整合后的大文件进行分块,直到完成对所述整合后大文件的数据分块;
拆分处理单元,用于当判断所述滑动窗口的结束位置是所述任一小文件的尾部或者判断滑动窗口当前覆盖的数据满足数据分块条件时,将从上一个分块的结束位置到当前滑动窗口的结束位置之间的数据作为一个数据分块,并将滑动窗口移动一个字节后,返回执行所述第一判断单元功能以继续利用滑动窗口对所述整合后的大文件进行分块,直到完成对所述整合后大文件的数据分块。
本发明实施例提供小文件处理方法及装置,可针对海量小文件的重复数据删除的处理,将小文件整合为一个大文件后,对整合后的大文件整体进行数据分块后,再作重复数据查找等操作,提高了小文件的重复数据删除效率;减少磁盘空间的占用。
附图说明
图1为本发明实施例提供的一种小文件处理方法的流程图;
图2为本发明实施例提供的一种利用滑动窗口对整合得到的大文件进行分块的流程图;
图3为本发明实施例提供的另一种小文件处理方法的流程图;
图4为本发明实施例所提供的小文件处理方法的应用示意图;
图5为本发明实施例所提供的一种小文件处理装置的结构示意图;
图6为本发明实施例提供的另一种小文件处理装置的结构示意图;
图7为本发明实施例提供的另一种小文件处理装置的结构示意图。
具体实施方式
图1为本发明实施例一提供的小文件处理方法流程图,如图1所示,该方法包括:
步骤101、读取N个小文件,其中小文件为小于MkB的文件。
步骤101的动作可以由重删管理进程(Management,MGT)来执行,可以采用的方式为:MGT读取磁盘的同一目录下的N个文件,这样做的优点在于读取速度快并且管理方便。而M是一个可以根据需要人为定义的一个数值。N表示小文件的个数,显然,N可以是大于0的自然数。
步骤103、将N个小文件整合为一个大文件,利用滑动窗口对所述整合后的大文件进行分块;
其中,将所述读取的N个小文件逻辑组合成一个大文件,也就是将N个小文件看出是逻辑组合成大文件的N部分,而这N个小文件物理上分散的,只是在虚拟上看成一个文件,同时每个小文件的末尾是已知的。显然,整合后的大文件也就是对小文件整合后得到的大文件。
其中,参见图2,利用滑动窗口对所述整合后的大文件进行分块,包括:
步骤1031,判断所述滑动窗口的结束位置是否是所述任一小文件的尾部,如果是,则进入步骤1034;如果否,则进入步骤1033;
步骤1033,判断滑动窗口当前覆盖的数据,是否满足数据分块条件;如果满足所述分块条件,则进入步骤1034;如果不满足所述分块条件,则进入步骤1035;
步骤1034,将从上一个分块的结束位置到当前滑动窗口的结束位置之间的数据作为一个数据分块,并进入步骤1035;
步骤1035,将所述滑动窗口移动一个字节,返回步骤1031继续利用滑动窗口对所述整合后的大文件进行分块,直到完成对所述整合后大文件的数据分块。
其中,所述的将滑动窗口移动一个字节,是向数据的尾部方向滑动一个字节;所述的满足数据分块条件,包括对滑动窗口所覆盖的数据进行哈希值运算,判断哈希值是否满足进行分块的条件,或者是,通过判断滑动窗口所滑动的数据长度是否满足分块条件等等,方法很多,在此不再赘述。显然,所述的满足数据分块的条件中,不再包括判断所述滑动窗口的结束位置是否是所述任一小文件的尾部,判断是否将从上一个分块的结束位置到当前滑动窗口的结束位置之间的数据作为一个数据分块的情况。
本发明实施例中,对整合后的大文件进行数据分块,得到多个分块,其中,在分块的过程中,如果当前正在划分的数据块中,包括了任一个小文件的尾部时,需要以这个小文件的尾部作为当前数据分块的结束位置,以使可以对得到的数据分块通过组合后得到完整的小文件;例如,对两个小文件file1和file2整合为的一个大文件进行数据分块,得到分块A,B,A三个数据分块,其中file1被划分为第一个数据分块A,file2被划分为第二个数据分块B和第三个数据分块A,A组成file1,BA组成file2。
其中,对于文件进行分块可以采用现有技术中提供的各种分块算法,这里不做限定,分块的主要目的在于后续找到文件中相同的块。对于每个分块的大小有上限和下限,也即最大分块和最小分块。其中,最大分块为MkB,也即不超过一个小文件的大小。分块可以是等长的也可以是不等长的,此处不做限定。
步骤105、根据预先设置的数据分块元数据信息库,在得到的数据分块中确定重复块和新块;
本发明实施例所述的重复块,指对大文件进行拆分得到的某一个数据块,判断预先设置的数据分块元数据信息库中的元数据信息,是否已经包含有该数据分块的元数据信息,若是,则判断得到在记录文件(存储真实有效地数据)中,已经包含了该数据块的信息,那么,该数据块就被认为是重复块;反之,则判断得到记录文件中没有包含该数据块的信息,则该数据块为新块。
其中,对拆分得到的数据分块,如何判断是新块还是重复块,可通过如下方式:根据将整合后大文件进行拆分得到的数据分块的特征信息,在元数据信息库中查询是否已经存储有相同的特征信息,如果有,说明与元数据信息库对应的记录文件中已经存储了该数据分块,则确定该数据分块为重复块;反之,则说明记录文件中没有存储该数据分块,则确定该数据分块为新块。新块和重复块的判断方式,还可以依赖其他现有技术,在此不再赘述。
步骤107、将确定得到的新块的元数据信息添加到所述的元数据信息库中,并将新块的数据添加到记录文件中,在所述元数据信息库中更新重复块的引用次数。
本发明实施例中,当判断得到N个数据块中的新块后,将新块的元数据信息添加到元数据信息库中,并将新块的数据添加到记录文件中;另外,对重复块可以记录被引用的次数。对新块和重复块的处理方式,类似现有技术,在此不再赘述。
本发明实施例还可以包括:
步骤109、根据组成所述读取的小文件所需的数据块在记录文件中的地址,建立组成所述读取的小文件的数据块地址和小文件标识之间的对应关系。
这里,所述读取的小文件,也就是前面所读取的用于整合为大文件的N个小文件;其中,步骤109,本发明实施例可以通过以下方式:
步骤1091:将所述得到的数据分块在记录文件中的地址信息存储到索引文件中。
其中,索引文件可以但不限于被命名为索引文件,该索引文件是用来保存N个小文件整合后的大文件进行划分后得到的每个数据分块在记录文件中的地址信息,因此,索引文件中保存的都是指向记录文件中相应块的地址。
步骤1092、根据索引文件中组成所述读取的小文件所需的数据块在记录文件中的地址,建立组成所读取的小文件的数据块地址和小文件标识之间的对应关系。
建立组成所读取的小文件的数据块地址和小文件标识之间的对应关系的具体方式,本发明实施例采用以下方式但并不限于此:
根据整合前一个小文件的不同数据块在记录文件中的地址,建立一个链接,每个链接对应一个所读取的小文件,按照每个链接对应的小文件的标识,将建立的链接分别重命名。
本实施例中建立的链接,可以是硬链接,使得实际存在的索引文件中的不同小文件只有一份,占用的物理空间也只有一份,但是却具有多个镜像。这样可以更为有效地节约磁盘空间。
本发明实施例对步骤109的实现方式,仅举例说明,并不限于此。根据本发明实施例所提供的方式的启示,所提出的其他方式在此不再赘述。
本发明实施例所提供的小文件处理方法,针对海量小文件的重复数据删除的处理,将小文件整合为一个大文件后,对整合后的大文件整体进行分块后,再作重复数据查找等操作,提高了小文件的重复数据删除效率。
参见附图3,本发明实施例还提供一种小文件处理方法,和附图1对应的实施例不同之处在于,在得到的数据分块中确定重复块和新块,还可以包括:
步骤104、将得到的数据分块进行相互比较,将得到的数据分块中相同的数据块删除至一份;
本实施例中,通过步骤104,对整合后的大文件进行拆分得到的数据分块,先进行相互比较,确定N个数据分块中的相同的数据块,并将相同的数据块删除。由此,可以进一步提高重复数据的查询效率。当然,将拆分得到的数据块进行相互之间的比较,可以在步骤105之前完成,也可以在步骤105之后完成,本发明实施例为了提高查询效率,以在步骤105之前完成步骤104为例。
另外,本发明实施例在步骤109之后,还可以包括:
步骤110,接收读请求,读请求中包括欲读取的小文件标识,根据组成所读取的小文件的数据块地址和小文件标识之间的对应关系,从记录文件中读取组成小文件的数据块。
本发明实施例所提供的小文件处理方法,针对海量小文件的重复数据删除的处理,将小文件整合为一个大文件后,对整合后的大文件整体进行分块后,再作重复数据查询、删除等操作,提高了小文件的重复数据删除效率,尤其是在进行重复块查询时,在所得的分块之间进行比较,提高了重复块的查询效率。
下面结合一个实例对本发明提供的文件重删的方法进行说明,如图4所示的方法示意图,假设N为5,也即5个小文件,如图5第一行所示的file1、file2、file3、file4以及file5。本实施例中以每个小文件为单位对5个小文件进行了一次性的分块处理,采用的是变长分块的方法,将5个小文件分成为:A、B、A、B、C、E、E、D这8个分块。其中,A组成file1,BA组成file2,BC组成file3,E组成file4,ED组成file5。采用随机方式对上述几个分块进行采样,得到采样分块A、B、C、E、D,根据采样分块的元数据信息对采样分块与预置的数据分块元数据信息库中已知的数据块元数据信息分组进行相似性分析,得到相似度最高的分组:groupi。对上述8个分块与相似度最高的分组之间进行重复块、新块的查询。得到重复块为A、B和C,新块为E和D。将新块E和D写入相似度最高的分组中,并记录A、B、C的引用次数。将新块ED的真实数据添加到记录文件中。将组成整合前小文件的数据块地址存放到索引文件中,按照组成上述5个小文件的数据块地址,也即A组成file1,BA组成file2,BC组成file3,E组成file4,ED组成file5,将A在记录文件中的地址信息、B和A在记录文件中的地址信息、B和C在记录文件中的地址信息,E在记录文件中的地址信息、E和D在记录文件中的地址信息记录存放在一个索引文件的文件头当中。根据整合前一个小文件不同数据块在记录文件中的地址,建立一个统一硬链接,从而从索引文件中做N个硬链接,分别按照每个链接和小文件的标识之间的对应关系,将N个链接分别重命名。用户读取小文件时,由读写驱动读出相应的文件数据即可。
本发明实施例提供的方案,将多个小文件作为一个整体进行分块、重复块查询、删除等动作,加快了小文件重删速率的同时,减少磁盘空间的占用。
参见图5,本发明实施例还提供一种小文件处理装置,包括:
读取单元41,用于读取N个小文件,其中,所述小文件为小于预置大小小文件;
拆分单元42,用于将所述读取的N个小文件整合为一个大文件,对整合后的大文件进行数据分块;
确定单元43,用于根据预先设置的数据块元数据信息库,在得到的数据分块中确定重复块和新块;
处理单元44,将确定得到的新块的元数据信息添加到所述的元数据信息库中,并将新块的数据添加到记录文件中,在所述元数据信息库中更新重复块的引用次数;
本发明实施例中的装置和图1对应的方法实施例的特征相对应,具体分块过程可参见附图1对应的实施例中的描述。
参见图6为另一种小文件处理装置的示意图,其中,拆分单元42可以包括:
整合单元420,用于将所述读取小文件整合为一个大文件;
第一判断单元421,用于判断所述滑动窗口的结束位置是否是所述任一小文件的尾部,如果是,将判断结果发送给拆分处理单元;如果否,将判断结果发送给第二判断单元;
第二判断单元422,用于判断滑动窗口当前覆盖的数据,是否满足数据分块条件,如果是,将判断结果发送给拆分处理单元,如果否,将滑动窗口移动一个字节后,返回执行所述第一判断单元功能以继续利用滑动窗口对所述整合后的大文件进行分块,直到完成对所述整合后大文件的数据分块;
拆分处理单元423,用于当判断所述滑动窗口的结束位置是所述任一小文件的尾部或者判断滑动窗口当前覆盖的数据满足数据分块条件时,将从上一个分块的结束位置到当前滑动窗口的结束位置之间的数据作为一个数据分块,并将滑动窗口移动一个字节后,返回执行所述第一判断单元功能以继续利用滑动窗口对所述整合后的大文件进行分块,直到完成对所述整合后大文件的数据分块。
本发明实施例所提供的小文件处理装置,针对海量小文件的重复数据删除的处理,将小文件整合为一个大文件后,对整合后的大文件整体进行分块后,再坐重复数据查找等操作,有效提供了小文件的重复数据删除效率。
参见图7,本发明实施例还提供另一种小文件处理装置,其结构和图6对应的实施例中装置的结构大致相同,与之相同的部分不再赘述。不同之处在于,还包括:
映射单元55,用于根据组成所述读取的每个小文件所需的数据块在记录文件中的地址,建立组成所述读取的每个小文件的数据块地址和小文件标识之间的对应关系。
其中,映射单元55,可以包括:
索引单元551,用于存储至少N个数据分块在记录文件中的地址信息;
映射子单元552,用于根据索引文件中组成所述读取的每个小文件所需的数据块在记录文件中的地址,建立组成所述读取的每个小文件的数据块地址和小文件标识之间的对应关系。
其中,映射子单元552,可具体用于根据所述读取的每个一个小文件的不同数据块在记录文件中的地址,建立一个的链接,从而得到N个链接且每个链接对应一个统一的小文件,按照每个链接对应的小文件的标识,将N个链接分别重命名。
本发明实施例所提供的小文件处理装置,还可以包括:
请求处理单元56,用于接收读取N个小文件中至少一个小文件的请求,读取请求中包括欲读取的小文件标识,根据组成统一小文件的数据块地址和小文件标识之间的对应关系,从记录文件中读取组成小文件的数据块。
利用本发明实施例所提供的小文件处理方法和装置,对读取的小文件整合为一个大文件后,对整合后的大文件进行整体进行分块后,再进行重复数据查找等操作,提高了小文件的重复数据删除效率。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (11)

1.一种小文件处理方法,其特征在于:
读取N个小文件,其中,所述小文件为小于预置大小的小文件;
将所述N个小文件整合为一个大文件,利用滑动窗口对所述大文件进行分块;所述利用滑动窗口对所述大文件进行分块,包括:
判断所述滑动窗口的结束位置是否是所述N个小文件中的任一小文件的尾部,如果是,则将从上一个分块的结束位置到当前滑动窗口的结束位置之间的数据作为一个数据分块;如果否,则判断滑动窗口当前覆盖的数据,是否满足数据分块条件;
如果满足所述分块条件,则将从上一个分块的结束位置到当前滑动窗口的结束位置之间的数据作为一个数据分块;如果不满足所述分块条件,则将所述滑动窗口移动一个字节,继续利用滑动窗口对所述大文件进行分块,直到完成对所述大文件的数据分块;
根据预先设置的数据块元据数信息库,在得到的数据分块中确定重复块和新块;
将确定得到的新块的元数据信息添加到所述数据块元数据信息库中,并将新块的数据添加到记录文件中,在所述数据块元数据信息库中更新重复块的引用次数。
2.根据权利要求1所述的方法,其特征在于,还包括:
根据组成所述N个小文件中的每个小文件所需的数据块在所述记录文件中的地址,建立组成所述N个小文件中的每个小文件的数据块地址和小文件标识之间的对应关系。
3.根据权利要求2所述的方法,其特征在于,所述根据组成所述N个小文件中的每个小文件所需的数据块在记录文件中的地址,建立组成所述N个小文件中的每个小文件的数据块地址和小文件标识之间的对应关系,包括:
将所述得到的数据分块在记录文件中的地址信息存储到索引文件中;
根据索引文件中组成所述N个小文件中的每个小文件所需的数据块在所述记录文件中的地址,建立组成所述N个小文件中的每个小文件的数据块地址和小文件标识之间的对应关系。
4.根据权利要求2所述的方法,其特征在于,所述根据组成所述N个小文件中的每个小文件所需的数据块在记录文件中的地址,建立组成所述N个小文件中的每个小文件的数据块地址和小文件标识之间的对应关系,包括:
根据组成所述N个小文件中的每一个小文件的所有数据块在记录文件中的地址,建立一个链接,每个链接对应所述N个小文件中的一个小文件,按照每个链接对应的小文件的标识,将建立的链接分别重命名。
5.根据权利要求1-4任一所述的方法,其特征在于,所述根据预先设置的数据块元数据信息库,在得到的数据分块中确定重复块和新块,之前还包括:将得到的数据分块,进行相互比较,将得到的数据分块中相同的数据块删除至一份。
6.根据权利要求1-4任一所述的方法,其特征在于,所述N个小文件为存储器中同一目录下的N个小文件。
7.根据权利要求2所述的方法,其特征在于,还包括:
接收读请求,所述读请求中包括欲读取的小文件标识,根据组成所述欲读取的小文件的数据块地址和小文件标识之间的所述对应关系,从记录文件中读取组成所述欲读取的小文件的数据块。
8.一种小文件处理装置,其特征在于,包括:
读取单元,用于读取N个小文件,其中,所述小文件为小于预置大小的小文件;
拆分单元,用于将所述N个小文件整合为一个大文件,对所述大文件进行数据分块;
确定单元,用于根据预先设置的数据块元数据信息库,在得到的数据分块中确定重复块和新块;
处理单元,将确定得到的新块的元数据信息添加到所述数据块元数据信息库中,并将新块的数据添加到记录文件中,在所述数据块元数据信息库中更新重复块的引用次数;
其中,所述拆分单元,包括:
整合单元,用于将所述N个小文件整合为所述大文件;
第一判断单元,用于判断滑动窗口的结束位置是否是所述N个小文件中任一小文件的尾部,如果是,将判断结果发送给拆分处理单元;如果否,将判断结果发送给第二判断单元;
第二判断单元,用于判断滑动窗口当前覆盖的数据,是否满足数据分块条件,如果是,将判断结果发送给拆分处理单元,如果否,将滑动窗口移动一个字节后,返回执行所述第一判断单元功能以继续利用滑动窗口对所述大文件进行分块,直到完成对所述大文件的数据分块;
拆分处理单元,用于当判断所述滑动窗口的结束位置是所述N个小文件中任一小文件的尾部或者判断滑动窗口当前覆盖的数据满足数据分块条件时,将从上一个分块的结束位置到当前滑动窗口的结束位置之间的数据作为一个数据分块,并将滑动窗口移动一个字节后,返回执行所述第一判断单元功能以继续利用滑动窗口对所述大文件进行分块,直到完成对所述大文件的数据分块。
9.根据权利要求8所述的装置,其特征在于,还包括:
映射单元,用于根据组成所述N个小文件中的每个小文件所需的数据块在所述记录文件中的地址,建立组成所述N个小文件中的每个小文件的数据块地址和小文件标识之间的对应关系。
10.根据权利要求9所述的装置,其特征在于,还包括:
请求处理单元,用于接收读取所述N个小文件中至少一个小文件的请求,读取请求中包括欲读取的小文件的小文件标识,根据组成所述欲读取的小文件的数据块地址和小文件标识之间的对应关系,从所述记录文件中读取所述欲读取的小文件的数据块。
11.根据权利要求9所述的装置,其特征在于,所述映射单元,包括:
索引单元,用于存储拆分得到的数据分块在所述记录文件中的地址信息;
映射子单元,用于根据索引文件中组成N个小文件中的每个小文件所需的数据块在所述记录文件中的地址,建立组成N个小文件中的每个小文件的数据块地址和小文件标识之间的对应关系。
CN201210217046.XA 2012-06-28 2012-06-28 小文件处理方法及装置 Active CN103514210B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201210217046.XA CN103514210B (zh) 2012-06-28 2012-06-28 小文件处理方法及装置
PCT/CN2013/072039 WO2014000458A1 (zh) 2012-06-28 2013-03-01 小文件处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210217046.XA CN103514210B (zh) 2012-06-28 2012-06-28 小文件处理方法及装置

Publications (2)

Publication Number Publication Date
CN103514210A CN103514210A (zh) 2014-01-15
CN103514210B true CN103514210B (zh) 2017-06-27

Family

ID=49782176

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210217046.XA Active CN103514210B (zh) 2012-06-28 2012-06-28 小文件处理方法及装置

Country Status (2)

Country Link
CN (1) CN103514210B (zh)
WO (1) WO2014000458A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104965845B (zh) * 2014-12-30 2017-04-12 浙江大华技术股份有限公司 一种小文件的定位方法及系统
CN104765876B (zh) * 2015-04-24 2017-11-10 中国人民解放军信息工程大学 海量gnss小文件云存储方法
CN106911743B (zh) * 2015-12-23 2019-03-26 中兴通讯股份有限公司 小文件的写聚合、读聚合方法及系统和客户端
CN106021537A (zh) * 2016-05-27 2016-10-12 成都索贝数码科技股份有限公司 一种基于fics对象存储的数据剔除方法与系统
CN106960055B (zh) * 2017-04-01 2020-08-04 广东浪潮大数据研究有限公司 一种文件删除方法及装置
CN107341227B (zh) * 2017-07-01 2020-12-25 中国科学院计算机网络信息中心 文件处理方法、服务器及计算机可读存储介质
CN107357921A (zh) * 2017-07-21 2017-11-17 北京奇艺世纪科技有限公司 一种小文件存储定位方法及系统
CN107506447A (zh) * 2017-08-25 2017-12-22 郑州云海信息技术有限公司 一种基于本地文件系统的小文件读写方法及系统
CN107807989B (zh) * 2017-11-03 2020-03-24 绿湾网络科技有限公司 小文件处理方法及装置
CN109947721B (zh) * 2017-12-01 2021-08-17 北京安天网络安全技术有限公司 一种小文件处理方法和装置
CN111125034A (zh) * 2019-12-27 2020-05-08 深信服科技股份有限公司 一种聚合对象数据处理方法、系统及相关设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706825A (zh) * 2009-12-10 2010-05-12 华中科技大学 一种基于文件内容类型的重复数据删除方法
CN101968796A (zh) * 2010-09-09 2011-02-09 北京邮电大学 一种双向并发执行的文件级可变长数据分块方法
CN102467571A (zh) * 2010-11-17 2012-05-23 英业达股份有限公司 重复数据删除的数据区块切分方法与新增方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2896603B1 (fr) * 2006-01-20 2008-05-02 Thales Sa Procede et dispositif pour extraire des informations et les transformer en donnees qualitatives d'un document textuel
US20110320493A1 (en) * 2006-01-20 2011-12-29 Thales Method and device for retrieving data and transforming same into qualitative data of a text-based document
KR100717064B1 (ko) * 2006-03-03 2007-05-10 삼성전자주식회사 소프트웨어 업데이트 실행 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101706825A (zh) * 2009-12-10 2010-05-12 华中科技大学 一种基于文件内容类型的重复数据删除方法
CN101968796A (zh) * 2010-09-09 2011-02-09 北京邮电大学 一种双向并发执行的文件级可变长数据分块方法
CN102467571A (zh) * 2010-11-17 2012-05-23 英业达股份有限公司 重复数据删除的数据区块切分方法与新增方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
网络备份中重复数据删除技术研究;杨天明;《中国博士学位论文全文数据库信息科技辑》;20110715;I138-13(论文第24-28页、第41-42页) *

Also Published As

Publication number Publication date
CN103514210A (zh) 2014-01-15
WO2014000458A1 (zh) 2014-01-03

Similar Documents

Publication Publication Date Title
CN103514210B (zh) 小文件处理方法及装置
US20200349139A1 (en) Stream selection for multi-stream storage devices
US20200257669A1 (en) Kvs tree
US20200334295A1 (en) Merge tree garbage metrics
US20200334294A1 (en) Merge tree modifications for maintenance operations
CN105468642A (zh) 数据的存储方法及装置
CN103279532B (zh) 多集合元素去重并标识所属集合的过滤系统及其方法
CN107045531A (zh) 一种优化hdfs小文件存取的系统及方法
EP3316150B1 (en) Method and apparatus for file compaction in key-value storage system
US20140250281A1 (en) Learning machine to optimize random access in a storage system
WO2013152678A1 (zh) 元数据查询方法和装置
CN107209714A (zh) 分布式存储系统及分布式存储系统的控制方法
CN104092670A (zh) 网络缓存服务器处理文件的方法及处理缓存文件的设备
CN104503703B (zh) 缓存的处理方法和装置
CN103914483B (zh) 文件存储方法、装置及文件读取方法、装置
CN112262379B (zh) 存储数据项并且标识存储的数据项
CN110287152B (zh) 一种数据管理的方法以及相关装置
CN107707600A (zh) 一种数据存储方法及装置
CN104021223A (zh) 一种集群数据库测点的访问方法及装置
CN105243027A (zh) 在存储设备中存储数据的方法和存储控制器
CN104424189B (zh) 基于云平台的定位解算方法和系统
US9275091B2 (en) Database management device and database management method
CN109144431A (zh) 数据块的缓存方法、装置、设备及存储介质
CN104298614A (zh) 数据块在存储设备中存储方法和存储设备
JP5655764B2 (ja) サンプリング装置、サンプリングプログラム、およびその方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant