CN102713878A - 在分布式存储系统中管理文件的装置及方法 - Google Patents

在分布式存储系统中管理文件的装置及方法 Download PDF

Info

Publication number
CN102713878A
CN102713878A CN201080046724XA CN201080046724A CN102713878A CN 102713878 A CN102713878 A CN 102713878A CN 201080046724X A CN201080046724X A CN 201080046724XA CN 201080046724 A CN201080046724 A CN 201080046724A CN 102713878 A CN102713878 A CN 102713878A
Authority
CN
China
Prior art keywords
file
time
server
constantly
copy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201080046724XA
Other languages
English (en)
Inventor
金庆洙
千宰范
金周铉
辛奉植
陈奉周
金亨哲
金荣奎
崔宣
李九镛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PSPACE Inc
Original Assignee
PSPACE Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PSPACE Inc filed Critical PSPACE Inc
Publication of CN102713878A publication Critical patent/CN102713878A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/185Hierarchical storage management [HSM] systems, e.g. file migration or policies thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/16Protection against loss of memory contents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1456Hardware arrangements for backup

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种在分布式存储系统中管理文件的装置及方法。根据本发明的分布式存储系统中的文件管理装置及方法,其特征在于,基于当前时刻、文件的生成时刻、修改时刻、最近浏览时刻中的至少一种来计算文件的维持时间,在上述文件的维持时间大于已设定的基准时间的情况下将相应文件选定为归档文件,将被选定为上述归档文件的文件的原本及副本的一部分或全部从活动服务器再定位到归档服务器或从活动磁盘再定位到归档磁盘。并且,特征在于,在对于被选定为上述归档文件的文件的统计期间内的浏览次数为预定的阈值以上或发生文件修改/变更的情况下,将相应文件的原本及副本的一部分或全部从归档服务器重新恢复到活动服务器或从归档磁盘重新恢复到活动磁盘。

Description

在分布式存储系统中管理文件的装置及方法
技术领域
本发明涉及在分布式存储系统(Distributed Storage System,DSS)中管理文件的装置及方法,更详细说,涉及一种在分布式存储系统中综合考虑文件的老化程度、访问次数、修改与否等来自动执行活动文件(active file)与归档文件(archived file)的转换的文件管理装置及方法。
背景技术
分布式存储系统(Distributed Storage System)或并行存储系统(Parallel Storage System)是将多台存储装置虚拟化为一台存储装置的存储系统。在这种分布式存储系统中,在存储一个文件时,分在虚拟化的多台存储装置中存储使用,而不是存储在一台存储装置。
就像以往的磁盘阵列(Redundant Array of Inexpensive Devices,RAID)存储装置将多个硬盘整合为一个存储装置,构成更大、更快、更稳定的存储装置,分布式存储系统也能够将多台存储装置构成为一台存储装置,提供更大、更快、更稳定的存储系统功能。
这种分布式存储系统技术在云计算(Cloud Computing)等中作为核心技术利用,构成分布式存储系统的存储装置的数量越增加,容量和性能也成正比地增加,使总营造成本(Total Cost of Owner-ship)的费用对比效果达到最大化,因此能够提供以往的存储系统无法提供的高水平的性能和扩展性。
与此相关,图1中例示出根据现有技术的分布式存储系统的结构。
参照图1,一般来说,分布式存储系统由将各个文件分为多个并分布存储的多个存储服务器(这相当于虚拟的一个存储服务器)110和生成对于上述文件的元数据来进行管理的元数据服务器120等构成,当至少一个客户端130通过网络等请求预定文件的输入/输出时,元数据服务器120提供要分布存储/存储有相应文件的存储服务器110的信息,由此,客户端130访问该存储服务器110,执行相应文件的输入/输出来实现服务。(作为参考,本发明中的术语“文件”指的是由客户端浏览或请求的内容,是包含文件、数据、内容、组块(chunk)等的含义。)
另一方面,在这种分布式存储系统中,为了有效地保管文件,而将多个存储服务器110分成活动服务器(active server)111和归档服务器(archive server)112,并将相对老化的文件(数据、内容)保管于性能相对低的归档服务器112,从而有效利用有限的存储介质。
但是,根据现有技术的文件管理方法,由于利用了只是单纯依赖文件(数据、内容)的老化程度(age)来将文件(数据、内容)分成活动文件(active file)和归档文件(archived file)并将老化的归档文件备份(backup)到性能相对低的归档服务器112的方式,导致虽生成已久但仍经常被客户端请求的文件也存储于归档服务器,因此存在系统性能降低的问题。
即,在现有技术中,由于在完全没有考虑到文件的当前访问次数或修改与否等的情况下只根据老化程度来选定归档文件,因而存在经常被客户端请求的文件也存储于归档服务器的问题,并且,一旦被选定为归档文件而移动到归档服务器之后,即使日后经常被客户端浏览,也无法自动恢复成活动文件,因而存在系统的整体性能和效率降低的问题。
发明内容
技术问题
本发明是为了解决如上所述的问题而提出的,本发明的目的在于,提供一种能够在分布式存储系统中执行有效的文件(数据、内容)管理和经济的磁盘管理的文件管理装置及方法。
本发明的再一目的在于,提供一种在分布式存储系统中综合考虑文件的老化程度、访问次数、修改与否等来自动执行活动文件(activefile)与归档文件(archived file)的转换的文件管理装置及方法。
本发明的另一目的在于,提供一种在分布式存储系统中预先周期性地对文件进行再定位(relocation),等到任意的文件的浏览数增加而超过规定水平或发生文件内容的修改/变更就自恢复(restore),从而有效管理文件的文件管理装置及方法。
本发明的另一目的在于,在分布式存储系统中能够有效实现磁盘到磁盘(Disk to Disk,D2D)级别的信息生命周期管理(InformationLifecycle Management,ILM)的文件管理装置及方法。
本发明的另一目的在于,提供一种有效利用如上所述的文件管理装置及方法的分布式存储系统。
解决问题的手段
为了实现上述目的,根据本发明的一实施方式的分布式存储系统中的文件管理装置,其特征在于,包括:维持时间计算部,其基于当前时刻、文件的生成时刻、修改时刻、最近浏览时刻中的至少一种来计算文件的维持时间;文件选定部,其在上述文件的维持时间大于已设定的基准时间的情况下将相应文件选定为归档文件(archived file);以及文件管理部,将被选定为上述归档文件的文件的原本及副本的一部分或全部从活动服务器(active server)再定位到归档服务器(archiveserver)或从活动磁盘(active disk)再定位到归档磁盘(archive disk)。
并且,根据本发明的一实施方式的分布式存储系统,包括:用于分布存储文件的、包括活动服务器(active server)和归档服务器(archiveserver)的多个存储服务器;以及管理对于上述文件的元数据的元数据服务器,上述分布式存储系统的特征在于,上述元数据服务器基于当前时刻、文件的生成时刻、修改时刻、最近浏览时刻中的至少一种来计算文件的维持时间,在上述文件的维持时间大于已设定的基准时间的情况下,上述元数据服务器将相应文件的原本及副本的一部分或全部从活动服务器再定位到归档服务器。
并且,根据本发明的再一实施方式的分布式存储系统,包括:用于分布存储文件的、包括活动磁盘(active disk)和归档磁盘(archivedisk)的至少一个存储服务器;以及管理对于上述文件的元数据的元数据服务器,上述分布式存储系统的特征在于,上述元数据服务器基于当前时刻、文件的生成时刻、修改时刻、最近浏览时刻中的至少一种来计算文件的维持时间,在上述文件的维持时间大于已设定的基准时间的情况下,上述元数据服务器将相应文件的原本及副本的一部分或全部从活动磁盘再定位到归档磁盘。
另一方面,根据本发明的一实施方式的分布式存储系统中的文件管理方法,其特征在于,包括如下步骤:基于当前时刻、文件的生成时刻、修改时刻、最近浏览时刻中的至少一种来计算文件的维持时间的步骤;在上述文件的维持时间大于已设定的基准时间的情况下将相应文件选定为归档文件(archived file)的步骤;以及将被选定为上述归档文件的文件的原本及副本的一部分或全部从活动服务器(activeserver)再定位到归档服务器(archive server)或从活动磁盘(active disk)再定位到归档磁盘(archive disk)的步骤。
发明的效果
根据本发明,在分布式存储系统中综合考虑文件的老化程度(age)、访问次数、修改与否等来自动执行活动文件和归档文件的转换,从而能够进行有效的文件管理的经济的磁盘管理,由此具有能够提高系统性能和效率的效果。
并且,根据本发明,在分布式存储系统中,如果被再定位到归档文件的任意的文件的浏览次数超过规定水平或发生文件的修改/变更就自动恢复(restore),从而具有能够建立有效的备份/恢复系统的效果。
并且,根据本发明,在分布式存储系统中有效地实现磁盘到磁盘(Disk to Disk,D2D)级别的信息生命周期管理(InformationLifecycle Management,ILM),从而将既老且活用性低的文件移动至低费用的磁盘,由此具有节省系统的整体费用的效果。
附图说明
图1是根据现有技术的分布式存储系统的结构图。
图2是根据本发明的一实施例的分布式存储系统的结构图。
图3是根据本发明的再一实施例的分布式存储系统的结构图。
图4是根据本发明的一实施例的存储服务器的结构图。
图5是根据本发明的一实施例的文件管理装置的详细结构图。
图6是根据本发明的再一实施例的文件管理装置的详细结构图。
图7是根据本发明的一实施例的文件管理方法的流程图。
图8是根据本发明的再一实施例的文件管理方法的流程图。
图9是例示出根据本发明的利用对话访问标记的浏览次数统计的方式的图。
具体实施方式
以下,参照附图及优选实施例对本发明进行详细的说明。作为参考,在以下的说明中,对于可能会不必要地混淆本发明的主旨的公知功能及结构,将省去详细的说明。
在对本发明进行详细说明之前,先简单说明信息生命周期管理(Information Lifecycle Management,ILM)。
一般而言,信息(文件、数据、内容等)具有生成、使用、长期保管、删除等生命期(lifecycle)。ILM考虑到这种信息的生命期(即,考虑何种信息处于何种周期)与所处状况对应地进行管理。即,ILM通过根据信息的价值变化分别使用最佳的存储器(storage)来有效管理逐渐增加的数据。
例如,大部分情况下刚生成之后的文件经常被使用,且频繁发生修改或浏览等作业。因此,优选为将这种文件存储到加宽带域、增加副本的个数、性能好的存储介质中,以容易接近文件。相比之下,对老化的信息的浏览次数也变得少、且修改作业也变得几乎没有。由此,优选为将这种文件存储到带域无需大且性能相对低的大容量存储介质中。
像这样,如果任意的信息(文件、数据、内容等)的利用度降低就使其从活动磁盘(active disk)移动到归档磁盘(archive disk)来降低存储系统的费用,将这种方式称作磁盘到磁盘(Disk to Disk,D2D)备份(backup)。并且,本发明提示出在这种磁盘到磁盘(Disk to Disk,D2D)级别上实现更加有效的ILM的方案,尤其是,提示出一种克服只是单纯地考虑文件的老化程度(age)的以往的备份方式的局限性,综合考虑访问次数、修改与否等的有效的文件管理方案。
图2中例示出根据本发明的一实施例的分布式存储系统的结构。
参照图2,根据本发明的一实施例的分布式存储系统由包括活动服务器(active server)211和归档服务器(archive server)212的多个存储服务器210、生成要存储于上述多个存储服务器210中的文件的元数据并进行管理的元数据服务器220以及对于上述文件选定活动文件(active file)和归档文件(archived file)并进行管理的文件管理装置240等构成。在这里,优选为活动服务器211由多个存储服务器210中相对高速的存储服务器实现,且归档服务器212由多个存储服务器210中相对低速且大容量的服务器实现。并且,上述文件管理装置240将被选定为归档文件的文件的原本及副本的一部分或全部从活动服务器再定位(relocation)(或备份)到归档服务器,从而进行有效的文件管理和经济的磁盘管理来提高系统的整体性能。
并且,图3中例示出根据本发明的再一实施例的分布式存储系统的结构。
参照图3,根据本发明的再一实施例的分布式存储系统由包括活动服务器311和归档服务器312的多个存储服务器310、生成对于要存储于上述多个存储服务器310中的文件的元数据并进行管理的元数据服务器320等构成,尤其是,上述元数据服务器320包括根据本发明的文件管理装置的功能,从而将被选定为归档文件的文件的原本及副本的一部分或全部从活动服务器再定位(relocation)(或备份)到归档服务器,从而进行有效的文件管理和经济的磁盘管理。
补充说明,根据本发明的文件管理装置在分布式存储系统中由另外的装置或服务器构成(参照图2)或者由元数据服务器自身或一部分构成(参照图3),将被选定为归档文件的文件的原本及副本的一部分或全部从高速活动服务器备份到低速归档服务器而进行保管,从而有效利用有限的存储介质来提高系统性能。
另一方面,虽未图示,但在根据本发明的再一实施方式的分布式存储系统中,用于分布存储文件的存储服务器可不分成活动服务器和归档服务器,而是使各个存储服务器包括活动磁盘和/或归档磁盘。图4正表示这种结构,图4表示一个存储服务器410包括多个活动磁盘411和归档磁盘412的结构。在此情况下,根据本发明的文件管理装置将被选定为归档文件的文件的原本及副本的一部分或全部从活动磁盘再定位到归档磁盘并进行保管,这可通过从一个存储服务器内的活动磁盘再定位到归档磁盘或从第一存储服务器的活动磁盘再定位到第二存储服务器的归档磁盘来实现。
与此相关,图5中例示出根据本发明的一实施例的文件管理装置的详细结构,如图所示,根据本发明的一实施例的文件管理装置240包括维持时间计算部241、文件选定部242、文件管理部243等,这尤其可有用地适用于图2中所示的分布式存储系统。
并且,图6中例示出根据本发明的再一实施例的文件管理装置320的详细结构,如图所示,根据本发明的再一实施例的文件管理装置320包括维持时间计算部321、文件选定部322、文件管理部323、元数据管理部324、存储装置管理部325等,这尤其可有用地适用于图3中所示的分布式存储系统。
另一方面,图7中例示出根据本发明的一实施例的分布式存储系统中的文件管理方法的流程图,具体表示的是,基于当前时刻、文件的生成时刻、修改时刻、最近浏览时刻等来计算文件的第一维持时间及第二维持时间,并根据第一维持时间及第二维持时间来选定归档文件而将相应文件的原本及副本的一部分或全部从活动服务器备份到归档服务器或从活动磁盘备份到归档磁盘。
并且,图8表示根据本发明的再一实施例的分布式存储系统中的文件管理方法的流程图,具体表示的是,在对于被选定为归档文件的文件的统计期间内的浏览次数为预定的阈值以上的情况下,将相应文件从归档服务器重新恢复到活动服务器或从归档磁盘重新恢复到活动磁盘。
以下,参照图2至图9对根据本发明的分布式存储系统中的文件管理装置及方法进行详细说明。作为参考,在以下的说明中,即便本发明的实施方式多少相异,对于实际上相同或类似的结构或功能,将一同进行说明而不将其区分。
首先,参照图5及图6,在根据本发明的文件管理装置中,维持时间计算部241、321基于当前时刻、文件的生成时刻、修改时刻、最近浏览时刻等来计算文件的维持时间(参照图7的步骤S710)。
例如,维持时间计算部241、321可为了考虑生成或修改信息的时间点而从当前时刻减去文件的生成时刻或修改时刻来计算第一维持时间,或者维持时间计算部241、321可为了考虑最后浏览信息的时间点而从当前时刻减去文件的最近浏览时刻来计算第二维持时间。
作为参考,在本发明中,把为了计算文件的维持时间而从当前时刻减去的文件的生成时刻、修改时刻、最近浏览时刻等称为数据时刻,这可通过用户设定或管理员设定实现。在此情况下,可通过以下数学式1定义文件的维持时间。
[数学式1]
文件的维持时间=当前时刻-数据时刻
并且,在根据本发明的文件管理装置中,文件选定部242、322对如上所述地计算出的文件的维持时间与已设定的基准时间进行比较来选定活动文件和归档文件。
具体而言,文件选定部242、322对从当前时刻减去文件的生成时刻或最近修改时刻而得的第一维持时间和基准时间进行比较(参照图7的步骤S720),如果第一维持时间大于基准时间,就将相应文件选定为归档文件(archived file)(参照图7的步骤S730)。
并且,文件选定部242、322可对从当前时刻减去文件的最近浏览时刻而得的第二维持时间与基准时间进行比较(参照图7的步骤S740),并将其结果传输到文件管理部243、323。
于是,在根据本发明的文件管理装置中,文件管理部243、323将根据文件选定部242、322中的选定结果被选定为归档文件的文件的原本及副本的一部分或全部从活动服务器(active server)备份到归档服务器(archive server)或从活动磁盘(active disk)备份到归档磁盘(archive disk)。
在此情况下,文件管理部243、323在第一维持时间大于基准时间且第二维持时间小于基准时间的情况下,文件管理部243、323将被选定为归档文件的文件的原本及副本的一部分从活动服务器备份到归档服务器或从活动磁盘备份到归档磁盘(第一阶段备份)(参照图7的步骤S750),在第一维持时间及第二维持时间大于基准时间的情况下,文件管理部243、323将被选定为归档文件的文件的原本及副本的全部从活动服务器备份到归档服务器或从活动磁盘备份到归档磁盘(第二阶段备份)(参照图7的步骤S750)。即,根据本发明的优选实施例,不仅考虑到文件的生成时间或修改时间,而且还一同考虑文件的最近浏览时间,由此执行首先对被选定为归档文件的文件(原本及副本)的一部分进行备份日后再对全部进行备份的二阶段备份。
另一方面,这种多阶段备份可通过用户(管理员)的设定执行或自动执行,在此情况下,对于备份一部分文件的第一阶段备份,可通过以下数学式2设定备份个数(N)。
[数学式2]
N=Ntotal*(offset_time_1/tmax)
在这里,Ntotal为相应文件的原本及副本的总个数,offset_time_1为从第一维持时间减去基准时间的值,tmax为当从第二维持时间减去基准时间的值为0时的offset_time_1的值
并且,如此实现的情况下,在维持时间计算部241、321中预先按以下数学式3计算偏移时间(offset_time),在文件选定部242、322中判断偏移时间是阳(+)还是阴(-)来选定活动文件和归档文件。
[数学式3]
偏移时间=(当前时刻-数据时刻)-基准时间
如上所述,在本发明中进行两个阶段备份的理由是,第一次情况(参照图7的步骤S750)是判断成到达完全备份之前的状态的情况,在这一时期,在某种程度上存在相应文件重新被使用的概率,因而文件(原本及副本)中的一部分会留在性能好的活动服务器中待客户端浏览。
并且,根据本发明的优选实施例,文件管理部243、323在对被选定为归档文件的文件的原本及副本的一部分或全部进行备份的情况下,可通过文件单位或组块(chunk)单位进行备份。
另一方面,即使像这样选定归档文件而将相应文件的原本及副本的一部分或全部备份(再定位)到归档服务器或归档磁盘,也能继续进行管理而等到浏览次数重新变多时使所备份的文件(原本及副本)的一部分或全部恢复到活动服务器或活动磁盘。
具体而言,文件选定部242、322对被选定为归档文件的文件持续观察预定的统计期间内的浏览次数(参照图8的步骤S810),并对统计期间内的浏览次数与预定的阈值进行比较(参照图8的步骤S820),如果所统计的浏览次数为阈值以上,就将相应文件选定为活动文件并从归档服务器重新恢复到活动服务器或从归档磁盘重新恢复到活动磁盘(参照图8的步骤S830)。并且,在被选定为归档文件的文件被修改的情况下,文件选定部242、322可将相应文件选定为活动文件并从归档服务器恢复到活动服务器或从归档磁盘恢复到活动磁盘。
作为参考,图9是例示出可适用于本发明的利用对话访问标记的浏览次数统计方式的图。图9中所示的浏览次数统计方式如下:用与2的次方的对话相当的长度设定统计期间,并利用对于与统计期间相当的所有对话的浏览次数、对于最近的新的对话的浏览次数及对话访问标记(session access flag)来有效地减少存储器(memory)使用量和演算量。
即,在图9的(b)的情况下,当前(第n个)统计期间内的浏览次数的计算方法为,从上一个(第n-1个)统计期间内的浏览次数[38]减去相当于最老的对话的浏览次数并加上新的对话期间的浏览次数[5],在此情况下,相当于最老的对话的浏览次数未留在存储器(memory)中,因而通过将在上一次统计期间内统计出的所有浏览次数[38]除以相当于上一次统计期间的对话中对话访问标记为1的对话的数[7]之后乘以上述最老的对话的对话访问标记值[1]来求得相当于最老的对话的浏览次数。由此,相当于最老的对话的浏览次数为约5.43[=(38/7)*1],这是对于对话访问标记为1的对话(即,哪怕有过一次浏览的对话)的浏览次数的平均。与此相关的更详细的说明可参照于2009年11月3日申请的专利第10-2009-0105661号“在分布式存储系统中管理文件的装置及方法:上述专利申请包含结合在本说明书中。
最后,图6的元数据管理部324和存储装置管理部325是根据本发明的文件管理装置由元数据服务器实现的情况下可追加包括的结构要素。
对此简单说明的话,元数据管理部324生成对于要分布存储于多个存储服务器(活动服务器、归档服务器)中的文件的元数据并进行管理,存储装置管理部325管理对于多个存储服务器的性能及容量信息。由此,文件管理部323可与元数据管理部324和/或存储装置管理部325联动地进一步有效地管理文件。
另一方面,根据本发明的在分布式存储系统中管理文件的方法可通过包含用于执行由计算机实现的各种动作的程序指令的计算机可读记录介质来实施。上述计算机可读记录介质中,可以单独地或组合地包含程序指令、数据文件、数据结构等。上述记录介质可以是为了本发明而特别地进行设计并构成的或者是对于软件技术人员公知并可使用的。作为计算机可读记录介质的例子包括为了存储并执行程序指令而特别构成的硬件装置,如:硬盘、软盘及磁带等磁性媒体,CD-ROM、DVD等光记录介质,软式光盘等磁-光介质,随机只读存储器,随机读取存储器,闪存等。作为程序指令的例子除了包括由编译器生成的机器代码以外,还包括通过使用解释器等可由计算机执行的高级语言代码。
以上参照优选实施例对本发明进行了说明,但是本发明所属技术领域的普通技术人员在不变更本发明的技术思想或必要技术特征的情况下,能够以其它具体的多种方式实施本发明,因此应当理解为,以上记载的实施例在所有方面均为例示性的实施例,而并非限定本发明。
此外,本发明的范围由所附的权利要求书进行限定,并非由上述详细的说明进行限定,从权利要求书的含义及范围及与之均等概念导出的所有变更或变形的形态,应当被解释为包含于本发明。

Claims (27)

1.一种文件管理装置,用于在分布式存储系统中管理文件,其特征在于,包括:
维持时间计算部,其基于当前时刻、文件的生成时刻、修改时刻、最近浏览时刻中的至少一种来计算文件的维持时间;
文件选定部,其在所述文件的维持时间大于已设定的基准时间的情况下将相应文件选定为归档文件;以及
文件管理部,将被选定为所述归档文件的文件的原本及副本的一部分或全部从活动服务器再定位到归档服务器或从活动磁盘再定位到归档磁盘。
2.根据权利要求1所述的文件管理装置,其特征在于,
所述维持时间计算部计算出从当前时刻减去文件的生成时刻或修改时刻的第一维持时间以及从当前时刻减去文件的最近浏览时刻的第二维持时间;
在所述第一维持时间大于所述基准时间且所述第二维持时间小于所述基准时间的情况下,所述文件管理部将被选定为所述归档文件的文件的原本及副本的一部分从活动服务器再定位到归档服务器或从活动磁盘再定位到归档磁盘。
3.根据权利要求2所述的文件管理装置,其特征在于,
通过以下数学式来设定所述再定位到归档服务器或归档磁盘的文件的原本及副本的一部分(N),
[数学式]
N=Ntotal*(offset_time_1/tmax)
(在这里,Ntotal为相应文件的原本及副本的总个数,offset_time_1为从第一维持时间减去基准时间的值,tmax为当从第二维持时间减去基准时间的值为0时的offset_time_1的值)。
4.根据权利要求1所述的文件管理装置,其特征在于,
所述文件管理部计算出从当前时刻减去文件的生成时刻或修改时刻的第一维持时间以及从当前时刻减去文件的最近浏览时刻的第二维持时间,
在所述第一维持时间及所述第二维持时间大于所述基准时间的情况下,所述文件管理部将被选定为所述归档文件的文件的原本及副本的全部从活动服务器再定位到归档服务器或从活动磁盘再定位到归档磁盘。
5.根据权利要求1至4中任一项所述的文件管理装置,其特征在于,
在对于被选定为所述归档文件的文件的统计期间内的浏览次数为预定的阈值以上的情况下,所述文件选定部将相应文件选定为活动文件,
所述文件管理部将被选定为所述活动文件的文件的原本及副本的一部分或全部从归档服务器恢复到活动服务器或从归档磁盘恢复到活动磁盘。
6.根据权利要求1至4中任一项所述的文件管理装置,其特征在于,
在被选定为所述归档文件的文件被修改的情况下,所述文件选定部将相应文件选定为活动文件,
所述文件管理部将被选定为所述活动文件的文件的原本及副本的一部分或全部从归档服务器恢复到活动服务器或从归档磁盘恢复到活动磁盘。
7.根据权利要求1至4中任一项所述的文件管理装置,其特征在于,所述文件管理部以文件单位或组块单位对被选定为所述归档文件的文件的原本及副本的一部分或全部进行再定位。
8.根据权利要求1至4中任一项所述的文件管理装置,其特征在于,相对于所述归档服务器的性能,所述活动服务器的性能更好。
9.根据权利要求1至4中任一项所述的文件管理装置,其特征在于,还包括元数据管理部,该元数据管理部管理对于从所述客户端请求的文件的元数据。
10.根据权利要求1至4中任一项所述的文件管理装置,其特征在于,还包括存储服务器管理部,该存储服务器管理部管理对于所述多个存储装置的性能及容量信息。
11.一种分布式存储系统,包括:
用于分布存储文件的、包括活动服务器和归档服务器的多个存储服务器;以及
管理对于所述文件的元数据的元数据服务器,
所述分布式存储系统的特征在于,
所述元数据服务器基于当前时刻、文件的生成时刻、修改时刻、最近浏览时刻中的至少一种来计算文件的维持时间,
在所述文件的维持时间大于已设定的基准时间的情况下,所述元数据服务器将相应文件的原本及副本的一部分或全部从活动服务器再定位到归档服务器。
12.根据权利要求11所述的分布式存储系统,其特征在于,在对于被选定为所述归档文件的文件的统计期间内的浏览次数为预定的阈值以上的情况下,所述元数据服务器将相应文件的原本及副本的一部分或全部从归档服务器恢复到活动服务器。
13.根据权利要求11或12所述的分布式存储系统,其特征在于,所述元数据服务器计算出从当前时刻减去文件的生成时刻或修改时刻的第一维持时间以及从当前时刻减去文件的最近浏览时刻的第二维持时间,在所述第一维持时间大于所述基准时间且所述第二维持时间小于所述基准时间的情况下,所述元数据服务器将被选定为所述归档文件的文件的原本及副本的一部分从活动服务器再定位到归档服务器。
14.根据权利要求13所述的分布式存储系统,其特征在于,
通过以下数学式来设定所述再定位到归档服务器文件的原本及副本的一部分(N),
[数学式]
N=Ntotal*(offset_time_1/tmax)
(在这里,Ntotal为相应文件的原本及副本的总个数,offset_time_1为从第一维持时间减去基准时间的值,tmax为当从第二维持时间减去基准时间的值为0时的offset_time_1的值)。
15.根据权利要求11或12所述的分布式存储系统,其特征在于,所述元数据服务器计算出从当前时刻减去文件的生成时刻或修改时刻的第一维持时间以及从当前时刻减去文件的最近浏览时刻的第二维持时间,在所述第一维持时间及所述第二维持时间大于所述基准时间的情况下,所述元数据服务器将被选定为所述归档文件的文件的原本及副本的全部从活动服务器再定位到归档服务器。
16.一种分布式存储系统,包括:
用于分布存储文件的、包括活动磁盘和归档磁盘的至少一个存储服务器;以及
管理对于所述文件的元数据的元数据服务器,
所述分布式存储系统的特征在于,
所述元数据服务器基于当前时刻、文件的生成时刻、修改时刻、最近浏览时刻中的至少一种来计算文件的维持时间,
在所述文件的维持时间大于已设定的基准时间的情况下,所述元数据服务器将相应文件的原本及副本的一部分或全部从活动磁盘再定位到归档磁盘。
17.根据权利要求16所述的分布式存储系统,其特征在于,在对于被选定为所述归档文件的文件的统计期间内的浏览次数为预定的阈值以上的情况下,所述元数据服务器将相应文件的原本及副本的一部分或全部从归档磁盘恢复到活动磁盘。
18.根据权利要求16或17所述的分布式存储系统,其特征在于,所述元数据服务器计算出当前时刻减去文件的生成时刻或修改时刻的第一维持时间以及从当前时刻减去文件的最近浏览时刻的第二维持时间,在所述第一维持时间大于所述基准时间且所述第二维持时间小于所述基准时间的情况下,所述元数据服务器将被选定为所述归档文件的文件的原本及副本的一部分从活动磁盘再定位到归档磁盘。
19.根据权利要求18所述的分布式存储系统,其特征在于,
通过以下数学式来设定再定位到所述归档磁盘的文件的原本及副本的一部分(N),
[数学式]
N=Ntotal*(offset_time_1/tmax)
(在这里,Ntotal为相应文件的原本及副本的总个数,offset_time_1为从第一维持时间减去基准时间的值,tmax为当从第二维持时间减去基准时间的值为0时的offset_time_1的值)。
20.根据权利要求16或17所述的分布式存储系统,其特征在于,所述元数据服务器计算出从当前时刻减去文件的生成时刻或修改时刻的第一维持时间以及从当前时刻减去文件的最近浏览时刻的第二维持时间,在所述第一维持时间及所述第二维持时间大于所述基准时间的情况下,所述元数据服务器将被选定为所述归档文件的文件的原本及副本的全部从活动磁盘再定位到归档磁盘。
21.一种文件管理方法,用于在分布式存储系统中管理文件,其特征在于,包括如下步骤:
基于当前时刻、文件的生成时刻、修改时刻、最近浏览时刻中的至少一种来计算文件的维持时间的步骤;
在所述文件的维持时间大于已设定的基准时间的情况下将相应文件选定为归档文件的步骤;以及
将被选定为所述归档文件的文件的原本及副本的一部分或全部从活动服务器再定位到归档服务器或从活动磁盘再定位到归档磁盘的步骤。
22.根据权利要求21所述的文件管理方法,其特征在于,
所述计算文件的维持时间的步骤包括计算出从当前时刻减去文件的生成时刻或修改时刻的第一维持时间以及从当前时刻减去文件的最近浏览时刻的第二维持时间的过程,
所述再定位的步骤中,在所述第一维持时间大于所述基准时间且所述第二维持时间小于所述基准时间的情况下,将被选定为所述归档文件的文件的原本及副本的一部分从活动服务器再定位到归档服务器或从活动磁盘再定位到归档磁盘。
23.根据权利要求22所述的文件管理方法,其特征在于,
通过以下数学式来设定所述再定位到归档服务器或归档磁盘的文件的原本及副本的一部分(N),
[数学式]
N=Ntotal*(offset_time_1/tmax)
(在这里,Ntotal为相应文件的原本及副本的总个数,offset_time_1为从第一维持时间减去基准时间的值,tmax为当从第二维持时间减去基准时间的值为0时的offset_time_1的值)。
24.根据权利要求21所述的文件管理方法,其特征在于,
所述计算文件的维持时间的步骤包括计算出从当前时刻减去文件的生成时刻或修改时刻的第一维持时间以及从当前时刻减去文件的最近浏览时刻的第二维持时间的过程,
所述再定位的步骤中,在所述第一维持时间及所述第二维持时间大于所述基准时间的情况下,将被选定为所述归档文件的文件的原本及副本的全部从活动服务器再定位到归档服务器或从活动磁盘再定位到归档磁盘。
25.根据权利要求21至24中任一项所述的文件管理方法,其特征在于,所述再定位的步骤中,以文件单位或组块单位对被选定为所述归档文件的文件的原本及副本的一部分或全部进行再定位。
26.根据权利要求21至24中任一项所述的文件管理方法,其特征在于,还包括如下步骤:
在对于被选定为所述归档文件的文件的统计期间内的浏览次数为预定的阈值以上的情况下将相应文件选定为活动文件的步骤;以及
将被选定为所述活动文件的文件的原本及副本的一部分或全部从归档服务器恢复到活动服务器或从归档磁盘恢复到活动磁盘的步骤。
27.一种计算机可读记录介质,其特征在于,在该计算机可读记录介质中记录有用于执行根据权利要求21至24中任一项所述的文件管理方法的程序。
CN201080046724XA 2009-11-06 2010-11-04 在分布式存储系统中管理文件的装置及方法 Pending CN102713878A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020090106949A KR100979750B1 (ko) 2009-11-06 2009-11-06 분산 저장 시스템에서 파일을 관리하는 장치 및 방법
KR10-2009-0106949 2009-11-06
PCT/KR2010/007766 WO2011056002A2 (ko) 2009-11-06 2010-11-04 분산 저장 시스템에서 파일을 관리하는 장치 및 방법

Publications (1)

Publication Number Publication Date
CN102713878A true CN102713878A (zh) 2012-10-03

Family

ID=43009652

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080046724XA Pending CN102713878A (zh) 2009-11-06 2010-11-04 在分布式存储系统中管理文件的装置及方法

Country Status (4)

Country Link
US (1) US20120197845A1 (zh)
KR (1) KR100979750B1 (zh)
CN (1) CN102713878A (zh)
WO (1) WO2011056002A2 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294794A (zh) * 2013-05-23 2013-09-11 上海爱数软件有限公司 一种在线归档和访问文件的系统
CN104915376A (zh) * 2015-05-05 2015-09-16 华南理工大学 一种云存储中文件的归档压缩方法
CN109684270A (zh) * 2018-12-11 2019-04-26 泰康保险集团股份有限公司 数据库归档方法、装置、系统、设备及可读存储介质
WO2019104977A1 (zh) * 2017-11-30 2019-06-06 平安科技(深圳)有限公司 业务资料存储方法、应用服务器及计算机存储介质
CN111324590A (zh) * 2018-12-17 2020-06-23 北京京东尚科信息技术有限公司 分布式文件系统的数据处理方法、装置、系统和介质

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101104999B1 (ko) 2010-10-18 2012-01-16 성균관대학교산학협력단 메타데이터 서비스를 위한 로드밸런싱 방법 및 시스템
US9996540B2 (en) * 2011-03-31 2018-06-12 EMC IP Holding Company LLC System and method for maintaining consistent points in file systems using a prime dependency list
US10210169B2 (en) 2011-03-31 2019-02-19 EMC IP Holding Company LLC System and method for verifying consistent points in file systems
US8832394B2 (en) 2011-03-31 2014-09-09 Emc Corporation System and method for maintaining consistent points in file systems
US10289685B2 (en) * 2012-09-07 2019-05-14 International Business Machines Corporation Information lifecycle governance
US9626377B1 (en) * 2013-06-07 2017-04-18 EMC IP Holding Company LLC Cluster file system with metadata server for controlling movement of data between storage tiers
CN104869138B (zh) * 2014-02-25 2018-11-02 中国电信股份有限公司 对云存储数据文件副本自动管理的方法与装置
US10783113B2 (en) * 2015-06-11 2020-09-22 Oracle International Corporation Data retention framework
US10838767B2 (en) * 2016-09-12 2020-11-17 International Business Machines Corporation Distributed computing utilizing a recovery site
US11294892B2 (en) * 2020-06-25 2022-04-05 International Business Machines Corporation Virtual archiving of database records
US11762806B2 (en) * 2020-10-15 2023-09-19 EMC IP Holding Company LLC Hardening system clock for retention lock compliance enabled systems
KR102365970B1 (ko) * 2021-08-30 2022-02-23 주식회사 펠릭스 아카이브 관리 시스템
KR102657160B1 (ko) * 2023-07-04 2024-04-15 인스피언 주식회사 데이터 관리 장치, 데이터 관리 방법 및 데이터 관리 프로그램을 저장하는 컴퓨터로 판독 가능한 저장 매체

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050086646A1 (en) * 2000-08-17 2005-04-21 William Zahavi Method and apparatus for managing and archiving performance information relating to storage system
US20060010169A1 (en) * 2004-07-07 2006-01-12 Hitachi, Ltd. Hierarchical storage management system
US20060059172A1 (en) * 2004-09-10 2006-03-16 International Business Machines Corporation Method and system for developing data life cycle policies
CN1959717A (zh) * 2006-10-09 2007-05-09 北京道达天际软件技术有限公司 订单驱动的海量遥感数据集群化预处理系统及其方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4036992B2 (ja) 1998-12-17 2008-01-23 富士通株式会社 キャッシュモジュール間でデータを動的に管理するキャッシュ制御装置および方法
JP2004133538A (ja) * 2002-10-08 2004-04-30 Fujitsu Ltd ファイルの自動バックアップシステムおよび自動バックアップ方法ならびにコンピュータ読取り可能な記録媒体
KR20040076313A (ko) * 2003-02-25 2004-09-01 이승룡 버퍼 캐시 분할 관리 방법
US7590807B2 (en) * 2003-11-03 2009-09-15 Netapp, Inc. System and method for record retention date in a write once read many storage system
US7693877B1 (en) * 2007-03-23 2010-04-06 Network Appliance, Inc. Automated information lifecycle management system for network data storage
KR101498673B1 (ko) * 2007-08-14 2015-03-09 삼성전자주식회사 반도체 드라이브, 그것의 데이터 저장 방법, 그리고 그것을포함한 컴퓨팅 시스템
US20100306180A1 (en) * 2009-01-28 2010-12-02 Digitiliti, Inc. File revision management

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050086646A1 (en) * 2000-08-17 2005-04-21 William Zahavi Method and apparatus for managing and archiving performance information relating to storage system
US20060010169A1 (en) * 2004-07-07 2006-01-12 Hitachi, Ltd. Hierarchical storage management system
US20060059172A1 (en) * 2004-09-10 2006-03-16 International Business Machines Corporation Method and system for developing data life cycle policies
CN1959717A (zh) * 2006-10-09 2007-05-09 北京道达天际软件技术有限公司 订单驱动的海量遥感数据集群化预处理系统及其方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103294794A (zh) * 2013-05-23 2013-09-11 上海爱数软件有限公司 一种在线归档和访问文件的系统
CN103294794B (zh) * 2013-05-23 2017-07-28 上海爱数信息技术股份有限公司 一种在线归档和访问文件的系统
CN104915376A (zh) * 2015-05-05 2015-09-16 华南理工大学 一种云存储中文件的归档压缩方法
CN104915376B (zh) * 2015-05-05 2019-03-26 华南理工大学 一种云存储中文件的归档压缩方法
WO2019104977A1 (zh) * 2017-11-30 2019-06-06 平安科技(深圳)有限公司 业务资料存储方法、应用服务器及计算机存储介质
CN109684270A (zh) * 2018-12-11 2019-04-26 泰康保险集团股份有限公司 数据库归档方法、装置、系统、设备及可读存储介质
CN109684270B (zh) * 2018-12-11 2021-01-29 泰康保险集团股份有限公司 数据库归档方法、装置、系统、设备及可读存储介质
CN111324590A (zh) * 2018-12-17 2020-06-23 北京京东尚科信息技术有限公司 分布式文件系统的数据处理方法、装置、系统和介质

Also Published As

Publication number Publication date
US20120197845A1 (en) 2012-08-02
WO2011056002A2 (ko) 2011-05-12
WO2011056002A9 (ko) 2011-09-22
WO2011056002A3 (ko) 2011-11-10
KR100979750B1 (ko) 2010-09-03

Similar Documents

Publication Publication Date Title
CN102713878A (zh) 在分布式存储系统中管理文件的装置及方法
US11314439B2 (en) Copy from source medium to target medium
JP6495568B2 (ja) 増分sqlサーバデータベースバックアップを実行する方法、コンピュータ可読記憶媒体およびシステム
CN102508789A (zh) 一种系统分级存储的方法
US9037796B2 (en) System and method for optimizing data remanence over hybrid disk clusters using various storage technologies
Skourtis et al. Flash on rails: Consistent flash performance through redundancy
US8316182B2 (en) Hierarchical storage management for database systems
US8762667B2 (en) Optimization of data migration between storage mediums
CN102687112A (zh) 在分布式存储系统中管理文件的装置及方法
US20120095968A1 (en) Storage tiers for different backup types
US20100153641A1 (en) Hierarchical storage management (hsm) for redundant array of independent disks (raid)
US20120117029A1 (en) Backup policies for using different storage tiers
US20120185648A1 (en) Storage in tiered environment for colder data segments
CN104350477A (zh) 用于固态驱动装置(ssd)的优化的上下文移除
US8825653B1 (en) Characterizing and modeling virtual synthetic backup workloads
US20140215127A1 (en) Apparatus, system, and method for adaptive intent logging
JP2007234026A (ja) ユニークブロックプールマネージャを含むデータ記憶システムおよび階層記憶装置における応用
CN105144142A (zh) 使用对象多个维度的信息存储对象
CN103605588A (zh) 一种虚拟机磁盘备份方法
CN100504799C (zh) 以快照指针进行磁盘快照的方法
US8935470B1 (en) Pruning a filemark cache used to cache filemark metadata for virtual tapes
CN103544075B (zh) 数据的处理方法和系统
US20180336238A1 (en) Data placement optimization
US7984313B2 (en) Method, apparatus and system for reducing power consumption involving data storage devices
CN104662522A (zh) 使用存储系统功能性的全虚拟机备份的系统和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20121003