CN108090118A - 文件系统元数据的获取方法和系统 - Google Patents

文件系统元数据的获取方法和系统 Download PDF

Info

Publication number
CN108090118A
CN108090118A CN201711082628.0A CN201711082628A CN108090118A CN 108090118 A CN108090118 A CN 108090118A CN 201711082628 A CN201711082628 A CN 201711082628A CN 108090118 A CN108090118 A CN 108090118A
Authority
CN
China
Prior art keywords
catalogue
file
information
complete trails
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711082628.0A
Other languages
English (en)
Other versions
CN108090118B (zh
Inventor
阮华斌
杨涛
王亚坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201711082628.0A priority Critical patent/CN108090118B/zh
Publication of CN108090118A publication Critical patent/CN108090118A/zh
Application granted granted Critical
Publication of CN108090118B publication Critical patent/CN108090118B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种文件系统元数据的获取方法和系统,该方法包括:解析第一元数据信息文件得到第一全路径信息集合;获取文件系统所有数据文件的路径信息,生成第二全路径信息集合,对第二全路径信息集合和第一全路径信息集合做差集运算,得到待增全路径信息集合;对第一全路径信息集合和第二全路径信息集合做差集运算,得到待删全路径信息集合;将待增全路径信息集合中的每个文件路径相关的元数据写入第一元数据信息文件;同时删除第一元数据信息文件中待删全路径信息集合相关的元数据。本发明提供的一种文件系统元数据的获取方法和系统,基于增量更新,节省了处理时间,对文件系统元数据实现了快速扫描和更新。

Description

文件系统元数据的获取方法和系统
技术领域
本发明涉及计算机领域,特别涉及一种文件系统元数据的获取方法和系统。
背景技术
随着硬件技术的进步,应用冷冻电镜技术解析生物大分子的结构正在成为一个崭新的结构生物学研究方向。近年来,不少研究团队基于冷冻电镜技术在国际顶级学术期刊Nature、Science、Cell等发表了数十篇高分辨率的关于蛋白质三维结构解析的成果,对生命科学的发展产生了重大影响,而冷冻电镜在这其中发挥着举足轻重的作用。
为了重构出高精度的分子结构,冷冻电镜需要拍摄大量二维的高分辨率图像,由于冷冻电镜在拍摄过程中很难避免诸如欠焦等问题,从而会导致丢失一些图像信息,为了避免有效信息的丢失,冷冻电镜通常会在不同的欠焦水平和不同的角度下拍摄大量高分辨率的二维图像加以合成,以弥补单一图像丢失的信息,最终利用所拍摄的大量的高分辨率的二维图像,通过相关的三维重构软件如Relion等重构出高分辨率的分子结构。
然而,在重构三维分子结构的过程中,为了构建精确的高分辨率的三维分子结构,冷冻电镜需要从不同的角度拍摄大量的高分辨率的二维图像,细微的角度变化均需要拍摄大量的二维图像,在电镜满负荷工作的情况下,每天会产生数几十TB的电镜数据,以清华大学生命学院电镜平台Titan为例,每台Titan的拍摄速率7GB/分钟,即每分钟产生7GB左右的图像数据,这样一台电镜在一天中就能产生7GB/分钟*60分钟/小时*24小时=10.08TB的数据,从而导致每年将消耗高达4PB的存储容量。而这仅仅是一台电镜设备一年所采集的电镜数据,国内众多科研机构通常都维护着若干台的电镜设备,如清华大学目前就维护着至少3台电镜设备,每年产生的电镜数据在8PB以上,面对如此海量的电镜数据,如何设计合理的目录结构,以便于用户能够简洁方便的管理自己采集的电镜数据,就显的尤为重要。
目前,比较推崇的一种电镜数据目录组织原则是以一种二元组的方式来对用户采集的电镜数据进行目录组织,该二元组为(电镜设备ID,采集实践_用户名),与该二元组对应的目录结构组织方式如图1所示,在图1中,最顶层目录“/ShareEM”通常是底层存储系统,如GPFS、Lustre等文件系统的目录挂载点,在该挂载点下,设置若干个子目录,对应某台电镜所产生的数据,例如,对于/ShareEM下的子目录TitanD3172,其下存放的是名称为TitanD3172的电镜所产生的所有电镜数据,而目录/ShareEM/TitanD3172/20140613_zhangyanqing存放的是用户zhangyanqing在2014年6月13日使用电镜TitanD3172采集的电镜数据。
为了能够及时获取电镜存储系统的消耗情况,系统管理员通常需要在固定的时间周期,如每小时,每天,每周等,对存储系统中每个用户的存储空间使用情况进行统计分析,以便于系统管理员能够及时发现异常情况,如某天的存储消耗量过大或者过小,某个用户占用了过多的存储空间,总存储空间低于阈值等,系统管理员一旦发现存储系统中出现异常情况时,会采取相应的处理措施,以保证电镜存储系统能够稳定高效的运行。
传统的获取电镜存储系统消耗情况的方法通过操作系统自带的命令工具,如Linux系统自带的df命令来获取存取系统当前存储空间的使用量和剩余量,但是无法获取每个用户的具体消耗量。若想或者用户每天的消耗量,则需要组合使用其它的命令行工具,如Linux的find命令和stat命令,对整个存储系统的所有文件进行扫描后才能够得到每个用户的具体使用情况,而这会引发另一个问题:当存储系统中的文件数量非常巨大时,例如在千万级别,则需要耗时相当长的时间才能够获取最终的每个用户的统计数据。以清华大学大学生物计算平台管理的一个电镜存储系统ShareEM为例,其总容量为2.5P,其中包含了约2400万个与电镜相关的数据文件,ShareEM总共由4个IO节点构成,通过IOZone的测试发现,该存储系统的IOPS(Input/Output Operations Per Second)约为4000次/秒,即每秒中能够够在ShareEM上进行约4000次的IO操作,但这是4个IO节点聚合吞吐量,平均每个IO节点的IOPS为1000次/秒,因此,若对ShareEM上的2400万个电镜数据进行一次用户空间使用统计,由于find操作和stat操作存在严格的先后顺序,即必须通过find操作找出所有的文件路径后,才能对每个文件进行stat操作获取文件的元数据信息,因此,1个文件的分析需要进行2次的IO操作,2400万个文件,总共需要进行4800万次IO操作,而完成4800万次IO操作,以每秒进行1000次IO操作的速度进行扫描,总共耗时48000秒,即总共耗时约13个小时左右。
事实上,由于find命令和stat命令是单进程执行的,加上运行find命令和stat命令所在的主机上其它进程对于ShareEM操作的影响,在扫描
ShareEM时,通常很难以1000次/秒的IOPS速度进行扫描,实际的测试发现,使用find命令和stat命令进行ShareEM扫描时,IOPS只能达到400次/秒左右,一次的ShareEM扫描,需要耗时30个小时以上,而系统管理员通常无法接受30个小时的扫描时间,原因在于当发现异常情况时,往往已经错过了最佳的补救时间,因此,如何实现对电镜数据文件元数据的快速扫描,对于电镜数据的管理的尤为重要。
发明内容
本发明提供了一种文件系统元数据的获取方法和系统,可以实现对文件系统数据文件元数据的快速扫描。
本发明提供一种文件系统元数据的获取方法,包括:
步骤A:提取第一元数据信息文件中每个文件的全路径信息,生成第一全路径信息集合,第一元数据信息文件用于保存文件系统数据文件的元数据信息;启动至少一个并行进程,获取文件系统中所有数据文件的全路径信息,生成第二全路径信息集合;
步骤B:对第二全路径信息集合和第一全路径信息集合做差集运算,得到待增全路径信息集合;对第一全路径信息集合和第二全路径信息集合做差集运算,得到待删全路径信息集合;
步骤C:获取待增全路径信息集合中的每个文件路径相关的元数据信息,并将该元数据信息写入第一元数据信息文件;同时删除第一元数据信息文件中待删全路径信息集合相关的元数据信息。
本发明提供一种文件系统元数据的获取系统,包括:
路径获取模块:提取第一元数据信息文件中每个文件的全路径信息,生成第一全路径信息集合,第一元数据信息文件用于保存文件系统数据文件的元数据信息;启动至少一个并行进程,获取文件系统中所有数据文件的全路径信息,生成第二全路径信息集合;
待增文件和待删文件计算模块:对第二全路径信息集合和第一全路径信息集合做差集运算,得到待增全路径信息集合;对第一全路径信息集合和第二全路径信息集合做差集运算,得到待删全路径信息集合;
元数据信息文件更新模块:获取待增全路径信息集合中的每个文件路径相关的元数据信息,并将元数据信息写入第一元数据信息文件;同时删除第一元数据信息文件中待删全路径信息集合相关的元数据信息。
本申请根据第一元数据信息文件(记为OM文件)中保存的历史元数据信息和文件系统系统最新的数据文件路径信息,通过比较两者的信息,确定OM文件中需要补入的新增元数据信息和OM文件需要删除的元数据信息,以增量更新的方式更新OM文件,极大地减少了更新OM文件所需的元数据获取操作,从而节省更新OM文件所需时间。此外,将单进程处理更改为多进程并行处理,进一步提高了运算效率,节省更新OM文件所需时间。
附图说明
图1为本发明电镜数据存储的二元组文件名称对应的目录结构示意图;
图2为本发明文件系统元数据的获取方法流程图;
图3为图2中步骤A包含的一个实施例;
图4为图3中步骤A-2的一个实施例;
图5为图4中步骤A-22的一个实施例;
图6为本发明文件系统元数据的获取系统结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用来区别类似的对象,而不必用于描述特定的顺序和先后次序。应该理解,这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
文件系统是系统软件,存储系统的硬件设备通过文件系统进行管理。需要指出的是,本申请的文件系统包括并行文件系统和非并行文件系统。
如图2所示,本发明提供一种文件系统元数据的获取方法,包括以下步骤:
步骤A(S101):提取第一元数据信息文件中每个文件的全路径信息,生成第一全路径信息集合,第一元数据信息文件用于保存文件系统数据文件的元数据信息;启动至少一个并行进程,获取文件系统中所有数据文件的全路径信息,生成第二全路径信息集合。
假设:将第一元数据信息文件记为OM文件,将第一全路径信息集合标记为MList;将第二全路径信息集合标记为LP。
在步骤A中,通过操作系统命令,如Linux系统的find命令获取数据文件的全路径信息,也可以通过主流编程语言,如python、Java等的API接口获取数据文件的全路径信息。
步骤B(S102):对第二全路径信息集合和第一全路径信息集合做差集运算,得到待增全路径信息集合;对第一全路径信息集合和第二全路径信息集合做差集运算,得到待删全路径信息集合。
在步骤B中,如果将待增全路径信息集合标记为NCL,将待删全路径信息集合标记为DL,则NCL=LP–Mlist,DL=MList–LP。
步骤C(S103):获取待增全路径信息集合中的每个文件路径相关的元数据信息,并将该元数据信息写入第一元数据信息文件;同时删除第一元数据信息文件中待删全路径信息集合相关的元数据信息。
在本申请中第一元数据信息文件OM文件,保存每个数据文件的元数据信息,其中元数据信息包括文件全路径信息和其他信息,将文件全路径信息标记为F,则其他信息包括:最近修改时间(标记为M)、最近访问时间(标记为A)、最近改变时间(标记为C)、文件所属用户(标记为U)、文件所属用户组(标记为G)、和/或文件大小(标记为S)。
进一步地,在OM文件中按照预设的元数据格式存储每一个文件的元数据信息;预设的元数据格式可以为:
M#A#C#F#U#G#S
其中,#表示第一分隔符,第一分隔符也可以是其他分隔符,每两个元数据信息之间的分隔符与第一分隔符不同,例如当第一分隔符为“#”时,元数据信息之间的分隔符可以为“,”。
假设:当前OM文件包含如下元数据信息:
2017-05-25-02:44:47#2017-05-25-02:44:47#2017-05-25-02:44:47#/ShareEM/T1/xxx11_yyy11/f1#hzhou#lilab#775,
2017-05-25-02:44:47#2017-05-25-02:44:47#2017-05-25-02:44:47#/ShareEM/T1/xxx11_yyy11/ff1#hzhou#lilab#775,
2017-05-25-02:44:47#2017-05-25-02:44:47#2017-05-25-02:44:47#/ShareEM/T1/xxx41_yyy41/f41#hzhou#lilab#775,
则,根据图1的步骤A,可以得到:
MList=(/ShareEM/T1/xxx11_yyy11/f1,
/ShareEM/T1/xxx11_yyy11/ff1,
/ShareEM/T1/xxx41_yyy41/f1)
进一步假设,当前电镜文件系统的只有一个挂载点为/ShareEM,为方便描述,假设就1台电镜,标记为T1,对应/ShareEM下的目录T1。当前T1下包含2个电镜数据目录:xxx11_yyy11,xxx21_yyy21,其中xxx11_yyy11下有普通文件f1,xxx21_yyy21下有普通文件f2。
即,f1的文件全路径为:/ShareEM/T1/xxx11_yyy11/f1,
f2的文件全路径为:/ShareEM/T1/xxx21_yyy21/f2。
则通过图1中的步骤A,可得:
LP=(/ShareEM/T1/xxx11_yyy11/f1,
/ShareEM/T1/xxx21_yyy21/f2)。
基于LP和MList,根据步骤B可得:
待删全路径信息集合DL=(/ShareEM/T1/xxx11_yyy11/ff1,
/ShareEM/T1/xxx41_yyy41/f1)
待增全路径信息集合NCL=(/ShareEM/T1/xxx21_yyy21/f2)
继续执行步骤C,即可更新OM文件。
本申请图2的方法根据第一元数据信息文件OM文件中保存的历史元数据信息和文件系统系统最新的数据文件路径信息,通过比较两者的信息,确定OM文件中需要补入的新增元数据信息和OM文件需要删除的元数据信息,以增量更新的方式更新OM文件,极大地减少了更新OM文件所需的元数据获取操作,从而节省更新OM文件所需时间。此外,将单进程处理更改为多进程并行处理,进一步提高了运算效率,节省更新OM文件所需时间。
进一步地,图3给出了图2步骤A中“启动至少一个并行进程,获取文件系统中所有数据文件的全路径信息,生成第二全路径信息集合”的一个实施例,包括以下步骤:
步骤A-1(S201):启动M个进程,获取文件系统中所有数据文件的目录,生成第二目录集合。
将第二目录集合标记为ND,根据上述当前电镜文件系统的假设,可得:
ND=(/ShareEM/T1/xxx11_yyy11,
/ShareEM/T1/xxx21_yyy21)。
步骤A-2(S202):将第二目录集合(ND)中的目录分组,生成第二目录分组集合,第二目录分组集合包括N个目录分组Gi(i=1,2,...,N)。
将第二目录分组集合标记为G,G=(Gi),(i=1,2,...,N)。
需要说明的是在步骤A-2之前,G为空集。
步骤A-3(S203):启动N个进程用于扫描N个目录分组中的文件路径信息,一个进程对应一个目录分组,得到第二目录集合对应的第二全路径信息集合。
其中,M、N的取值与文件系统剩余IOPS和进程平均IOPS相关。
可以令M(N)=取整(当前文件系统剩余IOPS/进程平均IOPS)。
假设:当前文件系统剩余的IOPS为8000次/秒,单进程执行步骤A-1能达到400次/秒,那么根据公式可知,M取20。
假设:当前文件系统剩余的IOPS为8000次/秒,单进程执行步骤A-3能达到200次/秒,那么根据公式可知,N取40。
如此,可利用文件系统高IOPS特性,可实现对目录和路径的快速扫描。
进一步地,图2步骤A还包括:提取第一全路径信息集合中的目录信息得到第一目录集合。
或者,将第一目录集合标记为HD。
根据以上MList的数据可知,HD=(/ShareEM/T1/xxx11_yyy11/,
/ShareEM/T1/xxx41_yyy41/)。
基于HD,图3的步骤A-2还可以扩展如图4所示:
步骤A-21(S301):对第一目录集合和第二目录集合做交集运算,得到第三目录集合,对第二目录集合和第一目录集合做差集运算,得到第四目录集合。
如果将第三目录集合标记为FD,将第三目录集合标记为ID,则FD=HD∩ND,ID=ND-HD,根据公式可知,FD为HD中的待删除文件的目录,ID为新增文件的目录。
根据HD和ND的数据可知,FD=(/ShareEM/T1/xxx11_yyy11/),ID=
(/ShareEM/T1/xxx21_yyy21/)。
步骤A-22(S302):将第三目录集合(FD)中的目录平均分配生成第二目录分组集合(G),第二目录分组集合(G)包括N个目录分组Gi(i=1,2,...,N)。
步骤A-23(S303):将第四目录集合中目录随机分配到第二目录分组集合(G)中。
图4与图3不同之处在于,将HD细分为FD和ID,同时对FD和ID执行不同的分组策略,以尽量实现目录分组均衡,节省扫描时间。
进一步地,图5给出了图4步骤A-22的一个具体实施例,包括FD目录分配的一个具体算法:
步骤A-221(S401):计算N个进程中每个进程平均扫描的文件数量A,A=T/N;T为第一全路径信息集合中的元素个数。
步骤A-222(S402):初始化第二目录分组集合(G)为空,第二目录分组集合包括N个目录分组Gi(i=1,2,...,N)。
步骤A-223(S403):遍历第三目录集合(FD)中的每个目录FDj,对每个目录FDj执行步骤A-224,直到第三目录集合(FD)中所有的目录分配完成为止。
步骤A-224(S404):对于每一个FDj,遍历第二目录分组集合,若Gi需满足条件:Gi中所有目录包含的文件总数小于A,则将FDj分配给目录分组Gi,同时结束本次FDj对应的目录分组操作,返回步骤A-223。
图5是基于文件总数均衡分组策略对FD进行分组,使得每个目录分组负担更均衡,整体上更能节省扫描时间。
进一步,基于元数据格式,步骤A可以将OM文件转换为字典(python中的一种数据格式),具体转换方法包括:提取OM文件中的F,生成第一全路径信息集合(MList),以OM文件中的元素F为字典的键(key),以除F以外的其他信息为字典键(key)对应的值(value)构建字典变量MDict;令MDict[F]=(除F以外的其他信息)。
例如:MDict[F]=(M,A,C,U,G,S)。
根据对历史OM文件的数据的假设,可知:
MDict[/ShareEM/T1/xxx11_yyy11/f1]=
(2017-05-25-02:44:47,2017-05-25-02:44:47,2017-05-25-02:44:47,hzhou,lilab,775)
MDict[/ShareEM/T1/xxx11_yyy11/ff1]=
(2017-05-25-02:44:47,2017-05-25-02:44:47,2017-05-25-02:44:47,hzhou,lilab,775)
MDict[/ShareEM/T1/xxx41_yyy41/f1]=
(2017-05-25-02:44:47,2017-05-25-02:44:47,2017-05-25-02:44:47,hzhou,lilab,775)
进一步地,基于MDict字典,步骤C可拓展为:
步骤C-1:更新MDict:删除MDict中的特定键(key)对应的元素,特定键(key)为删除全路径信息集合(DL)中的元素。
因DL=(/ShareEM/T1/xxx11_yyy11/ff1,/ShareEM/T1/xxx41_yyy41/f1),所以执行del MDict[‘/ShareEM/T1/xxx11_yyy11/ff1’,‘/ShareEM/T1/xxx41_yyy41/f1’],删除
MDict[/ShareEM/T1/xxx11_yyy11/ff1]=
(2017-05-25-02:44:47,2017-05-25-02:44:47,2017-05-25-02:44:47,hzhou,lilab,775)
MDict[/ShareEM/T1/xxx41_yyy41/f1]=
(2017-05-25-02:44:47,2017-05-25-02:44:47,2017-05-25-02:44:47,hzhou,lilab,775)。
步骤C-2:将更新后的MDict中的元数据信息转换格式,写入第一元数据信息文件,并替换第一元数据信息文件的原内容。
例如:将更新后的MDict中的元数据信息转换为预设的元数据格式,以覆盖模式一次写入第一元数据信息文件;或者第一次以覆盖模式写入第一元数据信息文件,第一次以后以追加模式写入第一元数据信息文件。
步骤C-3:获取待增全路径信息集合中的每个文件路径的元数据信息,并将该元数据信息追加写入第一元数据信息文件。
通过操作系统命令,如Linux系统的stat命令获取数据文件的元数据信息,也可以通过主流编程语言,如python、Java等的API接口获取数据文件的元数据信息。
例如:在linux系统中,可以对新增全路径信息集合(NCL)中的每个文件路径做stat操作获取元数据信息,将得到的元数据信息以追加模式写入第一元数据信息文件。
对于如图1所示,规则结构的文件系统,步骤A,扫描数据文件的目录信息和路径信息时,可以指定目录深度或路径深度,以限定扫描范围,节省处理时间。
如图6所示,本发明还包括一种文件系统元数据的获取系统,该系统包括路径获取模块、待增文件和待删文件计算模块和元数据信息文件更新模块。
路径获取模块:提取第一元数据信息文件中每个文件的全路径信息,生成第一全路径信息集合,第一元数据信息文件用于保存文件系统数据文件的元数据信息;启动至少一个并行进程,获取文件系统中所有数据文件的全路径信息,生成第二全路径信息集合。
待增文件和待删文件计算模块:对第二全路径信息集合和第一全路径信息集合做差集运算,得到待增全路径信息集合;对第一全路径信息集合和第二全路径信息集合做差集运算,得到待删全路径信息集合。
元数据信息文件更新模块:获取待增全路径信息集合中的每个文件路径相关的元数据信息,并将元数据信息写入第一元数据信息文件;同时删除第一元数据信息文件中待删全路径信息集合相关的元数据信息。
在图6的路径获取模块中,启动至少一个并行进程,获取文件系统中所有数据文件的全路径信息,生成第二全路径信息集合包括:
目录获取模块:启动M个进程,获取文件系统中所有数据文件的目录,生成第二目录集合;
目录分组模块:将第二目录集合中的目录分组,生成第二目录分组集合,第二目录分组集合包括N个目录分组Gi,其中i=1,2,...,N;
路径并行搜索模块:启动N个进程用于扫描N个目录分组中的文件路径信息,一个进程对应一个目录分组,得到第二目录集合对应的第二全路径信息集合。
进一步地,路径获取模块还包括:提取第一全路径信息集合中的目录信息得到第一目录集合;
目录分组模块包括:
第三和第四目录集合计算模块:对第一目录集合和第二目录集合做交集运算,得到第三目录集合,对第二目录集合和第一目录集合做差集运算,得到第四目录集合;
第三目录集合分组模块:将第三目录集合中的目录平均分配生成第二目录分组集合;
第四目录集合分组模块:将第四目录集合中目录随机分配到第二目录分组集合中。
进一步地,第三目录集合分组模块包括:
进程文件计算模块:计算N个进程中每个进程平均扫描的文件数量A,A=T/N;T为第一全路径信息集合中的元素个数;
第二目录分组集合初始化模块:初始化第二目录分组集合为空,第二目录分组集合包括N个目录分组Gi,其中i=1,2,...,N;
第三目录集合遍历模块:遍历第三目录集合中的每个目录FDj,对每个目录FDj执行目录均衡分配模块,直到第三目录集合中所有的目录分配完成为止;
目录均衡分配模块:对于每一个FDj,遍历第二目录分组集合,若Gi需满足条件:Gi中所有目录包含的文件总数小于A,则将FDj分配给目录分组Gi,同时结束本次FDj对应的目录分组操作,返回第三目录集合遍历模块。
进一步地,第一元数据信息文件中保存的每一个文件的元数据信息包括F和除F以外的其他信息,F表示文件全路径信息;
路径获取模块还包括:以第一全路径信息集合中的元素F为字典的键,以除F以外的其他信息为字典键对应的值构建字典变量MDict;
元数据信息文件更新模块包括:
字典更新模块:删除MDict中的特定键对应的元素,特定键为待删全路径信息集合中的元素;
元数据信息文件替换模块:将更新后的MDict中的元数据信息转换格式,写入第一元数据信息文件,并替换第一元数据信息文件的原内容;
元数据信息文件新增模块:获取待增全路径信息集合中的每个文件路径的元数据信息,并将元数据信息追加写入第一元数据信息文件。
需要说明的是,本发明文件系统元数据的获取系统的实施例,与文件系统元数据的获取方法的实施例原理相同,相关之处可以互相参照。
此外,本申请的方法和系统的应用对象不仅限于电镜数据的文件系统,对于其他海量数据存储管理领域一样适用,如气象数据的文件系统,卫星数据的文件系统,地震数据的文件系统等。
以上所述仅为本发明的较佳实施例而已,并不用以限定本发明的包含范围,凡在本发明技术方案的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文件系统元数据的获取方法,其特征在于,所述方法包括:
步骤A:提取第一元数据信息文件中每个文件的全路径信息,生成第一全路径信息集合,所述第一元数据信息文件用于保存文件系统数据文件的元数据信息;启动至少一个并行进程,获取文件系统中所有数据文件的全路径信息,生成第二全路径信息集合;
步骤B:对所述第二全路径信息集合和第一全路径信息集合做差集运算,得到待增全路径信息集合;对所述第一全路径信息集合和第二全路径信息集合做差集运算,得到待删全路径信息集合;
步骤C:获取所述待增全路径信息集合中的每个文件路径相关的元数据信息,并将所述元数据信息写入所述第一元数据信息文件;同时删除所述第一元数据信息文件中所述待删全路径信息集合相关的元数据信息。
2.根据权利要求1所述的方法,其特征在于,所述启动至少一个并行进程,获取文件系统中所有数据文件的全路径信息,生成第二全路径信息集合包括:
步骤A-1:启动M个进程,获取文件系统中所有数据文件的目录,生成第二目录集合;
步骤A-2:将所述第二目录集合中的目录分组,生成第二目录分组集合,所述第二目录分组集合包括N个目录分组Gi,其中i=1,2,...,N;
步骤A-3:启动N个进程用于扫描所述N个目录分组中的文件路径信息,一个进程对应一个目录分组,得到所述第二目录集合对应的第二全路径信息集合。
3.根据权利要求2所述的方法,其特征在于,
所述步骤A还包括:提取第一全路径信息集合中的目录信息得到第一目录集合;
所述步骤A-2包括:
步骤A-21:对所述第一目录集合和所述第二目录集合做交集运算,得到第三目录集合,对所述第二目录集合和所述第一目录集合做差集运算,得到第四目录集合;
步骤A-22:将所述第三目录集合中的目录平均分配生成所述第二目录分组集合;
步骤A-23:将所述第四目录集合中目录随机分配到所述第二目录分组集合中。
4.根据权利要求3所述的方法,其特征在于,所述步骤A-22包括:
步骤A-221:计算所述N个进程中每个进程平均扫描的文件数量A,所述A=T/N;所述T为所述第一全路径信息集合中的元素个数;
步骤A-222:初始化第二目录分组集合为空,所述第二目录分组集合包括N个目录分组Gi,其中i=1,2,...,N;
步骤A-223:遍历所述第三目录集合中的每个目录FDj,对每个目录FDj执行步骤A-224,直到所述第三目录集合中所有的目录分配完成为止;
步骤A-224:对于每一个FDj,遍历所述第二目录分组集合,若Gi需满足条件:Gi中所有目录包含的文件总数小于A,则将FDj分配给目录分组Gi,同时结束本次FDj对应的目录分组操作,返回所述步骤A-223。
5.根据权利要求1所述的方法,其特征在于,所述第一元数据信息文件中保存的每一个文件的元数据信息包括F和除F以外的其他信息,所述F表示文件全路径信息;
所述步骤A还包括:以所述第一全路径信息集合中的元素F为字典的键,以所述除F以外的其他信息为字典键对应的值构建字典变量MDict;
所述步骤C包括:
步骤C-1:删除MDict中的特定键对应的元素,所述特定键为所述待删全路径信息集合中的元素;
步骤C-2:将更新后的MDict中的元数据信息转换格式,写入所述第一元数据信息文件,并替换所述第一元数据信息文件的原内容;
步骤C-3:获取所述待增全路径信息集合中的每个文件路径相关的元数据信息,并将所述元数据信息追加写入所述第一元数据信息文件。
6.一种文件系统元数据的获取系统,其特征在于,所述系统包括:
路径获取模块:提取第一元数据信息文件中每个文件的全路径信息,生成第一全路径信息集合,所述第一元数据信息文件用于保存文件系统数据文件的元数据信息;启动至少一个并行进程,获取文件系统中所有数据文件的全路径信息,生成第二全路径信息集合;
待增文件和待删文件计算模块:对所述第二全路径信息集合和第一全路径信息集合做差集运算,得到待增全路径信息集合;对所述第一全路径信息集合和第二全路径信息集合做差集运算,得到待删全路径信息集合;
元数据信息文件更新模块:获取所述待增全路径信息集合中的每个文件路径相关的元数据信息,并将所述元数据信息写入所述第一元数据信息文件;同时删除所述第一元数据信息文件中所述待删全路径信息集合相关的元数据信息。
7.根据权利要求6所述的系统,其特征在于,所述路径获取模块中,所述启动至少一个并行进程,获取文件系统中所有数据文件的全路径信息,生成第二全路径信息集合包括:
目录获取模块:启动M个进程,获取文件系统中所有数据文件的目录,生成第二目录集合;
目录分组模块:将所述第二目录集合中的目录分组,生成第二目录分组集合,所述第二目录分组集合包括N个目录分组Gi,其中i=1,2,...,N;
路径并行搜索模块:启动N个进程用于扫描所述N个目录分组中的文件路径信息,一个进程对应一个目录分组,得到所述第二目录集合对应的第二全路径信息集合。
8.根据权利要求7所述的系统,其特征在于,
路径获取模块还包括:提取第一全路径信息集合中的目录信息得到第一目录集合;
所述目录分组模块包括:
第三和第四目录集合计算模块:对所述第一目录集合和所述第二目录集合做交集运算,得到第三目录集合,对所述第二目录集合和所述第一目录集合做差集运算,得到第四目录集合;
第三目录集合分组模块:将所述第三目录集合中的目录平均分配生成所述第二目录分组集合;
第四目录集合分组模块:将所述第四目录集合中目录随机分配到所述第二目录分组集合中。
9.根据权利要求8所述的系统,其特征在于,所述第三目录集合分组模块包括:
进程文件计算模块:计算所述N个进程中每个进程平均扫描的文件数量A,所述A=T/N;所述T为所述第一全路径信息集合中的元素个数;
第二目录分组集合初始化模块:初始化第二目录分组集合为空,所述第二目录分组集合包括N个目录分组Gi,其中i=1,2,...,N;
第三目录集合遍历模块:遍历所述第三目录集合中的每个目录FDj,对每个目录FDj执行目录均衡分配模块,直到所述第三目录集合中所有的目录分配完成为止;
目录均衡分配模块:对于每一个FDj,遍历所述第二目录分组集合,若Gi需满足条件:Gi中所有目录包含的文件总数小于A,则将FDj分配给目录分组Gi,同时结束本次FDj对应的目录分组操作,返回所述第三目录集合遍历模块。
10.根据权利要求6所述的系统,其特征在于,所述第一元数据信息文件中保存的每一个文件的元数据信息包括F和除F以外的其他信息,所述F表示文件全路径信息;
所述路径获取模块还包括:以所述第一全路径信息集合中的元素F为字典的键,以所述除F以外的其他信息为字典键对应的值构建字典变量MDict;
所述元数据信息文件更新模块包括:
字典更新模块:删除MDict中的特定键对应的元素,所述特定键为所述待删全路径信息集合中的元素;
元数据信息文件替换模块:将更新后的MDict中的元数据信息转换格式,写入所述第一元数据信息文件,并替换所述第一元数据信息文件的原内容;
元数据信息文件新增模块:获取所述待增全路径信息集合中的每个文件路径的元数据信息,并将所述元数据信息追加写入所述第一元数据信息文件。
CN201711082628.0A 2017-11-07 2017-11-07 面向电镜数据存储系统的文件元数据增量扫描方法与系统 Active CN108090118B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711082628.0A CN108090118B (zh) 2017-11-07 2017-11-07 面向电镜数据存储系统的文件元数据增量扫描方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711082628.0A CN108090118B (zh) 2017-11-07 2017-11-07 面向电镜数据存储系统的文件元数据增量扫描方法与系统

Publications (2)

Publication Number Publication Date
CN108090118A true CN108090118A (zh) 2018-05-29
CN108090118B CN108090118B (zh) 2020-09-18

Family

ID=62170809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711082628.0A Active CN108090118B (zh) 2017-11-07 2017-11-07 面向电镜数据存储系统的文件元数据增量扫描方法与系统

Country Status (1)

Country Link
CN (1) CN108090118B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297156A (zh) * 2020-02-21 2021-08-24 北京国双科技有限公司 一种数据同步方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070078885A1 (en) * 2005-10-03 2007-04-05 Klein Eric N Jr System and method for generating homogeneous metadata from pre-existing metadata
US8010458B2 (en) * 2004-05-26 2011-08-30 Facebook, Inc. System and method for managing information flow between members of an online social network
CN102483762A (zh) * 2009-07-01 2012-05-30 汤姆森特许公司 根据元数据访问文件系统的文件的方法和实现该方法的装置
CN103198100A (zh) * 2013-03-13 2013-07-10 中国科学院计算技术研究所 一种多设备间文件同步的重命名处理方法及系统
CN104239438A (zh) * 2014-08-29 2014-12-24 北京大学深圳研究生院 基于分离存储的文件信息存储方法和文件信息读写方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8010458B2 (en) * 2004-05-26 2011-08-30 Facebook, Inc. System and method for managing information flow between members of an online social network
US20070078885A1 (en) * 2005-10-03 2007-04-05 Klein Eric N Jr System and method for generating homogeneous metadata from pre-existing metadata
CN102483762A (zh) * 2009-07-01 2012-05-30 汤姆森特许公司 根据元数据访问文件系统的文件的方法和实现该方法的装置
CN103198100A (zh) * 2013-03-13 2013-07-10 中国科学院计算技术研究所 一种多设备间文件同步的重命名处理方法及系统
CN104239438A (zh) * 2014-08-29 2014-12-24 北京大学深圳研究生院 基于分离存储的文件信息存储方法和文件信息读写方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘仲等: "基于目录路径的元数据管理方法", 《软件学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297156A (zh) * 2020-02-21 2021-08-24 北京国双科技有限公司 一种数据同步方法、装置、设备及介质

Also Published As

Publication number Publication date
CN108090118B (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
JP5782214B2 (ja) 情報検索プログラム、情報検索装置および情報検索方法
Chiappe et al. The skull of a relative of the stem-group bird Mononykus
CN104881466B (zh) 数据分片的处理以及垃圾文件的删除方法和装置
CN102821138B (zh) 一种适用于云存储系统的元数据分布式存储方法
CN102799679B (zh) 基于Hadoop的海量空间数据索引更新系统及方法
CN111427847B (zh) 面向用户自定义元数据的索引与查询方法和系统
CN105389367A (zh) 基于Mongo数据库的电网图形多时态多级分布式存储方法
CN111292225B (zh) 对图形数据进行分区以进行大规模图形处理
CN108021702A (zh) 基于LSM-tree的分级存储方法、装置、OLAP数据库系统及介质
Liu et al. Profiling and improving i/o performance of a large-scale climate scientific application
CN106201778B (zh) 信息处理方法及存储设备
CN103207889A (zh) 一种基于Hadoop的海量人脸图像的检索方法
CN104834650A (zh) 一种有效查询任务生成方法及系统
CN109918352A (zh) 存储器系统和存储数据的方法
CN103942301A (zh) 一种面向多数据类型访问应用的分布式文件系统
CN108090118A (zh) 文件系统元数据的获取方法和系统
CN105408893B (zh) 一种数据处理和写入方法及相关装置
CN106462591A (zh) 使用存储器中的智能索引的分区过滤
CN108052524A (zh) 文件系统元数据的扫描方法和系统
JP2010128812A (ja) データ管理システム及びデータ管理方法及びデータ管理プログラム
CN104932982B (zh) 一种消息访存的编译方法及相关装置
Tian et al. A lightweight I/O scheme to facilitate spatial and temporal queries of scientific data analytics
Fox et al. Where does all the data come from?
Roussev Building open and scalable digital forensic tools
CN108062277A (zh) 一种电子凭据数据访问方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant