CN100357943C - 一种检查机群文件系统中垃圾文件的方法 - Google Patents

一种检查机群文件系统中垃圾文件的方法 Download PDF

Info

Publication number
CN100357943C
CN100357943C CNB2004100294270A CN200410029427A CN100357943C CN 100357943 C CN100357943 C CN 100357943C CN B2004100294270 A CNB2004100294270 A CN B2004100294270A CN 200410029427 A CN200410029427 A CN 200410029427A CN 100357943 C CN100357943 C CN 100357943C
Authority
CN
China
Prior art keywords
file
data
metadata
identification information
unique identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
CNB2004100294270A
Other languages
English (en)
Other versions
CN1670726A (zh
Inventor
宋冬梅
史小冬
朱耀飞
贺军
胡风华
肖利民
柳书广
李电森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CNB2004100294270A priority Critical patent/CN100357943C/zh
Publication of CN1670726A publication Critical patent/CN1670726A/zh
Application granted granted Critical
Publication of CN100357943C publication Critical patent/CN100357943C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

本发明公开了一种检查机群文件系统中垃圾文件的方法。该方法适用于分散存储文件的元数据和数据的机群文件系统,在数据目录下设置与文件元数据唯一标识信息对应的子目录,并在该子目录中保存与该文件元数据唯一标识信息对应的文件数据;获取存储服务器的文件数据所对应文件元数据的唯一标识信息,然后判断元数据服务器中是否存在与该唯一标识信息对应的文件元数据,若否,则确定存储服务器的数据目录中与所述唯一标识信息对应的子目录中的文件数据是垃圾文件。本发明解决了现有分散存储结构的机群文件系统中垃圾文件的处理问题,实现了这类机群文件系统中元数据与数据的高度一致性,从而保证了机群文件系统的完整性和一致性。

Description

一种检查机群文件系统中垃圾文件的方法
技术领域
本发明涉及计算机垃圾文件处理技术领域,更确切地说是涉及一种对元数据和数据分散存储的机群文件系统中的垃圾文件进行检查的方法。
背景技术
采用控制和存储分散的机群文件系统在处理文件的过程中,往往会由于各种原因出现各种各样的垃圾文件。这种结构的机群文件系统需要处理的数据包括元数据和数据两种。元数据是关于数据的数据,其中包括文件的相关信息,比如文件名、属主、大小、权限、创建时间、访问时间、修改时间等;数据则是指文件的实际内容。文件的元数据保存在元数据服务器中,用文件元数据表示;文件的数据则分成几个部分,保存在多个存储服务器上,即每个存储服务器上有一个文件数据。这样,针对文件元数据的操作由元数据服务器集中控制,针对文件数据的操作则由多个存储服务器并行控制。
在这种分布式的文件处理中,文件分别存储在元数据服务器和存储服务器中,如果客户要删除某个文件,则需要向元数据服务器发出删除请求,元数据服务器首先把这个文件对应的文件元数据删除,然后通知存储服务器删除该文件对应的文件数据,其他存储服务器收到该删除命令后,删除该文件对应的文件数据。
但是,在该文件的删除过程中,如果元数据服务器或存储服务器出现异常,则可能造成删除操作没有完整地被执行。比如,元数据服务器中的文件元数据已被删除,但存储服务器中的文件数据却没有被删除。也就是说,如果元数据服务器中没有与存储服务器中文件数据对应的文件元数据,则认为存储服务器中的文件数据为垃圾文件。如此长期积累,就会形成大量的垃圾文件,从而浪费存储空间。因此,对垃圾文件的处理非常重要,但是,目前用于检查文件系统正确性、完整性和一致性的文件系统检查(FSCK)工具中,还没有对此种元数据和数据分离存储的机群文件系统中的垃圾文件进行检查的方法。
对于用于解决大规模科学计算环境中的并行I/O问题的联想机群文件系统(LCFS)来说,其中的元数据与数据也是分离存储的,LCFS同样存在垃圾文件的处理问题。
发明内容
有鉴于此,本发明的主要目的在于提供一种检查机群文件系统中垃圾文件的方法,以方便、彻底地找出机群文件系统中的垃圾文件。
为达到以上目的,本发明的技术方案是这样实现的:一种检查机群文件系统中垃圾文件的方法,该机群文件系统中文件的元数据保存在元数据服务器中,文件的数据保存在存储服务器中用于保存文件数据的数据目录下,,该方法包括以下步骤:
a.在数据目录下设置与文件元数据唯一标识信息对应的子目录,并在该子目录中保存与该文件元数据唯一标识信息对应的文件数据;
b.在检查垃圾文件时,获取存储服务器中的文件数据所对应文件元数据的唯一标识信息;
c.判断元数据服务器中是否存在与该文件元数据唯一标识信息对应的文件元数据,如果存在,则确定存储服务器所保存的文件数据不是垃圾文件,否则,确定存储服务器的数据目录中与所述唯一标识信息对应的子目录中的文件数据是垃圾文件。
所述步骤a中,所述唯一标识信息为文件元数据的索引节点号。
所述检查垃圾文件由元数据存储器执行;
所述步骤b在获取存储服务器中的文件数据所对应文件元数据的唯一标识信息之前,元数据服务器向存储服务器发送用于查找文件数据的查找命令,存储服务器收到查找命令后,执行获取存储服务器中的文件数据对应文件元数据唯一标识信息的步骤。
将所述数据目录的路径信息保存在配置文件中;
所述步骤b在获取存储服务器中的文件数据所对应文件元数据的唯一标识信息之前,进一步包括:根据配置文件中保存的路径信息确定存储服务器的数据目录。
所述步骤c之后进一步包括:报告与该文件元数据唯一标识信息对应的所有文件数据为垃圾文件。
所述步骤c之后进一步包括:向所有存储服务器发送包含该文件元数据唯一标识信息的删除命令,所有存储服务器收到删除命令后,查找出自身保存的文件数据中与该唯一标识信息对应的所有文件数据,并删除该文件数据。
该方法还可以进一步包括:将与文件元数据唯一标识信息对应的子目录的目录名设置为哈希表的索引值,所述索引值根据该唯一标识信息及哈希函数确定。
所述哈希函数可以为取模函数。
本发明方案通过在文件数据中设置对应文件元数据的唯一标识信息,以通过文件数据查找对应的文件元数据,并将没有查找出文件元数据与之对应的那些文件数据作为垃圾文件,实现了机群文件系统中文件元数据与文件数据的高度一致性,从而保证了机群文件系统的完整性和一致性,使得包括LCFS在内的分离存储数据的机群文件系统具有更好的高可用性。本发明方案还可以删除所查找出的垃圾文件,进而节约了系统的存储空间。
另外,本发明方案还可以作为FSCK工具的一个子功能,进一步完善了FSCK。
附图说明
图1为本发明实施例的实现流程图。
具体实施方式
本发明方案可以用在所有将文件的元数据与数据分离保存在不同存储器的机群文件系统,下面以在LCFS中运用该方案为例。
由于LCFS对数据通过元数据服务器和存储服务器进行分散控制,因此LCFS的垃圾文件检查技术需要在LCFS的元数据服务器端和存储服务器端实现。下面结合图1及具体实施例对本发明方案作进一步详细的说明。
步骤101、在文件数据中设置对应文件元数据的唯一标识信息。
具体来说,由于每个文件元数据都有一个唯一与之对应的索引节点号,因此可以在文件数据中设置文件元数据的索引节点号。这样,就可以根据文件数据中的索引节点号确定对应的文件元数据,同时,文件元数据也可以根据该索引节点号快速地查找到与自身对应的文件数据。
当然,为便于查找,可以将该索引节点号直接设置在文件数据的文件名中。
步骤102、将文件元数据保存在元数据服务器中。
步骤103、将文件数据保存在存储服务器中,并保存文件数据所在目录的路径信息。
存储服务器是将所有的文件数据都保存在一个专门用于保存文件数据的数据(data)目录下。该data目录的路径信息可以保存在存储服务器的配置文件中。
通过步骤103的设置,在存储服务器上查找相应的文件数据时,首先通过配置文件获取文件数据的目录路径,然后再根据该目录路径从存储服务器中获取对应的文件数据。
在经过上述三个步骤的设置后,还需要通过下述步骤来检查垃圾文件:
步骤104~107、元数据服务器在检查垃圾文件时,获取每个存储服务器所保存的文件数据对应文件元数据的唯一标识信息,并判断自身是否存在与该唯一标识信息对应的文件元数据,如果存在,则确定该文件数据不是垃圾文件,否则,确定该文件数据为垃圾文件。
元数据服务器在检查垃圾文件时,可以先向存储服务器发送用于查找文件数据的查找命令,该查找命令中包括各个存储服务器用于保存data目录路径信息的配置文件的文件名。存储服务器在收到该查找命令后,则根据该查找命令中携带的配置文件名确定data目录的路径,并查找data目录中的文件数据。如果元数据服务器所发送的查找命令中没有包括该配置文件,则存储服务器在收到查找命令后,默认自身保存data目录路径的配置文件为该查找命令所对应的配置文件。
重复执行上述步骤104,即可从机群文件系统中查找出所有的垃圾文件。
当然,元数据服务器在确定某个文件数据是垃圾文件时,即可认为与该文件数据对应文件元数据所对应的所有文件数据都是垃圾文件。元数据服务器还可以向用户报告这些文件数据为垃圾文件,用户则可以对该垃圾文件进行处理,比如,删除该垃圾文件。
元数据服务器也可以直接删除该垃圾文件,具体来说,元数据服务器在确定某个文件数据为垃圾文件时,即向所有的存储服务器都发送包含该文件数据对应文件元数据的唯一标识信息的删除命令,所有存储服务器收到该删除命令后,查找出与删除命令中的唯一标识信息对应的所有文件数据,并删除这些文件数据。
上述存储服务器删除垃圾文件需要首先查找与删除命令中携带的文件元数据唯一标识信息,也即,存储服务器需要根据文件元数据的唯一标识信息在所有的文件数据中查找出与该唯一标识信息对应的文件数据,这种查找方法显然比较麻烦。
为便于检查,还可以在data目录下设置多个用于保存文件数据的子目录,并将这些子目录设置为与文件元数据的唯一标识信息对应。具体设置时,可以将每个子目录名都设置为哈希表的索引值,而该索引值可以根据文件元数据的唯一标识信息与哈希函数确定,或者说,是将文件元数据的唯一标识信息作为哈希函数的键值。这样,存储服务器在根据文件元数据的唯一标识信息从所有文件数据中查找对应的文件数据时,就可以直接根据该唯一标识信息及哈希函数确定对应子目录的索引值,然后在该子目录中获取所要查找的文件数据。这里,所采用的哈希函数可以是最简单的取模函数。
以上所述仅为本发明方案的较佳实施例,并不用以限定本发明的保护范围。

Claims (8)

1、一种检查机群文件系统中垃圾文件的方法,机群文件系统中文件的元数据保存在元数据服务器中,其特征在于,文件的数据保存在存储服务器中用于保存文件数据的数据目录下,该方法包括以下步骤:
a.在数据目录下设置与文件元数据唯一标识信息对应的子目录,并在该子目录中保存与该文件元数据唯一标识信息对应的文件数据;
b.在检查垃圾文件时,获取存储服务器中的文件数据所对应文件元数据的唯一标识信息;
c.判断元数据服务器中是否存在与该文件元数据唯一标识信息对应的文件元数据,如果存在,则确定存储服务器所保存的文件数据不是垃圾文件,否则,确定存储服务器的数据目录中与所述唯一标识信息对应的子目录中的文件数据是垃圾文件。
2、根据权利要求1所述的方法,其特征在于所述步骤a中,所述唯一标识信息为文件元数据的索引节点号。
3、根据权利要求1所述的方法,其特征在于,所述检查垃圾文件由元数据存储器执行;
所述步骤b在获取存储服务器中的文件数据所对应文件元数据的唯一标识信息之前,元数据服务器向存储服务器发送用于查找文件数据的查找命令,存储服务器收到查找命令后,执行获取存储服务器中的文件数据对应文件元数据唯一标识信息的步骤。
4、根据权利要求1或3所述的方法,其特征在于,将所述数据目录的路径信息保存在配置文件中;
所述步骤b在获取存储服务器中的文件数据所对应文件元数据的唯一标识信息之前,进一步包括:根据配置文件中保存的路径信息确定存储服务器的数据目录。
5、根据权利要求1所述的方法,其特征在于,所述步骤c之后进一步包括:报告与该文件元数据唯一标识信息对应的所有文件数据为垃圾文件。
6、根据权利要求1所述的方法,其特征在于,所述步骤c之后进一步包括:向所有存储服务器发送包含该文件元数据唯一标识信息的删除命令,所有存储服务器收到删除命令后,查找出自身保存的文件数据中与该唯一标识信息对应的所有文件数据,并删除该文件数据。
7、根据权利要求1所述的方法,其特征在于,该方法进一步包括:将与文件元数据唯一标识信息对应的子目录的目录名设置为哈希表的索引值,所述索引值根据该唯一标识信息及哈希函数确定。
8、根据权利要求7所述的方法,其特征在于,所述哈希函数为取模函数。
CNB2004100294270A 2004-03-17 2004-03-17 一种检查机群文件系统中垃圾文件的方法 Expired - Lifetime CN100357943C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2004100294270A CN100357943C (zh) 2004-03-17 2004-03-17 一种检查机群文件系统中垃圾文件的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2004100294270A CN100357943C (zh) 2004-03-17 2004-03-17 一种检查机群文件系统中垃圾文件的方法

Publications (2)

Publication Number Publication Date
CN1670726A CN1670726A (zh) 2005-09-21
CN100357943C true CN100357943C (zh) 2007-12-26

Family

ID=35041993

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004100294270A Expired - Lifetime CN100357943C (zh) 2004-03-17 2004-03-17 一种检查机群文件系统中垃圾文件的方法

Country Status (1)

Country Link
CN (1) CN100357943C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9529912B2 (en) 2012-04-10 2016-12-27 Huawei Technologies Co., Ltd. Metadata querying method and apparatus

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977657B2 (en) * 2005-07-28 2015-03-10 International Business Machines Corporation Finding lost objects in a file system having a namespace
CN101997823B (zh) * 2009-08-17 2013-10-02 联想(北京)有限公司 一种分布式文件系统及其数据访问方法
CN101697168B (zh) * 2009-10-22 2011-10-19 中国科学技术大学 一种分布式文件系统动态元数据管理方法及系统
CN102279881A (zh) * 2011-07-28 2011-12-14 南京中兴新软件有限责任公司 清除垃圾数据的方法及文件访问服务器
CN103678337B (zh) * 2012-09-06 2017-12-12 华为技术有限公司 数据清除方法、装置及系统
CN105446987B (zh) * 2014-06-30 2019-03-26 北京金山安全软件有限公司 图片类垃圾文件的识别方法、装置和电子设备
CN108108469A (zh) * 2017-12-29 2018-06-01 北京奇虎科技有限公司 数据迭代方法及装置
CN108415986B (zh) * 2018-02-11 2020-10-30 杭州朗和科技有限公司 一种数据处理方法、装置、系统、介质和计算设备
CN111400255B (zh) * 2019-09-26 2023-04-28 杭州海康威视系统技术有限公司 数据清理方法、装置及设备、存储介质
CN112860643B (zh) * 2021-03-05 2022-07-08 中富通集团股份有限公司 一种提高5g移动终端缓存清理速度的方法和存储设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6031806A (en) * 1997-02-04 2000-02-29 Sony Corporation Information signal recording and reproducing apparatus and recording and reproducing method
US6378031B1 (en) * 1998-07-07 2002-04-23 Matsushita Electric Industrial Co., Ltd. Data processing apparatus and file management method therefor
US20020065834A1 (en) * 2000-11-30 2002-05-30 Kevin Wiggen Maintenance of data integrity during transfer among computer networks
CN1393771A (zh) * 2001-06-28 2003-01-29 华为技术有限公司 一种快速消除数据库差异信息的方法
CN1418422A (zh) * 2000-02-04 2003-05-14 里逊·Com股份有限公司 用于分布式媒体网络和元数据服务器的系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6031806A (en) * 1997-02-04 2000-02-29 Sony Corporation Information signal recording and reproducing apparatus and recording and reproducing method
US6378031B1 (en) * 1998-07-07 2002-04-23 Matsushita Electric Industrial Co., Ltd. Data processing apparatus and file management method therefor
CN1418422A (zh) * 2000-02-04 2003-05-14 里逊·Com股份有限公司 用于分布式媒体网络和元数据服务器的系统
US20020065834A1 (en) * 2000-11-30 2002-05-30 Kevin Wiggen Maintenance of data integrity during transfer among computer networks
CN1393771A (zh) * 2001-06-28 2003-01-29 华为技术有限公司 一种快速消除数据库差异信息的方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9529912B2 (en) 2012-04-10 2016-12-27 Huawei Technologies Co., Ltd. Metadata querying method and apparatus

Also Published As

Publication number Publication date
CN1670726A (zh) 2005-09-21

Similar Documents

Publication Publication Date Title
CN103077199B (zh) 一种文件资源查找定位方法及装置
US7228299B1 (en) System and method for performing file lookups based on tags
US10019459B1 (en) Distributed deduplication in a distributed system of hybrid storage and compute nodes
CN102629247B (zh) 一种数据处理方法、装置和系统
CN108491549B (zh) 一种分布式存储系统中文件目录的创建方法及装置
US10025808B2 (en) Compacting change logs using file content location identifiers
CN104077423B (zh) 一种基于一致性散列的结构化数据存储、查询和迁移方法
CN106484820B (zh) 一种重命名方法、访问方法及装置
WO2007068600B1 (en) Generating backup sets to a specific point in time
CN100357943C (zh) 一种检查机群文件系统中垃圾文件的方法
WO2016122526A1 (en) Regenerated container file storing
CN109284273B (zh) 一种采用后缀数组索引的海量小文件查询方法及系统
CN104408111A (zh) 一种删除重复数据的方法及装置
CN104679830A (zh) 一种文件处理方法和装置
CN101246535A (zh) 一种修复异常文件的方法、系统和装置
CN105653731B (zh) 一种jfs文件系统的删除数据恢复方法
CN105069111A (zh) 云存储中基于相似性的数据块级数据去重方法
CN109522283A (zh) 一种重复数据删除方法及系统
CN109165222A (zh) 一种基于协处理器的HBase二级索引创建方法以及系统
CN104408044A (zh) 一种文件存取方法和系统
CN101158981A (zh) 一种对下载资源进行分类的方法、系统和装置
CN103823807A (zh) 一种去除重复数据的方法、装置及系统
CN110888837A (zh) 对象存储小文件归并方法及装置
CN109947730B (zh) 元数据恢复方法、装置、分布式文件系统及可读存储介质
CN108319634B (zh) 分布式文件系统的目录访问方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20071226