CN1670726A - 一种检查机群文件系统中垃圾文件的方法 - Google Patents

一种检查机群文件系统中垃圾文件的方法 Download PDF

Info

Publication number
CN1670726A
CN1670726A CN 200410029427 CN200410029427A CN1670726A CN 1670726 A CN1670726 A CN 1670726A CN 200410029427 CN200410029427 CN 200410029427 CN 200410029427 A CN200410029427 A CN 200410029427A CN 1670726 A CN1670726 A CN 1670726A
Authority
CN
China
Prior art keywords
file
data
identification information
unique identification
metadata
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200410029427
Other languages
English (en)
Other versions
CN100357943C (zh
Inventor
宋冬梅
史小冬
朱耀飞
贺军
胡风华
肖利民
柳书广
李电森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lenovo Beijing Ltd
Original Assignee
Lenovo Beijing Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lenovo Beijing Ltd filed Critical Lenovo Beijing Ltd
Priority to CNB2004100294270A priority Critical patent/CN100357943C/zh
Publication of CN1670726A publication Critical patent/CN1670726A/zh
Application granted granted Critical
Publication of CN100357943C publication Critical patent/CN100357943C/zh
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种检查机群文件系统中垃圾文件的方法。该方法适用于分散存储文件的元数据和数据的机群文件系统,该方法在文件数据中设置文件元数据的唯一标识信息;在检查垃圾文件时,首先获取存储服务器的文件数据所对应文件元数据的唯一标识信息,然后判断元数据服务器中是否存在与该唯一标识信息对应的文件元数据,如果存在,则确定存储服务器所保存的文件数据不是垃圾文件,否则,确定该文件数据是垃圾文件。本发明解决了现有分散存储结构的机群文件系统中垃圾文件的处理问题,实现了这类机群文件系统中元数据与数据的高度一致性,从而保证了这类机群文件系统的完整性和一致性。本发明方案还可以删除查找出的垃圾文件,节约了系统的存储空间。

Description

一种检查机群文件系统中垃圾文件的方法
技术领域
本发明涉及计算机垃圾文件处理技术领域,更确切地说是涉及一种对元数据和数据分散存储的机群文件系统中的垃圾文件进行检查的方法。
背景技术
采用控制和存储分散的机群文件系统在处理文件的过程中,往往会由于各种原因出现各种各样的垃圾文件。这种结构的机群文件系统需要处理的数据包括元数据和数据两种。元数据是关于数据的数据,其中包括文件的相关信息,比如文件名、属主、大小、权限、创建时间、访问时间、修改时间等;数据则是指文件的实际内容。文件的元数据保存在元数据服务器中,用文件元数据表示;文件的数据则分成几个部分,保存在多个存储服务器上,即每个存储服务器上有一个文件数据。这样,针对文件元数据的操作由元数据服务器集中控制,针对文件数据的操作则由多个存储服务器并行控制。
在这种分布式的文件处理中,文件分别存储在元数据服务器和存储服务器中,如果客户要删除某个文件,则需要向元数据服务器发出删除请求,元数据服务器首先把这个文件对应的文件元数据删除,然后通知存储服务器删除该文件对应的文件数据,其他存储服务器收到该删除命令后,删除该文件对应的文件数据。
但是,在该文件的删除过程中,如果元数据服务器或存储服务器出现异常,则可能造成删除操作没有完整地被执行。比如,元数据服务器中的文件元数据已被删除,但存储服务器中的文件数据却没有被删除。也就是说,如果元数据服务器中没有与存储服务器中文件数据对应的文件元数据,则认为存储服务器中的文件数据为垃圾文件。如此长期积累,就会形成大量的垃圾文件,从而浪费存储空间。因此,对垃圾文件的处理非常重要,但是,目前用于检查文件系统正确性、完整性和一致性的文件系统检查(FSCK)工具中,还没有对此种元数据和数据分离存储的机群文件系统中的垃圾文件进行检查的方法。
对于用于解决大规模科学计算环境中的并行I/O问题的联想机群文件系统(LCFS)来说,其中的元数据与数据也是分离存储的,LCFS同样存在垃圾文件的处理问题。
发明内容
有鉴于此,本发明的主要目的在于提供一种检查机群文件系统中垃圾文件的方法,以方便、彻底地找出机群文件系统中的垃圾文件。
为达到以上目的,本发明的技术方案是这样实现的:一种检查机群文件系统中垃圾文件的方法,该机群文件系统中文件的元数据保存在元数据服务器中,文件的数据保存在存储服务器中,该方法包括以下步骤:
a.在文件数据中设置文件元数据的唯一标识信息;
b.在检查垃圾文件时,获取存储服务器中的文件数据所对应文件元数据的唯一标识信息;
c.判断元数据服务器中是否存在与该文件元数据唯一标识信息对应的文件元数据,如果存在,则确定存储服务器所保存的文件数据不是垃圾文件,否则,确定该文件数据是垃圾文件。
所述步骤a中,所述唯一标识信息为文件元数据的索引节点号。
所述检查垃圾文件由元数据存储器执行;
所述步骤b在获取存储服务器中的文件数据所对应文件元数据的唯一标识信息之前,元数据服务器向存储服务器发送用于查找文件数据的查找命令,存储服务器收到查找命令后,执行获取存储服务器中的文件数据对应文件元数据唯一标识信息的步骤。
所述文件数据保存在存储服务器中专门用于保存文件数据的数据目录下,并将该数据目录的路径信息保存在配置文件中;
所述步骤b在获取存储服务器中的文件数据所对应文件元数据的唯一标识信息之前,进一步包括:根据配置文件中保存的路径信息确定存储服务器的数据目录。
所述步骤c之后进一步包括:报告与该文件元数据唯一标识信息对应的所有文件数据为垃圾文件。
所述步骤c之后进一步包括:向所有存储服务器发送包含该文件元数据唯一标识信息的删除命令,所有存储服务器收到删除命令后,查找出自身保存的文件数据中与该唯一标识信息对应的所有文件数据,并删除该文件数据。
所述文件数据保存在存储服务器中专门用于保存文件数据的数据目录下;
该方法进一步包括:在数据目录下设置与文件元数据唯一标识信息对应的子目录,并在该子目录中保存与该文件元数据唯一标识信息对应的文件数据;
所述存储服务器查找与唯一标识信息对应的文件数据为:根据该唯一标识信息确定对应的子目录,并获取该子目录中保存的文件数据。
该方法还可以进一步包括:将与文件元数据唯一标识信息对应的子目录的目录名设置为哈希表的索引值,所述索引值根据该唯一标识信息及哈希函数确定。
所述哈希函数可以为取模函数。
本发明方案通过在文件数据中设置对应文件元数据的唯一标识信息,以通过文件数据查找对应的文件元数据,并将没有查找出文件元数据与之对应的那些文件数据作为垃圾文件,实现了机群文件系统中文件元数据与文件数据的高度一致性,从而保证了机群文件系统的完整性和一致性,使得包括LCFS在内的分离存储数据的机群文件系统具有更好的高可用性。本发明方案还可以删除所查找出的垃圾文件,进而节约了系统的存储空间。
另外,本发明方案还可以作为FSCK工具的一个子功能,进一步完善了FSCK。
附图说明
图1为本发明实施例的实现流程图。
具体实施方式
本发明方案可以用在所有将文件的元数据与数据分离保存在不同存储器的机群文件系统,下面以在LCFS中运用该方案为例。
由于LCFS对数据通过元数据服务器和存储服务器进行分散控制,因此LCFS的垃圾文件检查技术需要在LCFS的元数据服务器端和存储服务器端实现。下面结合图1及具体实施例对本发明方案作进一步详细的说明。
步骤101、在文件数据中设置对应文件元数据的唯一标识信息。
具体来说,由于每个文件元数据都有一个唯一与之对应的索引节点号,因此可以在文件数据中设置文件元数据的索引节点号。这样,就可以根据文件数据中的索引节点号确定对应的文件元数据,同时,文件元数据也可以根据该索引节点号快速地查找到与自身对应的文件数据。
当然,为便于查找,可以将该索引节点号直接设置在文件数据的文件名中。
步骤102、将文件元数据保存在元数据服务器中。
步骤103、将文件数据保存在存储服务器中,并保存文件数据所在目录的路径信息。
存储服务器是将所有的文件数据都保存在一个专门用于保存文件数据的数据(data)目录下。该data目录的路径信息可以保存在存储服务器的配置文件中。
通过步骤103的设置,在存储服务器上查找相应的文件数据时,首先通过配置文件获取文件数据的目录路径,然后再根据该目录路径从存储服务器中获取对应的文件数据。
在经过上述三个步骤的设置后,还需要通过下述步骤来检查垃圾文件:
步骤104~107、元数据服务器在检查垃圾文件时,获取每个存储服务器所保存的文件数据对应文件元数据的唯一标识信息,并判断自身是否存在与该唯一标识信息对应的文件元数据,如果存在,则确定该文件数据不是垃圾文件,否则,确定该文件数据为垃圾文件。
元数据服务器在检查垃圾文件时,可以先向存储服务器发送用于查找文件数据的查找命令,该查找命令中包括各个存储服务器用于保存data目录路径信息的配置文件的文件名。存储服务器在收到该查找命令后,则根据该查找命令中携带的配置文件名确定data目录的路径,并查找data目录中的文件数据。如果元数据服务器所发送的查找命令中没有包括该配置文件,则存储服务器在收到查找命令后,默认自身保存data目录路径的配置文件为该查找命令所对应的配置文件。
重复执行上述步骤104,即可从机群文件系统中查找出所有的垃圾文件。
当然,元数据服务器在确定某个文件数据是垃圾文件时,即可认为与该文件数据对应文件元数据所对应的所有文件数据都是垃圾文件。元数据服务器还可以向用户报告这些文件数据为垃圾文件,用户则可以对该垃圾文件进行处理,比如,删除该垃圾文件。
元数据服务器也可以直接删除该垃圾文件,具体来说,元数据服务器在确定某个文件数据为垃圾文件时,即向所有的存储服务器都发送包含该文件数据对应文件元数据的唯一标识信息的删除命令,所有存储服务器收到该删除命令后,查找出与删除命令中的唯一标识信息对应的所有文件数据,并删除这些文件数据。
上述存储服务器删除垃圾文件需要首先查找与删除命令中携带的文件元数据唯一标识信息,也即,存储服务器需要根据文件元数据的唯一标识信息在所有的文件数据中查找出与该唯一标识信息对应的文件数据,这种查找方法显然比较麻烦。
为便于检查,还可以在data目录下设置多个用于保存文件数据的子目录,并将这些子目录设置为与文件元数据的唯一标识信息对应。具体设置时,可以将每个子目录名都设置为哈希表的索引值,而该索引值可以根据文件元数据的唯一标识信息与哈希函数确定,或者说,是将文件元数据的唯一标识信息作为哈希函数的键值。这样,存储服务器在根据文件元数据的唯一标识信息从所有文件数据中查找对应的文件数据时,就可以直接根据该唯一标识信息及哈希函数确定对应子目录的索引值,然后在该子目录中获取所要查找的文件数据。这里,所采用的哈希函数可以是最简单的取模函数。
以上所述仅为本发明方案的较佳实施例,并不用以限定本发明的保护范围。

Claims (9)

1、一种检查机群文件系统中垃圾文件的方法,机群文件系统中文件的元数据保存在元数据服务器中,文件的数据保存在存储服务器中,其特征在于,该方法包括以下步骤:
a.在文件数据中设置文件元数据的唯一标识信息;
b.在检查垃圾文件时,获取存储服务器中的文件数据所对应文件元数据的唯一标识信息;
c.判断元数据服务器中是否存在与该文件元数据唯一标识信息对应的文件元数据,如果存在,则确定存储服务器所保存的文件数据不是垃圾文件,否则,确定该文件数据是垃圾文件。
2、根据权利要求1所述的方法,其特征在于所述步骤a中,所述唯一标识信息为文件元数据的索引节点号。
3、根据权利要求1所述的方法,其特征在于,所述检查垃圾文件由元数据存储器执行;
所述步骤b在获取存储服务器中的文件数据所对应文件元数据的唯一标识信息之前,元数据服务器向存储服务器发送用于查找文件数据的查找命令,存储服务器收到查找命令后,执行获取存储服务器中的文件数据对应文件元数据唯一标识信息的步骤。
4、根据权利要求1或3所述的方法,其特征在于,所述文件数据保存在存储服务器中用于保存文件数据的数据目录下,并将该数据目录的路径信息保存在配置文件中;
所述步骤b在获取存储服务器中的文件数据所对应文件元数据的唯一标识信息之前,进一步包括:根据配置文件中保存的路径信息确定存储服务器的数据目录。
5、根据权利要求1所述的方法,其特征在于,所述步骤c之后进一步包括:报告与该文件元数据唯一标识信息对应的所有文件数据为垃圾文件。
6、根据权利要求1所述的方法,其特征在于,所述步骤c之后进一步包括:向所有存储服务器发送包含该文件元数据唯一标识信息的删除命令,所有存储服务器收到删除命令后,查找出自身保存的文件数据中与该唯一标识信息对应的所有文件数据,并删除该文件数据。
7、根据权利要求6所述的方法,其特征在于,所述文件数据保存在存储服务器中专门用于保存文件数据的数据目录下;
该方法进一步包括:在数据目录下设置与文件元数据唯一标识信息对应的子目录,并在该子目录中保存与该文件元数据唯一标识信息对应的文件数据;
所述存储服务器查找与唯一标识信息对应的文件数据为:根据该唯一标识信息确定对应的子目录,并获取该子目录中保存的文件数据。
8、根据权利要求7所述的方法,其特征在于,该方法进一步包括:将与文件元数据唯一标识信息对应的子目录的目录名设置为哈希表的索引值,所述索引值根据该唯一标识信息及哈希函数确定。
9、根据权利要求8所述的方法,其特征在于,所述哈希函数为取模函数。
CNB2004100294270A 2004-03-17 2004-03-17 一种检查机群文件系统中垃圾文件的方法 Expired - Lifetime CN100357943C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2004100294270A CN100357943C (zh) 2004-03-17 2004-03-17 一种检查机群文件系统中垃圾文件的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2004100294270A CN100357943C (zh) 2004-03-17 2004-03-17 一种检查机群文件系统中垃圾文件的方法

Publications (2)

Publication Number Publication Date
CN1670726A true CN1670726A (zh) 2005-09-21
CN100357943C CN100357943C (zh) 2007-12-26

Family

ID=35041993

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2004100294270A Expired - Lifetime CN100357943C (zh) 2004-03-17 2004-03-17 一种检查机群文件系统中垃圾文件的方法

Country Status (1)

Country Link
CN (1) CN100357943C (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100424702C (zh) * 2005-07-28 2008-10-08 国际商业机器公司 在具有命名空间的文件系统中查找丢失对象的方法和装置
CN101997823A (zh) * 2009-08-17 2011-03-30 联想(北京)有限公司 一种分布式文件系统及其数据访问方法
CN101697168B (zh) * 2009-10-22 2011-10-19 中国科学技术大学 一种分布式文件系统动态元数据管理方法及系统
CN102279881A (zh) * 2011-07-28 2011-12-14 南京中兴新软件有限责任公司 清除垃圾数据的方法及文件访问服务器
CN102663090A (zh) * 2012-04-10 2012-09-12 华为技术有限公司 元数据查询方法和装置
CN103678337A (zh) * 2012-09-06 2014-03-26 华为技术有限公司 数据清除方法、装置及系统
CN105446987A (zh) * 2014-06-30 2016-03-30 北京金山安全软件有限公司 图片类垃圾文件的识别方法、装置和电子设备
CN108108469A (zh) * 2017-12-29 2018-06-01 北京奇虎科技有限公司 数据迭代方法及装置
CN108415986A (zh) * 2018-02-11 2018-08-17 杭州朗和科技有限公司 一种数据处理方法、装置、系统、介质和计算设备
CN111400255A (zh) * 2019-09-26 2020-07-10 杭州海康威视系统技术有限公司 数据清理方法、装置及设备、存储介质
CN112860643A (zh) * 2021-03-05 2021-05-28 中富通集团股份有限公司 一种提高5g移动终端缓存清理速度的方法和存储设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4580472B2 (ja) * 1997-02-04 2010-11-10 ソニー株式会社 情報信号記録再生装置および記録再生方法
JP2000020365A (ja) * 1998-07-07 2000-01-21 Matsushita Electric Ind Co Ltd データ処理装置、及びそのファイル管理方法
ES2349115T3 (es) * 2000-02-04 2010-12-28 Listen.Com, Inc. Sistema para red de medios distribuida y servidor de metadatos.
US7058662B2 (en) * 2000-11-30 2006-06-06 Xythos Software, Inc. Maintenance of data integrity during transfer among computer networks
CN1192308C (zh) * 2001-06-28 2005-03-09 华为技术有限公司 一种快速消除数据库差异信息的方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100424702C (zh) * 2005-07-28 2008-10-08 国际商业机器公司 在具有命名空间的文件系统中查找丢失对象的方法和装置
CN101997823A (zh) * 2009-08-17 2011-03-30 联想(北京)有限公司 一种分布式文件系统及其数据访问方法
CN101997823B (zh) * 2009-08-17 2013-10-02 联想(北京)有限公司 一种分布式文件系统及其数据访问方法
CN101697168B (zh) * 2009-10-22 2011-10-19 中国科学技术大学 一种分布式文件系统动态元数据管理方法及系统
CN102279881A (zh) * 2011-07-28 2011-12-14 南京中兴新软件有限责任公司 清除垃圾数据的方法及文件访问服务器
CN102663090A (zh) * 2012-04-10 2012-09-12 华为技术有限公司 元数据查询方法和装置
WO2013152678A1 (zh) * 2012-04-10 2013-10-17 华为技术有限公司 元数据查询方法和装置
US9529912B2 (en) 2012-04-10 2016-12-27 Huawei Technologies Co., Ltd. Metadata querying method and apparatus
CN103678337B (zh) * 2012-09-06 2017-12-12 华为技术有限公司 数据清除方法、装置及系统
CN103678337A (zh) * 2012-09-06 2014-03-26 华为技术有限公司 数据清除方法、装置及系统
CN105446987A (zh) * 2014-06-30 2016-03-30 北京金山安全软件有限公司 图片类垃圾文件的识别方法、装置和电子设备
CN108108469A (zh) * 2017-12-29 2018-06-01 北京奇虎科技有限公司 数据迭代方法及装置
CN108415986A (zh) * 2018-02-11 2018-08-17 杭州朗和科技有限公司 一种数据处理方法、装置、系统、介质和计算设备
CN108415986B (zh) * 2018-02-11 2020-10-30 杭州朗和科技有限公司 一种数据处理方法、装置、系统、介质和计算设备
CN111400255A (zh) * 2019-09-26 2020-07-10 杭州海康威视系统技术有限公司 数据清理方法、装置及设备、存储介质
CN111400255B (zh) * 2019-09-26 2023-04-28 杭州海康威视系统技术有限公司 数据清理方法、装置及设备、存储介质
CN112860643A (zh) * 2021-03-05 2021-05-28 中富通集团股份有限公司 一种提高5g移动终端缓存清理速度的方法和存储设备

Also Published As

Publication number Publication date
CN100357943C (zh) 2007-12-26

Similar Documents

Publication Publication Date Title
US9015214B2 (en) Process of generating a list of files added, changed, or deleted of a file server
US7228299B1 (en) System and method for performing file lookups based on tags
CN103077199B (zh) 一种文件资源查找定位方法及装置
US6754799B2 (en) System and method for indexing and retrieving cached objects
US7401080B2 (en) Storage reports duplicate file detection
EP2324440B1 (en) Providing data structures for determining whether keys of an index are present in a storage system
CN108256076B (zh) 分布式海量数据处理方法及装置
CN104077423B (zh) 一种基于一致性散列的结构化数据存储、查询和迁移方法
US20020032691A1 (en) High performance efficient subsystem for data object storage
EP2629215A1 (en) File list generation method, system, and program, and file list generation device
WO2006012316A3 (en) Methods and systems for indexing files and adding associated metadata to index and metadata databases
JP2009533731A5 (zh)
US8938428B1 (en) Systems and methods for efficiently locating object names in a large index of records containing object names
CN109284273B (zh) 一种采用后缀数组索引的海量小文件查询方法及系统
CN1670726A (zh) 一种检查机群文件系统中垃圾文件的方法
CN103823807B (zh) 一种去除重复数据的方法、装置及系统
CN106980680B (zh) 数据存储方法及存储设备
CN1717686A (zh) 自动数据合并
US20090006535A1 (en) Techniques For Performing Intelligent Content Indexing
CN103118045B (zh) 一种离线下载的方法及系统
US8086638B1 (en) File handle banking to provide non-disruptive migration of files
CN108241710A (zh) 一种文件创建方法、装置以及文件查询方法、装置
US10853320B1 (en) Scavenging directories for free space
US20230138113A1 (en) System for retrieval of large datasets in cloud environments
CN114490514A (zh) 文件系统的元数据管理方法、装置、设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CX01 Expiry of patent term
CX01 Expiry of patent term

Granted publication date: 20071226