CN103064843B - 数据处理装置和数据处理方法 - Google Patents

数据处理装置和数据处理方法 Download PDF

Info

Publication number
CN103064843B
CN103064843B CN201110319561.4A CN201110319561A CN103064843B CN 103064843 B CN103064843 B CN 103064843B CN 201110319561 A CN201110319561 A CN 201110319561A CN 103064843 B CN103064843 B CN 103064843B
Authority
CN
China
Prior art keywords
data
files
writing
file
write file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110319561.4A
Other languages
English (en)
Other versions
CN103064843A (zh
Inventor
谭光超
王亮
陈沛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongsou Network Technology Co ltd
Original Assignee
Beijing Zhongsou Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongsou Network Technology Co ltd filed Critical Beijing Zhongsou Network Technology Co ltd
Priority to CN201110319561.4A priority Critical patent/CN103064843B/zh
Publication of CN103064843A publication Critical patent/CN103064843A/zh
Application granted granted Critical
Publication of CN103064843B publication Critical patent/CN103064843B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供一种数据处理装置和一种数据处理方法,其中,数据处理装置包括:文件管理模块,在需要存储数据时,分配写入文件,由数据操作模块将数据追加到写入文件的尾部;数据操作模块,在对数据进行增删改时,用追加方式增加新数据,并标识出无效的数据,文件管理模块在写入文件满足预定条件时,分配新写入文件,并由数据操作模块将写入文件中的非废弃数据追加到新写入文件的尾部,同时删除写入文件。通过本发明,数据存储效率较高,有效控制了数据文件的大小,不需压紧操作。

Description

数据处理装置和数据处理方法
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种数据处理装置和一种数据处理方法。
背景技术
CouchDB是一个″面向文档″的数据库,文档的格式是一个JSON字符串(也可包含二进制附件)。底层结构是由一个“存储”(storeage),以及多个“视图索引”(viewindexs)。“储存”用来储存文件,“视图索引”用于查询处理。
所有的更新操作(包括文件(document)的创建,修改和删除)都是以在CouchDB数据库中的后缀为couch的文件尾部追加的方式(即Append追加方式)进行。我们进行更新时,首先拷贝原有的数据信息(仅仅针对修改,如果是创建(Create)那么就没有拷贝(copy)可言了),随后将其追加到文件的结尾,这个时候就激发平衡二叉查找树(B+Tree)从叶子节点(leaf)到根节点(root)的更新过程,更新的节点(Node)信息也是采用Append的方式写入到文件的结尾,到达根节点时,我们将根节点信息写入到文件头(Header)中。这样一次更新操作涉及1次数据写入,以及LogN次节点更新,所以其复杂度为O(logN)。
因此采用追加的方式,所以在数据库运行一段时间后,我们需要对其进行“瘦身”,以清理那些旧的Document数据。这个过程成为压紧(Compaction)。在Compaction的过程,数据库仍然可用,只是需要注意,在Compaction的时候,是通过遍历DBName.couch文件,将最新的数据拷贝到一个DBName.compat文件中,因此这个过程可能会耗费很大的存储空间,如果在系统繁忙(主要是写入操作(write))的情况下进行Compaction,可能会导致硬盘空间耗尽。值得注意的是,读操作是并行的,写操作是串行的。换句话说,在任何时候只有一个写的更新操作。
这也就是说,通过目前的数据存储方式,对于单个数据文件而言,随着使用时间的增多,数据文件会占用大量存储空间,压紧(Compaction)过程占用资源过多,时间长,影响服务。
因此,需要一种新的针对数据存储的数据管理方式,能够实现同时进行多个数据文件的写入操作,而且可以保证生成的数据文件大小合理,不至于由于进行压紧操作,而导致占用大量的资源和时间,避免对用户造成不良的使用影响。
发明内容
本发明所需要解决的技术问题在于,提供一种新的针对数据存储的数据管理方式,能够实现同时进行多个数据文件的写入操作,而且可以保证生成的数据文件大小合理,不至于由于进行压紧操作,而导致占用大量的资源和时间,避免对用户造成不良的使用影响。
有鉴于此,本发明提供一种数据处理装置,包括:文件管理模块,在需要存储数据时,分配写入文件,由数据操作模块将所述数据追加到所述写入文件的尾部;所述数据操作模块,在需要对所述数据进行新增时,将所述数据的新增数据,继续追加到所述写入文件的尾部,在需要对所述数据进行修改时,将所述数据的修改数据继续追加到所述写入文件的尾部,并在所述写入文件中,将所述数据中的需修改数据作为废弃数据,在需要对所述数据进行删除时,在所述写入文件中,将所述数据作为所述废弃数据,所述文件管理模块在所述写入文件满足预定条件时,分配新写入文件,并由所述数据操作模块将所述写入文件中的非废弃数据追加到所述新写入文件的尾部,同时删除所述写入文件。通过该技术方案,针对对数据进行的增删改等操作,仅采用追加的方式来实现,效率较高,并且有效控制了数据文件的大小,不需进行浪费时间以及资源的压紧操作,不影响用户的正常使用。
在上述技术方案中,优选地,所述文件管理模块还创建多个写入文件以供分配,以及在所述写入文件被删除时,再创建一个写入文件,以供分配。通过该技术方案,保证随时有稳定数量的写入文件来实现数据的写入操作,保证方案执行的流畅与稳定。通过多个写入文件,可以实现并发的对数据的增删改操作。
在上述技术方案中,优选地,还包括:区域设置模块,设置新生区、保持区和销毁区,并由所述文件管理模块将新创建的所有写入文件放入所述新生区,其中,禁止对所述保持区和所述销毁区中的所有写入文件进行写入操作,所述写入操作包括:对所述所有写入文件中进行数据追加;所述文件管理模块在所述写入文件的大小超过第一预设值时,将所述写入文件移入所述保持区,同时再创建一个写入文件并放入所述新生区,在所述写入文件满足所述预定条件时,将所述写入文件移入所述销毁区,并在所述销毁区中,由所述数据操作模块将所述写入文件中的所述非废弃数据追加到所述新写入文件的尾部,同时删除所述写入文件,其中所述预定条件包括:所述写入文件中所述非废弃数据的比率低于第二预设值。通过该技术方案,通过设置不同的区域来对不同大小的数据文件进行管理,保证了可将数据文件控制在合理的大小之间,可以实现数据的平滑淘汰。
在上述技术方案中,优选地,所述区域设置模块还将所述新生区、所述保持区和所述销毁区设置在一个或多个存储装置中。通过该技术方案,通过将多个新生区设置在不同的存储装置上,能够避免出现输入/输出堵塞的情况。
在上述技术方案中,优选地,还包括:统计模块,创建统计文件,以记录所有写入文件,以及所述所有写入文件中的数据的大小和废弃数据的大小;所述文件管理模块还根据所述统计文件,来判断所述写入文件的大小是否超过所述第一预设值,以及所述写入文件中所述非废弃数据的比率是否低于所述第二预设值。通过该技术方案,通过统计文件记录的信息,能够有效实现对数据文件的管理。本技术方案中,还创建索引,记录数据文件和其对应的偏移量及数据长度,结合索引和统计文件,能够准确定位至相关数据文件,以对数据文件按统计文件的信息进行处理。
本发明还提供一种数据处理方法,包括:步骤202,文件管理模块在需要存储数据时,分配写入文件,由数据操作模块将所述数据追加到所述写入文件的尾部;步骤204,所述数据操作模块在需要对所述数据进行新增时,将所述数据的新增数据,继续追加到所述写入文件的尾部;步骤206,所述数据操作模块在需要对所述数据进行修改时,将所述数据的修改数据继续追加到所述写入文件的尾部,并在所述写入文件中,将所述数据中的需修改数据作为废弃数据;步骤208,所述数据操作模块在需要对所述数据进行删除时,在所述写入文件中,将所述数据作为所述废弃数据;步骤210,所述文件管理模块在所述写入文件满足预定条件时,分配新写入文件,并由所述数据操作模块将所述写入文件中的非废弃数据追加到所述新写入文件的尾部,同时删除所述写入文件。
在上述技术方案中,优选地,在所述步骤202之前,还包括:所述文件管理模块创建多个写入文件以供分配;在所述步骤210中,还包括:所述文件管理模块再创建一个写入文件,以供分配。通过多个写入文件,可以实现并发的对数据的增删改操作。
在上述技术方案中,优选地,在所述步骤202之前,还包括:区域设置模块设置新生区、保持区和销毁区,并由所述文件管理模块将新创建的所有写入文件放入所述新生区,其中,禁止对所述保持区和所述销毁区中的所有写入文件进行写入操作,所述写入操作包括:对所述所有写入文件中进行数据追加;在所述步骤210具体包括:所述文件管理模块在所述写入文件的大小超过第一预设值时,将所述写入文件移入所述保持区,同时再创建一个写入文件并放入所述新生区,在所述写入文件满足所述预定条件时,将所述写入文件移入所述销毁区,并在所述销毁区中,由所述数据操作模块将所述写入文件中的所述非废弃数据追加到所述新写入文件的尾部,同时删除所述写入文件,其中所述预定条件包括:所述写入文件中所述非废弃数据的比率低于第二预设值。通过该技术方案,通过设置不同的区域来对不同大小的数据文件进行管理,保证了可将数据文件控制在合理的大小之间,可以实现数据的平滑淘汰。
在上述技术方案中,优选地,在所述步骤202之前,还包括:所述区域设置模块将所述新生区、所述保持区和所述销毁区设置在一个或多个存储装置中。通过该技术方案,通过将多个新生区设置在不同的存储装置上,能够避免出现输入/输出堵塞的情况。
在上述技术方案中,优选地,在所述步骤202之前,还包括:统计模块创建统计文件,以记录所有写入文件,以及所述所有写入文件中的数据的大小和废弃数据的大小;在所述步骤210中,还包括:所述文件管理模块根据所述统计文件,来判断所述写入文件的大小是否超过所述第一预设值,以及所述写入文件中所述非废弃数据的比率是否低于所述第二预设值。通过该技术方案,通过统计文件记录的信息,能够有效实现对数据文件的管理。本技术方案中,还创建索引,记录数据文件和其对应的偏移量及数据长度,结合索引和统计文件,能够准确定位至相关数据文件,以对数据文件按统计文件的信息进行处理。
通过上述技术方案,可以实现一种数据管理装置和一种数据管理方法,能够实现同时进行多个数据文件的写入操作,而且可以保证生成的数据文件大小合理,不至于由于进行压紧操作,而导致占用大量的资源和时间,避免对用户造成不良的使用影响。
附图说明
图1是根据本发明的一个实施例的数据管理装置的框图;
图2是根据本发明的一个实施例的数据管理方法的流程图;
图3是根据本发明的一个实施例的数据管理方法的文件管理示意图;
图4是根据本发明的一个实施例的数据管理方法的数据结构示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例的限制。
图1是根据本发明的一个实施例的数据管理装置的框图。
如图1所示,本发明提供一种数据处理装置100,包括:文件管理模块102,在需要存储数据时,分配写入文件,由数据操作模块104将所述数据追加到所述写入文件的尾部;所述数据操作模块104,在需要对所述数据进行新增时,将所述数据的新增数据,继续追加到所述写入文件的尾部,在需要对所述数据进行修改时,将所述数据的修改数据继续追加到所述写入文件的尾部,并在所述写入文件中,将所述数据中的需修改数据作为废弃数据,在需要对所述数据进行删除时,在所述写入文件中,将所述数据作为所述废弃数据,所述文件管理模块102在所述写入文件满足预定条件时,分配新写入文件,并由所述数据操作模块104将所述写入文件中的非废弃数据追加到所述新写入文件的尾部,同时删除所述写入文件。通过该技术方案,针对对数据进行的增删改等操作,仅采用追加的方式来实现,效率较高,并且有效控制了数据文件的大小,不需进行浪费时间以及资源的压紧操作,不影响用户的正常使用。
在上述技术方案中,所述文件管理模块102还创建多个写入文件以供分配,以及在所述写入文件被删除时,再创建一个写入文件,以供分配。通过该技术方案,保证随时有稳定数量的写入文件来实现数据的写入操作,保证方案执行的流畅与稳定。通过多个写入文件,可以实现并发的对数据的增删改操作。
在上述技术方案中,还包括:区域设置模块106,设置新生区、保持区和销毁区,并由所述文件管理模块102将新创建的所有写入文件放入所述新生区,其中,禁止对所述保持区和所述销毁区中的所有写入文件进行写入操作,所述写入操作包括:对所述所有写入文件中进行数据追加;所述文件管理模块102在所述写入文件的大小超过第一预设值时,将所述写入文件移入所述保持区,同时再创建一个写入文件并放入所述新生区,在所述写入文件满足所述预定条件时,将所述写入文件移入所述销毁区,并在所述销毁区中,由所述数据操作模块104将所述写入文件中的所述非废弃数据追加到所述新写入文件的尾部,同时删除所述写入文件,其中所述预定条件包括:所述写入文件中所述非废弃数据的比率低于第二预设值。通过该技术方案,通过设置不同的区域来对不同大小的数据文件进行管理,保证了可将数据文件控制在合理的大小之间,可以实现数据的平滑淘汰。
在上述技术方案中,所述区域设置模块106还将所述新生区、所述保持区和所述销毁区设置在一个或多个存储装置中。通过该技术方案,通过将多个新生区设置在不同的存储装置上,能够避免出现输入/输出堵塞的情况。
在上述技术方案中,还包括:统计模块108,创建统计文件,以记录所有写入文件,以及所述所有写入文件中的数据的大小和废弃数据的大小;所述文件管理模块102还根据所述统计文件,来判断所述写入文件的大小是否超过所述第一预设值,以及所述写入文件中所述非废弃数据的比率是否低于所述第二预设值。通过该技术方案,通过统计文件记录的信息,能够有效实现对数据文件的管理。本技术方案中,还创建索引,记录数据文件和其对应的偏移量及数据长度,结合索引和统计文件,能够准确定位至相关数据文件,以对数据文件按统计文件的信息进行处理。
图2是根据本发明的一个实施例的数据管理方法的流程图。
如图2所示,本发明还提供一种数据处理方法,包括:步骤202,文件管理模块在需要存储数据时,分配写入文件,由数据操作模块将所述数据追加到所述写入文件的尾部;步骤204,所述数据操作模块在需要对所述数据进行新增时,将所述数据的新增数据,继续追加到所述写入文件的尾部;步骤206,所述数据操作模块在需要对所述数据进行修改时,将所述数据的修改数据继续追加到所述写入文件的尾部,并在所述写入文件中,将所述数据中的需修改数据作为废弃数据;步骤208,所述数据操作模块在需要对所述数据进行删除时,在所述写入文件中,将所述数据作为所述废弃数据;步骤210,所述文件管理模块在所述写入文件满足预定条件时,分配新写入文件,并由所述数据操作模块将所述写入文件中的非废弃数据追加到所述新写入文件的尾部,同时删除所述写入文件。
在上述技术方案中,在所述步骤202之前,还包括:所述文件管理模块创建多个写入文件以供分配;在所述步骤210中,还包括:所述文件管理模块再创建一个写入文件,以供分配。通过多个写入文件,可以实现并发的对数据的增删改操作。
在上述技术方案中,在所述步骤202之前,还包括:区域设置模块设置新生区、保持区和销毁区,并由所述文件管理模块将新创建的所有写入文件放入所述新生区,其中,禁止对所述保持区和所述销毁区中的所有写入文件进行写入操作,所述写入操作包括:对所述所有写入文件中进行数据追加;在所述步骤210具体包括:所述文件管理模块在所述写入文件的大小超过第一预设值时,将所述写入文件移入所述保持区,同时再创建一个写入文件并放入所述新生区,在所述写入文件满足所述预定条件时,将所述写入文件移入所述销毁区,并在所述销毁区中,由所述数据操作模块将所述写入文件中的所述非废弃数据追加到所述新写入文件的尾部,同时删除所述写入文件,其中所述预定条件包括:所述写入文件中所述非废弃数据的比率低于第二预设值。通过该技术方案,通过设置不同的区域来对不同大小的数据文件进行管理,保证了可将数据文件控制在合理的大小之间,可以实现数据的平滑淘汰。
在上述技术方案中,在所述步骤202之前,还包括:所述区域设置模块将所述新生区、所述保持区和所述销毁区设置在一个或多个存储装置中。通过该技术方案,通过将多个新生区设置在不同的存储装置上,能够避免出现输入/输出堵塞的情况。
在上述技术方案中,在所述步骤202之前,还包括:统计模块创建统计文件,以记录所有写入文件,以及所述所有写入文件中的数据的大小和废弃数据的大小;在所述步骤210中,还包括:所述文件管理模块根据所述统计文件,来判断所述写入文件的大小是否超过所述第一预设值,以及所述写入文件中所述非废弃数据的比率是否低于所述第二预设值。通过该技术方案,通过统计文件记录的信息,能够有效实现对数据文件的管理。本技术方案中,还创建索引,记录数据文件和其对应的偏移量及数据长度,结合索引和统计文件,能够准确定位至相关数据文件,以对数据文件按统计文件的信息进行处理。
以下对本发明的实施例的技术方案进行详细说明。
本发明实施例的原理:一切皆最佳的操作提供的一个有趣的MVCC(多版本并发控制)模型,因为该文件保存了所有以前的历史文件版本信息。只要客户端持有先前根节点的B+树索引,它就可以得到快照视图。即便是更新不断发生,客户将不会看到任何的最新变化。这种一致性快照在在线备份以及在线“瘦身”方面是非常有用的。
本实施例中,使用多组数据写入文件配合索引、统计文件来进行数据的有效管理。数据文件采用只追加的方式写入。
根据数据文件的写入状况,存放数据文件的区域共分为三组:新生区、保持区和销毁区,如图3所示。数据的新增和修改都影响新生区,即追加操作,保持区和销毁区的文件都只有读取操作。辅助文件包括:索引文件和统计文件。索引在内存中操作,周期写入索引文件。统计文件包含数据文件类表和每个文件的总大小和废弃总大小,周期或发生重大变更时写入统计文件。
本实施例的技术方案中,对数据进行管理的流程如下:
1.初始化多个写入文件,放入新生区(可以位于不同的存储装置上,避免io阻塞)。并更新文件列表,写入统计文件。
2.索引的主要内容是:对key进行哈希,哈希的位置记录了对应数据的文件和偏移量,以及数据长度。索引的示例可以如图4所示。
3.在数据插入时,从新生区中分配一个数据文件。将插入的数据追加到文件的末尾,然后更新索引,在索引中记录对应文件和偏移量、数据长度。并在统计文件中,更新对应数据文件总大小。
4.当新生区的任一数据文件总大小超过预设最大值时,则将该文件转移到保持区,并初始化新的数据文件加入新生区,保持新生区文件数量稳定。新数据文件加入新文件列表,并立即将文件列表和对应写入状况写入统计文件。
5.数据删除:更新索引,在索引中,将记录的对应数据文件设置为无效。在统计文件中,更新原数据文件的废弃区大小。实际上,并不改变数据文件。
6.数据更新:将新内容写入新生区的数据文件(同插入)。更新索引,指向新的数据文件和偏移量,数据长度。在统计文件中,更新写入文件的大小,原数据文件废弃大小。
7.数据检索:根据索引得到对应的数据文件、偏移量、长度,直接定位到数据文件并进行读取。
8.在保持区中的任一数据文件的利用率((总大小-废弃大小)/总大小)低于预设的最小值时,将该数据文件移到销毁区。
9.对销毁区的数据文件,对照索引,将该文件的有效数据追加到新生区数据文件的末尾,同时删除该销毁区数据文件。
综上所述,通过本发明的技术方案,可以实现一种数据管理装置和一种管理方法,使用一组数据写入文件,只通过数据追加的方式存储实际数据,能够实现对数据的高并发写入、更新、读取,并且能够通过索引和统计文件,管理各个文件的数据内容,实现了在后台按需回收存储空间,平滑淘汰旧数据。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种数据处理装置,其特征在于,包括:
文件管理模块,在需要存储数据时,分配写入文件,由数据操作模块将所述数据追加到所述写入文件的尾部;
所述数据操作模块,在需要对所述数据进行新增时,将所述数据的新增数据,继续追加到所述写入文件的尾部,在需要对所述数据进行修改时,将所述数据的修改数据继续追加到所述写入文件的尾部,并在所述写入文件中,将所述数据中的需修改数据作为废弃数据,在需要对所述数据进行删除时,在所述写入文件中,将所述数据作为所述废弃数据,
所述文件管理模块在所述写入文件满足预定条件时,分配新写入文件,并由所述数据操作模块将所述写入文件中的非废弃数据追加到所述新写入文件的尾部,同时删除所述写入文件;
所述文件管理模块还创建多个写入文件以供分配,以及在所述写入文件被删除时,再创建一个写入文件,以供分配;
区域设置模块,设置新生区、保持区和销毁区,并由所述文件管理模块将新创建的所有写入文件放入所述新生区,其中,禁止对所述保持区和所述销毁区中的所有写入文件进行写入操作,所述写入操作包括:对所述所有写入文件中进行数据追加;
所述文件管理模块在所述写入文件的大小超过第一预设值时,将所述写入文件移入所述保持区,同时再创建一个写入文件并放入所述新生区,在所述写入文件满足所述预定条件时,将所述写入文件移入所述销毁区,并在所述销毁区中,由所述数据操作模块将所述写入文件中的所述非废弃数据追加到所述新写入文件的尾部,同时删除所述写入文件,其中所述预定条件包括:所述写入文件中所述非废弃数据的比率低于第二预设值。
2.根据权利要求1所述的数据处理装置,其特征在于,所述区域设置模块还将所述新生区、所述保持区和所述销毁区设置在一个或多个存储装置中。
3.根据权利要求1所述的数据处理装置,其特征在于,还包括:
统计模块,创建统计文件,以记录所有写入文件,以及所述所有写入文件中的数据的大小和废弃数据的大小;
所述文件管理模块还根据所述统计文件,来判断所述写入文件的大小是否超过所述第一预设值,以及所述写入文件中所述非废弃数据的比率是否低于所述第二预设值。
4.一种数据处理方法,其特征在于,包括:
步骤202,文件管理模块在需要存储数据时,分配写入文件,由数据操作模块将所述数据追加到所述写入文件的尾部;
步骤204,所述数据操作模块在需要对所述数据进行新增时,将所述数据的新增数据,继续追加到所述写入文件的尾部;
步骤206,所述数据操作模块在需要对所述数据进行修改时,将所述数据的修改数据继续追加到所述写入文件的尾部,并在所述写入文件中,将所述数据中的需修改数据作为废弃数据;
步骤208,所述数据操作模块在需要对所述数据进行删除时,在所述写入文件中,将所述数据作为所述废弃数据;
步骤210,所述文件管理模块在所述写入文件满足预定条件时,分配新写入文件,并由所述数据操作模块将所述写入文件中的非废弃数据追加到所述新写入文件的尾部,同时删除所述写入文件;
在所述步骤202之前,还包括:
所述文件管理模块创建多个写入文件以供分配;
在所述步骤210中,还包括:所述文件管理模块再创建一个写入文件,以供分配;
在所述步骤202之前,还包括:
区域设置模块设置新生区、保持区和销毁区,并由所述文件管理模块将新创建的所有写入文件放入所述新生区,其中,禁止对所述保持区和所述销毁区中的所有写入文件进行写入操作,所述写入操作包括:对所述所有写入文件中进行数据追加;
在所述步骤210具体包括:所述文件管理模块在所述写入文件的大小超过第一预设值时,将所述写入文件移入所述保持区,同时再创建一个写入文件并放入所述新生区,在所述写入文件满足所述预定条件时,将所述写入文件移入所述销毁区,并在所述销毁区中,由所述数据操作模块将所述写入文件中的所述非废弃数据追加到所述新写入文件的尾部,同时删除所述写入文件,其中所述预定条件包括:所述写入文件中所述非废弃数据的比率低于第二预设值。
5.根据权利要求4所述的数据处理方法,其特征在于,在所述步骤202之前,还包括:
所述区域设置模块将所述新生区、所述保持区和所述销毁区设置在一个或多个存储装置中。
6.根据权利要求4所述的数据处理方法,其特征在于,在所述步骤202之前,还包括:
统计模块创建统计文件,以记录所有写入文件,以及所述所有写入文件中的数据的大小和废弃数据的大小;
在所述步骤210中,还包括:
所述文件管理模块根据所述统计文件,来判断所述写入文件的大小是否超过所述第一预设值,以及所述写入文件中所述非废弃数据的比率是否低于所述第二预设值。
CN201110319561.4A 2011-10-20 2011-10-20 数据处理装置和数据处理方法 Active CN103064843B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110319561.4A CN103064843B (zh) 2011-10-20 2011-10-20 数据处理装置和数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110319561.4A CN103064843B (zh) 2011-10-20 2011-10-20 数据处理装置和数据处理方法

Publications (2)

Publication Number Publication Date
CN103064843A CN103064843A (zh) 2013-04-24
CN103064843B true CN103064843B (zh) 2016-03-16

Family

ID=48107473

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110319561.4A Active CN103064843B (zh) 2011-10-20 2011-10-20 数据处理装置和数据处理方法

Country Status (1)

Country Link
CN (1) CN103064843B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559281B (zh) * 2013-11-07 2017-08-01 北京国双科技有限公司 分区数据的处理方法和装置
CN104715017A (zh) * 2015-02-03 2015-06-17 李大伟 数据处理方法及服务器
CN105138581B (zh) * 2015-07-31 2018-08-21 北京无线天利移动信息技术股份有限公司 一种移动信息写入和读取方法及系统
CN106202275A (zh) * 2016-06-30 2016-12-07 乐视控股(北京)有限公司 对象文件的追加、截断方法及装置
CN108415986B (zh) * 2018-02-11 2020-10-30 杭州朗和科技有限公司 一种数据处理方法、装置、系统、介质和计算设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0375188A2 (en) * 1988-12-22 1990-06-27 International Computers Limited File system
CN101452465A (zh) * 2007-12-05 2009-06-10 高德软件有限公司 大批量文件数据存放和读取方法
CN101529395A (zh) * 2006-08-31 2009-09-09 夏普株式会社 文件系统
CN101916299A (zh) * 2010-09-01 2010-12-15 中国地质大学(武汉) 一种基于文件系统的三维空间数据存储管理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0375188A2 (en) * 1988-12-22 1990-06-27 International Computers Limited File system
CN101529395A (zh) * 2006-08-31 2009-09-09 夏普株式会社 文件系统
CN101452465A (zh) * 2007-12-05 2009-06-10 高德软件有限公司 大批量文件数据存放和读取方法
CN101916299A (zh) * 2010-09-01 2010-12-15 中国地质大学(武汉) 一种基于文件系统的三维空间数据存储管理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HDFS下小文件存储优化相关技术研究;柳江;《CNKI中国优秀硕士学位论文全文数据库》;20110915(第2011年第09期);第四章第4.4-4.7节,图4-5、4-7 *

Also Published As

Publication number Publication date
CN103064843A (zh) 2013-04-24

Similar Documents

Publication Publication Date Title
US10761758B2 (en) Data aware deduplication object storage (DADOS)
US9448927B1 (en) System and methods for removing obsolete data in a distributed system of hybrid storage and compute nodes
CN105940396B (zh) 分布式存储系统中对象的层级组块
US11500821B2 (en) Synchronizing metadata in a data storage platform comprising multiple computer nodes
CN101866305B (zh) 支持数据查询和快速恢复的连续数据保护方法及系统
US11023318B1 (en) System and method for fast random access erasure encoded storage
US8578112B2 (en) Data management system and data management method
CN103179185B (zh) 一种分布式文件系统客户端缓存中文件创建方法及其系统
CN103064843B (zh) 数据处理装置和数据处理方法
US11442961B2 (en) Active transaction list synchronization method and apparatus
CN106708825B (zh) 一种数据文件处理方法及系统
CN106105161A (zh) 在维持存储效率的同时向云数据存储装置备份数据
CN103544045A (zh) 一种基于hdfs的虚拟机镜像存储系统及其构建方法
CN102915278A (zh) 重复数据删除方法
WO2014209911A1 (en) Grouping of objects in a distributed storage system based on journals and placement policies
CN103593477A (zh) 一种哈希数据库的配置方法和装置
CN103455577A (zh) 云主机镜像文件的多备份就近存储和读取方法及系统
KR101356470B1 (ko) 플래시 파일 시스템
KR20220137632A (ko) 데이터 관리 시스템 및 제어 방법
CN104462185A (zh) 一种基于混合结构的数字图书馆云存储系统
CN108089825B (zh) 一种基于分布式集群的存储系统
Fang et al. An Adaptive Endurance-Aware ${B^+} $-Tree for Flash Memory Storage Systems
CN106326040B (zh) 一种快照元数据管理方法和装置
CN105045850A (zh) 云存储日志文件系统中垃圾数据回收方法
CN107766355B (zh) 层级数据管理方法、层级数据管理系统及即时通信系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant