CN110888837A - 对象存储小文件归并方法及装置 - Google Patents

对象存储小文件归并方法及装置 Download PDF

Info

Publication number
CN110888837A
CN110888837A CN201911121615.9A CN201911121615A CN110888837A CN 110888837 A CN110888837 A CN 110888837A CN 201911121615 A CN201911121615 A CN 201911121615A CN 110888837 A CN110888837 A CN 110888837A
Authority
CN
China
Prior art keywords
merging
merged
pool
index data
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911121615.9A
Other languages
English (en)
Other versions
CN110888837B (zh
Inventor
肖永玲
鲁加福
张宏瑞
王豪迈
胥昕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xingchen Tianhe Technology Co ltd
Original Assignee
Xsky Beijing Data Technology Corp ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xsky Beijing Data Technology Corp ltd filed Critical Xsky Beijing Data Technology Corp ltd
Priority to CN201911121615.9A priority Critical patent/CN110888837B/zh
Publication of CN110888837A publication Critical patent/CN110888837A/zh
Application granted granted Critical
Publication of CN110888837B publication Critical patent/CN110888837B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/113Details of archiving
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/134Distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种对象存储小文件归并方法及装置。其中,该方法包括:将第一对象及第一对象对应的第一索引数据存储在索引池中,其中,满足预设条件的对象为第一对象;将第二对象存储在数据池中,第二对象对应的第二索引数据存储在索引池中,其中,不满足预设条件的对象为第二对象;将满足归并条件的第一对象和/或第二对象进行归并,生成归并对象;将归并对象存储在归并池或数据池中。本发明解决了相关技术中直接将小对象进行合并存储的方式,存储繁琐,索引效率低,海量小文件对象存储中性能低下的技术问题。

Description

对象存储小文件归并方法及装置
技术领域
本发明涉及对象存储领域,具体而言,涉及一种对象存储小文件归并方法及装置。
背景技术
相关技术中,存在海量小文件对象存储的问题,通常是直接采用小文件对象合并存储+索引文件的优化方案进行存储,可以通过归并文件对象中的索引对小文件对象进行查找。但是,相关技术中大都是基于分布式文件系统的,文件系统结构复杂,将小文件归并为大文件之后,还是存在比较繁琐,索引效率不高,容量空间浪费,对性能的提升有限等问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种对象存储小文件归并方法及装置,以至少解决相关技术中直接将小对象进行合并存储的方式,存储繁琐,索引效率低,海量小文件对象存储中性能低下的技术问题。
根据本发明实施例的一个方面,提供了一种对象存储小文件归并方法,包括:将第一对象及所述第一对象对应的第一索引数据存储在索引池中,其中,满足预设条件的对象为所述第一对象;将第二对象存储在数据池中,所述第二对象对应的第二索引数据存储在所述索引池中,其中,不满足所述预设条件的对象为所述第二对象;将满足归并条件的第一对象和/或第二对象进行归并,生成归并对象;将所述归并对象存储在归并池或数据池中。
可选的,所述归并条件为待归并的对象的大小不超过预设阈值,将满足归并条件的第一对象和/或第二对象进行归并,生成归并对象包括:对待归并的对象的总数量或者大小总量进行检测,其中,所述待归并的对象,包括符合所述归并条件的第一对象,和/或第二对象;在所述待归并的对象的总数量或者大小总量,达到预设数量阈值或预设大小阈值的情况下,将所述待归并的对象进行归并处理,得到归并对象。
可选的,在所述待归并的对象的总数量或者大小总量,达到预设数量阈值或预设大小阈值的情况下,将所述待归并的对象进行归并处理,得到归并对象之后包括:将已经归并的第一对象,在索引池中对应的第一索引数据,更新为第一更新索引数据;生成已经归并的第一对象,在归并对象中进行索引的第一归并索引数据;和/或,将已经归并的第二对象,在索引池中对应的第二索引数据,更新为第二更新索引数据;生成已经归并的第二对象,在归并对象中进行索引的第二归并索引数据。
可选的,还包括:接收目标对象的操作请求;根据所述操作请求从索引池中找到目标对象对应的索引数据,其中,根据目标对象中的识别信息,查找到所述目标对象对应的所述索引数据;根据所述索引数据对所述目标对象进行操作。
可选的,根据所述索引数据对所述目标对象进行操作包括:所述索引数据为第一索引数据,或第二索引数据,确定所述目标对象未被归并,在所述索引池,或所述数据池中对所述目标对象进行操作;所述索引数据为第一更新索引数据,或第二更新索引数据,确定所述目标对象已被归并,根据所述第一更新索引数据,或第二更新索引数据确定所述目标对象对应的归并对象,根据所述归并对象以及所述归并对象中的第一归并索引数据和第二归并索引数据,对目标对象进行操作。
可选的,所述操作请求为读取请求,或删除请求;其中,对目标对象进行读取操作之后,将读取的目标对象进行发送;对目标对象进行删除之后,将目标对象对应的索引数据进行删除。
可选的,将目标对象对应的索引数据进行删除之后包括:在归并对象的空洞率达到预设阈值的情况下,对所述归并对象进行重新归并。
根据本发明实施例的另一方面,还提供了一种对象存储小文件归并装置,包括:第一存储模块,用于将第一对象及所述第一对象对应的第一索引数据存储在索引池中,其中,满足预设条件的对象为所述第一对象;第二存储模块,用于将第二对象存储在数据池中,所述第二对象对应的第二索引数据存储在所述索引池中,其中,不满足所述预设条件的对象为所述第二对象;归并模块,用于将满足归并条件的第一对象和/或第二对象进行归并,生成归并对象;第三存储模块,用于将所述归并对象存储在归并池或数据池中。
根据本发明实施例的另一方面,还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述中任意一项所述的对象存储小文件归并方法。
根据本发明实施例的另一方面,还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述中任意一项所述的对象存储小文件归并方法。
在本发明实施例中,采用将第一对象及第一对象对应的第一索引数据存储在索引池中,其中,满足预设条件的对象为第一对象;将第二对象存储在数据池中,第二对象对应的第二索引数据存储在索引池中,其中,不满足预设条件的对象为第二对象;将满足归并条件的第一对象和/或第二对象进行归并,生成归并对象;将归并对象存储在归并池或数据池中的方式,通过对要存储的对象进行分类存储,结合归并的方式进行存储,达到了高效,准确,简便的存储对象的目的,从而实现了降低繁琐程度,提高索引效率的技术效果,进而解决了相关技术中直接将小对象进行合并存储的方式,存储繁琐,索引效率低,海量小文件对象存储中性能低下的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种对象存储小文件归并方法的流程图;
图2是根据本发明实施方式的存储装置的示意图;
图3是根据本发明实施方式的对象归并的流程示意图;
图4是根据本发明实施方式的对象读取的流程示意图;
图5是根据本发明实施方式的删除对象的流程示意图;
图6是根据本发明实施方式的重新归并的流程示意图;
图7是根据本发明实施例的一种对象存储小文件归并装置的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本实施例中,对象存储(Object-based Storage)是一种新的网络存储架构,基于对象存储技术的设备就是对象存储设备(Object-based Storage Device)简称OSD。对象存储是一种扁平架构,使用对象ID来唯一标识这个对象,对象有自己的元数据,能进行自我管理,兼具块和文件的优点,有能规避块和文件的不足。
小文件对象归并:将大量的小文件对象归并为一个较大的对象,解决海量小文件下的性能问题和容量浪费问题。
根据本发明实施例,提供了一种对象存储小文件归并方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种对象存储小文件归并方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,将第一对象及第一对象对应的第一索引数据存储在索引池中,其中,满足预设条件的对象为第一对象;
步骤S104,将第二对象存储在数据池中,第二对象对应的第二索引数据存储在索引池中,其中,不满足预设条件的对象为第二对象;
步骤S106,将满足归并条件的第一对象和/或第二对象进行归并,生成归并对象;
步骤S108,将归并对象存储在归并池或数据池中。
通过上述步骤,采用将第一对象及第一对象对应的第一索引数据存储在索引池中,其中,满足预设条件的对象为第一对象;将第二对象存储在数据池中,第二对象对应的第二索引数据存储在索引池中,其中,不满足预设条件的对象为第二对象;将满足归并条件的第一对象和/或第二对象进行归并,生成归并对象;将归并对象存储在归并池或数据池中的方式,通过对要存储的对象进行分类存储,结合归并的方式进行存储,达到了高效,准确,简便的存储对象的目的,从而实现了降低繁琐程度,提高索引效率的技术效果,进而解决了相关技术中直接将小对象进行合并存储的方式,存储繁琐,索引效率低,海量小文件对象存储中性能低下的技术问题。
上述对象是相对应对象存储系统而言的,对象存储是一种扁平架构,使用对象ID来唯一标识这个对象,对象有自己的元数据,能进行自我管理,兼具块和文件的优点,有能规避块和文件的不足。也即是上述对象通过对象ID来唯一标识,上述对象包括元数据,可自我管理,兼具块和文件的优点。上述对象可以与文件对应,可以是文件通过转换生成文件对应的对象。
上述将第一对象及第一对象对应的第一索引数据存储在索引池中,其中,满足预设条件的对象为第一对象之前,可以接收对象,对该对象是否满足上述预设条件进行判断,在上述对象满足上述预设条件的情况下,将该对象确定认为第一对象,并将该对象存储到上述索引池中,上述索引池可以通过固态驱动器SSD(Solid State Drive)副本,具有良好的读写性能,可以快速实现写入和读取的要求。由于上述索引池中存储有对象的索引信息,采用较高性能的硬件,可以保证快速读取对象的索引,以快速查找到该对象。
上述预设条件可以为对象的大小不超过预设阈值,也可以是对对象类型的限定。本实施例中,上述预设条件可以为,对象的大小不超过1MB,也即是对象大小,小于1MB的对象为第一对象,存储在索引池中,由于索引数据的大小非常小,为避免索引池的数据空间浪费,将较小的第一对象存储在索引池,可以对索引池中的空间适当利用,而且第一对象较小,也不会对索引数据的读取和写入产生太大影响。因此,第一对象对应的第一索引数据存储在索引池中。
不满足上述条件的对象,也即是对象大小不满足小于1MB的对象,也即是对象大小大于等于1MB的对象,确定为第二对象,将该对象存储在数据池中,并将该第二对象的第二索引数据存储在数据池中,由于第二对象较大,数据池的容量也较大,第二索引数据的大小又很小,在读取速度和写入质量上,远不如上述索引池,但是在读取上述第二对象时,需要依据上述第二索引数据,第二索引数据遗失或者受损会影响到第二对象的读取,因此,将上述第二索引数据存储在索引池中,便于第二索引数据的读取和写入,从而保证第二对象的存储和读取。因此,将第二对象存储在数据池中,第二对象对应的第二索引数据存储在索引池中。
上述将满足归并条件的第一对象和/或第二对象进行归并,可以认为,上述第一对象和第二对象是根据上述预设条件进行区分存储,在归并时,是根据归并条件对上述对象进行判断,是否需要进行归并,不论该对象是第一对象还是第二对象,只要满足上述归并条件,就可以进行归并。需要说明的是,本实施例中,多个对象不断的进行存储,上述归并条件可以是待归并对象的对象总量达到预设容量阈值,还可以是上述待归并对象的个数达到预设数量阈值,在满足归并条件的情况下,对当前的待归并对象进行归并。需要说明的是,上述归并条件还可以对待归并的对象进行限定,可以对待归并对象的大小进行限定,例如,待归并对象的大小不超过4MB,本身对象大小较大的对象,没有归并的必要,而且会导致归并后的对象更大。上述归并条件还可以是对待归并对象的类型进行限定等。
在本实施例中,接收对象后,判断该对象是否可以被归并,也即是根据待归并对象中对待归并对象的限定,对对象是否可以作为待归并对象进行确定;在该对象满足上述归并条件中对待归并对象的限定的情况下,判断当前的多个待归并对象是否满足进行归并的归并条件,在满足归并条件的情况下,对当前的多个待归并对象进行对象归并,在不满足归并条件的情况下,继续接收对象,直至满足归并条件时,再进行归并。
上述将归并对象可以存储在归并池或者数据池中,上述归并对象的对象量较大,可以存储在单独的归并池中,也可以存储在用于存储较大对象的数据池中,相比而言,单独的归并池,具有更大的存储环境,但是硬件成本较高,将归并对象存储在数据池中,硬件成本是降低了,但是相对的,由于要和较大的对象共用数据池,存储空间较小。其具体的使用规则可以根据具体的使用情况而定,想要空间大,就单独设置归并池,想要成本低,就将归并对象存储在数据池中。
可选的,归并条件为待归并的对象的大小不超过预设阈值,将满足归并条件的第一对象和/或第二对象进行归并,生成归并对象包括:对待归并的对象的总数量或者大小总量进行检测,其中,待归并的对象,包括符合归并条件的第一对象,和/或第二对象;在待归并的对象的总数量或者大小总量,达到预设数量阈值或预设大小阈值的情况下,将待归并的对象进行归并处理,得到归并对象。
上述归并条件还可以包括对待归并的对象的限定,例如,对象大小不超过4MB的对象可以为待归并的对象。上述归并对象在生成之后,根据已经归并的所有的已归并对象,生成对已归并对象的索引,每个已归并对象都具有用于搜寻自身对象数据的归并索引数据,上述归并索引数据可以为第一归并索引数据,或第二归并索引数据。在上述待归并对象为第一对象的情况下,在进行归并为归并对象后,生成第一对象对应的为第一归并索引数据;在上述待归并对象为第二对象的情况下,在进行归并为归并对象后,生成第二对象对应的为第二归并索引数据。具体如下:
可选的,在待归并的对象的总数量或者大小总量,达到预设数量阈值或预设大小阈值的情况下,将待归并的对象进行归并处理,得到归并对象之后包括:将已经归并的第一对象,在索引池中对应的第一索引数据,更新为第一更新索引数据;生成已经归并的第一对象,在归并对象中进行索引的第一归并索引数据;和/或,将已经归并的第二对象,在索引池中对应的第二索引数据,更新为第二更新索引数据;生成已经归并的第二对象,在归并对象中进行索引的第二归并索引数据。
由于在读取第一对象或第二对象时,都需要在索引池中调取对应的第一索引数据或第二索引数据,由于对象已经被归并,原来的索引数据自然是无法正确搜寻到对应的对象,因此,需要更新索引,将该索引数据指示到归并后的归并对象,归并对象内部有对象的归并索引,通过上述两个索引的结合,可以有效快速的搜寻到对应的对象。因此,上述将已经归并的第一对象,在索引池中对应的第一索引数据,更新为第一更新索引数据,和/或,将已经归并的第二对象,在索引池中对应的第二索引数据,更新为第二更新索引数据。
可选的,还包括:接收目标对象的操作请求;根据操作请求从索引池中找到目标对象对应的索引数据,其中,根据目标对象中的识别信息,查找到目标对象对应的索引数据;根据索引数据对目标对象进行操作。
在需要对某一目标对象进行操作时,接收目标对象的操作请求,响应该请求,读取该目标对象,然后对该目标对象进行相关操作。接收上述目标对象的操作请求后,需要先获取该目标对象的对应的索引数据,然后根据索引数据对目标对象进行寻找。在获取该目标对象的索引数据时,需要从索引池进行搜寻,可以通过目标对象中的识别信息查找到目标对象对应的索引数据,上述识别信息,例如,唯一识别码,名称,编号等。
可选的,根据索引数据对目标对象进行操作包括:索引数据为第一索引数据,或第二索引数据,确定目标对象未被归并,在索引池,或数据池中对目标对象进行操作;索引数据为第一更新索引数据,或第二更新索引数据,确定目标对象已被归并,根据第一更新索引数据,或第二更新索引数据确定目标对象对应的归并对象,根据归并对象以及归并对象中的第一归并索引数据和第二归并索引数据,对目标对象进行操作。
上述目标对象的索引数据为第一索引数据,或第二索引数据时,则说明该目标对象还未被归并,直接在索引池,或者数据池中对应目标对象进行读取。具体的索引数据为第一索引数据,则在索引池中进行读取,索引数据为第二索引数据,则在数据池中进行读取。上述目标对象的索引数据为第一更新索引数据,或第二更新索引数据,则说明该目标对象已被归并,需根据第一更新索引数据,或第二更新索引数据确定归并对象的存储位置,然后根据归并对象中的第一归并索引数据和第二归并索引数据,读取目标对象。
可选的,操作请求为读取请求,或删除请求;其中,对目标对象进行读取操作之后,将读取的目标对象进行发送;对目标对象进行删除之后,将目标对象对应的索引数据进行删除。
上述操作请求可以为读取请求,或者删除请求,或者其他的操作请求。需要说明的是,不同的操作都需要搜寻到该目标对象,但是搜寻到该目标对象后,进行不同的操作。例如,在上述操作请求为读取请求的情况下,对目标对象进行读取操作之后,将读取的目标对象进行发送;在上述操作请求为删除请求的情况下,对目标对象进行删除之后,将目标对象对应的索引数据进行删除。
可选的,将目标对象对应的索引数据进行删除之后包括:在归并对象的空洞率达到预设阈值的情况下,对归并对象进行重新归并。
将归并对象中的对象删除后,归并对象会产生空洞,导致存储资源的浪费,但是由于被归并的都是对象量较小的对象,每次删除对象,都进行重新归并,会导致运算资源的浪费。因此,本申请规定在归并对象的空洞率达到预设阈值的情况下,对归并对象进行重新归并,上述预设阈值,可以为40%~60%,例如,45%,50%,55%等。
需要说明的是,本实施例还提供了一种可选的实施方式,下面对该实施方式进行详细说明。
海量小文件存储(简称LOSF,lots of small files)出现后,就一直是业界的难题,众多博文对此问题进行了阐述与分析,许多互联网公司也针对自己的具体场景研发了自己的存储方案(如taobao开源的TFS,Facebook自主研发的Haystack),还有一些公司在现有开源项目(如hbase,fastdfs,mfs等)基础上做针对性改造优化以满足业务存储需求。上述小文件通常是指文件大小在1MB以内的文件。当然上述小文件是相对而言,相对于归并后的文件或者其他文件而言是小文件,其具体的划分标准根据具体的使用情况而定。上述小文件也即是上述文件。
相关技术中大都是基于分布式文件系统的,将小文件直接进行存储,文件系统结构复杂,直接将小文件归并为大文件之后,还是存在比较繁琐,索引效率不高,容量空间浪费,对性能的提升有限等问题。
基于对象存储系统解决小文件性能低和容量空间存在浪费的问题,本实施方式实现了对象存储系统中小文件归并技术。图2是根据本发明实施方式的存储装置的示意图,如图2所示,本方案规定,将传统的文件存储更改为文件对应的对象存储,小于4MB的小文件对象是需要做小文件对象归并的,有几个存储池用于存储不同的数据。需要说明的是,上述文件是以对象的形式存储在上述存储池中,具体如下:
索引池:存储对象索引和小于1MB的对象的数据,上述对象为上述小文件对应的小文件对象,一般用SSD副本作为索引池,提升索引和对象的性能;上述小于1MB的对象数据也可以是上述第一对象。
数据池:存储大于等于1MB的对象的数据,上述大于等于1MB的文件对象的数据,也即是不满足小于1MB的对象,可以是上述第二对象;
归并目标池:小于4MB的对象归并后的数据;上述小于4MB可以为上述归并条件,上述小于4MB的对象既可以是来自上述数据池,也可以是来自上述索引池中。
数据池和归并目标池可以是HDD副本或EC,归并目标池和数据池可以合并。
小于1MB的对象写入的时候,直接写入有SSD副本构建的索引池,索引池性能高,写入之后直接返回,大于等于1MB的对象写入的时候,索引写入索引池中,数据写入数据池。索引池记录了对象的索引信息,对象索引信息包括对象大小,名称,属性,创建时间,归并信息,桶的信息等。
对象归并是有一个后台进程,图3是根据本发明实施方式的对象归并的流程示意图,如图3所示,线程检索归并日志,当发现待归并对象的大小size之和达到某个阈值,比如96MB或待归并小对象个数达到某个阈值,比如30000个对象,就会启动归并流程,将待归并的对象归并到一个大的归并对象,该归并对象大小是96MB或对象个数达到30000个,归并后的归并对象要写入到归并池中,待归并的对象从索引池和数据池删除,索引信息还保留,且更新对象索引信息,变更为归并后的对象信息。
对象归并,对于写入对象没有任何影响,对象写入都是先写入索引池和数据池,因为索引池和数据池是比较快的介质构成,所以对象写入性能是非常高的。
对象归并,对于还没有归并的对象,读也没有任何影响,图4是根据本发明实施方式的对象读取的流程示意图。如图4所示,对于归并后的对象,读的时候会先去索引池检索到对象的索引信息,找到该对象归并后的归并文件的信息,然后去归并池中根据对象的索引信息,定位到对象的地址,读取地址的对象的数据,将读到的数据返回给客户端,归并后的对象,可以快速进行读取。
图5是根据本发明实施方式的删除对象的流程示意图,如图5所示,删除对象,首先去索引池中找到对象的索引信息,根据索引信息可以知道该对象是否已经归并,如果还没有归并,直接在索引池或数据池删除对应的对象,删除索引信息;如果对象已经归并到归并对象,则在归并池中找到对应的归并对象,根据归并对象索引信息中的对象信息,找到对应的地址,删除对象,更新归并对象中的索引,并删除索引池中对象的索引信息。
对于对象归并,如果删除了归并对象中的某些对象,就会留下一些空洞,导致空间的浪费,图6是根据本发明实施方式的重新归并的流程示意图,如图6所示,这里还有线程从后台去定期扫描,检测到有空洞的归并对象,发现归并对象的空洞率达到50%,会重新做一次对象归并,归并后更新索引池中对象的归并信息,这样大大减少了对象归并造成的容量空间的浪费。
本实施方式的关键点在于:1、分为多个存储池,索引池、数据池和归并目标池,索引池是由性能最高的SSD盘组成,性能最好,对于对象索引性能更好,单独的归并目标池便于管理和检索。2、对象是扁平架构,相比文件的树形结构,在索引上更高效快捷。3、后台线程检索小文件,待归并对象达到容量size阈值或个数阈值则进行归并。4、定期对归并对象的空洞达到阈值进行重新归并,减少容量浪费。
与相关技术相比,本实施方式在海量非结构化场景,对象比文件有更好的性能。归并是后台进程,写小文件的时候并不会马上归并,而是写入性能比较好的索引池或数据池,能大幅提升对象的在线性能。单独的归并目标池对于对对象归并更好管理。定期删除空洞重新归并,减少容量浪费。指定归并策略的归并,待归并对象容量之和达到阈值或对象个数达到阈值,可以进行归并。
图7是根据本发明实施例的一种对象存储小文件归并装置的流程图,如图7所示,根据本发明实施例的另一方面,还提供了一种对象存储小文件归并装置,包括:第一存储模块72,第二存储模块74,归并模块76和第三存储模块78。
第一存储模块72,用于将第一对象及第一对象对应的第一索引数据存储在索引池中,其中,满足预设条件的对象为第一对象;第二存储模块74,与上述第一存储模块72相连,用于将第二对象存储在数据池中,第二对象对应的第二索引数据存储在索引池中,其中,不满足预设条件的对象为第二对象;归并模块76,与上述第二存储模块74相连,用于将满足归并条件的第一对象和/或第二对象进行归并,生成归并对象;第三存储模块78,与上述归并模块76相连,用于将归并对象存储在归并池或数据池中。
通过上述装置,采用第一存储模块72将第一对象及第一对象对应的第一索引数据存储在索引池中,其中,满足预设条件的对象为第一对象;第二存储模块74将第二对象存储在数据池中,第二对象对应的第二索引数据存储在索引池中,其中,不满足预设条件的对象为第二对象;归并模块76将满足归并条件的第一对象和/或第二对象进行归并,生成归并对象;第三存储模块78将归并对象存储在归并池或数据池中的方式,通过对要存储的对象进行分类存储,结合归并的方式进行存储,达到了高效,准确,简便的存储对象的目的,从而实现了降低繁琐程度,提高索引效率的技术效果,进而解决了相关技术中直接将小对象进行合并存储的方式,存储繁琐,索引效率低,海量小文件对象存储中性能低下的技术问题。
根据本发明实施例的另一方面,还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述中任意一项的对象存储小文件归并方法。
根据本发明实施例的另一方面,还提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述中任意一项的对象存储小文件归并方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种对象存储小文件归并方法,其特征在于,包括:
将第一对象及所述第一对象对应的第一索引数据存储在索引池中,其中,满足预设条件的对象为所述第一对象;
将第二对象存储在数据池中,所述第二对象对应的第二索引数据存储在所述索引池中,其中,不满足所述预设条件的对象为所述第二对象;
将满足归并条件的第一对象和/或第二对象进行归并,生成归并对象;
将所述归并对象存储在归并池或数据池中。
2.根据权利要求1所述的方法,其特征在于,所述归并条件为待归并的对象的大小不超过预设阈值,将满足归并条件的第一对象和/或第二对象进行归并,生成归并对象包括:
对待归并的对象的总数量或者大小总量进行检测,其中,所述待归并的对象,包括符合所述归并条件的第一对象,和/或第二对象;
在所述待归并的对象的总数量或者大小总量,达到预设数量阈值或预设大小阈值的情况下,将所述待归并的对象进行归并处理,得到归并对象。
3.根据权利要求2所述的方法,其特征在于,在所述待归并的对象的总数量或者大小总量,达到预设数量阈值或预设大小阈值的情况下,将所述待归并的对象进行归并处理,得到归并对象之后包括:
将已经归并的第一对象,在索引池中对应的第一索引数据,更新为第一更新索引数据;生成已经归并的第一对象,在归并对象中进行索引的第一归并索引数据;
和/或,
将已经归并的第二对象,在索引池中对应的第二索引数据,更新为第二更新索引数据;生成已经归并的第二对象,在归并对象中进行索引的第二归并索引数据。
4.根据权利要求3所述的方法,其特征在于,还包括:
接收目标对象的操作请求;
根据所述操作请求从索引池中找到目标对象对应的索引数据,其中,根据目标对象中的识别信息,查找到所述目标对象对应的所述索引数据;
根据所述索引数据对所述目标对象进行操作。
5.根据权利要求4所述的方法,其特征在于,根据所述索引数据对所述目标对象进行操作包括:
所述索引数据为第一索引数据,或第二索引数据,确定所述目标对象未被归并,在所述索引池,或所述数据池中对所述目标对象进行操作;
所述索引数据为第一更新索引数据,或第二更新索引数据,确定所述目标对象已被归并,根据所述第一更新索引数据,或第二更新索引数据确定所述目标对象对应的归并对象,根据所述归并对象以及所述归并对象中的第一归并索引数据和第二归并索引数据,对目标对象进行操作。
6.根据权利要求5所述的方法,其特征在于,所述操作请求为读取请求,或删除请求;
其中,对目标对象进行读取操作之后,将读取的目标对象进行发送;
对目标对象进行删除之后,将目标对象对应的索引数据进行删除。
7.根据权利要求6所述的方法,其特征在于,将目标对象对应的索引数据进行删除之后包括:
在归并对象的空洞率达到预设阈值的情况下,对所述归并对象进行重新归并。
8.一种对象存储小文件归并装置,其特征在于,包括:
第一存储模块,用于将第一对象及所述第一对象对应的第一索引数据存储在索引池中,其中,满足预设条件的对象为所述第一对象;
第二存储模块,用于将第二对象存储在数据池中,所述第二对象对应的第二索引数据存储在所述索引池中,其中,不满足所述预设条件的对象为所述第二对象;
归并模块,用于将满足归并条件的第一对象和/或第二对象进行归并,生成归并对象;
第三存储模块,用于将所述归并对象存储在归并池或数据池中。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至7中任意一项所述的对象存储小文件归并方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的对象存储小文件归并方法。
CN201911121615.9A 2019-11-15 2019-11-15 对象存储小文件归并方法及装置 Active CN110888837B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911121615.9A CN110888837B (zh) 2019-11-15 2019-11-15 对象存储小文件归并方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911121615.9A CN110888837B (zh) 2019-11-15 2019-11-15 对象存储小文件归并方法及装置

Publications (2)

Publication Number Publication Date
CN110888837A true CN110888837A (zh) 2020-03-17
CN110888837B CN110888837B (zh) 2021-01-22

Family

ID=69747673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911121615.9A Active CN110888837B (zh) 2019-11-15 2019-11-15 对象存储小文件归并方法及装置

Country Status (1)

Country Link
CN (1) CN110888837B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597147A (zh) * 2020-04-30 2020-08-28 星辰天合(北京)数据科技有限公司 空间回收方法、装置、存储介质以及处理器
CN112416880A (zh) * 2021-01-22 2021-02-26 南京群顶科技有限公司 一种基于实时归并的海量小文件存储性能优化方法及装置
CN112925643A (zh) * 2021-02-26 2021-06-08 北京百度网讯科技有限公司 数据处理方法、装置以及存储引擎装置
CN113448946A (zh) * 2021-07-05 2021-09-28 星辰天合(北京)数据科技有限公司 数据迁移方法及装置、电子设备
CN117648297A (zh) * 2024-01-30 2024-03-05 中国人民解放军国防科技大学 基于对象存储小文件离线合并方法、系统、设备及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090063410A1 (en) * 2007-08-29 2009-03-05 Nils Haustein Method for Performing Parallel Data Indexing Within a Data Storage System
CN101650741A (zh) * 2009-08-27 2010-02-17 中国电信股份有限公司 一种分布式全文检索的索引实时更新的方法和系统
CN103577454A (zh) * 2012-08-01 2014-02-12 华为技术有限公司 一种文件合并方法和装置
CN103593436A (zh) * 2013-11-12 2014-02-19 华为技术有限公司 文件合并方法和装置
CN105808589A (zh) * 2014-12-31 2016-07-27 中国电信股份有限公司 文件处理的方法和装置
CN106407355A (zh) * 2016-09-07 2017-02-15 中国农业银行股份有限公司 一种数据存储方法及装置
CN107861686A (zh) * 2017-09-26 2018-03-30 深圳前海微众银行股份有限公司 文件存储方法、服务端和计算机可读存储介质
CN109726177A (zh) * 2018-12-29 2019-05-07 北京赛思信安技术股份有限公司 一种基于HBase的海量文件分区索引方法
CN110413588A (zh) * 2019-07-30 2019-11-05 中国工商银行股份有限公司 分布式对象存储方法、装置、计算机设备和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090063410A1 (en) * 2007-08-29 2009-03-05 Nils Haustein Method for Performing Parallel Data Indexing Within a Data Storage System
CN101650741A (zh) * 2009-08-27 2010-02-17 中国电信股份有限公司 一种分布式全文检索的索引实时更新的方法和系统
CN103577454A (zh) * 2012-08-01 2014-02-12 华为技术有限公司 一种文件合并方法和装置
CN103593436A (zh) * 2013-11-12 2014-02-19 华为技术有限公司 文件合并方法和装置
CN105808589A (zh) * 2014-12-31 2016-07-27 中国电信股份有限公司 文件处理的方法和装置
CN106407355A (zh) * 2016-09-07 2017-02-15 中国农业银行股份有限公司 一种数据存储方法及装置
CN107861686A (zh) * 2017-09-26 2018-03-30 深圳前海微众银行股份有限公司 文件存储方法、服务端和计算机可读存储介质
CN109726177A (zh) * 2018-12-29 2019-05-07 北京赛思信安技术股份有限公司 一种基于HBase的海量文件分区索引方法
CN110413588A (zh) * 2019-07-30 2019-11-05 中国工商银行股份有限公司 分布式对象存储方法、装置、计算机设备和存储介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597147A (zh) * 2020-04-30 2020-08-28 星辰天合(北京)数据科技有限公司 空间回收方法、装置、存储介质以及处理器
CN111597147B (zh) * 2020-04-30 2021-12-17 星辰天合(北京)数据科技有限公司 空间回收方法、装置、存储介质以及处理器
CN112416880A (zh) * 2021-01-22 2021-02-26 南京群顶科技有限公司 一种基于实时归并的海量小文件存储性能优化方法及装置
CN112925643A (zh) * 2021-02-26 2021-06-08 北京百度网讯科技有限公司 数据处理方法、装置以及存储引擎装置
CN112925643B (zh) * 2021-02-26 2024-01-12 北京百度网讯科技有限公司 数据处理方法、装置以及存储引擎装置
CN113448946A (zh) * 2021-07-05 2021-09-28 星辰天合(北京)数据科技有限公司 数据迁移方法及装置、电子设备
CN113448946B (zh) * 2021-07-05 2024-01-12 北京星辰天合科技股份有限公司 数据迁移方法及装置、电子设备
CN117648297A (zh) * 2024-01-30 2024-03-05 中国人民解放军国防科技大学 基于对象存储小文件离线合并方法、系统、设备及介质
CN117648297B (zh) * 2024-01-30 2024-06-11 中国人民解放军国防科技大学 基于对象存储小文件离线合并方法、系统、设备及介质

Also Published As

Publication number Publication date
CN110888837B (zh) 2021-01-22

Similar Documents

Publication Publication Date Title
CN110888837B (zh) 对象存储小文件归并方法及装置
US10102253B2 (en) Minimizing index maintenance costs for database storage regions using hybrid zone maps and indices
CN102629247B (zh) 一种数据处理方法、装置和系统
CN103077199B (zh) 一种文件资源查找定位方法及装置
EP2863310B1 (en) Data processing method and apparatus, and shared storage device
CN103020255B (zh) 分级存储方法和装置
US20130339314A1 (en) Elimination of duplicate objects in storage clusters
US20130268770A1 (en) Cryptographic hash database
JP5886447B2 (ja) ロケーション非依存のファイル
US9442694B1 (en) Method for storing a dataset
US7577808B1 (en) Efficient backup data retrieval
CN107704202B (zh) 一种数据快速读写的方法和装置
JP2005267600A5 (zh)
CN108614837B (zh) 文件存储和检索的方法及装置
US10776345B2 (en) Efficiently updating a secondary index associated with a log-structured merge-tree database
CN112262379B (zh) 存储数据项并且标识存储的数据项
CN113535670B (zh) 一种虚拟化资源镜像存储系统及其实现方法
GB2520361A (en) Method and system for a safe archiving of data
US11550913B2 (en) System and method for performing an antivirus scan using file level deduplication
WO2020215580A1 (zh) 一种分布式全局数据去重方法和装置
CN104965835A (zh) 一种分布式文件系统的文件读写方法及装置
CN110352410A (zh) 跟踪索引节点的访问模式以及预提取索引节点
KR102354343B1 (ko) 블록체인 기반의 지리공간 데이터를 위한 공간 데이터 인덱싱 방법 및 장치
CN106528876B (zh) 分布式系统的信息处理方法及分布式信息处理系统
CN108228101B (zh) 一种管理数据的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 100094 101, floors 1-5, building 7, courtyard 3, fengxiu Middle Road, Haidian District, Beijing

Patentee after: Beijing Xingchen Tianhe Technology Co.,Ltd.

Address before: 100097 room 806-1, block B, zone 2, Jinyuan times shopping center, indigo factory, Haidian District, Beijing

Patentee before: XSKY BEIJING DATA TECHNOLOGY Corp.,Ltd.

CP03 Change of name, title or address