CN111752915A - 基于混合存储介质的文件按需复制方法和系统 - Google Patents

基于混合存储介质的文件按需复制方法和系统 Download PDF

Info

Publication number
CN111752915A
CN111752915A CN202010570728.3A CN202010570728A CN111752915A CN 111752915 A CN111752915 A CN 111752915A CN 202010570728 A CN202010570728 A CN 202010570728A CN 111752915 A CN111752915 A CN 111752915A
Authority
CN
China
Prior art keywords
file
heat
copying
metadata information
mds
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010570728.3A
Other languages
English (en)
Other versions
CN111752915B (zh
Inventor
苏楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Inspur Intelligent Technology Co Ltd
Original Assignee
Suzhou Inspur Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Inspur Intelligent Technology Co Ltd filed Critical Suzhou Inspur Intelligent Technology Co Ltd
Priority to CN202010570728.3A priority Critical patent/CN111752915B/zh
Publication of CN111752915A publication Critical patent/CN111752915A/zh
Application granted granted Critical
Publication of CN111752915B publication Critical patent/CN111752915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/184Distributed file systems implemented as replicated file system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1727Details of free space management performed by the file system

Abstract

本发明提出了基于混合存储介质的文件按需复制方法和系统,该方法接收复制命令后,CA将源文件信息、目的文件名及路径下发至MDS;MDS为每个复制操作分配唯一且单调递增的CPID,根据文件在单位时间内的访问频率,确定文件热度;根据文件热度大小,将文件分为第一热度文件、第二热度文件和第三热度文件;对第一热度文件在执行文件复制时,同时复制源数据和元数据信息;对第二热度文件和第三热度文件在执行文件复制时,仅复制元数据信息。基于混合存储介质的文件按需复制方法,还提出了基于混合存储介质的文件按需复制系统,本发明极大地减少了磁盘空间占用,又不影响热数据读写访问。

Description

基于混合存储介质的文件按需复制方法和系统
技术领域
本发明涉及服务器存储技术领域,具体涉及基于混合存储介质的文件按需复制方法和系统。
背景技术
随着边缘云计算的快速发展,应用程序对存储提出了更高的性能要求,并导致存储系统需要处理各种来源的数据。如图1给出了现有技术中分布式文件系统架构示意图,系统由位于底层的DOS(分布式对象存储系统)、MDS(元数据服务)、CA(文件系统客户端代理)三部分组成。DOS由多台服务器设备组成,负责将数据可靠分布到这些设备上,它对外提供基于对象的数据访问接口;MDS提供元数据服务,其中元数据可以存储到DOS,也可以独立存储;CA同时与MDS和DOS交互,对外实现文件访问接口;文件的数据被切分成一定大小的块,每一块作为一个对象存储到DOS中。
用户一般通过POSIX(可移植操作系统接口)接口访问文件系统,这种方式下,文件复制操作的具体实现是:同时打开复制的源文件和目的文件,读取源文件中的数据,写入目的文件。这样带来两个问题:一是同样的数据在系统中保存两份,导致空间浪费;二是复制过程需要读取、写入数据,操作缓慢。这些问题在存储大文件时表现更为突出。常见存储系统中,一般通过重复数据删除技术解决第一个问题,但没有很好地解决第二个问题。另一种文件复制实现方法,复制时只需要修改少量文件元数据,无需操作任何数据,只在数据真正被修改时,再对要修改的数据对象执行复制操作,虽然能够同时解决了上述两个问题,但是,如果文件写操作与复制操作频繁交替进行,这种写时复制方法的效率并不高。
发明内容
为了解决上述技术问题,本发明提出了基于混合存储介质的文件按需复制方法和系统,本发明首先对文件热度进行判断,然后对不同热度的文件执行不同的复制操作。
为实现上述目的,本发明采用以下技术方案。基于混合存储介质的文件按需复制方法,包括以下步骤:
根据文件在单位时间内的访问频率,确定文件热度;
根据文件热度大小,将文件分为第一热度文件、第二热度文件和第三热度文件;
对所述第一热度文件在执行文件复制时,同时复制源数据和元数据信息;对所述第二热度文件和第三热度文件在执行文件复制时,仅复制元数据信息。
进一步的,在所述确定文件热度之前还包括:接收复制命令后,CA将源文件信息、目的文件名及路径下发至MDS;MDS为每个复制操作分配唯一且单调递增的CPID。
进一步的,所述根据文件热度大小,将文件分为第一热度文件、第二热度文件和第三热度文件的方法为:
计算文件热度大小,其中文件热度hoi=aci*r+文件大小*p,其中aci为单位时间T内的访问次数;r和P均为加权值;
当文件热度大于等于预设第一阈值时,则文件为第一热度文件;
当文件热度大于第二阈值且小于第一阈值时,则文件为第二热度文件;
当文件小于等于第二阈值时,则文件为第三热度文件;其中第一阈值大于第二阈值。
进一步的,所述对所述第一热度文件在执行文件复制时,同时复制源数据和元数据信息包括:对第一热度文件,则复制文件源数据到高速存储池,生成当前元数据信息。
进一步的,对所述第二热度文件和第三热度文件在执行文件复制时,仅复制元数据信息包括:对第二热度文件和第三热度文件,将cpid作为文件复制信息,记录到源文件的元数据信息中。
进一步的,所述对所述第一热度文件在执行文件复制时,同时复制源数据和元数据信息之后,还包括:
接收访问第一热度文件的请求;首先CA将文件路径和文件名参数发送给MDS,所述MDS根据所述文件路径和文件名参数,获取文件的元数据信息和源数据;且所述MDS向CA返回元数据信息;
然后根据接收的源数据的偏移量,DOS首先判断待访问的文件是否具有独立元数据信息,然后根据元数据信息遍历上下级节点的关联对象进行文件源数据的读取或者修改。
进一步的,所述对所述第二热度文件和第三热度文件在执行文件复制时,仅复制元数据信息之后还包括:
接收访问第二热度文件或第三热度文件的请求;CA将文件路径和文件名参数发送给MDS,所述MDS根据所述文件路径和文件名参数,获取文件的元数据信息和源数据;且所述MDS向CA返回元数据信息。
本发明还提出了基于混合存储介质的文件按需复制系统,包括判断模块、分类模块和执行模块;
所述判断模块用于根据文件在单位时间内的访问频率,确定文件热度;
所述分类模块用于根据文件热度大小,将文件分为第一热度文件、第二热度文件和第三热度文件;
所述执行复制模块用于对所述第一热度文件在执行文件复制时,同时复制源数据和元数据信息;对所述第二热度文件和第三热度文件在执行文件复制时,仅复制元数据信息。
进一步的,所述执行模块包括第一执行模块和第二执行模块;
所述第一执行模块用于对第一热度文件执行文件复制,同时复制源数据和元数据信息;
所述第二执行模块用于对第二热度文件或第三热度文件在执行文件复制,仅复制元数据信息。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明提出了基于混合存储介质的文件按需复制方法和系统,该方法包括根据文件在单位时间内的访问频率,确定文件热度;根据文件热度大小,将文件分为第一热度文件、第二热度文件和第三热度文件;对第一热度文件在执行文件复制时,同时复制源数据和元数据信息;对第二热度文件和第三热度文件在执行文件复制时,仅复制元数据信息。其中根据文件热度大小,将文件分为第一热度文件、第二热度文件和第三热度文件。本发明中用户执行文件复制之后,接收访问第一热度文件的请求;首先CA将文件路径和文件名参数发送给MDS,MDS根据所述文件路径和文件名参数,获取文件的元数据信息和源数据;且MDS向CA返回元数据信息;然后根据接收的源数据的偏移量,DOS首先判断待访问的文件是否具有独立元数据信息,然后根据元数据信息遍历上下级节点的关联对象进行文件源数据的读取或者修改。如果是第二热度文件和第三热度文件,文件元数据中记录复制相关信息,但不执行数据复制,复制操作可以瞬时完成。基于混合存储介质的文件按需复制方法,还提出了基于混合存储介质的文件按需复制系统,本发明极大地减少了磁盘空间占用,又不影响热数据读写访问。
附图说明
如图1给出了现有技术中分布式文件系统架构示意图;
如图2是本发明实施例1提出的基于混合存储介质的文件按需复制方法流程图;
如图3是本发明实施例1中DOS系统的工作流程图;
如图4是本发明实施例1提出的基于混合存储介质的文件按需复制系统示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
本发明实施例公开了基于混合存储介质的文件按需复制方法,如图1给出了基于混合存储介质的文件按需复制方法流程图。
步骤S201中,接收文件复制的信息,CA将源文件信息、目的文件名及路径,下发给MDS。
在步骤S202中,MDS为每个cp操作分配一个全局唯一且单调递增的cpid,其中每个帐号在被创建时被随机分配一个字符串,即跨项目标识符,简称cpid。
在步骤S203中,判断文件热度,文件热度hoi=aci*r+文件大小*p,其中aci为单位时间T内的访问次数;r和P均为加权值;
Figure BDA0002549328200000051
为热度表中包含的文件整体热度。本发明实施例1中,根据文件热度的大小,将文件分为第一热度文件、第二热度文件和第三热度文件。
当文件热度大于等于预设第一阈值时,则文件第一热度文件,即为热数据;当文件热度大于第二阈值且小于第一阈值时,则文件第二热度文件,即为温数据;当文件小于等于第二阈值时,则文件第三热度文件,即为冷数据;其中第一阈值大于第二阈值。
如果是热数据,则复制文件到高速存储池,生成新的元数据信息;如果是冷数据,将cpid作为文件复制信息,记录到源文件的元数据中;如果是温数据,将cpid作为文件复制信息,记录到源文件的元数据中。
在步骤S204中,对第一热度文件的访问,接收访问第一热度文件的请求;首先CA将文件路径和文件名参数发送给MDS,MDS根据所述文件路径和文件名参数,获取文件的元数据信息和源数据;且MDS向CA返回元数据信息;
然后根据接收的源数据的偏移量,DOS首先判断待访问的文件是否具有独立元数据信息,然后根据元数据信息遍历上下级节点的关联对象进行文件源数据的读取或者修改。
如图3给出了DOS系统根据偏移量计算要访问的源数据,进行文件读取或者修改的流程图。
在步骤S301中,接收访问文件目标数据的命令以及偏移量。
在步骤S302.判断要读取的文件是否具有独立的元数据信息,即是否有cpid,如果没有,则执行步骤S303,如果有独立的元数据信息,则执行步骤S304。
在步骤S303中,直接按照现有技术的方法直接复制。
在步骤S304中,判断cpid对象及其关联对象是否存在实对象,如果存在,则执行步骤S305;如果不存在实对象,则执行步骤S306。其中实对象为没有关联的对象,且存在数据,不是从其他文件拷贝过来的只有元数据和空文件的对象。
在步骤S305中,直接读取其中cowid最大的对象,然后流程结束,执行步骤S313。
在步骤S306中,根据当前文件cpid,逐级遍历该cpid的上级节点对象。
在步骤S307中,判断上级节点是否存在关联对象,如果存在关联对象,则执行步骤S309,如果不存在关联对象,则执行步骤S308。
在步骤S308中,判断上级节点不存在关联对象的前提下,其本身的数据类型,如果上级节点不存在关联对象,且本身为实对象,则执行步骤S312。
在步骤S309中,获取所有关联对象的直接下级对象cpid范围。
在步骤S310中,根据本级节点的cpid及上述cpid范围,找到cowid合适的上级对象。
在步骤S311中,判断上级对象的数据类型。如果为实对象,则执行步骤S312。如果为虚对象,则返回步骤S306。
在步骤S312中,直接读取该实对象,然后执行步骤S313;如果上级节点不存在关联对象,且本身为虚对象,则继续查找上级节点,即返回步骤S304。
在步骤S313中,流程结束。
当用户执行元数据信息和源数据访问时,系统根据元数据信息中存储的文件间树形复制关系,自动找到合适的对象执行数据访问,在需要时执行cow操作,并使用cowid标识复制产生的对象;对象查找和复制操作,在DOS子系统内部完成,无需修改元数据信息。
在步骤S205中,如果为温数据或者冷数据,上层业务在访问文件内容时,首先打开文件,此时CA将上层业务下发的文件路径、文件名参数传给MDS;MDS根据文件信息,获取文件元数据及其中的复制信息;MDS向CA返回元数据信息,包括业务要操作的当前文件的cpid,以及该文件相关的所有cpid列表信息。但是将不再执行文件目标数据复制的操作。
当用户对温数据执行文件复制操作时,系统使用cpid标识每个复制的文件,并将文件间的复制关系,构成一个树形结构,存储到原始文件的元数据中;该过程可在MDS中独立完成,无需通知DOS子系统。
在用户执行文件数据的读取操作时,系统获取文件元数据中的复制信息,选择该数据所在对象的正确版本读取。在用户执行文件数据的写入操作时,系统获取文件元数据中的复制信息,如果没有复制信息,则直接写入;如果有复制信息,对该数据所在对象,自动执行复制操作,从而保护原始数据不被破坏;该过程可以只有分布式文件系统中的DOS系统完成,无需通知MDS,从而简化了系统架构。
本发明还提出了基于混合存储介质的文件按需复制系统,如图4给出了基于混合存储介质的文件按需复制系统示意图。该系统包括判断模块、分类模块和执行模块;判断模块用于根据文件在单位时间内的访问频率,确定文件热度;分类模块用于根据文件热度大小,将文件分为第一热度文件、第二热度文件和第三热度文件;执行复制模块用于对所述第一热度文件在执行文件复制时,同时复制源数据和元数据信息;对第二热度文件和第三热度文件在执行文件复制时,仅复制元数据信息。
其中,执行模块包括第一执行模块和第二执行模块;第一执行模块用于对第一热度文件执行文件复制,同时复制源数据和元数据信息。第二执行模块用于对第二热度文件或第三热度文件在执行文件复制,仅复制元数据信息。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制。对于所属领域的技术人员来说,在上述说明的基础上还可以做出其它不同形式的修改或变形。这里无需也无法对所有的实施方式予以穷举。在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (9)

1.基于混合存储介质的文件按需复制方法,其特征在于,包括以下步骤:
根据文件在单位时间内的访问频率,确定文件热度;
根据文件热度大小,将文件分为第一热度文件、第二热度文件和第三热度文件;
对所述第一热度文件在执行文件复制时,同时复制源数据和元数据信息;对所述第二热度文件和第三热度文件在执行文件复制时,仅复制元数据信息。
2.根据权利要求1所述的基于混合存储介质的文件按需复制方法,其特征在于,在所述确定文件热度之前还包括:接收复制命令后,CA将源文件信息、目的文件名及路径下发至MDS;MDS为每个复制操作分配唯一且单调递增的CPID。
3.根据权利要求1所述的基于混合存储介质的文件按需复制方法,其特征在于,所述根据文件热度大小,将文件分为第一热度文件、第二热度文件和第三热度文件的方法为:
计算文件热度大小,其中文件热度hoi=aci*r+文件大小*p,其中aci为单位时间T内的访问次数;r和P均为加权值;
当文件热度大于等于预设第一阈值时,则文件为第一热度文件;
当文件热度大于第二阈值且小于第一阈值时,则文件为第二热度文件;
当文件小于等于第二阈值时,则文件为第三热度文件;其中第一阈值大于第二阈值。
4.根据权利要求1所述的基于混合存储介质的文件按需复制方法,其特征在于,所述对所述第一热度文件在执行文件复制时,同时复制源数据和元数据信息包括:对第一热度文件,则复制文件源数据到高速存储池,生成当前元数据信息。
5.根据权利要求1所述的基于混合存储介质的文件按需复制方法,其特征在于,对所述第二热度文件和第三热度文件在执行文件复制时,仅复制元数据信息包括:对第二热度文件和第三热度文件,将cpid作为文件复制信息,记录到源文件的元数据信息中。
6.根据权利要求4所述的基于混合存储介质的文件按需复制方法,其特征在于,所述对所述第一热度文件在执行文件复制时,同时复制源数据和元数据信息之后,还包括:
接收访问第一热度文件的请求;首先CA将文件路径和文件名参数发送给MDS,所述MDS根据所述文件路径和文件名参数,获取文件的元数据信息和源数据;且所述MDS向CA返回元数据信息;
然后根据接收的源数据的偏移量,DOS首先判断待访问的文件是否具有独立元数据信息,然后根据元数据信息遍历上下级节点的关联对象进行文件源数据的读取或者修改。
7.根据权利要求5所述的基于混合存储介质的文件按需复制方法,其特征在于,所述对所述第二热度文件和第三热度文件在执行文件复制时,仅复制元数据信息之后还包括:
接收访问第二热度文件或第三热度文件的请求;CA将文件路径和文件名参数发送给MDS,所述MDS根据所述文件路径和文件名参数,获取文件的元数据信息和源数据;且所述MDS向CA返回元数据信息。
8.基于混合存储介质的文件按需复制系统,其特征在于,包括判断模块、分类模块和执行模块;
所述判断模块用于根据文件在单位时间内的访问频率,确定文件热度;
所述分类模块用于根据文件热度大小,将文件分为第一热度文件、第二热度文件和第三热度文件;
所述执行复制模块用于对所述第一热度文件在执行文件复制时,同时复制源数据和元数据信息;对所述第二热度文件和第三热度文件在执行文件复制时,仅复制元数据信息。
9.根据权利要求8所述的基于混合存储介质的文件按需复制系统,其特征在于,所述执行模块包括第一执行模块和第二执行模块;
所述第一执行模块用于对第一热度文件执行文件复制,同时复制源数据和元数据信息;
所述第二执行模块用于对第二热度文件或第三热度文件在执行文件复制,仅复制元数据信息。
CN202010570728.3A 2020-06-21 2020-06-21 基于混合存储介质的文件按需复制方法和系统 Active CN111752915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010570728.3A CN111752915B (zh) 2020-06-21 2020-06-21 基于混合存储介质的文件按需复制方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010570728.3A CN111752915B (zh) 2020-06-21 2020-06-21 基于混合存储介质的文件按需复制方法和系统

Publications (2)

Publication Number Publication Date
CN111752915A true CN111752915A (zh) 2020-10-09
CN111752915B CN111752915B (zh) 2023-01-06

Family

ID=72675628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010570728.3A Active CN111752915B (zh) 2020-06-21 2020-06-21 基于混合存储介质的文件按需复制方法和系统

Country Status (1)

Country Link
CN (1) CN111752915B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101385005A (zh) * 2006-02-10 2009-03-11 微软公司 自动确定文件复制机制
CN103220367A (zh) * 2013-05-13 2013-07-24 深圳市中博科创信息技术有限公司 数据复制方法及数据存储系统
CN107608631A (zh) * 2017-09-12 2018-01-19 郑州云海信息技术有限公司 一种数据文件存储方法、装置、设备以及存储介质
CN110008197A (zh) * 2019-04-12 2019-07-12 苏州浪潮智能科技有限公司 一种数据处理方法、系统及电子设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101385005A (zh) * 2006-02-10 2009-03-11 微软公司 自动确定文件复制机制
CN103220367A (zh) * 2013-05-13 2013-07-24 深圳市中博科创信息技术有限公司 数据复制方法及数据存储系统
CN107608631A (zh) * 2017-09-12 2018-01-19 郑州云海信息技术有限公司 一种数据文件存储方法、装置、设备以及存储介质
CN110008197A (zh) * 2019-04-12 2019-07-12 苏州浪潮智能科技有限公司 一种数据处理方法、系统及电子设备和存储介质

Also Published As

Publication number Publication date
CN111752915B (zh) 2023-01-06

Similar Documents

Publication Publication Date Title
CN102467408B (zh) 一种虚拟机数据的访问方法和设备
US11409712B2 (en) Small-file storage optimization system based on virtual file system in KUBERNETES user-mode application
US7236992B2 (en) Storage system
EP2863310B1 (en) Data processing method and apparatus, and shared storage device
US20070288711A1 (en) Snapshot copy management method used for logic volume manager
CN106663047A (zh) 用于优化的签名比较和数据复制的系统和方法
CN109445685B (zh) 一种用户态文件系统处理方法
US9189494B2 (en) Object file system
CN108733306B (zh) 一种文件合并方法及装置
CN109947363A (zh) 一种分布式存储系统的数据缓存方法
JP2005267600A5 (zh)
CN113220729B (zh) 数据存储方法、装置、电子设备及计算机可读存储介质
CN110888837B (zh) 对象存储小文件归并方法及装置
CN109804359A (zh) 用于将数据回写到存储设备的系统和方法
CN113568582B (zh) 数据管理方法、装置和存储设备
US10838624B2 (en) Extent pool allocations based on file system instance identifiers
CN110008197B (zh) 一种数据处理方法、系统及电子设备和存储介质
US11144508B2 (en) Region-integrated data deduplication implementing a multi-lifetime duplicate finder
CN103399823A (zh) 业务数据的存储方法、设备和系统
CN111007990B (zh) 一种对快照系统中数据块引用进行快速定位的定位方法
CN111752915B (zh) 基于混合存储介质的文件按需复制方法和系统
CN111930684A (zh) 基于hdfs的小文件处理方法、装置、设备及存储介质
CN109241011B (zh) 一种虚拟机文件处理方法及装置
JPH04107750A (ja) ファイル管理方式
CN112131194A (zh) 一种只读文件系统的文件存储控制方法及装置、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant