CN105893542B - 一种云存储系统中的冷数据文件重分布方法及系统 - Google Patents

一种云存储系统中的冷数据文件重分布方法及系统 Download PDF

Info

Publication number
CN105893542B
CN105893542B CN201610197281.3A CN201610197281A CN105893542B CN 105893542 B CN105893542 B CN 105893542B CN 201610197281 A CN201610197281 A CN 201610197281A CN 105893542 B CN105893542 B CN 105893542B
Authority
CN
China
Prior art keywords
source
file
tracing
information
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610197281.3A
Other languages
English (en)
Other versions
CN105893542A (zh
Inventor
冯丹
刘进军
华宇
彭斌
左鹏飞
孙园园
操顺德
阳玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201610197281.3A priority Critical patent/CN105893542B/zh
Publication of CN105893542A publication Critical patent/CN105893542A/zh
Application granted granted Critical
Publication of CN105893542B publication Critical patent/CN105893542B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/185Hierarchical storage management [HSM] systems, e.g. file migration or policies thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/119Details of migration of file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种云存储系统中的冷数据文件重分布方法及系统,在系统各个应用服务器上收集云存储系统中用户文件的应用信息,即溯源信息;根据溯源信息得到文件之间的溯源关系;通过文件之间的溯源关系表征文件之间更加紧密而精确的相关性;利用溯源关系建立溯源图;当云存储系统接收到需要重新进行分布的文件,通过这些文件的唯一标识符在溯源图中查询其所在的溯源组,根据溯源组中文件的存储分布状态确定文件被重分布到哪些数据服务器中;并根据重分布的情况更新元数据和溯源图;本发明充分地利用溯源图中同溯源组文件的精确相关性的特点,提高云存储系统中的冷数据的访问效率,并减少了云存储系统的运行开销。

Description

一种云存储系统中的冷数据文件重分布方法及系统
技术领域
本发明属于计算机数据云存储技术领域,更具体地,涉及一种云存储系统中的冷数据文件重分布方法及系统。
背景技术
随着云存储服务的快速发展,越来越多的云存储服务平台不仅能够提供上传数据的存储,还能够提供数据的在线处理,譬如视频或文档的在线创建与编辑。随着各种终端设备的广泛应用,用户为增加数据的一致性和可靠性,将各种数据上传到云存储系统中,并进行在线处理;然而,这些数据中的绝大部分在经过一段时间后变成冷数据。有研究表明,这些冷数据在一些备份系统、社交媒体的后台存储系统中占到90%以上。大量的冷数据不能被丢弃,又占用了很大的存储空间。云服务供应商为了保证存储的有效性,将这些数据尽量的存放在较便宜、性能较差的存储介质上,然而在某些场景中,这些数据即使在冷数据状态下也必须保证一定的读写性能。因此,需要将一些相关性强的数据存放在一起,一方面加快用户读取的速度,另一方面减少云存储服务供应商的运营开销。
现有技术中对于冷数据的相关性处理,主要在于挖掘文件元数据之间的相似性,存在以下问题:
(1)某些系统利用文件的访问局部性设置文件的相关性,文件的访问局部性对于单个用户的访问序列具有很强的相关性,但在云存储平台,多个用户并行的文件操作会减少文件的访问局部性。因此,单独的基于文件的访问局部性来对文件进行分布的划分方式很难提高云存储系统的效率;
(2)某些系统利用文件相关的元数据的多维属性,如创建者、创建时间、修改时间等静态属性反映的相关性来度量文件的相关性,但这种相似性的挖掘方法不适合云存储中冷数据,也仅仅只能反映元数据的某些静态特征所表现相关性,随着应用的变化,这种相关性会发生变化,不能有效的表现文件真正的内在联系。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种云存储系统中的冷数据文件重分布方法及系统,其目的在于利用溯源信息对文件进行聚集,提高冷数据存储系统的吞吐率,并降低存储器能耗。
为实现上述目的,按照本发明的一个方面,提供了一种云存储系统中的冷数据文件重分布方法,具体如下:
(1)通过云存储系统中用户文件的历史应用信息,获取初始溯源信息;根据初始溯源信息,获取用户文件之间的相关性信息;
该相关性信息表征用户文件之间的溯源关系,体现了用户文件之间的相关性;
(2)根据上述相关性信息形成溯源图;该溯源图为无向图,溯源图中的节点代表文件,边代表文件相关性;
其中,文件是指云存储系统内的用户文件,文件相关性是指云存储系统内的用户文件之间的溯源关系;
(3)当接收到数据重分布请求,根据溯源图进行查询,获得数据所在溯源组的其它文件的存储分布信息;根据该分布信息确定迁移的目的数据服务器。
优选地,上述云存储系统中基于溯源关系的冷数据文件重分布方法,其步骤(1)具体如下:
(1-1)在云存储的应用服务器集群的每台服务器上添加溯源信息收集模块;
(1-2)设置溯源信息收集模块收集溯源信息的范围,对系统文件和应用层配置文件(如各种动态链接库文件)的信息进行过滤,获取本系统存储的用户文件的应用信息,即溯源信息;
(1-3)对所述溯源信息进行预处理,以去除其中的错误信息以及重复信息,并获取用户文件之间的相关性信息;
(1-4)判断所述存储系统的元数据服务器上的缓冲区是否有足够的空闲空间保存所述相关性信息,若是,则直接存储所述相关性信息;若否,则进入步骤(2)。
优选地,上述云存储系统中基于溯源关系的冷数据文件重分布方法,其步骤(2)具体如下:
(2-1)判断溯源图是否为空,若是,则先建立空溯源图,将该溯源图设置为无向图,再将相关性信息添加进溯源图;若否,则直接将相关性信息添加到溯源图;
(2-2)根据文件相关项中包含的URI(统一资源标识符,Uniform ResourceIdentifier),判断URI对应的两个文件是否包含在溯源图中,若否,则进入步骤(2-3),若是,则进入步骤(2-4);
(2-3)在溯源图中添加代表文件的节点以及代表文件相互关系的边;
(2-4)判定溯源图是否只包含一个文件,若是,则在溯源图中添加代表不包含在溯源图中的文件的节点以及代表文件相互关系的边;若否,表明URI对应的两个文件均包含在溯源图中,则删除这条文件相关项。
优选地,上述云存储系统中基于溯源关系的冷数据文件重分布方法,其步骤(3)具体如下:
(3-1)当存储系统的元数据服务器接收到数据重分布请求,获取拟迁移的数据所包含的文件的URI集合;
(3-2)判断拟迁移文件的URI集合是否为空,若否,则从该URI集合中选取一个文件的URI,进入步骤(3-3);若是,则结束本次数据迁移操作,返回提示信息;
(3-3)根据被选取的URI在溯源图中进行查询,获得该文件所在溯源组的其它成员的存储分布信息;根据溯源组的节点存储的分布信息选择迁移的目标数据服务器;进行被选取文件的数据迁移操作。
优选地,上述云存储系统中基于溯源关系的冷数据文件重分布方法,其步骤(3)中,确定迁移的目标服务器的方法,具体如下:
(a)当数据所在溯源组内部分节点已被迁移到下一层数据服务器集群,则将拟迁移的数据迁移到相同的数据服务器,并更新该溯源组信息;
(b)当数据所在溯源组内所有节点均未被迁移到下一层数据服务器集群,则在下一层数据服务器集群中选择负载较轻的服务器作为迁移的目的数据服务器,并进行数据迁移,并更新该溯源组信息;其中,负载包括服务器空间负载、访问负载。
优选地,上述云存储系统中基于溯源关系的冷数据文件重分布方法,其步骤(a)具体如下:
(a-1)获取溯源组内文件被迁移到的目标服务器的网络地址;
(a-2)与目标服务器建立联系,将拟迁移的文件从原存储位置迁移动到目标服务器;
(a-3)更新被迁移文件所在的溯源组信息以及代表该文件的节点的信息。
优选地,上述云存储系统中基于溯源关系的冷数据文件重分布方法,其步骤(b)具体如下:
(b-1)根据下一层数据服务器集群的负载量,选择负载较轻的服务器作为目标数据服务器;
(b-2)获取组内文件被迁移到的目标数据服务器的网络地址;
(b-3)更新被迁移文件所在的溯源组信息以及代表该文件的节点的信息。
为实现本发明目的,按照本发明的另一个方面,提供了一种云存储系统中的冷数据文件重分布系统,包括溯源信息收集模块、溯源图存储和维护模块、溯源图查询模块、元数据管理模块、元数据索引与存储模块、数据迁移控制模块、数据迁移执行模块以及数据存储与管理模块;
其中,溯源信息收集模块用于收集云系统存储里用户文件的历史应用信息,获取初始溯源信息,根据初始溯源信息获得用户文件之间的溯源关系;溯源关系信息保存到存储系统的元数据服务器的非易失存储介质上的缓冲区中;
溯源图存储和维护模块用于根据溯源关系生成溯源图,并完成对溯源图中节点和边的添加、删除以及更新;
溯源图是一张关系表,该表保存文件_URI、溯源组_ID、文件_LOCATION、文件_FREQUENCY;其中,文件_URI是指文件的全球资源定位符,用来唯一标识各个文件;溯源组_ID是指本台元数据服务器为该溯源组唯一指定的序列号;文件_LOCATION是指该文件存储的具体路径,包括设备号、文件路径以及文件名;文件_FREQUENCY是统计的该文件的访问频率;
溯源图查询模块用于根据文件ID查找到文件所在溯源组的文件分布情况,即同溯源组中各文件的文件_LOCATION信息;
元数据管理模块用于对云存储系统中所有用户文件的元数据进行访问、添加、更新以及删除操作;
元数据索引与存储模块用于对云存储系统中所有的元数据信息进行索引与存储,以满足用户的元数据访问与查询的请求;
数据迁移控制模块用于根据溯源组内文件的分布情况,确定文件迁移的目标服务器,并根据数据迁移模块的反馈实时更新元数据与溯源图;
数据迁移执行模块用于根据数据迁移请求,将数据迁移到目标服务器,并在数据迁移过程进行流程控制和参数更新;
数据存储与管理模块用于存储数据,并进行数据的添加、删除以及更新。
优选的,上述云存储系统中基于溯源关系的冷数据文件重分布系统,其溯源信息收集模块具体包括文件应用监听模块、溯源信息处理模块、溯源信息分析模块以及文件相关性信息缓冲模块;
其中,文件应用监听模块用于监听用户或系统管理员对云存储系统中各个文件在应用服务器中的操作,获取初始溯源信息;
溯源信息处理模块用于对初始溯源信息进行过滤,包括对溯源信息进行去重、纠错和规整;
溯源信息分析模块用于对初始溯源信息进行分析,获取用户文件的相关性信息;其中,每一条文件关系项中包含能够唯一标识两个用户文件的文件1_URI、文件2_URI;
文件相关性信息缓冲模块设置在元数据服务器的非易失性存储介质上,用于保存文件的相关性信息。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)本发明提供的云存储系统中的冷数据文件重分布方法及系统,基于溯源关系,采用溯源关系表征用户文件之间的相关性,同一个溯源组里的文件在文件访问的特征上具有相似性;这种相似性与访问的时间局部性体现的相似性比较而言,与实际情况的匹配度更高;当把属于同一个溯源组的文件存储在同一个数据节点时,对这些文件的连续访问不用等待数据节点的重新启动,达到提高冷数据访问效率的目的;
(2)本发明提供的云存储系统中的冷数据文件重分布方法及系统,把具有相关性的文件聚集在一起,对这些文件的访问不需要涉及到其它的数据节点;由此在保证用户访问性能的基础上,减少数据节点的启动次数,后者减少并行运行的数据节点的数目,进一步减少了云存储供应商的运营开销,由此提高了云存储系统中的冷数据存储的节能效率。
附图说明
图1为本发明实施例中的数据重分布的整体流程图;
图2为本发明实施例中收集溯源信息步骤的细化流程图;
图3为本发明实施例中的冷数据文件重分布系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
本发明提供的基于溯源关系的云存储系统中的冷数据文件重分布方法及系统,在各个应用服务器上收集云存储系统中用户文件的应用信息,即溯源信息;通过分析溯源信息获得文件之间的溯源关系;文件之间的溯源关系体现了文件之间紧密而精确的相关性;利用溯源关系建立文件的溯源图;当云存储系统接收到文件的重新分布请求时,通过文件的唯一标识符在溯源图中查询其所在的溯源组,根据溯源组中文件的存储分布状态来决定这些文件被重分布到哪些数据服务器中;然后根据重分布的情况来更新相关的元数据和溯源图。该方法及系统充分地利用溯源图中同溯源组文件的精确相关性的特点,提高冷数据的访问效率,并减少云存储系统的运行开销。
图1所示,为实施例提供的云存储系统中的冷数据文件重分布方法的流程图,具体如下:
(1)在系统各个应用服务器上收集云存储系统中用户文件的应用信息,即溯源信息;根据溯源信息分析获取文件之间的溯源关系;根据溯源关系建立文件的溯源图;并对这张溯源图进行维护;
(3)当云存储系统接收数据重分布请求,通过文件的唯一标识符在溯源图中查询期所在的溯源组,根据溯源组中文件的存储分布状态确定文件被重分布到哪些数据服务器中;
若该数据所在的溯源组中的部分数据已经被重分布,则将该数据迁移到组内部分数据所在的数据服务器;否则,就在数据服务器中选择负载较轻的服务器进行迁移,然后根据重分布的情况更新相关的元数据和溯源图。
图2所示是实施例中步骤(1)的细化流程图,具体如下:
(1-1)在云存储系统中的每一台应用服务器上安装溯源收集工具模块;设置溯源收集工具收集对象的范围以及应用信息的范围,前一项规定只收集用户文件的信息,后一项规定只收集可提取文件相关性的信息;
(1-2)监听用户对文件在云存储系统中的所有编辑操作;
(1-3)将在收集到的溯源信息进行过滤和去重;
(1-4)分析溯源信息得到文件关系项;其中,每条文件关系项包含能够唯一标识两个用户文件的文件:1_URI、2_URI;
(1-5)将上述文件关系项发送到对应的元数据服务器。
图3所示,是实施例提供的云存储系统中的冷数据文件重分布系统的模块示意图;包括溯源信息收集模块、溯源图存储和维护模块、溯源图查询模块、元数据管理模块、元数据索引与存储模块、数据迁移控制模块、数据存储与管理模块以及数据迁移执行模块;
其中,溯源信息收集模块用于收集云系统存储里用户文件的历史应用信息,获取初始溯源信息,根据初始溯源信息获得用户文件之间的溯源关系;溯源关系信息保存到存储系统的元数据服务器的非易失存储介质上的缓冲区中;
溯源图存储和维护模块用于根据溯源关系生成溯源图,并完成对溯源图中节点和边的添加、删除以及更新;
溯源图保存文件_URI、溯源组_ID、文件_LOCATION、文件_FREQUENCY;
其中,文件_URI是指文件的全球资源定位符,用来唯一标识各个文件;溯源组_ID是指本台元数据服务器为该溯源组唯一指定的序列号;文件_LOCATION是指该文件存储的具体路径,包括设备号、文件路径以及文件名;文件_FREQUENCY是统计的该文件的访问频率;
溯源图查询模块用于根据文件ID查找到文件所在溯源组的文件分布情况,即同溯源组中各文件的文件_LOCATION信息;
元数据管理模块用于对云存储系统中所有用户文件的元数据进行访问、添加、更新以及删除操作;
元数据索引与存储模块用于对云存储系统中所有的元数据信息进行索引与存储;
数据迁移控制模块用于根据溯源组内文件的分布情况,确定文件迁移的目标服务器,并根据数据迁移模块的反馈实时更新元数据与溯源图;
数据迁移执行模块用于根据数据迁移请求,将数据迁移到目标服务器,并在数据迁移过程进行流程控制和参数更新;
数据存储与管理模块用于存储数据,并进行数据的添加、删除以及更新。
为验证本发明提供的云存储系统中的冷数据文件重分布方法及系统,在实际应用环境下配置本实施例提供的冷数据文件重分布系统,并进行相关查询操作来验证其效果。
实施例中,进行系统测试的硬件与软件系统参数如表1所示:
表1测试系统参数列表
测试系统的配置过程如下:
(1)将测试的trace文件分发到每个节点;
(2)各节点运行元数据索引结构的建立模块和关系图生成模块;在本测试中,25个节点分成3个分组,3个分组中的节点数目分别为3,2,20;第一个分组模拟用户对文件的应用,运行溯源信息收集模块;第二个分组用于存储用户文件的元数据,运行溯源图存储和维护模块、溯源图查询模块、元数据管理模块、元数据索引与存储模块、数据迁移控制模块;第三分组存储数据,运行数据存储与管理模块以及数据迁移执行模块;限制每次可并行运行的数据点的个数。
测试所获得的结果及数据分析如表2及表3所示;其中,表2为本实施例提供的系统及方法与现有技术基于访问的时间局部性的重分布方法的平均时间开销对比列表;表3为本实施例提供的系统及方法与只区分数据冷热的重分布方法的平均时间开销对比列表。
表2测试结果及对比列表1
表3测试结果及对比列表2
通过本实施例提供的系统及方法的单条访问时间开销的平均值,与基于访问的时间局部性的重分布方法的单条访问时间开销平均对比分析,以及与只区分数据冷热的重分布方法的平均时间开销对比分析,分析结果表明本实施例提供的方法及系统,其单条访问的时间比上述两种方法的单条访问时间都短,从加速比这项数据可以很直观地看出,本实施例所提供的冷数据文件重分布方法及系统,在单条数据访问速度上具有绝对优势;本发明与现有的两种技术相比,在根据溯源关系对冷数据进行重分布之后,冷数据存储系统能够减少用户访问冷数据文件的等待时间,并相应地减少云存储服务供应商的运营开销。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种云存储系统中的冷数据文件重分布方法,其特征在于,具体如下:
(1)通过云存储系统中用户文件的历史应用信息,获取初始溯源信息;根据所述初始溯源信息,获取用户文件之间的相关性信息;
所述步骤(1)具体如下:
(1-1)在云存储的应用服务器集群的每台服务器上添加溯源信息收集模块;
(1-2)设置溯源信息收集模块收集溯源信息的范围,对系统文件以及应用层配置文件的信息进行过滤,获取本系统存储的用户文件的应用信息;
(1-3)对所述溯源信息进行预处理,以去除其中的错误信息以及重复信息,并获取用户文件之间的相关性信息;
(1-4)判断云存储系统的元数据服务器上的缓冲区是否有足够的空闲空间保存所述相关性信息,若是,则直接存储所述相关性信息;若否,则进入步骤(2);
(2)根据所述相关性信息形成溯源图;所述溯源图为无向图,溯源图中的节点代表文件,边代表文件相关性;
(3)当接收到数据重分布请求,根据所述溯源图进行查询,获得数据所在溯源组的其它文件的存储分布信息;根据所述存储分布信息确定迁移的目标服务器。
2.如权利要求1所述的冷数据文件重分布方法,其特征在于,所述步骤(2)具体如下:
(2-1)判断溯源图是否为空,若是,则先建立空溯源图,再将所述相关性信息添加到所述溯源图;若否,则直接将所述相关性信息添加到溯源图;
(2-2)根据文件相关项中包含的URI,判断URI对应的两个文件是否包含在溯源图中,若否,则进入步骤(2-3),若是,则进入步骤(2-4);
(2-3)在溯源图中添加代表文件的节点以及代表文件相互关系的边;
(2-4)判定溯源图是否只包含一个文件,若是,则在溯源图中添加代表不包含在溯源图中的文件的节点以及代表文件相互关系的边;若否,则删除这条文件相关项。
3.如权利要求1所述的冷数据文件重分布方法,其特征在于,所述步骤(3)具体如下:
(3-1)当接收到数据重分布请求,获取拟迁移的数据所包含的文件的URI集合;
(3-2)判断拟迁移文件的URI集合是否为空,若否,则从该URI集合中选取一个文件的URI,进入步骤(3-3);若是,则结束本次数据迁移操作,返回提示信息;
(3-3)根据被选取的URI在溯源图中进行查询,获得该文件所在溯源组的其它成员的存储分布信息;根据溯源组的节点存储的分布信息选择迁移的目标数据服务器;进行数据迁移操作。
4.如权利要求1所述的冷数据文件重分布方法,其特征在于,所述步骤(3)中,确定迁移的目标服务器的方法,具体如下:
(a)当数据所在溯源组内部分节点已被迁移到下一层数据服务器集群,则将拟迁移的数据迁移到相同的数据服务器,并更新该溯源组信息;
(b)当数据所在溯源组内所有节点均未被迁移到下一层数据服务器集群,则在下一层数据服务器集群中选择负载轻的服务器作为迁移的目的数据服务器,并更新该溯源组信息。
5.如权利要求4所述的冷数据文件重分布方法,其特征在于,所述步骤(a)具体如下:
(a-1)获取溯源组内文件被迁移到的目标服务器的网络地址;
(a-2)与目标服务器建立联系,将拟迁移的文件从原存储位置迁移动到目标服务器;
(a-3)更新被迁移文件所在的溯源组信息以及代表该文件的节点的信息。
6.如权利要求4所述的冷数据文件重分布方法,其特征在于,所述步骤(b)具体如下:
(b-1)根据下一层数据服务器集群的负载量,选择负载轻的服务器作为目标服务器;
(b-2)获取组内文件被迁移到的目标数据服务器的网络地址;
(b-3)更新被迁移文件所在的溯源组信息以及代表该文件的节点的信息。
7.一种云存储系统中的冷数据文件重分布系统,其特征在于,包括溯源信息收集模块、溯源图存储和维护模块、溯源图查询模块、元数据管理模块、元数据索引与存储模块、数据迁移控制模块、数据迁移执行模块以及数据存储与管理模块;
所述溯源信息收集模块用于收集用户文件的历史应用信息,根据所述历史应用信息获取初始溯源信息,并根据初始溯源信息获得用户文件之间的溯源关系;
所述溯源图存储和维护模块用于根据溯源关系生成溯源图,并完成对溯源图中节点和边的添加、删除以及更新的操作;
所述溯源图查询模块用于根据文件URI查找到文件所在溯源组的文件分布情况;
所述元数据管理模块用于对云存储系统中所有用户文件的元数据进行访问、添加、更新以及删除操作;
所述元数据索引与存储模块用于对云存储系统中所有的元数据信息进行索引与存储;
所述数据迁移控制模块用于根据溯源组内文件的分布情况,确定文件迁移的目标服务器,并根据数据迁移模块的反馈实时更新元数据与溯源图;
所述数据迁移执行模块用于根据数据迁移请求,将数据迁移到目标服务器,并在数据迁移过程进行流程控制和参数更新;
所述数据存储与管理模块用于存储数据,并进行数据的添加、删除以及更新。
8.如权利要求7所述的冷数据文件重分布系统,其特征在于,所述溯源信息收集模块包括文件应用监听模块、溯源信息处理模块、溯源信息分析模块以及文件相关性信息缓冲模块;
所述文件应用监听模块用于监听用户或系统管理员对云存储系统中各个文件在应用服务器中的操作,获取初始溯源信息;
所述溯源信息处理模块用于对所述初始溯源信息进行过滤,包括对溯源信息进行去重、纠错和规整;
所述溯源信息分析模块用于对所述初始溯源信息进行分析,获取用户文件的相关性信息;
所述文件相关性信息缓冲模块设置在元数据服务器的非易失性存储介质上,用于保存所述的相关性信息。
CN201610197281.3A 2016-03-31 2016-03-31 一种云存储系统中的冷数据文件重分布方法及系统 Active CN105893542B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610197281.3A CN105893542B (zh) 2016-03-31 2016-03-31 一种云存储系统中的冷数据文件重分布方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610197281.3A CN105893542B (zh) 2016-03-31 2016-03-31 一种云存储系统中的冷数据文件重分布方法及系统

Publications (2)

Publication Number Publication Date
CN105893542A CN105893542A (zh) 2016-08-24
CN105893542B true CN105893542B (zh) 2019-04-12

Family

ID=57011805

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610197281.3A Active CN105893542B (zh) 2016-03-31 2016-03-31 一种云存储系统中的冷数据文件重分布方法及系统

Country Status (1)

Country Link
CN (1) CN105893542B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106709024B (zh) * 2016-12-28 2020-07-17 深圳市华傲数据技术有限公司 基于血缘分析进行数据表溯源的方法及装置
CN108268211B (zh) * 2017-01-03 2021-09-14 中国移动通信有限公司研究院 一种数据处理方法及装置
CN112818068A (zh) * 2020-08-27 2021-05-18 黄天红 基于大数据和多维特征的数据溯源方法及系统
CN112348535B (zh) * 2020-11-04 2023-09-12 新华中经信用管理有限公司 一种基于区块链技术的溯源应用方法及系统
CN112528279B (zh) * 2020-12-15 2024-03-19 华中科技大学 一种入侵检测模型的建立方法和装置
CN113836176A (zh) * 2021-08-19 2021-12-24 重庆恩谷信息科技有限公司 一种云数据的信息集成服务系统
CN114422600B (zh) * 2021-12-31 2023-11-07 成都鲁易科技有限公司 基于云存储的文件调度系统及基于云存储的文件调度方法
CN115292051B (zh) * 2022-09-26 2023-01-03 城云科技(中国)有限公司 一种gpu资源pod的热迁移方法、装置及应用
CN116821102B (zh) * 2023-08-25 2023-11-17 腾讯科技(深圳)有限公司 数据迁移方法、装置、计算机设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101043381A (zh) * 2007-04-20 2007-09-26 北京航空航天大学 服务网格溯源信息收集系统及方法
US8392482B1 (en) * 2008-03-31 2013-03-05 Amazon Technologies, Inc. Versioning of database partition maps
CN103150304A (zh) * 2011-12-06 2013-06-12 郑红云 云数据库系统
CN103838847A (zh) * 2014-03-06 2014-06-04 中国科学院软件研究所 一种面向海云协同网络计算环境的数据组织方法
CN103970871A (zh) * 2014-05-12 2014-08-06 华中科技大学 存储系统中基于溯源信息的文件元数据查询方法与系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7388488B2 (en) * 2003-10-30 2008-06-17 Peter Lupoli Method and system for storing, retrieving, and managing data for tags

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101043381A (zh) * 2007-04-20 2007-09-26 北京航空航天大学 服务网格溯源信息收集系统及方法
US8392482B1 (en) * 2008-03-31 2013-03-05 Amazon Technologies, Inc. Versioning of database partition maps
CN103150304A (zh) * 2011-12-06 2013-06-12 郑红云 云数据库系统
CN103838847A (zh) * 2014-03-06 2014-06-04 中国科学院软件研究所 一种面向海云协同网络计算环境的数据组织方法
CN103970871A (zh) * 2014-05-12 2014-08-06 华中科技大学 存储系统中基于溯源信息的文件元数据查询方法与系统

Also Published As

Publication number Publication date
CN105893542A (zh) 2016-08-24

Similar Documents

Publication Publication Date Title
CN105893542B (zh) 一种云存储系统中的冷数据文件重分布方法及系统
Liu et al. Implementing WebGIS on Hadoop: A case study of improving small file I/O performance on HDFS
US8560569B2 (en) Method and apparatus for performing bulk file system attribute retrieval
CN105279278B (zh) 文件的搜索方法及装置
CN106294352B (zh) 一种文件处理方法、装置和文件系统
CN108600321A (zh) 一种基于分布式内存云的图数据存储方法和系统
CN104850572A (zh) HBase非主键索引构建与查询方法及其系统
CN101620609A (zh) 多租户数据存储和访问方法和装置
Xu et al. Drop: Facilitating distributed metadata management in eb-scale storage systems
CN105303456A (zh) 电力传输设备监控数据处理方法
CN104239377A (zh) 跨平台的数据检索方法及装置
CN107562757A (zh) 基于分布式文件系统的查询、访问方法、装置及系统
US20020049759A1 (en) High performance relational database management system
CN109460345A (zh) 实时数据的计算方法及系统
CN111026709B (zh) 基于集群访问的数据处理方法及装置
CN112947860A (zh) 一种分布式数据副本的分级存储与调度方法
CN111966293A (zh) 一种冷热数据分析方法及系统
Hewasinghage et al. A cost model for random access queries in document stores
CN111368166A (zh) 资源搜索方法、资源搜索装置和计算机可读存储介质
Xu et al. Adaptive and scalable load balancing for metadata server cluster in cloud-scale file systems
CN110381136A (zh) 一种数据读取方法、终端、服务器及存储介质
CN116541427B (zh) 数据查询方法、装置、设备及存储介质
CN112559459A (zh) 一种基于云计算的自适应存储分层系统及方法
CN107291875B (zh) 一种基于元数据图的元数据组织管理方法和系统
Hou et al. Pacaca: mining object correlations and parallelism for enhancing user experience with cloud storage

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant