CN106570093A - 一种基于独立元数据组织结构的海量数据迁移方法和装置 - Google Patents

一种基于独立元数据组织结构的海量数据迁移方法和装置 Download PDF

Info

Publication number
CN106570093A
CN106570093A CN201610924438.8A CN201610924438A CN106570093A CN 106570093 A CN106570093 A CN 106570093A CN 201610924438 A CN201610924438 A CN 201610924438A CN 106570093 A CN106570093 A CN 106570093A
Authority
CN
China
Prior art keywords
index file
server
data
migration
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610924438.8A
Other languages
English (en)
Other versions
CN106570093B (zh
Inventor
曹姣姣
宋书磊
薛坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Sinovatio Technology LLC
Original Assignee
Nanjing Sinovatio Technology LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Sinovatio Technology LLC filed Critical Nanjing Sinovatio Technology LLC
Priority to CN201610924438.8A priority Critical patent/CN106570093B/zh
Publication of CN106570093A publication Critical patent/CN106570093A/zh
Application granted granted Critical
Publication of CN106570093B publication Critical patent/CN106570093B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/122File system administration, e.g. details of archiving or snapshots using management policies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/119Details of migration of file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • G06F16/1827Management specifically adapted to NAS

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于独立元数据组织结构的海量数据迁移方法和装置,方法包括如下步骤:(1)根据索引文件的元数据统计索引文件的迁移属性;(2)根据索引文件的迁移属性将索引文件迁移到最优服务器。装置包括统计模块、迁移模块和管控模块;统计模块用于根据索引文件的元数据统计索引文件的迁移属性,迁移模块用于根据索引文件的迁移属性将索引文件迁移到最优服务器,管控模块用于根据索引文件的迁移结果更新元数据服务器。本发明的有益效果为:根据独立元数据统计索引文件的迁移属性,实现海量数据在不同服务器之间的迁移,提高了服务器的空间利用率,同时对用户透明,保证分布式文件系统的读写性能不受影响。

Description

一种基于独立元数据组织结构的海量数据迁移方法和装置
技术领域
本发明涉及海量数据迁移技术领域,尤其是一种基于独立元数据组织结构的海量数据迁移方法和装置。
背景技术
分布式文件系统通过将索引文件分布保存在多个服务器上来实现数据的海量存储和快速检索。基于写性能的考虑,分布式文件系统被部署在高性能的X86服务器上。
随着数据量的飞速扩充,X86服务器远不能满足低成本、高容量的需求。为此,分布式文件系统被混合部署在X86和ARM两种类型的服务器上,X86服务器作为可写数据服务器提供数据读写服务,ARM服务器作为只读数据服务器提供数据读服务。如何高效正确实现数据从可写数据服务器到只读数据服务器的迁移是保证分布式文件系统读写性能的关键技术。
发明内容
本发明所要解决的技术问题在于,提供一种基于独立元数据组织结构的海量数据迁移方法和装置,可实现文件在可写数据服务器到只读数据服务器之间的迁移,提高服务器的空间利用率和吞吐量,提高分布式文件系统的读写性能。
为解决上述技术问题,本发明提供一种基于独立元数据组织结构的海量数据迁移方法,包括如下步骤:
(1)根据索引文件的元数据统计索引文件的迁移属性;
(2)根据索引文件的迁移属性将索引文件迁移到最优服务器。
优选的,步骤(1)的具体过程为:索引文件的元数据描述索引文件的唯一文件标识、物理存储位置、分区、文件大小以及状态,主控服务器通过元数据信息统一调度多个服务器上的索引文件及其副本;具备不可写属性的索引文件被迁移到只读数据服务器,同时迁移其副本。
优选的,统计索引文件的迁移属性方法有两种:(a)当正在写入的索引文件大小超过最大值,该文件将不再允许被写入;(b)当天切换,分区非当天的索引文件将不会再被写入数据;以上两种情况下,索引文件的可写属性被更新为不可写,同时将该文件及其副本标识为待迁移。
有限的,步骤(2)的具体过程为:选择当前空间剩余率最大的只读数据服务器作为目的服务器,选择目的服务器上当前磁盘空间剩余率最大的磁盘作为目的路径,将所有待迁移索引文件迁移到目的路径,并将相应的副本迁移到次优服务器做备份,选择待迁移索引文件和目的路径,流控实现海量索引文件的迁移。
相应的,一种基于独立元数据组织结构的海量数据迁移装置,包括统计模块、迁移模块和管控模块;统计模块用于根据索引文件的元数据统计索引文件的迁移属性,迁移模块用于根据索引文件的迁移属性将索引文件迁移到最优服务器,管控模块用于根据索引文件的迁移结果更新元数据服务器。
优选的,统计模块位于主控服务器,从元数据服务器中获取并保存所有位于可写和只读数据服务器上索引文件的元数据,通过检测元数据信息更新统计待迁移索引文件;当可写数据服务器上索引文件被写满后,上报主控服务器,主控服务器更新元数据信息,统计模块检测到索引文件被变更为不可写属性,将其及其副本迁入待迁移队列;索引文件带有分区属性,数据写入当天的索引文件中,统计模块检测到当天切换,统计元数据中分区属性非当天的索引文件,将其及其副本迁入待迁移队列。
优选的,迁移模块用于决策出最佳路径,将待迁移队列中的索引文件拷贝到目的路径,数据服务器定时上报磁盘空间利用率,主控服务器实时更新服务器的元数据信息,包括各个磁盘的空间占用量,迁移模块统计出所有只读数据服务器的总空间剩余率以及各个磁盘的空间剩余率,比较得出总空间剩余率最大的只读数据服务器作为目的服务器,目的服务器上磁盘空间剩余率最大的磁盘作为目的路径,迁移模块采用流控方式触发拷贝,通知源可写数据服务器将索引文件拷贝到目的只读数据服务器;迁移模块校验索引文件在拷贝前后的数据一致性,迁移模块收到源可写数据服务器的拷贝响应,通知目的只读数据服务器CRC校验索引文件,校验成功,迁移模块通知管控模块索引文件迁移成功,反之,拷贝或校验失败,通知管控模块迁移失败。
优选的,管控模块用于根据迁移模块的迁移结果,更新元数据服务器,包括索引文件的存储路径、文件状态;管控模块根据迁移模块的迁移结果,处理迁移过程中产生的垃圾文件,迁移模块通知迁移成功,源可写数据服务器上索引文件被废弃被垃圾文件,管控模块将其移入垃圾回收站,超过回收期彻底删除,反之,目的只读数据服务器上残留迁移过程中的垃圾文件,管控模块将其直接删除。
本发明的有益效果为:根据独立元数据统计索引文件的迁移属性,实现所述文件在不同服务器之间的迁移,提高了服务器的空间利用率,同时对用户透明,分布式文件系统的读写性能不受影响。
附图说明
图1是本发明的海量数据迁移方法的流程示意图。
图2是本发明的海量数据迁移装置的结构示意图。
具体实施方式
如图1所示,一种基于独立元数据组织结构的海量数据迁移方法,包括如下步骤:
(1)根据索引文件的元数据统计索引文件的迁移属性;
索引文件的元数据描述索引文件的唯一文件标识、物理存储位置、分区、文件大小以及状态,主控服务器通过元数据信息统一管理调度多个数据服务器上的索引文件及其副本,具备不可写属性的索引文件被迁移到只读数据服务器,同时迁移其副本。
(2)根据索引文件的迁移属性将索引文件迁移到最优服务器。
选择当前空间剩余率最大的只读数据服务器作为目的服务器,选择目的服务器上当前磁盘空间剩余率最大的磁盘作为目的路径,将所有待迁移索引文件迁移到目的路径,并将相应的副本迁移到次优服务器做备份,迁移到只读数据服务器的索引文件通过CRC校验保持数据一致性。
如图2所示,一种基于独立元数据组织结构的海量数据迁移装置,包括统计模块、迁移模块和管控模块;统计模块用于根据索引文件的元数据统计索引文件的迁移属性,迁移模块用于根据索引文件的迁移属性将索引文件迁移到最优服务器,管控模块用于根据索引文件的迁移结果更新元数据服务器。
统计模块位于主控服务器,从元数据服务器中获取并保存所有存储在可写和只读数据服务器的索引文件的元数据信息,通过检测元数据信息更新统计待迁移索引文件;当可写数据服务器上索引文件被写满后,上报主控服务器,主控服务器更新元数据信息,统计模块检测到索引文件被变更为不可写属性,将其及其副本迁入待迁移队列;索引文件带有分区属性,数据写入当天的索引文件中,统计模块检测到当天切换,统计元数据中分区属性非当天的索引文件,将其及其副本迁入待迁移队列。
迁移模块用于决策出最佳路径,将待迁移队列中的索引文件拷贝到目的路径,数据服务器定时上报磁盘空间利用率,主控服务器实时更新服务器的元数据信息,包括各个磁盘的空间占用量,迁移模块统计出所有只读数据服务器的总空间剩余率以及各个磁盘的空间剩余率,比较得出总空间剩余率最大的只读数据服务器作为目的服务器,目的服务器上磁盘空间剩余率最大的磁盘作为目的路径,迁移模块采用流控方式触发拷贝,通知源可写数据服务器将索引文件拷贝到目的只读数据服务器;迁移模块校验索引文件在拷贝前后的数据一致性,迁移模块收到源可写数据服务器的拷贝响应,通知目的只读数据服务器CRC校验索引文件,校验成功,迁移模块通知管控模块索引文件迁移成功,反之,拷贝或校验失败,通知管控模块迁移失败。
管控模块用于根据迁移模块的迁移结果,更新元数据服务器,包括索引文件的存储路径、文件状态等;管控模块根据迁移模块的迁移结果,处理迁移过程中产生的垃圾文件,迁移模块通知迁移成功,源可写数据服务器上索引文件被废弃被垃圾文件,管控模块将其移入垃圾回收站,超过回收期彻底删除,反之,目的只读数据服务器上残留迁移过程中的垃圾文件,管控模块将其直接删除。
尽管本发明就优选实施方式进行了示意和描述,但本领域的技术人员应当理解,只要不超出本发明的权利要求所限定的范围,可以对本发明进行各种变化和修改。

Claims (8)

1.一种基于独立元数据组织结构的海量数据迁移方法,其特征在于,包括如下步骤:
(1)根据索引文件的元数据统计索引文件的迁移属性;
(2)根据索引文件的迁移属性将索引文件迁移到最优服务器。
2.如权利要求1所述的基于独立元数据组织结构的海量数据迁移方法,其特征在于,步骤(1)的具体过程为:索引文件的元数据描述索引文件的唯一文件标识、物理存储位置、分区、文件大小以及状态,主控服务器通过元数据信息统一调度多个服务器上的索引文件及其副本;具备不可写属性的索引文件被迁移到只读数据服务器,同时迁移其副本。
3.如权利要求2所述的基于独立元数据组织结构的海量数据迁移方法,其特征在于,统计索引文件的迁移属性方法有两种:(a)当正在写入的索引文件大小超过最大值,该文件将不再允许被写入;(b)当天切换,分区非当天的索引文件将不会再被写入数据;以上两种情况下,索引文件的可写属性被更新为不可写,同时将该文件及其副本标识为待迁移。
4.如权利要求1所述的基于独立元数据组织结构的海量数据迁移方法,其特征在于,步骤(2)的具体过程为:选择当前空间剩余率最大的只读数据服务器作为目的服务器,选择目的服务器上当前磁盘空间剩余率最大的磁盘作为目的路径,将所有待迁移索引文件迁移到目的路径,并将相应的副本迁移到次优服务器做备份,选择待迁移索引文件和目的路径,流控实现海量索引文件的迁移。
5.一种基于独立元数据组织结构的海量数据迁移装置,其特征在于,包括:统计模块、迁移模块和管控模块;统计模块用于根据索引文件的元数据统计索引文件的迁移属性,迁移模块用于根据索引文件的迁移属性将索引文件迁移到最优服务器,管控模块用于根据索引文件的迁移结果更新元数据服务器。
6.如权利要求5所述的基于独立元数据组织结构的海量数据迁移装置,其特征在于,统计模块位于主控服务器,从元数据服务器中获取并保存所有位于可写和只读数据服务器上索引文件的元数据,通过检测元数据信息更新统计待迁移索引文件;当可写数据服务器上索引文件被写满后,上报主控服务器,主控服务器更新元数据信息,统计模块检测到索引文件被变更为不可写属性,将其及其副本迁入待迁移队列;索引文件带有分区属性,数据写入当天的索引文件中,统计模块检测到当天切换,统计元数据中分区属性非当天的索引文件,将其及其副本迁入待迁移队列。
7.如权利要求5所述的基于独立元数据组织结构的海量数据迁移装置,其特征在于,迁移模块用于决策出最佳路径,将待迁移队列中的索引文件拷贝到目的路径,数据服务器定时上报磁盘空间利用率,主控服务器实时更新服务器的元数据信息,包括各个磁盘的空间占用量,迁移模块统计出所有只读数据服务器的总空间剩余率以及各个磁盘的空间剩余率,比较得出总空间剩余率最大的只读数据服务器作为目的服务器,目的服务器上磁盘空间剩余率最大的磁盘作为目的路径,迁移模块采用流控方式触发拷贝,通知源可写数据服务器将索引文件拷贝到目的只读数据服务器;迁移模块校验索引文件在拷贝前后的数据一致性,迁移模块收到源可写数据服务器的拷贝响应,通知目的只读数据服务器CRC校验索引文件,校验成功,迁移模块通知管控模块索引文件迁移成功,反之,拷贝或校验失败,通知管控模块迁移失败。
8.如权利要求5所述的基于独立元数据组织结构的海量数据迁移装置,其特征在于,管控模块用于根据迁移模块的迁移结果,更新元数据服务器,包括索引文件的存储路径、文件状态;管控模块根据迁移模块的迁移结果,处理迁移过程中产生的垃圾文件,迁移模块通知迁移成功,源可写数据服务器上索引文件被废弃被垃圾文件,管控模块将其移入垃圾回收站,超过回收期彻底删除,反之,目的只读数据服务器上残留迁移过程中的垃圾文件,管控模块将其直接删除。
CN201610924438.8A 2016-10-24 2016-10-24 一种基于独立元数据组织结构的海量数据迁移方法和装置 Active CN106570093B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610924438.8A CN106570093B (zh) 2016-10-24 2016-10-24 一种基于独立元数据组织结构的海量数据迁移方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610924438.8A CN106570093B (zh) 2016-10-24 2016-10-24 一种基于独立元数据组织结构的海量数据迁移方法和装置

Publications (2)

Publication Number Publication Date
CN106570093A true CN106570093A (zh) 2017-04-19
CN106570093B CN106570093B (zh) 2020-03-27

Family

ID=58534207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610924438.8A Active CN106570093B (zh) 2016-10-24 2016-10-24 一种基于独立元数据组织结构的海量数据迁移方法和装置

Country Status (1)

Country Link
CN (1) CN106570093B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107577433A (zh) * 2017-09-13 2018-01-12 郑州云海信息技术有限公司 一种存储介质和文件数据的迁移方法、装置及设备
CN107643880A (zh) * 2017-09-27 2018-01-30 郑州云海信息技术有限公司 基于分布式文件系统的文件数据迁移的方法及装置
WO2019025960A1 (en) * 2017-08-04 2019-02-07 International Business Machines Corporation FILE REPLICATION AND MIGRATION TO SECONDARY STORAGE SITES
CN112368673A (zh) * 2018-07-10 2021-02-12 国际商业机器公司 确定用于数据集和用于迁移数据集的最优存储环境
CN112559537A (zh) * 2019-09-25 2021-03-26 阿里巴巴集团控股有限公司 云存储区间更新方法、装置、电子设备及计算机存储介质
CN115098035A (zh) * 2022-07-08 2022-09-23 天津华呈鼎丰科技有限公司 基于多端云计算集群的大数据存储方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102725754A (zh) * 2011-12-26 2012-10-10 华为技术有限公司 一种索引数据处理方法及设备
CN103530327A (zh) * 2013-09-25 2014-01-22 清华大学深圳研究生院 一种从非关系型数据库到关系型数据库的数据迁移方法
CN103793475A (zh) * 2014-01-06 2014-05-14 无锡城市云计算中心有限公司 一种分布式文件系统数据迁移的方法
US20160070754A1 (en) * 2014-09-10 2016-03-10 Umm Al-Qura University System and method for microblogs data management
WO2016138474A1 (en) * 2015-02-26 2016-09-01 Bittitan, Inc. Data migration systems and methods including archive migration

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102725754A (zh) * 2011-12-26 2012-10-10 华为技术有限公司 一种索引数据处理方法及设备
CN103530327A (zh) * 2013-09-25 2014-01-22 清华大学深圳研究生院 一种从非关系型数据库到关系型数据库的数据迁移方法
CN103793475A (zh) * 2014-01-06 2014-05-14 无锡城市云计算中心有限公司 一种分布式文件系统数据迁移的方法
US20160070754A1 (en) * 2014-09-10 2016-03-10 Umm Al-Qura University System and method for microblogs data management
WO2016138474A1 (en) * 2015-02-26 2016-09-01 Bittitan, Inc. Data migration systems and methods including archive migration

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019025960A1 (en) * 2017-08-04 2019-02-07 International Business Machines Corporation FILE REPLICATION AND MIGRATION TO SECONDARY STORAGE SITES
CN110914808A (zh) * 2017-08-04 2020-03-24 国际商业机器公司 将文件复制和迁移到辅助存储站点
US11341103B2 (en) 2017-08-04 2022-05-24 International Business Machines Corporation Replicating and migrating files to secondary storage sites
CN110914808B (zh) * 2017-08-04 2023-11-24 国际商业机器公司 将文件复制和迁移到辅助存储站点
CN107577433A (zh) * 2017-09-13 2018-01-12 郑州云海信息技术有限公司 一种存储介质和文件数据的迁移方法、装置及设备
CN107643880A (zh) * 2017-09-27 2018-01-30 郑州云海信息技术有限公司 基于分布式文件系统的文件数据迁移的方法及装置
CN107643880B (zh) * 2017-09-27 2021-06-29 郑州云海信息技术有限公司 基于分布式文件系统的文件数据迁移的方法及装置
CN112368673A (zh) * 2018-07-10 2021-02-12 国际商业机器公司 确定用于数据集和用于迁移数据集的最优存储环境
CN112559537A (zh) * 2019-09-25 2021-03-26 阿里巴巴集团控股有限公司 云存储区间更新方法、装置、电子设备及计算机存储介质
CN112559537B (zh) * 2019-09-25 2022-04-29 阿里巴巴集团控股有限公司 云存储区间更新方法、装置、电子设备及计算机存储介质
CN115098035A (zh) * 2022-07-08 2022-09-23 天津华呈鼎丰科技有限公司 基于多端云计算集群的大数据存储方法及系统
CN115098035B (zh) * 2022-07-08 2022-12-13 四川银亿科技有限公司 基于多端云计算集群的大数据存储方法及系统

Also Published As

Publication number Publication date
CN106570093B (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
CN106570093A (zh) 一种基于独立元数据组织结构的海量数据迁移方法和装置
CN107102819B (zh) 向固态硬盘写入数据的方法及设备
CN103106152B (zh) 基于层次存储介质的数据调度方法
CN109948134A (zh) 一种报告自动生成方法、系统及电子设备和存储介质
CN103370691B (zh) 管理缓冲器溢出状况
CN104919429B (zh) 存储管理计算机及存储管理方法
CN105630418A (zh) 一种数据存储方法及装置
CN101443761A (zh) 对文件系统的支持qos的生命周期管理
CN106446159B (zh) 一种存储文件的方法、第一虚拟机及名称节点
CN101997911A (zh) 一种数据迁移的方法及系统
CN103095805A (zh) 一种对数据进行智能分层管理的云存储系统
CN105574217B (zh) 分布式关系型数据库的数据同步方法和装置
CN102770841A (zh) 用于产生最小引导映像的方法和装置
CN103885811B (zh) 虚拟机系统全系统在线迁移的方法、系统与装置
CN103914458A (zh) 一种海量数据迁移的方法及装置
CN109725933A (zh) 大数据文档生成方法、装置、设备及计算机可读存储介质
CN110147203A (zh) 一种文件管理方法、装置、电子设备及存储介质
CN106445421A (zh) 一种存储系统数据迁移方法及系统
CN109344143A (zh) 一种基于Ceph的分布式集群数据迁移优化方法
CN106339435A (zh) 一种数据分发方法、装置及系统
CN109299056A (zh) 一种基于分布式文件系统的数据同步方法和装置
CN107844274A (zh) 基于超融合存储系统的硬件资源管理方法、装置及终端
CN109325200A (zh) 获取数据的方法、装置及计算机可读存储介质
CN110399333A (zh) 删除快照的方法、设备和计算机程序产品
CN110083649A (zh) 一种基于冷、温、热数据的数据管理系统和数据管理方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant