CN104065685B - 面向云计算环境的分层存储系统中的数据迁移方法 - Google Patents

面向云计算环境的分层存储系统中的数据迁移方法 Download PDF

Info

Publication number
CN104065685B
CN104065685B CN201310093809.9A CN201310093809A CN104065685B CN 104065685 B CN104065685 B CN 104065685B CN 201310093809 A CN201310093809 A CN 201310093809A CN 104065685 B CN104065685 B CN 104065685B
Authority
CN
China
Prior art keywords
data
migration
platform
migrated
data migration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310093809.9A
Other languages
English (en)
Other versions
CN104065685A (zh
Inventor
刘磊
何东杰
何朔
鲁志军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201310093809.9A priority Critical patent/CN104065685B/zh
Priority to PCT/CN2014/072956 priority patent/WO2014146543A1/zh
Publication of CN104065685A publication Critical patent/CN104065685A/zh
Application granted granted Critical
Publication of CN104065685B publication Critical patent/CN104065685B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network

Abstract

本发明公开了一种面向云计算环境的分层存储系统中的数据迁移方法,所述分层存储系统包括在线业务平台和大数据平台,所述数据包括结构化数据和非结构化数据并且在所述在线业务平台与所述大数据平台之间进行迁移,所述方法包括:确定待迁移的数据的类型;以及根据所述数据的类型而在所述在线业务平台与所述大数据平台之间进行迁移,其中,在确定待迁移的数据为结构化数据时,采用MapReduce架构来实现并行迁移,而在确定待迁移的数据为非结构化数据时,采用FTP方式来实现并行迁移。

Description

面向云计算环境的分层存储系统中的数据迁移方法
技术领域
本发明涉及分层存储技术,更具体来说,涉及一种面向云计算环境的分层存储系统中的数据迁移方法。
背景技术
在现有的大多数应用场景中,一个应用系统包含自身的一套业务系统、备份系统和归档系统。多系统情况下,由于平台较多,系统的管理比较复杂,而且很容易造成容量空间的浪费,对每个系统的存储能力做出了限制。
在当前方案下,如果一个企业的系统较多,则管理员要同时负责多个系统的维护工作,并且为每个系统设计备份系统和归档系统,并且随着业务数据的增多,要定期的做数据备份归档,数据备份和归档系统要求具有一定的可扩展性,一般业务之间的存储空间不能共用,造成有的系统空间使用较多,有些系统的空间利用率反而很低。如果需要查询很久以前的数据,需要将归档系统中的数据进行数据恢复,数据量较大的时候成本较高,而且不容易找到所需数据。
由上可见,现有系统不能很好地满足多应用系统统一管理,不能合理地使用空间。
发明内容
为解决上述问题,本发明提供了一种面向云计算的分层存储系统。所述系统具有高吞吐量、高安全性、高可靠性和可扩展性,满足了对多项业务数据的高性能、透明的数据迁移要求。
根据本发明的一个方面,提供了一种面向云计算环境的分层存储系统中的数据迁移方法,所述分层存储系统包括在线业务平台和大数据平台,所述数据包括结构化数据和非结构化数据并且在所述在线业务平台与所述大数据平台之间进行迁移,所述方法包括:确定待迁移的数据的类型;以及根据所述数据的类型而在所述在线业务平台与所述大数据平台之间进行迁移,其中,在确定待迁移的数据为结构化数据时,采用MapReduce架构来实现并行迁移,而在确定待迁移的数据为非结构化数据时,采用FTP方式来实现并行迁移。
在上述数据迁移方法中,所述在线业务平台配置成存储近期的数据,而所述大数据平台配置成存储长时期的业务数据。
在上述数据迁移方法中,采用MapReduce架构来实现并行迁移包括:获取待转移的数据源和约束参数;收集配置信息并且根据所述配置信息来相应地设置所述MapReduce架构中的任务的配置信息;以及调用所述任务来进行数据迁移。
在上述数据迁移方法中,所述约束参数包含映射的个数要求。
在上述数据迁移方法中,所述任务的配置信息包括输入地址、输出地址、映射器所使用类、输入数据的格式以及输出数据的格式。
在上述数据迁移方法中,采用FTP方式来实现并行迁移包括:获取配置文件,其中所述配置文件包含数据迁移源数据文件夹地址、并发过程所采用的线程数量、迁移目的数据文件夹地址以及数据迁移后文件的命名方式;对所述配置文件进行解析;根据解析后的配置文件,建立FTP连接。
在上述数据迁移方法中,采用FTP方式来实现并行迁移还包括:在对所述配置文件进行解析后,判断所要迁移的文件列表是否为空;其中,如果为空,则结束迁移,反之则启动配置文件中指定个数的线程数进行数据迁移。
在上述数据迁移方法中,采用FTP方式来实现并行迁移还包括:在建立FTP连接后,判断迁移是否成功;其中如果成功,则结束数据迁移,反之则将迁移错误信息打印到日志文件中。
本发明的技术方案通过采用一个大数据平台完成了多个业务系统的数据备份,简化了系统管理复杂性,提高了系统空间使用率,能够实现在线业务平台和大数据平台之间的自动数据迁移。迁移的数据包含结构化数据和非结构化数据,采用了并发式的数据迁移模式以满足系统对迁移的性能要求。
附图说明
在参照附图阅读了本发明的具体实施方式以后,本领域技术人员将会更清楚地了解本发明的各个方面。本领域技术人员应当理解的是:这些附图仅仅用于配合具体实施方式说明本发明的技术方案,而并非意在对本发明的保护范围构成限制。
图1是根据本发明的一个实施例的面向云计算存储系统结构示意图;
图2是根据本发明的一个实施例的面向云计算存储系统结构化数据迁移流程图;
图3是根据本发明的一个实施例的面向云计算存储系统非结构化数据迁移流程图。
具体实施方式
下面介绍的是本发明的多个可能实施例中的一些,旨在提供对本发明的基本了解,并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。容易理解,根据本发明的技术方案,在不变更本发明的实质精神下,本领域的一般技术人员可以提出可相互替换的其它实现方式。因此,以下具体实施方式以及附图仅是对本发明的技术方案的示例性说明,而不应当视为本发明的全部或者视为对本发明技术方案的限定或限制。
图示提供的实例提供了面向云计算的分层存储系统结构图和动态迁移数据的实现机制。分层存储系统包含了在线业务平台和大数据平台,两个数据平台保存了不同生命周期的数据,近期的数据保存在在线业务平台上,长期的数据保存在大数据平台上。两个平台间数据的迁移包含了结构化数据和非结构化数据。
如将进一步描述,结构化数据和非结构化数据迁移采取的方法是不同的。对于结构化数据迁移采用MapReduce架构,对于非结构化数据迁移则采用FTP方式。数据迁移充分考虑并发性,确保迁移性能。
下面结合实施例和附图对本发明进行详细说明。
根据本发明的一个实施例,本发明公开了一种基于hadoop的分层存储系统。
Hadoop是一种分布式系统基础架构,其由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。
Hadoop有许多元素构成。其最底部是分布式文件系统HDFS,它存储了Hadoop集群中所有存储节点上的文件。HDFS的上一层是MapReduce引擎。MapReduce本身就是用于并行处理大数据集的软件框架。MapReduce的根源是函数性编程中的map和reduce函数。它由两个可能包含有许多实例的操作组成。Map函数接受一组数据并将其转换为一个键/值对列表,输入域中的每个元素对应一个键/值对。Reduce函数接受Map函数生成的列表,然后根据它们的键(为每个键生成一个键/值对)缩小键/值对列表。
如图1所示,所述的分层存储系统包含了由103和104组成的在线业务平台存储系统和106组成的大数据平台存储系统。所述的在线业务平台系统提供了如101所示的业务,包含了移动支付服务、持卡人服务、商户服务/收单服务,联合营销、电子票据、互联网支付等业务。102是在线业务平台之上的虚拟机层。105是大数据存储平台之上所提供的服务,包含了历史数据查询、数据挖掘功能,并且作为数据归档备份系统。
所述的107的过程即在线业务平台向大数据平台的数据迁移的过程,包含了结构化数据迁移和非结构化数据迁移。所述的结构化数据主要是关系型数据库所存储的数据;所述的非结构化数据主要是电子票据、系统日志等。数据的生命期指数据从产生到要求迁移到大数据平台归档备份的时间窗口,即在线业务平台数据的有效性时间段。
本发明所述的分层次存储系统,可以极大简化系统的管理成本。多个业务平台系统的备份系统和归档系统统一为一个,有效的提高了存储空间的使用,不需为每个系统分配合理的数据存储空间。现有大数据平台上多业务平台数据共用存储空间,减少空间的浪费,有效提升空间利用率。数据迁移的功能自动化实现,无需管理员管理。最大化的并行化数据迁移,提升数据迁移性能,减少对在线业务平台业务的影响。
参考图2,将在线业务平台关系型数据迁移到大数据平台上可采用MapReduce架构并行实行。如图2所示,该过程可包括如下:
Q1,准备迁移数据;
Q2,输入所要转移数据源和其他的约束参数;其中,所述数据源包含了各类结构化数据库,包括MySQL,DB2,Oracle等,指明具体所要迁移的表名称;所述其他的约束参数,包含映射(map)的个数要求;
Q3,Q4,开始数据迁移功能;
Q5,收集所有的配置信息并且复制;
Q6,根据配置信息,配置MapReduce的任务(job)的配置信息;
Q7~Q11,设置MapReduce的任务(job)的输入地址,输出地址,映射器(Mapper)所使用类,输入数据的格式,输出数据的格式;
Q12~Q13,调用映射(map)任务开始进行数据迁移,将源地址的数据复制到目的地址;
Q14,结构化数据迁移过程结束。
如上所述,对结构化数据采用MapReduce架构并行地进行迁移。迁移后的数据可以保存在HBase、Hive和HDFS中,可以指定数据的存储方式和存储位置。数据迁移过程即将大量的数据复制到Hadoop,复制工作由集群并行运行的映射(map)任务完成。采用MapReduce的架构可以将数据并行复制,加快数据的迁移速度。
进一步优化,结构化数据迁移的过程中可以采用资源调度算法进行负载均衡,检查现有磁盘的负载使用情况。如果磁盘IO已经超过了一定阈值,则认为此tasktracker的IO负载很重,则不再将映射(map)任务分配给这个tasktracker。
由此,结构化数据迁移有效地利用MapReduce架构从而完成并发数据迁移。
参考图3,将在线业务平台非关系型数据(非结构化数据)迁移到大数据平台上可采用FTP架构来并行实行增量式数据迁移。该过程可包括如下:
R1,开始迁移数据;
R2,获取配置文件;其中,所述配置文件包含了数据迁移源数据文件夹地址,并发过程所采用的线程数量,迁移目的数据文件夹地址,数据迁移后文件的命名方式;
R3对配置文件进行解析;
R4配置文件格式正确,进一步获取所要迁移的文件的列表,文件格式不正确,则结束数据迁移过程;
R5,判断所要迁移的文件列表是否为空,如果为空,则不需要进行数据迁移,结束迁移,反之,启动配置文件中指定个数的线程数进行数据迁移;
R6,根据配置文件信息,建立FTP连接;判断迁移是否成功,如果成功,则结束数据迁移过程,反之,将迁移错误信息打印到日志文件中;
R7,结束迁移。
可见,非结构化数据迁移有效地利用FTP服务器来完成并发数据迁移。在一个实施方式中,迁移后的数据存放在HDFS中指定的目录之下。
进一步优化,非结构化数据迁移过程中可采用增量数据迁移方法,同步在线业务平台和大数据平台的时间,将已经超过生命期的在线业务平台上的数据迁移到大数据平台,从而减少在线业务平台的成本。
综上所述,本发明通过采用一个大数据平台完成了多个业务系统的数据备份,简化了系统管理复杂性,提高了系统空间使用率,能够实现在线业务平台和大数据平台之间的自动数据迁移。迁移的数据包含结构化数据和非结构化数据,采用了并发式的数据迁移模式以满足系统对迁移的性能要求。
上文中,参照附图描述了本发明的具体实施方式。但是,本领域中的普通技术人员能够理解,在不偏离本发明的精神和范围的情况下,还可以对本发明的具体实施方式作各种变更和替换。这些变更和替换都落在本发明权利要求书所限定的范围内。

Claims (8)

1.一种面向云计算环境的分层存储系统中的数据迁移方法,其特征在于,所述分层存储系统包括在线业务平台和大数据平台,所述数据包括结构化数据和非结构化数据并且在所述在线业务平台与所述大数据平台之间进行迁移,所述方法包括:
确定待迁移的数据的类型;以及
根据所述数据的类型而在所述在线业务平台与所述大数据平台之间进行迁移,其中,在确定待迁移的数据为结构化数据时,采用MapReduce架构来实现并行迁移,而在确定待迁移的数据为非结构化数据时,采用FTP方式来实现并行迁移,
其中,在非结构化数据迁移的过程中采用增量数据迁移方法,同步所述在线业务平台和所述大数据平台的时间,将已经超过生命期的在线业务平台上的数据迁移到大数据平台,
其中,对结构化数据采用MapReduce架构并行地进行迁移,将大量的数据复制到Hadoop,复制工作由集群并行运行的映射任务完成,
其中,结构化数据迁移的过程中采用资源调度算法进行负载均衡,检查现有磁盘的负载使用情况,如果磁盘IO已经超过了一定阈值,则不再分配映射任务。
2.如权利要求1所述的数据迁移方法,其中,所述在线业务平台配置成存储近期的数据,而所述大数据平台配置成存储长时期的业务数据。
3.如权利要求1所述的数据迁移方法,其中,采用MapReduce架构来实现并行迁移包括:
获取待转移的数据源和约束参数;
收集配置信息并且根据所述配置信息来相应地设置所述MapReduce架构中的任务的配置信息;以及
调用所述任务来进行数据迁移。
4.如权利要求3所述的数据迁移方法,其中,所述约束参数包含映射的个数要求。
5.如权利要求3所述的数据迁移方法,其中,所述任务的配置信息包括输入地址、输出地址、映射器所使用类、输入数据的格式以及输出数据的格式。
6.如权利要求1所述的数据迁移方法,其中,采用FTP方式来实现并行迁移包括:
获取配置文件,其中所述配置文件包含数据迁移源数据文件夹地址、并发过程所采用的线程数量、迁移目的数据文件夹地址以及数据迁移后文件的命名方式;
对所述配置文件进行解析;
根据解析后的配置文件,建立FTP连接。
7.如权利要求6所述的数据迁移方法,其中,采用FTP方式来实现并行迁移还包括:
在对所述配置文件进行解析后,判断所要迁移的文件列表是否为空;
其中,如果为空,则结束迁移,反之则启动配置文件中指定个数的线程数进行数据迁移。
8.如权利要求6所述的数据迁移方法,其中,采用FTP方式来实现并行迁移还包括:
在建立FTP连接后,判断迁移是否成功;
其中如果成功,则结束数据迁移,反之则将迁移错误信息打印到日志文件中。
CN201310093809.9A 2013-03-22 2013-03-22 面向云计算环境的分层存储系统中的数据迁移方法 Active CN104065685B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310093809.9A CN104065685B (zh) 2013-03-22 2013-03-22 面向云计算环境的分层存储系统中的数据迁移方法
PCT/CN2014/072956 WO2014146543A1 (zh) 2013-03-22 2014-03-06 面向云计算环境的分层存储系统中的数据迁移方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310093809.9A CN104065685B (zh) 2013-03-22 2013-03-22 面向云计算环境的分层存储系统中的数据迁移方法

Publications (2)

Publication Number Publication Date
CN104065685A CN104065685A (zh) 2014-09-24
CN104065685B true CN104065685B (zh) 2018-04-27

Family

ID=51553216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310093809.9A Active CN104065685B (zh) 2013-03-22 2013-03-22 面向云计算环境的分层存储系统中的数据迁移方法

Country Status (2)

Country Link
CN (1) CN104065685B (zh)
WO (1) WO2014146543A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105843820B (zh) * 2015-01-16 2019-10-08 阿里巴巴集团控股有限公司 数据迁移方法及装置
CN104794155B (zh) * 2015-03-12 2019-06-18 北京奇虎科技有限公司 数据加载的方法、装置及系统
CN106294496B (zh) * 2015-06-09 2020-02-07 北京京东尚科信息技术有限公司 一种基于hadoop集群的数据迁移方法和工具
CN106503018A (zh) * 2015-09-08 2017-03-15 北京京东尚科信息技术有限公司 进行历史数据迁移的方法及系统
CN105786603B (zh) * 2016-02-29 2022-03-11 青岛海尔智能家电科技有限公司 一种基于分布式的高并发业务处理系统及方法
CN106095940A (zh) * 2016-06-14 2016-11-09 齐鲁工业大学 一种基于任务负载的数据迁移方法
CN106209975B (zh) * 2016-06-23 2018-06-01 中国人民解放军国防科学技术大学 一种跨数据中心云计算系统的资源供给方法
CN106155785B (zh) * 2016-06-23 2018-01-12 中国人民解放军国防科学技术大学 一种跨数据中心云计算系统的数据迁移方法
CN106484329B (zh) * 2016-09-26 2019-01-08 浪潮电子信息产业股份有限公司 一种基于多级存储的大数据传输完整性保护方法
CN106844417B (zh) * 2016-11-21 2020-07-28 深信服科技股份有限公司 基于文件目录的热迁移方法及装置
CN107066328A (zh) * 2017-05-19 2017-08-18 成都四象联创科技有限公司 大规模数据处理平台的构建方法
CN108255966A (zh) * 2017-12-25 2018-07-06 太极计算机股份有限公司 一种数据迁移方法及存储介质
CN109359085A (zh) * 2018-08-23 2019-02-19 平安科技(深圳)有限公司 文件迁移方法、装置、计算机设备及存储介质
CN109600440A (zh) * 2018-12-13 2019-04-09 国网河北省电力有限公司石家庄供电分公司 一种电力销售大数据处理方法
CN109739438A (zh) * 2018-12-26 2019-05-10 安徽大尺度网络传媒有限公司 一种大数据云存储系统
CN113835822A (zh) * 2020-06-23 2021-12-24 中兴通讯股份有限公司 跨云平台虚拟机迁移方法、装置、存储介质及电子装置
CN112286882A (zh) * 2020-10-30 2021-01-29 山东黄金矿业(莱州)有限公司三山岛金矿 一种工业生产现场将异地非结构化数据采集至Hadoop平台的方法
CN112650710B (zh) * 2020-12-31 2023-07-21 青岛海尔科技有限公司 数据迁移的发送方法及装置、存储介质、电子装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013036677A1 (en) * 2011-09-06 2013-03-14 The Regents Of The University Of California Medical informatics compute cluster
CN102436408B (zh) * 2011-10-10 2014-02-19 上海交通大学 基于Map/Dedup的数据存储云化和云备份方法
CN202551108U (zh) * 2012-03-08 2012-11-21 成都静水飞云科技有限责任公司 基于socket协议的无障碍数据流通云计算系统
CN102801559B (zh) * 2012-08-03 2015-02-18 南京富士通南大软件技术有限公司 智能化局域网数据采集方法
CN102857565B (zh) * 2012-09-03 2015-05-27 重庆邮电大学 一种基于云计算的智能试衣系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CIMISS中气象卫星数据存储和服务模型;王旻燕等;《安徽农业科学》;20120310;全文 *
海量非结构化数据存储问题初探;张志刚等;《中国档案》;20090815;全文 *

Also Published As

Publication number Publication date
CN104065685A (zh) 2014-09-24
WO2014146543A1 (zh) 2014-09-25

Similar Documents

Publication Publication Date Title
CN104065685B (zh) 面向云计算环境的分层存储系统中的数据迁移方法
CN107567696B (zh) 计算集群内的资源实例群组的自动扩展
US9460185B2 (en) Storage device selection for database partition replicas
US20210019063A1 (en) Utilizing data views to optimize secure data access in a storage system
CN110362381A (zh) Hdfs集群高可用部署方法、系统、设备及存储介质
CN103218574A (zh) 一种基于哈希树的数据动态操作可验证性方法
CN101360123B (zh) 一种网络系统及其管理方法
AU2011312036A1 (en) Automatic replication and migration of live virtual machines
US9983823B1 (en) Pre-forking replicas for efficient scaling of a distribued data storage system
US9529933B2 (en) Dynamic assignment of business logic based on schema mapping metadata
US20210055885A1 (en) Enhanced data access using composite data views
CN102638566A (zh) 一种基于云存储的blog系统运行方法
CN103955510A (zh) 基于etl云平台上传的海量电力营销数据整合方法
Kaur et al. Energy-efficient polyglot persistence database live migration among heterogeneous clouds
CN104113605A (zh) 一种企业云应用开发的监控处理方法
CN103701633A (zh) 对分布式搜索SolrCloud进行可视化集群应用搭建和维护的系统
CN103581332A (zh) HDFS架构及HDFS架构中NameNode节点的压力分解方法
CN103064670A (zh) 基于位置网的创新平台数据管理方法及系统
CN104869140A (zh) 多集群系统和控制多集群系统的数据存储的方法
CN105141702A (zh) 一种基于模型的混合云构造方法
CN103793457A (zh) 用于使用利用率分析管理存储器利用率的系统和方法
CN103036952A (zh) 一种企业级异构融合存储管理系统
CN103365740A (zh) 一种数据冷备方法及装置
Jain et al. Cloud service orchestration based architecture of OpenStack Nova and Swift
CN102567836A (zh) 项目资源管理系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant