CN111273870B - 云存储系统间海量数据迭代迁移方法、设备及存储介质 - Google Patents

云存储系统间海量数据迭代迁移方法、设备及存储介质 Download PDF

Info

Publication number
CN111273870B
CN111273870B CN202010062561.XA CN202010062561A CN111273870B CN 111273870 B CN111273870 B CN 111273870B CN 202010062561 A CN202010062561 A CN 202010062561A CN 111273870 B CN111273870 B CN 111273870B
Authority
CN
China
Prior art keywords
data
cloud storage
storage system
migration
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010062561.XA
Other languages
English (en)
Other versions
CN111273870A (zh
Inventor
雷雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Aosi Data Technology Co ltd
Original Assignee
Shenzhen Aosi Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Aosi Data Technology Co ltd filed Critical Shenzhen Aosi Data Technology Co ltd
Priority to CN202010062561.XA priority Critical patent/CN111273870B/zh
Publication of CN111273870A publication Critical patent/CN111273870A/zh
Application granted granted Critical
Publication of CN111273870B publication Critical patent/CN111273870B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0614Improving the reliability of storage systems
    • G06F3/0619Improving the reliability of storage systems in relation to data integrity, e.g. data losses, bit errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种云存储系统间海量数据迭代迁移方法、设备及存储介质,所述方法包括数据迭代迁移:使用统一的数据传输接口将源云存储系统的海量数据迭代迁移至目标云存储系统,所述海量数据迭代迁移包括数据的迁移、更新、检查及日志记录,所述海量数据迭代迁移使用并发进程进行数据的传输已经数据校验及数据统计输出。本发明能在完全不同的云存储系统间,可以在不用重新编写不同的适用于云存储系统间的数据传输接口以及在不停机、不影响双方的正常业务运行的前提下,实现包括海量数据的数据迁移、数据更新、以及数据校验、日志记录等过程。

Description

云存储系统间海量数据迭代迁移方法、设备及存储介质
技术领域
本发明涉及云计算数据存储技术领域,尤其涉及一种云存储系统间海量数据迭代迁移方法、设备及存储介质。
背景技术
云存储系统用于存储海量数据,因业务需求云存储系统间往往需要进行数据迁移。云存储系统间迁移海量数据的关键在于尽可能的减少迁移时间以及不影响云存储系统双方的正常业务的运行。较之数据中心内部,数据中心之间通信延迟较大、可用于迁移的数据传输速率较低,要在不同的云存储系统之间迁移海量数据,需要解决数据迁移过程中传输不必要的数据量、传输延迟比较高的数据量,以及对必要的数据要进行高效传输,这就需要对迁移数据进行数据去重、数据分片、并发传输。为了避免迁移过程中数据发生增加、修改、丢失等安全问题,需要在数据迁移完成后进行数据校验处理,来保证数据迁移的完整性和迁移数据在源云存储系统和目标云存储系统的一致性。
目前,现有技术中云存储系统间要进行海量数据的迁移,需要根据不同的云存储系统编写完全不同的迁移代码,有可能还要停机迁移,迁移数据量大而且迁移效率也比较低,迁移完成后数据的完整性和一致性有待考察,在大规模数据中心中实用价值不大。
因此,现有技术还有待改进。
发明内容
鉴于上述现有技术的不足之处,本发明的目的在于提出一种云存储系统间海量数据迭代迁移、设备及存储介质,旨在能在完全不同的云存储系统间,可以在不用重新编写不同的适用于云存储系统间的数据传输接口以及在不停机、不影响双方的正常业务运行的前提下,实现包括海量数据的数据迁移、数据更新、以及数据校验、日志记录等过程。
为实现上述目的,本发明采取了以下技术方案:
第一方面,本发明提出了一种云存储系统间海量数据的迭代迁移方法,涉及源云存储系统、目标云存储系统、数据库系统及临时存放单元,其中,所述方法包括下述步骤:
S10,数据迭代迁移:使用统一的数据传输接口将源云存储系统的海量数据迭代迁移至目标云存储系统,所述海量数据迭代迁移包括数据的迁移、更新、检查及日志记录,所述海量数据迭代迁移使用并发进程进行数据的传输;
所述步骤S10中统一的数据传输接口具体实现如下过程:
S101,根据目标云存储系统发送的获取数据元信息请求,从数据库系统中获取源云存储系统所有数据的数据元信息,并对数据ID进行区间划分并编号,所述数据库系统存储有源云存储系统所有数据的数据元信息;
S102,按递增顺序从数据库系统中查询并获取所述数据ID的区间中的一条数据元信息记录,根据该条数据元信息记录中的文件路径于源云存储系统中下载该数据至临时存放单元,并将下载完成的数据与该数据元信息进行匹配校对,记录校对结果;
S103,将步骤S102中临时存放单元下载的该数据根据文件路径上传到目标云存储系统中,并对上传完成的数据与步骤S101中获取的该数据元信息进行匹配校对,记录校对结果;
重复执行步骤S102~S103过程,直到所有数据ID都遍历结束;
S20,数据校验:在源云存储系统和目标云存储系统间海量数据迭代迁移完成后,使用数据校验接口对源云存储系统和目标云存储系统间已迁移数据以及未迁移数据进行数据一致性检查与记录;
S30,数据统计输出:对源云存储系统和目标云存储系统间海量数据迭代迁移的迁移结果使用数据统计输出接口进行统计并对统计结果进行输出展示。
其中,所述步骤S102与步骤S103之间还包括:
判断从源云存储系统下载至临时存放单位的数据所形成的文件大小是否为大文件,如果是大文件则采用大文件分片方式根据文件路径上传到目标云存储系统中。
其中,所述步骤S20中的数据校验接口具体实现如下过程:
S201,从数据库系统中的数据元信息中获取源云存储系统所有数据的文件路径,并对数据ID进行区间划分并编号;
S202,按递增顺序从所述数据ID的区间中取出的一条数据的文件路径,向源云存储系统发送请求来检查源云存储系统是否存在该文件路径对应的数据,并把请求结果的状态信息进行编号,记录在日志中;
S203,根据步骤S202中获取的文件路径,向目标云存储系统发送请求来检查目标云存储系统是否存在该文件路径对应的数据,并把请求结果的状态信息进行编号,记录在日志中;
S204,根据步骤S202中获取的文件路径,向源云存储系统发送请求来检查该文件路径对应的数据所形成的文件是否为大文件,并把检查结果的状态信息进行编号,记录在日志中;
S205,根据步骤S202中获取的文件路径,检查源云存储系统和目标云存储系统中的该文件路径对应的数据是否一致,并把检查结果的状态信息进行编号,记录在日志中;
S206,根据步骤S202中获取的文件路径,检查目标云存储系统和数据库系统中的该文件路径对应的数据是否一致,并把检查结果的状态信息进行编号,记录在日志中;
S207,根据步骤S202中获取的文件路径,检查源云存储系统和目标云存储系统中的该文件路径对应的数据是否为空,并把检查结果的状态信息进行编号,记录在日志中;
重复执行步骤S202~S207过程,直到所有数据ID都遍历结束。
其中,所述步骤S30中的数据统计输出接口具体实现如下过程:
S301,读取数据迁移和数据更新产生的所有的日志记录,并输入所有日志记录的文件路径;
S302,调用统计控制命令来初始化及格式化日志记录统计的输出;
S303,分段获取日志记录并执行统计控制;
S304,检查数据迁移的统计结果,过滤掉不必要的统计结果,格式化日志记录的统计结果后输出。
其中,所述步骤S10中的数据更新具体包括如下步骤:
S401,从数据库系统中的数据元信息中获取源云存储系统所有数据的更新时间,并对数据ID进行区间划分并编号;
S402,按递增顺序从数据库系统中查询并获取所述数据ID的区间中的一条数据元信息记录,根据该条数据元信息记录中的数据更新时间于源云存储系统中下载该数据,并将下载完成的数据与该数据元信息进行匹配校对,记录校对结果;
S403,将步骤S402中下载的该数据上传到目标云存储系统中,并对上传完成的数据与步骤S401中获取的该数据元信息进行匹配校对,记录校对结果;
重复执行步骤S402~S403过程,直到所有数据ID都遍历结束。
其中,所述步骤S10中的中数据检查具体包括如下步骤:
S501,从数据库系统中获取源云存储系统所有数据的元数据信息时,对元数据信息进行数据过滤处理,只迁移需要迁移的数据;
S502,对从源云存储系统下载完的数据进行数据去重处理,防止重复的数据迁移到目标云存储系统中;
S503,判断从源云存储系统下载的数据所形成的文件是否为大文件,如果是大文件,则采用大文件上传接口进行传输。
其中,所述步骤S20中的数据一致性检查具体包括如下步骤:
S601,检查源云存储系统下载完的数据和目标云存储系统中的已上传的数据是否一致;
S603,检查目标云存储系统上传完成的数据和数据库系统中记录的该数据大小是否一致;
S603,检查源云存储系统下载完所有数据是否已成功上传至目标云存储系统中。
第二方面,本发明提出了一种设备,其中,所述设备包括存储器、处理器及存储在所述存储器中并被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时,实现上述的方法。
第三方面,本发明提出了一种计算机可读存储介质,其中,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被执行时实现上述的方法。
本发明的云存储系统间海量数据迭代迁移方法、设备及存储介质,通过使用同一的数据传输接口在云存储系统之间进行数据迁移,并对迁移后的数据进行数据校验及数据统计,并将统计结果进行输出。
本发明的有益效果在于:
(1)、可以在完全不同的云存储系统间,在不用重新编写不同的适用于云存储系统间的数据传输接口以及在不宕机、不影响双方的正常业务运行的前提下,实现包括海量数据的数据迁移、数据更新、以及数据校验、日志记录等过程。
(2)、每轮数据迁移和校验阶段均按照ID分区段由多个进程并行执行,每个子进程中又会衍生出多个子线程,这样各个分区间都能够并发执行数据迁移和数据校验,极大地提高了数据迁移和数据校验的效率,并且对于每个子进程以及子进程里的每个子线程的异常情况都会进行日志记录,也保障了数据迁移和数据校验的稳定性和可靠性,实现了对云存储系统间的海量数据全量和增量的高效并发迁移。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明云存储系统间海量数据迭代迁移方法的实施环境示意图;
图2为本发明云存储系统间海量数据迭代迁移方法第一实施方式的流程示意图;
图3为本发明统一的数据传输接口具体实现第一实施例的流程示意图;
图4为本发明统一的数据传输接口具体实现第二实施例的流程示意图;
图5为本发明数据校验接口具体实现的流程示意图;
图6为本发明数据统计输出接口具体实现的流程示意图;
图7为本发明数据更新的流程示意图;
图8为本发明数据检查的流程示意图;
图9为本发明数据一致性检查的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参考图1,为本发明云存储系统间海量数据的迭代迁移方法所涉及的硬件环境,包括源云存储系统、目标云存储系统、数据库系统及临时存放单元。
源云存储系统存储有待迁移的原始数据,目标云存储系统用于接收迁移数据。数据库系统存储有源云存储系统所有数据的数据元信息,如数据的ID,数据的结构,数据在源云存储系统的存储路径等。临时存放单元用于临时存储从源云存储系统下载的待迁移的数据。
图1中的1,2,3,4步骤为:当源云存储系统向目标云存储系统传输数据时,先由目标云存储系统向数据库系统请求源云存储系统的数据元信息,然后再向源云存储系统请求下载数据,下载的数据存储在临时存放单元中,然后将临时存放单元中的数据上传至目标云存储系统。其中图1中的5,6,7步骤是检查以及校验源云存储系统和数据库系统以及目标云存储系统三者数据的一致性,从而来保证数据迁移由源云存储系统到目标云存储系统的完整性。同时步骤4中上传数据时,会对数据进行数据去重、数据分片,来确保避免重复文件的上传以及大文件直接上传导致的传输速率较低的情况。
数据校验是指在数据迁移完成后,检查源云存储系统和目标云存储系统之间数据的一致性和完整性,并实时记录每条迁移数据的状态信息,来保证迁移数据的完整性。
数据去重是一种通过大规模消除冗余数据,降低数据存储成本的重要技术。重复数据大量存在于源云存储系统中,迁移重复数据会浪费大量的网络带宽和存储空间。数据去重技术不仅能降低数据的存储量,减少存储资源的开销,降低物理存储资源的管理和维护成本,也能节约网络带宽,加快数据传输过程。
数据分片技术就是用来避免数据迁移过程中有大文件传输时,导致延迟增高,传输效率变低,需要对大文件进行分片上传来提高传输的效率。
本发明的临时存放单元可以是一个独立存储终端如PC端,手机端等。
具体地,请参考图2,图2为本发明云存储系统间海量数据的迭代迁移方法的流程,具体包括下述步骤:
S10,数据迭代迁移:使用统一的数据传输接口将源云存储系统的海量数据迭代迁移至目标云存储系统,所述海量数据迭代迁移包括数据的迁移、更新、检查及日志记录,所述海量数据迭代迁移使用并发进程进行数据的传输。
并发进程进行数据的传输是指每轮数据迁移和校验阶段均按照ID分区段由多个进程并行执行,每个子进程中又会衍生出多个子线程,这样各个分区间都能够并发执行数据迁移和数据校验,极大地提高了数据迁移和数据校验的效率,并且对于每个子进程以及子进程里的每个子线程的异常情况都会进行日志记录,也保障了数据迁移和数据校验的稳定性和可靠性,实现了对云存储系统间的海量数据全量和增量的高效并发迁移。
如图3中所示,步骤S10中统一的数据传输接口具体实现如下过程:
S101,根据目标云存储系统发送的获取数据元信息请求,从数据库系统中获取源云存储系统所有数据的数据元信息,并对数据ID进行区间划分并编号,所述数据库系统存储有源云存储系统所有数据的数据元信息。
S102,按递增顺序从数据库系统中查询并获取所述数据ID的区间中的一条数据元信息记录,根据该条数据元信息记录中的文件路径于源云存储系统中下载该数据至临时存放单元,并将下载完成的数据与该数据元信息进行匹配校对,记录校对结果,如果不匹配则输出错误信息,并记录到日志中。
步骤S102的下载步骤中还可以对下载过程进行检验,如果下载未成功则输出错误信息,并记录到日志中。
S103,将步骤S102中临时存放单元下载的该数据根据文件路径上传到目标云存储系统中,并对上传完成的数据与步骤S101中获取的该数据元信息进行匹配校对,记录校对结果,如果不匹配则输出错误信息,并记录到日志中。
重复执行步骤S102~S103过程,直到所有数据ID都遍历结束。
步骤S101~S103过程为本发明数据迭代迁移中统一的数据传输接口的具体实现。其使得可以在完全不同的云存储系统间,在不用重新编写不同的适用于云存储系统间的数据传输接口以及在不宕机、不影响双方的正常业务运行的前提下,实现海量数据迁移、数据更新、以及数据校验、日志记录等过程。
S20,数据校验:在源云存储系统和目标云存储系统间海量数据迭代迁移完成后,使用数据校验接口对源云存储系统和目标云存储系统间已迁移数据以及未迁移数据进行数据一致性检查与记录。数据校验过程实时记录每条迁移数据的状态信息,来保证迁移数据的完整性。
S30,数据统计输出:对源云存储系统和目标云存储系统间海量数据迭代迁移的迁移结果使用数据统计输出接口进行统计并对统计结果进行输出展示。数据统计输出步骤用于对数据迁移的结果进行统计和展示,以了解数据迁移的信息。
本发明的云存储系统间海量数据的迭代迁移方法以软件或APP形式存储于客户端如PC端或者手机端,该软件或APP启动后访问源云存储系统和目标云存储系统以完成数据的迭代迁移。
优选地,如图4所示,本发明步骤S102与步骤S103之间还包括:
判断从源云存储系统下载至临时存放单位的数据所形成的文件大小是否为大文件,如果是大文件则采用大文件分片方式根据文件路径上传到目标云存储系统中。采用大文件分片方式上传能极大地提高数据的传输效率,降低传输延迟。
如图5所示,本发明步骤S20中的数据校验接口具体实现如下过程:
S201,从数据库系统中的数据元信息中获取源云存储系统所有数据的文件路径,并对数据ID进行区间划分并编号。
S202,按递增顺序从所述数据ID的区间中取出的一条数据的文件路径,向源云存储系统发送请求来检查源云存储系统是否存在该文件路径对应的数据,并把请求结果的状态信息进行编号,记录在日志中。步骤S202中还可以对文件路径的合法性及是否为重复路径进行校验,并进行记录。
S203,根据步骤S202中获取的文件路径,向目标云存储系统发送请求来检查目标云存储系统是否存在该文件路径对应的数据,并把请求结果的状态信息进行编号,记录在日志中。
步骤S202和S203用于校验源云存储系统和目标云存储系统是否存在对应的数据。
S204,根据步骤S202中获取的文件路径,向源云存储系统发送请求来检查该文件路径对应的数据所形成的文件是否为大文件,并把检查结果的状态信息进行编号,记录在日志中。记录是否为大文件便于后续的对大文件的单独处理。
S205,根据步骤S202中获取的文件路径,检查源云存储系统和目标云存储系统中的该文件路径对应的数据是否一致,并把检查结果的状态信息进行编号,记录在日志中。
S206,根据步骤S202中获取的文件路径,检查目标云存储系统和数据库系统中的该文件路径对应的数据是否一致,并把检查结果的状态信息进行编号,记录在日志中。
步骤S205和S206用于校验源云存储系统、目标云存储系统、数据库系统三者之间所关联的数据是否对应及对应的数据是否一致。
S207,根据步骤S202中获取的文件路径,检查源云存储系统和目标云存储系统中的该文件路径对应的数据是否为空,并把检查结果的状态信息进行编号,记录在日志中。校验数据是否在迁移过程中丢失。
重复执行步骤S202~S207过程,直到所有数据ID都遍历结束。
如图6所示,本发明的步骤S30中的数据统计输出接口具体实现如下过程:
S301,读取数据迁移和数据更新产生的所有的日志记录,并输入所有日志记录的文件路径。并对日志记录的文件路径校验是否存在,不存在在输出错误并退出,存在则继续下一步。
S302,调用统计控制命令来初始化及格式化日志记录统计的输出。
格式化统计后信息的输出以方便观看统计结果。
S303,分段获取日志记录并执行统计控制。
按照步骤S302的格式进行日志记录内容的统计。
S304,检查数据迁移的统计结果,过滤掉不必要的统计结果,格式化日志记录的统计结果后输出。
如图7所示,本发明的步骤S10中的数据更新具体包括如下步骤:
S401,从数据库系统中的数据元信息中获取源云存储系统所有数据的更新时间,并对数据ID进行区间划分并编号。
S402,按递增顺序从数据库系统中查询并获取所述数据ID的区间中的一条数据元信息记录,根据该条数据元信息记录中的数据更新时间于源云存储系统中下载该数据,并将下载完成的数据与该数据元信息进行匹配校对,记录校对结果。
S403,将步骤S402中下载的该数据上传到目标云存储系统中,并对上传完成的数据与步骤S401中获取的该数据元信息进行匹配校对,记录校对结果。
重复执行步骤S402~S403过程,直到所有数据ID都遍历结束。
数据更新使得本发明的数据迭代迁移从源云存储系统获取的数据是最新的数据。
如图8所示,本发明的步骤S10中的中数据检查具体包括如下步骤:
S501,从数据库系统中获取源云存储系统所有数据的元数据信息时,对元数据信息进行数据过滤处理,只迁移需要迁移的数据。
S502,对从源云存储系统下载完的数据进行数据去重处理,防止重复的数据迁移到目标云存储系统中。
S503,判断从源云存储系统下载的数据所形成的文件是否为大文件,如果是大文件,则采用大文件上传接口进行传输。
数据检查使得本发明的数据迭代迁移过程中能对数据进行过滤及去掉重复数据,并对大文件采用专用的大文件上传接口进行传输,以提高传输效率。
如图9所示,本发明的步骤S20中的数据一致性检查具体包括如下步骤:
S601,检查源云存储系统下载完的数据和目标云存储系统中的已上传的数据是否一致。
S603,检查目标云存储系统上传完成的数据和数据库系统中记录的该数据大小是否一致。
S603,检查源云存储系统下载完所有数据是否已成功上传至目标云存储系统中。
数据一致性的检查使得本发明保障了数据迁移的稳定性和可靠性。
本发明还提出一种设备,该设备包括存储器、处理器及存储在所述存储器中并被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时,实现上述的方法。例如S10~S30步骤的迭代迁移方法。
示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述异步消息处理终端设备中的执行过程。
所述设备可包括但不仅限于处理器、存储器。本领域技术人员可以理解,上述部件仅仅是基于设备的示例,并不构成对设备的限定,可以包括比上述更多或更少的部件,或者组合某些部件,或者不同的部件,例如设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述设备的控制中心,利用各种接口和线路连接整个设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
本发明还提出一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被执行时实现上述的方法。
本发明的云存储系统间海量数据的迭代迁移方法集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。本发明计算机可读存储介质具体实施方式与上述云存储系统间海量数据的迭代迁移方法各实施例基本相同,在此不再赘述。
需说明的是,以上所描述的实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims (9)

1.一种云存储系统间海量数据的迭代迁移方法,涉及源云存储系统、目标云存储系统、数据库系统及临时存放单元,其特征在于,所述方法包括下述步骤:
S10,数据迭代迁移:使用统一的数据传输接口将源云存储系统的海量数据迭代迁移至目标云存储系统,所述海量数据迭代迁移包括数据的迁移、更新、检查及日志记录,所述海量数据迭代迁移使用并发进程进行数据的传输;
所述步骤S10中统一的数据传输接口具体实现如下过程:
S101,根据目标云存储系统发送的获取数据元信息请求,从数据库系统中获取源云存储系统所有数据的数据元信息,并对数据ID进行区间划分并编号,所述数据库系统存储有源云存储系统所有数据的数据元信息;
S102,按递增顺序从数据库系统中查询并获取所述数据ID的区间中的一条数据元信息记录,根据该条数据元信息记录中的文件路径于源云存储系统中下载该数据至临时存放单元,并将下载完成的数据与该数据元信息进行匹配校对,记录校对结果;
S103,将步骤S102中临时存放单元下载的该数据根据文件路径上传到目标云存储系统中,并对上传完成的数据与步骤S101中获取的该数据元信息进行匹配校对,记录校对结果;
重复执行步骤S102~S103过程,直到所有数据ID都遍历结束;
S20,数据校验:在源云存储系统和目标云存储系统间海量数据迭代迁移完成后,使用数据校验接口对源云存储系统和目标云存储系统间已迁移数据以及未迁移数据进行数据一致性检查与记录;
S30,数据统计输出:根据步骤S20的检查记录,使用数据统计输出接口统计出源云存储系统和目标云存储系统间海量数据迭代迁移的迁移结果,并对统计结果进行输出展示。
2.根据权利要求1所述的方法,其特征在于,所述步骤S102与步骤S103之间还包括:
判断从源云存储系统下载至临时存放单位的数据所形成的文件大小是否为大文件,如果是大文件则采用大文件分片方式根据文件路径上传到目标云存储系统中。
3.根据权利要求1所述的方法,其特征在于,所述步骤S20中的数据校验接口具体实现如下过程:
S201,从数据库系统中的数据元信息中获取源云存储系统所有数据的文件路径,并对数据ID进行区间划分并编号;
S202,按递增顺序从所述数据ID的区间中取出的一条数据的文件路径,向源云存储系统发送请求来检查源云存储系统是否存在该文件路径对应的数据,并把请求结果的状态信息进行编号,记录在日志中;
S203,根据步骤S202中获取的文件路径,向目标云存储系统发送请求来检查目标云存储系统是否存在该文件路径对应的数据,并把请求结果的状态信息进行编号,记录在日志中;
S204,根据步骤S202中获取的文件路径,向源云存储系统发送请求来检查该文件路径对应的数据所形成的文件是否为大文件,并把检查结果的状态信息进行编号,记录在日志中;
S205,根据步骤S202中获取的文件路径,检查源云存储系统和目标云存储系统中的该文件路径对应的数据是否一致,并把检查结果的状态信息进行编号,记录在日志中;
S206,根据步骤S202中获取的文件路径,检查目标云存储系统和数据库系统中的该文件路径对应的数据是否一致,并把检查结果的状态信息进行编号,记录在日志中;
S207,根据步骤S202中获取的文件路径,检查源云存储系统和目标云存储系统中的该文件路径对应的数据是否为空,并把检查结果的状态信息进行编号,记录在日志中;
重复执行步骤S202~S207过程,直到所有数据ID都遍历结束。
4.根据权利要求1所述的方法,其特征在于,所述步骤S30中的数据统计输出接口具体实现如下过程:
S301,读取数据迁移和数据更新产生的所有的日志记录,并输入所有日志记录的文件路径;
S302,调用统计控制命令来初始化及格式化日志记录统计的输出;
S303,分段获取日志记录并执行统计控制;
S304,检查数据迁移的统计结果,过滤掉不必要的统计结果,格式化日志记录的统计结果后输出。
5.根据权利要求1所述的方法,其特征在于,所述步骤S10中的数据更新具体包括如下步骤:
S401,从数据库系统中的数据元信息中获取源云存储系统所有数据的更新时间,并对数据ID进行区间划分并编号;
S402,按递增顺序从数据库系统中查询并获取所述数据ID的区间中的一条数据元信息记录,根据该条数据元信息记录中的数据更新时间于源云存储系统中下载该数据,并将下载完成的数据与该数据元信息进行匹配校对,记录校对结果;
S403,将步骤S402中下载的该数据上传到目标云存储系统中,并对上传完成的数据与步骤S401中获取的该数据元信息进行匹配校对,记录校对结果;
重复执行步骤S402~S403过程,直到所有数据ID都遍历结束。
6.根据权利要求1所述的方法,其特征在于,所述步骤S10中的中数据检查具体包括如下步骤:
S501,从数据库系统中获取源云存储系统所有数据的元数据信息时,对元数据信息进行数据过滤处理,只迁移需要迁移的数据;
S502,对从源云存储系统下载完的数据进行数据去重处理,防止重复的数据迁移到目标云存储系统中;
S503,判断从源云存储系统下载的数据所形成的文件是否为大文件,如果是大文件,则采用大文件上传接口进行传输。
7.根据权利要求1所述的方法,其特征在于,所述步骤S20中的数据一致性检查具体包括如下步骤:
S601,检查源云存储系统下载完的数据和目标云存储系统中的已上传的数据是否一致;
S603,检查目标云存储系统上传完成的数据和数据库系统中记录的该数据大小是否一致;
S603,检查源云存储系统下载完所有数据是否已成功上传至目标云存储系统中。
8.一种云存储系统间海量数据迭代迁移设备,其特征在于,所述设备包括存储器、处理器及存储在所述存储器中并被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-7中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被执行时实现如权利要求1-7任一项所述的方法。
CN202010062561.XA 2020-01-20 2020-01-20 云存储系统间海量数据迭代迁移方法、设备及存储介质 Active CN111273870B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010062561.XA CN111273870B (zh) 2020-01-20 2020-01-20 云存储系统间海量数据迭代迁移方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010062561.XA CN111273870B (zh) 2020-01-20 2020-01-20 云存储系统间海量数据迭代迁移方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111273870A CN111273870A (zh) 2020-06-12
CN111273870B true CN111273870B (zh) 2023-06-06

Family

ID=71003416

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010062561.XA Active CN111273870B (zh) 2020-01-20 2020-01-20 云存储系统间海量数据迭代迁移方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111273870B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112558881A (zh) * 2020-12-18 2021-03-26 上海七牛信息技术有限公司 一种迁移存储系统的方法及系统
CN113364806B (zh) * 2021-06-30 2023-04-07 深圳前海微众银行股份有限公司 一种服务接口迁移的校验方法及装置
CN113590048A (zh) * 2021-08-13 2021-11-02 深圳万兴软件有限公司 云盘管理方法、装置、计算机设备及可读存储介质
CN114936615B (zh) * 2022-07-25 2022-10-14 南京大数据集团有限公司 一种基于表征一致性校对的小样本日志信息异常检测方法
CN117376403B (zh) * 2023-10-08 2024-05-14 上海知享家信息技术服务有限公司 一种云端数据迁移方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106953893A (zh) * 2017-02-15 2017-07-14 北京百度网讯科技有限公司 云存储系统间的数据迁移
CN110209344A (zh) * 2018-07-26 2019-09-06 腾讯科技(深圳)有限公司 迁移对象存储的方法、装置和计算机可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8386744B2 (en) * 2007-10-01 2013-02-26 International Business Machines Corporation Thin provisioning migration and scrubbing
CN102073462B (zh) * 2010-11-29 2013-04-17 华为技术有限公司 虚拟存储迁移方法、系统和虚拟机监控器
WO2014189481A1 (en) * 2013-05-20 2014-11-27 Empire Technology Development, Llc Object migration between cloud environments

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106953893A (zh) * 2017-02-15 2017-07-14 北京百度网讯科技有限公司 云存储系统间的数据迁移
CN110209344A (zh) * 2018-07-26 2019-09-06 腾讯科技(深圳)有限公司 迁移对象存储的方法、装置和计算机可读存储介质

Also Published As

Publication number Publication date
CN111273870A (zh) 2020-06-12

Similar Documents

Publication Publication Date Title
CN111273870B (zh) 云存储系统间海量数据迭代迁移方法、设备及存储介质
CN110147411B (zh) 数据同步方法、装置、计算机设备及存储介质
CN112000741B (zh) 内外网数据交换系统、方法、装置、计算机设备和介质
CN110659259B (zh) 数据库迁移方法、服务器以及计算机存储介质
EP3816783A1 (en) Method and device for data migration
CN109710185A (zh) 数据处理方法及装置
CN106612330A (zh) 支持分布式多文件导入的系统及方法
WO2023116141A1 (zh) 数据处理方法、系统、设备及介质
CN113704790A (zh) 一种异常日志信息汇总方法及计算机设备
CN111049913B (zh) 数据文件的传输方法及装置、存储介质、电子设备
CN104077082A (zh) 网络投票数据存储方法和装置
CN113051102A (zh) 文件备份方法、装置、系统、存储介质和计算机设备
CN112905676A (zh) 一种数据文件的导入方法及装置
CN111506552A (zh) 一种树状结构的动态数据库设计方法及系统
CN112115001B (zh) 数据备份方法、装置、计算机存储介质及电子设备
CN112597406A (zh) 一种文件传输方法、装置、终端设备及存储介质
CN110399095B (zh) 一种存储空间的统计方法和装置
JP2012089049A (ja) 計算機システム及びサーバ
CN115098297B (zh) 一种云原生存储数据卷的一致性快照生成方法和系统
CN116341508A (zh) 报文模板的动态配置方法、装置、计算机设备及存储介质
CN114741365A (zh) 产品模型获取方法、装置、终端设备和存储介质
CN114896276A (zh) 数据存储方法、装置、电子设备及分布式存储系统
CN111274219B (zh) 数据存储方法及装置、存储介质、电子装置
CN113360498A (zh) 流数据转存处理方法、装置及服务器
CN115604667B (zh) 消息发送方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant