CN108446315B - 大数据迁移方法、装置、设备及存储介质 - Google Patents

大数据迁移方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN108446315B
CN108446315B CN201810122509.1A CN201810122509A CN108446315B CN 108446315 B CN108446315 B CN 108446315B CN 201810122509 A CN201810122509 A CN 201810122509A CN 108446315 B CN108446315 B CN 108446315B
Authority
CN
China
Prior art keywords
source data
data
change
unchanged
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810122509.1A
Other languages
English (en)
Other versions
CN108446315A (zh
Inventor
许四平
朱子虎
戴珍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN201810122509.1A priority Critical patent/CN108446315B/zh
Publication of CN108446315A publication Critical patent/CN108446315A/zh
Application granted granted Critical
Publication of CN108446315B publication Critical patent/CN108446315B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于属于通信技术领域,特别涉及一种大数据迁移方法、装置、设备及存储介质。大数据迁移方法包括:获取源数据在第一数据库中的更新时间,根据所述更新时间将所述源数据划分为变化源数据和不变化源数据,并生成变化源数据表和不变化源数据表;配置所述变化源数据表和所述不变化源数据表的表任务信息;根据所述表任务信息将所述不变化源数据表中的不变化源数据迁移至第二数据库;获取所述变化源数据表中的变化源数据的更新数据,根据所述表任务信息将所述更新数据同步至所述第二数据库。本发明技术方案能够简单快速的实现大数据跨库迁移,提升了工作效率。

Description

大数据迁移方法、装置、设备及存储介质
技术领域
本发明属于数据迁移技术领域,特别涉及一种大数据迁移方法、装置、设备及存储介质。
背景技术
目前,对于大量数据进行跨库迁移,主要是通过distcp命令同步数据,distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具,使用Map/Reduce实现文件分发、错误处理和恢复以及报告生成,把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝,但是,如果在大数据量情况下,例如,迁移的数据量为4000多个任务,5000多张表,总共200T的大数据量,由于网络限制,通常网络速率最大为3T/h,超大的数据无法在同一天同步完成,基于大数据的报表,都是基于最新的数据,需要同时保证当天数据更新、报表更新,又需要进行数据迁移,需要在一天之内迁移完毕,如果进行整库迁移,无法在一天内完成,即现有技术中存在进行大量数据迁移时,无法在预定时间完成的问题。
发明内容
本发明的目的在于提供一种大数据迁移方法、装置、设备及存储介质,能够实现大数据快速的跨库迁移,缩短了数据迁移时间,提高了工作效率。
本发明是这样实现的,本发明第一方面提供一种大数据迁移方法,包括:
获取源数据在第一数据库中的更新时间,根据所述更新时间将所述源数据划分为变化源数据和不变化源数据,并生成变化源数据表和不变化源数据表;
配置所述变化源数据表和所述不变化源数据表的表任务信息;
根据所述表任务信息将所述不变化源数据表中的不变化源数据迁移至第二数据库;
获取所述变化源数据表中的变化源数据的更新数据,根据所述表任务信息将所述更新数据同步至所述第二数据库。
本发明第二方面提供一种大数据迁移装置,所述大数据迁移方法包括:
源数据划分模块,用于获取源数据在第一数据库中的更新时间,根据所述更新时间将所述源数据划分为变化源数据和不变化源数据,并生成变化源数据表和不变化源数据表;
配置模块,用于配置所述变化源数据表和所述不变化源数据表的表任务信息;
不变化源数据迁移模块,用于根据所述表任务信息将所述不变化源数据表中的不变化源数据迁移至第二数据库;
变化源数据同步模块,用于获取所述变化源数据表中的变化源数据的更新数据,根据所述表任务信息将所述更新数据同步至所述第二数据库。
本发明第三方面提供一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如本发明第一方面所述方法的步骤。
本发明第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如本发明第一方面所述方法的步骤。
本发明提供一种大数据迁移方法、装置、设备及存储介质,获取源数据的更新时间,根据更新时间将第一数据库中的源数据划分为变化源数据和不变化源数据,并生成变化源数据表和不变化源数据表,将不变化源数据表中的不变化源数据迁移至第二数据库,实现了大数据快速跨库迁移,将变化源数据表中的更新数据同步至第二数据库,减少了将变化源数据迁移至第二数据库的时间,提高了工作效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一种实施例提供的一种大数据迁移方法的流程图;
图2是本发明一种实施例提供的一种大数据迁移方法步骤S20的具体流程图;
图3是本发明一种实施例提供的一种大数据迁移方法步骤S20的具体流程图;
图4是本发明第二实施例提供的一种大数据迁移装置的结构示意图;
图5是本发明第二实施例提供的一种大数据迁移装置配置模块的具体结构示意图;
图6是本发明第四实施例提供的终端设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明的技术方案,下面通过具体实施例来进行说明。
实施例1
本发明第一实施例提供一种大数据迁移方法,如图1所示,大数据迁移方法包括:
步骤S10,获取源数据在第一数据库中的更新时间,根据更新时间将源数据划分为变化源数据和不变化源数据,并生成变化源数据表和不变化源数据表。
作为本发明第一实施例的一种实施方式,对于上述实施例中的步骤S10中根据更新时间将源数据分成变化源数据和不变化源数据,包括:
在预设时间段内监测源数据的更新时间是否发生变化时,将发生变化的源数据划分为变化源数据,将未发生变化的源数据划分为不变化源数据。
在步骤S10中,第一数据库为待迁移的数据库,第一数据库中的源数据为待迁移的数据,更新时间为源数据的数据发生变化的时间,变化源数据是源数据随时间变化数据发生变化的数据,不变化源数据是源数据随时间变化不发生变化的数据,将第一数据库中变化源数据生成变化源数据表,不变化源数据生成不变化源数据表,预设时间段是指一定时间段内对源数据进行监测。具体的,将第一数据库中的源数据跨库迁移时,根据第一数据库中源数据的更新时间对源数据库划分为变换源数据和不变化源数据,在预设时间段内,例如1个小时内监测源数据的更新时间是否发生变化,预设时间段根据变化源数据的更新频率进行设定,当其中变化源数据的更新频率为十分钟或者二十分钟,那么设置预设时间段应该考虑更新频率时间最长的源数据,避免将变化源数据划分为不变化源数据。将在预设时间内监测到的源数据随着时间发生变化的源数据划分为变化源数据,并将在预设时间段内监测到的发生变化的变化源数据在第一数据库中形成变化源数据表,将在预设时间段内监测到的源数据更新时间不发生变化的源数据划分为不变化源数据,并将预设时间段内监测到的不发生变化的不变化源数据在第一数据库中形成变化源数据表。通过本步骤,实现快速的将第一数据库中的源数据划分为变化源数据和不变化源数据,并生成变化源数据表和不变化源数据表。
步骤S20,配置变化源数据表和不变化源数据表的表任务信息。
在步骤S20中,配置变化源数据表和不变化源数据表是通过表配置文件进行配置,表任务信息是指迁移源数据表的具体信息,例如,迁移源数据表在第一数据库中的信息以及迁往第二数据库中信息。具体的,对变化源数据表和不变化源数据表中的数据通过表配置文件能够同时对变化源数据表和不变化源数据表配置多个表任务信息,也可对变化源数据表或者不变化源数据表单独配置,通过表配置文件配置表任务信息,表任务信息中包括了在变数源数据表和不变化源数据表中迁移的数据的具体信息。通过本步骤,配置源数据表的表任务信息,通过表任务信息快速迁移源数据表。
步骤S30,根据表任务信息将不变化源数据表中的不变化源数据迁移至第二数据库。
在步骤S30中,表任务信息包括了对不变化源数据表中不变化源数据具体迁移信息,例如,将不变化源数据表中的部分不变化源数据迁移至第二数据库中的其中一个表格中,将不变化源数据表中的剩余不变化源数据迁移至第二数据库中的另外表格中;还可指定不变化源数据表中的具体的第几行迁移至第二数据库中的一个表格,例如,将不变化源数据表中的第三行、第五行迁移至第二数据库中的一个表格中,将不变化源数据表中的第一、第二行迁移至第二数据库中的另外一个表格中。通过本步骤,根据表任务信息快速将第一数据库中的不变化源数据迁移至第二数据库,实现快速的跨库迁移。
步骤S40,获取变化源数据表中的变化源数据的更新数据,根据表任务信息将更新数据同步至第二数据库。
在步骤S40中,更新数据是指变化源数据在变化源数据表中随时间变化的数据,具体的,变化源数据在变化源数据表格中的随着时间推移变化源数据进行变化,当监测到变化源数据表中的变化源数据有更新时,则获取更新的变化源数据,并将更新的变化源数据根据表任务信息同步至第二数据库,需要说明的是,当变化源数据表中的变化源数据更新一次,则同步一次,第一时间将更新的变化源数据同步至第二数据库,使第二数据库中的更新的变化源数据为最新的变化源数据。通过本步骤,根据表任务信息快速将第一数据库中的变化源数据同步至第二数据库,实现快速的跨库同步数据,节省了将变化源数据迁移至第二数据库的时间。
本发明提供一种大数据迁移方法,获取源数据的更新时间,根据更新时间将第一数据库中的源数据划分为变化源数据和不变化源数据,并生成变化源数据表和不变化源数据表,将不变化源数据表中的不变化源数据迁移至第二数据库,实现了大数据快速跨库迁移,将变化源数据表中的更新数据同步至第二数据库,减少了将变化源数据迁移至第二数据库的时间,提高了工作效率。
作为本发明第一实施例的一种实施方式,对于上述实施例中的步骤S20包括步骤S201和步骤S202。
如图2所示,步骤S201,配置不变化源数据表的表任务信息,包括:
步骤S2011,设置第一表配置文件,第一表配置文件包括第一源表配置文件和第一目标表配置文件。
步骤S2012,通过第一源表配置文件对不变化源数据在表任务中配置不变化源数据表信息。
步骤S2013,通过第一目标表配置文件对不变化源数据在表任务中配置迁移至第二数据库中的目标数据表信息。
在上述步骤中,第一表配置文件是指配置表任务信息的文件,第一源表配置文件配置第一数据库中不变化源数据表的表任务信息,第一目标表配置文件配置第二数据库中的目标数据表的表任务信息,表任务信息中包括了配置第一数据库中的第一源数据表信息和第一目标数据表信息,目标表任务信息是指将第一数据库钱移至第二数据库时,存储在第二数据库中目标数据表的信息。具体的,在第一数据库中设置第一表配置文件,第一表配置文件包括了第一源表配置文件和第一目标表配置文件,第一表配置文件可同时配置多个表任务信息,通过第一源表配置文件对不变化源数据在表任务中配置不变化源数据表信息,例如,第一源表配置文件给出了第一数据库不变化源数据表中需要迁移的不变化源数据的信息,第一源表配置文件具体配置的信息包括需要迁移的不变化源数据的位置、表名、字段信息等,第一目标表配置文件具体配置的信息包括迁往的第二数据库的具体信息,例如,迁往第二数据库中的目标表名、目标位置。具体的,第一源表配置文件中给出不变化源数据表的位置F盘、表名A,不变化源数据表中具体的迁移的字段信息abc,第一目标表配置文件给出了第二数据库的目标位置G盘、目标表名B,那么将F盘中表名A的不变化源数据abc迁移至G盘中的目标表名B中。通过本步骤,配置不变化源数据在不变化源数据表信息以及迁移至第二数据库中目标表信息,实现快速配置不变化源数据信息。
如图3所示,步骤S202配置变化源数据表的表任务信息,包括:
步骤S2021,设置第二表配置文件,第二表配置文件包括第二源表配置文件和第二目标表配置文件。
步骤S2022,通过所第二源表配置文件对变化源数据在表任务中配置变化源数据表信息。
步骤S2023,通过第二目标表配置文件对变化源数据在表任务中配置同步至第二数据库中的目标数据表信息。
在上述步骤中,第一数据库中设置第二表配置文件,作为一种实施方式,配置不变化源数据表的表任务信息时,通过第一表配置文件配置表任务信息,配置变化源数据表的表任务信息时,通过第二标配置文件配置表任务信息,第一表配置文件和第二表配置文件设置在第一数据库中进行配置或设置在第二数据库中进行配置,设置的第二表配置文件包括了第二源表配置文件和第二目标表配置文件,第二表配置文件可同时配置多个表任务信息,作为一种实施方式,当配置变化源数据表的表任务信息与配置不变化源数据表的表任务信息共用一个表配置文件时,该表配置文件为第一表配置文件或第二表配置文件,第一表配置文件或第二表配置文件分别对变化源数据表与不变化源数据表进行配置,对变化源数据表与不变化源数据表进行配置时不分先后顺序。上述步骤中,通过第二源表配置文件对变化源数据在表任务中配置变化源数据表信息,第二源表配置文件给出了第一数据库变化源数据表中需要迁移的变化源数据的信息,例如,第二源表配置文件具体配置的信息包括需要迁移的变化源数据的位置、表名等;第二目标表配置文件具体配置的信息包括迁往的第二数据库的具体信息,例如,迁往第二数据库中的目标表名、目标位置。具体的,第二源表配置文件中给出变化源数据表的位置F盘、表名C,变化源数据表中更新的变化源数据,第二目标表配置文件给出了第二数据库的目标位置G盘、目标表名D,那么将F盘中表名C的更新变化的源数据同步至至G盘中的目标表名D中,每当监测表名C中的变换源数据更新变化,则第一时间将变化的源数据同步至第二数据库的表名D中。通过本步骤,配置变化源数据在变化源数据表信息以及同步至第二数据库中目标表信息,实现快速配置变化源数据信息。
作为本发明第一实施例的一种实施方式,通过第一源表配置文件对不变化源数据在表任务中配置不变化源数据表信息,包括:
根据不变化源数据表中的数据属性将不变化源数据进行分类并存储在多个子不变化源数据表中;
通过第一源表配置文件和多个子不变化源数据表对不变化源数据在表任务中配置不变化源数据表信息;
根据表任务信息将不变化源数据表中的不变化源数据迁移至第二数据库,包括:
根据表任务信息将多个子不变化源数据表中的不变化源数据迁移至第二数据库。
在本步骤中,不变化源数据表中数据属性是指不变化源数据表中不变化源数据的属性,根据设定,不变化源数据属性可分为内部不变化源数据和外部不变化源数据,内部不变化源数据是指系统中固定设置的不变化源数据,外部不变化源数据是指系统接收外部数据生成的不变化源数据,根据不变化源数据的属性不同进行整理并存储在多个不变化源数据表中并将多个不变化源数据表中的不变化源数据迁移至第二数据库,需要说明的是,将多个不变化源数据表中的不变化源数据进行迁移时,可将多个不变化源数据表中的不变化源数据迁移至第二数据库中不同数据表中,实现了在第二数据库中不变化源数据根据属性存储在多个不变化源数据表中。第一表配置文件对不变化源数据表中的源数据进行配置时,获取不变化源数据的属性信息,通过属性信息对不变化源数据表中的不变化源数据进行整理获取多个数据表,例如,当不变化源数据中属性为内部不变化源数据、外部不变化源数据时,通过第一表配置文件可以将不变化源数据表划分为内部不变化源数据表和外部不变化源数据表,当然,对内部不变化源数据表还可进一步划分,对外部不变化源数据表也可进一步划分。例如,根据不变化源数据分类不同划分为固定不变化源数据和可编辑不变化源数据,通过不变化源数据分类不同进行整理,并存储在相应的数据表中。通过第一源表配置文件通过第一源表配置文件和多个子不变化源数据表对不变化源数据在表任务中配置不变化源数据表信息,根据表任务信息将多个子不变化源数据表中的不变化源数据迁移至第二数据库,实现了将不变化源数据快速跨库迁移,将不变化源数据划分为多个不变化源数据,配置多个不变化源数据表信息,第一表配置文件同时配置多个表任务信息,当从第一数据库中将大数据跨库转移时,同时执行多个表任务信息,节省了跨库迁移的时间,提高了工作效率。
作为本发明第一实施例的一种实施方式,对于上述实施例中的步骤S40中获取变化源数据表中的变化源数据的更新数据,根据表任务信息将更新数据同步至第二数据库,包括:
获取变化源数据在变化源数据表中最后一次执行更新的更新位置,对更新位置进行监控,当监测到变化源数据在更新位置有更新的变化源数据时,根据表任务信息将更新的变化源数据同步至第二数据库。
在本步骤中,变化源数据在变化源数据表中不断更新,最后一次执行更新的更新位置是指在变化源数据表中预设时间段内变化源数据最新更新数据所在的位置。获取变化源数据表中变化源数据的更新状态,获取变化源数据在变化源数据表中最后一次执行更新的更新位置,在更新位置将获取的更新状态进行更新以后产生的所有更新变化源数据同步至第二数据库,只有当变化源数据表中更新位置的变化源数据发生更新时,将更新的变化源数据同步至第二数据库,当变化源数据表中更新位置的变化源数据未发生更新时,变化源数据不同步至第二数据库,当监测到变化源数据表中更新位置变化源数据有发生更新时,则第一时间同步,不必等所有任务迁移完成才进行同步。通过本步骤,将变化源数据同步至第二数据库,节省了将变化源数据表中变化源数据迁移至第二数据库的时间,提高了工作效率。
作为本发明第一实施例的一种实施方式,大数据迁移方法还包括:
获取变化源数据表中变化源数据的数据量值与第二数据库中更新数据的数据量值,当变化源数据的数据量值与更新数据的数据量值一致时,判定变化源数据同步至第二数据库成功。
在本步骤中,数据量值是指在变化源数据在变化数据表中或在第二数据库中的存储容量,获取变化源数据在变化源数据表中在更新位置最后一次执行更新的变化源数据的数据量值;获取变化源数据表中更新的变化源数据同步至第二数据库更新的变化源数据的数据量值;通过du命令对变化源数据在更新位置的数据量值与同步至第二数据库更新的变化源数据的数据量值进对比,当变化源数据的数据量值与更新的变化源数据的数据量值一致时,判定变化源数据同步至第二数据库成功,当变化源数据的数据量值与更新的变化源数据的数据量值不一致时,则将同步至第二数据库中的更新的变化源数据进行移除,并重新将变化元数据表中更新的变化元数据重新同步至第二数据库,通过本步骤,获取变化源数据在变化数据表和第二数据库中的数据量值并进行对比,确保将所有的变化源数据同步至第二数据库,完成变化源数据的同步。
实施例2
本发明第二实施例提供一种大数据迁移装置,如图4所示,大数据迁移装置4包括:
源数据划分模块41,用于获取源数据在第一数据库中的更新时间,根据更新时间将源数据划分为变化源数据和不变化源数据,并生成变化源数据表和不变化源数据表;
配置模块42,用于配置变化源数据表和不变化源数据表的表任务信息;
不变化源数据迁移模块43,用于根据表任务信息将不变化源数据表中的不变化源数据迁移至第二数据库;
变化源数据同步模块44,用于获取变化源数据表中的变化源数据的更新数据,根据表任务信息将更新数据同步至第二数据库。
本发明提供一种大数据迁移装置,获取源数据的更新时间,根据更新时间将第一数据库中的源数据划分为变化源数据和不变化源数据,并生成变化源数据表和不变化源数据表,将不变化源数据表中的不变化源数据迁移至第二数据库,实现了大数据快速跨库迁移,将变化源数据表中的更新数据同步至第二数据库,减少了将变化源数据迁移至第二数据库的时间,提高了工作效率。
作为本发明第二实施例的一种实施方式,如图5所示,对于上述实施例中配置模块42具体包括不变化源数据配置模块421和变化源数据配置模块422。
不变化源数据配置模块421具体包括:
设置第一表配置文件,第一表配置文件包括第一源表配置文件和第一目标表配置文件;
通过第一源表配置文件对不变化源数据在表任务中配置不变化源数据表信息;
通过第一目标表配置文件对不变化源数据在表任务中配置迁移至第二数据库中的目标数据表信息。
变化源数据配置模块422具体包括:
设置第二表配置文件,第二表配置文件包括第二源表配置文件和第二目标表配置文件;
通过第二源表配置文件对变化源数据在表任务中配置变化源数据表信息;
通过第二目标表配置文件对变化源数据在表任务中配置同步至第二数据库中的目标数据表信息。
优选地,源数据划分模块41中根据更新时间将源数据分成变化源数据和不变化源数据,包括:
在预设时间段内监测源数据的更新时间是否发生变化时,将发生变化的源数据划分为变化源数据,将未发生变化的源数据划分为不变化源数据。
优选地,通过第一源表配置文件对不变化源数据在表任务中配置不变化源数据表信息,包括:
根据不变化源数据表中的数据属性将不变化源数据进行分类并存储在多个子不变化源数据表中;
通过第一源表配置文件和多个子不变化源数据表对不变化源数据在表任务中配置不变化源数据表信息;
不变化源数据迁移模块43中根据表任务信息将不变化源数据表中的不变化源数据迁移至第二数据库,包括:
根据表任务信息将多个子不变化源数据表中的不变化源数据迁移至第二数据库。
优选地,变化源数据同步模块44获取变化源数据表中的变化源数据的更新数据,根据表任务信息将更新数据同步至第二数据库,包括:
获取变化源数据在变化源数据表中最后一次执行更新的更新位置,对更新位置进行监控,当监测到变化源数据在更新位置有更新的变化源数据时,根据表任务信息将更新的变化源数据同步至第二数据库。
优选地,大数据迁移装置4还包括:
获取变化源数据表中变化源数据的数据量值与第二数据库中更新数据的数据量值,当变化源数据的数据量值与更新数据的数据量值一致时,判定变化源数据同步至第二数据库成功。
上述大数据迁移装置4中模块的具体工作过程,可以参考前述方法实施例1中大数据迁移方法对应的过程,在此不再赘述。
实施例3
本发明第三实施例提供一计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例1中的一种大数据迁移方法,为避免重复,这里不再赘述。或者,该计算机程序被处理器执行时实现上述实施例2中一种大数据迁移装置中各模块/单元的功能,为避免重复,这里不再赘述。
实施例4
图6是本实施例中终端设备6的示意图。如图6所示,终端设备6包括处理器63、存储器61以及存储在存储器61中并可在处理器63上运行的计算机程序62。处理器63执行计算机程序62时实现上述实施例1中一种大数据迁移方法的各个步骤,例如图1所示的步骤S10、S20、S30和S40。或者,处理器63执行计算机程序62时实现上述实施例2中一种大数据迁移装置各模块/单元的功能,如图4所示的源数据划分模块41、配置模块42、不变化源数据迁移模块43以及变化源数据同步模块44。
计算机程序62可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器61中,并由处理器63执行,以完成本发明。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序62指令段,该指令段用于描述计算机程序62在终端设备6中的执行过程。例如,计算机程序62可以被分割成源数据划分模块41、配置模块42、不变化源数据迁移模块43以及变化源数据同步模块44。
该终端设备6可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。终端设备6可包括,但不仅限于,处理器63、存储器61。本领域技术人员可以理解,图6仅仅是终端设备6的示例,并不构成对终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如终端设备6还可以包括输入输出设备、网络接入设备、总线等。
所称处理器63可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器63、数字信号处理器63(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器63可以是微处理器63或者该处理器63也可以是任何常规的处理器63等。
存储器61可以是终端设备6的内部存储单元,例如终端设备6的硬盘或内存。存储器61也可以是终端设备6的外部存储设备,例如终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器61还可以既包括终端设备6的内部存储单元也包括外部存储设备。存储器61用于存储计算机程序62以及终端设备6所需的其他程序和数据。存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序62来指令相关的硬件来完成,计算机程序62可存储于一计算机可读存储介质中,该计算机程序62在被处理器63执行时,可实现上述各个方法实施例的步骤。其中,计算机程序62包括计算机程序62代码,计算机程序62代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序62代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器61、只读存储器61(ROM,Read-Only Memory)、随机存取存储器61(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括是电载波信号和电信信号。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (5)

1.一种大数据迁移方法,其特征在于,所述大数据迁移方法包括:
获取源数据在第一数据库中的更新时间,根据所述更新时间将所述源数据划分为变化源数据和不变化源数据,包括:
在预设时间段内监测所述源数据的更新时间是否发生变化时,将发生变化的所述源数据划分为所述变化源数据,将未发生变化的所述源数据划分为所述不变化源数据;
并生成变化源数据表和不变化源数据表;
配置所述变化源数据表和所述不变化源数据表的表任务信息,其中:
配置所述不变化源数据表的表任务信息,包括:
设置第一表配置文件,所述第一表配置文件包括第一源表配置文件和第一目标表配置文件;
通过所述第一源表配置文件对所述不变化源数据在表任务中配置不变化源数据表信息;
通过所述第一目标表配置文件对所述不变化源数据在表任务中配置迁移至第二数据库中的目标数据表信息;
配置所述变化源数据表的表任务信息,包括:
设置第二表配置文件,所述第二表配置文件包括第二源表配置文件和第二目标表配置文件;
通过所述第二源表配置文件对所述变化源数据在表任务中配置变化源数据表信息;
通过所述第二目标表配置文件对所述变化源数据在表任务中配置同步至所述第二数据库中的目标数据表信息;
根据所述表任务信息将所述不变化源数据表中的不变化源数据迁移至第二数据库;
获取所述变化源数据表中的变化源数据的更新数据,所述更新数据是指变化源数据在变化源数据表中随时间变化的数据,根据所述表任务信息将所述更新数据同步至所述第二数据库,包括:
获取所述变化源数据在所述变化源数据表中最后一次执行更新的更新位置,对所述更新位置进行监控,当监测到所述变化源数据在所述更新位置有更新的变化源数据时,根据所述表任务信息将更新的变化源数据同步至所述第二数据库,其中,当变化源数据表中的变化源数据更新一次,则同步一次;
获取所述变化源数据表中变化源数据的数据量值与所述第二数据库中更新数据的数据量值,当所述变化源数据的数据量值与所述更新数据的数据量值一致时,判定所述变化源数据同步至所述第二数据库成功;
当变化源数据的数据量值与更新的变化源数据的数据量值不一致时,则将同步至第二数据库中的更新的变化源数据进行移除,并重新将变化元数据表中更新的变化元数据重新同步至第二数据库。
2.如权利要求1所述的大数据迁移方法,其特征在于,通过所述第一源表配置文件对所述不变化源数据在表任务中配置不变化源数据表信息,包括:
根据所述不变化源数据表中的数据属性将所述不变化源数据进行分类并存储在多个子不变化源数据表中;
通过所述第一源表配置文件和所述多个子不变化源数据表对所述不变化源数据在表任务中配置不变化源数据表信息;
根据所述表任务信息将所述不变化源数据表中的不变化源数据迁移至第二数据库,包括:
根据所述表任务信息将所述多个子不变化源数据表中的不变化源数据迁移至第二数据库。
3.一种大数据迁移装置,其特征在于,所述大数据迁移装置包括:
源数据划分模块,用于获取源数据在第一数据库中的更新时间,根据所述更新时间将所述源数据划分为变化源数据和不变化源数据,包括:在预设时间段内监测所述源数据的更新时间是否发生变化时,将发生变化的所述源数据划分为所述变化源数据,将未发生变化的所述源数据划分为所述不变化源数据;并生成变化源数据表和不变化源数据表;
配置模块,用于配置所述变化源数据表和所述不变化源数据表的表任务信息,其中:
所述配置不变化源数据模块具体包括:
设置第一表配置文件,所述第一表配置文件包括第一源表配置文件和第一目标表配置文件;
通过所述第一源表配置文件对所述不变化源数据在表任务中配置不变化源数据表信息;
通过所述第一目标表配置文件对所述不变化源数据在表任务中配置迁移至第二数据库中的目标数据表信息;
所述配置变化源数据模块具体包括:
设置第二表配置文件,所述第二表配置文件包括第二源表配置文件和第二目标表配置文件;
通过所述第二源表配置文件对所述变化源数据在所述变化源数据和在表任务中配置变化源数据表信息;
通过所述第二目标表配置文件对所述变化源数据在表任务中配置同步至所述第二数据库中的目标数据表信息;
不变化源数据迁移模块,用于根据所述表任务信息将所述不变化源数据表中的不变化源数据迁移至第二数据库;
变化源数据同步模块,用于获取所述变化源数据表中的变化源数据的更新数据,所述更新数据是指变化源数据在变化源数据表中随时间变化的数据,根据所述表任务信息将所述更新数据同步至所述第二数据库,以及用于获取变化源数据在变化源数据表中最后一次执行更新的更新位置,对更新位置进行监控,当监测到变化源数据在更新位置有更新的变化源数据时,根据表任务信息将更新的变化源数据同步至第二数据库,其中,当变化源数据表中的变化源数据更新一次,则同步一次;
数据更新成功判定模块,用于获取变化源数据表中变化源数据的数据量值与第二数据库中更新数据的数据量值,当变化源数据的数据量值与更新数据的数据量值一致时,判定变化源数据同步至第二数据库成功,以及用于当变化源数据的数据量值与更新的变化源数据的数据量值不一致时,则将同步至第二数据库中的更新的变化源数据进行移除,并重新将变化元数据表中更新的变化元数据重新同步至第二数据库。
4.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至2任一项所述方法的步骤。
5.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至2任一项所述方法的步骤。
CN201810122509.1A 2018-02-07 2018-02-07 大数据迁移方法、装置、设备及存储介质 Active CN108446315B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810122509.1A CN108446315B (zh) 2018-02-07 2018-02-07 大数据迁移方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810122509.1A CN108446315B (zh) 2018-02-07 2018-02-07 大数据迁移方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN108446315A CN108446315A (zh) 2018-08-24
CN108446315B true CN108446315B (zh) 2021-11-05

Family

ID=63191639

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810122509.1A Active CN108446315B (zh) 2018-02-07 2018-02-07 大数据迁移方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN108446315B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110059072A (zh) * 2019-03-13 2019-07-26 平安普惠企业管理有限公司 基于存储过程的数据迁移监控方法、系统、设备及介质
CN110347693A (zh) * 2019-07-11 2019-10-18 招商局金融科技有限公司 数据同步方法、装置及存储介质
CN111651426B (zh) * 2020-04-30 2024-06-25 平安科技(深圳)有限公司 数据迁移方法、装置及计算机可读存储介质
CN112925743A (zh) * 2021-02-07 2021-06-08 中国工商银行股份有限公司 一种文件生成方法、装置及存储介质
CN113297239A (zh) * 2021-04-29 2021-08-24 上海淇玥信息技术有限公司 一种数据管理平台、方法及电子设备
CN114461762A (zh) * 2022-04-08 2022-05-10 深圳市科力锐科技有限公司 档案变更识别方法、装置、设备及存储介质

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6529921B1 (en) * 1999-06-29 2003-03-04 Microsoft Corporation Dynamic synchronization of tables
US8990527B1 (en) * 2007-06-29 2015-03-24 Emc Corporation Data migration with source device reuse
CN102063500A (zh) * 2011-01-04 2011-05-18 北京凯铭风尚网络技术有限公司 一种数据迁移的方法及装置
CN102750283A (zh) * 2011-04-20 2012-10-24 阿里巴巴集团控股有限公司 海量数据同步系统及方法
CN102542007B (zh) * 2011-12-13 2014-06-25 中国电子科技集团公司第十五研究所 关系型数据库之间的同步方法及系统
CN103530290B (zh) * 2012-07-03 2017-12-12 深圳市腾讯计算机系统有限公司 数据库间的数据迁移方法和系统
CN103793424B (zh) * 2012-10-31 2018-04-20 阿里巴巴集团控股有限公司 数据库数据迁移方法及系统
CN103914458A (zh) * 2012-12-29 2014-07-09 中国移动通信集团河北有限公司 一种海量数据迁移的方法及装置
CN104021123B (zh) * 2013-02-28 2017-10-31 国际商业机器公司 用于数据迁移的方法和系统
CN104572672B (zh) * 2013-10-15 2018-10-02 北大方正集团有限公司 异构数据库的同步方法和应用系统
CN105373621A (zh) * 2015-12-07 2016-03-02 高新兴科技集团股份有限公司 一种快速的跨数据库系统的数据增量迁移方法
CN106970921B (zh) * 2016-01-14 2020-10-16 阿里巴巴集团控股有限公司 一种数据迁移方法及装置
CN105718570B (zh) * 2016-01-20 2019-12-31 北京京东尚科信息技术有限公司 用于数据库的数据迁移方法和装置
CN107301214B (zh) * 2017-06-09 2020-08-28 广州虎牙信息科技有限公司 在hive中数据迁移方法、装置及终端设备
CN107423452A (zh) * 2017-09-02 2017-12-01 国网辽宁省电力有限公司 一种电网异构数据库同步复制迁移方法

Also Published As

Publication number Publication date
CN108446315A (zh) 2018-08-24

Similar Documents

Publication Publication Date Title
CN108446315B (zh) 大数据迁移方法、装置、设备及存储介质
US10719510B2 (en) Tiering with pluggable storage system for parallel query engines
CN110046137B (zh) 将数据流分组并存储至云端存储文件中的系统和方法
CN110209728B (zh) 一种分布式异构数据库同步方法、电子设备及存储介质
WO2019056540A1 (zh) 测试用例自动化管理方法、装置、设备及存储介质
US11449470B2 (en) Patching JSON documents that contain arrays undergoing concurrent modification
CN107463610B (zh) 一种数据入库方法及装置
CN108388509B (zh) 一种软件测试方法、计算机可读存储介质及终端设备
CN109739828B (zh) 一种数据处理方法、设备及计算机可读存储介质
CN110442480B (zh) 一种镜像数据清理方法、装置及系统
US11163792B2 (en) Work assignment in parallelized database synchronization
CN111930770A (zh) 数据查询方法、装置及电子设备
CN112256670A (zh) 数据迁移方法、终端设备及可读存储介质
CN107894997B (zh) 工业时序数据的查询处理方法及系统
US9747295B1 (en) Updating a large dataset in an enterprise computer system
CN106598990B (zh) 一种搜索方法及系统
CN110851515A (zh) 一种基于Spark分布式环境下的大数据ETL模型执行方法及介质
CN106980673A (zh) 内存数据库表索引更新方法及系统
CN110704404A (zh) 一种数据质量校验方法、装置、系统
CN112329368B (zh) 自动调整分割方案的方法、设备和存储介质
CN111143464B (zh) 数据获取方法、装置和电子设备
CN114297196A (zh) 元数据存储方法、装置、电子设备及存储介质
CN103678545A (zh) 进行网络资源聚类的方法及装置
CN114490865A (zh) 数据库同步方法、装置、设备及计算机存储介质
CN112860576A (zh) 一种基于灰度验证的业务处理方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant