CN111708755A - 数据迁移方法、装置、系统、电子设备以及可读存储介质 - Google Patents

数据迁移方法、装置、系统、电子设备以及可读存储介质 Download PDF

Info

Publication number
CN111708755A
CN111708755A CN202010432225.XA CN202010432225A CN111708755A CN 111708755 A CN111708755 A CN 111708755A CN 202010432225 A CN202010432225 A CN 202010432225A CN 111708755 A CN111708755 A CN 111708755A
Authority
CN
China
Prior art keywords
data
database
migrated
batch
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010432225.XA
Other languages
English (en)
Inventor
朱博帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202010432225.XA priority Critical patent/CN111708755A/zh
Publication of CN111708755A publication Critical patent/CN111708755A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/214Database migration support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2365Ensuring data consistency and integrity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种数据迁移方法、装置、系统、电子设备以及可读存储介质,旨在在不明显增加业务处理复杂度的条件下,顺利完成数据迁移。其中,数据迁移方法包括:将源端数据库中的待迁移数据分批次地写入目标端数据库,其中,当一个批次的待迁移数据成功写入所述目标端数据库后,记录该批次待迁移数据的任务状态信息;针对已经写入所述目标端数据库的数据,分批次地删除所述源端数据库中与该数据对应的待迁移数据,其中,当一个批次的待迁移数据被成功删除后,更新该批次待迁移数据的任务状态信息;在产生数据读取任务的情况下,根据待读取数据对应的任务状态信息,确定记录有所述待读取数据的数据库,并从该数据库读取所述待读取数据。

Description

数据迁移方法、装置、系统、电子设备以及可读存储介质
技术领域
本发明涉及信息技术领域,特别是涉及一种数据迁移方法、装置、系统、电子设备以及可读存储介质。
背景技术
随着信息技术的发展,越来越多的企业开始借助数据库存储和管理数据。以互联网企业为例,其服务端通常需要借助数据库集群存储大量数据,例如商品信息、音视频数据、用户画像、用户历史浏览记录、用户订单数据等等。并且随着用户数量的增加和服务时间的累积,数据量也进一步积累。
通常,数据库集群中包括多个数据库,不同数据库之间因各种各样的原因而存在数据迁移的需求。例如有的数据库的访问量较高,有的数据库的访问量较低,当访问量较高的数据库的可用容量即将耗尽时,通常需要将该数据库中的部分或全部数据迁移至访问量较低的数据库,以确保该数据库的可用容量不低于可用容量下限。然而数据的迁移将导致业务(线上或线下业务)受到影响。为便于理解,假设某数据库用于存储用户订单数据,当把该数据库中4个月以前的用户订单数据迁移至其他数据库后,在用户终端发送订单查看请求,业务服务器需要读取最近6个月的订单数据时,将不能从该数据库中顺利获取到完整的订单数据,而仅能读取到最近2个月的订单数据,导致数据读取不成功。相关技术中,为了能顺利获取到完整订单数据,则必须对业务代码进行更改,然而这又显著增加了业务处理的复杂度,降低了数据读取效率。
发明内容
本发明实施例的目的在于提供一种数据迁移方法、装置、系统、电子设备以及可读存储介质,旨在在不明显增加业务处理复杂度的条件下,顺利完成数据迁移。具体技术方案如下:
在本发明实施例的第一方面,提供了一种数据迁移方法,所述方法包括:
在产生数据迁移任务的情况下,将源端数据库中的待迁移数据分批次地写入目标端数据库,其中,当一个批次的待迁移数据成功写入所述目标端数据库后,记录该批次待迁移数据的任务状态信息,该任务状态信息表征该批次待迁移数据已经写入所述目标端数据库;
针对已经写入所述目标端数据库的数据,分批次地删除所述源端数据库中与该数据对应的待迁移数据,其中,当一个批次的待迁移数据被成功删除后,更新该批次待迁移数据的任务状态信息,更新后的任务状态信息表征该批次待迁移数据已经从所述源端数据库删除;
在产生数据读取任务的情况下,读取待读取数据对应的任务状态信息,并根据所述任务状态信息,从所述源端数据库和所述目标端数据库中确定记录有所述待读取数据的数据库,并从该数据库读取所述待读取数据。
在本发明实施例的第二方面,提供了一种数据迁移装置,所述装置包括:
数据写入模块,用于在产生数据迁移任务的情况下,将源端数据库中的待迁移数据分批次地写入目标端数据库,其中,当一个批次的待迁移数据成功写入所述目标端数据库后,记录该批次待迁移数据的任务状态信息,该任务状态信息表征该批次待迁移数据已经写入所述目标端数据库;
数据删除模块,用于针对已经写入所述目标端数据库的数据,分批次地删除所述源端数据库中与该数据对应的待迁移数据,其中,当一个批次的待迁移数据被成功删除后,更新该批次待迁移数据的任务状态信息,更新后的任务状态信息表征该批次待迁移数据已经从所述源端数据库删除;
数据读取模块,用于在产生数据读取任务的情况下,读取待读取数据对应的任务状态信息,并根据所述任务状态信息,从所述源端数据库和所述目标端数据库中确定记录有所述待读取数据的数据库,并从该数据库读取所述待读取数据。
在本发明实施例的第三方面,提供了一种数据迁移系统,所述系统包括:数据库服务器、业务服务器、协调系统以及执行节点;其中,
所述执行节点用于:在产生数据迁移任务的情况下,将源端数据库中的待迁移数据分批次地写入目标端数据库,其中,当一个批次的待迁移数据成功写入所述目标端数据库后,记录该批次待迁移数据的任务状态信息,该任务状态信息表征该批次待迁移数据已经写入所述目标端数据库;
所述执行节点还用于:针对已经写入所述目标端数据库的数据,分批次地删除所述源端数据库中与该数据对应的待迁移数据,其中,当一个批次的待迁移数据被成功删除后,更新该批次待迁移数据的任务状态信息,更新后的任务状态信息表征该批次待迁移数据已经从所述源端数据库删除;
所述数据库服务器用于:运行所述源端数据库和所述目标端数据库;
所述业务服务器用于:在产生数据读取任务的情况下,读取待读取数据对应的任务状态信息,并根据所述任务状态信息,从所述源端数据库和所述目标端数据库中确定记录有所述待读取数据的数据库,并从该数据库读取所述待读取数据;或者,所述业务服务器用于:在产生数据读取任务的情况下,向所述数据库服务器提交数据读取请求,以通过所述数据库服务器中运行的数据库代理模块执行以下步骤:读取待读取数据对应的任务状态信息,并根据所述任务状态信息,从所述源端数据库和所述目标端数据库中确定记录有所述待读取数据的数据库,并从该数据库读取所述待读取数据。
在本发明实施例的第四方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现本发明实施例的第一方面所述的方法步骤。
在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的数据迁移方法。
在本发明实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的数据迁移方法。
通过执行本发明提供的数据迁移方法,在将待迁移数据从源端数据库迁移至目标端数据库期间,由于待迁移数据被分为多个批次进行迁移,并且每个批次的待迁移数据在完成不同的迁移阶段(例如写入目标端数据库、从源端数据库删除)后,需要记录该批次的待迁移数据的任务状态信息。因此可以根据各批次对应的任务状态信息,确定各批次的待迁移数据当前正处于数据迁移任务的具体阶段,进而可以确定各批次的待迁移数据当前所在的数据库。
相比于现有技术中仅在全部待迁移数据被完整迁移完成后,记录整个待迁移数据已被迁出。本发明中由于待迁移数据是分批次迁移的,并且在迁移期间记录各批次的待迁移数据的任务状态信息,又由于一个批次的待迁移数据的任务状态信息用于表征该批次待迁移数据在整个迁移任务中所处的阶段,因此可以在数据迁移期间的各个时刻,准确定位出每个批次的待迁移数据在当前时刻的所在数据库。如此,在产生数据读取任务的情况下,可以根据待读取数据对应的任务状态信息,确定待读取数据当前所在的数据库,最后从该数据库中顺利读取到该待读取数据。
可见,本发明不需要对业务代码进行更改,或者不需要对业务代码进行较大更改,本发明不会明显增加业务处理的复杂度。并且在数据迁移期间,本发明也能准确、顺利地读取到待读取数据,确保了业务的可用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1是本发明一实施例提出的数据迁移方法的流程图;
图2是本发明一实施例提出的数据迁移系统的示意图;
图3是本发明一实施例提出的数据读取方法的示意图;
图4是本发明又一实施例提出的数据迁移方法的流程图;
图5(a)是本发明一实施例提出的数据迁移装置的示意图;
图5(b)是本发明另一实施例提出的数据迁移装置的示意图;
图6是本发明一实施例提出的电子设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
当前,越来越多的企业开始借助数据库存储和管理数据。以互联网企业为例,其服务端通常需要借助数据库集群存储大量数据,例如商品信息、音视频数据、用户画像、用户历史浏览记录、用户订单数据等等。并且随着用户数量的增加和服务时间的累积,数据量也进一步积累。
相关技术中,不同数据库之间通常存在数据迁移的需求。例如当某一数据库的可用容量即将耗尽时,需要将该数据库中的部分数据或全部数据迁移至其他数据库或新部署的数据库,从而确保该数据库的可用容量不低于可用容量下限。然而数据的迁移将导致业务(线上或线下业务)受到影响。例如在把原数据库中4个月以前的用户订单数据迁移至其他数据库后,当需要读取最近6个月的订单数据时,将不能从原数据库中顺利获取到完整数据,导致数据读取不成功。为了能顺利获取到完整数据,则必须对业务代码进行更改,然而这又显著增加了业务处理的复杂度,降低了数据读取效率。
为此,本发明通过以下多个实施例提出多种数据迁移方法、装置、系统、电子设备以及可读存储介质,旨在在不明显增加业务处理复杂度的条件下,顺利完成数据迁移。
参考图1,图1是本发明一实施例提出的数据迁移方法的流程图。如图1所示,该方法包括以下步骤:
步骤S11:在产生数据迁移任务的情况下,将源端数据库中的待迁移数据分批次地写入目标端数据库,其中,当一个批次的待迁移数据成功写入所述目标端数据库后,记录该批次待迁移数据的任务状态信息,该任务状态信息表征该批次待迁移数据已经写入所述目标端数据库;
步骤S12:针对已经写入所述目标端数据库的数据,分批次地删除所述源端数据库中与该数据对应的待迁移数据,其中,当一个批次的待迁移数据被成功删除后,更新该批次待迁移数据的任务状态信息,更新后的任务状态信息表征该批次待迁移数据已经从所述源端数据库删除。
在本发明的一些实施例中,数据迁移任务可以是人工通过工单系统创建的,工单系统将创建的数据迁移任务下发给数据迁移系统执行。例如数据库管理员在监控到数据库A的可用容量低于可用容量下限后,通过工单系统创建了数据迁移任务,该数据迁移任务中,数据库A被指定为源端数据库。此外,该数据迁移任务中还指定了需要从数据库A中被迁出的待迁移数据,以及还指定了需要接收待迁移数据的目标端数据库。
在本发明的又一些实施例中,数据迁移任务也可以是自动生成的。例如数据库服务器在检测到其运行的数据库的可用容量低于可用容量下限时,自动生成数据迁移任务,并将该数据迁移任务下发给数据迁移系统执行。其中,数据迁移系统可以根据预先配置的规则,确定需要从数据库中被迁出的待迁移数据,以及确定需要接收待迁移数据的目标端数据库。
需要说明的是,本发明对数据迁移任务的生成(即创建)方式不做限定。
在本发明的实施例中,一个批次的待迁移数据的任务状态信息用于表征:该批次的待迁移数据当前正处于整个数据迁移任务的具体阶段。
例如,在一个批次的待迁移数据被成功写入目标端数据库后,为该批次待迁移数据记录的任务状态信息用于表征:该批次待迁移数据已经写入所述目标端数据库。又例如,在一个批次的待迁移数据被成功从源端数据库删除后,为该批次待迁移数据记录的任务状态信息用于表征:该批次待迁移数据已经从所述源端数据库删除。
示例地,用于表征数据迁移任务的不同阶段的各种任务状态信息,可以以不同的字符串或字符标识表示。例如当某一批次的待迁移数据的任务状态信息被记录为“load”,则表示该批次待迁移数据已经写入所述目标端数据库。又例如当某一批次的待迁移数据的任务状态信息被记录为“delete”,则表示该批次待迁移数据已经从所述源端数据库删除。或者,再例如当某一批次的待迁移数据的任务状态信息为空,换言之,该批次的待迁移数据还没有被记录任务状态信息,则表示该批次的待迁移数据还没有被写入目标端数据库。
示例地,一个批次的待迁移数据对应的任务状态信息中除了记录有表征任务阶段的字符串或字符标识,例如上述“load”、“delete”等,还可以记录该批次待迁移数据的数据范围。其中,数据范围可以通过待迁移的数据行的唯一索引或关键字key表示。以待迁移数据是数据表为例,数据表中包括多个数据行,例如第一批待迁移数据的关键字key是“student0001”至“student0100”,第二批待迁移数据的关键字key是“student0101”至“student0200”,第三批待迁移数据的关键字key是“student0201”至“student0300”。则其中第一批待迁移数据对应的任务状态信息中记录有:第一批待迁移数据的数据范围(例如“student0001-student0100”)、表征第一批待迁移数据当前正处于整个数据迁移任务的具体阶段的字符串或字符标识(例如“load”、“delete”等)。
参考图2,图2是本发明一实施例提出的数据迁移系统的示意图。如图2所示,该数据迁移系统包括:数据库服务器、协调系统、执行节点以及主节点。其中数据库服务器中运行有一个或多个数据库,主节点用于接收工单系统下发的数据迁移任务,并将该数据迁移任务分配给执行节点。执行节点用于在接收到数据迁移任务后,执行该数据迁移任务,将源端数据库中的待迁移数据分批次地迁移至目标端数据库,并在执行数据迁移任务期间,将各批次待迁移数据各自对应的任务状态信息写入协调系统。协调系统用于记录和保存各批次待迁移数据各自对应的任务状态信息,如前所述,每个批次待迁移数据对应的任务状态信息中包括:该批次待迁移数据的数据范围、以及该批次待迁移数据当前正处于整个数据迁移任务的具体阶段。其中,不同批次待迁移数据对应的任务状态信息中的数据范围互不相同,任务状态信息中的数据范围可视为用于区分不同批次待迁移数据的信息。
在本发明的一些实施例中,数据迁移任务针对的数据可以是多张数据表。换言之,待迁移数据可以是多张数据表。数据迁移系统在执行该数据迁移任务时,可以选用以下任一种执行方式。第一种执行方式:仅通过一个的执行节点对多张待迁移的数据表先后进行迁移。第二种执行方式:通过两个或多个执行节点并行地对多张待迁移的数据表进行迁移。如果采用第二种执行方式,则可以将多张待迁移的数据表平均分配给多个执行节点,每个执行节点对其分配到的数据表进行迁移。
无论采用上述何种执行方式,执行节点在对多个数据表执行数据迁移时,可以按数据表为单位迁移数据。例如执行节点A需要将数据表1、数据表2以及数据表3从源端数据库迁移至目标端数据库,执行节点A首先将数据表1的多个数据行分批次地写入目标端数据库,并将数据表1的多个数据行分批次地从源端数据库删除;再将数据表2的多个数据行分批次地写入目标端数据库,并将数据表2的多个数据行分批次地从源端数据库删除;最后将数据表3的多个数据行分批次地写入目标端数据库,并将数据表3的多个数据行分批次地从源端数据库删除。需要说明的是,执行节点在针对任何一张数据表中的任何一个批次的数据行完成写入操作或删除操作后,均需在协调系统中记录或更新该批次数据行对应的任务状态信息。
由于每个数据表的多个数据行被分批次地写入目标端数据库,并且被分批次地从源端数据库中删除,因此对于每张被迁移的数据表,需要在协调系统中记录该数据表的各个批次的数据行各自对应的任务状态信息。考虑到每张数据表被划分成的批次通常较多,当一张数据表的各批次数据行均完成迁移后,协调系统需要消耗较多的存储空间记录各个批次各自对应的任务状态信息,并且其他设备从协调系统读取任务状态信息的效率也较低,例如下文所述,业务服务器在产生数据读取任务的情况下,从协调系统中读取待读取数据对应的任务状态信息。
为此,在本发明的一些实施例中,在一张数据表中的所有批次的数据行均写入目标端数据库,且该数据表中的所有批次的数据行均从源端数据库中删除后,可以将该数据表中的所有批次的数据行各自对应的任务状态信息整合为关于该数据表的总体状态信息,该总体状态信息用于表征:该数据表已经成功迁移至目标端数据库。
示例地,一张数据表的多个数据行被分为10个批次,当执行节点将最后一个批次(即第10个批次)的数据行从源端数据库删除,并在协调系统中更新该批次数据行对应的任务状态信息后。协调系统确定该数据表的10个批次的数据行均已被写入目标端数据库,并且10个批次的数据行均已从源端数据库删除,协调系统可以将10个批次的数据行各自对应的任务状态信息更换为总体状态信息,表示该数据表已经成功迁移至目标端数据库。
可见通过对各批次数据行各自对应的任务状态信息进行整合、替换,可以显著减少任务状态信息的数量,从而对减少对协调系统的存储空间的消耗。
此外,在一张数据表的各批次数据行均完成迁移后,通过将该数据表的各批次数据行各自对应的任务状态信息整合成总体状态信息,使得业务服务器在产生数据读取任务的情况下,可以仅从协调系统中获取该总体状态信息,即可确定待读取数据当前仅记录于目标端数据库,因此可以显著提高业务服务器的信息读取效率,进而有利于提高业务服务器从数据库读取数据的效率。
在本发明的一些实施例中,在执行上述步骤S11和步骤S12时,具体地,可以先首先将所有批次的待迁移数据依次写入目标端数据库,并依次记录各批次待迁移数据的任务状态信息之后。然后再针对这些已经写入目标端数据库的数据,分批次地删除源端数据库中与该数据对应的待迁移数据。
以待迁移数据是数据表为例,假设数据表A记录了350行数据,在执行上述步骤S11时,具体地,首先将第1行至第100行数据作为第一批次写入目标端数据库,并记录该批次对应的任务状态信息。然后将第101行至第200行数据作为第二批次写入目标端数据库,并记录该批次对应的任务状态信息。接着将第201行至第300行数据作为第三批次写入目标端数据库,并记录该批次对应的任务状态信息。最后将第301行至第350行数据作为第四批次写入目标端数据库,并记录该批次对应的任务状态信息。
在上述所有批次的数据行均成功写入目标端数据库,且记录相应的任务状态信息之后,执行上述步骤S12。具体地,首先将数据表A的第1行至第100行数据作为第一批次从源端数据库中删除,并更新该批次对应的任务状态信息。然后将数据表A的第101行至第200行数据作为第二批次从源端数据库中删除,并更新该批次对应的任务状态信息。接着将数据表A的第201行至第300行数据作为第三批次从源端数据库中删除,并更新该批次对应的任务状态信息。最后将数据表A的第301行至第350行数据作为第四批次从源端数据库中删除,并更新该批次对应的任务状态信息。
需要说明的是,在分批次将待迁移数据从源端数据库删除时每个批次的规模(例如每批次包括的数据行的行数),与分批次将待迁移数据写入目标端数据库时每个批次的规模(例如每批次包括的数据行的行数),可以相同或不同。例如,在分批次将待迁移数据写入目标端数据库时,每批次包括的数据行的行数可以是100行,在分批次将待迁移数据从源端数据库删除时,每批次包括的数据行的行数也可以是100行。或者例如,在分批次将待迁移数据写入目标端数据库时,每批次包括的数据行的行数可以是100行,在分批次将待迁移数据从源端数据库删除时,每批次包括的数据行的行数可以是200行。不同任务阶段的批次规模可以是预先根据数据库服务器的硬件参数确定的。
在本发明的又一些实施例中,在执行上述步骤S11和步骤S12时,具体地,可以针对待迁移数据的多个批次中的每个批次,首先将该批次的待迁移数据写入目标端数据库,然后记录该批次待迁移数据对应的任务状态信息,再将该批次的待迁移数据从源端数据库中删除,最后更新该批次待迁移数据对应的任务状态信息。在完成对该批次的待迁移数据的迁移操作后,再对下一批次的待迁移数据进行写入、删除等迁移操作。
在本发明的一些实施例中,执行节点在将源端数据库中的待迁移数据分批次地写入目标端数据库时(即执行上述步骤S11时),具体地,首先将源端数据库中的待迁移数据分批次地读取出。其中,在读取每个批次的待迁移数据时,将该批次待迁移数据中的各个数据行逐行地从所述源端数据库读取出。
示例地,以待迁移数据是源端数据库中的数据表为例,该数据表中包括多个数据行。假设第一批次的待迁移数据包括该数据表中的第1行至第100行数据。执行节点将第1行至第100行数据逐行地从数据库服务器中读取出。具体地,执行节点每次仅从数据库服务器中读取一行数据,当执行节点将第1行数据至第100行数据依次读取出后,执行节点完成了对第一批次待迁移数据的读取。执行节点以上述方式读取每个批次的待迁移数据,可以有效降低数据库服务器在单位时间内的数据输出量,从而降低数据迁移任务对数据库服务器性能的影响,使在线业务不会受到数据迁移任务的明显干扰。
此外,执行节点在执行节点在将源端数据库中的待迁移数据分批次地写入目标端数据库时(即执行上述步骤S11时),具体地,还根据运行所述目标端数据库的设备的硬件性能参数,确定批次规模,所述批次规模表征:分批次向所述目标端数据库写入数据时,各个批次数据的数据量。并且执行节点还根据所述批次规模,将读取到的数据分批次地写入所述目标端数据库。其中,硬件性能参数包括但不限于:中央处理器(英文缩写CPU)利用率、内存占用率、单位时间内数据的输入输出量。
沿用上述示例,执行节点中存储有硬件性能参数与批次规模之间的映射关系,执行节点在获取到运行该目标端数据库的数据库服务器的硬件性能参数后,根据该性能参数和映射关系确定批次规模。然后执行节点根据确定出的批次规模,将读取到的第一批次的待迁移数据分批次地写入所述目标端数据库。假设执行节点确定出的批次规模为:每批次50行数据。则执行节点将读取到的第一批次的总共100行数据,分为两个批次写入目标端数据库。需要说明的是,如果执行节点确定出的批次规模大于执行节点读取到的数据的规模,假设执行节点确定出的批次规模为:每批次120行数据,则执行节点将读取到的数据全部作为一个批次写入目标端数据库。
本发明中,执行节点通过预先确定或接收批次规模,并根据确定或接收到的批次规模,将从源端数据库读取到的待迁移数据分批次写入目标端数据库,可以尽量减少运行该目标端数据库的数据库服务器的数据输入压力,确保该数据库服务器运行稳定。
通过执行上述包括步骤S11和步骤S12的数据迁移方法,由于待迁移数据是分批次迁移的,并且在迁移期间记录各批次的待迁移数据的任务状态信息,因此可以在数据迁移期间的各个时刻,准确定位出每个批次的待迁移数据在当前时刻的所在数据库。
如此,在产生数据读取任务的情况下,为了能顺利读取到待读取数据,可以首先读取待读取数据对应的任务状态信息,并根据该任务状态信息,从所述源端数据库和所述目标端数据库中确定记录有该待读取数据的数据库,最后从该数据库读取该待读取数据。
示例地,假设待读取数据是待迁移的数据表中的第168行数据,而该数据表的第168行属于第二批次的数据行。为此,可以从协调系统中确定该数据表的第二批次的数据行对应的任务状态信息。如果第二批次的数据行还没有对应的任务状态信息,则表示第二批次的数据行当前还没有被写入目标端数据库,因此可以确定第二批次的数据行目前仅记录在源端数据库。如果第二批次的数据行的任务状态信息为“load”,则表示第二批次的数据行当前已经被写入目标端数据库,但是还没有从源端数据库中删除,因此可以确定第二批次的数据行目前同时记录在源端数据库和目标端数据库中。如果第第二批次的数据行的任务状态信息为“delete”,则表示第二批次的数据行当前已经被写入目标端数据库,且已经从源端数据库中删除,因此可以确定第二批次的数据行目前仅记录在目标端数据库中。
此外,参考图3,图3是本发明一实施例提出的数据读取方法的示意图。如图3所示,在产生数据读取任务的情况下,首先判断是否存在针对待读取数据的数据迁移任务。换言之,首先判断待读取数据是否为正在被迁移的待迁移数据,或者是否为已经被迁移的数据。如果存在针对该待读取数据的数据迁移任务,则确定该待读取数据对应的任务状态信息。换言之,如果该待读取数据是正在被迁移的待迁移数据,或者是已经被迁移的数据,则确定该待读取数据对应的任务状态信息。然后根据该待读取数据对应的任务状态信息,确定记录有该待读取数据的数据库。最后访问数据库系统,从数据库中读取该待读取数据。
其中,在判断是否存在针对待读取数据的数据迁移任务时,具体可以将待读取数据与当前各个数据迁移任务各自的数据范围进行比较,如果待读取数据属于当前某个数据迁移任务的数据范围,则确定该数据迁移任务是针对该待读取数据的数据迁移任务,也即数据迁移系统中存在针对待读取数据的数据迁移任务。为便于理解,假设待读取数据是一个数据行,该数据行的关键字key是student0135,又假设当前的某个数据迁移任务的数据范围是student0001-student0350,则待读取数据在该数据迁移任务的数据范围之内,因此该数据迁移任务是针对上述待读取数据的数据迁移任务,换言之,数据迁移系统中存在针对上述待读取数据的数据迁移任务。
如图3所示,如果不存在针对该待读取数据的数据迁移任务,则可以直接访问数据库系统,从该待读取数据对应的原始数据库中读取该待读取数据。换言之,如果该待读取数据既不是正在被迁移的待迁移数据,也不是已经被迁移的数据,则可以直接访问数据库系统,从该待读取数据对应的原始数据库中读取该待读取数据。
在基于图1所示的方法进行数据迁移的情况下,进一步通过图3所示的方式读取数据,可以在待读取数据不存在相应数据迁移任务的情况下,更直接地读取到该待读取数据,从而在确保能顺利读取到数据的条件下,进一步提高数据读取效率。
本发明中,为了能实现图3所示的数据读取逻辑,在本发明的一些实施例中,可以为业务层的业务服务器写入实现上述数据读取逻辑的代码,使得业务服务器在每次访问数据库系统时,执行该代码。在本发明的又一些实施例中,可以为数据库系统配置代理模块,该代理模块可以实现图3所示的数据读取逻辑。业务层的业务服务器每次在访问数据库系统以读取数据时,直接将数据读取请求发送给代理模块,从而通过代理模块从数据库系统中读取到待读取数据,并将读取到的数据返回给业务服务器。
参考图4,图4是本发明又一实施例提出的数据迁移方法的流程图。如图4所示,该方法包括以下步骤:
步骤S41:在产生数据迁移任务的情况下,将源端数据库中的待迁移数据分批次地写入目标端数据库,其中,当一个批次的待迁移数据成功写入所述目标端数据库后,记录该批次待迁移数据的任务状态信息,该任务状态信息表征该批次待迁移数据已经写入所述目标端数据库。
步骤S42:针对已经写入所述目标端数据库的数据,和所述源端数据库中与该数据对应的待迁移数据,进行一致性校验,在一致性校验通过的情况下,更新该数据对应的待迁移数据的任务状态信息,更新后的任务状态信息表征该数据已经通过一致性校验。
步骤S43:针对已经写入所述目标端数据库且一致性校验通过的数据,分批次地删除所述源端数据库中与该数据对应的待迁移数据,其中,当一个批次的待迁移数据被成功删除后,更新该批次待迁移数据的任务状态信息。
其中,针对步骤S41和步骤S43的解释和具体实施方式,可参考前述针对步骤S11和步骤S12的说明,本发明在此不赘述。
以待迁移数据是源端数据库中的数据表为例,该数据表包括多个数据行。执行节点在进行一致性校验时,具体地,可以针对已经迁移至目标端数据库中的每个数据行,确定该数据行与源端数据库中的对应数据行之间的一致性。例如执行节点可以计算该数据行的摘要值或hash值,并计算源端数据库中对应数据行的摘要值或hash值,在两个摘要值或两个hash值一致的情况下,确定该数据行与源端数据库中的对应数据行相一致。
如果执行节点通过执行一致性校验,确定某一数据行在迁移至目标端数据库后,内容发生变化,则可以向管理员发出提示,以通知管理员进行手动修正。管理员在手动修正后,向数据迁移系统输入继续校验的指令,数据迁移系统的执行节点在接收到该指令后,继续对剩余数据行进行一致性校验。当已经写入目标端数据库的所有数据行均完成一致性校验之后,可以执行上述步骤S43。
或者,如果执行节点通过执行一致性校验,确定某一数据行在迁移至目标端数据库后,内容发生变化,则可以将该数据行暂时记录为错误数据,并记录该数据行的索引或关键字key。当已经写入目标端数据库的所有数据行均完成一致性校验之后,可以针对除错误数据以外的其他数据行,执行上述步骤S43。此外,执行节点可以向管理员发出提示,以通知管理员对各条错误数据统一进行手动修正。
通过执行上述包括步骤S41至步骤S43的数据迁移方法,可以对写入目标端数据库的数据行的准确性进行检验,从而提高数据迁移的准确性。
此外,考虑到执行节点在执行数据迁移任务期间,运行源端数据库的数据库服务器会持续地对各批次待迁移数据执行输出、删除等操作。由于运行源端数据库的数据库服务器同时还可能接收并处理业务服务器发送的数据读取请求,为了确保业务服务器能顺利且迅速地从数据库服务器获取到数据,使业务不受数据迁移任务的影响,在本发明的一些实施例中,任务节点在执行数据迁移任务期间,可以采集运行所述源端数据库的设备的硬件状态参数,以及采集所述源端数据库对应的慢查询次数;然后根据所述硬件状态参数和所述慢查询次数,确定所述设备当前的压力值;在进行所述数据迁移任务的过程中且所述压力值大于预设的压力值上限的情况下,暂停所述数据迁移任务。
其中,设备的硬件状态参数包括但不限于:中央处理器(英文缩写CPU)利用率、内存占用率、单位时间内数据的输入输出量。
其中,慢查询是指:从数据库中读取数据的耗时超过预设时长的情况。本发明中,执行节点可以通过周期性地查询源端数据库的慢查询日志,以确定当前周期内源端数据库发生的慢查询次数。同样地,执行节点也可以周期性地采集运行所述源端数据库的设备的硬件状态参数。
示例地,执行节点以5分钟为周期时长,执行节点每隔5分钟采集一次运行源端数据库的数据库服务器的性能参数,并获取在过去5分钟内源端数据库发生的慢查询次数,然后根据获取的性能参数和慢查询次数,确定当前周期该数据库服务器的压力值。其中,计算压力值P的具体的计算公式如下:
P=Wcpu·Icpu+Wram·Iram+Wio·Iio+Wmcx·Imcx
其中,P表示数据库服务器的压力值,Icpu、Iram、Iio以及Imcx分别表示CPU性能参数、内存性能参数、输入输出性能参数以及慢查询次数,Wcpu、Wram、Wio以及Wmcx分别表示CPU性能参数的权重、内存性能参数的权重、输入输出性能参数的权重以及慢查询次数的权重。
其中,各个权重值的具体大小,可以由管理员预先设定,本发明对各个权重的数值不做限定。
如果通过上述公式计算出当前周期数据库服务器的压力值P等于0.9,大于预设的压力值上限0.8,则说明当前数据库服务器的压力较大,可能已经影响到数据读取效率,因此执行节点可以暂停数据迁移任务,确保数据读取业务的可用性。
如果通过上述公式计算出当前周期数据库服务器的压力值P等于0.6,小于预设的压力值上限0.8,则说明当前数据库服务器的压力较小,因此可以继续执行数据迁移任务,并在5分钟之后,再次获取运行源端数据库的数据库服务器的性能参数,并获取5分钟内源端数据库发生的慢查询次数。
此外,在暂停所述数据迁移任务期间,执行节点可以继续采集运行所述源端数据库的设备的硬件状态参数,以及采集所述源端数据库对应的慢查询次数;并根据所述硬件状态参数和所述慢查询次数,确定所述设备当前的压力值;在所述压力值小于预设的压力值下限的情况下,继续执行所述数据迁移任务。
示例地,在数据迁移任务暂停期间,执行节点可以通过周期性地查询源端数据库的慢查询日志,以确定当前周期内源端数据库发生的慢查询次数。同样地,执行节点也可以周期性地采集运行所述源端数据库的设备的硬件状态参数。如果将获取的当前周期的硬件状态参数和慢查询次数带入上述公式,计算出当前周期数据库服务器的压力值P等于0.5,小于预设的压力值下限0.6,则说明当前数据库服务器的压力很小,因此可以启动并继续执行数据迁移任务。
如果将获取的当前周期的硬件状态参数和慢查询次数带入上述公式,计算出当前周期数据库服务器的压力值P等于0.7,大于预设的压力值下限0.6,则可以延续对数据迁移任务的暂停,并在5分钟之后,再次获取运行源端数据库的数据库服务器的性能参数,并获取5分钟内源端数据库发生的慢查询次数。
需要说明的是,预设的压力值下限可以小于或等于预设的压力值上限,上述示例中压力值下限和压力值上限的具体数值仅作为示例,不用于限定本发明。
另外,考虑到执行节点在执行数据迁移任务期间,存在突然宕机的可能性。为了使数据迁移任务能顺利进行,在本发明的一些实施例中,在执行所述数据迁移任务的原执行节点发生故障的情况下,数据迁移系统中的新执行节点可以获取各批次待迁移数据各自对应的任务状态信息,并根据所获取的任务状态信息,确定所述原执行节点在发生故障时正在迁移的待迁移数据的批次和该批次对应的迁移阶段;所述新执行节点以确定出的批次和该批次对应的迁移阶段为任务起点,对未完成迁移的各批次待迁移数据继续执行数据迁移任务。
示例地,数据迁移系统中的各个执行节点可以周期性地向主节点发送心跳包,主节点基于心跳包机制检验执行节点的可用性。当主节点确定正在执行数据迁移任务的执行节点宕机后,进而确定由该执行节点所执行的数据迁移任务已经暂停。此时主节点可以向各个执行节点广播,通知各个执行节点:当前存在需要被继续执行的数据迁移任务,收到广播的多个执行节点中的空闲节点可以向协调系统发送执行请求,协调系统将暂停的数据迁移任务分配给第一个发送执行请求的执行节点。
或者示例地,数据迁移系统中的主节点可以周期性地从协调系统中调取待迁移数据的各批次分别对应的任务状态信息,如图2所示。在某批次的任务状态信息在多个周期内均未被更新的情况下,主节点确定:对所述待迁移数据执行数据迁移任务的执行节点发生故障,进而确定由该执行节点所执行的数据迁移任务已经暂停。此时,在一些实施方式中,主节点可以向各个执行节点广播,通知各个执行节点:当前存在需要被继续执行的数据迁移任务,收到广播的多个执行节点中的空闲节点可以向协调系统发送执行请求,协调系统将暂停的数据迁移任务分配给第一个发送执行请求的执行节点。
或者在另一些实施方式中,主节点可以自动确定出一个处于空闲状态的执行节点,然后将暂停的数据迁移任务下发给确定出的执行节点。如果任务下失败,则主节点重新确定出另一个处于空闲状态的执行节点,将暂停的数据迁移任务下发给重新确定出的执行节点。
该执行节点在分配到该数据迁移任务后,可以将从协调系统中查询该数据迁移任务中待迁移数据的多个批次各自对应的任务状态信息,并根据多个批次各自对应的任务状态信息,确定原执行节点在发生故障时正在迁移的待迁移数据的批次和该批次对应的迁移阶段。
例如该执行节点获取到的10个批次各自对应的任务状态信息分别是:load、load、load、load、load、load、空、空、空、空。根据这些任务状态信息,可以确定原执行节点在发生故障时正在迁移的待迁移数据的批次为第七批次,且第七批次对应的迁移阶段是:写入目标端数据库的阶段。
如此,该执行节点可以将第七批次的待迁移数据作为任务起点,开始将第七批次的待迁移数据写入目标端数据库,并接着将第八、第九、第十等批次的待迁移数据依次写入目标端数据库。然后该执行节点再针对写入目标端数据库的数据进行一致性校验,最后将源端数据库中的待迁移数据分批次删除。
需要说明的是,该执行节点在针对每个批次的待迁移数据执行完一个迁移步骤后,均需要记录或更新该批次待迁移数据对应的任务状态信息。
本发明中,在原执行节点发生故障的情况下,新执行节点通过上述方式继续执行数据迁移任务,可以尽量减少对已经迁移的待迁移数据的重复性操作,从而有效限制数据迁移任务对计算资源的消耗。上述方式中,新执行节点最多只会对一个批次的待迁移数据执行重复的迁移步骤,从而可以确保数据迁移任务的执行效率不会因原执行节点的故障而明显降低。
基于同一发明构思,本发明一实施例提供一种数据迁移装置。参考图5(a),图5(a)是本发明一实施例提出的数据迁移装置的示意图。如图5(a)所示,该装置包括:
数据写入模块51,用于在产生数据迁移任务的情况下,将源端数据库中的待迁移数据分批次地写入目标端数据库,其中,当一个批次的待迁移数据成功写入所述目标端数据库后,记录该批次待迁移数据的任务状态信息,该任务状态信息表征该批次待迁移数据已经写入所述目标端数据库;
数据删除模块52,用于针对已经写入所述目标端数据库的数据,分批次地删除所述源端数据库中与该数据对应的待迁移数据,其中,当一个批次的待迁移数据被成功删除后,更新该批次待迁移数据的任务状态信息,更新后的任务状态信息表征该批次待迁移数据已经从所述源端数据库删除;
数据读取模块53,用于在产生数据读取任务的情况下,读取待读取数据对应的任务状态信息,并根据所述任务状态信息,从所述源端数据库和所述目标端数据库中确定记录有所述待读取数据的数据库,并从该数据库读取所述待读取数据。
基于同一发明构思,本发明另一实施例提供另一种数据迁移装置。参考图5(b),图5(b)是本发明另一实施例提出的数据迁移装置的示意图。如图5(b)所示,该装置不仅包括数据写入模块51、数据删除模块52以及数据读取模块53,还包括:
数据校验模块54,用于在针对已经写入所述目标端数据库的数据,分批次地删除所述源端数据库中与该数据对应的待迁移数据之前,针对已经写入所述目标端数据库的数据,和所述源端数据库中与该数据对应的待迁移数据,进行一致性校验,在一致性校验通过的情况下,更新该数据对应的待迁移数据的任务状态信息,更新后的任务状态信息表征该数据已经通过一致性校验;
所述数据删除模块52具体用于:针对已经写入所述目标端数据库且一致性校验通过的数据,分批次地删除所述源端数据库中与该数据对应的待迁移数据。
可选地,所述装置还包括:
信息采集模块55,用于采集运行所述源端数据库的设备的硬件状态参数,以及采集所述源端数据库对应的慢查询次数;
压力值确定模块56,用于根据所述硬件状态参数和所述慢查询次数,确定所述设备当前的压力值;
任务控制模块57,用于在进行所述数据迁移任务的过程中且所述压力值大于预设的压力值上限的情况下,暂停所述数据迁移任务;或者,在暂停所述数据迁移任务期间且所述压力值小于预设的压力值下限的情况下,继续执行所述数据迁移任务。
可选地,所述数据迁移任务由执行节点执行,所述装置还包括:
阶段确定模块58,用于在执行所述数据迁移任务的原执行节点发生故障的情况下,使新执行节点获取各批次待迁移数据各自对应的任务状态信息,并根据所获取的任务状态信息,确定所述原执行节点在发生故障时正在迁移的待迁移数据的批次和该批次对应的迁移阶段;
任务执行模块59,用于使所述新执行节点以确定出的批次和该批次对应的迁移阶段为任务起点,对未完成迁移的各批次待迁移数据继续执行数据迁移任务。
可选地,所述数据写入模块51具体用于:使执行所述数据迁移任务的执行节点将所述源端数据库中的待迁移数据分批次地读取出,其中,在读取每个批次的待迁移数据时,将该批次待迁移数据中的各个数据行逐行地从所述源端数据库读取出;
使所述执行节点根据运行所述目标端数据库的设备的硬件性能参数,确定批次规模,所述批次规模表征:分批次向所述目标端数据库写入数据时,各个批次数据的数据量;
使所述执行节点根据所述批次规模,将读取到的数据分批次地写入所述目标端数据库。
可选地,所述源端数据库中的待迁移数据为数据表,所述数据写入模块51具体用于:将所述数据表中的多个数据行分批次地写入所述目标端数据库;
所述装置还包括:
整合模块60,用于在所述数据表中的所有批次的数据行均写入所述目标端数据库,且所述数据表中的所有批次的数据行均从所述源端数据库中删除后,将所述数据表中的所有批次的数据行各自对应的任务状态信息整合为关于所述数据表的总体状态信息,该总体状态信息用于表征:所述数据表已经成功迁移至所述目标端数据库。
可选地,所述数据读取模块53具体用于:在产生数据读取任务的情况下,判断是否存在针对待读取数据的数据迁移任务,如果存在针对所述待读取数据的数据迁移任务,则读取所述待读取数据对应的任务状态信息;
所述数据读取模块53还用于:如果不存在针对所述待读取数据的数据迁移任务,则从所述待读取数据对应的原始数据库读取所述待读取数据。
基于同一发明构思,本发明一实施例提供一种数据迁移系统。如图2所示,该系统包括:数据库服务器、业务服务器(图2中未示出)、协调系统以及执行节点。
其中,所述执行节点用于:在产生数据迁移任务的情况下,将源端数据库中的待迁移数据分批次地写入目标端数据库,其中,当一个批次的待迁移数据成功写入所述目标端数据库后,记录该批次待迁移数据的任务状态信息,该任务状态信息表征该批次待迁移数据已经写入所述目标端数据库;
所述执行节点还用于:针对已经写入所述目标端数据库的数据,分批次地删除所述源端数据库中与该数据对应的待迁移数据,其中,当一个批次的待迁移数据被成功删除后,更新该批次待迁移数据的任务状态信息,更新后的任务状态信息表征该批次待迁移数据已经从所述源端数据库删除;
所述数据库服务器用于:运行所述源端数据库和所述目标端数据库;
所述业务服务器用于:在产生数据读取任务的情况下,读取待读取数据对应的任务状态信息,并根据所述任务状态信息,从所述源端数据库和所述目标端数据库中确定记录有所述待读取数据的数据库,并从该数据库读取所述待读取数据;或者,所述业务服务器用于:在产生数据读取任务的情况下,向所述数据库服务器提交数据读取请求,以通过所述数据库服务器中运行的数据库代理模块执行以下步骤:读取待读取数据对应的任务状态信息,并根据所述任务状态信息,从所述源端数据库和所述目标端数据库中确定记录有所述待读取数据的数据库,并从该数据库读取所述待读取数据。
可选地,所述数据迁移系统还可以包括主节点,所述主节点用于接收工单系统下发的数据迁移任务,并将所述数据迁移任务分配给所述执行节点。
可选地,所述执行节点还用于:在针对已经写入所述目标端数据库的数据,分批次地删除所述源端数据库中与该数据对应的待迁移数据之前,针对已经写入所述目标端数据库的数据,和所述源端数据库中与该数据对应的待迁移数据,进行一致性校验,在一致性校验通过的情况下,更新该数据对应的待迁移数据的任务状态信息,更新后的任务状态信息表征该数据已经通过一致性校验。
所述执行节点在针对已经写入所述目标端数据库的数据,分批次地删除所述源端数据库中与该数据对应的待迁移数据时,具体地,针对已经写入所述目标端数据库且一致性校验通过的数据,分批次地删除所述源端数据库中与该数据对应的待迁移数据。
可选地,所述执行节点还用于:采集运行所述源端数据库的设备的硬件状态参数,以及采集所述源端数据库对应的慢查询次数;根据所述硬件状态参数和所述慢查询次数,确定所述设备当前的压力值;在进行所述数据迁移任务的过程中且所述压力值大于预设的压力值上限的情况下,暂停所述数据迁移任务;
可选地,所述执行节点还用于:采集运行所述源端数据库的设备的硬件状态参数,以及采集所述源端数据库对应的慢查询次数;根据所述硬件状态参数和所述慢查询次数,确定所述设备当前的压力值;在暂停所述数据迁移任务期间且所述压力值小于预设的压力值下限的情况下,继续执行所述数据迁移任务。
可选地,所述数据迁移系统还可以包括主节点,所述主节点用于接收工单系统下发的数据迁移任务,并将所述数据迁移任务分配给所述执行节点;
所述数据迁移系统包括的执行节点为多个,在执行所述数据迁移任务的原执行节点发生故障的情况下,所述主节点将中断的数据迁移任分配给新执行节点;新执行节点在分配到所述数据迁移任务后,获取各批次待迁移数据各自对应的任务状态信息,并根据所获取的任务状态信息,确定所述原执行节点在发生故障时正在迁移的待迁移数据的批次和该批次对应的迁移阶段;所述新执行节点以确定出的批次和该批次对应的迁移阶段为任务起点,对未完成迁移的各批次待迁移数据继续执行数据迁移任务。
可选地,所述执行节点在将源端数据库中的待迁移数据分批次地写入目标端数据库时,具体地,将所述源端数据库中的待迁移数据分批次地读取出,其中,在读取每个批次的待迁移数据时,将该批次待迁移数据中的各个数据行逐行地从所述源端数据库读取出;根据运行所述目标端数据库的设备的硬件性能参数,确定批次规模,所述批次规模表征:分批次向所述目标端数据库写入数据时,各个批次数据的数据量。
可选地,所述源端数据库中的待迁移数据为数据表,所述执行节点在将源端数据库中的待迁移数据分批次地写入目标端数据库时,具体地,将所述数据表中的多个数据行分批次地写入所述目标端数据库。
所述执行节点或所述协调系统还用于:在所述数据表中的所有批次的数据行均写入所述目标端数据库,且所述数据表中的所有批次的数据行均从所述源端数据库中删除后,将所述数据表中的所有批次的数据行各自对应的任务状态信息整合为关于所述数据表的总体状态信息,该总体状态信息用于表征:所述数据表已经成功迁移至所述目标端数据库。
可选地,在产生数据读取任务的情况下,所述业务服务器在读取待读取数据对应的任务状态信息时,具体地,判断是否存在针对待读取数据的数据迁移任务,如果存在针对所述待读取数据的数据迁移任务,则读取所述待读取数据对应的任务状态信息,如果不存在针对所述待读取数据的数据迁移任务,则从所述待读取数据对应的原始数据库读取所述待读取数据。
或者可选地,所述数据库代理模块在读取待读取数据对应的任务状态信息时,具体地,判断是否存在针对待读取数据的数据迁移任务,如果存在针对所述待读取数据的数据迁移任务,则读取所述待读取数据对应的任务状态信息,如果不存在针对所述待读取数据的数据迁移任务,则从所述待读取数据对应的原始数据库读取所述待读取数据。
本发明实施例还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现如下步骤:
在产生数据迁移任务的情况下,将源端数据库中的待迁移数据分批次地写入目标端数据库,其中,当一个批次的待迁移数据成功写入所述目标端数据库后,记录该批次待迁移数据的任务状态信息;
针对已经写入所述目标端数据库的数据,分批次地删除所述源端数据库中与该数据对应的待迁移数据,其中,当一个批次的待迁移数据被成功删除后,更新该批次待迁移数据的任务状态信息;
在产生数据读取任务的情况下,读取待读取数据对应的任务状态信息,并根据所述任务状态信息,从所述源端数据库和所述目标端数据库中确定记录有所述待读取数据的数据库,并从该数据库读取所述待读取数据。
或者,处理器601用于执行存储器603上所存放的程序时,实现本发明以上其他方法实施例所提供的数据迁移步骤。
上述终端提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的数据迁移方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的数据迁移方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (11)

1.一种数据迁移方法,其特征在于,所述方法包括:
在产生数据迁移任务的情况下,将源端数据库中的待迁移数据分批次地写入目标端数据库,其中,当一个批次的待迁移数据成功写入所述目标端数据库后,记录该批次待迁移数据的任务状态信息,该任务状态信息表征该批次待迁移数据已经写入所述目标端数据库;
针对已经写入所述目标端数据库的数据,分批次地删除所述源端数据库中与该数据对应的待迁移数据,其中,当一个批次的待迁移数据被成功删除后,更新该批次待迁移数据的任务状态信息,更新后的任务状态信息表征该批次待迁移数据已经从所述源端数据库删除;
在产生数据读取任务的情况下,读取待读取数据对应的任务状态信息,并根据所述任务状态信息,从所述源端数据库和所述目标端数据库中确定记录有所述待读取数据的数据库,并从该数据库读取所述待读取数据。
2.根据权利要求1所述的方法,其特征在于,在针对已经写入所述目标端数据库的数据,分批次地删除所述源端数据库中与该数据对应的待迁移数据之前,所述方法还包括:
针对已经写入所述目标端数据库的数据,和所述源端数据库中与该数据对应的待迁移数据,进行一致性校验,在一致性校验通过的情况下,更新该数据对应的待迁移数据的任务状态信息,更新后的任务状态信息表征该数据已经通过一致性校验;
所述针对已经写入所述目标端数据库的数据,分批次地删除所述源端数据库中与该数据对应的待迁移数据的步骤,包括:
针对已经写入所述目标端数据库且一致性校验通过的数据,分批次地删除所述源端数据库中与该数据对应的待迁移数据。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
采集运行所述源端数据库的设备的硬件状态参数,以及采集所述源端数据库对应的慢查询次数;
根据所述硬件状态参数和所述慢查询次数,确定所述设备当前的压力值;
在进行所述数据迁移任务的过程中且所述压力值大于预设的压力值上限的情况下,暂停所述数据迁移任务;或者,在暂停所述数据迁移任务期间且所述压力值小于预设的压力值下限的情况下,继续执行所述数据迁移任务。
4.根据权利要求1至3任一所述的方法,其特征在于,所述数据迁移任务由执行节点执行,在执行所述数据迁移任务的原执行节点发生故障的情况下,所述方法还包括:
新执行节点获取各批次待迁移数据各自对应的任务状态信息,并根据所获取的任务状态信息,确定所述原执行节点在发生故障时正在迁移的待迁移数据的批次和该批次对应的迁移阶段;
所述新执行节点以确定出的批次和该批次对应的迁移阶段为任务起点,对未完成迁移的各批次待迁移数据继续执行数据迁移任务。
5.根据权利要求1至3任一所述的方法,其特征在于,所述将源端数据库中的待迁移数据分批次地写入目标端数据库的步骤,包括:
执行所述数据迁移任务的执行节点将所述源端数据库中的待迁移数据分批次地读取出,其中,在读取每个批次的待迁移数据时,将该批次待迁移数据中的各个数据行逐行地从所述源端数据库读取出;
所述执行节点根据运行所述目标端数据库的设备的硬件性能参数,确定批次规模,所述批次规模表征:分批次向所述目标端数据库写入数据时,各个批次数据的数据量;
所述执行节点根据所述批次规模,将读取到的数据分批次地写入所述目标端数据库。
6.根据权利要求1至3任一所述的方法,其特征在于,所述源端数据库中的待迁移数据为数据表,所述将源端数据库中的待迁移数据分批次地写入目标端数据库的步骤,包括:
将所述数据表中的多个数据行分批次地写入所述目标端数据库;
所述方法还包括:
在所述数据表中的所有批次的数据行均写入所述目标端数据库,且所述数据表中的所有批次的数据行均从所述源端数据库中删除后,将所述数据表中的所有批次的数据行各自对应的任务状态信息整合为关于所述数据表的总体状态信息,该总体状态信息用于表征:所述数据表已经成功迁移至所述目标端数据库。
7.根据权利要求1至3任一所述的方法,其特征在于,所述在产生数据读取任务的情况下,读取待读取数据对应的任务状态信息的步骤,包括:
在产生数据读取任务的情况下,判断是否存在针对待读取数据的数据迁移任务,如果存在针对所述待读取数据的数据迁移任务,则读取所述待读取数据对应的任务状态信息;
所述方法还包括:
如果不存在针对所述待读取数据的数据迁移任务,则从所述待读取数据对应的原始数据库读取所述待读取数据。
8.一种数据迁移装置,其特征在于,所述装置包括:
数据写入模块,用于在产生数据迁移任务的情况下,将源端数据库中的待迁移数据分批次地写入目标端数据库,其中,当一个批次的待迁移数据成功写入所述目标端数据库后,记录该批次待迁移数据的任务状态信息,该任务状态信息表征该批次待迁移数据已经写入所述目标端数据库;
数据删除模块,用于针对已经写入所述目标端数据库的数据,分批次地删除所述源端数据库中与该数据对应的待迁移数据,其中,当一个批次的待迁移数据被成功删除后,更新该批次待迁移数据的任务状态信息,更新后的任务状态信息表征该批次待迁移数据已经从所述源端数据库删除;
数据读取模块,用于在产生数据读取任务的情况下,读取待读取数据对应的任务状态信息,并根据所述任务状态信息,从所述源端数据库和所述目标端数据库中确定记录有所述待读取数据的数据库,并从该数据库读取所述待读取数据。
9.一种数据迁移系统,其特征在于,包括数据库服务器、业务服务器、协调系统以及执行节点;其中,
所述执行节点用于:在产生数据迁移任务的情况下,将源端数据库中的待迁移数据分批次地写入目标端数据库,其中,当一个批次的待迁移数据成功写入所述目标端数据库后,记录该批次待迁移数据的任务状态信息,该任务状态信息表征该批次待迁移数据已经写入所述目标端数据库;
所述执行节点还用于:针对已经写入所述目标端数据库的数据,分批次地删除所述源端数据库中与该数据对应的待迁移数据,其中,当一个批次的待迁移数据被成功删除后,更新该批次待迁移数据的任务状态信息,更新后的任务状态信息表征该批次待迁移数据已经从所述源端数据库删除;
所述数据库服务器用于:运行所述源端数据库和所述目标端数据库;
所述业务服务器用于:在产生数据读取任务的情况下,读取待读取数据对应的任务状态信息,并根据所述任务状态信息,从所述源端数据库和所述目标端数据库中确定记录有所述待读取数据的数据库,并从该数据库读取所述待读取数据;或者,所述业务服务器用于:在产生数据读取任务的情况下,向所述数据库服务器提交数据读取请求,以通过所述数据库服务器中运行的数据库代理模块执行以下步骤:读取待读取数据对应的任务状态信息,并根据所述任务状态信息,从所述源端数据库和所述目标端数据库中确定记录有所述待读取数据的数据库,并从该数据库读取所述待读取数据。
10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN202010432225.XA 2020-05-20 2020-05-20 数据迁移方法、装置、系统、电子设备以及可读存储介质 Pending CN111708755A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010432225.XA CN111708755A (zh) 2020-05-20 2020-05-20 数据迁移方法、装置、系统、电子设备以及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010432225.XA CN111708755A (zh) 2020-05-20 2020-05-20 数据迁移方法、装置、系统、电子设备以及可读存储介质

Publications (1)

Publication Number Publication Date
CN111708755A true CN111708755A (zh) 2020-09-25

Family

ID=72539139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010432225.XA Pending CN111708755A (zh) 2020-05-20 2020-05-20 数据迁移方法、装置、系统、电子设备以及可读存储介质

Country Status (1)

Country Link
CN (1) CN111708755A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380185A (zh) * 2020-10-30 2021-02-19 中国人寿保险股份有限公司 一种数据转储方法、设备、电子设备及存储介质
CN112632033A (zh) * 2020-12-16 2021-04-09 深圳前海微众银行股份有限公司 集群数据迁移方法、装置及电子设备
CN112883124A (zh) * 2021-03-17 2021-06-01 重庆紫光华山智安科技有限公司 数据处理方法、装置、计算机设备及存储介质
CN113377757A (zh) * 2021-06-24 2021-09-10 杭州数梦工场科技有限公司 数据对账方法、装置、电子设备及机器可读存储介质
CN113836114A (zh) * 2021-09-27 2021-12-24 北京互金新融科技有限公司 数据迁移方法、系统、设备及存储介质
CN115098035A (zh) * 2022-07-08 2022-09-23 天津华呈鼎丰科技有限公司 基于多端云计算集群的大数据存储方法及系统
CN116975926A (zh) * 2023-08-16 2023-10-31 合肥安永信息科技有限公司 一种基于可信执行环境的数据库代理加密系统
CN112380185B (zh) * 2020-10-30 2024-05-28 中国人寿保险股份有限公司 一种数据转储方法、设备、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170269868A1 (en) * 2016-03-15 2017-09-21 Fujitsu Limited Information processing apparatus, storage system, computer-readable recording medium, and information processing method
WO2018177107A1 (zh) * 2017-03-29 2018-10-04 腾讯科技(深圳)有限公司 数据迁移方法、迁移服务器及存储介质
CN110532247A (zh) * 2019-08-28 2019-12-03 北京皮尔布莱尼软件有限公司 数据迁移方法和数据迁移系统
CN110688378A (zh) * 2019-09-06 2020-01-14 中国平安财产保险股份有限公司 数据库存储过程的迁移方法及系统
CN111159296A (zh) * 2019-12-30 2020-05-15 深圳市网心科技有限公司 一种存储扩容方法、装置、设备及可读存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170269868A1 (en) * 2016-03-15 2017-09-21 Fujitsu Limited Information processing apparatus, storage system, computer-readable recording medium, and information processing method
WO2018177107A1 (zh) * 2017-03-29 2018-10-04 腾讯科技(深圳)有限公司 数据迁移方法、迁移服务器及存储介质
CN110532247A (zh) * 2019-08-28 2019-12-03 北京皮尔布莱尼软件有限公司 数据迁移方法和数据迁移系统
CN110688378A (zh) * 2019-09-06 2020-01-14 中国平安财产保险股份有限公司 数据库存储过程的迁移方法及系统
CN111159296A (zh) * 2019-12-30 2020-05-15 深圳市网心科技有限公司 一种存储扩容方法、装置、设备及可读存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380185A (zh) * 2020-10-30 2021-02-19 中国人寿保险股份有限公司 一种数据转储方法、设备、电子设备及存储介质
CN112380185B (zh) * 2020-10-30 2024-05-28 中国人寿保险股份有限公司 一种数据转储方法、设备、电子设备及存储介质
CN112632033A (zh) * 2020-12-16 2021-04-09 深圳前海微众银行股份有限公司 集群数据迁移方法、装置及电子设备
CN112883124A (zh) * 2021-03-17 2021-06-01 重庆紫光华山智安科技有限公司 数据处理方法、装置、计算机设备及存储介质
CN113377757A (zh) * 2021-06-24 2021-09-10 杭州数梦工场科技有限公司 数据对账方法、装置、电子设备及机器可读存储介质
CN113377757B (zh) * 2021-06-24 2023-08-25 杭州数梦工场科技有限公司 数据对账方法、装置、电子设备及机器可读存储介质
CN113836114A (zh) * 2021-09-27 2021-12-24 北京互金新融科技有限公司 数据迁移方法、系统、设备及存储介质
CN113836114B (zh) * 2021-09-27 2024-04-26 北京互金新融科技有限公司 数据迁移方法、系统、设备及存储介质
CN115098035A (zh) * 2022-07-08 2022-09-23 天津华呈鼎丰科技有限公司 基于多端云计算集群的大数据存储方法及系统
CN115098035B (zh) * 2022-07-08 2022-12-13 四川银亿科技有限公司 基于多端云计算集群的大数据存储方法及系统
CN116975926A (zh) * 2023-08-16 2023-10-31 合肥安永信息科技有限公司 一种基于可信执行环境的数据库代理加密系统

Similar Documents

Publication Publication Date Title
CN111708755A (zh) 数据迁移方法、装置、系统、电子设备以及可读存储介质
US10579364B2 (en) Upgrading bundled applications in a distributed computing system
US11099937B2 (en) Implementing clone snapshots in a distributed storage system
US8214388B2 (en) System and method for adding a storage server in a distributed column chunk data store
US7546321B2 (en) System and method for recovery from failure of a storage server in a distributed column chunk data store
US7587569B2 (en) System and method for removing a storage server in a distributed column chunk data store
US7672966B2 (en) Adding extrinsic data columns to an existing database schema using a temporary column pool
US8103621B2 (en) HSM two-way orphan reconciliation for extremely large file systems
US11321291B2 (en) Persistent version control for data transfer between heterogeneous data stores
US20070061542A1 (en) System for a distributed column chunk data store
CN111737230B (zh) 数据校验方法、装置、电子设备以及可读存储介质
CN107016115B (zh) 数据导出方法、装置、计算机可读存储介质及电子设备
US11507277B2 (en) Key value store using progress verification
US20070261063A1 (en) Work item event procession
CN113760847A (zh) 日志数据处理方法、装置、设备及存储介质
CN113239012B (zh) 一种数据库迁移方法、装置、电子设备和存储介质
US11429311B1 (en) Method and system for managing requests in a distributed system
CN113253932B (zh) 一种分布式存储系统的读写控制方法和系统
US10606805B2 (en) Object-level image query and retrieval
US11256434B2 (en) Data de-duplication
US11580082B2 (en) Object storage system with control entity quota usage mapping
KR102214697B1 (ko) 데이터베이스 관리 시스템에서 데이터 저장을 위한 공간 관리를 제공하는 컴퓨터 프로그램
CN114416689A (zh) 数据迁移方法、装置、计算机设备、存储介质
CN110083509B (zh) 一种日志数据的规整方法及装置
US11748203B2 (en) Multi-role application orchestration in a distributed storage system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination