CN108959611A

CN108959611A - 数据割接方法及装置

Info

Publication number: CN108959611A
Application number: CN201810778841.3A
Authority: CN
Inventors: 姜伟; 佟佳明; 李德鑫; 金守良; 刘学成; 赵世保; 郭桦; 张鑫; 岳红; 岳一红; 李书尧
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2018-07-16
Filing date: 2018-07-16
Publication date: 2018-12-07

Abstract

本发明实施例提供一种数据割接方法及装置。该方法包括：将源数据库中的第一数据导入中间数据库，第一数据包括源数据库中在第一时刻之前的全部待割接数据；对导入中间数据库的第一数据进行数据清理和数据整合，生成第二数据；根据目标数据库的数据格式，将第二数据导入目标数据库；将源数据库中的第三数据导入中间数据库，第三数据包括源数据库中在第一时刻至当前时刻之间产生的全部待割接数据；根据第二数据，对导入中间数据库的第三数据进行数据去重，生成第四数据；根据目标数据库的数据格式，将第四数据导入目标数据库。本发明实施例的方法，实现了百亿级异构数据高效且准确的进行数据割接。

Description

数据割接方法及装置

技术领域

本发明实施例涉及通信技术领域，尤其涉及一种数据割接方法及装置。

背景技术

在国家大力倡导科技创新、互联网+的形势下,电信行业的市场竞争也日益激烈。随着国际化市场逐渐打开，电信运营商需要向互联网+方向持续演进，以迎接电信运营业的国际化竞争，把握机遇，充分认识和发现互联网发展之规律，提高长远和可持续发展竞争力。

在新的形势下，电信运营商在向互联网+方向演进的过程中，为了对作为营销资源的号卡资源进行集中统一管控，需要建设号卡资源集中管理系统，对全国范围内的号卡资源进行管理。全国范围的号卡资源的数据量达到了百亿级，且营业系统的数据还在实时发生变化。早期在设计运营商数据管理系统时，数据库能够做的事，就不用人工写应用程序，避免人工出错，然而随着业务模式的不断变化，现有系统在设计时为了减轻数据库的压力，使数据库水平扩展更加容易，以增强核心应用能力，即人工能做的事尽量不让数据库来做。从数据库的角度来说，就是数据库的结构发生了改变，即需要进行数据割接的两个系统的数据结构不同。

如何确保百亿级异构数据割接的平稳、高效、有序、准确进行，是一个亟需解决的问题。

发明内容

本发明实施例提供一种数据割接方法及装置，用以解决百亿级异构数据割接中存在的问题。

第一方面，本发明实施例提供一种数据割接方法，包括：

将源数据库中的第一数据导入中间数据库，第一数据包括源数据库中在第一时刻之前的全部待割接数据；

对导入中间数据库的第一数据进行数据清理和数据整合，生成第二数据；

根据目标数据库的数据格式，将第二数据导入目标数据库；

将源数据库中的第三数据导入中间数据库，第三数据包括源数据库中在第一时刻至当前时刻之间产生的全部待割接数据；

根据第二数据，对导入中间数据库的第三数据进行数据去重，生成第四数据；

根据目标数据库的数据格式，将第四数据导入目标数据库。

在一种可能的实现方式中，源数据库包括多个子数据库，中间数据库包括多个实例；在将源数据库中的第一数据导入中间数据库之前还包括：

根据预设规则将多个子数据库在多个实例之间进行分配。

在一种可能的实现方式中，目标数据库为分布式数据库。

在一种可能的实现方式中，

根据目标数据库的数据格式，将第二数据导入目标数据库包括：

根据目标数据库的数据格式，对第二数据进行拆分，将拆分后的数据通过多个主机设备并行导入目标数据库；

根据目标数据库的数据格式，将第四数据导入目标数据库包括：

根据目标数据库的数据格式，对第四数据进行拆分，将拆分后的数据通过多个主机设备并行导入目标数据库。

第二方面，本发明实施例提供一种数据割接装置，包括：

第一导入模块，用于将源数据库中的第一数据导入中间数据库，第一数据包括源数据库中在第一时刻之前的全部待割接数据；

第一处理模块，用于对导入中间数据库的第一数据进行数据清理和数据整合，生成第二数据；

第二导入模块，用于根据目标数据库的数据格式，将第二数据导入目标数据库；

第三导入模块，用于将源数据库中的第三数据导入中间数据库，第三数据包括源数据库中在第一时刻至当前时刻之间产生的全部待割接数据；

第二处理模块，用于根据第二数据，对导入中间数据库的第三数据进行数据去重，生成第四数据；

第四导入模块，用于根据目标数据库的数据格式，将第四数据导入目标数据库。

在一种可能的实现方式中，源数据库包括多个子数据库，中间数据库包括多个实例；还包括分配模块，用于在将源数据库中的第一数据导入中间数据库之前，根据预设规则将多个子数据库在多个实例之间进行分配。

在一种可能的实现方式中，目标数据库为分布式数据库。

在一种可能的实现方式中，

第二导入模块，具体用于根据目标数据库的数据格式，对第二数据进行拆分，将拆分后的数据通过多个主机设备并行导入目标数据库；

第四导入模块，具体用于根据目标数据库的数据格式，对第四数据进行拆分，将拆分后的数据通过多个主机设备并行导入目标数据库。

第三方面，本发明实施例提供一种数据割接设备，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如第一方面任一项所述的数据割接方法。

第四方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行以实现如第一方面任一项所述的数据割接方法。

本发明实施例提供的数据割接方法及装置，通过对待割接的数据进行拆分，将整个割接过程分为全量割接和增量割接，解决了上亿数据量无法在短时间内导入目标数据库，且大量数据处理起来失误率较高的问题，缩短了停服时间，提升了在网用户的使用体验，降低了工作人员的工作强度。通过对导入中间数据库的数据进行数据清理、数据整合和数据去重，不仅减小了需要导入目标数据库的数据量，而且确保了导入目标数据库数据的正确性，提高了数据割接的效率，降低了失误率，实现了将大量的数据在短时间内准确的割接至目标数据库。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1为本发明提供的数据割接方法一实施例的流程图；

图2为本发明提供中间数据库一实施例的结构示意图；

图3为本发明提供的数据割接方法一实施例中将数据从中间数据库导入目标数据库的示意图；

图4为本发明提供的数据割接装置一实施例的结构示意图；

图5为本发明提供的数据割接设备一实施例的结构示意图。

通过上述附图，已示出本发明明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本发明构思的范围，而是通过参考特定实施例为本领域技术人员说明本发明的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本发明的说明书和权利要求书中的术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明中的“第一”和“第二”只起标识作用，而不能理解为指示或暗示顺序关系、相对重要性或者隐含指明所指示的技术特征的数量。“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本发明的说明书中通篇提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在国家大力倡导科技创新、互联网+的形式下，电信行业的市场竞争日益激烈，国际化市场逐渐打开，要求电信运营商向互联网+方向持续演进，以迎接电信运营业的国际化竞争。把握机遇，充分认识和发现互联网发展之规律，提高长远和可持续发展竞争力。在新的形势下，电信运营商在向互联网方向演进的过程中，为了将作为营销资源的号卡资源进行集中统一管控，建设了总部号卡资源集中管理系统，对号卡资源进行集中统一管控。系统建成后，需要将分布在各个省份的30亿白卡和100亿国际移动用户识别码(InternationalMobile Subscriber Identification Number，简称：IMSI)割接至总部号卡资源集中管理系统的数据库中。各个省份的数据库与总部号卡资源集中管理系统的数据库中的数据结构不同，且营业系统数据每天都在发生变化。因此，如何将百亿级的异构数据在较短时间内，进行平稳、高效、有序、准确的割接，是一个急需解决的问题。

本发明实施例针对上述问题提供了相应的解决方案。本发明实施例提供的技术方案还可以用于其他数据割接问题，例如游戏服务器设备升级前后玩家数据的割接。

图1为本发明提供的数据割接方法一实施例的流程图，如图1所示，本实施例的方法可以包括：

步骤S101、将源数据库中的第一数据导入中间数据库，第一数据包括源数据库中在第一时刻之前的全部待割接数据。

步骤S102、对导入中间数据库的第一数据进行数据清理和数据整合，生成第二数据。

步骤S103、根据目标数据库的数据格式，将第二数据导入目标数据库。

步骤S104、将源数据库中的第三数据导入中间数据库，第三数据包括源数据库中在第一时刻至当前时刻之间产生的全部待割接数据。

步骤S105、根据第二数据，对导入中间数据库的第三数据进行数据去重，生成第四数据。

步骤S106、根据目标数据库的数据格式，将第四数据导入目标数据库。

下面通过一个具体的例子来说明本实施例提供的数据割接方法。以河南省进行数据割接为例，整个河南省需要割接的白卡数量是4千万左右，IMSI数量是1亿6千万左右，卡号IMSI关系的数量是3千万左右。为了尽量减小数据割接对于在网用户的影响，通常会选择在晚上进行数据割接，以减小对在网用户的影响。但是如此大量的数据，停服割接需要较长的时间，不仅会降低在网用户的使用体验，而且也加大了工作人员的工作强度。采用本实施例提供的数据割接方法，假如计划进行数据割接的时间为2018年5月8日零点整，可以在该时刻前一周，即可以选取第一时刻为2018年5月1日零点，在第一时刻对第一时刻之前的全部数据，即第一数据进行全量割接，将第一数据全部导入中间数据库中。采用相同的方法，将其他各省的第一数据也导入中间数据库中。然后对这些数据进行数据清理与整合，例如同一个卡号IMSI关系在多个省的数据库中出现，那么该数据可能出现了重复或者出现了错误，需要对重复数据去重复，对错误数据进行校正，以保证导入目标数据库中数据的正确性。然后在2018年5月8日零点对第一时刻即2018年5月1日零点至当前时刻即2018年5月8日零点这一周的业务数据，即第三数据进行增量割接，然后将这部分数据与全量割接的数据按业务逻辑去重，导入目标数据库。通过这种割接方式，对河南省来说，正式割接当晚需要割接的IMSI数量为28万、白卡数量为66万、卡号IMSI关系为3千万，其他大部分数据都在割接前一周通过全量割接导入了目标数据库。综上所述，采用本实施例提供的数据割接方法，停服时间短，对在网用户影响小，且降低了工作人员的工作强度。

本实施例提供的数据割接方法，通过对待割接的数据进行拆分，将整个割接过程分为全量割接和增量割接，解决了上亿数据量无法在短时间内导入目标数据库，且大量数据处理起来失误率较高的问题，缩短了停服时间，提升了在网用户的使用体验，降低了工作人员的工作强度。通过对导入中间数据库的数据进行数据清理、数据整合和数据去重，不仅减小了需要导入目标数据库的数据量，而且确保了导入目标数据库数据的正确性，提高了数据割接的效率，降低了失误率，实现了将大量的数据在短时间内准确的割接至目标数据库。

在一种可能的实现方式中，源数据库包括多个子数据库，中间数据库包括多个实例；在将源数据库中的第一数据导入中间数据库之前还包括：根据预设规则将多个子数据库在多个实例之间进行分配。

图2为本发明提供中间数据库一实施例的结构示意图，如图2所示，本实施例提供的中间数据库包括了3个实例：实例1、实例2和实例3。假如待割接的数据来自客户关系管理系统CRM的生产数据和31个省份的营业数据，则源数据库包括32个子数据库。需要将源数据库包括的32个子数据库中的数据导入中间数据库进行数据清理、整合，为了快速的将数据导入中间库，需要根据预设规则将多个子数据库在中间数据库的多个实例之间进行分配。例如，可以根据数据量的大小进行均匀分配。为了将源数据库中百亿级的数据导入中间数据库，并且使各个省份同时处理数据时相互之间的影响降到最低，可以将31个省份的子数据库按数据量大小均匀分在3个实例下建立用户，每个省份都有对应的3个用户，分别是省份上传数据的用户，简称BSS用户，客户关系管理系统上传数据的用户，简称CRM用户，数据梳理整合后存放的用户，简称PARA用户。每个实例都设置有一个管理员用户，管理员用户下存放着数据处理的脚本、各省公用的中间表和为各省大表建的索引。这样的设计可让并行处理多个省数据时数据库性能、脚本效率达到最优，并且除管理员用户外各个用户都只有对本用户下数据进行操作的权限，保证了数据的安全性。

为了获取更大的存储容量和更高的并发访问量，在一种可能的实现方式中，本实施例中的目标数据库可以设置为分布式数据库(Distributed Data Base，简称：DDB)。

分布式数据库是指利用高速计算机网络将物理上分散的多个数据存储单元连接起来组成一个逻辑上统一的数据库，将原来集中式数据库中的数据分散存储到多个通过网络连接的数据存储节点上，以获取更大的存储容量和更高的并发访问量。相对于集中式数据库而言，分布式数据库的数据存放在网络中的两个以上的节点上，每一节点都有独立处理能力，节点间可以通过网络通讯传送数据，以协同完成跨节点的处理任务。分布式数据库是一种可水平拆分、可平滑扩缩容、读写分离的在线分布式型数据库组件，可兼容连接多种数据库。

本实施例提供的数据割接方法中，目标数据库采用分布式数据库，由于分布式的目标数据库包括多个分散的数据存储节点，源数据库中的数据可以并行导入目标数据库，提高了数据割接的速度，且将大量数据分散存储在各个存储节点，提高了数据的安全性和准确性。

为了进一步提高数据割接的速度，减少数据割接所需要的时间。进一步缩短停服时间，以提高用户体验。在一种可能的实现方式中，根据目标数据库的数据格式，将第二数据导入目标数据库可以包括：

根据目标数据库的数据格式，对第二数据进行拆分，将拆分后的数据通过多个主机设备并行导入目标数据库。

根据目标数据库的数据格式，将第四数据导入目标数据库可以包括：

在一种可能的实现方式中，还可以在各个主机设备中运行多个进程，并行的将数据导入目标数据库，以进一步提高数据割接的速度。

本实施例提供的数据割接方法，通过多个主机设备并行进行数据传导，进一步提高了数据割接的处理效率，降低了失误率，从而可以将大量的数据在短时间内准确的割接至目标数据库。

图3为本发明提供的数据割接方法一实施例中将数据从中间数据库导入目标数据库的示意图。如图3所示，在本实施例中，中间数据库中待割接的数据存储在表1中，首先需要根据预设规则对该数据进行拆分，例如可以按数据量进行均分，或者根据各个主机设备的性能进行拆分，将表1中的数据拆分成了4份，分别存储在表11、表12、表21和表22中。拆分后的数据通过两个主机设备：主机1和主机2并行导入目标数据库中，主机1和主机2中分别运行了两个进程用于导入数据。具体的，表11通过主机1中的第一进程导入目标数据库，表12通过主机1的第二进程导入目标数据库，表21通过主机2的第一进程导入目标数据库，表22通过主机2的第二进程导入目标数据库。本实施例中，通过两个主机设备中并行运行的四个进程，可以将数据导入的速度提升4倍。在具体实施中，可以采用更多的主机设备以进一步提升速度。

由于中间数据库与目标数据库中的数据结构不同，因此在导入之前还需要进行数据格式转换。可选的，可以采用DataX实现数据格式的转换。DataX是一个异构数据源离线同步工具，致力于实现包括关系型数据库MySQL、Oracle、HDFS、Hive、MaxCompute、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。DataX能够在异构的数据库/文件系统之间高速交换数据，采用Framework+plugin架构构建，Framework可以处理缓冲、流控、并发、上下文加载等高速数据交换的大部分技术问题，提供了简单的接口与插件交互，插件仅需实现对数据处理系统的访问，数据传输过程在单进程内完成，全内存操作，不读写磁盘，也没有IPC开放式的框架，使得开发者可以在极短的时间开发一个新插件以快速支持新的数据库/文件系统。

本实施例中可以采用DataX本身的离线数据同步框架，采用Framework+plugin架构构建，将数据源读取和写入抽象成为Reader/Writer插件，纳入到整个同步框架中。

以源数据库和中间数据库均采用Oracle数据库，以目标数据库采用分布式关系型数据库服务(Distributed Relational Database Service，简称：DRDS)为例进行说明。在数据割接过程中，可以采用OracleReader插件从Oracle数据库中读取数据。在底层实现上，OracleReader可以通过Java数据库连接(Java DataBase Connectivity，简称：JDBC)连接远程Oracle数据库，并执行相应的SQL查询语句将数据从Oracle库中选择SELECT出来，并将该SQL执行返回结果使用DataX自定义的数据类型拼装为抽象的数据集，并传递给下游Writer处理。对于用户配置Table、Column、Where的信息，OracleReader将其拼接为SQL语句发送到Oracle数据库；对于用户配置querySql信息，Oracle直接将其发送到Oracle数据库。

DRDS写入模块对通过DataX框架读取模块获取的协议数据，在没有遇到主键或者唯一性索引冲突时，通过替换语句写入数据到DRDS，在冲突时会用新行替换原有行所有字段。DRDS写入模块累积一定数据，提交给DRDS的代理，该代理内部决定数据是写入一张还是多张表以及多张表写入时如何路由数据。

将上亿数据从Oracle中间库导入到DRDS分布式数据库仅用一个DATAX程序是无法实现的。可以采用多主机多进程并行的办法将上亿数据按一定规则拆分成若干份，然后同时进行传导。以全量割接时的IMSI表为例，可以将IMSI表均匀拆分成若干份，然后在每个主机上运行2-3个DATAX进程将这个表的数据同时导入至分布式DRDS数据库分布式关系型数据库服务。

本发明实施例还提供一种数据割接装置，请参见图4所示，本发明实施例仅以图4为例进行说明，并不表示本发明仅限于此。图4为本发明提供的数据割接装置一实施例的结构示意图。如图4所示，本实施例提供的数据割接装置40包括：第一导入模块401、第一处理模块402、第二导入模块403、第三导入模块404、第二处理模块405和第四导入模块406。

第一导入模块401，用于将源数据库中的第一数据导入中间数据库，第一数据包括源数据库中在第一时刻之前的全部待割接数据；

第一处理模块402，用于对导入中间数据库的第一数据进行数据清理和数据整合，生成第二数据；

第二导入模块403，用于根据目标数据库的数据格式，将第二数据导入目标数据库；

第三导入模块404，用于将源数据库中的第三数据导入中间数据库，第三数据包括源数据库中在第一时刻至当前时刻之间产生的全部待割接数据；

第二处理模块405，用于根据第二数据，对导入中间数据库的第三数据进行数据去重，生成第四数据；

第四导入模块406，用于根据目标数据库的数据格式，将第四数据导入目标数据库。

本实施例的装置，可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

在一种可能的实现方式中，源数据库可以包括多个子数据库，中间数据库可以包括多个实例；数据割接装置还可以包括分配模块，用于在将源数据库中的第一数据导入中间数据库之前，根据预设规则将多个子数据库在多个实例之间进行分配。

在一种可能的实现方式中，目标数据库为分布式数据库。

在一种可能的实现方式中，第二导入模块403，具体用于根据目标数据库的数据格式，对第二数据进行拆分，将拆分后的数据通过多个主机设备并行导入目标数据库；第四导入模块406，具体用于根据目标数据库的数据格式，对第四数据进行拆分，将拆分后的数据通过多个主机设备并行导入目标数据库。

本发明实施例还提供一种数据割接设备，请参见图5所示，本发明实施例仅以图5为例进行说明，并不表示本发明仅限于此。图5为本发明提供的数据割接设备一实施例的结构示意图。如图5所示，本实施例提供的数据割接设备50包括：存储器501、处理器502和总线503。其中，总线503用于实现各元件之间的连接。

存储器501中存储有计算机程序，计算机程序被处理器502执行时可以实现上述任一方法实施例提供的数据割接方法的技术方案。

其中，存储器501和处理器502之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接，如可以通过总线503连接。存储器501中存储有实现数据割接方法的计算机程序，包括至少一个可以软件或固件的形式存储于存储器501中的软件功能模块，处理器502通过运行存储在存储器501内的软件程序以及模块，从而执行各种功能应用以及数据处理。

存储器501可以是，但不限于，随机存取存储器(Random Access Memory，简称：RAM)，只读存储器(Read Only Memory，简称：ROM)，可编程只读存储器(ProgrammableRead-Only Memory，简称：PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，简称：EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，简称：EEPROM)等。其中，存储器501用于存储程序，处理器502在接收到执行指令后，执行程序。进一步地，上述存储器501内的软件程序以及模块还可包括操作系统，其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动，并可与各种硬件或软件组件相互通信，从而提供其他软件组件的运行环境。

处理器502可以是一种集成电路芯片，具有信号的处理能力。上述的处理器502可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、网络处理器(Network Processor，简称：NP)等。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以理解，图5的结构仅为示意，还可以包括比图5中所示更多或者更少的组件，或者具有与图5所示不同的配置。图5中所示的各组件可以采用硬件和/或软件实现。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时可以实现上述任一方法实施例提供的数据割接方法。本实施例中的计算机可读存储介质可以是计算机能够存取的任何可用介质，或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备，可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如SSD)等。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种数据割接方法，其特征在于，包括：

将源数据库中的第一数据导入中间数据库，所述第一数据包括所述源数据库中在第一时刻之前的全部待割接数据；

对导入所述中间数据库的所述第一数据进行数据清理和数据整合，生成第二数据；

根据目标数据库的数据格式，将所述第二数据导入所述目标数据库；

将所述源数据库中的第三数据导入所述中间数据库，所述第三数据包括所述源数据库中在所述第一时刻至当前时刻之间产生的全部待割接数据；

根据所述第二数据，对导入所述中间数据库的所述第三数据进行数据去重，生成第四数据；

根据所述目标数据库的数据格式，将所述第四数据导入所述目标数据库。

2.根据权利要求1所述的方法，其特征在于，所述源数据库包括多个子数据库，所述中间数据库包括多个实例；在所述将源数据库中的第一数据导入中间数据库之前还包括：

根据预设规则将所述多个子数据库在所述多个实例之间进行分配。

3.根据权利要求1所述的方法，其特征在于，所述目标数据库为分布式数据库。

4.根据权利要求1-3任一项所述的方法，其特征在于，

所述根据目标数据库的数据格式，将所述第二数据导入所述目标数据库包括：

根据所述目标数据库的数据格式，对所述第二数据进行拆分，将拆分后的数据通过多个主机设备并行导入所述目标数据库；

所述根据所述目标数据库的数据格式，将所述第四数据导入所述目标数据库包括：

根据所述目标数据库的数据格式，对所述第四数据进行拆分，将拆分后的数据通过所述多个主机设备并行导入所述目标数据库。

5.一种数据割接装置，其特征在于，包括：

第一导入模块，用于将源数据库中的第一数据导入中间数据库，所述第一数据包括所述源数据库中在第一时刻之前的全部待割接数据；

第一处理模块，用于对导入所述中间数据库的所述第一数据进行数据清理和数据整合，生成第二数据；

第二导入模块，用于根据目标数据库的数据格式，将所述第二数据导入所述目标数据库；

第三导入模块，用于将所述源数据库中的第三数据导入所述中间数据库，所述第三数据包括所述源数据库中在所述第一时刻至当前时刻之间产生的全部待割接数据；

第二处理模块，用于根据所述第二数据，对导入所述中间数据库的所述第三数据进行数据去重，生成第四数据；

第四导入模块，用于根据所述目标数据库的数据格式，将所述第四数据导入所述目标数据库。

6.根据权利要求5所述的装置，其特征在于，所述源数据库包括多个子数据库，所述中间数据库包括多个实例；还包括分配模块，用于在所述将源数据库中的第一数据导入中间数据库之前，根据预设规则将所述多个子数据库在所述多个实例之间进行分配。

7.根据权利要求5所述的装置，其特征在于，所述目标数据库为分布式数据库。

8.根据权利要求5-7任一项所述的装置，其特征在于，

所述第二导入模块，具体用于根据所述目标数据库的数据格式，对所述第二数据进行拆分，将拆分后的数据通过多个主机设备并行导入所述目标数据库；

所述第四导入模块，具体用于根据所述目标数据库的数据格式，对所述第四数据进行拆分，将拆分后的数据通过所述多个主机设备并行导入所述目标数据库。

9.一种数据割接设备，其特征在于，包括：

存储器；

处理器；以及

计算机程序；

其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1-4任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行以实现如权利要求1-4任一项所述的方法。