CN108073688A

CN108073688A - 一种数据迁移的方法及装置

Info

Publication number: CN108073688A
Application number: CN201711158991.6A
Authority: CN
Inventors: 孙迁; 叶国华; 钱津津; 丁安国; 范东
Original assignee: Suning Commerce Group Co Ltd
Current assignee: Suning Commerce Group Co Ltd
Priority date: 2017-11-20
Filing date: 2017-11-20
Publication date: 2018-05-25
Anticipated expiration: 2037-11-20
Also published as: CN108073688B

Abstract

本发明实施例公开了一种数据迁移的方法及装置，涉及电子商务领域，能够提升的数据迁移效率并降低成本。本发明包括：加载数据迁移组件，并读取配置文件中记录的配置信息；从源数据库抽取待迁移的数据，并导入内存；运行所述数据迁移组件中的数据迁移逻辑，并根据所述配置信息确定目标库表；将所述待迁移的数据分配到所述目标库表。本发明适用于数据迁移过程。

Description

一种数据迁移的方法及装置

技术领域

本发明涉及电子商务领域，尤其涉及一种数据迁移的方法及装置。

背景技术

随着电子商务技术的发展，系统中需要实时维护的数据量越来越大，同一平台中的不同业务部门每时每刻都在产生海量数据。而在数据的日常维护过程中, 比如在重构系统或者系统更新过程中，对已有数据进行迁移又是一项必备工作。

目前，传统的数据迁移技术已越来越难以适应爆炸式增长的数据量。例如：电商平台中的数据迁移，通常都是先将数据全部抽取到HDFS(Hadoop Distributed File System，分布式文件系统)中去，然后依照数据分库分表的规则进行数据迁移。

但是，当前的各业务部门往往都记录了海量的数据表来说，因此在数据迁移的过程中，当从HDFS获取到数据后，还需要技术人员根据业务规则对从HDFS 获取到的数据再进行数据初始化，时间精力耗费巨大。

发明内容

本发明的实施例提供一种数据迁移的方法及装置，能够提升的数据迁移效率并降低成本。

为达到上述目的，本发明的实施例采用如下技术方案：

将相关的迁移逻辑封装在组件中，用户只要将分库分表的规则配置到配置文件中，通过自动可批量的抽取源库数据(待迁移的数据)到内存中，再经过分库分表的规则，迅速的将数据分配到目标库表中去，整个过程基于内存计算，即可将源数据直接按照业务规则分配到目标数据库中去，从而实现对数据进行全量以及增量的迁移。

本发明实施例提供的数据迁移的方法及装置，利用了SPARK的数据处理快的特点，使运算速度得到了很大的提升。本实施例实现了自动化的完成了业务数据的横向扩展、平行迁移工作，解决了业务系统海量数据迁移周期长、投入成本大等问题，相比于传统技术的数据迁移效率都得到了极大的提高。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种系统架构示意图；

图2为本发明实施例提供的方法流程示意图；

图3、图4为本发明实施例提供的具体实例示意图；

图5为本发明实施例提供的另一种系统架构示意图；

图6、7为本发明实施例提供的装置结构示意图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。下文中将详细描述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/ 或”包括一个或更多个相关联的列出项的任一单元和全部组合。本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

本实施例中的方法流程，具体可以在一种如图1所示的系统上执行，该系统包括：

处理系统、源数据库、目标数据库。其中，处理系统上运行SPARK(一种专为大规模数据处理而设计的快速通用的计算引擎)。处理系统在硬件层面上具体可以是工作站、超级计算机等设备，或者是由多台服务器组成的一种用于数据处理的服务器集群。

本实施例中所揭示的源数据库和目标数据库，在硬件层面上具体可以是由多台服务器组成的一种用于数据处理和存储的服务器集群。

本发明实施例提供一种数据迁移的方法，如图2所示，包括：

S1、加载数据迁移组件，并读取配置文件中记录的配置信息。

其中，处理系统的存储其中存储数据迁移组件(具体可以采用SPARK数据迁移组件)，并由处理系统的处理器加载数据迁移组件。之后处理系统读取预先设定的配置文件中的配置信息。具体的，所述配置信息至少包括了：读取数据库连接配置、分库配置和分表配置，所述数据库连接配置中记录了所述源数据库与目标数据库的映射关系。例如，图3所示的数据迁移组件的基本架构：

其中的DataSourceRegister是整个(组件)功能的核心类，在数据迁移组件运行的过程中，DataSourceRegister读取SCM(Software Configuration Management，软件配置管理，是一种标识、组织和控制修改的技术)或者Jar包 (一个自包含的Java应用程序的文件，存储在特别配置的JAR文件中，可以由JVM直接执行它而无需事先提取文件或者设置类路径)里面XML(Extensible Markup Language，可扩展标记语言)的配置文件datasource.xml和 container.xml；

其中，Datasource.xml中记录了数据库连接配置，Container.xml中记录了由数据库连接配置和分表分库的配置组合而成的数据源配置；

具体的，DataSourceHashMap，表示数据源信息定义的集合；

DataSourceContainerMap，表示数据源存放的容器定义的集合；

DataSourceContainer，表示数据源存放的容器；

LightWeightDataSource，表示数据源信息。

通过读取Datasource.xml和Container.xml，明确在本次数据迁移过程中，源数据库中的待迁移的数据被分多少张表、以及按照什么规则分表的。比如：一般商品产品线是以商品编码的最后三位取模进行分表。会员以会员ID最后三位取模。分表的规则可以为：表名是:tbl_business_000到tbl_business_999, 那么表名的规则就是tbl_business_％d，分了0-999张表。通过读取 Datasource.xml和Container.xml，也明确数据源头在生产环境分多少库。比如，分库的规则可以为：按照区间(range),按照表ID取模(mode)进行分库。

S2、从源数据库抽取待迁移的数据，并导入内存。

其中，源数据库具体可以包括：会员系统、营销平台、商品寻源系统，价格产品线系统等诸多电商平台上运行的业务系统所使用的数据库，不同业务系统所的数据库的分表分库规则通常来说各不相同。

S3、在所述内存中的SPARK任务执行时，通过所述数据迁移组件中的数据迁移逻辑，根据所述配置信息确定目标库表。

其中，SPARK是基于内存的计算引擎，导入待迁移的数据的内存也可称为 SPARK内存。从源数据库抽取待迁移的数据，并导入内存，以便于根据分库分表的规则，迅速的将内存中的待迁移的数据分配到目标库表中去，整个过程基于内存计算，速度得到了很大的提升。数据迁移逻辑，以及分库分表逻辑操作封装在SPARK数据迁移组件中。目前SPARK技术已提供相应的动作执行的方式，数据迁移逻辑可以按照SPARK技术中的动作执行的方式进行编译。由于已将相关的迁移逻辑封装在组件中，用户只要将分库分表的规则配置到配置文件中，处理系统就可以自动对数据进行全量以及增量的迁移。

S4、将所述待迁移的数据分配到所述目标库表。

在现有的技术方案中，由于迁移前后数据比对困难，大量的手工操作出现失误等问题。也造成了数据迁移的准确度低的问题。比如：传统的业务数据迁移面对海量的数据显得相当的束手无力，并且根据分库分表的规则做横向扩展的时候，计算过程相当的复杂，在面临成千上万张表做迁移的时候需要重复大量的相同的操作，更是让技术人员望而却步。并且，在目前大多数电商的后台运维过程中，分库分表数据迁移都是单表到单表一对一的迁移，如果成千上万张表，就得手工配置成千上万个任务，其效率极其低下。

本实施例中，将相关的迁移逻辑封装在组件中，用户只要将分库分表的规则配置到配置文件中，即可将源数据直接按照业务规则分配到目标数据库中去，从而实现对数据进行全量以及增量的迁移。实现了自动化的完成了业务数据的横向扩展、平行迁移工作，解决了业务系统海量数据迁移周期长、手工操作出现失误导致的数据不准确、投入成本大等问题。无论从源数据抽取还是根据业务规则进行分库分表的数据迁移，相比于传统技术的数据迁移效率都得到了极大的提高。

尤其是实现了自动可批量的抽取源库数据(待迁移的数据)到内存中，再经过分库分表的规则，迅速的将数据分配到目标库表中去，整个过程基于内存计算，利用了SPARK的数据处理快的特点，速度得到了很大的提升。

并且在迁移的过程中，如果由技术人员重复大量的相同的操作，极易造成失误导致数据迁移不准确性，本实施例中通过用于数据迁移的业务组件做数据迁移后，只要规则配置正确，所有的数据初始化操作都已封装在组件中，只需等待SPARK任务自动运行结束即可。在准确性方面得到了提高。

在本实施例中，步骤S2中所述从源数据库抽取待迁移的数据的具体方式，包括：

从所述配置信息中，读取数据库连接配置、分库配置和分表配置。根据所述数据库连接配置确定所述源数据库。根据所述分库配置和所述分表配置，在所述源数据库中查询得到指定分库中的数据表。抽取查询得到的数据表作为所述待迁移的数据。

例如：根据数据库连接配置确定源数据库和与之对应的目标库表的位置，根据分库配置和分表配置确定具体的分库分表规则。而订单行号则可以作为所述待迁移的数据中具体数据表的识别标识，处理系统根据订单行号完成映射。

在本实施例中，步骤S3中根据所述配置信息确定目标库表的具体方式，包括：

根据所述数据库连接配置确定目标数据库。

根据所述分库配置和所述分表配置，确定所述目标库表的表名和表结构。根据所述表名和所述表结构，在所述目标数据库中查询得到所述目标库表。

其中，表名具体可以是订单行号。具体的，会员系统、营销平台、商品寻源系统，价格产品线系统等诸多电商平台上运行的业务系统的分表分库规则不同，但基本都会采用订单行号作为基础的识别标识。例如：如图4所示的，

DataFrameOutput，用于数据输出；

DataFrameOutputConfig，用于数据输出配置；DataFrame,用于导出数据的源头数据，以便生成数据源；

LightWeightDataSource,用于导出数据目标表所在的数据库配置；

Tablename,用于导出数据目标表名；

Mode,用于控制2种具体的运行模式，即INSERT模式(批量插入模式)和INSERT_OR_UPDATE模式(即查找-插入/更新模式)；

FieldMappings,用于字段映射；

在本实施例中，步骤S3中将所述待迁移的数据分配到所述目标库表的具体方式，包括：

在所述内存中建立SPARK任务。获取所述待迁移的数据中的各数据表的表名。利用所获取的表名将各数据表分配到所述目标库表。

其中，所述SPARK任务中的SparkConf配置根据所述配置信息设置。具体的，可以将Spark的应用开发分为几个步骤，在各个步骤中使用模板类可以为开发减少重复代码，从而进一步减少人工成本，节约时间，例如：

设置SparkConf配置，使用模板类中的SparkJobConfig类进行配置的输入，DefaultSparkJobConfig根据配置文件中的配置进行默认设置；启动Spark和设置公司平台特定处理，模板类自动根据配置启动SparkContext和对大数据开发平台的Driver，数据库Dialect进行注册；业务开发，开发时实现process(JavaSparkContext context)方法，进行业务实现；完成process后，模板类自动停止SparkContext。期间的Spark错误等Exception,通过模板类自动捕捉和做相应处理。

在本实施例中，如图5所示的，系统中还可以包括分布式文件系统(HDFS)。在此基础上还包括以下流程：在从源数据库抽取待迁移的数据后，将所述待迁移的数据复制到分布式文件系统(HDFS)。当所述待迁移的数据导入所述内存不成功时，从所述分布式文件系统提取所述待迁移的数据导入所述内存。

从而同时复制一份数据存储进HDFS，以便于做好备份，提高数据迁移过程中数据的安全性。

本发明实施例还提供一种数据迁移的装置，如图6所示的，包括：

组件管理模块，用于加载数据迁移组件，并读取配置文件中记录的配置信息；

数据管理模块，用于从源数据库抽取待迁移的数据，并导入内存；

分析模块，用于运行所述数据迁移组件中的数据迁移逻辑，并根据所述配置信息确定目标库表；

导入模块，用于将所述待迁移的数据分配到所述目标库表。

具体的，所述数据管理模块，具体用于从所述配置信息中，读取数据库连接配置、分库配置和分表配置，所述数据库连接配置中记录了所述源数据库与目标数据库的映射关系；并根据所述数据库连接配置确定所述源数据库；

之后根据所述分库配置和所述分表配置，在所述源数据库中查询得到指定分库中的数据表；抽取查询得到的数据表作为所述待迁移的数据；

所述分析模块，具体用于根据所述数据库连接配置确定目标数据库；并根据所述分库配置和所述分表配置，确定所述目标库表的表名和表结构；之后，根据所述表名和所述表结构，在所述目标数据库中查询得到所述目标库表。

所述导入模块，具体用于在所述内存中建立SPARK任务，所述SPARK任务中的SparkConf配置根据所述配置信息设置；并获取所述待迁移的数据中的各数据表的表名；之后利用所获取的表名将各数据表分配到所述目标库表。

进一步的，如图7所示的，该装置还包括：

备份模块，用于在从源数据库抽取待迁移的数据后，将所述待迁移的数据复制到分布式文件系统(HDFS)；

所述数据管理模块，还用于当所述待迁移的数据导入所述内存不成功时，从所述分布式文件系统提取所述待迁移的数据导入所述内存。

该装置具体可以运行在如图1所示的处理系统上，该处理系统的具体架构中，应至少包括：包括输入单元、处理器单元、输出单元、通信单元、存储单元、外设单元等组件。这些组件通过一条或多条总线进行通信。本领域技术人员可以理解，图中示出的处理系统的结构并不构成对本发明的限定，它既可以是总线形结构，也可以是星型结构，还可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。处理系统在硬件层面上具体可以是工作站、超级计算机等设备，或者是由多台服务器组成的一种用于数据处理的服务器集群。

输入单元用于实现用户与处理系统的交互和/或信息输入到处理系统中。例如，输入单元可以接收用户输入的数字或字符信息，以产生与用户设置或功能控制有关的信号输入。

处理器单元为处理系统的控制中心，利用各种接口和线路连接整个处理系统的各个部分，通过运行或执行存储在存储单元内的软件程序和/或模块，以及调用存储在存储单元内的数据，以执行处理系统的各种功能和/或处理数据。所述处理器单元可以由集成电路(Integrated Circuit，简称IC)组成，例如可以由单颗封装的IC所组成，也可以由连接多颗相同功能或不同功能的封装IC而组成。在本发明实施方式中，CPU可以是单运算核心，也可以包括多运算核心。

所述通信单元用于建立通信信道，使处理系统通过所述通信信道以连接至远程服务器，并从所述远程服务器下媒体数据。所述通信单元可以包括无线局域网(WirelessLocal Area Network，简称wireless LAN)模块、蓝牙模块、基带(Base Band)模块等通信模块，以及所述通信模块对应的射频(Radio Frequency，简称 RF)电路，用于进行无线局域网络通信、蓝牙通信、红外线通信及/或蜂窝式通信系统通信，例如宽带码分多重接入(Wideband Code Division Multiple Access，简称W-CDMA)及/或高速下行封包存取(HighSpeed Downlink Packet Access，简称 HSDPA)。所述通信模块用于控制处理系统中的各组件的通信，并且可以支持直接内存存取(Direct Memory Access)。

输出单元包括但不限于影像输出单元和声音输出单元。影像输出单元用于输出文字、图片和/或视频。所述影像输出单元可包括显示面板，例如采用LCD (Liquid CrystalDisplay，液晶显示器)、OLED(Organic Light-Emitting Diode，有机发光二极管)、场发射显示器(field emission display，简称FED)等形式来配置的显示面板。或者所述影像输出单元可以包括反射式显示器，例如电泳式 (electrophoretic)显示器，或利用光干涉调变技术(Interferometric Modulation of Light)的显示器。所述影像输出单元可以包括单个显示器或不同尺寸的多个显示器。在本发明的具体实施方式中，上述输入单元所采用的触控面板亦可同时作为输出单元的显示面板。例如，当触控面板检测到在其上的触摸或接近的手势操作后，传送给处理单元以确定触摸事件的类型，随后处理单元根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图1中，输入单元与输出单元是作为两个独立的部件来实现处理系统的输入和输出功能，但是在某些实施例中，可以将触控面板与显示面板集成一体而实现处理系统的输入和输出功能。例如，所述影像输出单元可以显示各种图形化用户接口(Graphical User Interface，简称GUI)以作为虚拟控制组件，包括但不限于窗口、卷动轴、图标及剪贴簿，以供用户通过触控方式进行操作。

存储单元可用于存储软件程序以及模块，处理单元通过运行存储在存储单元的软件程序以及模块，从而执行处理系统的各种功能应用以及实现数据处理。存储单元主要包括程序存储区和数据存储区，其中，程序存储区可存储操作系统、以及用于实现本实施例中功能所需的应用程序。

具体的，处理单元，其被配置为运行所述存储模块中存储的计算机程序，以实现：

组件管理模块、数据管理模块、分析模块、导入模块和备份模块的具体功能。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种数据迁移的方法，其特征在于，包括：

加载数据迁移组件，并读取配置文件中记录的配置信息；

从源数据库抽取待迁移的数据，并导入内存；

在所述内存中的SPARK任务执行时，通过所述数据迁移组件中的数据迁移逻辑，根据所述配置信息确定目标库表；

将所述待迁移的数据分配到所述目标库表。

2.根据权利要求1所述的方法，其特征在于，还包括：

从所述配置信息中，读取数据库连接配置、分库配置和分表配置，所述数据库连接配置中记录了所述源数据库与目标数据库的映射关系；

根据所述数据库连接配置确定所述源数据库。

3.根据权利要求2所述的方法，其特征在于，所述从源数据库抽取待迁移的数据，包括：

根据所述分库配置和所述分表配置，在所述源数据库中查询得到指定分库中的数据表；

抽取查询得到的数据表作为所述待迁移的数据。

4.根据权利要求3所述的方法，其特征在于，所述根据所述配置信息确定目标库表，包括：

根据所述数据库连接配置确定目标数据库；

根据所述分库配置和所述分表配置，确定所述目标库表的表名和表结构；

根据所述表名和所述表结构，在所述目标数据库中查询得到所述目标库表。

5.根据权利要求1所述的方法，其特征在于，所述将所述待迁移的数据分配到所述目标库表，包括：

在所述内存中建立SPARK任务，所述SPARK任务中的SparkConf配置根据所述配置信息设置；

获取所述待迁移的数据中的各数据表的表名；

利用所获取的表名将各数据表分配到所述目标库表。

6.根据权利要求1所述的方法，其特征在于，还包括：

在从源数据库抽取待迁移的数据后，将所述待迁移的数据复制到分布式文件系统(HDFS)；

当所述待迁移的数据导入所述内存不成功时，从所述分布式文件系统提取所述待迁移的数据导入所述内存。

7.一种数据迁移的装置，其特征在于，包括：

导入模块，用于将所述待迁移的数据分配到所述目标库表。

8.根据权利要求1所述的装置，其特征在于，所述数据管理模块，具体用于从所述配置信息中，读取数据库连接配置、分库配置和分表配置，所述数据库连接配置中记录了所述源数据库与目标数据库的映射关系；并根据所述数据库连接配置确定所述源数据库；

9.根据权利要求7所述的装置，其特征在于，所述导入模块，具体用于在所述内存中建立SPARK任务，所述SPARK任务中的SparkConf配置根据所述配置信息设置；并获取所述待迁移的数据中的各数据表的表名；之后利用所获取的表名将各数据表分配到所述目标库表。

10.根据权利要求7所述的装置，其特征在于，还包括：