CN113792025A

CN113792025A - 一种基于国产cpu环境的mmt数据迁移方法

Info

Publication number: CN113792025A
Application number: CN202110918691.3A
Authority: CN
Inventors: 张�浩; 宋晓琳; 李春龙
Original assignee: Inspur Software Group Co Ltd
Current assignee: Inspur Software Group Co Ltd
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2021-12-14

Abstract

本发明公开了一种基于国产CPU环境的MMT数据迁移方法，属于数据迁移技术领域，包括映射、迁移和测试，并进行迭代演化，逐步将旧系统的数据迁移到新系统中；建立数据映射模型，在业务层建立旧系统到新系统的模块功能映射，同时在新旧两个系统维度分别建立业务层模块到数据层表字段的映射，前两层映射推出数据层新旧表字段的映射；通过数据处理策略对源数据库迁移至目标数据库的迁移数据进行数据处理，包括清洗策略、补齐策略和字段映射字典，实现字段的映射和数据补齐；测试包括数据验证性测试、程序适配和线上应急预案。本发明让旧系统的历史数据平稳地迁移到新系统，从而使新系统进行二次使用，让历史数据同新系统的原生数据一样被使用。

Description

一种基于国产CPU环境的MMT数据迁移方法

技术领域

本发明涉及数据迁移技术领域，具体涉及一种基于国产CPU环境的MMT数据迁移方法。

背景技术

近年来，国家大力扶持具有自主知识产权的全国产软硬件的发展，涌现了以国产操作系统和CPU为代表的众多具有自主知识产权的基础软硬件产品。中标麒麟系统、深度操作系统等国产操作系统生态环境日趋完善，龙芯、飞腾等具有自主知识产权的高端通用芯片蓬勃发展，技术水平达到或接近同类产品的世界先进水平。

随着国产基础软硬件的蓬勃发展，国产基础软硬件的推广和使用带来了前所未有的机遇。数据库作为生态环境中重要的一环，基于国产操作系统和CPU的环境下涌现出了多种国产数据库。在国产化环境下，通过更新换代实现信息化系统的功能升级已成为当前企业和政府部门信息化建设的重要方向，如何把旧系统的数据迁移到新系统中二次使用，成为当前政府部门使用系统过程中面临的主要问题，以公文系统为例，由于国产化替代工作的需要，原有的旧系统不再使用，取而代之的是新的建设厂商研发的新系统，但旧系统中存在大量的历史数据，这些数据时间跨度大，数据量大，数据种类多，数据存储结构存在很大差异。在研发新系统的过程中，新系统的建设会参考旧系统，但在产品设计上不应该受原系统的局限，新系统在业务层面和旧系统差距大，这给数据迁移带来了挑战。并且新旧系统替换场景的数据迁移不等同于生产系统到数据仓库的数据ETL，而是将需要的历史数据一次或者是几次转换到新的系统中，形成新系统中的业务数据。显然常用的ETL工具不能满足实际工作的需要，仍然需要结合实际情况，按照ETL的思路，进行历史数据或归档数据的迁移工作。

发明内容

本发明的技术任务是提供一种基于国产CPU环境的MMT数据迁移方法，让旧系统的历史数据平稳地迁移到新系统，从而使新系统进行二次使用，让历史数据同新系统的原生数据一样被使用。

本发明解决其技术问题所采用的技术方案是：

一种基于国产CPU环境的MMT(map、migrate、test)数据迁移方法，包括映射、迁移和测试，并进行迭代演化，逐步将旧系统的数据迁移到新系统中；

建立数据映射模型，在业务层建立旧系统到新系统的模块功能映射，同时在新旧两个系统维度分别建立业务层模块到数据层表字段的映射，前两层映射推出数据层新旧表字段的映射；

通过数据处理策略对源数据库迁移至目标数据库的迁移数据进行数据处理，包括清洗策略、补齐策略和字段映射字典，实现字段的映射和数据补齐；

测试包括数据验证性测试、程序适配和线上应急预案。

该MMT数据迁移方法针对新旧系统替换场景中的数据迁移，映射(map)完成新旧系统在业务层和数据层的映射，新系统的设计会在旧系统的基础上升级改造，业务层的功能点、业务逻辑等都发生了变化，进而数据层存在较大差异，在映射阶段将研究数据迁移映射模型、数据补齐等内容；

迁移(migrate)通过现有DMS(data migration system)工具或自建工具，完成把数据从源数据库迁移到目标数据库的过程，这个阶段完成数据类型的转换，实现数据补齐；

测试(test)：数据能够真正使用起来，往往要做程序方面的适配，比如添加历史数据标识和支持历史数据的特有数据等，在这个阶段要充分考虑数据测试，必要时用户也要参与其中反馈问题，做必要的数据补齐。

该MMT数据迁移方法更加强调迭代，根据实际情况按业务模块和历史数据的时间维度等迭代演化，逐步将旧系统的数据迁移到新系统中。

优选的，所述建立数据映射模型：

1)、完成新旧系统业务层的映射，若有新系统A'替换旧系统A，A系统有功能M1、M2…Mn，新系统A'有功能M'1、M'2…M'm，则建立旧系统到新系统的功能映射包括：A到A'业务模块的一一映射、A系统中的多个模块映射到A'的一个业务模块、A系统中的多个模块映射到A'的多个业务模块、A系统中没有模块，用Null表示，A'新增全新的业务模块，其实现方式如下：

2)、分别完成A和A'业务层到数据层的字段映射，若以T和T'分别表示数据层的字段集，C和C'分别代表系统的字段，则建立模块到数据字段的映射方式如下：

3)、建立A到A'数据层的映射，由上述步骤1)和2)建立好的映射可推导出C到C'的映射，从而建立起新旧系统的数据层字段映射。

进一步的，由所述的数据映射建立起旧系统的字段和新系统的字段以及底层数据库字段的映射关系，进而进行数据补齐，数据补齐策略包括：

丢弃具有缺失数据的记录；

进行缺失数据的填补，包括默认值方式和关联值推导方式；

采用模型对缺失数据进行预测，这种方式往往是针对于连续数值的预测补齐工作，常用的方法包括基于决策表的补齐策略，基于不完备数据聚类的缺失数据填补方法。

这些方法之间并不是相互排斥的，不同的方法之间在具体的实现算法上可能存在着紧密的联系。

优选的，通过数据迁移平台实现数据迁移，所述数据迁移平台包括数据流水线、数据处理策略、数据库驱动集合和中间库；

数据流水线是数据从源数据库到目标数据库的通道，包括加载模块、清洗模块、补齐模块和写入模块，加载模块从源数据库加载数据，清洗模块根据可配置的清洗策略对数据进行清洗，补齐模块根据补齐策略对数据进行补齐，写入模块根据字段映射字典负责类型转换以及写入到指定的目标数据库；

中间库用于中间数据的暂存，数据流水线要整合多个表的数据，中间数据库可以暂存这些中间结果数据，直接使用中间库加工好的数据，减少源数据库的访问，提高数据整合的效率；

数据库驱动集合存储数据库的JDBC驱动，要连接上对应的数据库，就需要正确选择相应数据库驱动，填写数据库的各种连接相关的信息，一般情况下包含服务器的主机名或者所在IP地址、数据库产品名称、端口号、用户名和密码。在正确地填好这些相关连接信息后就可以连接上对应的数据库。

优选的，所述清洗策略，制定详细的数据清洗策略，每个模块根据清洗策略对本模块数据进行遍历分析，找出重复数据和废除的垃圾数据，分析原因，做好数据的存档，合理地剔除多余数据；

所述补齐策略，整理出每个模块缺失字段的补齐策略，对于无法通过表单更新的模块，梳理出外键的关联关系；根据补齐方案和表外键关联关系，通过数据库脚本的统一更新，以及多表关联查询，将缺失字段合理地补充到模块数据中，保证数据的完整性，确保数据能够适配新系统；

所述字段映射字典，制定源数据库和目标数据每个模块的字段映射关系，将数据进行格式加工处理后，存入目标数据库中；对于不匹配的字典项，需要先统一匹配的规则，将数据进行统一的更新后再存入目标数据库。

优选的，所述验证性测试通过使用已经通过功能测试的新系统办理实际业务来验证数据迁移的正确性。验证性测试解决历史数据在业务层面的适配问题，关系到系统切换的成功与否。

优选的，程序适配随着数据的迁移迭代展开，最终使历史数据在应用系统中二次使用，程序适配包括支持字段为Null、修改主键的生成策略、增加历史数据标识；

所述应急预案包括业务系统、数据库和网络平台三个方面，具体为：

业务系统应急措施，在业务经办时保留原业务应用系统，并且保证原业务应用系统的客户端配置环境能够在最短时间内恢复到以前的配置；

数据库应急措施，利用原始数据与原系统保持一致来处理的，在新系统数据库中保留备份，并且按照原系统数据集中情况下分不同用户存放备份数据，但是用户名仍需要采用原数据库系统用户名，一旦出现紧急情况，新系统数据库立即切入原备份数据库；

网络平台应急预案，保证在数据大集中情况下整个社会保障网络链路的畅通。

本发明还要求保护一种基于国产CPU环境的MMT数据迁移系统，包括映射模块、迁移模块和测试模块，该系统实现上述的基于国产CPU环境的MMT数据迁移方法。

本发明还要求保护一种基于国产CPU环境的MMT数据迁移装置，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行上述的基于国产CPU环境的MMT数据迁移方法。

本发明还要求保护一种计算机可读介质，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行上述的基于国产CPU环境的MMT数据迁移方法。

本发明的一种基于国产CPU环境的MMT数据迁移方法与现有技术相比，具有以下有益效果：

新旧系统替换场景的数据迁移工作与其他场景的数据迁移工作相比更具有挑战性，本MMT数据迁移方法针对新旧系统替换场景中的数据迁移，解决了如何让旧系统的历史数据平稳地迁移到新系统的问题，从而使新系统进行二次使用，让这些历史数据同新系统的原生数据一样被使用。

通过该方法所指定的一系列策略和规则，能够将两种完全异构的数据库实现数据的迁移，并且通过抽象化的方法，省时省力地完成了工作量庞大的数据迁移工作。

附图说明

图1是本发明实施例提供的一种基于国产CPU环境的MMT数据迁移方法模型示意图；

图2是本发明实施例提供的数据映射模型示意图；

图3是本发明实施例提供的数据库字段映射关系图表；

图4是本发明实施例提供的数据迁移平台架构图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

目前基于国产CPU和操作系统的全国产环境下应用生态日益完善，在国产环境下WEB应用系统需要支持神通、达梦、金仓、翰高等多种国产数据库，以满足不同客户的需求。在信息化系统升级改造中，旧系统存在大量的珍贵历史数据，而关键性历史数据是新系统成功运行的重要数据依存。如何把旧系统中的历史数据迁移演化到新系统中二次使用，已经成为当前数据迁移领域的热点与难点。当前的历史数据大部分都是借鉴ETL(Extract-Transform-Load)的思想方法实现历史数据迁移，但这种方法缺乏针对性，历史数据迁移不仅要完成数据层面的物理迁移，在应用层面还要适配新系统实现数据的二次使用，本发明提出了MMI数据迁移方法，填补了该领域的空白。

本发明实施例提供一种基于国产CPU环境的MMT数据迁移方法，该MMT数据迁移方法针对新旧系统替换场景中的数据迁移，包括映射、迁移和测试，并进行迭代演化，逐步将旧系统的数据迁移到新系统中，参考图1所示，

映射(map)：完成新旧系统在业务层和数据层的映射，新系统的设计会在旧系统的基础上升级改造，业务层的功能点、业务逻辑等都发生了变化，进而数据层存在较大差异，在映射阶段将研究数据迁移映射模型、数据补齐等内容；

迁移(migrate)：通过现有DMS(data migration system)工具或自建工具，完成把数据从源数据库迁移到目标数据库的过程，这个阶段完成数据类型的转换，实现数据补齐；

一、本MMT数据迁移方法的关键是新旧系统的映射(map)。新旧系统之间建立映射并不是一件容易的事情。面临的现实问题主要有两个方面：

1)产品差异：新系统往往基于旧系统升级优化，在功能上和产品设计上都存在很大的差异，在数据层面上表现为数据更加丰富、关系更加复杂；

2)技术文档不全：被淘汰的旧系统往往缺少相关的数据库设计文档、模块详细设计文档。

对于该问题，本实施例建立数据映射模型，在业务层建立旧系统到新系统的模块功能映射，同时在新旧两个系统维度分别建立业务层模块到数据层表字段的映射，前两层映射推出数据层新旧表字段的映射。如图2所示。

1)、数据模型的第一步是完成新旧系统业务层的映射，假设有新系统A'替换旧系统A，A系统有功能M1、M2…Mn，新系统A'有功能M'1、M'2…M'm，建立旧系统到新系统的功能映射：

公式(1)对应业务层映射的四种情况：第一种是A到A'业务模块的一一映射；第二种情况是A系统中的多个模块映射到A'的一个业务模块；第三种情况是A系统中的多个模块映射到A'的多个业务模块；第四种情况是A系统没有的模块，我们用Null表示，表示A'新增了全新的业务模块。

2)、数据映射模型的第二步是分别完成A和A'业务层到数据层的字段映射。假设T和T'分别表示数据层的字段集，C和C'分别代表系统的字段。建立模块到数据字段的映射，如公式(2)所示，模块M映射到多个数据集的多个字段。

3)、数据映射模型的第三步是建立A到A'数据层的映射，由公式(1)、(2)建立好的映射，可以推导出C到C'的映射。这样就建立起新旧系统的数据层字段映射。

由数据映射模块我们能建立起旧系统的字段和新系统的字段以及底层数据库字段的映射关系，如图3所示。数据补齐工作的开展离不开建立完善的字段映射规则。如图3所示，新老系统的字段并不是一一对应的，并且数据可能会存在较大的缺失。数据层面的字段映射建立后，可以发现新旧系统在数据字段上存在数据补齐的三种情况需要考虑：①旧系统存在的字段新系统不存在；②新系统存在的字段旧系统不存在；③新旧系统存在字段映射，但是存在数据缺失。除了第一种情况外，其他两种情况均存在数据迁移时的数据补齐策略。把当前的历史数据迁移到新系统，问题就转化为如何解决不完备信息系统的字段补齐问题。不完备信息系统的数据补齐问题是当前研究的热点，有很多成熟的解决方案：

1)丢弃具有缺失数据的记录；

2)进行缺失数据的填补，常用的方式包括默认值方式、关联值推导方式等；

3)采用模型对缺失数据进行预测，这种方式往往是针对于连续数值的预测补齐工作，常用的方法包括基于决策表的补齐策略，基于不完备数据聚类的缺失数据填补方法。

二、本MMT数据方法中的迁移(migrate)主要研究迁移数据迁移平台的实现。本方法中的新旧系统替换的数据迁移平台与ELT的工具有很大不同，它更加强调字段的映射和数据补齐策略。所述的数据迁移平台的架构如图4所示。

数据迁移平台包括数据流水线、数据处理策略、数据库驱动集合、中间库四个大模块。

数据流水线是数据从源数据库到目标数据库的通道。加载模块负责从源数据库加载数据，清洗模块根据可配置的清洗策略对数据进行清洗，补齐模块根据补齐策略对数据进行补齐，写入模块根据字段映射字典负责类型转换以及写入到指定的目标数据库。

数据处理策略是历史数据迁移演化的核心大脑，包括清洗策略、补齐策略和字段映射字典：

清洗策略：制订出详细的数据清洗策略，每个模块根据清洗策略对本模块数据进行遍历分析，找出重复数据和废除的垃圾数据，分析原因，做好数据的存档，合理地剔除多余数据；

补齐策略：整理出每个模块缺失字段的补齐策略，对于无法通过单表更新的模块，梳理出外键的关联关系，根据补齐方案和表外键关联关系，通过数据库脚本的统一更新，以及多表关联查询，将缺失字段合理地补充到模块数据中，保证数据的完整性，确保数据能够适配新系统；

字段映射字典：制订源数据库和目标数据每个模块的字段映射关系，将数据进行格式加工处理后，存入目标数据库中，对于不匹配的字典项，需要先统一匹配的规则，将源数据进行统一的更新后再存入目标数据库。

中间库负责中间数据的暂存，数据流水线要整合多个表的数据，中间数据库可以暂存这些中间结果数据，直接使用中间库加工好的数据，减少源数据库的访问，提高数据整合的效率。

数据库驱动集合存储数据库的JDBC驱动，要连接上对应的数据库，就需要正确选择相应数据库驱动，填写数据库的各种连接相关的信息，一般情况下包含服务器的主机名或者所在IP地址、数据库产品名称、端口号、用户名和密码；在正确地填好这些相关连接信息后就可以连接上对应的数据库。

以上就是数据迁移方法对数据处理的实现过程，通过此方法所指定的一系列策略和规则，能够将两种完全异构的数据库实现数据的迁移，并且通过抽象化的方法，省时省力地完成了工作量庞大的数据迁移工作。

三、本MMT数据迁移方法中的测试(test)需要考虑的问题包括数据验证性测试、程序适配以及线上应急预案。

在历史数据的使用中，要进行验证性测试。验证性测试通过使用已经通过功能测试的新系统办理实际业务来验证数据迁移的正确性。验证性测试是一个关键环节，解决历史数据在业务层面的适配问题，关系到系统切换的成功与否。

新系统的开发建设虽然在设计初期就考虑到历史数据的迁移使用，但是往往专注于新系统的功能开发，忽略一些历史数据的细节问题。这对旧系统以及存档数据的二次使用提出了新的挑战。应用程序要根据验证性测试结果做程序上的适配。常见的程序适配有支持字段为Null、修改主键的生成策略、增加历史数据标识等，程序适配是随着数据的迁移迭代逐步开展的工作，达到的目标是历史数据在应用系统二次使用。

测试不可能覆盖到所有的历史迁移数据，在这种情况下，必须启动应急预案来解决。具体应急预案如下：应急预案需要从业务系统、数据库、网络平台三个方面来考虑应急处理措施，只有三方面同时恢复到系统切换前的状态，才能保证原系统业务经办的正常进行：

1)、业务应用系统应急措施主要是在业务经办时保留原业务应用系统，并且保证原业务应用系统的客户端配置环境能够在最短时间内恢复到以前的配置；

2)、数据库应急措施就是利用原始数据与原系统保持一致来处理的，也就是在新系统数据库中保留备份，并且按照原系统数据集中情况下分不同用户存放备份数据，但是用户名仍需要采用原数据库系统用户名，一旦出现紧急情况，新系统数据库立即切入原备份数据库；

3)网络平台应急预案就是保证在数据大集中情况下整个社会保障网络链路的畅通即可。

本发明实施例还提供了一种基于国产CPU环境的MMT数据迁移系统，包括映射模块、迁移模块和测试模块，该系统实现上述实施例中所述的基于国产CPU环境的MMT数据迁移方法。

本发明实施例还提供了一种基于国产CPU环境的MMT数据迁移装置，包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行上述实施例中所述的基于国产CPU环境的MMT数据迁移方法。

本发明实施例还提供了一种计算机可读介质，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行本发明上述实施例中所述的基于国产CPU环境的MMT数据迁移方法。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机(或CPU或MPU)读出并执行存储在存储介质中的程序代码。

在这种情况下，从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此程序代码和存储程序代码的存储介质构成了本发明的一部分。

用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD+RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上下载程序代码。

此外，应该清楚的是，不仅可以通过执行计算机所读出的程序代码，而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作，从而实现上述实施例中任意一项实施例的功能。

此外，可以理解的是，将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的CPU等来执行部分和全部实际操作，从而实现上述实施例中任一实施例的功能。

上文通过附图和优选实施例对本发明进行了详细展示和说明，然而本发明不限于这些已揭示的实施例，基与上述多个实施例本领域技术人员可以知晓，可以组合上述不同实施例中的代码审核手段得到本发明更多的实施例，这些实施例也在本发明的保护范围之内。

Claims

1.一种基于国产CPU环境的MMT数据迁移方法，其特征在于包括映射、迁移和测试，并进行迭代演化，逐步将旧系统的数据迁移到新系统中；

测试包括数据验证性测试、程序适配和线上应急预案。

2.根据权利要求1所述的一种基于国产CPU环境的MMT数据迁移方法，其特征在于所述建立数据映射模型：

3.根据权利要求2所述的一种基于国产CPU环境的MMT数据迁移方法，其特征在于由所述的数据映射建立起旧系统的字段和新系统的字段以及底层数据库字段的映射关系，进而进行数据补齐，数据补齐策略包括：

丢弃具有缺失数据的记录；

进行缺失数据的填补，包括默认值方式和关联值推导方式；

采用模型对缺失数据进行预测。

4.根据权利要求1所述的一种基于国产CPU环境的MMT数据迁移方法，其特征在于通过数据迁移平台实现数据迁移，所述数据迁移平台包括数据流水线、数据处理策略、数据库驱动集合和中间库；

中间库用于中间数据的暂存；

数据库驱动集合存储数据库的JDBC驱动。

5.根据权利要求1或4所述的一种基于国产CPU环境的MMT数据迁移方法，其特征在于所述清洗策略，制定详细的数据清洗策略，每个模块根据清洗策略对本模块数据进行遍历分析，找出重复数据和废除的垃圾数据，分析原因，做好数据的存档，合理地剔除多余数据；

6.根据权利要求1所述的一种基于国产CPU环境的MMT数据迁移方法，其特征在于所述验证性测试通过使用已经通过功能测试的新系统办理实际业务来验证数据迁移的正确性。

7.根据权利要求1或6所述的一种基于国产CPU环境的MMT数据迁移方法，其特征在于程序适配随着数据的迁移迭代展开，最终使历史数据在应用系统中二次使用，程序适配包括支持字段为Null、修改主键的生成策略、增加历史数据标识；

所述应急预案包括：

8.一种基于国产CPU环境的MMT数据迁移系统，其特征在于包括映射模块、迁移模块和测试模块，该系统实现上述权利要求1-7任一项所述的基于国产CPU环境的MMT数据迁移方法。

9.一种基于国产CPU环境的MMT数据迁移装置，其特征在于包括：至少一个存储器和至少一个处理器；

所述至少一个存储器，用于存储机器可读程序；

所述至少一个处理器，用于调用所述机器可读程序，执行权利要求1至7任一所述的方法。

10.计算机可读介质，其特征在于，所述计算机可读介质上存储有计算机指令，所述计算机指令在被处理器执行时，使所述处理器执行权利要求1至7任一所述的方法。