CN110580246B

CN110580246B - 迁徙数据的方法、装置、计算机设备及存储介质

Info

Publication number: CN110580246B
Application number: CN201910696304.9A
Authority: CN
Inventors: 包晓华
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2023-10-20
Anticipated expiration: 2039-07-30
Also published as: WO2021017269A1; CN110580246A

Abstract

本申请揭示了迁徙数据的方法、装置、计算机设备及存储介质，其中，迁徙数据的方法，包括：获取源数据库的业务属性，其中，源数据库为存放待迁徙数据的数据库，源数据库包括第一索引表；根据第一索引表的分区以及业务属性，按照预设划分方式将源数据库的数据划分成指定数量的分片数据；获取各分片数据分别与目标数据库中的数据结构的对应关系；根据对应关系，将各分片数据按照预设迁徙方式从源数据库迁徙至目标数据库。通过分片数据转移方式，实现不同数据库类型的数据库之间的数据转移，比如从关系型数据库到非关系型数据库，且根据数据结构的映射关系，实现两个数据库中存储数据的对应关系。

Description

迁徙数据的方法、装置、计算机设备及存储介质

技术领域

本申请涉及到计算机领域，特别是涉及到迁徙数据的方法、装置、计算机设备及存储介质。

背景技术

由于系统内调用数据量的剧增，原来的关系型数据库在读写效率、存储软硬件成本上已经很难满足业务需求了，所以选用了新型的非关系数据库，这需要对两种数据库进行数据切换。但是生产上必须保证有效数据无丢失、平台用户无感知。业内更多的是同类型数据库之间的数据迁徙，没有数据结构差异化较大的数据库之间的数据迁徙方案，比如从oracle数据库到cassandra数据库。从oracle到cassandra的数据迁徙需要一次性连续完成，则导致迁徙的新旧系统在很长一段时间内有大量的网络IO，会对系统的正常业务造成干扰。若单纯采用少量数据的分片迁徙，即不携带数据的业务属性，而是简单的进行数据的等量迁徙，则没有考虑到数据对业务的不同重要程度，也没有考虑到新旧数据库的格式差异，会造成大量的新库数据的被随机写，旧库的数据被随机读，对迁徙数据的性能有很大影响。需要设计安全稳定的数据源切换方案，以满足一次性连续完成数据迁徙，操作上具有事务性、时间上具有连续性，且不对系统的正常业务造成干扰，且需避免数据迁徙过程中的事务性操作因为中途某项较小的失败，而导致全局的失败。

发明内容

本申请的主要目的为提供迁徙数据的方法，旨在解决现有无法实现从oracle数据库到cassandra数据库的数据稳定迁徙的技术问题。

本申请提出一种迁徙数据的方法，包括：

获取源数据库的业务属性，其中，所述源数据库为存放待迁徙数据的数据库，所述源数据库包括第一索引表；

根据所述第一索引表的分区以及所述源数据库的业务属性，按照预设划分方式将所述源数据库的数据划分成指定数量的分片数据；

获取各所述分片数据分别与目标数据库中的数据结构的对应关系，其中，所述目标数据库为存放迁徙后的所述迁徙数据的数据库；

根据所述对应关系，将各所述分片数据按照预设迁徙方式从所述源数据库迁徙至所述目标数据库。

优选地，所述根据所述第一索引表的分区以及所述源数据库的业务属性，按照预设划分方式将所述源数据库的数据划分成指定数量的分片数据的步骤，包括：

获取所有所述源数据库的业务属性分别对应的优先级排序，其中，所述优先级排序为优先级级别从高到低的排序；

从所述优先级排序中选择指定序号前的第一业务属性对应的分区，作为所述第一索引表的数据划分标准，其中，所述第一业务属性包含于所有所述源数据库的业务属性中，所述第一业务属性包括索引项属性；

根据所述第一索引表的数据划分标准，将所述第一索引表划分为各分区分别对应的分索引；

判断各所述分索引分别对应的所述源数据库的数据量是否在预设单次传输量之内；

若是，则根据各所述分索引将所述源数据库的数据划分成第一指定数量的第一分片数据，其中，所述第一指定数量为所述第一业务属性对应的各分区的数量。

优选地，所述判断各所述分索引分别对应的所述源数据库的数据量是否在预设单次传输量之内的步骤之后，包括：

若各所述分索引分别对应的数据量不在预设单次传输量之内，则添加第二业务属性对应的分区，其中，所述第二业务属性为所有所述源数据库的业务属性中除索引项属性之外的属性，所述第二业务属性至少包括一个；

根据各所述分索引以及所述第二业务属性对应的分区，将所述源数据库划分成第二指定数量的第二分片数据，使各所述第二分片数据的数据量在预设单次传输量之内，其中，所述第二指定数量为所述第一业务属性的分区数量与所述第二业务属性的分区数量的乘积。

优选地，所述根据预设规则获取所有所述源数据库的业务属性分别对应的优先级排序的步骤，包括：

按照预设采集规则，从所述源数据库中采集第一数量的数据集；

获取服务系统单次迁徙数据的数据量；

根据所述第一数量除以所述单次迁徙数据的数据量，得到划分能力系数；

计算各所述源数据库的业务属性分别对应的聚合结果集与所述划分能力系数的接近程度，其中，所述聚合结果集为数据集的聚合分类结果，所述聚合结果集的数量等于各所述源数据库的业务属性的分区数量；

根据各所述接近程度确定所述优先级排序，其中，所述接近程度越高的聚合结果集对应的优先级越高。

优选地，所述划分能力系数表示为均分结果集，所述均分结果集包括按照预设采集规则间隔采集的数据集总量除以聚合结果集的数量的数据集，所述根据各所述业接近程度形成所述优先级排序的步骤，包括：

判断是否存在与所述划分能力系数具有相同接近程度的第三业务属性和第四业务属性；

若存在，则获取所述第三业务属性对应于所述均分结果集中数据集的数量的第一曼哈顿距离，以及所述第四业务属性对应于所述均分结果集中数据集的数量的第二曼哈顿距离；

判断所述第一曼哈顿距离是否大于所述第二曼哈顿距离；

若是，则将所述第二曼哈顿距离对应的所述第四业务属性的优先级次序，排在所述第一曼哈顿距离对应的所述第三业务属性之前。

优选地，所述目标数据库中的数据结构为多层数据嵌套结构，所述获取各所述分片数据分别与目标数据库中的数据结构的对应关系的步骤，包括：

获取对所述源数据库进行分片数据划分时，调用的所述优先级排序中的所有指定业务属性，其中，所述指定业务属性包含于所有所述源数据库的业务属性中；

将各所述指定业务属性对应的优先级次序，与所述目标数据库中的多层数据嵌套结构建立一一对应映射关系，其中最高优先级的指定业务属性对应所述多层数据嵌套结构的最外层。

优选地，所述根据所述对应关系，将各所述分片数据按照预设迁徙方式从所述源数据库迁徙至所述目标数据库的步骤，包括：

判断当前时刻对应的业务流量是否处于预设阈值；

若是，则启动预设迁徙线程，并从所述源数据库中查寻出待迁徙数据；

将待迁徙数据存放于缓存服务器中，并转换数据格式；

按照预设线程方式运行所述预设迁徙线程，并将待迁徙数据按照分片数据的方式，依次注入到所述目标数据库。

本申请还提供了一种迁徙数据的装置，包括：

第一获取模块，用于获取源数据库的业务属性，其中，所述源数据库为存放待迁徙数据的数据库，所述源数据库包括第一索引表；

划分模块，用于根据所述第一索引表的分区以及所述源数据库的业务属性，按照预设划分方式将所述源数据库的数据划分成指定数量的分片数据；

第二获取模块，用于获取各所述分片数据分别与目标数据库中的数据结构的对应关系，其中，所述目标数据库为存放迁徙后的所述迁徙数据的数据库；

迁徙模块，用于根据所述对应关系，将各所述分片数据按照预设迁徙方式从所述源数据库迁徙至所述目标数据库

本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

本申请通过分片数据转移方式，实现不同数据库类型的数据库之间的数据转移，比如从关系型数据库到非关系型数据库，且根据数据结构的映射关系，实现两个数据库中存储数据的对应关系。通过业务属性优先级排序选择第一索引表的数据划分标准，比如源数据库对应的服务所在机房优先级最高，且源数据库对应的服务所在机房对应三个分区，通过服务所在机房对应三个分区对源数据库进行分片，源数据库的数据被分成三个分片数据。通过从源数据库中采集指定数量的数据集，以评价各业务属性的划分能力系数，以实现分片数据的优化。优选在J＝N/K附件的索引项属性；J值相同，需要考虑通过曼哈顿距离进一步分析划分能力。

附图说明

图1本申请一实施例的迁徙数据的方法流程示意图；

图2本申请一实施例的迁徙数据的装置结构示意图；

图3本申请一实施例的计算机设备内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例的迁徙数据的方法，包括：

S1:获取源数据库的业务属性，其中，所述源数据库为存放待迁徙数据的数据库，所述源数据库包括第一索引表。

本实施例的业务属性包括但不仅限于：源数据库对应的服务所在机房、网络环境、链路角色，服务所属专业公司、服务所属系统、服务注册编码、服务域名等。源数据库为存放待迁徙数据的数据库，比如oracle关系型数据库。数据库的索引表包括索引项属性、信息目录和地址链接，便于在数据库中查询数据，通过先遍历索引表，再根据索引表中的地址链接，去获取数据。

S2:根据所述第一索引表的分区以及所述源数据库的业务属性，按照预设划分方式将所述源数据库的数据划分成指定数量的分片数据。

本实施例根据所述第一索引表的分区以及业务属性对源数据库中的数据进行分片划分，并通过业务属性对各分片数据进行标注，以便对各分片数据进行管理与区分。上述预设划分方式包括通过对第一索引表进行分区化形成各分索引，通过分索引实现对源数据库中的数据进行分片划分，形成分片数据。

S3:获取各所述分片数据分别与目标数据库中的数据结构的对应关系，其中，所述目标数据库为存放迁徙后的所述迁徙数据的数据库。

本实施例的目标数据库为存放迁徙后的所述迁徙数据的数据库，比如非关系型数据库cassandra，以满足数据从从oracle数据库迁徙到cassandra数据库。本实施例通过将源数据库中的数据分片划分形成分片数据，以通过分片数据分别转移的方式，实现数据从源数据库到目标数据库的数据转移，以避免数据迁徙过程中因连续进行，妨碍系统中正常业务的进行，且避免因偶然因素的干扰造成局部时间段的数据转移失败，而导致整个数据转移事务失效。上述的对应关系，根据预设的映射关系形成，包括源数据库的各分片数据，在目标数据库中的存储结构位置的关联关系。

S4:根据所述对应关系，将各所述分片数据按照预设迁徙方式从所述源数据库迁徙至所述目标数据库。

本实施例通过分片数据分别依次转移的方式，实现不同数据库类型的数据库之间的数据转移，比如从关系型数据库到非关系型数据库，且根据数据结构的映射关系，实现两个数据库中存储数据的一一对应关系。

进一步地，所述根据所述第一索引表的分区以及所述源数据库的业务属性，按照预设划分方式将所述源数据库的数据划分成指定数量的分片数据的步骤S2，包括：

S21：获取所有所述源数据库的业务属性分别对应的优先级排序，其中，所述优先级排序为优先级级别从高到低的排序。

S22：从所述优先级排序中选择指定序号前的第一业务属性对应的各分区，作为所述第一索引表的数据划分标准，其中，所述第一业务属性包含于所有所述源数据库的业务属性中，所述第一业务属性包括索引项属性。

S23：根据所述第一索引表的数据划分标准，将所述第一索引表划分为各分区分别对应的分索引。

S24：判断各所述分索引分别对应的所述源数据库的数据量是否在预设单次传输量之内。

S25：若是，则根据各所述分索引将所述源数据库的数据划分成第一指定数量的第一分片数据，其中，所述第一指定数量为所述第一业务属性对应的各分区的数量。

本实施例通过业务属性的优先级排序选择数据划分的标准，比如源数据库对应的服务所在机房优先级最高，且源数据库对应的服务所在机房对应三个分区，通过服务所在机房对应三个分区对源数据库进行分片，依据服务所在机房对应三个分区将源数据库的数据被分成三个分片数据。上述第一业务属性可同时包括多个，比如包括业务属性A和业务属性B，业务属性A有三个分区A1、A2和A3，业务属性B有两个分区B1和B2，则对应的第一索引表的数据划分标准的分区个数为6个，且根据优先级排序分别为A1B1、A1B2、A2B1、A2B2、A3B1和A3B2。上述业务属性包括第一索引表中的索引项属性以及其他属性，且优先选用索引项属性进行分区，因为索引建立的原则是能够均衡的划分数据，所以用索引项属性对待迁徙数据进行分片，得到的分片数据的均衡性更好。本实施例通过先将索引表划分为分索引，然后通过分索引引领对应的数据，成为分片数据。

进一步地，所述判断各所述分索引分别对应的所述源数据库的数据量是否在预设单次传输量之内的步骤S24之后，包括：

S241：若各所述分索引分别对应的数据量不在预设单次传输量之内，则添加第二业务属性对应的分区，其中，所述第二业务属性为所有所述源数据库的业务属性中除索引项属性之外的属性，所述第二业务属性至少包括一个。

S242：根据各所述分索引以及所述第二业务属性对应的分区，将所述源数据库的数据划分成第二指定数量的第二分片数据，使各所述第二分片数据的数据量在预设单次传输量之内，其中，所述第二指定数量为所述第一业务属性的分区数量与所述第二业务属性的分区数量的乘积。

本实施例中当通过索引项属性进行分片数据后，分片数据的数据量不在单次传输量之内，起不到单次快速转移的效果，可通过加入除索引项属性之外的其他属性，与索引项属性共同完成对源数据库中的数据分片，以便使分片数据的数据量在预设单次传输量之内，实现数据的快速转移，且不影响系统中正常运行的业务。

进一步地，所述获取所有所述源数据库的业务属性分别对应的优先级排序的步骤S21，包括：

S211：按照预设采集规则，从所述源数据库中采集第一数量的数据集。

S212：获取服务系统单次迁徙数据的数据量。

S213：根据所述第一数量除以所述单次迁徙数据的数据量，得到划分能力系数。

S214：计算各所述源数据库的业务属性分别对应的聚合结果集与所述划分能力系数的接近程度，其中，所述聚合结果集为数据集的聚合分类结果，所述聚合结果集的数量等于各所述源数据库的业务属性的分区数量；

S215：根据各所述接近程度确定所述优先级排序，其中，接近程度越高的聚合结果集对应的优先级越高。

本实施例通过从源数据库中采集指定数量的数据集，以评价各业务属性的划分能力系数，以实现分片数据的优化。上述预设采集规则比如包括每隔指定时间段采集一个数据集，使采集的数据集更具有分析代表性。比如共采集了100个数据集，将100个数据集作为样本，按照索引列index1(比如是专业公司编码)分批，得到聚合结果集的数量等于分片划分的数据种类数量，比如上述100个数据集分布属于3个专业公司，比如为科技、产险、寿险，则聚合结果集的数量为三个。上述三个专业公司中科技、产险、寿险分别对应的数量集为：30个,10个和60个。上述划分能力系数表示为均分结果集，均分结果集中数据集的数量等于采集的数据集总量除以聚合结果集的数量，即等于100除以3等于33.3333，即均分结果集中数据集的数量为33.3333个。首先考察数据集的总量，比如总量为N，而系统能够承受的单次迁徙数量在K，那么优选聚合结果集的数量在J＝N/K附件的索引项属性，聚合结果集的数量在J＝N/K附件的索引项属性，具有将分片数据划分更均衡更合理的划分能力，尽量满足数据的单次迁徙需求。

进一步地，所述划分能力系数表示为均分结果集，所述均分结果集包括按照预设采集规则间隔采集的数据集总量除以聚合结果集的数量的数据集，所述根据各所述接近程度确定所述优先级排序的步骤S215，包括：

S2151：判断是否存在与所述划分能力系数具有相同接近程度的第三业务属性和第四业务属性，其中，第三业务属性和第四业务属性包含于所有所述源数据库的业务属性中。

S2152：若存在，则获取所述第三业务属性对应于均分结果集中数据集的数量的第一曼哈顿距离，以及所述第四业务属性对应于均分结果集中数据集的数量的第二曼哈顿距离。

S2153：判断所述第一曼哈顿距离是否大于所述第二曼哈顿距离。

S2154：若是，则将所述第二曼哈顿距离对应的所述第四业务属性的优先级次序，排在所述第一曼哈顿距离对应的所述第三业务属性之前。

本实施例中，当多个业务属性对应的J值相同，需要考虑通过曼哈顿距离进一步分析划分能力。相同的聚合结果集数量，曼哈顿距离越小，划分能力越好。如上述实例中100个数据集按照索引列index1分布属于3个专业公司，分别为科技、产险、寿险；而且3个专业公司中科技、产险、寿险分别对应的数量集为：30个,10个和60个。索引列index1对应的曼哈顿距离为：Manhattan距离表示为D，则D＝|30-33.3|+|10-33.3|+|60-33.3|＝53.3，上述33.3为均分结果集中的数据集数量，Manhattan距离是绝对值距离。

进一步地，所述目标数据库中的数据结构为多层数据嵌套结构，所述获取各所述分片数据分别与目标数据库中的数据结构的对应关系的步骤S3，包括：

S31：获取对所述源数据库进行分片数据划分时，调用的所述优先级排序中的指定业务属性，其中，所述指定业务属性包含于所有所述源数据库的业务属性中。

S32：将各所述指定业务属性对应的优先级次序，与所述目标数据库中的多层数据嵌套结构建立一一对应映射关系，其中最高优先级的指定业务属性对应所述多层数据嵌套结构的最外层。

本实施例的目标数据库包括非关系型数据库，比如cassandra数据库，cassandra数据库的数据结构为主键构建结构，本实施例以待迁徙数据中确定的数据分片，作为cassandra数据库的主键参考，cassandra中的主键是数据组织的结构，cassandra中的数据是按主键顺序嵌套存储，比如主键是：K1，K2，K3..，可以理解为K1数据中嵌套K2数据，K2数据中再嵌套了K3数据。本实施例根据业务属性的优先级次序，映射为cassandra中的数据主键顺序，比如优先级级别高的业务属性对应的分片数据，映射为cassandra中的数据中最外层嵌套层的数据，以便实现数据在不同数据库之间迁徙时，具有清晰、合理的对应关系，文件数据顺序写，提高数据写入的效率，且方便数据的调用和管理。

进一步地，所述根据所述对应关系，将各所述分片数据按照预设迁徙方式从所述源数据库迁徙至所述目标数据库的步骤S4，包括：

S41：判断当前时刻对应的业务流量是否处于预设阈值内。

S42：若是，则启动预设迁徙线程，并从所述源数据库中查寻出待迁徙数据。

S43：将待迁徙数据存放于缓存服务器中，并转换数据格式。

S44：按照预设线程方式运行所述预设迁徙线程，并将待迁徙数据按照分片数据的方式，依次注入到所述目标数据库。

本实施例通过对数据分片实现数据迁徙分批次有序进行，每批次之间可以独立进行，互相不具有依赖性，且每批次迁徙量与系统支撑的单次的传输量相匹配，单次迁徙失败，只需再次重复执行当前失败的单次传输，不影响整体数据的迁徙效果。且通过分批次迁徙，使得可利用系统运行其他业务的碎片时间完成数据迁徙，提高系统处理事务的效率。本实施例通过识别系统运行负荷状态判断当前为业务低谷期还是高峰期，比如业务流量处于预设阈值内，说明处于业务低谷期，则启动数据迁徙线程进行数据迁徙；业务流量未处于预设阈值内，说明处于业务高峰期，则挂起数据迁徙线程终止数据迁徙。不仅支持按业务属性控制迁徙任务，且保证业务数据按类别完整地进行迁徙，且避开业务高峰期。本实施例形成分片数据后，就可以启动线程开始执行数据迁徙。迁徙过程中将数据从oracle数据库中按分片信息查询并切割出来，切割的数据结果放在高速缓存服务器中，然后进行格式转换处理，再注入到cassandra数据库中；如此往复，一个分片数据一个分片数据的通过同一线程分阶段处理。也可以将不同的分片数据分配到不同的线程中并行处理，提高分片迁徙的效率，但需合理控制并行运行的线程数量，避免两端数据库过载。

参照图2，本申请一实施例的迁徙数据的装置，包括：

第一获取模块1，用于获取源数据库的业务属性，其中，所述源数据库为存放待迁徙数据的数据库，所述源数据库包括第一索引表。

划分模块2，用于根据所述第一索引表的分区以及所述源数据库的业务属性，按照预设划分方式将所述源数据库的数据划分成指定数量的分片数据。

第二获取模块3，用于获取各所述分片数据分别与目标数据库中的数据结构的对应关系，其中，所述目标数据库为存放迁徙后的所述迁徙数据的数据库。

迁徙模块4，用于根据所述对应关系，将各所述分片数据按照预设迁徙方式从所述源数据库迁徙至所述目标数据库。

进一步地，所述划分模块2，包括：

第一获取子模块，用于获取所有所述源数据库的业务属性分别对应的优先级排序，其中，所述优先级排序为优先级级别从高到低的排序。

选择子模块，用于从所述优先级排序中选择指定序号前的第一业务属性对应的各分区，作为所述第一索引表的数据划分标准，其中，所述第一业务属性包含于所有所述源数据库的业务属性中，所述第一业务属性包括索引项属性。

第一划分子模块，用于根据所述第一索引表的数据划分标准，将所述第一索引表划分为各分区分别对应的分索引。

第一判断子模块，用于判断各所述分索引分别对应的所述源数据库的数据量是否在预设单次传输量之内。

第二划分子模块，用于若是，则根据各所述分索引将所述源数据库的数据划分成第一指定数量的第一分片数据，其中，所述第一指定数量为所述第一业务属性对应的各分区的数量。

进一步地，划分模块2，包括：

添加子模块，用于若各所述分索引分别对应的数据量不在预设单次传输量之内，则添加第二业务属性对应的分区，其中，所述第二业务属性为所有所述源数据库的业务属性中除索引项属性之外的属性，所述第二业务属性至少包括一个。

第三划分子模块，用于根据各所述分索引以及所述第二业务属性对应的分区，将所述源数据库的数据划分成第二指定数量的第二分片数据，使各所述第二分片数据的数据量在预设单次传输量之内，其中，所述第二指定数量为所述第一业务属性的分区数量与所述第二业务属性的分区数量的乘积。

进一步地，所述获取子模块，包括：

采集单元，用于按照预设采集规则，从所述源数据库中采集第一数量的数据集。

获取单元，用于获取服务系统单次迁徙数据的数据量。

得到单元，用于根据所述第一数量除以所述单次迁徙数据的数据量，得到划分能力系数。

计算单元，用于计算各所述源数据库的业务属性分别对应的聚合结果集与所述划分能力系数的接近程度，其中，所述聚合结果集为数据集的聚合分类结果，所述聚合结果集的数量等于各所述源数据库的业务属性的分区数量；

确定单元，用于根据各所述接近程度确定所述优先级排序，其中，接近程度越高的聚合结果集对应的优先级越高。

进一步地，所述划分能力系数表示为均分结果集，所述均分结果集包括按照预设采集规则间隔采集的数据集总量除以聚合结果集的数量的数据集，所述确定单元，包括：

第一判断子单元，用于判断是否存在与所述划分能力系数具有相同接近程度的第三业务属性和第四业务属性，其中，第三业务属性和第四业务属性包含于所有所述源数据库的业务属性中。

获取子单元，用于若存在，则获取所述第三业务属性对应于均分结果集中数据集的数量的第一曼哈顿距离，以及所述第四业务属性对应于均分结果集中数据集的数量的第二曼哈顿距离。

第二判断子单元，用于判断所述第一曼哈顿距离是否大于所述第二曼哈顿距离。

排序子单元，用于若是，则将所述第二曼哈顿距离对应的所述第四业务属性的优先级次序，排在所述第一曼哈顿距离对应的所述第三业务属性之前。

本实施例中，当多个业务属性对应的J值相同，需要考虑通过曼哈顿距离进一步分析划分能力。相同的聚合结果集数量，曼哈顿距离越小，划分能力越好。如上述实例中100个数据集按照索引列index1分布属于3个专业公司，分别为科技、产险、寿险；而且3个专业公司中科技、产险、寿险分别对应的数量集为：30个,10个和60个。索引列index1对应的曼哈顿距离为：Manhattan距离表示为D，则D＝|30-33.3|+|10-33.3|+|60-33.3|＝53.3，上述33.3为均分结果集中数据集的数量，Manhattan距离是绝对值距离。

进一步地，所述目标数据库中的数据结构为多层数据嵌套结构，所述第二获取模块3，包括：

第二获取子模块，用于获取对所述源数据库进行分片数据划分时，调用的所述优先级排序中的指定业务属性，其中，所述指定业务属性包含于所有所述源数据库的业务属性中。

映射子模块，用于将各所述指定业务属性对应的优先级次序，与所述目标数据库中的多层数据嵌套结构建立一一对应映射关系，其中最高优先级的指定业务属性对应所述多层数据嵌套结构的最外层。

本实施例的目标数据库包括非关系型数据库，比如cassandra数据库，cassandra数据库的数据结构为主键构建结构，本实施例以待迁徙数据中确定的数据分片划分点，作为cassandra数据库的主键参考，cassandra中的主键是数据组织的结构，cassandra中的数据是按主键顺序嵌套存储，比如主键是：K1，K2，K3..，可以理解为K1数据中嵌套K2数据，K2数据中再嵌套了K3数据。本实施例根据业务属性的优先级次序，映射为cassandra中的数据主键顺序，比如优先级级别高的业务属性对应的分片数据，映射为cassandra中的数据中最外层嵌套层的数据，以便实现数据在不同数据库之间迁徙时，具有清晰、合理的对应关系，文件数据顺序写，提高数据写入的效率，且方便数据的调用和管理。

进一步地，所述迁徙模块4，包括：

第二判断子模块，用于判断当前时刻对应的业务流量是否处于预设阈值内。

启动子模块，用于若是，则启动预设迁徙线程，并从所述源数据库中查寻出待迁徙数据。

存放子模块，用于将待迁徙数据存放于缓存服务器中，并转换数据格式。

运行子模块，用于按照预设线程方式运行所述预设迁徙线程，并将待迁徙数据按照分片数据的方式，依次注入到所述目标数据库。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储迁徙数据的过程需要的所有数据。该计算机设备的网络接口用于与外部的端通过网络连接通信。该计算机程序被处理器执行时以实现迁徙数据的方法。

上述处理器执行上述迁徙数据的方法，包括：获取源数据库的业务属性，其中，所述源数据库为存放待迁徙数据的数据库，所述源数据库包括第一索引表；根据所述第一索引表的分区以及所述源数据库的业务属性，按照预设划分方式将所述源数据库的数据划分成指定数量的分片数据；获取各所述分片数据分别与目标数据库中的数据结构的对应关系，其中，所述目标数据库为存放迁徙后的所述迁徙数据的数据库；根据所述对应关系，将各所述分片数据按照预设迁徙方式从所述源数据库迁徙至所述目标数据库。

上述计算机设备，通过分片数据转移方式，实现不同数据库类型的数据库之间的数据转移，比如从关系型数据库到非关系型数据库，且根据数据结构的映射关系，实现两个数据库中存储数据的对应关系。通过业务属性优先级排序选择第一索引表的数据划分标准，比如源数据库对应的服务所在机房优先级最高，且源数据库对应的服务所在机房对应三个分区，通过服务所在机房对应三个分区对源数据库进行分片，源数据库的数据被分成三个分片数据。通过从源数据库中采集指定数量的数据集，以评价各业务属性的划分能力系数，以实现分片数据的优化。优选在J＝N/K附件的索引项属性；J值相同，需要考虑通过曼哈顿距离进一步分析划分能力。

在一个实施例中，上述处理器根据所述第一索引表的分区以及所述源数据库的业务属性，按照预设划分方式将所述源数据库的数据划分成指定数量的分片数据的步骤，包括：获取所有所述源数据库的业务属性分别对应的优先级排序，其中，所述优先级排序为优先级级别从高到低的排序；从所述优先级排序中选择指定序号前的第一业务属性对应的分区，作为所述第一索引表的数据划分标准，其中，所述第一业务属性包含于所有所述源数据库的业务属性中，所述第一业务属性包括索引项属性；根据所述第一索引表的数据划分标准，将所述第一索引表划分为各分区分别对应的分索引；判断各所述分索引分别对应的所述源数据库的数据量是否在预设单次传输量之内；若是，则根据各所述分索引将所述源数据库的数据划分成第一指定数量的第一分片数据，其中，所述第一指定数量为所述第一业务属性对应的各分区的数量。

在一个实施例中，上述处理器判断各所述分索引分别对应的所述源数据库的数据量是否在预设单次传输量之内的步骤之后，包括：若各所述分索引分别对应的数据量不在预设单次传输量之内，则添加第二业务属性对应的分区，其中，所述第二业务属性为所有所述源数据库的业务属性中除索引项属性之外的属性，所述第二业务属性至少包括一个；根据各所述分索引以及所述第二业务属性对应的分区，将所述源数据库的数据划分成第二指定数量的第二分片数据，使各所述第二分片数据的数据量在预设单次传输量之内，其中，所述第二指定数量为所述第一业务属性的分区数量与所述第二业务属性的分区数量的乘积。

在一个实施例中，上述处理器获取所有所述源数据库的业务属性分别对应的优先级排序的步骤，包括：按照预设采集规则，从所述源数据库中采集第一数量的数据集；获取服务系统单次迁徙数据的数据量；根据所述第一数量除以所述单次迁徙数据的数据量，得到划分能力系数；计算各所述源数据库的业务属性分别对应的聚合结果集与所述划分能力系数的接近程度，其中，所述聚合结果集为数据集的聚合分类结果，所述聚合结果集的数量等于各所述源数据库的业务属性的分区数量；根据各所述接近程度确定所述优先级排序，其中，所述接近程度越高的聚合结果集对应的优先级越高。

在一个实施例中，所述划分能力系数表示为均分结果集，所述均分结果集包括按照预设采集规则间隔采集的数据集总量除以聚合结果集的数量的数据集，上述处理器根据各所述接近程度确定所述优先级排序的步骤，包括：判断是否存在与所述划分能力系数具有相同接近程度的第三业务属性和第四业务属性；若存在，则获取所述第三业务属性对应于所述均分结果集中数据集的数量的第一曼哈顿距离，以及所述第四业务属性对应于所述均分结果集中数据集的数量的第二曼哈顿距离；判断所述第一曼哈顿距离是否大于所述第二曼哈顿距离；若是，则将所述第二曼哈顿距离对应的所述第四业务属性的优先级次序，排在所述第一曼哈顿距离对应的所述第三业务属性之前。

在一个实施例中，所述目标数据库中的数据结构为多层数据嵌套结构，上述处理器获取各所述分片数据分别与目标数据库中的数据结构的对应关系的步骤，包括：获取对所述源数据库进行分片数据划分时，调用的所述优先级排序中的所有指定业务属性，其中，所述指定业务属性包含于所有所述源数据库的业务属性中；将各所述指定业务属性对应的优先级次序，与所述目标数据库中的多层数据嵌套结构建立一一对应映射关系，其中最高优先级的指定业务属性对应所述多层数据嵌套结构的最外层。

在一个实施例中，上述处理器根据所述对应关系，将各所述分片数据按照预设迁徙方式从所述源数据库迁徙至所述目标数据库的步骤，包括：判断当前时刻对应的业务流量是否处于预设阈值；若是，则启动预设迁徙线程，并从所述源数据库中查寻出待迁徙数据；将待迁徙数据存放于缓存服务器中，并转换数据格式；按照预设线程方式运行所述预设迁徙线程，并将待迁徙数据按照分片数据的方式，依次注入到所述目标数据库。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现迁徙数据的方法，包括：获取源数据库的业务属性，其中，所述源数据库为存放待迁徙数据的数据库，所述源数据库包括第一索引表；根据所述第一索引表的分区以及所述源数据库的业务属性，按照预设划分方式将所述源数据库的数据划分成指定数量的分片数据；获取各所述分片数据分别与目标数据库中的数据结构的对应关系，其中，所述目标数据库为存放迁徙后的所述迁徙数据的数据库；根据所述对应关系，将各所述分片数据按照预设迁徙方式从所述源数据库迁徙至所述目标数据库。

上述计算机可读存储介质，通过分片数据转移方式，实现不同数据库类型的数据库之间的数据转移，比如从关系型数据库到非关系型数据库，且根据数据结构的映射关系，实现两个数据库中存储数据的对应关系。通过业务属性优先级排序选择第一索引表的数据划分标准，比如源数据库对应的服务所在机房优先级最高，且源数据库对应的服务所在机房对应三个分区，通过服务所在机房对应三个分区对源数据库进行分片，源数据库的数据被分成三个分片数据。通过从源数据库中采集指定数量的数据集，以评价各业务属性的划分能力系数，以实现分片数据的优化。优选在J＝N/K附件的索引项属性；J值相同，需要考虑通过曼哈顿距离进一步分析划分能力。

在一个实施例中，上述处理器根据所述第一索引表的分区以及所述源数据库的业务属性，按照预设划分方式将所述源数据库的数据划分成指定数量的分片数据的步骤，包括：获取所有所述源数据库的业务属性分别对应的优先级排序，其中，所述优先级排序为优先级级别从高到低的排序；从所述优先级排序中选择指定序号前的第一业务属性对应的分区，作为所述第一索引表的第一索引表的数据划分标准，其中，所述第一业务属性包含于所有所述源数据库的业务属性中，所述第一业务属性包括索引项属性；根据所述第一索引表的数据划分标准，将所述第一索引表划分为各分区分别对应的分索引；判断各所述分索引分别对应的所述源数据库的数据量是否在预设单次传输量之内；若是，则根据各所述分索引将所述源数据库的数据划分成第一指定数量的第一分片数据，其中，所述第一指定数量为所述第一业务属性对应的各分区的数量。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种迁徙数据的方法，其特征在于，包括：

根据所述对应关系，将各所述分片数据按照预设迁徙方式从所述源数据库迁徙至所述目标数据库；

所述根据所述第一索引表的分区以及所述源数据库的业务属性，按照预设划分方式将所述源数据库的数据划分成指定数量的分片数据的步骤，包括：

从所述优先级排序中选择指定序号前的第一业务属性对应的各分区作为所述第一索引表的数据划分标准，其中，所述第一业务属性包含于所有所述源数据库的业务属性中，所述第一业务属性包括索引项属性；

若是，则根据各所述分索引将所述源数据库的数据划分成第一指定数量的第一分片数据，其中，所述第一指定数量为所述第一业务属性对应的各分区的数量；

所述获取所有所述源数据库的业务属性分别对应的优先级排序的步骤，包括：

获取服务系统单次迁徙数据的数据量；

根据各所述接近程度确定所述优先级排序，其中，所述接近程度越高的聚合结果集对应的优先级越高；

所述划分能力系数表示为均分结果集，所述均分结果集包括按照预设采集规则间隔采集的数据集总量除以聚合结果集的数量的数据集，所述根据各所述接近程度确定所述优先级排序的步骤，包括：

判断所述第一曼哈顿距离是否大于所述第二曼哈顿距离；

2.根据权利要求1所述的迁徙数据的方法，其特征在于，所述判断各所述分索引分别对应的所述源数据库的数据量是否在预设单次传输量之内的步骤之后，包括：

根据各所述分索引以及所述第二业务属性对应的分区，将所述源数据库的数据划分成第二指定数量的第二分片数据，使各所述第二分片数据的数据量在预设单次传输量之内，其中，所述第二指定数量为所述第一业务属性的分区数量与所述第二业务属性的分区数量的乘积。

3.根据权利要求1所述的迁徙数据的方法，其特征在于，所述目标数据库中的数据结构为多层数据嵌套结构，所述获取各所述分片数据分别与目标数据库中的数据结构的对应关系的步骤，包括：

4.根据权利要求1所述的迁徙数据的方法，其特征在于，所述根据所述对应关系，将各所述分片数据按照预设迁徙方式从所述源数据库迁徙至所述目标数据库的步骤，包括：

判断当前时刻对应的业务流量是否处于预设阈值；

若是，则启动预设迁徙线程，并从所述源数据库中查寻出所述待迁徙数据；

将所述待迁徙数据存放于缓存服务器中，并转换数据格式；

按照预设线程方式运行所述预设迁徙线程，并将所述待迁徙数据按照分片数据的方式，依次注入到所述目标数据库。

5.一种迁徙数据的装置，其特征在于，包括：

迁徙模块，用于根据所述对应关系，将各所述分片数据按照预设迁徙方式从所述源数据库迁徙至所述目标数据库；

第一获取子模块，用于获取所有所述源数据库的业务属性分别对应的优先级排序，其中，所述优先级排序为优先级级别从高到低的排序；

选择子模块，用于从所述优先级排序中选择指定序号前的第一业务属性对应的各分区，作为所述第一索引表的数据划分标准，其中，所述第一业务属性包含于所有所述源数据库的业务属性中，所述第一业务属性包括索引项属性；

第一划分子模块，用于根据所述第一索引表的数据划分标准，将所述第一索引表划分为各分区分别对应的分索引；

第一判断子模块，用于判断各所述分索引分别对应的所述源数据库的数据量是否在预设单次传输量之内；

第二划分子模块，用于若是，则根据各所述分索引将所述源数据库的数据划分成第一指定数量的第一分片数据，其中，所述第一指定数量为所述第一业务属性对应的各分区的数量；

采集单元，用于按照预设采集规则，从所述源数据库中采集第一数量的数据集；

获取单元，用于获取服务系统单次迁徙数据的数据量；

得到单元，用于根据所述第一数量除以所述单次迁徙数据的数据量，得到划分能力系数；

确定单元，用于根据各所述接近程度确定所述优先级排序，其中，接近程度越高的聚合结果集对应的优先级越高；

第一判断子单元，用于判断是否存在与所述划分能力系数具有相同接近程度的第三业务属性和第四业务属性，其中，第三业务属性和第四业务属性包含于所有所述源数据库的业务属性中；

获取子单元，用于若存在，则获取所述第三业务属性对应于均分结果集中数据集的数量的第一曼哈顿距离，以及所述第四业务属性对应于均分结果集中数据集的数量的第二曼哈顿距离；

第二判断子单元，用于判断所述第一曼哈顿距离是否大于所述第二曼哈顿距离；

6.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

7.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。