CN111708759A

CN111708759A - 一种大表数据移植的优化方法和系统

Info

Publication number: CN111708759A
Application number: CN202010533525.7A
Authority: CN
Inventors: 孟祥婧
Original assignee: Beijing Si Tech Information Technology Co Ltd
Current assignee: Beijing Si Tech Information Technology Co Ltd
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-09-25
Anticipated expiration: 2040-06-12
Also published as: CN111708759B

Abstract

本发明公开了一种大表数据移植的优化方法系统，涉及电信领域。该方法包括：将实例表与配置关系数据表进行关联，获得中间数据表；其中，实例表中包括：用户的账户信息和用户对应的交易数据；配置关系数据表包括交易数据的层级关系；通过中间数据表与实例表进行预设次数关联，依次获得每条交易数据的所在层级信息，根据层级信息获得目标信息表；实现了当在实例表的数据量很大时，例如2亿左右，大大提高了执行效率，解决了undo空间满，和空间满导致的脚本报错问题。

Description

一种大表数据移植的优化方法和系统

技术领域

本发明涉及电信领域，尤其涉及一种大表数据移植的优化方法和系统。

背景技术

在电信行业新老系统割接时，大量的数据搬迁是项目割接的一个重要的步骤，在系统应用割接的同时要求数据在规定的时间完成迁移动作。某电信系统割接过程中，系统中有用户近3千万，实例数据大约2亿，且数据要按照业务逻辑生成新的数据，在数据量比较大、场景比较复杂的情况下，现有技术，执行效率不满足要求，经常报undo空间满，导致脚本报错，数据移植的效率低。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种大表数据移植的优化方法和系统。

本发明解决上述技术问题的技术方案如下：

S1，将实例表与配置关系数据表进行关联，获得中间数据表；其中，所述实例表中包括：用户的账户信息和用户对应的交易数据；所述配置关系数据表包括交易数据的层级关系；

S2，通过所述中间数据表与所述实例表进行预设次数关联，依次获得每条交易数据的所在层级信息，根据所述层级信息获得目标信息表；其中，所述目标信息表包括：所述用户的账户信息、交易数据和每一条所述交易数据的所在层级信息。

本发明的有益效果是：本发明通过将实例表与配置关系数据表进行关联，获得中间数据表，中间数据表与所述实例表进行预设次数关联，依次获得每条交易数据的所在层级信息，根据所述层级信息获得目标信息表，实现了当在实例表的数据量很大时，例如2亿左右，大大提高了执行效率，不会出现undo空间满的提示，和空间满导致的脚本报错问题。

进一步地，还包括：将所述实例表按照用户进行分区；

所述S1具体包括：将实例表与配置关系数据表按照所述用户分区后区域进行关联，获得所述用户的中间数据表；

所述S2具体包括：通过所述中间数据表与所述实例表的所述用户区域进行预设次数关联，依次获得所述用户的每条交易数据的所在层级信息，根据所述层级信息获得目标信息表。

采用上述进一步方案的有益效果是：本发明通过将实例表与配置关系数据表按照所述用户分区后区域进行关联，获得所述用户的中间数据表，通过所述中间数据表与所述实例表的所述用户区域进行预设次数关联，依次获得所述用户的每条交易数据的所在层级信息，根据所述层级信息获得目标信息表，根据用户做数据，可以将运行脚本按照客户分区数量分为对应数量的进程并发执行，在每个进程内直接提取实例表中的制定分区的数据，使得SQL关联出的数据量大大下降，即提高了效率，还可以解决数据量大导致undo空间满的问题。

进一步地，在所述S1之前，还包括：在所述实例表建立时，通过mod函数，增加预设数值的分区字段。

采用上述进一步方案的有益效果是：本方案通过在所述实例表建立时，通过mod函数，增加预设数值的分区字段，例如，按照mod_id_100，字段分100个进程，直接指定分区将数据导入正表中，相比较无索引状态下的导入效率更高。

进一步地，还包括：用游标的方式查询待更新的所述实例表，找到对应待更新数据的标识符；

判断所述实例表是否满足更新条件，如果满足，则对待更新数据进行更新。

采用上述进一步方案的有益效果是：本方案通过用游标的方式查询待更新的所述实例表，找到对应待更新数据的标识符，判断所述实例表是否满足更新条件，如果满足，则对待更新数据进行更新。使用游标的方式，可以直接定位到数据的存储位置，通过将待更新的数据与不需要更新的数据分开，且保证是从业务上能分开的情况下，提高了更新数据的效率。

进一步地，还包括：判断所述实例表是否满足更新条件，如果不满足，则继续查询待更新的实例表。

采用上述进一步方案的有益效果是：本方案通过判断所述实施例是否满足更新条件，不满足更新条件则不能更新，防止误操作更新导致原始数据丢失问题发生，进一步保证了更新数据的准确性。

本发明解决上述技术问题的另一种技术方案如下：

一种大表数据移植的优化系统，包括：数据表关联模块和目标表生成模块；

所述数据表关联模块用于将实例表与配置关系数据表进行关联，获得中间数据表；其中，所述实例表中包括：用户的账户信息和用户对应的交易数据；所述配置关系数据表包括交易数据的层级关系；

所述目标表生成模块用于通过所述中间数据表与所述实例表进行预设次数关联，依次获得每条交易数据的所在层级信息，根据所述层级信息获得目标信息表；其中，所述目标信息表包括：所述用户的账户信息、交易数据和每一条所述交易数据的所在层级信息。

本发明的有益效果是：本发明通过将实例表与配置关系数据表进行关联，获得中间数据表，中间数据表与所述实例表进行预设次数关联，依次获得每条交易数据的所在层级信息，根据所述层级信息获得目标信息表，实现了当在实例表的数据量很大时，例如2亿左右，大大提高了执行效率，不会经常出现undo空间满的提示，和空间满导致的脚本报错问题。

进一步地，所述分区模块，用于将所述实例表按照用户进行分区；

所述数据表关联模块具体用于将实例表与配置关系数据表按照所述用户分区后区域进行关联，获得所述用户的中间数据表；

所述目标表生成模块具体用于通过所述中间数据表与所述实例表的所述用户区域进行预设次数关联，依次获得所述用户的每条交易数据的所在层级信息，根据所述层级信息获得目标信息表。

进一步地，还包括：建表模块，用于在所述实例表建立时，通过mod函数，增加预设数值的分区字段。

进一步地，还包括：数据更新模块，用于通过游标的方式查询待更新的所述实例表，找到对应待更新数据的标识符；

进一步地，还包括：判断模块，用于判断所述实例表是否满足更新条件，如果不满足，则继续查询待更新的实例表。

本发明附加的方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明实践了解到。

附图说明

图1为本发明的实施例提供的一种大表数据移植的优化方法的流程示意图；

图2为本发明的实施例提供的一种大表数据移植的优化系统的结构框图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实施例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，为本发明实施例提供的一种大表数据移植的优化方法，该方法包括：

S1，将实例表与配置关系数据表进行关联，获得中间数据表；其中，实例表中包括：用户的账户信息和用户对应的交易数据；配置关系数据表包括交易数据的层级关系；

在某实施例中，将实例表A，不包含数据之间的层级关系，与配置关系数据表B进行关联，生成中间数据表C用于存储过程数据。

S2，通过中间数据表与实例表进行预设次数关联，依次获得每条交易数据的所在层级信息，根据层级信息获得目标信息表；其中，目标信息表包括：用户的账户信息、交易数据和每一条交易数据的所在层级信息。其中预设次数根据待查询目标有多少条关联数据，例如查询一个号码的10条数据，此时预测次数则为10次。

需要说明的是，在某实施例中，一个号码有10条数据，有2个数据在第一层、有3个数据在第二层、有5个数据在第三层，现在要获取该号码的10条数据，就需要打通实例数据表A的层级关系，其中打通A表中数据的层级关系，需要将A表和B表相关联，来知道这条数据在第几层，然后找A表的下一条数据，比如它在下一层，我生成的数据即C表中间数据，包含层级关系在里面，通过中间数据表，将一层一层的关系打通，无法将所有数据的层级关系一步都出来；将A表和B表先关联，先生成第一条数据，放到临时表C中，第一层数据都C表中，再用C表与A表进行关联，找父级是A的下边的所有的第二层数据，依次找到该电话的10条数据。

如果是想一步生成，就需要自己跟自己关联多次，比如A表与B表关联完，再跟A表关联，在执行过程当中，将它拆成步骤，一次关联的化尽量减少表的关联，因为表本身数据量比较大了，所以通过中间数据表来关联。

就两个表关联生成中间表，生成这一层数据，下一次再用中间表的数据与目标表关联，再生成下一层的数据。

经过优化后的大表数据移植方案，可以实现在2亿多数据时执行时间10分钟左右，优化前2000w数据执行时间30-40分钟，2亿数据时执行不出来。

本发明通过将实例表与配置关系数据表进行关联，获得中间数据表，中间数据表与实例表进行预设次数关联，依次获得每条交易数据的所在层级信息，根据层级信息获得目标信息表，实现了当在实例表的数据量很大时，例如2亿左右，大大提高了执行效率，不会经常出现undo空间满的提示，和空间满导致的脚本报错问题。

优选地，在上述任意实施例中，还包括：将实例表按照用户进行分区；

S1具体包括：将实例表与配置关系数据表按照用户分区后区域进行关联，获得用户的中间数据表；

S2具体包括：通过中间数据表与实例表的用户区域进行预设次数关联，依次获得用户的每条交易数据的所在层级信息，根据层级信息获得目标信息表。

需要说明的是，在某实施例中，A表是带用户的数据，比如用户1、2、3，B表是另一个维度是配置数据，1用户有3个资费，在B表维度可以知道这1用户三个资费是在一层、二层还是三层，通过生成目标表，可以知道有多少用户、一个用户有多少资费，然后每个资费分别处在第几层级；而我拿到的原始数据A表里，只有用户和资费，没有资费的层级关系；最终出的数据也是一个用户的层级关系；A表有三个分区分别用于存储用户1、2、3信息，将不同用户分别固定在不同分区，当根据分区进行关联时，用户资费能与用户资费对应的层级关联上，不会出现用户对应不上的情况，当查找1用户的层级关系时，只需要关联1用户的分区，获得目标的数据，其中目标数据包括1用户的资费信息和所有层级关系；

本发明通过将实例表与配置关系数据表按照用户分区后区域进行关联，获得用户的中间数据表，通过中间数据表与实例表的用户区域进行预设次数关联，依次获得用户的每条交易数据的所在层级信息，根据层级信息获得目标信息表，根据用户做数据，可以将运行脚本按照客户分区数量分为对应数量的进程并发执行，在每个进程内直接提取实例表中的制定分区的数据，使得SQL关联出的数据量大大下降，即提高了效率，还可以解决数据量大导致undo空间满的问题。

优选地，在上述任意实施例中，在S1之前，还包括：在实例表建立时，通过mod函数，增加预设数值的分区字段。其中预设数据，根据具体需要的分区数量来确认，也可以选择推荐值。

需要说明的是，在建表时增加一个字段，通过下面mod函数实现：

mod_id_100number(2)generated always as(mod(id_no,100))，

按照mod_id_100分区建分区表，数据在入表的时候mod_id_100字段自动按照id_no计算值，并将数据存储对应的分区，在导数据的时候按照mod_id_100字段分100个进程；

在建表时加入字段，然后按照字段的值进行分区；字段是加在建表语句中，按照ID的数值进行分区；可以建立100个分区表，也可以是其他值，经过反复验证100属于效果较优值。

本方案通过在实例表建立时，通过mod函数，增加预设数值的分区字段，例如，按照mod_id_100，字段分100个进程，直接指定分区将数据导入正表中，相比较无索引状态下的导入效率更高。

优选地，在上述任意实施例中，还包括：用游标的方式查询待更新的实例表，找到对应待更新数据的标识符；

判断实例表是否满足更新条件，如果满足，则对待更新数据进行更新。

需要说明的是，用游标的方式查询要更新的表，找到要更新数据的rowid，在游标内判断是否符合更新条件，如果符合，update时根据rowid更新，可以直接定位到数据的存储位置，在用游标查询要更新的表时可以根据业务逻辑限定可能符合更新条件的数据，减少游标循环的次数。

本方案通过用游标的方式查询待更新的实例表，找到对应待更新数据的标识符，判断实例表是否满足更新条件，如果满足，则对待更新数据进行更新。使用游标的方式，可以直接定位到数据的存储位置，通过将待更新的数据与不需要更新的数据分开，且保证是从业务上能分开的情况下，提高了更新数据的效率。

优选地，在上述任意实施例中，还包括：判断实例表是否满足更新条件，如果不满足，则继续查询待更新的实例表。

需要说明的是，如果要更新的数据可以按照业务逻辑单独提取出来，可以将要更新的数据与不需要更新的数据分开，分成两段insert的sql，按照不同的逻辑写，经过实验在从业务上能分开的情况下，此方式可以实现较高的更新效率。

本方案通过判断实施例是否满足更新条件，不满足更新条件则不能更新，防止误操作更新导致原始数据丢失问题发生，进一步保证了更新数据的准确性。

在某一实施例中，如图2所示，一种大表数据移植的优化系统，该系统包括：数据表关联模块11和目标表生成模块12；

数据表关联模块11用于将实例表与配置关系数据表进行关联，获得中间数据表；其中，实例表中包括：用户的账户信息和用户对应的交易数据；配置关系数据表包括交易数据的层级关系；

目标表生成模块12用于通过中间数据表与实例表进行预设次数关联，依次获得每条交易数据的所在层级信息，根据层级信息获得目标信息表；其中，目标信息表包括：用户的账户信息、交易数据和每一条交易数据的所在层级信息。本发明通过将实例表与配置关系数据表进行关联，获得中间数据表，中间数据表与实例表进行预设次数关联，依次获得每条交易数据的所在层级信息，根据层级信息获得目标信息表，实现了当在实例表的数据量很大时，例如2亿左右，大大提高了执行效率，不会经常出现undo空间满的提示，和空间满导致的脚本报错问题。

优选地，在上述任意实施例中，分区模块，用于将实例表按照用户进行分区；

数据表关联模块11具体用于将实例表与配置关系数据表按照用户分区后区域进行关联，获得用户的中间数据表；

目标表生成模块12具体用于通过中间数据表与实例表的用户区域进行预设次数关联，依次获得用户的每条交易数据的所在层级信息，根据层级信息获得目标信息表。

优选地，在上述任意实施例中，还包括：建表模块，用于在实例表建立时，通过mod函数，增加预设数值的分区字段。

优选地，在上述任意实施例中，还包括：数据更新模块，用于通过游标的方式查询待更新的实例表，找到对应待更新数据的标识符；

优选地，在上述任意实施例中，还包括：判断模块，用于判断实例表是否满足更新条件，如果不满足，则继续查询待更新的实例表。

可以理解，在一些实施例中，可以包含如上述各实施例中的部分或全部可选实施方式。

需要说明的是，上述各实施例是与在先方法实施例对应的产品实施例，对于产品实施例中各可选实施方式的说明可以参考上述各方法实施例中的对应说明，在此不再赘述。

读者应理解，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的方法实施例仅仅是示意性的，例如，步骤的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个步骤可以结合或者可以集成到另一个步骤，或一些特征可以忽略，或不执行。

上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种大表数据移植的优化方法，其特征在于，包括：

2.根据权利要求1所述的一种大表数据移植的优化方法，其特征在于，还包括：将所述实例表按照用户进行分区；

3.根据权利要求2所述的一种大表数据移植的优化方法，其特征在于，在所述S1之前，还包括：在所述实例表建立时，通过mod函数，增加预设数值的分区字段。

4.根据权利要求1-3任一项所述的一种大表数据移植的优化方法，其特征在于，还包括：用游标的方式查询待更新的所述实例表，找到对应待更新数据的标识符；

5.根据权利要求4所述的一种大表数据移植的优化方法，其特征在于，还包括：判断所述实例表是否满足更新条件，如果不满足，则继续查询待更新的实例表。

6.一种大表数据移植的优化系统，其特征在于，包括：数据表关联模块和目标表生成模块；

7.根据权利要求6所述的一种大表数据移植的优化系统，其特征在于，所述分区模块，用于将所述实例表按照用户进行分区；

8.根据权利要求7所述的一种大表数据移植的优化系统，其特征在于，还包括：建表模块，用于在所述实例表建立时，通过mod函数，增加预设数值的分区字段。

9.根据权利要求6-8任一项所述的一种大表数据移植的优化系统，其特征在于，还包括：数据更新模块，用于通过游标的方式查询待更新的所述实例表，找到对应待更新数据的标识符；

10.根据权利要求9所述的一种大表数据移植的优化系统，其特征在于，还包括：判断模块，用于判断所述实例表是否满足更新条件，如果不满足，则继续查询待更新的实例表。