CN110362562A

CN110362562A - 大数据抽取样本数据的方法及系统

Info

Publication number: CN110362562A
Application number: CN201910639791.5A
Authority: CN
Inventors: 张兴刚; 郑羽
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2019-07-16
Filing date: 2019-07-16
Publication date: 2019-10-22

Abstract

本发明提供了一种大数据抽取样本数据的方法及系统。所述方法包括：获取数据抽取参数，所述数据抽取参数包括数据筛选条件及数据变形配置；根据所述数据抽取参数选取根节点，确定数据表依赖关系树，利用所述数据表依赖关系树构建数据表抽取顺序；根据所述数据表抽取顺序及所述数据抽取参数，生成抽取脚本；利用所述抽取脚本进行数据抽取，生成数据文件，将所述数据文件导入至目标数据库。本发明解决了现有的测试数据抽取方法中，没有考虑到表之间关联关系，从而导致抽取后无效数据较多的缺点，本发明可使抽取数据的有效性大大提高，使得测试环境有限的空间得以充分利用，与此同时，测试人员无需投入额外精力，树形结构及抽取顺序均可自动生成。

Description

大数据抽取样本数据的方法及系统

技术领域

本发明涉及计算机应用软件的大数据测试技术领域，尤指一种大数据抽取样本数据的方法及系统。

背景技术

在大数据系统的测试数据准备过程中，一般会抽取部分生产数据，用于验证系统功能或是性能。由于生产环境环境数据量达到数千TB，甚至PB级，测试环境存储空间远小于生产环境，需要对数据进行筛选并导入测试环境。

传统的抽取方法主要是基于简单的抽取算法规则，例如要抽取2张表：A表(客户信息表)，B表(交易明细表)。A表是存量信息表类，筛选北京地区的数据，B表是交易明细表，筛选近7天明细。这种方法的缺点是：由于未考虑到数据关联性，B表抽取的很多交易明细所对应的客户都不存在于A表。若需测试的功能逻辑中A、B表需要按客户号关联，B表中就会有大量的无效数据，造成测试环境空间的浪费，且结果表的出数率低。

发明内容

为了解决上述问题，本发明实施例提供一种大数据抽取样本数据的方法，所述方法包括：

获取数据抽取参数，所述数据抽取参数包括数据筛选条件及数据变形配置；

根据所述数据抽取参数选取根节点，确定数据表依赖关系树，利用所述数据表依赖关系树构建数据表抽取顺序；

根据所述数据表抽取顺序及所述数据抽取参数，生成抽取脚本；

利用所述抽取脚本进行数据抽取，生成数据文件，将所述数据文件导入至目标数据库。

可选的，在本发明一实施例中，所述数据抽取参数还包括目标抽取表信息、字段关联信息、备选根节点信息、待抽取集群信息及待导入集群信息。

可选的，在本发明一实施例中，所述根据所述数据抽取参数选取根节点，确定数据表依赖关系树，利用所述数据表依赖关系树构建数据表抽取顺序包括：根据所述数据抽取参数选取根节点；将依赖所述根节点的数据表作为子节点，并逐层构造所述子节点的孙节点，形成所述数据表依赖关系树；利用所述数据表依赖关系树，根据先序遍历算法构建数据表抽取顺序。

可选的，在本发明一实施例中，所述方法还包括：在所述数据文件导入至目标数据库后，对数据临时表进行清理，释放存储空间。

本发明实施例还提供一种大数据抽取样本数据的系统，所述系统包括：

主控单元，用于获取数据抽取参数，所述数据抽取参数包括数据筛选条件及数据变形配置；

抽取算法构建单元，用于根据所述数据抽取参数选取根节点，确定数据表依赖关系树，利用所述数据表依赖关系树构建数据表抽取顺序；以及根据所述数据表抽取顺序及所述数据抽取参数，生成抽取脚本；

数据抽取单元，用于利用所述抽取脚本进行数据抽取，生成数据文件；

数据导入单元，用于将所述数据文件导入至目标数据库。

可选的，在本发明一实施例中，所述抽取算法构建单元包括：根节点选取子单元，用于根据所述数据抽取参数选取根节点；依赖关系树子单元，用于将依赖所述根节点的数据表作为子节点，并逐层构造所述子节点的孙节点，形成所述数据表依赖关系树；抽取顺序子单元，用于利用所述数据表依赖关系树，根据先序遍历算法构建数据表抽取顺序。

可选的，在本发明一实施例中，所述系统还包括数据清理单元，用于在所述数据文件导入至目标数据库后，对数据临时表进行清理，释放存储空间。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

本发明解决了现有的测试数据抽取方法中，没有考虑到表之间关联关系，从而导致抽取后无效数据较多的缺点，本发明可使抽取数据的有效性大大提高，使得测试环境有限的空间得以充分利用，与此同时，测试人员无需投入额外精力，树形结构及抽取顺序均可自动生成。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种大数据抽取样本数据的方法的流程图；

图2为本发明一具体实施例中抽取样本数据的流程图；

图3为本发明一具体实施例中构建数据表依赖关系树的流程图；

图4为本发明实施例中抽取顺序示意图；

图5为本发明实施例中清理顺序示意图；

图6为本发明实施例一种大数据抽取样本数据的系统的结构示意图。

具体实施方式

本发明实施例提供一种大数据抽取样本数据的方法及系统。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示为本发明实施例一种大数据抽取样本数据的方法的流程图，图中所示方法包括：

步骤S1，获取数据抽取参数，所述数据抽取参数包括数据筛选条件及数据变形配置；

步骤S2，根据所述数据抽取参数选取根节点，确定数据表依赖关系树，利用所述数据表依赖关系树构建数据表抽取顺序；

步骤S3，根据所述数据表抽取顺序及所述数据抽取参数，生成抽取脚本；

步骤S4，利用所述抽取脚本进行数据抽取，生成数据文件，将所述数据文件导入至目标数据库。

在本实施例中，根据关联条件，即数据表依赖关系树，构建出表之间依赖关系(决定了抽取顺序)，例如将A表作为主表，令B依赖于A，那么抽取顺序上先抽取A表，然后B表根据A表抽取到的客户号再抽取，这样就保证了数据的关联性，同时减少B表抽到的无效数据量。具体的，用户将各段业务逻辑中表的关联关系，即数据表依赖关系树，及单表的筛选条件作为输入，自动解析关联关系，并生成依赖关系树，再根据这个树形结构自上而下依次抽取表。

作为本发明的一个实施例，数据抽取参数还包括目标抽取表信息、字段关联信息、备选根节点信息、待抽取集群信息及待导入集群信息。

在本实施例中，根据所述数据抽取参数选取根节点，确定数据表依赖关系树，利用所述数据表依赖关系树构建数据表抽取顺序包括：根据所述数据抽取参数选取根节点；将依赖所述根节点的数据表作为子节点，并逐层构造所述子节点的孙节点，形成所述数据表依赖关系树；利用所述数据表依赖关系树，根据先序遍历算法构建数据表抽取顺序。

作为本发明的一个实施例，在所述数据文件导入至目标数据库后，对数据临时表进行清理，释放存储空间。

在本发明一具体实施例中，如图2所示，具体的工作步骤如下：

步骤1、用户输入数据抽取参数：包括抽取目标数据库、目标抽取表信息、字段关联信息、备选根节点信息，待抽取集群信息、待导入集群信息、数据变形配置等参数

步骤2、系统判断是否输入的参数只涉及修改表筛选条件、变形配置，由于这两个参数修改并不影响数据表间的关联关系，因此如果修改只涉及这两个参数修改，则直接进入步骤4，直接引用原有构建的数据抽取顺序，否则进入步骤3构建数据表抽取依赖顺序。

步骤3、构建数据表抽取依赖顺序，即数据表依赖关系树，该步骤为关键步骤，根据抽取表参数信息，选取根节点、构造抽取数据表的依赖关系树形结构，确定数据表抽取顺序。

步骤4：当参数修改仅涉及抽取表的数据筛选条件、数据变形配置，该情况下无须进行数据抽取算法的重新构建，直接引用上一次构建的数据抽取依赖顺序。

步骤5：根据前序步骤构建的数据抽取依赖顺序以及用户输入的数据筛选条件和数据变形的参数配置，系统生成适用于各种类型数据库的抽取脚本。

步骤6：发送抽取指令至抽取单元，对于相互间无依赖的表并行发送抽取指令，对有依赖的表按序串行发送抽取指令。

步骤7：抽取单元接收抽取指令，根据待抽取的数据表，首先建立一张结构相同的临时表，临时表的作用，是用于存放父节点筛选条件抽取后的数据，这样子节点在数据抽取时，可以关联到父节点临时表，关联父节点抽取的数据范围进行自身表的筛选。

步骤8：对生产环境数据涉及客户信息等敏感信息，在抽取数据至临时表时，需要依照规则进行敏感数据的脱敏处理。

步骤9：将临时表数据抽取成数据文件，用于传输至待导入数据的集群。

步骤10：导入单元将数据并行的导入目标数据库。

步骤11：系统判断临时表的下辖节点是否都已经完成导入。

步骤12：如果所有下辖节点完成抽取后，清理临时表。

步骤13：如果没有完成所有下辖节点的数据抽取，则保留临时表，继续后续导入作业。

在本实施例中，如图3所示为图2步骤3的细化流程，步骤31，获取前序步骤输入的抽取参数信息：包括用户指定的根节点、待抽取的数据表、表间字段的关联关系等

步骤32，系统判断用户是否指定抽取的数据表根节点，如果指定则进入步骤33，未指定则进入步骤35。

步骤33，根据用户指定的抽取根节点，将依赖该根节点的数据表(即外键为该根节点表字段的数据表)，作为其子节点，并逐层构造子节点的孙节点，形成抽取依赖的树形结构，然后按照先序遍历算法，将树上的各节点进行排序，形成最终数据表的抽取顺序，参见图4。

步骤34，如果用户没有指定抽取的根节点，则系统自动选取根节点，优先使用无先序外键依赖的表作为根节点。对系统自动选取的备选根节点需要进行校验，满足构建的依赖关系不形成环(即下辖节点不会形成循环依赖的关系)，否则挑选下个备选根节点进行构建。确定根节点后，采用与33步骤相同的方式构建抽取顺序。

步骤35，一个根节点完成树形结构的构建后，系统判断是否还有剩余的表，与该根节点及其下辖节点都不存在关联，如果存在，则返回步骤2，继续构建新的树形结构，直到所有表构建完毕。

此外，在数据完成导入后，对数据临时表，数据文件进行清理，释放存储空间。在数据抽取完成后，判断如果该节点没有下辖节点，那么临时表直接清理，以释放空间；如果有下辖节点，那么等待所有下辖节点完成抽取和清理后，再开始清理临时表，清理顺序的示意参见图5。

本发明主要解决了现有的测试数据抽取方法中，没有考虑到表之间关联关系，从而导致抽取后无效数据较多的缺点。本发明可使抽取数据的有效性大大提高，使得测试环境有限的空间得以充分利用；与此同时，测试人员无需投入额外精力，树形结构及抽取顺序均可由工具自动生成。

此外，本发明还可实现：1、提升数据准备效率和数据质量，测试工程师仅需维护抽取的表信息，即可全自动高效地获取抽取数据，抽取数据表间的关联性强，保证了生产环境到测试环境抽取过程数据有效性，减少了无效数据对测试结果的干扰，不仅降低了大数据数据准备的技术门槛，同时也大大提高了大数据测试的效率和测试质量。2、提升测试环境空间的有效利用率，本发明中通过参数配置数据筛选条件，并利用关联条件减少冗余数据恢复，有效提升测试环境空间的利用率。3、具有较好的通用性，本发明通过参数配置，屏蔽了各类大数据系统中所使用的处理方法、数据库产品类型不同的差异性，具有较好的通用性。

如图6所示为本发明实施例一种大数据抽取样本数据的系统的结构示意图，所述系统包括：

主控单元1，用于获取数据抽取参数，所述数据抽取参数包括数据筛选条件及数据变形配置；

抽取算法构建单元2，用于根据所述数据抽取参数选取根节点，确定数据表依赖关系树，利用所述数据表依赖关系树构建数据表抽取顺序；以及根据所述数据表抽取顺序及所述数据抽取参数，生成抽取脚本；

数据抽取单元3，用于利用所述抽取脚本进行数据抽取，生成数据文件；

数据导入单元4，用于将所述数据文件导入至目标数据库。

在本实施例中，抽取算法构建单元包括：根节点选取子单元，用于根据所述数据抽取参数选取根节点；依赖关系树子单元，用于将依赖所述根节点的数据表作为子节点，并逐层构造所述子节点的孙节点，形成所述数据表依赖关系树；抽取顺序子单元，用于利用所述数据表依赖关系树，根据先序遍历算法构建数据表抽取顺序。

作为本发明的一个实施例，系统还包括数据清理单元5，用于在所述数据文件导入至目标数据库后，对数据临时表进行清理，释放存储空间。

在本发明一具体实施例中，主控单元1，提供一个开放式的界面，用户可通过此界面实现目标抽取表信息、数据筛选条件、字段关联信息、备选根节点、待抽取数据库集群信息、待导入数据库集群信息、数据变形配置等参数的设置和维护，参数信息配置变化后，将由主控单元1发送至抽取算法构建单元2。

目标抽取表信息参数包括：“数据表所属shcema”、“数据表名”。

数据筛选条件参数包括：“筛选列”、“运算符”，“筛选值”，运算符可支持：等于、不等于、大于、大于等于、小于、小于等于、LIKE、BETWEEN、IS、BETWEEN、IN、NOT IN。支持多个筛选条件，采用OR和AND方式连接。筛选条件支持函数运算，例如：substr(筛选列，1，4)＝“0200”。

字段关联信息参数包括：“关联表名”，“被关联表名”，“关联字段名”。例如：A表包含客户号，地区号，B表包含客户号、交易明细，以A表为基础表，B表的关联配置信息为：关联表名“B”，被关联表名“A”，关联字段名“客户号”，则B表在抽取时，只包括A表有的客户号交易明细，A表没有的客户号交易明细不抽取。

备选根节点：所谓“备选根节点”，是指用户选择一张表，该表没有对其他表的依赖关系，作为最基础的表，先被抽取出来，然后其他表根据同这张表的字段依赖关联关系，依次抽取出来，形成一个抽取的树形结构，最上面的节点就是根节点。

待抽取数据库集群信息包括：“目标数据库类型”、“数据库IP地址”、“数据库实例名”、“用户名”、“密码”等参数信息。

待导入数据库集群信息包括：“目标数据库类型”、“数据库IP地址”、“数据库实例名”、“用户名”、“密码”等参数信息。

数据变形参数包括：“变形数据表”，“字段名称”，“变形类型”，变形类型代表敏感字段的变形方式，对于特定种类的字段采用对应的变形规则进行变形，例如：“变形类型”标识为1，代表该字段为客户名称类型，变形规则为取名字最后一个中文字重复两遍来信息脱敏，比如“李强”变成“强强”。变形类型包括：1、客户名称，2、电话号，3、身份证号，4、地址，5、密码，6、银行卡号，7、IP，8、密钥。

抽取算法构建单元2，负责依据算法，选择数据抽取根节点，构建数据表的遍历抽取顺序；向数据导入单元3提供数据表抽取顺序信息。本发明的抽取算法是基于数据表外键关系，构建数据表依赖关系树，确定表的抽取先后关系。在数据表的遍历顺序方式的选择上，由于每个叶子节点都需要父节点的外键关联字段信息，需要先获取父节点表数据，再获取子节点表数据，因此采用先序遍历算法，遍历所有表进行抽取，抽取顺序示意参见图4。

确定抽取顺序后，再依据抽取顺序和抽取参数，构建数据抽取脚本。具体地，根据输入的数据库类型参数，系统自动选取的对应数据库的脚的抽取语句构建模板，替换模板中的数据表shecma，数据表表名，数据筛选条件，关联字段等内容形成抽数语句，并按已确定好的表抽取顺序排列抽取数据语句形成抽取脚本。

数据抽取单元3：支持部署在包含了多个数据库节点的大数据分布式数据库上，依据抽取构建单元构建2提供的数据抽取脚本，完成数据抽取，生成数据文件，传输至数据导入单元4。此外，数据抽取单元3还包括集群1及集群2。

具体地，分布式数据库系统每个节点(图中所示节点81-84)会部署一个数据抽取单元(图6中所示数据抽取单元31-34)，每个数据抽取单元3接收算法构建单元2提供的数据抽取脚本，依照抽取规则对本节点数据进行抽取，完成敏感数据的脱敏变形，形成抽取数据临时表和数据文件，并在抽取完成后，将数据文件传输至数据导入单元。

数据导入单元4：数据导入单元支持部署在包含了多个数据库节点的大数据分布式数据库服务器。

具体地，分布式数据库系统每个节点(图6中所示节点91-94)会部署一个数据导入单元(图6中所示数据导入单元41-44)，每个数据导入单元接收数据抽取单元传输的数据文件，将数据文件导入至目标节点数据库，并在导入完成后，调用数据清理单元5，对完成导入的临时数据进行清理。此外，数据导入单元4还包括集群1及集群2。

数据清理单元5：数据清理单元负责在数据完成导入后，对数据临时表，数据文件进行清理，释放存储空间。清理单元在数据抽取完成后，判断如果该节点没有下辖节点，那么临时表直接清理，以释放空间；如果有下辖节点，那么等待所有下辖节点完成抽取和清理后，再开始清理临时表，清理顺序的示意参见图5。

基于与上述一种大数据抽取样本数据的方法相同的申请构思，本发明还提供了上述一种计算机设备及一种计算机可读存储介质。由于该一种计算机设备及一种计算机可读存储介质解决问题的原理与一种大数据抽取样本数据的方法相似，因此该一种计算机设备及一种计算机可读存储介质的实施可以参见一种大数据抽取样本数据的方法的实施，重复之处不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读取存储介质中，比如ROM/RAM、磁碟、光盘等。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种大数据抽取样本数据的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述数据抽取参数还包括目标抽取表信息、字段关联信息、备选根节点信息、待抽取集群信息及待导入集群信息。

3.根据权利要求2所述的方法，其特征在于，所述根据所述数据抽取参数选取根节点，确定数据表依赖关系树，利用所述数据表依赖关系树构建数据表抽取顺序包括：

根据所述数据抽取参数选取根节点；

将依赖所述根节点的数据表作为子节点，并逐层构造所述子节点的孙节点，形成所述数据表依赖关系树；

利用所述数据表依赖关系树，根据先序遍历算法构建数据表抽取顺序。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：在所述数据文件导入至目标数据库后，对数据临时表进行清理，释放存储空间。

5.一种大数据抽取样本数据的系统，其特征在于，所述系统包括：

数据导入单元，用于将所述数据文件导入至目标数据库。

6.根据权利要求5所述的系统，其特征在于，所述数据抽取参数还包括目标抽取表信息、字段关联信息、备选根节点信息、待抽取集群信息及待导入集群信息。

7.根据权利要求6所述的系统，其特征在于，所述抽取算法构建单元包括：

根节点选取子单元，用于根据所述数据抽取参数选取根节点；

依赖关系树子单元，用于将依赖所述根节点的数据表作为子节点，并逐层构造所述子节点的孙节点，形成所述数据表依赖关系树；

抽取顺序子单元，用于利用所述数据表依赖关系树，根据先序遍历算法构建数据表抽取顺序。

8.根据权利要求5所述的系统，其特征在于，所述系统还包括数据清理单元，用于在所述数据文件导入至目标数据库后，对数据临时表进行清理，释放存储空间。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以下步骤：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现以下步骤：