CN110362562A - 大数据抽取样本数据的方法及系统 - Google Patents

大数据抽取样本数据的方法及系统 Download PDF

Info

Publication number
CN110362562A
CN110362562A CN201910639791.5A CN201910639791A CN110362562A CN 110362562 A CN110362562 A CN 110362562A CN 201910639791 A CN201910639791 A CN 201910639791A CN 110362562 A CN110362562 A CN 110362562A
Authority
CN
China
Prior art keywords
data
tables
parameter
pick
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910639791.5A
Other languages
English (en)
Inventor
张兴刚
郑羽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN201910639791.5A priority Critical patent/CN110362562A/zh
Publication of CN110362562A publication Critical patent/CN110362562A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing

Abstract

本发明提供了一种大数据抽取样本数据的方法及系统。所述方法包括:获取数据抽取参数,所述数据抽取参数包括数据筛选条件及数据变形配置;根据所述数据抽取参数选取根节点,确定数据表依赖关系树,利用所述数据表依赖关系树构建数据表抽取顺序;根据所述数据表抽取顺序及所述数据抽取参数,生成抽取脚本;利用所述抽取脚本进行数据抽取,生成数据文件,将所述数据文件导入至目标数据库。本发明解决了现有的测试数据抽取方法中,没有考虑到表之间关联关系,从而导致抽取后无效数据较多的缺点,本发明可使抽取数据的有效性大大提高,使得测试环境有限的空间得以充分利用,与此同时,测试人员无需投入额外精力,树形结构及抽取顺序均可自动生成。

Description

大数据抽取样本数据的方法及系统
技术领域
本发明涉及计算机应用软件的大数据测试技术领域,尤指一种大数据抽取样本数据的方法及系统。
背景技术
在大数据系统的测试数据准备过程中,一般会抽取部分生产数据,用于验证系统功能或是性能。由于生产环境环境数据量达到数千TB,甚至PB级,测试环境存储空间远小于生产环境,需要对数据进行筛选并导入测试环境。
传统的抽取方法主要是基于简单的抽取算法规则,例如要抽取2张表:A表(客户信息表),B表(交易明细表)。A表是存量信息表类,筛选北京地区的数据,B表是交易明细表,筛选近7天明细。这种方法的缺点是:由于未考虑到数据关联性,B表抽取的很多交易明细所对应的客户都不存在于A表。若需测试的功能逻辑中A、B表需要按客户号关联,B表中就会有大量的无效数据,造成测试环境空间的浪费,且结果表的出数率低。
发明内容
为了解决上述问题,本发明实施例提供一种大数据抽取样本数据的方法,所述方法包括:
获取数据抽取参数,所述数据抽取参数包括数据筛选条件及数据变形配置;
根据所述数据抽取参数选取根节点,确定数据表依赖关系树,利用所述数据表依赖关系树构建数据表抽取顺序;
根据所述数据表抽取顺序及所述数据抽取参数,生成抽取脚本;
利用所述抽取脚本进行数据抽取,生成数据文件,将所述数据文件导入至目标数据库。
可选的,在本发明一实施例中,所述数据抽取参数还包括目标抽取表信息、字段关联信息、备选根节点信息、待抽取集群信息及待导入集群信息。
可选的,在本发明一实施例中,所述根据所述数据抽取参数选取根节点,确定数据表依赖关系树,利用所述数据表依赖关系树构建数据表抽取顺序包括:根据所述数据抽取参数选取根节点;将依赖所述根节点的数据表作为子节点,并逐层构造所述子节点的孙节点,形成所述数据表依赖关系树;利用所述数据表依赖关系树,根据先序遍历算法构建数据表抽取顺序。
可选的,在本发明一实施例中,所述方法还包括:在所述数据文件导入至目标数据库后,对数据临时表进行清理,释放存储空间。
本发明实施例还提供一种大数据抽取样本数据的系统,所述系统包括:
主控单元,用于获取数据抽取参数,所述数据抽取参数包括数据筛选条件及数据变形配置;
抽取算法构建单元,用于根据所述数据抽取参数选取根节点,确定数据表依赖关系树,利用所述数据表依赖关系树构建数据表抽取顺序;以及根据所述数据表抽取顺序及所述数据抽取参数,生成抽取脚本;
数据抽取单元,用于利用所述抽取脚本进行数据抽取,生成数据文件;
数据导入单元,用于将所述数据文件导入至目标数据库。
可选的,在本发明一实施例中,所述数据抽取参数还包括目标抽取表信息、字段关联信息、备选根节点信息、待抽取集群信息及待导入集群信息。
可选的,在本发明一实施例中,所述抽取算法构建单元包括:根节点选取子单元,用于根据所述数据抽取参数选取根节点;依赖关系树子单元,用于将依赖所述根节点的数据表作为子节点,并逐层构造所述子节点的孙节点,形成所述数据表依赖关系树;抽取顺序子单元,用于利用所述数据表依赖关系树,根据先序遍历算法构建数据表抽取顺序。
可选的,在本发明一实施例中,所述系统还包括数据清理单元,用于在所述数据文件导入至目标数据库后,对数据临时表进行清理,释放存储空间。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取数据抽取参数,所述数据抽取参数包括数据筛选条件及数据变形配置;
根据所述数据抽取参数选取根节点,确定数据表依赖关系树,利用所述数据表依赖关系树构建数据表抽取顺序;
根据所述数据表抽取顺序及所述数据抽取参数,生成抽取脚本;
利用所述抽取脚本进行数据抽取,生成数据文件,将所述数据文件导入至目标数据库。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取数据抽取参数,所述数据抽取参数包括数据筛选条件及数据变形配置;
根据所述数据抽取参数选取根节点,确定数据表依赖关系树,利用所述数据表依赖关系树构建数据表抽取顺序;
根据所述数据表抽取顺序及所述数据抽取参数,生成抽取脚本;
利用所述抽取脚本进行数据抽取,生成数据文件,将所述数据文件导入至目标数据库。
本发明解决了现有的测试数据抽取方法中,没有考虑到表之间关联关系,从而导致抽取后无效数据较多的缺点,本发明可使抽取数据的有效性大大提高,使得测试环境有限的空间得以充分利用,与此同时,测试人员无需投入额外精力,树形结构及抽取顺序均可自动生成。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种大数据抽取样本数据的方法的流程图;
图2为本发明一具体实施例中抽取样本数据的流程图;
图3为本发明一具体实施例中构建数据表依赖关系树的流程图;
图4为本发明实施例中抽取顺序示意图;
图5为本发明实施例中清理顺序示意图;
图6为本发明实施例一种大数据抽取样本数据的系统的结构示意图。
具体实施方式
本发明实施例提供一种大数据抽取样本数据的方法及系统。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明实施例一种大数据抽取样本数据的方法的流程图,图中所示方法包括:
步骤S1,获取数据抽取参数,所述数据抽取参数包括数据筛选条件及数据变形配置;
步骤S2,根据所述数据抽取参数选取根节点,确定数据表依赖关系树,利用所述数据表依赖关系树构建数据表抽取顺序;
步骤S3,根据所述数据表抽取顺序及所述数据抽取参数,生成抽取脚本;
步骤S4,利用所述抽取脚本进行数据抽取,生成数据文件,将所述数据文件导入至目标数据库。
在本实施例中,根据关联条件,即数据表依赖关系树,构建出表之间依赖关系(决定了抽取顺序),例如将A表作为主表,令B依赖于A,那么抽取顺序上先抽取A表,然后B表根据A表抽取到的客户号再抽取,这样就保证了数据的关联性,同时减少B表抽到的无效数据量。具体的,用户将各段业务逻辑中表的关联关系,即数据表依赖关系树,及单表的筛选条件作为输入,自动解析关联关系,并生成依赖关系树,再根据这个树形结构自上而下依次抽取表。
作为本发明的一个实施例,数据抽取参数还包括目标抽取表信息、字段关联信息、备选根节点信息、待抽取集群信息及待导入集群信息。
在本实施例中,根据所述数据抽取参数选取根节点,确定数据表依赖关系树,利用所述数据表依赖关系树构建数据表抽取顺序包括:根据所述数据抽取参数选取根节点;将依赖所述根节点的数据表作为子节点,并逐层构造所述子节点的孙节点,形成所述数据表依赖关系树;利用所述数据表依赖关系树,根据先序遍历算法构建数据表抽取顺序。
作为本发明的一个实施例,在所述数据文件导入至目标数据库后,对数据临时表进行清理,释放存储空间。
在本发明一具体实施例中,如图2所示,具体的工作步骤如下:
步骤1、用户输入数据抽取参数:包括抽取目标数据库、目标抽取表信息、字段关联信息、备选根节点信息,待抽取集群信息、待导入集群信息、数据变形配置等参数
步骤2、系统判断是否输入的参数只涉及修改表筛选条件、变形配置,由于这两个参数修改并不影响数据表间的关联关系,因此如果修改只涉及这两个参数修改,则直接进入步骤4,直接引用原有构建的数据抽取顺序,否则进入步骤3构建数据表抽取依赖顺序。
步骤3、构建数据表抽取依赖顺序,即数据表依赖关系树,该步骤为关键步骤,根据抽取表参数信息,选取根节点、构造抽取数据表的依赖关系树形结构,确定数据表抽取顺序。
步骤4:当参数修改仅涉及抽取表的数据筛选条件、数据变形配置,该情况下无须进行数据抽取算法的重新构建,直接引用上一次构建的数据抽取依赖顺序。
步骤5:根据前序步骤构建的数据抽取依赖顺序以及用户输入的数据筛选条件和数据变形的参数配置,系统生成适用于各种类型数据库的抽取脚本。
步骤6:发送抽取指令至抽取单元,对于相互间无依赖的表并行发送抽取指令,对有依赖的表按序串行发送抽取指令。
步骤7:抽取单元接收抽取指令,根据待抽取的数据表,首先建立一张结构相同的临时表,临时表的作用,是用于存放父节点筛选条件抽取后的数据,这样子节点在数据抽取时,可以关联到父节点临时表,关联父节点抽取的数据范围进行自身表的筛选。
步骤8:对生产环境数据涉及客户信息等敏感信息,在抽取数据至临时表时,需要依照规则进行敏感数据的脱敏处理。
步骤9:将临时表数据抽取成数据文件,用于传输至待导入数据的集群。
步骤10:导入单元将数据并行的导入目标数据库。
步骤11:系统判断临时表的下辖节点是否都已经完成导入。
步骤12:如果所有下辖节点完成抽取后,清理临时表。
步骤13:如果没有完成所有下辖节点的数据抽取,则保留临时表,继续后续导入作业。
在本实施例中,如图3所示为图2步骤3的细化流程,步骤31,获取前序步骤输入的抽取参数信息:包括用户指定的根节点、待抽取的数据表、表间字段的关联关系等
步骤32,系统判断用户是否指定抽取的数据表根节点,如果指定则进入步骤33,未指定则进入步骤35。
步骤33,根据用户指定的抽取根节点,将依赖该根节点的数据表(即外键为该根节点表字段的数据表),作为其子节点,并逐层构造子节点的孙节点,形成抽取依赖的树形结构,然后按照先序遍历算法,将树上的各节点进行排序,形成最终数据表的抽取顺序,参见图4。
步骤34,如果用户没有指定抽取的根节点,则系统自动选取根节点,优先使用无先序外键依赖的表作为根节点。对系统自动选取的备选根节点需要进行校验,满足构建的依赖关系不形成环(即下辖节点不会形成循环依赖的关系),否则挑选下个备选根节点进行构建。确定根节点后,采用与33步骤相同的方式构建抽取顺序。
步骤35,一个根节点完成树形结构的构建后,系统判断是否还有剩余的表,与该根节点及其下辖节点都不存在关联,如果存在,则返回步骤2,继续构建新的树形结构,直到所有表构建完毕。
此外,在数据完成导入后,对数据临时表,数据文件进行清理,释放存储空间。在数据抽取完成后,判断如果该节点没有下辖节点,那么临时表直接清理,以释放空间;如果有下辖节点,那么等待所有下辖节点完成抽取和清理后,再开始清理临时表,清理顺序的示意参见图5。
本发明主要解决了现有的测试数据抽取方法中,没有考虑到表之间关联关系,从而导致抽取后无效数据较多的缺点。本发明可使抽取数据的有效性大大提高,使得测试环境有限的空间得以充分利用;与此同时,测试人员无需投入额外精力,树形结构及抽取顺序均可由工具自动生成。
此外,本发明还可实现:1、提升数据准备效率和数据质量,测试工程师仅需维护抽取的表信息,即可全自动高效地获取抽取数据,抽取数据表间的关联性强,保证了生产环境到测试环境抽取过程数据有效性,减少了无效数据对测试结果的干扰,不仅降低了大数据数据准备的技术门槛,同时也大大提高了大数据测试的效率和测试质量。2、提升测试环境空间的有效利用率,本发明中通过参数配置数据筛选条件,并利用关联条件减少冗余数据恢复,有效提升测试环境空间的利用率。3、具有较好的通用性,本发明通过参数配置,屏蔽了各类大数据系统中所使用的处理方法、数据库产品类型不同的差异性,具有较好的通用性。
如图6所示为本发明实施例一种大数据抽取样本数据的系统的结构示意图,所述系统包括:
主控单元1,用于获取数据抽取参数,所述数据抽取参数包括数据筛选条件及数据变形配置;
抽取算法构建单元2,用于根据所述数据抽取参数选取根节点,确定数据表依赖关系树,利用所述数据表依赖关系树构建数据表抽取顺序;以及根据所述数据表抽取顺序及所述数据抽取参数,生成抽取脚本;
数据抽取单元3,用于利用所述抽取脚本进行数据抽取,生成数据文件;
数据导入单元4,用于将所述数据文件导入至目标数据库。
作为本发明的一个实施例,数据抽取参数还包括目标抽取表信息、字段关联信息、备选根节点信息、待抽取集群信息及待导入集群信息。
在本实施例中,抽取算法构建单元包括:根节点选取子单元,用于根据所述数据抽取参数选取根节点;依赖关系树子单元,用于将依赖所述根节点的数据表作为子节点,并逐层构造所述子节点的孙节点,形成所述数据表依赖关系树;抽取顺序子单元,用于利用所述数据表依赖关系树,根据先序遍历算法构建数据表抽取顺序。
作为本发明的一个实施例,系统还包括数据清理单元5,用于在所述数据文件导入至目标数据库后,对数据临时表进行清理,释放存储空间。
在本发明一具体实施例中,主控单元1,提供一个开放式的界面,用户可通过此界面实现目标抽取表信息、数据筛选条件、字段关联信息、备选根节点、待抽取数据库集群信息、待导入数据库集群信息、数据变形配置等参数的设置和维护,参数信息配置变化后,将由主控单元1发送至抽取算法构建单元2。
目标抽取表信息参数包括:“数据表所属shcema”、“数据表名”。
数据筛选条件参数包括:“筛选列”、“运算符”,“筛选值”,运算符可支持:等于、不等于、大于、大于等于、小于、小于等于、LIKE、BETWEEN、IS、BETWEEN、IN、NOT IN。支持多个筛选条件,采用OR和AND方式连接。筛选条件支持函数运算,例如:substr(筛选列,1,4)=“0200”。
字段关联信息参数包括:“关联表名”,“被关联表名”,“关联字段名”。例如:A表包含客户号,地区号,B表包含客户号、交易明细,以A表为基础表,B表的关联配置信息为:关联表名“B”,被关联表名“A”,关联字段名“客户号”,则B表在抽取时,只包括A表有的客户号交易明细,A表没有的客户号交易明细不抽取。
备选根节点:所谓“备选根节点”,是指用户选择一张表,该表没有对其他表的依赖关系,作为最基础的表,先被抽取出来,然后其他表根据同这张表的字段依赖关联关系,依次抽取出来,形成一个抽取的树形结构,最上面的节点就是根节点。
待抽取数据库集群信息包括:“目标数据库类型”、“数据库IP地址”、“数据库实例名”、“用户名”、“密码”等参数信息。
待导入数据库集群信息包括:“目标数据库类型”、“数据库IP地址”、“数据库实例名”、“用户名”、“密码”等参数信息。
数据变形参数包括:“变形数据表”,“字段名称”,“变形类型”,变形类型代表敏感字段的变形方式,对于特定种类的字段采用对应的变形规则进行变形,例如:“变形类型”标识为1,代表该字段为客户名称类型,变形规则为取名字最后一个中文字重复两遍来信息脱敏,比如“李强”变成“强强”。变形类型包括:1、客户名称,2、电话号,3、身份证号,4、地址,5、密码,6、银行卡号,7、IP,8、密钥。
抽取算法构建单元2,负责依据算法,选择数据抽取根节点,构建数据表的遍历抽取顺序;向数据导入单元3提供数据表抽取顺序信息。本发明的抽取算法是基于数据表外键关系,构建数据表依赖关系树,确定表的抽取先后关系。在数据表的遍历顺序方式的选择上,由于每个叶子节点都需要父节点的外键关联字段信息,需要先获取父节点表数据,再获取子节点表数据,因此采用先序遍历算法,遍历所有表进行抽取,抽取顺序示意参见图4。
确定抽取顺序后,再依据抽取顺序和抽取参数,构建数据抽取脚本。具体地,根据输入的数据库类型参数,系统自动选取的对应数据库的脚的抽取语句构建模板,替换模板中的数据表shecma,数据表表名,数据筛选条件,关联字段等内容形成抽数语句,并按已确定好的表抽取顺序排列抽取数据语句形成抽取脚本。
数据抽取单元3:支持部署在包含了多个数据库节点的大数据分布式数据库上,依据抽取构建单元构建2提供的数据抽取脚本,完成数据抽取,生成数据文件,传输至数据导入单元4。此外,数据抽取单元3还包括集群1及集群2。
具体地,分布式数据库系统每个节点(图中所示节点81-84)会部署一个数据抽取单元(图6中所示数据抽取单元31-34),每个数据抽取单元3接收算法构建单元2提供的数据抽取脚本,依照抽取规则对本节点数据进行抽取,完成敏感数据的脱敏变形,形成抽取数据临时表和数据文件,并在抽取完成后,将数据文件传输至数据导入单元。
数据导入单元4:数据导入单元支持部署在包含了多个数据库节点的大数据分布式数据库服务器。
具体地,分布式数据库系统每个节点(图6中所示节点91-94)会部署一个数据导入单元(图6中所示数据导入单元41-44),每个数据导入单元接收数据抽取单元传输的数据文件,将数据文件导入至目标节点数据库,并在导入完成后,调用数据清理单元5,对完成导入的临时数据进行清理。此外,数据导入单元4还包括集群1及集群2。
数据清理单元5:数据清理单元负责在数据完成导入后,对数据临时表,数据文件进行清理,释放存储空间。清理单元在数据抽取完成后,判断如果该节点没有下辖节点,那么临时表直接清理,以释放空间;如果有下辖节点,那么等待所有下辖节点完成抽取和清理后,再开始清理临时表,清理顺序的示意参见图5。
本发明主要解决了现有的测试数据抽取方法中,没有考虑到表之间关联关系,从而导致抽取后无效数据较多的缺点。本发明可使抽取数据的有效性大大提高,使得测试环境有限的空间得以充分利用;与此同时,测试人员无需投入额外精力,树形结构及抽取顺序均可由工具自动生成。
此外,本发明还可实现:1、提升数据准备效率和数据质量,测试工程师仅需维护抽取的表信息,即可全自动高效地获取抽取数据,抽取数据表间的关联性强,保证了生产环境到测试环境抽取过程数据有效性,减少了无效数据对测试结果的干扰,不仅降低了大数据数据准备的技术门槛,同时也大大提高了大数据测试的效率和测试质量。2、提升测试环境空间的有效利用率,本发明中通过参数配置数据筛选条件,并利用关联条件减少冗余数据恢复,有效提升测试环境空间的利用率。3、具有较好的通用性,本发明通过参数配置,屏蔽了各类大数据系统中所使用的处理方法、数据库产品类型不同的差异性,具有较好的通用性。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取数据抽取参数,所述数据抽取参数包括数据筛选条件及数据变形配置;
根据所述数据抽取参数选取根节点,确定数据表依赖关系树,利用所述数据表依赖关系树构建数据表抽取顺序;
根据所述数据表抽取顺序及所述数据抽取参数,生成抽取脚本;
利用所述抽取脚本进行数据抽取,生成数据文件,将所述数据文件导入至目标数据库。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取数据抽取参数,所述数据抽取参数包括数据筛选条件及数据变形配置;
根据所述数据抽取参数选取根节点,确定数据表依赖关系树,利用所述数据表依赖关系树构建数据表抽取顺序;
根据所述数据表抽取顺序及所述数据抽取参数,生成抽取脚本;
利用所述抽取脚本进行数据抽取,生成数据文件,将所述数据文件导入至目标数据库。
基于与上述一种大数据抽取样本数据的方法相同的申请构思,本发明还提供了上述一种计算机设备及一种计算机可读存储介质。由于该一种计算机设备及一种计算机可读存储介质解决问题的原理与一种大数据抽取样本数据的方法相似,因此该一种计算机设备及一种计算机可读存储介质的实施可以参见一种大数据抽取样本数据的方法的实施,重复之处不再赘述。
本发明主要解决了现有的测试数据抽取方法中,没有考虑到表之间关联关系,从而导致抽取后无效数据较多的缺点。本发明可使抽取数据的有效性大大提高,使得测试环境有限的空间得以充分利用;与此同时,测试人员无需投入额外精力,树形结构及抽取顺序均可由工具自动生成。
此外,本发明还可实现:1、提升数据准备效率和数据质量,测试工程师仅需维护抽取的表信息,即可全自动高效地获取抽取数据,抽取数据表间的关联性强,保证了生产环境到测试环境抽取过程数据有效性,减少了无效数据对测试结果的干扰,不仅降低了大数据数据准备的技术门槛,同时也大大提高了大数据测试的效率和测试质量。2、提升测试环境空间的有效利用率,本发明中通过参数配置数据筛选条件,并利用关联条件减少冗余数据恢复,有效提升测试环境空间的利用率。3、具有较好的通用性,本发明通过参数配置,屏蔽了各类大数据系统中所使用的处理方法、数据库产品类型不同的差异性,具有较好的通用性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读取存储介质中,比如ROM/RAM、磁碟、光盘等。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种大数据抽取样本数据的方法,其特征在于,所述方法包括:
获取数据抽取参数,所述数据抽取参数包括数据筛选条件及数据变形配置;
根据所述数据抽取参数选取根节点,确定数据表依赖关系树,利用所述数据表依赖关系树构建数据表抽取顺序;
根据所述数据表抽取顺序及所述数据抽取参数,生成抽取脚本;
利用所述抽取脚本进行数据抽取,生成数据文件,将所述数据文件导入至目标数据库。
2.根据权利要求1所述的方法,其特征在于,所述数据抽取参数还包括目标抽取表信息、字段关联信息、备选根节点信息、待抽取集群信息及待导入集群信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述数据抽取参数选取根节点,确定数据表依赖关系树,利用所述数据表依赖关系树构建数据表抽取顺序包括:
根据所述数据抽取参数选取根节点;
将依赖所述根节点的数据表作为子节点,并逐层构造所述子节点的孙节点,形成所述数据表依赖关系树;
利用所述数据表依赖关系树,根据先序遍历算法构建数据表抽取顺序。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:在所述数据文件导入至目标数据库后,对数据临时表进行清理,释放存储空间。
5.一种大数据抽取样本数据的系统,其特征在于,所述系统包括:
主控单元,用于获取数据抽取参数,所述数据抽取参数包括数据筛选条件及数据变形配置;
抽取算法构建单元,用于根据所述数据抽取参数选取根节点,确定数据表依赖关系树,利用所述数据表依赖关系树构建数据表抽取顺序;以及根据所述数据表抽取顺序及所述数据抽取参数,生成抽取脚本;
数据抽取单元,用于利用所述抽取脚本进行数据抽取,生成数据文件;
数据导入单元,用于将所述数据文件导入至目标数据库。
6.根据权利要求5所述的系统,其特征在于,所述数据抽取参数还包括目标抽取表信息、字段关联信息、备选根节点信息、待抽取集群信息及待导入集群信息。
7.根据权利要求6所述的系统,其特征在于,所述抽取算法构建单元包括:
根节点选取子单元,用于根据所述数据抽取参数选取根节点;
依赖关系树子单元,用于将依赖所述根节点的数据表作为子节点,并逐层构造所述子节点的孙节点,形成所述数据表依赖关系树;
抽取顺序子单元,用于利用所述数据表依赖关系树,根据先序遍历算法构建数据表抽取顺序。
8.根据权利要求5所述的系统,其特征在于,所述系统还包括数据清理单元,用于在所述数据文件导入至目标数据库后,对数据临时表进行清理,释放存储空间。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现以下步骤:
获取数据抽取参数,所述数据抽取参数包括数据筛选条件及数据变形配置;
根据所述数据抽取参数选取根节点,确定数据表依赖关系树,利用所述数据表依赖关系树构建数据表抽取顺序;
根据所述数据表抽取顺序及所述数据抽取参数,生成抽取脚本;
利用所述抽取脚本进行数据抽取,生成数据文件,将所述数据文件导入至目标数据库。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现以下步骤:
获取数据抽取参数,所述数据抽取参数包括数据筛选条件及数据变形配置;
根据所述数据抽取参数选取根节点,确定数据表依赖关系树,利用所述数据表依赖关系树构建数据表抽取顺序;
根据所述数据表抽取顺序及所述数据抽取参数,生成抽取脚本;
利用所述抽取脚本进行数据抽取,生成数据文件,将所述数据文件导入至目标数据库。
CN201910639791.5A 2019-07-16 2019-07-16 大数据抽取样本数据的方法及系统 Pending CN110362562A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910639791.5A CN110362562A (zh) 2019-07-16 2019-07-16 大数据抽取样本数据的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910639791.5A CN110362562A (zh) 2019-07-16 2019-07-16 大数据抽取样本数据的方法及系统

Publications (1)

Publication Number Publication Date
CN110362562A true CN110362562A (zh) 2019-10-22

Family

ID=68219414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910639791.5A Pending CN110362562A (zh) 2019-07-16 2019-07-16 大数据抽取样本数据的方法及系统

Country Status (1)

Country Link
CN (1) CN110362562A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111382083A (zh) * 2020-04-30 2020-07-07 中国银行股份有限公司 测试数据的生成方法及装置
CN111581305A (zh) * 2020-05-18 2020-08-25 北京字节跳动网络技术有限公司 特征处理方法、装置、电子设备和介质
CN111581269A (zh) * 2020-04-24 2020-08-25 贵州力创科技发展有限公司 一种数据抽取方法和装置
CN112749219A (zh) * 2021-01-04 2021-05-04 拉卡拉支付股份有限公司 数据抽取方法、装置、电子设备、存储介质及程序产品
CN112860776A (zh) * 2021-01-20 2021-05-28 山东众阳健康科技集团有限公司 一种多种数据抽取调度方法及系统
CN112965993A (zh) * 2021-03-30 2021-06-15 建信金融科技有限责任公司 一种数据处理系统、方法、装置及存储介质
CN113127359A (zh) * 2021-04-23 2021-07-16 中国工商银行股份有限公司 一种测试数据的获得方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073698A (zh) * 2010-12-28 2011-05-25 中国工商银行股份有限公司 企业级数据仓库系统的样本数据获取方法及装置
CN107870949A (zh) * 2016-09-28 2018-04-03 腾讯科技(深圳)有限公司 数据分析作业依赖关系生成方法和系统
CN108415998A (zh) * 2018-02-24 2018-08-17 平安科技(深圳)有限公司 应用依赖关系更新方法、终端、设备及存储介质
CN109491989A (zh) * 2018-11-12 2019-03-19 北京懿医云科技有限公司 数据处理方法及装置、电子设备、存储介质
CN109597846A (zh) * 2018-10-22 2019-04-09 平安科技(深圳)有限公司 大数据平台数据仓库数据处理方法、装置和计算机设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102073698A (zh) * 2010-12-28 2011-05-25 中国工商银行股份有限公司 企业级数据仓库系统的样本数据获取方法及装置
CN107870949A (zh) * 2016-09-28 2018-04-03 腾讯科技(深圳)有限公司 数据分析作业依赖关系生成方法和系统
CN108415998A (zh) * 2018-02-24 2018-08-17 平安科技(深圳)有限公司 应用依赖关系更新方法、终端、设备及存储介质
CN109597846A (zh) * 2018-10-22 2019-04-09 平安科技(深圳)有限公司 大数据平台数据仓库数据处理方法、装置和计算机设备
CN109491989A (zh) * 2018-11-12 2019-03-19 北京懿医云科技有限公司 数据处理方法及装置、电子设备、存储介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581269A (zh) * 2020-04-24 2020-08-25 贵州力创科技发展有限公司 一种数据抽取方法和装置
CN111382083A (zh) * 2020-04-30 2020-07-07 中国银行股份有限公司 测试数据的生成方法及装置
CN111382083B (zh) * 2020-04-30 2024-02-23 中国银行股份有限公司 测试数据的生成方法及装置
CN111581305A (zh) * 2020-05-18 2020-08-25 北京字节跳动网络技术有限公司 特征处理方法、装置、电子设备和介质
CN111581305B (zh) * 2020-05-18 2023-08-08 抖音视界有限公司 特征处理方法、装置、电子设备和介质
CN112749219A (zh) * 2021-01-04 2021-05-04 拉卡拉支付股份有限公司 数据抽取方法、装置、电子设备、存储介质及程序产品
CN112860776A (zh) * 2021-01-20 2021-05-28 山东众阳健康科技集团有限公司 一种多种数据抽取调度方法及系统
CN112965993A (zh) * 2021-03-30 2021-06-15 建信金融科技有限责任公司 一种数据处理系统、方法、装置及存储介质
CN112965993B (zh) * 2021-03-30 2023-06-20 建信金融科技有限责任公司 一种数据处理系统、方法、装置及存储介质
CN113127359A (zh) * 2021-04-23 2021-07-16 中国工商银行股份有限公司 一种测试数据的获得方法及装置

Similar Documents

Publication Publication Date Title
CN110362562A (zh) 大数据抽取样本数据的方法及系统
CN107861870B (zh) 接口测试及测试数据生成方法、装置、终端和存储介质
WO2020155778A1 (zh) 接口自动化测试方法、测试装置、测试设备及存储介质
CN109857668A (zh) Ui自动化功能测试方法、测试装置、测试设备及存储介质
CN108200203A (zh) 基于双层网络的区块链系统
CN103870381B (zh) 一种测试数据生成方法及装置
CN104375943A (zh) 一种基于静态模型的嵌入式软件黑盒测试用例生成方法
CN103020158A (zh) 一种报表创建方法、装置和系统
CN104794057B (zh) 一种交叉事件自动化测试方法和装置
CN104461887A (zh) 一种基于动态模型的嵌入式软件黑盒测试用例生成方法
CN101377758B (zh) 一种生成测试用例的方法和装置
CN106803799B (zh) 一种性能测试方法和装置
CN109446089A (zh) 一种基于区块链技术的软件测试平台
CN106599193A (zh) 一种数据清洗方法和系统
CN103123607B (zh) 一种基于形式概念分析的软件回归测试方法
WO2020259035A1 (zh) 一种业务代码的生成、执行方法及装置
CN105159884A (zh) 行业词典的建立方法和装置及行业识别方法和装置
CN114896248A (zh) 实现基于关联池数据表自动拼接生成sql的方法及装置
CN109815130A (zh) 基于区块链的软件兼容性测试的存储方法及系统
CN111475402A (zh) 程序功能的测试方法及相关装置
CN114817022A (zh) 铁路电子支付平台测试方法及系统、设备和存储介质
CN101510234B (zh) 一种用于指令级随机验证的指令组合过滤方法及系统
JP4852834B2 (ja) アプリケーション要件設計支援システムおよび方法
CN111124791A (zh) 一种系统测试方法及装置
CN112801551B (zh) 在线选房系统的测试方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191022

RJ01 Rejection of invention patent application after publication