CN115510140A - 一种数据抽取方法、装置、设备及存储介质 - Google Patents

一种数据抽取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN115510140A
CN115510140A CN202211272120.8A CN202211272120A CN115510140A CN 115510140 A CN115510140 A CN 115510140A CN 202211272120 A CN202211272120 A CN 202211272120A CN 115510140 A CN115510140 A CN 115510140A
Authority
CN
China
Prior art keywords
concurrency number
target
data table
target data
mapping task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211272120.8A
Other languages
English (en)
Inventor
许吉来
罗晓峰
姜帆
张延堂
林发全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agricultural Bank of China
Original Assignee
Agricultural Bank of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agricultural Bank of China filed Critical Agricultural Bank of China
Priority to CN202211272120.8A priority Critical patent/CN115510140A/zh
Publication of CN115510140A publication Critical patent/CN115510140A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5011Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
    • G06F9/5016Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals

Abstract

本发明公开了一种数据抽取方法、装置、设备及存储介质,涉及数据处理技术领域,具体涉及大数据技术领域。该方法包括:根据Sqoop进程并发数、资源管理器Yarn集群的集群资源、以及目标数据表的空间占用信息,确定对目标数据表进行数据抽取时所需的目标映射任务并发数;根据目标映射任务并发数,对目标数据表进行数据抽取。采用该技术方案,可以动态确定目标映射任务并发数,并根据目标映射任务并发数对目标数据表进行并发的数据抽取,缩短了从目标数据表中抽取数据的时间,提高了数据抽取的效率。

Description

一种数据抽取方法、装置、设备及存储介质
技术领域
本发明涉及数据处理技术领域,具体涉及大数据技术领域,尤其涉及一种数据抽取方法、装置、设备及存储介质。
背景技术
随着信息技术高速发展,各行业进入大数据时代,Hadoop为各行业提供了大数据解决方案。Hadoop存储的数据量大,传统关系型数据库和Hadoop之间如何进行数据传递,是Hadoop面临的一个问题。Sqoop(出现后,很快成为Hadoop生态圈的一部分,用于关系型数据库和Hadoop之间传递海量数据。使用Sqoop实现传统关系型数据库数据与Hadoop之间进行数据传递,对于小型或中型数据表,可以在较短时间内完成,对于大型数据表,需要一小时或几小时才能完成,极大地影响了传统关系型数据库数据与Hadoop之间的数据传递效率。因此,亟需改进。
发明内容
本发明提供了一种数据抽取方法、装置、设备及存储介质,以缩短数据抽取的时间,提高数据的抽取效率。
根据本发明的一方面,提供了一种数据抽取方法,包括:
根据Sqoop进程并发数、资源管理器Yarn集群的集群资源、以及目标数据表的空间占用信息,确定对目标数据表进行数据抽取时所需的目标映射任务并发数;
根据目标映射任务并发数,对目标数据表进行数据抽取。
根据本发明的另一方面,提供了一种数据抽取装置,包括:
并发数确定模块,用于根据Sqoop进程并发数、资源管理器Yarn集群的集群资源、以及目标数据表的空间占用信息,确定对目标数据表进行数据抽取时所需的目标映射任务并发数;
数据抽取模块,用于根据目标映射任务并发数,对目标数据表进行数据抽取。
根据本发明的另一方面,提供了一种电子设备,电子设备包括:
至少一个处理器;以及
与至少一个处理器通信连接的存储器;其中,
存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行本发明任一实施例的数据抽取方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现本发明任一实施例的数据抽取方法。
本发明实施例的技术方案,通过根据Sqoop进程并发数、资源管理器Yarn集群的集群资源、以及目标数据表的空间占用信息,确定对目标数据表进行数据抽取时所需的目标映射任务并发数;根据目标映射任务并发数,对目标数据表进行数据抽取。采用该技术方案,可以动态确定目标映射任务并发数,并根据目标映射任务并发数对目标数据表进行并发的数据抽取,缩短了从目标数据表中抽取数据的时间,提高了数据抽取的效率。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种数据抽取方法的流程图;
图2是根据本发明实施例二提供的一种数据抽取方法的流程图;
图3A是根据本发明实施例三提供的一种数据抽取方法的流程图;
图3B是根据本发明实施例三提供的一种数据抽取模式的示意图;
图3C是根据本发明实施例三提供的一种数据抽取模式的示意图;
图4是根据本发明实施例四提供的一种数据抽取装置的结构图;
图5是实现本发明实施例的数据抽取方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“目标”和“初始”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
此外,还需要说明的是,本发明的技术方案中,所涉及的待处理数据等的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
实施例一
图1为本发明实施例一提供了一种数据抽取方法的流程图。本实施例可适用于在Hadoop和关系型数据库之间进行数据抽取的情况,该方法可以由数据抽取装置来执行,该数据抽取装置可以采用硬件和/或软件的形式实现,该数据抽取装置可配置于电子设备中,例如数据抽取设备中。
如图1所示,该方法包括:
S101、根据Sqoop进程并发数、资源管理器Yarn集群的集群资源、以及目标数据表的空间占用信息,确定对目标数据表进行数据抽取时所需的目标映射任务并发数。
其中,Sqoop进程并发数可以是所有执行数据抽取操作的Sqoop工具中并行的进程数。示例性的,一个Sqoop的并行进程数为8,若执行数据抽取操作的Sqoop工具的数量为1,则Sqoop进程并发数为8;若执行数据抽取操作的Sqoop工具的数量为2,则Sqoop进程并发数为16。
其中,集群资源可以是资源管理器Yarn(Yet Another Resource Negotiator,另一种资源协调者)集群分配给用户的资源,包括但不限于CPU(Central Processing Unit,中央处理器)内核数量和RAM(Random Access Memory,随机访问存储器)内存大小等中的至少一种。目标数据表可以是将被抽取数据的数据表。空间占用信息可以是目标数据表在其所在数据库中占用的空间数据量;可选的,可以通过执行“select segment_name,cast(bytes/1024/1024as number(18,2))as space_MB from dba_segments where owner='dababase_name'and segment_name='table_name'”来动态获取。映射任务即是数据抽取任务;目标映射任务即是将要执行的数据抽取任务;目标映射任务并发数即是执行目标映射任务时的并行的Sqoop工具数。
在一个具体实施例中,还可以对数据抽取所需参数进行配置。示例性的,将“数据库连接地址”、“数据库账号密码”、“数据表英文名称”、“导入数据在存放目录”、“导入数据字段分隔符”、“导入数据行分隔符”、“查询条件”、“数据抽取方式”、“目标数据表的空间占用信息”、“Yarn集群分配给用户的CPU内核数量”和“Sqoop进程并发数”等相关参数存入任务调度表,从任务调度表中获取Sqoop进程并发数、Yarn集群分配给用户的CPU内核数量、以及目标数据表的空间占用信息,确定对目标数据表进行数据抽取时所需的目标映射任务并发数。
S102、根据目标映射任务并发数,对目标数据表进行数据抽取。
示例性的,根据目标映射任务并发数,运行与目标映射任务并发数相同数量的Sqoop工具,每个Sqoop中运行与Sqoop进程并发数相同数量的进程,通过循环读取任务调度表中的配置,对目标数据表中的数据进行并发抽取。
本发明实施根据Sqoop进程并发数、资源管理器Yarn集群的集群资源、以及目标数据表的空间占用信息,确定对目标数据表进行数据抽取时所需的目标映射任务并发数;根据目标映射任务并发数,对目标数据表进行数据抽取。采用该技术方案,可以动态确定目标映射任务并发数,并根据目标映射任务并发数对目标数据表进行并发的数据抽取,缩短了从目标数据表中抽取数据的时间,提高了数据抽取的效率。
实施例二
图2为本发明实施例二提供的一种数据抽取方法的流程图,本实施例在上述实施例的基础上,对目标映射任务并发数的确定操作进行了优化改进。
进一步地,将“根据Sqoop进程并发数、资源管理器Yarn集群的集群资源、以及目标数据表的空间占用信息,确定对目标数据表进行数据抽取时所需的目标映射任务并发数”细化为“根据目标数据表的空间占用信息,确定对目标数据表进行数据抽取时所需的初始映射任务并发数;根据Sqoop进程并发数和集群资源中的CPU内核数量,确定第一映射任务并发数;根据初始映射任务并发数、第一映射任务并发数和第二映射任务并发数,确定对目标数据表进行数据抽取时所需的目标映射任务并发数”,以完善目标映射任务并发数的确定操作。
需要说明的是,在本发明实施例中未详述部分,可参见其他实施例的相关表述,在此不再赘述。
如图2所示,该方法包括:
S201、根据目标数据表的空间占用信息,确定对目标数据表进行数据抽取时所需的初始映射任务并发数。
可选的,确定目标数据表的空间占用信息与预设数值之间的第一比值结果;对第一比值结果进行向下取整处理,将得到的结果作为对目标数据表进行数据抽取时所需的初始映射任务并发数。
其中,预设数值可以由技术人员根据实际需求或实践经验自主设置,本发明对此不作限定。优选的,预设数值可以是目标数据表所在数据库的数据块大小数值。第一比值结果为目标数据表的空间占用信息与预设数值的比值。初始映射任务并发数可以是与目标数据表空间占用信息匹配的映射任务并发数,能够以最佳效率对目标数据表进行数据抽取。
示例性的,可以通过如下公式确定初始映射任务并发数:
Figure BDA0003895146960000061
Figure BDA0003895146960000062
其中,map任务并发数表示初始映射任务并发数;A表示空间占用信息,单位为MB;
Figure BDA0003895146960000063
符号表示向下取整数。例如,目标数据表的空间占用信息为5000,预设数值为128,则第一比值结果为39.0625,第一比值结果向下取整为39,则将39作为初始映射任务并发数。
可以理解的是,采用上述技术方案,根据目标数据表的空间占用信息和预设数值,确定初始映射任务并发数,可以得到与目标数据表空间的匹配的任务并发数,以提高数据抽取的效率。
S202、根据Sqoop进程并发数和集群资源中的CPU内核数量,确定第一映射任务并发数。
可选的,确定集群资源中的CPU内核数量与Sqoop进程并发数之间的第二比值结果;对第二比值结果进行向下取整处理,将得到的结果作为第二映射任务并发数。
其中,第二比值结果为集群资源中CPU内核数量与Sqoop进程并发数的比值。第一映射任务并发数为集群资源中所有CPU内核的总计负载能够承受的最大映射任务并发数。
示例性的,可以通过如下公式确定第一映射任务并发数:
Figure BDA0003895146960000071
其中,P表示第一映射任务并发数;B表示集群资源中的CPU内核数量;C表示Sqoop进程并发数;
Figure BDA0003895146960000072
符号表示向下取整数。例如,Sqoop进程并发数为16,集群资源中的CPU内核数量为500,则第二比值结果为31.25,第二比值结果向下取整为31,则将31作为第一映射任务并发数。
可以理解的是,用上述技术方案,根据Sqoop进程并发数和集群资源中的CPU内核数量,确定第一映射任务并发数,可以得到映射任务目标数的最大值。
S203、根据初始映射任务并发数、第一映射任务并发数和第二映射任务并发数,确定对目标数据表进行数据抽取时所需的目标映射任务并发数。
其中,第二映射任务并发数可以是映射任务所需的最小映射任务并发数,优选的可以设为1。因此,第一映射任务并发数大于或等于第二映射任务并发数。
在一个可选实施例中,若初始映射任务并发数大于第一映射任务并发数,则将第一映射任务并发数作为对目标数据表进行数据抽取时所需的目标映射任务并发数。具体的,初始映射任务并发数大于第一映射任务并发数,即初始映射任务超过了集群资源的所有CPU内核的总计负载,则将映射任务并发数的最大值作为目标映射任务并发数。示例性的,若初始映射任务并发数为39,第一映射任务并发数为31,则将31作为目标映射任务并发数。
在另一个可选实施例中,若初始映射任务并发数大于或等于第二映射任务并发数,且小于或等于第一映射任务并发数,则将初始映射任务并发数作为对目标数据表进行数据抽取时所需的目标映射任务并发数。具体的,初始映射任务并发数大于最小映射任务并发数,小于最大映射任务并发数,即初始映射任务并发数未超过所有CPU的总计负载,则将初始映射任务并发数作为目标映射任务并发数。示例性的,若初始映射任务并发数为15,第一映射任务并发数为31,第二映射任务并发数为1,则将15作为目标映射任务并发数。
在又一个可选实施例中,若初始映射任务并发数小于第二映射任务并发数,则将第二映射任务并发数作为对目标数据表进行数据抽取时所需的目标映射任务并发数。具体的,初始映射任务并发数小于最小映射任务并发数,无法实现数据抽取,则将最小映射任务并发数作为目标映射任务并发数。示例性的,若初始映射任务并发数为0.2,第二映射任务并发数为1,则将1作为目标映射任务并发数。
也就是说,若初始映射任务并发数在第二映射任务并发数与第一映射任务并发数之间,即
Figure BDA0003895146960000081
则将初始映射任务并发数作为目标映射任务并发数;若初始映射任务并发数小于1(第二映射任务并发数),则将1(第二映射任务并发数)作为目标映射任务并发数;若初始映射任务并发数大于
Figure BDA0003895146960000082
(第一映射任务并发数),则将
Figure BDA0003895146960000083
(第一映射任务并发数)作为目标映射任务并发数。
可以理解的是,采用上述技术方案,根据初始映射任务并发数、第一映射任务并发数和第二映射任务并发数之间的数量关系,动态确定目标映射任务并发数,确保了目标映射任务并发数能够满足对目标数据表进行数据抽取的最低需求,且不超过所有CPU的总计负载,进而确保了数据抽取操作的正常运行,提高了目标映射任务确定操作的灵活性。
S204、根据目标映射任务并发数,对目标数据表进行数据抽取。
本发明实施例通过根据目标数据表的空间占用信息,确定对目标数据表进行数据抽取时所需的初始映射任务并发数;根据Sqoop进程并发数和集群资源中的CPU内核数量,确定第一映射任务并发数;根据初始映射任务并发数、第一映射任务并发数和第二映射任务并发数,确定对目标数据表进行数据抽取时所需的目标映射任务并发数;根据目标映射任务并发数,对目标数据表进行数据抽取。采用上述技术方案,确保了目标映射任务并发数能满足够对目标数据表进行数据抽取的最低需求,且不超过所有CPU的总计负载,从而确保数据抽取操作的正常运行,并且在能够正常运行数据抽取操作的情况下,提高了数据抽取的效率。
实施例三
图3A为本发明实施例二提供的一种数据抽取方法的流程图,本实施例在上述实施例的基础上,对目标映射任务并发数的确定操作进行了优化改进。
进一步地,将“根据目标映射任务并发数,对目标数据表进行数据抽取”细化为“若目标数据表存储于第一关系型数据库,则根据目标映射任务并发数,将目标数据表从第一关系型数据库中抽取到第一Hadoop集群中;若目标数据表存储于第二Hadoop集群中,则根据目标映射任务并发数,将目标数据表从第二Hadoop集群中抽取到第二关系型数据库中”,以完善对目标数据表进行数据抽取的操作。
需要说明的是,在本发明实施例中未详述部分,可参见其他实施例的相关表述,在此不再赘述。
如图3A所示,该方法包括:
S301、根据进程并发数、资源管理器Yarn集群的集群资源、以及目标数据表的空间占用信息,确定对目标数据表进行数据抽取时所需的目标映射任务并发数。
可选的,根据目标数据表中的隐藏字段,对目标数据表进行切分。
其中,隐藏字段可以是目标数据表在建立时自动生成的字段,用于唯一标记目标数据表中的地址信息。隐藏字段例如可以是rowid(物理地址)字段,还可以是rownum(行数)字段等。具体的,根据目标数据表中的隐藏字段,将目标数据表平均切分为与目标映射任务并发数相同的数量。
在一个具体实施例中,可以通过split-by(切分)参数修改rowid字段的字段值,对目标数据表进行切分。根据不同的rowid参数类型执行不同的切分方法。示例性的,若字段参数类型为int型,则取该字段的最大字段值和最小字段值,将目标数据表平均切分为与目标映射任务并发数相同的数量。
可以理解的是,采用上述技术方案,可以将目标数据表平均切分为与目标映射任务并发数相同的数量,以使每一个目标映射任务进程执行相同数据量的抽取,提高数据抽取的效率。
S302A、若目标数据表存储于第一关系型数据库,则根据目标映射任务并发数,将目标数据表从第一关系型数据库中抽取到第一Hadoop集群中。
其中,关系型数据库可以包括但不限于MySQL(My Structured Query Language,迈结构化查询语言)数据库、Qracle(甲骨文)数据库、PostgreSQL(Postgre SQL,普斯特硅结构化查询语言)数据库和DB2(Date Base2,数据库2)数据库。Hadoop集群可以包括但不限于HDFS(Hadoop Distributed File System,海杜普分布式文件系统)系统、Hive(HadoopHive,海杜普海无)工具和第一HBase(Hadoop database,海杜普数据库)数据库。
具体的,若目标数据表存储于第一关系型数据库,则根据目标映射任务并发数,运行相应数量的Sqoop工具,将目标数据表从第一关系型数据库中抽取到第一Hadoop集群中,如图3B所示。如图3B所示,将目标数据表从第一关系型数据库中抽取到第一Hadoop集群中。
示例性的,将目标数据表从第一关系型数据库中抽取到第一Hadoop集群的第一HDFS系统中;将目标数据表从第一关系型数据库中提取到第一Hadoop集群的第一Hive工具中;将目标数据表从第一关系型数据库中提取到第一Hadoop集群的第一HBase数据库中。
S302B、若目标数据表存储于第二Hadoop集群中,则根据目标映射任务并发数,将目标数据表从第二Hadoop集群中抽取到第二关系型数据库中。
具体的,若目标数据表存储于第二关系型数据库,则根据目标映射任务并发数,运行相应数量的Sqoop工具,将目标数据表从第二Hadoop集群中抽取到第二关系型数据库中,如图3C所示。如图3C所示,将目标数据表从第二关系型数据库中抽取到第二Hadoop集群中。
本发明实施例通过据进程并发数、资源管理器Yarn集群的集群资源、以及目标数据表的空间占用信息,确定对目标数据表进行数据抽取时所需的目标映射任务并发数;若目标数据表存储于第一关系型数据库,则根据目标映射任务并发数,将目标数据表从第一关系型数据库中抽取到第一Hadoop集群中;若目标数据表存储于第二Hadoop集群中,则根据目标映射任务并发数,将目标数据表从第二Hadoop集群中抽取到第二关系型数据库中。采用上述技术方案,可以根据目标数据表的存储位置,从关系型数据库中提取目标数据表到Hadoop中或从Hadoop集群提取目标数据表到关系型数据库中,提高了数据抽取操作的灵活性。
实施例四
图4为本发明实施例四提供的一种数据抽取装置的结构图。本实施例可适用于在Hadoop集群和关系型数据库之间进行数据抽取的情况,该数据抽取装置可以采用硬件和/或软件的形式实现,该数据抽取装置可配置于电子设备中,例如数据抽取设备中。如图4所示,该装置包括:并发数确定模块401和数据抽取模块402,其中,
并发数确定模块401,用于根据Sqoop进程并发数、资源管理器Yarn集群的集群资源、以及目标数据表的空间占用信息,确定对目标数据表进行数据抽取时所需的目标映射任务并发数;
数据抽取模块402,用于根据目标映射任务并发数,对目标数据表进行数据抽取。
本发明实施通过并发数确定模块根据Sqoop进程并发数、资源管理器Yarn集群的集群资源、以及目标数据表的空间占用信息,确定对目标数据表进行数据抽取时所需的目标映射任务并发数;数据抽取模块根据目标映射任务并发数,对目标数据表进行数据抽取。采用该技术方案,可以动态确定目标映射任务并发数,并根据目标映射任务并发数对目标数据表进行并发的数据抽取,缩短了从目标数据表中抽取数据的时间,提高了数据抽取的效率。
可选的,并发数确定模块401,包括:
初始并发数确定单元,用于根据目标数据表的空间占用信息,确定对目标数据表进行数据抽取时所需的初始映射任务并发数;
第一并发数确定单元,用于根据Sqoop进程并发数和集群资源中的CPU内核数量,确定第一映射任务并发数;
目标并发数确定单元,用于根据初始映射任务并发数、第一映射任务并发数和第二映射任务并发数,确定对目标数据表进行数据抽取时所需的目标映射任务并发数。
可选的,初始并发数确定单元,具体用于:
确定目标数据表的空间占用信息与预设数值之间的第一比值结果;
对第一比值结果进行向下取整处理,将得到的结果作为对目标数据表进行数据抽取时所需的初始映射任务并发数。
可选的,第一并发数确定单元,具体用于:
确定集群资源中的CPU内核数量与Sqoop进程并发数之间的第二比值结果;
对第二比值结果进行向下取整处理,将得到的结果作为第一映射任务并发数。
可选的,目标并发数确定单元,具体用于:
若初始映射任务并发数大于第一映射任务并发数,则将第一映射任务并发数作为对目标数据表进行数据抽取时所需的目标映射任务并发数;
若初始映射任务并发数大于或等于第二映射任务并发数,且小于或等于第一映射任务并发数,则将初始映射任务并发数作为对目标数据表进行数据抽取时所需的目标映射任务并发数;
若初始映射任务并发数小于第二映射任务并发数,则将第二映射任务并发数作为对目标数据表进行数据抽取时所需的目标映射任务并发数;
其中,第一映射任务并发数大于或等于第二映射任务并发数。
可选的,该装置,还包括:
数据表切分模块,用于根据目标数据表中的隐藏字段,对目标数据表进行切分。
可选的,数据抽取模块402,包括:
第一数据抽取单元,用于若目标数据表存储于第一关系型数据库,则根据目标映射任务并发数,将目标数据表从第一关系型数据库中抽取到第一Hadoop集群中;
第二数据抽取单元,用于若目标数据表存储于第二Hadoop集群中,则根据目标映射任务并发数,将目标数据表从第二Hadoop集群中抽取到第二关系型数据库中。
本发明实施例所提供的数据抽取装置可执行本发明任意实施例所提供的数据抽取方法,具备执行各数据抽取方法相应的功能模块和有益效果。
实施例五
图5示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图5所示,电子设备10包括至少一个处理器11,以及与至少一个处理器11通信连接的存储器,如只读存储器(ROM)12、随机访问存储器(RAM)13等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序,来执行各种适当的动作和处理。在RAM 13中,还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。
电子设备10中的多个部件连接至I/O接口15,包括:输入单元16,例如键盘、鼠标等;输出单元17,例如各种类型的显示器、扬声器等;存储单元18,例如磁盘、光盘等;以及通信单元19,例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理,例如数据抽取方法。
在一些实施例中,数据抽取方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元18。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时,可以执行上文描述的数据抽取方法的一个或多个步骤。备选地,在其他实施例中,处理器11可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据抽取方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种数据抽取方法,其特征在于,包括:
根据Sqoop进程并发数、资源管理器Yarn集群的集群资源、以及目标数据表的空间占用信息,确定对目标数据表进行数据抽取时所需的目标映射任务并发数;
根据所述目标映射任务并发数,对所述目标数据表进行数据抽取。
2.根据权利要求1所述的方法,其特征在于,所述根据Sqoop进程并发数、资源管理器Yarn集群的集群资源、以及目标数据表的空间占用信息,确定对目标数据表进行数据抽取时所需的目标映射任务并发数,包括:
根据所述目标数据表的空间占用信息,确定对目标数据表进行数据抽取时所需的初始映射任务并发数;
根据Sqoop进程并发数和所述集群资源中的中央处理器CPU内核数量,确定第一映射任务并发数;
根据所述初始映射任务并发数、所述第一映射任务并发数和第二映射任务并发数,确定对目标数据表进行数据抽取时所需的目标映射任务并发数。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标数据表的空间占用信息,确定对目标数据表进行数据抽取时所需的初始映射任务并发数,包括:
确定所述目标数据表的空间占用信息与预设数值之间的第一比值结果;
对所述第一比值结果进行向下取整处理,将得到的结果作为对目标数据表进行数据抽取时所需的初始映射任务并发数。
4.根据权利要求2所述的方法,其特征在于,所述根据Sqoop进程并发数和所述集群资源中的CPU内核数量,确定第一映射任务并发数,包括:
确定所述集群资源中的CPU内核数量与所述Sqoop进程并发数之间的第二比值结果;
对所述第二比值结果进行向下取整处理,将得到的结果作为第一映射任务并发数。
5.根据权利要求2所述的方法,其特征在于,所述根据所述初始映射任务并发数、所述第一映射任务并发数和第二映射任务并发数,确定对目标数据表进行数据抽取时所需的目标映射任务并发数,包括:
若所述初始映射任务并发数大于所述第一映射任务并发数,则将所述第一映射任务并发数作为对目标数据表进行数据抽取时所需的目标映射任务并发数;
若所述初始映射任务并发数大于或等于第二映射任务并发数,且小于或等于所述第一映射任务并发数,则将所述初始映射任务并发数作为对目标数据表进行数据抽取时所需的目标映射任务并发数;
若所述初始映射任务并发数小于第二映射任务并发数,则将第二映射任务并发数作为对目标数据表进行数据抽取时所需的目标映射任务并发数;
其中,所述第一映射任务并发数大于或等于所述第二映射任务并发数。
6.根据权利要求1所述的方法,其特征在于,还包括:
根据所述目标数据表中的隐藏字段,对所述目标数据表进行切分。
7.根据权利要求1所述的方法,其特征在于,所述根据所述目标映射任务并发数,对所述目标数据表进行数据抽取,包括:
若所述目标数据表存储于第一关系型数据库,则根据所述目标映射任务并发数,将所述目标数据表从所述第一关系型数据库中抽取到第一Hadoop集群中;
若所述目标数据表存储于第二Hadoop集群中,则根据所述目标映射任务并发数,将所述目标数据表从所述第二Hadoop集群中抽取到第二关系型数据库中。
8.一种数据抽取装置,其特征在于,包括:
并发数确定模块,用于根据Sqoop进程并发数、资源管理器Yarn集群的集群资源、以及目标数据表的空间占用信息,确定对目标数据表进行数据抽取时所需的目标映射任务并发数;
数据抽取模块,用于根据所述目标映射任务并发数,对所述目标数据表进行数据抽取。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的数据抽取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的数据抽取方法。
CN202211272120.8A 2022-10-18 2022-10-18 一种数据抽取方法、装置、设备及存储介质 Pending CN115510140A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211272120.8A CN115510140A (zh) 2022-10-18 2022-10-18 一种数据抽取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211272120.8A CN115510140A (zh) 2022-10-18 2022-10-18 一种数据抽取方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN115510140A true CN115510140A (zh) 2022-12-23

Family

ID=84511303

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211272120.8A Pending CN115510140A (zh) 2022-10-18 2022-10-18 一种数据抽取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115510140A (zh)

Similar Documents

Publication Publication Date Title
CN113407649A (zh) 数据仓库建模方法、装置、电子设备及存储介质
CN115495473A (zh) 数据库查询方法、装置、电子设备和存储介质
CN115438007A (zh) 一种文件合并方法、装置、电子设备及介质
CN114564149B (zh) 一种数据存储方法、装置、设备及存储介质
CN115982273A (zh) 一种数据同步方法、系统、电子设备和存储介质
CN115454971A (zh) 数据迁移方法、装置、电子设备及存储介质
CN115617549A (zh) 线程解耦方法、装置、电子设备及存储介质
CN115617800A (zh) 数据读取方法、装置、电子设备及存储介质
CN114722048A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN115510140A (zh) 一种数据抽取方法、装置、设备及存储介质
CN115422275A (zh) 一种数据处理方法、装置、设备及存储介质
CN114816758B (zh) 资源分配方法和装置
CN115587091A (zh) 数据入库方法、装置、设备以及存储介质
CN116502841A (zh) 一种事件的处理方法、装置、电子设备以及介质
CN115033823A (zh) 用于处理数据的方法、装置、设备、介质和产品
CN114816578A (zh) 基于配置表的程序配置文件生成方法、装置及设备
CN117171206A (zh) 一种查询方法、装置、电子设备及存储介质
CN115599863A (zh) 基于Hudi的银行数据同步方法、装置、电子设备及介质
CN115525659A (zh) 数据查询方法、装置、电子设备及存储介质
CN117709903A (zh) 一种分库方法、装置、电子设备及存储介质
CN115577055A (zh) 一种基于HBase数据表的数据处理方法、装置、设备及存储介质
CN113220233A (zh) 数据读取方法、装置及系统
CN116303578A (zh) 一种查询表达式处理方法、装置、设备及存储介质
CN114817301A (zh) 一种优化方法、装置、电子设备及存储介质
CN116151607A (zh) 数据处理方法、装置、设备、存储介质及计算机程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination