CN113641742A - 一种数据抽取方法、装置、设备和存储介质 - Google Patents
一种数据抽取方法、装置、设备和存储介质 Download PDFInfo
- Publication number
- CN113641742A CN113641742A CN202110898492.0A CN202110898492A CN113641742A CN 113641742 A CN113641742 A CN 113641742A CN 202110898492 A CN202110898492 A CN 202110898492A CN 113641742 A CN113641742 A CN 113641742A
- Authority
- CN
- China
- Prior art keywords
- data
- rule
- extraction
- classification result
- extraction mode
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013075 data extraction Methods 0.000 title claims abstract description 117
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000000605 extraction Methods 0.000 claims abstract description 92
- 238000012216 screening Methods 0.000 claims abstract description 40
- 230000001360 synchronised effect Effects 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 8
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 description 12
- 230000008859 change Effects 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000013500 data storage Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 230000005540 biological transmission Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种数据抽取方法、装置、设备和存储介质,数据抽取方法包括:获取源端数据库中待处理的数据表,确定数据表的类型,得到分类结果,根据数据表的分类结果,为数据表配置数据筛选规则,随后根据分类结果和数据筛选规则,确定数据抽取方式,按照数据抽取方式,对数据表对应的数据进行抽取,能够确定针对任一数据表的最佳抽取方式,可以适用于多种应用场景。
Description
技术领域
本公开涉及数据处理技术领域,尤其涉及一种数据抽取方法、装置、设备和存储介质。
背景技术
目前,数据仓库技术(Extract-Transform-Load,ETL)应用广泛,利用数据仓储技术对数据进行抽取是数据处理的重要方面。
现如今,多是采用同步抽取方式和异步抽取方式进行数据抽取,但是在实际的开发过程中,通常只能选取一种抽取方式对数据进行处理,对于存在多种类型的数据以及需要采用不同抽取方式进行处理的场景不适用,无法满足多种场景需求。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种数据抽取方法、装置、设备和存储介质,能够准确的确定各数据表对应的抽取方式,可以适用于多种应用场景。
第一方面,本公开实施例提供了一种数据抽取方法,包括:
获取源端数据库中待处理的数据表;
按照数据表的特性,对数据表进行分类;
根据数据表的分类结果,为数据表配置数据筛选规则;
根据分类结果和数据筛选规则,确定数据抽取方式;
按照数据抽取方式,对数据表对应的数据进行抽取。
可选的,数据表的分类结果包括流水表类、拉链表类和全量表类。
可选的,根据数据表的分类结果,为数据表配置数据筛选规则,包括:
若分类结果是流水表类,则为数据表配置第一规则,第一规则为时间字段增量截取规则;或者
若分类结果是拉链表类,则为数据表配置第二规则,第二规则为增量文件生成规则;或者
若分类结果是全量表类,则为数据表配置所述第二规则。
可选的,根据分类结果和数据筛选规则,确定数据抽取方式,包括:
若分类结果是流水表类,则为数据表添加时间字段,并根据第一规则,确定数据抽取方式为同步抽取方式;或者
若分类结果是拉链表类,则根据第二规则,确定数据抽取方式为异步抽取方式;或者
若分类结果是全量表类,则根据第二规则,确定数据抽取方式为异步抽取方式。
可选的,在按照数据抽取方式,对数据表对应的数据进行抽取之前,方法还包括:
根据数据筛选规则,确定工作任务,其中,工作任务包括全量抽取任务和增量抽取任务。
可选的,按照数据抽取方式,对数据表对应的数据进行抽取,包括:
按照数据抽取方式和工作任务,对数据表对应的数据进行抽取。
可选的,在获取源端数据库中待处理的数据表之前,方法还包括:
判断源端数据库是否是首次进行数据抽取,若是,则确定数据抽取方式为同步抽取方式,且工作任务为全量抽取任务。
第二方面,本公开实施例提供了一种数据抽取装置,包括:
获取单元,用于获取源端数据库中待处理的数据表;
分类单元,用于按照数据表的特性,对数据表进行分类;
配置单元,用于根据数据表的分类结果,为数据表配置数据筛选规则;
确定单元,用于根据分类结果和数据筛选规则,确定数据抽取方式;
抽取单元,用于按照数据抽取方式,对数据表对应的数据进行抽取。
第三方面,本公开实施例提供了一种电子设备,包括:
存储器;
处理器;以及
计算机程序;
其中,计算机程序存储在存储器中,并被配置为由处理器执行以实现如上述的数据抽取方法。
第四方面,本公开实施例提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述的数据抽取方法的步骤。
本公开实施例提供的一种数据抽取方法、装置、设备和存储介质,其中,数据抽取方法包括:获取源端数据库中待处理的数据表,确定数据表的类型,得到分类结果,根据数据表的分类结果,为数据表配置数据筛选规则,随后根据分类结果和数据筛选规则,确定数据抽取方式,按照数据抽取方式,对数据表对应的数据进行抽取,能够确定针对任一数据表的最佳抽取方式,也就是根据源端数据库中存储的各数据表的类型,确定数据表对应的抽取方式,能够快速准确的完成数据表对应的数据的抽取,效率比较高,可以适用于多种应用场景。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种数据抽取方法的结构示意图;
图2为本公开实施例提供的一种应用场景的示意图;
图3为本公开实施例提供的一种数据抽取方法的流程示意图;
图4为本公开实施例提供的一种数据抽取方法的流程示意图;
图5为本公开实施例提供的一种数据抽取方法的流程示意图;
图6为本公开实施例提供的一种数据抽取装置的结构示意图;
图7为本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
具体的,数据仓库技术(ETL)数据的抽取、转换和加载是数据中心处理实际应用的一个重要步骤。据统计,单个分析应用构建过程中有60%的时间用于数据仓库技术数据处理,占用了比较多的工作量。其中,数据抽取是指抽取源端数据库中的数据,并将抽取到的数据发送至目标数据库。现有的数据仓库技术数据处理,通常采用两种方式进行数据抽取,包括:异步(Asyn—chronous)数据仓库技术方式,也称为展平文件(FlatFile)方式;同步(Synchronous)数据仓库技术方式,也称为直接传输(DirectTransfer)方式。可理解的,异步数据仓库技术方式中源端数据库和目标数据库分别位于独立的数据中心,负责数据仓库技术抽取功能的应用程序可以安装在源数据库,也可以安装在目标数据库,还可以安装在独立(第三方)的服务器上,源端数据库中的数据在发送至目标数据库的过程中,会对数据进行存储,参见图1,数据抽取结构100中110表示源端数据库、120表示数据存储和130表示目标数据库,源端数据库110的数据在传输的过程中,在数据存储120中进行存储,再发送至目标数据库130。同步数据仓库技术方式是将数据直接从源数据库传输至目标数据库中,抽取过程没有任何中间过渡步骤,也即不会进行数据存储,参见图1,由源端数据库110直接将数据发送至目标数据库130,不经过数据存储120。但是在实际的开发过程中,只能选择一种抽取方式,完成源端数据库到目标数据库的数据抽取和传输,无法确保准确的为待传输的数据选取最佳的抽取方式,效率比较低,也无法适用于多种应用场景。
针对上述技术问题,本公开实施例提供了一种数据抽取方法,通过获取源端数据库中待处理的数据表,确定数据表的类型,得到分类结果,根据数据表的分类结果,为数据表配置数据筛选规则,随后根据分类结果和数据筛选规则,确定数据抽取方式,按照数据抽取方式,对数据表对应的数据进行抽取,能够确定针对任一数据表的最佳抽取方式,处理效率比较快,适用于多种应用场景。具体的,以下述一个或多个实施例对本公开提供的一种数据抽取方法进行详细说明。
具体的,参见图2,为本公开实施例提供的一种应用场景的示意图,一种可行的应用场景为,将源端数据库配置在服务器220中,将目标数据库配置在终端210中,将服务器220中的数据进行抽取,传输至终端210;另一种可行的应用场景为,将源端数据库和目标数据库分别配置在两个不同的服务器中,在两个服务器内进行数据抽取和传输;还可以包括其他应用场景,在此不作赘述。下述实施例以源端数据库和目标数据库分别配置在两个不同的服务器中的应用场景为例,进行说明。
图3为本公开实施例提供的一种数据抽取方法的流程示意图,抽取源端数据库中的数据传输至目标数据库,具体的数据抽取方法包括如图3所示的如下步骤S310至S350:
S310、获取源端数据库中待处理的数据表。
可理解的,获取源端数据库中待处理的数据表,可以同时获取一个或多个数据表,按照获取顺序执行下述步骤,数据表可以是历史数据发生变更的数据表,也可以是添加了增量(新数据)的数据表。
可理解的,在获取源端数据库中的待处理的数据表之前,需要配置源端数据库与目标数据库连接,也就是建立源端数据库与目标数据库之间的连接关系,确保实现数据传输。建立连接关系可以通过识别源端数据库与目标数据库的引擎类型,其中,引擎类型包括分布式文件系统(Hadoop Distributed File System,HDFS)、数据仓库工具(hive)和关系型数据库管理系统(mysql)等,并配置源端数据库与目标数据库的地址(IP)和端口信息等,通过引擎类型、地址和端口信息建立源端数据库与目标数据库之间的连接。
S320、按照数据表的特性,对数据表进行分类。
可理解的,在上述S310的基础上,按照预先确定的各类数据表的特性,对获取的待处理的数据表进行分类。
可选的,数据表的分类结果包括流水表类、拉链表类和全量表类。
可理解的,数据表的分类可以按照用户需求自行设定,数据表的分类结果可以包括流水表类、拉链表类和全量表类,其中,流水表类也可以称为日志信息表,流水表类通常只会涉及到随着时间推移递增的数据,不涉及历史数据变更,并存在明显的时间戳类型字段,也就是之前存储的数据后续不会发生改变,只会随着时间一直记录并存储数据,并且在每次记录数据后,会生成时间戳类型字段,时间戳类型字段用于确定流水表更新记录的时间;拉链表类也可以称为组织变更信息表,拉链表类会存储组织历史信息变更记录及当前状态信息,且有明确的变更开始及变更结束的时间类型字段,也就是拉链表类涉及到历史数据变更,并对变更的信息以及状态进行记录,同时生成变更的开始以及结束的时间类型字段;全量表类也可以称为人员信息表,全量表类只记录当前人员的状态信息,可以进行历史数据变更,但是不记录变更的历史信息,且也无明显的变更时间记录字段,例如,全量表类可以理解为记录的人员信息,其中,人员的手机号或身份等信息发生了变化时,可以理解为历史数据发生了变更,但是不记录变更之前的历史信息。因此,根据各类数据表的特性,例如时间特性等,可以对获取到的数据表进行分类。
S330、根据数据表的分类结果,为数据表配置数据筛选规则。
可理解的,在上述S320的基础上,为分类后的数据表配置对应的数据筛选规则,也就是每类数据表均存在对应的数据筛选规则。
S340、根据分类结果和数据筛选规则,确定数据抽取方式。
可理解的,在上述S330的基础上,根据数据表的分类结果和配置的数据筛选规则,确定数据抽取方式,其中,数据抽取方式可以是异步抽取方式(异步数据仓储技术)或同步抽取方式(同步数据仓储技术)。例如,获取了2个待处理的数据表,识别第一个数据表的类型为流水表,并为该数据表配置流水表类对应的数据筛选规则,随后根据分类结果以及对应的数据筛选规则,确定数据抽取方式。第二个数据表的处理方式同第一个数据表类似。
S350、按照数据抽取方式,对数据表对应的数据进行抽取。
可理解的,在上述S340的基础上,按照确定的数据抽取方式,在源端数据库中对数据表对应的数据进行抽取,并将抽取到的数据发送至目标数据库。
可选的,在按照数据抽取方式,对数据表对应的数据进行抽取之前,方法还包括:根据数据筛选规则,确定工作任务,其中,工作任务包括全量抽取任务和增量抽取任务。
可理解的,分类后的数据表配置完数据筛选规则后,根据数据筛选规则对数据表中的数据进行处理,确定工作任务,其中,工作任务包括全量抽取任务和增量抽取任务,全量抽取任务是将数据表中的所所有数据全部传输至目标数据库,增量抽取任务是将数据表中新增的数据传输至目标数据库。
可选的,在确定工作任务以及抽取方式之后,按照数据抽取方式,对数据表对应的数据进行抽取,具体可以包括:按照数据抽取方式和工作任务,对数据表对应的数据进行抽取。
可理解的,按照确定的数据抽取方式和确定的工作任务,对源端数据库中数据表对应的数据进行抽取,例如,识别出待处理的数据表的分类结果为流水表,为该流水表配置数据筛选规则,并确定数据抽取方式为同步抽取方式,工作任务为全量抽取任务,随后采用同步抽取方式将数据表的所有数据传输至目标数据库。
可选的,在获取源端数据库中待处理的数据表之前,方法还包括:判断源端数据库是否是首次进行数据抽取,若是,则确定数据抽取方式为同步抽取方式,且工作任务为全量抽取任务。
可理解的,在获取源端数据库中的数据表时,优先判断源端数据库是否存在,若源端数据库存在,则进一步判断源端数据库是否是首次进行数据抽取,若是,则直接确定数据抽取方式为同步抽取方式,且工作任务为全量抽取任务,也就是源端数据库中的数据首次进行抽取并传输至目标数据库时,不涉及增量以及历史数据变更的情况,也不需要进行数据存储,以及根据存储的数据进行查看的情况,因此,可以直接采取同步抽取方式,将源端数据库中的数据全部并直接传输至目标数据库,加快传输速度和效率。
可选的,当目标数据库中存在传输的数据时,或是源端数据库不是首次进行数据抽取时,则执行上述图3的步骤,通过源端数据库中数据表的类型自行确定抽取方式,执行数据抽取任务。
可选的,还可以选择手动模式,手动确定抽取方式,即针对源端数据库中的任一数据表手动确定抽取方式,可以手动选择采用同步抽取方式还是异步抽取方式。
可选的,还可以判断运行源端数据库的服务器的可用空间是否充足,或是运行目标数据库的服务器的可用空间是否充足,若不充足,则可以根据预先确定的任务的优先级,自动将抽取方式改为异步抽取方式,增量抽取方式,将待传输的数据进行数据存储,再将存储的部分数据进行传输。
本公开实施例提供的一种数据抽取方法,通过获取源端数据库中待处理的数据表,确定数据表的类型,得到分类结果,根据数据表的分类结果,为数据表配置数据筛选规则,随后根据分类结果和数据筛选规则,确定数据抽取方式,按照数据抽取方式,对数据表对应的数据进行抽取,能够确定针对任一数据表的最佳抽取方式,也就是根据源端数据库中存储的各数据表的类型,确定数据表对应的抽取方式,能够快速准确的完成数据表对应的数据的抽取,效率比较高,可以适用于多种应用场景。
在上述实施例的基础上,可选的,根据数据表的分类结果,为数据表配置数据筛选规则,也就是为源端数据库中包括的不同类型的数据表配置不同的数据筛选规则,每个数据表均存在对应的数据筛选规则,具体包括如图4所示的如下步骤S410至S430:
可理解的,下述S410至S430具体说明了不同分类结果对应的数据筛选规则,每个数据表只有一种分类结果,配置一种数据筛选规则,因此,下述S410至S430之间是或的关系,对于一个数据表,只有一个步骤可以执行。
S410、若分类结果是流水表类,则为数据表配置第一规则,第一规则为时间字段增量截取规则。或者
可理解的,若确定待处理的数据表的分类结果是流水表类,那么为待处理的数据表配置第一规则,第一规则为时间字段增量截取规则,具体参见上述流水表类的说明,其中,时间字段增量截取规则可以理解为,待处理的数据表记录新数据的时间,将该记录时间之后所记录的所有数据进行截取,作为该数据表对应的待传输的数据。
S420、若分类结果是拉链表类,则为数据表配置第二规则,第二规则为增量文件生成规则。或者
可理解的,若确定待处理的数据表的分类结果是拉链表类,那么为待处理的数据表配置第二规则,第二规则为增量文件生成规则,具体参见上述拉链表类的说明,其中,增量文件生成规则可以理解为,根据待处理的数据表中增加的数据生成增量文件,增量文件作为该数据表对应的待传输的数据;增量文件可以通过源端数据库与目标数据库中该数据表的比对确定,或者,也可以通过源端数据库中数据表的比对生成增量文件,此时,该数据表之间进行过数据存储,可以查看数据存储中的数据表,和当前源端数据库中的数据表进行比对,生成增量文件。
S430、若分类结果是全量表类,则为数据表配置第二规则。
可理解的,若确定待处理的数据表的分类结果是全量表类,那么为待处理的数据表配置第二规则,其中,第二规则与上述S420中的第二规则相同;拉链表类和全量表类均涉及到历史数据的变更,可以直接根据变更数据生成增量文件,将增量文件传输至目标数据库,目标数据库中的数据表根据增量文件对需要变更的数据进行更新。
本公开实施例提供的一种数据抽取方法,通过确定源端数据库中各数据表的分类结果,为不同数据表配置不同的数据筛选规则,若分类结果是流水表类,则为数据表配置第一规则,第一规则为时间字段增量截取规则;或者,若分类结果是拉链表类,则为数据表配置第二规则,第二规则为增量文件生成规则;或者,若分类结果是全量表类,则为数据表配置第二规则,便于后续确定各数据表对应的抽取方式,进一步提高处理效率。
在上述实施例的基础上,可选的,根据分类结果和数据筛选规则,确定数据抽取方式,具体包括如图5所示的如下步骤S510至S530:
可理解的,下述S510至S530是根据各数据表的分类结果以及分类表对应的数据筛选规则,确定的数据抽取方式的详细说明,下述S510至S530之间是或的关系,只有一个步骤可以执行。
S510、若分类结果是流水表类,则为数据表添加时间字段,并根据第一规则,确定数据抽取方式为同步抽取方式。或者
可理解的,若分类结果是流水表类,则为流水表类数据表添加时间字段,时间字段是指数据写入数据表的时间,随后按照第一规则,确定数据抽取方式为同步抽取方式,同步抽取方式也就是在源端数据库中按照第一规则截取数据得到待传输的数据,并将待传输的数据直接发送至目标数据库。
S520、若分类结果是拉链表类,则根据第二规则,确定数据抽取方式为异步抽取方式。或者
可理解的,若分类结果是拉链表类,则根据第二规则,确定数据抽取方式为异步抽取方式,异步抽取方式也就是在源端数据库中按照第二规则生成增量文件,将增量文件作为待传输的数据,并将待传输的数据进行数据存储后,再发送至目标数据库。
S530、若分类结果是全量表类,则根据第二规则,确定数据抽取方式为异步抽取方式。
可理解的,若分类结果是全量表类,则按照第二规则,确定数据抽取方式为异步抽取方式,异步抽取方式也就是在源端数据库中按照第二规则生成增量文件,并将增量文件作为待传输的数据,将增量文件进行数据存储后,再发送至目标数据库;数据抽取方式包括选取同步抽取方式还是异步抽取方式,待抽取的数据时截取数据还是增量文件等。
可选的,也可以根据数据筛选规则确定工作任务,例如,对于流水表类可以采用同步抽取方式,同时选择全量抽取任务,也就是,源端数据库按照第一规则截取数据作为待传输的数据,将待传输的数据全部传输至目标数据库;若采用同步抽取方式,选择增量抽取任务,源端数据库按照第一规则截取数据作为待传输的数据,将待传输的数据的部分数据传输至目标数据库。其他不同类型的数据表的数据抽取方式和流水表类类似,确定选择同步抽取方式还是异步抽取方式后,再确定选择全量抽取任务还是增量抽取任务,最后得到准确的数据抽取方式。
本公开实施例提供的一种数据抽取方法,通过确定数据表的分类结果,以及根据数据表的分类结果配置的数据筛选规则,确定具体的抽取方式,其中,若分类结果是流水表类,则为数据表添加时间字段,并根据第一规则,确定数据抽取方式为同步抽取方式;或者,若分类结果是拉链表类,则根据第二规则,确定数据抽取方式为异步抽取方式;或者,若分类结果是全量表类,则根据第二规则,确定数据抽取方式为异步抽取方式,能够自动选择准确的数据抽取方式进行数据抽取,效率比较高,适用于多种应用场景,且便于实施。
图6为本公开实施例提供的一种数据抽取装置的结构示意图。本公开实施例提供的数据抽取装置可以执行数据抽取方法实施例提供的处理流程,如图6所示,数据抽取装置600包括:
获取单元610,用于获取源端数据库中待处理的数据表;
分类单元620,用于按照数据表的特性,对数据表进行分类;
配置单元630,用于根据数据表的分类结果,为数据表配置数据筛选规则;
确定单元640,用于根据分类结果和数据筛选规则,确定数据抽取方式;
抽取单元650,用于按照数据抽取方式,对数据表对应的数据进行抽取。
可选的,分类单元620中数据表的分类结果包括流水表类、拉链表类和全量表类。
可选的,配置单元630中根据数据表的分类结果,为数据表配置数据筛选规则,具体用于:
若分类结果是流水表类,则为数据表配置第一规则,第一规则为时间字段增量截取规则;或者
若分类结果是拉链表类,则为数据表配置第二规则,第二规则为增量文件生成规则;或者
若分类结果是全量表类,则为数据表配置第二规则。
可选的,确定单元610中根据分类结果和数据筛选规则,确定数据抽取方式,具体用于:
若分类结果是流水表类,则为数据表添加时间字段,并根据第一规则,确定数据抽取方式为同步抽取方式;或者
若分类结果是拉链表类,则根据第二规则,确定数据抽取方式为异步抽取方式;或者
若分类结果是全量表类,则根据第二规则,确定数据抽取方式为异步抽取方式。
可选的,装置600还包括第二确定单元,具体用于:
根据数据筛选规则,确定工作任务,其中,工作任务包括全量抽取任务和增量抽取任务。
可选的,抽取单元650中按照数据抽取方式,对数据表对应的数据进行抽取,具体用于:
按照数据抽取方式和工作任务,对数据表对应的数据进行抽取。
可选的,装置600中还包括判断单元,具体用于:
判断源端数据库是否是首次进行数据抽取,若是,则确定数据抽取方式为同步抽取方式,且工作任务为全量抽取任务。
图6所示实施例的一种数据抽取装置可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图7为本公开实施例提供的一种电子设备的结构示意图。本公开实施例提供的一种电子设备可以执行上述实施例提供的处理流程,如图7所示,电子设备700包括:处理器710、通讯接口720和存储器730;其中,计算机程序存储在存储器730中,并被配置为由处理器710执行如上述的数据抽取方法。
另外,本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现上述实施例的数据抽取方法。
此外,本公开实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序或指令,该计算机程序或指令被处理器执行时实现如上述的数据抽取方法。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种数据抽取方法,其特征在于,包括:
获取源端数据库中待处理的数据表;
按照所述数据表的特性,对所述数据表进行分类;
根据所述数据表的分类结果,为所述数据表配置数据筛选规则;
根据所述分类结果和所述数据筛选规则,确定数据抽取方式;
按照所述数据抽取方式,对所述数据表对应的数据进行抽取。
2.根据权利要求1所述的方法,其特征在于,所述数据表的分类结果包括流水表类、拉链表类和全量表类。
3.根据权利要求2所述的方法,其特征在于,所述根据所述数据表的分类结果,为所述数据表配置数据筛选规则,包括:
若所述分类结果是流水表类,则为所述数据表配置第一规则,所述第一规则为时间字段增量截取规则;或者
若所述分类结果是所述拉链表类,则为所述数据表配置第二规则,所述第二规则为增量文件生成规则;或者
若所述分类结果是所述全量表类,则为所述数据表配置所述第二规则。
4.根据权利要求3所述的方法,其特征在于,所述根据所述分类结果和所述数据筛选规则,确定数据抽取方式,包括:
若所述分类结果是流水表类,则为所述数据表添加时间字段,并根据所述第一规则,确定数据抽取方式为同步抽取方式;或者
若所述分类结果是所述拉链表类,则根据所述第二规则,确定数据抽取方式为异步抽取方式;或者
若所述分类结果是所述全量表类,则根据所述第二规则,确定数据抽取方式为异步抽取方式。
5.根据权利要求1所述的方法,其特征在于,在所述按照所述数据抽取方式,对所述数据表对应的数据进行抽取之前,所述方法还包括:
根据所述数据筛选规则,确定工作任务,其中,所述工作任务包括全量抽取任务和增量抽取任务。
6.根据权利要求5所述的方法,其特征在于,所述按照所述数据抽取方式,对所述数据表对应的数据进行抽取,包括:
按照所述数据抽取方式和所述工作任务,对所述数据表对应的数据进行抽取。
7.根据权利要求1所述的方法,其特征在于,在所述获取源端数据库中待处理的数据表之前,所述方法还包括:
判断源端数据库是否是首次进行数据抽取,若是,则确定数据抽取方式为同步抽取方式,且工作任务为全量抽取任务。
8.一种数据抽取装置,其特征在于,包括:
获取单元,用于获取源端数据库中待处理的数据表;
分类单元,用于按照所述数据表的特性,对所述数据表进行分类;
配置单元,用于根据所述数据表的分类结果,为所述数据表配置数据筛选规则;
确定单元,用于根据所述分类结果和所述数据筛选规则,确定数据抽取方式;
抽取单元,用于按照所述数据抽取方式,对所述数据表对应的数据进行抽取。
9.一种电子设备,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1至7中任一所述的数据抽取方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一所述的数据抽取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110898492.0A CN113641742B (zh) | 2021-08-05 | 一种数据抽取方法、装置、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110898492.0A CN113641742B (zh) | 2021-08-05 | 一种数据抽取方法、装置、设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113641742A true CN113641742A (zh) | 2021-11-12 |
CN113641742B CN113641742B (zh) | 2024-07-09 |
Family
ID=
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113791597A (zh) * | 2021-11-17 | 2021-12-14 | 浙江齐安信息科技有限公司 | 工业控制系统配置项信息的收集方法、装置及存储介质 |
CN114925074A (zh) * | 2022-06-21 | 2022-08-19 | 中国建设银行股份有限公司 | 一种数据卸载方法、装置、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488187A (zh) * | 2015-12-02 | 2016-04-13 | 北京四达时代软件技术股份有限公司 | 多源异构数据增量抽取的方法及装置 |
CN107436902A (zh) * | 2016-05-27 | 2017-12-05 | 北京京东尚科信息技术有限公司 | 基于海量数据的数据抽取方法和系统 |
CN111078701A (zh) * | 2019-12-16 | 2020-04-28 | 中国建设银行股份有限公司 | 基于关系型数据库的数据抽取方法及装置 |
CN111078709A (zh) * | 2019-12-28 | 2020-04-28 | 辽宁振兴银行股份有限公司 | 一种基于数仓工具hive的非更新方式的增量拉链实现方法 |
CN111813845A (zh) * | 2020-06-29 | 2020-10-23 | 平安国际智慧城市科技股份有限公司 | 基于etl任务的增量数据抽取方法、装置、设备及介质 |
CN112084182A (zh) * | 2020-09-10 | 2020-12-15 | 重庆富民银行股份有限公司 | 一种用于数据集市和数据仓库的数据建模方法 |
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105488187A (zh) * | 2015-12-02 | 2016-04-13 | 北京四达时代软件技术股份有限公司 | 多源异构数据增量抽取的方法及装置 |
CN107436902A (zh) * | 2016-05-27 | 2017-12-05 | 北京京东尚科信息技术有限公司 | 基于海量数据的数据抽取方法和系统 |
CN111078701A (zh) * | 2019-12-16 | 2020-04-28 | 中国建设银行股份有限公司 | 基于关系型数据库的数据抽取方法及装置 |
CN111078709A (zh) * | 2019-12-28 | 2020-04-28 | 辽宁振兴银行股份有限公司 | 一种基于数仓工具hive的非更新方式的增量拉链实现方法 |
CN111813845A (zh) * | 2020-06-29 | 2020-10-23 | 平安国际智慧城市科技股份有限公司 | 基于etl任务的增量数据抽取方法、装置、设备及介质 |
CN112084182A (zh) * | 2020-09-10 | 2020-12-15 | 重庆富民银行股份有限公司 | 一种用于数据集市和数据仓库的数据建模方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113791597A (zh) * | 2021-11-17 | 2021-12-14 | 浙江齐安信息科技有限公司 | 工业控制系统配置项信息的收集方法、装置及存储介质 |
CN114925074A (zh) * | 2022-06-21 | 2022-08-19 | 中国建设银行股份有限公司 | 一种数据卸载方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109033471B (zh) | 一种信息资产识别方法及装置 | |
US9715329B2 (en) | Provisioning of cloud networks with service | |
US20190258677A1 (en) | Cardinality of time series | |
US9037555B2 (en) | Asynchronous collection and correlation of trace and communications event data | |
US9043348B2 (en) | System and method for performing set operations with defined sketch accuracy distribution | |
CN110287696B (zh) | 一种反弹shell进程的检测方法、装置和设备 | |
CN106301978A (zh) | 团伙成员账号的识别方法、装置及设备 | |
US11755531B1 (en) | System and method for storage of data utilizing a persistent queue | |
CN107800565A (zh) | 巡检方法、装置、系统、计算机设备和存储介质 | |
CN108093026B (zh) | 多租户请求的处理方法及装置 | |
CN109740129B (zh) | 基于区块链的报表生成方法、装置、设备及可读存储介质 | |
CN112347165B (zh) | 日志处理方法、装置及服务器和计算机可读存储介质 | |
CN110046155B (zh) | 特征数据库的更新、数据特征的确定方法、装置及设备 | |
CN111047434B (zh) | 一种操作记录生成方法、装置、计算机设备和存储介质 | |
JP2010128597A (ja) | 情報処理装置及び情報処理装置の運用方法 | |
US11599396B2 (en) | Resegmenting chunks of data based on source type to facilitate load balancing | |
CN111125226B (zh) | 一种配置数据采集方法及装置 | |
CN112561388A (zh) | 一种基于物联网的信息处理方法、装置及设备 | |
CN107968798B (zh) | 一种网管资源标签获取方法、缓存同步方法、装置及系统 | |
CN104967667A (zh) | 一种基于云服务的软件稳定性测试远程监控系统 | |
CN108228417A (zh) | 车联网日志处理方法及处理装置 | |
CN113641742B (zh) | 一种数据抽取方法、装置、设备和存储介质 | |
CN113641742A (zh) | 一种数据抽取方法、装置、设备和存储介质 | |
CN113515455B (zh) | 自动化测试方法以及系统 | |
CN112860811B (zh) | 数据血缘关系的确定方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |