CN113761043A - 数据提取方法、装置、计算机设备和存储介质 - Google Patents
数据提取方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN113761043A CN113761043A CN202110945888.6A CN202110945888A CN113761043A CN 113761043 A CN113761043 A CN 113761043A CN 202110945888 A CN202110945888 A CN 202110945888A CN 113761043 A CN113761043 A CN 113761043A
- Authority
- CN
- China
- Prior art keywords
- data
- database
- import
- mapping table
- parameter configuration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013075 data extraction Methods 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000008676 import Effects 0.000 claims abstract description 146
- 238000013507 mapping Methods 0.000 claims abstract description 62
- 238000012216 screening Methods 0.000 claims abstract description 41
- 238000000605 extraction Methods 0.000 claims abstract description 37
- 238000004590 computer program Methods 0.000 claims description 13
- 238000004891 communication Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000013500 data storage Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种数据提取方法、装置、计算机设备和存储介质。该数据提取方法包括:获取数据提取请求,所述数据提取请求携带提取参数;根据所述提取参数在原始数据库中进行数据提取,构建目标数据库;创建所述目标数据库与各导入库的映射表;获取各导入库的参数配置文件,所述参数配置文件中记录有各导入库的数据筛选条件;根据所述数据筛选条件在所述目标数据库中确定各导入库的导入数据;根据所述映射表以及所述参数配置文件将所述导入数据存储至对应的导入库。本申请能够减少数据提取的工作量。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种数据提取方法、装置、计算机设备和存储介质。
背景技术
在大数据生产时代,数据已成为企业生产经营不可或缺的一部分。企业人员在工作过程中,时常需要从数据库中获取所需的数据,以更好地完成工作。传统方式中,是通过在Hive数据仓库中提取数据,并通过人工将提取的数据导出到相应的数据库中。当数据量较大时,会增加数据提取的工作量。
发明内容
本申请的主要目的在于提供一种能够降低数据提取的工作量的数据提取方法、装置、计算机设备和存储介质。
为了实现上述目的,根据本申请的一个方面,提供了一种数据提取方法。
根据本申请的数据提取方法包括:
获取数据提取请求,所述数据提取请求携带提取参数;
根据所述提取参数在原始数据库中进行数据提取,构建目标数据库;
创建所述目标数据库与各导入库的映射表;
获取各导入库的参数配置文件,所述参数配置文件中记录有各导入库的数据筛选条件;
根据所述数据筛选条件在所述目标数据库中确定各导入库的导入数据;
根据所述映射表以及所述参数配置文件将所述导入数据存储至对应的导入库。
进一步的,所述导入库包括检索数据库和关系型数据库,所述创建所述目标数据库与各导入库的映射表,包括:
通过预设脚本创建所述目标数据库与检索数据库的映射表;
通过执行预设建表语句创建所述目标数据库与关系型数据库的映射表。
进一步的,所述根据所述数据筛选条件在所述目标数据库中确定各导入库的导入数据,包括:
通过所述预设脚本根据所述检索数据库的数据筛选条件在所述目标数据库中确定所述检索数据库的导入数据;
根据所述关系型数据库的数据筛选条件确定所述目标数据库中是否存储对应的表,若存在,则将对应表的数据确定为所述关系型数据库的导入数据。
进一步的,所述根据所述映射表以及所述参数配置文件将所述导入数据存储至对应的导入库中包括:
在所述参数配置文件中确定各导入库的路由信息;
根据所述路由信息以及所述映射表将所述导入数据存储至对应的导入库。
进一步的,所述导入库包括检索数据库,所述方法还包括:
当所述导入库为检索数据库时,通过预设脚本创建所述检索数据库的索引;
根据所述检索数据库的索引、映射表以及参数配置文件将所述检索数据库的导入数据存储至所述检索数据库中。
进一步的,在根据所述映射表以及所述参数配置文件将所述导入数据存储至对应的导入库之后,所述方法还包括:
根据工作流任务调度器的数据文件规范信息和所述参数配置文件生成数据提取流程文件,以根据所述数据提取流程文件再次进行数据提取操作。
为了实现上述目的,根据本申请的另一方面,提供了一种数据提取装置。
根据本申请的数据提取装置包括:
通信模块,用于获取数据提取请求,所述数据提取请求携带提取参数;
数据提取模块,用于根据所述提取参数在原始数据库中进行数据提取,构建目标数据库;
表创建模块,用于创建所述目标数据库与各导入库的映射表;
文件获取模块,用于获取各导入库的参数配置文件,所述参数配置文件中记录有各导入库的数据筛选条件;
数据确定模块,用于根据所述数据筛选条件在所述目标数据库中确定各导入库的导入数据;
数据导出模块,用于根据所述映射表以及所述参数配置文件将所述导入数据存储至对应的导入库。
进一步的,所述导入库包括检索数据库和关系型数据库,所述表创建模块还用于通过预设脚本创建所述目标数据库与检索数据库的映射表;通过执行预设建表语句创建所述目标数据库与关系型数据库的映射表。
一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述各个方法实施例中的步骤。
上述数据提取方法、装置、计算机设备和存储介质,根据提取参数在原始数据库中进行数据提取,构建目标数据库,将提取的数据与原始数据库分隔开,有利于后续数据存储。通过创建目标数据库与各导入库的映射表,在各导入库的参数配置文件中确定各导入库的数据筛选条件,从而在目标数据库中确定各导入库的导入数据,根据映射表以及参数配置文件将所述导入数据存储至对应的导入库。在获取到数据提取请求后,可自动根据该请求进行数据提取及导出操作,无需人工操作,实现类自动化的数据提取,从而有效降低了数据提取的工作量,有利于提高工作人员的开发效率。同时,由于各导入库的参数配置文件是预先生成的,且配置有各导入库的数据筛选条件,可快速将目标数据库中的数据准确导出至各导入库。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是一个实施例中数据提取方法的应用环境图;
图2为一个实施例中数据提取方法的流程示意图;
图3为一个实施例中数据提取装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本申请提供的数据提取方法,可以应用于如图1所示的应用环境中。具体可以应用于在大量Hive表提取数据并推送数据到MySQL和ElasticSearch(简称ES)的场景。其中,提取方提取方服务器102与导入方提取方服务器104通过网络进行通信。提取方提取方服务器102获取导入方提取方服务器102发送的数据提取请求,对数据提取请求进行解析,得到提取参数,从而根据提取参数在原始数据库中进行数据提取,构建目标数据库,之后,创建目标数据库与各导入库的映射表,获取各导入库的参数配置文件,参数配置文件中记录有各导入库的数据筛选条件,根据数据筛选条件在目标数据库中确定各导入库的导入数据,进而根据映射表以及参数配置文件将导入数据存储至对应的导入库。提取方提取方服务器102与导入方提取方服务器104可以通过大数据集群来实现。
在一个实施例中,如图2所示,提供了一种数据提取方法,以该方法应用于图1中的提取方提取方服务器为例进行说明,包括如下的步骤202至步骤212:
步骤202,获取数据提取请求,数据提取请求携带提取参数。
数据提取请求是指用户针对自身的数据提取需求发起的请求,该请求用于指示提取方提取方服务器自动进行数据提取。
导入方提取方服务器中部署有Azkaban任务,通过启动该任务发起数据提取请求至提取方提取方服务器,提取方提取方服务器对该请求进行解析,得到提取参数。提取参数可以包括输出字段和提取条件,提取条件可以包括提取字段、提取运算符和提取字段值。例如,获取的数据提取请求为“提取用户名称为张三的用户的上网数据”,其中,输出字段为“上网数据”,提取条件为“用户名称为张三的用户”,提取字段为“用户名称”,提取运算符为“等于”,提取字段值为“张三”。
步骤204,根据提取参数在原始数据库中进行数据提取,构建目标数据库。
原始数据库是指数据未经修改的数据库,例如,原始数据库可以是Hive数据仓库。目标数据库是指根据由原始数据库中提取的数据构建的数据库。目标数据库也可以是Hive数据仓库。
原始数据库中存储有大量的Hive数据表,可以根据提取参数在原始数据库的Hive数据表中提取相应的数据,并根据提取的数据构建目标数据库。具体的,提取方服务器可以根据提取参数以及表之间的依赖关系在原始数据库中提取相应的数据。
步骤206,创建目标数据库与各导入库的映射表。
在数据提取后,需要将提取的数据存储至多个导入库中。导入库可以是导入方服务器中的数据库。至于需要在各导入库中导入哪些数据,需要先构建目标数据库与各导入库的映射表。具体的,提取方服务器可以在数据提取的同时,构建目标数据库与各导入库的映射表。通过构建映射表,可以确定目标数据库与各导入库之间的数据转移关系,可以确定将目标数据库中的数据转移至各导入库的相应位置。
在其后一个实施例中,导入库包括检索数据库和关系型数据库,创建目标数据库与各导入库的映射表,包括:通过预设脚本创建目标数据库与检索数据库的映射表;通过执行预设建表语句创建目标数据库与关系型数据库的映射表。
目标数据库与检索数据库的映射表中包括目标数据库名称、检索数据库集群地址、端口和对应的数据筛选条件。上述数据是通过预设脚本的方式进行传参得到的。将预设建表语句发送至关系型数据库所在的提取方服务器,并执行,创建目标数据库与关系型数据库的映射表,该映射表中可以包括目标数据库名称、关系型数据库地址、端口和对应的数据筛选条件。
例如,检索数据库可以是Elasticsearch数据库,关系型数据库可以是MySQL数据库。通过shell脚本创建目标数据库与Elasticsearch数据库的映射表,通过执行MySQL建表语句创建目标数据库与MySQL数据库的映射表。
步骤208,获取各导入库的参数配置文件,参数配置文件中记录有各导入库的数据筛选条件。
提取方服务器中预先存储有各导入库的参数配置文件,参数配置文件可以包括环境相关参数配置文件和表相关参数配置文件。环境相关参数配置文件中记录有各导入库的数据筛选条件、地址、端口、目标数据库名称等。表相关参数配置文件中记录有表名称、表之间的依赖关系等。各导入库的数据筛选条件是不同的,用于将不同类型的数据分开存储,以便后续进行数据查询。
例如,当导入库为Elasticsearch数据库时,对应的环境相关参数配置文件(config.properties)可以如下表所示:
hive.db | Hive库名 |
es.host | ES集群地址 |
es.port | ES集群端口 |
es.prefix | ES索引前缀 |
company_filter | Hive数据提取的筛选条件 |
表相关参数配置文件(xxx.txt)可以如下表所示:
参数1 | 模块名 |
参数2 | 是否导出ES |
参数3 | 表名 |
参数4 | 依赖的表(可以存在多个) |
步骤210,根据数据筛选条件在目标数据库中确定各导入库的导入数据。
目标数据库中存储有提取参数对应的数据,需要将目标数据库中的数据存储至不同的导入库中,通过在参数配置文件中获取各导入库的数据筛选条件,从而根据数据筛选条件在目标数据库中进行数据筛选,确定各导入库的导入数据。
在其中一个实施例中,根据数据筛选条件在目标数据库中确定各导入库的导入数据,包括:通过预设脚本根据检索数据库的数据筛选条件在目标数据库中确定检索数据库的导入数据;根据关系型数据库的数据筛选条件确定目标数据库中是否存储对应的表,若存在,则将对应表的数据确定为关系型数据库的导入数据。
预设脚本可以是shell脚本。通过shell脚本根据检索数据库的数据筛选条件在目标数据库中确定检索数据库的导入数据。针对关系型数据库,其对应的数据筛选条件可以包括提取表。可以通过Sqoop数据插件在目标数据库中查询是否存储有该提取表,若目标数据库中存在提取表,则将对应表的数据确定为关系型数据库的导入数据。检索数据库的数据筛选条件和关系型数据库的数据筛选条件是不同的,通过分别筛选各自的导入数据,以提高数据存储的准确性和合理性。
步骤212,根据映射表以及参数配置文件将导入数据存储至对应的导入库。
通过映射表可以确定目标数据库与各导入库之间的数据转移关系,从而可以确定将目标数据库中的数据转移至各导入库的相应位置。提取方服务器可以根据目标数据库与检索数据库之间的映射表以及检索数据库的参数配置文件将检索数据库的导入数据存储至检索数据库,相应的,根据目标数据库与关系型数据库之间的映射表以及关系型数据库的参数配置文件将关系型数据库的导入数据存储至关系型数据库中。
在其中一个实施例中,根据映射表以及参数配置文件将导入数据存储至对应的导入库中包括:在参数配置文件中确定各导入库的路由信息;根据路由信息以及映射表将导入数据存储至对应的导入库。
参数配置文件还包括有各导入库的路由信息,路由信息可以包括导入库地址、端口。具体的,在检索数据库的参数配置文件中确定检索数据库的集群地址和集群端口,通过检索数据库的集群地址、集群端口和映射表将检索数据库的导入数据存储至检索数据库中。相对应的,在关系型数据库的参数配置文件中确定关系型数据库的地址和端口,从而通过关系型数据库的地址、端口和对应的映射表将关系型数据库的导入数据存储在关系型数据库中。在将数据导出至关系型数据库的过程中,可以读取关系型数据库的参数配置文件进行循环处理,若目标数据库中存在关系型数据库需要提取的提取表,则将对应表的数据确定为关系型数据库的导入数据,存储至关系型数据库,若目标数据库中存在关系型数据库需要提取的提取表,则不导出数据。
本实施例中,根据提取参数在原始数据库中进行数据提取,构建目标数据库,将提取的数据与原始数据库分隔开,有利于后续数据存储。通过创建目标数据库与各导入库的映射表,在各导入库的参数配置文件中确定各导入库的数据筛选条件,从而在目标数据库中确定各导入库的导入数据,根据映射表以及参数配置文件将所述导入数据存储至对应的导入库。在获取到数据提取请求后,可自动根据该请求进行数据提取及导出操作,无需人工操作,实现类自动化的数据提取,从而有效降低了数据提取的工作量,有利于提高工作人员的开发效率。同时,由于各导入库的参数配置文件是预先生成的,且配置有各导入库的数据筛选条件,可快速将目标数据库中的数据准确导出至各导入库。
在一个实施例中,导入库包括检索数据库,上述方法还包括:当导入库为检索数据库时,通过预设脚本创建检索数据库的索引;根据检索数据库的索引、映射表以及参数配置文件将检索数据库的导入数据存储至检索数据库中。
当导入库为检索数据库时,可以通过预设脚本创建检索数据库的索引,通过检索数据库的索引可快速将检索数据库的导入数据存储至检索数据库中。
在一个实施例中,在根据映射表以及参数配置文件将导入数据存储至对应的导入库之后,上述方法还包括:根据工作流任务调度器的数据文件规范信息和参数配置文件生成数据提取流程文件,以根据数据提取流程文件再次进行数据提取操作。
在本实施例中,可以将数据提取的过程进行流程化处理,具体的,通过IO(输入输出)流的方式根据工作流任务调度器,如Azkaban的数据文件(flow文件)规范信息和参数配置文件生成数据提取流程文件。数据提取流程文件为数据提取流程的flow文件。通过将上述数据提取的过程生成flow文件,在后续获取到数据提取请求时,可以直接根据该flow文件进行数据提取操作,从而将数据提取的流程进行了规范化与流程化。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在一个实施例中,如图3所示,提供了一种数据提取装置,包括:通信模块302、数据提取模块304、表创建模块306、文件获取模块308、数据确定模块310和数据导出模块312,其中:
通信模块302,用于获取数据提取请求,数据提取请求携带提取参数。
数据提取模块304,用于根据提取参数在原始数据库中进行数据提取,构建目标数据库。
表创建模块306,用于创建目标数据库与各导入库的映射表。
文件获取模块308,用于获取各导入库的参数配置文件,参数配置文件中记录有各导入库的数据筛选条件。
数据确定模块310,用于根据数据筛选条件在目标数据库中确定各导入库的导入数据。
数据导出模块312,用于根据映射表以及参数配置文件将导入数据存储至对应的导入库。
在一个实施例中,导入库包括检索数据库和关系型数据库,表创建模块306还用于通过预设脚本创建目标数据库与检索数据库的映射表;通过执行预设建表语句创建目标数据库与关系型数据库的映射表。
在一个实施例中,数据确定模块310还用于通过预设脚本根据检索数据库的数据筛选条件在目标数据库中确定检索数据库的导入数据;根据关系型数据库的数据筛选条件确定目标数据库中是否存储对应的表,若存在,则将对应表的数据确定为关系型数据库的导入数据。
在一个实施例中,数据导出模块312还用于在参数配置文件中确定各导入库的路由信息;根据路由信息以及映射表将导入数据存储至对应的导入库。
在一个实施例中,导入库包括检索数据库,上述装置还包括:
索引创建模块,用于当导入库为检索数据库时,通过预设脚本创建检索数据库的索引;
数据导出模块312还用于根据检索数据库的索引、映射表以及参数配置文件将检索数据库的导入数据存储至检索数据库中。
在一个实施例中,上述装置还包括:流程化模块,用于根据工作流任务调度器的数据文件规范信息和参数配置文件生成数据提取流程文件,以根据数据提取流程文件再次进行数据提取操作。
关于数据提取装置的具体限定可以参见上文中对于数据提取方法的限定,在此不再赘述。上述数据提取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储一种数据提取方法的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据提取方法。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述各个实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各个实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种数据提取方法,其特征在于,包括:
获取数据提取请求,所述数据提取请求携带提取参数;
根据所述提取参数在原始数据库中进行数据提取,构建目标数据库;
创建所述目标数据库与各导入库的映射表;
获取各导入库的参数配置文件,所述参数配置文件中记录有各导入库的数据筛选条件;
根据所述数据筛选条件在所述目标数据库中确定各导入库的导入数据;
根据所述映射表以及所述参数配置文件将所述导入数据存储至对应的导入库。
2.根据权利要求1所述的方法,其特征在于,所述导入库包括检索数据库和关系型数据库,所述创建所述目标数据库与各导入库的映射表,包括:
通过预设脚本创建所述目标数据库与检索数据库的映射表;
通过执行预设建表语句创建所述目标数据库与关系型数据库的映射表。
3.根据权利要求2所述的方法,其特征在于,所述根据所述数据筛选条件在所述目标数据库中确定各导入库的导入数据,包括:
通过所述预设脚本根据所述检索数据库的数据筛选条件在所述目标数据库中确定所述检索数据库的导入数据;
根据所述关系型数据库的数据筛选条件确定所述目标数据库中是否存储对应的表,若存在,则将对应表的数据确定为所述关系型数据库的导入数据。
4.根据权利要求1所述的方法,其特征在于,所述根据所述映射表以及所述参数配置文件将所述导入数据存储至对应的导入库中包括:
在所述参数配置文件中确定各导入库的路由信息;
根据所述路由信息以及所述映射表将所述导入数据存储至对应的导入库。
5.根据权利要求1所述的方法,其特征在于,所述导入库包括检索数据库,所述方法还包括:
当所述导入库为检索数据库时,通过预设脚本创建所述检索数据库的索引;
根据所述检索数据库的索引、映射表以及参数配置文件将所述检索数据库的导入数据存储至所述检索数据库中。
6.根据权利要求1所述的方法,其特征在于,在根据所述映射表以及所述参数配置文件将所述导入数据存储至对应的导入库之后,所述方法还包括:
根据工作流任务调度器的数据文件规范信息和所述参数配置文件生成数据提取流程文件,以根据所述数据提取流程文件再次进行数据提取操作。
7.一种数据提取装置,其特征在于,所述装置包括:
通信模块,用于获取数据提取请求,所述数据提取请求携带提取参数;
数据提取模块,用于根据所述提取参数在原始数据库中进行数据提取,构建目标数据库;
表创建模块,用于创建所述目标数据库与各导入库的映射表;
文件获取模块,用于获取各导入库的参数配置文件,所述参数配置文件中记录有各导入库的数据筛选条件;
数据确定模块,用于根据所述数据筛选条件在所述目标数据库中确定各导入库的导入数据;
数据导出模块,用于根据所述映射表以及所述参数配置文件将所述导入数据存储至对应的导入库。
8.根据权利要求7所述的装置,其特征在于,所述导入库包括检索数据库和关系型数据库,所述表创建模块还用于通过预设脚本创建所述目标数据库与检索数据库的映射表;通过执行预设建表语句创建所述目标数据库与关系型数据库的映射表。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110945888.6A CN113761043A (zh) | 2021-08-17 | 2021-08-17 | 数据提取方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110945888.6A CN113761043A (zh) | 2021-08-17 | 2021-08-17 | 数据提取方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113761043A true CN113761043A (zh) | 2021-12-07 |
Family
ID=78790191
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110945888.6A Pending CN113761043A (zh) | 2021-08-17 | 2021-08-17 | 数据提取方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113761043A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116383205A (zh) * | 2023-03-31 | 2023-07-04 | 佛山众陶联供应链服务有限公司 | 一种配置化读取采集数据的方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299225A (zh) * | 2018-10-24 | 2019-02-01 | 平安科技(深圳)有限公司 | 日志检索方法、系统、终端及计算机可读存储介质 |
CN110209652A (zh) * | 2019-05-20 | 2019-09-06 | 平安科技(深圳)有限公司 | 数据表迁移方法、装置、计算机设备和存储介质 |
CN113220659A (zh) * | 2021-04-08 | 2021-08-06 | 杭州费尔斯通科技有限公司 | 一种数据迁移的方法、系统、电子装置和存储介质 |
-
2021
- 2021-08-17 CN CN202110945888.6A patent/CN113761043A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299225A (zh) * | 2018-10-24 | 2019-02-01 | 平安科技(深圳)有限公司 | 日志检索方法、系统、终端及计算机可读存储介质 |
CN110209652A (zh) * | 2019-05-20 | 2019-09-06 | 平安科技(深圳)有限公司 | 数据表迁移方法、装置、计算机设备和存储介质 |
CN113220659A (zh) * | 2021-04-08 | 2021-08-06 | 杭州费尔斯通科技有限公司 | 一种数据迁移的方法、系统、电子装置和存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116383205A (zh) * | 2023-03-31 | 2023-07-04 | 佛山众陶联供应链服务有限公司 | 一种配置化读取采集数据的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110209652B (zh) | 数据表迁移方法、装置、计算机设备和存储介质 | |
CN109768623A (zh) | 电力系统的监控方法、装置、计算机设备和存储介质 | |
CN109246235B (zh) | 监测数据的接收方法、装置和数据监测系统 | |
CN109460252B (zh) | 基于git的配置文件处理方法、装置和计算机设备 | |
CN113572780A (zh) | 设备安全策略配置方法 | |
CN110750267A (zh) | 业务信息更新方法、装置、计算机设备和存储介质 | |
CN111737227B (zh) | 数据修改方法及系统 | |
CN113761043A (zh) | 数据提取方法、装置、计算机设备和存储介质 | |
CN114465937B (zh) | 网卡测试方法、装置、服务器和介质 | |
CN113515464B (zh) | 基于linux系统的蜜罐测试方法及装置 | |
CN110275703B (zh) | 键值对数据的赋值方法、装置、计算机设备和存储介质 | |
CN109684303B (zh) | 通信码归属地查询方法、装置、计算机设备和存储介质 | |
CN109218131B (zh) | 网络监控方法、装置、计算机设备和存储介质 | |
CN112948504B (zh) | 数据采集方法、装置、计算机设备和存储介质 | |
CN112764874B (zh) | 一种基于cmdb配置管理系统的虚拟机服务器信息采集方法 | |
CN111506573B (zh) | 数据库表分区方法、装置、计算机设备及存储介质 | |
CN110765125B (zh) | 一种存储数据的方法及装置 | |
CN107422991B (zh) | 一种存储策略管理系统 | |
CN112148724B (zh) | 一种设备标识处理方法、系统、计算机设备及可读存储介质 | |
CN109104499B (zh) | 一种会话建立方法、装置、设备和存储介质 | |
CN110138890B (zh) | 获取ip地址的方法、装置、计算机设备和存储介质 | |
CN117407369B (zh) | 操作日志记录方法、装置及电子设备 | |
CN108062327B (zh) | 客户端的匹配方法和装置 | |
CN116431677B (zh) | 基于内存数据库的数据路由方法、系统和可读存储介质 | |
WO2024108592A1 (zh) | 一种组学数据处理方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |