CN113591147A - 一种数据抽取的方法、装置、计算机设备及存储介质 - Google Patents
一种数据抽取的方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113591147A CN113591147A CN202110875844.0A CN202110875844A CN113591147A CN 113591147 A CN113591147 A CN 113591147A CN 202110875844 A CN202110875844 A CN 202110875844A CN 113591147 A CN113591147 A CN 113591147A
- Authority
- CN
- China
- Prior art keywords
- data extraction
- data
- file
- task
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2141—Access rights, e.g. capability lists, access control lists, access tables, access matrices
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种数据抽取的方法、装置、计算机设备及存储介质,该数据抽取的方法包括但不限于如下的一个或多个步骤。读取项目配置文件,项目配置文件包括数据抽取脚本文件和多个任务配置文件,任务配置文件中包含访问验证信息;获取与数据抽取脚本文件相匹配的任务配置文件,以确定与数据抽取脚本文件相匹配的访问验证信息;根据数据抽取脚本文件和匹配的访问验证信息执行抽取数据的操作,以从源端数据库中提取数据至目标端数据库的临时数据表和转存至目标数据表中。本发明可通过数据抽取脚本文件和任务配置文件明显提高数据库账户的安全性,极大地降低了由于数据抽取操作而可能产生的数据安全和隐私问题,具有可靠性强、用户体验好等优点。
Description
技术领域
本发明涉及数据库技术领域,更为具体来说,本发明能够提供一种数据抽取的方法、装置、计算机设备及存储介质。
背景技术
目前,数据抽取技术的应用越来越广泛,数据抽取一般分为全量抽取、增量抽取等方式。但是,发明人发现:在具体进行数据抽取工作时经常会出现安全信息泄露的问题。特别地,在数据抽取相关文件由测试/开发环境转移到具体生产环境的过程中,经常会出现相关数据库账户安全信息泄露的问题,这直接导致了数据安全和数据隐私泄露的问题,用户体验较差,亟待需要解决。
发明内容
为解决传统的数据抽取技术方案存在的安全性差和用户体验较差等问题,本发明具体可提供一种数据抽取的方法、装置、计算机设备及存储介质,以达到提高数据抽取方法的安全性和提升用户体验等技术目的。
为实现上述技术目的,本发明提供了一种数据抽取的方法,该方法可包括但不限于如下的一个或多个步骤。
读取项目配置文件,所述项目配置文件包括数据抽取脚本文件和多个任务配置文件,所述任务配置文件中包含访问验证信息;
获取与所述数据抽取脚本文件相匹配的任务配置文件,以确定与所述数据抽取脚本文件相匹配的访问验证信息;
根据所述数据抽取脚本文件和匹配的访问验证信息执行抽取数据的操作,以从源端数据库中提取数据至目标端数据库的临时数据表中;
按照表映射关系将所述目标端数据库的临时数据表中的数据转存至目标端数据库的目标数据表中。
进一步地,所述获取与所述数据抽取脚本文件相匹配的任务配置文件包括:
从所述数据抽取脚本文件中解析出连接串信息,以及从所述任务配置文件中解析出任务流信息;
将所述连接串信息与至少一个任务流信息进行匹配,以得到信息匹配结果;
根据所述信息匹配结果为成功,确定与所述数据抽取脚本文件相匹配的任务配置文件。
进一步地,所述将所述连接串信息与至少一个任务流信息进行匹配包括:
读取所述连接串信息中的用户别名;
分别读取各个任务流信息中的所有数据库用户名;
将所述用户别名与所述所有数据库用户名进行遍历匹配。
进一步地,所述根据所述数据抽取脚本文件和匹配的访问验证信息执行抽取数据的操作包括:
通过所述数据抽取脚本文件和所述匹配的访问验证信息生成数据抽取任务;
执行所述数据抽取任务。
进一步地,所述访问验证信息包括数据库用户名和相对应的密码;所述通过所述数据抽取脚本文件和所述匹配的访问验证信息生成数据抽取任务包括:
利用所述数据库用户名和所述密码更新所述数据抽取脚本文件;
执行更新后的数据抽取脚本文件,生成数据抽取任务。
进一步地,该方法还包括:
对从源端数据库抽取的数据进行至少一次压缩处理,以得到多个压缩文件包;
将所述压缩文件包存储至目标端数据库。
进一步地,所述对从源端数据库抽取的数据进行至少一次压缩处理包括:
通过数据检测的方式将所述抽取的数据划分为安全数据和风险数据;
将所述安全数据压缩为第一文件包,以及将所述风险数据压缩为第二文件包;
所述将所述压缩文件包存储至目标端数据库包括:
将所述第一文件包存储至目标端数据库的第一分区中,并将所述第二文件包存储于目标端数据库的第二分区中。
为实现上述技术目的,本发明提供了一种数据抽取的装置,该装置可包括但不限于配置文件读取模块、验证信息获取模块、抽取操作执行模块以及数据映射转存模块。
配置文件读取模块,用于读取项目配置文件;所述项目配置文件包括数据抽取脚本文件和多个任务配置文件,所述任务配置文件中包含访问验证信息;
验证信息获取模块,用于获取与所述数据抽取脚本文件相匹配的任务配置文件,以确定与所述数据抽取脚本文件相匹配的访问验证信息;
抽取操作执行模块,用于根据所述数据抽取脚本文件和匹配的访问验证信息执行抽取数据的操作,以从源端数据库中提取数据至目标端数据库的临时数据表中;
数据映射转存模块,用于按照表映射关系将所述目标端数据库的临时数据表中的数据转存至目标端数据库的目标数据表中。
为实现上述技术目的,本发明能够提供一种计算机设备,计算机设备包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行本发明任一实施例中所述数据抽取的方法的步骤。
为实现上述技术目的,本发明还能够提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行本发明任一实施例中所述数据抽取的方法的步骤。
本发明的有益效果为:本发明能够通过分开设置的数据抽取脚本文件和任务配置文件明显提高数据库账户的安全性,极大地降低了由于数据抽取操作而可能产生的数据安全和数据隐私问题。特别地,测试人员将通过测试的数据抽取脚本文件移交到具体使用者的过程中,本发明彻底避免了相关安全信息泄露的问题。而且本发明通过数据抽取脚本与访问验证信息匹配的方式实现数据抽取,该方式非常适合待抽取数据发生改变(例如数据源信息改变或源端数据库改变或数据库的用户名改变)的情况,基于本发明将不再需要修改访问验证信息,而是通过匹配的方式自动获取,可见本发明不仅能够明显减少开发人员的工作量,而且降低了信息修改过程中出错的可能性。另外,基于本发明不需要在数据抽取脚本中编写访问验证信息,在减少代码量的同时也有助于减少开发人员的工作量。所以本发明不仅提高了用户的使用体验和满意度,而且还能够有助于明显地提高相关开发人员的满意度。
附图说明
图1示出了本发明一个或多个实施例中一种数据抽取的方法的流程示意图。
图2示出了本发明一些实施例中基于解析出的连接串信息和任务流信息的数据抽取方法的流程示意图。
图3示出了本发明一些实施例中基于用户别名与数据库用户名匹配方式进行数据抽取的方法流程示意图。
图4示出了本发明一个或多个实施例中通过执行数据抽取任务方式进行数据抽取的方法流程示意图。
图5示出了本发明一个或多个实施例中数据抽取的装置的结构组成示意图。
图6示出了本发明一个或多个实施例中计算机设备的内部结构示意图。
具体实施方式
下面结合说明书附图对本发明所提供的一种数据抽取的方法、装置、计算机设备及存储介质进行详细的解释和说明。
如图1所示,本发明一个或多个实施例具体能够提供一种数据抽取的方法,该方法可包括但不限于如下的一个或多个步骤。
步骤100,读取项目配置文件,项目配置文件包括数据抽取脚本文件和多个任务配置文件,任务配置文件中包含访问验证信息。
本发明实施例中的数据抽取脚本文件包括实现数据抽取相关功能的代码、源端数据库的表信息和字段信息、目标端数据库的表信息和字段信息,数据抽取脚本文件例如可以为shell脚本、Python脚本、sql脚本中的一种或多种。本发明实施例中的任务配置文件中记录有大量的访问验证信息,访问验证信息可包括但不限于数据库用户名和密码等;应当理解的是,本发明这些访问验证信息中只有一个数据库用户名和一个密码为符合本次数据抽取任务的,其余访问验证信息为干扰信息,达到使有用信息以暗文信息出现的目的,这些干扰信息包括一些随机随机生成的数据库用户名和密码等,由此本发明提高了对暗文信息的保护,提高了本发明的安全性。
可选地,本发明一个或多个实施例中读取项目配置文件包括但不限于如下的步骤:101,接收用户在操作界面工程栏(project)的第一选中操作信息,以确定和显示出一个或多个流程栏(flow);102,接收用户在操作界面流程栏(flow)的第二选中操作信息,以确定以及显示出一个或多个任务栏(job);103,接收用户在操作界面任务栏(job)的第三选中操作信息,以确定和显示出一个待读取的项目配置文件。可见本发明能够引导用户一步一步地、有条不紊地进行操作,不仅降低了出错的可能性,还能在操作引导的过程中加深用户对整个方案操作过程的认知和理解。
优选地,本发明一个或多个实施例可在Azkaban任务调度器上执行,项目配置文件格式为zip压缩包格式。应当理解的是,本发明实施例能够事先进行工程创建、流程创建、任务创建、将相关数据压缩为zip包以及将zip压缩包上传至Azkaban任务调度器等步骤,本实施例不再进行赘述。可见本发明能够便于操作人员对大量的、复杂且易混的数据抽取任务进行有条不紊地管理和调度,有助于操作人员对海量数据的抽取工作的维护。
可选地,本发明一些实施例中的数据抽取脚本具体为包含sqoop命令的脚本,sqoop命令的名称例如为aaaaa-sqoop-azk,本实施例sqoop命令用于将源端数据库中的数据导进到目标端数据库中,例如,将关系型数据库(包括但不限于MySQL,Oracle,Postgres)中数据导进到分布式文件系统(HDFS,Hadoop Distributed File System)中,或将分布式文件系统中的数据导进到关系型数据库中,当然并不限于此,本发明能够根据实际应用环境或场景对源端数据库或目标端数据库进行选择或指定。
步骤200,获取与数据抽取脚本文件相匹配的任务配置文件,以确定与数据抽取脚本文件相匹配的访问验证信息。
如图2所示,本发明实施例中的数据抽取脚本文件包括连接串信息,任务配置文件中包含任务流信息。本发明可选实施例中,获取与数据抽取脚本文件相匹配的任务配置文件包括但不限于步骤210~230。
步骤210,本实施例从数据抽取脚本文件中解析出连接串信息,以及从任务配置文件中解析出多个任务流信息。应当理解的是,上述两种解析过程可同步进行,或可不同步进行。
步骤220,对于所得到的多个任务流信息,将连接串信息与至少一个任务流信息进行匹配,以得到信息匹配结果。
如图3所示,连接串信息中包括用户别名,任务流信息中包括数据库用户名。则本发明可选实施例中将连接串信息与至少一个任务流信息进行匹配,包括但不限于步骤221~223。
步骤221,读取连接串信息中的用户别名,以得到本次待匹配的数据库用户的相关信息。
步骤222,分别读取各个任务流信息中的所有数据库用户名,且所有数据库用户名中存在一个数据库用户名与用户别名相对应。
步骤223,将用户别名与所有数据库用户名进行遍历匹配,即,遍历各个数据库用户名的过程中,将遍历得到的数据库用户名与用户别名进行匹配。
步骤230,根据信息匹配结果为成功,确定与数据抽取脚本文件相匹配的任务配置文件。
可选地,本发明一些实施例中将数据库用户名与用户别名进行匹配可包括:按照预设符号转换方式对当前的用户别名进行一次或多次处理,以得到目标用户名,并通过查找与目标用户名完全相同的数据库用户名作为成功匹配的数据库用户名,否则将目标用户名与下一个数据库用户名进行匹配,直至成功匹配。本实施例中的预设符号转换方式包括但不限于移位运算、逻辑运算、加减法运算中的至少一种,例如用户别名为Liu056且预设符号转换方式为加一运算,则处理后得到的用户名为Mjv167;例如用户名为Liu056且预设符号转换方式为移位运算,则处理后得到的用户名为u056Li;当然并不限于此,以能够实现本发明技术目的为准。
由此可见,对于使用者(可包括但不限于开发者、测试者、应用者)来说,本发明只需要调整数据抽取脚本中的用户别名即可实现连接到不同的数据库或账户上,数据库用户名和对应的密码等安全相关信息是以暗文形式存在的,这种方式能够有效地避免在数据抽取脚本移交过程(例如由测试环境到生产环境的过程)中用户密码信息的泄露,极大提高了本发明数据抽取技术方案的数据库用户相关账户的安全性,可信赖度非常高。
步骤300,根据数据抽取脚本文件和相匹配的访问验证信息执行抽取数据的操作,以从源端数据库中提取数据至目标端数据库的临时数据表中。
如图4所示,本发明实施例数据抽取脚本文件和匹配的访问验证信息执行抽取数据的操作包括但不限于步骤310~320。
步骤310,本发明实施例可通过数据抽取脚本文件和匹配的访问验证信息生成数据抽取任务,本实施例中的访问验证信息包括数据库用户名和相对应的密码。其中,通过数据抽取脚本文件和匹配的访问验证信息生成数据抽取任务可包括:利用数据库用户名和密码更新数据抽取脚本文件,执行更新后的数据抽取脚本文件,从而生成数据抽取任务。例如,数据库用户名(User ID)为Liu056,相对应的密码(Password)为glk@666cqq,则本实施例能够将Liu056和glk@666cqq写入数据抽取脚本文件,实现对数据抽取脚本文件的更新。可理解的是,本发明中连接串信息中可包括但不限于数据源信息(Data Source,例如127.0.0.1:8888)、数据库名称信息(例如ICQ)等。
可选地,本发明实施例中利用数据库用户名和密码更新数据抽取脚本文件可包括:利用多组数据库用户名和密码对应地更新多个数据抽取脚本文件,进而可生成多个数据抽取任务。本发明基于上述方式能够通过一次数据抽取流程同时实现对多个源端数据库或多个源端数据库账户的连接和操作,从而能够有效提高数据抽取任务执行的效率。
由此可见,本发明能够通过配置文件为数据抽取脚本文件赋予数据库用户名和对应的密码,即实现为数据抽取脚本文件提供了访问验证信息。本发明能够基于该方式能够有效地避免他人直接从数据抽取脚本文件中解析出数据库用户名和对应的密码等安全相关信息的问题,极大地提高了本发明数据抽取任务的安全性和可靠性。
步骤320,执行数据抽取任务,达到将数据从源端数据库抽取到目标端数据库的临时数据表中的目的。
可选地,对于多个数据抽取任务,本发明中的多个数据抽取任务可为定时任务(schedule),在当前的定时任务结束后的设定时间间隔(例如3秒钟)后,再执行下一定时任务,直至所有的定时任务执行完成。通过该方式能够避免相邻任务执行可能发生的冲突或影响等问题,从而极大提高了本发明数据抽取方案的可靠性和鲁棒性,特别适用于大规模数据抽取的情形。
本发明能够通过执行数据抽取任务的方式实现数据抽取动作,从而在面对大量并行的数据抽取工作时能够对其进行合理、有效地安排和管理,有助于尽可能避免同时进行多项数据抽取任务时发生故障或意外的情况。
步骤400,按照表映射关系将目标端数据库的临时数据表中的数据转存至目标端数据库的目标数据表中。
本发明实施例按照表映射关系中的配置信息对目标端数据库的临时数据表(table_temp)中的数据进行遍历,并根据配置信息对遍历到的数据进行有选择地读取和映射,以得到用于转存至目标端数据库的目标数据表(table_final)中的数据。其中,本实施例的配置信息可包括但不限于敏感字段设置信息,例如,涉政、涉暴、涉黄等各种敏感字段设置信息。基于表映射关系的数据转存,本发明能够对一些敏感信息或垃圾信息进行过滤,而且还能够通过映射和转存的方式使数据按照自定义存储路径进行存储,从而使最终抽取到目标端数据库的目标数据表中的数据是规范的、高价值数据,所以本发明还能够达到数据清洗等多个技术目的。
本发明另一些实施例中的数据抽取的方法还包括:对从源端数据库抽取的数据进行至少一次压缩处理,以得到多个压缩文件包;将压缩文件包存储至目标端数据库。本发明通过数据压缩方案能够降低对目标端数据库存储空间的要求,而且有助于提高数据存储速度。本实施例中的压缩方式例如可以是速度优先方式,以提高本发明面对大量数据抽取时的数据存储速度。
可选地,对从源端数据库抽取的数据进行至少一次压缩处理包括:通过数据检测的方式将抽取的数据划分为安全数据和风险数据,将安全数据压缩为第一文件包,以及将风险数据压缩为第二文件包。将压缩文件包存储至目标端数据库包括:将第一文件包存储至目标端数据库的第一分区中,并将第二文件包存储于目标端数据库的第二分区中。
本发明通过将安全数据和风险数据分开进行压缩和存储方式保护了目标端数据库的安全,以避免常规无区分存储方式可能产生整个目标数据库故障甚至瘫痪的问题,本发明进一步提高了数据抽取方案的安全性。
如图5所示,与数据抽取的方法基于相同的发明构思,本发明还能够提供一种数据抽取的装置。其中,该数据抽取的装置可包括但不限于配置文件读取模块、验证信息获取模块、抽取操作执行模块以及数据映射转存模块。
配置文件读取模块,用于读取项目配置文件;项目配置文件包括数据抽取脚本文件和多个任务配置文件,任务配置文件中包含访问验证信息。
验证信息获取模块,用于获取与数据抽取脚本文件相匹配的任务配置文件,以确定与数据抽取脚本文件相匹配的访问验证信息。
具体地,验证信息获取模块用于从数据抽取脚本文件中解析出连接串信息以及用于从任务配置文件中解析出任务流信息,并用于将连接串信息与至少一个任务流信息进行匹配,以得到信息匹配结果;该验证信息获取模块还用于根据信息匹配结果为成功,确定与数据抽取脚本文件相匹配的任务配置文件。
可选地,验证信息获取模块具体用于读取连接串信息中的用户别名和分别读取各个任务流信息中的所有数据库用户名,并用于将用户别名与所有数据库用户名进行遍历匹配,以将连接串信息与任务流信息进行匹配。
抽取操作执行模块,用于根据数据抽取脚本文件和匹配的访问验证信息执行抽取数据的操作,以从源端数据库中提取数据至目标端数据库的临时数据表中;
数据映射转存模块,用于按照表映射关系将目标端数据库的临时数据表中的数据转存至目标端数据库的目标数据表中。
具体地,抽取操作执行模块用于通过数据抽取脚本文件和匹配的访问验证信息生成数据抽取任务,以及用于执行数据抽取任务。
可选地,抽取操作执行模块可用于利用数据库用户名和密码更新数据抽取脚本文件,以及用于执行更新后的数据抽取脚本文件,生成数据抽取任务。
可选地,本发明一些实施例中的数据抽取的装置还包括抽取数据压缩模块和抽取数据检测模块。
抽取数据压缩模块可用于对从源端数据库抽取的数据进行至少一次数据压缩处理,以得到多个压缩文件包,以及可用于将压缩文件包存储至目标端数据库。
抽取数据检测模块可用于通过数据检测的方式将抽取的数据划分为安全数据和风险数据。抽取数据压缩模块具体用于将安全数据压缩为第一文件包,以及用于将风险数据压缩为第二文件包。抽取数据压缩模块还可用于将第一文件包存储至目标端数据库的第一分区中,并用于将第二文件包存储于目标端数据库的第二分区中。
如图6所示,与数据抽取的方法基于相同的技术构思,本发明还能够提供一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行本发明任一实施例中的数据抽取的方法的步骤。其中,数据抽取的方法包括但不限于如下步骤。步骤100,读取项目配置文件,项目配置文件包括数据抽取脚本文件和多个任务配置文件,任务配置文件中包含访问验证信息。步骤200,获取与数据抽取脚本文件相匹配的任务配置文件,以确定与数据抽取脚本文件相匹配的访问验证信息。本发明可选实施例中获取与数据抽取脚本文件相匹配的任务配置文件包括但不限于步骤210~230。步骤210,从数据抽取脚本文件中解析出连接串信息,以及从任务配置文件中解析出任务流信息。步骤220,将连接串信息与至少一个任务流信息进行匹配,以得到信息匹配结果。本发明可选的实施例中将连接串信息与至少一个任务流信息进行匹配包括但不限于步骤221~223。步骤221,读取连接串信息中的用户别名;步骤222,分别读取各个任务流信息中的所有数据库用户名;步骤223,将用户别名与所有数据库用户名进行遍历匹配。步骤230,根据信息匹配结果为成功,确定与数据抽取脚本文件相匹配的任务配置文件。步骤300,根据数据抽取脚本文件和相匹配的访问验证信息执行抽取数据的操作,以从源端数据库中提取数据至目标端数据库的临时数据表中;按照表映射关系将目标端数据库的临时数据表中的数据转存至目标端数据库的目标数据表中。本发明实施例数据抽取脚本文件和匹配的访问验证信息执行抽取数据的操作包括但不限于步骤310~320。步骤310,通过数据抽取脚本文件和匹配的访问验证信息生成数据抽取任务。本实施例中的访问验证信息包括数据库用户名和相对应的密码;通过数据抽取脚本文件和匹配的访问验证信息生成数据抽取任务包括:利用数据库用户名和密码更新数据抽取脚本文件,执行更新后的数据抽取脚本文件,生成数据抽取任务。步骤320,执行数据抽取任务。本发明另一些实施例中的数据抽取的方法还包括:对从源端数据库抽取的数据进行至少一次压缩处理,以得到多个压缩文件包;将压缩文件包存储至目标端数据库。可选地,对从源端数据库抽取的数据进行至少一次压缩处理包括:通过数据检测的方式将抽取的数据划分为安全数据和风险数据,将安全数据压缩为第一文件包,以及将风险数据压缩为第二文件包。将压缩文件包存储至目标端数据库包括:将第一文件包存储至目标端数据库的第一分区中,并将第二文件包存储于目标端数据库的第二分区中。
如图6所示,与数据抽取的方法基于同一技术构思,本发明还可提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如本发明任一实施例中数据抽取的方法的步骤。其中,数据抽取的方法包括但不限于如下步骤。步骤100,读取项目配置文件,项目配置文件包括数据抽取脚本文件和多个任务配置文件,任务配置文件中包含访问验证信息。步骤200,获取与数据抽取脚本文件相匹配的任务配置文件,以确定与数据抽取脚本文件相匹配的访问验证信息。本发明可选实施例中获取与数据抽取脚本文件相匹配的任务配置文件包括但不限于步骤210~230。步骤210,从数据抽取脚本文件中解析出连接串信息,以及从任务配置文件中解析出任务流信息。步骤220,将连接串信息与至少一个任务流信息进行匹配,以得到信息匹配结果。本发明可选的实施例中将连接串信息与至少一个任务流信息进行匹配包括但不限于步骤221~223。步骤221,读取连接串信息中的用户别名;步骤222,分别读取各个任务流信息中的所有数据库用户名;步骤223,将用户别名与所有数据库用户名进行遍历匹配。步骤230,根据信息匹配结果为成功,确定与数据抽取脚本文件相匹配的任务配置文件。步骤300,根据数据抽取脚本文件和相匹配的访问验证信息执行抽取数据的操作,以从源端数据库中提取数据至目标端数据库的临时数据表中;按照表映射关系将目标端数据库的临时数据表中的数据转存至目标端数据库的目标数据表中。本发明实施例数据抽取脚本文件和匹配的访问验证信息执行抽取数据的操作包括但不限于步骤310~320。步骤310,通过数据抽取脚本文件和匹配的访问验证信息生成数据抽取任务。本实施例中的访问验证信息包括数据库用户名和相对应的密码;通过数据抽取脚本文件和匹配的访问验证信息生成数据抽取任务包括:利用数据库用户名和密码更新数据抽取脚本文件,执行更新后的数据抽取脚本文件,生成数据抽取任务。步骤320,执行数据抽取任务。本发明另一些实施例中的数据抽取的方法还包括:对从源端数据库抽取的数据进行至少一次压缩处理,以得到多个压缩文件包;将压缩文件包存储至目标端数据库。可选地,对从源端数据库抽取的数据进行至少一次压缩处理包括:通过数据检测的方式将抽取的数据划分为安全数据和风险数据,将安全数据压缩为第一文件包,以及将风险数据压缩为第二文件包。将压缩文件包存储至目标端数据库包括:将第一文件包存储至目标端数据库的第一分区中,并将第二文件包存储于目标端数据库的第二分区中。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读存储介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读存储介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读存储介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM,Random Access Memory),只读存储器(ROM,Read-Only Memory),可擦除可编辑只读存储器(EPROM,Erasable Programmable Read-Only Memory,或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM,Compact Disc Read-Only Memory)。另外,计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA,Programmable Gate Array),现场可编程门阵列(FPGA,Field Programmable Gate Array)等。
在本说明书的描述中,参考术语“本实施例”、“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明实质内容上所作的任何修改、等同替换和简单改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种数据抽取的方法,其特征在于,包括:
读取项目配置文件,所述项目配置文件包括数据抽取脚本文件和多个任务配置文件,所述任务配置文件中包含访问验证信息;
获取与所述数据抽取脚本文件相匹配的任务配置文件,以确定与所述数据抽取脚本文件相匹配的访问验证信息;
根据所述数据抽取脚本文件和匹配的访问验证信息执行抽取数据的操作,以从源端数据库中提取数据至目标端数据库的临时数据表中;
按照表映射关系将所述目标端数据库的临时数据表中的数据转存至目标端数据库的目标数据表中。
2.根据权利要求1所述的数据抽取的方法,其特征在于,所述获取与所述数据抽取脚本文件相匹配的任务配置文件包括:
从所述数据抽取脚本文件中解析出连接串信息,以及从所述任务配置文件中解析出任务流信息;
将所述连接串信息与至少一个任务流信息进行匹配,以得到信息匹配结果;
根据所述信息匹配结果为成功,确定与所述数据抽取脚本文件相匹配的任务配置文件。
3.根据权利要求2所述的数据抽取的方法,其特征在于,所述将所述连接串信息与至少一个任务流信息进行匹配包括:
读取所述连接串信息中的用户别名;
分别读取各个任务流信息中的所有数据库用户名;
将所述用户别名与所述所有数据库用户名进行遍历匹配。
4.根据权利要求1所述的数据抽取的方法,其特征在于,所述根据所述数据抽取脚本文件和匹配的访问验证信息执行抽取数据的操作包括:
通过所述数据抽取脚本文件和所述匹配的访问验证信息生成数据抽取任务;
执行所述数据抽取任务。
5.根据权利要求4所述的数据抽取的方法,其特征在于,所述访问验证信息包括数据库用户名和相对应的密码;所述通过所述数据抽取脚本文件和所述匹配的访问验证信息生成数据抽取任务包括:
利用所述数据库用户名和所述密码更新所述数据抽取脚本文件;
执行更新后的数据抽取脚本文件,生成数据抽取任务。
6.根据权利要求1所述的数据抽取的方法,其特征在于,还包括:
对从源端数据库抽取的数据进行至少一次压缩处理,以得到多个压缩文件包;
将所述压缩文件包存储至目标端数据库。
7.根据权利要求6所述的数据抽取的方法,其特征在于,
所述对从源端数据库抽取的数据进行至少一次压缩处理包括:
通过数据检测的方式将所述抽取的数据划分为安全数据和风险数据;
将所述安全数据压缩为第一文件包,以及将所述风险数据压缩为第二文件包;
所述将所述压缩文件包存储至目标端数据库包括:
将所述第一文件包存储至目标端数据库的第一分区中,并将所述第二文件包存储于目标端数据库的第二分区中。
8.一种数据抽取的装置,其特征在于,包括:
配置文件读取模块,用于读取项目配置文件;所述项目配置文件包括数据抽取脚本文件和多个任务配置文件,所述任务配置文件中包含访问验证信息;
验证信息获取模块,用于获取与所述数据抽取脚本文件相匹配的任务配置文件,以确定与所述数据抽取脚本文件相匹配的访问验证信息;
抽取操作执行模块,用于根据所述数据抽取脚本文件和匹配的访问验证信息执行抽取数据的操作,以从源端数据库中提取数据至目标端数据库的临时数据表中;
数据映射转存模块,用于按照表映射关系将所述目标端数据库的临时数据表中的数据转存至目标端数据库的目标数据表中。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述数据抽取的方法的步骤。
10.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至7中任一项权利要求所述数据抽取的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110875844.0A CN113591147A (zh) | 2021-07-30 | 2021-07-30 | 一种数据抽取的方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110875844.0A CN113591147A (zh) | 2021-07-30 | 2021-07-30 | 一种数据抽取的方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113591147A true CN113591147A (zh) | 2021-11-02 |
Family
ID=78253102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110875844.0A Pending CN113591147A (zh) | 2021-07-30 | 2021-07-30 | 一种数据抽取的方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113591147A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114416805A (zh) * | 2022-03-10 | 2022-04-29 | 深圳高灯计算机科技有限公司 | 数据核对方法、装置、计算机设备和存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101673256A (zh) * | 2008-09-11 | 2010-03-17 | 北大方正集团有限公司 | 一种基于文字流的文章元数据信息自动抽取方法及系统 |
CN107613005A (zh) * | 2017-09-20 | 2018-01-19 | 携程旅游信息技术(上海)有限公司 | 反向代理方法及装置、电子设备、存储介质 |
CN108287987A (zh) * | 2017-12-20 | 2018-07-17 | 杭州云屏科技有限公司 | 数据管理方法、装置、设备及可读存储介质 |
CN109308285A (zh) * | 2018-10-11 | 2019-02-05 | 平安科技(深圳)有限公司 | 数据库脚本管理方法、装置、计算机设备及存储介质 |
CA2993577A1 (en) * | 2018-01-31 | 2019-07-31 | The Toronto-Dominion Bank | Real-time authentication and authorization based on dynamically generated cryptographic data |
CN110275913A (zh) * | 2019-04-25 | 2019-09-24 | 深圳壹账通智能科技有限公司 | 数据供应方法、装置、及存储介质和电子装置 |
CN111897863A (zh) * | 2020-07-31 | 2020-11-06 | 珠海市新德汇信息技术有限公司 | 多源异构数据融合汇聚方法 |
-
2021
- 2021-07-30 CN CN202110875844.0A patent/CN113591147A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101673256A (zh) * | 2008-09-11 | 2010-03-17 | 北大方正集团有限公司 | 一种基于文字流的文章元数据信息自动抽取方法及系统 |
CN107613005A (zh) * | 2017-09-20 | 2018-01-19 | 携程旅游信息技术(上海)有限公司 | 反向代理方法及装置、电子设备、存储介质 |
CN108287987A (zh) * | 2017-12-20 | 2018-07-17 | 杭州云屏科技有限公司 | 数据管理方法、装置、设备及可读存储介质 |
CA2993577A1 (en) * | 2018-01-31 | 2019-07-31 | The Toronto-Dominion Bank | Real-time authentication and authorization based on dynamically generated cryptographic data |
CN109308285A (zh) * | 2018-10-11 | 2019-02-05 | 平安科技(深圳)有限公司 | 数据库脚本管理方法、装置、计算机设备及存储介质 |
CN110275913A (zh) * | 2019-04-25 | 2019-09-24 | 深圳壹账通智能科技有限公司 | 数据供应方法、装置、及存储介质和电子装置 |
CN111897863A (zh) * | 2020-07-31 | 2020-11-06 | 珠海市新德汇信息技术有限公司 | 多源异构数据融合汇聚方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114416805A (zh) * | 2022-03-10 | 2022-04-29 | 深圳高灯计算机科技有限公司 | 数据核对方法、装置、计算机设备和存储介质 |
CN114416805B (zh) * | 2022-03-10 | 2022-08-02 | 深圳高灯计算机科技有限公司 | 数据核对方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107908541B (zh) | 接口测试方法、装置、计算机设备及存储介质 | |
CN106951364B (zh) | 测试方法及装置 | |
CN110347085B (zh) | 自动化测试系统、方法、车辆以及计算机可读介质 | |
US20080307006A1 (en) | File mutation method and system using file section information and mutation rules | |
US8489941B2 (en) | Automatic documentation of ticket execution | |
CN110554962A (zh) | 回归测试的流程覆盖方法、服务器及计算机可读存储介质 | |
WO2014016649A1 (en) | Method and apparatus for implementing instrumentation code | |
CN110597704B (zh) | 应用程序的压力测试方法、装置、服务器和介质 | |
CN112905441A (zh) | 测试用例生成方法、测试方法、装置及设备 | |
CN111124870A (zh) | 一种接口测试方法及装置 | |
CN112416803A (zh) | 一种自动化测试方法和装置 | |
CN113591147A (zh) | 一种数据抽取的方法、装置、计算机设备及存储介质 | |
CN110737573B (zh) | 用户界面ui自动化测试的方法和装置 | |
CN110147313B (zh) | 一种日志输出方法及装置 | |
KR20150128711A (ko) | 컴퓨터 시스템 활동의 트레이스 타임라인을 분석하기 위한 방법 및 시스템 | |
CN111400171A (zh) | 一种接口测试方法、系统、装置及可读存储介质 | |
KR102117905B1 (ko) | 신뢰성 테스트 결과 관리 데이터 자동 생성 방법 및 신뢰성 테스트 결과 관리 데이터 자동 생성 장치 | |
CN110837467A (zh) | 软件测试方法、装置以及系统 | |
CN109656825A (zh) | 美术资源处理的方法及装置、电子设备、存储介质 | |
CN109344083A (zh) | 一种程序调试方法、装置、设备及可读存储介质 | |
CN114141302A (zh) | 固态硬盘的测试方法及电子设备 | |
CN114676061A (zh) | 一种基于知识图谱自动化固件检测方法 | |
CN109062797B (zh) | 生成信息的方法和装置 | |
CN113326193A (zh) | 一种小程序测试方法及装置 | |
CN111338956A (zh) | 一种自动化的压测方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |