CN112597150A - 数据采集方法、装置、可读存储介质和电子装置 - Google Patents
数据采集方法、装置、可读存储介质和电子装置 Download PDFInfo
- Publication number
- CN112597150A CN112597150A CN202011407632.1A CN202011407632A CN112597150A CN 112597150 A CN112597150 A CN 112597150A CN 202011407632 A CN202011407632 A CN 202011407632A CN 112597150 A CN112597150 A CN 112597150A
- Authority
- CN
- China
- Prior art keywords
- data
- metadata
- relational database
- database
- data warehouse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000005540 biological transmission Effects 0.000 claims abstract description 37
- 238000004590 computer program Methods 0.000 claims description 18
- 238000013507 mapping Methods 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000012795 verification Methods 0.000 claims description 12
- 238000012216 screening Methods 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 5
- 238000000638 solvent extraction Methods 0.000 claims 1
- 238000012546 transfer Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000012545 processing Methods 0.000 description 7
- 238000007726 management method Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000013480 data collection Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000005457 optimization Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供了一种数据采集方法、装置、可读存储介质和电子装置,该方法包括:从关系型数据库中获取关系型数据库元数据;将获取的所述关系型数据库元数据输入数据仓库以生成数据仓库元数据;根据所述数据仓库元数据生成数据仓库表,将所述数据仓库表发送至大数据平台,并根据所述数据仓库表建立所述关系型数据库与所述大数据平台之间的数据传输。通过本发明的上述实施例,解决了相关技术中数据仓库难以高效地从源系统中获取源系统元数据信息以及数据仓库难以对所获取的源系统元数据信息进行有效整理的问题,进而达到了保证数据质量、提高工作效率、减少大数据平台的元数据管理成本的效果。
Description
技术领域
本发明实施例涉及大数据处理领域,具体而言,涉及一种数据采集方法、装置、可读存储介质和电子装置。
背景技术
数据采集是大数据平台最基础的功能,是大数据平台最基础同时也是非常重要的环节。现在数据库数据采集大部分是通过各种组件、数据库自带的导出功能以及一些api从数据库导出文件,然后传输到大数据平台上面。同时,需要把数据库中元数据映射到大数据平台对应的元数据上。整体一套自动化流程比较复杂、效率不高、面临复杂的元数据信息管理。另外,还需要维护源系统,并将源系统的变化同步到大数据平台上面,导致数据采集的成本特别高。维护成本高,效率低,在数据量越来越大的时代,数据质量也就得不到很好的管理,导致整体系统处于不健康的状态。
针对相关技术中数据仓库难以高效地从源系统获取源系统元数据信息并进行有效整理的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据采集方法、装置、可读存储介质和电子装置,以至少解决相关技术中数据仓库难以高效地从源系统获取源系统元数据信息并进行有效整理的问题。
根据本发明的一个实施例,提供了一种数据采集方法,包括:从关系型数据库中获取关系型数据库元数据;将获取的所述关系型数据库元数据输入数据仓库以生成数据仓库元数据;根据所述数据仓库元数据生成数据仓库表,将所述数据仓库表发送至大数据平台,并根据所述数据仓库表建立所述关系型数据库与所述大数据平台之间的数据传输。
在一个示例性实施例中,将获取的所述关系型数据库元数据输入数据仓库以生成数据仓库元数据,可以包括:获取所述数据仓库与所述关系型数据库之间的连接条件;根据所述连接条件在所述数据仓库与所述关系型数据库之间进行数据交互,并建立所述关系型数据库元数据与对应的所述数据仓库元数据之间的映射;根据所述映射,将所述关系型数据库元数据转化到所述数据仓库中,生成转化后的所述数据仓库元数据。
在一个示例性实施例中,根据所述数据仓库元数据生成数据仓库表,将所述数据仓库表发送至大数据平台,并根据所述数据仓库表建立所述关系型数据库与所述大数据平台之间的数据传输,可以包括:根据所述数据仓库元数据生成数据仓库表,并对生成的所述数据仓库表进行权限控制;在经过权限控制的所述数据仓库表中对所述关系型数据库进行谓词下推;将经过谓词下推的所述关系型数据库的数据进行切分以形成数据块;将所述数据块并行传输至所述大数据平台以建立所述关系型数据库与所述大数据平台之间的数据传输。
在一个示例性实施例中,对生成的所述数据仓库表进行权限控制,可以包括:通过以下之一对所述数据仓库表进行赋权:在所述数据仓库中增加权限信息、将所述数据仓库与所述大数据平台相关联;根据经过赋权的所述数据仓库表中的所述权限信息对所述数据仓库表的使用权限进行权限控制,和/或通过与所述大数据平台相关联的所述数据仓库表对所述大数据平台进行权限控制。
在一个示例性实施例中,在经过权限控制的所述数据仓库表中对所述关系型数据库进行谓词下推,可以包括:获取对所述关系型数据库的外置筛选条件;将获取的所述外置筛选条件进行存储。
在一个示例性实施例中,将经过谓词下推的所述关系型数据库的数据进行切分以形成数据块,可以包括:将经过谓词下推的所述关系型数据库的数据至少按照以下之一类型对所述关系型数据库的主键和索引进行切分以形成数据块:数字类型、日期类型、时间戳类型。
在一个示例性实施例中,在将经过谓词下推的所述关系型数据库的数据进行切分形成数据块之后,还可以包括:对所述数据仓库进行以下之一参数校验:切分字段的索引校验,权限校验,参数合理化校验。
根据本发明的另一个实施例,提供了一种数据采集装置,包括:获取模块,用于从关系型数据库中获取关系型数据库元数据;输入模块,用于将获取的所述关系型数据库元数据输入数据仓库以生成数据仓库元数据;发送模块,用于根据所述数据仓库元数据生成数据仓库表,将所述数据仓库表发送至大数据平台,并根据所述数据仓库表建立所述关系型数据库与所述大数据平台之间的数据传输。
根据本发明的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明的上述实施例,由于通过外表关联的方式将关系型数据库等源系统与数据仓库进行关联,因此可以解决相关技术中数据仓库难以高效地从源系统中获取源系统元数据信息的问题,另外,由于通过对关系型数据库的元数据进行解析以生成数据仓库表,因此可以解决相关技术中数据仓库难以对所获取的源系统元数据信息进行有效整理的问题,达到保证数据质量、提高工作效率、减少大数据平台的元数据管理成本的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种数据采集方法的计算机终端的硬件结构框图;
图2是根据本发明实施例的数据采集方法的流程图;
图3是根据本发明实施例的数据采集装置的结构框图;
图4是根据本发明可选实施例的数据采集装置的结构框图;
图5是根据本发明可选实施例的hive表创建方式的示意图;
图6是根据本发明可选实施例的对源系统数据库进行配置优化的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了更好的理解本发明实施例以及可选实施例的技术方案,以下对本发明实施例以及可选实施例中可能出现的应用场景进行说明,但不用于限定以下场景的应用。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本发明实施例的一种数据采集方法的计算机终端的硬件结构框图。如图1所示,计算机终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,在一个示例性实施例中,上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的数据采集方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的有线或无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过宽带网络与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(RadioFrequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于上述计算机终端的数据采集方法,图2是根据本发明实施例的数据采集方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,从关系型数据库中获取关系型数据库元数据。
步骤S202,将获取的所述关系型数据库元数据输入数据仓库以生成数据仓库元数据。
步骤S203,根据所述数据仓库元数据生成数据仓库表,将所述数据仓库表发送至大数据平台,并根据所述数据仓库表建立所述关系型数据库与所述大数据平台之间的数据传输。
在本实施例中,步骤S202可以包括:获取所述数据仓库与所述关系型数据库之间的连接条件;根据所述连接条件在所述数据仓库与所述关系型数据库之间进行数据交互,并建立所述关系型数据库元数据与对应的所述数据仓库元数据之间的映射;根据所述映射,将所述关系型数据库元数据转化到所述数据仓库中,生成转化后的所述数据仓库元数据。
在本实施例中,步骤S203可以包括:根据所述数据仓库元数据生成数据仓库表,并对生成的所述数据仓库表进行权限控制;在经过权限控制的所述数据仓库表中对所述关系型数据库进行谓词下推;将经过谓词下推的所述关系型数据库的数据进行切分以形成数据块;将所述数据块并行传输至所述大数据平台以建立所述关系型数据库与所述大数据平台之间的数据传输。
在本实施例中,对生成的所述数据仓库表进行权限控制,可以包括:通过以下之一对所述数据仓库表进行赋权:在所述数据仓库中增加权限信息、将所述数据仓库与所述大数据平台相关联;根据经过赋权的所述数据仓库表中的所述权限信息对所述数据仓库表的使用权限进行权限控制,和/或通过与所述大数据平台相关联的所述数据仓库表对所述大数据平台进行权限控制。
在本实施例中,在经过权限控制的所述数据仓库表中对所述关系型数据库进行谓词下推,可以包括:获取对所述关系型数据库的外置筛选条件;将获取的所述外置筛选条件进行存储。
在本实施例中,将经过谓词下推的所述关系型数据库的数据进行切分以形成数据块,可以包括:将经过谓词下推的所述关系型数据库的数据至少按照以下之一类型对所述关系型数据库的主键和索引进行切分以形成数据块:数字类型、日期类型、时间戳类型。
在本实施例中,在将经过谓词下推的所述关系型数据库的数据进行切分形成数据块之后,在将经过谓词下推的所述关系型数据库的数据进行切分形成数据块之后,还可以包括:对所述数据仓库进行以下之一参数校验:切分字段的索引校验,权限校验,参数合理化校验。
通过上述步骤,由于通过外表关联的方式将关系型数据库等源系统与数据仓库进行关联,因此可以解决相关技术中数据仓库难以高效地从源系统中获取源系统元数据信息的问题,另外,由于通过对关系型数据库的元数据进行解析以生成数据仓库表,因此可以解决相关技术中数据仓库难以对所获取的源系统元数据信息进行有效整理的问题,达到保证数据质量、提高工作效率、减少大数据平台的元数据管理成本的效果。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本实施例中还提供了一种数据采集装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”和“单元”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本发明实施例的数据采集装置的结构框图,如图3所示,该装置包括获取模块10、输入模块20和发送模块30。
所述获取模块10,用于从关系型数据库中获取关系型数据库元数据。
所述输入模块20,用于将获取的所述关系型数据库元数据输入数据仓库以生成数据仓库元数据。
所述发送模块30,用于根据所述数据仓库元数据生成数据仓库表,将所述数据仓库表发送至大数据平台,并根据所述数据仓库表建立所述关系型数据库与所述大数据平台之间的数据传输。
图4是根据本发明可选实施例的数据采集装置的结构框图,如图4所示,该装置除包括图3所示的所有模块外,所述输入模块20还包括接收单元21、交互单元22和生成单元23,所述发送模块30还包括权限控制单元31、谓词下推单元32、切分单元33和并行单元34。
所述接收单元21,用于获取所述数据仓库与所述关系型数据库之间的连接条件。
所述交互单元22,用于根据所述连接条件在所述数据仓库与所述关系型数据库之间进行数据交互,并建立所述关系型数据库元数据与对应的所述数据仓库元数据之间的映射。
所述生成单元23,用于根据所述映射,将所述关系型数据库元数据转化到所述数据仓库中,生成转化后的所述数据仓库元数据。
所述权限控制单元31,用于根据所述数据仓库元数据生成数据仓库表,并对生成的所述数据仓库表进行权限控制。
所述谓词下推单元32,用于在经过权限控制的所述数据仓库表中对所述关系型数据库进行谓词下推。
所述切分单元33,用于将经过谓词下推的所述关系型数据库的数据进行切分以形成数据块。
所述并行单元34,用于将所述数据块并行传输至所述大数据平台以建立所述关系型数据库与所述大数据平台之间的数据传输。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
为了便于对本发明所提供的技术方案的理解,下面将结合具体场景的实施例进行详细阐述。
本实施例提供了一种基础在大数据平台的多元化存储系统,保证源系统和大数据系统结合起来,通过自动化的源系统和大数据平台的映射,利用大数据平台自身分布式系统的优势来实现数据传输。同时打破大数据平台自身分布式文件存储的局限,把各种数据库作为大数据平台的存储系统可以达到完全实时的数据查询,减少数据采集的流程,来实现高效的数据采集。由于数据库和大数据平台结合起来,不仅能够作为数据采集的工具,同时也可以作为大数据输出的产物输出给各种源系统的数据库中去。
Hive是大数据平台的数据仓库。本实施例同时也考虑到相关数据存储到hdfs上面的缺点。虽然,相关技术中可以简单地做到从mysql、oracle等数据库中读取数据,但相关技术中Hive还不能写入数据。并且,在数据库中读取方面,相关技术还难以通过外表关联的方式关联起两个系统,然后来达到利用大数据平台分布式的优势,从源系统采集数据。
因此,目前的hive提供的版本不能写入数据。读取方面没有自动化转化源系统元数据到大数据库平台的同步,也没用考虑源系统的数据库还需要应对各种业务逻辑处理,不能合理有效的控制数据的传输。像谓词下推、索引、外部存储和内部存储的关联上面都没有得到实现,而且目前的release版本还有很多bug等待修复,使用起来需要修改对应的源代码。对于老版本不能扩展,有很大的局限性,大部分公司对于整个版本的升级成本都比较高。没有权限的限制,导致安全性比较低。
本实施例在目前各种开源组件和实现存在各种不足的情况下,提供了一种高效的、实时的、扩展性好、效率高的应用在数据仓库、数据库、数据港等数据传输采集器,来应对各种源系统到大数据平台的数据传输。
本实施例通过JDBC连接池,把hive和各种结构化数据库mysql、oracle、pg连接起来,实现源系统的元数据自动映射到hive的元数据里面。读取方面,实现了利用源系统的主键和索引来实现高效的数据切分达到数据效率的提升和并行度的控制。写方面,通过数据库的连接可以实现insert insert overwrite来对应数据库的插入覆盖以及插入更新操纵。权限方面通过自己hive自己内置的metastore来增加了几个元数据表,可以在这种表单独赋予权限,保证系统的安全。实现源系统数据的谓词下推来保证数据准确高效的传输。使hive作为仓库的唯一入口实现不同数据存储以及不同数据存储直接数据的关联。
本实施例可以从源系统读取出对应的元数据信息和hive中的元数据做映射转换。
图5是根据本发明可选实施例的hive表创建方式的示意图,如图5所示,创建hive表的时候,不需要先去查询源系统数据库的字段以及字段类型,直接制定对应的源系统的连接条件,通过映射关系的转化,会自动把源系统的元数据信息同步到hive库中,作为hive表的源系统信息。
在读取方面,可以将源系统类型转换为java类型,最终转换为hive类型。
在写入方面,可以将hive类型转换为java类型,最终转换为源系统类型。
本实施例提供的自动化关系映射完全摒弃了人工从源系统调研到hive表映射到转化,通过自动化解析源系统等元数据信息来保证系统的准确性,保证数据的质量,极大提高了工作效率,同时减少了大数据平台元数据管理的成本。
表1是mysql、pg实现的类型转换表,如表1所示,通过实现类型的转换,来实现读取和写入类型的对应,以及数据精确性的保证,同时也是实现写入源系统的必备的条件。
表1
图6是根据本发明可选实施例的对源系统数据库进行配置优化的流程图,如图6所示,该流程包括如下步骤:
步骤S601,权限控制。
在本实施例的步骤S601中,权限方面,通过在hive的meta里面增加了权限信息表,可以支持打开和关闭,如果对安全系统要求比较高的可以通过关联大数据平台的认证系统来实现更精确的对于外部存储的权限控制。
在本实施例的步骤S601中,在权限控制方面,控制可以完全摒弃掉线有的其他权限控制,也可以结合现有的权限控制来做到更近一步的安全防控,防止数据泄漏。
步骤S602,谓词下推。
在本实施例的步骤S602中,谓词下推其实在很多数据库中都有实现,hive中也对自己存储在hdfs上面的数据文件有谓词下推的功能,但是没有在对外存储中实现。如果不实现谓词下推的功能,每次在读取源系统数据的时候,都需要扫描全表,然后传输到hive中去过滤掉不需要的数据,性能影响很大。通过谓词下推的实现,一个sql会通过解析相应的语法树来拿到其中外置的筛选条件,直接放在查询数据库的底层中,来实现从最底层减少数据的传输,极大提高了数据传输效率。
在本实施例的步骤S602中,在谓词下推方面,通过在该外部存储系统实现谓词下推的功能,从底层减少了数据传输,可以实现超大数据量瘦身,保证系统的快速处理大表以及多种存储相互关联处理的速度。
步骤S603,部分数据切分。
在本实施例的步骤S603中,由于数据通过大数据分布式来执行,合理的数据切分才能保证处理的速度以及对数据库的压力得到很好的控制,支持自动数据切分以及执行相应的切分规则来保证了个性化的数据传输任务。实现了三种数据切分类型覆盖了大数据常见的切分规则:数字类型、日期类型、时间戳类型。同时校验了源系统的主键以及索引信息,来保证数据切分读取的效率问题。
在本实施例的步骤S603中,在数据切分优化方面,实现了数字,日期,时间戳的切分逻辑,结合了数据库索引、以及大数据平台自身的分布式特点,不仅提高了源系统数据库的稳定性还提高了整体数据的效率。
步骤S604,参数校验。
在本实施例的步骤S604中,通过hive的metahook来实现各种参数校验,给出了各种错误的提示,里面还是先了覆盖,以及覆盖更新等操作来支持批量数据的重跑和准确性。增加了切分字段的索引校验,权限校验,参数合理化校验,密码信息等在表创建成功之后会自动加密隐藏,不会造成泄漏,同时还支持在映射关系增加查询配置,hive表整体映射源系统表一部分数据。
在本实施例中,在数据库连接方面,增加了批量读取和写入,不会使数据库的压力过大,保证数据的传输速度,同时支持批量配置的参数和可控性。
在本实施例中,在配置优化方面,支持傻瓜式配置,只需要把对应的数据库地址填上,不仅自动的分析源系统的源系统信息,还会有各种默认参数保证系统稳定的传输,提高开发的效率,既不会申请太多的资源导致资源的浪费,也不会给源系统的数据库造成很大的压力。
通过实现大数据平台的多元化存储系统的采集器,提高数据采集的整体效率,可以实现实时的去查询源系统数据,不再局限于离线数据的处理,通过减少了元数据的开发和管理,可以帮助审计以及元数据治理方面得到很大的提升。
另外,本实施例的代码本身不受限于hive自己的版本,可以在各种版本中运行只需要更改对应的hive版本号即可。
综上所述,针对现有hive的功能其实定位就是数据的读取,只是把数据从源系统搬砖到大数据平台。本实施例中的这种建立在大数据平台的多元化存储系统,不仅仅是搬数据,完全把外部存储作为hive的存储系统来实现,打破了hdfs数据问出的局限性,可以让hive作为一个入口来实现各种存储系统的关联与数据的传输。在原来的基础上增加了写入功能。增加了自动化的解析源系统元数据与hive中的元数据映射关系。通过实现自定义的切分逻辑同时结合了源系统数据库的索引信息可以实现数据高效稳定的传输,序列化与反序列话是数据的准确性大大提高,支持多种存储系统的相互关联,不仅仅是数据的传输。通过hive的谓词下推,可以实现超大表的瘦身,每次都从最底层减少数据的传输,极大提高的系统的可用性。同时各种参数自动配置来减少工作量,同时个性化的配置来实现数据传输的稳定高效。也有自己的权限系统保证系统的安全性。
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,从关系型数据库中获取关系型数据库元数据;
S2,将获取的所述关系型数据库元数据输入数据仓库以生成数据仓库元数据;
S3,根据所述数据仓库元数据生成数据仓库表,将所述数据仓库表发送至大数据平台,并根据所述数据仓库表建立所述关系型数据库与所述大数据平台之间的数据传输。
在一个示例性实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
在一个示例性实施例中,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,从关系型数据库中获取关系型数据库元数据;
S2,将获取的所述关系型数据库元数据输入数据仓库以生成数据仓库元数据;
S3,根据所述数据仓库元数据生成数据仓库表,将所述数据仓库表发送至大数据平台,并根据所述数据仓库表建立所述关系型数据库与所述大数据平台之间的数据传输。
在一个示例性实施例中,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,在一个示例性实施例中,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种数据采集方法,其特征在于,包括:
从关系型数据库中获取关系型数据库元数据;
将获取的所述关系型数据库元数据输入数据仓库以生成数据仓库元数据;
根据所述数据仓库元数据生成数据仓库表,将所述数据仓库表发送至大数据平台,并根据所述数据仓库表建立所述关系型数据库与所述大数据平台之间的数据传输。
2.根据权利要求1所述的方法,其特征在于,将获取的所述关系型数据库元数据输入数据仓库以生成数据仓库元数据,包括:
获取所述数据仓库与所述关系型数据库之间的连接条件;
根据所述连接条件在所述数据仓库与所述关系型数据库之间进行数据交互,并建立所述关系型数据库元数据与对应的所述数据仓库元数据之间的映射;
根据所述映射,将所述关系型数据库元数据转化到所述数据仓库中,生成转化后的所述数据仓库元数据。
3.根据权利要求1所述的方法,其特征在于,根据所述数据仓库元数据生成数据仓库表,将所述数据仓库表发送至大数据平台,并根据所述数据仓库表建立所述关系型数据库与所述大数据平台之间的数据传输,包括:
根据所述数据仓库元数据生成数据仓库表,并对生成的所述数据仓库表进行权限控制;
在经过权限控制的所述数据仓库表中对所述关系型数据库进行谓词下推;
将经过谓词下推的所述关系型数据库的数据进行切分以形成数据块;
将所述数据块并行传输至所述大数据平台以建立所述关系型数据库与所述大数据平台之间的数据传输。
4.根据权利要求3所述的方法,其特征在于,对生成的所述数据仓库表进行权限控制,包括:
通过以下之一对所述数据仓库表进行赋权:在所述数据仓库中增加权限信息、将所述数据仓库与所述大数据平台相关联;
根据经过赋权的所述数据仓库表中的所述权限信息对所述数据仓库表的使用权限进行权限控制,和/或通过与所述大数据平台相关联的所述数据仓库表对所述大数据平台进行权限控制。
5.根据权利要求3所述的方法,其特征在于,在经过权限控制的所述数据仓库表中对所述关系型数据库进行谓词下推,包括:
获取对所述关系型数据库的外置筛选条件;
将获取的所述外置筛选条件进行存储。
6.根据权利要求3所述的方法,其特征在于,将经过谓词下推的所述关系型数据库的数据进行切分以形成数据块,包括:
将经过谓词下推的所述关系型数据库的数据至少按照以下之一类型对所述关系型数据库的主键和索引进行切分以形成数据块:数字类型、日期类型、时间戳类型。
7.根据权利要求3所述的方法,其特征在于,在将经过谓词下推的所述关系型数据库的数据进行切分形成数据块之后,还包括:
对所述数据仓库进行以下之一参数校验:切分字段的索引校验,权限校验,参数合理化校验。
8.一种数据采集装置,其特征在于,包括:
获取模块,用于从关系型数据库中获取关系型数据库元数据;
输入模块,用于将获取的所述关系型数据库元数据输入数据仓库以生成数据仓库元数据;
发送模块,用于根据所述数据仓库元数据生成数据仓库表,将所述数据仓库表发送至大数据平台,并根据所述数据仓库表建立所述关系型数据库与所述大数据平台之间的数据传输。
9.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011407632.1A CN112597150A (zh) | 2020-12-04 | 2020-12-04 | 数据采集方法、装置、可读存储介质和电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011407632.1A CN112597150A (zh) | 2020-12-04 | 2020-12-04 | 数据采集方法、装置、可读存储介质和电子装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112597150A true CN112597150A (zh) | 2021-04-02 |
Family
ID=75188450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011407632.1A Pending CN112597150A (zh) | 2020-12-04 | 2020-12-04 | 数据采集方法、装置、可读存储介质和电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112597150A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160092524A1 (en) * | 2014-09-26 | 2016-03-31 | Oracle International Corporation | System and method for data transfer from jdbc to a data warehouse layer in a massively parallel or distributed database environment |
CN107967316A (zh) * | 2017-11-22 | 2018-04-27 | 平安科技(深圳)有限公司 | 一种数据同步方法、设备及计算机可读存储介质 |
CN110196871A (zh) * | 2019-03-07 | 2019-09-03 | 腾讯科技(深圳)有限公司 | 数据入库方法和系统 |
CN110619016A (zh) * | 2019-09-24 | 2019-12-27 | 苏州浪潮智能科技有限公司 | 一种大数据平台的数据处理方法、设备以及存储介质 |
CN110851511A (zh) * | 2019-10-09 | 2020-02-28 | 上海易点时空网络有限公司 | 数据同步的方法及装置 |
CN111966692A (zh) * | 2020-09-04 | 2020-11-20 | 网易(杭州)网络有限公司 | 针对数据仓库的数据处理方法、介质、装置和计算设备 |
-
2020
- 2020-12-04 CN CN202011407632.1A patent/CN112597150A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160092524A1 (en) * | 2014-09-26 | 2016-03-31 | Oracle International Corporation | System and method for data transfer from jdbc to a data warehouse layer in a massively parallel or distributed database environment |
CN107967316A (zh) * | 2017-11-22 | 2018-04-27 | 平安科技(深圳)有限公司 | 一种数据同步方法、设备及计算机可读存储介质 |
CN110196871A (zh) * | 2019-03-07 | 2019-09-03 | 腾讯科技(深圳)有限公司 | 数据入库方法和系统 |
CN110619016A (zh) * | 2019-09-24 | 2019-12-27 | 苏州浪潮智能科技有限公司 | 一种大数据平台的数据处理方法、设备以及存储介质 |
CN110851511A (zh) * | 2019-10-09 | 2020-02-28 | 上海易点时空网络有限公司 | 数据同步的方法及装置 |
CN111966692A (zh) * | 2020-09-04 | 2020-11-20 | 网易(杭州)网络有限公司 | 针对数据仓库的数据处理方法、介质、装置和计算设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107220142B (zh) | 执行数据恢复操作的方法及装置 | |
CN104572122A (zh) | 一种软件应用数据的生成装置及方法 | |
CN111552678A (zh) | 数据权限的配置方法、装置及计算机设备 | |
CN105786998A (zh) | 数据库中间件系统及利用其处理数据的方法 | |
CN104767795A (zh) | 一种基于hadoop的lte mro数据统计方法及系统 | |
CN114691786A (zh) | 数据血缘关系的确定方法及装置、存储介质、电子装置 | |
CN115374102A (zh) | 数据处理方法及系统 | |
CN111737227B (zh) | 数据修改方法及系统 | |
CN108763323B (zh) | 基于资源集和大数据技术的气象格点文件应用方法 | |
CN113434158A (zh) | 一种大数据组件的自定义管理方法、装置、设备及介质 | |
CN113282599A (zh) | 数据同步方法及系统 | |
US11567957B2 (en) | Incremental addition of data to partitions in database tables | |
CN112149107A (zh) | 统一权限管理方法、系统、装置及存储介质 | |
CN114969441A (zh) | 基于图数据库的知识挖掘引擎系统 | |
CN114443015A (zh) | 一种基于数据库元数据的增删改查服务接口生成方法 | |
CN111177239B (zh) | 一种基于hdp大数据集群的统一日志处理方法及系统 | |
CN107944288B (zh) | 一种数据访问控制方法和装置 | |
CN110750582A (zh) | 数据处理方法、装置和系统 | |
CN112613075A (zh) | 权限的确定方法及装置、存储介质及电子装置 | |
KR101108534B1 (ko) | 도메인 규칙에 기반한 웹 애플리케이션 입력 값 유효성 검증 및 변환, 데이터베이스 출력 값 변환 관리 자동화 시스템 및 그 제어방법 | |
CN104573053A (zh) | 一种基于xml的配置项模板动态定制方法 | |
CN112597150A (zh) | 数据采集方法、装置、可读存储介质和电子装置 | |
CN115543428A (zh) | 一种基于策略模板的模拟数据生成方法和装置 | |
US11698911B2 (en) | System and methods for performing updated query requests in a system of multiple database engine | |
CN114861229A (zh) | 一种Hive动态脱敏方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |