CN105512168A - 一种集群数据库复合加载数据的方法及装置 - Google Patents

一种集群数据库复合加载数据的方法及装置 Download PDF

Info

Publication number
CN105512168A
CN105512168A CN201510782765.XA CN201510782765A CN105512168A CN 105512168 A CN105512168 A CN 105512168A CN 201510782765 A CN201510782765 A CN 201510782765A CN 105512168 A CN105512168 A CN 105512168A
Authority
CN
China
Prior art keywords
data
data file
cluster database
loading
control documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510782765.XA
Other languages
English (en)
Inventor
赵伟
武新
李东海
王雪松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Original Assignee
TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd filed Critical TIANJIN NANKAI UNIVERSITY GENERAL DATA TECHNOLOGIES Co Ltd
Priority to CN201510782765.XA priority Critical patent/CN105512168A/zh
Publication of CN105512168A publication Critical patent/CN105512168A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种集群数据库复合加载数据的方法及装置,所述方法包括:接收客户端发送的控制文件;解析所述控制文件,获取加载任务;依次向集群数据库加载所述任务。由于采用上述技术方案,能够支持从多种不同的数据源读取数据文件,支持从多种不同格式的数据文件读取数据,支持不同数据源与不同数据格式的任意组合,因此极大增加了集群数据库加载工具的功能多样性,极大增强了集群数据库加载工具功能的可扩充性,极大提高了集群数据库加载工具功能的实用灵活性。

Description

一种集群数据库复合加载数据的方法及装置
技术领域
本发明属于集群数据库领域,尤其是涉及一种集群数据库复合加载数据的方法及装置。
背景技术
集群数据库使用大量计算机节点提供高性能、大数据量的数据库服务。集群数据库的加载工具负责高性能地向集群数据库中加载大量数据。通过两台或者多台数据库服务器,提供透明的服务,集群向客户端提供的服务与单机系统向客户端提供的服务,从通讯协议上保持二进制兼容。在进行数据更新时,数据库客户端发出数据更新请求后,要等集群的每个节点全部更新后,才给客户端返回结果。
典型的集群数据库会解析用户所写的控制文件,确定待加载数据的来源、位置、类型等参数信息,然后读取数据文件,最后将数据文件中包含的数据加载进集群数据库。由于被加载的数据有各种不同的来源和格式,例如:数据来自不同的数据源,如本地文件系统、FTP服务、HDFS文件系统等;数据文件有各种压缩格式,如gzip格式、snappy格式、无压缩格式等;数据文件有各种不同的表达格式,如文本文件、支持转义的文本文件、二进制文件等。如何能够快速的将不同来源和格式的数据加载到集群数据库中,是当前亟需解决的问题。
发明内容
本发明实施例提供了一种集群数据库复合加载数据的方法及装置,用以实现快速的将不同来源和格式的数据加载到集群数据库的目的。
第一方面,本发明实施例提供了一种集群数据库复合加载数据的方法,所述方法包括:
接收客户端发送的控制文件;
解析所述控制文件,获取加载任务;
依次向集群数据库加载所述任务。
进一步的,所述获取加载任务包括:
解析所述控制文件,将获取的每个数据文件信息作为一个加载任务;
所述依次向集群数据库加载所述任务,包括:
依次根据获取的数据文件的基本信息加载所述数据文件。
进一步的,所述依次根据获取的数据文件的基本信息加载所述数据文件,包括:
根据所述数据文件信息中的数据文件格式,调用所述数据文件格式对应的插件处理所述数据文件,并将初始化后的数据加载进集群数据库,直到加载完所有的数据文件。
更进一步的,述解析所述控制文件,获取数据文件信息,包括:
解析控制文件,获取数据文件的来源、位置、类型信息。
第二方面,本发明实施例提供了一种集群数据库复合加载数据的装置,所述装置包括:
接收模块,用于接收客户端发送的控制文件;
任务获取模块,用于解析所述控制文件,获取加载任务;
加载模块,用于依次向集群数据库加载所述任务。
进一步的,,所述任务获取模块,用于:
解析所述控制文件,将获取的每个数据文件信息作为一个加载任务;
所述加载模块,用于:
依次根据获取的数据文件的基本信息加载所述数据文件。
进一步的,所述加载模块用于:
根据所述数据文件信息中的数据文件格式,调用所述数据文件格式对应的插件处理所述数据文件,并将初始化后的数据加载进集群数据库,直到加载完所有的数据文件。
更进一步的,所述解析模块,用于:
解析控制文件,获取数据文件的来源、位置、类型信息。
由于采用上述技术方案,能够支持从多种不同的数据源读取数据文件,支持从多种不同格式的数据文件读取数据,支持不同数据源与不同数据格式的任意组合,因此极大增加了集群数据库加载工具的功能多样性,极大增强了集群数据库加载工具功能的可扩充性,极大提高了集群数据库加载工具功能的实用灵活性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的集群数据库复合加载数据的方法的流程示意图;
图2是本发明第一实施例提供的集群数据库复合加载数据的方法中集群数据库加载工具的示意图;
图3是本发明第一实施例提供的集群数据库复合加载数据的方法中数据库加载工具中模块组成示意图;
图4是本发明第一实施例提供的集群数据库复合加载数据的方法中数据库加载过程示意图;
图5是本发明第一实施例提供的集群数据库复合加载数据的方法中一个实施方式中数据库加载过程示意图;
图6是本发明第二实施例提供的集群数据库复合加载数据的装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明第一实施例提供的集群数据库复合加载数据的方法的流程示意图,所述方法依靠相应的装置来实现。所述装置可由软件/硬件实现,并一般集成于集群数据库中。图2是本发明第一实施例提供的集群数据库复合加载数据的方法中集群数据库加载工具的示意图;图3是本发明第一实施例提供的集群数据库复合加载数据的方法中数据库加载工具中模块组成示意图;图4是本发明第一实施例提供的集群数据库复合加载数据的方法中数据库加载过程示意图;图5是本发明第一实施例提供的集群数据库复合加载数据的方法中一个实施方式中数据库加载过程示意图;
参见图1、图2、图3、图4和图5,所述集群数据库复合加载数据的方法,包括:
步骤S101,接收客户端发送的控制文件。
用户可以对集群数据库中的数据进行增加、删除和修改。对集群数据库中的数据进行上述操作时,都需要使用集群数据库对应的客户端软件来实现彼此通信和信息交互。在用户需要对集群数据库中的数据进行操作时,用户在客户端进行操作,并通过客户端将控制文件发送到集群数据库。
步骤S102,解析所述控制文件,获取加载任务。
解析控制文件,获取加载任务,获取数据文件的来源、位置、类型信息。所述加载任务包括数据源和数据文件格式,示例性的,控制文件中包括5个数据源和数据文件格式,其中,解析到的加载任务的数据源和数据文件格式分别是:
1)HDFS+文本文件;
2)本地文件系统+GZip文件;
3)FTP+文本文件;
4)HDFS+Snappy文件;
5)HDFS+GZip文件。
将控制文件中的5个数据源和数据文件格式作为5个加载任务。
步骤S103,依次向集群数据库加载所述任务。
依次根据获取的数据文件的基本信息加载所述数据文件,示例性的,可按如下步骤加载:
1)获取第一个加载任务,初始化HDFS的数据源访问模块,初始化文本文件的格式处理模块,读取并加载数据;
2)获取第二个加载任务,初始化本地文件系统的数据源访问模块,初始化GZip文件的格式处理模块,读取并加载数据;
3)获取第三个加载任务,初始化FTP的数据源访问模块,初始化文本文件的格式处理模块,读取并加载数据;
4)获取第四个加载任务,初始化HDFS的数据源访问模块,初始化Snappy文件的格式处理模块,读取并加载数据;
5)获取第五个加载任务,初始化HDFS的数据源访问模块,初始化GZip文件的格式处理模块,读取并加载数据;
6)结束加载。
本实施例能够支持从多种不同的数据源读取数据文件,支持从多种不同格式的数据文件读取数据,支持不同数据源与不同数据格式的任意组合,因此极大增加了集群数据库加载工具的功能多样性,极大增强了集群数据库加载工具功能的可扩充性,极大提高了集群数据库加载工具功能的实用灵活性。
图6示出本发明第二实施例。
图6是本发明第二实施例提供的集群数据库复合加载数据的装置示意图。
由图6可以看出,所述的集群数据库复合加载数据的装置包括:接收模块210、任务获取模块220和加载模块230。
其中,所述接收模块210,用于接收客户端发送的控制文件;
所述任务获取模块220,用于解析所述控制文件,获取加载任务;
所述加载模块230,用于依次向集群数据库加载所述任务。
进一步的,所述任务获取模块220,用于:
解析所述控制文件,将获取的每个数据文件信息作为一个加载任务;
所述加载模块230,用于:
依次根据获取的数据文件的基本信息加载所述数据文件。
进一步的,所述加载模块230用于:
根据所述数据文件信息中的数据文件格式,调用所述数据文件格式对应的插件处理所述数据文件,并将初始化后的数据加载进集群数据库,直到加载完所有的数据文件。
进一步的,所述解析模块210,用于:
解析控制文件,获取数据文件的来源、位置、类型信息。
上述集群数据库复合加载数据的装置,能够执行从集群数据库复合加载数据的方法,具备方法执行的功能和有益效果。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (9)

1.一种集群数据库复合加载数据的方法,其特征在于,所述方法包括:
接收客户端发送的控制文件;
解析所述控制文件,获取加载任务;
依次向集群数据库加载所述任务。
2.根据权利要求1所述的方法,其特征在于,所述获取加载任务包括:
解析所述控制文件,将获取的每个数据文件信息作为一个加载任务;
所述依次向集群数据库加载所述任务,包括:
依次根据获取的数据文件的基本信息加载所述数据文件。
3.根据权利要求2所述的方法,其特征在于,所述依次根据获取的数据文件的基本信息加载所述数据文件,包括:
根据所述数据文件信息中的数据文件格式,调用所述数据文件格式对应的工具处理所述数据文件,并将初始化后的数据加载进集群数据库,直到加载完所有的数据文件。
4.根据权利要求2所述的方法,其特征在于,所述解析所述控制文件,获取数据文件信息,包括:
解析控制文件,获取数据文件的来源、位置、类型信息。
5.根据权利要求1所述的方法,其特征在于,所述获取数据文件的基本信息,包括:
获取并缓存数据文件的基本信息。
6.一种集群数据库复合加载数据的装置,其特征在于,所述装置包括:
接收模块,用于接收客户端发送的控制文件;
任务获取模块,用于解析所述控制文件,获取加载任务;
加载模块,用于依次向集群数据库加载所述任务。
7.根据权利要求5所述的装置,其特征在于,所述任务获取模块,用于:
解析所述控制文件,将获取的每个数据文件信息作为一个加载任务;
所述加载模块,用于:
依次根据获取的数据文件的基本信息加载所述数据文件。
8.根据权利要求6所述的装置,其特征在于,所述加载模块用于:
根据所述数据文件信息中的数据文件格式,调用所述数据文件格式对应的插件处理所述数据文件,并将初始化后的数据加载进集群数据库,直到加载完所有的数据文件。
9.根据权利要求5所述的装置,其特征在于,所述解析模块,用于:
解析控制文件,获取数据文件的来源、位置、类型信息。
CN201510782765.XA 2015-11-16 2015-11-16 一种集群数据库复合加载数据的方法及装置 Pending CN105512168A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510782765.XA CN105512168A (zh) 2015-11-16 2015-11-16 一种集群数据库复合加载数据的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510782765.XA CN105512168A (zh) 2015-11-16 2015-11-16 一种集群数据库复合加载数据的方法及装置

Publications (1)

Publication Number Publication Date
CN105512168A true CN105512168A (zh) 2016-04-20

Family

ID=55720150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510782765.XA Pending CN105512168A (zh) 2015-11-16 2015-11-16 一种集群数据库复合加载数据的方法及装置

Country Status (1)

Country Link
CN (1) CN105512168A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106355107A (zh) * 2016-08-31 2017-01-25 天津南大通用数据技术股份有限公司 支持快速预判权限的集群数据加载工具及方法
CN107317722A (zh) * 2017-05-27 2017-11-03 北京奇艺世纪科技有限公司 一种数据源可扩展系统及方法
WO2020000719A1 (zh) * 2018-06-29 2020-01-02 平安科技(深圳)有限公司 报表系统的数据处理方法、装置及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452487A (zh) * 2008-12-31 2009-06-10 中国建设银行股份有限公司 一种数据加载的方法、系统及数据加载装置
CN102332004A (zh) * 2011-07-29 2012-01-25 中国科学院计算技术研究所 用于海量数据管理的数据处理方法和系统
CN102938001A (zh) * 2012-12-10 2013-02-20 曙光信息产业(北京)有限公司 数据加载装置和数据加载方法
WO2013184093A1 (en) * 2012-06-04 2013-12-12 Hewlett-Packard Development Company, L.P. User-defined loading of data onto a database
CN103699660A (zh) * 2013-12-26 2014-04-02 清华大学 一种大规模网络流式数据缓存写入的方法
CN104615637A (zh) * 2014-11-20 2015-05-13 广州杰赛互教通信息技术有限公司 数据交换方法及数据交换中间装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452487A (zh) * 2008-12-31 2009-06-10 中国建设银行股份有限公司 一种数据加载的方法、系统及数据加载装置
CN102332004A (zh) * 2011-07-29 2012-01-25 中国科学院计算技术研究所 用于海量数据管理的数据处理方法和系统
WO2013184093A1 (en) * 2012-06-04 2013-12-12 Hewlett-Packard Development Company, L.P. User-defined loading of data onto a database
CN104508660A (zh) * 2012-06-04 2015-04-08 惠普发展公司,有限责任合伙企业 数据到数据库上的用户定义加载
CN102938001A (zh) * 2012-12-10 2013-02-20 曙光信息产业(北京)有限公司 数据加载装置和数据加载方法
CN103699660A (zh) * 2013-12-26 2014-04-02 清华大学 一种大规模网络流式数据缓存写入的方法
CN104615637A (zh) * 2014-11-20 2015-05-13 广州杰赛互教通信息技术有限公司 数据交换方法及数据交换中间装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106355107A (zh) * 2016-08-31 2017-01-25 天津南大通用数据技术股份有限公司 支持快速预判权限的集群数据加载工具及方法
CN107317722A (zh) * 2017-05-27 2017-11-03 北京奇艺世纪科技有限公司 一种数据源可扩展系统及方法
CN107317722B (zh) * 2017-05-27 2020-01-31 北京奇艺世纪科技有限公司 一种数据源可扩展系统及方法
WO2020000719A1 (zh) * 2018-06-29 2020-01-02 平安科技(深圳)有限公司 报表系统的数据处理方法、装置及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN102289378B (zh) 自动生成应用程序的方法
CN108647010B (zh) 一种项目工程初始化的方法、终端设备及存储介质
US11010401B2 (en) Efficient snapshot generation of data tables
CN109902114B (zh) Es集群数据复用方法、系统、计算机装置及存储介质
CN103902653A (zh) 一种构建数据仓库表血缘关系图的方法和装置
CN106557307B (zh) 业务数据的处理方法及处理系统
CN102982130A (zh) 一种nosql与rdbms的数据库同步方法和系统
CN103716358A (zh) 一种定制应用程序下载方法和装置
US9355106B2 (en) Sensor data locating
CN105183669A (zh) 一种数据存储方法及装置
CN111126019A (zh) 基于模式定制的报表生成方法、装置和电子设备
CN111966760B (zh) 基于Hive数据仓库的测试数据生成方法及装置
CN105512168A (zh) 一种集群数据库复合加载数据的方法及装置
US20120023071A1 (en) Converting two-tier resource mapping to one-tier resource mapping
CN114820080A (zh) 基于人群流转的用户分群方法、系统、装置及介质
CN110941547A (zh) 自动化测试用例库管理方法、装置、介质及电子设备
CN113010180A (zh) 一种固件生成方法、系统、设备以及介质
CN112035207A (zh) 基于数据库的页面菜单动态加载方法及装置
CN111090974A (zh) 一种报表生成方法、装置及设备
CN102946403B (zh) 一种用于云存储系统的解决文件冲突的方法及装置
CN102279886A (zh) 元数据处理方法及设备
KR20220142545A (ko) 복수의 정보원에서 얻는 정보 및 도구를 통일화하는 방법 및 이를 응용한 컴퓨터 프로그램 제품과 장치
CN113986879A (zh) 一种业务数据迁移方法以及相关装置
CN105094881A (zh) 一种终端以及管理终端应用的方法
US8495033B2 (en) Data processing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160420

WD01 Invention patent application deemed withdrawn after publication