CN107153709A - 一种数据导入方法及装置 - Google Patents

一种数据导入方法及装置 Download PDF

Info

Publication number
CN107153709A
CN107153709A CN201710347776.4A CN201710347776A CN107153709A CN 107153709 A CN107153709 A CN 107153709A CN 201710347776 A CN201710347776 A CN 201710347776A CN 107153709 A CN107153709 A CN 107153709A
Authority
CN
China
Prior art keywords
data
parameter
transfer tool
data transfer
information system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710347776.4A
Other languages
English (en)
Other versions
CN107153709B (zh
Inventor
尚平平
臧勇真
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201710347776.4A priority Critical patent/CN107153709B/zh
Publication of CN107153709A publication Critical patent/CN107153709A/zh
Application granted granted Critical
Publication of CN107153709B publication Critical patent/CN107153709B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Abstract

本发明提供一种数据导入方法及装置,上述方法包括以下步骤:扩展数据转移工具,使所述数据转移工具具备导入数据至分布式消息系统的功能;分析从关系型数据库导入数据至所述分布式消息系统所需的参数,并将所述参数通知所述数据转移工具;通过所述数据转移工具将所述关系型数据库中与所述参数对应的数据导入至所述分布式消息系统,实现了数据从关系型数据库到Kafka数据库的高效便捷导入。

Description

一种数据导入方法及装置
技术领域
本发明属于计算机领域,尤其涉及一种数据导入方法及装置。
背景技术
在社会快速发展的今天,各行各业每天都会产生大量的数据,数据来源囊括了我们周围可以捕获的任何类型数据,网站、社交媒体、交易型商业数据以及其它商业环境中创建的数据。在这种环境下,Apache框架Hadoop应运而生,它是一个越来越通用的分布式计算环境,主要用来处理大数据。随着云提供商利用这个框架,更多的用户将数据集在Hadoop和传统数据库之间转移,能够帮助数据传输的工具变得更加重要。Apache Sqoop就是这样一款工具,可以在Hadoop和关系型数据库之间转移大量数据。在实际应用中,有时需要将数据从关系型数据库导入到Kafka,然而Sqoop作为一个数据转移工具,没有提供这方面的支持。考虑到实际应用的需要,我们根据Sqoop的工作原理,设计将数据库的数据作为消息发送到kafka的MapReduce程序,实现了数据从关系型数据库到Kafka的高效便捷的导入。
因此,迫切需要提供一种数据导入方案,来解决将数据从关系型数据库导入到Kafka的问题。
发明内容
本发明提供一种数据导入方法及装置,以解决上述问题。
本发明提供一种数据导入方法。上述方法包括以下步骤:
扩展数据转移工具,使所述数据转移工具具备导入数据至分布式消息系统的功能;
分析从关系型数据库导入数据至所述分布式消息系统所需的参数,并将所述参数通知所述数据转移工具;
通过所述数据转移工具将所述关系型数据库中与所述参数对应的数据导入至所述分布式消息系统。
本发明还提供一种数据导入装置,包括:扩展模块、分析模块、数据导入模块,其中,所述扩展模块与所述分析模块连接,所述分析模块与所述数据导入模块连接,
扩展模块,用于扩展数据转移工具,使所述数据转移工具具备导入数据至分布式消息系统的功能;
分析模块,用于分析从关系型数据库导入数据至所述分布式消息系统所需的参数,并将所述参数通知所述数据转移工具;
数据导入模块,用于通过所述数据转移工具将所述关系型数据库中与所述参数对应的数据导入至所述分布式消息系统。
通过以下方案:扩展数据转移工具,使所述数据转移工具具备导入数据至分布式消息系统的功能,分析从关系型数据库导入数据至所述分布式消息系统所需的参数,并将所述参数通知所述数据转移工具,通过所述数据转移工具将所述关系型数据库中的对应数据导入至所述分布式消息系统,实现了将数据从关系型数据库高效导入到分布式消息系统的功能。
通过以下方案:数据转移工具可以是Apache Sqoop,一方面避免了重新开发导入所需所有模块的重复劳动,另一反面进一步完善了Sqoop作为一个数据转移工具的功能。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1所示为本发明实施例1的数据导入方法处理流程图;
图2所示为本发明实施例2的数据导入原理示意图;
图3所示为本发明实施例3的数据导入装置结构图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图1所示为本发明实施例1的数据导入方法处理流程图,包括以下步骤:
步骤102:扩展数据转移工具,使所述数据转移工具具备导入数据至分布式消息系统的功能。
步骤104:分析从关系型数据库导入数据至所述分布式消息系统所需的参数,并将所述参数通知所述数据转移工具。
其中,所述参数可以包括:表名、表字段、业务数据、输入、输出、映射数、任务数等等。
步骤106:通过所述数据转移工具将所述关系型数据库中与所述参数对应的数据导入至所述分布式消息系统。
进一步地,通过所述数据转移工具将所述关系型数据库中的对应数据导入至所述分布式消息系统包括:
定制切分参数值,根据所述切分参数值对所述关系型数据库进行切分,得到不同的切分区域;
将所述不同的切分区域分配至不同的映射中;
通过每个映射从所述数据库中相应的区域中获取数据,并将获取的数据导入所述分布式消息系统中。
进一步地,还包括:设计参数校验条件;
在所述参数符合所述参数校验条件时,将所述参数通知所述数据转移工具。
也就是说可以根据分布式消息系统的要求来设计参数校验模型,符合该参数校验模型的参数即满足要求,可以按照这些参数对数据转移工具进行配置,使数据转移工具获取对应的数据并导入到分布式数据库中。
通过所述数据转移工具可调用所述分布式消息系统的接口函数,将从所述关系数据库中读取的数据以消息形式发送至所述分布式消息系统。
其中,所述分布式消息系统包括kafka数据库,所述数据转移工具包括ApacheSqoop。
通过扩展Sqoop工具,并设计将数据库的数据作为消息发送到kafka的MapReduce程序,实现了数据从关系型数据库到Kafka数据库的高效便捷导入。
图2所示为本发明实施例2的数据导入原理示意图。
如图2所示,首先,扩展Sqoop的import工具,增加导入数据到Kafka的导入服务,即使该工具具备导入数据到Kafka的能力。
分析从关系型根据数据库导入数据至Kafka所需要的参数,进行参数校验,并做相关配置。可以设计参数校验条件,根据经过校验的参数对数据转移工具进行配置。qoop客户端利用数据库的驱动程序读取数据库中表结构,并生成运行类
编写Kafka MapReduce Job,调用Kafka中的接口函数,将从数据库读取的数据发送到Kafka。
在数据读取时,首先要对数据进行切分;切分好范围后,读取相应范围内的数据,然后创建Map映射,一行一行从关系型数据库中读取数据。最后将数据以消息的形式发送给Kafka,完成数据导入过程。
考虑到实际应用的需要,我们根据Sqoop的工作原理,设计将数据库的数据作为消息发送到kafka的MapReduce程序(简称MR),实现了数据从关系型数据库到Kafka的高效便捷的导入。
图3所示为本发明实施例3的数据导入装置结构图。
如图3所示,根据本发明的实施例的一种数据导入装置,包括:扩展模块302、分析模块304、数据导入模块306,其中,所述扩展模块302与所述分析模块304连接,所述分析模块304与所述数据导入模块306连接,
扩展模块302,用于扩展数据转移工具,使所述数据转移工具具备导入数据至分布式消息系统的功能;
分析模块304,用于分析从关系型数据库导入数据至所述分布式消息系统所需的参数,并将所述参数通知所述数据转移工具;
数据导入模块306,用于通过所述数据转移工具将所述关系型数据库中与所述参数对应的数据导入至所述分布式消息系统。
其中,所述数据导入模块306包括:
切分单元3062,用于定制切分参数值,根据所述切分参数值对所述关系型数据库进行切分,得到不同的切分区域;
分配单元3064,用于将所述不同的切分区域分配至不同的映射中;
映射单元3066,用于通过每个映射从所述数据库中相应的区域中获取数据,并将获取的数据写入所述分布式消息系统中。
所述数据导入模块306调用所述分布式消息系统的接口函数,将从所述关系数据库中读取的数据以消息形式发送至所述分布式消息系统。
进一步地,所述分析模块304包括:
验证单元3042,用于设计参数校验条件,在所述参数符合所述参数校验条件时,将所述参数通知所述数据转移工具。
其中,所述分布式消息系统包括kafka数据库,所述数据转移工具包括ApacheSqoop。通过扩展Sqoop工具,并设计将数据库的数据作为消息发送到kafka的MapReduce程序,实现了数据从关系型数据库到Kafka数据库的高效便捷导入。
通过以下方案:扩展数据转移工具,使所述数据转移工具具备导入数据至分布式消息系统的功能,分析从关系型数据库导入数据至所述分布式消息系统所需的参数,并将所述参数通知所述数据转移工具,通过所述数据转移工具将所述关系型数据库中的对应数据导入至所述分布式消息系统,实现了将数据从关系型数据库高效导入到分布式消息系统的功能。
通过以下方案:数据转移工具可以是Apache Sqoop,一方面避免了重新开发导入所需所有模块的重复劳动,另一反面进一步完善了Sqoop作为一个数据转移工具的功能。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据导入方法,其特征在于,包括以下步骤:
扩展数据转移工具,使所述数据转移工具具备导入数据至分布式消息系统的功能;
分析从关系型数据库导入数据至所述分布式消息系统所需的参数,并将所述参数通知所述数据转移工具;
通过所述数据转移工具将所述关系型数据库中与所述参数对应的数据导入至所述分布式消息系统。
2.根据权利要求1所述的方法,其特征在于,通过所述数据转移工具将所述关系型数据库中的对应数据导入至所述分布式消息系统包括:
定制切分参数值,根据所述切分参数值对所述关系型数据库进行切分,得到不同的切分区域;
将所述不同的切分区域分配至不同的映射中;
通过每个映射从所述数据库中相应的区域中获取数据,并将获取的数据导入所述分布式消息系统中。
3.根据权利要求1所述的方法,其特征在于,调用所述分布式消息系统的接口函数,将从所述关系数据库中读取的数据以消息形式发送至所述分布式消息系统。
4.根据权利要求1所述的方法,其特征在于,还包括:设计参数校验条件;
在所述参数符合所述参数校验条件时,将所述参数通知所述数据转移工具。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述分布式消息系统包括kafka数据库,所述数据转移工具包括Apache Sqoop。
6.一种数据导入装置,其特征在于,包括:扩展模块、分析模块、数据导入模块,其中,所述扩展模块与所述分析模块连接,所述分析模块与所述数据导入模块连接,
扩展模块,用于扩展数据转移工具,使所述数据转移工具具备导入数据至分布式消息系统的功能;
分析模块,用于分析从关系型数据库导入数据至所述分布式消息系统所需的参数,并将所述参数通知所述数据转移工具;
数据导入模块,用于通过所述数据转移工具将所述关系型数据库中与所述参数对应的数据导入至所述分布式消息系统。
7.根据权利要求6所述的装置,其特征在于,所述数据导入模块包括:
切分单元,用于定制切分参数值,根据所述切分参数值对所述关系型数据库进行切分,得到不同的切分区域;
分配单元,用于将所述不同的切分区域分配至不同的映射中;
映射单元,用于通过每个映射从所述数据库中相应的区域中获取数据,并将获取的数据写入所述分布式消息系统中。
8.根据权利要求6所述的装置,其特征在于,所述数据导入模块调用所述分布式消息系统的接口函数,将从所述关系数据库中读取的数据以消息形式发送至所述分布式消息系统。
9.根据权利要求6所述的装置,其特征在于,所述分析模块包括:
验证单元,用于设计参数校验条件,在所述参数符合所述参数校验条件时,将所述参数通知所述数据转移工具。
10.根据权利要求6至9中任一项所述的装置,其特征在于,所述分布式消息系统包括kafka数据库,所述数据转移工具包括Apache Sqoop。
CN201710347776.4A 2017-05-17 2017-05-17 一种数据导入方法及装置 Active CN107153709B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710347776.4A CN107153709B (zh) 2017-05-17 2017-05-17 一种数据导入方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710347776.4A CN107153709B (zh) 2017-05-17 2017-05-17 一种数据导入方法及装置

Publications (2)

Publication Number Publication Date
CN107153709A true CN107153709A (zh) 2017-09-12
CN107153709B CN107153709B (zh) 2020-09-04

Family

ID=59794301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710347776.4A Active CN107153709B (zh) 2017-05-17 2017-05-17 一种数据导入方法及装置

Country Status (1)

Country Link
CN (1) CN107153709B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955502A (zh) * 2014-04-24 2014-07-30 科技谷(厦门)信息技术有限公司 一种可视化olap的应用实现方法及系统
CN105786864A (zh) * 2014-12-24 2016-07-20 国家电网公司 一种实现海量数据离线分析的方法
CN106651633A (zh) * 2016-10-09 2017-05-10 国网浙江省电力公司信息通信分公司 一种基于大数据技术的用电信息采集系统及其采集方法
CN106649670A (zh) * 2016-12-14 2017-05-10 北京五八信息技术有限公司 基于流式计算的数据监控方法及装置
CN106919697A (zh) * 2017-03-07 2017-07-04 郑州云海信息技术有限公司 一种将数据同时导入多个Hadoop组件的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955502A (zh) * 2014-04-24 2014-07-30 科技谷(厦门)信息技术有限公司 一种可视化olap的应用实现方法及系统
CN105786864A (zh) * 2014-12-24 2016-07-20 国家电网公司 一种实现海量数据离线分析的方法
CN106651633A (zh) * 2016-10-09 2017-05-10 国网浙江省电力公司信息通信分公司 一种基于大数据技术的用电信息采集系统及其采集方法
CN106649670A (zh) * 2016-12-14 2017-05-10 北京五八信息技术有限公司 基于流式计算的数据监控方法及装置
CN106919697A (zh) * 2017-03-07 2017-07-04 郑州云海信息技术有限公司 一种将数据同时导入多个Hadoop组件的方法

Also Published As

Publication number Publication date
CN107153709B (zh) 2020-09-04

Similar Documents

Publication Publication Date Title
CN111177231B (zh) 报表生成方法和报表生成装置
KR102317535B1 (ko) 소프트웨어 개발 키트로 데이터 추적을 구현하는 방법 및 시스템
US10360277B2 (en) Controlling data migration
US20140114822A1 (en) Method and system for creating tax configuration templates
US9529933B2 (en) Dynamic assignment of business logic based on schema mapping metadata
CN108073688B (zh) 一种数据迁移的方法及装置
WO2019134340A1 (zh) 薪资计算方法、应用服务器及计算机可读存储介质
Kampars et al. Extending organizational capabilities with Open Data to support sustainable and dynamic business ecosystems
CN109902117A (zh) 业务系统分析方法和装置
CN101859303A (zh) 元数据管理方法及管理系统
US20150067797A1 (en) Automatically generating certification documents
WO2021072383A1 (en) Document tracking through version hash linked graphs
US20150193519A1 (en) Modeling and visualizing level-based hierarchies
CN108701153B (zh) 响应自然语言查询的方法、系统和计算机可读存储介质
CN110704635B (zh) 一种知识图谱中三元组数据的转换方法及装置
CN101470734A (zh) 数据标识、解析的方法及设备
CN111522840A (zh) 标签的配置方法、装置、设备及计算机可读存储介质
US20230377692A1 (en) Methods and systems for storing genomic data in a file structure comprising an information metadata structure
CN107153709A (zh) 一种数据导入方法及装置
US9460139B2 (en) Distributed storage system with pluggable query processing
US20130159327A1 (en) Apparatus and method for visualizing data
WO2022220982A1 (en) Database query execution on multiple databases
CN113506099A (zh) 申报业务的配置系统、方法、计算机设备和存储介质
CN112231377A (zh) 数据映射方法、系统、装置、服务器和存储介质
US10152556B1 (en) Semantic modeling platform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200527

Address after: 250101 floor 27, S01, Inspur Science Park, No. 1036, Inspur Road, Jinan City, Shandong Province

Applicant after: Tidal Cloud Information Technology Co.,Ltd.

Address before: 450018 Henan province Zheng Dong New District of Zhengzhou City Xinyi Road No. 278 16 floor room 1601

Applicant before: ZHENGZHOU YUNHAI INFORMATION TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
CB02 Change of applicant information

Address after: 250101 floor 27, S01, Inspur Science Park, No. 1036, Inspur Road, Jinan City, Shandong Province

Applicant after: Inspur cloud Information Technology Co., Ltd

Address before: 250101 floor 27, S01, Inspur Science Park, No. 1036, Inspur Road, Jinan City, Shandong Province

Applicant before: Tidal Cloud Information Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant