CN111708750A - 一种基于大数据平台存储适配方法,系统,设备及可读存储介质 - Google Patents

一种基于大数据平台存储适配方法,系统,设备及可读存储介质 Download PDF

Info

Publication number
CN111708750A
CN111708750A CN201911371615.4A CN201911371615A CN111708750A CN 111708750 A CN111708750 A CN 111708750A CN 201911371615 A CN201911371615 A CN 201911371615A CN 111708750 A CN111708750 A CN 111708750A
Authority
CN
China
Prior art keywords
data
big data
platform
data platform
storing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911371615.4A
Other languages
English (en)
Inventor
贾亚军
王平
许明
颜康
肖晓东
王伟
高建峰
王浩
王胜生
禚俊杰
刘姝邑
许聪
张丽萍
李勋
李倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Luneng Software Technology Co Ltd
Original Assignee
Shandong Luneng Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Luneng Software Technology Co Ltd filed Critical Shandong Luneng Software Technology Co Ltd
Priority to CN201911371615.4A priority Critical patent/CN111708750A/zh
Publication of CN111708750A publication Critical patent/CN111708750A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Abstract

本发明提供一种基于大数据平台存储适配方法,系统,设备及可读存储介质,配置接口组件,并将接口组件配置到所有数据源;通过接口组件将数据批量存入大数据平台;通过接口组件将应用程序存放至大数据平台的预设目录。结合impala+kudu方式进行数据同步,整合了datax源代码,集成了kuduAPI接口,实现了传输速度快,支持大数量数据同步。支持多种数据源,oracle、mysql、DB2等。大数据平台的数据同步至kudu技术链路清晰,不需要额外数据处理。使用json文件配置数据表同步,便于对数据库的数据进行维护。

Description

一种基于大数据平台存储适配方法,系统,设备及可读存储 介质
技术领域
本发明涉及数据储存技术领域,尤其涉及一种基于大数据平台存储适配方法,系统,设备及可读存储介质。
背景技术
Kudu是Cloudera开源的新型列式存储系统,是Apache Hadoop生态圈的新成员之一(incubating),专门为了对快速变化的数据进行快速的分析,填补了以往Hadoop存储层的空缺,能提供快速的分析和实时计算能力,并且充分利用CPU和I/O资源,支持数据原地修改,支持简单的、可扩展的数据模型,它支持索引键的查询和修改。
目前,选用kudu存储时,在数据存储、修改与可扩展性上在数据同步方面遇到以下瓶颈:
1,Kudu仅能通过impala引擎进行访问,比如:若将oracle数据接入至kudu,当前方案为oracle->hdfs->impla+kudu,其链路长,存储效率不高。
2,在大量,存量数据接入时,数据处理工作量大,且效率低。
发明内容
为了克服上述现有技术中的不足,本发明提供一种基于大数据平台存储适配方法,方法包括:
配置接口组件,并将接口组件配置到所有数据源;
通过接口组件将数据批量存入大数据平台;
通过接口组件将应用程序存放至大数据平台的预设目录。
进一步需要说明的是,步骤通过接口组件将数据批量存入大数据平台还包括:
在大数据平台中对将数据文件编辑成json文件,json文件包括源端数据库类型,抽取表名,KUDU表名,抽取字段名;
将json文件存储在预设目录。
进一步需要说明的是,步骤通过接口组件将数据批量存入大数据平台还包括:
大数据平台接收各个数据源发送的数据存储认证信息,并对数据存储认证信息进行认证;
当所述数据存储认证信息通过时,向所述数据源发送数据获取指令;
大数据平台接收所述数据源发送的数据信息;
将接收的数据信息编辑成json文件,存储在预设目录。
本发明还提供一种基于大数据平台存储适配系统,包括:多个数据源和大数据平台;
大数据平台设有接口配置模块,数据接收模块和数据库;
接口配置模块用于配置接口组件,并将接口组件配置到所有数据源;
数据接收模块用于通过接口组件将数据批量存入数据库;
通过接口组件将应用程序存放至数据库的预设目录。
进一步需要说明的是,大数据平台还设有数据处理模块;
数据处理模块用于对将数据文件编辑成json文件;
将json文件存储在数据库的预设目录。
进一步需要说明的是,大数据平台还设有身份认证模块;
身份认证模块用于接收各个数据源发送的数据存储认证信息,并对数据存储认证信息进行认证;
当所述数据存储认证信息通过时,向所述数据源发送数据获取指令;
数据接收模块接收所述数据源发送的数据信息;
数据处理模块将接收的数据信息编辑成json文件,存储在预设目录。
进一步需要说明的是,大数据平台配置有读数据服务端口,写服务服务端口以及dataxCommon服务端口。
进一步需要说明的是,数据源包括oracle数据源、mysql数据源以及DB2数据源。
本发明还提供一种实现基于大数据平台存储适配方法的设备,包括:
存储器,用于存储计算机程序及基于大数据平台存储适配方法;
处理器,用于执行所述计算机程序及基于大数据平台存储适配方法,以实现基于大数据平台存储适配方法的步骤。
本发明还提供一种具有基于大数据平台存储适配方法的可读存储介质,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现基于大数据平台存储适配方法的步骤。
从以上技术方案可以看出,本发明具有以下优点:
基于大数据平台存储适配方法及系统,结合impala+kudu方式进行数据同步,整合了datax源代码,集成了kuduAPI接口,实现了传输速度快,支持大数量数据同步。支持多种数据源2,oracle、mysql、DB2等。大数据平台1的数据同步至kudu技术链路清晰,不需要额外数据处理。使用json文件配置数据表同步,便于对数据库的数据进行维护。
附图说明
为了更清楚地说明本发明的技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为基于大数据平台存储适配系统示意图;
图2为大数据平台实施例示意图;
图3为大数据平台实施例示意图;
图4为基于大数据平台存储适配方法流程图。
具体实施方式
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
本发明提供一种基于大数据平台存储适配系统,如图1和图2所示,包括:多个数据源2和大数据平台1;大数据平台1设有接口配置模块3,数据接收模块4和数据库5;接口配置模块3用于配置接口组件,并将接口组件配置到所有数据源2;数据接收模块4用于通过接口组件将数据批量存入数据库5;通过接口组件将应用程序存放至数据库的预设目录。
其中,大数据平台1配置为Kudu列式存储系统。大数据平台1配置有读数据服务端口,写服务服务端口以及dataxCommon服务端口。数据源2包括oracle数据源2、mysql数据源2以及DB2数据源2。接口组件为kuduAPI接口。
这样结合impala+kudu方式进行数据同步,整合了datax源代码,集成了kuduAPI接口,实现了传输速度快,支持大数量数据同步。支持多种数据源2,oracle、mysql、DB2等。大数据平台1的数据同步至kudu技术链路清晰,不需要额外数据处理。使用json文件配置数据表同步,便于对数据库的数据进行维护。
作为大数据平台1可以支持多种显示设备,显示设备可通过HDMI接口进行连接显示数据信息。
本发明中,如图3所示,大数据平台1还设有身份认证模块6;身份认证模块6用于接收各个数据源2发送的数据存储认证信息,并对数据存储认证信息进行认证;
当所述数据存储认证信息通过时,向所述数据源2发送数据获取指令;数据接收模块接收所述数据源2发送的数据信息;数据处理模块将接收的数据信息编辑成json文件,存储在预设目录。
作为数据源2与大数据平台1之间的通信,还可以包括通讯协议及数据安全确认以及身份确认。
其中,通讯协议及数据安全确认体现在数据源2与大数据平台1使用基于SSL的HTTPS,也就是安全套接层的超文本传输协议传输,传输的消息为经AES算法加密后的密文,并结合MD5算法进行了数据完整性校验。
同样对应身份信息的通信传送也可以基于AES算法加密后的密文,并结合MD5算法进行加密。
作为身份认证模块6可以对数据的开始部分进行AES解密,保障信息安全性,又保证信息的处理效率。
大数据平台1使用数据库加密函数和解密函数对大数据平台1中的关系字段进行加密存储,秘钥内置于程序中,大数据平台1在对数据进行发出时自动加密,储存时自动解密。
本发明的系统中,大数据平台1还设有数据处理模块;数据处理模块用于对将数据文件编辑成json文件;将json文件存储在数据库的预设目录。json文件包括源端数据库类型,抽取表名,KUDU表名,抽取字段名。
基于上述系统,本发明还提供一种基于大数据平台存储适配方法,如图4所示,方法包括:
S101,配置接口组件,并将接口组件配置到所有数据源2;
S102,通过接口组件将数据批量存入大数据平台1;
S103,通过接口组件将应用程序存放至大数据平台1的预设目录。
作为步骤通过接口组件将数据批量存入大数据平台1还包括:
在大数据平台1中对将数据文件编辑成json文件,将json文件存储在预设目录。
进一步的,步骤通过接口组件将数据批量存入大数据平台1还包括:
大数据平台1接收各个数据源2发送的数据存储认证信息,并对数据存储认证信息进行认证;
当所述数据存储认证信息通过时,向所述数据源2发送数据获取指令;
大数据平台1接收所述数据源2发送的数据信息;
将接收的数据信息编辑成json文件,存储在预设目录。
其中,大数据平台1接收各个数据源2发送的数据后,可以通过maven将数据打包,然后存放在指定的目录即可。这里基于同一数据源2的数据进行打包处理存储。
大数据平台1中涉及了可处理器或者集成电路装置,诸如集成电路芯片或芯片组。可替换地或附加地,如果软件或固件中实现,所述技术可实现至少部分地由计算机可读的数据存储介质,包括指令,当执行时,使处理器执行一个或更多的上述方法。例如,计算机可读的数据存储介质可以存储诸如由处理器执行的指令。
大数据平台1中可以包括计算机存储介质,诸如随机存取存储器(RAM),只读存储器(ROM),非易失性随机存取存储器(NVRAM),电可擦可编程只读存储器(EEPROM),闪存,磁或光学数据存储介质,和类似物。在一些实施例中,一种制造产品可包括一个或多个计算机可读存储媒体。还可以包括非易失性介质。术语“非暂态”所述存储介质可以指示不包含在载波或传播信号。在某些实施例中,非临时性存储介质可以存储数据,它可以随时间改变(例如,RAM或者高速缓存)中。
基于上述系统及方法本发明还提供一种实现基于大数据平台存储适配方法的设备,包括:存储器,用于存储计算机程序及基于大数据平台存储适配方法;处理器,用于执行所述计算机程序及基于大数据平台存储适配方法,以实现基于大数据平台存储适配方法的步骤。
基于上述系统及方法本发明还提供一种具有基于大数据平台存储适配方法的可读存储介质,可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现基于大数据平台存储适配方法的步骤。
实现基于大数据平台存储适配方法的设备是结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属技术领域的技术人员能够理解,实现基于大数据平台存储适配方法的设备各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于大数据平台存储适配方法,其特征在于,方法包括:
配置接口组件,并将接口组件配置到所有数据源;
通过接口组件将数据批量存入大数据平台;
通过接口组件将应用程序存放至大数据平台的预设目录。
2.根据权利要求1所述的方法,其特征在于,
步骤通过接口组件将数据批量存入大数据平台还包括:
在大数据平台中对将数据文件编辑成json文件,json文件包括源端数据库类型,抽取表名,KUDU表名,抽取字段名;
将json文件存储在预设目录。
3.根据权利要求2所述的方法,其特征在于,方法还包括:
步骤通过接口组件将数据批量存入大数据平台还包括:
大数据平台接收各个数据源发送的数据存储认证信息,并对数据存储认证信息进行认证;
当所述数据存储认证信息通过时,向所述数据源发送数据获取指令;
大数据平台接收所述数据源发送的数据信息;
将接收的数据信息编辑成json文件,存储在预设目录。
4.一种基于大数据平台存储适配系统,其特征在于,包括:多个数据源和大数据平台;
大数据平台设有接口配置模块,数据接收模块和数据库;
接口配置模块用于配置接口组件,并将接口组件配置到所有数据源;
数据接收模块用于通过接口组件将数据批量存入数据库;
通过接口组件将应用程序存放至数据库的预设目录。
5.根据权利要求4所述的系统,其特征在于,
大数据平台还设有数据处理模块;
数据处理模块用于对将数据文件编辑成json文件;
将json文件存储在数据库的预设目录。
6.根据权利要求5所述的系统,其特征在于,
大数据平台还设有身份认证模块;
身份认证模块用于接收各个数据源发送的数据存储认证信息,并对数据存储认证信息进行认证;
当所述数据存储认证信息通过时,向所述数据源发送数据获取指令;
数据接收模块接收所述数据源发送的数据信息;
数据处理模块将接收的数据信息编辑成json文件,存储在预设目录。
7.根据权利要求4所述的系统,其特征在于,
大数据平台配置有读数据服务端口,写服务服务端口以及dataxCommon服务端口。
8.根据权利要求4所述的系统,其特征在于,
数据源包括oracle数据源、mysql数据源以及DB2数据源。
9.一种实现基于大数据平台存储适配方法的设备,其特征在于,包括:
存储器,用于存储计算机程序及基于大数据平台存储适配方法;
处理器,用于执行所述计算机程序及基于大数据平台存储适配方法,以实现如权利要求1至3任意一项所述基于大数据平台存储适配方法的步骤。
10.一种具有基于大数据平台存储适配方法的可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1至3任意一项所述基于大数据平台存储适配方法的步骤。
CN201911371615.4A 2019-12-27 2019-12-27 一种基于大数据平台存储适配方法,系统,设备及可读存储介质 Pending CN111708750A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911371615.4A CN111708750A (zh) 2019-12-27 2019-12-27 一种基于大数据平台存储适配方法,系统,设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911371615.4A CN111708750A (zh) 2019-12-27 2019-12-27 一种基于大数据平台存储适配方法,系统,设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN111708750A true CN111708750A (zh) 2020-09-25

Family

ID=72536302

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911371615.4A Pending CN111708750A (zh) 2019-12-27 2019-12-27 一种基于大数据平台存储适配方法,系统,设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN111708750A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111109A (zh) * 2021-04-06 2021-07-13 创意信息技术股份有限公司 数据源的接口入库解析接入方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766132A (zh) * 2017-06-25 2018-03-06 平安科技(深圳)有限公司 多任务调度方法、应用服务器及计算机可读存储介质
CN107992620A (zh) * 2017-12-22 2018-05-04 武汉楚鼎信息技术有限公司 一种json数据快速同步及记录的方法及系统装置
CN108363741A (zh) * 2018-01-22 2018-08-03 中国平安人寿保险股份有限公司 大数据统一接口方法、装置、设备及存储介质
CN108664665A (zh) * 2018-05-22 2018-10-16 深圳壹账通智能科技有限公司 数据格式转化方法、装置、设备及可读存储介质
CN109299073A (zh) * 2018-10-19 2019-02-01 杭州数梦工场科技有限公司 一种数据血缘的生成方法、系统、电子设备和存储介质
CN109408580A (zh) * 2018-10-31 2019-03-01 北京百分点信息科技有限公司 一种跨数据源的sql编译装置及方法
CN110543507A (zh) * 2018-05-29 2019-12-06 阿里巴巴集团控股有限公司 一种异构数据接入方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766132A (zh) * 2017-06-25 2018-03-06 平安科技(深圳)有限公司 多任务调度方法、应用服务器及计算机可读存储介质
CN107992620A (zh) * 2017-12-22 2018-05-04 武汉楚鼎信息技术有限公司 一种json数据快速同步及记录的方法及系统装置
CN108363741A (zh) * 2018-01-22 2018-08-03 中国平安人寿保险股份有限公司 大数据统一接口方法、装置、设备及存储介质
CN108664665A (zh) * 2018-05-22 2018-10-16 深圳壹账通智能科技有限公司 数据格式转化方法、装置、设备及可读存储介质
CN110543507A (zh) * 2018-05-29 2019-12-06 阿里巴巴集团控股有限公司 一种异构数据接入方法和装置
CN109299073A (zh) * 2018-10-19 2019-02-01 杭州数梦工场科技有限公司 一种数据血缘的生成方法、系统、电子设备和存储介质
CN109408580A (zh) * 2018-10-31 2019-03-01 北京百分点信息科技有限公司 一种跨数据源的sql编译装置及方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111109A (zh) * 2021-04-06 2021-07-13 创意信息技术股份有限公司 数据源的接口入库解析接入方法

Similar Documents

Publication Publication Date Title
US11533187B2 (en) Device birth certificate
CN1839581B (zh) 装置认证信息安装系统
CN107248984B (zh) 数据交换系统、方法和装置
CN106936577B (zh) 一种用于证书申请的方法、终端和系统
CN109522270A (zh) 基于区块链的文件存读方法、电子装置及可读存储介质
CN110391900A (zh) 基于sm2算法的私钥处理方法、终端及密钥中心
US9754100B1 (en) Credential synchronization management
US20240104563A1 (en) Hybrid identity as a service for decentralized browser based wallets
US20140372750A1 (en) Client-side encryption
CN103546289A (zh) 一种基于USBKey的安全传输数据的方法及系统
CN109905351B (zh) 存储数据的方法、装置、服务器和计算机可读存储介质
US11258583B2 (en) Method for data storage, device, and computer readable data storage medium
CN110598433A (zh) 基于区块链的防伪信息处理方法、装置
CN108881122B (zh) App信息验证的方法和装置
CN111181920A (zh) 一种加解密的方法和装置
US10540522B2 (en) Storing data securely in a database
CN111708750A (zh) 一种基于大数据平台存储适配方法,系统,设备及可读存储介质
CN111010283B (zh) 用于生成信息的方法和装置
CN113886793A (zh) 设备登录方法、装置、电子设备、系统和存储介质
CN110232570B (zh) 一种信息监管方法及装置
CN103902921A (zh) 文件加密方法及系统
CN110492998B (zh) 加解密数据的方法
CN105681428A (zh) 用户信息同步的系统、方法及装置
CN111222860A (zh) 一种数据资产处理方法及装置
CN110543772A (zh) 离线解密方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination