CN105847378A

CN105847378A - 一种实现大数据同步的方法和系统

Info

Publication number: CN105847378A
Application number: CN201610228344.7A
Authority: CN
Inventors: 闫浩
Original assignee: Beijing Si Tech Information Technology Co Ltd
Current assignee: Beijing Si Tech Information Technology Co Ltd
Priority date: 2016-04-13
Filing date: 2016-04-13
Publication date: 2016-08-10
Anticipated expiration: 2036-04-13
Also published as: CN105847378B

Abstract

本发明涉及一种实现大数据同步的方法和系统。其中方法包括步骤S1，Oracle数据库将需要同步数据的表的表名以及表中的字段名列发送给Hadoop集群；步骤S2，Hadoop集群根据接收到的表名和字段名列生成同步表，并根据同步表加载需要同步的数据至同步表中，生成数据文件，并将所述数据文件导出到与所述Oracle数据库对应的服务器上；步骤S3，Oracle数据库将服务器上数据文件中的数据加载至Oracle数据库。本发明以配置方式实现数据库与Hadoop数据的同步，只要配置表名到数据库中，被配置的表即可实现同步，相比于现有技术，能够降低新增脚本、测试上线等工作量，不需要每次新增同步程序，效率高，成本低，并且能够降低因测试不到位等情况引起的风险。

Description

一种实现大数据同步的方法和系统

技术领域

本发明涉及数据同步领域，尤其涉及一种实现大数据同步的方法和系统。

背景技术

为了配合实现云化，数据库由一个拆分为了多个，数据库之间的数据量很大时，使用实时接口交互起来会有瓶颈，比如接口握手时间有限制，当数据还没有同步完成时，服务已经超时，因此针对大数据并且实时性低的数据，同步采用提前同步的处理方法，这就涉及到了数据同步问题。同步的大数据信息统一放在hadoop集群上，各个系统再从集群上取数据到本地来实现大数据同步。这样便增加了一份数据同步工作，每增加一个表同步就需要新增一个同步脚本，还需要进行测试、上线等工作。增加了很多不必要的工作量和不应有的风险。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种实现大数据同步的方法和系统。

本发明解决上述技术问题的技术方案如下：一种实现大数据同步的方法，包括如下步骤：

步骤S1，Oracle数据库将需要同步数据的表的表名以及表中的字段名列发送给Hadoop集群；

步骤S2，Hadoop集群根据接收到的表名和字段名列生成同步表，并根据所述同步表加载需要同步的数据至所述同步表中，生成数据文件，并将所述数据文件导出到与所述Oracle数据库对应的服务器上；

步骤S3，Oracle数据库将服务器上所述数据文件中的数据加载至Oracle数据库。

本发明的有益效果是：本发明以配置方式实现数据库与Hadoop数据的同步，只要配置表名到数据库中，被配置的表即可实现同步，相比于现有技术，能够降低新增脚本、测试上线等工作量，不需要每次新增同步程序，效率高，成本低，并且能够降低因测试不到位等情况引起的风险。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步地，步骤S1包括如下步骤：

步骤S11，Oracle数据库确定需要同步数据的表的表名；

步骤S12，根据表名从Oracle数据库中的表字段存放表中获取需要同步数据的表中的字段名列；

步骤S13，Oracle数据库将表名和字段名列发送给Hadoop集群。

采用上述进一步方案的有益效果是：字段名列从Oracle数据库中的表字段存放表中获取，这样当表结构发生变化后也不需要修改脚本，表变，同步的字段也会变。

进一步地，步骤S2中将所述数据文件导出到与所述Oracle数据库对应的服务器上的具体实现为：

使用hive-e或hive-s-e命令将所述数据文件导出到与所述Oracle数据库对应的服务器上。

采用上述进一步方案的有益效果是：导出数据到服务器的时候，使用hive-e命令时，Hadoop处理过程可以显示在终端的显示器上，使用hive-s-e命令时，Hadoop的有一些处理过程就不会显示在终端的显示器上了，具体来讲就是少了一些打印的日志。

进一步地，步骤S3包括如下步骤：

步骤S31，Oracle数据库生成加载数据文件用的ctl文件；

步骤S32，根据数据文件和ctl文件，使用sqlldr将数据文件中的数据加载至Oracle数据库。

采用上述进一步方案的有益效果是：使用sqlldr加载数据，稳定且效率高。

进一步地，所述ctl文件根据表名使用的字段生成。

本发明解决上述技术问题的另一种技术方案如下：一种实现大数据同步的系统，其特征在于，包括Oracle数据库和Hadoop集群，其中Oracle数据库包括表名和字段名列发送模块和数据加载模块，Hadoop集群包括数据文件生成模块；

所述表名和字段名列发送模块，用于将需要同步数据的表的表名以及表中的字段名列发送给Hadoop集群中的所述数据文件生成模块；

所述数据文件生成模块，用于根据接收到的表名和字段名列生成同步表，并根据所述同步表加载需要同步的数据至所述同步表中，生成数据文件，并将所述数据文件导出到与所述Oracle数据库对应的服务器上；

所述数据加载模块，用于将服务器上所述数据文件中的数据加载至Oracle数据库。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步地，所述表名和字段名列发送模块包括表名确定单元、字段名列获取单元和发送单元；

所述表名确定单元，用于确定需要同步数据的表的表名；

所述字段名列获取单元，用于根据表名从Oracle数据库中的表字段存放表中获取需要同步数据的表中的字段名列；

所述发送单元，用于将表名和字段名列发送给Hadoop集群中的所述数据文件生成模块。

进一步地，所述数据文件生成模块中将所述数据文件导出到与所述Oracle数据库对应的服务器上的具体实现为：

进一步地，所述数据加载模块包括ctl文件生成单元和数据加载单元；

所述ctl文件生成单元，用于生成加载数据文件用的ctl文件；

所述数据加载单元，用于根据数据文件和ctl文件，使用sqlldr将数据文件中的数据加载至Oracle数据库。

进一步地，所述ctl文件根据表名使用的字段生成。

附图说明

图1为本发明所述实现大数据同步的方法流程图；

图2为本发明所述实现大数据同步的系统结构图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

图1为本发明所述实现大数据同步的方法流程图。

如图1所示，一种实现大数据同步的方法，包括如下步骤：

步骤S1，Oracle数据库将需要同步数据的表的表名以及表中的字段名列发送给Hadoop集群。

其中步骤S1包括如下步骤：

步骤S11，Oracle数据库确定需要同步数据的表的表名。

在本发明的具体实施例中，由于非全部的表同步，因此只需要抽取需要同步数据的表即可，而需要同步数据的表则根据业务逻辑需要确定。

步骤S12，根据表名从Oracle数据库中的表字段存放表中获取需要同步数据的表中的字段名列。

在本发明的具体实施例中，字段名列从Oracle数据库中的表字段存放表(all_tab_columns)中获取，这样当表结构发生变化后也不需要修改脚本，表变，同步的字段也会变。

步骤S13，Oracle数据库将表名和字段名列发送给Hadoop集群。

步骤S2，Hadoop集群根据接收到的表名和字段名列生成同步表，并根据所述同步表加载需要同步的数据至所述同步表中，生成数据文件，并将所述数据文件导出到与Oracle数据库对应的服务器上。

在本发明的具体实施例中，步骤S2中将所述数据文件导出到与Oracle数据库对应的服务器上的具体实现为：使用hive-e或hive-s-e命令将所述数据文件导出到与Oracle数据库对应的服务器上，导出数据到服务器的时候，使用hive-e命令时，Hadoop处理过程会显示在终端的显示器上，使用hive-s-e命令时，Hadoop的有一些处理过程就不会显示在终端的显示器上了，具体来讲就是少了一些打印的日志。并且，Hadoop利用“大数据”技术存储同步数据，将同步数据放到归属域下，在处理大数据方面效率比原先提高了很多倍。

其中步骤S3包括如下步骤：

步骤S31，Oracle数据库生成加载数据文件用的ctl文件。

本发明的具体实施例中，ctl文件根据表名使用的字段生成，当中有date类型的字段等情况统一做了类型转换处理，有空格的统一去空格或者制表符。

现有技术中每次修改表结构都需要修改ctl文件，使用本发明则可省略这步操作，只要表名不变，表结构修改之后也不用修改程序。

sqlldr也就是SQL*LOADER，它是oracle的高速批量数据加载工具，可以将外部文件的数据导入到oracle的数据库中。在本发明的具体实施例中，使用sqlldr加载数据，稳定且效率高，并且能够实现新增一个表名就达到数据同步的目的。并且可以新建一个表，将数据加载的使用时长、是否加载等信息会统一放进去，用于观察数据加载情况。

本发明以配置方式实现数据库与Hadoop数据的同步，只要配置表名到数据库中，被配置的表即可实现同步，相比于现有技术，能够降低新增脚本、测试上线等工作量，不需要每次新增同步程序，效率高，成本低，并且能够降低因测试不到位等情况引起的风险。

本发明适用于对实时性要求不高的系统，例如数据每天凌晨进行同步，会有一天的延时，所以需要保证数据没有太高的同步要求，可延迟一天，并且要保证数据库字段和Hadoop中存储的字段一样。在具体实施例中，本发明可适用于在Unix环境下，获取大数据信息生成文件。

图2为本发明所述实现大数据同步的系统结构图。

如图2所示，一种实现大数据同步的系统，利用上述方法实现，包括Oracle数据库和Hadoop集群，其中Oracle数据库包括表名和字段名列发送模块和数据加载模块，Hadoop集群包括数据文件生成模块。

表名和字段名列发送模块，用于将需要同步数据的表的表名以及表中的字段名列发送给Hadoop集群中的所述数据文件生成模块；表名和字段名列发送模块包括表名确定单元、字段名列获取单元和发送单元；表名确定单元，用于确定需要同步数据的表的表名；字段名列获取单元，用于根据表名从Oracle数据库中的表字段存放表中获取需要同步数据的表中的字段名列；发送单元，用于将表名和字段名列发送给Hadoop集群中的所述数据文件生成模块。

数据文件生成模块，用于根据接收到的表名和字段名列生成同步表，并根据所述同步表加载需要同步的数据至所述同步表中，生成数据文件，并将所述数据文件导出到与Oracle数据库对应的服务器上；数据文件生成模块中将所述数据文件导出到与Oracle数据库对应的服务器上的具体实现为：使用hive-e或hive-s-e命令将所述数据文件导出到与Oracle数据库对应的服务器上。

数据加载模块，用于将服务器上所述数据文件中的数据加载至Oracle数据库。数据加载模块包括ctl文件生成单元和数据加载单元；ctl文件生成单元，用于生成加载数据文件用的ctl文件，其中ctl文件根据表名使用的字段生成；数据加载单元，用于根据数据文件和ctl文件，使用sqlldr将数据文件中的数据加载至Oracle数据库。

在本说明书的描述中，参考术语“实施例一”、“实施例二”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体方法、装置或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、方法、装置或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种实现大数据同步的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的实现大数据同步的方法，其特征在于，步骤S1包括如下步骤：

步骤S11，Oracle数据库确定需要同步数据的表的表名；

步骤S13，Oracle数据库将表名和字段名列发送给Hadoop集群。

3.根据权利要求1所述的实现大数据同步的方法，其特征在于，步骤S2中将所述数据文件导出到与所述Oracle数据库对应的服务器上的具体实现为：

4.根据权利要求1所述的实现大数据同步的方法，其特征在于，步骤S3包括如下步骤：

步骤S31，Oracle数据库生成加载数据文件用的ctl文件；

5.根据权利要求4所述的实现大数据同步的方法，其特征在于，所述ctl文件根据表名使用的字段生成。

6.一种实现大数据同步的系统，其特征在于，包括Oracle数据库和Hadoop集群，其中Oracle数据库包括表名和字段名列发送模块和数据加载模块，Hadoop集群包括数据文件生成模块；

7.根据权利要求6所述的实现大数据同步的系统，其特征在于，所述表名和字段名列发送模块包括表名确定单元、字段名列获取单元和发送单元；

所述表名确定单元，用于确定需要同步数据的表的表名；

8.根据权利要求6所述的实现大数据同步的系统，其特征在于，所述数据文件生成模块中将所述数据文件导出到与所述Oracle数据库对应的服务器上的具体实现为：

9.根据权利要求6所述的实现大数据同步的系统，其特征在于，所述数据加载模块包括ctl文件生成单元和数据加载单元；

所述ctl文件生成单元，用于生成加载数据文件用的ctl文件；

10.根据权利要求9所述的实现大数据同步的系统，其特征在于，所述ctl文件根据表名使用的字段生成。