CN109189798A

CN109189798A - 一种基于spark同步更新数据的方法

Info

Publication number: CN109189798A
Application number: CN201811159912.8A
Authority: CN
Inventors: 周韶宁; 金建华
Original assignee: Zhejiang Baishi Technology Co Ltd
Current assignee: Zhejiang Baishi Technology Co Ltd
Priority date: 2018-09-30
Filing date: 2018-09-30
Publication date: 2019-01-11
Anticipated expiration: 2038-09-30
Also published as: CN109189798B

Abstract

本发明涉及数据更新技术领域，公开了一种基于spark同步更新数据的方法，包括：(1)导入数据；(2)分区命名；(3)对更新数据进行获取；(4)更新数据与原先数据进行替换：根据更新数据中表的数据的主键ID对目标数据的主键ID进行比对，将数据的主键ID相同的进行替换，形成新的目标数据，把更新数据的数据的主键ID缓存到更新集合里，设置的分割值判断数据大小进行分类处理。本发明通过大文件拆分成多个小文件，整理的时候能知道更新的数据在某一个小文件里，则整理只需要读取遍历小文件，提升了读取更新的速度。整个整理的过程结合两种方式，采用spark软件实现，起到了一个速度快，分布式计算的效果。

Description

一种基于spark同步更新数据的方法

技术领域

本发明涉及数据更新技术领域，尤其涉及了一种基于spark同步更新数据的方法。

背景技术

目前随着互联网的普及，人们越来越多的使用电子产品，互联网企业及相关企业本身存的数据量也越来越多,每天几千万的业务数据中大型公司，这么多数据如果能进行统计分析，分析业务增长趋势，以及用户行为之类的，对公司业务增长帮助比较大。

但目前数据库如oracle,mysql进行多表，且表数据很大，oracle sql分析存在性能瓶颈，很慢且直接影响了系统的稳定性，所以需要借助大数据相关技术，进行数据分析工作。

大数据分析涉及到两个部分，1：数据的存储2:数据的分析。数据分析依赖数据存储，目前大数据领域hdfs文件体系里的hdfs是常用的存储，数据分析借助spark较多.

所以如果大数据要进行大数据相关的分析，这里就需要把数据库里的数据从数据库同步到hdfs上，且hdfs上的数据需要和数据库里的数据保持一致。

因为hdfs是分布式文件系统，数据以文件的形式存在，文件里是每行数据，文件不像数据库那要可以执行更新操作，文件只能增加，这样如果数据库里的数据进行了更新操作，用java jdbc操作拉出来的数据因为文件是一直增加的，就会导致更新数据的重复，因为多个文件里都有这条记录，这样就不能和数据库保持一致了。

如果要保持一致，做法就是先读取老的文件，然后从文件一行行遍历，然后跟从数据库拉取的数据进行对比，如果发现文件里存在了，就去掉，然后文件里没有去掉的那部分重新写到新文件里，然后新文件和数据库的数据合并成大文件，然后替换掉之前的老文件，这样达到了文件数据更新的效果,我们称这个过程叫整理。

所以用传统方案实现将非常繁琐，而且数据数据库更新了最近比较长的数据，几个月，按每个几千万这个过程，单机跑需要很长时间，如果多机器跑需要自己实现分布式逻辑，相当复杂和繁琐，容易出错。

发明内容

本发明针对现有技术中过程复杂、容易出错的缺点，提供了一种基于spark同步更新数据的方法。

为了解决上述技术问题，本发明通过下述技术方案得以解决。

一种基于spark同步更新数据的方法，包括如下步骤：

(1)导入数据：使用spark平台从数据库获取目标列表存入hdfs文件；

(2)分区命名：通过spark分区方法对hdfs文件内的数据进行分区，根据创建日期，拉取需要的一个创建时间区间段的目标数据，并将该区间段数据按照目标数据的创建日期分别进行创建和命名文件夹，存入hdfs文件上的原始数据目录里；

(3)对更新数据进行获取：从数据库拉取更新数据列表，对更新数据进行读取并根据更新日期字段进行拉取，将更新数据用创建时间进行分区，存到hdfs文件的临时更新数据文件中，同时也将更新数据根据数据的创建日期进行创建更新文件夹；

(4)更新数据与原先数据进行替换：根据更新数据中表的数据的主键ID对目标数据的主键ID进行比对，将数据的主键ID相同的进行替换，形成新的目标数据，把更新数据的数据的主键ID缓存到更新集合里，设置的分割值判断数据大小进行分类处理：

①如更新数据小于分割值：根据更新数据文件夹名字对原始数据中的文件夹名字进行遍历，如文件夹名字相同，作为替换数据，直到遍历结束；如果不存在文件夹名字相同，则不进行替换；

将替换数据的主键ID遍历判断是否在更新集合里面，如存在，则将该数据删除；如不在，则根据创建时间分区创建增加文件夹，将增加文件夹与更新文件夹合并；

②如更新数据大于分割值：利用spark中的表的操作方法，分别对原始数据和更新数据生成根据创建时间为主键的原始数据表和更新数据表，通过join的方式执行原始数据表和更新数据表进行关联，关联字段为数据主键ID，如得到原始表里面数据主键ID不在更新表里面的数据作为增加数据，则根据创建时间，将增加数据与更新数据合并。

作为优选，步骤(4)中，分割值为100万行。

本发明由于采用了以上技术方案，具有显著的技术效果：本发明通过大文件拆分成多个小文件，整理的时候能知道更新的数据在某一个小文件里，则整理只需要读取遍历小文件，提升了读取更新的速度。在历史中的某一天更新了数据只要读取hdfs上哪一天的文件进行整理，使性能得到提升。整个整理的过程需要结合两种方式，采用spark软件实现，起到了一个速度快，分布式计算的效果。

附图说明

图1是本发明一种基于spark同步更新数据的方法的流程示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步详细描述。

如图1所示，一种基于spark同步更新数据的方法，包括如下步骤：

步骤(4)中，分割值为100万行。

本发明通过大文件拆分成多个小文件，整理的时候能知道更新的数据在某一个小文件里，则整理只需要读取遍历小文件，提升了读取更新的速度。在历史中的某一天更新了数据只要读取hdfs上哪一天的文件进行整理，使性能得到提升。整个整理的过程需要结合两种方式，采用spark实现，起到了一个速度快，分布式计算的效果。

总之，以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所作的均等变化与修饰，皆应属本发明专利的涵盖范围。

Claims

1.一种基于spark同步更新数据的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于spark同步更新数据的方法，其特征在于：步骤(4)中，分割值为100万行。