CN109918429A

CN109918429A - 基于Redis的Spark数据处理方法及系统

Info

Publication number: CN109918429A
Application number: CN201910051662.4A
Authority: CN
Inventors: 陈军侠; 杨犀
Original assignee: Wuhan Beacon Wisdom Star Technology Co Ltd
Current assignee: Wuhan Beacon Wisdom Star Technology Co Ltd
Priority date: 2019-01-21
Filing date: 2019-01-21
Publication date: 2019-06-21

Abstract

本发明提供了一种基于Redis的Spark数据处理方法及系统，该方法包括以下步骤：S1，Spark数据处理框架从分布式数据源kafka中获取数据，将数据转换成弹性分布式数据集RDD；S2，Spark数据处理框架对弹性分布式数据集RDD中的数据进行初步处理生成新的分布式数据集RDD，并存入Redis存储装置中；S3，Redis存储装置对初步处理后生成的分布式数据集RDD进行更深层次的处理生成新的结果数据集，并提供对外的快速访问接口；S4，Spark数据处理框架通过访问接口获取更深层次处理后生成的结果数据集，根据业务要求进行复杂的逻辑处理后将最终的结果写入分布式数据源kafka中。本发明结合Spark数据处理框架和Redis存储装置，大幅提升处理分析任务的性能。

Description

基于Redis的Spark数据处理方法及系统

技术领域

本发明涉及计算机数据处理领域，尤其涉及一种基于Redis的Spark数据处理方法及系统。

背景技术

许多公司日益需要分析交易的速度与业务交易本身的速度一样快，越来越多的决策变得自动化，驱动这些决策所需的分析应该实时进行。Spark是一种出色的通用数据处理框架，在数据处理方面能达到准实时；Spark通过借鉴开源算法，并将处理任务分布到计算节点集群上，无论是在单一平台上所能执行的数据分析类型方面，还是在执行这些任务的速度方面，Spark这一代框架都轻松胜过传统框架。但是目前的Spark数据处理框架还是无法满足业务分析速度的要求，处理分析任务的性能有待提升，因此有必要对现有的Spark数据处理方法进行改进。

发明内容

本发明的目的在于提供一种基于Redis的Spark数据处理方法及系统，旨在用于解决现有的Spark数据处理框架的分析速度无法满足要求的问题。

本发明是这样实现的：

一方面，本发明提供一种基于Redis的Spark数据处理方法，包括以下步骤：

S1，Spark数据处理框架从分布式数据源kafka中获取数据，将数据转换成弹性分布式数据集RDD；

S2，Spark数据处理框架对弹性分布式数据集RDD中的数据进行初步处理生成新的分布式数据集RDD，并将新的分布式数据集RDD存入Redis存储装置中；

S3，Redis存储装置对初步处理后生成的分布式数据集RDD进行更深层次的处理生成新的结果数据集，并提供对外的快速访问接口；

S4，Spark数据处理框架通过Redis存储装置提供的访问接口获取更深层次处理后生成的结果数据集，根据业务要求进行复杂的逻辑处理后将最终的结果写入分布式数据源kafka中。

进一步地，所述初步处理包括对数据进行统计处理；所述更深层次的处理包括对数据进行分类汇总处理；所述复杂的逻辑处理包括对数据的趋势进行预测或对用户关注的信息进行推送。

进一步地，所述步骤S2中，将新的分布式数据集RDD存入Redis存储装置中采用的存储方式如下：针对简单的数据统计需求或者数据去重需求，采用key-set的方式存储；针对多维度地对数据进行统计分析的需求，采用key-set和key-map结合的方式存储。

进一步地，当Redis存储装置中存储的数据集过大时，将Redis存储装置处理过的数据集通过接口主动传递给Spark数据处理框架，Spark数据处理框架对数据处理完毕后通知Redis存储装置，Redis存储装置收到通知后将存储在key-map中的完整数据集通过接口写入HBase中，然后删除Redis存储装置中的该数据集。

进一步地，还包括以下步骤：业务平台从分布式数据源kafka中取出最终的结果数据进行相关展示。

另一方面，本发明还提供一种基于Redis的Spark数据处理系统，包括分布式数据源kafka、Spark数据处理框架以及Redis存储装置；

所述分布式数据源kafka用于存储采集的多维大数据；

所述Spark数据处理框架用于从分布式数据源kafka中获取数据，将数据转换成弹性分布式数据集RDD，对弹性分布式数据集RDD中的数据进行初步处理生成新的分布式数据集RDD，并将新的分布式数据集RDD存入Redis存储装置中；

所述Redis存储装置用于对初步处理后生成的分布式数据集RDD进行更深层次的处理生成新的结果数据集，并提供对外的快速访问接口；

所述Spark数据处理框架还用于通过Redis存储装置提供的访问接口获取更深层次处理后生成的结果数据集，根据业务要求进行复杂的逻辑处理后将最终的结果写入分布式数据源kafka中。

进一步地，所述Spark数据处理框架对弹性分布式数据集RDD中的数据进行初步处理包括对数据进行统计处理；所述Redis存储装置用于对初步处理后生成的分布式数据集RDD进行更深层次的处理包括对数据进行分类汇总处理；所述Spark数据处理框架进行复杂的逻辑处理包括对数据的趋势进行预测或对用户关注的信息进行推送。

进一步地，所述Spark数据处理框架将新的分布式数据集RDD存入Redis存储装置中采用的存储方式如下：针对简单的数据统计需求或者数据去重需求，采用key-set的方式存储；针对多维度地对数据进行统计分析的需求，采用key-set和key-map结合的方式存储。

进一步地，还包括：当Redis存储装置中存储的数据集过大时，将Redis存储装置处理过的数据集通过接口主动传递给Spark数据处理框架，Spark数据处理框架对数据处理完毕后通知Redis存储装置，Redis存储装置收到通知后将存储在key-map中的完整数据集通过接口写入HBase中，然后删除Redis存储装置中的该数据集。

进一步地，还包括业务平台，所述业务平台用于从分布式数据源kafka中取出最终的结果数据进行相关展示。

与现有技术相比，本发明具有以下有益效果：

本发明提供的这种基于Redis的Spark数据处理方法及系统，结合Spark数据处理框架内存计算的优势和Redis存储装置经过优化的数据结构以及它在执行操作时能够尽量降低复杂性和开销的优点，可以进一步加快运行速度，大幅提升处理分析任务的性能。

附图说明

图1为本发明实施例提供的一种基于Redis的Spark数据处理方法的流程图；

图2为本发明实施例提供的一种基于Redis的Spark数据处理系统的方框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供一种基于Redis的Spark数据处理方法，用于业务分析，该方法包括以下步骤：

Spark的优势在于内存计算，然而在计算中难免会用到一些元数据或中间数据，有的存在关系型数据库中，有的存在HDFS上，有的存在HBase中，但其读写速度都和Spark计算的速度相差甚远，而Redis基于内存的读写则可以完美解决此类问题。本发明的技术方案结合Spark数据处理框架内存计算的优势和Redis存储装置经过优化的数据结构以及它在执行操作时能够尽量降低复杂性和开销的优点，可以进一步加快运行速度，大幅提升处理分析任务的性能。

下面对上述各步骤进行详细说明。

所述步骤S1中，分布式数据源kafka中存储有采集的多维大数据，Spark数据处理框架定期从分布式数据源kafka中获取业务分析所需要的数据，Spark数据处理框架使用弹性分布式数据集RDD，这些数据集可以存储在易失性内存中或HDFS之类的持久性存储系统中。RDD不会变化，分布在Spark集群的所有节点上，它们经转换化可以创建其他RDD。RDD是Spark中的重要抽象对象，它们代表了一种高效地将数据呈现给迭代进程的容错方法，由于处理工作在内存中进行，相比使用HDFS和MapReduce，处理时间缩短了很多。

所述步骤S2中，由于Spark数据处理框架一般是一次读取一定时间段内的数据，如果在这段时间内对读取的数据做过多的分析，势必会影响整体性能，因此本发明将经过Spark数据处理框架初步处理的数据直接通过异步方式写入redis存储装置中，由redis存储装置进行更深层次的处理来达到满足业务要求，可以加快Spark数据处理框架的处理速度，提高整体性能。

所述步骤S3中，Redis存储装置是专门为高性能设计的，亚毫秒延迟得益于经过优化的数据结构，由于让操作可以在邻近数据存储的地方执行，提高了效率。Redis存储装置的这种数据结构不仅可以高效地利用内存、降低应用程序的复杂性，还降低了网络开销、带宽消耗量和处理时间。本发明由Redis存储装置对初步处理后生成的分布式数据集RDD进行更深层次的处理，可以提高处理的速度，且降低了Spark数据处理框架的处理负担。

所述步骤S4中，Spark数据处理框架通过Redis存储装置提供的访问接口获取更深层次处理后生成的结果数据集，再利用这些结果集根据业务要求进行复杂的逻辑处理后得到最终的结果，并将最终的结果写入分布式数据源kafka中，最终的结果即为业务平台所要展示给用户的结果。

进一步地，该方法还包括以下步骤：业务平台从分布式数据源kafka中取出最终的结果数据进行相关展示，完成该业务的处理。

Spark数据处理框架与Redis存储装置之间的交互可以通过Spark-Redis连接件来实现，Spark-Redis连接件是一个为Apache Spark提供Redis连接的连接件，它允许对Redis的数据结构在Spark中以RDD的结构形式进行操作；也可以将RDD数据集写到Redis中，也可以很方便地从Redis中读取RDD；该连接件将RDD和Redis的核心数据结构迅速互换，并提供了友好的方式来获取key的名字。此外，该连接件还通过将RDD分区转换成Redis的hashslot，有效的减少了引擎内部shuffling操作。

本发明实施例结合Redis和Spark本身的特性，并利用Spark-Redis连接件将两者完美结合联系起来，使得Redis和Spark这对组合拥有无限的应用前景；在通过利用Redis的数据结构来提升性能的同时，还可以更轻松自如地扩展Spark，即通过充分利用Redis提供的共享分布式内存数据存储机制，处理数百万个记录，乃至数十亿个记录。

上述方法中，所述初步处理包括对数据进行统计等处理；所述更深层次的处理包括对数据进行分类汇总等处理；所述复杂的逻辑处理包括对数据的趋势进行预测或对用户关注的信息进行推送等。针对不同的业务类型，所述初步处理、所述更深层次的处理以及所述复杂的逻辑处理所对应的具体处理内容是不一样的，根据业务要求来划分。例如针对电子商务平台，所述初步处理包括对一段时间内各类订单数量的统计等；所述更深层次的处理包括对订单分类的统计，按时间段、按区域、按商品类别、按商家等多个维度的统计，还包括对同一商家或同一商品在一定时间段内总体销量和总体销售额的汇总计算等；所述复杂的逻辑处理包括对用户的使用频次等使用参数对用户关注的商品进行精准推送等。针对公安业务平台，所述初步处理包括对wifi的数据进行布控预警等，布控预警就是将wifi设备抓取到的wifi数据信息通过kafka推送至spark后，由spark将数据同目标库中的重点人的wifi信息进行对比后将比对成功的结果进行预警；所述更深层次的处理包括针对写入到redis中的wifi的数据，结合redis中原有的卡口数据和电子围栏的数据(卡口数据和电子围栏数据可以通过spark或kakfa等多种方式接入)，在redis中对三类数据进行交并操作，针对重点人的相关信息，碰撞出三类数据在某个指定时间段内相交的结果集，此次的结果集会同时写入spark和mysql中，其他模块通过mysql取出数据后，分析出重点人的活动轨迹，并通过gis电子地图展示出重点人在地图上的运行轨迹，协助公安民警的破案；所述复杂的逻辑处理包括针对redis中进行三类数据碰撞分析后的结果集，spark对实时的数据和此次的结果集的数据进行比对分析后，并结合主流的机器学习预测算法，可以初步预测出重点人活动规则并判断出其下一步的活动行为，对公安的破案提供有力的技术指导。

redis目前支持key-value，key-set，key-list，key-map的存储方式，针对不同的业务场景的需求，需采用更加符合业务场景的存储方式，进一步地，所述步骤S2中，将新的分布式数据集RDD存入Redis存储装置中采用的存储方式如下：针对简单的数据统计需求或者数据去重需求，采用key-set的方式存储，因为key-set的方式能保证key的唯一性，针对相同时间段内具有相同主键的数据能快速去重；针对多维度地对数据进行统计分析的需求，采用key-set和key-map结合的方式存储，在key-map中存储完整的数据集，并且针对大数据量时按日期进行相关的分表存储策略，key-map结构中的map中，map的key为每条数据的主键，value为每条记录去除主键之外的其他数据组成的json，然后针对多个查询分析的维度，可以将各个维度的单一值和主键值单独存储在不同的key-set中，这样可以保证占用最少的存储空间来达到数据的多个维度的查询分析，这种存储方式之所以能快速达到多维度分析的目的，因为数据存储在key-set中时，数据本身已经是按照多个维度进行了存储，后续进行遍历操作时，只需要读取指定维度下所有主键即可快读访问到所需的数据集。

针对数据集在redis中的存储周期，一般而言，不应该将数据在redis中大量积压，因为redis属于内存计算，会将所有数据都加载到内存，当存储的数据集过大时，可能会使得服务器负载过大而影响redis的性能。作为本实施例的优选，当Redis存储装置中存储的数据集过大时，将Redis存储装置处理过的数据集通过接口主动传递给Spark数据处理框架，Spark数据处理框架对数据处理完毕后通知Redis存储装置，Redis存储装置收到通知后将存储在key-map中的完整数据集通过接口写入HBase中，作为后期的历史分析使用，然后删除Redis存储装置中的该数据集，只存储key-set中多维度的少量数据，这种方式既可以极大降低redis所占内存，同时也可以满足数据的多维度查询分析。

基于同一发明构思，本发明实施例还提供一种基于Redis的Spark数据处理系统，由于该系统解决技术问题的原理与上述方法实施例类似，故该系统的实施可以参照上述方法实施例，重复之处不再赘述。

如图2所示，为本发明实施例提供的一种基于Redis的Spark数据处理系统，用于实现上述方法实施例，该系统包括分布式数据源kafka、Spark数据处理框架以及Redis存储装置；

所述分布式数据源kafka用于存储采集的多维大数据；

在一个实施例中，所述Spark数据处理框架对弹性分布式数据集RDD中的数据进行初步处理包括对数据进行统计处理；所述Redis存储装置用于对初步处理后生成的分布式数据集RDD进行更深层次的处理包括对数据进行分类汇总处理；所述Spark数据处理框架进行复杂的逻辑处理包括对数据的趋势进行预测或对用户关注的信息进行推送。

在一个实施例中，所述Spark数据处理框架将新的分布式数据集RDD存入Redis存储装置中采用的存储方式如下：针对简单的数据统计需求或者数据去重需求，采用key-set的方式存储；针对多维度地对数据进行统计分析的需求，采用key-set和key-map结合的方式存储。

在一个实施例中，还包括：当Redis存储装置中存储的数据集过大时，将Redis存储装置处理过的数据集通过接口主动传递给Spark数据处理框架，Spark数据处理框架对数据处理完毕后通知Redis存储装置，Redis存储装置收到通知后将存储在key-map中的完整数据集通过接口写入HBase中，然后删除Redis存储装置中的该数据集。

在一个实施例中，还包括业务平台，所述业务平台用于从分布式数据源kafka中取出最终的结果数据进行相关展示。

本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccessMemory)、磁盘或光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于Redis的Spark数据处理方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于Redis的Spark数据处理方法，其特征在于：所述初步处理包括对数据进行统计处理；所述更深层次的处理包括对数据进行分类汇总处理；所述复杂的逻辑处理包括对数据的趋势进行预测或对用户关注的信息进行推送。

3.如权利要求1所述的基于Redis的Spark数据处理方法，其特征在于，所述步骤S2中，将新的分布式数据集RDD存入Redis存储装置中采用的存储方式如下：针对简单的数据统计需求或者数据去重需求，采用key-set的方式存储；针对多维度地对数据进行统计分析的需求，采用key-set和key-map结合的方式存储。

4.如权利要求1所述的基于Redis的Spark数据处理方法，其特征在于：当Redis存储装置中存储的数据集过大时，将Redis存储装置处理过的数据集通过接口主动传递给Spark数据处理框架，Spark数据处理框架对数据处理完毕后通知Redis存储装置，Redis存储装置收到通知后将存储在key-map中的完整数据集通过接口写入HBase中，然后删除Redis存储装置中的该数据集。

5.如权利要求1所述的基于Redis的Spark数据处理方法，其特征在于，还包括以下步骤：业务平台从分布式数据源kafka中取出最终的结果数据进行相关展示。

6.一种基于Redis的Spark数据处理系统，其特征在于：包括分布式数据源kafka、Spark数据处理框架以及Redis存储装置；

所述分布式数据源kafka用于存储采集的多维大数据；

7.如权利要求5所述的基于Redis的Spark数据处理系统，其特征在于：所述Spark数据处理框架对弹性分布式数据集RDD中的数据进行初步处理包括对数据进行统计处理；所述Redis存储装置用于对初步处理后生成的分布式数据集RDD进行更深层次的处理包括对数据进行分类汇总处理；所述Spark数据处理框架进行复杂的逻辑处理包括对数据的趋势进行预测或对用户关注的信息进行推送。

8.如权利要求5所述的基于Redis的Spark数据处理系统，其特征在于：所述Spark数据处理框架将新的分布式数据集RDD存入Redis存储装置中采用的存储方式如下：针对简单的数据统计需求或者数据去重需求，采用key-set的方式存储；针对多维度地对数据进行统计分析的需求，采用key-set和key-map结合的方式存储。

9.如权利要求5所述的基于Redis的Spark数据处理系统，其特征在于，还包括：当Redis存储装置中存储的数据集过大时，将Redis存储装置处理过的数据集通过接口主动传递给Spark数据处理框架，Spark数据处理框架对数据处理完毕后通知Redis存储装置，Redis存储装置收到通知后将存储在key-map中的完整数据集通过接口写入HBase中，然后删除Redis存储装置中的该数据集。

10.如权利要求5所述的基于Redis的Spark数据处理系统，其特征在于：还包括业务平台，所述业务平台用于从分布式数据源kafka中取出最终的结果数据进行相关展示。