CN106383886B

CN106383886B - 一种基于大数据分布式编程框架的大数据预统系统及方法

Info

Publication number: CN106383886B
Application number: CN201610838908.9A
Authority: CN
Inventors: 程涛木; 刘军徽; 叶春生; 车新奕; 雷果; 王敏
Original assignee: SHENZHEN BAOAD TECHNOLOGY Co Ltd
Current assignee: Broid Technology Co.,Ltd.
Priority date: 2016-09-21
Filing date: 2016-09-21
Publication date: 2019-08-30
Anticipated expiration: 2036-09-21
Also published as: CN106383886A

Abstract

本发明属于数据处理领域，尤其涉及一种基于大数据分布式编程框架的大数据预统系统及方法，旨在解决现有的大数据预统系统处理效率低的问题。本发明对Spark Streaming进行组件功能开发扩充，使得SQL语句解析后可以在Spark Streaming中运行，并结合了Spark Streaming的对数据的批处理和数据流处理优势，最终采用了Spark Streaming技术和SQL语句相结合的方式对大数据进行预统处理，使得整个系统对大数据的处理达到非常高的效率。

Description

一种基于大数据分布式编程框架的大数据预统系统及方法

技术领域

本发明属于数据处理领域，尤其涉及一种基于大数据分布式编程框架的大数据预统系统及方法。

背景技术

随着信息化建设的不断深入，企业级的信息管理平台已经完成了从信息化建设到数据积累的职能转变，在通信、金融、大型生产制造等领域，海量数据的存储、分析需求的迫切性日益明显。以移动通信运营商为例，数据业务需求猛增、流量急剧增加，需要运营商协同发展不同的网络(WLAN、LTE、3G、2G)，集中管理、实时维护网络存在的问题，及时处理网络故障。大数据预统系统是在这样的背景下生成的，专门为规划、建设、经营、维护、优化等部门工程人员提供所需的支撑数据，提供解决方案的综合分析优化平台。

传统的大数据预统系统将读取并解析后的外部数据表示法(XDR，External DataRepresentation)文件按照程序设定的时间粒度进行预统，此操作在内存中进行，对内存的消耗较大，系统对XDR文件的处理速度有时效限制，因此，只能依靠较高的内存消耗来换取高效的处理速度。由此可看出，传统的预统系统的处理效率有限，无法满足快速增长的大数据处理需求。

发明内容

本发明提供了一种基于大数据分布式编程框架的大数据预统系统，旨在解决现有的大数据预统系统处理效率低的问题。

为解决上述技术问题，本发明提供了一种基于大数据分布式编程框架的大数据预统系统，所述系统包括数据处理模块，所述数据处理模块包括解析模块、批处理模块、数据流转换模块、数据转换模块以及存储模块；

所述解析模块，用于获取结构化查询语言(SQL，Structured Query Language)语句，并通过基于大数据分布式编程框架的结构化查询语言(SparkSQL，Spark StructuredQuery Language)技术对所述SQL语句进行解析，得到可以在实时计算框架(SparkStreaming)中运行的SQL语句解析结果；

所述批处理模块，用于基于Spark Streaming技术，根据所述SQL语句解析结果配置预统规则，根据所述预统规则中的批规则对待处理数据进行批处理，以将所述待处理数据分解成若干段离散数据流(DStream，Discretized Stream)；

所述数据流转换模块，用于将每一段所述离散数据流DStream转换成弹性分布式数据集(RDD，Resilient Distributed Datasets)；

所述数据转换模块，用于根据Spark Streaming技术中对DStream的转换操作方法，对所述弹性分布式数据集RDD进行转换操作，得到中间结果数据；

所述存储模块，用于将所述中间结果数据按照所述预统规则进行叠加，得到可查询数据，并将所述可查询数据存入关系数据库中。

进一步地，所述系统还包括读取模块，用于获取所述待处理数据，并将所述待处理数据发送给所述数据处理模块进行处理。

进一步地，所述系统还包括归并模块，用于应用与所述关系数据库相对应的归并方法，根据所述预统规则中的粒度规则对所述关系数据库中存放的所述可查询数据进行归并合成，得到统计粒度数据，并将所述统计粒度数据存入所述关系数据库中。

进一步地，所述系统还包括SQL语句配置界面，接收用户在所述配置界面配置的与业务需求对应的结构化查询语言语句，并将所述结构化查询语言语句传送至所述数据处理模块。

进一步地，所述系统还包括关系数据库：所述关系数据库具有查询接口，用于第三方通过所述查询接口查询所述关系数据库中存储的所述可查询数据或/和所述统计粒度数据。

本发明还提供了一种基于大数据分布式编程框架的大数据预统方法，所述方法包括：

获取SQL语句，并通过Spark SQL技术对所述SQL语句进行解析，得到可以在SparkStreaming中运行的SQL语句解析结果；

基于Spark Streaming技术，根据所述SQL语句解析结果配置预统规则，根据所述预统规则中的批规则对待处理数据进行批处理，以将所述待处理数据分解成若干段离散数据流DStream；

将每一段所述离散数据流DStream转换成弹性分布式数据集RDD；

根据Spark Streaming技术中对DStream的转换操作方法，对所述弹性分布式数据集RDD进行转换操作，得到中间结果数据；

将所述中间结果数据按照所述预统规则进行叠加，得到可查询数据，并将所述可查询数据存入关系数据库中。

进一步地，所述方法还包括：获取所述待处理数据，并将所述待处理数据发送给数据处理模块进行处理。

进一步地，所述方法还包括：应用与所述关系数据库相对应的归并方法，根据所述预统规则中的粒度规则对所述关系数据库中存放的所述可查询数据进行归并合成，得到统计粒度数据，并将所述统计粒度数据存入所述关系数据库中。

进一步地，所述方法还包括：接收用户在所述配置界面配置的与业务需求对应的结构化查询语言语句，并将所述结构化查询语言语句传送至所述数据处理模块。

进一步地，所述方法步骤还包括：第三方通过所述关系数据库的查询接口查询所述可查询数据或/和所述统计粒度数据。

本发明与现有技术相比，有益效果在于：

本发明对Spark Streaming进行组件功能开发扩充，使得SQL语句解析后可以在Spark Streaming中运行，并结合了Spark Streaming的对数据的批处理和数据流处理优势，最终采用了Spark Streaming技术和SQL语句相结合的方式对大数据进行预统处理，使得整个系统对大数据的处理达到非常高的效率。

附图说明

图1是本发明第一实施例提供的基于大数据分布式编程框架的大数据预统系统示意图；

图2是本发明第二实施例提供的基于大数据分布式编程框架的大数据预统系统示意图；

图3是本发明第三实施例提供的基于大数据分布式编程框架的大数据预统方法流程图；

图4是本发明第四实施例提供的基于大数据分布式编程框架的大数据预统方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

作为本发明的第一实施例，如图1所示，为一种基于大数据分布式编程框架的大数据预统系统示意图：

该系统包括数据处理模块，所述数据处理模块包括解析模块101、批处理模块102、数据流转换模块103、数据转换模块104以及存储模块105；

解析模块101，用于获取SQL语句，并通过SparkSQL技术对该SQL语句进行解析，得到可以在Spark Streaming中运行的SQL语句解析结果。

批处理模块102，用于基于Spark Streaming技术，根据SQL语句解析结果配置预统规则，根据预统规则中的批规则对待处理数据进行批处理，以将该待处理数据分解成若干段离散数据流DStream。其中，预统规则中的批规则指批大小(batch size)，而batch size主要是根据本发明的系统应用在某领域所需要的统计要求和性能要求来配置的。例如，在本发明实施例中，bitch size被设定为batch size＝10秒，即待处理数据按照10秒的时间间隔规则进行批处理，每10秒内的待处理数据作为一段离散数据流DStream，最终待处理数据被分解成若干段离散数据流DStream。

数据流转换模块103，用于将102中得到的每一段离散数据流DStream转换成弹性分布式数据集RDD。

数据转换模块104，用于根据Spark Streaming技术中对DStream的转换操作方法，对103得到的弹性分布式数据集RDD进行转换操作，得到中间结果数据。

存储模块105，用于将104中得到的中间结果数据按照预统规则进行叠加，得到可查询数据，并将所述可查询数据存入关系数据库中。在本发明实施例中，关系数据库应用了HIVE，HIVE是指建立在Hadoop上的数据仓库。此处应用HIVE关系数据库并不能用于限定本发明，还可以选择其他关系数据库，例如Oracle等。

需要说明的是，上述数据转换模块104中，对弹性分布式数据集RDD进行转换操作，得到中间结果数据的过程中，系统会根据预统规则将弹性分布式数据集RDD直接转换成符合预统规则的中间结果数据。一般情况下，中间结果数据的预统规则与最终要得到的可查询数据的预统规则类型相同。例如，本发明实施例所提供的系统需要每1个小时统计一次可查询数据，预统规则即为每1小时，则按照每1小时的时间间隔，对每1小时内的中间结果数据进行叠加。此时，中间结果的预统规则也应该是时间类型，预统规则可以为1分钟，也可以为5分钟。若中间结果的预统规则为1分钟，则按照每1分钟的时间间隔，系统会对每1分钟内的弹性分布式数据集RDD进行转换操作，得到每1分钟的中间结果数据。

作为本发明的第二实施例，如图2所示，为本发明第二实施例提供的一种基于大数据分布式编程框架的大数据预统系统示意图：

该系统包括读取模块201、SQL语句配置界面202、数据处理模块203、关系数据库204以及归并模块205。

读取模块201，用于获取待处理数据，并将该待处理数据发送给数据处理模块203进行处理。在本发明实施例中，读取模块201主要通过对XDR文件的读取并解析，来获取待处理数据。对XDR文件的读取并解析，从而获取待处理数据的过程为现有技术，在本发明实施例中不详加赘述。

SQL语句配置界面202，用于接收用户在配置界面202配置的与业务需求对应的SQL语句，并将SQL语句传送至所述数据处理模块203。

数据处理模块203包括解析模块203-1、批处理模块203-2、数据流转换模块203-3、数据转换模块203-4以及存储模块203-5。

解析模块203-1，用于获取SQL语句配置界面202发送的SQL语句，并通过SparkSQL技术对该SQL语句进行解析，得到可以在Spark Streaming中运行的SQL语句解析结果。

批处理模块203-2，用于基于Spark Streaming技术，根据203-1得到的SQL语句解析结果配置预统规则，根据该预统规则中的批规则对读取模块201发送的待处理数据进行批处理，以将所述待处理数据分解成若干段离散数据流DStream。其中，预统规则中的批规则指批大小(batch size)，而batch size主要是根据本发明的系统应用在某领域所需要的统计要求和性能要求来配置的。例如，在本发明实施例中，bitch size被设定为batch size＝10秒，即待处理数据按照10秒的时间间隔规则进行批处理，每10秒内的待处理数据作为一段离散数据流DStream，最终待处理数据被分解成若干段离散数据流DStream。

数据流转换模块203-3，用于将上述每一段离散数据流DStream转换成弹性分布式数据集RDD。

数据转换模块203-4，用于根据Spark Streaming技术中对DStream的转换操作方法，对弹性分布式数据集RDD进行转换操作，得到中间结果数据。

存储模块203-5，用于将203-4得到的中间结果数据按照预统规则进行叠加，得到可查询数据，并将该可查询数据存入关系数据库204中。在本发明实施例中，关系数据库204应用了HIVE，HIVE是指建立在Hadoop上的数据仓库。此处应用HIVE关系数据库并不能用来限定本发明，还可以选择其他关系数据库，例如Oracle等。

需要说明的是，上述数据转换模块203-4中，对弹性分布式数据集RDD进行转换操作，得到中间结果数据的过程中，系统会根据预统规则将弹性分布式数据集RDD直接转换成符合预统规则的中间结果数据。一般情况下，中间结果数据的预统规则与最终要得到的可查询数据的预统规则类型相同。例如，本发明实施例所提供的系统需要每1个小时统计一次可查询数据，预统规则即为每1小时，则按照每1小时的时间间隔，对每1小时内的中间结果数据进行叠加。此时，中间结果的预统规则也应该是时间类型，预统规则可以为1分钟，也可以为5分钟。若中间结果的预统规则为1分钟，则按照每1分钟的时间间隔，系统会对每1分钟内的弹性分布式数据集RDD进行转换操作，得到每1分钟的中间结果数据。

关系数据库204，具有查询接口，用于第三方通过所述查询接口查询所述关系数据库中存储的所述可查询数据或/和所述统计粒度数据。

归并模块205，用于应用与所述关系数据库204相对应的归并方法，根据所述预统规则中的粒度规则对所述关系数据库中存放的所述可查询数据进行归并合成，得到统计粒度数据，并将该统计粒度数据存入关系数据库204中。在本发明实施例中，应用了与HIVE关系数据库对应的映射归约(MapReduce)归并方法。本发明实施例按照统计粒度的不同，例如，统计粒度为5分钟、小时或者天，通过MapReduce进行归并合成可以得到不同统计粒度的统计粒度数据，然后再将该统计粒度数据存入HIVE中。

需要说明的是，第三方可以通过关系数据库204的查询接口直接查询可查询数据，也可以查询统计粒度数据。

作为本发明的第三实施例，如图3所示，为本发明第三实施例提供的基于大数据分布式编程框架的大数据预统方法流程图，所述方法包括下述步骤：

步骤S101：获取SQL语句，并通过Spark SQL技术对所述SQL语句进行解析，得到可以在Spark Streaming中运行的SQL语句解析结果。

步骤S102：基于Spark Streaming技术，根据步骤S101得到的SQL语句解析结果配置预统规则，根据该预统规则中的批规则对待处理数据进行批处理，以将所述待处理数据分解成若干段离散数据流DStream。

在步骤S102中，预统规则中的批规则指批大小(batch size)，而batch size主要是根据本发明的系统应用在某领域所需要的统计要求和性能要求来配置的。例如，在本发明实施例中，bitch size被设定为batch size＝10秒，即待处理数据按照10秒的时间间隔规则进行批处理，每10秒内的待处理数据作为一段离散数据流DStream，最终待处理数据被分解成若干段离散数据流DStream。

步骤S103：将步骤S102得到的每一段所述离散数据流DStream转换成弹性分布式数据集RDD。

步骤S104：根据Spark Streaming技术中对DStream的转换操作方法，对步骤S103得到的弹性分布式数据集RDD进行转换操作，得到中间结果数据。

步骤S105：将步骤S104得到的中间结果数据按照所述预统规则进行叠加，得到可查询数据，并将该可查询数据存入关系数据库中。

作为本发明的第四实施例，如图4所示，为本发明第四实施例提供的基于大数据分布式编程框架的大数据预统方法流程图，所述方法包括下述步骤：

步骤S201：获取所述待处理数据，并将所述待处理数据发送给数据处理模块进行处理。

步骤S202：接收用户在所述配置界面配置的与业务需求对应的结构化查询语言语句，并将所述结构化查询语言语句传送至所述数据处理模块。在步骤S201中，主要通过对XDR文件的读取并解析，来获取待处理数据。对XDR文件的读取并解析，从而获取待处理数据的过程为现有技术，在本发明实施例中不详加赘述。

步骤S203：获取步骤S202得到的SQL语句，并通过Spark SQL技术对该SQL语句进行解析，得到可以在Spark Streaming中运行的SQL语句解析结果。

步骤S204：基于Spark Streaming技术，根据SQL语句解析结果配置预统规则，根据该预统规则中的批规则对步骤S201得到的待处理数据进行批处理，以将该待处理数据分解成若干段离散数据流DStream。

在步骤S204中，预统规则中的批规则指批大小(batch size)，而batch size主要是根据本发明的系统应用在某领域所需要的统计要求和性能要求来配置的。例如，在本发明实施例中，bitch size被设定为batch size＝10秒，即待处理数据按照10秒的时间间隔规则进行批处理，每10秒内的待处理数据作为一段离散数据流DStream，最终待处理数据被分解成若干段离散数据流DStream。

步骤S205：将步骤S204得到的每一段离散数据流DStream转换成弹性分布式数据集RDD。

步骤S206：根据Spark Streaming技术中对DStream的转换操作方法，对步骤S205得到的弹性分布式数据集RDD进行转换操作，得到中间结果数据。

需要说明的是，在步骤S206中，对弹性分布式数据集RDD进行转换操作，得到中间结果数据的过程中，系统会根据预统规则将弹性分布式数据集RDD直接转换成符合预统规则的中间结果数据。一般情况下，中间结果数据的预统规则与最终要得到的可查询数据的预统规则类型相同。例如，本发明实施例所提供的系统需要每1个小时统计一次可查询数据，预统规则即为每1小时，则按照每1小时的时间间隔，对每1小时内的中间结果数据进行叠加。此时，中间结果的预统规则也应该是时间类型，预统规则可以为1分钟，也可以为5分钟。若中间结果的预统规则为1分钟，则按照每1分钟的时间间隔，系统会对每1分钟内的弹性分布式数据集RDD进行转换操作，得到每1分钟的中间结果数据。

步骤S207：将步骤S206得到的中间结果数据按照步骤S204中的预统规则进行叠加，得到可查询数据，并将该可查询数据存入关系数据库中。

在步骤S207中，关系数据库应用了HIVE，HIVE是指建立在Hadoop上的数据仓库。此处应用HIVE关系数据库并不能用了限定本发明，还可以选择其他关系数据库，例如Oracle等。

步骤S208：应用与所述关系数据库相对应的归并方法，根据所述预统规则中的粒度规则对所述关系数据库中存放的所述可查询数据进行归并合成，得到统计粒度数据，并将所述统计粒度数据存入所述关系数据库中。

在步骤S208中，应用了与HIVE关系数据库对应的MapReduce归并方法。本发明实施例按照统计粒度的不同，例如，统计粒度为5分钟、小时或者天，统计粒度可以自定义，通过MapReduce进行归并合成可以得到不同统计粒度的统计粒度数据，然后再将该统计粒度数据存入HIVE中。

步骤S209：第三方通过所述关系数据库的查询接口查询所述可查询数据或/和所述统计粒度数据。

为了更好的说明本发明的优势，下面对本发明所使用的技术优点进行简单的说明。本发明主要采用的技术是Spark Streaming技术，Spark Streaming技术具备执行引擎以及统一的编程模型，可实现批处理与流处理，是一种构建在Spark上的实时计算框架，它扩展了Spark处理大规模流式数据的能力。Spark Streaming的优势在于：能运行在100+的结点上，并达到秒级延迟；使用基于内存的Spark作为执行引擎，具有高效和容错的特性；能集成Spark的批处理和交互查询；为实现复杂的算法提供和批处理类似的简单接口。

综上所述，面对日益剧增的数据流量，传统的预统方案已经无法满足当前的系统分析需求，要满足预统系统实时处理、智能挖掘等全方面应用功能要求，需要一种适用于云计算的同步处理方案来解决该问题。本发明实施例是一种可以在云技算平台上应用的高效便捷的大数据预统处理系统，该系统对Spark Streaming进行组件功能开发扩充，使得SQL语句解析后可以在Spark Streaming中运行，并结合了Spark Streaming的对数据的批处理和数据流处理优势，最终采用了Spark Streaming技术和SQL语句相结合的方式对大数据进行预统处理，使得整个系统对大数据的处理达到非常高的效率。本发明除了应用在移动通信领域之外，还适用于大数据处理的各个领域，例如：视频数据存储系统、天气信息存储系统等。

以上所述仅为本发明的较佳实施例而已，并不用以限制发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据分布式编程框架的大数据预统系统，其特征在于，所述系统包括数据处理模块，所述数据处理模块包括解析模块、批处理模块、数据流转换模块、数据转换模块以及存储模块；

所述解析模块，用于获取结构化查询语言语句，并通过基于大数据分布式编程框架的结构化查询语言技术对所述结构化查询语言语句进行解析，得到可以在实时计算框架中运行的结构化查询语言语句解析结果；

所述批处理模块，用于基于实时计算框架技术，根据所述结构化查询语言语句解析结果配置预统规则，根据所述预统规则中的批规则对待处理数据进行批处理，以将所述待处理数据分解成若干段离散数据流；

所述数据流转换模块，用于将每一段所述离散数据流转换成弹性分布式数据集；

所述数据转换模块，用于根据实时计算框架技术中对离散数据流的转换操作方法，对所述弹性分布式数据集进行转换操作，得到中间结果数据；

2.如权利要求1所述的系统，其特征在于，所述系统还包括读取模块；

所述读取模块，用于获取所述待处理数据，并将所述待处理数据发送给所述数据处理模块进行处理。

3.如权利要求1所述的系统，其特征在于，所述系统还包括归并模块；

所述归并模块，用于应用与所述关系数据库相对应的归并方法，根据所述预统规则中的粒度规则对所述关系数据库中存放的所述可查询数据进行归并合成，得到统计粒度数据，并将所述统计粒度数据存入所述关系数据库中；所述关系数据库相对应的归并方法为HIVE关系数据库对应的MapReduce归并方法。

4.如权利要求1所述的系统，其特征在于，所述系统还包括结构化查询语言语句配置界面；

接收用户在所述配置界面配置的与业务需求对应的结构化查询语言语句，并将所述结构化查询语言语句传送至所述数据处理模块。

5.如权利要求3所述的系统，其特征在于，所述系统还包括关系数据库；

所述关系数据库具有查询接口，用于第三方通过所述查询接口查询所述关系数据库中存储的所述可查询数据或/和所述统计粒度数据。

6.一种基于大数据分布式编程框架的大数据预统方法，其特征在于，所述方法包括：

获取结构化查询语言语句，并通过基于大数据分布式编程框架的结构化查询语言技术对所述结构化查询语言语句进行解析，得到可以在实时计算框架中运行的结构化查询语言语句解析结果；

基于实时计算框架技术，根据所述结构化查询语言语句解析结果配置预统规则，根据所述预统规则中的批规则对待处理数据进行批处理，以将所述待处理数据分解成若干段离散数据流；

将每一段所述离散数据流转换成弹性分布式数据集；

根据实时计算框架技术中对离散数据流的转换操作方法，对所述弹性分布式数据集进行转换操作，得到中间结果数据；

7.如权利要求6所述的方法，其特征在于，所述方法还包括：

获取所述待处理数据，并将所述待处理数据发送给数据处理模块进行处理。

8.如权利要求6所述的方法，其特征在于，所述方法还包括：

应用与所述关系数据库相对应的归并方法，根据所述预统规则中的粒度规则对所述关系数据库中存放的所述可查询数据进行归并合成，得到统计粒度数据，并将所述统计粒度数据存入所述关系数据库中；所述关系数据库相对应的归并方法为HIVE关系数据库对应的MapReduce归并方法。

9.如权利要求6所述的方法，其特征在于，所述方法步骤还包括：

10.如权利要求8所述的方法，其特征在于，所述方法还包括：

第三方通过所述关系数据库的查询接口查询所述可查询数据或/和所述统计粒度数据。