CN106776810A

CN106776810A - 一种大数据的数据处理系统及方法

Info

Publication number: CN106776810A
Application number: CN201611051473.XA
Authority: CN
Inventors: 黄强
Original assignee: Guangdong Fruit Technology Co Ltd
Current assignee: Guangdong Fruit Technology Co Ltd
Priority date: 2016-11-24
Filing date: 2016-11-24
Publication date: 2017-05-31
Anticipated expiration: 2036-11-24
Also published as: CN106776810B

Abstract

本发明公开了一种大数据的数据处理系统及方法，该系统包括容器节点模块、数据查询节点模块、历史数据节点模块、zoopeeker和HDFS，所述zoopeeker用于协调管理所述容器节点模块、数据查询节点模块以及历史数据节点模块的工作状态；数据查询节点模块用于获取查询条件并生成对应的查询任务，然后将对应的查询任务分配给容器节点模块以及历史数据节点模块，并接收容器节点模块返回的第一查询结果以及容器节点模块返回的第二查询结果；所述数据查询节点模块还用于根据第一查询结果和第二查询结果生成最终查询结果并输出。本发明能够大大提高查询性能，从而实现真正意义上的大数据的加速。

Description

一种大数据的数据处理系统及方法

技术领域

本发明涉及大数据领域，尤其涉及一种大数据领域的数据处理系统及方法。

背景技术

当前的大数据的方案解决了数据存储和分析，然后分析的性能低，究其原因为：缺少索引技术，来提高数据快速扫描和聚合；缺少针对索引分片合并的分布式索引技术。一般来说，采用如下三种方案：

1、OLAP(On-Line Analysis Processing，联机分析处理)解决方案，其利用了Hbase作为存储，对数据进行预聚合处理，可以满足常用的报表需求，但只支持少量数据维度。

2、GreenPlum，其是一种MPP(Massive Parallel Processor，大量并行处理)数据库，主要涉及思想是每台机器一个数据库，利用并行计算能力提高查询分析速度，在一定数据量的情况下做到秒级响应，但是其集群规模有上限，无法满足大数据的实时分析查询。

3、Presto或Impala，其利用Parquet或者OrcFile作为底层数据存储，同Hbase一样作为简单的列式存储，在查询有限维度的情况下有不错的查询效果，但缺少正向索引，在多维查询或者聚合查询时性能较差。

针对上述三种方案：第一种，采用OLAP的方式，可以满足业务报表需求，但是缺点非常明显，需要多数据做预聚合处理，在预聚合的过程中会损失数据信息的完整性，无法满足的大数据信息挖掘。另外，大数据的OLAP通常是一种用空间换时间的方案，反向索引的功能较弱，在维度数据较多基数较大的情况下，数据会急剧膨胀，最终导致数据查询分析性能低。第二种，采用MPP的方式，由于采用的是没有中心节点的存储模型，集群节点扩展不方便，且在上百个节点后，难以继续扩展。另外，MPP采用的精细化内存管理，这在小数据量的情况下能做到低延迟，但在大数据量的情况下，无法做到高IO，同时也会导致计算时大量消耗CPU。第三种，采用Parqeut、OrcFile或者Hbase等简单的列式存储，这种方式能够在一定程度上解决数据查询IO高的问题，查询维度较多时，IO的问题依然存在，查询性能也随之下降。另外，由于缺少正向索引，在查询分析需要对数据进行聚合时，无法做到低延迟，并且IO相当高。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种大数据的处理系统，其能够提高大数据中处理数据的查询性能，实现大数据的加速。

本发明的目的之一采用以下技术方案实现：

本发明提供了一种大数据的数据处理系统，包括容器节点模块、数据查询节点模块、历史数据节点模块、zoopeeker和HDFS，所述容器节点模块、数据查询节点模块、历史数据节点模块分别与zoopeeker数据通信，所述容器节点模块、历史数据节点模块分别与HDFS数据通信；所述zoopeeker用于协调管理所述容器节点模块、数据查询节点模块以及历史数据节点模块的工作状态；

所述数据查询节点用于接收查询条件并根据所述查询条件生成对应的查询任务，然后将所述查询任务分发到历史数据节点模块以及容器节点模块；

所述容器节点模块用于获取外部实时数据，并根据对应的查询任务以及外部实时数据得出第一查询结果，并将所述第一查询结果返回给数据查询节点模块；

所述历史数据节点用于根据对应的查询任务从HDFS上下载数据段并查询，得到第二查询结果，并将所述第二查询结果返回给数据查询节点模块；

所述数据查询节点还用于根据所述第一查询结果和第二查询结果生成最终查询结果并输出。

优选地，所述容器节点模块用于将外部实时数据生成索引数据文件，并将所述索引数据文件以数据段的形式上传至HDFS。

优选地，所述索引数据文件包括词典文件、元数据文件、倒排索引文件和列正向索引文件。

优选地，还包括数据管理节点模块，所述数据管理节点模块与所述Zoopeeker数据通信，所述数据管理节点模块用于对HDFS上存储的数据段进行更新、删除以及修改操作。

优选地，所述容器节点模块还用于启动实时任务，所述实时任务用于根据对应的查询条件以及外部实时数据进行查询并得出对应的第一查询结果。

优选地，还包括任务管理节点模块，所述任务管理节点模块与zoopeeker数据通信；所述任务管理节点模块用于对实时任务的调度、关闭以及运行的监控。

为了克服现有技术的不足，本发明的目的之二在于提供一种大数据的处理方法，其能够提高大数据中处理数据的查询性能，实现大数据的加速。

本发明的目的之二采用以下技术方案实现：

本发明还提供了一种大数据的数据处理方法，其应用于如前所述的大数据的数据处理系统，包括以下步骤：

通过数据查询节点模块获取查询条件，并根据所述查询条件生成对应的查询任务；

通过数据查询节点模块将对应的查询任务分别分配给历史数据节点模块与容器节点模块；

通过容器节点模块根据对应的查询任务以及获取的外部实时数据得到第一查询结果；通过历史数据节点模块根据对应的查询任务以及HDFS上下载的数据段得到第二查询结果；

通过数据查询节点根据容器节点模块返回的第一查询结果以及历史数据节点模块返回的第二查询结果生成最终查询结果并输出。

优选地，所述容器节点模块还将获取的外部实时数据生成对应的索引数据文件，并将所述索引数据以数据段的形式上传至HDFS存储。

优选地，还包括通过数据管理节点模块对HDFS上存储的数据段进行更新、删除以及修改操作。

优选地，所述容器节点模块还用于启动实时任务，所述实时任务用于根据对应的查询条件以及外部实时数据进行查询并得出对应的第一查询结果；还包括通过任务管理节点模块对实时任务进行调度、关闭以及运行的监控。

相比现有技术，本发明的有益效果在于：本发明通过将海量数据转换为索引数据文件，并以数据段的形式存储于HDFS上，保证了数据的完整性和可靠性；在查询时，通过采用Sharding Nothing的架构，使得各个节点模块之间的运行相互独立，实现系统的高可用性；由于查询依赖与索引数据文件，从而大大提高了查询性能，实现了真正意义上的大数据加速。

附图说明

图1为本发明所提供的大数据的数据处理系统模块图；

图2为本发明所提供的数据结构示意图；

图3为本发明所提供的大数据的数据处理方法流程图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述：

如图1所示，本发明提供了一种大数据的数据处理系统，其能够在大数据的环境下快速查询数据，包括分布式查询系统和建立索引数据文件两个方面。首先根据时间和时间段的分区数将数据进行分片，打散到不同的数据节点，每个数据节点利用索引方便数据的快速扫描和聚合。由于数据被打散，每个节点数据计算的结果需要进行再次合并，结合分布式查询系统，当查询到每个独立的数据节点首先单独查询自己内部在查询范围内的分片数据，再将单独查询的结果进行二次合并，从而得到查询的真正结果。

其中建立索引数据文件的方法如下:

首先，假如有一份数据：

国家	省份	性别	年龄	收入
					中国	河南	男	27
中国	海南	女	30
					外国		男	27
中国	广东	男	50
					中国	广东	女	50

当接收到数据时，首先将上述数据建立一个三层结构，如图2所示。

从上述三层结构中可以得出，一方面来说可以生成一种列式存储结构，另一方面可以形成倒排索引。列式存储的好处是在查询的时候可以只扫描关注的信息。例如查询“中国”相关的数据，只需要扫描国家这一列数据就能快速的定位数据。而倒排索引指的是通过根据属性的指来查找记录的位置。为了提高查询效率和节约IO，本发明中所建立的索引数据文件包括元数据文件、词典文件、行倒排索引文件和列正向索引文件。

其中元数据文件是管理数据结构维度层，包括每一列维度的名称、类型以及响应值的偏移位置。

所述词典文件是针对每一列维度值建立对应的字典标签，便于建立索引时信息压缩，同时记录每一个维度值的倒排索引的偏移位置。

由于倒排索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。其不是由记录来确定属性值，而是由属性值来确定记录的位置，因而成为倒排索引。带有倒排索引的文件被称为倒排索引文件。在本文中，倒排索引文件中保存了维度值与行号之间的映射关系，也即是通过维度值查找到行号。比如，在查询时，根据该倒排索引文件根据查询条件找到满足所述查询条件的所有行号。比如查询条件为满足“广东，男”的数据记录，首先根据“广东”与“男”可以找到满足“广东，男”的所有的数据记录的行号(比如行号为4)。

而列正向索引文件与倒排索引正好相反，其是通过行号来查找维度值。通过倒排索引文件可以快速的查询到满足所述查询条件所对应的所有行号，最终结合列正向索引文件来查找到上述行号所对应的信息。

本发明中通过利用词典建立相应列值的标签，然后建立对应的倒排索引文件和列正向索引文件。另外，在建立索引文件的时，还采用压缩算法降低索引文件的大小，进一步降低系统的消耗。本发明在查询时，根据查询条件利用倒排索引来加速数据的查询，然后结合列正向索引来满足数据聚合。另外，在存储索引数据文件时，还采用开源分布式系统HDFS来存储，保证了数据的分布式和可靠性。

当面对海量数据时，单机的处理有限，因此需要按照分布式集群的计算能力，因此，本发明还引入了分布式框架来实现索引的分布式系统。

该分布式系统包括容器节点模块、任务管理节点模块、历史数据节点模块、数据管理节点模块、数据查询节点模块、HDFS以及开源框架zookeeper。其中，采用开源框架zookeeper协调各个节点模块的信息，这里所述的节点表示机器，比如，可以是一台计算机，一台服务器等。HDFS用于存储上述建立索引的过程所形成的索引数据文件，也即是可以说是历史数据。HDFS是开源的分布式文件系统，其能够提供高吞吐量的数据访问，非常适合大规模数据集上的应用，因此本发明中存储索引数据文件采用HDFS来存储。

数据查询节点模块用于接收查询条件并根据所述查询条件分配查询任务给容器节点模块和历史数据节点模块，以及接收容器节点模块与历史数据节点模块所返回的查询结果，最后将容器节点模块所返回的查询结果与历史数据节点模块所返回的查询结果进行聚合后输出最终查询结果。

而容器节点模块用于接收外部实时数据，建立对应的索引数据文件，并根据所述查询条件查询得到对应的查询结果以及将该查询结果返回给数据查询节点模块；所述容器节点模块还用于将所述索引数据文件上传到HDFS中存储。

优选地，为了提高并发性，将海量数据可实时分配到多个实时任务节点上。也即是，所述容器节点模块还用于启动实时任务节点，该实时任务节点用于获取外部数据源，并生成索引数据，然后根据数据查询节点模块分配的查询任务进行查询并得到查询结果，待查询任务完成后，将索引数据以数据段的形式上传到HDFS上存储，并将查询结果返回给数据查询节点模块。所述实时数据是指从网络或外部渠道获取到的实时数据，当接收到该实时数据后，首先将该实时数据通过本发明中建立索引文件的方法建立索引数据，然后根据查询条件与索引数据查询得到查询结果，最终将该查询结果返回给数据查询节点模块。

所述任务管理节点模块用于负责分配容器节点模块中对实时任务的调度、关闭以及运行的管理。比如，当其中一个实时任务出现故障时，可将该实时任务挂起或关闭，从而启动其他的实时任务。

所述历史数据节点模块用于从HDFS上下载数据段并解析，然后根据查询条件进行查询得到查询结果并返回给数据查询节点模块。由于HDFS上存储的数据段均是通过上述建立索引的过程所生成的索引数据，因此，下载到该数据段后不需要在对其进行建立索引，直接根据查询条件查询即可。

所述数据管理节点模块用于对HDFS上存储的数据段进行管理，包括对数据段的删除、更新、存储等操作。另外，由于元数据文件中保存了数据结构中的每一列的维度名称、维度值以及对应的偏移位置，因此，数据管理节点模块对于数据段的管理，其实是对元数据文件的管理。

而开源框架zoopeeker是对容器节点模块、数据查询节点模块、历史数据节点模块、任务节点模块以及数据管理节点模块之间进行协调管理和调度的，从而实现各个节点模块之间的数据共享。zoopeeker是一个开源技术框架，其核心是消息处理原子性，能够保持所有的server同步。在本发明中，比如数据管理节点模块可能有多个，当其中一个数据管理节点模块出现故障时，可通过该zoopeeker及时地将其他数据管理节点模块启动，从而能够及时地将各个节点模块之间的数据达到共享。另外，对于上述各个节点模块之间除了元数据需要数据管理节点模块对其进行同步外，每个节点模块之间的计算资源各自独立，实现了Sharding Nothing的架构，使得各个节点模块之间相互无影响，可根据需要自由添加节点模块，从而实现系统的高可用性和扩展性。另外，在查询执行过程中，运用了索引数据的特性，可大大提高查询性能，大大提高了查询的效率。

另外，对于本发明中的各个节点模块都可以设置为多个，根据具体的实际需求来设置即可。比如数据管理节点模块，可以设置多个，当其中一个机器出现故障时，可以及时启动其他的机器，以免由于机器的损坏，导致不能够对数据进行管理。其他的节点模块同样如此。

如图3所示，本发明提供了一种大数据的数据处理方法，其应用于如本发明中所述的大数据的数据处理系统，其包括以下步骤：

通过数据查询节点模块获取查询条件，并根据所述查询条件生成对应的查询任务。

通过数据查询节点模块将对应的查询任务分别分配给历史数据节点模块与容器节点模块。

也即是，首先数据查询节点模块获取到查询条件，生成对应的查询任务，然后将对应的查询任务分配给历史数据节点模块和容器节点模块，使得历史数据节点模块、容器节点模块分别执行对应的查询任务。

通过容器节点模块根据对应的查询任务以及获取的外部实时数据得到第一查询结果。这里的外部实时数据是指从外部渠道，比如网络中获取的实时数据，容器节点模块根据该实时数据以及接收到的查询任务对其进行查询，从而得到第一查询结果，并将第一查询结果返回给数据查询节点模块。

通过历史数据节点模块根据对应的查询任务以及HDFS上下载的数据段得到第二查询结果。所述历史数据节点模块首先从HDFS中国下载到系统预先存储的数据段，并根据查询任务进行查询，从而得到第二查询结果，并将该第二查询结果返回给数据查询节点模块。这里的数据段是存储于HDFS上的，本系统中首先通过上述建立索引数据文件的方式将系统接收到的数据转换为索引数据文件，并以数据段的形式存储于HDFS上。

另外，对于历史数据节点模块与容器节点模块根据对应的查询任务进行查询时，没有先后执行的顺序，其是同步进行的。

通过数据查询节点模块根据容器节点模块返回的第一查询结果以及历史数据节点模块返回的第二查询结果生成最终查询结果并输出。系统通过数据查询节点模块将第一查询结果和第二查询结果进行整合后得到最终的查询结果并输出，从而实现查询的目的。

优选地，所述容器节点模块还将获取的外部实时数据生成对应的索引数据文件，并将所述索引数据文件以数据段的形式上传至HDFS存储。

优选地，还包括通过数据管理节点模块对HDFS上存储的数据段进行更新、删除以及修改等操作。该数据管理节点模块对于数据段的更新、删除以及修改等操作，应是对元数据文件进行操作。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种大数据的数据处理系统，其特征在于，包括容器节点模块、数据查询节点模块、历史数据节点模块、zoopeeker和HDFS，所述容器节点模块、数据查询节点模块、历史数据节点模块分别与zoopeeker数据通信，所述容器节点模块、历史数据节点模块分别与HDFS数据通信；所述zoopeeker用于协调管理所述容器节点模块、数据查询节点模块以及历史数据节点模块的工作状态；

2.如权利要求1所述大数据的数据处理系统，其特征在于，所述容器节点模块用于将外部实时数据生成索引数据文件，并将所述索引数据文件以数据段的形式上传至HDFS。

3.如权利要求1所述大数据的数据处理系统，其特征在于，所述索引数据文件包括词典文件、元数据文件、倒排索引文件和列正向索引文件。

4.如权利要求1所述大数据的数据处理系统，其特征在于，还包括数据管理节点模块，所述数据管理节点模块与所述zoopeeker数据通信，所述数据管理节点模块用于对HDFS上存储的数据段进行更新、删除以及修改操作。

5.如权利要求1所述大数据的数据处理系统，其特征在于，所述容器节点模块还用于启动实时任务，所述实时任务用于根据对应的查询条件以及外部实时数据进行查询并得出对应的第一查询结果。

6.如权利要求5所述大数据的数据处理系统，其特征在于，还包括任务管理节点模块，所述任务管理节点模块与zoopeeker数据通信；所述任务管理节点模块用于对实时任务的调度、关闭以及运行的监控。

7.一种大数据的数据处理方法，其应用于如权利要求1所述的大数据的数据处理系统，其特征在于，包括以下步骤：

8.如权利要求7所述大数据的数据处理方法，其特征在于，所述容器节点模块还将获取的外部实时数据生成对应的索引数据文件，并将所述索引数据以数据段的形式上传至HDFS存储。

9.如权利要求7所述大数据的数据处理方法，其特征在于，还包括通过数据管理节点模块对HDFS上存储的数据段进行更新、删除以及修改操作。

10.如权利要求7所述大数据的数据处理系统，其特征在于，所述容器节点模块还用于启动实时任务，所述实时任务用于根据对应的查询条件以及外部实时数据进行查询并得出对应的第一查询结果；还包括通过任务管理节点模块对实时任务进行调度、关闭以及运行的监控。