CN103268336A

CN103268336A - 一种快数据和大数据结合的数据处理方法及其系统

Info

Publication number: CN103268336A
Application number: CN2013101762830A
Authority: CN
Inventors: 刘峰; 陈一飞; 杨冬; 郭鑫; 刘云程
Original assignee: 刘峰
Priority date: 2013-05-13
Filing date: 2013-05-13
Publication date: 2013-08-28

Abstract

本发明公开了一种快数据和大数据结合的数据处理方法，按如下步骤进行：（1）接收不同的数据源的数据输入，并按照“快数据”和“大数据”进行分类和传输；（2）“快数据”进入了实时交易模块，实时交易模块利用分布式内存对“快数据”进行实时的运算和查询；（3）全文检索模块对“快数据”的结果进行全文检索；（4）“大数据”进入海量历史数据分析模块，存储后进行完整的查询和统计分析；（5）应用模块接收步骤（2）、步骤（3）和步骤（4）中处理后的数据，根据需要进行终端展示。同时，本发明还提供一种快数据和大数据结合的数据处理系统。本发明成本低廉，资源按需分配，性能线性扩展并方便维护。

Description

一种快数据和大数据结合的数据处理方法及其系统

技术领域

本发明涉及一种数据处理方法及其系统，更具体的说，涉及一种快数据和大数据结合的数据处理方法及其系统，属于云计算数据处理技术领域。

背景技术

当今世界已经进入了“海量数据”的时代，海量数据的处理一般分为两类。一类是“活动数据”的处理，也被称为“快数据”，需要能够被实时的分析处理出结果反馈回用户；另外一类是“历史数据”的处理，也被称为“大数据”，海量的历史数据需要能够被使用低成本服务器和存储磁盘保存起来，并且通过接口方便的进行统计分析和数据挖掘。

在当前市面上，现有的技术主要分为以下几类。

1、数据库和数据仓库

于20世纪70年代产生的针对交易（OLTP）的数据库和于20世纪80年代产生的针对统计分析（OLAP）的数据仓库仍然是目前使用最广泛的提供数据处理服务的产品。但是，在进入“海量数据”时代后，面对TB级甚至PB级的海量数据，数据库和数据仓库的单点架构逐渐成了性能的瓶颈，只能迁移到更大的小型机或者大主机上，这终归只能权益之计，而且带来了成本的更大开销。随后，一些分布式的数据库和数据仓库逐渐诞生，比如Oracle的RAC， EMC的Greenplum， Sybase的IQ等，这些产品都具有一定程度的并行计算能力。但是扩展能力都有限，无法做到随着硬件资源的增加，性能得到线性的增长。其次，它们都是基于批处理方式设计的，无法应对实时业务的需求。最后，基于成本的考虑，Oracle的RAC是根据使用的用户数和硬件的CPU数计算费用的，而EMC的Greenplum是根据数据的容量来计算费用。这二者恰恰和大数据时代应用的“海量数据”和“高并发用户访问”相矛盾，因此在“海量数据”处理技术方面，它们很明显不是最优的选项。

2、NoSQL数据库和Cache缓存

目前市场上也出现了很多开源的NoSQL和缓存软件，比如Cassandra、 MongoDB、 Redis、Memcache等。这些开源软件各有特点，只能解决某一方面的问题，而不能作为整体的解决方案。其次，使用开源软件，带来的风险就是没有专门的服务部门来支持，必须自己建立专门的团队来进行运维，无形中又增加了成本。

3、一体机

近些年，一些大的厂商推出了“一体机”，也就是软硬件一体化的机器，号称可以解决“大数据”和“快数据”的双重需求。典型的例子就是SAP的HANA，Oracle Exadata。这些产品都是采用特别定制的硬件，然后搭配相对应的一些软件，作为一个整体，卖给客户，价格不菲，基本上都是千万级别起。

综上所述，在“海量数据”的时代，现有的技术无法有效处理“海量数据”所衍生的以下问题：

（1）数据的存储问题，单台机器的存储容量已经不足以容纳动辄PB级的数据，使用更大型的机器会造成硬件成本的大幅增加。

（2）数据的运算问题，单台机器的架构使得针对数据的运算都是串行进行的，在“海量数据”（数亿-数十亿条数据）的时代，使得运算时间大幅的增加，无法在客户要求的时间内得到结果。

（3）现有技术都是基于磁盘的，磁盘读写吞吐量的缓慢问题在“海量数据”下更加突出，使得读写效率都极其低下。

（4）现有技术无法动态的，水平式扩展服务器集群和存储问题，使得硬件资源必须按照最高需求来配备，无法“按需弹性扩展”，造成资源的浪费。

综上所述，现有技术无法在低成本的情况下，同时满足“快数据”的实时处理和“大数据”的批处理两种模式的需求，也无法做到资源按需分配，性能线性扩展和方便维护。

发明内容

本发明所要解决的技术问题是，克服现有技术的缺点，提供一种了成本低廉，资源按需分配，性能线性扩展并方便维护的快数据和大数据结合的数据处理方法。

同时，本发明还提供一种解决上述问题的快数据和大数据结合的数据处理系统。

为了解决以上技术问题，本发明提供一种快数据和大数据结合的数据处理方法，按如下步骤进行：

（1）接收不同的数据源的数据输入，整理成统一的格式后按照“快数据”和“大数据”进行分类，然后，将“快数据”传输到实时交易（OLTP）模块，将“大数据”传输到海量历史数据分析（OLAP）模块；

（2） “快数据”进入了实时交易（OLTP）模块，实时交易（OLTP）模块利用分布式内存（In Memory Computing）对“快数据”进行实时的运算和查询，并将运算或查询结果输出到应用模块（Apps）和全文检索模块（Lucene）；

（3）全文检索模块对实时交易（OLTP）阶段处理后的“快数据”的结果进行全文检索，并将全文检索后的数据输出到应用模块（Apps）；所述全文检索模块为开源的全文检索系统（Lucene）；所述全文检索模块为基于开源的全文检索架构所做的定制开发；

（4）“大数据”进入海量历史数据分析（OLAP）模块，首先利用分布式文件系统（HDFS）存储；然后，使用基于MapReduce并行计算模型的NoSQL分布式数据库HBase和分布式数据仓库Hive/Drill/Impala，对海量的历史数据进行完整的查询和统计分析；

（5）应用模块（Apps）接收步骤（2）、步骤（3）和步骤（4）中处理后的数据，根据需要进行终端展示。

本发明技术方案的进一步限定为，步骤（1）中所述的接收外部不同的数据源的数据输入时采用开源消息总线（Rabbit MQ）。

进一步地，步骤（4）中“大数据”进入海量历史数据分析（OLAP）模块后，利用Mahout进行数据挖掘，将提取出的信息或决策输出到应用模块（Apps）。

更进一步地，还包括数据转换步骤，将“快数据”从实时交易（OLTP）模块中移除，保存进入海量历史数据分析（OLAP）模块。

本发明提供的另一技术方案为：一种快数据和大数据结合的数据处理系统，包括数据输入与分类模块，用于接收不同的数据源的数据输入，整理成统一的格式后按照“快数据”和“大数据”进行分类，并将“快数据”传输到实时交易（OLTP）模块，将“大数据”传输到海量历史数据分析（OLAP）模块；

实时交易（OLTP）模块，用于利用分布式内存（In Memory Computing）对“快数据”进行实时的运算和查询，并将运算或查询结果输出到应用模块（Apps）和全文检索模块（Lucene）；

全文检索（Lucene）模块，用于对实时交易（OLTP）阶段处理后的“快数据”的结果进行全文检索，并将全文检索后的数据输出到应用模块（Apps）；

海量历史数据分析（OLAP）模块，用于利用分布式文件系统（HDFS）存储并使用基于MapReduce并行计算模型的NoSQL分布式数据库HBase和分布式数据仓库Hive/Drill/Impala对海量的历史数据进行完整的查询和统计分析，同时，利用Mahout进行数据挖掘，将提取出的信息或决策输出到应用模块（Apps）；

应用模块（Apps），用于接收实时交易（OLTP）模块、全文检索（Lucene）模块和海量历史数据分析（OLAP）模块处理后的数据，根据需要进行终端展示。

本发明的有益效果是：本发明提供的一种快数据和大数据结合的数据处理方法及其系统，根据目标行业的“大数据”和“快数据”的需求，把针对不同类型应用的云计算模块整合起来，做到了成本低廉（基于普通x86 PC机），资源按需分配，性能线性扩展，方便维护；本发明针对快数据的实时性要求，采取了内存计算（In Memory Computing）技术，利用内存读写的超低延迟，大大降低了传统的数据库和磁盘阵列读写缓慢的问题；本发明针对大数据的存储要求，利用知名的分布式框架（Hadoop），保证在上千个低成本商用硬件存储结点上处理PB级的数据；同时，本发明把分布式的云计算技术（MapReduce）和快数据、大数据有机的结合起来，可以对海量数据进行实时分析，承担高并发的查询，使用的硬件非常便宜，便于普及。

附图说明

图1为本发明的一种快数据和大数据结合的数据处理系统的结构示意图；

图2为本发明应用于道路交通高清监控系统海量数据处理的框架示意图。

具体实施方式

实施例1

本实施例提供的一种快数据和大数据结合的数据处理系统，其结构示意图如图1所示，包括数据输入与分类模块、实时交易（OLTP）模块、全文检索（Lucene）模块、海量历史数据分析（OLAP）模块和应用模块（Apps）。

数据输入与分类模块，用于接收不同的数据源的数据输入，整理成统一的格式后按照“快数据”和“大数据”进行分类，并将“快数据”传输到实时交易（OLTP）模块，将“大数据”传输到海量历史数据分析（OLAP）模块。

实时交易（OLTP）模块，用于利用分布式内存（In Memory Computing）对“快数据”进行实时的运算和查询，并将运算或查询结果输出到应用模块（Apps）和全文检索模块（Lucene）。

全文检索（Lucene）模块，用于对实时交易（OLTP）阶段处理后的“快数据”的结果进行全文检索，并将全文检索后的数据输出到应用模块（Apps）。

海量历史数据分析（OLAP）模块，用于利用分布式文件系统（HDFS）存储并使用基于MapReduce并行计算模型的NoSQL分布式数据库HBase和分布式数据仓库Hive/Drill/Impala对海量的历史数据进行完整的查询和统计分析，同时，利用Mahout进行数据挖掘，将提取出的信息或决策输出到应用模块（Apps）。

本发明提供的快数据和大数据结合的数据处理系统的工作方法按如下步骤进行：

（1）采用开源消息总线（Rabbit MQ）接收不同的数据源的数据输入，整理成统一的格式后按照“快数据”和“大数据”进行分类，然后，将“快数据”传输到实时交易（OLTP）模块，将“大数据”传输到海量历史数据分析（OLAP）模块。

利用开源消息系统Rabbit MQ接收外部不同的数据源的数据输入，整理成统一的格式，并且按照“快数据”和“大数据”的分类，分别把“快数据”传输到实时交易（OLTP）模块和“大数据”传输到海量历史数据分析（OLAP）模块。所述快数据是指需要“实时”的响应数据，历史积累的数据（包括快数据）为大数据。

（2） “快数据”进入了实时交易（OLTP）模块，实时交易（OLTP）模块利用分布式内存（In Memory Computing）对“快数据”进行实时的运算和查询，并将运算或查询结果输出到应用模块（Apps）和全文检索模块（Lucene）。

当“快数据”到达实时交易（OLTP）模块时，就进入了实时交易（OLTP）阶段。实时交易（OLTP）模块利用的是分布式内存计算（In Memory Computing），具有高并发、低延迟、高扩展性、持续可用性、分布式并行计算等特性。可以提供对“快数据”进行实时的运算和查询，运算或查询结果可以输出到应用程序（Apps）以供使用。

（3）全文检索模块对实时交易（OLTP）阶段处理后的“快数据”的结果进行全文检索，并将全文检索后的数据输出到应用模块（Apps）；所述全文检索模块为开源的全文检索系统（Lucene）。

如果应用模块（Apps）有全文检索的需求，那么“快数据”从实时交易（OLTP）阶段处理后的结果进入全文检索阶段，处理后得到的结果输出到应用程序（Apps）以供全文检索。本发明所述全文检索模块为基于开源的全文检索架构所做的定制开发，使用开源的全文检索系统Lucene，Lucene是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎。针对“大数据”，Lucene通过扫描文章中的每一个词，对每一个词建立一个索引，指明该词在文章中出现的次数和位置，当用户查询时根据建立的索引查找，类似于通过字典的检索字表查字的过程。

（4）“大数据”进入海量历史数据分析（OLAP）模块，首先利用分布式文件系统（HDFS）存储；然后，使用基于MapReduce并行计算模型的NoSQL分布式数据库HBase和分布式数据仓库Hive/Drill/Impala，对海量的历史数据进行完整的查询和统计分析；在需要进行数据挖掘时，利用Mahout进行数据挖掘，将提取出的信息或决策输出到应用模块（Apps）。

当“大数据”到达海量历史数据分析模块时，就进入了海量历史数据分析（OLAP）阶段。“大数据”首先利用分布式文件系统HDFS来存储，分布式文件系统HDFS具有的高容错高可靠性、高可扩展性、高吞吐率等特征，为海量数据提供了不怕故障的存储，为超大数据集的应用处理带来了很多便利。同时具备了较为完备的冗余备份和故障恢复机制，可以实现在集群中可靠的存储海量文件。

使用基于MapReduce并行计算模型的NoSQL分布式数据库HBase和分布式数据仓库Hive/Drill/Impala，可以对海量的历史数据进行完整的查询和统计分析。

如果需要对“大数据”进行数据挖掘，则可以利用Mahout，一个分布式的机器学习和数据挖掘框架，提取出来的信息或决策可以输出到应用程序（Apps）中以供使用。

应用模块（Apps）为数据输出的接收端，不同用途的应用模块（Apps）各取所需，因而可以同时满足“快数据”和“大数据”的需求。

（6）数据转换步骤，将“快数据”从实时交易（OLTP）模块中移除，保存进入海量历史数据分析（OLAP）模块。

活动数据（“快数据”），随着时间的推移，就会变成了历史数据（“大数据”），这时就进入了数据转换阶段，活动数据（“快数据”）从实时交易（OLTP）模块中移除，保存进入海量历史数据分析（OLAP）模块。

本发明提供的数据处理方法，实际应用于多个需要“大数据”和“快数据”结合处理的领域，下面进行详细举例。

1、本发明提供的快数据和大数据结合的数据处理方法在道路交通高清监控系统海量数据处理中的应用。

道路交通高清监控系统海量数据处理的结构框架图如图2所示，按如下步骤进行：

（1）前端数据采集阶段：将各个厂家的监控前端采集大量数据信息逐级向上汇集到消息总线Rabbit MQ，整理成统一的格式后按照“快数据”和“大数据”进行分类，把格式化的数据（车牌，车型，车的品牌等）作为“快数据”传输到实时交易（OLTP）模块，应对用户的高并发查询，把非格式化的数据（采集到的车辆的详细信息）作为“大数据”传输到海量历史数据分析（OLAP）模块，应对用户的“交互”查询和数据挖掘。

（2）为了应对“快数据”的实时性要求，本发明实时交易（OLTP）模块在VMware公司的GemFire的框架下进行了定制开发，GemFire是一款基于内存的，分布式的，水平无限扩展的数据处理平台，并且性能随着水平节点的增加做线性增长，从最初的几个节点可以按照需要扩展到成百上千个节点满足业务的需要，并且具备异地／广域网数据同步能力，它的广域网网关在较差的网络环境下也可以保证数据的可信传输。

Gemfire接收前段传入的车辆的结构化信息，实时的处理数据得到结果以供查询，可以支持的每秒数万次的并发查询以及毫秒级的响应时间。同时，利用异步的方式，可以把Gemfire中的数据备份到归档数据库中，以保证数据的高可用性。

（3）全文检索阶段为了满足用户全文检索的需求，特别加入了基于Lucene定制开发的全文检索模块，根据需求，对处理后的“快数据”进行全文的检索。

（4）海量历史数据分析（OLAP）模块采用的是开源的分布式系统Hadoop，海量的“大数据”可以存储在Hadoop的分布式文件系统HDFS中，同时，利用Hadoop的分布式NoSQL数据库Hbase和分布式数据仓库Hive可以提供基于大数据的统计和分析功能。

（5）地理信息模块，用来显示车辆的行车轨迹等，基于OpenGIS Web 服务器规范的 J2EE 实现，利用 GeoServer 可以方便的发布地图数据，允许用户对特征数据进行更新、删除、插入操作，通过 GeoServer 可以比较容易的在用户之间迅速共享空间地理信息。地理信息模块兼容WMS和WFS特性，支持PostGIS、Shapefile、ArcSDE、Oracle、VPF、MySQL、MapInfo，支持上百种投影；能够将网络地图输出为jpeg、gif、png、SVG、KML等格式。

（6）可扩展的应用服务器集群来接收查询结果的输出，“快数据”的查询结果，“大数据”的分析结果，地理信息查询的结果都在不同的查询指挥客户端上显示，因而可以同时满足“快数据”和“大数据”的需求。

本发明解决数亿到数十亿监控照片的非结构化的“海量存储”，并结合地理信息模块GIS，提供高效率的“海量数据”查询和轨迹跟踪。同时，整个系统都是基于云平台，可以按需弹性扩展资源，线性的提高性能。

2、本发明提供的快数据和大数据结合的数据处理方法在铁道部网上售票系统(www.12306.cn)中的应用。

铁道部网上售票原有系统是基于Sybase数据库的存储过程，出于系统的平稳过渡以及保护客户过去在IT系统的投资，采取新旧系统共存，逐步替换的方案。首先把查询分离出来，将传统设计的系统“脱胎换骨”改造成基于“云计算技术”的系统，解决系统的瓶颈，本发明应用于铁道部网上售票系统中的余票查询、订单查询和常用联系人查询中，余票查询因为并发查询量大（每秒3-4万次查询），数据量小（3千万左右笔数据），决定全部放入内存中，由实时交易（OLTP）模块处理。而订单和常用联系人因为数据量大，必须采用快数据和大数据结合的方式，由实时交易（OLTP）模块和海量历史数据分析（OLAP）模块协同处理，采用协同处理的方案后，大大的提高了数据的检索速度，提高了系统的性能。

和现有技术相比，本发明提出的技术方案在统一的云架构之上，可以提供实时处理及批处理两种模式，同时满足用户对“快数据”和“大数据”的处理需求，并为开发者、数据分析师、数据科学家和商务用户提供数据分析及可视化的数据展示，填补了国内本领域的空白，在国外同类型的产品中也处在领先地位。具体来说，有以下几点。

（1）大数据的低成本存储（支持PB级的海量数据）

HDFS是一个分布式文件系统，有着高容错性的特点，并且设计用来部署在低廉的硬件上。而且，HDFS提供高吞吐量来访问应用程序的数据，适合有着超大数据集的应用程序，HDFS的主要目标就是在存在故障的情况下也能可靠地存储数据。

（2）大数据的交互式查询

大数据在能“存”的下之后，自然需要面临如何“使用”的问题。数据分析师、商务用户等需要从大数据中“提取”出有用的信息。对于他们来说，最直接的方法就是使用SQL，SQL仍然是数据查询和分析中使用最广泛的语言。因此，Hive及其后续的Drill/Impala，因为能够将SQL转换成MapReduce任务在Hadoop上执行查询和分析，得到了广泛的使用。

（3）快数据的“实时”访问，支持每秒高达数万次的并发访问和毫秒级的响应时间

快数据的访问一般具有两个特点：高并发和低延迟，也就是需要“实时”的响应。每秒高达数万次的并发访问和毫秒级的响应时间，通常是基于磁盘IO的架构无法支撑的，这就引出了分布式内存计算（In Memory Computing）的概念。如果客户有“全文检索”的需求，也能很容易的嵌入进去。

（4）系统资源“按需分配”和系统性能“水平弹性扩展”

整个系统是基于分布式云计算的架构，从架构上就解决了目前同类产品海量数据的计算存储瓶颈和计算瓶颈，为系统功能的实现铺平了道路。并且由于这种架构使得后续的系统扩展变得简单和有效，亦即随着后续系统海量数据量的增长，系统可以弹性、可靠、简便的从最初的几个节点可以按照需要扩展到成百上千个节点，如此可以实现系统功能的平滑升级。

除上述实施例外，本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案，均落在本发明要求的保护范围。

Claims

1.一种快数据和大数据结合的数据处理方法，其特征在于，按如下步骤进行：

（1）接收不同的数据源的数据输入，并按照“快数据”和“大数据”进行分类，然后，将“快数据”传输到实时交易模块，将“大数据”传输到海量历史数据分析模块；

（2） “快数据”进入了实时交易模块，实时交易模块利用分布式内存对“快数据”进行实时的运算和查询，并将运算或查询结果输出到应用模块和全文检索模块；

（3）全文检索模块对实时交易阶段处理后的“快数据”的结果进行全文检索，并将全文检索后的数据输出到应用模块；

（4）“大数据”进入海量历史数据分析模块，首先利用分布式文件系统存储；然后，使用基于MapReduce并行计算模型的NoSQL分布式数据库HBase和分布式数据仓库Hive/Drill/Impala，对海量的历史数据进行完整的查询和统计分析；

（5）应用模块接收步骤（2）、步骤（3）和步骤（4）中处理后的数据，根据需要进行终端展示；所述快数据是指需要“实时”的响应数据，历史积累的数据（包括快数据）为大数据。

2.根据权利要求1所述的快数据和大数据结合的数据处理方法，其特征在于，步骤（1）中所述的接收外部不同的数据源的数据输入时采用开源消息总线。

3.根据权利要求1所述的快数据和大数据结合的数据处理方法，其特征在于，步骤（4）中“大数据”进入海量历史数据分析模块后，利用Mahout进行数据挖掘，将提取出的信息或决策输出到应用模块。

4.根据权利要求1所述的快数据和大数据结合的数据处理方法，其特征在于，还包括数据转换步骤，将“快数据”从实时交易模块中移除，保存进入海量历史数据分析模块。

5.一种快数据和大数据结合的数据处理系统，其特征在于，包括数据输入与分类模块，用于接收不同的数据源的数据输入，按照“快数据”和“大数据”进行分类，并将“快数据”传输到实时交易模块，将“大数据”传输到海量历史数据分析模块；

实时交易模块，用于利用分布式内存对“快数据”进行实时的运算和查询，并将运算或查询结果输出到应用模块和全文检索模块；

全文检索模块，用于对实时交易阶段处理后的“快数据”的结果进行全文检索，并将全文检索后的数据输出到应用模块；

海量历史数据分析模块，用于利用分布式文件系统存储并使用基于MapReduce并行计算模型的NoSQL分布式数据库HBase和分布式数据仓库Hive/Drill/Impala对海量的历史数据进行完整的查询和统计分析，同时，利用Mahout进行数据挖掘，将提取出的信息或决策输出到应用模块；

应用模块，用于接收实时交易模块、全文检索模块和海量历史数据分析模块处理后的数据，根据需要进行终端展示。