CN103294799A

CN103294799A - 一种数据并行批量导入只读查询系统的方法及系统

Info

Publication number: CN103294799A
Application number: CN2013102013726A
Authority: CN
Inventors: 申林; 薛继龙; 杨智; 代亚非
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2013-05-27
Filing date: 2013-05-27
Publication date: 2013-09-11
Anticipated expiration: 2033-05-27
Also published as: CN103294799B

Abstract

本发明涉及一种数据并行批量导入只读查询系统的方法及系统，系统由协调器，Hadoop驱动程序模块与线上查询系统驱动模块组成，方法为：1）接收原始特征数据请求，并转发到Hadoop进行处理；2）根据节点映射规则在Hadoop上建立Map/Reduce任务并在每个reducer任务节点上生成特征数据的数据块；3）将数据块放置到Hadoop对应节点上，并通过只读查询系统并行读取对应节点上的数据块。本发明利用Hadoop的并行框架处理特征数据，避免线下系统导回线上系统过程中的索引计算和副本计算对线上系统计算资源的消耗。同时将Hadoop形成的数据块，在后台并行异步的读取到线上系统上，减少对线上系统影响。

Description

一种数据并行批量导入只读查询系统的方法及系统

技术领域

本项发明涉及一种数据导入方法，具体涉及一种高效将线下数据批量导入线上只读查询系统的方法，属于云计算领域。

背景技术

Internet上的数据在爆发式的增长，而这些数据的背后可能存在着不容易发现的关联，需要数据挖掘来找出。比如，社交网络和电子商务网站中的海量数据背后就隐藏着巨大的信息。在社交网络里，“你可能认识的好友”就是一个典型的应用场景，应用程序可以根据两个人之间的直接共同好友数以及二跳好友数，来计算出两个人的亲密程度，并推荐好友；在电子商务网站里，应用程序可以根据顾客之前购买物品的种类、样式、价格等因素，计算出顾客的购物模式和喜好，并在下一次购物时提供相关的物品推荐。

Map/Reduce是近年来流行的分布式并行计算框架，利用映射（Map）和化简（Reduce）两个过程，先接受一组数据并将其转换成一个键/值对列表，分散到不同节点上进行计算，再根据主键对数据结果进行归并，产生最终结果。Hadoop是Map/Reduce计算框架的一个开源实现。

提供在线服务的网站一般都有搜索系统或者分类查询系统，因为查询查询系统的数据读取比例远高于数据写入比例（一般互联网应用的读写比例大于80:20），这些系统设计时会牺牲写性能而保证读性能，这样的系统一般称之为只读查询系统。只读查询系统并非系统没有数据写入，而是数据写入的频率非常低，而且每次写入都是批量导入，没有持续数据更新。这样设计的目的一方面是提高查询系统的数据读取效率，另一方面是减少数据写入给系统带来的出错概率和性能的降低。

Apache Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发，用于储存收件箱等简单格式数据，集Google BigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身。Facebook于2008将Cassandra开源，此后，由于Cassandra良好的可扩放性，被Digg、Twitter等知名Web2.0网站所采纳，成为了一种流行的分布式结构化数据存储方案。本发明采用Cassandra作为只读查询系统，验证方法及系统的有效。

无论进行何种数据分析，都要需要对特征数据（feature data）进行处理。这个处理过程一般分为三个阶段：特征数据收集、数据处理及将计算结果导回线上系统。为了保证线上系统有足够的计算资源，现有的模式是在线下分析系统上完成特征数据收集和数据处理这两个阶段，之后将计算结果导回线上查询系统，如图1a所示。这种模式简单可靠，但数据导回过程中存在两个问题：1.一般数据导回都是通过线上系统的读写接口串行拷贝数据，在某一个时间点，线上系统只有有限的节点在进行存储操作，效率较低；2.在串行拷贝结束后，线上系统会对新数据进行索引的创建和副本的创建，这个过程消耗大量的CPU和内存资源，影响线上系统的服务吞吐。

发明内容

本发明的目的在于提供一种从线下系统将数据导回线上系统过程中，减小线上压力，保证线上系统提供持续高可靠服务的方法。

本发明的技术方案为：一种数据并行批量导入只读查询系统的方法，其步骤包括：

1）接收原始特征数据请求，并转发到Hadoop进行处理；

2）根据节点映射规则在所述Haddoop上建立多个Map/Reduce任务并在每个reducer任务节点上生成特征数据的数据块；

3）将所述数据块放置到Hadoop的对应节点上，并通过只读查询系统并行读取Hadoop上的对应节点上的数据块。

更进一步，所述数据块进行并行读取的方法如下：

1）根据Hadoop上的驱动程序得到生成数据块的数目以及对应存放的Hadoop节点，并转发到只读查询系统的驱动程序；

2）根据所述数据块的存放位置读取对应数据，并按照数据块头部的位置信息，存储到只读查询系统自身的节点下。

更进一步，在每个reducer任务节点上生成数据块文件储存格式为：数据块索引文件和数据文件。

更进一步，所述步骤3）中并行读取时，只读查询系统节点并行从Hadoop节点上读取数据块，并形成自己的数据副本，放置在只读查询系统节点的存储目录store中。

更进一步，所述步骤3）还包括对数据块进行数据替换，当所有数据副本已经读取完毕，则触发所述只读查询系统驱动程序对新老版本数据块进行替换，形成新的数据版本时等待所有副本都读取完毕，再进行数据块替换。

更进一步，所述数据块替换方法为：当只读查询系统的驱动程序检测到数据块的读取状态为未读状态，则锁定老版本数据块；并将只读查询系统节点的工作目录指向新版本数据的工作目录将索引数据加载到内存并将老版本数据索引释放后解锁该老版本数据块。

更进一步，当在运行过程中发现版本数据错误，则从新版本转换为老版本。

更进一步，所述只读查询系统为Cassandra。

本发明还提出了一种数据并行批量导入只读查询系统的系统，包括：线上查询系统和hadoop框架，还包括：协调器，Hadoop驱动程序模块与线上查询系统驱动模块，

所述Hadoop驱动程序模块接收协调器的数据处理请求，并转换成Map/Reduce任务；Map/Reduce处理的结果产生可以被线上系统直接读取的带有索引的数据块；

所述线上查询系统驱动程序模块是协调器控制线上系统的接口，用于通知线上系统的每一个节点，从对应的Hadoop存储节点上将数据块并行读取到线上系统的存储文件夹下，并形成新的数据版本；

当所有节点完成新数据版本的更新后，协调器通知将线上查询系统驱动程序将工作版本的路径重定向到新的版本路径；

所述协调器用于接受并转发所述查询请求，控制模块间数据处理的开始和结束，并将上一步骤的输出作为下一步骤的输入协调整个处理方法流程。

本发明的有益效果：

本发明可以有效减少线上系统负担，增强线上系统服务能力，并使得线上系统可以快速在不同数据版本之间进行切换。本发明的一个方面是利用Hadoop的并行框架处理特征数据，线下形成索引和副本，直接将计算结果转化成线上系统可用的存储数据块，避免线下系统导回线上系统过程中的索引计算和副本计算对线上系统计算资源的消耗。

本发明的另一个方面是将Hadoop形成的数据块，在后台并行异步的读取到线上系统上，减少对线上系统的影响。新的数据块形成新的数据版本，不影响老的数据版本在线上系统服务，在新数据块更新结束，将线上系统的工作目录指向新版本，减少数据更新中切换的时间。数据版本的引入，支持系统快速更新以及故障回滚操作。

附图说明

图1a是现有技术中离线数据处理通用方法示意图，图1b是本发明数据并行批量导入只读查询系统的方法示意图；

图2是本发明数据并行批量导入只读查询系统的方法一实施例中并行批量数据导回方案的组件与流程示意图；

图3是本发明数据并行批量导入只读查询系统的方法一实施例中Reducer生成SSTable内部结构示意图；

图4是本发明数据并行批量导入只读查询系统的方法一实施例中Cassandra节点从Hadoop节点上并行读取SSTable示意图；

图5是本发明数据并行批量导入只读查询系统的方法一实施例中SSTable在Cassandra节点上存放方式及新旧版本存放方式示意图；

图6是本发明数据并行批量导入只读查询系统的方法一实施例中Cassandra和MySQL作为线上系统数据大小和处理时间的结果对比示意图；

图7是本发明数据并行批量导入只读查询系统的方法一实施例中Cassandra和MySQL作为线上系统数据大小和CPU高负载时间的结果对比示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，可以理解的是，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本方法的详细流程和流程中每一步的输入输出会在实施步骤中详细阐述。

如图1b所示是本发明数据并行批量导入只读查询系统的方法示意图。

本发明利用Map/Reduce技术，以及线下分析系统（Hadoop）的并行处理能力，将数据导回过程中的索引创建和副本创建放入Hadoop中并行处理。同时将原有的串行拷贝过程改造成线上节点和线下节点之间的并行拷贝过程。

本发明的适用范围为只读查询系统，所述只读查询系统只有数据导入和查询操作，不牵涉到数据更新操作。

如图2所示是本发明数据并行批量导入只读查询系统的系统一实施例中并行批量数据导回方案的模块与流程示意图。

并行批量数据导回技术主要分三个部分：协调器Coordinator，Hadoop驱动程序HadoopDriver模块与线上查询系统驱动Online System Driver模块（即HBase/Cassandra Driver）。其中：

协调器Coordinator是整个批量数据处理系统的控制核心。它负责任务的调度、流程的控制、接受并转发查询请求，并支持定期任务的实施。它控制数据处理并导回过程中每一步骤的开始和结束，并将上一步骤的输出作为下一步骤的输入协调整个处理方法流程。

Hadoop驱动程序Hadoop Driver模块是接收Coordinator的数据处理请求，并转换成Map/Reduce任务。Map/Reduce处理的结果产生带有索引的数据块，这些数据块可以被线上系统直接读取，无需再进行索引计算和副本放置等操作。

Online System Driver模块是Coordinator控制线上系统的接口，其中的HBase/Cassandra Driver是针对于HBase和Cassandra系统的具体实现。这部分的主要功能是通知线上系统的每一个节点，从对应的Hadoop存储节点上将数据块并行读取到线上系统的存储文件夹下，并形成新的数据版本。当所有节点完成新数据版本的更新后，Coordinator通知将Online System Driver将工作版本的路径重定向到新的版本路径。如果线上发现新的数据版本有错误，可以通过Coordinator控制将数据回滚到上一个版本。

如图2所示是本发明数据并行批量导入只读查询系统的方法一实施例中并行批量数据导回方案的组件与流程示意图，下面以Cassandra作为线上系统使用的只读查询系统的例子，对本发明的具体流程进行详细说明。

本发明为了解决从线下系统将数据导回线上系统过程中，线上系统只有有限的节点在进行存储操作效率较低，或者线上系统会对新数据进行索引的创建和副本的创建，会消耗大量的CPU和内存资源，影响线上系统的服务吞吐的技术问题。以下是解决该技术问题所采用的具体技术手段：当Coordinator接收到一个原始数据处理请求之后，系统的运行流程如下：

步骤一：触发数据处理（Trigger Build）。此步骤，Coordinator接收到外部的原始特征数据处理请求命令，并将请求转发到Hadoop Driver上。

步骤二：数据处理（Build）。此步骤，Hadoop Driver将任务转换成Map/Reduce任务，每一个Reducer负责生成一个Cassandra的数据块，即SSTable。SSTable中包含生成数据的索引文件和数据文件，如图3所示是本发明数据并行批量导入只读查询系统的方法一实施例中Reducer生成SSTable内部结构示意图。索引文件和数据文件的格式由具体线上系统确定，SSTable为Cassandra的文件存储格式。每个Reducer生成数据块后，就按照Hadoop的存储规则将数据块存放在Hadoop节点上。

步骤三：触发数据获取（Trigger Fetch）。此步骤，Coordinator检测到Build阶段已经完成，线上系统Cassandra需要的SSTable已经放置在Hadoop上的相应节点上，开始触发线上系统的Cassandra Driver开始进行数据读取。

在本发明一实施例中，对步骤三中的数据块进行并行读取（Parallel Fetch）。Coordinator会从Hadoop Driver处得知生成数据块的数目，以及在Hadoop节点上存放的位置，并将此信息转发给Cassandra Driver。Cassandra获取数据块的存放位置信息后，读取数据块，并按照数据块头部的位置信息，存储到自身的Cassandra节点下。

此步骤，Cassandra Driver根据Coordinator发出的节点映射规则，从Hadoop节点上并行读取SSTable。Cassandra上要求的最低副本数为3，所以在读取的时候，三个Cassandra节点并行从Hadoop节点上读取数据，并形成自己的数据副本，放置在Cassandra节点的store（存储目录）当中，如图4所示是本发明数据并行批量导入只读查询系统的方法一实施例中Cassandra节点从Hadoop节点上并行读取SSTable示意图。SSTable在store中放置时，并非立即覆盖原有线上数据，而是在形成新的数据版本，等待所有副本都读取完毕，再进行数据替换。只读查询系统上的驱动程序（Cassandra Driver）到Hadoop节点上读取相应的块（数据块的头部已经生成Cassandra节点的位置信息）。

在本发明一实施例中，对步骤三中的数据块进行触发数据替换（Trigger Swap）。此步骤，Coordinator检测到所有数据副本已经读取完毕，触发Cassandra Driver将对新老数据进行替换。

在本发明一实施例中，对步骤三中的数据块进行数据替换（Swap）。此步骤，CassandraDriver检测SSTable的读取状态，在老版本SSTable在未读状态下，锁定SSTable，并将Cassandra节点的工作目录指向新版本数据的工作目录，将索引数据加载进入内存，并释放老版本的索引数据，解锁SSTable，数据替换更新完成。如图5所示是本发明数据并行批量导入只读查询系统的方法一实施例中SSTable在Cassandra节点上存放方式及新旧版本存放方式示意图。SSTable中/version-（i+1）为最新的数据版本。同理，当在运行过程中发现某一个版本数据出现错误，可以快速从新版本转换为老版本/version-（i），保证线上系统的数据稳定可靠。

为了验证本发明的效果，通过以下一组对比实验来进一步说明：

实验环境：

本实验采用的物理机为安装了Linux2.6.18系统的四核八线程服务器，主频为2.67GHz，内存为16GB，服务器之间均为千兆网卡互联。本实验将部署本发明的Cassandra与MySQL作为线上只读查询系统，对比在处理相同数量的数据情况下，性能差异和线上系统负载能力差异。为保证相同的计算资源，Cassandra集群有四个节点，每个节点分配1个CPU和1GB JVM内存空间，MySQL则为一个节点，4个CPU和4GB内存空间。

实施例一：

分别将256MB-1280MB的原始数据交由Cassandra和MySQL处理并开始计时，到数据后的数据完全导回Cassandra和MySQL线上系统并提供服务计时截止，统计整个数据处理并导回时间。

如图6所示是本发明数据并行批量导入只读查询系统的方法一实施例中Cassandra和MySQL作为线上系统数据大小和处理时间的结果对比示意图。部署了本发明的Cassandra系统在各个数据规模下，处理数据并导回的时间都比MySQL短，而且因采用并行处理，不会出现MySQL因数据累积而处理速度下降的问题。

实施例二：

在实施例一的基础上，统计线上系统在高负载情况下的运行时间（认为CPU负载在80%以上为高负载情况）。

如图7所示是本发明数据并行批量导入只读查询系统的方法一实施例中Cassandra和MySQL作为线上系统数据大小和CPU高负载时间的结果对比示意图。Cassandra高负载的比率只有不到20%，实验分析高负载主要出现在并行数据导回阶段，20%的时间对线上系统影响较小；MySQL由于采用线上系统建立索引的方式，系统高负载的比率高于80%，即整个数据处理阶段对线上系统的影响比较大。

以上实施例说明本发明一方面提高整个数据处理和数据导回的效率，一方面减小数据导回过程中对线上系统的影响。

Claims

1.一种数据并行批量导入只读查询系统的方法，其步骤包括：

1）接收原始特征数据请求，并转发到Hadoop进行处理；

2.如权利要求1所述的数据并行批量导入只读查询系统的方法，其特征在于，所述数据块进行并行读取的方法如下：

3.如权利要求1所述的数据并行批量导入只读查询系统的方法，其特征在于，在每个reducer任务节点上生成数据块文件储存格式为：数据块索引文件和数据文件。

4.如权利要求1所述的数据并行批量导入只读查询系统的方法，其特征在于，所述步骤3）中并行读取时，只读查询系统节点并行从Hadoop节点上读取数据块，并形成自己的数据副本，放置在只读查询系统节点的存储目录store中。

5.如权利要求1所述的数据并行批量导入只读查询系统的方法，其特征在于，所述步骤3）还包括对数据块进行数据替换，当所有数据副本已经读取完毕，则触发所述只读查询系统驱动程序对新老版本数据块进行替换，形成新的数据版本时等待所有副本都读取完毕，再进行数据块替换。

6.如权利要求5所述的数据并行批量导入只读查询系统的方法，其特征在于，所述数据块替换方法为：当只读查询系统的驱动程序检测到数据块的读取状态为未读状态，则锁定老版本数据块；并将只读查询系统节点的工作目录指向新版本数据的工作目录将索引数据加载到内存并将老版本数据索引释放后解锁该老版本数据块。

7.如权利要求5所述的数据并行批量导入只读查询系统的方法，其特征在于，当在运行过程中发现版本数据错误，则从新版本转换为老版本。

8.如权利要求1-7任意一项所述的数据并行批量导入只读查询系统的方法，其特征在于，所述只读查询系统为Cassandra。

9.一种数据并行批量导入只读查询系统的系统，包括：线上查询系统和hadoop框架，其特征在于，还包括：协调器，Hadoop驱动程序模块与线上查询系统驱动模块，

所述协调器用于接受并转发所述查询请求，控制模块间数据处理的开始和结束。

10.如权利要求9所述的数据并行批量导入只读查询系统,其特征在于，当所有节点完成新数据版本的更新后，所述协调器通知将线上查询系统驱动程序将工作版本的路径重定向到新的版本路径。