CN103631870A

CN103631870A - 一种用于大规模分布式数据处理的系统及其方法

Info

Publication number: CN103631870A
Application number: CN201310545899.0A
Authority: CN
Inventors: 刘祥涛; 谢毅; 岳强; 季统凯; 徐志伟
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2013-11-06
Filing date: 2013-11-06
Publication date: 2014-03-12
Anticipated expiration: 2033-11-06
Also published as: CN103631870B

Abstract

本发明涉及计算机应用技术领域，特别涉及到一种大规模分布异构数据处理的系统及其方法。本发明的系统由客户端、服务端以及元数据库三个部分构成；客户端主要提供数据访问的API，该引擎提供了增删查改四个访问接口；服务端由多个对等的服务节点组成，每个节点都提供相同的服务，可以独立的接收并处理用户的访问请求。服务节点包括六大部件：请求解析器、元数据管理器、任务解析器、任务优化器、任务调度器以及任务执行器；元数据库负责存储虚拟表的定义、虚拟表之间的关系、字段的映射关系。本发明提供了一种大规模分布异构数据处理的系统和方法，可以用于大规模分布异构数据处理上。

Description

一种用于大规模分布式数据处理的系统及其方法

技术领域

本发明涉及计算机应用技术领域，特别涉及到一种大规模分布异构数据处理的系统及其方法。

背景技术

我们面临的是一个信息爆炸的时代，人们生产信息、获取信息、使用信息的手段和方式都多种多样，而利用计算机技术的信息系统主要就是想辅助解决人们在生产、获取和使用信息的过程中遇到的问题。

大量调查和使用证明，目前的信息系统的使用生命周期都是很短暂的，使用的效率也是很低下的。这方面的原因可能是多方面的，一个很重要的原因是：信息系统本身与企业的业务密切相关，而企业业务经常变化和发展，信息系统采用的技术本身难于适应这种变化，业务的变化往往导致需要开发新的系统。再加上管理体制和规划上的不可预见等原因，导致大量企业/行业同时存在多个信息系统，相互不能替代，又不能无缝的信息共享，存在大量信息孤岛

造成这种技术问题的根本原因在于缺少一种统一的、针对大规模分布异构数据处理的系统和方法。

发明内容

本发明解决的技术问题之一在于提供一种用于大规模分布式数据处理的系统。

本发明解决的技术问题之二在于提供一种用于大规模分布式数据处理的方法。

本发明解决上述技术问题之一的技术方案是：

所述系统由客户端、服务端以及元数据库三个部分构成；

所述的客户端主要提供数据访问的API，包括增删查改四个访问接口；

所述的服务端由多个对等的服务节点组成，每个节点都提供相同的服务，可以独立的接收并处理用户的访问请求；

所述的元数据库负责存储虚拟表的定义、虚拟表之间的关系、字段的映射关系。

服务节点包括请求解析器、元数据管理器、任务解析器、任务优化器、任务调度器和任务执行器六大部件；

所述的请求解析器负责解析用户的数据请求，根据虚拟表的引用关系构建解析计划树；

所述的元数据管理器，封装了对元数据库的访问接口，通过这些接口可以访问到虚拟表的定义、虚拟表之间的关系、字段的映射关系等；

所述的任务解析器，根据解析计划树构建执行路径，每个执行路径也是一棵树，树的每个节点表示一个处理子任务；

所述的任务优化器根据任务的特点和系统当前的运行状况对执行路径进行优化，以提高处理效率；

所述的任务调度器根据执行路径中任务的依赖关系负责调度任务的执行，决定哪些任务可以并行，哪些需要串行；

所述的任务执行器执行任务并准备好处理后的结果数据集。

所述的元数据库的虚拟表的定义包括字段的名称、类型、长度、描述、必要的完整性约束；虚拟表的关系支持传统的并、交集合运算，以及专门的选择、投影关系运算，还支持SQL规范中定义的聚合、排序、去重操作；字段的映射是描述虚拟表中每个字段的来源。

本发明解决上述技术问题之二的技术方案是：

服务节点接收到请求后调用请求解析器进行解析，请求解析器会调用元数据管理器来访问元数据库，获取虚拟表的定义以及引用的子虚拟表，层层解析直到基本虚拟表；

虚拟表解析完成后系统生成一棵树形的解析计划，描述虚拟表的定义及其引用关系；解析计划的节点表示虚拟表，边表示引用关系；

任务解析器为解析计划的每一个节点生成一个可执行的任务，产生初始执行路径，执行路径也是一棵树，节点表示任务，边表示分解关系，分解关系决定了任务执行的依赖关系，同时也决定了结果数据集的传递方向；

初始执行路径和解析计划结构基本一致；

任务优化器根据任务的特点和系统当前的运行状况对执行路径进行优化，以减少不必要的子任务的执行，缩短执行路径，减少节点间数据的流动，从而缩减整个任务的执行时间；

任务调度器负责把优化后的执行路径上的子任务调度到执行线程池中去并行执行，每个线程封装了一个任务执行器；子任务运行完了后，任务调度器还负责回收结果数据，进行合并；此外，调度执行时采用自底向上的顺序运行执行路径的任务节点，即先执行子节点，待子节点执行完后，再逐级望上依次执行父节点。

所述的任务优化器的任务优化包括利用缓存、虚拟索引、合并关联节点、过滤下推、并行调度；

所述的利用缓存是为了优化执行路径上的非叶子节点，在在每个服务节点上都建立一个名为“CacheDB”的数据库，用于存储在数据处理过程中产生的临时表；这些临时表若不被立即删除，则可用作缓存数据来使用；基于成本模型选取最经常使用的子任务，把它们的执行结果缓存在CacheDB中；当任务执行时，如果发现某个子任务以前被执行过，且CacheDB中有缓存其结果，则该子任务将不再执行，而是从CacheDB中直接取出结果返回给父任务；

所述的虚拟索引是对表内容描述的元信息，支持从多个维度对数据源建立索引，在元数据中对其内容特征进行描述；在运行执行路径中的叶子节点前，判断该子任务执行的输入条件是否匹配虚拟索引，如果不匹配，则说明该子任务的执行结果为空；如果判断出结果为空，则不会再执行该子任务；

所述的合并关联节点是执行路径上存在某些特殊的子树，该子树上所有的节点的数据都来源于同一个数据源，对此子树合并成一个子任务，以减少执行过程中中间结果的输出；

所述的过滤下推是尽量将过滤条件往执行路径的叶子节点方向转移，减低在执行路径上节点之间传递的数据量；

所述的并行调度是允许执行路径中的某些无依赖节点同时执行，而不影响到最终的结果；任意两个节点之间如果不存在数据等待关系，则认为是无依赖的节点。

本发明提供了一个数据处理云引擎，抽象出了统一的数据访问接口，屏蔽底层数据资源访问的分布性和异构性，具备对大规模异构数据资源进行并行处理及联合查询的能力，从而打通各个业务系统之间的信息孤岛。

附图说明

下面结合附图对本发明进一步说明：

图1是本发明云引擎执行流程图；

图2是本发明云引擎优化流程图。

具体实施方式

本发明分为客户端、服务端以及元数据库三个部分。采用分布式的架构，服务端由多个对等的服务节点组成，每个节点都提供相同的服务。任何一个节点都可以独立的接收并处理用户的访问请求。

客户端

客户端主要提供数据访问的API，该引擎提供了四个访问接口，分别为read、write、update、以及delete，以支持数据的增删查改的功能。read接口能够支持丰富的查询功能，包括选择、投影、聚合、排序、去重、分页等操作。客户端支持两套接口，两套接口提供的功能完全相同，区别在于与服务端的通讯协议不同。第一套接口采用Web Service协议，第二套接口采用REST协议。用户可以根据实际的应用需求选择该使用哪套接口。

服务端

服务端是一个由多个节点组成的集群，用户可以向服务端集群中任何一个节点发起请求，用户的请求中包含虚拟表的地址、操作类型及参数。虚拟表是一个基于分布异构数据资源建立的数据视图，且一个或者多个虚拟表通过关系算子可以构建成一个具备更加高级语义的虚拟表。数据处理引擎会根据虚拟表的地址选择服务节点，将请求转发到服务节点上去处理。

服务端集群规模允许根据系统的负载规模进行弹性伸缩。如果负载规模增加的时候，可以往集群中增加服务节点，新增的服务节点将自身信息注册到集群中，即可被系统发现，并可立即接收用户请求并完成数据处理，整个服务端集群无需重启，也不会中断服务。

服务节点包括六大部件。

(1)请求解析器：负责解析用户的数据请求，根据虚拟表的引用关系构建解析计划树；

(2)元数据管理器：封装了对元数据库的访问接口，通过这些接口可以访问到虚拟表的定义、虚拟表之间的关系、字段的映射关系等；

(3)任务解析器：根据解析计划树构建执行路径，每个执行路径也是一棵树，树的每个节点表示一个处理子任务；

(4)任务优化器：根据任务的特点和系统当前的运行状况对执行路径进行优化，以提高处理效率；

(5)任务调度器：根据执行路径中任务的依赖关系负责调度任务的执行，决定哪些任务可以并行，哪些需要串行；

(6)任务执行器：执行任务并准备好处理后的结果数据集。

元数据库

元数据库负责存储虚拟表的定义、虚拟表之间的关系、字段的映射关系。

(1)虚拟表的定义：字段的名称、类型、长度、描述、必要的完整性约束；

(2)虚拟表的关系：支持传统的集合运算(并、交)，以及专门的关系运算(选择、投影)、还支持SQL规范中定义的聚合、排序、去重操作；

(3)字段的映射：描述虚拟表中每个字段的来源。

云引擎的执行流程如图1所示。

服务节点接收到请求后调用请求解析器(Request Parser)进行解析，请求解析器会调用元数据管理器(Metadata Management)来访问元数据库，获取虚拟表的定义以及引用的子虚拟表，层层解析直到基本虚拟表。基本虚拟表是直接由物理数据源构建而成的，没有引用任何其它虚拟表。

虚拟表解析完成后系统会生成一棵树形的解析计划，描述虚拟表的定义及其引用关系，解析计划的节点表示虚拟表，边表示引用关系。任务分解器为解析计划的每一个节点生成一个可执行的任务，产生初始执行路径，执行路径也是一棵树，节点表示任务，边表示分解关系，分解关系决定了任务执行的依赖关系，同时也决定了结果数据集的传递方向。

初始执行路径和解析计划结构基本一致。优化器会根据任务的特点和系统当前的运行状况对执行路径进行优化，以减少不必要的子任务的执行，缩短执行路径，减少节点间数据的流动，从而缩减整个任务的执行时间。

调度器(Scheduler)负责把优化后的执行路径上的子任务调度到执行线程池中去并行执行，每个线程封装了一个任务执行器(Executor)。子任务运行完了后，调度器还要负责回收结果数据，进行合并。此外，调度执行时采用自底向上的顺序运行执行路径的任务节点，即先执行子节点，待子节点执行完后，再逐级望上依次执行父节点。

■云引擎的优化流程

云引擎的优化流程如图2所示。

任务分解器产生的初始执行路径的结构和解析计划基本上一致，执行路径往往很长，如图2(a)所示。在网络中大规模的移动数据的开销非常大，为了加快任务执行的速度，云引擎需要对执行路径进行优化，剔除不必要的子路径，极力缩短执行路径的长度。具体来说，优化的关键技术主要有5项，分别为：利用缓存、虚拟索引、合并关联节点、过滤下推、并行调度。

(1)利用缓存

该技术是为了优化执行路径上的非叶子节点。云引擎在每个服务节点上都会建立一个名为“CacheDB”的数据库，用于存储在数据处理过程中产生的临时表。这些临时表若不被立即删除，则可用作缓存数据来使用。云引擎基于成本模型选取最经常使用的子任务，把它们的执行结果缓存在CacheDB中。当任务执行时，如果发现某个子任务以前被执行过，且CacheDB中有缓存其结果，则该子任务将不再执行，而是从CacheDB中直接取出结果返回给父任务。如图2(b)所示，当检查到子任务J2的结果缓存在CacheDB中，则以J2为根节点子路径都将不再执行。

(2)虚拟索引

虚拟索引是对表内容描述的元信息，云引擎支持从多个维度对数据源建立索引，在元数据中对其内容特征进行描述。在运行执行路径中的叶子节点前，引擎会判断该子任务执行的输入条件是否匹配虚拟索引，如果不匹配，则说明该子任务的执行结果为空。如果判断出结果为空，则不会再执行该子任务。如图2(c)所示，系统判断出执行路径中的叶子节点J7的执行结果为空，则不会执行J7。考虑到对执行路径中的非叶子节点建立虚拟索引情况太复杂，目前虚拟索引只支持叶子节点。

(3)合并关联节点

执行路径上存在某些特殊的子树，该子树上所有的节点的数据都来源于同一个数据源(同一个节点上的数据库或者是同一个节点上的文件系统)。由于数据库自身有优化机制来优化数据的执行处理，云引擎利用这一机制，将该子树合并成一个子任务，以减少执行过程中中间结果的输出。这是因为某些任务执行后的结果可能很大，无法全部装载在内存中，必须转移到磁盘，等待作为下一个任务的输入，带来很大的IO开销。合并后，产生的中间结果可以立即被消耗掉，从而减少内存和磁盘之间交换的次数，降低了服务器内IO的开销。如图2(d)所示，以J3为根节点的子树合并成一个任务进行处理了。

(4)过滤下推

该技术指的是尽量将过滤条件往执行路径的叶子节点方向转移，其目的是要减低在执行路径上节点之间传递的数据量。执行路径中节点的执行顺序是从叶子节点向根节点方向推进，将过滤条件向叶子节点或者靠近叶子节点的节点上执行，可以有机会提前过滤掉无关的数据集，从而大大提高执行的效率。如果数据源中的物理表建立了索引，能够把过滤条件推到数据源来执行，效果会更加明显，因为有了索引之后，数据源过滤的处理过程会更加的高效。

(5)并行调度

该技术指的是允许执行路径中的某些无依赖节点同时执行，而不影响到最终的结果，其目的是要提高执行的并行度。任意两个节点之间如果不存在数据等待关系，则认为是无依赖的节点。如图2(a)中，节点J4的执行不需要等待J5的运行结果，同样J5的执行不需要等待J4的运行结果，则J4和J5是无依赖节点，可以并行调度。而J2的执行需要等待J4的运行结果，则J2和J4是依赖节点，不可并行调度。

Claims

1.一种用于大规模分布异构数据处理的系统，其特征在于：所述系统由客户端、服务端以及元数据库三个部分构成；

2.根据权利要求1所述的系统，其特征在于：服务节点包括请求解析器、元数据管理器、任务解析器、任务优化器、任务调度器和任务执行器六大部件；

所述的任务执行器执行任务并准备好处理后的结果数据集。

3.根据权利要求1或2所述的系统，其特征在于：所述的元数据库的虚拟表的定义包括字段的名称、类型、长度、描述、必要的完整性约束；虚拟表的关系支持传统的并、交集合运算，以及专门的选择、投影关系运算，还支持SQL规范中定义的聚合、排序、去重操作；字段的映射是描述虚拟表中每个字段的来源。

4.一种用于大规模分布异构数据处理的方法，其特征在于：

初始执行路径和解析计划结构基本一致；

5.根据权利要求4所述的方法，其特征在于：所述的任务优化器的任务优化包括利用缓存、虚拟索引、合并关联节点、过滤下推、并行调度；