CN103631870A - 一种用于大规模分布式数据处理的系统及其方法 - Google Patents

一种用于大规模分布式数据处理的系统及其方法 Download PDF

Info

Publication number
CN103631870A
CN103631870A CN201310545899.0A CN201310545899A CN103631870A CN 103631870 A CN103631870 A CN 103631870A CN 201310545899 A CN201310545899 A CN 201310545899A CN 103631870 A CN103631870 A CN 103631870A
Authority
CN
China
Prior art keywords
task
node
data
execution
virtual table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310545899.0A
Other languages
English (en)
Other versions
CN103631870B (zh
Inventor
刘祥涛
谢毅
岳强
季统凯
徐志伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201310545899.0A priority Critical patent/CN103631870B/zh
Publication of CN103631870A publication Critical patent/CN103631870A/zh
Application granted granted Critical
Publication of CN103631870B publication Critical patent/CN103631870B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及计算机应用技术领域,特别涉及到一种大规模分布异构数据处理的系统及其方法。本发明的系统由客户端、服务端以及元数据库三个部分构成;客户端主要提供数据访问的API,该引擎提供了增删查改四个访问接口;服务端由多个对等的服务节点组成,每个节点都提供相同的服务,可以独立的接收并处理用户的访问请求。服务节点包括六大部件:请求解析器、元数据管理器、任务解析器、任务优化器、任务调度器以及任务执行器;元数据库负责存储虚拟表的定义、虚拟表之间的关系、字段的映射关系。本发明提供了一种大规模分布异构数据处理的系统和方法,可以用于大规模分布异构数据处理上。

Description

一种用于大规模分布式数据处理的系统及其方法
技术领域
本发明涉及计算机应用技术领域,特别涉及到一种大规模分布异构数据处理的系统及其方法。
背景技术
我们面临的是一个信息爆炸的时代,人们生产信息、获取信息、使用信息的手段和方式都多种多样,而利用计算机技术的信息系统主要就是想辅助解决人们在生产、获取和使用信息的过程中遇到的问题。
大量调查和使用证明,目前的信息系统的使用生命周期都是很短暂的,使用的效率也是很低下的。这方面的原因可能是多方面的,一个很重要的原因是:信息系统本身与企业的业务密切相关,而企业业务经常变化和发展,信息系统采用的技术本身难于适应这种变化,业务的变化往往导致需要开发新的系统。再加上管理体制和规划上的不可预见等原因,导致大量企业/行业同时存在多个信息系统,相互不能替代,又不能无缝的信息共享,存在大量信息孤岛
造成这种技术问题的根本原因在于缺少一种统一的、针对大规模分布异构数据处理的系统和方法。
发明内容
本发明解决的技术问题之一在于提供一种用于大规模分布式数据处理的系统。
本发明解决的技术问题之二在于提供一种用于大规模分布式数据处理的方法。
本发明解决上述技术问题之一的技术方案是:
所述系统由客户端、服务端以及元数据库三个部分构成;
所述的客户端主要提供数据访问的API,包括增删查改四个访问接口;
所述的服务端由多个对等的服务节点组成,每个节点都提供相同的服务,可以独立的接收并处理用户的访问请求;
所述的元数据库负责存储虚拟表的定义、虚拟表之间的关系、字段的映射关系。
服务节点包括请求解析器、元数据管理器、任务解析器、任务优化器、任务调度器和任务执行器六大部件;
所述的请求解析器负责解析用户的数据请求,根据虚拟表的引用关系构建解析计划树;
所述的元数据管理器,封装了对元数据库的访问接口,通过这些接口可以访问到虚拟表的定义、虚拟表之间的关系、字段的映射关系等;
所述的任务解析器,根据解析计划树构建执行路径,每个执行路径也是一棵树,树的每个节点表示一个处理子任务;
所述的任务优化器根据任务的特点和系统当前的运行状况对执行路径进行优化,以提高处理效率;
所述的任务调度器根据执行路径中任务的依赖关系负责调度任务的执行,决定哪些任务可以并行,哪些需要串行;
所述的任务执行器执行任务并准备好处理后的结果数据集。
所述的元数据库的虚拟表的定义包括字段的名称、类型、长度、描述、必要的完整性约束;虚拟表的关系支持传统的并、交集合运算,以及专门的选择、投影关系运算,还支持SQL规范中定义的聚合、排序、去重操作;字段的映射是描述虚拟表中每个字段的来源。
本发明解决上述技术问题之二的技术方案是:
服务节点接收到请求后调用请求解析器进行解析,请求解析器会调用元数据管理器来访问元数据库,获取虚拟表的定义以及引用的子虚拟表,层层解析直到基本虚拟表;
虚拟表解析完成后系统生成一棵树形的解析计划,描述虚拟表的定义及其引用关系;解析计划的节点表示虚拟表,边表示引用关系;
任务解析器为解析计划的每一个节点生成一个可执行的任务,产生初始执行路径,执行路径也是一棵树,节点表示任务,边表示分解关系,分解关系决定了任务执行的依赖关系,同时也决定了结果数据集的传递方向;
初始执行路径和解析计划结构基本一致;
任务优化器根据任务的特点和系统当前的运行状况对执行路径进行优化,以减少不必要的子任务的执行,缩短执行路径,减少节点间数据的流动,从而缩减整个任务的执行时间;
任务调度器负责把优化后的执行路径上的子任务调度到执行线程池中去并行执行,每个线程封装了一个任务执行器;子任务运行完了后,任务调度器还负责回收结果数据,进行合并;此外,调度执行时采用自底向上的顺序运行执行路径的任务节点,即先执行子节点,待子节点执行完后,再逐级望上依次执行父节点。
所述的任务优化器的任务优化包括利用缓存、虚拟索引、合并关联节点、过滤下推、并行调度;
所述的利用缓存是为了优化执行路径上的非叶子节点,在在每个服务节点上都建立一个名为“CacheDB”的数据库,用于存储在数据处理过程中产生的临时表;这些临时表若不被立即删除,则可用作缓存数据来使用;基于成本模型选取最经常使用的子任务,把它们的执行结果缓存在CacheDB中;当任务执行时,如果发现某个子任务以前被执行过,且CacheDB中有缓存其结果,则该子任务将不再执行,而是从CacheDB中直接取出结果返回给父任务;
所述的虚拟索引是对表内容描述的元信息,支持从多个维度对数据源建立索引,在元数据中对其内容特征进行描述;在运行执行路径中的叶子节点前,判断该子任务执行的输入条件是否匹配虚拟索引,如果不匹配,则说明该子任务的执行结果为空;如果判断出结果为空,则不会再执行该子任务;
所述的合并关联节点是执行路径上存在某些特殊的子树,该子树上所有的节点的数据都来源于同一个数据源,对此子树合并成一个子任务,以减少执行过程中中间结果的输出;
所述的过滤下推是尽量将过滤条件往执行路径的叶子节点方向转移,减低在执行路径上节点之间传递的数据量;
所述的并行调度是允许执行路径中的某些无依赖节点同时执行,而不影响到最终的结果;任意两个节点之间如果不存在数据等待关系,则认为是无依赖的节点。
本发明提供了一个数据处理云引擎,抽象出了统一的数据访问接口,屏蔽底层数据资源访问的分布性和异构性,具备对大规模异构数据资源进行并行处理及联合查询的能力,从而打通各个业务系统之间的信息孤岛。
附图说明
下面结合附图对本发明进一步说明:
图1是本发明云引擎执行流程图;
图2是本发明云引擎优化流程图。
具体实施方式
本发明分为客户端、服务端以及元数据库三个部分。采用分布式的架构,服务端由多个对等的服务节点组成,每个节点都提供相同的服务。任何一个节点都可以独立的接收并处理用户的访问请求。
客户端
客户端主要提供数据访问的API,该引擎提供了四个访问接口,分别为read、write、update、以及delete,以支持数据的增删查改的功能。read接口能够支持丰富的查询功能,包括选择、投影、聚合、排序、去重、分页等操作。客户端支持两套接口,两套接口提供的功能完全相同,区别在于与服务端的通讯协议不同。第一套接口采用Web Service协议,第二套接口采用REST协议。用户可以根据实际的应用需求选择该使用哪套接口。
服务端
服务端是一个由多个节点组成的集群,用户可以向服务端集群中任何一个节点发起请求,用户的请求中包含虚拟表的地址、操作类型及参数。虚拟表是一个基于分布异构数据资源建立的数据视图,且一个或者多个虚拟表通过关系算子可以构建成一个具备更加高级语义的虚拟表。数据处理引擎会根据虚拟表的地址选择服务节点,将请求转发到服务节点上去处理。
服务端集群规模允许根据系统的负载规模进行弹性伸缩。如果负载规模增加的时候,可以往集群中增加服务节点,新增的服务节点将自身信息注册到集群中,即可被系统发现,并可立即接收用户请求并完成数据处理,整个服务端集群无需重启,也不会中断服务。
服务节点包括六大部件。
(1)请求解析器:负责解析用户的数据请求,根据虚拟表的引用关系构建解析计划树;
(2)元数据管理器:封装了对元数据库的访问接口,通过这些接口可以访问到虚拟表的定义、虚拟表之间的关系、字段的映射关系等;
(3)任务解析器:根据解析计划树构建执行路径,每个执行路径也是一棵树,树的每个节点表示一个处理子任务;
(4)任务优化器:根据任务的特点和系统当前的运行状况对执行路径进行优化,以提高处理效率;
(5)任务调度器:根据执行路径中任务的依赖关系负责调度任务的执行,决定哪些任务可以并行,哪些需要串行;
(6)任务执行器:执行任务并准备好处理后的结果数据集。
元数据库
元数据库负责存储虚拟表的定义、虚拟表之间的关系、字段的映射关系。
(1)虚拟表的定义:字段的名称、类型、长度、描述、必要的完整性约束;
(2)虚拟表的关系:支持传统的集合运算(并、交),以及专门的关系运算(选择、投影)、还支持SQL规范中定义的聚合、排序、去重操作;
(3)字段的映射:描述虚拟表中每个字段的来源。
云引擎的执行流程如图1所示。
服务节点接收到请求后调用请求解析器(Request Parser)进行解析,请求解析器会调用元数据管理器(Metadata Management)来访问元数据库,获取虚拟表的定义以及引用的子虚拟表,层层解析直到基本虚拟表。基本虚拟表是直接由物理数据源构建而成的,没有引用任何其它虚拟表。
虚拟表解析完成后系统会生成一棵树形的解析计划,描述虚拟表的定义及其引用关系,解析计划的节点表示虚拟表,边表示引用关系。任务分解器为解析计划的每一个节点生成一个可执行的任务,产生初始执行路径,执行路径也是一棵树,节点表示任务,边表示分解关系,分解关系决定了任务执行的依赖关系,同时也决定了结果数据集的传递方向。
初始执行路径和解析计划结构基本一致。优化器会根据任务的特点和系统当前的运行状况对执行路径进行优化,以减少不必要的子任务的执行,缩短执行路径,减少节点间数据的流动,从而缩减整个任务的执行时间。
调度器(Scheduler)负责把优化后的执行路径上的子任务调度到执行线程池中去并行执行,每个线程封装了一个任务执行器(Executor)。子任务运行完了后,调度器还要负责回收结果数据,进行合并。此外,调度执行时采用自底向上的顺序运行执行路径的任务节点,即先执行子节点,待子节点执行完后,再逐级望上依次执行父节点。
■云引擎的优化流程
云引擎的优化流程如图2所示。
任务分解器产生的初始执行路径的结构和解析计划基本上一致,执行路径往往很长,如图2(a)所示。在网络中大规模的移动数据的开销非常大,为了加快任务执行的速度,云引擎需要对执行路径进行优化,剔除不必要的子路径,极力缩短执行路径的长度。具体来说,优化的关键技术主要有5项,分别为:利用缓存、虚拟索引、合并关联节点、过滤下推、并行调度。
(1)利用缓存
该技术是为了优化执行路径上的非叶子节点。云引擎在每个服务节点上都会建立一个名为“CacheDB”的数据库,用于存储在数据处理过程中产生的临时表。这些临时表若不被立即删除,则可用作缓存数据来使用。云引擎基于成本模型选取最经常使用的子任务,把它们的执行结果缓存在CacheDB中。当任务执行时,如果发现某个子任务以前被执行过,且CacheDB中有缓存其结果,则该子任务将不再执行,而是从CacheDB中直接取出结果返回给父任务。如图2(b)所示,当检查到子任务J2的结果缓存在CacheDB中,则以J2为根节点子路径都将不再执行。
(2)虚拟索引
虚拟索引是对表内容描述的元信息,云引擎支持从多个维度对数据源建立索引,在元数据中对其内容特征进行描述。在运行执行路径中的叶子节点前,引擎会判断该子任务执行的输入条件是否匹配虚拟索引,如果不匹配,则说明该子任务的执行结果为空。如果判断出结果为空,则不会再执行该子任务。如图2(c)所示,系统判断出执行路径中的叶子节点J7的执行结果为空,则不会执行J7。考虑到对执行路径中的非叶子节点建立虚拟索引情况太复杂,目前虚拟索引只支持叶子节点。
(3)合并关联节点
执行路径上存在某些特殊的子树,该子树上所有的节点的数据都来源于同一个数据源(同一个节点上的数据库或者是同一个节点上的文件系统)。由于数据库自身有优化机制来优化数据的执行处理,云引擎利用这一机制,将该子树合并成一个子任务,以减少执行过程中中间结果的输出。这是因为某些任务执行后的结果可能很大,无法全部装载在内存中,必须转移到磁盘,等待作为下一个任务的输入,带来很大的IO开销。合并后,产生的中间结果可以立即被消耗掉,从而减少内存和磁盘之间交换的次数,降低了服务器内IO的开销。如图2(d)所示,以J3为根节点的子树合并成一个任务进行处理了。
(4)过滤下推
该技术指的是尽量将过滤条件往执行路径的叶子节点方向转移,其目的是要减低在执行路径上节点之间传递的数据量。执行路径中节点的执行顺序是从叶子节点向根节点方向推进,将过滤条件向叶子节点或者靠近叶子节点的节点上执行,可以有机会提前过滤掉无关的数据集,从而大大提高执行的效率。如果数据源中的物理表建立了索引,能够把过滤条件推到数据源来执行,效果会更加明显,因为有了索引之后,数据源过滤的处理过程会更加的高效。
(5)并行调度
该技术指的是允许执行路径中的某些无依赖节点同时执行,而不影响到最终的结果,其目的是要提高执行的并行度。任意两个节点之间如果不存在数据等待关系,则认为是无依赖的节点。如图2(a)中,节点J4的执行不需要等待J5的运行结果,同样J5的执行不需要等待J4的运行结果,则J4和J5是无依赖节点,可以并行调度。而J2的执行需要等待J4的运行结果,则J2和J4是依赖节点,不可并行调度。

Claims (5)

1.一种用于大规模分布异构数据处理的系统,其特征在于:所述系统由客户端、服务端以及元数据库三个部分构成;
所述的客户端主要提供数据访问的API,包括增删查改四个访问接口;
所述的服务端由多个对等的服务节点组成,每个节点都提供相同的服务,可以独立的接收并处理用户的访问请求;
所述的元数据库负责存储虚拟表的定义、虚拟表之间的关系、字段的映射关系。
2.根据权利要求1所述的系统,其特征在于:服务节点包括请求解析器、元数据管理器、任务解析器、任务优化器、任务调度器和任务执行器六大部件;
所述的请求解析器负责解析用户的数据请求,根据虚拟表的引用关系构建解析计划树;
所述的元数据管理器,封装了对元数据库的访问接口,通过这些接口可以访问到虚拟表的定义、虚拟表之间的关系、字段的映射关系等;
所述的任务解析器,根据解析计划树构建执行路径,每个执行路径也是一棵树,树的每个节点表示一个处理子任务;
所述的任务优化器根据任务的特点和系统当前的运行状况对执行路径进行优化,以提高处理效率;
所述的任务调度器根据执行路径中任务的依赖关系负责调度任务的执行,决定哪些任务可以并行,哪些需要串行;
所述的任务执行器执行任务并准备好处理后的结果数据集。
3.根据权利要求1或2所述的系统,其特征在于:所述的元数据库的虚拟表的定义包括字段的名称、类型、长度、描述、必要的完整性约束;虚拟表的关系支持传统的并、交集合运算,以及专门的选择、投影关系运算,还支持SQL规范中定义的聚合、排序、去重操作;字段的映射是描述虚拟表中每个字段的来源。
4.一种用于大规模分布异构数据处理的方法,其特征在于:
服务节点接收到请求后调用请求解析器进行解析,请求解析器会调用元数据管理器来访问元数据库,获取虚拟表的定义以及引用的子虚拟表,层层解析直到基本虚拟表;
虚拟表解析完成后系统生成一棵树形的解析计划,描述虚拟表的定义及其引用关系;解析计划的节点表示虚拟表,边表示引用关系;
任务解析器为解析计划的每一个节点生成一个可执行的任务,产生初始执行路径,执行路径也是一棵树,节点表示任务,边表示分解关系,分解关系决定了任务执行的依赖关系,同时也决定了结果数据集的传递方向;
初始执行路径和解析计划结构基本一致;
任务优化器根据任务的特点和系统当前的运行状况对执行路径进行优化,以减少不必要的子任务的执行,缩短执行路径,减少节点间数据的流动,从而缩减整个任务的执行时间;
任务调度器负责把优化后的执行路径上的子任务调度到执行线程池中去并行执行,每个线程封装了一个任务执行器;子任务运行完了后,任务调度器还负责回收结果数据,进行合并;此外,调度执行时采用自底向上的顺序运行执行路径的任务节点,即先执行子节点,待子节点执行完后,再逐级望上依次执行父节点。
5.根据权利要求4所述的方法,其特征在于:所述的任务优化器的任务优化包括利用缓存、虚拟索引、合并关联节点、过滤下推、并行调度;
所述的利用缓存是为了优化执行路径上的非叶子节点,在在每个服务节点上都建立一个名为“CacheDB”的数据库,用于存储在数据处理过程中产生的临时表;这些临时表若不被立即删除,则可用作缓存数据来使用;基于成本模型选取最经常使用的子任务,把它们的执行结果缓存在CacheDB中;当任务执行时,如果发现某个子任务以前被执行过,且CacheDB中有缓存其结果,则该子任务将不再执行,而是从CacheDB中直接取出结果返回给父任务;
所述的虚拟索引是对表内容描述的元信息,支持从多个维度对数据源建立索引,在元数据中对其内容特征进行描述;在运行执行路径中的叶子节点前,判断该子任务执行的输入条件是否匹配虚拟索引,如果不匹配,则说明该子任务的执行结果为空;如果判断出结果为空,则不会再执行该子任务;
所述的合并关联节点是执行路径上存在某些特殊的子树,该子树上所有的节点的数据都来源于同一个数据源,对此子树合并成一个子任务,以减少执行过程中中间结果的输出;
所述的过滤下推是尽量将过滤条件往执行路径的叶子节点方向转移,减低在执行路径上节点之间传递的数据量;
所述的并行调度是允许执行路径中的某些无依赖节点同时执行,而不影响到最终的结果;任意两个节点之间如果不存在数据等待关系,则认为是无依赖的节点。
CN201310545899.0A 2013-11-06 2013-11-06 一种用于大规模分布式数据处理的系统及其方法 Active CN103631870B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310545899.0A CN103631870B (zh) 2013-11-06 2013-11-06 一种用于大规模分布式数据处理的系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310545899.0A CN103631870B (zh) 2013-11-06 2013-11-06 一种用于大规模分布式数据处理的系统及其方法

Publications (2)

Publication Number Publication Date
CN103631870A true CN103631870A (zh) 2014-03-12
CN103631870B CN103631870B (zh) 2017-02-01

Family

ID=50212912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310545899.0A Active CN103631870B (zh) 2013-11-06 2013-11-06 一种用于大规模分布式数据处理的系统及其方法

Country Status (1)

Country Link
CN (1) CN103631870B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970900A (zh) * 2014-05-27 2014-08-06 重庆大学 基于工业现场的多维交叉数据柔性管理方法及系统
CN104063486A (zh) * 2014-07-03 2014-09-24 四川中亚联邦科技有限公司 一种大数据分布式存储方法和系统
CN104156419A (zh) * 2014-08-03 2014-11-19 广东电子工业研究院有限公司 一种异构数据源的实体化方法及其引擎
CN104243617A (zh) * 2014-10-14 2014-12-24 中国科学院信息工程研究所 一种异构集群中面向混合负载的任务调度方法及系统
CN104462559A (zh) * 2014-12-25 2015-03-25 广东电子工业研究院有限公司 一种主流关系型数据库表模式对象化和虚拟化机制
CN105447057A (zh) * 2014-09-28 2016-03-30 克拉玛依红有软件有限责任公司 基于业务逻辑模型的模型变换方法及系统
CN106055527A (zh) * 2016-05-24 2016-10-26 华为技术有限公司 一种数据处理的方法及装置
CN106790620A (zh) * 2016-12-30 2017-05-31 许昌学院 一种分布式大数据处理方法
CN106815071A (zh) * 2017-01-12 2017-06-09 上海轻维软件有限公司 基于有向无环图的大数据作业调度系统
CN107341054A (zh) * 2017-06-29 2017-11-10 广州市百果园信息技术有限公司 任务执行方法、装置及计算机可读存储介质
CN107766451A (zh) * 2017-09-26 2018-03-06 广西电网有限责任公司电力科学研究院 一种面向电力大数据的跨数据库关联检索方法
CN109101468A (zh) * 2018-08-02 2018-12-28 浙江大学 一种文本数据转换脚本的执行优化方法
CN110188887A (zh) * 2018-09-26 2019-08-30 第四范式(北京)技术有限公司 面向机器学习的数据管理方法及装置
CN110502538A (zh) * 2019-07-05 2019-11-26 中国平安人寿保险股份有限公司 画像标签生成逻辑映射的方法、系统、设备及存储介质
CN110502589A (zh) * 2019-08-20 2019-11-26 阿里巴巴集团控股有限公司 一种节点血缘关系确定方法、装置以及电子设备
CN111767288A (zh) * 2020-07-30 2020-10-13 杭州正策信息科技有限公司 一种项目申报数据处理方法及装置
CN111782652A (zh) * 2020-06-30 2020-10-16 平安国际智慧城市科技股份有限公司 数据调用方法、装置、计算机设备和存储介质
CN112650657A (zh) * 2019-10-10 2021-04-13 浙江大搜车软件技术有限公司 基于流计算的业务系统的分析方法及装置
CN113254476A (zh) * 2021-05-28 2021-08-13 北京金山云网络技术有限公司 请求的处理方法和装置、电子设备和存储介质
CN115499285A (zh) * 2021-06-18 2022-12-20 中国科学院声学研究所 一种分布式分级时延提供的名字解析系统构建方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060047716A1 (en) * 2004-06-03 2006-03-02 Keith Robert O Jr Transaction based virtual file system optimized for high-latency network connections
CN101201842A (zh) * 2007-10-30 2008-06-18 北京航空航天大学 数字博物馆网格及其构造方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060047716A1 (en) * 2004-06-03 2006-03-02 Keith Robert O Jr Transaction based virtual file system optimized for high-latency network connections
CN101201842A (zh) * 2007-10-30 2008-06-18 北京航空航天大学 数字博物馆网格及其构造方法

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970900B (zh) * 2014-05-27 2017-04-26 重庆大学 基于工业现场的多维交叉数据柔性管理方法及系统
CN103970900A (zh) * 2014-05-27 2014-08-06 重庆大学 基于工业现场的多维交叉数据柔性管理方法及系统
CN104063486A (zh) * 2014-07-03 2014-09-24 四川中亚联邦科技有限公司 一种大数据分布式存储方法和系统
CN104063486B (zh) * 2014-07-03 2017-07-11 四川中亚联邦科技有限公司 一种大数据分布式存储方法和系统
CN104156419B (zh) * 2014-08-03 2019-07-26 广东电子工业研究院有限公司 一种异构数据源的实体化方法及其引擎
CN104156419A (zh) * 2014-08-03 2014-11-19 广东电子工业研究院有限公司 一种异构数据源的实体化方法及其引擎
CN105447057A (zh) * 2014-09-28 2016-03-30 克拉玛依红有软件有限责任公司 基于业务逻辑模型的模型变换方法及系统
CN105447057B (zh) * 2014-09-28 2019-03-22 克拉玛依红有软件有限责任公司 基于业务逻辑模型的模型变换方法及系统
CN104243617A (zh) * 2014-10-14 2014-12-24 中国科学院信息工程研究所 一种异构集群中面向混合负载的任务调度方法及系统
CN104243617B (zh) * 2014-10-14 2017-10-27 中国科学院信息工程研究所 一种异构集群中面向混合负载的任务调度方法及系统
CN104462559A (zh) * 2014-12-25 2015-03-25 广东电子工业研究院有限公司 一种主流关系型数据库表模式对象化和虚拟化机制
CN104462559B (zh) * 2014-12-25 2018-08-07 广东电子工业研究院有限公司 一种主流关系型数据库表模式对象化和虚拟化方法
CN106055527A (zh) * 2016-05-24 2016-10-26 华为技术有限公司 一种数据处理的方法及装置
CN106055527B (zh) * 2016-05-24 2019-11-19 华为技术有限公司 一种数据处理的方法及装置
CN106790620A (zh) * 2016-12-30 2017-05-31 许昌学院 一种分布式大数据处理方法
CN106790620B (zh) * 2016-12-30 2020-02-11 许昌学院 一种分布式大数据处理方法
CN106815071A (zh) * 2017-01-12 2017-06-09 上海轻维软件有限公司 基于有向无环图的大数据作业调度系统
CN107341054B (zh) * 2017-06-29 2020-06-16 广州市百果园信息技术有限公司 任务执行方法、装置及计算机可读存储介质
CN107341054A (zh) * 2017-06-29 2017-11-10 广州市百果园信息技术有限公司 任务执行方法、装置及计算机可读存储介质
CN107766451A (zh) * 2017-09-26 2018-03-06 广西电网有限责任公司电力科学研究院 一种面向电力大数据的跨数据库关联检索方法
CN109101468A (zh) * 2018-08-02 2018-12-28 浙江大学 一种文本数据转换脚本的执行优化方法
CN110188887A (zh) * 2018-09-26 2019-08-30 第四范式(北京)技术有限公司 面向机器学习的数据管理方法及装置
CN110188887B (zh) * 2018-09-26 2022-11-08 第四范式(北京)技术有限公司 面向机器学习的数据管理方法及装置
CN110502538B (zh) * 2019-07-05 2023-10-13 中国平安人寿保险股份有限公司 画像标签生成逻辑映射的方法、系统、设备及存储介质
CN110502538A (zh) * 2019-07-05 2019-11-26 中国平安人寿保险股份有限公司 画像标签生成逻辑映射的方法、系统、设备及存储介质
CN110502589A (zh) * 2019-08-20 2019-11-26 阿里巴巴集团控股有限公司 一种节点血缘关系确定方法、装置以及电子设备
CN110502589B (zh) * 2019-08-20 2023-12-01 创新先进技术有限公司 一种节点血缘关系确定方法、装置以及电子设备
CN112650657A (zh) * 2019-10-10 2021-04-13 浙江大搜车软件技术有限公司 基于流计算的业务系统的分析方法及装置
CN111782652A (zh) * 2020-06-30 2020-10-16 平安国际智慧城市科技股份有限公司 数据调用方法、装置、计算机设备和存储介质
CN111782652B (zh) * 2020-06-30 2024-04-02 深圳赛安特技术服务有限公司 数据调用方法、装置、计算机设备和存储介质
CN111767288A (zh) * 2020-07-30 2020-10-13 杭州正策信息科技有限公司 一种项目申报数据处理方法及装置
CN113254476A (zh) * 2021-05-28 2021-08-13 北京金山云网络技术有限公司 请求的处理方法和装置、电子设备和存储介质
CN115499285A (zh) * 2021-06-18 2022-12-20 中国科学院声学研究所 一种分布式分级时延提供的名字解析系统构建方法
CN115499285B (zh) * 2021-06-18 2023-11-24 中国科学院声学研究所 一种分布式分级时延提供的名字解析系统构建方法

Also Published As

Publication number Publication date
CN103631870B (zh) 2017-02-01

Similar Documents

Publication Publication Date Title
CN103631870A (zh) 一种用于大规模分布式数据处理的系统及其方法
US10983967B2 (en) Creation of a cumulative schema based on an inferred schema and statistics
Bajaber et al. Big data 2.0 processing systems: Taxonomy and open challenges
Gupta et al. Cloud computing and big data analytics: what is new from databases perspective?
Zhou et al. SCOPE: parallel databases meet MapReduce
US10007698B2 (en) Table parameterized functions in database
CN102663114B (zh) 面向并发olap的数据库查询处理方法
CN103246749B (zh) 面向分布式计算的矩阵数据库系统及其查询方法
CN107066546B (zh) 一种基于mpp引擎的跨数据中心快速查询方法和系统
JP2017157229A (ja) 半構造データのためのスケーラブルな分析プラットフォーム
Yang et al. Huge: An efficient and scalable subgraph enumeration system
CN111752959B (zh) 一种实时数据库跨库sql交互方法和系统
CN106569896B (zh) 一种数据分发及并行处理方法和系统
Samwel et al. F1 query: Declarative querying at scale
Zhang et al. Towards efficient join processing over large RDF graph using mapreduce
US11321394B2 (en) Graph processing system
WO2013153027A1 (en) Method and system for streaming processing in a map and reduce distributed computing platform
Chen et al. Grasper: A high performance distributed system for OLAP on property graphs
Zou et al. From a stream of relational queries to distributed stream processing
Sinthong et al. AFrame: Extending DataFrames for large-scale modern data analysis (Extended Version)
Gracia-Tinedo et al. Lamda-flow: Automatic pushdown of dataflow operators close to the data
Li Introduction to Big Data
Castagna et al. A parallel processing framework for RDF design and issues
Zhu et al. Hydb: Access optimization for data-intensive service
TWI766757B (zh) 一種提升常用資料存取效能之系統、方法及其電腦可讀媒介

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant