CN107329814A - 一种基于rdma的分布式内存数据库查询引擎系统 - Google Patents

一种基于rdma的分布式内存数据库查询引擎系统 Download PDF

Info

Publication number
CN107329814A
CN107329814A CN201710455604.9A CN201710455604A CN107329814A CN 107329814 A CN107329814 A CN 107329814A CN 201710455604 A CN201710455604 A CN 201710455604A CN 107329814 A CN107329814 A CN 107329814A
Authority
CN
China
Prior art keywords
query engine
task
rdma
subtask
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710455604.9A
Other languages
English (en)
Other versions
CN107329814B (zh
Inventor
段翰聪
陈超
郭江涛
梁君健
李博洋
闵革勇
李林
张建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201710455604.9A priority Critical patent/CN107329814B/zh
Publication of CN107329814A publication Critical patent/CN107329814A/zh
Application granted granted Critical
Publication of CN107329814B publication Critical patent/CN107329814B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • G06F9/5088Techniques for rebalancing the load in a distributed system involving task migration
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/12Avoiding congestion; Recovering from congestion
    • H04L47/125Avoiding congestion; Recovering from congestion by balancing the load, e.g. traffic engineering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于RDMA的分布式内存数据库查询引擎系统,包括:多个查询引擎模块、任务调度模块、元数据信息收集模块、任务执行模块;元数据信息收集模块为每张表的每个列生成统计信息;主查询引擎模块将SQL语句解析为逻辑计划,将逻辑计划发送给任务调度模块;任务调度模块生成物理计划将物理计划发送给查询引擎模块;主查询引擎模块生成至少两个子任务并下发到多个从查询引擎模块;从查询引擎模块将子任务加入任务队列,当前任务完成后,通过RDMA的方式,将数据发送给后继子任务,所有子任务完成后,通知客户端在从查询引擎系统获取结果数据,实现了如何降低了分布式内存数据库查询引擎的数据传输开销,提高了查询速度的技术效果。

Description

一种基于RDMA的分布式内存数据库查询引擎系统
技术领域
本发明涉及分布式内存数据库研究领域,具体地,涉及一种基于RDMA的分布式内存数据库查询引擎系统。
背景技术
在当前的数据库市场,传统数据库已经渐渐退出历史舞台,NoSQL和NewSQL增长势头十分强劲。NewSQL是对所有新型可扩展、高性能数据库的简称,它们不仅有NoSQL对海量数据库的存储管理能力,还保持了传统数据库支持ACID和SQL等特性。但是磁盘读写速度较慢,极大地阻碍了NewSQL数据库的执行速度,因此诞生了面向联机分析处理(OLAP,OnlineAnalytical Processing)的大规模分布式内存数据库。分布式内存查询引擎是NewSQL的核心部分,负责整个查询任务的SQL解析和查询任务执行。
Spark-SQL是一种数据仓库查询引擎,负责接受用户的SQL语句,在HDFS上进行数据处理,Spark-SQL底层采用Spark计算模型而不是MapReduce计算模型。Spark-SQL采用了基于内存的列簇存储方案;“部分DAG执行引擎”,对SQL语句进行了基于代价的查询优化;同时支持语言级别的数据共同分片等方式对传统的Hive进行优化。
Impala是Cloudera开源的大数据查询引擎,采用MPP架构,通过进程间通信的方式,能够极大地提高系统的执行效率。Impala在生成查询计划的时候,遵循两个基本目标:最大程度地进行并行化;最大化数据局部性,尽可能减少网络传输。
Spark-SQL和Impala提供了很好的查询性能,但是它们多个查询引擎进程之间都采用基于TCP/IP的socket进行通信,由于TCP网络的复杂性和高延迟,大数据查询引擎的数据量又十分庞大,查询任务的主要瓶颈都在网络传输上。
综上所述,本申请发明人在实现本申请发明技术方案的过程中,发现上述技术至少存在如下技术问题:
在现有技术中,现有的大规模分布式内存数据库查询引擎存在任务执行过程中海量数据传输速度慢的技术问题。
发明内容
本发明提供了一种基于RDMA(远程直接数据存取)的分布式内存数据库查询引擎系统,解决了现有的大规模分布式内存数据库查询引擎存在任务执行过程中海量数据传输速度慢的技术问题,实现了如何降低了分布式内存数据库查询引擎的数据传输开销,提高了查询速度的技术效果。
为解决上述技术问题,本申请提供了一种基于RDMA的分布式内存数据库查询引擎系统,所述系统包括:
多个查询引擎模块、任务调度模块、元数据信息收集模块、任务执行模块;其中,查询引擎模块包括主查询引擎模块和从查询引擎模块;元数据信息收集模块从分布式内存数据库存储引擎收集数据分布情况,为每张表的每个列生成统计信息;主查询引擎模块基于关系代数的变换将SQL语句解析为逻辑计划,将逻辑计划发送给任务调度模块;任务调度模块根据执行引擎数据分布情况和RDMA的数据传输特性,生成物理计划将物理计划发送给查询引擎模块;主查询引擎模块根据物理计划生成至少两个子任务,并将子任务下发到多个从查询引擎模块;从查询引擎模块将子任务加入任务队列,当前任务完成后,通过RDMA的方式,将数据发送给后继子任务,所有子任务完成后,通知客户端在从查询引擎系统获取结果数据。
本发明采用基于Infiniband(无限带宽技术)的RDMA网络,进行子任务执行过程中的数据交换。而不会出现Impala和Spark-SQL任务执行过程中,后继任务长时间等待前驱任务,导致CPU利用率很低。同时,基于Infiniband的RDMA网络双向传输速度互补影响的特性,本发明提出一种基于RDMA网络的DAG(有向无环图)任务调度策略,充分利用RDMA特性。因此,采用本发明提供的基于RDMA的分布式内存数据库的查询方法,可以得到良好的查询效率。其中,RDMA技术全称远程直接数据存取。
进一步的,所述系统的处理流程为:
步骤1:元数据收集模块从分布式内存数据库存储引擎收集数据分布情况,为每张表的每个列生成统计信息,即数据分布图;
步骤2:客户端将SQL语句发送给查询引擎模块,根据负载均衡策略指定一个主查询引擎模块;
步骤3:主查询引擎模块将SQL语句解析为执行计划,并将执行计划发送给任务调度模块;
步骤4:任务调度模块基于数据分布图,将所查询的列的数据平均地分为n份,总份数n等于所有从查询引擎模块的所有机器总核数,将执行计划中的每个子任务分为n个,生成新的任务执行DAG图,在新的任务执行DAG图中,前置子任务将数据发送给多个后继子任务;
步骤5:为每个子任务指定物理机IP后,将任务发送部署到物理机。
进一步的,负载均衡策略为所有的SQL引擎模块都有一个任务队列,选择任务队列中任务最少的那一个。
进一步的,所述步骤4具体包括:
步骤4-1:任务调度模块基于数据分布图,将所查询的列的数据平均地分为n份,总份数n等于所有从查询引擎模块的所有机器总核数,将执行计划中的每个子任务分为n个,前驱和后继子任务通过预设的数据传输规则,将分裂后的子任务关联起来,生成新的任务执行DAG图;
步骤4-2:在新的任务执行DAG图中,Round-robin(轮询)调度策略前置子任务将数据发送给多个后继子任务,使后继所有子任务处于一台物理机。
进一步的,所述步骤5具体包括:
步骤5.1:任务执行完毕后,如果没有后继子任务,通知客户端获取SQL语句查询结果,否则通过RDMA网络,将数据发送给后继子任务;
步骤5.2:对RDMA网络接口进行封装,提供前后任务基于Hash分布和Range分布的消息队列语义;
步骤5.3:后继子任务接受到前驱任务的消息后,判定自身是否可以执行,判定规则为是否接受前驱任务所有数据,任务执行完毕后,重复步骤5.1。
进一步的,提供前后任务基于Hash分布和Range分布的消息队列语义通过以下两个步骤实现:首先基于RDMA网络提供上层的同步非阻塞网络编程框架,然后在框架上层提供消息队列语义。
本申请提供的一个或多个技术方案,至少具有如下技术效果或优点:
本发明提供了一种基于RDMA的分布式内存数据库查询引擎,解决了现存分布式内存数据库系统中网络交换速度慢的瓶颈。本发明提出基于Round-robin调度策略,解决了RDMA高速网络交换机中HOL(排头阻塞)阻塞问题;同时提出了一套基于RDMA的消息队列模型,分布式数据库引擎不必关心网络传输问题,只需要为RDMA消息队列指定网络传输方式。进一步的,各个子任务相互独立,满足了分布式内存数据库查询引擎横向扩展的需求。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定;
图1是本申请中基于RDMA的分布式内存数据库查询引擎架构图;
图2是本申请中步骤4-2任务调度策略示意图;
图3是本申请中基于RDMA的分布式内存数据库查询引擎执行流程图。
具体实施方式
本发明提供了一种基于RDMA的分布式内存数据库查询引擎系统,解决了现有的大规模分布式内存数据库查询引擎存在任务执行过程中海量数据传输速度慢的技术问题,实现了如何降低了分布式内存数据库查询引擎的数据传输开销,提高了查询速度的技术效果。
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在相互不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述范围内的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
本发明所要解决的是采用RDMA的方式,解决大规模分布式内存数据库查询引擎任务执行过程中海量数据传输速度慢的问题。
请参考图1-图3,本方案通过下述技术方案实现:
一种基于RDMA的分布式内存数据库查询引擎系统,包括多个查询引擎模块,任务调度模块,元数据信息收集模块和任务执行模块。元数据信息收集模块分布式内存数据库存储引擎收集数据分布情况,为每张表的每个列生成统计信息;在查询引擎到来时,主查询引擎模块基于关系代数的变换将SQL语句解析为本领域研究人员知道的逻辑计划;将逻辑计划发送给任务调度模块,任务调度模块根据执行引擎数据分布情况和RDMA的数据传输特性,生成本领域研究人员知道的物理计划;将物理计划发送给查询引擎模块,主查询引擎模块根据物理计划生成至少两个子任务,下发到多个从查询引擎模块;从查询引擎模块将子任务加入任务队列;当前任务完成后,通过RDMA的方式,将数据发送给后继子任务;所有子任务完成后,通知客户端在从查询引擎获取结果数据。
本发明采用基于Infiniband的RDMA网络,进行子任务执行过程中的数据交换。而不会出现Impala和Spark-SQL任务执行过程中,后继任务长时间等待前驱任务,导致CPU利用率很低。同时,基于Infiniband的RDMA网络双向传输速度互补影响的特性,本发明提出一种基于RDMA网络的DAG任务调度策略,充分利用RDMA特性。因此,采用本发明提供的基于RDMA的分布式内存数据库的查询方法,可以得到良好的查询效率。
基于RDMA的分布式内存数据库查询引擎有如下步骤:
步骤1:元数据收集模块从分布式内存数据库存储引擎收集数据分布情况,为每张表的每个列生成统计信息,称为数据分布图;
步骤2:客户端将SQL语句发送给查询引擎模块,由于有多个查询引擎模块,可以根据负载均衡策略指定一个主查询引擎模块,负载均衡策略为所有的SQL引擎模块都有一个任务队列,选择任务队列中任务最少的那一个;
步骤3:主查询引擎模块将SQL语句解析为执行计划,并将执行计划发送给任务调度模块。
步骤4-1:任务调度模块根据步骤一提到数据分布图,将所查询的列的数据平均地分为n份,总份数n等于所有从查询引擎的所有机器的总核数。将执行计划中的每个子任务分为n个,前驱和后继子任务通过预设的数据传输规则,将分裂后的子任务关联起来,产生新的任务执行DAG图。
步骤4-2:在新的任务执行DAG图中,某个前置子任务会把数据发送给多个后继子任务。如果随机分布任务到多台机器,由于RDMA转发速度很快,数据会在交换机产生head-of-line(HOL)阻塞,降低数据转发速度。这里我们采用简单而有效的Round-robin调度策略,使后继所有子任务处于一台物理机,这样前置任务只会向一台物理机发送数据,避免了HOL阻塞。
步骤5:为每个子任务指定物理机IP后,将任务发送部署到这些物理机。
步骤5.1:任务执行完毕后,如果没有后继子任务,通知客户端获取SQL语句查询结果,否则通过RDMA高速网络,将数据发送给后继子任务。
步骤5.2:RDMA只提供了访问远程内存的基本语义,为了满足分布式内存数据库查询引擎在数据传输的需求,对RDMA网络接口进行封装,提供前后任务基于Hash分布和Range分布的高级消息队列语义。主要通过两个步骤实现,首先基于RDMA网络提供上层的同步非阻塞网络编程框架,然后在框架上层提供消息队列语义。
步骤5.3:后继子任务接受到前驱任务的消息后,会判定自身是否可以执行,判定规则为是否接受前驱任务所有数据。任务执行完毕后,重复步骤5.1。
本发明与现有技术相比,具有如下的优点和效果:
一种基于RDMA的分布式内存数据库查询引擎,主要特征包括:基于RDMA高速网络服务于分布式内存数据库查询引擎的消息队列,基于RDMA告诉网络的分布式任务调度策略。
基于RDMA高速网络服务于分布式内存数据库查询引擎的消息队列,首先基于RDMA网络提供上层的同步非阻塞网络编程框架;然后在框架上层提供分布式消息分发语义。
基于RDMA告诉网络的分布式任务调度策略,主要采用Round-robin调度策略,使后继所有子任务处于一台物理机,这样前置任务只会向一台物理机发送数据,避免了HOL阻塞。
本发明提供了一种基于RDMA的分布式内存数据库查询引擎,解决了现存分布式内存数据库系统中网络交换速度慢的瓶颈。本发明提出基于Round-robin调度策略,解决了RDMA高速网络交换机中head-of-line(HOL)阻塞问题;同时提出了一套基于RDMA的消息队列模型,分布式数据库引擎不必关心网络传输问题,只需要为RDMA消息队列指定网络传输方式。进一步的,各个子任务相互独立,满足了分布式内存数据库查询引擎横向扩展的需求。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种基于RDMA的分布式内存数据库查询引擎系统,其特征在于,所述系统包括:
多个查询引擎模块、任务调度模块、元数据信息收集模块、任务执行模块;其中,查询引擎模块包括主查询引擎模块和从查询引擎模块;元数据信息收集模块从分布式内存数据库存储引擎收集数据分布情况,为每张表的每个列生成统计信息;主查询引擎模块基于关系代数的变换将SQL语句解析为逻辑计划,将逻辑计划发送给任务调度模块;任务调度模块根据执行引擎数据分布情况和RDMA的数据传输特性,生成物理计划将物理计划发送给查询引擎模块;主查询引擎模块根据物理计划生成至少两个子任务,并将子任务下发到多个从查询引擎模块;从查询引擎模块将子任务加入任务队列,当前任务完成后,通过RDMA的方式,将数据发送给后继子任务,所有子任务完成后,通知客户端在从查询引擎系统获取结果数据。
2.根据权利要求1所述的基于RDMA的分布式内存数据库查询引擎系统,其特征在于,所述系统的处理流程为:
步骤1:元数据收集模块从分布式内存数据库存储引擎收集数据分布情况,为每张表的每个列生成统计信息,即数据分布图;
步骤2:客户端将SQL语句发送给查询引擎模块,根据负载均衡策略指定一个主查询引擎模块;
步骤3:主查询引擎模块将SQL语句解析为执行计划,并将执行计划发送给任务调度模块;
步骤4:任务调度模块基于数据分布图,将所查询的列的数据平均地分为n份,总份数n等于所有从查询引擎模块的所有机器总核数,将执行计划中的每个子任务分为n个,生成新的任务执行DAG图,在新的任务执行DAG图中,前置子任务将数据发送给多个后继子任务;
步骤5:为每个子任务指定物理机IP后,将任务发送部署到物理机。
3.根据权利要求2所述的基于RDMA的分布式内存数据库查询引擎系统,其特征在于,负载均衡策略为所有的查询引擎模块都有一个任务队列,选择任务队列中任务最少的那一个。
4.根据权利要求2所述的基于RDMA的分布式内存数据库查询引擎系统,其特征在于,所述步骤4具体包括:
步骤4-1:任务调度模块基于数据分布图,将所查询的列的数据平均地分为n份,总份数n等于所有从查询引擎模块的所有机器总核数,将执行计划中的每个子任务分为n个,前驱和后继子任务通过预设的数据传输规则,将分裂后的子任务关联起来,生成新的任务执行DAG图;
步骤4-2:在新的任务执行DAG图中,Round-robin调度策略前置子任务将数据发送给多个后继子任务,使后继所有子任务处于一台物理机。
5.根据权利要求1所述的基于RDMA的分布式内存数据库查询引擎系统,其特征在于,所述步骤5具体包括:
步骤5.1:任务执行完毕后,如果没有后继子任务,通知客户端获取SQL语句查询结果,否则通过RDMA网络,将数据发送给后继子任务;
步骤5.2:对RDMA网络接口进行封装,提供前后任务基于Hash分布和Range分布的消息队列语义;
步骤5.3:后继子任务接受到前驱任务的消息后,判定自身是否可以执行,判定规则为是否接受前驱任务所有数据,任务执行完毕后,重复步骤5.1。
6.根据权利要求5所述的基于RDMA的分布式内存数据库查询引擎系统,其特征在于,提供前后任务基于Hash分布和Range分布的消息队列语义通过以下两个步骤实现:首先基于RDMA网络提供上层的同步非阻塞网络编程框架,然后在框架上层提供消息队列语义。
CN201710455604.9A 2017-06-16 2017-06-16 一种基于rdma的分布式内存数据库查询引擎系统 Active CN107329814B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710455604.9A CN107329814B (zh) 2017-06-16 2017-06-16 一种基于rdma的分布式内存数据库查询引擎系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710455604.9A CN107329814B (zh) 2017-06-16 2017-06-16 一种基于rdma的分布式内存数据库查询引擎系统

Publications (2)

Publication Number Publication Date
CN107329814A true CN107329814A (zh) 2017-11-07
CN107329814B CN107329814B (zh) 2020-05-26

Family

ID=60195046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710455604.9A Active CN107329814B (zh) 2017-06-16 2017-06-16 一种基于rdma的分布式内存数据库查询引擎系统

Country Status (1)

Country Link
CN (1) CN107329814B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108456A (zh) * 2017-12-28 2018-06-01 重庆邮电大学 一种基于元数据的信息资源分布式查询方法
CN108491274A (zh) * 2018-04-02 2018-09-04 深圳市华傲数据技术有限公司 分布式数据管理的优化方法、装置、存储介质及设备
CN108549683A (zh) * 2018-04-03 2018-09-18 联想(北京)有限公司 数据查询方法以及系统
CN110046041A (zh) * 2019-04-15 2019-07-23 北京中安智达科技有限公司 一种基于celery调度框架的数据采集方法
CN110427270A (zh) * 2019-08-09 2019-11-08 华东师范大学 一种面向rdma网络下分布式连接算子的动态负载均衡方法
CN110442627A (zh) * 2019-07-05 2019-11-12 威讯柏睿数据科技(北京)有限公司 一种内存数据库系统和数据仓库系统之间的数据传输方法及系统
CN110569252A (zh) * 2018-05-16 2019-12-13 杭州海康威视数字技术股份有限公司 一种数据处理系统及方法
CN110716802A (zh) * 2019-10-11 2020-01-21 恩亿科(北京)数据科技有限公司 一种跨集群的任务调度系统及方法
CN111104417A (zh) * 2019-12-05 2020-05-05 苏宁云计算有限公司 SparkSql外部数据源装置器、实现方法及系统
CN112115150A (zh) * 2020-08-03 2020-12-22 上海金仕达软件科技有限公司 嵌入式内存数据库的数据管理方法、终端设备及介质
CN112395085A (zh) * 2020-11-05 2021-02-23 深圳市中博科创信息技术有限公司 一种基于hdfs的分布式关系数据库的调度方法
WO2021031407A1 (zh) * 2019-08-16 2021-02-25 平安科技(深圳)有限公司 实现异构数据库之间数据交互式查询的方法、装置、电子设备、存储介质
CN113138831A (zh) * 2020-01-17 2021-07-20 深圳致星科技有限公司 一种网络重置方法及基于此的加速分布式训练方法和系统
CN113626464A (zh) * 2021-08-02 2021-11-09 浪潮云信息技术股份公司 基于ClickHouse数据库内存数据的查询支持方法及系统
CN116108057A (zh) * 2023-04-11 2023-05-12 山东浪潮科学研究院有限公司 一种分布式数据库访问方法、装置、设备及存储介质
WO2023221813A1 (zh) * 2022-05-19 2023-11-23 北京奥星贝斯科技有限公司 分布式数据库的计划执行方法、装置和系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101695051A (zh) * 2009-10-21 2010-04-14 中国人民解放军理工大学 一种用于缓冲Crossbar的队列长度均衡调度方法
US20140161135A1 (en) * 2012-12-07 2014-06-12 Cisco Technology, Inc. Output Queue Latency Behavior For Input Queue Based Device
CN104063486A (zh) * 2014-07-03 2014-09-24 四川中亚联邦科技有限公司 一种大数据分布式存储方法和系统
CN105159929A (zh) * 2015-08-05 2015-12-16 北京思特奇信息技术股份有限公司 一种内存数据库通信方法及系统
CN105279286A (zh) * 2015-11-27 2016-01-27 陕西艾特信息化工程咨询有限责任公司 一种交互式大数据分析查询处理方法
CN105824957A (zh) * 2016-03-30 2016-08-03 电子科技大学 分布式内存列式数据库的查询引擎系统及查询方法
CN106227799A (zh) * 2016-07-21 2016-12-14 江和慧 一种基于分布式数据库的sql语句处理方法
CN106294772A (zh) * 2016-08-11 2017-01-04 电子科技大学 分布式内存列式数据库的缓存管理方法
CN106897322A (zh) * 2015-12-21 2017-06-27 中国移动通信集团山西有限公司 一种数据库和文件系统的访问方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101695051A (zh) * 2009-10-21 2010-04-14 中国人民解放军理工大学 一种用于缓冲Crossbar的队列长度均衡调度方法
US20140161135A1 (en) * 2012-12-07 2014-06-12 Cisco Technology, Inc. Output Queue Latency Behavior For Input Queue Based Device
CN104063486A (zh) * 2014-07-03 2014-09-24 四川中亚联邦科技有限公司 一种大数据分布式存储方法和系统
CN105159929A (zh) * 2015-08-05 2015-12-16 北京思特奇信息技术股份有限公司 一种内存数据库通信方法及系统
CN105279286A (zh) * 2015-11-27 2016-01-27 陕西艾特信息化工程咨询有限责任公司 一种交互式大数据分析查询处理方法
CN106897322A (zh) * 2015-12-21 2017-06-27 中国移动通信集团山西有限公司 一种数据库和文件系统的访问方法和装置
CN105824957A (zh) * 2016-03-30 2016-08-03 电子科技大学 分布式内存列式数据库的查询引擎系统及查询方法
CN106227799A (zh) * 2016-07-21 2016-12-14 江和慧 一种基于分布式数据库的sql语句处理方法
CN106294772A (zh) * 2016-08-11 2017-01-04 电子科技大学 分布式内存列式数据库的缓存管理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HANCONG DUAN等: "Energy-aware scheduling of virtual machines in heterogeneous cloud computing systems", 《FUTURE GENERATION COMPUTER SYSTEMS 》 *
N.S.ISLAM等: "High Performance RDMA-based Design of HDFS over InfiniBand", 《PROCEEDINGS OF THE INTERNATIONAL CONFERENCE ON HIGH PERFORMANCE COMPUTING,NETWORKING,STORAGE AND ANALYSIS》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108456A (zh) * 2017-12-28 2018-06-01 重庆邮电大学 一种基于元数据的信息资源分布式查询方法
CN108491274A (zh) * 2018-04-02 2018-09-04 深圳市华傲数据技术有限公司 分布式数据管理的优化方法、装置、存储介质及设备
CN108549683A (zh) * 2018-04-03 2018-09-18 联想(北京)有限公司 数据查询方法以及系统
CN110569252A (zh) * 2018-05-16 2019-12-13 杭州海康威视数字技术股份有限公司 一种数据处理系统及方法
CN110046041B (zh) * 2019-04-15 2021-04-09 北京中安智达科技有限公司 一种基于celery调度框架的数据采集方法
CN110046041A (zh) * 2019-04-15 2019-07-23 北京中安智达科技有限公司 一种基于celery调度框架的数据采集方法
CN110442627A (zh) * 2019-07-05 2019-11-12 威讯柏睿数据科技(北京)有限公司 一种内存数据库系统和数据仓库系统之间的数据传输方法及系统
CN110427270A (zh) * 2019-08-09 2019-11-08 华东师范大学 一种面向rdma网络下分布式连接算子的动态负载均衡方法
WO2021031407A1 (zh) * 2019-08-16 2021-02-25 平安科技(深圳)有限公司 实现异构数据库之间数据交互式查询的方法、装置、电子设备、存储介质
CN110716802A (zh) * 2019-10-11 2020-01-21 恩亿科(北京)数据科技有限公司 一种跨集群的任务调度系统及方法
CN111104417A (zh) * 2019-12-05 2020-05-05 苏宁云计算有限公司 SparkSql外部数据源装置器、实现方法及系统
CN113138831A (zh) * 2020-01-17 2021-07-20 深圳致星科技有限公司 一种网络重置方法及基于此的加速分布式训练方法和系统
CN113138831B (zh) * 2020-01-17 2024-03-08 深圳致星科技有限公司 一种网络重置方法及基于此的加速分布式训练方法和系统
CN112115150A (zh) * 2020-08-03 2020-12-22 上海金仕达软件科技有限公司 嵌入式内存数据库的数据管理方法、终端设备及介质
CN112115150B (zh) * 2020-08-03 2024-03-19 上海金仕达软件科技股份有限公司 嵌入式内存数据库的数据管理方法、终端设备及介质
CN112395085A (zh) * 2020-11-05 2021-02-23 深圳市中博科创信息技术有限公司 一种基于hdfs的分布式关系数据库的调度方法
CN113626464A (zh) * 2021-08-02 2021-11-09 浪潮云信息技术股份公司 基于ClickHouse数据库内存数据的查询支持方法及系统
WO2023221813A1 (zh) * 2022-05-19 2023-11-23 北京奥星贝斯科技有限公司 分布式数据库的计划执行方法、装置和系统
CN116108057A (zh) * 2023-04-11 2023-05-12 山东浪潮科学研究院有限公司 一种分布式数据库访问方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN107329814B (zh) 2020-05-26

Similar Documents

Publication Publication Date Title
CN107329814A (zh) 一种基于rdma的分布式内存数据库查询引擎系统
CN103345514B (zh) 大数据环境下的流式数据处理方法
CN104063486B (zh) 一种大数据分布式存储方法和系统
US9152669B2 (en) System and method for distributed SQL join processing in shared-nothing relational database clusters using stationary tables
CN106372114B (zh) 一种基于大数据的联机分析处理系统和方法
US7779008B2 (en) Parallel partition-wise aggregation
CN103631870B (zh) 一种用于大规模分布式数据处理的系统及其方法
CN109933631A (zh) 基于Infiniband网络的分布式并行数据库系统及数据处理方法
CN111176832A (zh) 基于内存计算框架Spark的性能优化和参数配置方法
CN104407879B (zh) 一种电网时序大数据并行加载方法
CN102521406A (zh) 海量结构化数据复杂查询任务的分布式查询方法和系统
US20140280020A1 (en) System and Method for Distributed SQL Join Processing in Shared-Nothing Relational Database Clusters Using Self Directed Data Streams
Cossu et al. Prost: Distributed execution of sparql queries using mixed partitioning strategies
CN109783441A (zh) 基于Bloom Filter的海量数据查询方法
CN105975345A (zh) 一种基于分布式内存的视频帧数据动态均衡存储管理方法
CN109918450B (zh) 基于分析类场景下的分布式并行数据库及存储方法
CN107193898A (zh) 基于分级复用的日志数据流的查询共享方法和系统
CN112947860B (zh) 一种分布式数据副本的分级存储与调度方法
CN103823846A (zh) 一种基于图论的大数据存储及查询方法
CN111258978A (zh) 一种数据存储的方法
Zhang et al. Oceanrt: Real-time analytics over large temporal data
CN108228654A (zh) 一种大数据分布式存储方法和系统
CN110069565B (zh) 一种分布式数据库数据批量处理的方法及装置
CN108319604B (zh) 一种hive中大小表关联的优化方法
CN107169138B (zh) 一种面向分布式内存数据库查询引擎的数据分发方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant