CN104903894A - 用于分布式数据库查询引擎的系统和方法 - Google Patents

用于分布式数据库查询引擎的系统和方法 Download PDF

Info

Publication number
CN104903894A
CN104903894A CN201380069759.9A CN201380069759A CN104903894A CN 104903894 A CN104903894 A CN 104903894A CN 201380069759 A CN201380069759 A CN 201380069759A CN 104903894 A CN104903894 A CN 104903894A
Authority
CN
China
Prior art keywords
node
worker node
data
worker
local queries
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201380069759.9A
Other languages
English (en)
Other versions
CN104903894B (zh
Inventor
拉戈特姆·穆尔蒂
拉贾特·格尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meta Platforms Inc
Original Assignee
Facebook Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Facebook Inc filed Critical Facebook Inc
Priority to CN201811509796.8A priority Critical patent/CN110069526A/zh
Publication of CN104903894A publication Critical patent/CN104903894A/zh
Application granted granted Critical
Publication of CN104903894B publication Critical patent/CN104903894B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2358Change logging, detection, and notification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24539Query rewriting; Transformation using cached or materialised query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24552Database cache management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Abstract

在本文中公开了用于能够执行低延迟数据库查询处理的技术。所述系统包括网关服务器和多个工作者节点。所述网关服务器被配置为将包含存储在具有多个数据节点的分布式存储簇内的数据的数据库的数据库查询分成多个局部查询,并且根据多个中间结果构造查询结果。多个工作者节点中的每个工作者节点被配置为通过扫描与存储在分布式存储簇的至少一个数据节点上的相应局部查询相关的数据,来处理多个局部查询的相应局部查询,并且生成存储在工作者节点的存储器内的多个中间结果的一个中间结果。

Description

用于分布式数据库查询引擎的系统和方法
交叉引用相关申请
本申请要求于2013年1月7日提交的美国专利申请号13/735,820的优先权,该申请之全文并入本文中,以作参考。
本申请要求于2013年12月19日提交的欧洲专利申请号13198563.2的优先权,该申请之全文并入本文中,以作参考。
技术领域
本发明总体上涉及数据库,并且尤其涉及用于低查询延迟数据库分析的分布式数据库查询引擎。
背景技术
计算机和网络计算的发展引起了需要大量数据存储的应用程序。例如,数千万用户可以创建网页并且将图像和文本上传到社会媒体网站中。因此,社会媒体网站每天可以累积大量数据,因此,需要一种用于存储和处理数据的高度可扩展的系统(scalable system)。存在促进这样的大量数据存储的多种工具。
存在框架,通过使得应用程序能够与成千台计算机的簇(也称为节点)以及千兆字节的数据交互,这些框架支持大规模数据密集型分布式应用程序。例如,称为Hadoop的框架使用分布式、可扩展的、便携式文件系统,称为Hadoop分布式文件系统(HDFS),用于在Hadoop簇中在数据节点(也称为子节点)之中分布大量数据。为了减少数据节点电力故障或网络故障(包括开关故障)的不利影响,通常在不同的数据节点上复制HDFS内的数据。
开发了Hive(一种开放源数据仓库系统),用于在Hadoop簇的顶部上运行。Hive支持以脚本查询语言(SQL)(像称为HiveQL的声明式语言)表示的数据查询。然后,Hive系统将以HiveQL表示的查询编译成可以在Hadoop簇上执行的映射-归约(map-reduce)工作,具有有向非循环图的数学形式。HiveQL语言包括支持包含原始类型、集合(例如,阵列和映射)以及嵌套布局类型(nested compositions of types)的表格的类型系统。此外,Hive系统包括包含方案和统计的称为Hive-元数据存储的系统目录,可用于数据探索(data exploration)和查询优化中。
与Hadoop簇耦合的Hive系统可以为社会网络系统存储和分析大量数据。例如,Hive系统可以分析在用户之间的连接程度,以对用户在社会网络系统上的历史进行分类。Hive系统可以分析活动日志,以了解社会网络系统的服务如何被用来帮助应用程序开发员、网页管理员以及广告人员做出开发和业务决定。Hive系统可以运行复杂的数据挖掘程序,以优化向社会网络系统的用户示出的广告。Hive系统可以进一步分析使用日志,以识别社会网络系统的垃圾邮件和滥用。
Hive系统包括供没有制作和执行Hive查询的编程能力的人使用的网络工具,用于制作、调试以及调度复杂的数据管线(data pipeline),并且用于根据存储在Hive系统和其他关系数据库(例如,MySQL和Oracle)内的数据,生成报告。
然而,Hive系统的查询延迟通常较高。由于大量数据以及Hadoop簇的map-reduce方案,甚至最简单的查询可能需要花费几秒到几分钟来完成。这对于在操作人员需要当前查询的结果来决定一系列查询中的下一个查询时的交互式分析尤其是个问题。由于在等待当前查询的结果时,分析人员不能确定下一个查询,所以延迟问题明显影响分析人员的生产力。
一种可能的变通方案(workaround solution)是创建数据管线,这些数据管线将聚集数据从Hive载入其他类型的关系数据库管理系统(RDBMS),例如,MySQL和Oracle。然后,操作人员执行交互式分析,并且使用这些RDBMS建立报告。然而,每个RDBMS需要单独的数据管线。数据管线也需要时间来将聚集数据从Hive传输给其他RDBMS。因此,这种变通方案处理依然麻烦并且不方便。
发明内容
在本文中介绍的技术在存储在大规模存储簇(例如,Hadoop簇)内的非常大量的数据上提供了低延迟查询的优点,该簇在系统目录(例如,Hive元数据存储)内存储元数据。尤其地,在本文中介绍的技术包括基于服务树计算框架的分布式查询引擎。分布式查询引擎包括网关服务器和多个工作者节点。所述网关服务器将查询任务分成局部任务。引擎的每个工作者节点处理一个局部任务,以在存储器中生成中间查询结果。中间查询结果可以是通过扫描一部分相关数据所生成的近似中间结果。网关服务器接收中间查询结果,并且根据中间查询结果,构建查询任务的查询结果。
因此,根据在本文中介绍的技术,提供了用于处理数据库的数据库查询的系统。该系统包括网关服务器和多个工作者节点。所述网关服务器被配置为将包含存储在具有多个数据节点的分布式存储簇内的数据的数据库的数据库查询分成多个局部查询,并且根据多个中间结果构建查询结果。所述多个工作者节点中的每个工作者节点被配置为通过扫描与存储在分布式存储簇中的至少一个数据节点上的相应局部查询相关的数据,来处理多个局部查询的相应局部查询,并且生成多个中间结果中的存储在所述工作者节点的存储器内的一个中间结果。
在本文中介绍的技术能够对存储在大规模存储簇(例如,Hadoop簇)内的大数据集合体执行低延迟查询处理。由于操作人员不需要等待完成当前查询来确定下一个查询,所以这对于交互式分析特别有利。通过扫描一部分相关数据,这个分布式查询系统可以进一步生成近似结果。在处理对整组相关数据的一系列查询之前,系统的操作人员可以接收一系列查询的快速原型,以测试这一系列查询的有效性。
尤其在所附权利要求中公开了根据本发明的实施方式,涉及一种系统、一种存储介质以及一种方法,其中,也可以在另一个权利要求目录(例如,方法)中要求在一个权利要求目录(例如,系统)中提及的任何特征。
在本发明的一个实施方式中,一种系统包括:
网关服务器,被配置为从包含存储在具有多个数据节点的分布式存储簇内的数据的数据库的数据库查询中生成多个局部查询,并且根据多个中间结果构建查询结果;以及
多个工作者节点,其中,所述多个工作者节点中的每个工作者节点被配置为通过扫描与相应局部查询相关的并且存储在分布式存储簇的至少一个数据节点上的数据,来处理多个局部查询的相应局部查询,并且其中,所述多个工作者节点中的每个工作者节点进一步被配置为生成多个中间结果的存储在所述工作者节点的存储器内的一个中间结果。
所述多个工作者节点中的每个工作者节点进一步被配置为通过扫描与存储在分布式存储簇的至少一个数据节点上的相应局部查询相关的数据的一部分,来处理多个局部查询中的相应局部查询,并且生成存储在所述工作者节点的存储器内的近似中间结果。
所述网关服务器可以进一步被配置为根据至少一个近似中间结果构建近似查询结果。
所述网关服务器还可以进一步被配置为根据多个中间结果的一部分构建近似查询结果。
所述网关服务器可以甚至进一步被配置为识别离散的工作者节点,进一步将分配给离散的工作者节点的局部查询分成多个从属局部查询,并且将所述多个从属局部查询分配给所述多个工作者节点中的一些工作者节点,其中,所述离散的工作者节点是未向网关服务器报告进度或者在预定的时间段之后向网关服务器报告低于预定值的进度的工作者节点。
所述多个工作者节点中的每个工作者节点可以是在分布式存储簇内运行相应数据节点的服务。
所述系统可以进一步包括:
元数据缓存,被配置为缓存数据库的表格级元数据以及分布式存储簇的文件级元数据。
所述元数据缓存可以被配置为保持来自用于所述数据库查询的前一数据库查询的缓存的元数据。
所述多个工作者节点中的每个工作者节点可以将心跳消息定期发送给网关服务器,以通过所述工作节点报告局部查询处理的状态。
所述网关服务器可以进一步被配置为从客户端装置接收指令,以返回近似查询结果或终止数据库查询的处理。
所述网关服务器还可以进一步被配置为指示工作节点立即返回近似中间结果,并且根据近似中间结果,将近似查询结果返回至客户端装置。
所述数据库查询可以包括近似查询结果的请求。
所述查询结果可以伴有存储在数据节点内的已经为所述查询结果扫描的一部分相关数据的指示。
所述数据库可以是Hive数据仓库系统,并且所述分布式存储簇是Hadoop簇。
在本发明的进一步实施方式中,一种方法使用根据本发明或上述实施方式中的任一个所述的系统。
在本发明的进一步实施方式中,一种方法包括:
从客户端装置中接收包含存储在具有多个数据节点的分布式存储簇内的数据的数据库的数据库查询;
将数据库查询分成多个局部查询;
将每个局部查询发送给多个工作者节点中的相应工作者节点,其中,每个工作者节点是在分布式存储簇的数据节点上运行的服务;
从工作者节点中检索局部查询的多个中间结果,其中,通过扫描存储在运行相应工作者节点的数据节点内的相关数据,每个中间结果由工作者节点的相应工作者节点处理;以及
根据多个中间结果,生成查询结果。
所述方法可以进一步包括:
将查询结果以及部分指示符返回至客户端装置,其中,所述部分指示符指示存储在数据节点内的已经为所述查询结果扫描的一部分相关数据。
所述方法可以进一步包括:
指示工作者节点立即返回近似查询结果;
并且其中,所述检索步骤包括:
从工作者节点中检索局部查询的多个近似中间结果,其中,通过扫描存储在运行相应工作者节点的数据节点内的一部分相关数据,每个近似中间结果由工作者节点的相应工作者节点处理。
所述方法可以进一步包括:
对于每个局部查询,检索关于哪个数据节点存储与局部查询相关的数据的元数据;
并且所述发送步骤包括:
根据所述元数据,将每个局部查询发送给多个工作者节点的相应工作者节点。
在还可以要求的本发明的进一步实施方式中,一种方法包括:
从客户端装置中接收包含存储在具有多个数据节点的分布式存储簇内的数据的数据库的数据库查询;
将数据库查询分成多个局部查询;
将每个局部查询发送给多个工作者节点中的相应工作者节点,其中,每个工作者节点是在分布式存储簇的数据节点上运行的服务;
识别离散的工作者节点,将分配给离散的工作者节点的局部查询分成多个从属局部查询,并且将所述多个从属局部查询分配给所述多个工作者节点中的一些;
从工作者节点中检索局部查询的多个中间结果,其中,通过扫描存储在运行相应工作者节点的数据节点内的相关数据,每个中间结果由工作者节点的相应工作者节点处理;以及
根据多个中间结果,生成查询结果。
所述识别步骤可以包括:
通过监控工作者节点定期发送的心跳消息,识别离散的工作者节点,其中,在预定的时间段内没有接收到离散的工作者节点的心跳消息时,或者在接收来自离散的工作这节点的心跳消息并且所述心跳消息包括低于阈值的表示离散的工作节点的局部查询处理的状态的数量时,识别所述离散的工作者节点。
在还可以要求的本发明的进一步实施方式中,一个或多个计算机可读永久性存储介质实现为软件,在执行时,该软件可操作,以在根据本发明或上述实施方式中的任一个所述的系统中运行。
通过附图并且通过以下详细描述,在本文中介绍的技术的其他方面显而易见。
附图说明
通过结合所附权利要求和附图的以下具体描述(它们均构成本说明书的一部分)的研究,本发明的这些和其他目标、特征以及特性对于本领域的技术人员更加显而易见。在图中:
图1示出了可以在其上建立分布式查询引擎的Hadoop簇的一个实例;
图2示出了具有管理MapReduce任务的工作跟踪器(JobTracker)的Hadoop簇的一个实例;
图3示出了分布式查询引擎、Hadoop分布式文件系统(HDFS)、Hive数据仓库以及存储簇之间的关系;
图4示出了一个示例性分布式查询引擎的高级框图;
图5示出了用于识别离散的工作者节点并且进一步分割局部查询的示例性处理;
图6示出了数据库查询的近似处理的示例性处理;
图7是示出可以表示在本文中描述的任何簇节点的计算机节点的架构的一个实例的高级框图。
具体实施方式
在本说明书中参考“实施方式”、“一个实施方式”等,表示在本发明的至少一个实施方式中包括所描述的特定特征、功能或特性。这样的短语出现在本说明书中,不必指相同的实施方式,也不必互相排斥。
现代社会网络系统每天可以累积大量数据,因此,需要一种用于存储和分析数据的高度可扩展的系统。尤其地,对大量数据的有效的交互分析需要一种处理数据查询的低延迟快速响应的方式。本发明公开了一种分布式查询引擎,通过使基于内存内服务树的计算框架与近似查询处理相结合,来启用该引擎。分布式查询引擎将查询任务分成多个局部任务,并且将局部任务分配给工作者节点,用于进一步内存内处理。分布式查询引擎能够通过根据数据的扫描部分从工作者节点中请求近似中间结果,来在查询处理期间随时生成近似结果。与传统的Hadoop簇的map-reduce方案不同,工作者节点处理局部任务并且在存储器中存储整个中间结果,以减少处理时间并且改善总体延迟。仅仅传输中间结果,而非下面的日期,用于构建结果,大幅减少了传输数据的量和传输时间。
在一个实施方式中,分布式查询引擎可以在运行Hadoop分布式文件系统(HDFS)、Hive数据仓库以及Hive-Metastore的Hadoop簇的顶部上建立。分布式查询引擎可以与Hive的数据格式和元数据兼容,并且支持HiveQL语言的子集。使用分布式查询引擎的操作人员可以在由Hive数据仓库管理的数据内有效地发现统计模式。分布式查询引擎可以通过生成近似结果,来进行一系列查询的快速分析和快速原型化。此外,分布式查询引擎可以通过扫描整个相关数据聚合来运行全分析。
图1示出了可以在其上建立分布式查询引擎的Hadoop簇的一个实例。在图1中,Hadoop簇100包括元数据节点110A和多个数据节点110B、110C以及110D。这些节点可以通过互连120来彼此通信。例如,互连120可以是局域网(LAN)、广域网(WAN)、城域网(MAN)、全球区域网络(例如,互联网)、光纤通道架构或这样的互连的任何组合。在一些实施方式中,互连120可以包括网络开关,用于在网络协议(包括TCP/IP)之下在节点之间处理和路由数据。客户端130A和130B可以通过网络140与Hadoop簇100通信,该网络可以是(例如)互联网、LAN或任何其他类型的网络或网络的组合。例如,每个客户端可以是传统的个人电脑(PC)、服务器类计算机、工作站、手持式计算/通信装置等。在一些实施方式中,使用商品等级服务器(commodity-class server)的一个或多个机架(rack),实现Hadoop簇。
通过分布的方式,在Hadoop分布式文件系统(HDFS)内的Hadoop簇100中的节点上存储文件和数据。对于包括客户端130A和130B的簇100的客户端,HDFS提供传统分层文件系统的功能。可以在HDFS内创建、删除或移动文件以及文件的数据块。名称节点服务150在元数据节点110A上运行,以在HDFS内提供元数据服务,包括由外部客户端保持文件系统名称空间并且控制访问。名称节点服务可以在元数据节点内的称为Fslmage的文件160内存储文件系统索引(包括将块映射到文件中)以及文件系统性能。在一些实施方式中,可以存在在次级名称节点服务上运行的次级元数据节点。如果元数据节点失效,那么次级元数据节点用作备份。
每个数据节点110负责存储HDFS的文件。存储在HDFS内的文件被分成子集,在本文中称为“块”。在一个实施方式中,块的尺寸是64MB。块通常被复制到多个数据节点。因此,在Hadoop簇100内的HDFS可以但是不必使用传统的RAID架构来获得数据可靠性。文件操作由在元数据节点110A上运行的名称节点服务150控制。在一些实施方式中,将数据节点110B、110C、110D组织到rack内,其中,所有节点通过网络开关连接。在rack内的节点之间的网络速度可以比在不同的rack内的节点之间的网络速度更快。Hadoop簇在分配任务时可以考虑这个事实。数据节点服务170在每个数据节点上运行,用于响应块的读取和写入请求。数据节点服务170还对来自用于创建、删除以及复制块的元数据节点的请求作出响应。
在一些实施方式中,数据节点110B、110C、110D将包括块报告的周期性心跳消息发送给元数据节点110A。元数据节点110A使用周期性块报告验证其块映射以及其他文件系统元数据。
在客户端130A或130B试图将文件写入Hadoop簇100内时,客户端将文件创建请求发送给元数据节点110A。元数据节点110A通过一个或多个分配的数据节点的身份以及文件的块的目的地位置对客户端作出响应。客户端将文件的数据块发送给分配的数据节点;并且簇可以在一个或多个数据节点上复制数据块。一旦发送了所有块,元数据节点就在其元数据内记录文件创建,包括Fslmage文件。
Hadoop簇根据称为MapReduce的框架用作平行数据处理引擎。Hadoop簇包括JobTracker,用于实现MapReduce功能。如在图2中所示,JobTracker可以被实施为Hadoop簇200内的专用服务器(JobTracker节点210A)。Hadoop簇200包括通过开关226互连的两个rack 242和244。rack242包括JobTracker节点210A、元数据节点210B、数据节点210C-210D以及用于互连rack 242内的节点的开关222。rack 244包括数据节点210E-210H和用于互连rack 242内的节点的开关224。在一些其他实施方式中,JobTracker可以被实施为与名称节点服务共享相同的元数据节点的服务。元数据节点210B(也称为名称节点)运行名称节点服务,以跟踪在簇之上保持数据的地方。专用于控制MapReduce工作的JobTracker节点210A从客户端230接收请求以开始MapReduce工作。一旦将MapReduce工作(也称为MapReduce应用程序或MapReduce任务)提交给JobTracker210A,JobTracker 210A就在HDFS内为该工作识别输入和输出文件和/或目录。MapReduce任务的输入文件可以包括包含用于MapReduce任务的输入数据的多个输入文件块。JobTracker 210A使用输入文件块(包括块的物理数量以及块的位置)的知识决定将创建多少从属任务。将MapReduce应用程序复制到存在输入文件块的每个处理节点。对于每个分配的处理节点,JobTracker 210A创建至少一个从属任务。在每个分配的处理节点上,任务跟踪器(TaskTracker)服务监控在该节点上从属任务的状态,并且将该状态和中间输出报告至JobTracker。Hadoop簇200根据文件块的知识,分配从属任务。因此,并未将存储移动到处理位置,Hadoop簇将处理任务移动到存储位置。
虽然节点210A-210H在图2中被示出为单个单元,但是每个节点可以具有分布式架构。例如,节点可以被设计为多个计算机的组合,这些计算就可以彼此在物理上分开并且可以通过物理互连彼此通信。这样的架构允许方便的缩放,例如,通过部署能够通过互连彼此通信的计算机。
在一个实施方式中,在运行Hadoop分布式文件系统(HDFS)和Hive数据仓库的Hadoop簇的顶部上,建立分布式查询引擎。图3示出了分布式查询引擎300、Hive数据仓库、HDFS以及存储簇之间的关系。分布式查询引擎300建立在Hive数据仓库和HDFS的顶部上,Hive数据仓库和HDFS由此依赖于存储簇来操作。Hadoop簇310包括负责存储大量数据的多个节点312。Hadoop簇310进一步包括元数据节点314。Hadoop分布式文件系统(HDFS)320在Hadoop簇310上运行,以分配和管理节点312中的数据。数据节点服务322在节点312上运行,以管理节点312内的本地数据存储。将数据和文件分成存储在Hadoop簇310的节点312内的块。名称节点服务324在元数据节点314上运行,以在Hadoop簇内提供元数据服务,包括由保持文件系统名称空间并且控制外部客户端的访问。
Hive数据仓库系统330建立在Hadoop簇310和HDFS 320的顶部上。Hive数据仓库系统330用作数据库接口。Hive数据仓库系统330支持以类似于SQL的声明式语言HiveQL表示的数据查询。并非依赖于Hadoop簇的map-reduce方案来处理Hive系统的数据库查询,分布式查询引擎包括多个工作者节点342,用于以平行的方式处理数据库查询。分布式查询引擎300进一步包括网关348。在一个实施方式中,工作者节点342被实施为在Hadoop簇310的节点312上运行的服务。在另一个实施方式中,工作者节点342被实施为与Hadoop簇310的节点312互连的专用服务器。
在一些实施方式中,工作者节点342负责将以HiveQL表示的局部任务编译成HDFS 320的数据节点服务322可以执行的指令。
分布式查询引擎从客户端接收查询任务,并且将查询任务分成多个局部任务。图4示出了示例性分布式查询引擎400的高级框图。分布式查询引擎400的操作人员可以通过客户端480的输入界面486提供查询任务。在一个实施方式中,输入接口486包括命令行界面482和图形界面484。使用命令行界面482,操作人员可以提供作为直接以数据库查询语言(例如,SQL或HiveQL)表示的程序的查询任务。通过使用图形界面484,操作人员可以通过使用图形界面元素484来提供查询任务。在一个实施方式中,图形界面484被实施为输入网页。操作人员可以通过与在输入网页上的元素交互、选择选项以及输入输入数据来提供查询任务。图形界面484可以将操作人员的选择和输入转化成以数据库查询语言表示的相应程序。输入接口486将从命令行界面482或图形界面484中接收的程序作为查询任务传输给分布式查询引擎400的网关410。
网关410从客户端480中接收查询任务,并且解析查询任务。网关410根据查询任务,向Hive元数据存储440发送询问。Hive元数据存储440将表格元数据和HDFS文件识别返回网关410,用于需要运行查询任务的数据。然后,网关410根据HDFS文件识别,从HDFS名称节点460检索相应的HDFS块的位置。
在一个实施方式中,网关410根据对应的HDFS块将查询任务分成多个局部查询。网关410分配每个单独的局部查询,以在对应的HDFS块内在一个HDFS块上执行。在其他实施方式中,网关410可以其他方式将查询任务分成局部任务,如本领域的技术人员可以预计的。
网关410将每个局部查询发送给工作者412,用于本地处理。在一个实施方式中,工作者412覆盖在存储Hive表格数据的Hadoop簇上。每个工作者412作为服务在Hadoop簇节点432上运行。生成局部查询,以便每个工作者412负责局部查询,以在运行这个特定的工作者412的节点432上处理数据存储。工作者412与DataNode服务422直接接触,该服务在与工作者412相同的簇节点432上运行。通过请求在单个簇节点432内的数据,工作者412能够实现局部查询的低延迟数据读取。
簇节点432可以使用远程程序调用(RPC)框架来促进服务的实施。例如,在一个实施方式中,簇节点432使用RPC框架(例如,Apache Thrift框架)来限定和创建工作者服务412,作为高度可扩展的以及高性能的服务器服务。
在一个实施方式中,工作者节点342被实施为在Hadoop簇310的节点312上运行的服务。在另一个实施方式中,工作者节点342被实施为与Hadoop簇310的节点312互连的专用服务器。
工作者412将状态更新(称为“心跳”)定期返回给网关410,指示局部查询处理的过程。在一个实施方式中,如果存在停止返回心跳或者不显示进度的分配的工作者,那么网关410确定该工作者失效并且向另一个工作者重新安排局部查询。每个工作者412扫描与存储在一个或多个簇节点432上的相应局部查询相关的数据,并且生成局部查询的中间结果。在一个实施方式中,工作者412在运行工作者412的簇节点的存储器内整体处理局部查询。工作者412在其存储器内存储中间结果。在局部查询的处理结束时,工作者412将中间结果发送给网关410。在一些实施方式中,工作者412通过RPC调用(例如,Apache Thrift调用)发送中间结果。
网关410从工作者412中接收所有中间结果,并且将中间结果组合成查询结果,作为对查询任务的回应。然后,网关410将查询结果返回给客户端480。在一个实施方式中,客户端480可选地在显示元件上显示查询结果。
元数据缓存(meta cache)414在网关410上运行,以高速缓存Hive表格级和HDFS文件级的元数据,以减少查询延迟。在一些实施方式中,元数据缓存414可以被实施为与网关410互连的独立式服务器。元数据缓存414可以保持先前查询的缓存数据。例如,当操作人员对Hive表格的数据进行交互式分析时,操作人员在相同的Hive表格上运行多个连续的查询。通过保存来自先前查询的缓存数据,元数据缓存414可以重新使用缓存的元数据,而非从Hive元数据存储440和HDFS名称节点460重复提取元数据。
元数据缓存414具有高的缓存命中率,这是因为在典型的Hive表格中的数据写入一次,并且读取多次,而不进一步改变。在一个实施方式中,元数据缓存414可以检索Hive系统的审计记录的实时馈送,以使在缓存数据内的条目无效,用于在Hive查询或其他操作可以改变的Hive系统内划分。在另一个实施方式中,元数据缓存414自动清除缓存数据中在预定的时间段(例如,1个小时)内未被查询的条目。这样,元数据缓存414防止了内存使用的任意增长,并且尽可能减少缓存错误。
工作者412在其上运行的每个簇节点432的工作量可以不同。簇节点432和工作者服务412还可以由于各种原因而失效。虽然网关410可以在合理的时间段内从多数工作者412接收中间结果,但是由于节点或服务故障或延迟,所以存在不能传输中间结果的工作者412。这些工作者在从局部查询分布以来的预定时间段之后报告低于预定百分比的报告进度,或者仅仅不对网关410做出进度回应。这些工作者被认定为离散工作者(straggling worker)。一旦网关410识别离散工作者,网关410就将消息发送给离散工作者,以取消局部查询的分配。对于离散工作者不能传输中间结果的每个未完成的局部查询,网关410进一步将局部查询分成多个从属局部查询,并且将从属局部查询分配给工作者412中的一些。在一个实施方式中,网关410根据工作者412的当前工作量确定从属局部查询的分配。在其他实施方式中,网关410可以通过其他方式确定分配,如在本领域的技术人员所预计的。这个额外的并行化处理加速了未完成的局部查询的重试,从而减少由离散工作者造成的查询延迟。
图5示出了用于识别离散的工作者节点并且进一步分割局部查询的示例性处理。在步骤502中,分布式查询引擎的网关从客户端装置中接收包含存储在具有多个数据节点的分布式存储簇内的数据的数据库的数据库查询。在步骤504中,网关将数据库查询分成多个局部查询。然后,在步骤506中,网关将每个局部查询发送给多个工作者节点中的相应工作者节点。每个工作者节点可以是在分布式存储簇的数据节点上运行的服务。
在步骤508中,网关服务器识别离散的工作者节点。网关进一步将分配给离散的工作者节点的局部查询分成多个从属局部查询,并且将多个从属局部查询分配给多个工作者节点中的一些工作者节点。在一个实施方式中,网关通过监控工作节点定期发送的心跳消息,识别离散的工作节点。在预定的时间段内没有接收到离散的工作节点的心跳消息时,识别离散的工作者节点。在另一个实施方式中,在接收离散的工作节点的心跳消息,其中,所述心跳消息包括低于阈值的表示离散的工作节点的局部查询处理的状态的数量时,识别所述离散的工作节点。
在步骤510中,网关从工作者节点中检索局部查询的多个中间结果。通过扫描存储在运行相应工作者节点的数据节点内的相关数据,每个中间结果由工作者节点的相应工作者节点处理。在步骤512中,网关根据多个中间结果,生成查询结果。
在一个实施方式中,分布式查询引擎可以与Hive系统的数据格式和元数据兼容,并且可以支持HiveQL语言的子集或整个集合。而且,HiveQL是与SQL相似的声明式语言。HiveQL不需要严格地遵循标准SQL,并且提供最初在SQL中未规定的扩展部分。例如,分布式查询引擎可以支持滤波器、集合体、top-k、百分位数、在FROM从句内的子查询、UNION ALL以及用户定义的功能。
在一个实施方式中,分布式查询引擎支持TABLESAMPLE从句可以用于明确地限制扫描的输入数据的量。在另一个实施方式中,通过在相同的查询内给多次使用的复杂表达式声明变量,分布式查询引擎支持WITH从句允许操作人员写入更多可读的查询。WITH从句还可以给操作人员提供一种向优化程序规定提示的方法,以便在运行时间仅仅评估一次公共子表达式。
在一些实施方式中,分布式查询引擎可以在完成整个查询处理之前提供近似查询结果。分布式查询引擎可以在自初始查询输入预定时间段之后或者在查询的处理满足预定的条件(例如,一定数量的工作者失效)时自动提供近似查询结果。分布式查询引擎还可以响应于操作人员指令提供近似查询结果。例如,等待查询结果的操作人员可以输入Ctrl-C,以指示分布式查询引擎停止查询处理。在接收指令时,分布式查询引擎停止查询处理并且返回近似查询结果。在一个实施方式中,分布式查询引擎进一步提供百分比指示符,用于指示近似查询结果的扫描的数据的百分比。在一个实施方式中,分布式查询引擎返回近似查询结果,并且继续查询处理,用于精确的查询结果(即,具有100%的百分比指示符)。
尤其对于探索数据(而非写入或改变数据)的查询,近似查询结果对于操作人员的分析可以是足够的。节点故障、错误的输入数据、或者甚至用户终止查询等运行时间错误可以被视为所有输入数据未被扫描的情况。当存在故障时,迄今为止,分布式查询引擎可以根据局部查询的到目前为止的处理立即返回近似查询结果,而非仅仅返回错误消息。在一个实施方式中,分布式查询引擎返回近似查询结果以及百分比指示符。
在另一个实施方式中,操作人员还可以在其查询任务中指定需要精确的查询结果。在这些情况下,如果查询处理失败,那么可以返回运行时间错误。
分布式查询引擎使用一遍聚合算法(one-pass algorithms foraggregations),并且在存储器中存储所有中间结果。中间结果和最终查询结果的尺寸可以相对小。分布式查询引擎的返回近似查询结果的能力可以进一步减小该尺寸。例如,如果查询是通过规定的列使数据记录排序(例如,ORDER BY从句),那么通过允许工作者仅仅扫描一部分相关数据记录,分布式查询引擎可以生成近似回答。同样,分布式查询引擎还可以生成查询类型的近似回答,例如,计算不同的条目并且计算百分位数。
例如,在一个实施方式中,分布式查询引擎的操作人员可以输入指示从特定一组数据记录中对country列的不同值的数量进行技术的查询任务。分布式查询引擎接收查询,将查询分成局部查询,并且分配工作者,以处理这些局部查询。在从分布式查询引擎开始该任务的时间开始20秒之后,操作人员通过在客户端装置的键盘上按压CTRL-C来终止任务。在接收终止指令时,分布式查询引擎立即指示分配的工作者返回近似中间结果,并且从而通过组合这些近似中间结果来返回近似结果。近似结果被返回操作人员的客户端装置。客户端装置可以进一步接收关于总处理时间、所使用的工作者的数量、扫描的数据记录的行数、扫描的数据量、精确结果的扫描的数据量、扫描的数据的百分比和/或故障的数量的信息。
在另一个实施方式中,分布式查询引擎可以在故障的数量超过预定的阈值之后,自动返回近似查询结果。在又一个实施方式中,操作人员在查询任务中指定需要精确结果。分布式查询引擎将保持处理,直到所有相关的数据记录被分配的工作者扫描。精确的查询结果可以被返回至操作人员的用户装置。客户端装置可以进一步接收关于总处理时间、所使用的工作者的数量、扫描的数据记录的行数、扫描的数据量、扫描的数据的百分比(即,100%)和/或故障的数量的信息。
图6示出了数据库查询的近似处理的示例性处理。在步骤602中,分布式查询引擎的网关从客户端装置接收包含存储在具有多个数据节点的分布式存储簇内的数据的数据库的数据库查询。在步骤604中,网关将数据库查询分成多个局部查询。然后,在步骤606中,网关将每个局部查询发送给多个工作者节点中的相应工作者节点。每个工作者节点可以是在分布式存储簇的数据节点上运行的服务。在步骤608中,在发送局部查询之后,网关可以指示工作者节点立即返回近似查询结果。在一个实施方式中,立即返回近似查询结果表示在非常短的时间段(例如,1秒)内返回结果。该指令可以由各种事件触发。例如,网关可以从客户端装置接收终止数据库查询的处理的指令;或者在预定的时间段之后,精确的查询结果不可用时,网关可以决定自动返回近似查询结果。因此,近似结果可以由客户端装置手动请求,或者由分布式查询引擎自动触发,无需用户干预。
在步骤610中,在近似中间结果的指令之后,网关从工作者节点检索局部查询的多个近似中间结果。通过扫描存储在运行相应工作者节点的数据节点内的一部分相关数据,每个近似中间结果由工作者节点的相应工作者节点处理。在接收近似中间结果时,在步骤612中,网关根据多个近似中间结果,生成近似查询结果。然后,在步骤614中,分布式查询引擎的网关返回近似查询结果。在一个实施方式中,将近似查询结果以及百分比指示符返回给客户端装置。百分比指示符提示存储在数据节点内的已经为查询结果扫描的相关数据的百分比。
除了以上显示的优点以外,如下面所讨论的,在本文中提出的技术还显示了额外的优点。
与仅仅使用Hive系统的查询延迟相比,分布式查询引擎大幅减少了对存储在数据存储簇(例如,Hadoop簇)内的数据的查询的延迟。分布式查询引擎的操作人员或用户可以少的等待时间进行ad hoc查询。可以在不同的情况下使用分布式查询引擎。例如,在没有分布式查询引擎的情况下,操作人员或分析员需要将数据从Hive中明确地载入数据库(例如,MySQL或Oracle)内,然后,从数据库中提取数据,以驱动基于网络的数据分析报告。使用分布式查询引擎,操作人员可以从Hive系统中直接提取数据,以生成基于网络的数据分析报告。
在一个实施方式中,在操作人员使用(例如)在图4中示出的图形界面484制作查询任务时,分布式查询引擎可以提取数据样本,以在图形界面484上向操作人员显示数据的预览。在另一个实施方式中,分布式查询引擎可以在存储器内索引并且锁定(pin)常用的数据集,以进一步提高查询延迟。
在本文中提出的技术提供了一种低延迟的分布式查询引擎,其可以建立在数据存储簇的顶部上。分布式查询引擎可以与Hive系统的现有数据和元数据兼容。分布式查询引擎可以被用于驱动数据分析报告,无需将数据载入其他数据库(例如,MySQL或Oracle)内以用于ad-hoc分析的管线。
图7是示出可以表示在本文中描述的任何簇节点的计算机节点的架构的一个实例的高级框图。节点700包括与互连730耦接的一个或多个处理器710和存储器720。在图7中示出的互连730是表示由合适的桥接器、适配器或控制器连接的任何一个或多个单独的物理总线、点对点连接或这两者的抽象化表示。因此,互连730可以包括(例如)系统总线、外部设备互连(PCI)总线或PCI快线、超传输或工业标准架构(ISA)总线、小型计算机系统接口(SCSI)总线、通用串行总线(USB)、IIC(I2C)总线或电气与电子工程师协会(IEEE)标准1394总线,也称为“火线”。
处理器710是存储控制器700的中央处理单元(CPU),从而控制节点700的总体操作。在某些实施方式中,处理器710通过执行存储在存储器720内的软件或固件来完成这个。处理器710可以是或者可以包括一个或多个可编程通用或专用微处理器、数字信号处理器(DSP)、可编程控制器、专用集成电路(ASIC)、可编程逻辑装置(PLD)、可信任平台模块(TPM)等或这样的装置的组合。
存储器720是或者包括节点700的主存储器。存储器720表示任何形式的随机存取存储器(RAM)、只读存储器(ROM)、闪速存储器等或这样的装置的组合。在使用时,存储器720可以包含代码770,该代码包含根据在本文中公开的技术的指令。
同样通过互连730连接至处理器710的是网络适配器740和存储适配器750。网络适配器740给节点700提供与远程装置通过网络通信的能力,并且例如可以是以太网适配器或光纤通道适配器。网络适配器740还可以给节点700提供与在簇内的其他节点通信的能力。在一些实施方式中,节点可以使用不止一个网络适配器来单独处理在簇内以及簇外的通信。存储适配器750允许节点700访问永久存储器,并且例如可以是光纤通道适配器或SCSI适配器。
存储在存储器720内的代码770可以实施为软件和/或固件,以对处理器710进行编程,以执行上述动作。在某些实施方式中,可以通过节点700(即,通过网络适配器740)从远程系统中下载这种软件或固件,为将这种软件或固件首先提供给节点700。
在本文中介绍的技术例如可以由通过软件和/或固件或者完全在专用硬接线电路内或者在这种形式的组合内编程的可编程电路(例如,一个或多个微处理器)实现。例如,专用硬接线电路可以具有一个或多个专用集成电路(ASIC)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)等的形式。
用于实现在本文中介绍的技术的软件或固件可以存储在机器可读存储介质上,并且可以由一个或多个通用或专用可编程微处理器执行。在本文中使用的术语“机器可读存储介质”包括可以通过机器(例如,机器可以是计算机、网络装置、蜂窝电话、个人数字助理(PDA)、制造工具、具有一个或多个处理器的任何装置等)可访问的形式存储信息的任何机制。例如,机器可访问存储介质包括可记录的/不可记录的介质(例如,只读存储器(ROM);随机存取存储器(RAM);磁盘存储介质;光学存储介质;闪速存储器装置等)等。
例如,在本文中使用的术语“逻辑”可以包括通过特定的软件和/或固件编程的可编程电路、专用硬接线电路或其组合。
除了上述实例以外,在不背离本发明的情况下,本发明还可以做出各种其他修改和变更。因此,以上公开内容不被视为具有限制性,并且所附权利要求被解释为包括本发明的真实精神和整个范围。

Claims (19)

1.一种系统,包括:
网关服务器,被配置为从包含存储在具有多个数据节点的分布式存储簇内的数据的数据库的数据库查询中生成多个局部查询,并且根据多个中间结果构建查询结果;以及
多个工作者节点,其中,所述多个工作者节点中的每个工作者节点被配置为通过扫描与相应局部查询相关并且存储在分布式存储簇的至少一个数据节点上的数据,来处理所述多个局部查询中的相应局部查询,并且其中,所述多个工作者节点中的每个工作者节点进一步被配置为生成所述多个中间结果中的存储在所述工作者节点的存储器内的一个中间结果。
2.根据权利要求1所述的系统,其中,所述多个工作者节点中的每个工作者节点进一步被配置为通过扫描与存储在分布式存储簇的至少一个数据节点上的相应局部查询相关的一部分数据,来处理所述多个局部查询的相应局部查询,并且生成存储在所述工作者节点的存储器内的近似中间结果;
其中,优选地,所述网关服务器进一步被配置为根据至少一个近似中间结果,构建近似查询结果。
3.根据权利要求1或2所述的系统,其中,所述网关服务器进一步被配置为根据所述多个中间结果的一部分,构建近似查询结果。
4.根据权利要求1到3中任一项所述的系统,其中,所述网关服务器进一步被配置为识别离散的工作者节点,进一步将分配给所述离散的工作者节点的局部查询分成多个从属局部查询,并且将所述多个从属局部查询分配给所述多个工作者节点中的一些工作者节点,其中,所述离散的工作者节点是未向所述网关服务器报告进度或者在预定的时间段之后向网关服务器报告低于预定值的进度的工作者节点。
5.根据权利要求1到4中任一项所述的系统,其中,所述多个工作者节点中的每个工作者节点是运行分布式存储簇内的相应数据节点的服务。
6.根据权利要求1到5中任一项所述的系统,进一步包括:
元数据缓存,被配置为缓存数据库的表格级元数据以及分布式存储簇的文件级元数据;
其中,优选地,所述元数据缓存被配置为保持来自用于所述数据库查询的前一数据库查询的缓存的元数据。
7.根据权利要求1到6中任一项所述的系统,其中,所述多个工作者节点中的每个工作者节点将心跳消息定期发送给网关服务器,以通过所述工作节点报告局部查询处理的状态。
8.根据权利要求1到7中任一项所述的系统,其中,所述网关服务器进一步被配置为从客户端装置接收指令,以返回近似查询结果或终止数据库查询的处理。
9.根据权利要求1到8中任一项所述的系统,其中,所述网关服务器进一步被配置为指示工作节点立即返回近似中间结果,并且根据近似中间结果,将近似查询结果返回至客户端装置。
10.根据权利要求1到9中任一项所述的系统,其中,所述数据库查询包括近似查询结果的请求。
11.根据权利要求1到10中任一项所述的系统,其中,所述查询结果伴有存储在数据节点内的已经为所述查询结果扫描的一部分相关数据的指示。
12.根据权利要求1到11中任一项所述的系统,其中,所述数据库是Hive数据仓库系统,并且所述分布式存储簇是Hadoop簇。
13.一种方法,其中,使用根据权利要求1到12中任一项所述的系统。
14.一种方法,包括:
从客户端装置中接收包含存储在具有多个数据节点的分布式存储簇内的数据的数据库的数据库查询;
将所述数据库查询分成多个局部查询;
将每个局部查询发送给多个工作者节点中的相应工作者节点,其中,每个工作者节点是在所述分布式存储簇的数据节点上运行的服务;
从工作者节点中检索局部查询的多个中间结果,其中,通过扫描存储在运行相应工作者节点的数据节点内的相关数据,每个中间结果由工作者节点的相应工作者节点处理;以及
根据所述多个中间结果,生成查询结果。
15.根据权利要求14所述的方法,进一步包括:
将查询结果以及部分指示符返回至客户端装置,其中,所述部分指示符指示存储在数据节点内的已经为所述查询结果扫描的一部分相关数据。
16.根据权利要求14所述的方法,进一步包括:
指示工作者节点立即返回近似查询结果;
并且其中,所述检索步骤包括:
从工作者节点检索所述局部查询的多个近似中间结果,其中,通过扫描存储在运行相应工作者节点的数据节点内的一部分相关数据,每个近似中间结果由工作者节点的相应工作者节点处理。
17.根据权利要求14所述的方法,进一步包括:
对于每个局部查询,检索关于哪个数据节点存储与局部查询相关的数据的元数据;
并且所述发送步骤包括:
根据所述元数据,将每个局部查询发送给多个工作者节点中的相应工作者节点。
18.一种方法,包括:
从客户端装置接收包含存储在具有多个数据节点的分布式存储簇内的数据的数据库的数据库查询;
将数据库查询分成多个局部查询;
将每个局部查询发送给多个工作者节点中的相应工作者节点,其中,每个工作者节点是在所述分布式存储簇的数据节点上运行的服务;
识别离散的工作者节点,将分配给所述离散的工作者节点的局部查询分成多个从属局部查询,并且将所述多个从属局部查询分配给所述多个工作者节点中的一些工作者节点;
从工作者节点检索局部查询的多个中间结果,其中,通过扫描存储在运行相应工作者节点的数据节点内的相关数据,每个中间结果由工作者节点中的相应工作者节点处理;以及
根据多个中间结果,生成查询结果。
19.根据权利要求18所述的方法,其中,所述识别步骤包括:
通过监控工作者节点定期发送的心跳消息,识别离散的工作者节点,其中,在预定的时间段内没有接收到来自离散的工作者节点的心跳消息时,或者在接收到来自离散的工作者节点的心跳消息并且所述心跳消息包括低于阈值的表示离散的工作节点的局部查询处理的状态的数量时,识别所述离散的工作者节点。
CN201380069759.9A 2013-01-07 2013-12-20 用于分布式数据库查询引擎的系统和方法 Active CN104903894B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811509796.8A CN110069526A (zh) 2013-01-07 2013-12-20 用于分布式数据库查询引擎的系统和方法

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US13/735,820 2013-01-07
US13/735,820 US9081826B2 (en) 2013-01-07 2013-01-07 System and method for distributed database query engines
EP13198563.2A EP2752779B1 (en) 2013-01-07 2013-12-19 System and method for distributed database query engines
EP13198563.2 2013-12-19
PCT/US2013/077240 WO2014107359A1 (en) 2013-01-07 2013-12-20 System and method for distributed database query engines

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201811509796.8A Division CN110069526A (zh) 2013-01-07 2013-12-20 用于分布式数据库查询引擎的系统和方法

Publications (2)

Publication Number Publication Date
CN104903894A true CN104903894A (zh) 2015-09-09
CN104903894B CN104903894B (zh) 2018-12-28

Family

ID=49886706

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201380069759.9A Active CN104903894B (zh) 2013-01-07 2013-12-20 用于分布式数据库查询引擎的系统和方法
CN201811509796.8A Pending CN110069526A (zh) 2013-01-07 2013-12-20 用于分布式数据库查询引擎的系统和方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201811509796.8A Pending CN110069526A (zh) 2013-01-07 2013-12-20 用于分布式数据库查询引擎的系统和方法

Country Status (11)

Country Link
US (5) US9081826B2 (zh)
EP (2) EP2752779B1 (zh)
JP (1) JP6117378B2 (zh)
KR (2) KR101775433B1 (zh)
CN (2) CN104903894B (zh)
AU (1) AU2013371448B2 (zh)
BR (1) BR112015016352A2 (zh)
CA (1) CA2896855C (zh)
IL (1) IL239717A (zh)
MX (1) MX349042B (zh)
WO (1) WO2014107359A1 (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302697A (zh) * 2015-11-13 2016-02-03 中国建设银行股份有限公司 一种密集数据模型数据库的运行状态监控方法及系统
WO2017092582A1 (zh) * 2015-12-01 2017-06-08 阿里巴巴集团控股有限公司 一种数据处理方法和装置
CN109766368A (zh) * 2018-11-14 2019-05-17 国云科技股份有限公司 一种基于Hive的数据查询多类型视图产出系统及方法
CN110291515A (zh) * 2017-02-13 2019-09-27 微软技术许可有限责任公司 计算系统中的分布式索引搜索
US10698913B2 (en) 2013-01-07 2020-06-30 Facebook, Inc. System and methods for distributed database query engines
WO2020135613A1 (zh) * 2018-12-26 2020-07-02 中兴通讯股份有限公司 数据查询处理方法、装置及系统、计算机可读存储介质
CN112307066A (zh) * 2020-11-03 2021-02-02 平安普惠企业管理有限公司 分布式数据聚合方法、系统、设备及存储介质
CN112395308A (zh) * 2020-11-05 2021-02-23 深圳市中博科创信息技术有限公司 一种基于hdfs数据库的数据查询方法
CN112835895A (zh) * 2021-01-27 2021-05-25 世纪龙信息网络有限责任公司 一种数据存储系统及其存储方法
CN113168147A (zh) * 2018-12-29 2021-07-23 阿里巴巴集团控股有限公司 使用硬件加速高效地扫描数据库的系统和方法
CN113590316A (zh) * 2021-07-23 2021-11-02 中共四川省委组织部 一种基于国产cpu的数据库集群处理方法
CN113785286A (zh) * 2019-05-03 2021-12-10 微软技术许可有限责任公司 在分布式存储系统中查询数据

Families Citing this family (178)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9332069B2 (en) 2012-12-28 2016-05-03 Wandisco, Inc. Methods, devices and systems for initiating, forming and joining memberships in distributed computing systems
US9495381B2 (en) 2005-01-12 2016-11-15 Wandisco, Inc. Geographically-distributed file system using coordinated namespace replication over a wide area network
US9361311B2 (en) * 2005-01-12 2016-06-07 Wandisco, Inc. Distributed file system using consensus nodes
US9424272B2 (en) * 2005-01-12 2016-08-23 Wandisco, Inc. Distributed file system using consensus nodes
US8874526B2 (en) 2010-03-31 2014-10-28 Cloudera, Inc. Dynamically processing an event using an extensible data model
US9082127B2 (en) 2010-03-31 2015-07-14 Cloudera, Inc. Collecting and aggregating datasets for analysis
US9317572B2 (en) 2010-03-31 2016-04-19 Cloudera, Inc. Configuring a system to collect and aggregate datasets
US9081888B2 (en) 2010-03-31 2015-07-14 Cloudera, Inc. Collecting and aggregating log data with fault tolerance
US20120239681A1 (en) 2011-03-14 2012-09-20 Splunk Inc. Scalable interactive display of distributed data
US9128949B2 (en) 2012-01-18 2015-09-08 Cloudera, Inc. Memory allocation buffer for reduction of heap fragmentation
US9172608B2 (en) 2012-02-07 2015-10-27 Cloudera, Inc. Centralized configuration and monitoring of a distributed computing cluster
US9405692B2 (en) 2012-03-21 2016-08-02 Cloudera, Inc. Data processing performance enhancement in a distributed file system
US9338008B1 (en) 2012-04-02 2016-05-10 Cloudera, Inc. System and method for secure release of secret information over a network
US9842126B2 (en) 2012-04-20 2017-12-12 Cloudera, Inc. Automatic repair of corrupt HBases
US9607045B2 (en) 2012-07-12 2017-03-28 Microsoft Technology Licensing, Llc Progressive query computation using streaming architectures
US9264516B2 (en) 2012-12-28 2016-02-16 Wandisco, Inc. Methods, devices and systems enabling a secure and authorized induction of a node into a group of nodes in a distributed computing environment
US9898475B1 (en) 2013-02-25 2018-02-20 EMC IP Holding Company LLC Tiering with pluggable storage system for parallel query engines
US9984083B1 (en) 2013-02-25 2018-05-29 EMC IP Holding Company LLC Pluggable storage system for parallel query engines across non-native file systems
US9342557B2 (en) * 2013-03-13 2016-05-17 Cloudera, Inc. Low latency query engine for Apache Hadoop
US9009215B2 (en) 2013-03-15 2015-04-14 Wandisco, Inc. Methods, devices and systems for dynamically managing memberships in replicated state machines within a distributed computing environment
US9292373B2 (en) 2013-03-15 2016-03-22 International Business Machines Corporation Query rewrites for data-intensive applications in presence of run-time errors
US9448851B2 (en) * 2013-06-19 2016-09-20 International Business Machines Corporation Smarter big data processing using collaborative map reduce frameworks
US9442967B2 (en) * 2013-07-25 2016-09-13 Facebook, Inc. Systems and methods for efficient data ingestion and query processing
US9477731B2 (en) * 2013-10-01 2016-10-25 Cloudera, Inc. Background format optimization for enhanced SQL-like queries in Hadoop
US9934382B2 (en) 2013-10-28 2018-04-03 Cloudera, Inc. Virtual machine image encryption
US10491663B1 (en) * 2013-10-28 2019-11-26 Amazon Technologies, Inc. Heterogeneous computations on homogeneous input data
US9690671B2 (en) 2013-11-01 2017-06-27 Cloudera, Inc. Manifest-based snapshots in distributed computing environments
US10628417B2 (en) * 2013-12-01 2020-04-21 Paraccel Llc Physical planning of database queries using partial solutions
US8874835B1 (en) 2014-01-16 2014-10-28 Pure Storage, Inc. Data placement based on data properties in a tiered storage device system
US11386085B2 (en) 2014-01-27 2022-07-12 Microstrategy Incorporated Deriving metrics from queries
US10255320B1 (en) 2014-01-27 2019-04-09 Microstrategy Incorporated Search integration
US9952894B1 (en) 2014-01-27 2018-04-24 Microstrategy Incorporated Parallel query processing
US10635669B1 (en) * 2014-01-27 2020-04-28 Microstrategy Incorporated Data engine integration and data refinement
US11921715B2 (en) 2014-01-27 2024-03-05 Microstrategy Incorporated Search integration
US9715515B2 (en) * 2014-01-31 2017-07-25 Microsoft Technology Licensing, Llc External data access with split index
US10366102B2 (en) 2014-02-19 2019-07-30 Snowflake Inc. Resource management systems and methods
US10216542B2 (en) * 2014-03-17 2019-02-26 Huawei Technologies Co., Ltd. Resource comparison based task scheduling method, apparatus, and device
ES2881606T3 (es) * 2014-03-31 2021-11-30 Wandisco Inc Sistema de ficheros geográficamente distribuido que usa replicación de espacio de nombres coordinada
US9667736B2 (en) * 2014-04-29 2017-05-30 International Business Machines Corporation Parallel I/O read processing for use in clustered file systems having cache storage
US20150347508A1 (en) * 2014-06-02 2015-12-03 Microsoft Corporation Partial result classification
US9836506B2 (en) * 2014-06-11 2017-12-05 International Business Machines Corporation Dynamic query optimization with pilot runs
US11487771B2 (en) * 2014-06-25 2022-11-01 Microsoft Technology Licensing, Llc Per-node custom code engine for distributed query processing
US9558069B2 (en) 2014-08-07 2017-01-31 Pure Storage, Inc. Failure mapping in a storage array
US9766972B2 (en) * 2014-08-07 2017-09-19 Pure Storage, Inc. Masking defective bits in a storage array
US9082512B1 (en) 2014-08-07 2015-07-14 Pure Storage, Inc. Die-level monitoring in a storage cluster
US10983859B2 (en) 2014-08-07 2021-04-20 Pure Storage, Inc. Adjustable error correction based on memory health in a storage unit
US11474874B2 (en) 2014-08-14 2022-10-18 Qubole, Inc. Systems and methods for auto-scaling a big data system
US10599648B2 (en) * 2014-09-26 2020-03-24 Applied Materials, Inc. Optimized storage solution for real-time queries and data modeling
JP6393193B2 (ja) * 2014-09-30 2018-09-19 Kddi株式会社 データ仮想化装置及び大規模データ処理プログラム
US10467569B2 (en) * 2014-10-03 2019-11-05 Datameer, Inc. Apparatus and method for scheduling distributed workflow tasks
US9747333B2 (en) 2014-10-08 2017-08-29 Cloudera, Inc. Querying operating system state on multiple machines declaratively
US10606478B2 (en) * 2014-10-22 2020-03-31 Qubole, Inc. High performance hadoop with new generation instances
US10298709B1 (en) * 2014-12-31 2019-05-21 EMC IP Holding Company LLC Performance of Hadoop distributed file system operations in a non-native operating system
JP2016159499A (ja) * 2015-02-27 2016-09-05 京セラドキュメントソリューションズ株式会社 機能提供システムおよび機能中継プログラム
US11294893B2 (en) * 2015-03-20 2022-04-05 Pure Storage, Inc. Aggregation of queries
WO2016183550A1 (en) 2015-05-14 2016-11-17 Walleye Software, LLC Dynamic table index mapping
US11436667B2 (en) 2015-06-08 2022-09-06 Qubole, Inc. Pure-spot and dynamically rebalanced auto-scaling clusters
US20170004527A1 (en) * 2015-07-01 2017-01-05 Turn Inc. Systems, methods, and devices for scalable data processing
US20170060941A1 (en) * 2015-08-25 2017-03-02 Futurewei Technologies, Inc. Systems and Methods for Searching Heterogeneous Indexes of Metadata and Tags in File Systems
WO2017117216A1 (en) 2015-12-29 2017-07-06 Tao Tao Systems and methods for caching task execution
EP3420451A1 (en) * 2016-05-02 2019-01-02 NorCom Information Technology GmbH & Co. KGaA Distributed data analysis system and method
US11080207B2 (en) 2016-06-07 2021-08-03 Qubole, Inc. Caching framework for big-data engines in the cloud
US10740328B2 (en) 2016-06-24 2020-08-11 Microsoft Technology Licensing, Llc Aggregate-query database system and processing
US10331668B1 (en) * 2016-07-19 2019-06-25 Arcadia Data Inc. Apparatus and method for query processing using analytical view partitions and database partitions
US9672905B1 (en) 2016-07-22 2017-06-06 Pure Storage, Inc. Optimize data protection layouts based on distributed flash wear leveling
US10262002B2 (en) 2016-08-11 2019-04-16 International Business Machines Corporation Consistent execution of partial queries in hybrid DBMS
CN106354765B (zh) * 2016-08-19 2020-06-26 广东亿迅科技有限公司 一种基于分布式采集的日志分析系统及方法
US10455045B2 (en) 2016-09-06 2019-10-22 Samsung Electronics Co., Ltd. Automatic data replica manager in distributed caching and data processing systems
US10467195B2 (en) * 2016-09-06 2019-11-05 Samsung Electronics Co., Ltd. Adaptive caching replacement manager with dynamic updating granulates and partitions for shared flash-based storage system
US10606664B2 (en) 2016-09-07 2020-03-31 Qubole Inc. Heterogeneous auto-scaling big-data clusters in the cloud
KR101728873B1 (ko) 2016-09-07 2017-05-04 주식회사 비트나인 그래프 질의 언어 분산처리시스템 및 그 질의 언어 분산처리방법
US11314753B2 (en) 2016-09-26 2022-04-26 Splunk Inc. Execution of a query received from a data intake and query system
US10956415B2 (en) 2016-09-26 2021-03-23 Splunk Inc. Generating a subquery for an external data system using a configuration file
US10984044B1 (en) 2016-09-26 2021-04-20 Splunk Inc. Identifying buckets for query execution using a catalog of buckets stored in a remote shared storage system
US11250056B1 (en) 2016-09-26 2022-02-15 Splunk Inc. Updating a location marker of an ingestion buffer based on storing buckets in a shared storage system
US11461334B2 (en) 2016-09-26 2022-10-04 Splunk Inc. Data conditioning for dataset destination
US10776355B1 (en) 2016-09-26 2020-09-15 Splunk Inc. Managing, storing, and caching query results and partial query results for combination with additional query results
US11860940B1 (en) 2016-09-26 2024-01-02 Splunk Inc. Identifying buckets for query execution using a catalog of buckets
US11163758B2 (en) 2016-09-26 2021-11-02 Splunk Inc. External dataset capability compensation
US11586627B2 (en) 2016-09-26 2023-02-21 Splunk Inc. Partitioning and reducing records at ingest of a worker node
US11663227B2 (en) 2016-09-26 2023-05-30 Splunk Inc. Generating a subquery for a distinct data intake and query system
US11615104B2 (en) 2016-09-26 2023-03-28 Splunk Inc. Subquery generation based on a data ingest estimate of an external data system
US11321321B2 (en) 2016-09-26 2022-05-03 Splunk Inc. Record expansion and reduction based on a processing task in a data intake and query system
US11593377B2 (en) 2016-09-26 2023-02-28 Splunk Inc. Assigning processing tasks in a data intake and query system
US11106734B1 (en) 2016-09-26 2021-08-31 Splunk Inc. Query execution using containerized state-free search nodes in a containerized scalable environment
US20180089324A1 (en) 2016-09-26 2018-03-29 Splunk Inc. Dynamic resource allocation for real-time search
US11126632B2 (en) 2016-09-26 2021-09-21 Splunk Inc. Subquery generation based on search configuration data from an external data system
US10977260B2 (en) 2016-09-26 2021-04-13 Splunk Inc. Task distribution in an execution node of a distributed execution environment
US11580107B2 (en) 2016-09-26 2023-02-14 Splunk Inc. Bucket data distribution for exporting data to worker nodes
US11243963B2 (en) 2016-09-26 2022-02-08 Splunk Inc. Distributing partial results to worker nodes from an external data system
US11550847B1 (en) 2016-09-26 2023-01-10 Splunk Inc. Hashing bucket identifiers to identify search nodes for efficient query execution
US11620336B1 (en) 2016-09-26 2023-04-04 Splunk Inc. Managing and storing buckets to a remote shared storage system based on a collective bucket size
US11599541B2 (en) 2016-09-26 2023-03-07 Splunk Inc. Determining records generated by a processing task of a query
US11222066B1 (en) 2016-09-26 2022-01-11 Splunk Inc. Processing data using containerized state-free indexing nodes in a containerized scalable environment
US11232100B2 (en) * 2016-09-26 2022-01-25 Splunk Inc. Resource allocation for multiple datasets
US11562023B1 (en) 2016-09-26 2023-01-24 Splunk Inc. Merging buckets in a data intake and query system
US11874691B1 (en) 2016-09-26 2024-01-16 Splunk Inc. Managing efficient query execution including mapping of buckets to search nodes
US11567993B1 (en) 2016-09-26 2023-01-31 Splunk Inc. Copying buckets from a remote shared storage system to memory associated with a search node for query execution
US11269939B1 (en) 2016-09-26 2022-03-08 Splunk Inc. Iterative message-based data processing including streaming analytics
US11442935B2 (en) 2016-09-26 2022-09-13 Splunk Inc. Determining a record generation estimate of a processing task
US11023463B2 (en) 2016-09-26 2021-06-01 Splunk Inc. Converting and modifying a subquery for an external data system
US10353965B2 (en) 2016-09-26 2019-07-16 Splunk Inc. Data fabric service system architecture
US10726009B2 (en) 2016-09-26 2020-07-28 Splunk Inc. Query processing using query-resource usage and node utilization data
US11604795B2 (en) 2016-09-26 2023-03-14 Splunk Inc. Distributing partial results from an external data system between worker nodes
US11294941B1 (en) 2016-09-26 2022-04-05 Splunk Inc. Message-based data ingestion to a data intake and query system
US11416528B2 (en) * 2016-09-26 2022-08-16 Splunk Inc. Query acceleration data store
US11281706B2 (en) 2016-09-26 2022-03-22 Splunk Inc. Multi-layer partition allocation for query execution
US10795884B2 (en) 2016-09-26 2020-10-06 Splunk Inc. Dynamic resource allocation for common storage query
US11003714B1 (en) 2016-09-26 2021-05-11 Splunk Inc. Search node and bucket identification using a search node catalog and a data store catalog
US9747158B1 (en) 2017-01-13 2017-08-29 Pure Storage, Inc. Intelligent refresh of 3D NAND
KR101856454B1 (ko) 2017-03-06 2018-05-10 주식회사 티맥스데이터 분산처리를 위한 컴퓨팅 장치
US10552435B2 (en) * 2017-03-08 2020-02-04 Microsoft Technology Licensing, Llc Fast approximate results and slow precise results
US11226126B2 (en) * 2017-03-09 2022-01-18 Johnson Controls Tyco IP Holdings LLP Building automation system with an algorithmic interface application designer
US10846318B1 (en) 2017-04-18 2020-11-24 Microstrategy Incorporated Natural language visualizations
US10209982B2 (en) 2017-05-16 2019-02-19 Bank Of America Corporation Distributed storage framework information server platform architecture
US10733024B2 (en) 2017-05-24 2020-08-04 Qubole Inc. Task packing scheduling process for long running applications
CN109213743B (zh) * 2017-06-30 2021-10-15 北京京东尚科信息技术有限公司 一种数据查询方法和装置
US11921672B2 (en) 2017-07-31 2024-03-05 Splunk Inc. Query execution at a remote heterogeneous data store of a data fabric service
US10866943B1 (en) 2017-08-24 2020-12-15 Deephaven Data Labs Llc Keyed row selection
US11489355B2 (en) * 2017-09-04 2022-11-01 Envision Aesc Energy Devices Ltd. Battery pack, control device, control method, and program
US10552394B2 (en) 2017-09-07 2020-02-04 International Business Machines Corporation Data storage with improved efficiency
US10896182B2 (en) 2017-09-25 2021-01-19 Splunk Inc. Multi-partitioning determination for combination operations
US11151137B2 (en) 2017-09-25 2021-10-19 Splunk Inc. Multi-partition operation in combination operations
CN107784103A (zh) * 2017-10-27 2018-03-09 北京人大金仓信息技术股份有限公司 一种访问hdfs分布式存储系统的标准接口
KR101966201B1 (ko) * 2017-11-01 2019-04-05 (주)데이터스트림즈 빅 데이터의 실시간 저장 및 검색 시스템
US10467112B2 (en) 2017-11-09 2019-11-05 Bank Of America Corporation Distributed data monitoring device
US10331484B2 (en) 2017-11-14 2019-06-25 Bank Of America Corporation Distributed data platform resource allocator
US11228489B2 (en) * 2018-01-23 2022-01-18 Qubole, Inc. System and methods for auto-tuning big data workloads on cloud platforms
WO2019171327A1 (en) 2018-03-07 2019-09-12 Open Text Sa Ulc Flexible and scalable artificial intelligence and analytics platform with flexible content storage and retrieval
US10904357B1 (en) * 2018-03-16 2021-01-26 Intuit Inc. Optimizing request dispatching between services
US11354696B1 (en) 2018-03-21 2022-06-07 84.51, Llc Systems and methods for implementing a rewards program
US11138230B2 (en) 2018-03-26 2021-10-05 Mcafee, Llc Methods, apparatus, and systems to aggregate partitioned computer database data
KR102038527B1 (ko) * 2018-03-28 2019-11-26 주식회사 리얼타임테크 분산 클러스터 관리 시스템 및 그 방법
US10768998B2 (en) 2018-04-05 2020-09-08 International Business Machines Corporation Workload management with data access awareness in a computing cluster
US10585714B2 (en) 2018-04-05 2020-03-10 International Business Machines Corporation Workload management with data access awareness using an ordered list of hosts in a computing cluster
US10761891B2 (en) 2018-04-05 2020-09-01 International Business Machines Corporation Workload management with data access awareness by aggregating file locality information in a computing cluster
CN110309334B (zh) * 2018-04-20 2023-07-18 腾讯科技(深圳)有限公司 图数据库的查询方法、系统、计算机设备和可读存储介质
US11334543B1 (en) 2018-04-30 2022-05-17 Splunk Inc. Scalable bucket merging for a data intake and query system
CN110457971B (zh) * 2018-05-07 2022-09-16 腾讯科技(深圳)有限公司 重复识别码信息的检测方法和装置
JP7313123B2 (ja) * 2018-05-25 2023-07-24 ヤフー株式会社 演算システムおよび演算方法
CN110866062B (zh) * 2018-08-09 2023-11-24 菜鸟智能物流控股有限公司 基于分布式集群的数据同步方法以及装置
CN108959660B (zh) * 2018-08-15 2021-07-27 东北大学 一种基于hdfs分布式文件系统的存储方法及使用方法
CN109767274B (zh) * 2018-12-05 2023-04-25 航天信息股份有限公司 一种对海量发票数据进行关联存储的方法及系统
CN111291040B (zh) * 2018-12-10 2022-10-18 中国移动通信集团四川有限公司 一种数据处理方法、装置、设备及介质
US10902069B2 (en) * 2018-12-18 2021-01-26 Runtime Collective Limited Distributed indexing and aggregation
US11195050B2 (en) 2019-02-05 2021-12-07 Microstrategy Incorporated Machine learning to generate and evaluate visualizations
CN109815209A (zh) * 2019-03-20 2019-05-28 上海电力学院 一种用于医院后勤精益管理的分布式存储系统
CN110008257B (zh) * 2019-04-10 2024-04-16 深圳市腾讯计算机系统有限公司 数据处理方法、装置、系统、计算机设备和存储介质
WO2020220216A1 (en) 2019-04-29 2020-11-05 Splunk Inc. Search time estimate in data intake and query system
US11715051B1 (en) 2019-04-30 2023-08-01 Splunk Inc. Service provider instance recommendations using machine-learned classifications and reconciliation
CN110175151A (zh) * 2019-05-22 2019-08-27 中国农业科学院农业信息研究所 一种农业大数据的处理方法、装置、设备和存储介质
US11704316B2 (en) 2019-05-31 2023-07-18 Qubole, Inc. Systems and methods for determining peak memory requirements in SQL processing engines with concurrent subtasks
CN110297827A (zh) * 2019-05-31 2019-10-01 国网上海市电力公司 一种集合Lucene和Hbase的电力数据检索系统
US11144360B2 (en) 2019-05-31 2021-10-12 Qubole, Inc. System and method for scheduling and running interactive database queries with service level agreements in a multi-tenant processing system
US11567957B2 (en) * 2019-09-25 2023-01-31 Salesforce.Com, Inc. Incremental addition of data to partitions in database tables
US11494380B2 (en) 2019-10-18 2022-11-08 Splunk Inc. Management of distributed computing framework components in a data fabric service system
US11106509B2 (en) 2019-11-18 2021-08-31 Bank Of America Corporation Cluster tuner
US11429441B2 (en) 2019-11-18 2022-08-30 Bank Of America Corporation Workflow simulator
CN110909048A (zh) * 2019-12-03 2020-03-24 北京明略软件系统有限公司 数据查询方法、装置、服务器、客户端及存储介质
KR102178121B1 (ko) * 2019-12-03 2020-11-12 아이씨티웨이주식회사 웹 기반의 공간 빅데이터 관리 서비스를 제공하는 방법 및 이를 수행하기 위한 명령어들이 저장된 컴퓨터 판독 가능한 저장 매체
US11614970B2 (en) 2019-12-06 2023-03-28 Microstrategy Incorporated High-throughput parallel data transmission
CN111061791B (zh) * 2019-12-12 2023-04-07 广东食品药品职业学院 一种中小型电商大数据平台
US11567965B2 (en) 2020-01-23 2023-01-31 Microstrategy Incorporated Enhanced preparation and integration of data sets
US11922222B1 (en) 2020-01-30 2024-03-05 Splunk Inc. Generating a modified component for a data intake and query system using an isolated execution environment image
CN111414349A (zh) * 2020-03-18 2020-07-14 江苏鸿程大数据技术与应用研究院有限公司 交互式统一大数据编程计算平台
US11210288B2 (en) 2020-05-12 2021-12-28 Coupang Corp. Systems and methods for reducing database query latency
CN111756732B (zh) * 2020-06-23 2022-07-12 北京明朝万达科技股份有限公司 数据扫描、管控方法及装置、电子设备、可读存储介质
CN111988165B (zh) * 2020-07-09 2023-01-24 云知声智能科技股份有限公司 一种分布式存储系统使用情况的监控方法及系统
CN113254488A (zh) * 2020-08-05 2021-08-13 深圳市汉云科技有限公司 分布式数据库的数据排序方法及系统
US11704313B1 (en) 2020-10-19 2023-07-18 Splunk Inc. Parallel branch operation using intermediary nodes
KR102265085B1 (ko) * 2020-12-04 2021-06-14 김근석 코드 분산 처리 서버, 코드 분산 처리 방법 및 기록 매체에 저장된 프로그램
US11513876B2 (en) 2021-02-23 2022-11-29 Sap Se Resolving data location for queries in a multi-system instance landscape
US11704327B2 (en) * 2021-03-19 2023-07-18 International Business Machines Corporation Querying distributed databases
US11727022B2 (en) 2021-03-19 2023-08-15 International Business Machines Corporation Generating a global delta in distributed databases
CN113609238A (zh) * 2021-07-24 2021-11-05 全图通位置网络有限公司 基于Hadoop平台的地理实体空间数据的处理方法及存储介质
US11645231B1 (en) * 2022-04-24 2023-05-09 Morgan Stanley Services Group Inc. Data indexing for distributed query execution and aggregation
US20230376485A1 (en) * 2022-05-17 2023-11-23 Sap Se Distributed query plan generation
CN115168474B (zh) * 2022-07-26 2023-04-14 成都智元汇信息技术股份有限公司 一种基于大数据模型的物联中台系统搭建方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5987449A (en) * 1996-08-23 1999-11-16 At&T Corporation Queries on distributed unstructured databases
US20030074352A1 (en) * 2001-09-27 2003-04-17 Raboczi Simon D. Database query system and method
US20040103087A1 (en) * 2002-11-25 2004-05-27 Rajat Mukherjee Method and apparatus for combining multiple search workers
WO2005076160A1 (en) * 2004-02-06 2005-08-18 Critical Software, Sa Data warehouse distributed system and architecture to support distributed query execution
CN101067823A (zh) * 2006-05-02 2007-11-07 国际商业机器公司 优化联合数据库管理系统的方法和系统
CN101093501A (zh) * 2007-07-31 2007-12-26 武汉大学 一种高效、透明的分布式空间数据库查询方法
US20110082859A1 (en) * 2009-10-07 2011-04-07 International Business Machines Corporation Information theory based result merging for searching hierarchical entities across heterogeneous data sources
US7984043B1 (en) * 2007-07-24 2011-07-19 Amazon Technologies, Inc. System and method for distributed query processing using configuration-independent query plans
US20110228668A1 (en) * 2010-03-22 2011-09-22 Infosys Technologies Limited Method and system for automatic failover of distributed query processing using distributed shared memory
US20120054182A1 (en) * 2010-08-24 2012-03-01 International Business Machines Corporation Systems and methods for massive structured data management over cloud aware distributed file system

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001312504A (ja) * 2000-04-25 2001-11-09 Jarg Corp 知識抽出システム及びその方法
JP2002108899A (ja) * 2000-09-27 2002-04-12 Hitachi Kokusai Electric Inc データベースアクセス方法及び多次元データベースアクセスシステム
JP2002108670A (ja) * 2000-09-29 2002-04-12 Hitachi Kokusai Electric Inc データベースアクセス方法及び多次元データベースアクセスシステム
US6922791B2 (en) * 2001-08-09 2005-07-26 Dell Products L.P. Failover system and method for cluster environment
EP1349082A1 (en) 2002-03-28 2003-10-01 LION Bioscience AG Method and apparatus for querying relational databases
US8468212B2 (en) * 2007-08-08 2013-06-18 Silicon Image, Inc. Network repository for metadata
JP4995750B2 (ja) 2008-02-06 2012-08-08 日本電信電話株式会社 Web検索装置、Web検索方法、プログラムおよび記録媒体
US8213924B2 (en) * 2008-10-06 2012-07-03 Facebook, Inc. Providing distributed online services for mobile devices
US20100115100A1 (en) * 2008-10-30 2010-05-06 Olga Tubman Federated configuration data management
US8392402B2 (en) 2008-12-03 2013-03-05 International Business Machines Corporation Hybrid push/pull execution of continuous SQL queries
US9043319B1 (en) * 2009-12-07 2015-05-26 Google Inc. Generating real-time search results
KR101183768B1 (ko) * 2010-08-13 2012-09-17 삼성에스디에스 주식회사 통합 뷰 제공 시스템 및 방법 그리고 이에 적용되는 뷰 생성 기능을 가지는 서버
US10579634B2 (en) * 2012-08-30 2020-03-03 Citus Data Bilgi Islemleri Ticaret A.S. Apparatus and method for operating a distributed database with foreign tables
US9081826B2 (en) 2013-01-07 2015-07-14 Facebook, Inc. System and method for distributed database query engines
US10185744B2 (en) * 2015-06-23 2019-01-22 Sap Se Caching views on historical data

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5987449A (en) * 1996-08-23 1999-11-16 At&T Corporation Queries on distributed unstructured databases
US20030074352A1 (en) * 2001-09-27 2003-04-17 Raboczi Simon D. Database query system and method
US20040103087A1 (en) * 2002-11-25 2004-05-27 Rajat Mukherjee Method and apparatus for combining multiple search workers
WO2005076160A1 (en) * 2004-02-06 2005-08-18 Critical Software, Sa Data warehouse distributed system and architecture to support distributed query execution
CN101067823A (zh) * 2006-05-02 2007-11-07 国际商业机器公司 优化联合数据库管理系统的方法和系统
US7984043B1 (en) * 2007-07-24 2011-07-19 Amazon Technologies, Inc. System and method for distributed query processing using configuration-independent query plans
CN101093501A (zh) * 2007-07-31 2007-12-26 武汉大学 一种高效、透明的分布式空间数据库查询方法
US20110082859A1 (en) * 2009-10-07 2011-04-07 International Business Machines Corporation Information theory based result merging for searching hierarchical entities across heterogeneous data sources
US20110228668A1 (en) * 2010-03-22 2011-09-22 Infosys Technologies Limited Method and system for automatic failover of distributed query processing using distributed shared memory
US20120054182A1 (en) * 2010-08-24 2012-03-01 International Business Machines Corporation Systems and methods for massive structured data management over cloud aware distributed file system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
T CONDIE等: "MapReduce online", 《NSDI"10 PROCEEDINGS OF THE 7TH USENIX CONFERENCE ON NETWORKED SYSTEMS DESIGN AND IMPLEMENTATION》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11347761B1 (en) 2013-01-07 2022-05-31 Meta Platforms, Inc. System and methods for distributed database query engines
US10698913B2 (en) 2013-01-07 2020-06-30 Facebook, Inc. System and methods for distributed database query engines
CN105302697B (zh) * 2015-11-13 2018-05-18 中国建设银行股份有限公司 一种密集数据模型数据库的运行状态监控方法及系统
CN105302697A (zh) * 2015-11-13 2016-02-03 中国建设银行股份有限公司 一种密集数据模型数据库的运行状态监控方法及系统
WO2017092582A1 (zh) * 2015-12-01 2017-06-08 阿里巴巴集团控股有限公司 一种数据处理方法和装置
CN106815254A (zh) * 2015-12-01 2017-06-09 阿里巴巴集团控股有限公司 一种数据处理方法和装置
CN106815254B (zh) * 2015-12-01 2020-08-14 阿里巴巴集团控股有限公司 一种数据处理方法和装置
CN110291515A (zh) * 2017-02-13 2019-09-27 微软技术许可有限责任公司 计算系统中的分布式索引搜索
CN110291515B (zh) * 2017-02-13 2023-08-15 微软技术许可有限责任公司 计算系统中的分布式索引搜索
CN109766368A (zh) * 2018-11-14 2019-05-17 国云科技股份有限公司 一种基于Hive的数据查询多类型视图产出系统及方法
WO2020135613A1 (zh) * 2018-12-26 2020-07-02 中兴通讯股份有限公司 数据查询处理方法、装置及系统、计算机可读存储介质
CN113168147A (zh) * 2018-12-29 2021-07-23 阿里巴巴集团控股有限公司 使用硬件加速高效地扫描数据库的系统和方法
CN113785286A (zh) * 2019-05-03 2021-12-10 微软技术许可有限责任公司 在分布式存储系统中查询数据
CN113785286B (zh) * 2019-05-03 2024-04-16 微软技术许可有限责任公司 在分布式存储系统中查询数据
CN112307066A (zh) * 2020-11-03 2021-02-02 平安普惠企业管理有限公司 分布式数据聚合方法、系统、设备及存储介质
CN112395308A (zh) * 2020-11-05 2021-02-23 深圳市中博科创信息技术有限公司 一种基于hdfs数据库的数据查询方法
CN112835895A (zh) * 2021-01-27 2021-05-25 世纪龙信息网络有限责任公司 一种数据存储系统及其存储方法
CN113590316A (zh) * 2021-07-23 2021-11-02 中共四川省委组织部 一种基于国产cpu的数据库集群处理方法

Also Published As

Publication number Publication date
EP3096250B1 (en) 2019-02-20
EP3096250A1 (en) 2016-11-23
IL239717A (en) 2017-04-30
JP6117378B2 (ja) 2017-04-19
WO2014107359A1 (en) 2014-07-10
US9081826B2 (en) 2015-07-14
KR102037232B1 (ko) 2019-10-28
US10698913B2 (en) 2020-06-30
BR112015016352A2 (pt) 2017-07-11
CN104903894B (zh) 2018-12-28
US20150261831A1 (en) 2015-09-17
JP2016509294A (ja) 2016-03-24
US20140195558A1 (en) 2014-07-10
KR20170103021A (ko) 2017-09-12
US10210221B2 (en) 2019-02-19
KR101775433B1 (ko) 2017-09-06
EP2752779A3 (en) 2015-02-18
MX349042B (es) 2017-07-07
US11347761B1 (en) 2022-05-31
AU2013371448A1 (en) 2015-07-23
IL239717A0 (en) 2015-08-31
CA2896855A1 (en) 2014-07-10
EP2752779A2 (en) 2014-07-09
KR20150104585A (ko) 2015-09-15
MX2015008799A (es) 2016-04-25
US20190121809A1 (en) 2019-04-25
AU2013371448B2 (en) 2017-02-16
US9361344B2 (en) 2016-06-07
CA2896855C (en) 2016-11-01
EP2752779B1 (en) 2016-06-29
US20160188677A1 (en) 2016-06-30
CN110069526A (zh) 2019-07-30

Similar Documents

Publication Publication Date Title
CN104903894A (zh) 用于分布式数据库查询引擎的系统和方法
US20220407781A1 (en) Intelligent analytic cloud provisioning
US11120022B2 (en) Processing a database query using a shared metadata store
US10528599B1 (en) Tiered data processing for distributed data
JP2021511582A (ja) Sqlクエリプランを最適化するための次元コンテキスト伝搬技術
AU2014212780A1 (en) Data stream splitting for low-latency data access
US10909114B1 (en) Predicting partitions of a database table for processing a database query
US10812322B2 (en) Systems and methods for real time streaming
US11544262B2 (en) Transient materialized view rewrite
Zhao et al. A practice of TPC-DS multidimensional implementation on NoSQL database systems
EP2765517B1 (en) Data stream splitting for low-latency data access
CN116048817B (zh) 数据处理控制方法、装置、计算机设备和存储介质
Prathyusha Reduction of Traffic on Roads Using Big Data Applications
CN113641750A (zh) 一种企业大数据分析平台

Legal Events

Date Code Title Description
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: California, USA

Patentee after: Yuan platform Co.

Address before: California, USA

Patentee before: Facebook, Inc.

CP01 Change in the name or title of a patent holder