CN106446039B - 聚合式大数据查询方法及装置 - Google Patents

聚合式大数据查询方法及装置 Download PDF

Info

Publication number
CN106446039B
CN106446039B CN201610786249.9A CN201610786249A CN106446039B CN 106446039 B CN106446039 B CN 106446039B CN 201610786249 A CN201610786249 A CN 201610786249A CN 106446039 B CN106446039 B CN 106446039B
Authority
CN
China
Prior art keywords
data
query
group
query task
task execution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610786249.9A
Other languages
English (en)
Other versions
CN106446039A (zh
Inventor
王旭
孙海龙
肖邦
邓婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianhang Changying (Jiangsu) Technology Co.,Ltd.
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201610786249.9A priority Critical patent/CN106446039B/zh
Publication of CN106446039A publication Critical patent/CN106446039A/zh
Application granted granted Critical
Publication of CN106446039B publication Critical patent/CN106446039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24542Plan optimisation
    • G06F16/24545Selectivity estimation or determination

Abstract

本发明提供一种聚合式大数据查询方法及装置,所述方法包括:获取聚合式大数据查询请求;根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务;将每个所述查询任务分解为m个数据组;获取每个数据组的大小,并确定所述n个查询任务中具有相同键值的数据组中数据量最大的数据组;确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点;通过所述查询任务执行节点执行聚合式大数据查询任务。本发明提供的聚合式大数据查询方法及装置,通过确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点,可以减小聚合式大数据查询过程中数据传输的网络开销。

Description

聚合式大数据查询方法及装置
技术领域
本发明涉及数据查询领域,尤其涉及一种聚合式大数据查询方法及装置。
背景技术
二十一世纪以来,随着电子商务、科学计算及社交网络等新一代大规模网络应用的迅猛发展,互联网数据量大幅增加。云计算的发展和大数据时代的到来使得基于单台主机的传统关系数据库系统在扩展能力和处理能力等方面都捉襟见肘,越来越无法满足管理海量数据的需求。
在大数据时代,基于大数据的数据分析处理需求得到了越来越多的重视。为了应对大数据带来的困难和挑战,以Google、Facebook、Linkedin、Microsoft等为代表的互联网企业和学术界近几年推出了各种不同类型的大数据处理系统。借助于新型的处理系统,深度学习、机器学习、数据挖掘等大数据分析技术也得到了迅速发展。由于高可用、低延迟、易扩展的大数据处理要求,Hadoop和Spark等当前业界和学术界使用最为广泛的大数据处理系统通过水平扩展来提升自身这方面的性能。水平扩展不仅仅是物理机器的扩展还蕴含着对存储的数据进行分区操作,即同一个数据大表的数据分割放置于不同的物理节点上。这种方式对于扩展集群的并发访问能力有着显著的提升。
但是,现有技术中的大数据处理系统,基于数据的操作及数据传送会带来网络开销。在系统面临聚合式数据查询,如Join,Aggregation,Group by等聚合式数据查询操作时,往往涉及到两个或多个数据表,数据表的元组数量巨大,而且数据跨越多个节点,因此会导致巨大的网络通信开销,影响整个系统的性能。
发明内容
本发明实施例提供一种聚合式大数据查询方法及装置,用于解决现有技术中的聚合式大数据查询方法及装置导致巨大的网络通信开销,从而影响系统性能的问题。
第一方面,本发明实施例提供一种聚合式大数据查询方法,包括:
获取聚合式大数据查询请求;
根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务;n为大于或等于1的整数;
将每个所述查询任务分解为m个数据组;m为大于或等于1的整数;
获取每个数据组的大小,并确定所述n个查询任务中具有相同键值的数据组中数据量最大的数据组;
确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点;
通过所述查询任务执行节点执行聚合式大数据查询任务。
可选地,所述通过所述查询任务执行节点执行聚合式大数据查询任务,包括:
通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组;
将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。
可选地,所述方法还包括:根据所述聚合式大数据查询请求,从所述n个数据处理节点存储的数据中选取热点数据,在每个数据处理节点的相邻数据处理节点中进行备份,其中,所述热点数据为被访问频率满足预设条件的数据;
所述通过所述查询任务执行节点执行聚合式大数据查询任务,包括:
在所述通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组之前,
确定所述查询任务执行节点本地是否存在其它数据处理节点的备份数据,且所述备份数据中包括与所述数据量最大的数据组具有相同键值的数据组;
若是,则所述查询任务执行节点从本地获取与所述数据量最大的数据组具有相同键值的数据组;
将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。
可选地,所述根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务,包括:
根据所述聚合式大数据查询请求,从所述n个数据处理节点中存储的第一数据表及第二数据表的数据中获取与所述聚合式大数据查询请求相关的数据,生成所述n个查询任务。
第二方面,本发明实施例还提供一种聚合式大数据查询装置,包括:
获取模块,用于获取聚合式大数据查询请求;
所述获取模块,还用于,根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务;n为大于等于1的整数;
数据分解模块,用于将每个所述查询任务分解为m个数据组;m为大于等于1的整数;
所述获取模块,还用于获取每个数据组的大小,
确定模块,用于确定所述n个查询任务中具有相同键值的数据组中数据量最大的数据组;
所述确定模块,还用于确定所述数据量最大的数据组所对应的查询任务对应的数据处理节点为查询任务执行节点;
查询处理模块,用于通过所述查询任务执行节点执行聚合式大数据查询任务。
可选地,所述查询处理模块,具体用于:
通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组;
并将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。
可选地,所述装置还包括:
备份模块,用于根据所述聚合式大数据查询请求,从所述n个数据处理节点存储的数据中选取热点数据,在每个数据处理节点的相邻数据处理节点中进行备份;其中,所述热点数据为被访问频率满足预设条件的数据;
所述查询处理模块,具体用于:
在所述通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组之前,
确定所述查询任务执行节点本地是否存在其它数据处理节点的备份数据,且所述备份数据中包括与所述数据量最大的数据组具有相同键值的数据组;
若是,则所述查询任务执行节点从本地获取与所述数据量最大的数据组具有相同键值的数据组;将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。
可选地,所述获取模块,具体用于:
根据所述聚合式大数据查询请求,从所述n个数据处理节点中存储的第一数据表及第二数据表的数据中获取与所述聚合式大数据查询请求相关的数据,生成所述n个查询任务。
本发明提供的聚合式大数据查询方法及装置,通过确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点,由于所述查询任务执行节点本地存储的数据组的数据量最大,执行所述聚合式大数据查询任务时,所述查询任务执行节点可以直接使用本地的数据组,从而减小所述查询任务执行节点通过网络从其他数据处理节点中获取的数据组的数据量,减小聚合式大数据查询过程中数据传输的网络开销。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例聚合式大数据查询系统的框架结构示意图;
图2为本发明实施例聚合式大数据查询方法的流程示意图;
图3为本发明实施例聚合式大数据查询操作的过程示意图;
图4为本发明实施例聚合式大数据查询操作的另一过程示意图;
图5为本发明实施例聚合式大数据查询装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种可以节省数据查询网络开销的聚合式大数据查询方法及装置。
图1为本发明实施例聚合式大数据查询系统的框架结构示意图。
请参阅图1,本发明实施例聚合式大数据查询系统包括客户端10、聚合式大数据查询装置20及多个数据处理节点30。所述聚合式大数据查询装置20包括查询请求处理模块21、查询类型判断模块22、数据备份管理模块23、数据分区管理模块24、及数据传送模块25。所述查询请求处理模块21用于从所述客户端10获取数据查询请求。所述查询类型判断模块22用于判断所述数据查询请求的类型。所述数据备份管理模块23用于对所述数据处理节点30中存储的数据进行备份管理。所述数据传送模块25用于从所述数据处理节点30中获取待查询数据,并从所述数据处理节点30中获取数据查询结果。所述聚合式大数据查询装置20通过所述客户端请求处理模块21获取到所述客户端10发送的聚合式大数据查询请求,并通过所述查询类型判断模块22判断所述数据处理请求是否为聚合式大数据查询请求,如果是,则所述数据分区管理模块24对所述查询任务进行分区,并从所述多个数据处理节点30中确定出执行聚合式大数据查询任务的查询任务执行节点,通过所述查询任务执行节点执行聚合式大数据查询任务。
图2为本发明实施例聚合式大数据查询方法的流程示意图。
请参阅图2,本发明实施例提供的聚合式大数据查询方法由图1中的聚合式大数据查询装置执行,所述方法包括:
S201:获取聚合式大数据查询请求;
具体地,所述聚合式大数据查询装置通过所述客户端请求处理模块从所述客户端获取所述聚合式大数据查询请求。
S202:根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务;n为大于或等于1的整数;
具体地,所述根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务,包括:
根据所述聚合式大数据查询请求,从所述n个数据处理节点中存储的第一数据表及第二数据表的数据中获取与所述聚合式大数据查询请求相关的数据,生成所述n个查询任务。
具体地,所述聚合式大数据查询装置通过所述数据传输模块从所述n个数据处理节点中获取与所述聚合式大数据查询请求相关的数据。所述查询任务执行节点通过所述数据传输模块将最终得到的聚合式大数据查询结果发送给所述聚合式大数据查询装置。所述聚合式大数据查询装置将所述查询结果返回给客户端。
所述聚合式大数据查询装置采用开源集群计算环境Spark,在Spark中,一个聚合式查询操作会分为3个阶段。
图3为本发明实施例聚合式大数据查询操作的过程示意图。
请参阅图3,第一阶段及第二阶段分别处理的是所述聚合式查询操作所涉及到的所述第一数据表及所述第二数据据表的数据,然后第三阶段对这些数据进行实际的聚合。Spark中每个阶段中都包含了许多具有相同工作的任务,只是他们所处理的数据不同。所述第一阶段及所述第二阶段输出所述n个查询任务,每个所述查询任务通过一个数据处理节点执行。
S203:将每个所述查询任务分解为m个数据组;m为大于等于1的整数;
所述步骤由所述聚合式大数据查询装置的数据分区管理模块执行。
图4为本发明实施例聚合式大数据查询操作的另一过程示意图。
具体地,请参阅图4,所述查询任务的数量为n。通过执行所述查询任务,每个查询任务输出m个数据组,所述m个数据组分别具有不同的键值。每个数据组由具有相同键值的数据相结合形成。所述n个查询任务中具有相同键值的数据组通过合并任务进行聚合。
S204:获取每个数据组的大小,并确定所述n个查询任务中具有相同键值的数据组中数据量最大的数据组;
具体地,由于每个查询任务被分解为m个数据组,一个合并任务用于处理具有同一个键值的所有数据组,即每个合并任务处理n个具有同一键值的数据组。实际处理过程中,其中的部分数据组中的数据可以为空。为了保证对所述查询任务中所有具有相同键值的数据组执行聚合,所述n个查询任务需要通过m个合并任务完成合并。
具体地,通过遍历每个合并任务所处理的数据组的数据量,并对所述每个合并任务所处理的数据组的数据量进行比较,确定出每个合并任务所处理的数据量最大的数据组,并记录所述数据量最大的数据组所对应的查询任务所在的数据处理节点。
S205:确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点;
为了保证在执行聚合式大数据查询任务的过程中读取数据时尽量减小数据的网络传输开销,所述聚合式大数据查询装置通过确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点。
S206:通过所述查询任务执行节点执行聚合式大数据查询任务。
具体地,所述通过所述查询任务执行节点执行聚合式大数据查询任务,包括:
通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组;
将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。
本发明实施例提供的聚合式大数据查询方法,通过获取聚合式大数据查询请求;根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务;将每个所述查询任务分解为m个数据组;获取每个数据组的大小,并确定所述n个查询任务中具有相同键值的数据组中数据量最大的数据组;确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点;通过所述查询任务执行节点执行聚合式大数据查询任务。执行聚合式大数据查询任务时,需要从所述n个数据处理节点中分别获取具有相同键值的数据组进行合并。采用本发明实施例提供的聚合式大数据查询方法,通过确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点,由于所述查询任务执行节点本地存储的数据组的数据量最大,执行所述聚合式大数据查询任务时,所述查询任务执行节点可以直接使用本地的数据组,从而减小所述查询任务执行节点通过网络从其他数据处理节点中获取的数据组的数据量,减小聚合式大数据查询过程中数据传输的网络开销。
进一步地,在上述实施例的基础上,所述方法还包括:根据所述聚合式大数据查询请求,从所述n个数据处理节点存储的数据中选取热点数据,在每个数据处理节点的相邻数据处理节点中进行备份,其中,所述热点数据为被访问频率满足预设条件的数据;
所述通过所述查询任务执行节点执行聚合式大数据查询任务,包括:
在所述通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组之前,
确定所述查询任务执行节点本地是否存在其它数据处理节点的备份数据,且所述备份数据中包括与所述数据量最大的数据组具有相同键值的数据组;
若是,则所述查询任务执行节点从本地获取与所述数据量最大的数据组具有相同键值的数据组;
将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。
通过选取热点数据在相邻的数据处理节点中进行备份,使得所述查询任务执行节点中也可以对相邻的数据处理节点中的热点数据进行备份,则所述查询任务执行节点在执行数据组的数据合并的过程中,如果确定所述相邻的数据处理节点中存在需要合并的数据组,即可以从所述查询任务执行节点本地获取到相邻的数据处理节点中的数据组的数据,无需通过网络访问所述相邻数据处理节点,减小了网络开销。
图5为本发明实施例聚合式大数据查询装置的结构示意图。请参阅图5,本发明实施例提供一种聚合式大数据查询装置,包括:
获取模块510,用于获取聚合式大数据查询请求;
所述获取模块510,还用于,根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务;n为大于等于1的整数;
数据分解模块520,用于将每个所述查询任务分解为m个数据组;m为大于等于1的整数;
所述获取模块510,还用于获取每个数据组的大小,
确定模块530,用于确定所述n个查询任务中具有相同键值的数据组中数据量最大的数据组;
所述确定模块530,还用于确定所述数据量最大的数据组所对应的查询任务对应的数据处理节点为查询任务执行节点;
查询处理模块540,用于通过所述查询任务执行节点执行聚合式大数据查询任务。
可选地,在上述实施例的基础上,所述查询处理模块540,具体用于:
通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组;
并将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。
可选地,在上述实施例的基础上,所述装置还包括:
备份模块550,用于根据所述聚合式大数据查询请求,从所述n个数据处理节点存储的数据中选取热点数据,在每个数据处理节点的相邻数据处理节点中进行备份;其中,所述热点数据为被访问频率满足预设条件的数据;
所述查询处理模块540,具体用于:
在所述通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组之前,
确定所述查询任务执行节点本地是否存在其它数据处理节点的备份数据,且所述备份数据中包括与所述数据量最大的数据组具有相同键值的数据组;
若是,则所述查询任务执行节点从本地获取与所述数据量最大的数据组具有相同键值的数据组;将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。
可选地,在上述实施例的基础上,所述获取模块510,具体用于:
根据所述聚合式大数据查询请求,从所述n个数据处理节点中存储的第一数据表及第二数据表的数据中获取与所述聚合式大数据查询请求相关的数据,生成所述n个查询任务。
本发明实施例提供的聚合式大数据查询装置,用于执行上述方法实施例提供的方法,其具体实现原理及技术效果与上述方法实施例类似,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (4)

1.一种聚合式大数据查询方法,其特征在于,包括:
获取聚合式大数据查询请求;
根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务;n为大于或等于1的整数;
将每个所述查询任务分解为m个数据组;m为大于或等于1的整数;
获取每个数据组的大小,并确定所述n个查询任务中具有相同键值的数据组中数据量最大的数据组;
确定所述数据量最大的数据组所对应的查询任务的数据处理节点为查询任务执行节点;
通过所述查询任务执行节点执行聚合式大数据查询任务;
所述通过所述查询任务执行节点执行聚合式大数据查询任务,包括:
通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组;
将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并;
所述方法还包括:根据所述聚合式大数据查询请求,从所述n个数据处理节点存储的数据中选取热点数据,在每个数据处理节点的相邻数据处理节点中进行备份,其中,所述热点数据为被访问频率满足预设条件的数据;
所述通过所述查询任务执行节点执行聚合式大数据查询任务,包括:
在所述通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组之前,
确定所述查询任务执行节点本地是否存在其它数据处理节点的备份数据,且所述备份数据中包括与所述数据量最大的数据组具有相同键值的数据组;
若是,则所述查询任务执行节点从本地获取与所述数据量最大的数据组具有相同键值的数据组;
将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。
2.根据权利要求1所述的方法,其特征在于,所述根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务,包括:
根据所述聚合式大数据查询请求,从所述n个数据处理节点中存储的第一数据表及第二数据表的数据中获取与所述聚合式大数据查询请求相关的数据,生成所述n个查询任务。
3.一种聚合式大数据查询装置,其特征在于,包括:
获取模块,用于获取聚合式大数据查询请求;
所述获取模块,还用于,根据所述聚合式大数据查询请求,从n个数据处理节点中获取n个查询任务;n为大于等于1的整数;
数据分解模块,用于将每个所述查询任务分解为m个数据组;m为大于等于1的整数;
所述获取模块,还用于获取每个数据组的大小,
确定模块,用于确定所述n个查询任务中具有相同键值的数据组中数据量最大的数据组;
所述确定模块,还用于确定所述数据量最大的数据组所对应的查询任务对应的数据处理节点为查询任务执行节点;
查询处理模块,用于通过所述查询任务执行节点执行聚合式大数据查询任务;
所述查询处理模块,具体用于:
通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组;
并将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并;
所述装置还包括:
备份模块,用于根据所述聚合式大数据查询请求,从所述n个数据处理节点存储的数据中选取热点数据,在每个数据处理节点的相邻数据处理节点中进行备份;其中,所述热点数据为被访问频率满足预设条件的数据;
所述查询处理模块,具体用于:
在所述通过所述查询任务执行节点从其它数据处理节点中,获取与所述数据量最大的数据组具有相同键值的数据组之前,
确定所述查询任务执行节点本地是否存在其它数据处理节点的备份数据,且所述备份数据中包括与所述数据量最大的数据组具有相同键值的数据组;
若是,则所述查询任务执行节点从本地获取与所述数据量最大的数据组具有相同键值的数据组;将所述查询任务执行节点中的所述数据量最大的数据组,及与所述数据量最大的数据组具有相同键值的数据组进行合并。
4.根据权利要求3所述的装置,其特征在于,所述获取模块,具体用于:
根据所述聚合式大数据查询请求,从所述n个数据处理节点中存储的第一数据表及第二数据表的数据中获取与所述聚合式大数据查询请求相关的数据,生成所述n个查询任务。
CN201610786249.9A 2016-08-30 2016-08-30 聚合式大数据查询方法及装置 Active CN106446039B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610786249.9A CN106446039B (zh) 2016-08-30 2016-08-30 聚合式大数据查询方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610786249.9A CN106446039B (zh) 2016-08-30 2016-08-30 聚合式大数据查询方法及装置

Publications (2)

Publication Number Publication Date
CN106446039A CN106446039A (zh) 2017-02-22
CN106446039B true CN106446039B (zh) 2020-07-21

Family

ID=58091488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610786249.9A Active CN106446039B (zh) 2016-08-30 2016-08-30 聚合式大数据查询方法及装置

Country Status (1)

Country Link
CN (1) CN106446039B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019341B (zh) * 2017-12-08 2021-07-23 杭州海康威视数字技术股份有限公司 一种数据查询方法及装置
CN109344169B (zh) * 2018-09-20 2021-02-09 新华三大数据技术有限公司 数据处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102467570A (zh) * 2010-11-17 2012-05-23 日电(中国)有限公司 用于分布式数据仓库的连接查询系统和方法
CN103593436A (zh) * 2013-11-12 2014-02-19 华为技术有限公司 文件合并方法和装置
CN105045871A (zh) * 2015-07-15 2015-11-11 国家超级计算深圳中心(深圳云计算中心) 数据聚合查询方法及装置
CN105204920A (zh) * 2014-06-18 2015-12-30 阿里巴巴集团控股有限公司 一种基于映射聚合的分布式计算作业的实现方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150302063A1 (en) * 2014-04-21 2015-10-22 Linkedln Corporation System and method for searching a distributed node-sharded graph

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102467570A (zh) * 2010-11-17 2012-05-23 日电(中国)有限公司 用于分布式数据仓库的连接查询系统和方法
CN103593436A (zh) * 2013-11-12 2014-02-19 华为技术有限公司 文件合并方法和装置
CN105204920A (zh) * 2014-06-18 2015-12-30 阿里巴巴集团控股有限公司 一种基于映射聚合的分布式计算作业的实现方法及装置
CN105045871A (zh) * 2015-07-15 2015-11-11 国家超级计算深圳中心(深圳云计算中心) 数据聚合查询方法及装置

Also Published As

Publication number Publication date
CN106446039A (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
CN104361091A (zh) 一种大数据系统
CN104268295A (zh) 一种数据查询方法及装置
Bala et al. P-ETL: Parallel-ETL based on the MapReduce paradigm
US11221890B2 (en) Systems and methods for dynamic partitioning in distributed environments
US10162830B2 (en) Systems and methods for dynamic partitioning in distributed environments
CN111258978A (zh) 一种数据存储的方法
CN111159235A (zh) 数据预分区方法、装置、电子设备及可读存储介质
US20150120697A1 (en) System and method for analysis of a database proxy
CN111723161A (zh) 一种数据处理方法、装置及设备
CN106599189A (zh) 基于云计算的动态Skyline查询装置
CN106446039B (zh) 聚合式大数据查询方法及装置
AU2019241002B2 (en) Transaction processing method and system, and server
CN106776810B (zh) 一种大数据的数据处理系统及方法
CN108319604B (zh) 一种hive中大小表关联的优化方法
CN111400301A (zh) 一种数据查询方法、装置及设备
CN109726219A (zh) 数据查询的方法及终端设备
US10268727B2 (en) Batching tuples
CN111259062B (zh) 一种能够保证分布式数据库全表查询语句结果集顺序的方法和装置
Lou et al. Research on data query optimization based on SparkSQL and MongoDB
CN108875786B (zh) 基于Storm的食品数据并行计算一致性问题的优化方法
CN113282616A (zh) 一种增量的时序数据冲突检测方法、装置和存储介质
CN113868267A (zh) 注入时序数据的方法、查询时序数据的方法及数据库系统
Wu et al. Real-Time Search Method for Large-Scale Regional Targets Based on Parallel Google S2 Algorithm
KR101638048B1 (ko) 맵리듀스를 이용한 sql 질의처리방법
US11442792B2 (en) Systems and methods for dynamic partitioning in distributed environments

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220125

Address after: 215488 No. 301, building 11, phase II, Taicang University Science Park, No. 27, Zigang Road, science and education new town, Taicang City, Suzhou City, Jiangsu Province

Patentee after: Tianhang Changying (Jiangsu) Technology Co.,Ltd.

Address before: 100191 g506, new main building of Beijing University of Aeronautics and Astronautics, 37 Xueyuan Road, Haidian District, Beijing

Patentee before: BEIHANG University

TR01 Transfer of patent right