CN106250519A - 用于并行数据库的数据查询方法和装置 - Google Patents

用于并行数据库的数据查询方法和装置 Download PDF

Info

Publication number
CN106250519A
CN106250519A CN201610633323.3A CN201610633323A CN106250519A CN 106250519 A CN106250519 A CN 106250519A CN 201610633323 A CN201610633323 A CN 201610633323A CN 106250519 A CN106250519 A CN 106250519A
Authority
CN
China
Prior art keywords
data
result
target
sum
packet aggregation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610633323.3A
Other languages
English (en)
Inventor
郭庆
李晋钢
张建磊
惠润海
宋怀明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dawning Information Industry Beijing Co Ltd
Original Assignee
Dawning Information Industry Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dawning Information Industry Beijing Co Ltd filed Critical Dawning Information Industry Beijing Co Ltd
Priority to CN201610633323.3A priority Critical patent/CN106250519A/zh
Publication of CN106250519A publication Critical patent/CN106250519A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • G06F16/244Grouping and aggregation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24558Binary matching operations
    • G06F16/2456Join operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/278Data partitioning, e.g. horizontal or vertical partitioning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种用于并行数据库的数据查询方法和装置,该方法包括:在各个数据库节点上对目标数据表按照目标数据表与其他数据表之间的相应关联字段分别进行目标数据的分组聚合;在各个数据库节点上对相应的分组聚合结果和相应的其他数据表按照相应的关联字段分别进行哈希方式的数据重划分;将各个数据库节点的分组聚合结果的数据重划分结果和其他数据表的数据重划分结果均汇总到一个目标数据库节点;在目标数据库节点上对分组聚合结果的数据重划分结果和其他数据表的数据重划分结果进行目标数据的连接聚合。本发明能够实现数据的聚合查询,同时调高查询的并行性,提升集群的资源利用率,并降低网络开销,提高查询的性能。

Description

用于并行数据库的数据查询方法和装置
技术领域
本发明涉及并行数据库领域,具体来说,涉及一种用于并行数据库的数据查询方法和装置。
背景技术
随着大数据时代到来,与传统数据分析相比,现在遇到更大的挑战,一方面是数据量的爆炸式增长,另一方面是数据类型的增加。面对这些挑战,Hadoop(一个由Apache基金会所开发的分布式系统基础架构)应运而生,解决了离线数据分析的难题,但对于实时的数据分析要求,Hadoop因为自身的特点,并不能在这一领域应用;因此并行数据库依然是实时结构化数据分析的主要工具。
在并行数据库系统中,聚合和关联查询是进行数据分析的主要方法,而大部分的分析将同时涉及到多张大表的连接和聚合。本专利主要是对Share-Nothing结构下的并行数据库的连接聚合查询优化进行说明。连接查询是将多张有关联的表通过关联字段进行连接,常用于关联事务数据的相关维度信息,聚合查询是一种对数据进行汇总、统计分析的查询方式,常用于进行报表统计。
并行数据库的查询设计到集群中的多个数据库节点,如果直接在各节点上进行连接聚合查询,最终会得到一个错误的不可用结果集。为保证结果集的正确定,现在的并行数据库对聚合查询的执行方式,主要是通过将数据汇聚到一个节点进行聚合,但是这种方式也带来了一个问题是数据的汇聚过程会大大增加网络的通信开销,最终影响查询的性能。
针对相关技术中的上述问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的上述问题,本发明提出一种用于并行数据库的数据查询方法和装置,能够实现数据的聚合查询,同时调高查询的并行性,提升集群的资源利用率,并降低网络开销,提高查询的性能。
本发明的技术方案是这样实现的:
根据本发明的一个方面,提供了一种用于并行数据库的数据查询方法。
该数据查询方法包括:
在各个数据库节点上对目标数据表按照目标数据表与其他数据表之间的相应关联字段分别进行目标数据的分组聚合;
在各个数据库节点上对相应的分组聚合结果和相应的其他数据表按照相应的关联字段分别进行哈希方式的数据重划分;
将各个数据库节点的分组聚合结果的数据重划分结果和其他数据表的数据重划分结果均汇总到一个目标数据库节点;
在目标数据库节点上对分组聚合结果的数据重划分结果和其他数据表的数据重划分结果进行目标数据的连接聚合。
其中,在对目标数据进行聚合操作时,聚合操作的方式包括以下至少之一:
sum、max、min、count、avg。
可选的,在聚合操作为count的情况下,在各个数据库节点上对目标数据表按照目标数据表与其他数据表之间的相应关联字段分别进行目标数据的连接聚合时,该连接聚合的聚合操作为sum。
可选的,在聚合操作为avg的情况下,在各个数据库节点上对目标数据表按照目标数据表与其他数据表之间的相应关联字段分别进行目标数据的分组聚合时,该分组聚合的聚合操作包括count和sum。
相应的,在目标数据库节点上对分组聚合结果的数据重划分结果和其他数据表的数据重划分结果进行目标数据的连接聚合时,该连接聚合的聚合操作为对该count的分组聚合结果的数据重划分结果和该sum的分组聚合结果的数据重划分结果分别作sum连接操作,该sum连接操作的结果为sum的分组聚合结果的数据重划分结果的sum值与count操作的分组聚合结果的数据重划分结果的sum值的比值。
根据本发明的另一方面,提供了一种用于并行数据库的数据查询装置。
该数据查询装置包括:
分组聚合模块,用于在各个数据库节点上对目标数据表按照目标数据表与其他数据表之间的相应关联字段分别进行目标数据的分组聚合;
重划分模块,用于在各个数据库节点上对相应的分组聚合结果和相应的其他数据表按照相应的关联字段分别进行哈希方式的数据重划分;
汇总模块,用于将各个数据库节点的分组聚合结果的数据重划分结果和其他数据表的数据重划分结果均汇总到一个目标数据库节点;
连接聚合模块,用于在目标数据库节点上对分组聚合结果的数据重划分结果和其他数据表的数据重划分结果进行目标数据的连接聚合。
其中,在对目标数据进行聚合操作时,聚合操作的方式包括以下至少之一:
sum、max、min、count、avg。
可选的,在聚合操作为count的情况下,在各个数据库节点上对目标数据表按照目标数据表与其他数据表之间的相应关联字段分别进行目标数据的连接聚合时,该连接聚合的聚合操作为sum。
可选的,在聚合操作为avg的情况下,在各个数据库节点上对目标数据表按照目标数据表与其他数据表之间的相应关联字段分别进行目标数据的分组聚合时,该分组聚合的聚合操作包括count和sum。
相应的,在目标数据库节点上对分组聚合结果的数据重划分结果和其他数据表的数据重划分结果进行目标数据的连接聚合时,该连接聚合的聚合操作为对该count的分组聚合结果的数据重划分结果和该sum的分组聚合结果的数据重划分结果分别作sum连接操作,该sum连接操作的结果为sum的分组聚合结果的数据重划分结果的sum值与count操作的分组聚合结果的数据重划分结果的sum值的比值。
本发明通过在各个数据库节点上分别进行分组聚合,并将聚合结果重划分,并将重划分后的结果汇聚到一个数据库节点来进行连接聚合,实现数据的聚合查询,同时可以调高查询的并行性,提升集群的资源利用率,并降低网络开销,提高查询的性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的用于并行数据库的数据查询方法的流程图;
图2是根据本发明实施例的聚合函数的数据查询方法的流程图;
图3是根据本发明实施例的count聚合函数的数据查询方法的流程图;
图4是根据本发明实施例的avg聚合函数的数据查询方法的流程图;
图5是根据本发明实施例的用于并行数据库的数据查询装置的框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的实施例,提供了一种用于并行数据库的数据查询方法。
如图1所示,根据本发明实施例的数据查询方法包括:
步骤S101,在各个数据库节点上对目标数据表按照目标数据表与其他数据表之间的相应关联字段分别进行目标数据的分组聚合;
步骤S103,在各个数据库节点上对相应的分组聚合结果和相应的其他数据表按照相应的关联字段分别进行哈希方式的数据重划分;
步骤S105,将各个数据库节点的分组聚合结果的数据重划分结果和其他数据表的数据重划分结果均汇总到一个目标数据库节点;
步骤S107,在目标数据库节点上对分组聚合结果的数据重划分结果和其他数据表的数据重划分结果进行目标数据的连接聚合。
其中,不同数据表之间进行连接查询时主要通过join关键词实现,本发明支持内连接、外连接以及自连接方式,聚合查询主要通过聚集函数和GroupBy子句实现,其中聚集函数包括count、avg、sum、max、min等,其中,avg返回指定组中数据的平均值,空值被忽略;count返回指定组中指定字段的数量;max返回指定字段的数据最大值;min返回指定字段的数据最小值;sum返回指定字段的数据之和,只能用于数字列,空值被忽略。
本发明将连接与聚合查询结合,会产生更多的查询方式。针对不同的查询,会采用不同的优化方式,本专利主要通过将聚合和连接操作分阶段执行,达到降低数据通信开销的目的,下面对不同的优化方式进行说明。
并行数据库中表的分布方式有Hash、Range、List等分布方式,因此数据库表的连接,也需要针对分布情况,采用不同的优化方式,主要分为两种:无需重划分数据的连接和需要重划分数据的连接。
1、无需重划分数据的连接
无需重新划分数据,即连接的表的分布依据字段与连接字段一致,在进行数据表连接时,可直接在并行数据库各节点中执行连接,不会影响连接数据的正确性。因此,针对无需重划分数据的连接聚合查询,直接将查询语句在各个节点执行,然后汇总结果即可。
2、需重划分数据的连接
需重新划分数据,即连接的数据表的分布字段与连接字段不一样,或连接表的分布方式不一致,为了保证连接后结果的正确性,需要已经各表的连接字段进行数据的Hash重划分。
因数据重划分会涉及到大量数据的网络传输,为了降低网络传输的开销,本发明将聚合谓词下放到数据重划分之前,通过改写查询的任务流程,在保证结果正确性的同时,降低重划分数据的网络开销。数据聚合有多重方式,针对不同的聚合方式,采用不同的谓词下放和改写规则(下文会详述)
其中,聚合查询指对全局数据或过滤后的数据进行聚合,包括:sum、max、min、count、avg五种聚合操作。这类查询的主要形式有两种:
select agg_s(table1.colum)from table1,table2where table1.col1=table2.col1。
其中,agg_s代表简单聚合函数:sum、max、min,这类聚合在各个节点执行后,无需改写操作类型,即可在重划分之后的数据集中进行连接聚合,不会影响最终的结果,需要注意的是,在各个节点执行聚合时,需要按照连接的字段进行分组。执行如图2所示:
此类查询可以分两阶段进行,第一阶段为下面的第一步和第二步,执行的操作为过滤(Filter),并且按照连接列对过滤后的数据进行分组聚合,即图2所示的agg_s(Filter),将连接列添加到group by子句中,执行完成后,将第一阶段的结果集汇总到一个节点,然后进行第二阶段(第三步)执行,第二阶段为上面的一个执行点,进行聚合操作agg_s。
依据上面描述的流程,上述语句可分成三步骤:
第一步:进行分组聚合,降低数据传输数据量:select agg_s(colum),col1fromtable1group by col1;本步骤结果用new_table1表示;
第二步:对第一步的结果new_table1按照col1进行Hash方式的数据重划分,对上述table2按照col1进行Hash方式的数据重划分构成new_table1和new_table2,本步骤的结果为new_table1和new_table2。
第三步:进行连接聚合:select agg_s(new_table1.colum)from new_table1,new_table2where new_table1.col1=new_table2.col1;
如上所述,这类聚合函数,在节点的并行执行结果,分组聚合之后,可以有效降低网络通信开销,提升查询的执行效率。
而对于聚合函数:count、avg,这类函数各节点执行情况会影响全局聚合的正确性,因此需要进行改写,而count和sum的改写方式又有所不同,本实施例中,用agg_c代表需要进行改写的函数count和avg。
聚合查询:
Select agg_c(column)from table1,table2where table1.col1=table2.col2
Count查询的执行流程如图3所示;Avg查询的执行流程如图4所示:同样的,此类需要改写的聚合函数,在进行上述聚合查询时仍然分为两阶段进行,第一阶段为第一步:分组聚合+重划分、第二步:连接聚合,第一步执行的操作为过滤,并且按照连接列进行分组聚合(如图3、4所示,count操作为:count(Filter)、avg操作为:count、sum(Filter)),将连接列添加到group by子句中,特别的,对于avg的聚合操作来说,第一阶段查询被改写为两个聚合操作(如图4所示count、sum(Filter)),同样的,执行完成后,将第一阶段的结果集汇总到一个节点,然后进行第二阶段执行,第二阶段为上面的一个执行节点,进行聚合操作,为第三步连接聚合,其中,特别的,对于count的聚合查询,如图3所示,第二阶段的操作改写为sum;对于avg,第二阶段的操作改写为对第一阶段结果求和(sum),并对求和后的值作比值处理,其中,分子为对第一阶段sum结果的求和(如图4所示的sum_sum),分母为对第一阶段count结果的求和(如图4所示的sum_count)。
下面以avg聚合查询为例,来对上述两个阶段作详细说明书,参照图4:
第一步:进行分组聚合改写,降低数据传输数据量
Select count(colum)column_cnt,sum(colum)column_sum,col1fromtable1group by col1;本步骤结果由new_table1表示;
第二步:对第一步的结果new_table1按照col1进行Hash方式的数据重划分,对上述table2按照col1进行Hash方式的数据重划分,划分结果分别存在new_table1和new_table2,本步骤的结果为new_table1和new_table2;
第三步:进行连接聚合:
Select sum(new_table1.column_sum)/sum(new_table2.column_cnt)from new_table1,new_table2where new_table1.col1=new_table2.col1。
如上所述,这类聚合函数,在节点的并行执行结果,会对全局结果产生错误影响,但是通过对聚合函数的改写,可以消除这些影响,在达到聚合并行的前提下,有效降低网络通信开销,提升查询的执行效率。
本专利描述的优化方法为查询Sql语句解析和执行树优化阶段采用,对最终构造的查询执行树在集群中并行执行,一方面可以调高查询的并行性,提升集群的资源利用率,另一方面,可以有效降低网络开销,在并行数据库的查询过程中,网络开销往往是最耗费时间的过程;因此通过降低网络开销,进而提高了查询的性能。
在实践中表明,采用本专利描述的方法,可将查询性能提升一个数量级。
另外,对于并行数据库的使用与业务结合比较紧密的情况,本发明的上述实施例通过统一的SQL接口进行查询优化,满足性能数量级提升的要求。而在实际的应用中,可以根据业务人员对数据分析和查询的要求,人工构造执行树,同样可以达到性能提升的目的,但是这种方式要求业务人员对数据库、业务系统和数据分布情况有深入的了解。
根据本发明的实施例,还提供了一种用于并行数据库的数据查询装置。
如图5所示,根据本发明实施例的数据查询装置包括:
分组聚合模块51,用于在各个数据库节点上对目标数据表按照目标数据表与其他数据表之间的相应关联字段分别进行目标数据的分组聚合;
重划分模块52,用于在各个数据库节点上对相应的分组聚合结果和相应的其他数据表按照相应的关联字段分别进行哈希方式的数据重划分;
汇总模块53,用于将各个数据库节点的分组聚合结果的数据重划分结果和其他数据表的数据重划分结果均汇总到一个目标数据库节点;
连接聚合模块54,用于在目标数据库节点上对分组聚合结果的数据重划分结果和其他数据表的数据重划分结果进行目标数据的连接聚合。
其中,在一个实施例中,在对目标数据进行聚合操作时,聚合操作的方式包括以下至少之一:
sum、max、min、count、avg。
可选的,在一个实施例中,在聚合操作为count的情况下,在各个数据库节点上对目标数据表按照目标数据表与其他数据表之间的相应关联字段分别进行目标数据的连接聚合时,该连接聚合的聚合操作为sum。
可选的,在一个实施例中,在聚合操作为avg的情况下,在各个数据库节点上对目标数据表按照目标数据表与其他数据表之间的相应关联字段分别进行目标数据的分组聚合时,该分组聚合的聚合操作包括count和sum。
相应的,在一个实施例中,在目标数据库节点上对分组聚合结果的数据重划分结果和其他数据表的数据重划分结果进行目标数据的连接聚合时,该连接聚合的聚合操作为对该count的分组聚合结果的数据重划分结果和该sum的分组聚合结果的数据重划分结果分别作sum连接操作,该sum连接操作的结果为sum的分组聚合结果的数据重划分结果的sum值与count操作的分组聚合结果的数据重划分结果的sum值的比值。
综上所述,借助于本发明的上述技术方案,通过将聚合运算谓词下放到存储数据的各个节点并行执行,执行此步骤无需进行网络传输,而聚合之后的数据将会大大减少,从而达到降低网络开销的目的,并可以调高查询的并行性,提升集群的资源利用率,另一方面,可以有效降低网络开销,在并行数据库的查询过程中,网络开销往往是最耗费时间的过程;因此通过降低网络开销,进而提高了查询的性能。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种用于并行数据库的数据查询方法,其特征在于,包括:
在各个数据库节点上对目标数据表按照所述目标数据表与其他数据表之间的相应关联字段分别进行目标数据的分组聚合;
在所述各个数据库节点上对相应的分组聚合结果和相应的其他数据表按照相应的关联字段分别进行哈希方式的数据重划分;
将所述各个数据库节点的分组聚合结果的数据重划分结果和其他数据表的数据重划分结果均汇总到一个目标数据库节点;
在所述目标数据库节点上对所述分组聚合结果的数据重划分结果和其他数据表的数据重划分结果进行目标数据的连接聚合。
2.根据权利要求1所述的数据查询方法,其特征在于,在对所述目标数据进行聚合操作时,聚合操作的方式包括以下至少之一:
sum、max、min、count、avg。
3.根据权利要求2所述的数据查询方法,其特征在于,在所述聚合操作为count的情况下,在各个数据库节点上对目标数据表按照所述目标数据表与其他数据表之间的相应关联字段分别进行目标数据的连接聚合时,该连接聚合的聚合操作为sum。
4.根据权利要求2所述的数据查询方法,其特征在于,在所述聚合操作为avg的情况下,在各个数据库节点上对目标数据表按照所述目标数据表与其他数据表之间的相应关联字段分别进行目标数据的分组聚合时,该分组聚合的聚合操作包括count和sum。
5.根据权利要求4所述的数据查询方法,其特征在于,在所述目标数据库节点上对所述分组聚合结果的数据重划分结果和其他数据表的数据重划分结果进行目标数据的连接聚合时,该连接聚合的聚合操作为对该count的分组聚合结果的数据重划分结果和该sum的分组聚合结果的数据重划分结果分别作sum连接操作,该sum连接操作的结果为sum的分组聚合结果的数据重划分结果的sum值与count操作的分组聚合结果的数据重划分结果的sum值的比值。
6.一种用于并行数据库的数据查询装置,其特征在于,包括:
分组聚合模块,用于在各个数据库节点上对目标数据表按照所述目标数据表与其他数据表之间的相应关联字段分别进行目标数据的分组聚合;
重划分模块,用于在所述各个数据库节点上对相应的分组聚合结果和相应的其他数据表按照相应的关联字段分别进行哈希方式的数据重划分;
汇总模块,用于将所述各个数据库节点的分组聚合结果的数据重划分结果和其他数据表的数据重划分结果均汇总到一个目标数据库节点;
连接聚合模块,用于在所述目标数据库节点上对所述分组聚合结果的数据重划分结果和其他数据表的数据重划分结果进行目标数据的连接聚合。
7.根据权利要求6所述的数据查询装置,其特征在于,在对所述目标数据进行聚合操作时,聚合操作的方式包括以下至少之一:
sum、max、min、count、avg。
8.根据权利要求7所述的数据查询装置,其特征在于,在所述聚合操作为count的情况下,在各个数据库节点上对目标数据表按照所述目标数据表与其他数据表之间的相应关联字段分别进行目标数据的连接聚合时,该连接聚合的聚合操作为sum。
9.根据权利要求7所述的数据查询装置,其特征在于,在所述聚合操作为avg的情况下,在各个数据库节点上对目标数据表按照所述目标数据表与其他数据表之间的相应关联字段分别进行目标数据的分组聚合时,该分组聚合的聚合操作包括count和sum。
10.根据权利要求9所述的数据查询装置,其特征在于,在所述目标数据库节点上对所述分组聚合结果的数据重划分结果和其他数据表的数据重划分结果进行目标数据的连接聚合时,该连接聚合的聚合操作为对该count的分组聚合结果的数据重划分结果和该sum的分组聚合结果的数据重划分结果分别作sum连接操作,该sum连接操作的结果为sum的分组聚合结果的数据重划分结果的sum值与count操作的分组聚合结果的数据重划分结果的sum值的比值。
CN201610633323.3A 2016-08-04 2016-08-04 用于并行数据库的数据查询方法和装置 Pending CN106250519A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610633323.3A CN106250519A (zh) 2016-08-04 2016-08-04 用于并行数据库的数据查询方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610633323.3A CN106250519A (zh) 2016-08-04 2016-08-04 用于并行数据库的数据查询方法和装置

Publications (1)

Publication Number Publication Date
CN106250519A true CN106250519A (zh) 2016-12-21

Family

ID=58078517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610633323.3A Pending CN106250519A (zh) 2016-08-04 2016-08-04 用于并行数据库的数据查询方法和装置

Country Status (1)

Country Link
CN (1) CN106250519A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016115A (zh) * 2017-04-18 2017-08-04 网易(杭州)网络有限公司 数据导出方法、装置、计算机可读存储介质及电子设备
CN108549688A (zh) * 2018-04-11 2018-09-18 上海达梦数据库有限公司 一种数据操作的优化方法、装置、设备和存储介质
CN108763426A (zh) * 2018-05-24 2018-11-06 杭州有赞科技有限公司 快速实现海量数据准实时全量统计的方法、装置及系统
CN108804459A (zh) * 2017-05-02 2018-11-13 杭州海康威视数字技术股份有限公司 数据查询方法及装置
CN109344169A (zh) * 2018-09-20 2019-02-15 新华三大数据技术有限公司 数据处理方法及装置
CN109460412A (zh) * 2018-11-14 2019-03-12 北京锐安科技有限公司 数据聚合方法、装置、设备及存储介质
CN109656946A (zh) * 2018-09-29 2019-04-19 阿里巴巴集团控股有限公司 一种多表关联查询方法、装置及设备
CN110019355A (zh) * 2017-09-27 2019-07-16 北京国双科技有限公司 独立数据计算方法及装置
CN110442602A (zh) * 2019-07-02 2019-11-12 新华三大数据技术有限公司 数据查询方法、装置、服务器及存储介质
CN110471935A (zh) * 2019-08-15 2019-11-19 上海达梦数据库有限公司 一种数据操作的执行方法、装置、设备和存储介质
CN111949681A (zh) * 2020-06-22 2020-11-17 中科驭数(北京)科技有限公司 数据的聚合处理装置、方法和存储介质
CN112182028A (zh) * 2020-09-29 2021-01-05 北京人大金仓信息技术股份有限公司 基于分布式数据库的表的数据行数查询方法和装置
CN112307062A (zh) * 2020-09-18 2021-02-02 苏宁云计算有限公司 数据库聚合查询方法、装置及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521307A (zh) * 2011-12-01 2012-06-27 北京人大金仓信息技术股份有限公司 一种云计算环境下的无共享数据库集群并行查询处理方法
US20130290300A1 (en) * 2012-04-26 2013-10-31 Qiming Chen In-database parallel analytics
CN103412897A (zh) * 2013-07-25 2013-11-27 中国科学院软件研究所 一种基于分布式结构的并行数据处理方法
CN104123374A (zh) * 2014-07-28 2014-10-29 北京京东尚科信息技术有限公司 分布式数据库中聚合查询的方法及装置
CN104504154A (zh) * 2015-01-14 2015-04-08 曙光信息产业(北京)有限公司 一种数据聚合查询的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521307A (zh) * 2011-12-01 2012-06-27 北京人大金仓信息技术股份有限公司 一种云计算环境下的无共享数据库集群并行查询处理方法
US20130290300A1 (en) * 2012-04-26 2013-10-31 Qiming Chen In-database parallel analytics
CN103412897A (zh) * 2013-07-25 2013-11-27 中国科学院软件研究所 一种基于分布式结构的并行数据处理方法
CN104123374A (zh) * 2014-07-28 2014-10-29 北京京东尚科信息技术有限公司 分布式数据库中聚合查询的方法及装置
CN104504154A (zh) * 2015-01-14 2015-04-08 曙光信息产业(北京)有限公司 一种数据聚合查询的方法及装置

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107016115A (zh) * 2017-04-18 2017-08-04 网易(杭州)网络有限公司 数据导出方法、装置、计算机可读存储介质及电子设备
CN107016115B (zh) * 2017-04-18 2020-06-19 网易有道信息技术(杭州)有限公司 数据导出方法、装置、计算机可读存储介质及电子设备
CN108804459A (zh) * 2017-05-02 2018-11-13 杭州海康威视数字技术股份有限公司 数据查询方法及装置
CN108804459B (zh) * 2017-05-02 2020-10-09 杭州海康威视数字技术股份有限公司 数据查询方法及装置
CN110019355A (zh) * 2017-09-27 2019-07-16 北京国双科技有限公司 独立数据计算方法及装置
CN108549688A (zh) * 2018-04-11 2018-09-18 上海达梦数据库有限公司 一种数据操作的优化方法、装置、设备和存储介质
CN108549688B (zh) * 2018-04-11 2020-10-16 上海达梦数据库有限公司 一种数据操作的优化方法、装置、设备和存储介质
CN108763426B (zh) * 2018-05-24 2021-01-05 杭州有赞科技有限公司 快速实现海量数据准实时全量统计的方法、装置及系统
CN108763426A (zh) * 2018-05-24 2018-11-06 杭州有赞科技有限公司 快速实现海量数据准实时全量统计的方法、装置及系统
CN109344169A (zh) * 2018-09-20 2019-02-15 新华三大数据技术有限公司 数据处理方法及装置
CN109344169B (zh) * 2018-09-20 2021-02-09 新华三大数据技术有限公司 数据处理方法及装置
CN109656946A (zh) * 2018-09-29 2019-04-19 阿里巴巴集团控股有限公司 一种多表关联查询方法、装置及设备
CN109460412A (zh) * 2018-11-14 2019-03-12 北京锐安科技有限公司 数据聚合方法、装置、设备及存储介质
CN110442602A (zh) * 2019-07-02 2019-11-12 新华三大数据技术有限公司 数据查询方法、装置、服务器及存储介质
CN110471935A (zh) * 2019-08-15 2019-11-19 上海达梦数据库有限公司 一种数据操作的执行方法、装置、设备和存储介质
CN110471935B (zh) * 2019-08-15 2022-02-18 上海达梦数据库有限公司 一种数据操作的执行方法、装置、设备和存储介质
CN111949681A (zh) * 2020-06-22 2020-11-17 中科驭数(北京)科技有限公司 数据的聚合处理装置、方法和存储介质
CN112307062A (zh) * 2020-09-18 2021-02-02 苏宁云计算有限公司 数据库聚合查询方法、装置及系统
CN112307062B (zh) * 2020-09-18 2022-11-22 苏宁云计算有限公司 数据库聚合查询方法、装置及系统
CN112182028A (zh) * 2020-09-29 2021-01-05 北京人大金仓信息技术股份有限公司 基于分布式数据库的表的数据行数查询方法和装置

Similar Documents

Publication Publication Date Title
CN106250519A (zh) 用于并行数据库的数据查询方法和装置
CN104123374B (zh) 分布式数据库中聚合查询的方法及装置
CN104504154B (zh) 一种数据聚合查询的方法及装置
US10585887B2 (en) Multi-system query execution plan
CN102982075B (zh) 支持访问异构数据源的系统和方法
CN108431810B (zh) 代理数据库
KR102129643B1 (ko) 소스 추적으로 데이터 프로파일링
Simitsis et al. State-space optimization of ETL workflows
US20100030728A1 (en) Computing selectivities for group of columns and expressions
CN104809168B (zh) 超大规模rdf图数据的划分与并行分布处理方法
CN106462578A (zh) 数据库条目查询和更新的方法
CN104408159B (zh) 一种数据关联、加载、查询方法及装置
US20150278306A1 (en) Bloom filter costing estimation
CN104885078A (zh) 用于大规模并行处理数据库集群中的两阶段查询优化的方法
CN103699696B (zh) 一种云计算环境下的数据在线聚集方法
CN110222029A (zh) 一种大数据多维分析计算效率提升方法及系统
CN106951552A (zh) 一种基于Hadoop的用户行为数据处理方法
US20120215810A1 (en) Database query mechanism using links as an aggregate base
CN104424018A (zh) 分布式计算事务处理方法及装置
CN104317942A (zh) 一种基于Hadoop云平台的海量数据比对方法及系统
CN110659304A (zh) 一种基于数据倾斜的多路数据流连接系统
WO2019120093A1 (en) Cardinality estimation in databases
CN110442602A (zh) 数据查询方法、装置、服务器及存储介质
CN111125199B (zh) 一种数据库访问方法、装置及电子设备
CN105335482B (zh) 面向海量分布式数据库的批量插入方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161221