CN106156168B - 在跨分区数据库中查询数据的方法及跨分区查询装置 - Google Patents

在跨分区数据库中查询数据的方法及跨分区查询装置 Download PDF

Info

Publication number
CN106156168B
CN106156168B CN201510180744.0A CN201510180744A CN106156168B CN 106156168 B CN106156168 B CN 106156168B CN 201510180744 A CN201510180744 A CN 201510180744A CN 106156168 B CN106156168 B CN 106156168B
Authority
CN
China
Prior art keywords
data base
partitioned data
query
driving
driven
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510180744.0A
Other languages
English (en)
Other versions
CN106156168A (zh
Inventor
杨宜东
朱文琦
张庆
姚理
朱仲楚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201510180744.0A priority Critical patent/CN106156168B/zh
Priority to EP16779500.4A priority patent/EP3285178B1/en
Priority to PCT/CN2016/076774 priority patent/WO2016165525A1/zh
Publication of CN106156168A publication Critical patent/CN106156168A/zh
Priority to US15/783,483 priority patent/US20180039671A1/en
Application granted granted Critical
Publication of CN106156168B publication Critical patent/CN106156168B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/256Integrating or interfacing systems involving database management systems in federated or virtual databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24558Binary matching operations
    • G06F16/2456Join operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24549Run-time optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • G06F16/278Data partitioning, e.g. horizontal or vertical partitioning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种在跨分区数据库中查询数据的方法及跨分区查询装置,包括:接收查询请求,查询请求中包括查询条件,查询涉及关联操作的两表各自所在的分区数据库的统计信息;根据统计信息和查询条件,向驱动表所在分区数据库发送查询驱动表请求,接收驱动表所在分区数据库返回的第一查询结果集,其中,涉及关联操作的两表中的一表为驱动表,另外一表为非驱动表;对第一查询结果集中的关联字段值进行去重,向非驱动表所在分区数据库发送结果集投递请求和去重后的关联字段值;向非驱动表所在分区数据库发送查询非驱动表请求,并接收非驱动表所在分区数据库返回的第二查询结果集。提高了在跨分区数据库中查询数据的效率。

Description

在跨分区数据库中查询数据的方法及跨分区查询装置
技术领域
本发明涉及数据库领域,尤其涉及一种在跨分区数据库中查询数据的方法及跨分区查询装置。
背景技术
随着各类IT应用场景,如:系统的集中化建设,海量用户的互联网应用等,需要处理的业务数据量越来越大,基于单个物理数据库以及在单个物理数据库基础上的各种软硬件纵向扩展(scale up)技术已不能满足存储容量和计算性能的要求。因此发展了数据分区(sharding)技术,数据分区作为一种重要的横向扩展(scale out)的数据库设计原则,将业务数据拆分到多个不同的物理数据库上,这样能有效缓解单一数据库的性能瓶颈、提高系统的整体数据处理能力。
根据数据分区时的拆分依据的规则,数据分区分为垂直分区(或分库)和水平分区(或分表)两种类型。垂直分区是基于业务逻辑,以表为单位、将不同业务模块中使用的表拆分到不同物理数据库中。水平分区基于表中某个字段或多个字段的分区规则,如:哈希或范围选择,将一张表的数据拆分到不同物理数据库中。在业务逻辑复杂、单表数据超大的应用场景中,垂直分区和水平分区可能会混合使用,即先根据业务逻辑进行表之间的垂直分区,再针对数据量较大的表进行水平分区。
数据分区技术在有效解决大数据量问题的同时,数据的分布式存储也带来了数据查询处理的复杂性。虽然可以基于业务逻辑进行垂直分区,并在垂直分区内部根据聚合进行水平分区、将联系紧密的数据拆分到同一分区中,实现绝大部分场景下的数据查询本地化,但是仍然存在需要跨分区访问数据的场景,特别是跨分区数据关联。
目前,联邦数据库是一种提高可扩展性和管理应用程序的数据库层中的容量限制的方式,采用此方式,一个或多个表可以水平拆分到多个数据库中。由于同一个或多个表的数据存储在不同的物理数据库中,而SQL数据库不支持跨物理数据库的关联操作。因此跨数据库的关联操作必须在应用程序中实现。例如,一个SQL请求需要关联两个数据库中数据,因此对两个数据库中数据的查询需要分别执行对每个数据库的单独查询,并在应用程序中对查询返回数据做最终的关联。
为支持跨数据库查询操作,联邦数据库技术提供了扇出查询(Fan-out query)机制。Fan-out query包括两部分:成员查询(Member query)和汇总查询(Summary query),Member query指的是发送到所有查询相关数据库上的部分查询,Summary query指的是在Member query查询后处理,负责将Member query结果汇总为最终结果集。
但是上述针对跨数据库的关联查询,至少存在的以下缺点:应用程序需要基于Fan-out query机制编写复杂的查询SQL,处理各个数据库的查询以及汇总等细节,无法沿用原有的非跨数据库场景下的查询SQL,导致物理数据库的存储细节无法屏蔽,因此在查询过程中,可能需要获取到大量无用的数据,并且跨分区数据库访问,大量数据的交互也导致了网络负担重,并且无法使用非分区的SQL的逻辑。
发明内容
针对上述问题,本发明的目的在于提供一种提高跨分区数据查询效率和成功率的跨分区数据查询数据方法及跨分区查询装置。
第一方面,本发明提供一种在跨分区数据库中查询数据的方法,包括:
接收查询请求,查询请求中包括查询条件,涉及关联操作的两表的标识和关联字段;
根据涉及关联操作的两表的标识,查询涉及关联操作的两表各自所在的分区数据库的统计信息;
根据统计信息和查询条件,向驱动表所在分区数据库发送查询驱动表请求,接收驱动表所在分区数据库返回的第一查询结果集,其中,涉及关联操作的两表中的一表为驱动表,另外一表为非驱动表,驱动表为涉及关联操作的两表中优先被查询的表;
对第一查询结果集中的关联字段值进行去重,向非驱动表所在分区数据库发送结果集投递请求和去重后的关联字段值,以便于非驱动表所在分区数据库生成临时表数据,临时表数据包括去重后的关联字段值;
向非驱动表所在分区数据库发送查询非驱动表请求,并接收非驱动表所在分区数据库返回的第二查询结果集,其中,第二查询结果集为非驱动表所在分区数据库根据非驱动表请求和临时表数据查询获得的。
在第一方面的第一种可能的实现方式中,根据统计信息和查询条件,向驱动表所在分区数据库发送查询驱动表请求,接收驱动表所在分区数据库返回的第一查询结果集,具体的包括:根据统计信息和查询条件,利用预先给定的计算模型,分别计算出单独查询涉及关联操作的两表所消耗的资源,其中,消耗的资源较小的表为驱动表,向驱动表所在分区数据库发送查询驱动表请求,接收驱动表所在分区数据库返回的第一查询结果集。
在第一方面的第二种可能的实现方式中,驱动表所在分区数据库具体包括2个以上的分区数据库,则向驱动表所在分区数据库发送查询驱动表请求,接收驱动表所在分区数据库返回的第一查询结果集,具体包括:向所有驱动表所在分区数据库发送查询驱动表请求,接收所有驱动表所在分区数据库返回的第一查询结果集;或者根据查询条件向符合查询条件的驱动表所在分区数据库发送查询驱动表请求,接收符合查询条件的驱动表所在分区数据库返回的第一查询结果集。
结合第一方面的第二种可能的实现方式中,第一方面的第三种可能的实现方式中,还包括:按照哈希算法,存储第一查询结果。
在第一方面的第二种可能的实现方式中,还包括:根据关联字段,将第一查询结果集和第二查询结果集进行关联,获得第三查询结果集。
第二方面,本发明还提供一种跨分区查询装置,包括:
接收模块,用于接收查询请求,查询请求中包括查询条件,涉及关联操作的两表的标识和关联字段;
第一查询模块,用于根据涉及关联操作的两表的标识,查询涉及关联操作的两表各自所在的分区数据库的统计信息;
第二查询模块,用于根据统计信息和查询条件,向驱动表所在分区数据库发送查询驱动表请求,接收驱动表所在分区数据库返回的第一查询结果集,其中,涉及关联操作的两表中的一表为驱动表,另外一表为非驱动表,驱动表为涉及关联操作的两表中优先被查询的表;
临时表数据处理模块,用于对第一查询结果集中的关联字段值进行去重,向非驱动表所在分区数据库发送结果集投递请求和去重后的关联字段值,以便于非驱动表所在分区数据库生成临时表数据,临时表数据包括去重后的关联字段值;
第三查询模块,用于向非驱动表所在分区数据库发送查询非驱动表请求,并接收非驱动表所在分区数据库返回的第二查询结果集,其中,第二查询结果集为非驱动表所在分区数据库根据非驱动表请求和临时表数据查询获得的。
在第二方面的第一种可能的实现方式,第二查询模块具体用于:根据统计信息和查询条件,利用预先给定的计算模型,分别计算出单独查询涉及关联操作的两表所消耗的资源,其中,消耗的资源较小的表为驱动表,向驱动表所在分区数据库发送查询驱动表请求,接收驱动表所在分区数据库返回的第一查询结果集。
在第二方面的第二种可能的实现方式,驱动表所在分区数据库具体包括2个以上的分区数据库,则第二查询模块,具体用于:向所有驱动表所在分区数据库发送查询驱动表请求,接收所有驱动表所在分区数据库返回的第一查询结果集;或者根据查询条件向符合查询条件的驱动表所在分区数据库发送查询驱动表请求,接收符合查询条件的驱动表所在分区数据库返回的第一查询结果集。
在第二方面的第三种可能的实现方式,还包括:存储模块,用于按照哈希算法,存储第一查询结果。
在第二方面的第四种可能的实现方式,还包括:关联模块,用于根据关联字段,将第一查询结果集和第二查询结果集进行关联,获得第三查询结果集。
本发明实施例的方案在跨分区数据库中进行数据查询时,首先在驱动表中查询,得到第一查询结果集,然后对第一查询结果集中的关联字段值进行去重,向非驱动表所在分区数据库发送结果集投递请求和去重后的关联字段值,这样在非驱动表所在分区数据库中可以生成包含了去重后的关联字段值的临时表数据,接着向非驱动表所在分区数据库发送查询非驱动表请求,并接收非驱动表所在分区数据库返回的第二查询结果集,由于第二查询结果集为非驱动表所在分区数据库根据非驱动表请求和临时表数据查询关联获得的,因此,跨分区数据库查询关联的处理过程放置在非驱动表的分区数据库中完成的,并且发送给非驱动表所在分区数据库的是被去重后的关联字段值,因此查询过程中,并无需获得大量无用的数据,提高了跨分区数据库查询数据的效率和成功率。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种在跨分区数据库中查询数据网络环境的结构示意图;
图2是本发明实施例提供的一种跨分区查询装置的结构示意图;
图3是本发明实施例提供的另一种跨分区查询装置的结构示意图;
图4是本发明实施例提供的一种跨分区查询装置的结构示意图;
图5是本发明实施例提供的一种在跨分区数据库中查询数据方法的流程示意图;
图6是本发明实施例提供的另一种在跨分区数据库中查询数据方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种在跨分区数据库中查询数据的方法及跨分区查询装置,用于提高跨分区数据库中查询数据的效率和成功率,以下分别进行详细说明。
为了便于理解本发明实施例,下面先对本发明实施例的数据库系统进行描述。
图1为本发明实施例的一个网络环境示意图。应用程序102指可提供各种特定功能的计算机程序,包括不限于计费应用,互联网浏览器,多媒体播放器等。应用程序可通过通信网络103访问数据库。多个应用程序访问跨分区查询装置106。跨分区查询装置106接收应用程序对于数据库的数据的操作命令,连接并访问数据库。进一步地,跨分区查询装置106与多个物理数据库108相连接。物理数据库108存储数据库中的数据,是结构化的数据集合。跨分区查询装置106可驱动物理数据库108,接收物理数据库返回的数据。跨分区查询装置106位于应用程序102和各类异构物理数据库108之间,向应用程序102提供透明的数据访问接口,屏蔽了各个物理数据库108的差别,支持垂直分区和水平分区,并提供多种数据分区策略满足不同业务要求。
请参阅图2,图2是本发明实施例提供的一种跨分区查询装置的结构示意图,用于执行本发明实施例提供的跨分区数据库的查询数据的方法,如图2所示,该跨分区查询装置包括:至少一个处理器21,例如CPU,至少一个网络接口24或者其他用户接口23,存储器25,至少一个通信总线22。通信总线22用于实现这些组件之间的连接通信。其中,用户接口23可选的可以包括USB接口以及其他标准接口、有线接口。网络接口24可选的可以包括Wi-Fi接口以及其他无线接口。存储器25可能包含高速RAM存储器,也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器25可选的可以包含至少一个位于远离前述处理器21的存储装置。
在一些实施方式中,存储器25存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:
操作系统251,包含各种系统程序,用于实现各种基础业务以及处理基于硬件的任务;
应用模块252,包含设备控制服务程序、设备识别服务程序等各种应用程序,用于实现各种应用业务。
具体地,处理器21用于调用存储器25中存储的程序,执行以下操作:
接收查询请求,查询请求中包括查询条件,涉及关联操作的两表的标识和关联字段;
根据涉及关联操作的两表的标识,查询涉及关联操作的两表各自所在的分区数据库的统计信息;
根据统计信息和查询条件,向驱动表所在分区数据库发送查询驱动表请求,接收驱动表所在分区数据库返回的第一查询结果集,其中,涉及关联操作的两表中的一表为驱动表,另外一表为非驱动表,驱动表为涉及关联操作的两表中优先被查询的表;
对第一查询结果集中的关联字段值进行去重,向非驱动表所在分区数据库发送结果集投递请求和去重后的关联字段值,以便于非驱动表所在分区数据库生成临时表数据,临时表数据包括去重后的关联字段值;
向非驱动表所在分区数据库发送查询非驱动表请求,并接收非驱动表所在分区数据库返回的第二查询结果集,其中,第二查询结果集为非驱动表所在分区数据库根据非驱动表请求和临时表数据查询获得的。
请参阅图3,图3是本发明实施例提供的另一种跨分区查询装置的的结构示意图,用于执行本发明实施例提供的的跨分区数据库的查询数据的方法,如图3所示,该跨分区查询装置包括:
接收模块31,用于接收查询请求,查询请求中包括查询条件,涉及关联操作的两表的标识和关联字段;
第一查询模块32,用于根据涉及关联操作的两表的标识,查询涉及关联操作的两表各自所在的分区数据库的统计信息;
第二查询模块33,用于根据统计信息和查询条件,向驱动表所在分区数据库发送查询驱动表请求,接收驱动表所在分区数据库返回的第一查询结果集,其中,涉及关联操作的两表中的一表为驱动表,另外一表为非驱动表,驱动表为涉及关联操作的两表中优先被查询的表;
临时表数据处理模块34,用于对第一查询结果集中的关联字段值进行去重,向非驱动表所在分区数据库发送结果集投递请求和去重后的关联字段值,以便于非驱动表所在分区数据库生成临时表数据,临时表数据包括去重后的关联字段值;
第三查询模块35,用于向非驱动表所在分区数据库发送查询非驱动表请求,并接收非驱动表所在分区数据库返回的第二查询结果集,其中,第二查询结果集为非驱动表所在分区数据库根据非驱动表请求和临时表数据查询获得的。
具体的,第二查询模块33具体用于:根据统计信息和查询条件,利用预先给定的计算模型,分别计算出单独查询涉及关联操作的两表所消耗的资源,其中,消耗的资源较小的表为驱动表,向驱动表所在分区数据库发送查询驱动表请求,接收驱动表所在分区数据库返回的第一查询结果集。
具体的,驱动表所在分区数据库具体包括2个以上的分区数据库,则第二查询模块33,具体用于:向所有驱动表所在分区数据库发送查询驱动表请求,接收所有驱动表所在分区数据库返回的第一查询结果集;或者根据查询条件向符合查询条件的驱动表所在分区数据库发送查询驱动表请求,接收符合查询条件的驱动表所在分区数据库返回的第一查询结果集。
进一步地,如图4所示,跨分区查询装置,还包括:存储模块36,用于按照哈希算法,存储第一查询结果。
进一步地,如图4所示,跨分区查询装置,还包括:关联模块37,用于根据关联字段,将第一查询结果集和第二查询结果集进行关联,获得第三查询结果集。
为了更清楚的说明本发明实施例,下面将详细介绍跨分区查询装置执行上述实施例的操作过程。
图5为本发明实施例跨分区数据库查询数据的方法实施例的流程图,具体包括:
步骤501:跨分区查询装置接收查询请求,查询请求中包括查询条件,涉及关联操作的两表的标识和关联字段;
步骤502:根据涉及关联操作的两表的标识,查询涉及关联操作的两表各自所在的分区数据库的统计信息;
步骤503:根据统计信息和查询条件,向驱动表所在分区数据库发送查询驱动表请求,接收驱动表所在分区数据库返回的第一查询结果集,其中,涉及关联操作的两表中的一表为驱动表,另外一表为非驱动表,驱动表为涉及关联操作的两表中优先被查询的表;
步骤504:对第一查询结果集中的关联字段值进行去重,向非驱动表所在分区数据库发送结果集投递请求和去重后的关联字段值,以便于非驱动表所在分区数据库生成临时表数据,临时表数据包括去重后的关联字段值;
步骤505:向非驱动表所在分区数据库发送查询非驱动表请求,并接收非驱动表所在分区数据库返回的第二查询结果集,其中,第二查询结果集为非驱动表所在分区数据库根据非驱动表请求和临时表数据查询获得的。
本发明实施例的方案在跨分区数据库中进行数据查询时,首先在驱动表中查询,得到第一查询结果集,然后对第一查询结果集中的关联字段值进行去重,向非驱动表所在分区数据库发送结果集投递请求和去重后的关联字段值,这样在非驱动表所在分区数据库中可以生成包含了去重后的关联字段值的临时表数据,接着向非驱动表所在分区数据库发送查询非驱动表请求,并接收非驱动表所在分区数据库返回的第二查询结果集,由于第二查询结果集为非驱动表所在分区数据库根据非驱动表请求和临时表数据查询关联获得的,因此,跨分区数据库查询关联的处理过程放置在非驱动表的分区数据库中完成的,并且发送给非驱动表所在分区数据库的是被去重后的关联字段值,因此查询过程中,并无需获得大量无用的数据,提高了跨分区数据库查询数据的效率和成功率。
请参考图6,为本发明实施例跨分区数据库查询数据的方法实施例的流程图,具体包括:
步骤601:跨分区查询装置接收到应用程序发送查询请求,该查询请求具体是SQL语句,这里被称为原始SQL语句,并对接收到的查询请求进行语法和词法解析,从而获取到原始SQL语句所涉及的关联条件的语法树。其中,关联条件的语法树可以包括了涉及到关联操作的两表的标识、查询条件、两表的关联关系和关联字段等信息。这里的关联关系有自然连接,等值连接,笛卡尔连接等。查询条件可以具体是SQL语句的过滤表达式或条件表达式等。在本发明实施例中,涉及到关联操作的两表的标识具体为涉及关联操作的两表的表名或者ID。
步骤602:根据上述涉及到关联操作的两表的标识,跨分区查询装置确定上述涉及到关联操作的两表是否为分区表,如果是分区表的话,确定上述关联操作的两表的各自的分区规则,根据上述涉及到关联操作的是否为分区表以及各自的分区规则,分析是否将简化后的SQL语句整体发送到数据库,由数据库进行关联操作。这里将简化后的SQL语句发送到数据库有以下几种场景:
1,如果关联操作所涉及的两表均是非区分表,即这两表的全量数据都存储在每个物理数据库中,也就是说任一物理数据库中都存储这两个表的全量数据,则可将简化后的SQL语句作为整体发送到任一物理数据库进行关联处理。其中,简化后的SQL语句指的是为了查询处理后的SQL语句,通常这个简化后的SQL语句是简化的SQL语句,通常仅仅包含了查询语句,不包括排序,分组等等非查询指令。
本发明可以通过多种方式查询关联的两表是否为非分区表,例如:从中间件保存的XML配置文件,获取关联的两表是否为非分区表,或者从缓存中存储的关联的两表的相关数据,从而确认是否为非分区表。
2,如果关联操作所涉及的两表一个为分区表,如表1,另一个为非分区表,如表2。并且表1的数据可能分布在所有分区数据库,则将简化后的SQL语句作为整体发送到表1的数据可能分布的所有分区数据库进行关联操作。
3,如果关联操作所涉及的两表(如表3和表4)均为分区表,其中,关联字段包括两表所有分区字段且关联关系为等值连接,则可将简化后的SQL语句作为整体发送到表3和表4的数据可能存在的所有分区进行关联操作。
4,除上述情况外,关联规则不能作为整体发送到各个物理数据库,此时执行步骤603。
步骤603:跨分区查询装置根据涉及关联操作的两表的标识,查询涉及关联操作的两表各自所在的分区数据库的统计信息。并根据上述原始SQL的查询条件和涉及到关联操作的两表所在的各个分区数据库的统计信息,从上述涉及关联操作的两表中,确定其中一个表为驱动表,这里驱动表指的是涉及关联操作的两表中优先被查询的表,然后将查询的结果与其它表进行关联操作的表。其中,统计信息可以包括以下的一种或多种:分区数据库的表记录数、分区个数,字段信息、聚集度、直方图和网络传输代价。
根据各个分区数据库的统计信息以及原始SQL的条件表达式,利用预先给定的计算模型,分别计算得出在分布式环境下,单独查询上述涉及关联操作的两表所消耗的资源,并选择资源消耗较小的表作为驱动表。
步骤604:跨分区查询装置确定将第一查询结果集的发送到哪些非驱动表所在的分区数据库。
根据关联关系以及非驱动表的分区规则,确定需要将第一查询结果集发送到哪些非驱动表所在分区数据库。如果非驱动表是按照哈希进行分区的,无法进行静态确定第一查询结果集发送的分区数据库,需要将第一查询结果集发送到非驱动表的所有分区数据库;如果非驱动表是按照数据范围顺序进行分区的,则可以根据条件表达式,静态地确定第一查询结果集发送的分区数据库。
步骤605:跨分区查询装置将查询请求转换成查询驱动表请求,并将转换后的查询驱动表请求发送到上述驱动表所在分区数据库,这样就可以在驱动表所在分区数据库中执行查询操作,分区数据库在执行查询操作后向跨分区查询装置返回第一查询结果集。如果驱动表分布在多个分区数据库上,则需要将查询驱动表请求发送到驱动表所在的所有分区数据库,这样以便于在所有分区数据库并行执行查询操作。
跨分区查询装置在内存中保存上述驱动表的所有分区数据库返回的第一查询结果集。另外,为了方便后续合并,跨分区查询装置还可以根据关联字段建立哈希表对查询结果集进行存储。如果查询结果集超过内存限制,则采用分批存储的执行方式。
步骤606:跨分区查询装置对保存的第一查询结果集中的关联字段值进行去重,向非驱动表所在分区数据库发送结果集投递请求和去重后的关联字段值,以便于非驱动表所在分区数据库生成临时表数据。
如果非驱动表存在多个分区数据库,则跨分区查询装置并发地向上述多个分区数据库发送结果集投递请求和去重后的关联字段值。其中,各个分区数据库可以预先创建临时表,比如,在数据库创建的时候就创建了临时表,则此时分区数据库接收到上述结果集投递请求和去重后的关联字段值时,在已创建的临时表中生成临时表数据。各个分区数据库也可以在接收到上述结果集投递请求和去重后的关联字段值时,创建临时表,并且在临时表中生成临时表数据。这里的临时表数据包括了去重后的关联字段值,由于临时表的数据是跟具体业务相关的,因此只有本身业务可以识别临时表的数据,其它的业务将不能识别上述临时表的数据。
步骤607:跨分区查询装置向上述非驱动表所在分区数据库中发送查询非驱动表请求,在上述非驱动表所在分区数据库中执行非驱动表的查询过程,并且与临时表进行关联,并接收到上述非驱动表所在分区数据库返回的第二查询结果集。其中,第二查询结果集为非驱动表所在分区数据库根据非驱动表请求和临时表数据查询获得的。
步骤608:跨分区查询装置接收返回第二查询结果集,根据关联字段,将第一查询结果集和第二查询结果集进行关联合并,获得第三查询结果集,并返回第三查询结果集到应用程序。
下面用一个具体例子来说明上述跨分区数据库查询数据的方法,假设应用程序提交的原始查询SQL为:
SELECT C.CUST_ID,C.NAME,O.ORDER_ID FROM CUSTOMER C,ORDER O WHEREC.BIRTHDAY=‘2014-08-25’AND C.GENDER=‘F’AND O.PRICE<300AND C.CUST_ID=O.CUS1T_ID。
跨分区查询装置接收到上述SQL语句后,对该SQL语句进行语法和词法解析,从而获知该SQL语句涉及关联条件的语法树,具体来说,该SQL语句涉及到表CUSTOMER和表ORDER,跨分区查询装置获取到表CUSTOMER和表ORDER的基本信息,这些基本信息可以存储在跨分区查询装置本地,也可以存储在物理数据库中,然后由跨分区查询装置从物理数据库中获取到。其中,表CUSTOMER和表ORDER的基本信息如表1所示:
表1
CUSTOMER ORDER
分区字段 CUST_ID ORDER_ID
分区规则 哈希 哈希
分区个数 8 4
数据量 125000*8=1000000 1000000*4
跨分区查询装置对表CUSTOMER和表ORDER的基本信息进行分析,可以得到:表CUSTOMER和表ORDER分区都是分区表,但是表CUSTOMER和表ORDER分区的分区字段不同,因此无法将简化后的SQL语句整体发送到两表所在分区进行关联操作,存在跨分区关联操作。此时需要根据原始SQL语句的查询条件和涉及到关联操作的两表的分区所在的各个物理数据库的统计信息,从表CUSTOMER和表ORDER两者中,确定一个表为驱动表。跨分区查询装置根据表CUSTOMER和表ORDER的基本信息以及查询条件表达式“C.BIRTHDAY=’2014-08-25’AND C.GENDER=‘F’”和“O.PRICE<300”,利用预先给定的计算模型,分别计算出单独查询表CUSTOMER和表ORDER所消耗的的资源,确定资源消耗较小的表为驱动表。由于表CUSTOMER的记录数小于表ORDER记录数,而由于“C.BIRTHDAY=’2014-08-25’”是查询一个确定的值,而“O.PRICE<300”是查询一个范围的值,因此“C.BIRTHDAY=’2014-08-25’”相比“O.PRICE<300”具有更好的选择性,且表ORDER分区是4个,比表CUSTOMER要少、第一查询结果集发送到表ORDER所导致的网络开销将较少,因此根据计算结果可以得到查询表CUSTOMER的所导致的资源消耗将小于查询表ORDER的所导致资源消耗,因此选择表CUSTOMER作为驱动表。
跨分区查询装置确认表ORDER采用了哈希分区规则,无法静态选择将第一查询结果集发送到表ORDER的哪个分区数据库,因此需要将第一查询结果集发送到表ORDER所有的分区数据库。
此时跨分区查询装置将原始SQL语句转换成驱动表SQL语句,转换成得到如下形式:SELECT C.CUST_ID,C.NAME FROM CUSTOMER C WHERE C.BIRTHDAY=‘2014-08-25’ANDC.GENDER=’F’,并将该转换后的SQL语句发送到表CUSTOMER所在8个分区数据库中,同时并发执行上述驱动表SQL查询操作。
这样,由于查询的结果是分布在8个分区数据库中完成的,因此查询结果集比较小,并且查询结果集未超过存储内存限制,全部第一查询结果集返回后,根据关键字段,对第一查询结果集建立哈希表进行存储。
此时跨分区查询装置按照原始SQL语句中的关联字段值,对保存的第一查询结果集的关联字段值进行去重,向非驱动表所在分区数据库发送结果集投递SQL语句和去重后的关联字段值,具体的,该结果集投递SQL具体为:INSERT INTO TEMP(F)VALUES(:PARAM)。
各个非驱动表所在分区数据库并行执行结果集投递SQL,将去重后的关联字段值插入到表ORDER所在分区数据库的指定临时表,成为临时表的数据。
跨分区查询装置将原始SQL转换成非驱动表查询SQL,并向非驱动表所在的分区数据库发送上述非驱动表查询SQL,具体的该非驱动表查询SQL为:
SELECT O.CUST_ID,O.ORDER_ID
FROM ORDER O,TEMP T
WHERE O.PRICE<300AND O.CUST_ID=T.F
这样就可以实现非驱动表所在分区数据库进行本地关联,并生成第二查询结果集,并将第二查询结果集发送到跨分区查询装置。
然后跨分区查询装置采用哈希关联算法,将第一查询结果集和第二查询结果集进行最终的关联,得到最终的第三查询结果集,并向应用程序返回第三结果集。
本方案实现通过计算表查询的综合成本选择驱动表,并通过批量投递结果集到非驱动表所在分区数据库的方式,实现网络开销的最小化。相比较已有技术方案中,将两表数据提取到数据中间件层完成关联的方式,极大减少网络开销。基于物理数据库临时表特性的实现,可以借助数据库能力有效隔离不同连接上的结果集投递操作,简化数据中间件层逻辑。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存取存储器(Random Access Memory,简称RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (13)

1.一种在跨分区数据库中查询数据的方法,其特征在于,包括:
接收查询请求,查询请求中包括查询条件,涉及关联操作的两表的标识和关联字段;
根据涉及关联操作的两表的标识,查询涉及关联操作的两表各自所在的分区数据库的统计信息;
根据统计信息和查询条件,向驱动表所在分区数据库发送查询驱动表请求,接收驱动表所在分区数据库返回的第一查询结果集,其中,涉及关联操作的两表中的一表为驱动表,另外一表为非驱动表,驱动表为涉及关联操作的两表中优先被查询的表;
对第一查询结果集中的关联字段值进行去重,向非驱动表所在分区数据库发送结果集投递请求和去重后的关联字段值,以便于非驱动表所在分区数据库生成临时表数据,临时表数据包括去重后的关联字段值;
向非驱动表所在分区数据库发送查询非驱动表请求,并接收非驱动表所在分区数据库返回的第二查询结果集,其中,第二查询结果集为非驱动表所在分区数据库根据非驱动表请求和临时表数据查询获得的。
2.如权利要求1的在跨分区数据库中查询数据的方法,其特征在于,根据统计信息和查询条件,向驱动表所在分区数据库发送查询驱动表请求,接收驱动表所在分区数据库返回的第一查询结果集,具体的包括:
根据统计信息和查询条件,利用预先给定的计算模型,分别计算出单独查询涉及关联操作的两表所消耗的资源,其中,消耗的资源较小的表为驱动表,向驱动表所在分区数据库发送查询驱动表请求,接收驱动表所在分区数据库返回的第一查询结果集。
3.如权利要求1或2的在跨分区数据库中查询数据的方法,其特征在于,驱动表所在分区数据库具体包括2个以上的分区数据库,则向驱动表所在分区数据库发送查询驱动表请求,接收驱动表所在分区数据库返回的第一查询结果集,具体包括:
向所有驱动表所在分区数据库发送查询驱动表请求,接收所有驱动表所在分区数据库返回的第一查询结果集;或者根据查询条件向符合查询条件的驱动表所在分区数据库发送查询驱动表请求,接收符合查询条件的驱动表所在分区数据库返回的第一查询结果集。
4.如权利要求3的在跨分区数据库中查询数据的方法,其特征在于,还包括:按照哈希算法,存储第一查询结果。
5.如权利要求1的在跨分区数据库中查询数据的方法,其特征在于,还包括:
根据关联字段,将第一查询结果集和第二查询结果集进行关联,获得第三查询结果集。
6.如权利要求1的在跨分区数据库中查询数据的方法,其特征在于,统计信息包括以下的一个或多个:分区数据库的表记录数、分区个数,字段信息、聚集度、直方图和网络传输代价。
7.一种跨分区查询装置,其特征在于,包括:
接收模块,用于接收查询请求,查询请求中包括查询条件,涉及关联操作的两表的标识和关联字段;
第一查询模块,用于根据涉及关联操作的两表的标识,查询涉及关联操作的两表各自所在的分区数据库的统计信息;
第二查询模块,用于根据统计信息和查询条件,向驱动表所在分区数据库发送查询驱动表请求,接收驱动表所在分区数据库返回的第一查询结果集,其中,涉及关联操作的两表中的一表为驱动表,另外一表为非驱动表,驱动表为涉及关联操作的两表中优先被查询的表;
临时表数据处理模块,用于对第一查询结果集中的关联字段值进行去重,向非驱动表所在分区数据库发送结果集投递请求和去重后的关联字段值,以便于非驱动表所在分区数据库生成临时表数据,临时表数据包括去重后的关联字段值;
第三查询模块,用于向非驱动表所在分区数据库发送查询非驱动表请求,并接收非驱动表所在分区数据库返回的第二查询结果集,其中,第二查询结果集为非驱动表所在分区数据库根据非驱动表请求和临时表数据查询获得的。
8.如权利要求7的跨分区查询装置,其特征在于,第二查询模块具体用于:
根据统计信息和查询条件,利用预先给定的计算模型,分别计算出单独查询涉及关联操作的两表所消耗的资源,其中,消耗的资源较小的表为驱动表,向驱动表所在分区数据库发送查询驱动表请求,接收驱动表所在分区数据库返回的第一查询结果集。
9.如权利要求7的跨分区查询装置,其特征在于,驱动表所在分区数据库具体包括2个以上的分区数据库,则第二查询模块,具体用于:向所有驱动表所在分区数据库发送查询驱动表请求,接收所有驱动表所在分区数据库返回的第一查询结果集;
或者根据查询条件向符合查询条件的驱动表所在分区数据库发送查询驱动表请求,接收符合查询条件的驱动表所在分区数据库返回的第一查询结果集。
10.如权利要求7的跨分区查询装置,其特征在于,还包括:存储模块,用于按照哈希算法,存储第一查询结果。
11.如权利要求7的跨分区查询装置,其特征在于,还包括:关联模块,用于根据关联字段,将第一查询结果集和第二查询结果集进行关联,获得第三查询结果集。
12.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质存储有计算机程序,所述计算机程序用于指令相关硬件,来完成权利要求1至6任意一项所述的方法。
13.一种跨分区查询装置,其特征在于,包括处理器和存储器;
其中,所述处理器用于调用存储器中存储的程序,以执行权利要求1至6任意一项所述的方法。
CN201510180744.0A 2015-04-16 2015-04-16 在跨分区数据库中查询数据的方法及跨分区查询装置 Active CN106156168B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201510180744.0A CN106156168B (zh) 2015-04-16 2015-04-16 在跨分区数据库中查询数据的方法及跨分区查询装置
EP16779500.4A EP3285178B1 (en) 2015-04-16 2016-03-18 Data query method in crossing-partition database, and crossing-partition query device
PCT/CN2016/076774 WO2016165525A1 (zh) 2015-04-16 2016-03-18 在跨分区数据库中查询数据的方法及跨分区查询装置
US15/783,483 US20180039671A1 (en) 2015-04-16 2017-10-13 Method and apparatus for querying data in cross-shard databases

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510180744.0A CN106156168B (zh) 2015-04-16 2015-04-16 在跨分区数据库中查询数据的方法及跨分区查询装置

Publications (2)

Publication Number Publication Date
CN106156168A CN106156168A (zh) 2016-11-23
CN106156168B true CN106156168B (zh) 2019-10-22

Family

ID=57126349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510180744.0A Active CN106156168B (zh) 2015-04-16 2015-04-16 在跨分区数据库中查询数据的方法及跨分区查询装置

Country Status (4)

Country Link
US (1) US20180039671A1 (zh)
EP (1) EP3285178B1 (zh)
CN (1) CN106156168B (zh)
WO (1) WO2016165525A1 (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT201700082320A1 (it) * 2017-07-19 2019-01-19 Nuovo Pignone Tecnologie Srl Sistema di ricerca per banche dati e metodo
CN110110211A (zh) * 2018-01-22 2019-08-09 北京京东尚科信息技术有限公司 基于通用模型的数据查询方法和装置
CN110399395B (zh) * 2018-04-18 2022-04-01 福建天泉教育科技有限公司 基于预计算的加速查询方法、存储介质
CN110825794B (zh) 2018-08-14 2022-03-29 华为云计算技术有限公司 分区合并方法和数据库服务器
WO2020034818A1 (zh) * 2018-08-14 2020-02-20 华为技术有限公司 分区合并方法和数据库服务器
CN111221883B (zh) * 2018-11-27 2024-04-26 浙江宇视科技有限公司 数据统计方法及系统
CN109710635B (zh) * 2018-12-29 2021-03-19 联想(北京)有限公司 用于数据库的处理方法、处理系统以及服务器组
CN111625561B (zh) * 2019-02-28 2023-09-22 华为技术有限公司 一种数据查询方法及装置
US11080114B2 (en) * 2019-11-26 2021-08-03 International Business Machines Corporation Controlling interaction with a scalable application
CN111259036B (zh) * 2020-01-10 2022-10-11 苏州达家迎信息技术有限公司 一种跨库跨表查询方法、设备、服务器及存储介质
US20210303633A1 (en) * 2020-03-30 2021-09-30 International Business Machines Corporation Shard hashing
CN111651758B (zh) * 2020-06-08 2022-11-22 成都安恒信息技术有限公司 一种运维审计系统关系型数据库结果集审计的方法
CN112100175B (zh) * 2020-08-28 2021-10-19 拉卡拉支付股份有限公司 分区数据定向传递方法及装置
US11356524B1 (en) 2020-12-18 2022-06-07 International Business Machines Corporation Coordinating requests actioned at a scalable application
US11360982B1 (en) 2020-12-22 2022-06-14 International Business Machines Corporation Database endpoint devices put in groups for responding to queries
CN112685444A (zh) * 2020-12-24 2021-04-20 江苏苏宁云计算有限公司 数据查询方法、装置、计算机设备和存储介质
CN112948864B (zh) * 2021-03-19 2022-12-06 西安电子科技大学 基于垂直分区数据库的可验证ppfim方法
CN115062028B (zh) * 2022-07-27 2023-01-06 中建电子商务有限责任公司 一种OLTP领域多表join查询的方法
CN115599801A (zh) * 2022-09-13 2023-01-13 浙江大华技术股份有限公司(Cn) 一种数据查询方法、系统、电子设备和存储介质
CN117407445A (zh) * 2023-10-27 2024-01-16 上海势航网络科技有限公司 一种车联网数据平台数据存储方法、系统及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916261A (zh) * 2010-07-28 2010-12-15 北京播思软件技术有限公司 一种分布式并行数据库系统的数据分区方法
CN103927331A (zh) * 2014-03-21 2014-07-16 珠海多玩信息技术有限公司 数据查询方法、装置及系统
CN103995879A (zh) * 2014-05-27 2014-08-20 华为技术有限公司 基于olap系统的数据查询方法、装置及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5596744A (en) * 1993-05-20 1997-01-21 Hughes Aircraft Company Apparatus and method for providing users with transparent integrated access to heterogeneous database management systems
US20070027860A1 (en) * 2005-07-28 2007-02-01 International Business Machines Corporation Method and apparatus for eliminating partitions of a database table from a join query using implicit limitations on a partition key value
US8396862B2 (en) * 2007-07-30 2013-03-12 Teradata Us, Inc. Product join dynamic partition elimination for multilevel partitioning
US9229983B2 (en) * 2012-11-30 2016-01-05 Amazon Technologies, Inc. System-wide query optimization
US9892127B2 (en) * 2013-07-15 2018-02-13 International Business Machines Corporation Global digests caching in a data deduplication system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101916261A (zh) * 2010-07-28 2010-12-15 北京播思软件技术有限公司 一种分布式并行数据库系统的数据分区方法
CN103927331A (zh) * 2014-03-21 2014-07-16 珠海多玩信息技术有限公司 数据查询方法、装置及系统
CN103995879A (zh) * 2014-05-27 2014-08-20 华为技术有限公司 基于olap系统的数据查询方法、装置及系统

Also Published As

Publication number Publication date
EP3285178A4 (en) 2018-02-21
US20180039671A1 (en) 2018-02-08
EP3285178B1 (en) 2019-05-22
CN106156168A (zh) 2016-11-23
EP3285178A1 (en) 2018-02-21
WO2016165525A1 (zh) 2016-10-20

Similar Documents

Publication Publication Date Title
CN106156168B (zh) 在跨分区数据库中查询数据的方法及跨分区查询装置
US20230141556A1 (en) Structured cluster execution for data streams
US11216485B2 (en) Push model for scheduling query plans
US10963428B2 (en) Multi-range and runtime pruning
US9235611B1 (en) Data growth balancing
CN106708917B (zh) 一种数据处理方法、装置以及olap系统
CN106407302B (zh) 支持通过简单sql调用中间件数据库特有功能的方法
US11036732B2 (en) Subquery predicate generation to reduce processing in a multi-table join
US11422881B2 (en) System and method for automatic root cause analysis and automatic generation of key metrics in a multidimensional database environment
CN108536692A (zh) 一种执行计划的生成方法、装置及数据库服务器
CN102054000A (zh) 数据查询方法、装置及系统
Potter et al. Distributed RDF query answering with dynamic data exchange
CN103886038A (zh) 数据缓存方法及装置
CN103036921A (zh) 一种用户行为分析系统和方法
WO2014137258A1 (en) Selection of data storage settings for an application
CN103605797A (zh) 数据存储、查询装置和数据存储、查询方法
US11599540B2 (en) Query execution apparatus, method, and system for processing data, query containing a composite primitive
CN108520003A (zh) 一种存储过程调度系统和方法
CN109408544B (zh) 基于引擎的数据聚合方法、装置及存储介质、服务器
Pan et al. Skyline web service selection with mapreduce
CN107451142B (zh) 在数据库中写入和查询数据的方法与装置及其管理系统和计算机可读存储介质
CN110427390B (zh) 数据查询方法及装置、存储介质、电子装置
CN111737257A (zh) 数据查询方法及装置
CN110929207A (zh) 数据处理方法、装置和计算机可读存储介质
US11941006B2 (en) Heuristic database querying with dynamic partitioning

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant