CN116303575B

CN116303575B - 数据库数据查询方法、装置及非易失性存储介质

Info

Publication number: CN116303575B
Application number: CN202310285694.7A
Authority: CN
Inventors: 陈泽
Original assignee: Primitive Data Beijing Information Technology Co ltd
Current assignee: Primitive Data Beijing Information Technology Co ltd
Priority date: 2023-03-22
Filing date: 2023-03-22
Publication date: 2023-12-12
Anticipated expiration: 2043-03-22
Also published as: CN116303575A

Abstract

本申请公开了一种数据库数据查询方法、装置及非易失性存储介质。其中，该方法包括：在待查询数据库中确定目标数据表，并依据目标数据表中各个数据分区的第二目标特征，对各个数据分区进行分类，其中，目标数据表中各个数据分区对应的数据存储方式不同，并且同一类别下的数据分区对应相同的第二目标特征；依据不同类别的数据分区对应的第二目标特征，确定多个数据查询方案，并确定多个数据查询方案中的每个数据查询方案对应的代价指标，其中，代价指标至少用于指示执行每个数据查询方案时的预估时间；执行代价指标最小的数据查询方案。

Description

数据库数据查询方法、装置及非易失性存储介质

技术领域

本申请涉及数据查询领域，具体而言，涉及一种数据库数据查询方法、装置及非易失性存储介质。

背景技术

相关技术中在生成针对混合存储的分区表的数据查询方案时，通常采用的方式是针对每个分区生成对应的查询方案，并汇总各个查询方案的执行结果作为最终查询结果。这样可以保证每种存储方案的分区对应的查询方案为对该分区而言的最优查询方案，但是由于不同的分区中包含的数据特征不同，某些分区上的数据特征在其他分区中不一定存在，因此针对每个分区执行的最优查询计划并不是针对整个分区表的最优查询计划。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种数据库数据查询方法、装置及非易失性存储介质，以至少解决由于相关技术中只是针对分区表中的每个分区确定该分区的最优查询计划造成的无法得到针对整个分区表而言的最优查询计划的技术问题。

根据本申请实施例的一个方面，提供了一种数据查询方法，包括：接收查询语句，并依据查询语句确定第一目标特征，其中，第一目标特征为与查询语句对应的目标查询结果所具有的特征；在待查询数据库中确定目标数据表，其中，目标数据表中包括多种不同分区类别的数据分区，不同的分区类别对应的第二目标特征不同，并且同一类别下的数据分区具有相同的第二目标特征；依据第一目标特征和第二目标特征，确定多个数据查询方案，多个数据查询方案包括多个第一类数据查询方案和一个第二类数据查询方案，其中，每个第一类数据查询方案唯一对应一个分区类别，第一类数据查询方案为将第二分区类别对应的分区查询结果合并到第一分区类别对应的分区查询结果中得到目标查询结果的方案，第二分区类别为目标数据表中的任意分区类别，第一分区类别为除第二分区类别之外的分区类别，第二类数据查询方案为将各个分区的分区查询结果依据第一目标特征合并后得到目标查询结果的方案；确定多个数据查询方案中的每个数据查询方案的代价指标，并执行代价指标最小的数据查询方案，其中，代价指标至少用于指示执行数据查询方案时的预估时间。

可选地，接收查询语句，并依据查询语句确定第一目标特征的步骤之前，数据库数据查询方法还包括：确定各个数据分区对应的数据存储格式，以及各个数据分区对应的数据排列特征；依据数据存储格式和数据排列特征确定各个数据分区对应的分区类别，其中，各个数据分区对应至少一个分区类别。

可选地，接收查询语句，并依据查询语句确定第一目标特征的步骤包括：依据查询语句，确定目标查询结果的查询类别；依据查询类别，确定第一目标特征。

可选地，依据第一目标特征和第二目标特征，确定多个数据查询方案的步骤包括：依据第一目标特征和第二目标特征，从多个分区类别中确定目标分区类别，其中，目标分区类别包括第一类目标分区类别和第二类目标分区类别，第一类目标分区类别对应的第二目标特征中包含有第一目标特征，第二类目标分区类别对应的第二目标特征中包含有与第一目标特征相近的特征；确定目标分区类别对应的第一类数据查询方案。

可选地，依据第一目标特征和第二目标特征，确定多个数据查询方案的步骤包括：获取不同类别的数据分区对应的类别统计信息和通用统计信息；依据类别统计信息和通用统计信息确定不同分区类别对应的分区最优查询方案，以及执行分区最优查询方案后各个分区类别对应的分区查询结果；依据第一目标特征，第二目标特征和分区查询结果，确定第一类数据查询方案的第一类数据处理流程，以及第二类数据查询方案的第二类数据处理流程。

可选地，第一类数据处理流程包括将不同的第二分区类别的数据分区的分区查询结果融合到第一分区类别的数据分区时对各个第二分区类别的数据分区执行的分区数据调整操作，以及依据第一目标特征对融合查询结果进行调整的融合数据调整操作，第二类数据处理流程包括合并不同类别的数据分区的查询结果时采用的合并操作，以及依据第一目标特征对合并操作得到的合并结果执行的数据调整操作。

可选地，确定多个数据查询方案中的每个数据查询方案的代价指标的步骤包括：依据第一类数据查询方案中的分区数据调整操作和融合数据调整操作，预测第一类数据查询方案对应的代价指标；依据第二类数据查询方案中的合并操作，预测第二类数据查询方案对应的代价指标。

可选地，通用统计信息包括以下至少之一：数据分布相关性，高频值；类别统计信息为依据不同类别的数据分区的第二目标特征确定的统计信息。

根据本申请实施例的另一方面，还提供了一种数据查询装置，包括：识别模块，用于接收查询语句，并依据查询语句确定第一目标特征，其中，第一目标特征为与查询语句对应的目标查询结果所具有的特征；检索模块，用于在待查询数据库中确定目标数据表，其中，目标数据表中包括多种不同分区类别的数据分区，不同的分区类别对应的第二目标特征不同，并且同一类别下的数据分区具有相同的第二目标特征；计算模块，用于依据第一目标特征和第二目标特征，确定多个数据查询方案，多个数据查询方案包括多个第一类数据查询方案和一个第二类数据查询方案，其中，每个第一类数据查询方案唯一对应一个分区类别，第一类数据查询方案为将第二分区类别对应的分区查询结果合并到第一分区类别对应的分区查询结果中得到目标查询结果的方案，第二分区类别为目标数据表中的任意分区类别，第一分区类别为除第二分区类别之外的分区类别，第二类数据查询方案为将各个分区的分区查询结果依据第一目标特征合并后得到目标查询结果的方案；处理模块，用于确定多个数据查询方案中的每个数据查询方案的代价指标，并执行代价指标最小的数据查询方案，其中，代价指标至少用于指示执行数据查询方案时的预估时间。

根据本申请实施例的另一方面，还提供了一种非易失性存储介质，非易失性存储介质中存储有程序，其中，在程序运行时控制非易失性存储介质所在设备执行数据查询方法。

根据本申请实施例的另一方面，还提供了一种电子设备。电子设备包括存储器和处理器，处理器用于运行存储在存储器中的程序，其中，程序运行时执行数据查询方法。

在本申请实施例中，采用接收查询语句，并依据查询语句确定第一目标特征，其中，第一目标特征为与查询语句对应的目标查询结果所具有的特征；在待查询数据库中确定目标数据表，其中，目标数据表中包括多种不同分区类别的数据分区，不同的分区类别对应的第二目标特征不同，并且同一类别下的数据分区具有相同的第二目标特征；依据第一目标特征和第二目标特征，确定多个数据查询方案，多个数据查询方案包括多个第一类数据查询方案和一个第二类数据查询方案，其中，每个第一类数据查询方案唯一对应一个分区类别，第一类数据查询方案为将第二分区类别对应的分区查询结果合并到第一分区类别对应的分区查询结果中得到目标查询结果的方案，第二分区类别为目标数据表中的任意分区类别，第一分区类别为除第二分区类别之外的分区类别，第二类数据查询方案为将各个分区的分区查询结果依据第一目标特征合并后得到目标查询结果的方案；确定多个数据查询方案中的每个数据查询方案的代价指标，并执行代价指标最小的数据查询方案，其中，代价指标至少用于指示执行数据查询方案时的预估时间的方式，通过依据各个分区的数据特征确定多项数据查询方案，并选出代价指标最小的数据查询方案作为目标查询方案，达到了确定对整个数据分区表而言最优的数据查询方案的目的，从而实现了提高数据查询效率的技术效果，进而解决了由于相关技术中只是针对分区表中的每个分区确定该分区的最优查询计划造成的无法得到针对整个分区表而言的最优查询计划技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是相关技术中的一种数据查询系统的示意图；

图2是根据本申请实施例的一种计算机终端的结构示意图；

图3是根据本申请实施例的一种数据查询方法的流程示意图；

图4是根据本申请实施例的一种数对据分区分类的示意图；

图5是根据本申请实施例的一种数据分区表的统计信息获取方式的示意图；

图6是根据本申请实施例的一种确定数据查询方案的代价指标的示意图；

图7是根据本申请实施例的另一种确定数据查询方案的代价指标的示意图；

图8是根据本申请实施例的一种数据查询装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

相关技术中在数据量巨大的存储场景下，经常使用分区表将数据分布存储来提升存储和查询效率。与此同时，在一些特殊的使用场景下(如时序场景)，为了满足特定场景的性能需求，通常会将数据以某些特定的方式存储。但是每种特定的存储方式总是会在一些方面表现良好，却在另一些方面差强人意，所以为了同时满足多种不同场景的需求，经常需要在一个分区表下混合多种存储方式。类似Greenplum等这样的数据库已经实现了分区表下混合存储的方式，伴随这样的混合存储，提供了将不同分区扫描append然后返回的查询方式，使不同存储方式的分区片可以发挥各自场景下的优势。

对于分区表来说，一般数据量巨大，因此大部分数据库中对分区表统计信息的采集为表级别，仅针对某几个分区采样而作为总体分区表的统计信息，因此无法精确的对每个分区进行精确的代价估算。而如果直接暴力的对每个分区采样，则采样成本会大幅增加，并且在生成计划时针对每个分区都取一遍统计信息，计算一遍，也是不小的性能开销。

现有方案中，针对混合存储的分区表的计划生成，都采用的是各自生成计划，然后将结果结合起来一起返回的方案。具体地，如图1所示，假设数据分区表中存在按照行的方式存储数据的分区和按照列的形式存储数据的分区，当用户希望查询数据分区表中的数据时，查询分析层会解析用户输入的查询语句，确定对应的数据分区范围，然后查询引擎会根据数据分区范围生成该范围中的每个数据分区对应的分区最优数据查询方案，再由存储引擎对每个数据分区执行该分区对应的分区最优数据查询方案，并汇总各个分区的查询结果。

这样的方案可以保证每种存储方案的分区可以走其最优的计划，但是因为某些存储上的数据排练特征不一定存在于其它分区，在数据合并后可能还需要再次对数据进行处理才能保证结果的正确性，因此作为一个整体的分区表来看，分区的最优计划不一定代表整体的最优计划。为了解决该问题，本申请实施例中提供了相关的解决方案，以下详细说明。

根据本申请实施例，提供了一种数据查询方法的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图2示出了一种用于实现数据查询方法的计算机终端(或移动设备)的硬件结构框图。如图2所示，计算机终端20(或移动设备20)可以包括一个或多个(图中采用202a、202b，……，202n来示出)处理器202(处理器202可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器204、以及用于通信功能的传输模块206。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图2所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端20还可包括比图2中所示更多或者更少的组件，或者具有与图2所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端20(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器204可用于存储应用软件的软件程序以及模块，如本申请实施例中的数据查询方法对应的程序指令/数据存储装置，处理器202通过运行存储在存储器204内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的应用程序的数据查询方法。存储器204可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器204可进一步包括相对于处理器202远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端20。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置206用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端20的通信供应商提供的无线网络。在一个实例中，传输装置206包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置206可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端20(或移动设备)的用户界面进行交互。

在上述运行环境下，本申请实施例提供了一种数据查询方法，如图3所示，该方法包括如下步骤：

步骤S302，接收查询语句，并依据查询语句确定第一目标特征，其中，第一目标特征为与查询语句对应的目标查询结果所具有的特征；

在步骤S302所提供的技术方案中，在接收查询语句，并依据查询语句确定第一目标特征的步骤之前，还需要确定各个数据分区对应的数据存储格式，以及各个数据分区对应的数据排列特征；依据数据存储格式和数据排列特征确定各个数据分区对应的分区类别，其中，各个数据分区对应至少一个分区类别。

作为一种可选地实施方式，接收查询语句，并依据所述查询语句确定第一目标特征的步骤包括：依据所述查询语句，确定目标查询结果的查询类别；依据数据查询类别，确定第一目标特征。其中，第一目标特征为用户所需的特征，也就是用户希望得到的查询结果所具有的特征。

具体地，在用户输入查询语句后，可以通过对查询语句进行语义识别，从而确定用户所需的目标查询结果的查询类别，并确定用户所需的查询类别所具有的数据特征为第一目标特征。由于不同的数据分区具有不同维度的数据特征，例如数据分区A的数据特征包括行存储，有索引，索引在第一列，数据分区B的数据特征包括列存储，无索引等。为了减少在对数据分区进行分类时所消耗的时间，可以依据目标对象输入的查询语句来确定对数据分区进行分类时所依据的数据特征的具体类型，也就是第二目标特征集合。

在一个示例性实施例中，假设上述目标查询结果为将数据库中的数据依据a列的索引从大到小排序并输出，则目标查询结果对应的查询类别为依据a列的索引和预设排序规则排序，对应的第一目标特征则为a列有索引，并且索引按照由大到小的顺序排序。

步骤S304，在待查询数据库中确定目标数据表，其中，目标数据表中包括多种不同分区类别的数据分区，不同的分区类别对应的第二目标特征不同，并且同一类别下的数据分区具有相同的第二目标特征；

如图4所示，在一个实际应用场景中，可以认为所有具有不同特征的分区均为不同的分区类别。不同分区之间的区别可以是：一个行存储一个列存储；一个有索引一个没有索引；一个在a列有索引但另一个在b列有索引。但是对于存储但数据的不同则忽略，如一个存储的是范围1～100的数据，另一个存储的是100～200的数据，这种仍然属于同一个分片类别。

步骤S306，依据第一目标特征和第二目标特征，确定多个数据查询方案，多个数据查询方案包括多个第一类数据查询方案和一个第二类数据查询方案，其中，每个第一类数据查询方案唯一对应一个分区类别，第一类数据查询方案为将第二分区类别对应的分区查询结果合并到第一分区类别对应的分区查询结果中得到目标查询结果的方案，第二分区类别为目标数据表中的任意分区类别，第一分区类别为除第二分区类别之外的分区类别，第二类数据查询方案为将各个分区的分区查询结果依据第一目标特征合并后得到目标查询结果的方案；

在步骤S306所提供的技术方案中，依据第一目标特征和第二目标特征确定多个数据查询方案的步骤包括：依据第一目标特征和第二目标特征，从多个分区类别中确定目标分区类别，其中，目标分区类别包括第一类目标分区类别和第二类目标分区类别，第一类目标分区类别对应的第二目标特征中包含有第一目标特征，第二类目标分区类别对应的第二目标特征中包含有与第一目标特征相近的特征；确定目标分区类别对应的第一类数据查询方案。

具体地，由于数据库中会包含多种具有不同分区特征的分区类别，其中部分分区类别所具有的特征与第一目标特征差异较大，也就是说将该类别分区对应的查询结果转换为目标查询结果时所需的代价(计算资源和计算时间)更多。为了减少确定数据查询方案的过程中的计算损耗，可以提前筛选分区类别，只确定包含有第一目标特征或所包含的数据特征易于转换到第一目标特征的分区类别所对应的第一类数据查询方案。

在一个示例性实施例中，假设第一目标特征为a列有索引，则相近的特征可以是b列有索引，差异较大的特征可以是无索引或者索引为行索引等。

在筛选出合适的分区类别后，便可以确定各个分区类别所对应的第一类数据查询方案和整体对应的第二类查询方案。在确定多个数据查询方案时，如图5所示，可以获取不同类别的数据分区对应的类别统计信息和通用统计信息；依据类别统计信息和通用统计信息确定不同分区类别对应的分区最优查询方案，以及执行分区最优查询方案后各个分区类别对应的分区查询结果；依据第一目标特征，第二目标特征和分区查询结果，确定第一类数据查询方案的第一类数据处理流程，以及第二类数据查询方案的第二类数据处理流程。

具体地，通用统计信息包括以下至少之一：数据分布相关性，高频值；类别统计信息为依据不同类别的数据分区的第二目标特征确定的统计信息。例如，对于有索引的一类分区，统计信息可以是采样统计索引相关性来作为该类分区下所有分区的统计指标。

步骤S308，确定多个数据查询方案中的每个数据查询方案的代价指标，并执行代价指标最小的数据查询方案，其中，代价指标至少用于指示执行数据查询方案时的预估时间。

在步骤S208所提供的技术方案中，需要说明的是，第一类数据处理流程包括将不同的第二分区类别的数据分区的分区查询结果融合到第一分区类别的数据分区时对各个第二分区类别的数据分区执行的分区数据调整操作，以及依据第一目标特征对融合查询结果进行调整的融合数据调整操作，第二类数据处理流程包括合并不同类别的数据分区的查询结果时采用的合并操作，以及依据第一目标特征对合并操作得到的合并结果执行的数据调整操作。在第二类数据查询方案中，之所以需要对融合查询结果进行调整，是因为经过初步筛选后得到的数据分区并不都具备第一目标特征，导致对应的融合查询结果也不一定具备第一目标特征，因此还需要依据第一目标特征对融合查询结果进行调整，从而得到最终的目标查询结果。

具体地，从图6中可以看出，分别完成每类分区的统计信息采集后，继续开始估算不同类别的分区之间进行特征融合的代价。其中数据特征可以理解为，当某类分片A拥有在col1列上的btree索引，那么我们就称A类分区拥有在col1有序的数据特征。而某类分片B如果并没有在col1有序的数据特征，在查询中通过排序操作可以让它有序，这样的操作称为分区间的特征融合。也就是说，每一类分区对应的数据统计方案的代价为融合其他类分区的代价，也就是对其他类分区中的数据进行调整，从而让其他类分区具有A类分区的特征的代价，其中，代价指的是对其他类分区所执行的调整操作，代价指标为执行该调整操作时的预估耗费时间。需要注意的是，类似于排序这样的操作在每类分区中的代价并不相同，所以需要为每类分区提前计算这些代价。例如C类分片以col1，col2有序，那么将其融合为和A相同的以col1有序，可以执行合并排序更快完成。同样的，第二类数据查询方案的代价为合并操作，代价指标为执行该合并操作时的预估耗费时间。

在确定各个方案所对应的代价指标时，如图7所示，可以依据第一类数据查询方案中的分区数据调整操作和融合数据调整操作，预测第一类数据查询方案对应的代价指标；依据第二类数据查询方案中的合并操作，预测第二类数据查询方案对应的代价指标。

具体地，在确定代价指标并根据代价指标对多个数据查询方案进行评估时，和普通分区表查询一样，首先会拿到所有分区上最优的计划，然后合并为整体计划。在本发明中提出，根据上层查询算子对数据特征的要求，可以额外考虑分区之间融合的代价。例如：分区表以col1范围分区，存在A类分区有col1有序的特征，B类分区有col2有序的特征，同时也有col1，col2有序特征，而查询要求以col1有序返回，但是查询同时在col2上包含条件过滤条件，那么会生成以下数据查询计划：

通用数据查询方案：A类选择col1索引扫描，B类选择col2索引扫描；

分区融合数据查询方案：A类选择col1索引扫描，B类选择col1，col2索引扫描，然后以col1合并排序。

对于通用数据查询方案生成的结果，通常需要在其上添加排序算子，并将排序后的结果进行数据处理，从而得到具有第一目标特征的目标查询结果，其中，添加排序算子以及执行排序算子和执行数据处理操作时对应的预测时间即为通用数据查询方案的代价指标；而对于分区融合数据查询方案的结果，则可以直接返回，分区融合数据查询方案的代价为将不同类别的分区融合为同一类分区，并将最终得到的融合结果调整为具备第一目标特征的目标查询结果时所执行的操作，代价指标为执行融合操作和数据调整操作时的预测所需时间。因此需要对比两种整体计划的总代价来选择整体最优的方案。

通过采用依据目标数据表中各个数据分区的第二目标特征，对各个数据分区进行分类，其中，目标数据表中各个数据分区对应的数据存储方式不同，并且同一类别下的数据分区对应相同的第二目标特征；依据不同类别的数据分区对应的第二目标特征，确定多个数据查询方案，并确定多个数据查询方案中的每个数据查询方案对应的代价指标，其中，代价指标至少用于指示执行每个数据查询方案时的预估时间；执行代价指标最小的数据查询方案的方式，通过依据各个分区的数据特征确定多项数据查询方案，并选出代价指标最小的数据查询方案作为目标查询方案，达到了确定对整个数据分区表而言最优的数据查询方案的目的，从而实现了提高数据查询效率的技术效果，进而解决了由于相关技术中只是针对分区表中的每个分区确定该分区的最优查询计划造成的无法得到针对整个分区表而言的最优查询计划技术问题。

另外，本申请实施例中所提供的数据查询方法，和相关技术中的数据查询方法相比，不但实现了以特征为依据对分区表中的数据分区进行分类，并对每个类别的分区表生成一个采样结果，而且可以评估不同类别的分区表之间的特征融合时的代价，以及通用方案的代价，从而通过比较不同的数据查询方案的代价，实现了在表级别获取最优数据查询方案。

综上所述可以看出，本申请实施例中所提供的数据查询方法，在面对数据库中存储有多种不同数据特征的异构数据时，可以从多种备选的查询方案中确定执行代价指标最小的查询方案作为最优查询方案并执行该最优查询方案，不但提升了多异构数据场景下的查询效率，而且降低了电子设备在查询数据库中的数据时占用的计算资源。

本申请实施例提供了一种数据查询装置。图8是该数据查询装置的结构示意图，如图8所示，该装置包括：识别模块80，用于接收查询语句，并依据查询语句确定第一目标特征，其中，第一目标特征为与查询语句对应的目标查询结果所具有的特征；检索模块82，用于在待查询数据库中确定目标数据表，其中，目标数据表中包括多种不同分区类别的数据分区，不同的分区类别对应的第二目标特征不同，并且同一类别下的数据分区具有相同的第二目标特征；计算模块84，用于依据第一目标特征和第二目标特征，确定多个数据查询方案，多个数据查询方案包括多个第一类数据查询方案和一个第二类数据查询方案，其中，每个第一类数据查询方案唯一对应一个分区类别，第一类数据查询方案为将第二分区类别对应的分区查询结果合并到第一分区类别对应的分区查询结果中得到目标查询结果的方案，第二分区类别为目标数据表中的任意分区类别，第一分区类别为除第二分区类别之外的分区类别，第二类数据查询方案为将各个分区的分区查询结果依据第一目标特征合并后得到目标查询结果的方案；处理模块86，用于确定多个数据查询方案中的每个数据查询方案的代价指标，并执行代价指标最小的数据查询方案，其中，代价指标至少用于指示执行数据查询方案时的预估时间。

在本申请的一些实施例中，接收查询语句，并依据查询语句确定第一目标特征的步骤之前，数据查询装置还用于：确定各个数据分区对应的数据存储格式，以及各个数据分区对应的数据排列特征；依据数据存储格式和数据排列特征确定各个数据分区对应的分区类别，其中，各个数据分区对应至少一个分区类别。

在本申请的一些实施例中，识别模块80接收查询语句，并依据查询语句确定第一目标特征的步骤包括：依据查询语句，确定目标查询结果的查询类别；依据查询类别，确定第一目标特征。

在本申请的一些实施例中，计算模块84依据第一目标特征和第二目标特征，确定多个数据查询方案的步骤包括：依据第一目标特征和第二目标特征，从多个分区类别中确定目标分区类别，其中，目标分区类别包括第一类目标分区类别和第二类目标分区类别，第一类目标分区类别对应的第二目标特征中包含有第一目标特征，第二类目标分区类别对应的第二目标特征中包含有与第一目标特征相近的特征；确定目标分区类别对应的第一类数据查询方案。

在本申请的一些实施例中，计算模块84依据第一目标特征和第二目标特征，确定多个数据查询方案的步骤包括：获取不同类别的数据分区对应的类别统计信息和通用统计信息；依据类别统计信息和通用统计信息确定不同分区类别对应的分区最优查询方案，以及执行分区最优查询方案后各个分区类别对应的分区查询结果；依据第一目标特征，第二目标特征和分区查询结果，确定第一类数据查询方案的第一类数据处理流程，以及第二类数据查询方案的第二类数据处理流程。

在本申请的一些实施例中，第一类数据处理流程包括将不同的第二分区类别的数据分区的分区查询结果融合到第一分区类别的数据分区时对各个第二分区类别的数据分区执行的分区数据调整操作，以及依据第一目标特征对融合查询结果进行调整的融合数据调整操作，第二类数据处理流程包括合并不同类别的数据分区的查询结果时采用的合并操作，以及依据第一目标特征对合并操作得到的合并结果执行的数据调整操作。

在本申请的一些实施例中，处理模块86确定多个数据查询方案中的每个数据查询方案的代价指标的步骤包括：依据第一类数据查询方案中的分区数据调整操作和融合数据调整操作，预测第一类数据查询方案对应的代价指标；依据第二类数据查询方案中的合并操作，预测第二类数据查询方案对应的代价指标。

在本申请的一些实施例中，通用统计信息包括以下至少之一：数据分布相关性，高频值；类别统计信息为依据不同类别的数据分区的第二目标特征确定的统计信息。

需要说明的是，上述数据查询装置中的各个模块可以是程序模块(例如是实现某种特定功能的程序指令集合)，也可以是硬件模块，对于后者，其可以表现为以下形式，但不限于此：上述各个模块的表现形式均为一个处理器，或者，上述各个模块的功能通过一个处理器实现。

根据本申请实施例，提供了一种非易失性存储介质。非易失性存储介质中存储有程序，其中，在程序运行时控制非易失性存储介质所在设备执行如下数据查询方法：接收查询语句，并依据查询语句确定第一目标特征，其中，第一目标特征为与查询语句对应的目标查询结果所具有的特征；在待查询数据库中确定目标数据表，其中，目标数据表中包括多种不同分区类别的数据分区，不同的分区类别对应的第二目标特征不同，并且同一类别下的数据分区具有相同的第二目标特征；依据第一目标特征和第二目标特征，确定多个数据查询方案，多个数据查询方案包括多个第一类数据查询方案和一个第二类数据查询方案，其中，每个第一类数据查询方案唯一对应一个分区类别，第一类数据查询方案为将第二分区类别对应的分区查询结果合并到第一分区类别对应的分区查询结果中得到目标查询结果的方案，第二分区类别为目标数据表中的任意分区类别，第一分区类别为除第二分区类别之外的分区类别，第二类数据查询方案为将各个分区的分区查询结果依据第一目标特征合并后得到目标查询结果的方案；确定多个数据查询方案中的每个数据查询方案的代价指标，并执行代价指标最小的数据查询方案，其中，代价指标至少用于指示执行数据查询方案时的预估时间。

根据本申请实施例，提供了一种电子设备，电子设备包括处理器和存储器，处理器用于运行存储在存储器中的程序，其中，程序运行时执行如下数据查询方法：接收查询语句，并依据查询语句确定第一目标特征，其中，第一目标特征为与查询语句对应的目标查询结果所具有的特征；在待查询数据库中确定目标数据表，其中，目标数据表中包括多种不同分区类别的数据分区，不同的分区类别对应的第二目标特征不同，并且同一类别下的数据分区具有相同的第二目标特征；依据第一目标特征和第二目标特征，确定多个数据查询方案，多个数据查询方案包括多个第一类数据查询方案和一个第二类数据查询方案，其中，每个第一类数据查询方案唯一对应一个分区类别，第一类数据查询方案为将第二分区类别对应的分区查询结果合并到第一分区类别对应的分区查询结果中得到目标查询结果的方案，第二分区类别为目标数据表中的任意分区类别，第一分区类别为除第二分区类别之外的分区类别，第二类数据查询方案为将各个分区的分区查询结果依据第一目标特征合并后得到目标查询结果的方案；确定多个数据查询方案中的每个数据查询方案的代价指标，并执行代价指标最小的数据查询方案，其中，代价指标至少用于指示执行数据查询方案时的预估时间。

根据本申请实施例，提供了一种计算机程序产品,包括计算机程序。计算机程序在被处理器执行时实现如下数据查询方法：接收查询语句，并依据查询语句确定第一目标特征，其中，第一目标特征为与查询语句对应的目标查询结果所具有的特征；在待查询数据库中确定目标数据表，其中，目标数据表中包括多种不同分区类别的数据分区，不同的分区类别对应的第二目标特征不同，并且同一类别下的数据分区具有相同的第二目标特征；依据第一目标特征和第二目标特征，确定多个数据查询方案，多个数据查询方案包括多个第一类数据查询方案和一个第二类数据查询方案，其中，每个第一类数据查询方案唯一对应一个分区类别，第一类数据查询方案为将第二分区类别对应的分区查询结果合并到第一分区类别对应的分区查询结果中得到目标查询结果的方案，第二分区类别为目标数据表中的任意分区类别，第一分区类别为除第二分区类别之外的分区类别，第二类数据查询方案为将各个分区的分区查询结果依据第一目标特征合并后得到目标查询结果的方案；确定多个数据查询方案中的每个数据查询方案的代价指标，并执行代价指标最小的数据查询方案，其中，代价指标至少用于指示执行数据查询方案时的预估时间。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对相关技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种数据库数据查询方法，其特征在于，包括：

接收查询语句，并依据所述查询语句确定第一目标特征，其中，所述第一目标特征为与所述查询语句对应的目标查询结果所具有的特征；

在待查询数据库中确定目标数据表，其中，所述目标数据表中包括多种不同分区类别的数据分区，不同的分区类别对应的第二目标特征不同，并且同一类别下的数据分区具有相同的第二目标特征，其中，所述第二目标特征为依据所述查询语句确定的对所述数据分区进行分类时所依据的数据特征的具体类型；

依据所述第一目标特征和所述第二目标特征，确定多个数据查询方案，所述多个数据查询方案包括多个第一类数据查询方案和一个第二类数据查询方案，其中，每个所述第一类数据查询方案唯一对应一个所述分区类别，所述第一类数据查询方案为将第二分区类别对应的分区查询结果合并到第一分区类别对应的分区查询结果中得到所述目标查询结果的方案，所述第二分区类别为所述目标数据表中的任意分区类别，所述第一分区类别为除所述第二分区类别之外的分区类别，所述第二类数据查询方案为将各个分区的分区查询结果依据所述第一目标特征合并后得到所述目标查询结果的方案；

依据所述第一目标特征和所述第二目标特征，确定多个数据查询方案包括：依据所述第一目标特征和所述第二目标特征，从多个所述分区类别中确定目标分区类别，其中，所述目标分区类别包括第一类目标分区类别和第二类目标分区类别，所述第一类目标分区类别对应的所述第二目标特征中包含有所述第一目标特征，所述第二类目标分区类别对应的所述第二目标特征中包含有与所述第一目标特征相近的特征；确定所述目标分区类别对应的所述第一类数据查询方案；

确定所述多个数据查询方案中的每个数据查询方案的代价指标，并执行所述代价指标最小的所述数据查询方案，其中，所述代价指标至少用于指示执行所述数据查询方案时的预估时间。

2.根据权利要求1所述的数据库数据查询方法，其特征在于，所述接收查询语句，并依据所述查询语句确定第一目标特征的步骤之前，所述数据库数据查询方法还包括：

确定各个所述数据分区对应的数据存储格式，以及各个所述数据分区对应的数据排列特征；

依据所述数据存储格式和所述数据排列特征确定各个所述数据分区对应的分区类别，其中，各个所述数据分区对应至少一个分区类别。

3.根据权利要求1所述的数据库数据查询方法，其特征在于，所述接收查询语句，并依据所述查询语句确定第一目标特征的步骤包括：

依据所述查询语句，确定所述目标查询结果的查询类别；

依据所述查询类别，确定所述第一目标特征。

4.根据权利要求1所述的数据库数据查询方法，其特征在于，所述依据所述第一目标特征和所述第二目标特征，确定多个数据查询方案的步骤包括：

获取不同类别的数据分区对应的类别统计信息和通用统计信息；

依据所述类别统计信息和所述通用统计信息确定所述不同分区类别对应的分区最优查询方案，以及执行所述分区最优查询方案后各个分区类别对应的分区查询结果；

依据所述第一目标特征，所述第二目标特征和所述分区查询结果，确定所述第一类数据查询方案的第一类数据处理流程，以及所述第二类数据查询方案的第二类数据处理流程。

5.根据权利要求4所述的数据库数据查询方法，其特征在于，所述第一类数据处理流程包括将不同的所述第二分区类别的数据分区的分区查询结果融合到所述第一分区类别的数据分区时对各个所述第二分区类别的数据分区执行的分区数据调整操作，以及依据所述第一目标特征对融合查询结果进行调整的融合数据调整操作，所述第二类数据处理流程包括合并所述不同类别的数据分区的查询结果时采用的合并操作，以及依据所述第一目标特征对所述合并操作得到的合并结果执行的数据调整操作。

6.根据权利要求5所述的数据库数据查询方法，其特征在于，所述确定所述多个数据查询方案中的每个数据查询方案的代价指标的步骤包括：

依据所述第一类数据查询方案中的所述分区数据调整操作和所述融合数据调整操作，预测所述第一类数据查询方案对应的所述代价指标；

依据所述第二类数据查询方案中的所述合并操作，预测所述第二类数据查询方案对应的所述代价指标。

7.根据权利要求4所述的数据库数据查询方法，其特征在于，所述通用统计信息包括以下至少之一：数据分布相关性，高频值；所述类别统计信息为依据所述不同类别的数据分区的所述第二目标特征确定的统计信息。

8.一种数据库数据查询装置，其特征在于，包括：

识别模块，用于接收查询语句，并依据所述查询语句确定第一目标特征，其中，所述第一目标特征为与所述查询语句对应的目标查询结果所具有的特征；

检索模块，用于在待查询数据库中确定目标数据表，其中，所述目标数据表中包括多种不同分区类别的数据分区，不同的分区类别对应的第二目标特征不同，并且同一类别下的数据分区具有相同的第二目标特征，其中，所述第二目标特征为依据所述查询语句确定的对所述数据分区进行分类时所依据的数据特征的具体类型；

计算模块，用于依据所述第一目标特征和所述第二目标特征，确定多个数据查询方案，所述多个数据查询方案包括多个第一类数据查询方案和一个第二类数据查询方案，其中，每个所述第一类数据查询方案唯一对应一个所述分区类别，所述第一类数据查询方案为将第二分区类别对应的分区查询结果合并到第一分区类别对应的分区查询结果中得到所述目标查询结果的方案，所述第二分区类别为所述目标数据表中的任意分区类别，所述第一分区类别为除所述第二分区类别之外的分区类别，所述第二类数据查询方案为将各个分区的分区查询结果依据所述第一目标特征合并后得到所述目标查询结果的方案；

处理模块，用于确定所述多个数据查询方案中的每个数据查询方案的代价指标，并执行所述代价指标最小的所述数据查询方案，其中，所述代价指标至少用于指示执行所述数据查询方案时的预估时间。

9.一种非易失性存储介质，其特征在于，所述非易失性存储介质中存储有程序，其中，在所述程序运行时控制所述非易失性存储介质所在设备执行权利要求1至7中任意一项所述的数据库数据查询方法。

10.一种电子设备，其特征在于，包括：存储器和处理器，所述处理器用于运行存储在所述存储器中的程序，其中，所述程序运行时执行权利要求1至7中任意一项所述的数据库数据查询方法。