CN115237920A

CN115237920A - 面向负载的数据索引推荐方法及其装置、存储介质

Info

Publication number: CN115237920A
Application number: CN202210908781.9A
Authority: CN
Inventors: 瞿晓阳; 王健宗; 王亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2022-07-29
Filing date: 2022-07-29
Publication date: 2022-10-25

Abstract

本申请实施例提供了一种面向负载的数据索引推荐方法及其装置、存储介质，属于数据处理技术领域。该方法包括：对SQL语句进行代价测试，得到SQL语句的第一执行代价；根据预定义字段集生成虚拟索引集；从虚拟索引集中选择一个虚拟索引作为目标虚拟索引；根据第一执行代价和最小执行代价，得到SQL语句的收益代价；根据收益代价得到目标虚拟索引的推荐评估值；从负载对应的所有目标虚拟索引中，选择推荐评估值符合预设推荐条件的若干个目标虚拟索引作为推荐索引集。本申请实施例通过全面解析负载中的各条SQL语句而智能化地为负载提供合适的推荐索引集，能够为用户提供良好的交互体验，并且无需耗费较多代价，具有良好的应用前景。

Description

面向负载的数据索引推荐方法及其装置、存储介质

技术领域

本申请实施例涉及但不限于数据处理技术领域，尤其涉及一种面向负载的数据索引推荐方法及装置、电子设备、计算机可读存储介质。

背景技术

在数据库中，索引对于结构化查询语言(Structured Query Language，SQL)查询性能非常重要，一个恰当的索引能够让SQL的执行方式从全表扫描变成走索引查询，可能使得查询时间能够降低一个数量级，从而获得较为可观的性能提升。目前，在给定应用场景下的工作负载的查询模式一般由人力配合实现，属于比较固定的方式，无法实现智能化查询，因此无法为用户提供良好的交互体验，且还存在着耗费代价高的问题。因此，如何提升工作负载的查询方式的智能化程度，成为了亟待解决的技术问题。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本申请实施例的主要目的在于提出一种面向负载的数据索引推荐方法及装置、电子设备、计算机可读存储介质，旨在提供智能化的索引查询方式。

为实现上述目的，本申请实施例的第一方面提出了一种面向负载的数据索引推荐方法，所述负载包括多条SQL语句，所述方法包括：

对于每条所述SQL语句，对所述SQL语句进行代价测试，得到所述SQL语句的第一执行代价；

根据预定义字段集生成虚拟索引集，其中，所述虚拟索引集包括多个虚拟索引，所述SQL语句分别与每个所述虚拟索引对应，所述预定义字段集为根据所述SQL语句构建得到；

从所述虚拟索引集中选择一个所述虚拟索引作为目标虚拟索引，其中，所述目标虚拟索引对应于所述SQL语句的最小执行代价；

根据所述第一执行代价和所述最小执行代价，得到所述SQL语句的收益代价；

根据所述收益代价得到所述目标虚拟索引的推荐评估值；

从所述负载对应的所有所述目标虚拟索引中，选择所述推荐评估值符合预设推荐条件的若干个所述目标虚拟索引作为推荐索引集。

根据本申请实施例提供的数据索引推荐方法，至少具有如下有益效果：

对于负载的各条SQL语句，通过对其进行代价测试以获取第一执行代价，并且为SQL语句生成相应的虚拟索引集，进而从所生成的虚拟索引集中选择一个对应于SQL语句的最小执行代价的虚拟索引作为目标虚拟索引，以便于基于第一执行代价和最小执行代价，得到SQL语句的收益代价，从而根据收益代价得到目标虚拟索引的推荐评估值，因此能够从负载对应的所有目标虚拟索引中，根据各个目标虚拟索引的推荐评估值选择得到符合要求的推荐索引集；上述整个索引推荐过程中，通过全面解析负载中的各条SQL语句而智能化地为负载提供合适的推荐索引集，能够为用户提供良好的交互体验，并且无需耗费较多代价，具有良好的应用前景。

在一些实施例，从所述虚拟索引集中选择一个所述虚拟索引作为目标虚拟索引，包括：

对于每个所述虚拟索引，将所述虚拟索引添加到所述SQL语句；

对携带有所述虚拟索引的所述SQL语句进行代价测试，得到所述SQL语句的第二执行代价；

从所述虚拟索引集中，选择对应的所述第二执行代价最小的一个所述虚拟索引作为目标虚拟索引。

在原有的SQL语句的基础上，将虚拟索引添加到SQL语句以便于对携带有虚拟索引的SQL语句再次进行代价测试而得到第二执行代价，也就是说，可以得到在虚拟索引增益的情况下对应的SQL语句的执行代价，该执行代价与已测试得到的第一执行代价构成区别，并且从虚拟索引集中，选择对应的第二执行代价最小的一个虚拟索引作为目标虚拟索引，即可以选出对于执行代价增益影响最大的虚拟索引作为目标虚拟索引。

在一些实施例，选择所述推荐评估值符合预设推荐条件的若干个所述目标虚拟索引作为推荐索引集之后，还包括：

从除所述推荐评估值符合预设推荐条件的若干个所述目标虚拟索引之外的其余所述目标虚拟索引中，多次随机地选择至少一个所述目标虚拟索引替换至少一个所述推荐索引集中的所述目标虚拟索引，得到多个优化推荐索引集；

计算所有所述优化推荐索引集的总执行代价；

从所有所述优化推荐索引集中，选择所述总执行代价最小的一个所述优化推荐索引集作为新的所述推荐索引集。

考虑到单个目标虚拟索引可能对多条SQL语句都具有增益影响的情况，因此可以对所得到的推荐索引集进行进一步优化，即从剩余的目标虚拟索引中，多次随机地选择若干目标虚拟索引以替换原有的推荐索引集中的目标虚拟索引，进而对于替换后的推荐索引集进行总执行代价计算，以选择总执行代价最小的一个优化推荐索引集作为新的推荐索引集，通过这种随机替换目标虚拟索引的方式有利于找到更加符合要求的推荐索引集。

在一些实施例，预设推荐条件包括预设数量，所述选择所述推荐评估值符合预设推荐条件的若干个所述目标虚拟索引作为推荐索引集，包括：

对各个所述目标虚拟索引按照所述推荐评估值由大到小进行排序，得到目标虚拟索引序列；

在所述目标虚拟索引序列中，从第一个所述目标虚拟索引开始按序选择目标数量的所述目标虚拟索引作为推荐索引集，其中，所述目标数量不超过所述预设数量。

通过对各个目标虚拟索引按照推荐评估值由大到小进行排序得到目标虚拟索引序列，从而可以从目标虚拟索引序列的前面部分中选择相应的目标虚拟索引作为推荐索引集，由于设置了目标数量的限制，因此可以确保所选择得到的目标虚拟索引的数量能够符合预设要求，防止出现错误选择的情况。

在一些实施例，对所述SQL语句进行代价测试，包括：

将所述SQL语句输入到预设数据库；

通过所述预设数据库中的优化器执行所述SQL语句，得到由所述优化器记录的所述SQL语句的第一执行代价。

利用预设数据库中的优化器具有的索引推荐功能可以得到SQL语句的执行代价，也就是说，可以利用优化器执行SQL语句以记录SQL语句的第一执行代价，从而能够确保可靠地获得SQL语句的执行代价。

在一些实施例，预定义字段集包括多个预定义字段，所述根据预定义字段集生成虚拟索引集，包括：

按照预设排列组合规则对多个所述预定义字段进行排列组合，得到多个所述虚拟索引以生成所述虚拟索引集。

通过预设排列组合规则对多个预定义字段进行排列组合，可以得到多种不同的虚拟索引，有利于获取到更多个作为备选的虚拟索引，从而在后续的步骤中基于所得到的多个虚拟索引进行进一步地筛选得到目标虚拟索引。

在一些实施例，根据所述收益代价得到所述目标虚拟索引的推荐评估值，包括：

对所述收益代价进行归一化处理，得到所述目标虚拟索引的推荐评估值。

通过对收益代价进行归一化可以转换得到标准数值下的收益代价，以此作为目标虚拟索引的推荐评估值，以便于在对多个推荐评估值进行选择时，具有更好的检测场景适用度，有利于提高获取目标虚拟索引的推荐评估值的准确度。

为实现上述目的，本申请实施例的第二方面提出了一种面向负载的数据索引推荐装置，所述负载包括多条SQL语句，所述装置包括：

第一处理模块，用于对于每条所述SQL语句，对所述SQL语句进行代价测试，得到所述SQL语句的第一执行代价；

第二处理模块，用于根据预定义字段集生成虚拟索引集，其中，所述虚拟索引集包括多个虚拟索引，所述SQL语句分别与每个所述虚拟索引对应，所述预定义字段集为根据所述SQL语句构建得到；

第三处理模块，用于从所述虚拟索引集中选择一个所述虚拟索引作为目标虚拟索引，其中，所述目标虚拟索引对应于所述SQL语句的最小执行代价；

第四处理模块，用于根据所述第一执行代价和所述最小执行代价，得到所述SQL语句的收益代价；

第五处理模块，用于根据所述收益代价得到所述目标虚拟索引的推荐评估值；

第六处理模块，用于从所述负载对应的所有所述目标虚拟索引中，选择所述推荐评估值符合预设推荐条件的若干个所述目标虚拟索引作为推荐索引集。

为实现上述目的，本申请实施例的第三方面提出了一种电子设备，所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线，所述程序被所述处理器执行时实现上述第一方面所述的方法。

为实现上述目的，本申请实施例的第四方面提出了一种存储介质，所述存储介质为计算机可读存储介质，用于计算机可读存储，所述存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述第一方面所述的方法。

本申请提出的一种面向负载的数据索引推荐方法及其装置、存储介质，对于负载的各条SQL语句，通过对其进行代价测试以获取第一执行代价，并且为SQL语句生成相应的虚拟索引集，进而从所生成的虚拟索引集中选择一个对应于SQL语句的最小执行代价的虚拟索引作为目标虚拟索引，以便于基于第一执行代价和最小执行代价，得到SQL语句的收益代价，从而根据收益代价得到目标虚拟索引的推荐评估值，因此能够从负载对应的所有目标虚拟索引中，根据各个目标虚拟索引的推荐评估值选择得到符合要求的推荐索引集；上述整个索引推荐过程中，通过全面解析负载中的各条SQL语句而智能化地为负载提供合适的推荐索引集，能够为用户提供良好的交互体验，并且无需耗费较多代价，具有良好的应用前景。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

图1是本申请实施例提供的数据索引推荐方法的流程图；

图2是图1中一个实施例提供的步骤S101的流程图；

图3是图1中一个实施例提供的步骤S102的流程图；

图4是图1中一个实施例提供的步骤S103的流程图；

图5是图1中一个实施例提供的步骤S106的流程图；

图6是图1中一个实施例提供的步骤S106之后的流程图；

图7是本申请实施例提供的数据索引推荐装置的结构示意图；

图8是本申请实施例提供的电子设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

首先，对本申请中涉及的若干名词进行解析：

SQL：为一种特殊目的的编程语言，是一种数据库查询和程序设计语言，用于存取数据以及查询、更新和管理关系数据库系统。SQL是高级的非过程化编程语言，允许用户在高层数据结构上工作。它不要求用户指定对数据的存放方法，也不需要用户了解具体的数据存放方式，所以具有完全不同底层结构的不同数据库系统,可以使用相同的结构化查询语言作为数据输入与管理的接口，可以嵌套，这使它具有极大的灵活性和强大的功能。

SQL数据库：为具有数据操纵和数据定义等多种功能的数据库语言，这种语言具有交互性特点，能为用户提供极大的便利。SQL语言不仅能独立应用于终端，还可以作为子语言为其他程序设计提供有效助力，该程序应用中，SQL可与其他程序语言一起优化程序功能，进而为用户提供更多更全面的信息。SQL数据库包括Microsoft SQL Server以及SybaseSQL Server两个子数据库，该数据库能否正常运行关系着整个计算机系统的运行安全。

目前，关系型数据库(例如MySQL、PostgreSQL)对一条SQL语句的优化可以分为两个阶段，即逻辑优化和物理优化。逻辑优化是基于规则的优化，根据规则做一些等价逻辑变换，例如列裁剪、谓词下推；物理优化是基于代价的优化，它会根据统计信息来决定哪一种方式代价最低，为逻辑算子选择具体的实现，例如查询的时候是否依靠索引，连接的时候是选择哈希joi n还是归并joi n。

另外，在为工作负载推荐索引时，首先考虑两个现实的局限：

一、不可能或者说不适宜于实际地去执行工作负载里面的SQL语句。虽然执行时间是衡量索引性能最客观的指标，但得到执行时间的代价太大，所以可以找近似执行时间的变量以代替，比如SQL优化器输出的代价cost，即本申请所涉及的执行代价，均表达相同的意思。为了使cost能更准确地反映实际的执行时间，可以向优化器提供尽可能准确的索引统计数据。

二、不可能或者说不适宜在表上真正新建所有可能的索引。建索引的开销是巨大的，而且如果不真正执行工作负载里面的SQL语句，只使用SQL优化器输出的cost，在表上建索引意义不大。对于SQL优化器而言，只需在统计信息里加上可能的索引对应的统计信息，便可得到表上存在这些可能的索引时的当前SQL语句的cost。

基于此，本申请实施例提供了一种面向负载的数据索引推荐方法及其装置、存储介质，对于负载的各条SQL语句，通过对其进行代价测试以获取第一执行代价，并且为SQL语句生成相应的虚拟索引集，进而从所生成的虚拟索引集中选择一个对应于SQL语句的最小执行代价的虚拟索引作为目标虚拟索引，以便于基于第一执行代价和最小执行代价，得到SQL语句的收益代价，从而根据收益代价得到目标虚拟索引的推荐评估值，因此能够从负载对应的所有目标虚拟索引中，根据各个目标虚拟索引的推荐评估值选择得到符合要求的推荐索引集；上述整个索引推荐过程中，通过全面解析负载中的各条SQL语句而智能化地为负载提供合适的推荐索引集，能够为用户提供良好的交互体验，并且无需耗费较多代价，具有良好的应用前景。

本申请实施例提供的面向负载的数据索引推荐方法及装置、电子设备、计算机可读存储介质，具体通过如下实施例进行说明，首先描述本申请实施例中的数据索引推荐方法。

本申请实施例提供的数据索引推荐方法，涉及数据处理技术领域。本申请实施例提供的数据索引推荐方法可应用于终端中，也可应用于服务器端中，还可以是运行于终端或服务器端中的软件。在一些实施例中，终端可以是智能手机、平板电脑、笔记本电脑、台式计算机等；服务器端可以配置成独立的物理服务器，也可以配置成多个物理服务器构成的服务器集群或者分布式系统，还可以配置成提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN以及大数据和人工智能平台等基础云计算服务的云服务器；软件可以是实现数据索引推荐方法的应用等，但并不局限于以上形式。

本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

图1是本申请实施例提供的面向负载的数据索引推荐方法的一个可选的流程图，其中，负载包括多条SQL语句，图1中的方法可以但不限于包括步骤S101至步骤S106。

步骤S101，对于每条SQL语句，对SQL语句进行代价测试，得到SQL语句的第一执行代价；

步骤S102，根据预定义字段集生成虚拟索引集，其中，虚拟索引集包括多个虚拟索引，SQL语句分别与每个虚拟索引对应，预定义字段集为根据SQL语句构建得到；

步骤S103，从虚拟索引集中选择一个虚拟索引作为目标虚拟索引，其中，目标虚拟索引对应于SQL语句的最小执行代价；

步骤S104，根据第一执行代价和最小执行代价，得到SQL语句的收益代价；

步骤S105，根据收益代价得到目标虚拟索引的推荐评估值；

步骤S106，从负载对应的所有目标虚拟索引中，选择推荐评估值符合预设推荐条件的若干个目标虚拟索引作为推荐索引集。

本申请实施例所示意的步骤S101至步骤S106，对于负载的各条SQL语句，通过对其进行代价测试以获取第一执行代价，并且为SQL语句生成相应的虚拟索引集，进而从所生成的虚拟索引集中选择一个对应于SQL语句的最小执行代价的虚拟索引作为目标虚拟索引，以便于基于第一执行代价和最小执行代价，得到SQL语句的收益代价，从而根据收益代价得到目标虚拟索引的推荐评估值，因此能够从负载对应的所有目标虚拟索引中，根据各个目标虚拟索引的推荐评估值选择得到符合要求的推荐索引集；上述整个索引推荐过程中，通过全面解析负载中的各条SQL语句而智能化地为负载提供合适的推荐索引集，能够为用户提供良好的交互体验，并且无需耗费较多代价，具有良好的应用前景。

需要强调的是，负载的数量可以根据具体应用场景进行设置，且本申请实施例可以同时对于多个负载的SQL语句执行如步骤S101至步骤S106的索引推荐方法，此处并未限定。

在一些实施例的步骤S101中，对SQL语句进行代价测试的方式可以为多种，此处并未限定。例如，可以基于确定好的优化器对该SQL语句进行测试，或者，可以基于数据库中的优化器对该SQL语句进行测试等，此处并未限定，以下给出具体实施例进行说明。

请参阅图2，在一些实施例中，步骤S101可以但不限于包括步骤S201至步骤S202。

步骤S201，将SQL语句输入到预设数据库；

步骤S202，通过预设数据库中的优化器执行SQL语句，得到由优化器记录的SQL语句的第一执行代价。

本步骤中，利用预设数据库中的优化器具有的索引推荐功能可以得到SQL语句的执行代价，也就是说，可以利用优化器执行SQL语句以记录SQL语句的第一执行代价，从而能够确保可靠地获得SQL语句的执行代价。

在一些实施例的步骤S201中，预设数据库的类型不做限定，具体根据当前测试环境以及测试条件来进行确定。例如，可以为本领域常见的关系数据库，或者，可以为自定义的一些数据库，即只要该数据库具备优化器执行功能，均可能作为本申请实施例中的预设数据库。

在一些实施例的步骤S202中，通过优化器执行SQL语句属于本领域技术人员所熟知的，故在此对其不作赘述；优化器类型可以根据实际应用场景进行选择，此处并未限定。

在一些实施例的步骤S102中，虚拟索引与实际的推荐索引相对应，表达可能作为索引的含义，也就是说，需要从多个虚拟索引中最终找到符合要求的虚拟索引以之作为实际的推荐索引；不同SQL语句的预定义字段集可以为不同的，但并未限定；由于SQL语句分别与每个虚拟索引对应，因此可以分别针对每个虚拟索引与该SQL语句的组合进行测试，以进一步判定哪些虚拟索引能够为SQL语句带来增益影响，以下给出具体实施例进行说明。

请参阅图3，在一些实施例中，当预定义字段集包括多个预定义字段，步骤S102可以但不限于包括步骤S301。

步骤S301，按照预设排列组合规则对多个预定义字段进行排列组合，得到多个虚拟索引以生成虚拟索引集。

本步骤中，通过预设排列组合规则对多个预定义字段进行排列组合，可以得到多种不同的虚拟索引，有利于获取到更多个作为备选的虚拟索引，从而在后续的步骤中基于所得到的多个虚拟索引进行进一步地筛选得到目标虚拟索引。

在一些实施例的步骤S301中，预设排列组合规则可以自行设定，此处并未限定；由于不同SQL语句的预定义字段的数量和类型均可能不相同，因此对于单个SQL语句而言，最终生成的对应的多个虚拟索引可以是不同的，但也不排除可能出现重合的部分，这均属于正常情况。

以下给出一个具体示例对上述各实施例的工作原理及流程进行说明，但不应理解为对步骤S201、步骤S202和步骤S301的限制。

示例一：

让SQL语句过一遍优化器，记录当前cost，并分析SQL语句当中的列，对于一条SQL语句来说，可以为它构建4个字段集合，分别是EQ、O、RANGE和REF：

具体地，将SQL语句当中等号两边的字段放到集合EQ中，order by、group by后面出现的字段还有join条件两边出现的字段放到集合O中，范围条件两边的字段放到集合RANGE中，其他的字段放到集合REF中。

例如，对于“Select t.id,t.age from t where t.a＝1and t.b＝2and t.c>3order by t.d,t.e desc”这条SQL语句来说，EQ＝{a,b}，O＝{[id],[d,e]}，RANGE＝{c}，REF＝{age}。

待构建出上述的字段集合之后，可以根据6种特定规则对这4个集合当中的字段进行排列组合，建立虚拟索引，其中，6种排列组合规则如下所示：①EQ+O、②EQ+O+RANGE、③EQ+O+RANGE+REF、④O+EQ、⑤O+EQ+RANGE以及⑥O+EQ+RANGE+REF。

对于上述示例的SQL语句来说，根据这6种规则则可以建立24条虚拟索引。这里以规则②举例，根据规则②建立的虚拟索引可以有4条，分别为：[a,i d,c]、[b,i d,c]、[a,d,e,c]以及[b,d,e,c]。

在一些实施例的步骤S103中，目标虚拟索引对应于SQL语句的最小执行代价，则表明目标虚拟索引对于SQL语句的执行代价的增益影响最大，也就是说，所得到的目标虚拟索引能够符合SQL语句的执行需求。

请参阅图4，在一些实施例中，步骤S103可以但不限于包括步骤S401至步骤S403。

步骤S401，对于每个虚拟索引，将虚拟索引添加到SQL语句；

步骤S402，对携带有虚拟索引的SQL语句进行代价测试，得到SQL语句的第二执行代价；

步骤S403，从虚拟索引集中，选择对应的第二执行代价最小的一个虚拟索引作为目标虚拟索引。

本步骤中，在原有的SQL语句的基础上，将虚拟索引添加到SQL语句以便于对携带有虚拟索引的SQL语句再次进行代价测试而得到第二执行代价，也就是说，可以得到在虚拟索引增益的情况下对应的SQL语句的执行代价，该执行代价与已测试得到的第一执行代价构成区别，并且从虚拟索引集中，选择对应的第二执行代价最小的一个虚拟索引作为目标虚拟索引，即可以选出对于执行代价增益影响最大的虚拟索引作为目标虚拟索引。

在一些实施例的步骤S402中，对携带有虚拟索引的SQL语句进行代价测试而得到SQL语句的第二执行代价，与上述实施例中的步骤S101、步骤S201至步骤S202的工作原理相类似，均用于实现执行代价的测试，所以本实施例的步骤S402的具体实现方式可以参照前述实施例中的步骤S101、步骤S201至步骤S202的具体实现方式，为免冗余，在此不作赘述。

在一些实施例的步骤S104中，可以但不限于将第一执行代价与最小执行代价相减，即可得到SQL语句的收益代价。

在一些实施例的步骤S104中，可以设置收益代价的预设评估值，即通过预设评估值与计算得到的收益代价进行比较，若收益代价相比于预设评估值处于一个合理的预设范围内，则说明该收益代价为正常的，那么可以确定上述执行SQL语句的两个过程是正常无误的，否则可以确定上述执行SQL语句的两个过程可能存在问题，在这种情况下，考虑不将该收益代价进行保留，不将其用于后续的步骤判断中，以提升整体索引推荐的稳定性和准确性。

在一些实施例的步骤S104中，考虑新建索引所占的物理空间的影响，还可以将各个虚拟索引的第二执行代价除以该虚拟索引所占字节数的结果，作为另一种量化指标以替代收益代价，也能够起到类似的量化评估效果，此处并未限定。

为了更好的说明本申请上述各实施例的工作原理及流程，以下结合具体示例进行说明。

示例二：

首先，让SQL语句过一遍优化器，记录当前cost，并分析SQL语句当中的列，对于一条SQL语句来说，可以为它构建4个字段集合，分别是EQ、O、RANGE和REF：

对于上述示例的SQL语句来说，根据这6种规则则可以建立24条虚拟索引。

然后，使得SQL语句带着这些虚拟索引再过一遍优化器，在物理优化阶段就可以估算出所建立的虚拟索引能够对SQL语句有多少性能提升，选出使SQL语句执行代价最低的虚拟索引，以之作为目标虚拟索引，该执行代价记为new cost，记录benefit cost＝cost-newcost，benefit cost即为收益代价。

在一些实施例中，步骤S105可以但不限于包括步骤S501。

步骤S501，对收益代价进行归一化处理，得到目标虚拟索引的推荐评估值。

本步骤中，通过对收益代价进行归一化可以转换得到标准数值下的收益代价，以此作为目标虚拟索引的推荐评估值，以便于在对多个推荐评估值进行选择时，具有更好的检测场景适用度，有利于提高获取目标虚拟索引的推荐评估值的准确度。

在一些实施例的步骤S501中，归一化处理属于数据处理领域中较为常见的技术，为本领域技术人员所熟知，为免冗余，在此对其不作赘述。

在一些实施例的步骤S106中，预设推荐条件的类型和形式可以为多种，此处并未限定。例如，可以将预设推荐条件具体设置为数量限制条件、推荐评估值限制条件或者上述限制条件的组合等，通过设置阈值的方式进行呈现并判断。

在一些实施例的步骤S106中，作为推荐索引集的目标虚拟索引的数量可以为预设好的，也可以为根据预设推荐条件所确定，此处并未限制。

请参阅图5，在一些实施例中，当预设推荐条件包括预设数量，步骤S106可以但不限于包括步骤S601至步骤S602。

步骤S601，对各个目标虚拟索引按照推荐评估值由大到小进行排序，得到目标虚拟索引序列；

步骤S602，在目标虚拟索引序列中，从第一个目标虚拟索引开始按序选择目标数量的目标虚拟索引作为推荐索引集，其中，目标数量不超过预设数量。

本步骤中，通过对各个目标虚拟索引按照推荐评估值由大到小进行排序得到目标虚拟索引序列，从而可以从目标虚拟索引序列的前面部分中选择相应的目标虚拟索引作为推荐索引集，由于设置了目标数量的限制，因此可以确保所选择得到的目标虚拟索引的数量能够符合预设要求，防止出现错误选择的情况。

在一些实施例的步骤S602中，目标数量的具体数值可以根据实际应用场景的情况进行选择设置，只要其能够满足不超过预设数量即可。

在一些实施例的步骤S601至步骤S602中，也可以按照推荐评估值由小到大进行排序而得到目标虚拟索引序列，再对目标虚拟索引序列进行筛选，由于该方式与步骤S601至步骤S602的工作原理相类似，故在此不作赘述。

为了更好的说明本申请上述实施例的工作原理及流程，以下结合具体示例进行说明。

示例三：

在上述示例二的基础上，即在得到收益代价benefit cost＝cost-new cost之后，对选出的目标虚拟索引进行评估打分，也就是对性能提升的benefit cost进行归一化得到一个分数，再将虚拟索引和其得分添加到一个全局地图当中，由于索引推荐是根据工作负载来推荐N个索引，但工作负载中的每一条SQL语句都会推荐出一个目标虚拟索引，那么若工作负载中有M条SQL语句，这样的话一轮执行下来就会得到M个目标虚拟索引，这样执行完以后整合工作负载的执行结果，排序得到一张按降序排列的目标虚拟索引得分表，可以考虑从得分表中取前N(N<＝M)个目标虚拟索引作为推荐索引集，其中，预设数量即设置为M。

请参阅图6，在一些实施例中，步骤S106之后还可以但不限于包括步骤S701至步骤S703。

步骤S701，从除推荐评估值符合预设推荐条件的若干个目标虚拟索引之外的其余目标虚拟索引中，多次随机地选择至少一个目标虚拟索引替换至少一个推荐索引集中的目标虚拟索引，得到多个优化推荐索引集；

步骤S702，计算所有优化推荐索引集的总执行代价；

步骤S703,从所有优化推荐索引集中，选择总执行代价最小的一个优化推荐索引集作为新的推荐索引集。

本步骤中，考虑到单个目标虚拟索引可能对多条SQL语句都具有增益影响的情况，因此可以对所得到的推荐索引集进行进一步优化，即从剩余的目标虚拟索引中，多次随机地选择若干目标虚拟索引以替换原有的推荐索引集中的目标虚拟索引，进而对于替换后的推荐索引集进行总执行代价计算，以选择总执行代价最小的一个优化推荐索引集作为新的推荐索引集，通过这种随机替换目标虚拟索引的方式有利于找到更加符合要求的推荐索引集。

在一些实施例的步骤S701中，随机选择替换目标虚拟索引的数量及次数不限定，可以根据具体应用场景进行设置。

在一些实施例的步骤S702中，计算所有优化推荐索引集的总执行代价，与上述实施例中的步骤S101、步骤S201至步骤S202、步骤S402的工作原理相类似，均用于实现执行代价的测试，区别仅在于步骤S702中需要将各个SQL语句的执行代价进行相加汇总，所以本实施例的步骤S702的具体实现方式可以参照前述实施例中的步骤S101、步骤S201至步骤S202、步骤S402的具体实现方式，为免冗余，在此不作赘述。

示例四：

在上述示例三的基础上，考虑到由前N个目标虚拟索引组成的推荐索引集未必是最优的，理由在于这个打分只是针对单条SQL语句，但有些目标虚拟索引可能对每一条SQL语句都有优化影响，然而其实际评估得分相对较低，例如，工作负载中有一条十分耗时的SQL语句，其输出的推荐索引是index1和index2，但在为工作负载推荐索引集合时，只有index1被选中了由于没有index2，在那么仅有index1的情况下，并不能优化之前十分耗时的那条SQL语句，因此还需要一个指标来量化索引集的好坏，可以为假设推荐索引集中的所有目标虚拟索引都存在的情况下，工作负载的总执行cost，当工作负载的总执行cost越小，说明推荐索引集越合理。

针对上述考量，采用Swap and Re-evaluate算法进行进一步优化，具体地：

将表中排序靠后的目标虚拟索引与当前得到的推荐索引集中的目标虚拟索引随机进行交换，且交换多次，分别形成不同的优化推荐索引集，从而对于优化推荐索引集，不断地去计算预设推荐条件下(例如，设定一个时间阈值120s)的工作负载的总执行cost，最后选出使工作负载的总执行cost最小的优化推荐索引集作为最终的推荐索引集。

示例五：

采用本申请实施例的数据索引推荐方法进行仿真实验，以对本申请实施例进行进一步地验证，根据工作负载的不同分为两种验证方式，具体地：

一、以TPC-H作为工作负载进行测试

分别设置推荐索引集中的目标虚拟索引的数量大小为N＝3和N＝6，即最终的推荐索引的个数分别为3和6，仿真结果揭示当在SQL语句上添加所选择的索引后，N＝3时整体的执行时间下降了11％，N＝6时整体的执行时间下降了29.8％。

二、以TPC-DS作为工作负载进行测试

分别设置推荐索引集中的目标虚拟索引的数量大小为N＝13和N＝28，即最终的推荐索引的个数分别为13和28，仿真结果揭示当在SQL语句上添加所选择的索引后，N＝13时整体的执行时间下降了16.1％，N＝28时整体的执行时间下降了33.85％。

根据以上验证结果可知，本申请实施例提出的数据索引推荐方法，根据输入的工作负载智能地为其推荐合适的索引，使得在新建了这些推荐索引后，工作负载的执行时间相比原来实现显著地下降。

请参阅图7，本申请实施例还提供一种面向负载的数据索引推荐装置，可以实现上述数据索引推荐方法，其中，负载包括多条SQL语句，该装置包括：

第一处理模块，用于对于每条SQL语句，对SQL语句进行代价测试，得到SQL语句的第一执行代价；

第二处理模块，用于根据预定义字段集生成虚拟索引集，其中，虚拟索引集包括多个虚拟索引，SQL语句分别与每个虚拟索引对应，预定义字段集为根据SQL语句构建得到；

第三处理模块，用于从虚拟索引集中选择一个虚拟索引作为目标虚拟索引，其中，目标虚拟索引对应于SQL语句的最小执行代价；

第四处理模块，用于根据第一执行代价和最小执行代价，得到SQL语句的收益代价；

第五处理模块，用于根据收益代价得到目标虚拟索引的推荐评估值；

第六处理模块，用于从负载对应的所有目标虚拟索引中，选择推荐评估值符合预设推荐条件的若干个目标虚拟索引作为推荐索引集。

该数据索引推荐装置的具体实施方式与上述数据索引推荐方法的具体实施例基本相同，在此不再赘述。

本申请实施例还提供了一种电子设备，电子设备包括：存储器、处理器、存储在存储器上并可在处理器上运行的程序以及用于实现处理器和存储器之间的连接通信的数据总线，程序被处理器执行时实现上述数据索引推荐方法。该电子设备可以为包括平板电脑、车载电脑等任意智能终端。

请参阅图8，图8示意了另一实施例的电子设备的硬件结构，电子设备包括：

处理器901，可以采用通用的CPU(CentralProcessingUnit，中央处理器)、微处理器、应用专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本申请实施例所提供的技术方案；

存储器902，可以采用只读存储器(ReadOnlyMemory，ROM)、静态存储设备、动态存储设备或者随机存取存储器(RandomAccessMemory，RAM)等形式实现。存储器902可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器902中，并由处理器901来调用执行本申请实施例的数据索引推荐方法；

输入/输出接口903，用于实现信息输入及输出；

通信接口904，用于实现本设备与其他设备的通信交互，可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信；

总线905，在设备的各个组件(例如处理器901、存储器902、输入/输出接口903和通信接口904)之间传输信息；

其中处理器901、存储器902、输入/输出接口903和通信接口904通过总线905实现彼此之间在设备内部的通信连接。

本申请实施例还提供了一种存储介质，存储介质为计算机可读存储介质，用于计算机可读存储，存储介质存储有一个或者多个程序，一个或者多个程序可被一个或者多个处理器执行，以实现上述的数据索引推荐方法。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请实施例提供的面向负载的数据索引推荐方法、数据索引推荐装置、电子设备及存储介质，对于负载的各条SQL语句，通过对其进行代价测试以获取第一执行代价，并且为SQL语句生成相应的虚拟索引集，进而从所生成的虚拟索引集中选择一个对应于SQL语句的最小执行代价的虚拟索引作为目标虚拟索引，以便于基于第一执行代价和最小执行代价，得到SQL语句的收益代价，从而根据收益代价得到目标虚拟索引的推荐评估值，因此能够从负载对应的所有目标虚拟索引中，根据各个目标虚拟索引的推荐评估值选择得到符合要求的推荐索引集；上述整个索引推荐过程中，通过全面解析负载中的各条SQL语句而智能化地为负载提供合适的推荐索引集，能够为用户提供良好的交互体验，并且无需耗费较多代价，具有良好的应用前景。

本申请实施例描述的实施例是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域技术人员可知，随着技术的演变和新应用场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本领域技术人员可以理解的是，图1-6中示出的技术方案并不构成对本申请实施例的限定，可以包括比图示更多或更少的步骤，或者组合某些步骤，或者不同的步骤。

上述对本申请特定实施例进行了描述，其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，附图中描绘的过程不一定必须按照示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备、计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的装置、设备、计算机可读存储介质与方法是对应的，因此，装置、设备、非易失性计算机存储介质也具有与对应方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述对应装置、设备、计算机存储介质的有益技术效果。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。

例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable Gate Array，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，例如:

ABEL(Advanced Boolean Expression Language)；AHDL(Altera HardwareDescription Language)；Confluence；CUPL(Cornell University ProgrammingLanguage)；HDCal；以及JHDL(Java Hardware Description Language)；Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等；目前，在本领域技术之中，相比之下更加较为常用的是VHDL(Very-High-Speed Integrated Circuit HardwareDescription Language)以及语言Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：

ARC 625D、Atmel AT91SAM、MicrochIP地址PIC18F26K20以及Silicone LabsC8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请实施例可提供为方法、系统、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本说明书是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带式磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

本申请实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种面向负载的数据索引推荐方法，其特征在于，所述负载包括多条结构化查询语言SQL语句，所述方法包括：

根据所述收益代价得到所述目标虚拟索引的推荐评估值；

2.根据权利要求1所述的数据索引推荐方法，其特征在于，所述从所述虚拟索引集中选择一个所述虚拟索引作为目标虚拟索引，包括：

3.根据权利要求1所述的数据索引推荐方法，其特征在于，所述选择所述推荐评估值符合预设推荐条件的若干个所述目标虚拟索引作为推荐索引集之后，还包括：

计算所有所述优化推荐索引集的总执行代价；

4.根据权利要求1所述的数据索引推荐方法，其特征在于，所述预设推荐条件包括预设数量，所述选择所述推荐评估值符合预设推荐条件的若干个所述目标虚拟索引作为推荐索引集，包括：

5.根据权利要求1所述的数据索引推荐方法，其特征在于，所述对所述SQL语句进行代价测试，包括：

将所述SQL语句输入到预设数据库；

6.根据权利要求1所述的数据索引推荐方法，其特征在于，所述预定义字段集包括多个预定义字段，所述根据预定义字段集生成虚拟索引集，包括：

7.根据权利要求1所述的数据索引推荐方法，其特征在于，所述根据所述收益代价得到所述目标虚拟索引的推荐评估值，包括：

8.一种面向负载的数据索引推荐装置，其特征在于，所述负载包括多条结构化查询语言SQL语句，所述数据索引推荐装置包括：

9.一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的数据索引推荐方法。

10.计算机可读存储介质，其特征在于，存储有计算机可执行指令，所述计算机可执行指令用于执行权利要求1至7中任意一项所述的数据索引推荐方法。