CN103810212B

CN103810212B - 一种数据库索引的自动创建方法及系统

Info

Publication number: CN103810212B
Application number: CN201210457130.9A
Authority: CN
Inventors: 王明
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2012-11-14
Filing date: 2012-11-14
Publication date: 2017-05-24
Anticipated expiration: 2032-11-14
Also published as: CN103810212A

Abstract

一种数据库索引的自动创建方法及系统，该方法包括：获取待审核的数据库操作语句对应的数据源，实例化数据库的连接；对每一待审核的数据库操作语句处理如下：确定该数据库操作语句使用的数据库表及各数据库表中使用到的索引相关字段；从数据源获取所述数据库表已有索引的字段组合；对每一数据库表，在该数据库表中的索引相关字段组成的集合不是该数据库表任一已有索引的字段组合的子集或超集且尚未创建相应数据库索引时，创建数据库索引。本申请还提供了相应的系统。本申请方案根据待审核的数据库操作语句及样本数据实现了索引的自动创建，提高了索引创建的效率。

Description

一种数据库索引的自动创建方法及系统

技术领域

本申请涉及数据库技术，更具体地，涉及数据库索引的创建方法及相应的系统。

背景技术

索引就像是字典中的目录索引一样，帮助用户更快的找到相应的信息。线上运行的数据库的表的数据量很大，建立高效的索引来增加查询和修改的速度是必要的，数据库大表操作反应慢的话还会影响前端的业务。如果对于业务上的需求进行表的操作时没有合适的索引会造成查询和修改的效率低下，严重影响业务。

当新功能上线或者现有功能的逻辑修改时，数据库维护人员要审核即将上线使用的数据库操作语句，例如SQL(结构化查询语言，Structured QueryLanguage)语句，对于每一条语句要分析其业务逻辑和现有的数据情况来为其建立合适的索引。索引的建立一般依靠数据库维护人员对要审核的语句及对业务的理解和经验来实现，这不仅效率低下，而且也难以保存建立的索引的有效性。

发明内容

本申请要解决的技术问题是提供一种数据库索引的自动创建方法及系统。

为了解决上述问题，本申请提供了一种数据库索引的自动创建方法，包括：

获取待审核的数据库操作语句对应的数据源，根据所述数据源实例化数据库的连接，所述数据源中保存有包含样本数据的数据库信息；

对每一待审核的数据库操作语句进行索引创建的处理，如下：

确定该数据库操作语句使用的数据库表及各数据库表中该数据库操作语句使用到的索引相关字段；

从所述数据源获取所述数据库表已有索引的字段组合；及

对每一所述数据库表，在该数据库表中的索引相关字段组成的集合不是该数据库表任一已有索引的字段组合的子集或超集，且尚未创建相应数据库索引时，基于该数据库表中的索引相关字段创建数据库索引。

较佳地，

所述基于该数据库表中的索引相关字段创建数据库索引，包括：

先将该数据库表中的所述索引相关字段排列成字段组合，然后基于该数据库表的该字段组合创建数据库索引；

其中，将该数据库表中的所述索引相关字段排列成字段组合又包括：

所述索引相关字段只有一个时，直接将该索引相关字段作为该字段组合；

所述相关索引字段有多个时，先根据所述数据源中该数据库表的样本数据在每一索引相关字段上的唯一值数，分别确定各索引相关字段的权值，唯一值数越大，权值越大；然后根据所述各索引相关字段的所述权值或其修正值从大到小的顺序将所述索引相关字段排列成字段组合；

较佳地，

根据所述各索引相关字段的所述权值的修正值从大到小的顺序将所述索引相关字段排列成字段组合，其中所述权值的修正值按以下方式得到：

对作为左值的每一索引相关字段，如运算符号是等号，对其权值乘以系数k1，否则对其权值乘以系数k2，得到其权值的修正值，k1＞k2；和/或

对通过动态标签拼接得到的每一索引相关字段，对其权值乘以系数a，得到其权值的修正值，0＜a＜1。

较佳地，

所述数据源中该数据库表的样本数据在该数据库表对应于所述数据源中的多个数据库分表时，指所述多个数据库分表中一个分表的样本数据。

较佳地，

在该数据库表中的索引相关字段组成的集合是该数据库表已有索引的字段组合的子集或超集，且尚未创建相应数据库索引时，将该数据库表中的所述索引相关字段排列成字段组合，如满足以下条件中的至少一个，不创建数据库索引，否则，基于该字段组合创建数据库索引：

该数据库表的该字段组合与该数据表至少一已有索引的字段组合相同；

该数据库表的该字段组合与该数据表至少一已有索引的字段组合中在前的部分组合相同；及

该数据库表的该字段组合中包含该数据库表已有的主键索引或至少一唯一性索引的字段组合。

较佳地，

所述索引相关字段指条件字段和/或排序字段。

较佳地，

所述待审核的数据库操作语句是执行选择操作、更新操作或删除操作的数据库操作语句。

较佳地，

对新创建索引逐一评估，如对应数据库表中已有索引的字段组合是该新创建索引的字段组合中前面的部分组合，通过对应的数据源查看该新创建数据库索引和该已有索引的势值的比值是否小于设定阈值，如果小于，删除该新创建数据库索引，否则保留该新创建数据库索引。

相应地，本申请还提供了一种数据库索引的自动创建系统，包括数据源和索引创建装置，其中：

所述数据源保存有包含样本数据的数据库信息；

所述索引创建装置包括：

数据库连接模块，用于获取待审核的数据库操作语句对应的数据源，根据所述数据源实例化数据库的连接；

索引创建处理模块，用于对每一待审核的数据库操作语句进行索引创建的处理；所述索引创建处理模块又包括：

语句信息获取单元，用于确定该数据库操作语句使用的数据库表及各数据库表中该数据库操作语句使用到的索引相关字段；

数据库信息获取单元，用于从所述数据源获取所述数据库表已有索引的字段组合；及

创建单元，用于对每一所述数据库表，在该数据库表中的索引相关字段组成的集合不是该数据库表任一已有索引的字段组合的子集或超集，且尚未创建相应数据库索引时，基于该数据库表中的索引相关字段创建数据库索引。

较佳地，

所述创建单元基于该数据库表中的索引相关字段创建数据库索引，包括：

较佳地，

所述创建单元根据所述各索引相关字段的所述权值的修正值从大到小的顺序将所述索引相关字段排列成字段组合，其中所述权值的修正值按以下方式得到：

较佳地，

所述创建单元还用于在该数据库表中的索引相关字段组成的集合是该数据库表已有索引的字段组合的子集或超集，且尚未创建相应数据库索引时，将该数据库表中的所述索引相关字段排列成字段组合，如满足以下条件中的至少一个，不创建数据库索引，否则，基于该字段组合创建数据库索引：

较佳地，

所述语句信息获取单元确定的各数据库表中该数据库操作语句使用到的索引相关字段指条件字段和/或排序字段。

较佳地，

所述索引创建处理模块对每一待审核的数据库操作语句进行索引创建的处理，其中，所述待审核的数据库操作语句是执行选择操作、更新操作或删除操作的数据库操作语句。

较佳地，

所述索引创建处理模块还包括：索引优化模块，用于对新创建索引逐一评估，如对应数据库表中已有索引的字段组合是该新创建索引的字段组合中前面的部分组合，通过对应的数据源查看该新创建数据库索引和该已有索引的势值的比值是否小于设定阈值，如果小于，删除该新创建数据库索引，否则保留该新创建数据库索引。

上述方案根据待审核的如要上线的数据库操作语句及样本数据实现了索引的自动创建，提高了索引创建的效率。进一步地，还可以根据样本数据计算、调整索引相关字段的权值，确定合适的字段组合，基于该字段组合创建索引，还可以基于该字段组合与已有索引的字段组合的关系避免创建不必要的索引，提高了所创建的索引的有效性。上述方案还可以对生成的索引进行评估，删除性能与已有索引相差不大的索引，提高系统的整体性能。

附图说明

图1是本申请实施例方法的总体流程图；

图2是图1中步骤120的分解流程图；

图3是图2中步骤230中创建数据库索引的分解流程图；

图4是本申请实施例系统的模块图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下文中将结合附图对本申请的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

如图1所示，本实施例数据库索引的自动创建方法包括：

步骤110，获取待审核的数据库操作语句对应的数据源，根据所述数据源实例化数据库的连接，所述数据源中保存有包含样本数据的数据库信息；

上述数据源可以直接采用待审核的数据库操作语句如SQL语句上线后使用的数据源，也可以采用相应的测试用的数据源，这些数据源中的样本数据的分布可以大致描绘出业务的逻辑，因而可用于自动创建数据库索引。

步骤120，对每一待审核的数据库操作语句进行索引创建的处理。

本实施例中，待审核的数据库操作语句为选择(select)、更新(update)或者删除(delete)操作的语句，建立(insert)语句一般不用来建立索引。这些待审核的语句之前未建立相应的数据库索引。

如图2所示，步骤120又可以细分为以下步骤：

步骤210，确定该数据库操作语句使用的数据库表及各数据库表中该数据库操作语句使用到的索引相关字段；

以SQL语句为例，SQL语句中一般均会用到数据库表名和相关的字段，其中可用于建立数据库索引以加快操作速度的字段称为索引相关字段，本实施例获取的索引相关字段指条件字段和/或排序字段。

SQL语句中可能会用到一个或多个数据库表，在一个示例中，将待审核的该SQL语句使用的每一数据库表的表名及该数据库表中该sql语句使用的条件字段和排序字段保存如下：

表名：tab_k

排序字段：col1，col2，col3.....colm

条件字段：col1，col2，col3......coln

步骤220，从数据源获取所述数据库表已有索引的字段组合；

所述数据库表已有索引可以分为三类：主键索引、唯一性索引和普通索引。其中主键索引和唯一性索引中的一个值均对应于数据库表中的一个记录，而普通索引中的一个值可能对应于多条记录。主键索引可以看成是一种特殊的唯一性索引。

基于多个字段创建的索引，各字段排列的先后顺序不同，得到的索引也不相同。某一索引对应的按序排列的多个字段可以称为该索引的字段组合。譬如，字段组合为col1_col2_col3的索引与字段组合为col2_col1_col3的索引虽然涉及的字段集合相同，但字段组合不同，是不同的索引。

因为不同的语句可能会使用到相同的表，因而上述从数据源获取所述数据库表已有索引的字段组合也可以是之前获取缓存的。

步骤230，对每一所述数据库表，在该数据库表中的索引相关字段组成的集合不是该数据库表任一已有索引的字段组合的子集或超集，且尚未创建相应数据库索引时，基于该数据库表中的索引相关字段创建数据库索引。

所谓某个集合不是某个字段组合的子集或超集，指该集合不是该字段组合所包含字段组成的集合的子集或超集。这里的子集、超集包括了两个集合相等的情况。在该数据库表中的索引相关字段组成的集合不是该数据库表任一已有索引的字段组合的子集或超集时，说明数据源的数据库中不存在所述索引相关字段的索引。上述“尚未创建相应数据库索引”指对之前的待审核SQL处理时还未基于所述索引相关字段创建数据库索引。在这两个条件满足时，基于该数据库表中的索引相关字段创建数据库索引。

基于该数据库表中的索引相关字段创建数据库索引时，如索引相关字段有多个，需先将该数据库表中的所述索引相关字段排列成字段组合，然后基于该数据库表的该字段组合创建数据库索引。如图3所示，其处理包括：

步骤310，判断该数据库表中的索引相关字段是否只有一个，如是，执行步骤320，否则，执行步骤330；

步骤320，直接将该索引相关字段作为该字段组合，转入步骤350；

步骤330，根据所述数据源中该数据库表的样本数据在每一索引相关字段上的唯一值数，分别确定各索引相关字段的权值，唯一值数越大，权值越大；

数据源中该数据库表的样本数据在每一索引相关字段上的唯一值数(取值不同的记录的数目)可以通过将各个索引相关字段分别拼成查询语句，到对应的数据源查询该数据库表的样本数据而得到。SQL语句中的表名通常是逻辑表名，可能对应于数据库中的多个分表，此时可以将其中的某一个分表如第一个分表中的样本数据作为该数据库表的样本数据。可以将表中的所有记录当做本步骤中用于计算权值样本数据，也可以将其中的部分数据记录作为本步骤中用于计算权值样本数据。如在表中记录很多时，取其中的1000条记录作为样本数据。

本步骤中，可以直接将唯一值数作为权值，也可以归一化后再作为权值，本申请对此不做限定。

步骤340，根据所述各索引相关字段的所述权值或其修正值从大到小的顺序将所述索引相关字段排列成字段组合；

本步骤中所述权值的修正值可以按以下方式得到：

对作为左值的每一索引相关字段，如运算符号是等号，对其权值乘以系数k1，否则对其权值乘以系数k2，得到其权值的修正值，k1＞k2。作为左值时运算符号是等号的索引相关字段在查询时可以一次筛除更多的值。

和/或

对通过动态标签拼接得到的每一索引相关字段(如)，对其权值乘以系数a，得到其权值的修正值，0＜a＜1。如在sqlmap(一种开发人员用来调用所有的sql语句的文件)中，有动态(dynamic)标签，根据前台的调用动态拼接SQL。

以上各步骤已经将该数据库表中的所述索引相关字段排列成字段组合。

步骤350，基于该数据库表的该字段组合创建数据库索引。

本步中的创建可以在审核每个语句时就执行，也可以在审核完多个语句后一起执行，本申请对此不做局限。

上述步骤230只是在该数据库表中的索引相关字段组成的集合不是该数据库表任一已有索引的字段组合的子集或超集，且尚未创建相应数据库索引时进行索引创建。而在该数据库表中的索引相关字段组成的集合是该数据库表已有索引的字段组合的子集或超集，且尚未创建相应数据库索引时，在某些情况下也可以创建索引以提高查询效率。具体地，在步骤230中，针对这一情况，可以先按上述方式将该数据库表中的所述索引相关字段排列成字段组合，如满足以下条件1～3中的至少一个，不创建数据库索引，否则，基于该数据库表的该字段组合创建数据库索引：

条件1：该数据库表的该字段组合与该数据表至少一已有索引的字段组合相同；

此条件满足时，表明数据源中该数据表已有该字段组合的索引。

条件2：该数据库表的该字段组合与该数据表至少一已有索引的字段组合中在前的部分组合相同；

此条件满足时，表明数据源中该数据表的已有索引已可以实现待审核SQL语句中索引相关字段的查询。例如该字段组合为col1_col2_col3，而该数据表的一个已有索引的字段组合为col1_col2_col3_col4，则基于col1_col2_col3创建的索引的结构已包含在该已有索引的结构中。文中，字段组合中在前的部分组合是从第一个字段开始的部分组合。

条件3：该数据库表的该字段组合中包含该数据库表已有的主键索引或至少一唯一性索引的字段组合。

本条件也就是说，该数据库表已有的主键索引或至少一唯一性索引的字段组合是该数据库表的该字段组合中的一段，如该数据库表的该字段组合为col1_col2_col3，该数据库表已有的一个唯一性索引的字段组合为col1_col2。此条件满足时，使用已有的主键索引或唯一性索引就足够了，没有必要再创建新的索引。

上述流程中，在创建了数据库索引之后，还可以对新创建的数据库索引进行评估，根据评估结果予以保留或删除。

例如，对于每一新创建索引，如对应数据库表中已有索引的字段组合是该新创建索引的字段组合中前面的部分组合，通过对应的数据源查看该新创建数据库索引和该已有索引的势值(Cardinality)的比值是否小于设定阈值，如果小于，删除该新创建数据库索引，否则保留该新创建数据库索引。索引的势值可以通过查询数据库得到，两个索引的势值的比值小于阈值，说明两个索引的效率相差不大，因而可以取消一个以减小索引对资源的占用。

相应地，本实施例还提供了一种数据库索引的自动创建系统，如图4所示，包括数据源10和索引创建装置20，其中：

所述数据源保存有包含样本数据的数据库信息；

所述索引创建装置20包括：

数据库连接模块22，用于获取待审核的数据库操作语句对应的数据源，根据所述数据源实例化数据库的连接；

索引创建处理模块24，用于对每一待审核的数据库操作语句进行索引创建的处理；所述索引创建处理模块又包括：

语句信息获取单元240，用于确定该数据库操作语句使用的数据库表及各数据库表中该数据库操作语句使用到的索引相关字段；

数据库信息获取单元242，用于从所述数据源获取所述数据库表已有索引的字段组合；及

创建单元244，用于对每一所述数据库表，在该数据库表中的索引相关字段组成的集合不是该数据库表任一已有索引的字段组合的子集或超集，且尚未创建相应数据库索引时，基于该数据库表中的索引相关字段创建数据库索引。

较佳地，

所述创建单元244基于该数据库表中的索引相关字段创建数据库索引，包括：

较佳地，

所述创建单元244根据所述各索引相关字段的所述权值的修正值从大到小的顺序将所述索引相关字段排列成字段组合，其中所述权值的修正值按以下方式得到：

较佳地，

所述创建单元244还用于在该数据库表中的索引相关字段组成的集合是该数据库表已有索引的字段组合的子集或超集，且尚未创建相应数据库索引时，将该数据库表中的所述索引相关字段排列成字段组合，如满足以下条件中的至少一个，不创建数据库索引，否则，基于该字段组合创建数据库索引：

较佳地，

所述语句信息获取单元240确定的各数据库表中该数据库操作语句使用到的索引相关字段指条件字段和/或排序字段。

较佳地，

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现，相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本申请不限制于任何特定形式的硬件和软件的结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种数据库索引的自动创建方法，包括：

从所述数据源获取所述数据库表已有索引的字段组合；及

2.如权利要求1所述的方法，其特征在于：

所述相关索引字段有多个时，先根据所述数据源中该数据库表的样本数据在每一索引相关字段上的唯一值数，分别确定各索引相关字段的权值，唯一值数越大，权值越大；然后根据所述各索引相关字段的所述权值或其修正值从大到小的顺序将所述索引相关字段排列成字段组合。

3.如权利要求2所述的方法，其特征在于：

4.如权利要求2所述的方法，其特征在于：

5.如权利要求2所述的方法，其特征在于，还包括：

6.如权利要求1或2或3或4或5所述的方法，其特征在于：

所述索引相关字段指条件字段和/或排序字段。

7.如权利要求6所述的方法，其特征在于：

8.如权利要求2或3或4或5所述的方法，其特征在于，还包括：

9.一种数据库索引的自动创建系统，其特征在于，包括数据源和索引创建装置，其中：

所述数据源保存有包含样本数据的数据库信息；

所述索引创建装置包括：

10.如权利要求9所述的系统，其特征在于：

11.如权利要求10所述的系统，其特征在于：

12.如权利要求10所述的系统，其特征在于：

13.如权利要求9或10或11或12所述的系统，其特征在于：

14.如权利要求13所述的系统，其特征在于：

15.如权利要求10或11或12所述的系统，其特征在于：