CN105022743A

CN105022743A - 一种管理索引的方法及装置

Info

Publication number: CN105022743A
Application number: CN201410168535.XA
Authority: CN
Inventors: 谢东; 喻红宇
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2014-04-24
Filing date: 2014-04-24
Publication date: 2015-11-04
Also published as: WO2015161550A1

Abstract

本发明提供一种管理索引的方法与装置，该方法包括：接收到管理索引命令后，从现有的索引数据中获取相应的索引数据，如未获取到，则从数据库表中读取数据，通过计算排序后获取相应的索引数据；根据所述管理索引命令对获取到的索引数据进行管理操作。通过本发明可以解决当前数据库管理索引过程中，索引数据没有被充分利用起来，索引维护消耗系统资源大的问题。在数据库管理索引过程中，从现有索引数据中获取索引数据的技术，特别适用于索引定义语句中增加选择条件，对大数据生命周期管理。

Description

一种管理索引的方法及装置

技术领域

本发明涉及数据库技术领域，特别是涉及一种管理索引的方法及装置。

背景技术

数据库是为适应数据处理需要而发展起来的一种数据处理装置。数据库系统萌芽于1960年,在1970年有人提出了数据库的关系模型的概念，在此基础上形成了关系数据库。随着信息技术发展，数据已经渗透到各个行业和应用中,关系数据库在各行各业得到了广泛应用。在关系数据库中，索引是对数据库表中一列或多列的值进行排序的一种数据结构，可以使对应的SQL(Structured Query Language，结构化查询语言)语句执行得更快。索引由应用程序研发人员编写，数据库研发中被普遍使用。索引的维护管理由数据库系统自动完成，是一项非常重要工作。但是，世界已经发生了翻天覆地的变化，与刚提出数据库概念的时代相比，数据特征变化很大。对于那些数据结构复杂，数据量大的情况，统称为大数据。面对这些数据，索引维护显得越来越困难，成为了一个亟待解决的重要问题。

当前技术条件下，在数据库管理索引过程中，索引数据是通过计算表数据获取的。维护索引数据的具体方法如下：

首先，数据库开始维护索引数据。该动作可能是由于用户发送创建索引命令触发，也可能是由于用户增加、删除、修改操作引起。

然后，数据库根据索引的定义，从表中读取相应的数据内容，计算出索引数据，包括索引列数据值的指针，并根据指定顺序排序。

最后，根据索引定义指定的顺序，将计算好的索引数据写入索引。如果是更新操作，需要同时删除老的索引数据。

现有的管理索引方法至少存在以下缺点：

A、索引维护过程对系统资源消耗大；

在大数据世代，由于表数据在不断膨胀，索引变得越来越大，所以索引维护变得越来越困难。在索引维护过程中，需要消耗大量系统资源，主要表现在：在读取表数据阶段，主要消耗系统IO(输入输出)资源；在计算索引数据和排序阶段，主要消耗CPU(中央处理器)资源。在某些大型系统中，表数据量可能达到TB、PB、ZB数量级，创建新索引需要花很长时间。

B、在维护索引过程中，现有索引数据并没有被利用起来；

索引是根据应用实际需求来创建的，通常情况下，同一张表上有多个索引。某些索引可能具有相同或相近的索引数据，在索引维护过程中应该互相使用。关系数据库具有坚实的数学理论基础，索引数据可靠性非常高，除非发生自然灾害硬件损坏等极端情况，否则索引数据很难被损坏。在现有技术条件下，在数据库管理索引过程中，为了获取索引数据，没有充分利用现有索引数据，而是每次都根据表数据来重新计算索引数据，同一个字段的某些数据被多次重复计算。

发明内容

本发明要解决的技术问题是提供一种管理索引的方法与装置，以降低系统资源消耗。

为了解决上述技术问题，本发明提供了一种管理索引的方法，包括：

接收到管理索引命令后，从现有的索引数据中获取相应的索引数据，如未获取到，则从数据库表中读取数据，通过计算排序后获取相应的索引数据；

根据所述管理索引命令对获取到的索引数据进行管理操作。

进一步地，上述方法还具有下面特点：

所述接收到管理索引命令后，从现有的索引数据中获取相应的索引数据包括：

接收到合并索引命令后，通过分析待合并的多个索引的计算相似性及对应的索引数据的范围，获取新索引的索引数据；

所述根据所述管理索引命令对获取到的索引数据进行管理操作，包括：

对获取到的索引数据进行合并，剔除重复的索引数据，将所述多个索引合并为一个新索引。

进一步地，上述方法还具有下面特点：

接收到分裂索引命令后，从现有的索引数据中获取一个待分裂索引对应的索引数据；

按照指定的分裂方法将索引数据分为多个部分，将所述待分裂索引对应分裂为多个索引，如分裂后的索引之间存在索引数据范围重复，则拷贝重复的索引数据。

进一步地，上述方法还具有下面特点：所述管理索引命令包括以下的任意一个：

创建索引命令、修改索引定义命令、插入数据命令、更新数据命令、合并索引命令、分裂索引命令。

为了解决上述问题，本发明还提供了一种管理索引的装置，其中，包括：

获取模块，用于接收到管理索引命令后，从现有的索引数据中获取相应的索引数据，如未获取到，则从数据库表中读取数据，通过计算排序后获取相应的索引数据；

管理模块，用于根据所述管理索引命令对获取到的索引数据进行管理操作。

进一步地，上述装置还具有下面特点：

所述获取模块，具体用于接收到合并索引命令后，通过分析待合并的多个索引的计算相似性及对应的索引数据的范围，获取新索引的索引数据；

所述管理模块，具体用于对获取到的索引数据进行合并，剔除重复的索引数据，将所述多个索引合并为一个新索引。

进一步地，上述装置还具有下面特点：

所述获取模块，具体用于接收到分裂索引命令后，从现有的索引数据中获取一个待分裂索引对应的索引数据；

所述管理模块，具体用于按照指定的分裂方法将索引数据分为多个部分，将所述待分裂索引对应分裂为多个索引，如分裂后的索引之间存在索引数据范围重复，则拷贝重复的索引数据。

进一步地，上述装置还具有下面特点：

所述获取模块，接收到的管理索引命令包括以下的任意一个：创建索引命令、修改索引定义命令、插入数据命令、更新数据命令、合并索引命令、分裂索引命令。

综上，本发明提供一种管理索引的方法与装置，可以解决当前数据库管理索引过程中，索引数据没有被充分利用起来，索引维护消耗系统资源大的问题。在数据库管理索引过程中，从现有索引数据中获取索引数据的技术，特别适用于索引定义语句中增加选择条件，对大数据生命周期管理。

附图说明

图1为本发明实施例的管理索引的方法的流程图；

图2为本发明实施例一的新建索引方法的流程图；

图3为本发明实施例二的修改索引定义方法的流程图；

图4为本发明实施例三的插入数据管理索引数据方法的流程图；

图5为本发明实施例四的更新数据管理索引数据方法的流程图；

图6为本发明实施例五的合并多个索引方法的流程图；

图7为本发明实施例六的分裂索引为多个索引的方法的流程图；

图8为本发明实施例的管理索引的装置的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

本发明实施例在数据库管理索引过程中，分为两个阶段：首先从现有索引数据中获取索引数据；如果找不到，才进一步从表中读取数据，并计算排序后得到索引数据。对于索引定义语句中增加选择条件的技术(例如：普通的创建索引的语法可能是create index idxt_log_1on t_log(callno)，本实施例中增加选择条件的语法可以这样写create index idxt_log_1on t_log(callno)wherecalltime>’20140101000000’)，对大数据生命周期管理的情况，索引显得很灵活，数据库应用研发人员可能会创建丰富的索引以满足实际需要，管理索引数据显得特别重要。针对现有技术存在的缺点，通过深入研究发现：在数据库管理索引过程中，如果从现有索引数据中获取索引数据，不但能快速获得结果，还能减小对系统资源消耗。

本发明实施例中涉及的几个名词解释如下：

数据库(Database)，是按照数据结构来组织、存储和管理数据的仓库。数据库有很多种类型，从最简单的存储各种数据的表格，到能够进行海量数据存储的大型数据库系统。

关系数据库，是建立在关系数据库模型基础上的数据库，借助于集合代数等概念和方法来处理数据库中的数据。1970年，IBM的研究员埃德加·弗兰克·科德博士提出了数据库的关系模型的概念，奠定了关系模型的理论基础。关系数据库具有坚实的数学理论基础，随着信息技术和市场的发展，在各行各业得到广泛应用。

大数据，不仅包含了“海量数据”，还包含复杂类型的数据。大数据包括交易和交互数据集在内的所有数据集，其规模或复杂程度超出了常用技术按照合理的成本和时限捕捉、管理及处理这些数据集的能力。大数据概念实际上是对海量数据的有效利用，对数据规模和转输速度要求相当高。

索引，在关系数据库中，索引是对数据库表中一列或多列的值进行排序的一种数据结构。索引提供指向这些列数据值的指针，根据指定顺序排序。索引可以使对应的SQL语句执行得更快，索引的作用相当于图书的目录，可以根据目录中的页码快速找到所需的内容。索引定义后，其维护工作由数据库系统自动完成。常用的索引维护工作主要包括：新建索引、更新索引数据、删除索引。

图1为本发明实施例的管理索引的方法的流程图，如图1所示，本实施例的方法包括：

S11、接收到管理索引命令后，从现有的索引数据中获取相应的索引数据，如未获取到，则从数据库表中读取数据，通过计算排序后获取索引数据；

S12、根据所述管理索引命令对获取到的索引数据进行管理操作。

本发明实施例具有以下方面技术效果：

索引维护对系统资源消耗小：本发明实施例从现有索引数据中获取索引数据，相对于现有根据表数据计算索引数据的方法，消耗更少的IO和CPU，对系统资源消耗更小，索引维护时间更短。

SQL语句执行效率高：实际的情况是，一个表往往有多个索引。在对表执行SQL语句时，如果是增加/修改数据操作，需要新增/修改索引数据；如果多个索引需要相同的索引数据的情况，现有技术是分别对没有索引创建索引，相同的索引数据被多次重复计算排序。采用本发明实施例的方法后，只需要第一次计算和排序，之后其它索引通过拷贝方式获取。相同的SQL语句消耗CPU和IO更少，SQL语句执行效率更高。为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明进行详细描述。应当指出的是，此处的附图是用来对本发明的进一步理解，并不构成对本发明的不当限定。

图2为本发明实施例一的新建索引方法的流程图，相对于当前新建索引的方法，本发明实施例采用的技术方案体现在：判断现有索引是否包括需要的索引数据，并优先从现有索引数据获取需要数据。所述方法包括如下步骤：

步骤S110、数据库收到用户发出创建索引命令；

创建索引命令中包括信息可以有：索引类型、名称、表名称、字段名称等信息，如果是“索引定义语句增加选择条件的技术”，还包括选择条件的描述信息，可能是一个where条件。

步骤S120、数据库分析当前状况，包括：表上有哪些索引、每个索引具有哪些数据范围、需要创建的索引数据范围是什么；然后判断当前是否有索引数据可以使用，如果是，不需要重新计算和排序，则进行步骤S140；如果否，需要重新计算和排序，则进行步骤S130。

步骤S130，读取表数据，计算排序，获得索引数据。

步骤S140，找到在索引上的指针位置，写入索引数据。

步骤S150，判断是否结束，如果还有数据要处理，继续进行步骤S120，处理其余数据，直到处理完成。

步骤S160，结束。

图3为本发明实施例二的修改索引定义方法的流程图，相对于当前修改索引定义方法，本发明实施例采用的技术方案体现在：判断现有索引是否包括需要的索引数据，如果包括则优先从现有索引数据获取需要数据，所述方法包括如下步骤：

步骤S210、数据库收到用户发出的修改某个索引定义命令，需要维护该索引的索引数据。

修改索引定义，例如，修改某个索引需要创建的索引数据范围等。

步骤S220、数据库分析当前状况，包括：表上有哪些索引(包括被修改定义的索引)，每个索引具有哪些数据范围，需要创建的索引数据范围是什么；然后判断当前是否有索引数据可以使用，如果是，不需要重新计算和排序，则进行步骤S240；如果否，需要重新计算和排序，则进行步骤S230。

步骤S230、读取表数据，计算排序，获得索引数据。

步骤S240、删除被修改的索引所有索引数据，找到在索引上的新的指针位置，写入新的索引数据。

步骤S250、继续进行步骤S220，处理其余数据，直到处理完成。

步骤S260、结束。

图4为本发明实施例三的插入数据管理索引数据方法的流程图，相对于当前插入数据管理索引的方法，本发明实施例采用的技术方案体现在：如果多个索引需要相同索引数据(多个索引的某些索引数据可能相同)，只计算排序一次，其它索引不需要重新计算和排序，所述方法包括如下步骤：

步骤S310、数据库收到用户发出的插入数据命令，需要维护表索引数据。

步骤S320、针对某一个索引，如果需要维护其索引数据，分析当前状况，需要的索引数据是否已经被计算排序，如果是，则可以直接使用，进行步骤S340；如果否，则需要计算和排序，进行步骤S330。

步骤S330、根据索引定义，将当前插入数据计算排序，获得索引数据。

步骤S340、找到在该索引上的指针位置，写入索引数据。

步骤S350、判断表上是否还有索引需要维护，如果继续步骤S320；如果没有，则转步骤S360。

步骤S360，结束。

图5是本发明实施例四的更新数据管理索引数据方法的流程图，相对于当前更新数据管理索引的方法，本发明实施例采用的技术方案体现在：如果多个索引需要相同索引数据，只计算排序一次，其它索引不需要重新计算和排序，所述方法包括如下步骤：

步骤S410、数据库收到用户发出的更新数据命令，需要维护该表对应的索引数据。

步骤S420、针对某一个索引，如果需要维护其索引数据，分析当前状况，需要的索引数据是否已经被计算排序，如果是，则可以直接使用，进行步骤S440；如果否，则需要计算和排序，进行步骤S430。

步骤S430、根据索引定义方法，对当前更新数据计算排序，获得新的索引数据，然后转步骤S440。

步骤S440、找到在该索引上的指针位置，删除老的索引数据，写入新索引数据。

如索引数据已计算排序且一致，可以先删除然后再重新写入，也可以跳过。

步骤S450、判断表上是否还有索引需要维护，如果继续步骤S420；如果没有，则步骤S460。

步骤S460、结束。

图6是本发明实施例五的合并多个索引方法的流程图，本实施例，通过分析待合并的多个索引的计算相似性及对应的索引数据的范围，获取新索引的索引数据，进而对获取到的索引数据进行合并，剔除重复的索引数据，将所述多个索引合并为一个新索引，所述方法包括如下步骤：

步骤S510、数据库收到用户发出的合并索引命令，将多个索引合并为一个索引命令，这些索引数据应该具有相同或者相似的计算方法，例如，具有索引包括相同字段，且计算方法相同或者相似。

步骤S520、由于索引是有序排列的，可以按照指定顺序将多个索引合并为一个索引。

对于采用链表存储索引的情况，合并的方法可以是修改链表指针，将多个索引头尾相连；然后通过分析每个索引的数据范围，将重复的索引数据剔除。

步骤S530、可以是修改数据库数据字典，将以前的多个索引信息删除，插入新索引信息。

步骤S540、结束。

图7是本发明实施例六的分裂索引为多个索引的方法的流程图，本实施例中，从现有的索引数据中获取一个待分裂索引对应的索引数据，然后按照指定的分裂方法将索引数据分为多个部分，将所述待分裂索引对应分裂为多个索引，如分裂后的索引之间存在索引数据范围重复，则拷贝重复的索引数据，所述方法包括如下步骤：

步骤S610、数据库收到用户发出的分裂索引命令，即将一个索引分裂为多个索引的命令。

分裂方法可以是按照数据范围划分(例如：时间字段)，且可以是子索引保持原来计算方法，索引数据范围相互可以不重复。

步骤S620、由于索引是有序排列的，所以只需要按照指定顺序，遍历一次索引即可。

对于采用链表存储索引的情况，分裂的方法可以是修改链表指针，将链表打断；如果子索引范围有重复，需要将重复的索引数据拷贝一次。

步骤S630、可以是修改数据库数据字典，将以前的索引信息删除，插入分裂的索引信息。

步骤S640、结束。

图8为本发明实施例的管理索引的装置的示意图，如图8所示，本实施例的装置包括：

在一优选实施例中，所述获取模块，具体可以用于接收到合并索引命令后，通过分析待合并的多个索引的计算相似性及对应的索引数据的范围，获取新索引的索引数据；

所述管理模块，具体可以用于对获取到的索引数据进行合并，剔除重复的索引数据，将所述多个索引合并为一个新索引。

在一优选实施例中，所述获取模块，具体可以用于接收到分裂索引命令后，从现有的索引数据中获取一个待分裂索引对应的索引数据；

所述管理模块，具体可以用于按照指定的分裂方法将索引数据分为多个部分，将所述待分裂索引对应分裂为多个索引，如分裂后的索引之间存在索引数据范围重复，则拷贝重复的索引数据。

其中，所述获取模块，接收到的管理索引命令可以包括以下的任一个：创建索引命令、修改索引定义命令、插入数据命令、更新数据命令、合并索引命令、分裂索引命令。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

以上仅为本发明的优选实施例，当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims

1.一种管理索引的方法，包括：

根据所述管理索引命令对获取到的索引数据进行管理操作。

2.如权利要求1所述的方法，其特征在于：

3.如权利要求1所述的方法，其特征在于：

4.如权利要求1所述的方法，其特征在于：所述管理索引命令包括以下的任意一个：

5.一种管理索引的装置，其特征在于，包括：

6.如权利要求5所述的装置，其特征在于，

7.如权利要求5所述的装置，其特征在于，

8.如权利要求5所述的装置，其特征在于，