CN107491508B

CN107491508B - 一种基于循环神经网络的数据库查询时间预测方法

Info

Publication number: CN107491508B
Application number: CN201710647281.3A
Authority: CN
Inventors: 伍赛; 毕里缘; 陈珂; 陈刚; 寿黎但; 胡天磊
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2017-08-01
Filing date: 2017-08-01
Publication date: 2020-05-26
Anticipated expiration: 2037-08-01
Also published as: CN107491508A

Abstract

本发明公开了一种基于循环神经网络的数据库查询时间预测方法。首先从数据库历史查询记录中抽取出查询计划，构成的原始数据，一条查询计划包含操作信息和运行时间；按照运行时间长短将原始数据分类，使得每类中的查询计划的数量相等；对查询计划进行特殊处理获得操作序列和运行时间序列；操作序列作为特征向量和运行时间序列作为标签，输入神经网络，训练并得到模型；针对待测的查询计划，重复步骤获得操作序列，输入模型，输出运行时间序列，完成对数据库查询时间的预测。本发明方法在关系型数据库查询时间预测上取得了良好的效果，模拟数据训练下模型的正确率高于78％。该方法可以用于解决查询优化、负载管理中的关键问题。

Description

一种基于循环神经网络的数据库查询时间预测方法

技术领域

本发明涉及了一种深度学习领域的建模和特征提取方法，尤其是涉及了一种基于循环神经网络的数据库查询时间预测方法。

背景技术

随着数据库中数据量的与日俱增和查询的日益复杂，数据库管理面对极大的挑战。负载管理就是数据管理中面临的挑战之一。其要解决的核心问题就是查询执行时间的预测。该不该执行某条查询语句？如果要执行，什么时候执行？如果迟迟没有结束，该等待多久之后强制结束该查询？无法预计的长时间运行查询是计算机资源耗尽的罪魁祸首。如果在执行之前，查询的运行时间就能被确定，就可以取消执行无法在期望时间内完成的查询或者在计算机空闲时，不影响其他查询的情况下执行。但是由于数据库系统的复杂性和计算机资源的竞争，很难精确地估计不同关系操作的开销。因此，查询开销预测成为一个重要的研究问题。

近年来，针对查询开销的预测问题，研究人员提出了多种面向关系型数据库的查询开销预测方案。有些研究没有预测出真实的运行时间，而是估计了查询完成的百分比或者输出了一个任意单位的值来代表查询开销，类似于查询优化器的开销预测。有些研究需要运行时性能统计，这需要额外的开销去产生统计数据。

虽然上述的技术方案很大程度上解决了查询开销预测的问题，但是有两个问题并没有同时得到解决：第一，时间开销预估的结果是任意单位，很难映射到时间单位，欠缺参考性。第二，预测需要查询执行中的信息，无法在查询执行前就给出预测。

发明内容

为了解决背景技术中存在的问题，本发明的目的在于针对现有技术的不足，提供一种基于循环神经网络的数据库查询时间预测方法。

本发明首先设计了一种数据库查询计划中操作特征提取方法，并设计了神经网络的模型结构。

本发明解决其技术问题采用的技术方案如下：

对查询计划进行特殊处理，具体是提取查询计划中操作的关键特征，经过后序遍历，生成操作序列；再使用一种特殊的循环神经网络——LSTM(长短期记忆)神经网络来建立模型，预测运行时间。

所述方法的具体步骤如下：

(1)首先从数据库历史查询记录中抽取出查询计划构成原始数据，一条查询计划包含了多个操作及其对应的运行时间；

查询计划是指数据库中一个查询语句转换成具体的底层运行的计划，是由数据库查询优化器生成的。查询计划是由多个操作作为节点组成的多叉树。

同一查询语句可能会有不同的查询计划，其执行结果相同，执行时间不同。

(2)按照查询计划的运行时间长短将原始数据分类，使得每类中包含的查询计划的数量相等；

即按照运行时间长短顺序划分区间，将所有查询计划根据自身的运行时间归类到各个区间中，使得每个区间中的查询计划的数量均匀；

(3)对查询计划进行特殊处理获得操作序列，并将查询计划中的所有运行时间按照操作序列中的顺序对应排列组成运行时间序列；

(4)将操作序列作为特征向量和运行时间序列作为标签，输入神经网络训练并得到模型；

(5)针对待测的查询计划，重复步骤(3)获得其对应的操作序列，再输入到步骤(4)获得的神经网络模型中，输出与操作序列对应的运行时间序列，完成数据库查询时间的预测。

所述步骤(3)具体采用如下方式将一个查询计划处理成特定格式：对于一个查询计划中的各个操作，经过后序遍历生成操作序列；遍历生成操作序列时，对于查询计划中的各个操作提取关键特征，将每个操作转换成一个向量v，向量包含五个部分，第一部分n₁代表操作的类型，第二部分n₂代表操作在数据库中指定对应的源表，第三部分n₃代表操作在数据库中指定对应源表的列，第四部分n₄代表操作对应输出结果的平均宽度，第五部分n₅代表操作在数据库中对应数据的分布情况。

向量v的前两个部分描述了查询计划的结构，后三个部分跟踪了查询计划对应的数据规模。

所述步骤(3)用一个操作序列S_op＝{v₀,...,v_m}表示一个查询计划的操作信息，v_i是操作序列S_op中第i个操作对应的向量，m表示查询计划中操作的总数。

所述步骤(4)中，神经网络模型的第一层是输入层，中间两层是隐层，最后一层是输出层，两层隐层结构均为LSTM层，隐层所用的激活函数是sigmoid，输出层的激活函数是softmax，两个隐层都是100个节点，损失函数是交叉熵代价函数。

本发明编码采用后序遍历，将具有复杂结构的查询计划中操作信息转换成特征向量，并尽可能保留其影响运行时间的信息。使用一种特殊的循环神经网络——LSTM(长短期记忆)神经网络来建立模型。这对于具有复杂结构的查询计划能够大大提到查询效率和查询准确率。

本发明具有的有益效果是：对于一个特定的查询计划，在计划实际执行前，模型就能够产生该查询计划实际运行时间的预测。本发明比现有数据库的查询优化器产生的查询计划时间开销预估结果(任意单位)更具有参考性，也优于需要在执行开始之后才能预测的查询进度指示器。

本发明不管是短时间运行的查询或者是长时间运行的查询，模型的预测结果都较为准确。

附图说明

图1是本发明方法实施步骤流程图。

图2是一个查询计划的示意图。

图3是神经网络结构的示意图。

具体实施方式

现结合具体实施和示例对本发明的技术方案作进一步说明。

如图1所示，本发明具体实施例及其实施工作过程如下：

步骤1：首先从数据库历史查询记录中抽取出查询计划，构成的原始数据，一条查询计划包含操作信息和运行时间，如图1中所示的抽取过程。

步骤2：按照查询计划的运行时间长短将原始数据分类，使得每类中的查询计划的数量相等，即数据集覆盖了短时间查询和长时间查询。将数据集随机打乱后划分为80％和20％。80％的数据作为训练集，20％的数据作为测试集。

步骤3：对查询计划进行特殊处理获得操作序列和运行时间序列。将查询计划编码成特定格式，采用后序编码，提取特征并将其编码成一个操作序列。

图2展示了一个具体查询计划的实例，具体树结构关系如下：

SELECT T₁.c

FROM T₁,T₂,T₃

WHERE T₁.k＝T₂.fk and T₁.fk＝T₃.k

and T₁.a<100and T₃.b>20

GROUP BY T₁.c

其中，T₁,T₂,T₃分别表示了数据库中的源表，即查询计划的各个操作可能用到的源表；T₁.c表示T₁表的c列，T₁.a与T₃.b同理，分别代表了T₁表的a列与T₃表b列；T₁.k表示T₁表的主键，同理T₃.k表示T₃表的主键；T₂.fk表示了T₂表的外键，同理T₁.fk表示了T₁表的外键。SELECT、FROM、WHERE、and、GROUP BY等都是SQL(结构化查询语言)中的关键词。

查询计划本质上是一棵以各种类型的操作为节点的多叉树，每个节点上都包含该操作对应的信息。如图2中，Group、Sort、Nested Loop、Hash Join、Seq Scan、Hash、IndexScan、Materialize等都是操作类型，图2中节点旁边的Group by T₁.k等都是该操作对应的信息之一。例如图2中左侧Hash join节点，代表的是连接类型下的一种操作，其连接的条件是T₁.k＝T₂.fk。

在将查询计划编码成操作序列时，为了保留查询计划的结构信息，本实施采用后序遍历，将其编码成一个操作序列S_op＝{v₀,...,v_m}。

图2中查询计划的操作序列是：

在步骤3的过程中，将每个操作转换成向量。向量包含5个部分：

1)第一部分n₁代表操作的类型，例如Hash Join，Nested Loop等。总共有34种操作类型，因此n₁是一个34位的向量，该操作类型对应的位设置为1，其他设置为0。

2)第二部分n₂代表操作对应的源表。假设数据库有n个表，那n₂就有n位。查询树的叶子节点带有源表信息。

例如，图2中最左边叶子节点在数据库中对应的源表是T₂，因此该叶子节点操作的n₁中T₂对应的位被置为1，其他位被置为0。子节点的源表信息会传递给父节点。

例如，图2中Hash join查询操作的源表是T₁和T₂，分别来自它的左右子节点。

3)第三部分n₃代表操作对应源表中涉及的列。假设数据库中所有表总共m列，那n₃就有m位。

举个例子，图2中Hash join涉及表T₁中key列和表T₂中的foreign key列。那么这两列对应的位就会被设置为1，其余的位设置为0。

4)第四部分n₄代表操作输出结果的平均宽度。将宽度的范围划分成Q个区间，那么n₄就有Q位。结果落在哪个区域内，该区域对应的位就设置为1，其余位设置为0。注意，区间划分的原则是保证数据分布的均匀性。

例如，模型要预测子计划

的开销。假设过程

产生了时间开销c′。S₃的时间开销实际上是c₂+c′。

步骤4：操作序列作为特征向量和运行时间序列作为标签，输入神经网络，训练并得到模型。如图3所示，神经网络模型的第一层是输入层，中间两层是隐层，最后一层是输出层，两层隐层结构均为LSTM层，隐层所用的激活函数是sigmoid，输出层的激活函数是softmax，两个隐层都是100个节点，损失函数是交叉熵代价函数。

循环网络模型的输入张量和输出张量都是3个维度，包括样本数量、特征长度和时间步。定义样本数量大小(n_samples)为N_s，输入向量长度(dim_input)为D_i，输出向量长度(dim_output)为D_o，时间步(time_steps)为T_s。

步骤5：针对待测的查询计划，重复步骤(3)获得其对应的操作序列，再输入到步骤(4)获得的神经网络模型中，输出与操作序列对应的运行时间序列，完成数据库查询时间的预测。

本发明方法在关系型数据库查询时间预测上取得了良好的效果，模拟数据训练下模型的正确率高于78％。该方法可以用于解决查询优化、负载管理中的关键问题。

Claims

1.一种基于循环神经网络的数据库查询时间预测方法，其特点在于：所述方法的具体步骤如下：

所述步骤(3)具体采用如下方式将一个查询计划处理成特定格式：对于一个查询计划中的各个操作，经过后序遍历生成操作序列；遍历生成操作序列时，对于查询计划中的各个操作提取关键特征，将每个操作转换成一个向量v，向量包含五个部分，第一部分n₁代表操作的类型，第二部分n₂代表操作在数据库中指定对应的源表，第三部分n₃代表操作在数据库中指定对应源表的列，第四部分n₄代表操作对应输出结果的平均宽度，第五部分n₅代表操作在数据库中对应数据的分布情况；

所述步骤(3)用一个操作序列S_op＝{v₀,...,v_m}表示一个查询计划的操作信息，v_i是操作序列S_op中第i个操作对应的向量，m表示查询计划中操作的总数；

2.根据权利要求1所述的一种基于循环神经网络的数据库查询时间预测方法，其特征在于：所述步骤(4)中，神经网络模型的第一层是输入层，中间两层是隐层，最后一层是输出层，两层隐层结构均为LSTM层，隐层所用的激活函数是sigmoid，输出层的激活函数是softmax，两个隐层都是100个节点，损失函数是交叉熵代价函数。