CN112650770A

CN112650770A - 基于query workload分析的MySQL参数推荐方法

Info

Publication number: CN112650770A
Application number: CN202011637925.9A
Authority: CN
Inventors: 王斌; 李跃广; 宋子文; 杨晓春
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-04-13
Anticipated expiration: 2040-12-31
Also published as: CN112650770B

Abstract

本发明提供一种基于query workload分析的MySQL参数推荐方法，首先收集不同query workload下的样本，并筛选出与待确定query workload相匹配的样本，构成匹配样本集，然后构建贝叶斯神经网络模型，利用参数最优的贝叶斯神经网络模型对数据库参数进行吞吐量的预测，得到吞吐量的预测值，最后根据吞吐量的预测值随机生成h组数据库参数，利用参数最优的贝叶斯神经网络模型对h组数据库参数进行预测，经过遗传算法的w次迭代，将最优值对应的一组数据库参数作为待确定query workload的数据库参数，本发明可以对query workload的相关信息进行有效分析，在多query workload的训练样本集中进行数据匹配，可以适应多种环境的参数推荐任务，在未收集过训练样本的query workload上也能推荐出优秀的数据库参数。

Description

基于query workload分析的MySQL参数推荐方法

技术领域

本发明涉及数据库调优技术领域，具体涉及一种基于query workload分析的MySQL参数推荐方法。

背景技术

MySQL数据库中有大量的参数，参数数目随版本更新还在不断增加(如5.7.23版本中有513个参数，8.0.12中有548个参数)，种类多(如内存、线程、读写磁盘等)，参数间存在相互关系(如相互依赖或竞争资源)。这些特点使用户难以正确调整参数，无法发挥数据库应有的性能。

云平台上用户数量巨大，不同用户的业务需求不同，而且同一用户的业务还有可能随时间变化；不同用户使用的硬件环境还存在差异，不可能存在一组通用的配置满足所有用户需求，所以需要提供一种更高效的MySQL参数自动调优方法，传统的方法是专业数据库管理员(DBA)不断观察尝试，寻找最优参数。但是云平台用户数量巨大，DBA调优成本太高。所以自动调优是一种可用的方案，但是也存在多种困难，而且在不同的查询工作负载(query workload)中最优的参数是不相同的。在以往的自动参数推荐系统中很多没有考虑到不同query workload下的测试场景，或者仅仅只是专门针对某一个或多个queryworkload进行实验测试。

发明内容

针对现有技术的不足，本发明提出一种基于query workload分析的MySQL参数推荐方法，包括以下步骤：

步骤1：利用拉丁超立方采样的方式，收集不同query workload下的样本，构成样本集；

步骤2：从所有的样本中筛选出与待确定query workload相匹配的样本，构成匹配样本集；

步骤3：构建贝叶斯神经网络模型，以匹配样本集中的数据库参数和对应的吞吐量作为训练样本对贝叶斯神经网络模型进行训练；

步骤4：当第j次训练后的均方误差达到预设误差阈值，或者j达到预设训练次数停止训练，将均方误差最小时的模型参数作为贝叶斯神经网络模型的最优参数；

步骤5：利用参数最优的贝叶斯神经网络模型对数据库参数进行吞吐量的预测，得到吞吐量的预测值；

步骤6：根据吞吐量的预测值随机生成h组数据库参数，利用参数最优的贝叶斯神经网络模型对h组数据库参数进行预测，经过遗传算法的w次迭代，将最优值对应的一组数据库参数作为待确定query workload的数据库参数，其中w表示遗传算法的预设最大迭代次数。

所述步骤1包括：

步骤1.1：利用数据库压力测试工具模拟一种query workload，随机生成N组数据库参数；

步骤1.2：将每组数据库参数应用于MySQL数据库上进行预设时间段内的压力测试，生成相应的监控数据，所述监控数据包括吞吐量、数据库状态变量、表的数量、列的数量、二级索引的数量以及general log，所述数据库状态变量包括insert语句、delete语句、update语句、select语句的执行次数；

步骤1.3：重复步骤1.2生成每组数据库参数对应的监控数据，将每组数据库参数以及对应的监控数据作为一组样本；

步骤1.4：设置M种不同的query workload，重复步骤1.1～步骤1.3得到N*M组样本，构建样本集。

所述步骤2的一种表述方式，包括：

步骤2.1：利用公式(1)计算出待确定query workload的各数据库状态变量所占比例

式中，

表示待确定query workload下各数据库状态变量的执行次数，s＝1表示insert语句的执行次数，s＝2表示delete语句的执行次数，s＝3表示update语句的执行次数，s＝4表示select语句的执行次数；

步骤2.2：将待确定query workload的各数据库状态变量所占比例构成一个向量

步骤2.3：将待确定query workload对应的表的数量

列的数量

二级索引的数量

构成一个向量

步骤2.4：利用公式(2)计算样本集中第i组数据库参数的各数据库状态变量所占的比例

式中，

表示第i组数据库参数的各数据库状态变量的执行次数；

步骤2.5：令i＝1,2,…,N*M，计算出所有数据库参数的各数据库状态变量所占的比例；

步骤2.4：将第i组数据库参数的各数据库状态变量所占比例构成一个向量

步骤2.6：将待确定query workload对应的表的数量x_1,i、列的数量x_1,i、二级索引的数量x_1,i构成一个向量P_2,i＝[x_1,i x_2,i x_3,i]；

步骤2.7：计算出向量

与向量P_1,i之间的欧几里得距离L_1,i，计算出向量

与向量P_2，i之间的欧几里得距离L_2,i；

步骤2.8：如果欧几里得距离L_1,i小于设置阈值

且

小于设置阈值

表示第i组数据库参数所在的一组样本为与待确定query workload相匹配的样本，将所有与待确定query workload相匹配的样本够成匹配样本集。

所述步骤2的另一种表述方式，包括：

步骤2-1.1：将待确定query workload的general log中的每条查询语句出现过的关键字、查询语句使用过的表的名称置1，没有出现过的关键字和没有使用过的表的名称置0，并按照预设规则构成一个行向量，所述预设规则是指MySQL数据库关键字和表的排列顺序；

步骤2-1.2：统计待确定query workload的general log中不同行向量的数量；

步骤2-1.3：利用公式(3)计算出待确定query workload的general log中每条查询语句对应的行向量所占比例，

式中，y_v表示待确定query workload的general log中第v种行向量的数量，V表示待确定query workload的general log中不同行向量的种类数，γ_v表示第v种行向量所占的比例；

步骤2-1.4：将待确定query workload的general log中不同行向量对应的比例构成一个向量

步骤2-1.5：将样本集中第i个general log中的每条查询语句出现过的关键字、查询语句使用过的表的名称置1，没有出现过的关键字和没有使用过的表的名称置0，并按照预设规则构成一个行向量，所述预设规则是指MySQL数据库关键字和表的排列顺序；

步骤2-1.6：统计第i个general log中不同行向量的数量；

步骤2-1.7：利用公式(4)计算出第i个general log中每条查询语句对应的行向量所占比例，

式中，

表示第i个general log中第v_i种行向量的数量，V_i表示第i个generallog中不同行向量的种类数，

表示第v_i种行向量所占的比例；

步骤2-1.8：将第i个general log中不同行向量对应的比例构成一个向量T_i；

步骤2-1.9：令i＝1,2,…,N*M，计算出所有general log构成的向量；

步骤2-1.10：计算出所有向量

中的最大向量长度l，通过对应位置补0的方式，将向量长度小于l的向量扩充到长度为l；

步骤2-1.11：计算出扩充后的向量

与向量T_i'之间的欧几里得距离L'_i，其中

表示向量

扩充后的向量，

表示向量T_i扩充后的向量；

步骤2-1.12：如果欧几里得距离L'_i小于设置阈值

表示第i个general log所在的一组样本为与待确定query workload相匹配的样本，将所有与待确定query workload相匹配的样本够成匹配样本集。

本发明的有益效果是：

本发明提出了一种基于query workload分析的MySQL参数推荐方法，可以对工作负载query workload的相关信息进行有效分析，在多query workload的训练样本集中进行数据匹配，可以适应多种环境的参数推荐任务，在未收集过训练样本的query workload上也能推荐出优秀的数据库参数。本发明提供了两种筛选query workload匹配样本的方法，这两种方法分别在精度和效率有着优势，一种是根据查询比例筛选样本的方法，这种方法的执行效率会更高，只需要从数据库的状态变量中获取不同的查询语句执行次数进行计算；另一种是根据查询日志筛选样本的方法，这种方法需要对查询日志进行SQL embedding(Structured Query Language简称SQL)，但是可以更好地挖掘query workload的相关信息。

附图说明

图1为本发明中的基于query workload分析的MySQL参数推荐方法流程图。

图2为本发明中的SQL embedding方法流程图。

具体实施方式

下面结合附图和具体实施实例对发明做进一步说明。

如图1所示，一种基于query workload分析的MySQL参数推荐方法，采用的操作系统为Centos 7.6、内存8G、交换分区10G、4核CPU(3.3GHz)，编程软件为MySQL 5.7.23，所述方法包括：

步骤1：利用拉丁超立方采样的方式，收集不同工作负载query workload下的样本，构成样本集，包括：

步骤1.1：利用数据库压力测试工具oltpbench模拟一种query workload，随机生成N组数据库参数；

步骤1.2：将每组数据库参数应用于MySQL数据库上进行预设时间段内的压力测试，生成相应的监控数据，所述监控数据包括吞吐量、数据库状态变量、表的数量、列的数量、二级索引的数量以及查询日志general log，所述数据库状态变量包括insert语句、delete语句、update语句、select语句(即增删改查语句)的执行次数；

步骤2：从所有的样本中筛选出与待确定query workload相匹配的样本，构成匹配样本集，该步骤有两种实现方式，一种表述方式，包括：

式中，