CN112948357B

CN112948357B - 一种面向多模数据库OrientDB的调优系统及其构建方法

Info

Publication number: CN112948357B
Application number: CN202110274491.9A
Authority: CN
Inventors: 王皙雯; 王志坚; 叶枫
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-03-15
Filing date: 2021-03-15
Publication date: 2023-04-25
Anticipated expiration: 2041-03-15
Also published as: CN112948357A

Abstract

本发明公开了一种面向多模数据库OrientDB的调优系统及其构建方法，系统包括：基础设施层、工作负载生成器、参数调优层和用户接口层，自下而上依次排布；方法包括如下步骤：(1)基础设施虚拟化；(2)实现不同的数据请求分布方式；(3)实现多模数据库OrientDB的读写任务；(4)参数化线程数；(5)实现多模数据库OrientDB的参数调优；(6)实现多模数据库OrientDB的调优界面，并实现与后台的连接，为了使用户可以便捷地进行工作负载的设置以及直观地查看调优结果。本发明实现了工作负载的复杂性以及调优任务的多样性，通过构建GPR模型来学习多模数据库OrientDB的参数和性能之间的关系，并利用改进的遗传算法来寻找最优解。

Description

一种面向多模数据库OrientDB的调优系统及其构建方法

技术领域

本发明涉及软件性能调优与度量分析技术领域，尤其是一种面向多模数据库OrientDB的调优系统及其构建方法。

背景技术

大数据时代，数据正在以惊人的速度膨胀。互联网用户，尤其是社交媒体用户的数量成倍增长，这导致大量复杂的数据以非常快的速度产生。这对数据库提出了更高的需求：快速，准确。然而，传统关系型数据库已经无法支撑如此庞大的数据量，也无法满足对非结构化数据的管理，这也是近几年NoSQL数据库兴起的原因。同时，在开发一个应用系统时总是会涉及到多种数据模型，比如关系数据、键/值对、文档数据和图数据等。为了解决同时管理结构化和非结构化数据的难题，不少NoSQL逐步向多模数据库转变。

数据库管理系统配置调整是任何数据密集型应用程序工作的一个重要方面。但这在历史上是一项艰巨的任务，因为数据库管理系统有数百个配置“旋钮”，控制系统中的一切，如用于缓存的内存量和数据写入存储的频率。这些旋钮的问题在于它们不是标准化的，不是独立的(即改变一个旋钮会影响其他旋钮)，也不是通用的(即对一个应用程序有效的东西对另一个应用程序可能不是最佳的)。更糟糕的是，关于旋钮效果的信息通常只来自(昂贵的)经验。

然而，调优工作需要训练数据的支持，这些数据是基于工作负载生成器或评测系统获得的。目前，已有许多大数据基准评测平台或工具，如YCSB、YCSB++、BigDataBench。但是，它们都是针对NoSQL数据库或关系型数据库的，例如YCSB只能够测试OrientDB涉及文档数据的性能。

发明内容

本发明所要解决的技术问题在于，提供一种面向多模数据库OrientDB的调优系统及其构建方法，实现了工作负载的复杂性以及调优任务的多样性，通过构建GPR模型来学习多模数据库OrientDB的参数和性能之间的关系，并利用改进的遗传算法来寻找最优解。

为解决上述技术问题，本发明提供一种面向多模数据库OrientDB的调优系统，包括：基础设施层、工作负载生成器、参数调优层和用户接口层，自下而上依次排布。

优选的，基础设施层是一个计算机集群或云计算环境，为多模数据库OrientDB的部署提供硬件基础或虚拟机环境。

优选的，工作负载生成器中添加了不同的数据库操作、数据请求分布方式、线程数和操作数作为参数；对于数据库操作，分别实现了对键/值、文档和图三种数据模型的多模数据库操作，包括增加、查询、删除、更新、聚合和扫描操作；对于数据请求分布方式，负载生成器提供了四种数据请求分布方式供用户选择设定，分别是：Zipfian、Uniform、Normal和Latest，Zipfian分布是指根据Zipfian定律来选择数据，假设数据按照受欢迎程度排序，使得越靠前的数据被访问的几率越高，Uniform分布即随机分布，所有数据被访问的概率相同，Latest分布表示最新插入的数据具有最高的优先级，被访问到的几率更高，Normal分布即根据正态分布，将请求的数据位置集中在数据集的中间位置；工作负载生成器用来生成和执行用户指定的工作负载。

优选的，参数调优层通过构建高斯过程回归GPR模型来学习数据库参数和性能之间的关系，并利用改进的遗传算法来推荐配置参数；对于用户给定的工作负载，首先交由工作负载生成器来执行并收集运行结果；然后，将收集到的数据用于构建GPR模型，并根据优化算法在模型中寻找使得吞吐量最高的参数；接下来，利用这些参数重新配置OrientDB，并重新执行如上步骤；通过多轮迭代反复优化模型，最终能够推荐出最佳参数；参数调优层用来实现多模数据库OrientDB的调优工作。

优选的，用户接口层分为操作设置区和结果显示区两个部分，操作设置区使用户能够方便地设置工作负载类型和参数，结果显示区用来显示最终的运行结果，即参数调优层输出的参数配置，供用户参考。

相应的，一种面向多模数据库OrientDB的调优系统的其构建方法，包括如下步骤：

(1)基础设施虚拟化；利用虚拟化技术，扩展出多个配置完全一致的虚拟服务器，在各个虚拟服务器上都安装OrientDB的实例，并搭建出OrientDB集群；

(2)实现不同的数据请求分布方式；每一种分布方式都需要一个具体的实现类，系统通过实现并调用各类的nextValue方法来获取需要被访问的记录id，从而根据这个id来检索数据库中的记录，假设数据库中某一集合一共有n条记录，对于Uniform分布，通过生成一个(0,n-1)范围内的随机数，即为所需的记录项，对于Latest分布，则优先访问集合中最新插入的数据，对于Normal分布，系统将期望和方差分别设置为

σ＝1，使得数据的分布大多集中在集合的中间位置，而Zipfian分布则生成被访问的记录id，使得排列靠前的数据拥有较高的优先级；

(3)实现多模数据库OrientDB的读写任务，包括键/值、文档和图3种数据模型的添加、查询、删除、更新以及扫描操作；实现多模型数据的跨模型连接查询，包括文档和图的连接、文档和键值对的连接以及三种数据模型的连接；在工作负载全部执行完成后，根据OrientDB的执行时间计算出吞吐量指标并将其存储在文件仓库中；

(4)参数化线程数，使工作负载生成器能够生成指定个数的线程来执行工作负载，从而实现不同的线程级别下多模数据库OrientDB的性能测试；

(5)实现多模数据库OrientDB的参数调优；

(6)实现多模数据库OrientDB的调优界面，并实现与后台的连接，为了使用户可以便捷地进行工作负载的设置以及直观地查看调优结果。

优选的，步骤(4)中，参数化线程数，使工作负载生成器能够生成指定个数的线程来执行工作负载，从而实现不同的线程级别下多模数据库OrientDB的性能测试具体包括如下步骤：

(41)实现数据库的连接类Connection，并返回OrientDB的连接对象；

(42)实现Runnable接口，为每个线程维持一个OrientDB连接对象，在run方法中首先判断数据库连接是否存在或可用，如果可用即可执行多模数据库操作，否则调用Connection类的方法创建连接；

(43)创建线程池并设置核心线程数，通过execute方法来执行负载。

优选的，步骤(5)中，实现多模数据库OrientDB的参数调优具体包括如下步骤：

(51)利用工作负载生成器为GPR模型的搭建生成训练数据，首先，在可调整的参数空间内随机生成一系列参数值用于配置数据库OrientDB；接着，通过工作负载生成器执行输入的工作负载获得吞吐量指标，并将其存储在文件仓库中；最后，通过15轮迭代得到15组数据；

(52)收集文件仓库中的数据用于构建GPR模型，并通过改进的遗传算法GA在模型中搜索出使得吞吐量最高的参数配置，首先对父代以适应性进行排列，使得目标值小的与小的匹配，大的与大的匹配，然后利用Logisitic混沌序列定位到被切断点的位置，最后对基因链进行交叉形成新的染色体；

(53)将GA-Logistic算法推荐的参数重新配置到OrientDB中，并利用负载生成器重新执行工作负载，将得到的执行结果添加到数据仓库中用于训练模型，GA-Logistic会重新在模型中搜索新的参数值，复执行以上步骤，直到训练次数达到R。

优选的，步骤(6)中，实现多模数据库OrientDB的调优界面，并实现与后台的连接，为了使用户可以便捷地进行工作负载的设置以及直观地查看调优结果具体包括如下步骤：

(61)工作负载选择区域；用户可以在该区域设置工作负载的内容，包括需要实现的多模数据库操作、数据类型、数据请求分布方式、操作数和线程数；用户完成所有工作负载的参数选择后，并点击调优按钮，OrientDB即开始执行相应负载；同时，在该区域还提供了清空数据库这一选项；为确保多模数据库OrientDB中不存在多余数据，用户可以点击该按钮，将数据库中现有的数据删除；

(62)结果展示区域；当系统执行完调优工作后，会在该区域将最终的调优结果和推荐的配置参数显示出来。

本发明的有益效果为：本发明根据多模数据的特性，针对OrientDB支持的3种数据模型，分别实现了它们的CRUD操作以及各种扩模型的连接查询操作，从而实现了工作负载的复杂性以及调优任务的多样性；通过研发一个OrientDB的工作负载执行器，全面地实现了它能够支持的数据库任务；同时，实现了不同的数据请求分布方式，如Zipfian、Uniform、Normal和Latest，以满足不同的场景需求，并且引入了线程池，用户可以设置执行工作负载所需的线程数；对于调优工作，通过构建GPR模型来学习多模数据库OrientDB的参数和性能之间的关系，并利用改进的遗传算法来寻找最优解。

附图说明

图1为本发明的体系结构示意图。

图2为本发明的用户界面示意图。

图3为本发明改进的遗传算法流程示意图。

具体实施方式

如图1所示，一种面向多模数据库OrientDB的调优系统，包括：基础设施层、工作负载执生产器、参数调优层和用户接口层，自下而上依次排列。

基础设施层本质是一个计算机集群或云计算环境，且这些虚拟机的配置完全一致，为OrientDB(键/值、文档和图)提供硬件基础或虚拟机运行时环境。

工作负载生成器用来与OrientDB进行交互，并为GPR模型提供训练数据。为了全面地测试多模数据库OrientDB的性能，在工作负载生成器中添加了不同的数据库操作、数据请求分布方式、线程数和操作数作为参数。对于数据库操作，分别实现了对键/值、文档和图三种数据模型的多模数据库操作，包括增加、查询、删除、更新、聚合和扫描操作。除此之外，为了体现多模数据库OrientDB能够同时管理多种数据模型的特性，还实现了跨模型的连接查询操作。对于数据请求分布方式，负载生成器提供了四种数据请求分布方式供用户选择设定，分别是：Zipfian、Uniform、Normal和Latest。其中，Zipfian分布是指根据Zipfian定律来选择数据，在本发明中假设数据按照受欢迎程度排序，这样使得越靠前的数据被访问的几率越高。Uniform分布即随机分布，这意味着所有数据被访问的概率相同。Latest分布表示最新插入的数据具有最高的优先级，被访问到的几率更高。Normal分布即根据正态分布，是将请求的数据位置集中在数据集的中间位置。

每个工作负载代表这些参数的特定组合，可用于在性能空间评估系统。不同于执行特定的数据库事务，设置工作负载中各种参数的值能够更加贴近现代应用系统的任务，这样的负载设计同时也为调优问题提供了可扩展的空间，使得发明能够在不同数量级、不同操作类型等方面对数据库进行调优。

为了实现多模数据库OrientDB的性能调优，本机制结合高斯过程回归(GPR)和优化算法来推荐最佳的配置参数。其中，GPR模型利用工作负载得到的执行结果来学习和预测OrientDB的性能；改进的遗传算法用来模型中寻找最佳参数。在调优的前期通过随机生成参数值来配置OrientDB，利用工作负载生成器来执行用户指定的负载，在执行完成后将得到的吞吐量指标收集起来构建GPR模型，再通过改进的遗传算法搜索最优参数。后期则根据算法选择的参数来配置数据库，并不断向数据仓库中添加负载生成器测试出的数据以训练GPR模型，推荐最佳参数。

将机器学习和优化算法应用到多模数据库OrientDB的调优工作中，通过构建数据库的性能预测模型，避免了大量密集的离线基准测试，使得多模数据库OrientDB能够在有效的时间内获得最佳的数据库参数配置。

用户接口层分为操作设置区和结果显示区两个部分。操作设置区使用户能够方便地设置工作负载参数。结果显示区用来显示针对用户指定的工作负载GPR模型推荐的参数配置，供用户参考。

本发明还公开了面向多模数据库OrientDB的调优系统的构建方法，包括如下步骤：

步骤1：基础设施虚拟化。首先，利用服务器虚拟化技术，扩展出多个虚拟服务器，并确保虚拟服务器中配置完全一致。接着，在每台虚拟服务器上安装操作系统，规划网络节点和端口，并下载安装OrientDB。最后，为各服务器上的多模数据库OrientDB搭建集群。OrientDB的集群搭建过程如下：

(1)关闭防火墙；

systemctl stop firewalld&&systemctl disable firewalld

(2)根据OrientDB官网提示，安装对应版本的OrientDB；

到https://orientdb.com/download-2/下载OrientDB并解压：

tar-zxf orientdb-3.0.22.tar.gz

移至bin目录下，启动OrientDB服务器：

./server.sh

(3)搭建集群

配置环境变量：

vi/etc/profile

export ORIENTDB_HOME＝/opt/orientdb

export PATH＝$PATH:$ORIENTDB_HOME/bin

重新加载文件：

source/etc/profile

修改bin目录下的orientdb.sh文件中的路径和用户名:

vi/opt/orientdb/bin/orientdb.sh

ORIENT_DIR＝"/opt/orientdb"

ORIENTDB_USER＝"root"

修改bin目录下的orientdb.service:

vi/opt/orientdb/bin/orientdb.service

User＝root

Group＝root

启动OrientDB，首次启动，需要设置root的密码和节点名称

./dserver.sh

启动各节点服务:

./orientdb.sh start

三台机器上的OrientDB全部启动后，会在log中提示可以通过浏览器访问数据库，则表明集群搭建成功。

步骤2：实现不同的数据请求分布方式。每一种分布方式都需要一个具体的实现类，系统通过实现并调用各类的nextValue方法来获取需要被访问的记录id，从而根据这个id来检索数据库中的记录。假设数据库中某一集合一共有n条记录，对于Uniform分布，通过生成一个(0,n-1)范围内的随机数，即为所需的记录项。对于Latest分布，则优先访问集合中最新插入的数据。对于Normal分布，系统将期望和方差分别设置为

σ＝1，使得数据的分布大多集中在集合的中间位置。而Zipfian分布则通过如下步骤来生成被访问的记录id，使得排列靠前的数据拥有较高的优先级。

(1)对于每条记录i，通过公式1-1为它赋予流行度指标。

(2)根据Zipfian定律的特征，利用公式1-2计算出记录i被访问的概率，并利用公式1-3将记录0到记录i之间的所有被访问概率相加。

s_i＝∑_ip_i (1-3)

(3)生成一个[0,s_n]范围内的随机数，并将其依次与s₀，s₁，……，s_n比较。当它在[s_m-1,s_m]范围内时，则m为最终的记录id。

步骤3：实现多模数据库OrientDB的读写任务，包括键/值、文档和图3种数据模型的添加、查询、删除、更新以及扫描操作。同时，实现多模型数据的跨模型连接查询，包括文档和图的连接、文档和键值对的连接以及三种数据模型的连接等。在工作负载全部执行完成后，根据OrientDB的执行时间计算出吞吐量指标并将其存储在文件仓库中。

步骤4：参数化线程数，使工作负载生成器能够生成指定个数的线程以执行工作负载，从而测试在不同的线程级别下OrientDB的性能。整体步骤如下：

(1)实现数据库的连接类Connection，并返回OrientDB的连接对象。

(2)实现Runnable接口，为每个线程维持一个OrientDB连接对象，在run方法中首先判断数据库连接是否存在或可用，如果可用即可执行多模数据库操作。否则调用Connection类的方法创建连接。

(3)创建线程池并设置核心线程数，通过execute方法来执行负载。

步骤5：实现OrientDB的参数调优，在负载生成器实现的基础上，构建高斯过程回归(GPR)模型来预测OrientDB的执行性能，并利用改进的遗传算法来搜索最佳的配置参数。该过程的算法如下：

输入：工作负载，训练次数R

输出：推荐的配置

(1)利用工作负载生成器为GPR模型的搭建生成训练数据。具体来说，首先，在可调整的参数空间内随机生成一系列参数值用于配置数据库OrientDB；接着，通过工作负载生成器执行输入的工作负载获得吞吐量指标，并将其存储在文件仓库中；最后，通过15轮迭代得到15组数据。

(2)收集文件仓库中的数据用于构建GPR模型，并通过改进的遗传算法(GA)在模型中搜索出使得吞吐量最高的参数配置。其中，与基础的遗传算法相比，本发明对交叉过程进行了改进，它首先对父代以适应性进行排列，使得目标值小的与小的匹配，大的与大的匹配，然后利用Logisitic混沌序列定位到被切断点的位置，最后对基因链进行交叉形成新的染色体。

(3)将GA-Logistic算法推荐的参数重新配置到OrientDB中，并利用负载生成器重新执行工作负载，将得到的执行结果添加到数据仓库中用于训练模型。接着，GA-Logistic会重新在模型中搜索新的参数值。重复执行以上步骤，直到训练次数达到R，具体的流程如图3所示。

步骤6：实现多模数据库OrientDB的调优界面，并实现与后台的连接，为了使用户可以便捷地进行工作负载的设置以及直观地查看调优结果。用户界面一共分为如下2个部分：

(1)工作负载选择区域。用户可以在该区域设置工作负载的内容，包括需要实现的多模数据库操作、数据类型、数据请求分布方式、操作数和线程数。用户完成所有工作负载的参数选择后，并点击调优按钮，OrientDB即开始执行相应负载。同时，在该区域还提供了清空数据库这一选项。为确保多模数据库OrientDB中不存在多余数据，用户可以点击该按钮，将数据库中现有的数据删除。

(2)结果展示区域。当系统执行完调优工作后，会在该区域将最终的调优结果和推荐的配置参数显示出来。

不同工作负载对应的用户操作如下：

添加、查询、删除、修改、扫描和计算最短路径操作：用户在界面选择待测试的数据模型和请求分布方式，并在文本框填写需要执行的操作数、线程数以及训练次数，点击调优按钮。当系统执行完调优操作后，在界面的结果展示区将记录负载的参数和数据库的最佳配置。

连接查询操作：与上述单一数据模型的操作不同，对于连接查询，用户可以选择多个需要关联的数据模型进行调优操作。

Claims

1.一种面向多模数据库OrientDB的调优系统的构建方法，其特征在于，包括如下步骤：

σ＝1，使得数据的分布大多集中在集合的中间位置，而Zipfian分布则生成被访问的记录id，使得排列靠前的数据拥有高优先级；

(5)实现多模数据库OrientDB的参数调优；具体包括如下步骤：

(53)将GA-Logistic算法推荐的参数重新配置到OrientDB中，并利用负载生成器重新执行工作负载，将得到的执行结果添加到数据仓库中用于训练模型，GA-Logistic会重新在模型中搜索新的参数值，复执行以上步骤，直到训练次数达到R；

(6)实现多模数据库OrientDB的调优界面，并实现与后台的连接，为了使用户便捷地进行工作负载的设置以及直观地查看调优结果。

2.如权利要求1所述的面向多模数据库OrientDB的调优系统的构建方法，其特征在于，步骤(4)中，参数化线程数，使工作负载生成器能够生成指定个数的线程来执行工作负载，从而实现不同的线程级别下多模数据库OrientDB的性能测试具体包括如下步骤：

(41)实现数据库的连接类Connection，并返回OrientDB的连接对象；

(42)实现Runnable接口，为每个线程维持一个OrientDB连接对象，在run方法中首先判断数据库连接是否存在或可用，如果可用即执行多模数据库操作，否则调用Connection类的方法创建连接；

3.如权利要求1所述的面向多模数据库OrientDB的调优系统的构建方法，其特征在于，步骤(6)中，实现多模数据库OrientDB的调优界面，并实现与后台的连接，为了使用户便捷地进行工作负载的设置以及直观地查看调优结果具体包括如下步骤：

(61)工作负载选择区域；用户在该区域设置工作负载的内容，包括需要实现的多模数据库操作、数据类型、数据请求分布方式、操作数和线程数；用户完成所有工作负载的参数选择后，并点击调优按钮，OrientDB即开始执行相应负载；同时，在该区域还提供了清空数据库这一选项；为确保多模数据库OrientDB中不存在多余数据，用户点击该按钮，将数据库中现有的数据删除；

4.一种面向多模数据库OrientDB的调优系统，所述调优系统实现如权利要求1所述的构建方法，其特征在于，包括：基础设施层、工作负载生成器、参数调优层和用户接口层，自下而上依次排布。

5.如权利要求4所述的调优系统，其特征在于，基础设施层是一个计算机集群或云计算环境，为多模数据库OrientDB的部署提供硬件基础或虚拟机环境。

6.如权利要求4所述的调优系统，其特征在于，工作负载生成器中添加了不同的数据库操作、数据请求分布方式、线程数和操作数作为参数；对于数据库操作，分别实现了对键/值、文档和图三种数据模型的多模数据库操作，包括增加、查询、删除、更新、聚合和扫描操作；对于数据请求分布方式，负载生成器提供了四种数据请求分布方式供用户选择设定，分别是：Zipfian、Uniform、Normal和Latest，Zipfian分布是指根据Zipfian定律来选择数据，假设数据按照受欢迎程度排序，使得越靠前的数据被访问的几率越高，Uniform分布即随机分布，所有数据被访问的概率相同，Latest分布表示最新插入的数据具有最高的优先级，被访问到的几率更高，Normal分布即根据正态分布，将请求的数据位置集中在数据集的中间位置；工作负载生成器用来生成和执行用户指定的工作负载。

7.如权利要求4所述的调优系统，其特征在于，参数调优层通过构建高斯过程回归GPR模型来学习数据库参数和性能之间的关系，并利用改进的遗传算法来推荐配置参数；对于用户给定的工作负载，首先交由工作负载生成器来执行并收集运行结果；然后，将收集到的数据用于构建GPR模型，并根据优化算法在模型中寻找使得吞吐量最高的参数；接下来，利用这些参数重新配置OrientDB，并重新执行如上步骤；通过多轮迭代反复优化模型，最终能够推荐出最佳参数；参数调优层用来实现多模数据库OrientDB的调优工作。

8.如权利要求4所述的调优系统，其特征在于，用户接口层分为操作设置区和结果显示区两个部分，操作设置区使用户能够方便地设置工作负载类型和参数，结果显示区用来显示最终的运行结果，即参数调优层输出的参数配置，供用户参考。