CN113127446A

CN113127446A - 一种基于Ottertune服务的集群调优方法及装置

Info

Publication number: CN113127446A
Application number: CN202110356181.1A
Authority: CN
Inventors: 金昭
Original assignee: Shandong Yingxin Computer Technology Co Ltd
Current assignee: Shandong Yingxin Computer Technology Co Ltd
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2021-07-16
Anticipated expiration: 2041-04-01
Also published as: CN113127446B

Abstract

本申请公开了一种基于Ottertune服务的集群调优方法、装置、设备及介质，方法包括：利用目标数据库的样本集群状态信息和样本性能信息学习训练得出目标模型；获取目标数据库的当前集群状态信息；将当前集群状态信息输入至目标模型中，利用目标模型输出与当前集群状态信息对应的当前性能信息；若当前性能信息未达到目标性能状态，根据当前性能信息确定出对应的配置信息，利用配置信息调整目标数据库的配置变量，并进入获取目标数据库的当前集群状态信息的步骤。本方法避免了需要技术人员反复调整目标数据库的配置变量的操作，操作过程更加便捷，降低对人力资源的消耗；避免了技术人员出现手误的情况，能够相对保障数据库的可靠性和稳定性。

Description

一种基于Ottertune服务的集群调优方法及装置

技术领域

本发明涉及数据库领域，特别涉及一种基于Ottertune服务的集群调优方法、装置、设备及计算机可读存储介质。

背景技术

数据库管理系统(Database Management System，DBMS)是一种操纵和管理数据库的大型软件，用于建立、使用和维护数据库；数据库如Hadoop或者Spark或者Hive等通常会有成百上千个配置变量，比如要使用多少内存做缓存和写入磁盘的频率等；也就是说，数据库管理系统需要对数据库的成百上千个配置变量进行管理，配置变量直接影响数据库的性能，甚至错误的配置变量将导致运行故障甚至导致安全问题。

目前各组织机构通常组织技术人员根据操作经验通过数据库管理系统对数据库的配置变量进行调整，实现集群调优。但是现有技术的方法，不仅需要消耗大量的人力资源，操作过程繁琐，而且在实际操作过程中，技术人员可能由于手误等操作导致配置变量设置错误，从而影响数据库的稳定性和可靠性。

因此，如何高效地进行集群调优，能够保障数据库的可靠性和稳定性，降低对人力资源的消耗，是本领域技术人员目前需要解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种基于Ottertune服务的集群调优方法，能够高效地进行集群调优，能够保障数据库的可靠性和稳定性，降低对人力资源的消耗；本发明的另一目的是提供一种基于Ottertune服务的集群调优装置、设备及计算机可读存储介质，均具有上述有益效果。

为解决上述技术问题，本发明提供一种基于Ottertune服务的集群调优方法，包括：

利用目标数据库的样本集群状态信息和样本性能信息学习训练得出目标模型；

获取所述目标数据库的当前集群状态信息；

将所述当前集群状态信息输入至所述目标模型中，利用所述目标模型输出与所述当前集群状态信息对应的当前性能信息；

判断所述当前性能信息是否达到目标性能状态；

若否，则根据所述当前性能信息确定出对应的配置信息，利用所述配置信息调整所述目标数据库的配置变量，并进入所述获取所述目标数据库的当前集群状态信息的步骤；若是，结束进程。

优选地，所述根据所述当前性能信息确定出对应的配置信息，利用所述配置信息调整所述目标数据库的配置变量的过程，具体包括：

获取与所述目标数据库对应的目标服务器的硬件配置信息和软件配置信息；

根据所述硬件配置信息、所述软件配置信息以及所述当前性能信息确定出对应的配置信息，利用所述配置信息调整所述目标数据库的所述配置变量。

优选地，所述利用目标数据库的样本集群状态信息和样本性能信息学习训练得出目标模型的过程，具体包括：

获取所述目标数据库的所述样本集群状态信息和与各所述样本集群状态信息对应的样本性能信息；

将所述样本集群状态信息和所述样本性能信息输入至深度神经网络中进行学习训练，当模型精准度达到预设标准时输出所述目标模型。

优选地，所述将所述样本集群状态信息和所述样本性能信息输入至所述深度神经网络中进行学习训练，当模型精准度达到预设标准时输出所述目标模型的过程，具体包括：

将所述样本集群状态信息和所述样本性能信息输入至所述深度神经网络中进行学习训练，调用多个不同的比对函数库判断所述模型精准度，当所述模型精准度达到预设标准时输出所述目标模型。

优选地，在所述获取所述目标数据库的所述样本集群状态信息和与各所述样本集群状态信息对应的样本性能信息之后，进一步包括：

对所述样本集群状态信息进行降维处理。

优选地，进一步包括：

当迭代更新模型达到最大迭代次数时，将迭代更新次数为所述最大迭代次数对应的模型输出为所述目标模型。

优选地，进一步包括：

记录确定出的各所述配置信息以及对应的配置变量。

为解决上述技术问题，本发明还提供一种基于Ottertune服务的集群调优装置，包括：

训练模块，用于利用目标数据库的样本集群状态信息和样本性能信息学习训练得出目标模型；

获取模块，用于获取所述目标数据库的当前集群状态信息；

执行模块，用于将所述当前集群状态信息输入至所述目标模型中，利用所述目标模型输出与所述当前集群状态信息对应的当前性能信息；

判断模块，用于判断所述当前性能信息是否达到目标性能状态；若否，则调用调整模块；若是，结束进程。

所述调整模块，用于根据所述当前性能信息确定出对应的配置信息，利用所述配置信息调整所述目标数据库的配置变量，并调用所述获取模块。

为解决上述技术问题，本发明还提供一种基于Ottertune服务的集群调优设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任一种基于Ottertune服务的集群调优方法的步骤。

为解决上述技术问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种基于Ottertune服务的集群调优方法的步骤。

本发明提供的一种基于Ottertune服务的集群调优方法，相较于现有技术中技术人员根据操作经验反复调整所述目标数据库的配置变量的方式，本方法通过学习训练出目标模型，根据目标模型确定出与所述当前集群状态信息对应的当前性能信息，再根据所述当前性能信息确定出对应的配置信息，利用所述配置信息调整所述目标数据库的配置变量，避免了需要技术人员反复调整目标数据库的配置变量的操作，操作过程更加便捷，降低对人力资源的消耗；并且本方法避免了技术人员出现手误的情况，因此能够相对保障数据库的可靠性和稳定性。

为解决上述技术问题，本发明还提供了一种基于Ottertune服务的集群调优装置、设备及计算机可读存储介质，均具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种基于Ottertune服务的集群调优方法的流程图；

图2为本发明实施例提供的一种基于Ottertune服务的集群调优装置的结构图；

图3为本发明实施例提供的一种基于Ottertune服务的集群调优设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例的核心是提供一种基于Ottertune服务的集群调优方法，能够高效地进行集群调优，能够保障数据库的可靠性和稳定性，降低对人力资源的消耗；本发明的另一核心是提供一种基于Ottertune服务的集群调优装置、设备及计算机可读存储介质，均具有上述有益效果。

为了使本领域技术人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

图1为本发明实施例提供的一种基于Ottertune服务的集群调优方法的流程图。如图1所示，一种基于Ottertune服务的集群调优方法包括：

S10：利用目标数据库的样本集群状态信息和样本性能信息学习训练得出目标模型。

具体的，Ottertune服务分为客户端和服务端，Ottertune服务的客户端安装在目标数据库所在的目标服务器上，用于采集目标服务器上的目标数据库的样本集群状态信息以及后续需要进行集群调优时的当前集群状态信息并上传至服务端，Ottertune服务的服务端一般配置在云端，根据用户端采集到的样本集群状态信息训练出目标模型，并利用目标模型输出与当前集群状态信息对应的当前性能信息。目标数据库是需要进行配置变量调整以实现集群调优的数据库，可以具体为Hadoop或者Spark或者Hive等，本实施例对目标数据库的具体类型不做限定。

具体的，在本实施例中，具体是利用目标数据库的样本集群状态信息和样本性能信息进行学习训练，得出目标模型；样本集群状态信息包括CPU(central processingunit，中央处理器)负载、内存等信息，样本性能信息指的是与样本集群状态信息对应的性能信息，如吞吐量、延迟等。

S20：获取目标数据库的当前集群状态信息；

S30：将当前集群状态信息输入至目标模型中，利用目标模型输出与当前集群状态信息对应的当前性能信息。

具体的，在训练得出目标模型之后，获取目标数据库的当前集群状态信息；然后将当前集群状态信息输入至目标模型中，利用目标模型输出与当前集群状态信息对应的当前性能信息；当前集群状态信息指的是当前获取到的目标数据库的集群状态信息，当前性能信息指的是根据当前集群状态信息确定出的目标数据库的性能信息。

S40：判断当前性能信息是否达到目标性能状态；若否，则调用S50；若是，则调用S60；

S50：根据当前性能信息确定出对应的配置信息，利用配置信息调整目标数据库的配置变量，并进入S20：获取目标数据库的当前集群状态信息的步骤；

S60：结束进程。

具体的，预先确定与各性能信息对应的性能指标的目标性能状态，即期望目标数据库能够达到的集群性能状态，包括延迟或吞吐量等，在利用目标模型确定出当前性能信息之后，则进一步判断当前性能信息是否达到对应的性能指标的目标性能状态，确定当前性能信息是否在目标性能状态的规定范围内，若是，则表示当前目标数据库的各配置变量是合适的，不需要再调整，因此结束进程；否则，表示还需要调整当前目标数据库的各配置变量，因此根据当前性能信息确定出对应的配置信息，利用配置信息调整目标数据库的配置变量，并且在调整目标数据库的配置变量后，需要基于修改配置变量后的目标数据库再次获取当前集群状态信息并利用目标模型重新确定出对应的当前性能信息，直至当前性能信息达到目标性能状态时为止。

本发明实施例提供的一种基于Ottertune服务的集群调优方法，相较于现有技术中技术人员根据操作经验反复调整目标数据库的配置变量的方式，本方法通过学习训练出目标模型，根据目标模型确定出与当前集群状态信息对应的当前性能信息，再根据当前性能信息确定出对应的配置信息，利用配置信息调整目标数据库的配置变量，避免了需要技术人员反复调整目标数据库的配置变量的操作，操作过程更加便捷，降低对人力资源的消耗；并且本方法避免了技术人员出现手误的情况，因此能够相对保障数据库的可靠性和稳定性。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例中，根据当前性能信息确定出对应的配置信息，利用配置信息调整目标数据库的配置变量的过程，具体包括：

获取与目标数据库对应的目标服务器的硬件配置信息和软件配置信息；

根据硬件配置信息、软件配置信息以及当前性能信息确定出对应的配置信息，利用配置信息调整目标数据库的配置变量。

具体的，在本实施例中，是进一步获取与目标数据库对应的目标服务器的硬件配置信息和软件配置信息；其中，硬件配置信息包括目标服务器的内核类型等信息，软件配置信息包括unix或者Windows类型的目标服务器的软件参数等信息；然后，以目标服务器的硬件配置信息、软件配置信息作为调整基准，参考相同或相似硬件配置信息和软件配置信息的其他服务器的配置信息的情况，并结合目标数据库的当前性能信息确定出目标数据库的配置信息，再利用确定出的配置信息调整目标数据库的配置变量。

可见，本实施例能够利用与目标数据库对应的目标服务器的硬件配置信息和软件配置信息参与确定配置信息，利用硬件配置信息和软件配置信息作为参考信息，能更加便捷准确地确定出与目标数据库对应的配置信息。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例中，利用目标数据库的样本集群状态信息和样本性能信息学习训练得出目标模型的过程，具体包括：

获取目标数据库的样本集群状态信息和与各样本集群状态信息对应的样本性能信息；

将样本集群状态信息和样本性能信息输入至深度神经网络中进行学习训练，当模型精准度达到预设标准时输出目标模型。

具体的，在本实施例中，首先获取目标数据库的样本集群状态信息和与各样本集群状态信息对应的样本性能信息，一组样本集群状态信息和与之对应的样本性能信息即为一组训练样本，将训练样本划分为训练集和测试集，将训练样本中的训练集输入至深度神经网络中进行学习训练，在模型精准度达到第一阈值时，输出初始化模型；再将训练样本中的测试集对初始化模型进行训练，调整模型的参数，直至模型精准度达到第二阈值，此时输出目标模型。

需要说明的是，在实际操作中，还可以通过增强学习的方法来加快学习训练的速度，加快模型收敛速度，降低梯度下降的时间，提高模型的准确率，进一步提高训练得出目标模型的效率。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例在获取目标数据库的样本集群状态信息和与各样本集群状态信息对应的样本性能信息之后，进一步包括：

对样本集群状态信息进行降维处理。

具体的，在本实施例中，具体是利用PCA(Principal Component Analysis，主成分分析)降维算法对本集群状态信息进行降维处理，PCA降维算法是一种无监督的方式，既可以减少需要分析的集群状态信息的维度，又可以尽可能多地保持原来集群状态信息的特征。

可见，本实施例通过进一步对样本集群状态信息进行降维处理，能够进一步提高训练出目标模型的效率。

另外，在实际操作中，在获取到当前集群状态信息后，也可以对当前集群状态信息进行降维处理，以便利用目标模型更加便捷地确定出与当前集群状态信息对应的当前性能信息。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例中，将样本集群状态信息和样本性能信息输入至深度神经网络中进行学习训练，当模型精准度达到预设标准时输出目标模型的过程，具体包括：

将样本集群状态信息和样本性能信息输入至深度神经网络中进行学习训练，调用多个不同的比对函数库判断模型精准度，当模型精准度达到预设标准时输出目标模型。

需要说明的是，在本实施例中，是在进行学习训练不断更新初始化模型的过程中，调用多个不同的比对函数库判断每次迭代更新得出的初始化模型的模型精准度，将测试集中的样本集群状态输入至目标模型得出对应的输出性能信息，输出性能信息包括负载、CPU以及内存等方面的性能，利用不同的比对函数库计算不同的输出性能信息与测试集中对应的样本性能信息的相似度，根据各计算结果进行综合计算得出对应的模型精准度，再根据模型精准度是否达到预设标准来确定是否输出目标模型；若模型精准度达到预设标准，则输出目标模型；否则，则继续迭代更新初始化模型，直至模型精准度达到预设标准时输出目标模型。

可见，本实施例通过调用多个不同的比对函数库判断模型精准度，能够进一步保障目标模型的精准度。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，本实施例进一步包括：

当迭代更新模型达到最大迭代次数时，将迭代更新次数为最大迭代次数对应的模型输出为目标模型。

需要说明的是，在实际操作中，还可能存在初始化模型收敛慢，造成对初始化模型迭代更新很多次仍无法使得初始化模型的模型精准度达到预设标准的情况，为了解决这一技术问题，在本实施例中，是进一步设置最大迭代次数，在学习训练的过程中，累计进行迭代更新初始化模型的累计迭代更新次数，并进一步将该累计迭代更新次数与最大迭代次数进行比较，若累计迭代更新次数大于最大迭代次数，即表示迭代更新初始化模型达到最大迭代次数仍无法使得出对应的初始化模型的模型精准度达到预设标准，因此结束迭代并将达到最大迭代次数时对应的初始化模型输出为目标模型。

可见，按照本实施例的方法，能够避免迭代更新的次数过多造成资源浪费。

记录确定出的各配置信息以及对应的配置变量。

具体的，在本实施例中，是在每次根据当前性能信息确定出对应的配置信息以及根据配置信息确定出目标数据库的配置变量之后，记录确定出的各配置信息以及与配置信息对应的配置变量，即记录进行调整的配置变量以及该配置变量对应的配置信息。

需要说明的是，在实际操作中，具体的记录方式可以是以文本或以excel表格或者以数据库表的形式记录，本实施例对此不做限定，根据实际需求进行选择。更具体的，可以是以内存条、硬盘、TF(Trans-flash Card)卡和SD(Secure Digital Memory Card)卡等方式进行存储，具体根据实际需求进行选择，本实施例对此不做限定。

在本实施例中，通过进一步记录确定出的各配置信息以及对应的配置变量，能够便于技术人员查看对目标数据库的配置变量进行调整的情况，从而进一步提升用户的使用体验。

上文对于本发明提供的一种基于Ottertune服务的集群调优方法的实施例进行了详细的描述，本发明还提供了一种与该方法对应的基于Ottertune服务的集群调优装置、设备及计算机可读存储介质，由于装置、设备及计算机可读存储介质部分的实施例与方法部分的实施例相互照应，因此装置、设备及计算机可读存储介质部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

图2为本发明实施例提供的一种基于Ottertune服务的集群调优装置的结构图，如图2所示，一种基于Ottertune服务的集群调优装置包括：

训练模块21，用于利用目标数据库的样本集群状态信息和样本性能信息学习训练得出目标模型；

获取模块22，用于获取目标数据库的当前集群状态信息；

执行模块23，用于将当前集群状态信息输入至目标模型中，利用目标模型输出与当前集群状态信息对应的当前性能信息；

判断模块24，用于判断当前性能信息是否达到目标性能状态；若否，则调用调整模块25；若是，结束进程。

调整模块25，用于根据当前性能信息确定出对应的配置信息，利用配置信息调整目标数据库的配置变量，并调用获取模块。

本发明实施例提供的基于Ottertune服务的集群调优装置，具有上述基于Ottertune服务的集群调优方法的有益效果。

作为优选的实施方式，调整模块具体包括：

第一获取子模块，用于获取与目标数据库对应的目标服务器的硬件配置信息和软件配置信息；

调整子模块，用于根据硬件配置信息、软件配置信息以及当前性能信息确定出对应的配置信息，利用配置信息调整目标数据库的配置变量。

作为优选的实施方式，训练模块具体包括：

第二获取子模块，用于获取目标数据库的样本集群状态信息和与各样本集群状态信息对应的样本性能信息；

训练子模块，用于将样本集群状态信息和样本性能信息输入至深度神经网络中进行学习训练，当模型精准度达到预设标准时输出目标模型。

作为优选的实施方式，训练子模块具体包括：

训练单元，用于将样本集群状态信息和样本性能信息输入至深度神经网络中进行学习训练，调用多个不同的比对函数库判断模型精准度，当模型精准度达到预设标准时输出目标模型。

作为优选的实施方式，另一种基于Ottertune服务的集群调优装置进一步包括：

降维处理模块，用于对样本集群状态信息进行降维处理。

迭代限制模块，用于当迭代更新模型达到最大迭代次数时，将迭代更新次数为最大迭代次数对应的模型输出为目标模型。

记录模块，用于记录确定出的各配置信息以及对应的配置变量。

图3为本发明实施例提供的一种基于Ottertune服务的集群调优设备的结构图，如图3所示，一种基于Ottertune服务的集群调优设备包括：

存储器31，用于存储计算机程序；

处理器32，用于执行计算机程序时实现如上述基于Ottertune服务的集群调优方法的步骤。

本发明实施例提供的基于Ottertune服务的集群调优设备，具有上述基于Ottertune服务的集群调优方法的有益效果。

为解决上述技术问题，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如上述基于Ottertune服务的集群调优方法的步骤。

本发明实施例提供的计算机可读存储介质，具有上述基于Ottertune服务的集群调优方法的有益效果。

以上对本发明所提供的基于Ottertune服务的集群调优方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

Claims

1.一种基于Ottertune服务的集群调优方法，其特征在于，包括：

获取所述目标数据库的当前集群状态信息；

判断所述当前性能信息是否达到目标性能状态；

2.根据权利要求1所述的方法，其特征在于，所述根据所述当前性能信息确定出对应的配置信息，利用所述配置信息调整所述目标数据库的配置变量的过程，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述利用目标数据库的样本集群状态信息和样本性能信息学习训练得出目标模型的过程，具体包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述样本集群状态信息和所述样本性能信息输入至所述深度神经网络中进行学习训练，当模型精准度达到预设标准时输出所述目标模型的过程，具体包括：

5.根据权利要求3所述的方法，其特征在于，在所述获取所述目标数据库的所述样本集群状态信息和与各所述样本集群状态信息对应的样本性能信息之后，进一步包括：

对所述样本集群状态信息进行降维处理。

6.根据权利要求3所述的方法，其特征在于，进一步包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，进一步包括：

记录确定出的各所述配置信息以及对应的配置变量。

8.一种基于Ottertune服务的集群调优装置，其特征在于，包括：

获取模块，用于获取所述目标数据库的当前集群状态信息；

9.一种基于Ottertune服务的集群调优设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的基于Ottertune服务的集群调优方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于Ottertune服务的集群调优方法的步骤。