CN116010447A

CN116010447A - 一种优化异构数据库用户查询的负载均衡方法及装置

Info

Publication number: CN116010447A
Application number: CN202211671679.8A
Authority: CN
Inventors: 张纬亮; 杜忠田; 党咏欣; 郝志广; 郭建章; 曲欣
Original assignee: China Telecom Digital Intelligence Technology Co Ltd
Current assignee: China Telecom Digital Intelligence Technology Co Ltd
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-04-25

Abstract

本发明公开了一种优化异构数据库用户查询的负载均衡方法及装置，涉及计算机和云服务技术领域。该优化异构数据库用户查询的负载均衡方法，包括以下步骤：获取输入的查询语句；根据特定的分类器规则对查询语句进行区分类型；利用负载均衡器动态地分配与查询类型对应的硬件资源，以处理查询语句；利用布隆过滤器根据查询类型执行相应的过滤；将查询结果返回给用户。本发明通过在处理用户不同类型的查询语句的过程中运用了包括离线训练模块和实时优化模块的负载均衡器达到了系统性能的提升，保障了用户的在线查询，解决了在异构数据库系统中没有适合的负载均衡优化方法以处理用户查询语句的问题。

Description

一种优化异构数据库用户查询的负载均衡方法及装置

技术领域

本发明涉及计算机和云服务技术领域，尤其涉及一种优化异构数据库用户查询的负载均衡方法及装置。

背景技术

随着数据量的增长，基于数据的在线分析处理(OLAP)的复杂度也随之增加。目前，使用不同硬件的异构数据库系统看起来很有前景，如基于GPU的数据库，Kinet ica、OmniSci(MapD)已经成为OLAP数据库中的新热门。这些数据库使用GPU进行加速可以提高系统的性能。负载均衡，是一种计算机技术，用来在多个计算机(计算机集群)、网络连接、CPU、磁盘驱动器或其他资源中分配负载，以达到最优化资源使用、最大化吞吐率、最小化响应时间、同时避免过载的目的。相应的，负载均衡模型分为静态与动态，一方面，静态负载均衡模型在系统运行之前，通过考虑系统的参数来预先确定了负载分配的决策；另一方面，动态负载均衡模型可以根据时间戳，动态的根据系统的当前状态以及数据来进行决策功能。

现有的在异构数据库系统中处理用户的查询请求的方法包括：1)将查询语句通常发送到性能最强大或速度最快的硬件资源进行处理；2)用基于机器学习的方法来优化异构系统(由多个CPU、GPU组成的系统)的负载分配，例如，预测适合运行当前查询语句的设备、CPU、GPU，并通过预测的设备对查询语句进行处理；3)用基于机器学习的负载均衡器来预测集群内服务器的状态，选择状态正常的服务器对查询语句进行处理，基于该预测，能够避免将用户查询语句分配到存在延迟的服务器。

但本申请发明人在实现本申请实施例中发明技术方案的过程中，发现上述技术至少存在如下技术问题：

现有的在异构数据库系统中处理用户查询请求的方法由于异构的特性，所以当用户请求密集，数据库在利用不同的计算硬件(如CPU和GPU)时，不能很好的考虑到负载均衡问题，且将查询语句通过性能最强大或速度最快的设备并不一定会产生最佳性能；现有通过预测适合运行查询语句的设备的方法和现有通过预测集群内服务器状态选择适合处理查询的服务器的方法中均未考虑集群的异构特性。综上所述，现有在异构数据库系统中没有适合的负载均衡优化方法以处理用户查询语句。

发明内容

本申请实施例通过提供一种优化异构数据库用户查询的负载均衡方法及装置，解决了现有技术中在异构数据库系统中没有适合的负载均衡优化方法以处理用户查询语句的技术问题，实现了系统性能的提升，保障了用户的在线查询。

本申请实施例提供了一种优化异构数据库用户查询的负载均衡方法，包括以下步骤：

S1，获取输入的查询语句；

S2，根据特定的分类器规则对查询语句进行区分类型；

S3，利用负载均衡器动态地分配与查询类型对应的硬件资源，以处理查询语句；

S4，利用布隆过滤器根据查询类型执行相应的过滤；

S5，将在异构数据库中查询到的结果返回给用户。

进一步的，所述S1中的查询语句被获取后需要根据语法规则转换为异构数据库内核引擎使用的JSON格式。

进一步的，所述S2中的特定的分类器规则包括：

规则1：查询语句只关注整列的所有信息；

规则2：查询语句查询单个列中的特定值；

规则3：查询语句是复杂的查询组合，由具有不同列和值的查询组合组成。

进一步的，所述S3中的负载均衡器包括离线训练模块和实时优化模块；

所述离线训练模块和实时优化模块都根据负载器均衡特征表通过多元线程回归模型计算获取响应时间最短的设备。

进一步的，所述离线训练模块具体为：

步骤一：根据先验知识和多元线性回归模型计算出CPU与GPU的响应时间；

步骤二：选择响应时间最短的设备作为查询语句的硬件资源；

所述先验知识为人工已标注好的数据集，数据集涉及负载器均衡特征表中的特征。

进一步的，所述实时优化模块具体为：

步骤一：实时监听查询请求；

步骤二：当监听到查询请求时，采集各硬件资源当前时间戳的资源信息；

步骤三：将收集到资源信息与当前查询的类型组成输入参数，将输入参数输入到多元线性回归模型中，计算出CPU与GPU的响应时间；

步骤四：选择响应时间最短的设备作为查询语句的硬件资源。

进一步的，所述负载器均衡特征内容包括：

x₁：设备利用率百分比；

x₂：设备温度；

x₃：设备内存使用率百分比；

x₄：当前时间戳设备上查询队列的长度；

x₅：当前时间戳设备上运行的查询数；

x₆：上次查询与当前查询之间的时间间隔；

x₇：是否是查询语句只关注整列的所有信息的查询类型；

x₈：是否是查询语句查询单个列中的特定值的查询类型；

y：响应时间。

进一步的，所述多元线程回归模型的具体计算公式为：

其中，y_CPU，y_GPU是CPU和GPU的响应时间，

是CPU和GPU的多元线性回归模型的系数，i为序号，

是CPU和GPU对应的特征值。

进一步的，所述S4中的布隆过滤器置于各个硬件资源中，硬件资源根据获取的不同类型的查询语句，使用布隆过滤器执行过滤。

本申请实施例提供了一种优化异构数据库用户查询的负载均衡装置，包括获取模块、分类模块、调度模块、优化模块和发送模块：

获取模块：用于获取输入的查询语句；

分类模块：用于根据特定的分类器规则对查询语句进行区分类型；

调度模块：用于利用负载均衡器动态地分配与查询类型对应的硬件资源，以处理查询语句；

优化模块：用于利用布隆过滤器根据查询类型执行相应的过滤；

发送模块：用于将在异构数据库中查询到的结果返回给用户。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

1、由于采用了负载均衡器动态地分配与查询类型对应的硬件资源，以处理查询语句的技术，所以在查询过程中可以根据当前整体系统的运行状态自动选择合适的CPU或GPU来执行用户的查询，有效解决了现有在异构数据库系统中没有适合的负载均衡优化方法以处理用户查询语句的问题，进而实现了异构数据库系统的整体性能得到有效提升，保障用户的在线查询。

2、由于采用了布隆过滤器根据查询类型对相应的查询语句执行相应的过滤的技术，所以使查询过程中减少了多余的查询步骤，有效解决了现有查询过程中需要对全部资源进行遍历查询导致浪费时间的问题，进而实现了节省了大量的处理时间并减少了内存访问次数，从而显著提高了查询速度。

3、由于采用了在负载均衡器中同时设置离线训练模块和实时优化模块的技术，所以用户离线时可以使用离线训练模块对异构数据库进行查询，在线时可以使用实时优化模块对异构数据库进行查询，有效解决了现有使用离线训练模块导致不便于实现在线查询的问题，进而实现了离线与在线都可以对异构数据库进行查询。

附图说明

图1为本申请实施例一提供的优化异构数据库用户查询的负载均衡方法流程图；

图2为本申请实施例二提供的优化异构数据库用户查询的负载均衡装置结构图；

图3为本申请实施例一提供的分类器规则及其SQL语法示例图；

图4为本申请实施例一提供的负载均衡器的框架图；

图5为本申请实施例一提供的负载均衡器特征图。

具体实施方式

本申请实施例通过提供一种优化异构数据库用户查询的负载均衡方法及装置，解决了现有技术中在异构数据库系统中没有适合的负载均衡优化方法以处理用户查询语句的问题，在处理用户不同类型的查询语句的过程中运用了包括离线训练模块和实时优化模块的负载均衡器实现了系统性能的提升，保障了用户的在线查询。

本申请实施例中的技术方案为解决上述在异构数据库系统中没有适合的负载均衡优化方法以处理用户查询语句的问题，总体思路如下：

通过将获取的查询语句根据语法规则转换成数据库内核引擎使用的JSON格式，再将查询语句通过特定分类器来区分查询类型；根据查询类型，负载均衡器会根据整体系统的状态动态地分配适合的硬件资源执行查询语句，分配的硬件资源中的布隆过滤器会根据查询类型执行相应的过滤以优化查询操作，最后将布隆过滤器过滤后的查询结果进行整合，发送给用户，以完成查询功能。

上述的特定分类器包括分类器分类的规则，通过该规则对查询语句进行分类，之后当布隆过滤器执行过滤时对符合不同规则的查询语句使用不同的过滤过程，以提高查询速度。

负载均衡器包括离线训练模块和实时优化模块：离线训练模块是利用人工标注好的数据集，即先验知识，结合多元线性回归模型计算得出响应时间最短的硬件资源，以供执行后续查询流程；实时优化模块是实时监听查询请求，当监听到查询请求时，收集各设备当前时间戳的资源信息，与当前查询语句的类型组合输入到多元线性回归模型中计算得出响应时间最短的硬件资源，以供执行后续查询流程，再将计算结果用于迭代优化多元线性回归模型的输入数据，以更好的适配当前异构数据库系统。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

实施例一

如图1所示，为本申请实施例提供的优化异构数据库用户查询的负载均衡方法流程图，该方法应用于优化异构数据库用户查询的负载均衡装置中，该方法包括以下步骤：

S1，获取输入的查询语句；

S2，根据特定的分类器规则对查询语句进行区分类型；

S4，利用布隆过滤器根据查询类型执行相应的过滤；

S5，将在异构数据库中查询到的结果返回给用户。

进一步的，本申请实施例提供的方法，可以在处理用户不同类型的查询语句的过程中实现系统性能的提升，保障用户的在线查询，具体步骤如下：

第一步，首先，获取用户在客户端根据自己的需求输入的相应的查询语句，利用语法规则将查询语句转换为数据库内核引擎使用的JSON格式；

第二步，其次，根据用户的输入语句，使用一个特定的分类器用于区分不同类型的查询语句；

第三步，针对不同类型的查询，将根据当前整体系统的运行状态，利用设计的负载均衡器来动态的分配硬件资源来处理用户的查询；

第四步，在负载均衡器下发查询请求后，指定查询的设备将根据不同的类型，使用布隆过滤器优化查询操作；

第五步，经过布隆过滤器的过滤后，将查询结果最终返回给用户，以完成在线查询功能。

在本实施例中，特定的分类器中有设定的特定规则，主要使用的是其规则；整体系统指的是整个异构数据库系统；布隆过滤器位于硬件资源上，布隆过滤器对查询语句的过滤就是对查询操作的优化；若布隆过滤器过滤时启用了多线程，那么在返回查询结果给用户的时候需要将多线程的结果进行聚合再输出，若没有启用多线程，则可以直接输出查询结果。

进一步的，S1中的查询语句被获取后需要根据语法规则转换为异构数据库内核引擎使用的JSON格式。

在本实施例中，异构数据库系统是以JSON格式来存储信息，所以需要将输入的SQL查询语句解析成JSON格式继续查询。

进一步的，S2中的特定的分类器规则包括：

规则1：查询语句只关注整列的所有信息；

规则2：查询语句查询单个列中的特定值；

在本实施例中，如图3所示，为本实施例中提供的分类器规则及其SQL语法示例图；

其中SELECT a FROM TEST，为规则1中指的在TEST表中仅查询整个a列的所有信息；

SELECT a FROM TESTWHEREa＝1，为规则2中指的从TEST表中的单个列a中查询值等于1的信息；规则2中的特定值指的是用户指定一个要查找的值，在本实施例中，列a的值等于1就是特定值；

SELECT a，b FROM TEST WHERE a＝1and b＝2，为规则3中指的在表TEST中查询列a和列b的值，当列a中的值等于1且列b中的值等于2时，输出该结果。

进一步的，S3中的负载均衡器包括离线训练模块和实时优化模块；

离线训练模块和实时优化模块都根据负载器均衡特征表通过多元线程回归模型计算获取响应时间最短的设备。

在本实施例中，如图4所示，为本实施例提供的负载均衡器的框架图。当收到查询请求时，获取系统资源信息，判断是用实施优化模块还是使用离线训练模块，由对应的模块得到的计算数据继续分配硬件资源处理查询请求。

进一步的，离线训练模块具体为：

先验知识为人工已标注好的数据集，数据集涉及负载器均衡特征表中的特征。

在本实施例中，离线训练模块主要是利用先验知识来完成模型的训练，先验知识主要是人工标注好的数据集，数据集所涉及的特征主要包含查询类型、当前队列长度以及有关设备状态的信息，具体的负载器均衡特征见图5，为本实施例提供的负载均衡器特征图。图中变量x₁、…、x₅是设备的，其余变量与本次查询有关，特别说明当x₇、x₈均为0时，代表本次查询类型为规则3；

对于已标注好的数据集，本方法利用多元线性回归模型进行建模与训练，利用多元线性回归模型计算CPU与GPU的响应时间。

进一步的，实时优化模块具体为：

步骤一：实时监听查询请求；

在本实施例中，实时优化模块主要是在用户发起查询后，实时收集系统的整体系统资源信息，利用已训练好的多元线性回归模型进行分类，输出执行本次查询的最优设备，并将查询结果下发给对应的设备以执行后续查询；

在实时优化模块分配查询请求后，将存储每次动态计算的结果，用于迭代优化多元线性回归模型，以更好的适配当前异构数据库系统。

进一步的，如图5所示，为本实施例提供的负载器均衡特征图，负载器均衡特征内容包括：

x₁：设备利用率百分比；

x₂：设备温度；

x₃：设备内存使用率百分比；

x₄：当前时间戳设备上查询队列的长度；

x₅：当前时间戳设备上运行的查询数；

x₆：上次查询与当前查询之间的时间间隔；

x₇：是否是查询语句只关注整列的所有信息的查询类型；

x₈：是否是查询语句查询单个列中的特定值的查询类型；

y：响应时间。

在本实施例中，如图3和图5所示，为本实施例提供的分类器规则及其SQL语法示例图和负载均衡器特征图，x₇主要是判断查询语句类型是否符合特定分类器中的规则2，x₈主要是判断查询语句类型是否符合特定分类器中的规则3，其中特定值指的是用户指定一个要查找的值。

进一步的，多元线程回归模型的具体计算公式为：

其中，y_CPU，y_GPU是CPU和GPU的响应时间，

是CPU和GPU的多元线性回归模型的系数，i为序号，

是CPU和GPU对应的特征值。

在本实施例中，上述

是CPU和GPU对应的多元线性回归模型的系数，对于离线训练模块中已标注好的数据集和实时优化模块中存储的每次动态计算的查询结果，都利用多元线性回归模型进行建模与训练，利用多元线性回归模型计算CPU与GPU的响应时间，在利用多元线性回归模型得到每个设备所对应的响应时间以后，选择响应时间最短的设备作为本次查询的设备。

进一步的，S4中的布隆过滤器置于各个硬件资源中，硬件资源根据获取的不同类型的查询语句，使用布隆过滤器执行过滤。

在本实施例中，因为采用的是列式存储，数据库中的每一列被划分为连续的块，其中每个块包含1024个该列的值，布隆过滤器的作用是检查每个块中是否存在本次查询的搜索值。

如图3分类器规则及其SQL语法示例图中所示，对于符合规则1的查询语句，由于需要遍历指定列上的所有数据，因此布隆过滤器对该类型的查询无效；

对于符合规则2的查询语句，将利用布隆过滤器检索每个块，如果布隆过滤器返回空值，则查询的值在相应的块中不存在，可以跳过该块而不处理其中的1024个值，此时数可以启用多线程来同时利用多个布隆过滤器进行检索，从而加速查询过程；

对于符合规则3的查询语句，采用与规则2相同的流程，但是，因为查询语句中包含“AND”操作符，因此，如果一个线程在至少一个块中得到一个关于查询值不存在的结果，它将忽略当前查询集合中剩下的块，并移动到下一个块集合，从而提高了“AND”条件下的查询速度。

从上述过程可以看出，布隆过滤器节省了大量的处理时间并减少了内存访问次数，从而提高查询速度，同时对于符合规则2的查询语句和符合规则3的查询语句经过布隆过滤器过滤后需要将多线程获得的结果进行聚合，才能返回给用户。

上述本申请实施例中的技术方案，至少具有如下的技术效果或优点：通过负载均衡器动态地分配与查询类型对应的硬件资源，以处理查询语句的技术，使在查询过程中可以根据当前整体系统的运行状态自动选择合适的CPU或GPU来执行用户的查询，有效解决了现有在异构数据库系统中没有适合的负载均衡优化方法以处理用户查询语句的问题，进而实现了异构数据库系统的整体性能得到有效提升，保障用户的在线查询。

实施例二

如图2所示，为本申请实施例提供的优化异构数据库用户查询的负载均衡装置结构图，本申请实施例提供的优化异构数据库用户查询的负载均衡装置包括获取模块、分类模块、调度模块、优化模块和发送模块：

获取模块：用于获取输入的查询语句；

在本实施例中，首先通过获取模块获取用户输入的查询语句，再通过分类模块根据特定的分类器规则对查询语句进行区分类型，在调度模块中利用负载均衡器动态地分配与查询类型对应的硬件资源，以处理查询语句，在优化模块中利用布隆过滤器根据查询类型执行相应的过滤，最后通过发送模块将查询结果返回给用户。

上述本申请实施例中的技术方案，至少具有如下的技术效果或优点：在负载均衡器下发查询请求后，指定查询的硬件资源将根据不同的类型，使用布隆过滤器优化查询操作，通过利用布隆过滤器节省了大量的处理时间并减少了内存访问次数，从而显著提高了查询速度。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种优化异构数据库用户查询的负载均衡方法，其特征在于，包括以下步骤：

S1，获取输入的查询语句；

S2，根据特定的分类器规则对查询语句进行区分类型；

S4，利用布隆过滤器根据查询类型执行相应的过滤；

S5，将在异构数据库中查询到的结果返回给用户。

2.根据权利要求1所述优化异构数据库用户查询的负载均衡方法，其特征在于：所述S1中的查询语句被获取后需要根据语法规则转换为异构数据库内核引擎使用的JSON格式。

3.根据权利要求1所述优化异构数据库用户查询的负载均衡方法，其特征在于，所述S2中的特定的分类器规则包括：

规则1：查询语句只关注整列的所有信息；

规则2：查询语句查询单个列中的特定值；

4.根据权利要求1所述优化异构数据库用户查询的负载均衡方法，其特征在于：所述S3中的负载均衡器包括离线训练模块和实时优化模块；

5.根据权利要求4所述优化异构数据库用户查询的负载均衡方法，其特征在于，所述离线训练模块具体为：

6.根据权利要求4所述优化异构数据库用户查询的负载均衡方法，其特征在于，所述实时优化模块具体为：

步骤一：实时监听查询请求；

7.根据权利要求4所述优化异构数据库用户查询的负载均衡方法，其特征在于，所述负载器均衡特征内容包括：

x₁：设备利用率百分比；

x₂：设备温度；

x₃：设备内存使用率百分比；

x₄：当前时间戳设备上查询队列的长度；

x₅：当前时间戳设备上运行的查询数；

x₆：上次查询与当前查询之间的时间间隔；

x₇：是否是查询语句只关注整列的所有信息的查询类型；

x₈：是否是查询语句查询单个列中的特定值的查询类型；

y：响应时间。

8.根据权利要求4至6任一项中所述优化异构数据库用户查询的负载均衡方法，其特征在于，所述多元线程回归模型的具体计算公式为：

其中，y_CPU，y_GPU是CPU和GPU的响应时间，

是CPU和GPU的多元线性回归模型的系数，i为序号，

是CPU和GPU对应的特征值。

9.根据权利要求1所述优化异构数据库用户查询的负载均衡方法，其特征在于：所述S4中的布隆过滤器置于各个硬件资源中，硬件资源根据获取的不同类型的查询语句，使用布隆过滤器执行过滤。

10.一种优化异构数据库用户查询的负载均衡装置，其特征在于，包括获取模块、分类模块、调度模块、优化模块和发送模块：

获取模块：用于获取输入的查询语句；