CN114356929A

CN114356929A - 一种基于sql缓存的分布式数据处理方法

Info

Publication number: CN114356929A
Application number: CN202111673326.7A
Authority: CN
Inventors: 夏博涵; 陈磊; 周恒�
Original assignee: Shandong Inspur Scientific Research Institute Co Ltd
Current assignee: Shanghai Yunxi Technology Co ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-15

Abstract

本发明提供一种基于SQL缓存的分布式数据处理方法，属于分布式数据库网关领域，本发明通过分布式数据库网关分发SQL语句后，利用最近最少使用(LRU)算法进行缓存执行SQL的数据库节点ID。将SQL语句进行哈希作为键，节点ID作为值。当下一次收到的SQL语句在缓存列表中时，可以直接将SQL语句分发到指定节点，这样可以节省部分SQL解析过程，也减轻了网络负载。本发明可以提高分布式数据库的SQL执行效率，减轻网络负载。

Description

一种基于SQL缓存的分布式数据处理方法

技术领域

本发明涉及分布式数据库网关领域，尤其涉及一种基于SQL缓存的分布式数据处理方法。

背景技术

数据库网关是一种支持数据库远程访问的数据库连接服务。通过数据库网关，可以安全且低成本地将云或本地的数据库接入至其他系统中。数据库网关提供安全、可靠、低成本的数据库接入服务。数据库网关的工作原理大致如下：在本地安装一个数据库网关代理后，通过它负责与数据库网关服务建立安全的通道，数据库提供的服务也基于此进行通信。

现有的数据库网关大多数都具有负载均衡的作用，而且是基于连接层进行负载均衡的。在数据库的客户端与后端建立连接时，数据流经的通道就确定了下来。后续的SQL请求都会通过已经确立的连接进行传递，数据被转发到后端的数据库节点上，进行SQL解析与存储过程的实现。当一个客户端与数据库网关建立连接时，其发送的所有SQL请求都会被转发到同一个数据库节点上。当数据量过大时，会导致此节点的处理压力增大，而其他节点的处理能力却没有利用起来。

在一般的分布式数据库网关中，多采用轮询的方式将收到的SQL语句分发到后面的数据库节点上，每个节点进行SQL解析后找到该SQL的数据存放在哪几个节点上，然后在该节点上执行SQL并返回给数据库网关。在此过程中，SQL解析以及网络上转发数据包所带来的负载是不可忽视的，尤其在集群规模较大时，对于SQL的执行效率产生很大的负面效果。

鉴于此，网关需要一种SQL缓存技术，对于高频的SQL语句可以直接分发到数据分布的节点上执行，大大减少集群的负载。

发明内容

针对分布式数据库SQL解析过程长和网络负载高导致的SQL执行效率较低的特点，本发明提供了一种基于SQL缓存的分布式数据处理方法。通过分布式数据库网关将SQL语句计算哈希值，再缓存到哈希表中，减少了分布式数据库的解析过程、减轻了网络负载，提升了SQL执行效率。

本发明的技术方案是：

一种基于SQL缓存的分布式数据处理方法，通过分布式数据库网关分发SQL语句后，利用最近最少使用(LRU)算法进行缓存执行SQL的数据库节点ID。将SQL语句进行哈希作为键，节点ID作为值。当下一次收到的SQL语句在缓存列表中时，可以直接将SQL语句分发到指定节点，这样可以节省部分SQL解析过程，也减轻了网络负载。本发明可以提高分布式数据库的SQL执行效率，减轻网络负载。

进一步的，

数据库网关初始化一个链表和有长度限制的哈希表，每当收到一条SQL语句，将其转化为字符串，并通过MD5散列函数为它计算一个哈希值，作为哈希表的键。

从哈希表中查找这个键是否命中缓冲，如果命中，就将这一组键值对移动到链表的首部即把最近被使用的一组键值对移动到链表的最前面；如果没有命中，先检测哈希表是否已经达到长度上限，若是，就移除链表尾部的节点即把缓存中最久未被使用的一组键值对删除；否则跳过这一步。

将SQL语句轮询转发到分布式数据库节点，经过SQL解析后，数据库各个节点经过协商后找到执行SQL的节点，记录下这个节点的ID作为值，与经过哈希的SQL语句组成一组键值对插入到链表的首部，更新哈希表。

哈希表的长度限制根据分布式数据库的集群规模、数据副本的份数、网络的延迟、硬件设施协调而定。

数据库的数据副本保持分布在原有节点中，当发生副本合并、拆分时，应设置成在本节点中完成平衡。

如果缓存在哈希表中的SQL语句的数据副本发生节点迁移，SQL被转发到节点后将重新执行存储过程来解析出存储数据的节点，并将新的节点ID作为值更新到哈希表中。

本发明的有益效果是

相比于现有技术中，分布式数据库网关每次接收到SQL语句时都轮询发送到后端的数据库节点。本方案通过将SQL语句计算哈希值，再缓存到哈希表中，减少了分布式数据库的解析过程、减轻了网络负载，提升了SQL执行效率。

附图说明

图1是本发明的工作流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明中的数据库网关和后端的数据库的每一个节点都建立连接。也就是说，当一个客户端连接到数据库网关上时，后者会和后端的每一个数据库节点建立安全、可靠的TCP连接，然后把从客户端收到的数据进行协议解析后转发到后端的数据库节点上。网关会在此过程中对数据报文进行事务的分割，以保证同一个事务的报文被分发到同一个数据库节点上，使每一个事务顺利执行。待每个数据库节点将应答数据返回给网关时，网关对数据根据请求顺序进行整合，一起发送给客户端。由于数据库网关只是解析协议而不解析SQL，所以SQL被轮询发送到数据库节点后进行SQL解析，并转发到最终执行SQL的节点上。当数据量增加时，SQL的解析及转发将耗费大量的计算和网络资源。

因此，本发明中使用了基于LRU算法和哈希表实现的SQL缓存的分布式数据处理方法，具体实现如下：

然后从哈希表中查找这个键是否命中缓冲，如果命中，就将这一组键值对移动到链表的首部(也就是把最近被使用的一组键值对移动到链表的最前面)；如果没有命中，先检测哈希表是否已经达到长度上限，若是，就移除链表尾部的节点(也就是把缓存中最久未被使用的一组键值对删除)；否则跳过这一步。

接下来将SQL语句轮询转发到分布式数据库节点，经过SQL解析后，数据库各个节点经过协商后找到执行SQL的节点，记录下这个节点的ID作为值，与经过哈希的SQL语句组成一组键值对插入到链表的首部，更新哈希表。

在此方案下，每当分布式数据库网关接收到缓存在链表中的SQL语句时，可以直接将其转发到真正执行SQL的数据库节点，大大提高了SQL执行的效率，减少了数据库集群的大量的解析过程和网络负载。

关于哈希表的长度限制，并没有一个固定的最优解，需要根据分布式数据库的集群规模、数据副本的份数、网络的延迟、硬件设施等多种因素协调而定。一般来说，哈希表的长度与数据库集群的处理SQL的效率呈现先上升再下降的趋势。具体来说，当硬件资源足够多时，哈希表的长度可以设置的足够大来存储更多的SQL语句，这将大大减少SQL解析过程，大部分SQL语句可以通过网关直接转发到存储数据的数据库节点上。然而，当哈希表的长度增长到某个阈值时，由于维护哈希表占用的内存过大，导致硬件资源紧张，数据库集群会出现处理SQL的能力下降的情况。因此，为了避免哈希表过长而占用大量内存导致网关性能下降的现象出现，在部署网关时要进行多轮测试来确定哈希表的长度。

对于数据库的数据副本来说，应该尽量保持分布在原有节点中。当发生副本合并、拆分时，应设置成尽量在本节点中完成平衡，这样缓存在哈希表的键值对才能发挥其最大作用。如果缓存在哈希表中的SQL语句的数据副本发生节点迁移，SQL被转发到节点后将重新执行存储过程来解析出存储数据的节点，并将新的节点ID作为值更新到哈希表中。

本发明通过网关缓存执行SQL的节点ID，当收到重复的SQL语句时，可以直接把SQL转发到存储数据的节点，提高了SQL的执行效率。

以上所述仅为本发明的较佳实施例，仅用于说明本发明的技术方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于SQL缓存的分布式数据处理方法，其特征在于，

分布式数据库网关每次接收到SQL语句时，将SQL语句计算哈希值，再缓存到哈希表中。

2.根据权利要求1所述的方法，其特征在于，

通过分布式数据库网关分发SQL语句后，利用最近最少使用(LRU)算法进行缓存执行SQL的数据库节点ID；

将SQL语句进行哈希作为键，节点ID作为值；当下一次收到的SQL语句在缓存列表中时，直接将SQL语句分发到指定节点。

3.根据权利要求2所述的方法，其特征在于，

4.根据权利要求3所述的方法，其特征在于，

5.根据权利要求4所述的方法，其特征在于，

6.根据权利要求5所述的方法，其特征在于，

7.根据权利要求6所述的方法，其特征在于，

8.根据权利要求7所述的方法，其特征在于，