CN117743355A

CN117743355A - 一种分布式数据库并发更新方法、装置、设备及存储介质

Info

Publication number: CN117743355A
Application number: CN202311847868.0A
Authority: CN
Inventors: 仇彤; 周恒�
Original assignee: Jinzhuan Xinke Co Ltd
Current assignee: Jinzhuan Xinke Co Ltd
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-03-22

Abstract

本申请公开了一种分布式数据库并发更新方法、装置、设备及存储介质，基于分布式数据库各表的直方图信息，即表中数据的分布情况来对原始update语句进行拆分，保证每一条子语句操作的数据量大致相当，并以多线程并发的方式执行每条子语句，从而提升整体语句的执行效率，解决了当需要更新的数据量很大时，分布式数据库的更新性能会显著衰减，同时，目前在分布式数据库中，没有一种有效的支持数据切分并发更新的方法的技术问题。

Description

一种分布式数据库并发更新方法、装置、设备及存储介质

技术领域

本申请涉及分布式数据库更新技术领域，尤其涉及一种分布式数据库并发更新方法、装置、设备及存储介质。

背景技术

在MySQL中update执行流程如下：

1.执行器首先在存储引擎中找到主键，若主键这一行所在的数据页本来就在内存中，则直接返回给执行器；否则需要先从磁盘中读入数据，再返回。

2.执行器接收到存储引擎所提供的行数据，进行update相关的操作，得到新的一行数据，再调用存储引擎接口写入这行新数据。

3.存储引擎将这行新数据更新到内存中，同时将这个更新操作记录到redo log中，此时redo log处于准备(prepare)状态。然后告知执行器执行完成，随时可以提交事务。

4.执行器生成上述操作的binlog，并将binlog写入磁盘。

5.执行器调用存储引擎的提交事务接口，存储引擎把刚刚写入的redo log改成提交(commit)状态，最终更新完成。

而在Oracle中使用dbms_parallel_execute对大表进行更新，分为两个步骤：一是将大表分成小的chunks，二是将这些chunks并行。

当前GoldenDB分布式数据库的更新流程如下：

首先生成等价select语句：SELECT主键，分发键…FROM…FOR UPDATE选中数据；

然后根据查询到的数据来生成新的update语句：UPDATE…SET…WHERE主键＝…。

当需要更新的数据量很大时，分布式数据库的更新性能会显著衰减。同时，目前在分布式数据库中，没有一种有效的支持数据切分并发更新的方法。

综上所述，作为分布式数据库，在面对大数据量更新时，我们急需一种有效的支持并发更新的方法。

发明内容

本申请提供了一种分布式数据库并发更新方法、装置、设备及存储介质，解决了当需要更新的数据量很大时，分布式数据库的更新性能会显著衰减，同时，目前在分布式数据库中，没有一种有效的支持数据切分并发更新的方法的技术问题。

有鉴于此，本申请第一方面提供了一种分布式数据库并发更新方法，所述方法包括：

S1、获取分布式数据库的各分片的直方图信息；

S2、以非待更新字段为目标拆分语句字段，根据所述非待更新字段的字段类型对各分片的直方图信息进行数据切分，生成并行SQL更新语句；

S3、以多线程形式并发执行所述并行SQL更新语句，完成分布式数据库的并发更新。

可选地，所述步骤S2具体包括：

以非待更新字段为目标拆分语句字段，当所述非待更新字段的字段类型为数值类型时，对各分片的直方图信息进行合并，以bucket为粒度切分合并后的直方图信息，生成并行SQL更新语句。

可选地，所述对各分片的直方图信息进行合并具体为：

将各分片的直方图信息中相同bucket数据进行累加。

可选地，所述步骤S2具体包括：

以非待更新字段为目标拆分语句字段，当所述非待更新字段的字段类型为字符类型时，选取各分片的直方图信息中所述非待更新字段的distinct数最大的一个直方图信息，以bucket为粒度切分，生成并行SQL更新语句。

本申请第二方面提供一种分布式数据库并发更新装置，所述装置包括：

获取单元，用于获取分布式数据库的各分片的直方图信息；

数据切分单元，用于以非待更新字段为目标拆分语句字段，根据所述非待更新字段的字段类型对各分片的直方图信息进行数据切分，生成并行SQL更新语句；

执行单元，用于以多线程形式并发执行所述并行SQL更新语句，完成分布式数据库的并发更新。

可选地，所述数据切分单元具体用于：

可选地，所述对各分片的直方图信息进行合并具体为：

将各分片的直方图信息中相同bucket数据进行累加。

可选地，所述数据切分单元具体用于：

本申请第三方面提供一种分布式数据库并发更新设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令，执行如上述第一方面所述的分布式数据库并发更新的方法的步骤。

本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述第一方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请中，提供了一种分布式数据库并发更新方法、装置、设备及存储介质，基于分布式数据库各表的直方图信息，即表中数据的分布情况来对原始update语句进行拆分，保证每一条子语句操作的数据量大致相当，并以多线程并发的方式执行每条子语句，从而提升整体语句的执行效率，解决了当需要更新的数据量很大时，分布式数据库的更新性能会显著衰减，同时，目前在分布式数据库中，没有一种有效的支持数据切分并发更新的方法的技术问题。

附图说明

图1为本申请实施例中分布式数据库并发更新方法的方法流程图；

图2为本申请实施例中分布式数据库并发更新装置的结构示意图；

图3为本申请实施例中分布式数据库并发更新设备的结构示意图；

图4为本申请实施例中各分片直方图信息的合并示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请设计了一种分布式数据库并发更新方法、装置、设备及存储介质，解决了当需要更新的数据量很大时，分布式数据库的更新性能会显著衰减，同时，目前在分布式数据库中，没有一种有效的支持数据切分并发更新的方法的技术问题。

为了便于理解，请参阅图1，图1为本申请实施例中分布式数据库并发更新方法的方法流程图，如图1所示，具体为：

S1、获取分布式数据库的各分片的直方图信息；

需要说明的是，可以通过在分布式数据库中创建数据库行数表以及直方图信息表，执行分析指令查询并统计分布式数据库中各个分片上的表信息、行数信息以及直方图信息，从而更新数据库行数表以及直方图信息表，在CN层加载数据库行数表以及直方图信息表，通过汇总和权重评估以创建以及展示直方图。

S2、以非待更新字段为目标拆分语句字段，根据非待更新字段的字段类型对各分片的直方图信息进行数据切分，生成并行SQL更新语句；

需要说明的是，对于拆分语句字段的选择，所选字段不能为待更新字段，优先考虑区分度高的字段。

根据非待更新字段的字段类型，对获取的各分片的直方图信息进行数据切分，直方图信息可以表示数据的分布情况，从而形成并行SQL更新语句。

S3、以多线程形式并发执行并行SQL更新语句，完成分布式数据库的并发更新。

需要说明的是，通常，将并行SQL更新语句多线程下发至数据节点，由数据节点执行并行SQL更新语句，完成分布式数据库的并发更新。

进一步地，步骤S2具体包括：

以非待更新字段为目标拆分语句字段，当非待更新字段的字段类型为数值类型时，对各分片的直方图信息进行合并，以bucket为粒度切分合并后的直方图信息，生成并行SQL更新语句。

进一步地，对各分片的直方图信息进行合并具体为：

将各分片的直方图信息中相同bucket数据进行累加。

需要说明的是，如图4所示，图4为本申请实施例中各分片直方图信息的合并示意图，具体地，当非待更新字段的字段类型为数值类型时，默认bucket内字段值均匀分布，对各分片的直方图信息进行合并，即对直方图图中同一bucket数据进行累加，依据各分片的直方图信息合并后的结果，以bucket为粒度切分，生成并行SQL更新语句。

进一步地，步骤S2具体包括：

以非待更新字段为目标拆分语句字段，当非待更新字段的字段类型为字符类型时，选取各分片的直方图信息中非待更新字段的distinct数最大的一个直方图信息，以bucket为粒度切分，生成并行SQL更新语句。

需要说明的是，当非待更新字段的字段类型为字符类型时，选取distinct数最大的某一字段的某一分片的直方图，以bucket为粒度切分，生成并行SQL更新语句，例如：

id字段合并后直方图信息：

[[a,c,0.4,4],[f,k,0.6,6],[m,p,0.7,6],[s,y,1,6]]

并发数3

原语句：update t1 set...where...

并发sql：

update t1 set...where(...)and id<＝‘c’；

update t1 set...where(...)and id>‘c’and id<＝‘p’；

update t1 set...where(...)and id>‘p’；

请参阅图2，图2为本申请实施例中分布式数据库并发更新装置的结构示意图，如图2所示，具体为：

获取单元201，用于获取分布式数据库的各分片的直方图信息；

数据切分单元202，用于以非待更新字段为目标拆分语句字段，根据非待更新字段的字段类型对各分片的直方图信息进行数据切分，生成并行SQL更新语句；

执行单元203，用于以多线程形式并发执行并行SQL更新语句，完成分布式数据库的并发更新。

进一步地，数据切分单元202具体用于：

进一步地，对各分片的直方图信息进行合并具体为：

将各分片的直方图信息中相同bucket数据进行累加。

进一步地，数据切分单元202具体用于：

id字段合并后直方图信息：

[[a,c,0.4,4],[f,k,0.6,6],[m,p,0.7,6],[s,y,1,6]]

并发数3

原语句：update t1 set...where...

并发sql：

update t1 set...where(...)and id<＝‘c’；

update t1 set...where(...)and id>‘c’and id<＝‘p’；

update t1 set...where(...)and id>‘p’；

本申请实施例还提供了另一种分布式数据库并发更新设备，如图3所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(英文全称：PersonalDigitalAssistant，英文缩写：PDA)、销售终端(英文全称：Point ofSales，英文缩写：POS)、车载电脑等任意终端设备，以终端为手机为例：

图3示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图3，手机包括：射频(英文全称：Radio Frequency，英文缩写：RF)电路1010、存储器1020、输入单元1030、显示单元1040、传感器1050、音频电路1060、无线保真(英文全称：wirelessfidelity，英文缩写：WiFi)模块1070、处理器1080、以及电源1090等部件。本领域技术人员可以理解，图3中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图3对手机的各个构成部件进行具体的介绍：

RF电路1010可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1080处理；另外，将设计上行的数据发送给基站。通常，RF电路1010包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(英文全称：LowNoiseAmplifier，英文缩写：LNA)、双工器等。此外，RF电路1010还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(英文全称：Global System ofMobile communication，英文缩写：GSM)、通用分组无线服务(英文全称：General Packet Radio Service，GPRS)、码分多址(英文全称：CodeDivision Multiple Access，英文缩写：CDMA)、宽带码分多址(英文全称：Wideband CodeDivisionMultipleAccess,英文缩写：WCDMA)、长期演进(英文全称：Long TermEvolution，英文缩写：LTE)、电子邮件、短消息服务(英文全称：ShortMessaging Service，SMS)等。

存储器1020可用于存储软件程序以及模块，处理器1080通过运行存储在存储器1020的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器1020可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1020可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1030可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1030可包括触控面板1031以及其他输入设备1032。触控面板1031，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1031上或在触控面板1031附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1031可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1080，并能接收处理器1080发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1031。除了触控面板1031，输入单元1030还可以包括其他输入设备1032。具体地，其他输入设备1032可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1040可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元1040可包括显示面板1041，可选的，可以采用液晶显示器(英文全称：Liquid Crystal Display，英文缩写：LCD)、有机发光二极管(英文全称：Organic Light-Emitting Diode，英文缩写：OLED)等形式来配置显示面板1041。进一步的，触控面板1031可覆盖显示面板1041，当触控面板1031检测到在其上或附近的触摸操作后，传送给处理器1080以确定触摸事件的类型，随后处理器1080根据触摸事件的类型在显示面板1041上提供相应的视觉输出。虽然在图3中，触控面板1031与显示面板1041是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板1031与显示面板1041集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器1050，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1041的亮度，接近传感器可在手机移动到耳边时，关闭显示面板1041和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1060、扬声器1061，传声器1062可提供用户与手机之间的音频接口。音频电路1060可将接收到的音频数据转换后的电信号，传输到扬声器1061，由扬声器1061转换为声音信号输出；另一方面，传声器1062将收集的声音信号转换为电信号，由音频电路1060接收后转换为音频数据，再将音频数据输出处理器1080处理后，经RF电路1010以发送给比如另一手机，或者将音频数据输出至存储器1020以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块1070可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图3示出了WiFi模块1070，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1080是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1020内的软件程序和/或模块，以及调用存储在存储器1020内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1080可包括一个或多个处理单元；优选的，处理器1080可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1080中。

手机还包括给各个部件供电的电源1090(比如电池)，优选的，电源可以通过电源管理系统与处理器1080逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器1080还具有以下功能：

S1、获取分布式数据库的各分片的直方图信息；

进一步地，步骤S2具体包括：

进一步地，对各分片的直方图信息进行合并具体为：

将各分片的直方图信息中相同bucket数据进行累加。

进一步地，步骤S2具体包括：

id字段合并后直方图信息：

[[a,c,0.4,4],[f,k,0.6,6],[m,p,0.7,6],[s,y,1,6]]

并发数3

原语句：update t1 set...where...

并发sql：

update t1 set...where(...)andid<＝‘c’；

update t1 set...where(...)andid>‘c’and id<＝‘p’；

update t1 set...where(...)andid>‘p’；

本申请实施例还提供一种计算机可读存储介质，用于存储程序代码，该程序代码用于执行前述各个实施例的一种分布式数据库并发更新方法中的任意一种实施方式。

本申请实施例中，提供了一种分布式数据库并发更新方法、装置、设备及存储介质，基于分布式数据库各表的直方图信息，即表中数据的分布情况来对原始update语句进行拆分，保证每一条子语句操作的数据量大致相当，并以多线程并发的方式执行每条子语句，从而提升整体语句的执行效率，解决了当需要更新的数据量很大时，分布式数据库的更新性能会显著衰减，同时，目前在分布式数据库中，没有一种有效的支持数据切分并发更新的方法的技术问题。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本申请中，“至少一个(项)”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：只存在A，只存在B以及同时存在A和B三种情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a，b或c中的至少一项(个)，可以表示：a，b，c，“a和b”，“a和c”，“b和c”，或“a和b和c”，其中a，b，c可以是单个，也可以是多个。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文全称：Read-OnlyMemory，英文缩写：ROM)、随机存取存储器(英文全称：RandomAccess Memory，英文缩写：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种分布式数据库并发更新方法，其特征在于，包括：

S1、获取分布式数据库的各分片的直方图信息；

2.根据权利要求1所述的分布式数据库并发更新方法，其特征在于，所述步骤S2具体包括：

3.根据权利要求2所述的分布式数据库并发更新方法，其特征在于，所述对各分片的直方图信息进行合并具体为：

将各分片的直方图信息中相同bucket数据进行累加。

4.根据权利要求1所述的分布式数据库并发更新方法，其特征在于，所述步骤S2具体包括：

5.一种分布式数据库并发更新装置，其特征在于，包括：

获取单元，用于获取分布式数据库的各分片的直方图信息；

6.根据权利要求5所述的分布式数据库并发更新装置，其特征在于，所述数据切分单元具体用于：

7.根据权利要求6所述的分布式数据库并发更新装置，其特征在于，所述对各分片的直方图信息进行合并具体为：

将各分片的直方图信息中相同bucket数据进行累加。

8.根据权利要求5所述的分布式数据库并发更新装置，其特征在于，所述数据切分单元具体用于：

9.一种分布式数据库并发更新设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的分布式数据库并发更新方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行权利要求1-4任一项所述的分布式数据库并发更新方法。