CN111563115B

CN111563115B - 一种分布式数据库中数据分布信息的统计方法及装置

Info

Publication number: CN111563115B
Application number: CN202010388232.4A
Authority: CN
Inventors: 朱博帅
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-05-09
Filing date: 2020-05-09
Publication date: 2023-06-02
Anticipated expiration: 2040-05-09
Also published as: CN111563115A

Abstract

本发明实施例提供了一种分布式数据库中数据分布信息的统计方法及装置，应用于分布式数据库中的跟随者follower节点，上述方法包括：接收所述leader节点发送的数据变更操作指令；按照所述数据变更操作指令，变更所存储的数据；当达到预设的数据统计条件时，统计所存储的数据的分布情况，得到数据分布统计信息。采用本发明实施例提供的方法，将leader节点的统计数据分布情况的压力转移到follower节点，均衡了一致性协议组各节点负载的压力，使得一致性协议组内各节点之间的资源消耗相对较为同步，避免了单个节点率先达到性能瓶颈，提高了分布式数据库的资源利用率。

Description

一种分布式数据库中数据分布信息的统计方法及装置

技术领域

本发明涉及互联网技术领域，特别是涉及一种分布式数据库中数据分布信息的统计方法及装置。

背景技术

目前分布式数据库，多采用分布式多副本一致性协议。

参见图1，图1为分布式数据库结构示例图。采用分布式多副本一致性协议的分布式数据库，包括多个节点，遵循该协议。这些节点被分配到不同的一致性协议组中。图1中数字1、数字2和数字3均表示一致性协议组，每个一致性协议组可以包括：一个leader(领导者)节点110和多个follower(跟随者)节点120。

其中，leader节点110用于接收客户端130发送的操作指令，并执行操作指令，对存储于leader节点110的数据进行管理。例如：对存储于leader节点110的数据进行增加、删除或修改；或者按照所接收的操作指令对所存储的数据进行查询。并且，leader节点110还需要对所存储的数据的分布情况进行统计，得到数据分布统计信息并保存。进而，在接收到包含查询请求的操作指令后，leader节点110可以根据所保存的数据分布统计信息，进行数据查询。而follower节点120的作用就是备份leader节点110所存储的数据，保存数据副本，在leader节点110故障时，follower节点可以升级为leader节点，保障分布式数据库的正常运行。

可见，leader节点承担的工作远远多于follower节点承担的工作，一致性协议组内leader节点的资源消耗过大。

发明内容

本发明实施例的目的在于提供一种分布式数据库中数据分布信息的统计方法及装置，以减小一致性协议组内leader节点的资源消耗。

为了达到上述目的，本发明实施例提供了一种分布式数据库中数据分布信息的统计方法，应用于分布式数据库中的跟随者follower节点，所述分布式数据库中还包括与follower节点属于同一一致性协议组的领导者leader节点，所述方法包括：

接收所述leader节点发送的数据变更操作指令；

按照所述数据变更操作指令，变更所存储的数据；

当达到预设的数据统计条件时，统计所存储的数据的分布情况，得到数据分布统计信息。

进一步的，所述当达到预设的数据统计条件时，统计所存储的数据的分布情况，包括：

若变更所存储的数据的次数达到预设次数，统计所存储的数据的分布情况；或者，

若当前时间到达预设的定时时间后，统计所存储的数据的分布情况。

进一步的，在所述统计所存储的数据的分布情况，得到统计信息之后，还包括：

存储所述数据分布统计信息；或者，将所述数据分布统计信息发送至指定的一致性协议组中的leader节点；所述指定的一致性协议组中的leader节点用于存储接收的所述数据分布统计信息。

接收所述leader节点发送的统计信息获取请求；

基于所述统计信息获取请求，将所述数据分布统计信息发送至所述leader节点。

为了达到上述目的，本发明实施例还提供了一种分布式数据库中数据分布信息的统计装置，应用于分布式数据库中的跟随者follower节点，所述分布式数据库中还包括与follower节点属于同一一致性协议组的领导者leader节点，所述装置包括：

操作指令接收模块，用于接收所述leader节点发送的数据变更操作指令；

数据变更模块，用于按照所述数据变更操作指令，变更所存储的数据；

统计模块，用于当达到预设的数据统计条件时，统计所存储的数据的分布情况，得到数据分布统计信息。

进一步的，所述统计模块，具体用于若变更所存储的数据的次数达到预设次数，统计所存储的数据的分布情况，得到数据分布统计信息；或者，

若当前时间到达预设的定时时间后，统计所存储的数据的分布情况，得到数据分布统计信息。

进一步的，在所述统计模块，统计所存储的数据的分布情况，得到数据分布统计信息之后，所述装置，还包括：

获取请求接收模块，用于接收所述leader节点发送的统计信息获取请求；

第一统计信息发送模块，用于基于所述统计信息获取请求，将所述数据分布统计信息发送至所述leader节点。

进一步的，所述分布式数据库中数据分布信息的统计装置，还包括：数据存储模块或第二统计信息发送模块；

所述数据存储模块，用于在统计模块统计所存储的数据的分布情况，得到数据分布统计信息之后，存储所述数据分布统计信息；

所述第二统计信息发送模块，用于将所述数据分布统计信息发送至指定的一致性协议组中的leader节点；所述指定的一致性协议组中的leader节点用于存储接收的所述数据分布统计信息。

基于本发明实施例提供的分布式数据库中数据分布信息的统计方法，相应地，本发明实施例还提供了一种数据查询方法，应用于分布式数据库中的领导者leader节点，包括：

接收数据查询请求；所述数据查询请求中包含查询条件；

获得数据分布统计信息；所述数据分布统计信息为：与所述leader节点属于同一一致性协议组的跟随者follower节点对所存储的数据的分布情况进行统计后所得到的；

基于所述数据分布统计信息和所述查询条件，确定字段查询顺序；

按照所述字段查询顺序和所述查询条件进行数据查询。

进一步的，所述获得数据分布统计信息，包括：

在收到数据查询请求后，从与所述leader节点属于同一一致性协议组的follower节点获取；或者，

获得存储的数据分布统计信息，该存储的数据分布统计信息是：定时从与所述leader节点属于同一一致性协议组的follower节点获取并存储的。

基于本发明实施例提供的数据查询方法，相应地，本发明实施例还提供了一种数据查询装置，应用于分布式数据库中的leader节点，包括：

查询请求接收模块，用于接收数据查询请求；所述数据查询请求中包含查询条件；

数据分布统计信息获取模块，用于获得数据分布统计信息；所述数据分布统计信息为：与所述leader节点属于同一一致性协议组的跟随者follower节点对所存储的数据的分布情况进行统计后所得到的；

查询计划确定模块，用于基于所述数据分布统计信息和所述查询条件，确定字段查询顺序；

数据查询模块，用于按照所述字段查询顺序和所述查询条件进行数据查询。

进一步的，所述数据分布统计信息获取模块，具体用于在收到数据查询请求后，从与所述leader节点属于同一一致性协议组的follower节点获取；或者，获得存储的数据分布统计信息，该存储的数据分布统计信息是：定时从与所述leader节点属于同一一致性协议组的follower节点获取并存储的。

为了达到上述目的，本发明实施例还提供了一种分布式数据库系统，包括：领导者leader节点和跟随者follower节点，且所述leader节点和所述follower节点属于同一一致性协议组，遵循一致性协议；

所述leader节点，用于在接收到客户端发送的数据变更操作指令后，向所述follower节点发送所述数据变更操作指令；

所述follower节点，用于接收所述leader节点发送的所述数据变更操作指令，并按照所述数据变更操作指令，变更所存储的数据；并且，当达到预设的数据统计条件时，统计所存储的数据的分布情况，得到数据分布统计信息。

进一步的，所述预设的数据统计条件，包括：

变更所存储的数据的次数达到预设次数，或者，当前时间到达预设的定时时间。

进一步的，所述follower节点，还用于在统计所存储的数据的分布情况，得到数据分布统计信息之后，存储所述数据分布统计信息；或者，将所述数据分布统计信息发送至指定的一致性协议组中的leader节点；所述指定的一致性协议组中的leader节点用于存储接收的所述数据分布统计信息。

进一步的，所述leader节点，还用于向所述follower节点发送统计信息获取请求；

所述follower节点，还用于在接收到所述统计信息获取请求后，向所述leader节点发送所述数据分布统计信息。

为了达到上述目的，本发明实施例提供了一种分布式数据库节点，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述任一所述分布式数据库中数据分布信息的统计方法步骤，或任一所述数据查询方法步骤。

为了达到上述目的，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述分布式数据库中数据分布信息的统计方法步骤，或任一所述数据查询方法步骤

为了达到上述目的，本发明实施例还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述分布式数据库中数据分布信息的统计方法步骤，或任一所述数据查询方法步骤。

本发明实施例有益效果：

本发明实施例提供的分布式数据库中数据分布信息的统计方法中，follower节点不单单用于接收leader节点发送的数据变更操作指令，还用于在达到预设的数据统计条件时，统计所存储的数据的分布情况，得到数据分布统计信息。可见，采用本发明实施例提供的方法，不再通过leader节点统计数据的分布情况，而是通过follower节点统计所存储的数据的分布情况，得到数据分布统计信息。因此，将leader节点的统计数据分布情况的压力转移到follower节点，减小了一致性协议组内leader节点的资源消耗。同时，也均衡了一致性协议组各节点负载的压力，使得一致性协议组内各节点之间的资源消耗相对较为同步，避免了单个节点率先达到性能瓶颈，提高了分布式数据库的资源利用率。

当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为分布式数据库结构示例图；

图2为本发明实施例提供的分布式数据库中数据分布信息的统计方法的一种流程图；

图3为本发明实施例提供的分布式数据库中数据分布信息的统计方法的另一种流程图；

图4为本发明实施例提供的分布式数据库中数据分布信息的统计方法的又一种流程图；

图5a为本发明实施例提供的分布式数据库中数据分布信息的统计装置的一种结构图；

图5b为本发明实施例提供的分布式数据库中数据分布信息的统计装置的另一种结构图；

图5c为本发明实施例提供的分布式数据库中数据分布信息的统计装置的又一种结构图；

图6为本发明实施例提供的数据查询方法的一种流程图；

图7为本发明实施例提供的数据查询装置的一种结构图；

图8为本发明实施例提供的分布式数据库系统的一种结构图；

图9为本发明实施例提供的一种分布式数据库节点的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

为了减小一致性协议组内leader节点的资源消耗，本发明实施例提供了一种分布式数据库中数据分布信息的统计方法。

参见图2，图2为分布式数据库中数据分布信息的统计方法的一种流程，该方法应用于分布式数据库中的follower节点，分布式数据库中还包括与follower节点属于同一一致性协议组的leader节点，如图2所示，该方法包括如下步骤：

步骤201，接收leader节点发送的数据变更操作指令。

步骤202，按照数据变更操作指令，变更所存储的数据。

步骤203，当达到预设的数据统计条件时，统计所存储的数据的分布情况，得到数据分布统计信息。

采用本发明实施例提供的分布式数据库中数据分布信息的统计方法，不再通过leader节点统计数据的分布情况，而是通过follower节点统计所存储的数据的分布情况，得到数据分布统计信息。因此，将leader节点的统计数据分布情况的压力转移到follower节点，减小了一致性协议组内leader节点的资源消耗。同时，也均衡了一致性协议组各节点负载的压力，使得一致性协议组内各节点之间的资源消耗相对较为同步，避免了单个节点率先达到性能瓶颈，提高了分布式数据库的资源利用率。

参见图3，图3为分布式数据库中数据分布信息的统计方法的另一种流程，该方法应用于分布式数据库中的follower节点，分布式数据库中还包括与follower节点属于同一一致性协议组的leader节点，如图3所示，该方法包括如下步骤：

步骤301，接收leader节点发送的数据变更操作指令。

在分布式数据库中，leader节点可以接收客户端发送的数据变更操作指令，并且，将所接收的数据变更操作指令发送给follower节点。其中，数据变更操作指令为指示leader节点对所存储的数据进行增加、删除或修改。

步骤302，按照数据变更操作指令，变更所存储的数据。

本发明实施例中，follower节点接收的数据变更操作指令可以包括：数据增加指令、数据删除指令和数据修改指令。

本步骤中，若follower节点接收的数据变更操作指令为数据增加指令，follower节点可以按照数据增加指令，在follower节点所存储的数据库中增加指定数据；例如：数据增加指令为：在数据库的A行B列写入数据x，follower节点可以按照该数据增加指令，将数据x写入数据库的A行B列。例如，如表1所示，若数据增加指令为在7行3列写入数据156，follower节点可以按照该数据增加指令，在在follower节点数据库中的7行3列写入数据156，变更后的7行3列的数据为156。

本步骤中，若follower节点接收的数据变更操作指令为数据删除指令，follower节点可以按照数据删除指令，从follower节点所存储的数据库中删除指定数据；例如，数据删除指令为：删除数据库的C行D列的数据y，follower节点可以按照该数据删除指令，将数据库的C行D列所存储的数据y删除掉。例如，如表1所示，若数据删除指令为：删除7行4列的数据，follower节点可以按照该数据删除指令，将follower节点数据库中的7行4列的数据16删除，变更后的7行4列没有数据。

本步骤中，若follower节点接收的数据变更操作指令为数据修改指令，follower节点可以按照数据修改指令，对follower节点所存储的数据库中的指定数据进行修改；例如，数据修改指令为：对数据库的E行F列的数据z的数值增加2，follower节点可以按照该数据修改指令，将数据库的E行F列所存储的数据z的数值增加2。例如，如表1所示，若数据修改指令为：将7行4列的数据的数值加1，follower节点可以按照该数据修改指令，将follower节点数据库中的7行4列的数据16的数值加1，变更后的7行4列的数据为17。

表1：一致性协议组中各follower节点的数据库

步骤303，判断是否达到预设的数据统计条件，若判断结果为是，执行步骤304，若判断结果为否，返回执行步骤301。

本步骤中，预设的数据统计条件，可以包括：

数据统计条件一：变更所存储的数据的次数达到预设次数。其中，预设次数可以根据实际应用情况人为设定，例如：直接设置为1次，每变更一次就统计一次。这样，可能系统资源消耗比较大但能够保证统计数据的实时性。因此也可以设置为多次，以平衡资源消耗和实时性。例如：预设次数可以为20次，即当follower节点变更所存储的数据的次数达到20次时，确定达到预设的数据统计条件。或者，

数据统计条件二：当前时间到达预设的定时时间后。其中，定时时间可以根据实际应用情况人为设定，例如：定时时间可以为10分钟，即从定时器计时开始，到当前时间达到10分钟时，确定达到预设的数据统计条件。或者，定时时间也可以设定为5分钟，即从定时器计时开始，到当前时间达到5分钟时，确定达到预设的数据统计条件。

步骤304，统计所存储的数据的分布情况，得到数据分布统计信息。

本步骤中，follower节点可以按照预先设定的统计方式对所存储的数据的分布情况进行统计。如表一所示，follower节点可以针对学生性别的分布情况，对表1第2列中学生性别为男性的数量和学生性别为女性的数量分别进行统计，得到学生性别的数据分布统计信息；follower节点也可以针对学生身高的分布情况，对表1第3列中学生身高大于等于160cm的数量和学生身高小于160cm的数量分别进行统计，得到学生身高的数据分布统计信息；follower节点还可以针对学生年龄的分布情况，对表1第4列中学生年龄大于等于20岁的数量和学生年龄小于20岁的数量分别进行统计，得到学生年龄的数据分布统计信息。

步骤305，存储数据分布统计信息。

步骤306，接收leader节点发送的统计信息获取请求。

本步骤中，统计信息获取请求可以是获取follower节点所有的数据分布统计信息的请求；统计信息获取请求也可以是，获取follower节点所统计的一种或多种类型数据的数据分布统计信息的请求。

例如，follower节点统计了：学生性别的数据分布统计信息、学生身高的数据分布统计信息和学生年龄的数据分布统计信息。

统计信息获取请求可以包括：获取学生性别的数据分布统计信息、学生身高的数据分布统计信息和学生年龄的数据分布统计信息。

统计信息获取请求也可以只包括：获取学生性别的数据分布统计信息和学生年龄的数据分布统计信息。

步骤307，基于统计信息获取请求，将数据分布统计信息发送至leader节点。

采用本发明实施例提供的分布式数据库中数据分布信息的统计方法，不再通过leader节点统计数据的分布情况，而是通过follower节点统计所存储的数据的分布情况，得到数据分布统计信息。可见，本发明实施例中将leader节点的统计数据分布情况的压力转移到follower节点，减小了一致性协议组内leader节点的资源消耗。同时，也均衡了一致性协议组各节点负载的压力，使得一致性协议组内各节点之间的资源消耗相对较为同步，避免了单个节点率先达到性能瓶颈，提高了分布式数据库的资源利用率。并且，当leader节点需要使用数据分布统计信息时，可以向follower节点发送统计信息获取请求，follower节点在接收到统计信息获取请求后，可以按照统计信息获取请求将数据分布统计信息发送至leader节点。即本发明实施例提供的方法并不会影响leader节点使用数据分布统计信息。并且，通过中将leader节点的统计数据分布情况的压力转移到follower节点，均衡一致性协议组中各节点的资源利用率的同时，也可以加快数据分布统计信息的更新速率，而加快数据分布统计信息的更新速率也能够进一步提高数据分布统计信息的准确性。

参见图4，图4为分布式数据库中数据分布信息的统计方法的又一种流程，该方法应用于分布式数据库中的follower节点，分布式数据库中还包括与follower节点属于同一一致性协议组的leader节点，如图4所示，该方法包括如下步骤：

步骤401至步骤404，与步骤301至步骤304分别对应相同，此处不再赘述。

步骤405，将数据分布统计信息发送至指定的一致性协议组中的leader节点。

本发明实施例中，指定的一致性协议组为：分布式数据库中预先分配的用于存储数据分布统计信息的一致性协议组。其中，指定的一致性协议组可以包括：一个一致性协议组或多个一致性协议组。

本发明实施例中，指定的一致性协议组中的leader节点可以与分布式数据库中其他一致性协议组中的follower进行数据交互，不受一致性协议的限制。

本步骤中，当该指定的一致性协议组中的leader节点接收到数据分布统计信息后，该leader节点可以将所接收数据分布统计信息存储起来，并且，该leader节点还可以将所接收数据分布统计信息发送至该指定的一致性协议组中的各个follower节点，将数据分布统计信息进行备份。

例如，在一种可能的实施方式中，分布式数据库中可以包括10个一致性协议组：一致性协议组a1，一致性协议组a2，…，一致性协议组a9，一致性协议组a10；其中，每个一致性协议组可以包括：一个leader节点和多个follower节点。分布式数据库中可以按照存储资源大小的原则，预先分配存储资源较大的一致性协议组a7作为指定的一致性协议组，用于存储数据分布统计信息的一致性协议组。分布式数据库中的follower节点在统计所存储的数据的分布情况，得到数据分布统计信息之后，可以不用将得到的数据分布统计信息存储起来，而是可以将数据分布统计信息发送至一致性协议组a7中的leader节点；一致性协议组a7中的leader节点可以将所接收的数据分布统计信息进行存储，并且还可以将所接收的数据分布统计信息备份至同一一致性协议组中的follower节点上。

采用本发明实施例提供的分布式数据库中数据分布信息的统计方法，不再通过leader节点统计数据的分布情况，而是通过follower节点统计所存储的数据的分布情况，得到数据分布统计信息。可见，本发明实施例中将leader节点的统计数据分布情况的压力转移到follower节点，减小了一致性协议组内leader节点的资源消耗。并且，分布式数据库中的follower节点在统计所存储的数据的分布情况，得到数据分布统计信息之后，可以不用将得到的数据分布统计信息存储起来，而是可以将数据分布统计信息发送至指定的一致性协议组中的leader节点，通过指定的一致性协议组中的leader节点存储数据分布统计信息。这样进一步均衡了分布式数据库中各个节点负载的压力，避免了单个节点率先达到性能瓶颈，提高了分布式数据库的资源利用率。

基于同一发明构思，根据本发明上述实施例提供的分布式数据库中数据分布信息的统计方法，相应地，本发明另一实施例还提供了一种分布式数据库中数据分布信息的统计装置，应用于分布式数据库中的跟随者follower节点，分布式数据库中还包括与follower节点属于同一一致性协议组的领导者leader节点，其结构示意图如图5a所示，具体包括：

操作指令接收模块501，用于接收leader节点发送的数据变更操作指令；

数据变更模块502，用于按照数据变更操作指令，变更所存储的数据；

统计模块503，用于当达到预设的数据统计条件时，统计所存储的数据的分布情况，得到数据分布统计信息。

可见，采用本发明实施例提供的分布式数据库中数据分布信息的统计装置，不再通过leader节点统计数据的分布情况，而是通过follower节点统计所存储的数据的分布情况，得到数据分布统计信息。因此，将leader节点的统计数据分布情况的压力转移到follower节点，减小了一致性协议组内leader节点的资源消耗。同时，也均衡了一致性协议组各节点负载的压力，使得一致性协议组内各节点之间的资源消耗相对较为同步，避免了单个节点率先达到性能瓶颈，提高了分布式数据库的资源利用率。

进一步的，统计模块503，具体用于若变更所存储的数据的次数达到预设次数，统计所存储的数据的分布情况，得到数据分布统计信息；或者，若当前时间到达预设的定时时间后，统计所存储的数据的分布情况，得到数据分布统计信息。

进一步的，如图5b所示，上述分布式数据库中数据分布信息的统计装置，还包括：数据存储模块504，用于在统计模块503统计所存储的数据的分布情况，得到数据分布统计信息之后，存储数据分布统计信息。

获取请求接收模块505，用于在统计模块503，统计所存储的数据的分布情况，得到数据分布统计信息之后，接收leader节点发送的统计信息获取请求；

第一统计信息发送模块506，用于基于统计信息获取请求，将数据分布统计信息发送至leader节点。

采用本发明实施例提供的分布式数据库中数据分布信息的统计装置，不再通过leader节点统计数据的分布情况，而是通过follower节点统计所存储的数据的分布情况，得到数据分布统计信息。可见，本发明实施例中将leader节点的统计数据分布情况的压力转移到follower节点，减小了一致性协议组内leader节点的资源消耗。同时，也均衡了一致性协议组各节点负载的压力，使得一致性协议组内各节点之间的资源消耗相对较为同步，避免了单个节点率先达到性能瓶颈，提高了分布式数据库的资源利用率。并且，当leader节点需要使用数据分布统计信息时，可以向follower节点发送统计信息获取请求，follower节点在接收到统计信息获取请求后，可以按照统计信息获取请求将数据分布统计信息发送至leader节点。即本发明实施例提供的方法并不会影响leader节点使用数据分布统计信息。并且，通过中将leader节点的统计数据分布情况的压力转移到follower节点，均衡一致性协议组中各节点的资源利用率的同时，也可以加快数据分布统计信息的更新速率，而加快数据分布统计信息的更新速率也能够进一步提高数据分布统计信息的准确性。

进一步的，如图5c所示，上述分布式数据库中数据分布信息的统计装置，还包括：第二统计信息发送模块507，用于在统计模块503，统计所存储的数据的分布情况，得到数据分布统计信息之后，将数据分布统计信息发送至指定的一致性协议组中的leader节点。

采用本发明实施例提供的分布式数据库中数据分布信息的统计装置，将leader节点的统计数据分布情况的压力转移到follower节点，减小了一致性协议组内leader节点的资源消耗。并且，分布式数据库中的follower节点在统计所存储的数据的分布情况，得到数据分布统计信息之后，可以不用将得到的数据分布统计信息存储起来，而是可以将数据分布统计信息发送至指定的一致性协议组中的leader节点，通过指定的一致性协议组中的leader节点存储数据分布统计信息。这样进一步均衡了分布式数据库中各个节点负载的压力，避免了单个节点率先达到性能瓶颈，提高了分布式数据库的资源利用率。

针对本发明上述实施例提供的分布式数据库中数据分布信息的统计方法，基于相同的发明构思，本发明另一实施例还提供了一种数据查询方法，应用于分布式数据库中的leader节点，如图6所示，具体包括如下步骤：

步骤601，接收数据查询请求；数据查询请求中包含查询条件。

本步骤中，查询条件为与查询请求相对应的，例如数据查询请求为：查询出身高高于160cm的男性学生，则对应的查询条件为：身高高于160cm和学生性别为男性。

步骤602，获得数据分布统计信息。

数据分布统计信息为：与leader节点属于同一一致性协议组的follower节点对所存储的数据的分布情况进行统计后所得到的。

本发明实施例中，leader节点可以定时从与该leader节点属于同一一致性协议组的follower节点获取数据分布统计信息，然后将所获取的数据分布统计信息存储在该leader节点中用于存储数据分布统计信息的存储模块。在该leader节点在接收到数据查询请求之后，该leader节点可以直接从该leader节点的存储模块中，获取数据分布统计信息。或者，本步骤中，该leader节点在接收到数据查询请求之后，还可以直接向follower节点发送统计信息获取请求，follower节点在接收到统计信息获取请求后，可以将自身所统计的数据分布统计信息发送给该leader节点。

步骤603，基于数据分布统计信息和查询条件，确定字段查询顺序。

本步骤中，若数据查询请求为：查询出身高高于160cm的男性学生，即对应的查询条件为：身高高于160cm和学生性别为男性。leader节点可以根据从follower节点所获取的学生身高的数据分布统计信息以及学生性别的数据分布统计信息，制定出最优的字段查询顺序。其中，字段查询顺序也就是字段查询计划。所制定出的最优的字段查询顺序，也就是最优的字段查询计划。

例如，若根据学生身高的数据分布统计信息确定出身高高于160cm的学生占总数的66.7％，根据学生性别的数据分布统计信息确定出性别为男性的学生占总数的16.7％。那么，根据查询条件：身高高于160cm和学生性别为男性，以及根据数据分布统计信息，可以明显确定出先查询性别为男性的学生，再查询身高高于160cm的学生，可以更快地得到查询结果。因此最优的字段查询顺序为：先查询性别为男性的学生，再查询身高高于160cm的学生。

若根据学生身高的数据分布统计信息确定出身高高于160cm的学生占总数的20％，根据学生性别的数据分布统计信息确定出性别为男性的学生占总数的80％。那么，根据查询条件：身高高于160cm和学生性别为男性，以及根据数据分布统计信息，可以明显确定出先查询身高高于160cm的学生，再查询性别为男性的学生可以更快地得到查询结果。因此最优的字段查询顺序为：先查询身高高于160cm的学生，再查询性别为男性的学生。

步骤604，按照字段查询顺序和查询条件进行数据查询。

本步骤中，可以按照字段查询顺序和查询条件，在数据库中进行查询。例如，如表2所示，若查询条件为：身高高于160cm和学生性别为男性，字段查询顺序为：先查询性别为男性的学生，再查询身高高于160cm的学生。

可以先查询表2中学生性别为男性的学生：Xue1，进一步的查询Xue1的身高为168cm，符合查询条件。因此，查询结果就是：身高高于160cm和学生性别为男性的学生是“Xue1”。

表2：一致性协议组中leader节点的数据库

采用本发明实施例提供的数据查询方法，leader节点不再需要通过自身统计数据的分布情况，得到数据分布统计信息用于查询数据。而是通过获取follower节点所统计的数据分布统计信息，进行数据查询。可见，本发明实施例中将leader节点的统计数据分布情况的压力转移到follower节点，减小了一致性协议组内leader节点的资源消耗。同时，也均衡了一致性协议组各节点负载的压力，使得一致性协议组内各节点之间的资源消耗相对较为同步，避免了单个节点率先达到性能瓶颈，提高了分布式数据库的资源利用率。并且，通过计算压力相对较小的follower节点统计数据分布情况，也可以加快数据分布统计信息的更新速率，而加快数据分布统计信息的更新速率也能够进一步提高数据分布统计信息的准确性。提高了用于进行数据查询层的数据分布统计信息的准确度，进而可以减少偏离最优字段查询顺序的字段查询顺序的出现率，提高分布式数据库的稳定性。

基于本发明上述实施例提供的数据查询方法，相应地，本发明另一实施例还提供了一种数据查询装置，如图7所示，具体包括：

查询请求接收模块701，用于接收数据查询请求；数据查询请求中包含查询条件；

数据分布统计信息获取模块702，用于从与leader节点属于同一一致性协议组的跟随者follower节点获得数据分布统计信息；数据分布统计信息为：follower节点对所存储的数据的分布情况进行统计后所得到的；

查询计划确定模块703，用于基于数据分布统计信息和查询条件，确定字段查询顺序；其中，查询计划确定模块也可以称作查询顺序确定模块。

数据查询模块704，用于按照字段查询顺序和查询条件进行数据查询。

进一步的，数据分布统计信息获取模块702，具体用于在收到数据查询请求后，从与leader节点属于同一一致性协议组的follower节点获取；或者，获得存储的数据分布统计信息，该存储的数据分布统计信息是：定时从与leader节点属于同一一致性协议组的follower节点获取并存储的。

可见，采用本发明实施例提供的数据查询装置，leader节点不再需要通过自身统计数据的分布情况，得到数据分布统计信息用于查询数据。而是通过获取follower节点所统计的数据分布统计信息，进行数据查询。可见，本发明实施例中将leader节点的统计数据分布情况的压力转移到follower节点，减小了一致性协议组内leader节点的资源消耗。同时，也均衡了一致性协议组各节点负载的压力，使得一致性协议组内各节点之间的资源消耗相对较为同步，避免了单个节点率先达到性能瓶颈，提高了分布式数据库的资源利用率。并且，通过计算压力相对较小的follower节点统计数据分布情况，也可以加快数据分布统计信息的更新速率，而加快数据分布统计信息的更新速率也能够进一步提高数据分布统计信息的准确性。提高了用于进行数据查询层的数据分布统计信息的准确度，进而可以减少偏离最优字段查询顺序的字段查询顺序的出现率，提高分布式数据库的稳定性。

基于上述分布式数据库中数据分布信息的统计方法，本发明实施例还提供了一种分布式数据库系统，如图8所示，包括：领导者leader节点801和跟随者follower节点802，且leader节点801和follower节点802属于同一一致性协议组，遵循一致性协议；

leader节点801，用于在接收到客户端发送的数据变更操作指令后，向follower节点802发送数据变更操作指令；

follower节点802，用于接收leader节点801发送的数据变更操作指令，并按照数据变更操作指令，变更所存储的数据；并且，当达到预设的数据统计条件时，统计所存储的数据的分布情况，得到数据分布统计信息。其中，预设的数据统计条件，包括：变更所存储的数据的次数达到预设次数，或者，当前时间到达预设的定时时间。

进一步的，follower节点802，还用于在统计所存储的数据的分布情况，得到数据分布统计信息之后，存储数据分布统计信息；或者，将数据分布统计信息发送至指定的一致性协议组中的leader节点；指定的一致性协议组中的leader节点用于存储接收的所述数据分布统计信息。

进一步的，leader节点801，还用于向follower节点802发送统计信息获取请求；

follower节点802，还用于在接收到统计信息获取请求后，向leader节点801发送数据分布统计信息。

采用本发明实施例提供的分布式数据库系统，每个一致性协议组中的leader不再统计数据的分布情况，而是通过同一一致性协议组中的follower节点统计所存储的数据的分布情况，得到数据分布统计信息。因此，将一致性协议组中leader节点的统计数据分布情况的压力转移到同一一致性协议组中的follower节点，减小了一致性协议组内leader节点的资源消耗，同时，也均衡了一致性协议组各节点负载的压力，使得一致性协议组内各节点之间的资源消耗相对较为同步，避免了单个节点率先达到性能瓶颈，提高了分布式数据库的资源利用率。

本发明实施例提供的分布式数据库系统的结构，也可以包括：多个leader节点和多个follower节点，其中，每个leader节点与多个follower节点构成一个一致性协议组，每个一致性协议组内的各节点遵循分布式数据库的一致性协议。例如，一致性协议组A、一致性协议组B和一致性协议组C，其中，一致性协议组A中包括：leader节点a1、follower节点a2和follower节点a3，一致性协议组B中包括：leader节点b1、follower节点b2和follower节点b3，一致性协议组C中包括：leader节点c1、follower节点c2和follower节点c3。

分布式数据库系统中每一个一致性协议组，可以对一组数据进行分段存储，例如，一致性协议组A中的各节点的数据库中存储表3a中的数据，一致性协议组B中的各节点的数据库中存储表3b中的数据，一致性协议组C中的各节点的数据库中存储表3c中的数据。

针对每个一致性协议组，可以由该一致性协议组中的leader节点确定该一致性协议组中指定的follower节点用于统计数据分布情况。例如，一致性协议组A中可以指定follower节点a2统计数据分布情况，一致性协议组B中可以指定follower节点b2统计数据分布情况，一致性协议组C中可以指定follower节点c2统计数据分布情况。

针对每个一致性协议组，leader节点，用于在接收到客户端发送的数据变更操作指令后，向该一致性协议组中指定的follower节点发送数据变更操作指令；

该一致性协议组中指定的follower节点，用于接收该一致性协议组中的leader节点发送的数据变更操作指令，并按照数据变更操作指令，变更所存储的数据；并且，当达到预设的数据统计条件时，统计所存储的数据的分布情况，得到数据分布统计信息，其中，预设的数据统计条件，包括：变更所存储的数据的次数达到预设次数，或者，当前时间到达预设的定时时间。

进一步的，该一致性协议组中的leader节点，还用于向该一致性协议组中指定的follower节点发送统计信息获取请求；

该一致性协议组中指定的follower节点，还用于在接收到统计信息获取请求后，向该一致性协议组中的leader节点发送数据分布统计信息。

表3a：一致性协议组A中各节点的数据库

表3b：一致性协议组B中各节点的数据库

表3c：一致性协议组C中各节点的数据库

采用本发明实施例提供的分布式数据库系统，每个一致性协议组中的leader不再统计数据的分布情况，而是通过同一一致性协议组中的follower节点统计所存储的数据的分布情况，得到数据分布统计信息。因此，将一致性协议组中leader节点的统计数据分布情况的压力转移到同一一致性协议组中的follower节点，减小了一致性协议组内leader节点的资源消耗，同时，也均衡了一致性协议组各节点负载的压力，使得一致性协议组内各节点之间的资源消耗相对较为同步，避免了单个节点率先达到性能瓶颈，提高了分布式数据库的资源利用率。并且，分布式数据库系统可以通过多个一致性协议组对一组数据分段进行存储，分段处理，缓解了分布式数据库系统中每个节点的数据处理压力。

本发明实施例还提供了一种分布式数据库节点，如图9所示，包括处理器901、通信接口902、存储器903和通信总线904，其中，处理器901，通信接口902，存储器903通过通信总线904完成相互间的通信，

存储器903，用于存放计算机程序；

处理器901，用于执行存储器903上所存放的程序时，实现如下步骤：

接收所述leader节点发送的数据变更操作指令；

按照所述数据变更操作指令，变更所存储的数据；

当达到预设的数据统计条件时，统计所存储的数据的分布情况，得到数据分布统计信息；

存储所述数据分布统计信息。

或者，图9所示的分布式数据库节点还可以实现如下步骤：

接收数据查询请求；所述数据查询请求中包含查询条件；

从与所述leader节点属于同一一致性协议组的跟随者follower节点获得数据分布统计信息；所述数据分布统计信息为：所述follower节点对所存储的数据的分布情况进行统计后所得到的；

按照所述字段查询顺序和所述查询条件进行数据查询。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessing，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一所述分布式数据库中数据分布信息的统计方法步骤，或任一所述数据查询方法步骤。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例中任一所述分布式数据库中数据分布信息的统计方法步骤，或任一所述数据查询方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备及存储介质而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种分布式数据库中数据分布信息的统计方法，其特征在于，应用于分布式数据库中的跟随者follower节点，所述分布式数据库中还包括与follower节点属于同一一致性协议组的领导者leader节点，所述方法包括：

接收所述leader节点发送的数据变更操作指令；

按照所述数据变更操作指令，变更所存储的数据；

2.根据权利要求1所述的方法，其特征在于，所述当达到预设的数据统计条件时，统计所存储的数据的分布情况，包括：

3.根据权利要求1所述的方法，其特征在于，在所述统计所存储的数据的分布情况，得到统计信息之后，还包括：

4.根据权利要求1所述的方法，其特征在于，在所述统计所存储的数据的分布情况，得到统计信息之后，还包括：

接收所述leader节点发送的统计信息获取请求；

5.一种数据查询方法，其特征在于，应用于分布式数据库中的领导者leader节点，包括：

接收数据查询请求；所述数据查询请求中包含查询条件；

按照所述字段查询顺序和所述查询条件进行数据查询。

6.根据权利要求5所述的方法，其特征在于，所述获得数据分布统计信息，包括：

7.一种分布式数据库中数据分布信息的统计装置，其特征在于，应用于分布式数据库中的跟随者follower节点，所述分布式数据库中还包括与follower节点属于同一一致性协议组的领导者leader节点，所述装置包括：

8.一种数据查询装置，其特征在于，应用于分布式数据库中的leader节点，包括：

数据查询模块，用于按照字段查询顺序和所述查询条件进行数据查询。

9.一种分布式数据库系统，其特征在于，包括：领导者leader节点和跟随者follower节点，且所述leader节点和所述follower节点属于同一一致性协议组，遵循一致性协议；

10.一种分布式数据库节点，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-4或权利要求5-6任一所述的方法步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4或权利要求5-6任一所述的方法步骤。