CN111538459B

CN111538459B - 数据倾斜的确定方法、装置、电子设备及可读存储介质

Info

Publication number: CN111538459B
Application number: CN202010297915.9A
Authority: CN
Inventors: 冯浩
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2020-04-16
Filing date: 2020-04-16
Publication date: 2023-07-21
Anticipated expiration: 2040-04-16
Also published as: CN111538459A

Abstract

本发明实施例提供了一种数据倾斜的确定方法、装置、电子设备及可读存储介质，涉及计算机应用技术领域，其中，方法可以包括：获得分布式消息系统中各个分区的消息写入速率，消息写入速率表示单位时间内存储至分区的消息量；通过预设计算方式，计算各个分区的消息写入速率之间的离散程度，其中，预设计算方式包括能够计算离散程度的方式；离散程度用于反映各个分区之间的数据倾斜程度。通过本发明实施例提供的数据倾斜的确定方法、装置、电子设备及可读存储介质，能够实现对分布式消息系统中数据倾斜的定量分析。

Description

数据倾斜的确定方法、装置、电子设备及可读存储介质

技术领域

本发明涉及计算机应用技术领域，特别是涉及一种分布式消息系统中数据倾斜的确定方法、装置、电子设备及可读存储介质。

背景技术

分布式消息系统如Kafka(卡夫卡)中，为了实现高吞吐量、高可用的性能，可以通过分区方式提供消息服务，具体地，各个分区分别存储消息，多个分区的消息构成消息总量。

在实际生产环境中，有可能出现存储至不同分区的消息量不同，即造成各个分区的数据不均衡。而各个分区的数据不均衡，对于分布式消息系统中服务端来讲，会导致无法充分利用Kafka的分布特性，高负载的分区可能会成为分布式消息系统中的热点，使得该高负载的分区所在的节点，也即Broker率先达到瓶颈，无法最大程度地利用服务端本身的性能，影响分布式消息系统的吞吐量。且各个分区的数据不均衡，对于消费端来讲，消费数据量较大的分区的消息，可能会造成该消费端成为多个消费端中的“慢消费者”，而消费数据量较小的消费端有可能闲置，会出现消费数据量较大的分区的消费端与消费数据量较小的分区的消费端之间的计算不均衡。可以将各个分区的数据不均衡而导致无法最大程度地利用服务端本身的性能，影响分布式消息系统的吞吐量，以及使得消费端的计算不均衡的情况称之为数据倾斜。

现有技术中通过比较各个分区的消息量，当各个分区的消息量不相同时，则确定各个分区存在数据倾斜。但是，现有的这种方式仅能表示分区之间存在数据倾斜，无法实现对数据倾斜的定量分析。

发明内容

本发明实施例的目的在于提供一种分布式消息系统中数据倾斜的确定方法、装置、电子设备及可读存储介质，以实现分布式消息系统中数据倾斜的定量分析。具体技术方案如下：

在本发明实施的第一方面，首先提供了一种分布式消息系统中数据倾斜的确定方法，包括：

获得分布式消息系统中各个分区的消息写入速率，所述消息写入速率表示单位时间内存储至所述分区的消息量；

通过预设计算方式，计算各个分区的消息写入速率之间的离散程度，其中，所述预设计算方式包括能够计算离散程度的方式；所述离散程度用于反映各个分区之间的数据倾斜程度。

可选的，所述获得分布式消息系统中各个分区的消息写入速率，包括：

针对所述分布式消息系统中的各个分区，获取预设时间范围内所述分区的消息写入情况信息，所述消息写入情况信息反映在所述预设时间范围内存储至所述分区的消息量；

将所述在所述预设时间范围内存储至所述分区的消息量与所述预设时间范围所对应的时长作商，得到所述分区的所述消息写入速率。

可选的，所述分布式消息系统为Kafka；

所述针对所述分布式消息系统中的各个分区，获取预设时间范围内所述分区的消息写入情况信息，包括：

针对各个消息通道，采集所述消息通道对应的各个分区的偏移量数据，所述偏移量数据表示存储至所述分区的最新消息的消息位置；所述偏移量数据包括在一时刻的第一偏移量数据和在所述时刻之后的另一时刻的第二偏移量数据；所述消息通道是按照存储至所述分布式消息系统中的消息类别划分得到的；

所述将所述在所述预设时间范围内存储至所述分区的消息量与所述预设时间范围所对应的时长作商，得到所述分区的所述消息写入速率，包括：

计算所述另一时刻与所述时刻的时间间隔；

对所述第二偏移量数据与所述第一偏移量数据进行减法运算，得到偏移量差值；

对所述偏移量差值与所述时间间隔进行除法运算，得到所述分区的消息写入速率。

可选的，所述通过预设计算方式，计算各个分区的消息写入速率之间的离散程度，包括：

通过第一预设公式确定各个分区的消息写入速率之间的离散程度，所述第一预设公式为：

其中，DataSkew为各个分区的消息写入速率之间的离散程度，S_j为分区j的所述消息写入速率，m为分区的个数，为m个分区的所述消息写入速率的平均值。

针对各个消息通道，通过第二预设公式确定所述消息通道中各个分区的所述离散程度，并将所述离散程度作为所述消息通道对应的数据倾斜程度，所述第二预设公式为：

其中，KafkaOffsetTopicDataSkew为所述消息通道对应的所述数据倾斜程度，n为所述消息通道中分区的个数，O_i为分区i的所述消息写入速率在所述消息通道的消息总量的占比，所述消息总量为n个分区的所述消息写入速率的总和，为所述消息通道中n个分区的所述占比的平均值，Max(DataSkew)为所有消息通道的所述数据倾斜程度的最大均方差。

可选的，在所述针对各个消息通道，通过第二预设公式确定所述消息通道中各个分区的所述离散程度，并将所述离散程度作为所述消息通道对应的数据倾斜程度之后，所述方法还包括：

判断所述数据倾斜程度是否到达预设阈值；

当所述数据倾斜程度大于等于所述预设阈值时触发报警。

在本发明实施的第二方面，还提供了一种分布式消息系统中数据倾斜的确定装置，包括：

获得模块，用于获得分布式消息系统中各个分区的消息写入速率，所述消息写入速率表示单位时间内存储至所述分区的消息量；

计算模块，用于通过预设计算方式，计算各个分区的消息写入速率之间的离散程度，其中，所述预设计算方式包括能够计算离散程度的方式；所述离散程度用于反映各个分区之间的数据倾斜程度。

可选的，所述获得模块，具体用于针对所述分布式消息系统中的各个分区，获取预设时间范围内所述分区的消息写入情况信息，所述消息写入情况信息反映在所述预设时间范围内存储至所述分区的消息量；将所述在所述预设时间范围内存储至所述分区的消息量与所述预设时间范围所对应的时长作商，得到所述分区的所述消息写入速率。

在本发明实施的第三方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现上述第一方面所述的方法步骤。

在本发明实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法步骤。

在本发明实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法步骤。

本发明实施例提供的分布式消息系统中数据倾斜的确定方法、装置、电子设备及可读存储介质，通过获得分布式消息系统中各个分区的消息写入速率，消息写入速率表示单位时间内存储至分区的消息量；通过预设计算方式，即包括能够计算离散程度的方式，计算各个分区的消息写入速率之间的离散程度，离散程度用于反映各个分区之间的数据倾斜程度。如此，可以通过对各个分区的消息量进行进一步处理，通过各个分区的消息写入速率之间的离散程度反映各个分区之间的数据倾斜程度，实现对分布式消息系统中数据倾斜的定量分析。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1为本发明实施例中分区的信息量的示意图；

图2为本发明实施例提供的分布式消息系统中数据倾斜的确定方法的流程图；

图3为本发明实施例中确定分区的消息写入速率的流程图；

图4为本发明实施例中基于数据倾斜程度触发报警的流程图；

图5为本发明实施例提供的具体实施例中的监控报警示意图；

图6为本发明实施例提供的分布式消息系统中数据倾斜的确定装置的一种结构示意图；

图7为本发明实施例提供的分布式消息系统中数据倾斜的确定装置的另一种结构示意图；

图8为本发明实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行描述。

分布式消息系统应用非常广泛，是分布式系统中实现针对消息的发送和接收的基本软件。分布式消息系统可以利用高效可靠的消息传递机制进行与平台无关的数据交流，并基于数据通信来进行分布式系统的集成。通过提供消息传递和消息排队模型，可以在分布式环境下扩展进程间的通信。利用分布式消息系统的应用程序或组件可以进行可靠的异步通讯，从而降低系统之间的耦合度，提高系统的可扩展性和可用性。在这种场景下，分布式消息系统，利用分布式特性，其高吞吐量、高可用的性能尤为突出。

分布式消息系统如Kafka中，为了实现高吞吐量、高可用的性能，可以通过分区方式提供消息服务，具体地，各个分区分别存储消息，多个分区的消息构成消息总量。

具体地，Kafka中Topic作为完整整体，在消息发送、存储过程中，按照partition(分区)为更小单元进行处理，其中，Topic也可以理解为消息通道，是按照存储至分布式消息系统中的消息类别划分得到的。可以理解，在Kafka中，Topic是一个存储消息的逻辑概念，可以认为是一个消息集合。发送到Kafka集群的每条消息都有一个消息类别，按照消息的消息类别将消息存储至消息类别对应的Topic。每个Topic可以划分多个分区(每个Topic至少有一个分区)。如图1所示，Topic有三个分区(实际应用生产线上分区的数量远远高于该值)，每个分区各自接收消息，各自独立，各个分区的消息组合在一起构成Topic的消息总量，如分区1包括消息位置1至10存储的10个消息，分区2包括消息位置1至8存储的8个消息，分区3包括消息位置1至14存储的14个消息。图1中3个分区的消息量均不相同，在消息量较小的情况，影响可能不大；而在如果分区的消息量差距非常大的情况下，问题就严重很多，即数据倾斜严重。

现有技术中通过比较各个分区的消息量，当各个分区的消息量不相同时，则确定各个分区存在数据倾斜。但是，消息量仅能表示存在数据倾斜，无法实现对数据倾斜的定量分析。

本发明实施例提供了一种分布式消息系统中数据倾斜的确定方法，通过对各个分区的消息量进行进一步处理，实现对分布式消息系统中数据倾斜的定量分析，能够准确反映分布式消息系统中数据倾斜程度。下面对本发明实施例提供的分布式消息系统中数据倾斜的确定方法进行详细说明。

本发明实施例提供的分布式消息系统中数据倾斜的确定方法可以应用于分布式消息系统中，如将分区或分片作为处理单元的消息系统均可以使用本发明实施例提供的数据倾斜的确定方法。具体地，可以通过电子设备执行本发明实施例提供的分布式消息系统中数据倾斜的确定方法。

本发明实施例提供了一种分布式消息系统中数据倾斜的确定方法，如图2所示，可以包括：

S201，获得分布式消息系统中各个分区的消息写入速率，消息写入速率表示单位时间内存储至分区的消息量；

S202，通过预设计算方式，计算各个分区的消息写入速率之间的离散程度，其中，预设计算方式包括能够计算离散程度的方式；离散程度用于反映各个分区之间的数据倾斜程度。

本发明实施例中，获得分布式消息系统中各个分区的消息写入速率，消息写入速率表示单位时间内存储至分区的消息量；通过预设计算方式，即包括能够计算离散程度的方式，计算各个分区的消息写入速率之间的离散程度；离散程度用于反映各个分区之间的数据倾斜程度。如此，可以通过对各个分区的消息量进行进一步处理，通过各个分区的消息写入速率之间的离散程度反映各个分区之间的数据倾斜程度，实现对分布式消息系统中数据倾斜的定量分析。

参照图2，对本发明实施例提供的分布式消息系统中数据倾斜的确定方法进行详细说明，具体地，可以包括：

S201，获得分布式消息系统中各个分区的消息写入速率。

消息写入速率表示单位时间内存储至分区的消息量。

一种可实现方式中，可以在单位时间内获取各个分区的消息量，如在1秒内获取存储至各个分区的消息量。

另一种可实现方式中，可以针对分布式消息系统中的各个分区，获取预设时间范围内分区的消息写入情况信息；将在预设时间范围内存储至分区的消息量与预设时间范围所对应的时长作商，得到分区的消息写入速率。

其中，消息写入情况信息反映在预设时间范围内存储至分区的消息量。

具体地，针对各个分区，在第一时刻获取分区的第一消息量，以及在第二时刻获取分区的第二消息量，第二消息量与第一消息量之间的差值即为第一时刻至第二时刻这段时间范围内的消息量，也可以理解为消息写入情况信息。计算第一时刻与第二时刻的时间间隔，该消息写入情况信息与该时间间隔的商即为分区的消息写入速率。其中，第一时刻与第二时刻的时间间隔也可以理解为数据采集的频率。

例如，消息写入情况信息可以是5秒内写入分区的消息量。

S202，通过预设计算方式，计算各个分区的消息写入速率之间的离散程度。

其中，预设计算方式包括能够计算离散程度的方式。

离散程度用于反映各个分区之间的数据倾斜程度。

离散程度越高则表示数据倾斜程度越高。

各个分区的消息写入速率之间的离散程度也可以理解为各个消息写入速率之间的偏离程度。

本发明实施例中，根据各个分区的消息量计算各个分区的消息写入速率，再计算各个消息写入速率之间的离散程度，通过该离散程度反映各个分区的数据倾斜程度，即通过消息量的增量情况确定数据倾斜。

一种可实现方式中，通过预设计算方式，计算各个分区的消息写入速率之间的离散程度，可以包括：通过第一预设公式确定各个分区的消息写入速率之间的离散程度，第一预设公式为：

其中，DataSkew为各个分区的消息写入速率之间的离散程度，S_j为分区j的消息写入速率，m为分区的个数，为m个分区的消息写入速率的平均值。

另一种可实现方式中，通过预设计算方式，计算各个分区的消息写入速率之间的离散程度，可以包括：

针对各个消息通道，通过第二预设公式确定消息通道中各个分区的离散程度，并将离散程度作为消息通道对应的数据倾斜程度，第二预设公式为：

其中，KafkaOffsetTopicDataSkew为消息通道对应的数据倾斜程度，n为消息通道中分区的个数，O_i为分区i的消息写入速率在消息通道的消息总量的占比，消息总量为n个分区的消息写入速率的总和，为消息通道中n个分区的占比的平均值，Max(DataSkew)为所有消息通道的数据倾斜程度的最大均方差。

本发明实施例中，获得分布式消息系统中各个分区的消息写入速率，消息写入速率表示单位时间内存储至分区的消息量；确定各个分区的消息写入速率之间的离散程度。如此，可以通过对各个分区的消息量进行进一步处理，通过各个分区的消息写入速率之间的离散程度反映各个分区之间的数据倾斜程度，实现对分布式消息系统中数据倾斜的定量分析。

同时，相比较于通过消息量反映数据倾斜的方式，能够准确反映分布式消息系统中数据倾斜程度。因为分区中的消息量为单调递增量，当写入时间较长后，即随着时间增长，存储至分区的消息越来越多，分区的消息量可能会非常大，这种情况下，因为进行比较的基数比较大，无法准备反映分区的数据倾斜程度。也可以理解为，即使发生了数据倾斜，通过分区中消息量反映数据倾斜的方式无法准备反映分区的数据倾斜程度。本发明实施例中，通过消息量的增量情况确定数据倾斜，即根据各个分区的消息量计算各个分区的消息写入速率，再计算各个消息写入速率之间的离散程度，通过该离散程度反映各个分区的数据倾斜程度，能够反映数据倾斜的实际情况，准确反映分布式消息系统中数据倾斜程度。

一种可选的实施例中，分布式消息系统为Kafka。

S201可以包括：可以针对分布式消息系统中的各个分区，获取预设时间范围内分区的消息写入情况信息；将在预设时间范围内存储至分区的消息量与预设时间范围所对应的时长作商，得到分区的消息写入速率。

具体地，如图3所示，S201可以包括如下步骤S2011至S2014。

其中，针对分布式消息系统中的各个分区，获取预设时间范围内分区的消息写入情况信息，可以包括：

S2011，针对各个消息通道，采集消息通道对应的各个分区的偏移量数据。

偏移量数据表示存储至分区的最新消息的消息位置。如针对Topic，每个Topic中各个分区中的LogEndOffset，LogEndOffset表示存储至分区中的最新消息偏离LogStartOffset的位置信息，其中，LogStartOffset表示该分区中的第一个消息的消息位置。

偏移量数据包括在一时刻的第一偏移量数据和在该时刻之后的另一时刻的第二偏移量数据。

消息通道是按照存储至分布式消息系统中的消息类别划分得到的。

可以理解，消息通道是一个存储消息的逻辑概念，可以认为是一个消息集合。发送到分布式消息系统的消息都有一个消息类别，按照消息的消息类别，将消息存储至消息类别对应的消息通道。

本发明实施例中，电子设备可以包括采集模块，通过采集模块采集消息通道对应的各个分区的偏移量数据。具体地，可以封装得到查询接口，针对各个Topic，采集模块通过查询接口查询该Topic中各个partition中的LogEndOffset，即获取各个分区的偏移量数据。

其中，将在预设时间范围内存储至分区的消息量与预设时间范围所对应的时长作商，得到分区的消息写入速率，可以包括：

S2012，计算另一时刻与该时刻的时间间隔。

S2013，对第二偏移量数据与第一偏移量数据进行减法运算，得到偏移量差值。

S2014，对偏移量差值与时间间隔进行除法运算，得到分区的消息写入速率。

一个具体例子中，在第一时刻采集分区标识Topic_dummy_topic_PartitionID_1的偏移量数据为：Topic_dummy_topic_PartitionID_1，43211；在第二时刻采集该分区的偏移量数据：Topic_dummy_topic_PartitionID_1，45211，第一时刻与第二时刻的时间间隔可以为5秒，该时间间隔可以理解为数据采集的频率或者投递的频率。

可以计算(45211-43211)/5＝400，表示Topic_dummy_topic_PartitionID_1，写入的QPS为400。QPS即分区的消息写入速率。

本发明实施例中，不同于直接通过分区的偏移量数据反映数据倾斜，而是基于分区的偏移量数据经过计算得到分区的消息写入速率，即单位时间内存储至分区的消息量。消息写入速率可以反映数据的增长速度，即存储至分区的消息量的数据增量情况，进而计算消息写入速率的离散程度，通过离散程度反映各个分区之间的数据倾斜程度，如此，能够对数据倾斜进行定量分析，准确反映数据倾斜程度。

一种可选的实施例中，S202：通过预设计算方式，计算各个分区的消息写入速率之间的离散程度，可以包括：

本发明实施例中，采集各个Topic中partition的偏移量数据，计算得到各个partition的消息写入速率，根据第二预设公式计算各个消息写入速率的离散程度，通过该离散程度反映数据倾斜程度。且第二预设公式中通过除以Max(DataSkew)，实现对离散程度的归一化，即无论采集到的分区的偏移量数据是多大数量级的，确定的离散程度是均在一个数据范围内，离散程度的值越大，则表示数据倾斜程度越严重，如此，能够提高确定的数据倾斜程度的准确性。

通过偏移量数据反映数据倾斜，仅能表示各个分区之间存在数据倾斜，而无法对数据倾斜程度进行量化分析，因此，也无法实现对数据倾斜的准确监控。本发明一种可选的实施例中，如图4所示，可以包括：

在针对各个消息通道，通过第二预设公式确定消息通道中各个分区的离散程度，并将离散程度作为消息通道对应的数据倾斜程度之后，还可以包括：

S401，判断数据倾斜程度是否到达预设阈值。

S402，当数据倾斜程度大于等于预设阈值时触发报警。

每个分区的数据倾斜程度可以定量地确定为一个值，可以理解为，数据倾斜程度为确定的一个数值，如上述实施例中计算得到的每个Topic对应的KafkaOffsetTopicDataSkew。

如此，可以通过该KafkaOffsetTopicDataSkew进行实时报警。

预设阈值可以是根据业务实际情况确定的阈值。具体地，本发明实施例中确定的数据倾斜程度归一化后在一个固定的数据范围内，数据倾斜程度的值越大，则表示数据倾斜越严重，可以根据业务的需求，如业务需要在数据倾斜严重时报警，则可以确定较大的阈值，而当业务需要在数据倾斜较轻时就报警，则可以确定较小的阈值。

一种可实现方式中，可以将得到的数据倾斜程度发送给监控系统，也可以理解为投递给监控系统，如Zabbix监控系统。

本发明实施例中通过数据倾斜程度进行报警，即通过一个确定的值与预设阈值进行比较，当该确定的值，即数据倾斜程度大于等于预设阈值时则触发报警，如此可以实现对数据倾斜的监控，可以快速定位数据倾斜。

本发明实施例提供的数据倾斜的确定方法为分布式消息系统监控领域开创了全新的监控视角，实现了更细粒度的监控，可以帮助实际业务，如广告、推荐的信息流业务定位数据倾斜，提升计算效率，快速定位数据倾斜，可以帮助业务等修复数据倾斜问题，进一步可以使得实时计算上线的效率提升效果显著。

本发明实施例还提供了一个具体实施例，具体如图5所示，可以包括线上集群501、采集集群502、监控系统503、计算集群504和报警装置505。其中，采集集群502、监控系统503、计算集群504和报警装置505可以组成一个监控报警装置，以实现监控报警过程，具体过程下面详细介绍。

线上集群501可以是应用分布式消息系统的业务集群。具体地，线上集群501可以部署Kafka。

采集集群502，负责从线上集群501采集各个消息通道对应的各个分区的偏移量数据。可以采集各个Topic对应的各个partition的偏移量数据。具体地，采集集群502可以包括采集模块，针对各个Topic，采集模块通过查询接口查询该Topic中各个partition中的LogEndOffset，即获取各个分区的偏移量数据。

监控系统503，对采集集群502采集到的数据进行存储并计算消息写入速率QPS。具体地，按照采集数据的频率(采集频率)计算斜率，斜率即每个partition的写入频率，也就是消息写入速率QPS。针对采集到的各个消息通道对应的各个分区的偏移量数据。偏移量数据包括在一时刻的第一偏移量数据和在该时刻之后的另一时刻的第二偏移量数据。其中，另一时刻与该一时刻的时间间隔可以理解为采集频率，对第二偏移量数据与第一偏移量数据进行减法运算，得到偏移量差值。对偏移量差值与时间间隔进行除法运算，得到分区的消息写入速率。

计算集群504，计算集群504从监控系统503中获取针对各个Topic的partition的QPS。根据QPS计算数据倾斜率，也即针对Topic，计算各个partition的离散程度。数据倾斜率越大，表示partition写入的离散程度越大，表示各个分区之间的数据倾斜程度越高。具体地，计算各个分区的消息写入速率之间的离散程度的过程在上述实施例中已经进行了详细描述，参照上述实施例即可。

本发明实施例中，计算集群504可以将计算得到针对Topic的各个分区之间的数据倾斜程度投递给监控系统503。

报警装置505，对投递的数据进行展现和实时报警。具体地，本发明实施例中可以通过可视化等形式展示计算集群504计算得到的针对各个Topic的数据倾斜程度。也可以通过数据倾斜程度进行报警，即通过一个确定的值与预设阈值进行比较，当该确定的值，即数据倾斜程度大于等于预设阈值时则触发报警，如此可以实现对数据倾斜的监控，可以快速定位数据倾斜。

一种可实现方式中，采集集群502、监控系统503、计算集群504以及报警装置505可以理解为一个设备中的不同模块。

本发明实施例可以通过对各个分区的消息量进行进一步处理，通过各个分区的消息写入速率之间的离散程度反映各个分区之间的数据倾斜程度，实现对分布式消息系统中数据倾斜的定量分析，且本发明实施例提供的提供的数据倾斜的确定方法为分布式消息系统监控领域开创了全新的监控视角，实现了更细粒度的监控，可以帮助实际业务，如广告、推荐的信息流业务定位数据倾斜，提升计算效率，快速定位数据倾斜，可以帮助业务等修复数据倾斜问题，进一步可以使得实时计算上线的效率提升效果显著。

对应于上述实施例提供的分布式消息系统中数据倾斜的确定方法，本发明实施例提供了一种分布式消息系统中数据倾斜的确定装置，如图6所示，可以包括：

获得模块601，用于获得分布式消息系统中各个分区的消息写入速率，消息写入速率表示单位时间内存储至分区的消息量；

计算模块602，用于通过预设计算方式，计算各个分区的消息写入速率之间的离散程度，其中，预设计算方式包括能够计算离散程度的方式；离散程度用于反映各个分区之间的数据倾斜程度。

可选的，获得模块601，具体用于针对分布式消息系统中的各个分区，获取预设时间范围内分区的消息写入情况信息，消息写入情况信息反映在预设时间范围内存储至分区的消息量；将在预设时间范围内存储至分区的消息量与预设时间范围所对应的时长作商，得到分区的消息写入速率。

可选的，分布式消息系统为Kafka；

获得模块601，具体用于针对各个消息通道，采集消息通道对应的各个分区的偏移量数据，偏移量数据表示存储至分区的最新消息的消息位置；偏移量数据包括在一时刻的第一偏移量数据和在时刻之后的另一时刻的第二偏移量数据；消息通道是按照存储至分布式消息系统中的消息类别划分得到的；计算另一时刻与时刻的时间间隔；对第二偏移量数据与第一偏移量数据进行减法运算，得到偏移量差值；对偏移量差值与时间间隔进行除法运算，得到分区的消息写入速率。

可选的，计算模块602，具体用于通过第一预设公式确定各个分区的消息写入速率之间的离散程度，第一预设公式为：

可选的，计算模块602，具体用于针对各个消息通道，通过第二预设公式确定消息通道中各个分区的离散程度，并将离散程度作为消息通道对应的数据倾斜程度，第二预设公式为：

可选的，如图7所示，装置还包括：

判断模块701，用于在针对各个消息通道，通过第二预设公式确定消息通道中各个分区的离散程度，并将离散程度作为消息通道对应的数据倾斜程度之后，判断数据倾斜程度是否到达预设阈值；

报警模块702，用于当数据倾斜程度大于等于预设阈值时触发报警。

本发明实施例提供的分布式消息系统中数据倾斜的确定装置是应用上述分布式消息系统中数据倾斜的确定方法的装置，则上述分布式消息系统中数据倾斜的确定方法的所有实施例均适用于该装置，且均能达到相同或相似的有益效果。

对应于上述实施例提供的分布式消息系统中数据倾斜的确定方法，本发明实施例还提供了一种电子设备，如图8所示，包括处理器801、通信接口802、存储器803和通信总线804，其中，处理器801，通信接口802，存储器803通过通信总线804完成相互间的通信。

存储器803，用于存放计算机程序；

处理器801，用于执行存储器803上所存放的程序时，实现上述实施例提供的分布式消息系统中数据倾斜的确定方法的方法步骤。

上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述电子设备与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

对应于上述实施例提供的分布式消息系统中数据倾斜的确定方法，在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述实施例提供的分布式消息系统中数据倾斜的确定方法的方法步骤。

对应于上述实施例提供的分布式消息系统中数据倾斜的确定方法，在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述实施例提供的分布式消息系统中数据倾斜的确定方法的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质以及计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种分布式消息系统中数据倾斜的确定方法，其特征在于，包括：

通过预设计算方式，计算各个分区的消息写入速率之间的离散程度，其中，所述预设计算方式包括能够计算离散程度的方式；所述离散程度用于反映各个分区之间的数据倾斜程度；

所述通过预设计算方式，计算各个分区的消息写入速率之间的离散程度，包括：

其中，DataSkew为各个分区的消息写入速率之间的离散程度，S_j为分区j的所述消息写入速率，m为分区的个数，为m个分区的所述消息写入速率的平均值；

其中，KafksOffsetTopicDataSkew为所述消息通道对应的所述数据倾斜程度，n为所述消息通道中分区的个数，O_i为分区i的所述消息写入速率在所述消息通道的消息总量的占比，所述消息总量为n个分区的所述消息写入速率的总和，为所述消息通道中n个分区的所述占比的平均值，Max(DataSkew)为所有消息通道的所述数据倾斜程度的最大均方差。

2.根据权利要求1所述的方法，其特征在于，所述获得分布式消息系统中各个分区的消息写入速率，包括：

3.根据权利要求2所述的方法，其特征在于，所述分布式消息系统为Kafka；

计算所述另一时刻与所述时刻的时间间隔；

4.根据权利要求1所述的方法，其特征在于，在所述针对各个消息通道，通过第二预设公式确定所述消息通道中各个分区的所述离散程度，并将所述离散程度作为所述消息通道对应的数据倾斜程度之后，所述方法还包括：

判断所述数据倾斜程度是否到达预设阈值；

当所述数据倾斜程度大于等于所述预设阈值时触发报警。

5.一种分布式消息系统中数据倾斜的确定装置，其特征在于，包括：

计算模块，用于通过预设计算方式，计算各个分区的消息写入速率之间的离散程度，其中，所述预设计算方式包括能够计算离散程度的方式；所述离散程度用于反映各个分区之间的数据倾斜程度；

所述计算模块，具体用于通过第一预设公式确定各个分区的消息写入速率之间的离散程度，所述第一预设公式为：

或者，所述计算模块，具体用于针对各个消息通道，通过第二预设公式确定所述消息通道中各个分区的所述离散程度，并将所述离散程度作为所述消息通道对应的数据倾斜程度，所述第二预设公式为：

6.根据权利要求5所述的装置，其特征在于，所述获得模块，具体用于针对所述分布式消息系统中的各个分区，获取预设时间范围内所述分区的消息写入情况信息，所述消息写入情况信息反映在所述预设时间范围内存储至所述分区的消息量；将所述在所述预设时间范围内存储至所述分区的消息量与所述预设时间范围所对应的时长作商，得到所述分区的所述消息写入速率。

7.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1-4任一所述的方法步骤。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。