CN111931105A

CN111931105A - 一种kafka消费指定推送时间数据处理方法

Info

Publication number: CN111931105A
Application number: CN202010699710.3A
Authority: CN
Inventors: 曾国江; 刘跃红; 周小润; 郭倩
Original assignee: Yinsheng Payment Service Co Ltd
Current assignee: Yinsheng Payment Service Co Ltd
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2020-11-13

Abstract

本发明公开了一种kafka消费指定推送时间数据处理方法，涉及数据处理技术领域；该数据处理方法包括以下的步骤：S1、获取指定消费时间的偏移量，包括找到kafka的时间戳的步骤，以及通过kafka的时间戳获取指定消费时间的偏移量的步骤；S2、对kafka进行设置指定偏移量；通过调用kafka Api中的Kafka Consumer，采用seek方法跳到指定Partition的指定Offset处消费；S3、启动kafka消费程序，使设置的时间与消费数据对应的时间戳一致；本发明的有益效果是：该方法减少对重复数据的处理，保证数据质量，减缓因带宽占用过大而影响同网段的其他消费应用的处理能力。

Description

一种kafka消费指定推送时间数据处理方法

技术领域

本发明涉及消息处理技术领域，更具体的说，本发明涉及一种kafka消费指定推送时间数据处理方法。

背景技术

Kafka是一种分布式发布-订阅消息系统，具备高吞吐量、持久化、副本集机制、分布式支持横向扩展等特性。对生产者和消费者的设计完全解耦，流量可削峰、消息处理可做到异步。现在它已被很多公司作为多种类型的数据管道和消息系统使用。

为了更好的说明及理解本发明的技术方案，对Kafka的基础概念作如下介绍：

1、生产者与消费者

对于Kafka来说客户端有两种基本类型，包括：生产者(Producer)、消费者(Consumer)，生产者(也称为发布者)创建消息，而消费者(也称为订阅者)负责消费消息。

2、主题(Topic)与分区(Partition)

在Kafka中，消息以主题(Topic)来分类，每一个主题都对应一个「消息队列」，即类似于数据库中的表。但是如果把所有同类的消息都塞入到一个“中心”队列中，势必缺少可伸缩性，无论是生产者/消费者数目的增加，还是消息数量的增加，都可能耗尽系统的性能或存储。对于此问题，本方案中引入了分区(Partition)的概念完成了水平扩展。

3、Broker和集群(Cluster)

一个Kafka服务器也称为Broker，它接受生产者发送的消息并存入磁盘，Broker同时服务消费者拉取分区消息的请求，返回目前已经提交的消息。使用特定的机器硬件，一个Broker每秒可以处理成千上万的分区和百万量级的消息。若干个Broker 组成一个集群(Cluster)，其中集群内某个Broker会成为集群控制器(Cluster Controller)，它负责管理集群，包括分配分区到Broker、监控Broker故障等。在集群内，一个分区由一个Broker负责，这个Broker也称为这个分区的Leader。当然一个分区可以被复制到多个Broker上来实现冗余，这样当存在Broker故障时可以将其分区重新分配到其他Broker来负责。

在实际使用场景中，Kafka会结合其他技术一起使用，以确保当Kafka集群出现一般性问题时，仍可保障数据质量。但在重启Kafka消费端应用程序时，默认的两种消费机制均存在其弊端：(1)从头消费，导致重复消费数据过多，当消费量巨大，消费时间有限时，对流量带宽占用和消费速度依赖过大。(2)从最新数据消费，导致数据可能有缺失，影响最终数据质量。

发明内容

为了克服现有技术的不足，本发明提供一种kafka消费指定推送时间数据处理方法，该方法减少对重复数据的处理，保证数据质量，减缓因带宽占用过大而影响同网段的其他消费应用的处理能力。

本发明解决其技术问题所采用的技术方案是：一种kafka消费指定推送时间数据处理方法，其特征在于：

S1、获取指定消费时间的偏移量，包括找到kafka的时间戳的步骤，以及通过kafka的时间戳获取指定消费时间的偏移量的步骤；

S2、对kafka进行设置指定偏移量；通过调用kafka Api中的Kafka Consumer，采用seek方法跳到指定Partition的指定Offset处消费；

S3、启动kafka消费程序，使设置的时间与消费数据对应的时间戳一致。

进一步的，所述的步骤S1中，kafka内部处理时间戳的步骤如下：

S11、producer写入消息的时间戳，发送至leader broker；

S12、时间戳按类型分为LogAppend Time和Create Time，其中LogAppend Time 表示producer创建消息的时间，Create Time是leader broker将消息写入到log 的时间；

S13、若时间戳为LogAppend Time，则判定该消息是否压缩，如为压缩消息，则将多条消息打包形成一个内层，外层时间戳为这批打包消息的统一时间戳，使用当前时间覆盖外层消息时间戳，若为未压缩消息，则每条消息独立，则使用当前时间覆盖每条消息的时间戳，此后便进入步骤S14；

若时间戳为Create Time，判定消息产生与接收时间差小于设定的阀值，写入消息，此后便进入步骤S14；

S14、将时间戳写入Active log segment。

进一步的，所述的步骤S1中，通过kafka的时间戳获取指定消费时间的偏移量包括以下的步骤：

S15、将文件名及文件的最后时间放入一个map中；

S16、当用户指定一个时间t0时，在map中找到最后一个早于t0的时间t1，返回这个文件名，即这个文件的第一个offset；

S17、返回所有分区的offset，对所有的分区采取步骤S15-S16。

进一步的，所述时间使用的是13位的unix时间戳。

进一步的，所述的步骤S2中，在调用seek方法的时,需要先获得分区的信息, 分区的信息要通过poll方法来获得；

如果调用seek方法时,没有分区信息,则会抛出异常。

进一步的，通过poll方法获取偏移量的步骤如下：

S21、通过poll方法获得分区数据；

S22、获取所有分区指定时间对应偏移量；

S23、设置分区offset；

S24、判断是否还有未设置的分区，若有则返回至步骤S23，若无则进行下一步；

S25、提交偏移量。

本发明的有益效果是：其一、本发明的此种方法可以减少对重复数据的处理，数据处理速度不容易成为瓶颈；其二、不容易出现数据缺失，保障数据质量；其三、去除不必要的重复数据处理，减缓因带宽占用过大而影响同网段的其他消费应用的处理能力。

附图说明

图1为本发明的一种kafka消费指定推送时间数据处理方法的流程示意图。

图2为本发明的一种kafka消费指定推送时间数据处理方法的kafka内部处理时间戳的步骤示意图。

图3为本发明的一种kafka消费指定推送时间数据处理方法的通过poll方法获取偏移量的步骤示意图。

图4、图5为本发明中设置的时间及消费数据对应的时间戳的一实施例图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整地描述，以充分地理解本发明的目的、特征和效果。显然，所描述的实施例只是本发明的一部分实施例，而不是全部实施例，基于本发明的实施例，本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例，均属于本发明保护的范围。另外，专利中涉及到的所有联接/连接关系，并非单指构件直接相接，而是指可根据具体实施情况，通过添加或减少联接辅件，来组成更优的联接结构。本发明创造中的各个技术特征，在不互相矛盾冲突的前提下可以交互组合。

参照图1所示，本发明揭示了一种kafka消费指定推送时间数据处理方法，通过该方法，能够避免数据从头消费和从最新数据消费的弊端，能够对指定时间的消息进行消费，具体的，在本实施例中，该数据处理方法包括以下的步骤：

我们对kafka内部处理时间戳以及获取偏移量的步骤进行详细的说明，结合图 2所示，所述的步骤S1中，kafka内部处理时间戳的步骤如下，包括步骤S11-S14：

S11、producer写入消息的时间戳，发送至leader broker；

S14、将时间戳写入Active log segment。

Leader/follower可以从Active log segment读取时间戳，同时构建索引文件Index file。

其中，若时间戳为Create Time，需要判定消息产生与接收时间差，此处所指的阈值，可以对该阈值进行定义，例如当消息产生与接收时间差大于3min时，该消息则可以不选择被创建，则直接拒绝写入，直接丢弃该消息；

基于此，可以看到kafka在把数据写入文件的时候会同时保持当前时间戳，故可通过时间戳找到对应的偏移量。通过kafka的时间戳获取指定消费时间的偏移量包括步骤S15-S17：

S15、将文件名及文件的最后时间放入一个map中；所述时间使用的是13位的 unix时间戳；

S17、返回所有分区的offset，对所有的分区采取步骤S15-S16。

进一步的，结合图2所示，所述的步骤S2内容如下：

所述的步骤S2中，在调用seek方法的时,需要先获得分区的信息,分区的信息要通过poll方法来获得；如果调用seek方法时,没有分区信息,则会抛出异常。结合图3所示，通过poll方法获取偏移量的步骤如下：

S21、通过poll方法获得分区数据；

S22、获取所有分区指定时间对应偏移量；

S23、设置分区offset；

S25、提交偏移量。

S3、启动kafka消费程序，使设置的时间与消费数据对应的时间戳一致。结合图4、图5所示，为设置的时间及消费数据对应的时间戳的一实施例，可以看到设置的时间与消费的时间是一致的。

通过本发明的上述方法，相对于现有技术中在重启Kafka消费端应用程序时，默认的两种消费机制，其至少具有以下的优点：其一、本发明的此种方法可以减少对重复数据的处理，数据处理速度不容易成为瓶颈；其二、不容易出现数据缺失，保障数据质量；其三、去除不必要的重复数据处理，减缓因带宽占用过大而影响同网段的其他消费应用的处理能力。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种kafka消费指定推送时间数据处理方法，其特征在于：

2.根据权利要求1所述的一种kafka消费指定推送时间数据处理方法，其特征在于：所述的步骤S1中，kafka内部处理时间戳的步骤如下：

S11、producer写入消息的时间戳，发送至leader broker；

S12、时间戳按类型分为LogAppend Time和Create Time，其中LogAppend Time表示producer创建消息的时间，Create Time是leader broker将消息写入到log的时间；

S14、将时间戳写入Active log segment。

3.根据权利要求1或2所述的一种kafka消费指定推送时间数据处理方法，其特征在于：所述的步骤S1中，通过kafka的时间戳获取指定消费时间的偏移量包括以下的步骤：

S15、将文件名及文件的最后时间放入一个map中；

S17、返回所有分区的offset，对所有的分区采取步骤S15-S16。

4.根据权利要求5所述的一种kafka消费指定推送时间数据处理方法，其特征在于：所述时间使用的是13位的unix时间戳。

5.根据权利要求1所述的一种kafka消费指定推送时间数据处理方法，其特征在于：所述的步骤S2中，在调用seek方法的时,需要先获得分区的信息,分区的信息要通过poll方法来获得；

如果调用seek方法时,没有分区信息,则会抛出异常。

6.根据权利要求5所述的一种kafka消费指定推送时间数据处理方法，其特征在于：通过poll方法获取偏移量的步骤如下：

S21、通过poll方法获得分区数据；

S22、获取所有分区指定时间对应偏移量；

S23、设置分区offset；

S25、提交偏移量。