CN111930538A

CN111930538A - 一种基于kafka集群的生产与消费的方法

Info

Publication number: CN111930538A
Application number: CN202010760097.1A
Authority: CN
Inventors: 曹浩; 刘跃红; 夏菊平; 李雨峰
Original assignee: Yinsheng Payment Service Co Ltd
Current assignee: Yinsheng Payment Service Co Ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-11-13

Abstract

本发明公开了一种基于kafka集群的生产与消费的方法，涉及信息处理技术领域；该方法包括以下的步骤：S1、消息提交规则的设置；S2、对消息自动重试规则进行设置；S3、主题topic的副本数设置，对主题topic的副本数进行设置，使其大于或等于3；S4、对消息写入副本的数量进行设置，保证主题topic的副本数大于消息写入副本的数量；S5、确保消息消费完成后再提交偏移量Offset；S6、多服务器的线程设置，通过统计多种数据主题topic的分区数partition，采用下列公式计算：P/n＝concurrency，其中P为总的分区数partition的数据，n为服务器的数量，concurrency为线程数；本发明的有益效果是：杜绝了单一服务器不稳定导致数据出现波动的情况，解决数据一致性及单点故障问题。

Description

一种基于kafka集群的生产与消费的方法

技术领域

本发明涉及消息处理技术领域，更具体的说，本发明涉及一种基于kafka集群的生产与消费的方法。

背景技术

Kafka是一种分布式发布-订阅消息系统，具备高吞吐量、持久化、副本集机制、分布式支持横向扩展等特性。对生产者和消费者的设计完全解耦，流量可削峰、消息处理可做到异步。现在它已被很多公司作为多种类型的数据管道和消息系统使用。

为了更好的说明及理解本发明的技术方案，对Kafka的基础概念作如下介绍：

1、生产者与消费者

对于Kafka来说客户端有两种基本类型，包括：生产者(Producer)、消费者(Consumer)，生产者(也称为发布者)创建消息，而消费者(也称为订阅者)负责消费消息。

2、主题(Topic)与分区(Partition)

在Kafka中，消息以主题(Topic)来分类，每一个主题都对应一个「消息队列」，即类似于数据库中的表。但是如果把所有同类的消息都塞入到一个“中心”队列中，势必缺少可伸缩性，无论是生产者/消费者数目的增加，还是消息数量的增加，都可能耗尽系统的性能或存储。对于此问题，本方案中引入了分区(Partition)的概念完成了水平扩展。

3、Broker和集群(Cluster)

一个Kafka服务器也称为Broker，它接受生产者发送的消息并存入磁盘，Broker同时服务消费者拉取分区消息的请求，返回目前已经提交的消息。使用特定的机器硬件，一个Broker每秒可以处理成千上万的分区和百万量级的消息。若干个Broker组成一个集群(Cluster)，其中集群内某个Broker会成为集群控制器(Cluster Controller)，它负责管理集群，包括分配分区到Broker、监控Broker故障等。在集群内，一个分区由一个Broker负责，这个Broker也称为这个分区的Leader。当然一个分区可以被复制到多个Broker上来实现冗余，这样当存在Broker故障时可以将其分区重新分配到其他Broker来负责。

在信息爆炸的数据时代，采用传统离线方式处理数据已难以满足数据的实时性要求。Kafka基于其独特的优势，可用来解决百万级别的数据生产者和消费者之间的无缝对接，并达到实时性要求。但在支付行业中，使用Kafka处理基础业务数据，则存在以下不足：

(1)在Kafka Broker确认Ack时，若出现网络异常、FullGC、OOM等问题时，易导致Ack超时，Kafka Producer会对数据重复发送，最终出现数据重复推送。

(2)在Kafka消费端出现异常，部分消费信息未及时提交offset时，易导致数据重复消费。

(3)同一条数据因各种客观存在的问题可能被计算或处理多次，最终导致数据与预期出现极大的偏差。

(4)若Kafka消费端仅使用单节点部署，容易导致单点故障，出现数据丢失，影响数据的实时性、一致性；同时，对于系统的稳定性也非常致命。

发明内容

为了克服现有技术的不足，本发明提供一种基于kafka集群的生产与消费的方法，该方法通过架设多服务器，杜绝了单一服务器不稳定导致数据出现波动的情况，解决数据一致性及单点故障问题。

本发明解决其技术问题所采用的技术方案是：一种基于kafka集群的生产与消费的方法，其改进之处在于,该方法包括以下的步骤：

S1、消息提交规则的设置，该规则为所有副本Broker都要接收到消息，该消息才能提交成功；

S2、对消息自动重试规则进行设置，当出现网络抖动，使Kafka Producer自动重试消息发送，避免消息丢失；

S3、主题topic的副本数设置，对主题topic的副本数进行设置，使其大于或等于3；

S4、对消息写入副本的数量进行设置，控制消息至少要被写入1个以上的副本才能提交成功，保证主题topic的副本数大于消息写入副本的数量；

S5、确保消息消费完成后再提交偏移量Offset；

S6、多服务器的线程设置，通过统计多种数据主题topic的分区数partition，采用下列公式计算：P/n＝concurrency，其中P为总的分区数partition的数据，n为服务器的数量，concurrency为线程数。

进一步的，所述的步骤S1中，令Kafka Producer中参数acks＝all。

进一步的，所述的步骤S2中，令Kafka Producer中参数retries＝5。

进一步的，所述的步骤S3中，令replication.factor≥3。

进一步的，所述的步骤S4中，令min.insync.replicas>1。

进一步的，所述的步骤S5中，所述主题topic的副本数的参数为replication.factor，消息写入副本的数量的参数为min.insync.replicas，确保replication.factor>min.insync.replicas。

进一步的，令replication.factor＝min.insync.replicas+1。

进一步的，所述的步骤S6中，令Kafka Consumer端的参数enbale.auto.commit为false，以保证数据不会重复消费。

本发明的有益效果是：Kafka生产端不重复发送，保证数据有且只发送一次；架设多服务器部署模型，横向扩展多台服务终端部署，杜绝单一服务器不稳定导致数据出现波动的情况，解决数据一致性及单点故障问题。

附图说明

图1为本发明的一种基于kafka集群的生产与消费的方法的流程示意图。

图2为本发明的一种基于kafka集群的生产与消费的方法的框架结构图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整地描述，以充分地理解本发明的目的、特征和效果。显然，所描述的实施例只是本发明的一部分实施例，而不是全部实施例，基于本发明的实施例，本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例，均属于本发明保护的范围。另外，专利中涉及到的所有联接/连接关系，并非单指构件直接相接，而是指可根据具体实施情况，通过添加或减少联接辅件，来组成更优的联接结构。本发明创造中的各个技术特征，在不互相矛盾冲突的前提下可以交互组合。

参照图1、图2，本发明揭示了一种基于kafka集群的生产与消费的方法，该方法通过对生产端、消费端以及架设多服务器部署模型，横向扩展多台服务器终端部署，杜绝了单一服务器不稳定导致数据出现波动的情况，解决数据一致性及单点故障问题。

本实施例中，该方法包括生产端的设计方法、消费端设计方法以及架设多服务器部署模型的方法，其中，生产端的设计方法包括以下的步骤：

在该步骤中，令Kafka Producer中参数acks＝all；

本实施例中，令Kafka Producer中参数retries＝5，通过该步骤，对KafkaProducer的自动重试机制进行设置；

进一步的，所述的消费端设计方法包括步骤S5：

S5、确保消息消费完成后再提交偏移量Offset；所述主题topic的副本数的参数为replication.factor，令replication.factor≥3；消息写入副本的数量的参数为min.insync.replicas，令min.insync.replicas>1；确保replication.factor>min.insync.replicas；在本实施例中，即令replication.factor＝min.insync.replicas+1；

另外，架设多服务器部署模型的方法包括步骤S6：

S6、多服务器的线程设置，通过统计多种数据主题topic的分区数partition，采用下列公式计算：P/n＝concurrency，其中P为总的分区数partition的数据，n为服务器的数量，concurrency为线程数；

所述的步骤S6中，令Kafka Consumer端的参数enbale.auto.commit为false，以保证数据不会重复消费。

参照图2所示，对于kafka集群的工作过程进行描述，其步骤1为生产端producer发送数据到kafka集群，步骤2为kafka内部，在不同的broker上追加数据；步骤3为数据发送过程中，通过消息确认机制，可以得到一个是否成功的结果给生产端producer；步骤4为，如果出现异常情况时，生产端会重新发送数据到kafka集群。

通过上述方法和结构，本发明的一种基于kafka集群的生产与消费的方法，具有以下的优点：

1、Kafka生产端不重复发送，保证数据有且只发送一次；

2、kafka消费端数据的不重复消费，引入幂等性算法确保消费端不重复消费数据，从而保障数据的一致性；在本实施例中，每个新的生产端Producer初始化时，会分配一个唯一的ProducerID，对于每个ProducerID，生产端Producer发送数据的每个Topic和Partition都对应一个从0开始单调递增的SequenceNumber值。在每条消息中附带了ProducerID和SequenceNumber，相同的ProducerID和SequenceNumber发送给Broker，而之前Broker缓存过之前发送的相同的消息，那么在消息流中的消息就只有一条，不会出现重复发送的情况。

3、架设多服务器部署模型，横向扩展多台服务终端部署，杜绝单一服务器不稳定导致数据出现波动的情况，解决数据一致性及单点故障问题。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于kafka集群的生产与消费的方法，其特征在于,该方法包括以下的步骤：

S5、确保消息消费完成后再提交偏移量Offset；

2.根据权利要求1所述的一种基于kafka集群的生产与消费的方法，其特征在于：所述的步骤S1中，令Kafka Producer中参数acks＝all。

3.根据权利要求1所述的一种基于kafka集群的生产与消费的方法，其特征在于：所述的步骤S2中，令Kafka Producer中参数retries＝5。

4.根据权利要求1所述的一种基于kafka集群的生产与消费的方法，其特征在于：所述的步骤S3中，令replication.factor≥3。

5.根据权利要求4所述的一种基于kafka集群的生产与消费的方法，其特征在于：所述的步骤S4中，令min.insync.replicas>1。

6.根据权利要求5所述的一种基于kafka集群的生产与消费的方法，其特征在于：所述的步骤S5中，所述主题topic的副本数的参数为replication.factor，消息写入副本的数量的参数为min.insync.replicas，确保replication.factor>min.insync.replicas。

7.根据权利要求6所述的一种基于kafka集群的生产与消费的方法，其特征在于：令replication.factor＝min.insync.replicas+1。

8.根据权利要求1所述的一种基于kafka集群的生产与消费的方法，其特征在于：所述的步骤S6中，令Kafka Consumer端的参数enbale.auto.commit为false，以保证数据不会重复消费。