CN109002484A

CN109002484A - 一种用于顺序消费数据的方法及系统

Info

Publication number: CN109002484A
Application number: CN201810657964.1A
Authority: CN
Inventors: 董晓斌; 赵晶; 王志海; 喻波; 董爱华; 安鹏
Original assignee: Beijing Wondersoft Technology Co Ltd
Current assignee: Beijing Wondersoft Technology Co Ltd
Priority date: 2018-06-25
Filing date: 2018-06-25
Publication date: 2018-12-14
Anticipated expiration: 2038-06-25
Also published as: CN109002484B

Abstract

本发明公开了一种用于顺序消费数据的方法及系统，数据生产者客户端连接到数据处理系统，并向数据处理系统发送数据；数据处理系统生产者线程依据接收数据的主题以及当前数据处理系统的分区编号，将数据存储到数据库管理系统中；数据处理系统消费者线程依据当前消费者的ID，获取当前消费者ID对应的分区编号的偏移量；数据消费者线程根据所述分区编号的偏移量从数据处理系统的分区中获取数据，与数据库管理系统存储的数据进行匹配、整合；将匹配、整合完成的数据结果返回给相应的数据消费者客户端。通过本发明的技术方案，解决了Kafka同一个主题多分区的情况下，消费数据的无序问题。

Description

一种用于顺序消费数据的方法及系统

技术领域

本发明涉及数据处理领域，具体涉及一种用于顺序消费数据的方法及系统。

背景技术

MySql作为流行的关系型数据库，其存储性能较高，并且支持数据的有序存储以及查询操作。Kafka作为流行的分布式发布订阅消息系统，支持多生产者向其生产数据消息，且支持多消费者消费生产的数据消息。

Kafka中同一个主题只有一个分区的情况下，消费者在消费数据的过程中顺序消费的。但是在多分区的情况下，消费者无法保证从多个分区拿的数据是按照生产者生产数据的顺序，其只能确保在同一个主题的一个分区中，消费者消费的数据按照数据落地存储到当前分区中的数据的顺序(这也是为什么一个主题只有一个分区的情况下消费的数据是有序的)。

Kafka以及Mysql均支持单机部署以及集群部署，因此在部署服务方面，无论是单机部署还是集群部署，二者可以进行集成部署。

Kafka中的生产者生产数据对应Mysql中的插入数据，消费者消费数据对应Mysql中的读取数据，以及删除数据对应Mysql中的删除数据，且Mysql支持有序插入存储、有序读取。通过结合二者各自的特点，在Kafka一个主题多分区的情况下，依赖Mysql的有序插入以及有序读取的特性，实现多分区消费数据的有序性。

发明内容

为解决上述技术问题，本发明提供了一种用于顺序消费数据的方法，该方法包括以下步骤：

1)数据生产者客户端连接到数据处理系统，并向数据处理系统发送数据；

2)数据处理系统生产者线程依据接收数据的主题以及当前数据处理系统的分区编号，将数据存储到数据库管理系统中；

3)数据消费者客户端连接到所述数据处理系统，数据处理系统消费者线程依据当前消费者的ID，获取当前消费者ID对应的分区编号的偏移量；

4)消费者线程根据所述分区编号的偏移量从数据处理系统不同分区中获取数据，与数据库管理系统存储的数据进行匹配、整合；

5)消费者线程将匹配、整合完成的数据结果返回给相应的数据消费者客户端。

根据本发明的方法，优选的，所述数据处理系统为Kafka消息分布式发布订阅消息系统，所述数据库管理系统为Mysql数据库管理系统。

根据本发明的方法，优选的，在Mysql数据库管理系统中存储的数据包含当前的Kafka的主题名称、分区编号、当前数据的UNIX时间戳以及该数据在Kafka中的分区偏移量。

根据本发明的方法，优选的，Kafka消费者线程依据当前消费者的ID，从其协同工作的zookeeper中获取当前消费者ID对应不同分区ID的偏移量；

将从不同分区中获取的数据的主题以及分区编号，与Mysql中存储的主题、分区编号、偏移量进行关联，将具备相同主题、分区编号以及偏移量的数据合并。

根据本发明的方法，优选的，消费者线程在向消费者返回数据之前，依据合并的数据中的UNIX时间戳进行升序排序，并重新整合数据结果；

消费者线程将整合完成的依赖UNIX时间戳排序之后的数据结果返回给相应的数据消费者客户端。

为解决上述技术问题，本发明提供了一种用于顺序消费数据的系统，其特征在于，该系统包括：数据生产者客户端、数据处理系统、数据库管理系统和数据消费者客户端；

所述数据处理系统分别针对数据生产者客户端和数据消费者客户端创建数据生产者线程和数据消费者线程；

数据生产者客户端连接到数据处理系统，并向数据处理系统发送数据；

数据处理系统生产者线程依据接收数据的主题以及当前数据处理系统的分区编号，将数据存储到数据库管理系统中；

数据消费者客户端连接到所述数据处理系统，数据处理系统消费者线程依据当前消费者的ID，获取当前消费者ID对应的分区编号的偏移量；

数据消费者线程根据所述分区编号的偏移量从数据处理系统的分区中获取数据，与数据库管理系统存储的数据进行匹配、整合；

数据消费者线程将匹配、整合完成的数据结果返回给相应的数据消费者客户端。

根据本发明的系统，优选的，所述数据处理系统为Kafka消息分布式发布订阅消息系统，所述数据库为Mysql数据库管理系统。

根据本发明的系统，优选的，在Mysql数据库管理系统中存储的数据包含当前的Kafka的主题名称、分区编号、当前数据的UNIX时间戳以及该数据在Kafka中的分区偏移量。

根据本发明的系统，优选的，Kafka消费者线程依据当前消费者的ID，从其协同工作的zookeeper中获取当前消费者ID对应不同分区ID的偏移量；

根据本发明的系统，优选的，数据消费者线程在向消费者返回数据之前，依据合并的数据中的UNIX时间戳进行升序排序，并重新整合数据结果；

数据消费者线程将整合完成的依赖UNIX时间戳排序之后的数据结果返回给相应的数据消费者客户端。

根据本发明的系统，优选的，所述数据处理系统还创建数据删除线程，所述数据删除线程根据数据处理系统配置的超时时间，将超时存储到数据处理系统中的数据中的主题名称、分区ID以及数据的偏移量读取出来，调用数据删除组件将数据库管理系统中对应的数据删除，同时数据删除线程将数据处理系统中的对应数据删除。

采用本发明的技术方案，取得了以下技术效果：

本发明解决了Kafka同一个主题多分区的情况下，消费数据的无序问题，避免在实时处理数据(数据低延时)业务时避免数据的漏处理从而引发的数据统计不准确。

附图说明

此处所说明的附图是用来提供对本发明的进一步理解，构成本申请的一部分，但并不构成对本发明的不当限定，在附图中：

图1为本发明的总体框图；

图2为本发明的总体框架分解图；

图3为本发明的方法流程图。

具体实施方式

下面将结合附图以及具体实施例来详细说明本发明，其中的示意性实施例以及说明仅用来解释本发明，但并不作为对本发明的限定。

MySql:一种关系数据库管理系统，关系数据库将数据保存在不同的表中，而不是将所有数据放在一个大仓库内。是建立在关系数据库模型基础上的数据库，借助于集合代数等概念和方法来处理数据库中的数据，同时也是一个被组织成一组拥有正式描述性的表格，该形式的表格作用的实质是装载着数据项的特殊收集体，这些表格中的数据能以许多不同的方式被存取或重新召集而不需要重新组织数据库表格。

Kafka:由Apache软件基金会开发的一个开源流处理平台，由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。这种动作(网页浏览，搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的一样的日志数据和离线分析系统，但又要求实时处理的限制，这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理，也是为了通过集群来提供实时的消息。

本发明提出的MySql结合Kafka的多分区的情况下，消费者消费Kafka中的数据按照生产者生产数据的顺序。

总体描述如上图1、图2所示，图1包含了数据生产者客户端、Kafka、Mysql数据库管理系统和数据消费者客户端；其中图2包含了生产者向Kafka同Mysql结合处理数据所包含的数据处理逻辑组件。

本发明提供了一种用于顺序消费数据的系统，该系统包括：数据生产者客户端、Kafka、Mysql数据库管理系统和数据消费者客户端。

Kafka分别针对数据生产者客户端和数据消费者客户端创建数据生产者线程和数据消费者线程。

数据生产者客户端连接到Kafka，并向数据处理系统发送数据。

生产者向Kafka发送数据，Kafka接收到数据之后，交由相应的生产者线程将数据落地存储到Kafka中。

Kafka生产者线程依据接收数据的主题以及当前Kafka的分区编号，将数据存储到Mysql数据库管理系统中。

生产者线程将该据除落地到Kafka之后，需要调用Mysql的数据入库组件，并依据当前数据的主题以及当前的分区存储到Mysql中。因为获取到的数据中携带了此数据在Kafka中的主题数据、分区编号、分区偏移量及UNIX时间戳，在Mysql的数据表中存储该数据时，记录该数据的主题数据、分区编号、分区偏移量及UNIX时间戳四个属性，即在Mysql的数据表中仅存储上述四个属性数据，而不存储由生产者客户端产生的具体数据。Mysql中存储的数据包含当前的Kafka的主题名称、分区编号、当前数据的UNIX时间戳以及该数据在Kafka中的偏移量。

如果上述操作成功，则Kfaka向生产者客户端回执数据生产成功，如果不成功，则反馈失败，并将上述的数据处理操作进行回滚，即恢复之前的状态。

数据消费者客户端连接到所述Kafka，Kafka消费者线程依据当前消费者的ID，获取当前消费者ID对应的分区编号的偏移量。

消费者客户端连接到Kafka。

Kafka消费者线程依据当前消费者的ID，从其协同工作的zookeeper中获取当前消费者ID对应不同分区ID的偏移量。zookeeper是Kafka中的一个功能组件。消费者客户端在连接到Kafka之后，会从zookeeper中获取当前消费者消费的不同分区ID上的偏移量的数据。

数据消费者线程根据所述分区编号的偏移量从Kafka的分区中获取数据，与Mysql数据库管理系统存储的数据进行匹配、整合。

Kafka消费者线程从上次记录的主题以及其分区编号的偏移量从不同Kafka分区中读取数据。此时，同一个分区中的数据是有顺序的，其顺序等同于生产者向该分区插入数据的顺序。

消费者线程调用数据整合组件，将从不同分区中读取到的数据的主题、分区编号、分区偏移量与Mysql存储的数据的主题、分区编号、分区偏移量进行匹配。具备相同主题、分区编号以及偏移量的数据合并。

消费者线程在向消费者客户端返回数据之前，依据整合(合并)的数据中的UNIX时间戳进行升序排序，并重新整合数据结果。

消费者线程将整合完成的依赖UNIX时间戳排序之后的结果返回给相应的客户端。

数据消费者线程将匹配、整合完成的按照UNIX时间戳排序的数据结果返回给相应的数据消费者客户端。

Kafka还创建数据删除线程，所述数据删除线程根据Kafka配置的超时时间，将超时存储到Kafka中的数据中的主题名称、分区ID以及数据的偏移量读取出来，调用数据删除组件将Mysql数据库管理系统中对应的数据删除，同时数据删除线程将Kafka中的对应数据删除。

根据图3所示，描述了本发明的数据生产、顺序消费的方法流程图。

一种用于顺序消费数据的方法，其特征在于，该方法包括以下步骤：

步骤S1，Kafka分别针对数据生产者客户端和数据消费者客户端创建数据生产者线程和数据消费者线程。

步骤S2，Kafka生产者线程依据接收数据的主题以及当前Kafka的分区编号，将数据存储到Mysql数据库管理系统中。

生产者线程将该据除落地到Kafka之后，需要调用Mysql的数据入库组件，并依据当前数据的主题以及当前的分区存储到Mysql中。因为获取到的数据中携带了此数据在Kafka中的主题数据、分区编号、分区偏移量及UNIX时间戳，在Mysql的数据表中存储该数据时，记录该数据的主题数据、分区编号、分区偏移量及UNIX时间戳四个属性。Mysql中存储的数据包含当前的Kafka的主题名称、分区编号、当前数据的UNIX时间戳以及该数据在Kafka中的偏移量。

步骤S3，数据消费者客户端连接到所述Kafka，Kafka消费者线程依据当前消费者的ID，获取当前消费者ID对应的分区编号的偏移量。

消费者客户端连接到Kafka。

步骤S4，数据消费者线程根据所述分区编号的偏移量从Kafka的分区中获取数据，与Mysql数据库管理系统存储的数据进行匹配、整合。

步骤S5，消费者线程将整合完成的依赖UNIX时间戳排序之后的结果返回给相应的客户端。

由于不删除超时的数据会导致数据数量随着时间的累加，数据量会不断增大，因此有必要对超时数据进行删除。当然，是否需要将数据删除，依赖于是否在kafka中配置了删除策略以及数据超时时间，此功能是kafka中自带的。

因此除上述步骤S1-S5之外，还包括步骤6)，Kafka还创建数据删除线程，所述数据删除线程根据Kafka配置的超时时间，将超时存储到Kafka中的数据中的主题名称、分区ID以及数据的偏移量读取出来，调用数据删除组件将Mysql数据库管理系统中对应的数据删除，同时数据删除线程将Kafka中的对应数据删除。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、系统、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式发送机或其他可编程数据发送终端设备的发送器以产生一个机器，使得通过计算机或其他可编程数据发送终端设备的发送器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据发送终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品，该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据发送终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的发送，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种用于顺序消费数据的方法及系统，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种用于顺序消费数据的方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的方法，所述数据处理系统为Kafka消息分布式发布订阅消息系统，所述数据库管理系统为Mysql数据库管理系统。

3.根据权利要求2所述的方法，在Mysql数据库管理系统中存储的数据包含当前的Kafka的主题名称、分区编号、当前数据的UNIX时间戳以及该数据在Kafka中的分区偏移量。

4.根据权利要求2所述的方法，Kafka消费者线程依据当前消费者的ID，从其协同工作的zookeeper中获取当前消费者ID对应不同分区ID的偏移量；

5.根据权利要求4所述的方法，消费者线程在向消费者返回数据之前，依据合并的数据中的UNIX时间戳进行升序排序，并重新整合数据结果；

6.一种用于顺序消费数据的系统，其特征在于，该系统包括：数据生产者客户端、数据处理系统、数据库管理系统和数据消费者客户端；

7.根据权利要求6所述的系统，所述数据处理系统为Kafka消息分布式发布订阅消息系统，所述数据库为Mysql数据库管理系统。

8.根据权利要求7所述的系统，在Mysql数据库管理系统中存储的数据包含当前的Kafka的主题名称、分区编号、当前数据的UNIX时间戳以及该数据在Kafka中的分区偏移量。

9.根据权利要求7所述的系统，Kafka消费者线程依据当前消费者的ID，从其协同工作的zookeeper中获取当前消费者ID对应不同分区ID的偏移量；

10.根据权利要求9所述的系统，数据消费者线程在向消费者返回数据之前，依据合并的数据中的UNIX时间戳进行升序排序，并重新整合数据结果；

11.根据权利要求6所述的系统，所述数据处理系统还创建数据删除线程，所述数据删除线程根据数据处理系统配置的超时时间，将超时存储到数据处理系统中的数据中的主题名称、分区ID以及数据的偏移量读取出来，调用数据删除组件将数据库管理系统中对应的数据删除，同时数据删除线程将数据处理系统中的对应数据删除。