CN114301658A - 一种基于Kafka收集分布式系统数据链路的方法 - Google Patents

一种基于Kafka收集分布式系统数据链路的方法 Download PDF

Info

Publication number
CN114301658A
CN114301658A CN202111599923.XA CN202111599923A CN114301658A CN 114301658 A CN114301658 A CN 114301658A CN 202111599923 A CN202111599923 A CN 202111599923A CN 114301658 A CN114301658 A CN 114301658A
Authority
CN
China
Prior art keywords
data
kafka
verification
processing
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111599923.XA
Other languages
English (en)
Inventor
罗磊
袁宁康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Netmarch Technologies Co ltd
Original Assignee
Jiangsu Netmarch Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Netmarch Technologies Co ltd filed Critical Jiangsu Netmarch Technologies Co ltd
Priority to CN202111599923.XA priority Critical patent/CN114301658A/zh
Publication of CN114301658A publication Critical patent/CN114301658A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Kafka收集分布式系统数据链路的方法,其包括如下步骤:接入数据及分类处理,并对预设的数据传入Kafka动态主题中;根据Kafka动态主题,对传入的数据进行分发处理校验;若通过格式校验,数据回滚至分发到Kafka数据动态主题,然后再次供平台接入进行数据消费,在原数据异常节点进行重新操作,再次根据校验消费组和对应设定的数据格式进行数据判断,通过校验,则数据实现恢复。精准的选定出哪些需要回滚处理的数据,提高数据处理速度。

Description

一种基于Kafka收集分布式系统数据链路的方法
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于Kafka收集分布式系统数据链路的方法。
背景技术
Kafka是一种高吞吐量的分布式系统,它可以处理消费者规模的网站中的所有动作流数据。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop(一种分布式系统基础架构)的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消费。Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务,它主要用于处理活跃的流式数据,可以同时为发布和订阅提供高吞吐量,因此,越来越多的数据处理,通过Kafka收集分布式系统来处理。
在数据处理过程中,往往会出现数据异常丢失的现象,与正常日志清理相比,其表现为不定时触发,一触发丢失大量数据。
故,有必要提出一种基于Kafka收集分布式系统数据链路的方法来解决上述问题。
发明内容
针对上述提出的问题,本发明目的在于提供一种基于Kafka收集分布式系统数据链路的方法,用以通过数据完整性校验后进行异常处理步骤回写数据。
为实现上述目的,本发明采用如下技术方案:一种基于Kafka收集分布式系统数据链路的方法,其包括如下步骤:
接入数据及分类处理,并对预设的数据传入Kafka动态主题中;
根据Kafka动态主题,对传入的数据进行分发处理校验;其中,
首先定义所识别数据的校验消费组,然后根据校验消费组和对应设定的数据格式进行数据判断,排除不需要进行数据异常校验的数据,直接存储;针对非排除的数据,按照设定的校验方式进行校验,若无法通过校验,则进行本地存储,并提醒需手动修改;
若通过格式校验,数据回滚至分发到Kafka数据动态主题,然后再次供平台接入进行数据消费,在原数据异常节点进行重新操作,再次根据校验消费组和对应设定的数据格式进行数据判断,通过校验,则数据实现恢复。
根据获取的数据类型,并按照设预设方式进行数据分类统计;
对数据进行待处理标识,对设定的其中一类或多类待处理标识数据生成识别码传入平台;
把形成识别码的数据写入Kafka动态主题中。
将待处理的数据在数据处理的开始阶段传入平台开始标识,根据开始标识生成分布式通用唯一识别码返回给传入平台,传入平台后续数据处理步骤的都需要把开始阶段反馈的UUID传入,用来后续形成完整链路信息进行展示查看。
与现有技术相比,本发明一种基于Kafka收集分布式系统数据链路的方法的有益效果在于,针对基于Kafka收集分布式系统数据链路,其数据量大,数据容易丢失或出现异常,通过数据前期分类和后期识别等步骤,精准的选定出哪些需要回滚处理的数据,提高数据处理速度。
附图说明
图1为本发明基于Kafka收集分布式系统数据链路的方法流程示意图。
图2为本发明接入数据及分类处理且对预设的数据传入Kafka动态主题的流程示意图。
具体实施方式
下面通过本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参考图1,为本发明基于Kafka收集分布式系统数据链路的方法流程示意图。
本发明为一种基于Kafka收集分布式系统数据链路的方法,其包括如下步骤:
参考图2,
步骤S1:接入数据及分类处理,并对预设的数据传入Kafka动态主题中,其步骤包括:
参考图2,接入数据及分类处理且对预设的数据传入Kafka动态主题的流程示意图。
S101步骤,根据获取的数据类型,并按照设预设方式进行数据分类统计。
具体的,根据预设数据分类格式,对平台收集来的数据进行分类统计,其分类统计可按照如下类型进行:第一类数据:一次性获取的日志数据,完整的日志数据可以直接通过应用程序接口(API)对接。第二类数据:数据处理详细记录日志信息,也可以通过API的方式进行对接。第三类数据:数据多步骤处理日志信息,也是通过API的方式进行对接接入。
S102步骤,对数据进行标识,对设定的其中一类或多类标识数据生成识别码传入平台。
具体的,根据设定条件,第一类数据和第二类数据直接传入平台,不需要任何其他操作,对第三类数据(待处理数据)在数据处理的开始阶段传入平台开始标识,API会根据开始标识生成分布式通用唯一识别码(UUID)返回给传入平台,传入平台后续数据处理步骤的都需要把开始阶段反馈的UUID传入,用来后续形成完整链路信息进行展示查看。
S103步骤,把形成识别码的数据写入Kafka动态主题中。
步骤S2:根据Kafka动态主题,对传入的数据进行分发处理校验。
具体的,根据Kafka动态主题,首先定义所识别数据的校验消费组,然后根据校验消费组和对应设定的数据格式进行数据判断,排除不需要进行数据异常校验的数据,直接存储;针对非排除的数据,按照设定的校验方式进行校验,若无法通过校验,则进行本地存储,并提醒需手动修改;
本实施例中,结合形成识别码的数据来进行数据格式的数据判断。
本实施例中,若异常数据产生是因为数据格式错误,则进行存储,通过WEB展示给相关平台,进行手动改正后在进行数据校验,数据校验通过执行后续步骤。
步骤S3:若通过格式校验,数据回滚至分发到Kafka数据动态主题,然后再次供平台接入进行数据消费,在原数据异常节点进行重新操作,再次根据校验消费组和对应设定的数据格式进行数据判断,通过校验,则数据实现恢复。
针对数据处理比较复杂的大型分布式服务系统,进行一个数据链路,数据执行状态等关于数据处理和计算的相关信息的采集。通过采集的信息数据对信息数据进行处理校验,异常数据通过数据完整性校验后进行异常处理步骤回写数据。
本发明的优点如下:针对基于Kafka收集分布式系统数据链路,其数据量大,数据容易丢失或出现异常,通过数据前期分类和后期识别等步骤,精准的选定出哪些需要回滚处理的数据,提高数据处理速度。数据反馈通过消费不同数据步骤的相关动态主题;支持多个平台接入。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,均系本发明所保护范围。

Claims (3)

1.一种基于Kafka收集分布式系统数据链路的方法,其特征在于,其包括如下步骤:
步骤S1:接入数据及分类处理,并对预设的数据传入Kafka动态主题中;
步骤S2:根据Kafka动态主题,对传入的数据进行分发处理校验;其中,
首先定义所识别数据的校验消费组,然后根据校验消费组和对应设定的数据格式进行数据判断,排除不需要进行数据异常校验的数据,直接存储;针对非排除的数据,按照设定的校验方式进行校验,若无法通过校验,则进行本地存储,并提醒需手动修改;
步骤S3:若通过格式校验,数据回滚至分发到Kafka数据动态主题,然后再次供平台接入进行数据消费,在原数据异常节点进行重新操作,再次根据校验消费组和对应设定的数据格式进行数据判断,通过校验,则数据实现恢复。
2.根据权利要求1所述的基于Kafka收集分布式系统数据链路的方法,其特征在于,上述步骤S1中,其包括:
步骤101,根据获取的数据类型,并按照设预设方式进行数据分类统计;
步骤102,对数据进行待处理标识,对设定的其中一类或多类待处理标识数据生成识别码传入平台;
步骤103,把形成识别码的数据写入Kafka动态主题中。
3.根据权利要求2所述的基于Kafka收集分布式系统数据链路的方法,其特征在于,步骤S102中,将待处理的数据在数据处理的开始阶段传入平台开始标识,根据开始标识生成分布式通用唯一识别码返回给传入平台,传入平台后续数据处理步骤的都需要把开始阶段反馈的UUID传入,用来后续形成完整链路信息进行展示查看。
CN202111599923.XA 2021-12-24 2021-12-24 一种基于Kafka收集分布式系统数据链路的方法 Pending CN114301658A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111599923.XA CN114301658A (zh) 2021-12-24 2021-12-24 一种基于Kafka收集分布式系统数据链路的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111599923.XA CN114301658A (zh) 2021-12-24 2021-12-24 一种基于Kafka收集分布式系统数据链路的方法

Publications (1)

Publication Number Publication Date
CN114301658A true CN114301658A (zh) 2022-04-08

Family

ID=80969195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111599923.XA Pending CN114301658A (zh) 2021-12-24 2021-12-24 一种基于Kafka收集分布式系统数据链路的方法

Country Status (1)

Country Link
CN (1) CN114301658A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114978690A (zh) * 2022-05-23 2022-08-30 东南大学 一种针对多域数据汇聚的数据融合共享方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050021836A1 (en) * 2003-05-01 2005-01-27 Reed Carl J. System and method for message processing and routing
CN113064759A (zh) * 2021-04-02 2021-07-02 浙江永旗区块链科技有限公司 一种区块链数据回滚处理方法及其处理系统
CN113315750A (zh) * 2021-04-15 2021-08-27 新华三大数据技术有限公司 一种Kafka消息发布方法、装置及存储介质
CN113783931A (zh) * 2021-08-02 2021-12-10 中企云链(北京)金融信息服务有限公司 一种物联网数据聚合、分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050021836A1 (en) * 2003-05-01 2005-01-27 Reed Carl J. System and method for message processing and routing
CN113064759A (zh) * 2021-04-02 2021-07-02 浙江永旗区块链科技有限公司 一种区块链数据回滚处理方法及其处理系统
CN113315750A (zh) * 2021-04-15 2021-08-27 新华三大数据技术有限公司 一种Kafka消息发布方法、装置及存储介质
CN113783931A (zh) * 2021-08-02 2021-12-10 中企云链(北京)金融信息服务有限公司 一种物联网数据聚合、分析方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114978690A (zh) * 2022-05-23 2022-08-30 东南大学 一种针对多域数据汇聚的数据融合共享方法

Similar Documents

Publication Publication Date Title
US20130006949A1 (en) Systems and methods for data integrity checking
CN111049705A (zh) 一种监控分布式存储系统的方法及装置
CN112115026B (zh) 服务器集群监控方法、装置、电子设备及可读存储介质
CN107453889A (zh) 一种日志文件的上传方法及装置
CN110807064A (zh) Rac分布式数据库集群系统中的数据恢复装置
CN111027984B (zh) 业务订单的处理方法、系统、电子设备及计算机存储介质
CN114077518B (zh) 数据快照方法、装置、设备及存储介质
CN111010318A (zh) 发现物联网终端设备失联的方法、系统和设备影子服务器
CN112737800A (zh) 服务节点故障定位方法、调用链生成方法及服务器
CN111782431A (zh) 一种异常的处理方法、装置、终端及存储介质
CN114301658A (zh) 一种基于Kafka收集分布式系统数据链路的方法
CN111813348A (zh) 统一存储设备中的节点事件处理装置、方法、设备及介质
CN105022676B (zh) 一种内存数据库重做日志文件的恢复方法和装置
CN111130882A (zh) 网络设备的监控系统及方法
CN112579699A (zh) 业务数据处理链路的质量监控方法、系统及存储介质
CN116760745A (zh) 网络异常处理方法、装置、设备、存储介质和程序产品
CN116108005A (zh) 数据系统的数据可用性维护方法及装置
US10860781B2 (en) Event detection based on text streams
CN114022279B (zh) 一种业务数据纠错方法、装置、设备及可读存储介质
CN100576182C (zh) 计算机文件的实时监控系统和方法
CN111813607B (zh) 一种基于内存融合的数据库集群恢复日志处理系统
CN110362464B (zh) 软件分析方法及设备
CN114416560A (zh) 程序崩溃分析聚合方法和系统
CN113111009A (zh) 一种软件测试装置及测试方法
CN112819349A (zh) 应用于数据加工的监控方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20220408