CN111813848A

CN111813848A - 基于kafka日志中间件的数据实时采集分析方法

Info

Publication number: CN111813848A
Application number: CN202010649820.9A
Authority: CN
Inventors: 陈加勇
Original assignee: Jiangsu Juyi Network Technology Co ltd
Current assignee: Jiangsu Juyi Network Technology Co ltd
Priority date: 2020-07-08
Filing date: 2020-07-08
Publication date: 2020-10-23

Abstract

一种基于Kafka日志中间件的数据实时采集分析方法。解决了现有的数据采集分析方法存在准确性差，实时性差的问题。它访问‑匹配采集规则‑拦截‑区分应用渠道‑数据封装‑数据初步筛选‑数据重组，封装‑数据进入Kafka消息队列‑通过订阅提取数据‑区分渠道，解析数据‑封装数据，转为json‑数据持久化。本发明的有益效果是，基于Kafka技术在面向大并发、类型复杂的数据时，提升数据采集并发性、数据实时处理性能、入库准确性，运营人员利用大量数据的分析结果，加上企业对业务的见解和手段，使企业提升服务质量，提高运营效益。

Description

基于kafka日志中间件的数据实时采集分析方法

技术领域

本发明涉及一种大数据采集处理方法，具体涉及一种基于Kafka日志中间件的数据实时采集分析方法。

背景技术

在当今的数据时代，企业的IT基础架构会受到各种来源数据涌入的影响。最重要的是，企业决策者要求“实时”查看运营的数据，没有任何延迟时间，因此数据架构需要快速处理和显示数据。基于以上的描述，大数据利用其高效地数据处理和实时分析的性能，当仁不让地成为了企业数据服务建设的标准。数据实时分析采集技术，是解决系统业务决策的一种切实可行的方法。但是现有的数据采集分析方法存在准确性差，实时性差的问题。

发明内容

为解决背景技术中现有的数据采集分析方法存在准确性差，实时性差的问题，本发明提供一种基于Kafka日志中间件的数据实时采集分析方法。

本发明的技术方案是：一种基于Kafka日志中间件的数据实时采集分析方法，包括以下步骤：

（1）用户访问客户端，客户端对用户的行为进行收集然后批量发送到应用端；

（2）应用端内设置元数据，并以元数据作为匹配采集规则；

（3）应用端通过拦截用户的请求接口，对用户的行为信息进行采集；

（4）区分应用渠道，根据元数据利用Spark计算节点对采集的数据进行分析过滤、创建分隔符；并对数据进行归档、制定对应渠道号；

（5）统一准备推送至Kafka；

（6）Kafka从归档信息中心按应用端渠道对数据进行解析、封装；

（7）数据进入kafaka消息队列，将最终需要发送的消息放入本地阻塞队列中，通过线程，以异步的方式从阻塞队列中获取消息，发送到Kafka Broker；

（8）在Kafka消息队列中，系统为每一个场站指定1到n个主题，Kafka配备若干分区，以供采集数据缓存消息使用；当系统或网络出现异常时，通过数据补采机制，通过数据同步接口服务，从采集侧将缺失数据补采至数据采集中心；

（9）集中消费处理中心，实时从Kafka Broker获取数据；

（10）解析数据，按渠道归集数据；

（11）通过数据规范对数据进行处理，形成json字符串；

（12）将数据进行持久化，存入本地log文件中。

作为本发明的一种改进，在应用端的数据采集侧部署统一的数据模型，以该统一的数据模型作为元数据，所述的数据模型包括数据的标准结构、数据的标准操作流程、数据内容的约束。

作为本发明的进一步改进，所述的元数据分为业务元数据、技术元数据和操作元数据。

作为本发明的进一步改进，所述的元数据通过建立/变更分级审核制度、建立审批制度从而对于数据的采集和变更进行有效的链路管理。

作为本发明的进一步改进，所述的元数据随着业务的发展，系统的业务数据类型和业务规范不断变化，进行数据生命周期的管理。

作为本发明的进一步改进，所述的元数据根据业务系统实际运行情况、新的业务类型和规范、技术改进调整原有的数据存储迁移策略和访问方式，以满足业务系统发展及新的业务规范需求。

作为本发明的进一步改进，在步骤（4）时，应用端将用户的行为信息产生的日志，在应用端进行分类、筛选、归档。

作为本发明的进一步改进，所述的客户端包括APP和/或HTML5。

本发明的有益效果是，基于Kafka技术在面向大并发、类型复杂的数据时，提升数据采集并发性、数据实时处理性能、入库准确性，运营人员利用大量数据的分析结果，加上企业对业务的见解和手段，使企业提升服务质量，提高运营效益。

附图说明

附图1为本发明实施例的流程框图。

具体实施方式

下面结合附图对本发明实施例作进一步说明：

由图1所示，一种基于Kafka日志中间件的数据实时采集分析方法，包括以下步骤：

（2）应用端内设置元数据，并以元数据作为匹配采集规则；

（5）统一准备推送至Kafka；

（9）集中消费处理中心，实时从Kafka Broker获取数据；

（10）解析数据，按渠道归集数据；

（11）通过数据规范对数据进行处理，形成json字符串；

（12）将数据进行持久化，存入本地log文件中。

本发明的有益效果是，基于Kafka技术在面向大并发、类型复杂的数据时，提升数据采集并发性、数据实时处理性能、入库准确性，运营人员利用大量数据的分析结果，加上企业对业务的见解和手段，使企业提升服务质量，提高运营效益。kafka是一个分布式消息队列，具有高性能、持久化、多副本备份、横向扩展能力，其最大的特性就是可以实时的处理大量数据以满足各种数据服务需求的场景。具体的说，本地日志持久化文件命名规则确定：xxx-日期.log。

基于Kafka中间件搭建的数据实时采集分析框架，满足了系统底层数据存储的高吞吐、多并发需求，架构上还将通过建设统一的服务网关，向内部应用或第三方应用提供实时/离线数据能力，方便与系统模块进行标准化接口的数据对接采集。为了提高消息的可靠性，本专利中利用Kafka 通过多副本机制实现故障自动转移，当 Kafka 集群中出现传输失效时，副本机制可保证服务可用，系统会自动选择一个副本作为最新的主节点，然后通过主节点去实时采集数据，并将数据传输给其他的副本节点，保障系统框架的高可用。更具体的说，本专利采用多个Kafka部署分布式集群，利用轮询机制来防止出现单点故障。

在数据采集时，数据采集的关键，并不是采集频率有多高，采集内容的多少，而在于多渠道数据来源，最终入库时候的统一性。

在应用端的数据采集侧部署统一的数据模型，以该统一的数据模型作为元数据，所述的数据模型包括数据的标准结构、数据的标准操作流程、数据内容的约束。本发明利用合适、合理、合规的数据模型，能够有效提高数据的合理分布和使用。

所述的元数据分为业务元数据、技术元数据和操作元数据。具体的说，这三者之间具有一定的联系。

所述的元数据通过建立/变更分级审核制度、建立审批制度从而对于数据的采集和变更进行有效的链路管理。具体的说，所述的元数据随着业务的发展，系统的业务数据类型和业务规范不断变化，进行数据生命周期的管理。更具体的说，所述的元数据根据业务系统实际运行情况、新的业务类型和规范、技术改进调整原有的数据存储迁移策略和访问方式，以满足业务系统发展及新的业务规范需求。这样使得能建立数据质量管理体系，使得数据采集时准确性更高。

在步骤（4）时，应用端将用户的行为信息产生的日志，在应用端进行分类、筛选、归档。具体的说，日志数据定期清除备份，减少磁盘数据沉淀；根据数据需求制定分区计划，提升吞吐效率。

所述的客户端包括APP和/或HTML5。当然也可以采用其他的人机交互界面或系统实现。

在本发明的描述中，需要说明的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

各位技术人员须知：虽然本发明已按照上述具体实施方式做了描述，但是本发明的发明思想并不仅限于此发明，任何运用本发明思想的改装，都将纳入本专利专利权保护范围内。

Claims

1.一种基于Kafka日志中间件的数据实时采集分析方法，其特征在于: 包括以下步骤：

（2）应用端内设置元数据，并以元数据作为匹配采集规则；

（5）统一准备推送至Kafka；

（9）集中消费处理中心，实时从Kafka Broker获取数据；

（10）解析数据，按渠道归集数据；

（11）通过数据规范对数据进行处理，形成json字符串；

（12）将数据进行持久化，存入本地log文件中。

2.根据权利要求1所述的基于Kafka日志中间件的数据实时采集分析方法，其特征在于在应用端的数据采集侧部署统一的数据模型，以该统一的数据模型作为元数据，所述的数据模型包括数据的标准结构、数据的标准操作流程、数据内容的约束。

3.根据权利要求1或2所述的基于Kafka日志中间件的数据实时采集分析方法，其特征在于所述的元数据分为业务元数据、技术元数据和操作元数据。

4.根据权利要求1所述的基于Kafka日志中间件的数据实时采集分析方法，其特征在于所述的元数据通过建立/变更分级审核制度、建立审批制度从而对于数据的采集和变更进行有效的链路管理。

5.根据权利要求3所述的基于Kafka日志中间件的数据实时采集分析方法，其特征在于所述的元数据随着业务的发展，系统的业务数据类型和业务规范不断变化，进行数据生命周期的管理。

6.根据权利要求5所述的基于Kafka日志中间件的数据实时采集分析方法，其特征在于所述的元数据根据业务系统实际运行情况、新的业务类型和规范、技术改进调整原有的数据存储迁移策略和访问方式，以满足业务系统发展及新的业务规范需求。

7.根据权利要求1所述的基于Kafka日志中间件的数据实时采集分析方法，其特征在于在步骤（4）时，应用端将用户的行为信息产生的日志，在应用端进行分类、筛选、归档。

8.根据权利要求1所述的基于Kafka日志中间件的数据实时采集分析方法，其特征在于所述的客户端包括APP和/或HTML5。