CN111813848A - 基于kafka日志中间件的数据实时采集分析方法 - Google Patents
基于kafka日志中间件的数据实时采集分析方法 Download PDFInfo
- Publication number
- CN111813848A CN111813848A CN202010649820.9A CN202010649820A CN111813848A CN 111813848 A CN111813848 A CN 111813848A CN 202010649820 A CN202010649820 A CN 202010649820A CN 111813848 A CN111813848 A CN 111813848A
- Authority
- CN
- China
- Prior art keywords
- data
- kafka
- metadata
- real
- middleware
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 17
- 238000000034 method Methods 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000004806 packaging method and process Methods 0.000 claims abstract description 6
- 230000006399 behavior Effects 0.000 claims description 12
- 238000013499 data model Methods 0.000 claims description 10
- 230000006872 improvement Effects 0.000 claims description 10
- 230000000903 blocking effect Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000011161 development Methods 0.000 claims description 5
- 230000002085 persistent effect Effects 0.000 claims description 5
- 238000013500 data storage Methods 0.000 claims description 4
- 238000005192 partition Methods 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000007726 management method Methods 0.000 claims description 3
- 230000005012 migration Effects 0.000 claims description 3
- 238000013508 migration Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 claims 1
- 238000013480 data collection Methods 0.000 claims 1
- 230000008901 benefit Effects 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000012216 screening Methods 0.000 abstract description 2
- 230000002688 persistence Effects 0.000 abstract 1
- 230000018109 developmental process Effects 0.000 description 3
- 238000010223 real-time analysis Methods 0.000 description 2
- 238000003326 Quality management system Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004941 influx Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000013049 sediment Substances 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/252—Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
Abstract
一种基于Kafka日志中间件的数据实时采集分析方法。解决了现有的数据采集分析方法存在准确性差,实时性差的问题。它访问‑匹配采集规则‑拦截‑区分应用渠道‑数据封装‑数据初步筛选‑数据重组,封装‑数据进入Kafka消息队列‑通过订阅提取数据‑区分渠道,解析数据‑封装数据,转为json‑数据持久化。本发明的有益效果是,基于Kafka技术在面向大并发、类型复杂的数据时,提升数据采集并发性、数据实时处理性能、入库准确性,运营人员利用大量数据的分析结果,加上企业对业务的见解和手段,使企业提升服务质量,提高运营效益。
Description
技术领域
本发明涉及一种大数据采集处理方法,具体涉及一种基于Kafka日志中间件的数据实时采集分析方法。
背景技术
在当今的数据时代,企业的IT基础架构会受到各种来源数据涌入的影响。最重要的是,企业决策者要求“实时”查看运营的数据,没有任何延迟时间,因此数据架构需要快速处理和显示数据。基于以上的描述,大数据利用其高效地数据处理和实时分析的性能,当仁不让地成为了企业数据服务建设的标准。数据实时分析采集技术,是解决系统业务决策的一种切实可行的方法。但是现有的数据采集分析方法存在准确性差,实时性差的问题。
发明内容
为解决背景技术中现有的数据采集分析方法存在准确性差,实时性差的问题,本发明提供一种基于Kafka日志中间件的数据实时采集分析方法。
本发明的技术方案是:一种基于Kafka日志中间件的数据实时采集分析方法,包括以下步骤:
(1)用户访问客户端,客户端对用户的行为进行收集然后批量发送到应用端;
(2)应用端内设置元数据,并以元数据作为匹配采集规则;
(3)应用端通过拦截用户的请求接口,对用户的行为信息进行采集;
(4)区分应用渠道,根据元数据利用Spark计算节点对采集的数据进行分析过滤、创建分隔符;并对数据进行归档、制定对应渠道号;
(5)统一准备推送至Kafka;
(6)Kafka从归档信息中心按应用端渠道对数据进行解析、封装;
(7)数据进入kafaka消息队列,将最终需要发送的消息放入本地阻塞队列中,通过线程,以异步的方式从阻塞队列中获取消息,发送到Kafka Broker;
(8)在Kafka消息队列中,系统为每一个场站指定1到n个主题,Kafka配备若干分区,以供采集数据缓存消息使用;当系统或网络出现异常时,通过数据补采机制,通过数据同步接口服务,从采集侧将缺失数据补采至数据采集中心;
(9)集中消费处理中心,实时从Kafka Broker获取数据;
(10) 解析数据,按渠道归集数据;
(11) 通过数据规范对数据进行处理,形成json字符串;
(12) 将数据进行持久化,存入本地log文件中。
作为本发明的一种改进,在应用端的数据采集侧部署统一的数据模型,以该统一的数据模型作为元数据,所述的数据模型包括数据的标准结构、数据的标准操作流程、数据内容的约束。
作为本发明的进一步改进,所述的元数据分为业务元数据、技术元数据和操作元数据。
作为本发明的进一步改进,所述的元数据通过建立/变更分级审核制度、建立审批制度从而对于数据的采集和变更进行有效的链路管理。
作为本发明的进一步改进,所述的元数据随着业务的发展,系统的业务数据类型和业务规范不断变化,进行数据生命周期的管理。
作为本发明的进一步改进,所述的元数据根据业务系统实际运行情况、新的业务类型和规范、技术改进调整原有的数据存储迁移策略和访问方式,以满足业务系统发展及新的业务规范需求。
作为本发明的进一步改进,在步骤(4)时,应用端将用户的行为信息产生的日志,在应用端进行分类、筛选、归档。
作为本发明的进一步改进,所述的客户端包括APP和/或HTML5。
本发明的有益效果是,基于Kafka技术在面向大并发、类型复杂的数据时,提升数据采集并发性、数据实时处理性能、入库准确性,运营人员利用大量数据的分析结果,加上企业对业务的见解和手段,使企业提升服务质量,提高运营效益。
附图说明
附图1为本发明实施例的流程框图。
具体实施方式
下面结合附图对本发明实施例作进一步说明:
由图1所示,一种基于Kafka日志中间件的数据实时采集分析方法,包括以下步骤:
(1)用户访问客户端,客户端对用户的行为进行收集然后批量发送到应用端;
(2)应用端内设置元数据,并以元数据作为匹配采集规则;
(3)应用端通过拦截用户的请求接口,对用户的行为信息进行采集;
(4)区分应用渠道,根据元数据利用Spark计算节点对采集的数据进行分析过滤、创建分隔符;并对数据进行归档、制定对应渠道号;
(5)统一准备推送至Kafka;
(6)Kafka从归档信息中心按应用端渠道对数据进行解析、封装;
(7)数据进入kafaka消息队列,将最终需要发送的消息放入本地阻塞队列中,通过线程,以异步的方式从阻塞队列中获取消息,发送到Kafka Broker;
(8)在Kafka消息队列中,系统为每一个场站指定1到n个主题,Kafka配备若干分区,以供采集数据缓存消息使用;当系统或网络出现异常时,通过数据补采机制,通过数据同步接口服务,从采集侧将缺失数据补采至数据采集中心;
(9)集中消费处理中心,实时从Kafka Broker获取数据;
(10)解析数据,按渠道归集数据;
(11)通过数据规范对数据进行处理,形成json字符串;
(12)将数据进行持久化,存入本地log文件中。
本发明的有益效果是,基于Kafka技术在面向大并发、类型复杂的数据时,提升数据采集并发性、数据实时处理性能、入库准确性,运营人员利用大量数据的分析结果,加上企业对业务的见解和手段,使企业提升服务质量,提高运营效益。kafka是一个分布式消息队列,具有高性能、持久化、多副本备份、横向扩展能力,其最大的特性就是可以实时的处理大量数据以满足各种数据服务需求的场景。具体的说,本地日志持久化文件命名规则确定:xxx-日期.log。
基于Kafka中间件搭建的数据实时采集分析框架,满足了系统底层数据存储的高吞吐、多并发需求,架构上还将通过建设统一的服务网关,向内部应用或第三方应用提供实时/离线数据能力,方便与系统模块进行标准化接口的数据对接采集。为了提高消息的可靠性,本专利中利用Kafka 通过多副本机制实现故障自动转移,当 Kafka 集群中出现传输失效时,副本机制可保证服务可用,系统会自动选择一个副本作为最新的主节点,然后通过主节点去实时采集数据,并将数据传输给其他的副本节点,保障系统框架的高可用。更具体的说,本专利采用多个Kafka部署分布式集群,利用轮询机制来防止出现单点故障。
在数据采集时,数据采集的关键,并不是采集频率有多高,采集内容的多少,而在于多渠道数据来源,最终入库时候的统一性。
在应用端的数据采集侧部署统一的数据模型,以该统一的数据模型作为元数据,所述的数据模型包括数据的标准结构、数据的标准操作流程、数据内容的约束。本发明利用合适、合理、合规的数据模型,能够有效提高数据的合理分布和使用。
所述的元数据分为业务元数据、技术元数据和操作元数据。具体的说,这三者之间具有一定的联系。
所述的元数据通过建立/变更分级审核制度、建立审批制度从而对于数据的采集和变更进行有效的链路管理。具体的说,所述的元数据随着业务的发展,系统的业务数据类型和业务规范不断变化,进行数据生命周期的管理。更具体的说,所述的元数据根据业务系统实际运行情况、新的业务类型和规范、技术改进调整原有的数据存储迁移策略和访问方式,以满足业务系统发展及新的业务规范需求。这样使得能建立数据质量管理体系,使得数据采集时准确性更高。
在步骤(4)时,应用端将用户的行为信息产生的日志,在应用端进行分类、筛选、归档。具体的说,日志数据定期清除备份,减少磁盘数据沉淀;根据数据需求制定分区计划,提升吞吐效率。
所述的客户端包括APP和/或HTML5。当然也可以采用其他的人机交互界面或系统实现。
在本发明的描述中,需要说明的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
各位技术人员须知:虽然本发明已按照上述具体实施方式做了描述,但是本发明的发明思想并不仅限于此发明,任何运用本发明思想的改装,都将纳入本专利专利权保护范围内。
Claims (8)
1.一种基于Kafka日志中间件的数据实时采集分析方法,其特征在于: 包括以下步骤:
(1)用户访问客户端,客户端对用户的行为进行收集然后批量发送到应用端;
(2)应用端内设置元数据,并以元数据作为匹配采集规则;
(3)应用端通过拦截用户的请求接口,对用户的行为信息进行采集;
(4)区分应用渠道,根据元数据利用Spark计算节点对采集的数据进行分析过滤、创建分隔符;并对数据进行归档、制定对应渠道号;
(5)统一准备推送至Kafka;
(6)Kafka从归档信息中心按应用端渠道对数据进行解析、封装;
(7)数据进入kafaka消息队列,将最终需要发送的消息放入本地阻塞队列中,通过线程,以异步的方式从阻塞队列中获取消息,发送到Kafka Broker;
(8)在Kafka消息队列中,系统为每一个场站指定1到n个主题,Kafka配备若干分区,以供采集数据缓存消息使用;当系统或网络出现异常时,通过数据补采机制,通过数据同步接口服务,从采集侧将缺失数据补采至数据采集中心;
(9)集中消费处理中心,实时从Kafka Broker获取数据;
(10)解析数据,按渠道归集数据;
(11)通过数据规范对数据进行处理,形成json字符串;
(12)将数据进行持久化,存入本地log文件中。
2.根据权利要求1所述的基于Kafka日志中间件的数据实时采集分析方法,其特征在于在应用端的数据采集侧部署统一的数据模型,以该统一的数据模型作为元数据,所述的数据模型包括数据的标准结构、数据的标准操作流程、数据内容的约束。
3.根据权利要求1或2所述的基于Kafka日志中间件的数据实时采集分析方法,其特征在于所述的元数据分为业务元数据、技术元数据和操作元数据。
4.根据权利要求1所述的基于Kafka日志中间件的数据实时采集分析方法,其特征在于所述的元数据通过建立/变更分级审核制度、建立审批制度从而对于数据的采集和变更进行有效的链路管理。
5.根据权利要求3所述的基于Kafka日志中间件的数据实时采集分析方法,其特征在于所述的元数据随着业务的发展,系统的业务数据类型和业务规范不断变化,进行数据生命周期的管理。
6.根据权利要求5所述的基于Kafka日志中间件的数据实时采集分析方法,其特征在于所述的元数据根据业务系统实际运行情况、新的业务类型和规范、技术改进调整原有的数据存储迁移策略和访问方式,以满足业务系统发展及新的业务规范需求。
7.根据权利要求1所述的基于Kafka日志中间件的数据实时采集分析方法,其特征在于在步骤(4)时,应用端将用户的行为信息产生的日志,在应用端进行分类、筛选、归档。
8.根据权利要求1所述的基于Kafka日志中间件的数据实时采集分析方法,其特征在于所述的客户端包括APP和/或HTML5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010649820.9A CN111813848A (zh) | 2020-07-08 | 2020-07-08 | 基于kafka日志中间件的数据实时采集分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010649820.9A CN111813848A (zh) | 2020-07-08 | 2020-07-08 | 基于kafka日志中间件的数据实时采集分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111813848A true CN111813848A (zh) | 2020-10-23 |
Family
ID=72841967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010649820.9A Withdrawn CN111813848A (zh) | 2020-07-08 | 2020-07-08 | 基于kafka日志中间件的数据实时采集分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111813848A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256636A (zh) * | 2020-11-10 | 2021-01-22 | 国网湖南省电力有限公司 | 面向移动应用app的数据采集系统 |
CN112506992A (zh) * | 2020-12-04 | 2021-03-16 | 中国人寿保险股份有限公司 | Kafka数据的模糊查询方法、装置、电子设备和存储介质 |
CN113010565A (zh) * | 2021-03-25 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 基于服务器集群的服务器实时数据处理方法及系统 |
CN113064891A (zh) * | 2021-04-09 | 2021-07-02 | 中电科数字科技(集团)有限公司 | 物联时空数据计算与管理系统及方法 |
CN113268642A (zh) * | 2021-06-25 | 2021-08-17 | 浪潮云信息技术股份公司 | 一种实现物联设备数据精细化存取的方法 |
-
2020
- 2020-07-08 CN CN202010649820.9A patent/CN111813848A/zh not_active Withdrawn
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256636A (zh) * | 2020-11-10 | 2021-01-22 | 国网湖南省电力有限公司 | 面向移动应用app的数据采集系统 |
CN112506992A (zh) * | 2020-12-04 | 2021-03-16 | 中国人寿保险股份有限公司 | Kafka数据的模糊查询方法、装置、电子设备和存储介质 |
CN112506992B (zh) * | 2020-12-04 | 2024-04-16 | 中国人寿保险股份有限公司 | Kafka数据的模糊查询方法、装置、电子设备和存储介质 |
CN113010565A (zh) * | 2021-03-25 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 基于服务器集群的服务器实时数据处理方法及系统 |
CN113010565B (zh) * | 2021-03-25 | 2023-07-18 | 腾讯科技(深圳)有限公司 | 基于服务器集群的服务器实时数据处理方法及系统 |
CN113064891A (zh) * | 2021-04-09 | 2021-07-02 | 中电科数字科技(集团)有限公司 | 物联时空数据计算与管理系统及方法 |
CN113268642A (zh) * | 2021-06-25 | 2021-08-17 | 浪潮云信息技术股份公司 | 一种实现物联设备数据精细化存取的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111813848A (zh) | 基于kafka日志中间件的数据实时采集分析方法 | |
CN107302466B (zh) | 一种动环监控系统大数据分析平台及方法 | |
CN110413599A (zh) | 数据实时处理与存储系统及方法 | |
CN111432295A (zh) | 一种基于分布式技术的用电信息采集主站系统 | |
CN112564967A (zh) | 基于eBPF的云服务拓扑自发现方法及系统、电子设备、存储介质 | |
CN102694868A (zh) | 一种集群系统实现及任务动态分配方法 | |
CN108924007B (zh) | 通信运营信息的大数据采集及存储系统和方法 | |
CN111464585B (zh) | 一种基于多云的高可用cdn服务系统 | |
CN112865311B (zh) | 一种电力系统消息总线监视方法和装置 | |
CN110784539A (zh) | 一种基于云计算的数据管理系统及方法 | |
CN111404932A (zh) | 一种医疗机构系统接入智慧医疗云服务平台的方法 | |
CN113937894A (zh) | 一种基于云边协同的电力智能终端管理系统及方法 | |
CN110505307B (zh) | 一种网间交通流数据的交换方法及系统 | |
CN111460030A (zh) | 基于ZooKeeper的分布式数据交换系统 | |
CN109474458B (zh) | 区域医疗信息平台接入本地医疗信息系统的方法 | |
CN113364651A (zh) | 一种新型分布式网络流量采集方法 | |
CN105515192A (zh) | 输变电设备负荷数据接入电力系统的监控预警系统及方法 | |
CN109241154A (zh) | 一种分布式数据库监控分析方法及系统 | |
CN116226067A (zh) | 日志管理方法、日志管理装置、处理器和日志平台 | |
CN112417050A (zh) | 数据同步方法和装置、系统、存储介质及电子装置 | |
CN115866059B (zh) | 一种区块链节点调度方法和装置 | |
CN115022402A (zh) | 一种基于一栈式集成技术的agent采集方法及系统 | |
CN109120443A (zh) | 一种网络附加存储nas设备的管理方法和装置 | |
CN114579545A (zh) | 一种基于地铁车站系统的数仓数据查询方法及装置 | |
CN112966051A (zh) | 一种基于分布式的数据交换系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201023 |