CN109379401A - 基于Kafka的原始流量存储装置 - Google Patents

基于Kafka的原始流量存储装置 Download PDF

Info

Publication number
CN109379401A
CN109379401A CN201811041766.9A CN201811041766A CN109379401A CN 109379401 A CN109379401 A CN 109379401A CN 201811041766 A CN201811041766 A CN 201811041766A CN 109379401 A CN109379401 A CN 109379401A
Authority
CN
China
Prior art keywords
kafka
flow
storage device
cluster
tuple information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811041766.9A
Other languages
English (en)
Inventor
陈月冬
张言
吴飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Sinovatio Technology LLC
Original Assignee
Nanjing Sinovatio Technology LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Sinovatio Technology LLC filed Critical Nanjing Sinovatio Technology LLC
Priority to CN201811041766.9A priority Critical patent/CN109379401A/zh
Publication of CN109379401A publication Critical patent/CN109379401A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/22Parsing or analysis of headers

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于Kafka的原始流量存储装置,包括:帧接收模块:接收外部系统的流量包;帧解析模块:解析流量包并获取五元组信息,将五元组信息作为kafka message的key值,发往kafka集群;原始流量落地模块:采用spark streaming模块将kafka集群收到的数据批量存储到大数据存储组件。本发明在大于10gbps的网络流量下吞吐能力强,支持离线处理,支持模糊查询,查询速度快。用户能够实时地将流量包存储到大数据存储组件中,在此基础上实现实时的上层业务。

Description

基于Kafka的原始流量存储装置
技术领域
本发明涉及大数据技术及网络安全技术,特别是涉及原始流量存储装置。
背景技术
在互联网高速发展的今天,互联网安全成为一个重要的研究领域。新一代的网络安全技术与大数据技术结合,得到进一步发展,如基于大数据的网络威胁检测、网络安全预警、网络安全审计、深度包检测等,存储网络流量数据为应对0-day攻击、高级可持续攻击等提供数据基础。
除了传统采集设备本身存储空间有限,不适合长期存储海量原始流量数据以外,大多数现有网络流量存储、处理、查询均基于storm、HBase的流式框架实现,其不足之处在于:1)在大于10gbps的网络流量下,吞吐能力弱;2)不支持离线处理;3)查询项单一,不支持模糊查询,查询速度慢。
发明内容
发明目的:本发明的目的是提供一种基于Kafka的原始流量存储装置,它在大于10gbps的网络流量下吞吐能力强,支持离线处理,支持模糊查询,查询速度快。
技术方案:本发明所述的基于Kafka的原始流量存储装置,包括:
帧接收模块:接收外部系统的流量包;
帧解析模块:解析流量包并获取五元组信息,将五元组信息作为kafka message的key值,发往kafka集群;
原始流量落地模块:采用spark streaming模块将kafka集群收到的数据批量存储到大数据存储组件。
进一步,所述流量包和五元组信息均存储到impala集群中。根据五元组信息,能够找到对应的流量包。
进一步,按分区对impala集群添加索引。这样能够提高查询的效率。
进一步,所述帧接收模块采用分流器将流量包分发到各个网卡。这样能够减少网卡负载,避免丢包。
进一步,与五元组信息处于同一会话的流量包作为kafka message的value值,与key值一起发往kafka集群。这样能够提高kafka集群接入的吞吐量。
有益效果:本发明公开了一种基于Kafka的原始流量存储装置,它在大于10gbps的网络流量下吞吐能力强,支持离线处理,支持模糊查询,查询速度快。用户能够实时地将流量包存储到大数据存储组件中,在此基础上实现实时的上层业务。
附图说明
图1为本发明具体实施方式中原始流量存储装置的物理架构示意图;
图2为本发明具体实施方式中的数据处理流程图。
具体实施方式
本具体实施方式公开了一种基于Kafka的原始流量存储装置,包括:
帧接收模块:接收外部系统的流量包;采用分流器将流量包分发到各个网卡;
帧解析模块:按照schema模板和分隔符解析流量包并获取五元组信息,流量包和五元组信息均存储到impala集群中;将五元组信息作为kafka message的key值,与五元组信息处于同一会话的流量包作为kafka message的value值,与key值一起发往kafka集群;
原始流量落地模块:采用spark streaming模块将kafka集群收到的数据批量存储到大数据存储组件。其中,spark streaming模块是spark集群中的一个功能模块。
图1中示出了Kafka集群、spark集群、impala集群和索引集群。此外,还可将Kafka集群和spark集群、impala集群分开部署,impala集群和索引集群合设,这样性能更佳。按分区对impala集群添加索引。
图2示出了原始流量存储装置的数据处理流程。

Claims (5)

1.基于Kafka的原始流量存储装置,其特征在于:包括:
帧接收模块:接收外部系统的流量包;
帧解析模块:解析流量包并获取五元组信息,将五元组信息作为kafka message的key值,发往kafka集群;
原始流量落地模块:采用spark streaming模块将kafka集群收到的数据批量存储到大数据存储组件。
2.根据权利要求1所述的基于Kafka的原始流量存储装置,其特征在于:所述流量包和五元组信息均存储到impala集群中。
3.根据权利要求2所述的基于Kafka的原始流量存储装置,其特征在于:按分区对impala集群添加索引。
4.根据权利要求1所述的基于Kafka的原始流量存储装置,其特征在于:所述帧接收模块采用分流器将流量包分发到各个网卡。
5.根据权利要求1所述的基于Kafka的原始流量存储装置,其特征在于:与五元组信息处于同一会话的流量包作为kafka message的value值,与key值一起发往kafka集群。
CN201811041766.9A 2018-09-07 2018-09-07 基于Kafka的原始流量存储装置 Pending CN109379401A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811041766.9A CN109379401A (zh) 2018-09-07 2018-09-07 基于Kafka的原始流量存储装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811041766.9A CN109379401A (zh) 2018-09-07 2018-09-07 基于Kafka的原始流量存储装置

Publications (1)

Publication Number Publication Date
CN109379401A true CN109379401A (zh) 2019-02-22

Family

ID=65405363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811041766.9A Pending CN109379401A (zh) 2018-09-07 2018-09-07 基于Kafka的原始流量存储装置

Country Status (1)

Country Link
CN (1) CN109379401A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112506992A (zh) * 2020-12-04 2021-03-16 中国人寿保险股份有限公司 Kafka数据的模糊查询方法、装置、电子设备和存储介质
CN112783923A (zh) * 2020-11-25 2021-05-11 辽宁振兴银行股份有限公司 一种基于Spark和Impala高效采集数据库的实现方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105681397A (zh) * 2015-12-30 2016-06-15 曙光信息产业(北京)有限公司 一种网络流量数据存储方法及系统、查询方法及装置
US20160182614A1 (en) * 2014-12-23 2016-06-23 Cisco Technology, Inc. Elastic scale out policy service

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160182614A1 (en) * 2014-12-23 2016-06-23 Cisco Technology, Inc. Elastic scale out policy service
CN105681397A (zh) * 2015-12-30 2016-06-15 曙光信息产业(北京)有限公司 一种网络流量数据存储方法及系统、查询方法及装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112783923A (zh) * 2020-11-25 2021-05-11 辽宁振兴银行股份有限公司 一种基于Spark和Impala高效采集数据库的实现方法
CN112506992A (zh) * 2020-12-04 2021-03-16 中国人寿保险股份有限公司 Kafka数据的模糊查询方法、装置、电子设备和存储介质
CN112506992B (zh) * 2020-12-04 2024-04-16 中国人寿保险股份有限公司 Kafka数据的模糊查询方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN111131379B (zh) 一种分布式流量采集系统和边缘计算方法
WO2017067505A1 (zh) 网络扩容方法及装置
CN103870297B (zh) 云计算环境中虚拟机的性能数据采集系统和方法
CN104794170B (zh) 基于指纹多重哈希布隆过滤器的网络取证内容溯源方法和系统
CN105681397A (zh) 一种网络流量数据存储方法及系统、查询方法及装置
US10706062B2 (en) Method and system for exchanging data from a big data source to a big data target corresponding to components of the big data source
CN106972985B (zh) 加速dpi设备数据处理与转发的方法和dpi设备
CN111543038A (zh) 使用中间设备流拼接的网络流拼接
CN106101015A (zh) 一种移动互联网流量类别标记方法和系统
WO2011060377A1 (en) Method and apparatus for real time identification and recording of artifacts
CN103618733B (zh) 一种应用于移动互联网的数据过滤系统及方法
TWI698102B (zh) 用於行動通訊系統之威脅偵測系統及其中心裝置與本地裝置
CN110572441B (zh) 基于边缘计算的超大规模dpi数据处理系统及处理方法
CN109451486B (zh) 基于探测请求帧的WiFi采集系统及WiFi终端探测方法
CN102970244A (zh) 一种多cpu核间负载均衡的网络报文处理方法
CN109379401A (zh) 基于Kafka的原始流量存储装置
CN111557087A (zh) 使用业务流拼接发现中间设备
CN107517266A (zh) 一种基于分布式缓存的即时通讯方法
CN105337850A (zh) 一种物联网数据处理方法及物联网网关
CN104270371A (zh) 一种基于模糊逻辑的cdn缓存服务器选择方法
CN105763484A (zh) 基于流组合压缩的信令流汇聚装置及其方法
CN106100886A (zh) 一种一体化网络用户行为分析方法
CN114390033A (zh) 基于可扩展通信协议的回路状态巡检仪采集系统及方法
CN112687267A (zh) 一种物联网数据语义处理系统
Langlet et al. Direct Telemetry Access

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190222