CN109379401A - 基于Kafka的原始流量存储装置 - Google Patents
基于Kafka的原始流量存储装置 Download PDFInfo
- Publication number
- CN109379401A CN109379401A CN201811041766.9A CN201811041766A CN109379401A CN 109379401 A CN109379401 A CN 109379401A CN 201811041766 A CN201811041766 A CN 201811041766A CN 109379401 A CN109379401 A CN 109379401A
- Authority
- CN
- China
- Prior art keywords
- kafka
- flow
- storage device
- cluster
- tuple information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1097—Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/22—Parsing or analysis of headers
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于Kafka的原始流量存储装置,包括:帧接收模块:接收外部系统的流量包;帧解析模块:解析流量包并获取五元组信息,将五元组信息作为kafka message的key值,发往kafka集群;原始流量落地模块:采用spark streaming模块将kafka集群收到的数据批量存储到大数据存储组件。本发明在大于10gbps的网络流量下吞吐能力强,支持离线处理,支持模糊查询,查询速度快。用户能够实时地将流量包存储到大数据存储组件中,在此基础上实现实时的上层业务。
Description
技术领域
本发明涉及大数据技术及网络安全技术,特别是涉及原始流量存储装置。
背景技术
在互联网高速发展的今天,互联网安全成为一个重要的研究领域。新一代的网络安全技术与大数据技术结合,得到进一步发展,如基于大数据的网络威胁检测、网络安全预警、网络安全审计、深度包检测等,存储网络流量数据为应对0-day攻击、高级可持续攻击等提供数据基础。
除了传统采集设备本身存储空间有限,不适合长期存储海量原始流量数据以外,大多数现有网络流量存储、处理、查询均基于storm、HBase的流式框架实现,其不足之处在于:1)在大于10gbps的网络流量下,吞吐能力弱;2)不支持离线处理;3)查询项单一,不支持模糊查询,查询速度慢。
发明内容
发明目的:本发明的目的是提供一种基于Kafka的原始流量存储装置,它在大于10gbps的网络流量下吞吐能力强,支持离线处理,支持模糊查询,查询速度快。
技术方案:本发明所述的基于Kafka的原始流量存储装置,包括:
帧接收模块:接收外部系统的流量包;
帧解析模块:解析流量包并获取五元组信息,将五元组信息作为kafka message的key值,发往kafka集群;
原始流量落地模块:采用spark streaming模块将kafka集群收到的数据批量存储到大数据存储组件。
进一步,所述流量包和五元组信息均存储到impala集群中。根据五元组信息,能够找到对应的流量包。
进一步,按分区对impala集群添加索引。这样能够提高查询的效率。
进一步,所述帧接收模块采用分流器将流量包分发到各个网卡。这样能够减少网卡负载,避免丢包。
进一步,与五元组信息处于同一会话的流量包作为kafka message的value值,与key值一起发往kafka集群。这样能够提高kafka集群接入的吞吐量。
有益效果:本发明公开了一种基于Kafka的原始流量存储装置,它在大于10gbps的网络流量下吞吐能力强,支持离线处理,支持模糊查询,查询速度快。用户能够实时地将流量包存储到大数据存储组件中,在此基础上实现实时的上层业务。
附图说明
图1为本发明具体实施方式中原始流量存储装置的物理架构示意图;
图2为本发明具体实施方式中的数据处理流程图。
具体实施方式
本具体实施方式公开了一种基于Kafka的原始流量存储装置,包括:
帧接收模块:接收外部系统的流量包;采用分流器将流量包分发到各个网卡;
帧解析模块:按照schema模板和分隔符解析流量包并获取五元组信息,流量包和五元组信息均存储到impala集群中;将五元组信息作为kafka message的key值,与五元组信息处于同一会话的流量包作为kafka message的value值,与key值一起发往kafka集群;
原始流量落地模块:采用spark streaming模块将kafka集群收到的数据批量存储到大数据存储组件。其中,spark streaming模块是spark集群中的一个功能模块。
图1中示出了Kafka集群、spark集群、impala集群和索引集群。此外,还可将Kafka集群和spark集群、impala集群分开部署,impala集群和索引集群合设,这样性能更佳。按分区对impala集群添加索引。
图2示出了原始流量存储装置的数据处理流程。
Claims (5)
1.基于Kafka的原始流量存储装置,其特征在于:包括:
帧接收模块:接收外部系统的流量包;
帧解析模块:解析流量包并获取五元组信息,将五元组信息作为kafka message的key值,发往kafka集群;
原始流量落地模块:采用spark streaming模块将kafka集群收到的数据批量存储到大数据存储组件。
2.根据权利要求1所述的基于Kafka的原始流量存储装置,其特征在于:所述流量包和五元组信息均存储到impala集群中。
3.根据权利要求2所述的基于Kafka的原始流量存储装置,其特征在于:按分区对impala集群添加索引。
4.根据权利要求1所述的基于Kafka的原始流量存储装置,其特征在于:所述帧接收模块采用分流器将流量包分发到各个网卡。
5.根据权利要求1所述的基于Kafka的原始流量存储装置,其特征在于:与五元组信息处于同一会话的流量包作为kafka message的value值,与key值一起发往kafka集群。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811041766.9A CN109379401A (zh) | 2018-09-07 | 2018-09-07 | 基于Kafka的原始流量存储装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811041766.9A CN109379401A (zh) | 2018-09-07 | 2018-09-07 | 基于Kafka的原始流量存储装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109379401A true CN109379401A (zh) | 2019-02-22 |
Family
ID=65405363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811041766.9A Pending CN109379401A (zh) | 2018-09-07 | 2018-09-07 | 基于Kafka的原始流量存储装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109379401A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112506992A (zh) * | 2020-12-04 | 2021-03-16 | 中国人寿保险股份有限公司 | Kafka数据的模糊查询方法、装置、电子设备和存储介质 |
CN112783923A (zh) * | 2020-11-25 | 2021-05-11 | 辽宁振兴银行股份有限公司 | 一种基于Spark和Impala高效采集数据库的实现方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105681397A (zh) * | 2015-12-30 | 2016-06-15 | 曙光信息产业(北京)有限公司 | 一种网络流量数据存储方法及系统、查询方法及装置 |
US20160182614A1 (en) * | 2014-12-23 | 2016-06-23 | Cisco Technology, Inc. | Elastic scale out policy service |
-
2018
- 2018-09-07 CN CN201811041766.9A patent/CN109379401A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160182614A1 (en) * | 2014-12-23 | 2016-06-23 | Cisco Technology, Inc. | Elastic scale out policy service |
CN105681397A (zh) * | 2015-12-30 | 2016-06-15 | 曙光信息产业(北京)有限公司 | 一种网络流量数据存储方法及系统、查询方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112783923A (zh) * | 2020-11-25 | 2021-05-11 | 辽宁振兴银行股份有限公司 | 一种基于Spark和Impala高效采集数据库的实现方法 |
CN112506992A (zh) * | 2020-12-04 | 2021-03-16 | 中国人寿保险股份有限公司 | Kafka数据的模糊查询方法、装置、电子设备和存储介质 |
CN112506992B (zh) * | 2020-12-04 | 2024-04-16 | 中国人寿保险股份有限公司 | Kafka数据的模糊查询方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111131379B (zh) | 一种分布式流量采集系统和边缘计算方法 | |
WO2017067505A1 (zh) | 网络扩容方法及装置 | |
CN103870297B (zh) | 云计算环境中虚拟机的性能数据采集系统和方法 | |
CN104794170B (zh) | 基于指纹多重哈希布隆过滤器的网络取证内容溯源方法和系统 | |
CN105681397A (zh) | 一种网络流量数据存储方法及系统、查询方法及装置 | |
CN111543038A (zh) | 使用中间设备流拼接的网络流拼接 | |
US10706062B2 (en) | Method and system for exchanging data from a big data source to a big data target corresponding to components of the big data source | |
US20110125748A1 (en) | Method and Apparatus for Real Time Identification and Recording of Artifacts | |
CN106972985B (zh) | 加速dpi设备数据处理与转发的方法和dpi设备 | |
CN106101015A (zh) | 一种移动互联网流量类别标记方法和系统 | |
CN105024971A (zh) | 一种通信协议转换方法及装置 | |
CN103618733A (zh) | 一种应用于移动互联网的数据过滤系统及方法 | |
TWI698102B (zh) | 用於行動通訊系統之威脅偵測系統及其中心裝置與本地裝置 | |
CN102970244A (zh) | 一种多cpu核间负载均衡的网络报文处理方法 | |
CN109379401A (zh) | 基于Kafka的原始流量存储装置 | |
CN111557087A (zh) | 使用业务流拼接发现中间设备 | |
CN107517266A (zh) | 一种基于分布式缓存的即时通讯方法 | |
CN105337850A (zh) | 一种物联网数据处理方法及物联网网关 | |
CN108418871A (zh) | 一种云存储性能优化方法和系统 | |
CN105763484A (zh) | 基于流组合压缩的信令流汇聚装置及其方法 | |
Langlet et al. | Direct Telemetry Access | |
CN106100886A (zh) | 一种一体化网络用户行为分析方法 | |
CN112687267A (zh) | 一种物联网数据语义处理系统 | |
CN203086607U (zh) | 一种远程监控系统 | |
CN204667397U (zh) | 一种适用于网络用户行为信息审计的流量采集设备的机芯电路 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190222 |