CN105631026A - 一种安全数据分析系统 - Google Patents

一种安全数据分析系统 Download PDF

Info

Publication number
CN105631026A
CN105631026A CN201511021170.9A CN201511021170A CN105631026A CN 105631026 A CN105631026 A CN 105631026A CN 201511021170 A CN201511021170 A CN 201511021170A CN 105631026 A CN105631026 A CN 105631026A
Authority
CN
China
Prior art keywords
data
daily record
record data
module
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201511021170.9A
Other languages
English (en)
Other versions
CN105631026B (zh
Inventor
王颖慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201511021170.9A priority Critical patent/CN105631026B/zh
Publication of CN105631026A publication Critical patent/CN105631026A/zh
Application granted granted Critical
Publication of CN105631026B publication Critical patent/CN105631026B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database

Abstract

本申请实施例提供了一种安全数据分析系统,包括:Flume日志数据收集模块,用于获取日志数据,对日志数据进行预处理;Kafka日志数据分发集群,用于匹配Flume日志数据收集模块与Storm日志数据分析集群之间的数据处理速度;Storm日志数据分析集群,用于对日志数据进行安全分析处理;Elasticsearch数据存储与使用集群,用于存储经安全分析处理之后得到的安全分析数据,以及提供对安全分析数据的查询功能。本申请实施例提供一种适用于云端的安全数据分析系统,使安全数据分析能在云端实现,不需要侵入目标系统,只需接收目标系统投递的日志数据并对数据进行分析,安全分析之后的数据,在云端供用户查询,使得企业能够方便地对大规模的日志数据进行安全分析。

Description

一种安全数据分析系统
技术领域
本申请涉及数据安全技术领域,特别是涉及一种安全数据分析系统。
背景技术
企业定期收集TB(Terabyte,太字节)级的信息安全数据(如,网络事件、软件应用程序事件,以及人员活动事件),用来作合规性、事后取证分析、预警等企业事务操作。随着企业启用的事件记录源越来越多,雇用的员工越来越多,部署的设备越来越多,运行的软件越来越多,信息安全数据还会继续增长。
在现有的信息安全分析处理中,通常使用特定分析软件,或安全分析人员自己编写的临时的,零散的处理脚本进行分析处理。但是目前的分析软件使用自身提供的存储载体来存储数据,造成数据孤岛问题,如ossec(一个开源的多平台的入侵检测系统)的数据默认只能存mysql(一个关系型数据库管理系统);而安全分析人员自己编写的临时/零散的处理脚本,往往无法应对大规模数据,产生误报,预警延迟等问题,甚至是根本无法处理完这些数据,因此安全功效得不到保证。
随着企业向云架构迁移,并且收集的数据越来越多,所以适时需要一种新的安全数据分析的装置来解决这样的问题。
发明内容
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种安全数据分析系统。
为了解决上述问题,本申请实施例公开了一种安全数据分析系统,包括:
Flume日志数据收集模块,用于获取日志数据,对所述日志数据进行预处理,以及将经过初步处理的日志数据发送到Kafka日志数据分发集群;
Kafka日志数据分发集群,用于接收所述Flume日志数据收集模块发送的日志数据,将所述日志数据发送至Storm日志数据分析集群,以及匹配所述Flume日志数据收集模块与所述Storm日志数据分析集群之间的数据处理速度;
Storm日志数据分析集群,用于接收所述Kafka日志数据分发集群发送的日志数据,对所述日志数据进行安全分析处理,以及将经安全分析处理之后得到的安全分析数据发送至Elasticsearch数据存储与使用集群;
Elasticsearch数据存储与使用集群,用于存储所述经安全分析处理之后得到的安全分析数据,以及提供对所述安全分析数据的查询功能。
优选的,所述Flume日志数据收集模块包括:
Source日志获取子模块,用于获取日志数据;
Sink输出子模块,用于输出日志数据;
多个Channel解耦子模块,用于匹配所述Source日志获取子模块的日志数据获取速度与所述Sink输出子模块的日志数据输出速度。
优选的,所述日志数据包括:Ossec日志数据、Syslog日志数据;所述Flume日志数据收集模块包括:
Ossec日志数据预处理子模块,用于对Ossec日志数据中进行合并处理;
Syslog日志数据预处理子模块,用于对Syslog日志数据进行分类,将分类后的数据分发到不同的Channel解耦子模块中。
优选的,所述Flume日志数据收集模块还进一步包括:
通道监控子模块,用于监控所述多个Channel解耦子模块是否堵塞,当某一Channel解耦子模块堵塞时调整所述Source日志获取子模块向堵塞的Channel解耦子模块写入日志数据的速度。
优选的,所述Kafka日志数据分发集群包括:
多个Topic主题模块,用于分发不同分类的日志数据;
所述Topic主题模块进一步包括:
多个Partition分区子模块,用于对日志数据进行数据冗余,提升后续处理数据的并发数。
优选的,所述Flume日志数据收集模块进一步包括:
Kafka转发子模块,用于将日志数据输出到指定的Topic主题模块中指定的Partition分区子模块。
优选的,所述Storm日志数据分析集群包括:
多个Topology分析模块,用于对不同分类的日志数据进行分析处理;
所述Topology分析模块进一步包括:
Spout数据获取子模块,用于获取日志数据;
一个或多个Bolt逻辑子模块,用于对日志数据进行逻辑分析。
优选的,所述Spout数据获取子模块以及Bolt逻辑子模块由多个Executors逻辑执行单元组成;
所述Storm日志数据分析集群还进一步包括:
Executors配比监控模块,用于监控同一个Topology分析模块中,Spout数据获取子模块的Executors逻辑执行单元与Bolt逻辑子模块的Executors逻辑执行单元之间的数量配比是否合适;
记录调用模块,用于在当前数量配比合适时,记录当前Executors逻辑执行单元的数量配比,在重启Topology分析模块时,直接使用记录的Executors逻辑执行单元的数量配比;
Executors配比调整模块,用于在当前Executors逻辑执行单元数量配比不合适时,调整Executors逻辑执行单元的数量配比。
优选的,所述Storm日志数据分析集群还进一步包括:
节点监控模块,用于监控storm的关键进程,当关键进程异常时通知管理员进行人为检查;所述关键进程包括:nimbus任务分配进程,以及supervisor监听进程。
优选的,所述Elasticsearch数据存储与使用集群包括:
节点监控模块,用于监控用于接收Topology分析模块传送的数据的节点接口,当某一节点接口的进程消失时,重启该节点接口。
优选的,所述Elasticsearch数据存储与使用集群包括:
展现模块,用于展现经安全分析处理之后得到的安全分析数据。
本申请实施例包括以下优点:
本申请实施例通过Flume日志数据收集模块、Kafka日志数据分发集群、Storm日志数据分析集群以及Elasticsearch数据存储与使用集群构建了一种适用于云端的安全数据分析系统,使安全数据分析能在云端实现,不需要侵入目标系统,只需接收目标系统投递的日志数据并对数据进行分析,安全分析之后的数据,在云端供用户查询,使得企业能够方便地对大规模的日志数据进行安全分析。
本申请实施例在Flume日志数据收集模块、Kafka日志数据分发集群、Storm日志数据分析集群以及Elasticsearch数据存储与使用集群都设置有监控层,监控模块或集群内部的处理进程。
附图说明
图1是本申请的一种安全数据分析系统实施例的结构框图;
图2是本申请实施例中Flume日志数据收集模块的结构框图;
图3是本申请实施例中Kafka日志数据分发集群的结构框图;
图4是本申请实施例中Storm日志数据分析集群的结构框图;
图5是本申请一种安全数据分析系统实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请实施例的核心构思之一在于,本申请实施例通过Flume日志数据收集模块、Kafka日志数据分发集群、Storm日志数据分析集群以及Elasticsearch数据存储与使用集群构建了一种适用于云端的安全数据分析系统。
参照图1,示出了本申请的一种安全数据分析系统实施例的结构框图,具体可以包括如下模块:
Flume日志数据收集模块11,用于获取日志数据,对所述日志数据进行预处理,以及将经过初步处理的日志数据发送到Kafka日志数据分发集群;
Flume是一个分布式数据采集组件,本申请实施例通过对Flume数据采集组件进行二次开发构建了Flume日志数据收集模块11,Flume日志数据收集模块11包括多个数据采集点,可以接收多个企业的日志管理系统投递的日志数据。
Kafka日志数据分发集群12,用于接收所述Flume日志数据收集模块发送的日志数据,将所述日志数据发送至Storm日志数据分析集群13,以及匹配所述Flume日志数据收集模块11与所述Storm日志数据分析集群13之间的数据处理速度;
Kafka是一个分布式的、可水平扩展、高吞吐率、分区的和可复制的信息发布系统,本申请实施例通过对Kafka进行二次开发构建了Kafka日志数据分发集群12,Kafka日志数据分发集群12包括多个分区,每个分区分别处理不同分类的日志数据,使用Kafka构建Kafka日志数据分发集群12的目的在于,匹配Flume日志数据收集模块11与Storm日志数据分析集群13之间的数据处理速度。
Storm日志数据分析集群13,用于接收所述Kafka日志数据分发集群发送的日志数据,对所述日志数据进行安全分析处理,以及将经安全分析处理之后得到的安全分析数据发送至Elasticsearch数据存储与使用集群14;
Storm是一个分布式的、容错的实时计算系统,本申请实施例通过对Storm进行二次开发构建了Storm日志数据分析集群13,Storm日志数据分析集群13中包括多个用于分析不同分类日志数据的计算拓扑Topologiey。
Elasticsearch数据存储与使用集群14,用于存储所述经安全分析处理之后得到的安全分析数据,以及提供对所述安全分析数据的查询功能。
Elasticsearch是一个快速高效的分布式检索引擎,本申请实施例通过对Elasticsearch进行二次开发构建了Elasticsearch数据存储与使用集群14,Elasticsearch数据存储与使用集群14包括了多个数据节点,数据节点用于接收Storm日志数据分析集群13中的计算拓扑Topologiey传输的数据。
作为本申请实施例的一种优选示例,所述Elasticsearch数据存储与使用集群14包括:
展现模块,用于展现经安全分析处理之后得到的安全分析数据。
本申请实施例通过Flume日志数据收集模块、Kafka日志数据分发集群、Storm日志数据分析集群以及Elasticsearch数据存储与使用集群构建了一种适用于云端的安全数据分析系统;
本申请实施例的安全数据分析系统从云端获取企业的日志管理系统投递的日志数据并对数据进行安全分析,安全分析之后的数据,在云端供用户查询,使得企业能够方便地对大规模的日志数据进行安全分析。
参照图2,示出了本申请实施例中Flume日志数据收集模块11的结构框图,Flume日志数据收集模块11具体可以包括如下子模块:
Source日志获取子模块1101,用于获取日志数据;
Source日志获取子模块1101收集的日志数据包括:由域控服务器投递到系统日志Syslog协议集群的日志数据,以及Ossec客户端所在的服务器上Ossec的日志数据。
域控服务器是对计算机域进行统一管理的服务器,系统日志Syslog协议是在一个IP网络中转发系统日志信息的标准。
Ossec是一款入侵检测系统,安装了Ossec的客户端将日志数据上传到服务器进行处理。
Sink输出子模块1102,用于输出日志数据;
Sink输出子模块1102将获取的日志数据发送到Kafka日志数据分发集群进行处理。
多个Channel解耦子模块1103,用于匹配所述Source日志获取子模块的日志数据获取速度与所述Sink输出子模块的日志数据输出速度。
实际中,Channel解耦子模块1103是用于暂时缓存日志数据的通道Channel,在Flume中通道Channel包括:内存通道MemoryChannel,JDBCChannel(JavaDataBaseConnectivity,java数据库连接通道),文件通道FileChannel,模拟交易通道PsuedoTransactionChannel。优选的,本申请实施例中选用内存通道MemoryChannel来构建Channel解耦子模块1103。
由于Source日志获取子模块1101的数据输入速度与Sink输出子模块1102的数据输出速度,可能并不一致,因而需要Channel解耦子模块1103来匹配Source日志获取子模块1101的日志数据获取速度与所述Sink输出子模块1102的日志数据输出速度。
作为本申请实施例的一种优选示例,所述Flume日志数据收集模块11具体还可以包括如下子模块:
Ossec日志数据预处理子模块,用于对Ossec日志数据中进行合并处理;
对于采集到的Ossec日志数据首先需要进行预处理,预处理的过程包括:
将多行的原始Ossec日志数据拼接成一行,对Ossec日志数据进行预处理的好处包括:一则方便后续程序分析,例如后续程序能一次拿到一条日志有效的上下文。二则是在多个数据处理组件处理过程中,当出现处理失败的时候,回滚单位为1。如果一条日志需要传3次才能获取完整上下文,那么后续成功处理了传来的第一次数据,后面两次传来的数据没处理成功,这样会增大处理日志失败时的复杂度。三则涉及到往下一组件投递请求次数,合并成1条只用最多投递1次。
Syslog日志数据预处理子模块,用于对Syslog日志数据进行分类,将分类后的数据分发到不同的Channel解耦子模块中。
Syslog日志数据具体包括:vpn(VirtualPrivateNetwork,虚拟专用网络)登陆原始日志数据、本地登陆原始日志数据,以及baidu-erp-log日志数据。Syslog日志数据预处理子模块将不同分类的Syslog日志数据分发到不同Channel解耦子模块中,这样做的好处是可以提高日志源的处理速度,相当于同时有多个并行缓存。
作为本申请实施例的一种优选示例,所述Flume日志数据收集模块11还进一步包括:
通道监控子模块,用于监控所述多个Channel解耦子模块是否堵塞,当某一Channel解耦子模块堵塞时调整所述Source日志获取子模块向堵塞的Channel解耦子模块写入日志数据的速度。
Channel解耦子模块时,说明向该Channel解耦子模块写入数据的速度与该Channel解耦子模块输出数据的速度不匹配,因而需要调整数据的写入速度。
参照图3,示出了本申请实施例中Kafka日志数据分发集群12的结构框图。Kafka日志数据分发集群12具体可以包括如下模块:
多个Topic主题模块121,用于分发不同分类的日志数据;
在本申请实施例中,不同分类的数据分配被分配到不同的Channel解耦子模块1103中,因此,设置每一个Topic主题模块121对应一个Channel解耦子模块1103。
所述Topic主题模块121进一步包括:
多个Partition分区子模块1211,用于对日志数据进行数据冗余,提升后续处理数据的并发数。
数据冗余即将一份日志数据复制为多份相同的日志数据,因此在后续进程中,可以并发处理该日志数据。数据冗余的份数具体可以根据后续处理的需求来设置。
作为本申请实施例的一种优选示例,所述Flume日志数据收集模块11进一步包括:
Kafka转发子模块,用于将日志数据输出到指定的Topic主题模块中指定的Partition分区子模块。
Kafka转发子模块可以将指定的日志数据要发送到的指定的Topic主题模块中指定Partition分区子模块,便于把待分析数据较为平均的分布在多个Partition分区子模块上,方便后续程序并行处理数据。
参照图4,示出了本申请实施例中Storm日志数据分析集群13的结构框图。Storm日志数据分析集群13具体可以包括如下模块:
多个Topology分析模块131,用于对不同分类的日志数据进行分析处理;
例如,专门对Ossec日志数据进行分析的Topology分析模块、专门对Syslog日志数据中的vpn登陆原始日志数据或本地登陆原始日志数据处理的Topology分析模块。
所述Topology分析模块131进一步包括:
Spout数据获取子模块1311,用于获取日志数据;
Spout数据获取子模块1311是读取日志数据的源头,通常数量为1。
一个或多个Bolt逻辑子模块1312,用于对日志数据进行逻辑分析。
Spout数据获取子模块1312为处理日志数据的单一逻辑块,通常由多个Bolt逻辑子模块1312完成一项总的逻辑,图4中,各个Bolt逻辑子模块1312的连接方式,仅为示例,Bolt逻辑子模块1312的组合根据实际需要来设定。
作为本申请实施例的一种优选示例,所述Storm日志数据分析集群13还进一步包括:
Executors配比监控模块,用于监控同一个Topology分析模块中,Spout数据获取子模块的Executors逻辑执行单元与Bolt逻辑子模块的Executors逻辑执行单元之间的数量配比是否合适;
Spout数据获取子模块以及Bolt逻辑子模块由多个Executors逻辑执行单元组成;Executors逻辑执行单元是能完整执行逻辑处理的单元。
在实际中,可以根据执行延迟Executelatency来判断Spout数据获取子模块的Executors逻辑执行单元与Bolt逻辑子模块的Executors逻辑执行单元之间的数量配比是否合适,例如,当Executelatency大于500ms,即认为配比不合适。
记录调用模块,用于在当前数量配比合适时,记录当前Executors逻辑执行单元的数量配比,在重启Topology分析模块时,直接使用记录的Executors逻辑执行单元的数量配比;
当运行一段时间,该配比被验证为合适配比,将其更新到启动配置库中,以后重启该Topology分析模块时会直接使用更新后的参数。
Executors配比调整模块,用于在当前Executors逻辑执行单元数量配比不合适时,调整Executors逻辑执行单元的数量配比。
在实际中,可以使用内置的重平衡Rebalance功能来调整Executors逻辑执行单元的数量配比。
作为本申请实施例的一种优选示例,所述Storm日志数据分析集群13还进一步包括:
节点监控模块,用于监控storm的关键进程,当关键进程异常时通知管理员进行人为检查;所述关键进程包括:nimbus任务分配进程,以及supervisor监听进程。
nimbus任务分配进程负责在Storm集群内分发代码,分配任务给工作机器,并且负责监控集群运行状态。supervisor监听进程负责监听从nimbus分配给它执行的任务,据此启动或停止执行任务的工作进程。
当关键进程出现问题时通知管理员进行检查。
在本申请实施例中Elasticsearch数据存储与使用集群14具体可以包括如下模块:
节点监控模块,用于监控用于接收Topology分析模块传送的数据的节点接口,当某一节点接口的进程消失时,重启该节点接口;
展现模块,用于展现经安全分析处理之后得到的安全分析数据。
当自动分析出一些攻击行为与数据时,展现相应的分析数据,例如,最频繁的攻击类型,以及受攻击量最多的业务。
参照图5,示出了本申请一种安全数据分析系统实施例的结构框图。具体可以包括如下模块:
Flume日志数据收集模块51,用于获取日志数据,对所述日志数据进行预处理,以及将经过初步处理的日志数据发送到Kafka日志数据分发集群;Flume日志数据收集模块51包括多个数据采集点,可以接收多个企业的日志管理系统投递的日志数据。
Kafka日志数据分发集群52,用于接收所述Flume日志数据收集模块发送的日志数据,将所述日志数据发送至Storm日志数据分析集群,以及匹配所述Flume日志数据收集模块与所述Storm日志数据分析集群之间的数据处理速度;Kafka日志数据分发集群52包括多个分区,每个分区分别处理不同分类的日志数据。
Storm日志数据分析集群53,用于接收所述Kafka日志数据分发集群发送的日志数据,对所述日志数据进行安全分析处理,以及将经安全分析处理之后得到的安全分析数据发送至Elasticsearch数据存储与使用集群;Storm日志数据分析集群53中包括多个用于分析不同分类日志数据的计算拓扑Topologiey。
Elasticsearch数据存储与使用集群54,用于存储所述经安全分析处理之后得到的安全分析数据,以及提供对所述安全分析数据的查询功能。Elasticsearch数据存储与使用集群54包括了多个数据节点,数据节点用于接收Storm日志数据分析集群53中的计算拓扑Topologiey传输的数据。
Zookeepercluster分布式服务框架55,Kafka日志数据分发集群52以及Storm日志数据分析集群53都需要依赖Zookeepercluster分布式服务框架55来存储具体每个节点的数据处理进度,方便在节点处理数据失败/或者节点重启后继续原来的处理过程。也可以在Zookeeper上指定Storm处理数据的起点。
Flume监控数据处理逻辑56,用于监控Flume日志数据收集模块51的数据处理进程。
Kafka监控数据处理逻辑57,用于监控Kafka日志数据分发集群52的数据处理进程。
Storm监控数据处理逻辑58,用于监控Storm日志数据分析集群53的数据处理进程。
安全服务平台59,用于提供日志数据查询和安全分析数据的查询。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种安全数据分析系统,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (11)

1.一种安全数据分析系统,其特征在于,包括:
Flume日志数据收集模块,用于获取日志数据,对所述日志数据进行预处理,以及将经过初步处理的日志数据发送到Kafka日志数据分发集群;
Kafka日志数据分发集群,用于接收所述Flume日志数据收集模块发送的日志数据,将所述日志数据发送至Storm日志数据分析集群,以及匹配所述Flume日志数据收集模块与所述Storm日志数据分析集群之间的数据处理速度;
Storm日志数据分析集群,用于接收所述Kafka日志数据分发集群发送的日志数据,对所述日志数据进行安全分析处理,以及将经安全分析处理之后得到的安全分析数据发送至Elasticsearch数据存储与使用集群;
Elasticsearch数据存储与使用集群,用于存储所述经安全分析处理之后得到的安全分析数据,以及提供对所述安全分析数据的查询功能。
2.根据权利要求1所述的系统,其特征在于,所述Flume日志数据收集模块包括:
Source日志获取子模块,用于获取日志数据;
Sink输出子模块,用于输出日志数据;
多个Channel解耦子模块,用于匹配所述Source日志获取子模块的日志数据获取速度与所述Sink输出子模块的日志数据输出速度。
3.根据权利要求2所述的系统,其特征在于,所述日志数据包括:Ossec日志数据、Syslog日志数据;所述Flume日志数据收集模块包括:
Ossec日志数据预处理子模块,用于对Ossec日志数据中进行合并处理;
Syslog日志数据预处理子模块,用于对Syslog日志数据进行分类,将分类后的数据分发到不同的Channel解耦子模块中。
4.根据权利要求3所述的系统,其特征在于,所述Flume日志数据收集模块还进一步包括:
通道监控子模块,用于监控所述多个Channel解耦子模块是否堵塞,当某一Channel解耦子模块堵塞时调整所述Source日志获取子模块向堵塞的Channel解耦子模块写入日志数据的速度。
5.根据权利要求1或2或3或4所述的系统,其特征在于,所述Kafka日志数据分发集群包括:
多个Topic主题模块,用于分发不同分类的日志数据;
所述Topic主题模块进一步包括:
多个Partition分区子模块,用于对日志数据进行数据冗余,提升后续处理数据的并发数。
6.根据权利要求5所述的系统,其特征在于,所述Flume日志数据收集模块进一步包括:
Kafka转发子模块,用于将日志数据输出到指定的Topic主题模块中指定的Partition分区子模块。
7.根据权利要求6所述的系统,其特征在于,所述Storm日志数据分析集群包括:
多个Topology分析模块,用于对不同分类的日志数据进行分析处理;
所述Topology分析模块进一步包括:
Spout数据获取子模块,用于获取日志数据;
一个或多个Bolt逻辑子模块,用于对日志数据进行逻辑分析。
8.根据权利要求7所述的系统,其特征在于,所述Spout数据获取子模块以及Bolt逻辑子模块由多个Executors逻辑执行单元组成;
所述Storm日志数据分析集群还进一步包括:
Executors配比监控模块,用于监控同一个Topology分析模块中,Spout数据获取子模块的Executors逻辑执行单元与Bolt逻辑子模块的Executors逻辑执行单元之间的数量配比是否合适;
记录调用模块,用于在当前数量配比合适时,记录当前Executors逻辑执行单元的数量配比,在重启Topology分析模块时,直接使用记录的Executors逻辑执行单元的数量配比;
Executors配比调整模块,用于在当前Executors逻辑执行单元数量配比不合适时,调整Executors逻辑执行单元的数量配比。
9.根据权利要求8所述的系统,其特征在于,所述Storm日志数据分析集群还进一步包括:
节点监控模块,用于监控storm的关键进程,当关键进程异常时通知管理员进行人为检查;所述关键进程包括:nimbus任务分配进程,以及supervisor监听进程。
10.根据权利要求9所述的系统,其特征在于,所述Elasticsearch数据存储与使用集群包括:
节点监控模块,用于监控用于接收Topology分析模块传送的数据的节点接口,当某一节点接口的进程消失时,重启该节点接口。
11.根据权利要求10所述的系统,其特征在于,所述Elasticsearch数据存储与使用集群包括:
展现模块,用于展现经安全分析处理之后得到的安全分析数据。
CN201511021170.9A 2015-12-30 2015-12-30 一种安全数据分析系统 Active CN105631026B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511021170.9A CN105631026B (zh) 2015-12-30 2015-12-30 一种安全数据分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511021170.9A CN105631026B (zh) 2015-12-30 2015-12-30 一种安全数据分析系统

Publications (2)

Publication Number Publication Date
CN105631026A true CN105631026A (zh) 2016-06-01
CN105631026B CN105631026B (zh) 2020-01-21

Family

ID=56045959

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511021170.9A Active CN105631026B (zh) 2015-12-30 2015-12-30 一种安全数据分析系统

Country Status (1)

Country Link
CN (1) CN105631026B (zh)

Cited By (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095870A (zh) * 2016-06-06 2016-11-09 乐视控股(北京)有限公司 数据平衡验证方法及装置
CN106095965A (zh) * 2016-06-17 2016-11-09 上海智臻智能网络科技股份有限公司 一种数据处理方法和装置
CN106340161A (zh) * 2016-08-25 2017-01-18 山东联科云计算科技有限公司 一种基于大数据的公共安全预警系统
CN106528297A (zh) * 2016-11-14 2017-03-22 山东浪潮云服务信息科技有限公司 一种管理任务的系统
CN106569936A (zh) * 2016-09-26 2017-04-19 深圳盒子支付信息技术有限公司 一种实时采集滚动日志的方法及系统
CN106682071A (zh) * 2016-11-17 2017-05-17 安徽华博胜讯信息科技股份有限公司 一种基于大数据的高校图书馆数字资源共享方法
CN106790245A (zh) * 2017-01-20 2017-05-31 中新网络信息安全股份有限公司 一种基于云服务的实时僵尸网络检测方法
CN106936640A (zh) * 2016-12-08 2017-07-07 环球智达科技(北京)有限公司 一种基于Kafka和Zabbix的日志分析监控系统
CN106951082A (zh) * 2017-03-20 2017-07-14 福州大学 一种基于Storm的P300实时分布式计算方法
CN107181612A (zh) * 2017-05-08 2017-09-19 深圳市众泰兄弟科技发展有限公司 一种基于大数据的可视化网络安全监控方法
CN107273267A (zh) * 2017-06-09 2017-10-20 环球智达科技(北京)有限公司 基于elastic组件的日志分析方法
CN107332719A (zh) * 2017-08-16 2017-11-07 北京云端智度科技有限公司 一种cdn系统内日志实时分析的方法
CN107357804A (zh) * 2017-05-24 2017-11-17 上海你我贷互联网金融信息服务有限公司 互联网金融海量日志的分析系统及方法
CN107645542A (zh) * 2017-09-03 2018-01-30 中国南方电网有限责任公司 一种应用于云审计系统的数据采集装置
CN107656973A (zh) * 2017-09-03 2018-02-02 中国南方电网有限责任公司 一种应用于云审计系统的日志审计子系统
CN107689958A (zh) * 2017-09-03 2018-02-13 中国南方电网有限责任公司 一种应用于云审计系统的网络审计子系统
CN107748756A (zh) * 2017-09-20 2018-03-02 努比亚技术有限公司 数据采集方法、移动终端及可读存储介质
CN107786565A (zh) * 2017-11-02 2018-03-09 江苏物联网研究发展中心 一种分布式实时入侵检测方法及检测系统
CN108256096A (zh) * 2018-01-30 2018-07-06 北京搜狐新媒体信息技术有限公司 一种数据处理方法及装置
CN108599992A (zh) * 2018-03-21 2018-09-28 四川斐讯信息技术有限公司 一种数据处理系统及方法
CN108600300A (zh) * 2018-03-06 2018-09-28 北京思空科技有限公司 日志数据处理方法及装置
CN109189652A (zh) * 2018-06-26 2019-01-11 中国科学院信息工程研究所 一种封闭网络终端行为数据的采集方法及系统
CN109325200A (zh) * 2018-07-25 2019-02-12 北京京东尚科信息技术有限公司 获取数据的方法、装置及计算机可读存储介质
CN109344033A (zh) * 2018-09-27 2019-02-15 浪潮软件股份有限公司 一种基于分布式架构的云日志采集方法
CN109885453A (zh) * 2019-02-18 2019-06-14 国家计算机网络与信息安全管理中心 基于流数据处理的大数据平台监控系统
CN109902107A (zh) * 2019-01-28 2019-06-18 中国石油大学(华东) 一种基于Storm的工业信令数据流式计算框架
CN110019087A (zh) * 2017-11-09 2019-07-16 北京京东尚科信息技术有限公司 数据处理方法及其系统
CN110018993A (zh) * 2017-12-29 2019-07-16 中移信息技术有限公司 一种数据分析系统、方法及监控分析系统
CN110377578A (zh) * 2019-07-12 2019-10-25 苏州浪潮智能科技有限公司 一种基于改进的Flume的数据处理方法和装置
CN110515912A (zh) * 2019-07-18 2019-11-29 湖南星汉数智科技有限公司 日志处理方法、装置、计算机装置及计算机可读存储介质
CN110717132A (zh) * 2019-09-05 2020-01-21 深圳平安通信科技有限公司 全链路监控系统数据收集方法、推送方法及相关设备
CN111695126A (zh) * 2020-05-28 2020-09-22 武汉中海庭数据技术有限公司 一种众包数据解密方法、装置、电子设备及存储介质
CN111930304A (zh) * 2020-07-10 2020-11-13 苏州浪潮智能科技有限公司 一种数据采集速度控制方法、设备及存储介质
CN112367384A (zh) * 2020-10-30 2021-02-12 上海哔哩哔哩科技有限公司 基于Kafka集群的动态限速方法、装置以及计算机设备
CN114710481A (zh) * 2021-12-13 2022-07-05 越亮传奇科技股份有限公司 基于大数据的流量话单分析方法、装置、设备及存储介质
CN115168030A (zh) * 2022-06-24 2022-10-11 天翼爱音乐文化科技有限公司 一种动态调控的日志采集、处理方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120016835A1 (en) * 2010-07-15 2012-01-19 Amarjit Singh Universal database - cDB
CN104618343A (zh) * 2015-01-06 2015-05-13 中国科学院信息工程研究所 一种基于实时日志的网站威胁检测的方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120016835A1 (en) * 2010-07-15 2012-01-19 Amarjit Singh Universal database - cDB
CN104618343A (zh) * 2015-01-06 2015-05-13 中国科学院信息工程研究所 一种基于实时日志的网站威胁检测的方法及系统

Cited By (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095870A (zh) * 2016-06-06 2016-11-09 乐视控股(北京)有限公司 数据平衡验证方法及装置
CN106095965A (zh) * 2016-06-17 2016-11-09 上海智臻智能网络科技股份有限公司 一种数据处理方法和装置
CN106340161A (zh) * 2016-08-25 2017-01-18 山东联科云计算科技有限公司 一种基于大数据的公共安全预警系统
CN106569936A (zh) * 2016-09-26 2017-04-19 深圳盒子支付信息技术有限公司 一种实时采集滚动日志的方法及系统
CN106569936B (zh) * 2016-09-26 2019-05-03 深圳盒子信息科技有限公司 一种实时采集滚动日志的方法及系统
CN106528297A (zh) * 2016-11-14 2017-03-22 山东浪潮云服务信息科技有限公司 一种管理任务的系统
CN106682071A (zh) * 2016-11-17 2017-05-17 安徽华博胜讯信息科技股份有限公司 一种基于大数据的高校图书馆数字资源共享方法
CN106936640A (zh) * 2016-12-08 2017-07-07 环球智达科技(北京)有限公司 一种基于Kafka和Zabbix的日志分析监控系统
CN106790245A (zh) * 2017-01-20 2017-05-31 中新网络信息安全股份有限公司 一种基于云服务的实时僵尸网络检测方法
CN106790245B (zh) * 2017-01-20 2020-06-19 中新网络信息安全股份有限公司 一种基于云服务的实时僵尸网络检测方法
CN106951082B (zh) * 2017-03-20 2019-12-17 福州大学 一种基于Storm的P300实时分布式计算方法
CN106951082A (zh) * 2017-03-20 2017-07-14 福州大学 一种基于Storm的P300实时分布式计算方法
CN107181612A (zh) * 2017-05-08 2017-09-19 深圳市众泰兄弟科技发展有限公司 一种基于大数据的可视化网络安全监控方法
CN107357804A (zh) * 2017-05-24 2017-11-17 上海你我贷互联网金融信息服务有限公司 互联网金融海量日志的分析系统及方法
CN107273267A (zh) * 2017-06-09 2017-10-20 环球智达科技(北京)有限公司 基于elastic组件的日志分析方法
CN107332719A (zh) * 2017-08-16 2017-11-07 北京云端智度科技有限公司 一种cdn系统内日志实时分析的方法
CN107645542A (zh) * 2017-09-03 2018-01-30 中国南方电网有限责任公司 一种应用于云审计系统的数据采集装置
CN107689958A (zh) * 2017-09-03 2018-02-13 中国南方电网有限责任公司 一种应用于云审计系统的网络审计子系统
CN107656973A (zh) * 2017-09-03 2018-02-02 中国南方电网有限责任公司 一种应用于云审计系统的日志审计子系统
CN107748756A (zh) * 2017-09-20 2018-03-02 努比亚技术有限公司 数据采集方法、移动终端及可读存储介质
CN107786565A (zh) * 2017-11-02 2018-03-09 江苏物联网研究发展中心 一种分布式实时入侵检测方法及检测系统
CN110019087A (zh) * 2017-11-09 2019-07-16 北京京东尚科信息技术有限公司 数据处理方法及其系统
CN110019087B (zh) * 2017-11-09 2022-04-12 北京京东尚科信息技术有限公司 数据处理方法及其系统
CN110018993B (zh) * 2017-12-29 2021-03-23 中移动信息技术有限公司 一种数据分析系统、方法及监控分析系统
CN110018993A (zh) * 2017-12-29 2019-07-16 中移信息技术有限公司 一种数据分析系统、方法及监控分析系统
CN108256096A (zh) * 2018-01-30 2018-07-06 北京搜狐新媒体信息技术有限公司 一种数据处理方法及装置
CN108600300B (zh) * 2018-03-06 2021-11-12 北京思空科技有限公司 日志数据处理方法及装置
CN108600300A (zh) * 2018-03-06 2018-09-28 北京思空科技有限公司 日志数据处理方法及装置
CN108599992A (zh) * 2018-03-21 2018-09-28 四川斐讯信息技术有限公司 一种数据处理系统及方法
CN109189652A (zh) * 2018-06-26 2019-01-11 中国科学院信息工程研究所 一种封闭网络终端行为数据的采集方法及系统
CN109325200B (zh) * 2018-07-25 2021-05-25 北京京东尚科信息技术有限公司 获取数据的方法、装置及计算机可读存储介质
CN109325200A (zh) * 2018-07-25 2019-02-12 北京京东尚科信息技术有限公司 获取数据的方法、装置及计算机可读存储介质
CN109344033A (zh) * 2018-09-27 2019-02-15 浪潮软件股份有限公司 一种基于分布式架构的云日志采集方法
CN109902107A (zh) * 2019-01-28 2019-06-18 中国石油大学(华东) 一种基于Storm的工业信令数据流式计算框架
CN109885453B (zh) * 2019-02-18 2023-02-28 国家计算机网络与信息安全管理中心 基于流数据处理的大数据平台监控系统
CN109885453A (zh) * 2019-02-18 2019-06-14 国家计算机网络与信息安全管理中心 基于流数据处理的大数据平台监控系统
CN110377578B (zh) * 2019-07-12 2022-06-07 苏州浪潮智能科技有限公司 一种基于改进的Flume的数据处理方法和装置
CN110377578A (zh) * 2019-07-12 2019-10-25 苏州浪潮智能科技有限公司 一种基于改进的Flume的数据处理方法和装置
CN110515912A (zh) * 2019-07-18 2019-11-29 湖南星汉数智科技有限公司 日志处理方法、装置、计算机装置及计算机可读存储介质
CN110717132A (zh) * 2019-09-05 2020-01-21 深圳平安通信科技有限公司 全链路监控系统数据收集方法、推送方法及相关设备
CN111695126A (zh) * 2020-05-28 2020-09-22 武汉中海庭数据技术有限公司 一种众包数据解密方法、装置、电子设备及存储介质
CN111930304A (zh) * 2020-07-10 2020-11-13 苏州浪潮智能科技有限公司 一种数据采集速度控制方法、设备及存储介质
CN111930304B (zh) * 2020-07-10 2022-08-12 苏州浪潮智能科技有限公司 一种数据采集速度控制方法、设备及存储介质
CN112367384B (zh) * 2020-10-30 2022-06-03 上海哔哩哔哩科技有限公司 基于Kafka集群的动态限速方法、装置以及计算机设备
CN112367384A (zh) * 2020-10-30 2021-02-12 上海哔哩哔哩科技有限公司 基于Kafka集群的动态限速方法、装置以及计算机设备
CN114710481A (zh) * 2021-12-13 2022-07-05 越亮传奇科技股份有限公司 基于大数据的流量话单分析方法、装置、设备及存储介质
CN115168030A (zh) * 2022-06-24 2022-10-11 天翼爱音乐文化科技有限公司 一种动态调控的日志采集、处理方法、装置及存储介质
CN115168030B (zh) * 2022-06-24 2023-10-20 天翼爱音乐文化科技有限公司 一种动态调控的日志采集、处理方法、装置及存储介质

Also Published As

Publication number Publication date
CN105631026B (zh) 2020-01-21

Similar Documents

Publication Publication Date Title
CN105631026A (zh) 一种安全数据分析系统
CN107689953B (zh) 一种面向多租户云计算的容器安全监控方法及系统
US11700303B1 (en) Distributed data analysis for streaming data sources
CN110765337A (zh) 一种基于互联网大数据的服务提供方法
CN112650762B (zh) 数据质量监控的方法、装置、电子设备以及存储介质
CN108197261A (zh) 一种智慧交通操作系统
CN108521339B (zh) 一种基于集群日志的反馈式节点故障处理方法及系统
CN105893628A (zh) 一种数据实时收集系统及方法
CN104468282B (zh) 集群监控处理系统及方法
CN103618652A (zh) 一种业务数据的审计和深度分析系统及其方法
CN110188103A (zh) 数据对账方法、装置、设备和存储介质
CN110377595A (zh) 一种车辆数据管理系统
DE102016208672A1 (de) Verwalten von Redundanzen zwischen Anwendungs-Bundles
CN211905008U (zh) 餐饮油烟在线自动监控系统平台
CN111581635B (zh) 一种数据处理方法及系统
CN108052358B (zh) 一种分布式部署的系统和方法
CN108777637A (zh) 一种支持服务器异构的数据中心综合管理系统和方法
CN108108445A (zh) 一种智能数据处理方法和系统
CN113242157B (zh) 一种分布式处理环境下的集中式数据质量监测方法
CN103701783A (zh) 一种预处理单元、由其构成的数据处理系统以及处理方法
CN103870549B (zh) 石油地质软件数据的清理方法及装置
CN107612984B (zh) 一种基于互联网的大数据平台
CN105868056A (zh) 获取Windows虚拟机中已删除文件的方法、装置及安全虚拟机
CN107204868B (zh) 一种任务运行监控信息获取方法和装置
CN113836237A (zh) 对数据库的数据操作进行审计的方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant