CN108040074B - 一种基于大数据的实时网络异常行为检测系统及方法 - Google Patents

一种基于大数据的实时网络异常行为检测系统及方法 Download PDF

Info

Publication number
CN108040074B
CN108040074B CN201810079555.8A CN201810079555A CN108040074B CN 108040074 B CN108040074 B CN 108040074B CN 201810079555 A CN201810079555 A CN 201810079555A CN 108040074 B CN108040074 B CN 108040074B
Authority
CN
China
Prior art keywords
data
layer
module
packets
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810079555.8A
Other languages
English (en)
Other versions
CN108040074A (zh
Inventor
高英
靳亚洽
刘煜
李若鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201810079555.8A priority Critical patent/CN108040074B/zh
Publication of CN108040074A publication Critical patent/CN108040074A/zh
Application granted granted Critical
Publication of CN108040074B publication Critical patent/CN108040074B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Abstract

本发明公开了一种基于大数据的实时网络异常行为检测系统,包括流量采集层、数据管道层、实时计算层、数据存储层、数据分析层以及应用层;所述流量采集层,包括采集装置;所述数据管道层,包括采用分布式消息系统的数据管道服务模块;所述实时计算层,包括流式计算模块;所述数据存储层,包括分布式文件服务模块、分布式数据库模块以及检索服务模块;所述数据分析层,包括模型训练模块、实时检测模块;所述应用层,包括可视化告警模块。还公开了一种一种基于大数据的实时网络异常行为检测方法。本发明数据采集效率高,数据传输稳定可靠,能够对高级持续性威胁进行高效检测和分析,可溯源取证,方便分析人员检索,模型训练效率高,误报率低。

Description

一种基于大数据的实时网络异常行为检测系统及方法
技术领域
本发明属于网络安全管理技术领域,具体涉及一种基于大数据的实时网络异常行为检测系统及方法。
背景技术
随着网络应用的不断发展,如何从网络数据报文中发现异常行为,并给出预警,已经成为当前网络安全管理的一个重要研究领域。现有的网络流量异常检测平台大多数依赖SNMP或者Netflow之类的采集方式,SNMP比较依赖路由器的性能,采集效率比较低下,而Netflow只提供的流的统计信息,对于数据包本身的信息并没有采集下来,不能为后续全流量的分析提供数据。其次,在流式计算过程中,现有的基于大数据的网络流量异常检测平台采用的是像spark streaming之类的流式计算引擎,Spark Streaming是基于数据片集合(RDD)进行小批量处理的,在流式处理方面的性能不够理想。另外,现有基于大数据的网络流量异常检测平台多是基于netflow或者ipfix技术,对网络流量进行特征匹配或者基于简单的统计,对于像高级持续性威胁(APT)这类的攻击很难进行检测。
发明内容
针对现有技术中所存在的不足,本发明提供了一种数据采集效率高、数据传输稳定可靠、能够对高级持续性威胁(APT)进行高效检测和分析、可溯源取证、方便分析人员检索、模型训练效率高、误报率低的基于大数据的实时网络异常行为检测系统。
一种基于大数据的实时网络异常行为检测系统,包括流量采集层、数据管道层、实时计算层、数据存储层、数据分析层以及应用层;
所述流量采集层,包括对数据源进行流量采集的采集装置,所述采集装置提供流量采集服务,包括数据包捕获服务、数据包解析服务、本地落盘服务、数据特征提取服务、数据流序列化服务以及数据发送服务;所述采集装置通过数据包捕获服务捕获数据包,之后将采集的数据进行预处理,之后通过数据发送服务将经过预处理的数据传送到数据管道层,还通过本地落盘服务将原始数据包保存到数据存储层的分布式文件服务模块中;所述预处理中通过数据包解析服务给每个数据包打上唯一标签,通过数据特征提取服务对数据进行特征提取,通过数据流序列化服务处理成统一的二进制格式;
所述数据管道层,包括数据管道服务模块,所述数据管道服务模块采用分布式消息系统;所述数据管道服务模块将经过预处理的数据放入分布式消息系统中以供实时计算层获取;
所述实时计算层,包括流式计算模块,所述流式计算模块提供流式计算服务,所述流式计算服务包括特征反序列化与切割服务、特征统计分析服务以及特征入库服务;所述流式计算模块从数据管道层获取经过预处理的数据,通过特征反序列化与切割服务得到基础特征,通过特征统计分析服务得到统计特征,再将所述统计特征和协议特征追加到所述基础特征中形成总的特征,并通过特征入库服务将所述总的特征保存到所述数据存储层的分布式数据库模块中;所述实时计算层还将所述数据包的唯一标签与原始数据包存储路径的映射关系保存到数据存储层的分布式数据库模块中;
所述数据存储层,包括分布式文件服务模块、分布式数据库模块以及检索服务模块;所述分布式文件服务模块,用于保存原始数据包;所述分布式数据库模块,用于保存实时计算层计算出来的总的特征,以及经过预处理后的数据包的唯一标签与原始数据包存储路径的映射关系;所述检索服务模块,用于存储计算结果数据,以及快速检索所述计算结果数据供应用层进行展示;
所述数据分析层,包括模型训练模块、实时检测模块;所述模型训练模块,以所述分布式数据库模块中的特征作为输入通过机器学习来训练用于识别带有攻击行为的流量的模型;所述实时检测模块,将从实时计算层计算出来的特征通过模型训练模块中训练好的模型来进行检测,当检测出可疑流量时,所述数据分析层将可疑流量保存到检索服务模块中;
所述应用层,包括可视化告警模块,所述可视化告警模块对保存在检索服务模块中的可疑流量进行展示和告警。
进一步地,所述采集装置包括对从交换机上镜像下来的流量进行采集的镜像流量采集模块、对本地文件进行采集的本地文件采集模块以及对传感器的数据进行采集的网络探针采集模块,所述三种模块均能提供所述流量采集服务。
进一步地,所述数据管道层包括多个数据管道节点。
进一步地,所述统计特征包括但不限于:
过去X秒内,与当前包具有相同目标的主机的数据包数;
过去X秒内,与当前包具有相同服务的主机的数据包数;
过去X秒内,与当前包具有相同目标主机的数据包的百分比;
过去X秒内,与当前包具有相同服务的主机的数据包的百分比;
过去X秒内,与当前包具有不同目标主机的数据包的百分比;
前Y个数据包中,与当前包具有相同目标的主机的数据包数;
前Y个数据包中,与当前包具有相同服务的主机的数据包数;
前Y个数据包中,与当前包具有相同目标主机的数据包的百分比;
前Y个数据包中,与当前包具有相同服务的主机的数据包的百分比;
前Y个数据包中,与当前包具有不同目标主机的数据包的百分比;
前Z个连接中,与当前包具有相同目标的主机的数据包数;
前Z个连接中,与当前包具有相同服务的主机的数据包数;
前Z个连接中,与当前包具有相同目标主机的数据包的百分比;
前Z个连接中,与当前包具有相同服务的主机的数据包的百分比;
前Z个连接中,与当前包具有不同目标主机的数据包的百分比;
所述X的取值范围为5~50,Y的取值范围为500~5000,Z的取值范围为50~500。
进一步地,所述分布式消息系统采用kafka,所述流式计算模块采用Flink来进行流式计算,所述分布式文件服务模块采用HDFS,所述分布式数据库模块采用Hbase,所述检索服务模块采用ElasticSearch来实现。
进一步地,所述应用层还包括智能分析模块和APT关联分析模块,所述智能分析模块用于分析指定IP、端口、时间范围、网络会话流量趋势以及会话信息;所述APT关联分析模块用于对各类渗透、窃密行为进行精准识别,并快速追踪问题源、提取异常数据、还原异常通讯现象。
本发明还公开了一种基于大数据的实时网络异常行为检测方法。
一种基于大数据的实时网络异常行为检测方法,包括流量采集层、数据管道层、实时计算层、数据存储层、数据分析层以及应用层,具体包括以下步骤:
S1:流量采集层从数据源采集流量数据,并对数据进行预处理,之后将预处理后的数据发送到数据管道层中的分布式消息系统,并将原始数据包保存到数据存储层;
S2:实时计算层从所述分布式消息系统中获取经过预处理的数据,从所述数据中获得基础特征并提取统计特征,再将所述统计特征和协议特征追加到基础特征中形成总的特征,然后将总的特征保存到数据存储层中;
S3:数据分析层从数据存储层中获取总的特征并将所述特征作为输入通过机器学习来训练用于识别带有攻击行为的流量的模型;
S4:数据分析层将从实时计算层计算出来的特征通过训练好的模型来进行检测,当检测出可疑流量时,所述数据分析层将可疑流量保存到数据存储层中;
S5:应用层检索数据存储层中保存的可疑流量信息并对其进行展示和告警。
进一步地,所述步骤S1中的预处理包括以下步骤:
S11:对采集自数据源的数据包进行解析,给每个数据包打上唯一标签;
S12:对解析后的流量数据特征进行提取;
S13:将提取后的数据通过序列化转换成二进制格式。
进一步地,所述步骤S2还包括以下步骤:
S21:实时计算层将数据包的唯一标签与原始数据包存储路径的映射关系保存到数据存储层;
进一步地,所述步骤S3中的统计特征包括:
过去X秒内,与当前包具有相同目标的主机的数据包数;
过去X秒内,与当前包具有相同服务的主机的数据包数;
过去X秒内,与当前包具有相同目标主机的数据包的百分比;
过去X秒内,与当前包具有相同服务的主机的数据包的百分比;
过去X秒内,与当前包具有不同目标主机的数据包的百分比;
前Y个数据包中,与当前包具有相同目标的主机的数据包数;
前Y个数据包中,与当前包具有相同服务的主机的数据包数;
前Y个数据包中,与当前包具有相同目标主机的数据包的百分比;
前Y个数据包中,与当前包具有相同服务的主机的数据包的百分比;
前Y个数据包中,与当前包具有不同目标主机的数据包的百分比;
前Z个连接中,与当前包具有相同目标的主机的数据包数;
前Z个连接中,与当前包具有相同服务的主机的数据包数;
前Z个连接中,与当前包具有相同目标主机的数据包的百分比;
前Z个连接中,与当前包具有相同服务的主机的数据包的百分比;
前Z个连接中,与当前包具有不同目标主机的数据包的百分比;
所述X的取值范围为5~50,Y的取值范围为500~5000,Z的取值范围为50~500。
相比于现有技术,本发明具有如下有益效果:
1、通过分别对镜像流量、本地文件和传感器的数据进行采集,对路由器性能依赖较小,采集效率较高,能对后续异常行为分析提供充足的数据来源;
2、通过建立数据管道层并采用分布式消息系统,能防止因瞬间访问量过大导致下游实时处理出现停顿,进而起到有效的缓冲作用,能够在真实场景中保障数据传输的可靠性,避免数据的丢失,提升整个系统的鲁棒性;同时统一的数据管道利于数据流的管理,节省更多的人力成本;
3、通过建立统计特征并将其与基础特征结合,有助于更好地发现高级持续性威胁(APT)的攻击特点并为模型训练提供更为丰富的特征,为后续的异常行为检测提供有力支持;
4、通过采用分布式存储,保障了数据存储的可靠性和高效性;
5、通过机器学习的方法对提取的特征进行模型训练,有效提高了异常行为检测的精度;
6、通过对检测出的异常流量建立索引,可以方便分析人员进行各种维度的检索和查询,使检测结果更加直观。
附图说明
图1为本发明中系统框架示意图;
图2为本发明中系统框架流程图。
具体实施方式
为了使发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。
实施例1:
一种基于大数据的实时网络异常行为检测系统,如图1~2所示,包括流量采集层、数据管道层、实时计算层、数据存储层、数据分析层以及应用层。
作为一种优选方案,所述流量采集层,包括对从交换机上镜像下来的流量进行采集的镜像流量采集模块、对本地文件进行采集的本地文件采集模块以及对传感器的数据进行采集的网络探针采集模块。所述三种模块均能提供流量采集服务,所述流量采集服务包括数据包捕获服务、数据包解析服务、本地落盘服务、数据特征提取服务、数据流序列化服务以及数据发送服务。
所述流量采集层通过数据包捕获服务捕获数据包,之后将采集的数据进行预处理,之后通过数据发送服务将经过预处理的数据传送到数据管道层的数据管道服务模块中,还通过本地落盘服务将原始数据包保存到数据存储层的分布式文件服务模块中。所述预处理中通过数据包解析服务给每个数据包打上唯一标签,通过数据特征提取服务对数据进行特征提取,通过数据流序列化服务处理成统一的二进制格式。
流量采集层给数据包打上标签后将数据包存储在分布式文件服务模块中,二进制的特征保存在数据管道层中,特征里包括原始数据包的标签,数据管道层可以通过标签在分布式文件系统中查找到数据包。
上述服务由数据收集工具(PcapReader)来进行支持。在数据收集工具中,可采用libpcap包作为网络数据包的捕获工具;所述Libpcap包是目前unix以及linux平台下的基础网络数据捕获函数包,能够提供高性能的数据包捕获服务。特别地,可采用gopacket数据包工具来驱动libpcap函数包,捕捉原始的网络数据包。捕获到的数据包中包含了应用层、网络层、传输层、数据链路层等四层的数据内容,由于其中很多的数据内容没有价值,因此需要对数据特征进行提取(即数据特征提取服务);另外,需将数据包进行落盘处理,生成本地pcap包文件,用于长时间存储保存(即本地落盘服务)。
作为一种优选方案,所述数据管道层,包括数据管道服务模块,所述数据管道服务模块采用分布式消息系统。所述数据管道层为流量采集层所收集到的数据提供缓冲通道以及统一的数据通道,将经过预处理的数据放入数据管道服务模块的分布式消息系统中以供实时计算层获取。
所述数据管道层包括多个数据管道节点。分布式消息系统可采用kafka。Kafka能够同时支持多个生产者与消费者,保障数据传输的高效性,具备的数据分区复制(replica)功能,保障数据的可靠性。本发明采用多个数据管道节点作为数据管道的基石,保障了数据传输的可靠性和高效性。
由于在真实的场景中,往往会出现瞬间访问量过大、或者下游实时处理出现停顿的问题,此时数据管道的缓冲作用就尤为重要,能够在真实场景中保障数据传输的可靠性,避免数据的丢失,提升整个系统的鲁棒性。同时统一的数据管道利于数据流的管理,节省更多的人力成本。
作为一种优选方案,所述实时计算层,包括流式计算模块,所述流式计算模块提供流式计算服务,所述流式计算服务包括特征反序列化与切割服务、特征统计分析服务以及特征入库服务。所述流式计算模块可采用Flink来进行流式计算。所述Flink是第四代大数据计算引擎,其主要的表现为Flink对于流计算的支持。Flink把所有的任务都当做流来处理,可以支持本地快速迭代,支持Batch运算以及DAG运算。Flink不但与Hadoop平台其他组件有比较好的兼容性,而且与传统的Spark Streaming相比具有更高效的流式计算能力。
所述实时计算层从数据管道层获取经过预处理的流量数据,通过流式计算模块中的特征反序列化与切割服务得到基础特征,通过特征统计分析服务得到统计特征,再将所述统计特征和基于不同协议的特征(即协议特征)追加到所述基础特征中形成总的特征,并通过特征入库服务将所述总的特征保存到所述数据存储层的分布式数据库模块中。
实时计算层还将所述数据包的唯一标签与原始数据包存储路径的映射关系保存到数据存储层的分布式数据库模块中。
所述基础特征,即流量采集层通过数据特征提取服务获得的特征数据,通过特征反序列化与切割服务将经过流量采集层的数据流序列化服务处理后的二进制数据反序列化并切割还原得到(比如采用Flink-Kafka-Connector提取序列化后的二进制特征数据)。所述统计特征,可通过Flink的DAG运算、时间窗口(Time Window)、数量端口(CountWindow)来进行获取。
特别地,所述统计特征包括但不限于:
过去X秒内,与当前包具有相同目标的主机的数据包数;
过去X秒内,与当前包具有相同服务的主机的数据包数;
过去X秒内,与当前包具有相同目标主机的数据包的百分比;
过去X秒内,与当前包具有相同服务的主机的数据包的百分比;
过去X秒内,与当前包具有不同目标主机的数据包的百分比;
前Y个数据包中,与当前包具有相同目标的主机的数据包数;
前Y个数据包中,与当前包具有相同服务的主机的数据包数;
前Y个数据包中,与当前包具有相同目标主机的数据包的百分比;
前Y个数据包中,与当前包具有相同服务的主机的数据包的百分比;
前Y个数据包中,与当前包具有不同目标主机的数据包的百分比;
前Z个连接中,与当前包具有相同目标的主机的数据包数;
前Z个连接中,与当前包具有相同服务的主机的数据包数;
前Z个连接中,与当前包具有相同目标主机的数据包的百分比;
前Z个连接中,与当前包具有相同服务的主机的数据包的百分比;
前Z个连接中,与当前包具有不同目标主机的数据包的百分比。
所述X、Y和Z的值可根据具体网络环境进行适应性设置,一般来说,X可以取5~50,优选为10;Y可以取500~5000,优选为1000;Z可以取50~500,优选为100。
由于很多攻击是跟时间有关系的,提取出有时间关系的统计特征便于数据分析层的机器学习模块更好的发现攻击行为。
作为一种优选方案,所述数据存储层,包括分布式文件服务模块、分布式数据库模块以及检索服务模块。
所述分布式文件服务模块,用于保存原始数据包。所述分布式文件服务模块采用HDFS。HDFS是一种市面上常用的分布式文件系统,多用于大数据领域,其具备数据冗余备份、分片存储等功能,保障了数据存储的可靠性和高效性。
所述分布式数据库模块,用于保存实时计算层计算出来的总特征以及经过预处理后的数据包的唯一标签与原始数据包存储路径的映射关系。所述分布式数据库模块采用Hbase。Hbase以HDFS作为底层文件系统,实现了列式稀疏存储,在本发明中,Hbase用于存储网络流特征,包括直接提取的特征以及统计特征,这些特征以列式稀疏存储的方式存储在Hbase中。
所述检索服务模块,用于存储计算结果数据、建立索引以及快速检索结果数据并进行展示。所述检索服务模块可采用ElasticSearch来实现,所述Elasticsearch是一个分布式的搜索和分析引擎,可以用于全文检索、结构化检索和分析,并能将这三者结合起来。
作为一种优选方案,所述数据分析层,包括模型训练模块、实时检测模块。
所述模型训练模块,以所述分布式数据库模块中的特征作为输入通过机器学习来训练用于识别带有攻击行为的流量的模型。所述模型训练模块可采用集成学习算法,让模型从大量的特征中学习,不断优化算法对带有攻击行为的流量的识别能力。
所述实时检测模块,将从实时计算层计算出来的特征通过模型训练模块中训练好的模型来进行检测,当检测出可疑流量时,所述数据分析层将可疑流量保存到检索服务模块中。检索服务模块对所述可疑流量建立索引,方便分析人员进行各种维度的检索和查询。所述可疑流量以每个特征作为一个字段进行保存,包括这个会话包含的数据包在流量采集层中预处理时打上的唯一标签。
所述数据分析层可使用Spark作为计算引擎,进行模型训练、数据挖掘以及统计分析,所述统计分析包括离线分析和实时分析。
作为一种优选方案,所述应用层,为数据分析层和数据存储层提供可视化界面,包括智能分析模块、可视化告警模块、APT关联分析模块。
所述智能分析模块用于分析指定IP、端口、时间范围、网络会话流量趋势以及会话信息,为进一步的故障定位提供数据支持。
所述可视化告警模块对经过异常检测分类的流量进行展示和告警。所述告警的数据用于对攻击行为进行定位。
APT关联分析模块用于对各类渗透、窃密行为进行精准识别,并可快速追踪问题源、提取异常数据、还原异常通讯现象,为安全取证提供依据。为安全管理提供发现和掌握异常行为的能力,以保障关键数据安全。通过深入的数据关联、数据包解码分析和特征分析,真实的还原安全事件的发生过程,从而构建出高级持续性威胁的攻击画像。
实施例2:
一种基于大数据的实时网络异常行为检测方法,包括流量采集层、数据管道层、实时计算层、数据存储层、数据分析层以及应用层,具体包括以下步骤:
S1:流量采集层从数据源采集流量数据,并对数据进行预处理,之后将预处理后的数据发送到数据管道层中的分布式消息系统,并将原始数据包保存到数据存储层中;
S2:实时计算层从所述分布式消息系统中获取经过预处理的数据,从所述数据中获得基础特征并提取统计特征,再将所述统计特征和协议特征追加到基础特征中形成总的特征,然后将总的特征保存到数据存储层中;
S3:数据分析层从数据存储层中获取总的特征并将所述特征作为输入通过机器学习来训练用于识别带有攻击行为的流量的模型;
S4:数据分析层将从实时计算层计算出来的特征通过训练好的模型来进行检测,当检测出可疑流量时,所述数据分析层将可疑流量保存到数据存储层中并建立索引;
S5:应用层通过索引检索数据存储层中保存的可疑流量信息并对其进行展示和告警。
作为一种优选方案,所述步骤S1中所述的对数据进行预处理包括以下步骤:
S11:对采集自数据源的数据包进行解析,给每个数据包打上唯一标签;
S12:对解析后的流量数据特征进行提取(主要是一些简单的特征,如IP、端口号、协议等);
S13:将提取后的数据通过序列化转换成二进制格式。
进一步地,在预处理后的数据发送到数据管道层后,还包括如下步骤:
S21:实时计算层将数据包的唯一标签与原始数据包存储路径的映射关系保存到数据存储层;
作为一种优选方案,所述步骤S3中的统计特征包括:
过去X秒内,与当前包具有相同目标的主机的数据包数;
过去X秒内,与当前包具有相同服务的主机的数据包数;
过去X秒内,与当前包具有相同目标主机的数据包的百分比;
过去X秒内,与当前包具有相同服务的主机的数据包的百分比;
过去X秒内,与当前包具有不同目标主机的数据包的百分比;
前Y个数据包中,与当前包具有相同目标的主机的数据包数;
前Y个数据包中,与当前包具有相同服务的主机的数据包数;
前Y个数据包中,与当前包具有相同目标主机的数据包的百分比;
前Y个数据包中,与当前包具有相同服务的主机的数据包的百分比;
前Y个数据包中,与当前包具有不同目标主机的数据包的百分比;
前Z个连接中,与当前包具有相同目标的主机的数据包数;
前Z个连接中,与当前包具有相同服务的主机的数据包数;
前Z个连接中,与当前包具有相同目标主机的数据包的百分比;
前Z个连接中,与当前包具有相同服务的主机的数据包的百分比;
前Z个连接中,与当前包具有不同目标主机的数据包的百分比。
所述X、Y和Z的值可根据具体网络环境进行适应性设置,一般来说,X可以取5~50,优选为10;Y可以取500~5000,优选为1000;Z可以取50~500,优选为100。
由于很多攻击是跟时间有关系的,提取出有时间关系的统计特征便于数据分析层的机器学习模块更好的发现攻击行为。
以上所述仅为本发明的优选实施方式,本发明的保护范围并不仅限于上述实施方式,凡是属于本发明原理的技术方案均属于本发明的保护范围。对于本领域的技术人员而言,在不脱离本发明的原理的前提下进行的若干改进,这些改进也应视为本发明的保护范围。

Claims (10)

1.一种基于大数据的实时网络异常行为检测系统,其特征在于:包括流量采集层、数据管道层、实时计算层、数据存储层、数据分析层以及应用层;
所述流量采集层,包括对数据源进行流量采集的采集装置,所述采集装置提供流量采集服务,包括数据包捕获服务、数据包解析服务、本地落盘服务、数据特征提取服务、数据流序列化服务以及数据发送服务;所述采集装置通过数据包捕获服务捕获数据包,之后将采集的数据进行预处理,之后通过数据发送服务将经过预处理的数据传送到数据管道层,还通过本地落盘服务将原始数据包保存到数据存储层的分布式文件服务模块中;所述预处理中通过数据包解析服务给每个数据包打上唯一标签,通过数据特征提取服务对数据进行特征提取,通过数据流序列化服务处理成统一的二进制格式;
所述数据管道层,包括数据管道服务模块,所述数据管道服务模块采用分布式消息系统;所述数据管道服务模块将经过预处理的数据放入分布式消息系统中以供实时计算层获取;
所述实时计算层,包括流式计算模块,所述流式计算模块提供流式计算服务,所述流式计算服务包括特征反序列化与切割服务、特征统计分析服务以及特征入库服务;所述流式计算模块从数据管道层获取经过预处理的数据,通过特征反序列化与切割服务获得基础特征,通过特征统计分析服务获得统计特征,再将所述统计特征和协议特征追加到所述基础特征中形成总的特征,并通过特征入库服务将所述总的特征保存到所述数据存储层的分布式数据库模块中;所述实时计算层还将所述数据包的唯一标签与原始数据包存储路径的映射关系保存到数据存储层的分布式数据库模块中;
所述数据存储层,包括分布式文件服务模块、分布式数据库模块以及检索服务模块;所述分布式文件服务模块,用于保存原始数据包;所述分布式数据库模块,用于保存实时计算层计算出来的总的特征,以及经过预处理后的数据包的唯一标签与原始数据包存储路径的映射关系;所述检索服务模块,用于存储计算结果数据,以及快速检索所述计算结果数据供应用层进行展示;
所述数据分析层,包括模型训练模块、实时检测模块;所述模型训练模块,以所述分布式数据库模块中的特征作为输入通过机器学习来训练用于识别带有攻击行为的流量的模型;所述实时检测模块,将从实时计算层计算出来的特征通过模型训练模块中训练好的模型来进行检测,当检测出可疑流量时,所述数据分析层将可疑流量保存到检索服务模块中;
所述应用层,包括可视化告警模块,所述可视化告警模块对保存在检索服务模块中的可疑流量进行展示和告警。
2.根据权利要求1所述的一种基于大数据的实时网络异常行为检测系统,其特征在于:所述采集装置包括对从交换机上镜像下来的流量进行采集的镜像流量采集模块、对本地文件进行采集的本地文件采集模块以及对传感器的数据进行采集的网络探针采集模块,所述镜像流量采集模块、所述本地文件采集模块和所述网络探针采集模块均能提供所述流量采集服务。
3.根据权利要求1所述的一种基于大数据的实时网络异常行为检测系统,其特征在于:所述数据管道层包括多个数据管道节点。
4.根据权利要求1所述的一种基于大数据的实时网络异常行为检测系统,其特征在于:所述统计特征包括但不限于:
过去X秒内,与当前包具有相同目标的主机的数据包数;
过去X秒内,与当前包具有相同服务的主机的数据包数;
过去X秒内,与当前包具有相同目标主机的数据包的百分比;
过去X秒内,与当前包具有相同服务的主机的数据包的百分比;
过去X秒内,与当前包具有不同目标主机的数据包的百分比;
前Y个数据包中,与当前包具有相同目标的主机的数据包数;
前Y个数据包中,与当前包具有相同服务的主机的数据包数;
前Y个数据包中,与当前包具有相同目标主机的数据包的百分比;
前Y个数据包中,与当前包具有相同服务的主机的数据包的百分比;
前Y个数据包中,与当前包具有不同目标主机的数据包的百分比;
前Z个连接中,与当前包具有相同目标的主机的数据包数;
前Z个连接中,与当前包具有相同服务的主机的数据包数;
前Z个连接中,与当前包具有相同目标主机的数据包的百分比;
前Z个连接中,与当前包具有相同服务的主机的数据包的百分比;
前Z个连接中,与当前包具有不同目标主机的数据包的百分比;
所述X的取值范围为5~50,Y的取值范围为500~5000,Z的取值范围为50~500。
5.根据权利要求1所述的一种基于大数据的实时网络异常行为检测系统,其特征在于:所述分布式消息系统采用kafka,所述流式计算模块采用Flink来进行流式计算,所述分布式文件服务模块采用HDFS,所述分布式数据库模块采用Hbase,所述检索服务模块采用ElasticSearch来实现。
6.根据权利要求1所述的一种基于大数据的实时网络异常行为检测系统,其特征在于:所述应用层还包括智能分析模块和APT关联分析模块,所述智能分析模块用于分析指定IP、端口、时间范围、网络会话流量趋势以及会话信息;所述APT关联分析模块用于对各类渗透、窃密行为进行精准识别,并快速追踪问题源、提取异常数据、还原异常通讯现象。
7.一种基于大数据的实时网络异常行为检测方法,其特征在于:包括流量采集层、数据管道层、实时计算层、数据存储层、数据分析层以及应用层,具体包括以下步骤:
S1:流量采集层从数据源采集流量数据,并对数据进行预处理,之后将预处理后的数据发送到数据管道层中的分布式消息系统,并将原始数据包保存到数据存储层;
S2:实时计算层从所述分布式消息系统中获取经过预处理的数据,从所述数据中获得基础特征并提取统计特征,再将所述统计特征和协议特征追加到基础特征中形成总的特征,然后将总的特征保存到数据存储层中;
S3:数据分析层从数据存储层中获取总的特征并将所述特征作为输入通过机器学习来训练用于识别带有攻击行为的流量的模型;
S4:数据分析层将从实时计算层计算出来的特征通过训练好的模型来进行检测,当检测出可疑流量时,所述数据分析层将可疑流量保存到数据存储层中;
S5:应用层检索数据存储层中保存的可疑流量信息并对其进行展示和告警。
8.根据权利要求7所述的一种基于大数据的实时网络异常行为检测方法,其特征在于:所述步骤S1中的预处理包括以下步骤:
S11:对采集自数据源的数据包进行解析,给每个数据包打上唯一标签;
S12:对解析后的流量数据特征进行提取;
S13:将提取后的数据通过序列化转换成二进制格式。
9.根据权利要求8所述的一种基于大数据的实时网络异常行为检测方法,其特征在于:所述步骤S2还包括以下步骤:
S21:实时计算层将数据包的唯一标签与原始数据包存储路径的映射关系保存到数据存储层。
10.根据权利要求7所述的一种基于大数据的实时网络异常行为检测方法,其特征在于:所述步骤S3中的统计特征包括:
过去X秒内,与当前包具有相同目标的主机的数据包数;
过去X秒内,与当前包具有相同服务的主机的数据包数;
过去X秒内,与当前包具有相同目标主机的数据包的百分比;
过去X秒内,与当前包具有相同服务的主机的数据包的百分比;
过去X秒内,与当前包具有不同目标主机的数据包的百分比;
前Y个数据包中,与当前包具有相同目标的主机的数据包数;
前Y个数据包中,与当前包具有相同服务的主机的数据包数;
前Y个数据包中,与当前包具有相同目标主机的数据包的百分比;
前Y个数据包中,与当前包具有相同服务的主机的数据包的百分比;
前Y个数据包中,与当前包具有不同目标主机的数据包的百分比;
前Z个连接中,与当前包具有相同目标的主机的数据包数;
前Z个连接中,与当前包具有相同服务的主机的数据包数;
前Z个连接中,与当前包具有相同目标主机的数据包的百分比;
前Z个连接中,与当前包具有相同服务的主机的数据包的百分比;
前Z个连接中,与当前包具有不同目标主机的数据包的百分比;
所述X的取值范围为5~50,Y的取值范围为500~5000,Z的取值范围为50~500。
CN201810079555.8A 2018-01-26 2018-01-26 一种基于大数据的实时网络异常行为检测系统及方法 Active CN108040074B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810079555.8A CN108040074B (zh) 2018-01-26 2018-01-26 一种基于大数据的实时网络异常行为检测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810079555.8A CN108040074B (zh) 2018-01-26 2018-01-26 一种基于大数据的实时网络异常行为检测系统及方法

Publications (2)

Publication Number Publication Date
CN108040074A CN108040074A (zh) 2018-05-15
CN108040074B true CN108040074B (zh) 2020-07-31

Family

ID=62097465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810079555.8A Active CN108040074B (zh) 2018-01-26 2018-01-26 一种基于大数据的实时网络异常行为检测系统及方法

Country Status (1)

Country Link
CN (1) CN108040074B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109711554B (zh) * 2018-09-07 2021-06-04 天翼电子商务有限公司 一种基于基础设施大数据的应用弹性管理装置
CN111078488B (zh) * 2018-10-18 2021-11-09 杭州海康威视数字技术股份有限公司 数据采集方法、装置、存储介质及系统
CN109284296A (zh) * 2018-10-24 2019-01-29 北京云睿科技有限公司 一种大数据pb级分布式信息存储与检索平台
CN109710731A (zh) * 2018-11-19 2019-05-03 北京计算机技术及应用研究所 一种基于Flink的数据流多向处理系统
CN110413701A (zh) * 2019-08-08 2019-11-05 江苏满运软件科技有限公司 分布式数据库入库方法、系统、设备及存储介质
CN111917789B (zh) * 2020-08-08 2021-05-18 湖南嘉杰信息技术有限公司 基于大数据和物联网通信的数据处理方法及云计算平台
CN112929386B (zh) * 2020-08-08 2022-06-28 重庆华唐云树科技有限公司 基于人工智能和异常识别的模型训练方法、系统及平台
CN111935279B (zh) * 2020-08-08 2021-07-09 江苏小梦科技有限公司 基于区块链和大数据的物联网络维护方法及计算节点
CN111818097B (zh) * 2020-09-01 2020-12-22 北京安帝科技有限公司 基于行为的流量监测方法及装置
CN112052149B (zh) * 2020-09-06 2022-02-22 厦门理工学院 一种大数据信息采集系统及使用方法
CN112165487B (zh) * 2020-09-27 2022-07-15 上海万向区块链股份公司 基于zeek的分布式网络安全、性能检测方法及系统
CN112822151A (zh) * 2020-11-06 2021-05-18 浙江中烟工业有限责任公司 面向控制网络工业计算机的多层精准主动网络攻击检测方法及系统
CN114598895B (zh) * 2020-12-04 2023-08-11 腾讯云计算(长沙)有限责任公司 音视频处理方法、装置、设备及计算机可读存储介质
CN112685394A (zh) * 2020-12-25 2021-04-20 北京鼎普科技股份有限公司 一种基于Flink的实时威胁情报关联方法、装置、系统
CN112948386B (zh) * 2021-03-04 2023-09-22 电信科学技术第五研究所有限公司 一种针对etl异常数据的简易索引及加密落盘机制
CN112906907B (zh) * 2021-03-24 2024-02-23 成都工业学院 一种机器学习管道模型分层化管理和分发的方法及系统
CN113391976A (zh) * 2021-06-15 2021-09-14 厦门理工学院 一种分布式数据节点异常行为检测方法、系统及存储介质
CN113407410A (zh) * 2021-06-15 2021-09-17 厦门理工学院 一种区块链网络异常检测方法
US11494489B1 (en) * 2021-06-25 2022-11-08 Oracle International Corporation Synthesis of deserialization filters from positive and negative examples
CN114024769A (zh) * 2021-12-07 2022-02-08 中国建设银行股份有限公司 一种网络流量安全控制系统
CN114338180A (zh) * 2021-12-30 2022-04-12 青岛黄海学院 一种大数据网络通信实现方法
CN115643115B (zh) * 2022-12-23 2023-03-10 武汉大学 基于大数据的工控网络安全态势预测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103561018A (zh) * 2013-10-30 2014-02-05 蓝盾信息安全技术股份有限公司 一种面向大数据应用平台的入侵检测的实时分析系统
CN104579823A (zh) * 2014-12-12 2015-04-29 国家电网公司 一种基于大数据流的网络流量异常检测系统及方法
CN105553957A (zh) * 2015-12-09 2016-05-04 国家电网公司 基于大数据的网络安全态势感知预警方法和系统
CN107196910A (zh) * 2017-04-18 2017-09-22 国网山东省电力公司电力科学研究院 基于大数据分析的威胁预警监测系统、方法及部署架构
CN107248976A (zh) * 2017-05-03 2017-10-13 成都国腾实业集团有限公司 基于大数据分析的apt监测防御平台

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103561018A (zh) * 2013-10-30 2014-02-05 蓝盾信息安全技术股份有限公司 一种面向大数据应用平台的入侵检测的实时分析系统
CN104579823A (zh) * 2014-12-12 2015-04-29 国家电网公司 一种基于大数据流的网络流量异常检测系统及方法
CN105553957A (zh) * 2015-12-09 2016-05-04 国家电网公司 基于大数据的网络安全态势感知预警方法和系统
CN107196910A (zh) * 2017-04-18 2017-09-22 国网山东省电力公司电力科学研究院 基于大数据分析的威胁预警监测系统、方法及部署架构
CN107248976A (zh) * 2017-05-03 2017-10-13 成都国腾实业集团有限公司 基于大数据分析的apt监测防御平台

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王萍.《基于大数据技术的网络异常行为分析监测系统》.《电子技术与软件工程》.2017,172-173. *

Also Published As

Publication number Publication date
CN108040074A (zh) 2018-05-15

Similar Documents

Publication Publication Date Title
CN108040074B (zh) 一种基于大数据的实时网络异常行为检测系统及方法
CN111277578B (zh) 加密流量分析特征提取方法、系统、存储介质、安全设备
US9848004B2 (en) Methods and systems for internet protocol (IP) packet header collection and storage
CN111935170B (zh) 一种网络异常流量检测方法、装置及设备
US7903566B2 (en) Methods and systems for anomaly detection using internet protocol (IP) traffic conversation data
US7995496B2 (en) Methods and systems for internet protocol (IP) traffic conversation detection and storage
US20160112287A1 (en) Storing and analyzing network traffic data
US8762515B2 (en) Methods and systems for collection, tracking, and display of near real time multicast data
US20100050262A1 (en) Methods and systems for automated detection and tracking of network attacks
CN111258979B (zh) 一种云防护日志系统及其工作方法
CN114584401B (zh) 一种面向大规模网络攻击的追踪溯源系统及方法
CN113645232B (zh) 一种面向工业互联网的智能化流量监测方法、系统及存储介质
EP3282643B1 (en) Method and apparatus of estimating conversation in a distributed netflow environment
Karimi et al. Distributed network traffic feature extraction for a real-time IDS
KR101602189B1 (ko) 10기가급 패킷 캡쳐링에 의한 트래픽 분석 및 망 감시 시스템
CN107302534A (zh) 一种基于大数据平台的DDoS网络攻击检测方法及装置
CN115776449B (zh) 列车以太网通信状态监测方法及系统
CN116257021A (zh) 一种工控系统智能网络安全态势监测预警平台
CN110855461A (zh) 一种基于关联分析和规则库的日志分析方法
CN111654499B (zh) 一种基于协议栈的暴破攻击识别方法和装置
CN110830416A (zh) 网络入侵检测方法和装置
US20150150132A1 (en) Intrusion detection system false positive detection apparatus and method
CN112257069A (zh) 一种基于流量数据分析的服务器安全事件审计方法
CN111865951A (zh) 一种基于数据包特征提取的网络数据流异常检测方法
CN110636077A (zh) 一种基于统一平台的网络安全防护系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant