CN108040074B

CN108040074B - 一种基于大数据的实时网络异常行为检测系统及方法

Info

Publication number: CN108040074B
Application number: CN201810079555.8A
Authority: CN
Inventors: 高英; 靳亚洽; 刘煜; 李若鹏
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2018-01-26
Filing date: 2018-01-26
Publication date: 2020-07-31
Anticipated expiration: 2038-01-26
Also published as: CN108040074A

Abstract

本发明公开了一种基于大数据的实时网络异常行为检测系统，包括流量采集层、数据管道层、实时计算层、数据存储层、数据分析层以及应用层；所述流量采集层，包括采集装置；所述数据管道层，包括采用分布式消息系统的数据管道服务模块；所述实时计算层，包括流式计算模块；所述数据存储层，包括分布式文件服务模块、分布式数据库模块以及检索服务模块；所述数据分析层，包括模型训练模块、实时检测模块；所述应用层，包括可视化告警模块。还公开了一种一种基于大数据的实时网络异常行为检测方法。本发明数据采集效率高，数据传输稳定可靠，能够对高级持续性威胁进行高效检测和分析，可溯源取证，方便分析人员检索，模型训练效率高，误报率低。

Description

一种基于大数据的实时网络异常行为检测系统及方法

技术领域

本发明属于网络安全管理技术领域，具体涉及一种基于大数据的实时网络异常行为检测系统及方法。

背景技术

随着网络应用的不断发展，如何从网络数据报文中发现异常行为，并给出预警，已经成为当前网络安全管理的一个重要研究领域。现有的网络流量异常检测平台大多数依赖SNMP或者Netflow之类的采集方式，SNMP比较依赖路由器的性能，采集效率比较低下，而Netflow只提供的流的统计信息，对于数据包本身的信息并没有采集下来，不能为后续全流量的分析提供数据。其次，在流式计算过程中，现有的基于大数据的网络流量异常检测平台采用的是像spark streaming之类的流式计算引擎，Spark Streaming是基于数据片集合(RDD)进行小批量处理的，在流式处理方面的性能不够理想。另外，现有基于大数据的网络流量异常检测平台多是基于netflow或者ipfix技术，对网络流量进行特征匹配或者基于简单的统计，对于像高级持续性威胁(APT)这类的攻击很难进行检测。

发明内容

针对现有技术中所存在的不足，本发明提供了一种数据采集效率高、数据传输稳定可靠、能够对高级持续性威胁(APT)进行高效检测和分析、可溯源取证、方便分析人员检索、模型训练效率高、误报率低的基于大数据的实时网络异常行为检测系统。

一种基于大数据的实时网络异常行为检测系统，包括流量采集层、数据管道层、实时计算层、数据存储层、数据分析层以及应用层；

所述流量采集层，包括对数据源进行流量采集的采集装置，所述采集装置提供流量采集服务，包括数据包捕获服务、数据包解析服务、本地落盘服务、数据特征提取服务、数据流序列化服务以及数据发送服务；所述采集装置通过数据包捕获服务捕获数据包，之后将采集的数据进行预处理，之后通过数据发送服务将经过预处理的数据传送到数据管道层，还通过本地落盘服务将原始数据包保存到数据存储层的分布式文件服务模块中；所述预处理中通过数据包解析服务给每个数据包打上唯一标签，通过数据特征提取服务对数据进行特征提取，通过数据流序列化服务处理成统一的二进制格式；

所述数据管道层，包括数据管道服务模块，所述数据管道服务模块采用分布式消息系统；所述数据管道服务模块将经过预处理的数据放入分布式消息系统中以供实时计算层获取；

所述实时计算层，包括流式计算模块，所述流式计算模块提供流式计算服务，所述流式计算服务包括特征反序列化与切割服务、特征统计分析服务以及特征入库服务；所述流式计算模块从数据管道层获取经过预处理的数据，通过特征反序列化与切割服务得到基础特征，通过特征统计分析服务得到统计特征，再将所述统计特征和协议特征追加到所述基础特征中形成总的特征，并通过特征入库服务将所述总的特征保存到所述数据存储层的分布式数据库模块中；所述实时计算层还将所述数据包的唯一标签与原始数据包存储路径的映射关系保存到数据存储层的分布式数据库模块中；

所述数据存储层，包括分布式文件服务模块、分布式数据库模块以及检索服务模块；所述分布式文件服务模块，用于保存原始数据包；所述分布式数据库模块，用于保存实时计算层计算出来的总的特征，以及经过预处理后的数据包的唯一标签与原始数据包存储路径的映射关系；所述检索服务模块，用于存储计算结果数据，以及快速检索所述计算结果数据供应用层进行展示；

所述数据分析层，包括模型训练模块、实时检测模块；所述模型训练模块，以所述分布式数据库模块中的特征作为输入通过机器学习来训练用于识别带有攻击行为的流量的模型；所述实时检测模块，将从实时计算层计算出来的特征通过模型训练模块中训练好的模型来进行检测，当检测出可疑流量时，所述数据分析层将可疑流量保存到检索服务模块中；

所述应用层，包括可视化告警模块，所述可视化告警模块对保存在检索服务模块中的可疑流量进行展示和告警。

进一步地，所述采集装置包括对从交换机上镜像下来的流量进行采集的镜像流量采集模块、对本地文件进行采集的本地文件采集模块以及对传感器的数据进行采集的网络探针采集模块，所述三种模块均能提供所述流量采集服务。

进一步地，所述数据管道层包括多个数据管道节点。

进一步地，所述统计特征包括但不限于：

过去X秒内，与当前包具有相同目标的主机的数据包数；

过去X秒内，与当前包具有相同服务的主机的数据包数；

过去X秒内，与当前包具有相同目标主机的数据包的百分比；

过去X秒内，与当前包具有相同服务的主机的数据包的百分比；

过去X秒内，与当前包具有不同目标主机的数据包的百分比；

前Y个数据包中，与当前包具有相同目标的主机的数据包数；

前Y个数据包中，与当前包具有相同服务的主机的数据包数；

前Y个数据包中，与当前包具有相同目标主机的数据包的百分比；

前Y个数据包中，与当前包具有相同服务的主机的数据包的百分比；

前Y个数据包中，与当前包具有不同目标主机的数据包的百分比；

前Z个连接中，与当前包具有相同目标的主机的数据包数；

前Z个连接中，与当前包具有相同服务的主机的数据包数；

前Z个连接中，与当前包具有相同目标主机的数据包的百分比；

前Z个连接中，与当前包具有相同服务的主机的数据包的百分比；

前Z个连接中，与当前包具有不同目标主机的数据包的百分比；

所述X的取值范围为5～50，Y的取值范围为500～5000，Z的取值范围为50～500。

进一步地，所述分布式消息系统采用kafka，所述流式计算模块采用Flink来进行流式计算，所述分布式文件服务模块采用HDFS，所述分布式数据库模块采用Hbase，所述检索服务模块采用ElasticSearch来实现。

进一步地，所述应用层还包括智能分析模块和APT关联分析模块，所述智能分析模块用于分析指定IP、端口、时间范围、网络会话流量趋势以及会话信息；所述APT关联分析模块用于对各类渗透、窃密行为进行精准识别，并快速追踪问题源、提取异常数据、还原异常通讯现象。

本发明还公开了一种基于大数据的实时网络异常行为检测方法。

一种基于大数据的实时网络异常行为检测方法，包括流量采集层、数据管道层、实时计算层、数据存储层、数据分析层以及应用层，具体包括以下步骤：

S1：流量采集层从数据源采集流量数据，并对数据进行预处理，之后将预处理后的数据发送到数据管道层中的分布式消息系统，并将原始数据包保存到数据存储层；

S2：实时计算层从所述分布式消息系统中获取经过预处理的数据，从所述数据中获得基础特征并提取统计特征，再将所述统计特征和协议特征追加到基础特征中形成总的特征，然后将总的特征保存到数据存储层中；

S3：数据分析层从数据存储层中获取总的特征并将所述特征作为输入通过机器学习来训练用于识别带有攻击行为的流量的模型；

S4：数据分析层将从实时计算层计算出来的特征通过训练好的模型来进行检测，当检测出可疑流量时，所述数据分析层将可疑流量保存到数据存储层中；

S5：应用层检索数据存储层中保存的可疑流量信息并对其进行展示和告警。

进一步地，所述步骤S1中的预处理包括以下步骤：

S11：对采集自数据源的数据包进行解析，给每个数据包打上唯一标签；

S12：对解析后的流量数据特征进行提取；

S13：将提取后的数据通过序列化转换成二进制格式。

进一步地，所述步骤S2还包括以下步骤：

S21：实时计算层将数据包的唯一标签与原始数据包存储路径的映射关系保存到数据存储层；

进一步地，所述步骤S3中的统计特征包括：

过去X秒内，与当前包具有相同目标的主机的数据包数；

过去X秒内，与当前包具有相同服务的主机的数据包数；

过去X秒内，与当前包具有相同目标主机的数据包的百分比；

过去X秒内，与当前包具有不同目标主机的数据包的百分比；

前Y个数据包中，与当前包具有相同目标的主机的数据包数；

前Y个数据包中，与当前包具有相同服务的主机的数据包数；

前Z个连接中，与当前包具有相同目标的主机的数据包数；

前Z个连接中，与当前包具有相同服务的主机的数据包数；

相比于现有技术，本发明具有如下有益效果：

1、通过分别对镜像流量、本地文件和传感器的数据进行采集，对路由器性能依赖较小，采集效率较高，能对后续异常行为分析提供充足的数据来源；

2、通过建立数据管道层并采用分布式消息系统，能防止因瞬间访问量过大导致下游实时处理出现停顿，进而起到有效的缓冲作用，能够在真实场景中保障数据传输的可靠性，避免数据的丢失，提升整个系统的鲁棒性；同时统一的数据管道利于数据流的管理，节省更多的人力成本；

3、通过建立统计特征并将其与基础特征结合，有助于更好地发现高级持续性威胁(APT)的攻击特点并为模型训练提供更为丰富的特征，为后续的异常行为检测提供有力支持；

4、通过采用分布式存储，保障了数据存储的可靠性和高效性；

5、通过机器学习的方法对提取的特征进行模型训练，有效提高了异常行为检测的精度；

6、通过对检测出的异常流量建立索引，可以方便分析人员进行各种维度的检索和查询，使检测结果更加直观。

附图说明

图1为本发明中系统框架示意图；

图2为本发明中系统框架流程图。

具体实施方式

为了使发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体图示，进一步阐述本发明。

实施例1：

一种基于大数据的实时网络异常行为检测系统，如图1～2所示，包括流量采集层、数据管道层、实时计算层、数据存储层、数据分析层以及应用层。

作为一种优选方案，所述流量采集层，包括对从交换机上镜像下来的流量进行采集的镜像流量采集模块、对本地文件进行采集的本地文件采集模块以及对传感器的数据进行采集的网络探针采集模块。所述三种模块均能提供流量采集服务，所述流量采集服务包括数据包捕获服务、数据包解析服务、本地落盘服务、数据特征提取服务、数据流序列化服务以及数据发送服务。

所述流量采集层通过数据包捕获服务捕获数据包，之后将采集的数据进行预处理，之后通过数据发送服务将经过预处理的数据传送到数据管道层的数据管道服务模块中，还通过本地落盘服务将原始数据包保存到数据存储层的分布式文件服务模块中。所述预处理中通过数据包解析服务给每个数据包打上唯一标签，通过数据特征提取服务对数据进行特征提取，通过数据流序列化服务处理成统一的二进制格式。

流量采集层给数据包打上标签后将数据包存储在分布式文件服务模块中，二进制的特征保存在数据管道层中，特征里包括原始数据包的标签，数据管道层可以通过标签在分布式文件系统中查找到数据包。

上述服务由数据收集工具(PcapReader)来进行支持。在数据收集工具中，可采用libpcap包作为网络数据包的捕获工具；所述Libpcap包是目前unix以及linux平台下的基础网络数据捕获函数包，能够提供高性能的数据包捕获服务。特别地，可采用gopacket数据包工具来驱动libpcap函数包，捕捉原始的网络数据包。捕获到的数据包中包含了应用层、网络层、传输层、数据链路层等四层的数据内容，由于其中很多的数据内容没有价值，因此需要对数据特征进行提取(即数据特征提取服务)；另外，需将数据包进行落盘处理，生成本地pcap包文件，用于长时间存储保存(即本地落盘服务)。

作为一种优选方案，所述数据管道层，包括数据管道服务模块，所述数据管道服务模块采用分布式消息系统。所述数据管道层为流量采集层所收集到的数据提供缓冲通道以及统一的数据通道，将经过预处理的数据放入数据管道服务模块的分布式消息系统中以供实时计算层获取。

所述数据管道层包括多个数据管道节点。分布式消息系统可采用kafka。Kafka能够同时支持多个生产者与消费者，保障数据传输的高效性，具备的数据分区复制(replica)功能，保障数据的可靠性。本发明采用多个数据管道节点作为数据管道的基石，保障了数据传输的可靠性和高效性。

由于在真实的场景中，往往会出现瞬间访问量过大、或者下游实时处理出现停顿的问题，此时数据管道的缓冲作用就尤为重要，能够在真实场景中保障数据传输的可靠性，避免数据的丢失，提升整个系统的鲁棒性。同时统一的数据管道利于数据流的管理，节省更多的人力成本。

作为一种优选方案，所述实时计算层，包括流式计算模块，所述流式计算模块提供流式计算服务，所述流式计算服务包括特征反序列化与切割服务、特征统计分析服务以及特征入库服务。所述流式计算模块可采用Flink来进行流式计算。所述Flink是第四代大数据计算引擎，其主要的表现为Flink对于流计算的支持。Flink把所有的任务都当做流来处理，可以支持本地快速迭代，支持Batch运算以及DAG运算。Flink不但与Hadoop平台其他组件有比较好的兼容性，而且与传统的Spark Streaming相比具有更高效的流式计算能力。

所述实时计算层从数据管道层获取经过预处理的流量数据，通过流式计算模块中的特征反序列化与切割服务得到基础特征，通过特征统计分析服务得到统计特征，再将所述统计特征和基于不同协议的特征(即协议特征)追加到所述基础特征中形成总的特征，并通过特征入库服务将所述总的特征保存到所述数据存储层的分布式数据库模块中。

实时计算层还将所述数据包的唯一标签与原始数据包存储路径的映射关系保存到数据存储层的分布式数据库模块中。

所述基础特征，即流量采集层通过数据特征提取服务获得的特征数据，通过特征反序列化与切割服务将经过流量采集层的数据流序列化服务处理后的二进制数据反序列化并切割还原得到(比如采用Flink-Kafka-Connector提取序列化后的二进制特征数据)。所述统计特征，可通过Flink的DAG运算、时间窗口(Time Window)、数量端口(CountWindow)来进行获取。

特别地，所述统计特征包括但不限于：

过去X秒内，与当前包具有相同目标的主机的数据包数；

过去X秒内，与当前包具有相同服务的主机的数据包数；

过去X秒内，与当前包具有相同目标主机的数据包的百分比；

过去X秒内，与当前包具有不同目标主机的数据包的百分比；

前Y个数据包中，与当前包具有相同目标的主机的数据包数；

前Y个数据包中，与当前包具有相同服务的主机的数据包数；

前Z个连接中，与当前包具有相同目标的主机的数据包数；

前Z个连接中，与当前包具有相同服务的主机的数据包数；

前Z个连接中，与当前包具有不同目标主机的数据包的百分比。

所述X、Y和Z的值可根据具体网络环境进行适应性设置，一般来说，X可以取5～50，优选为10；Y可以取500～5000，优选为1000；Z可以取50～500，优选为100。

由于很多攻击是跟时间有关系的，提取出有时间关系的统计特征便于数据分析层的机器学习模块更好的发现攻击行为。

作为一种优选方案，所述数据存储层，包括分布式文件服务模块、分布式数据库模块以及检索服务模块。

所述分布式文件服务模块，用于保存原始数据包。所述分布式文件服务模块采用HDFS。HDFS是一种市面上常用的分布式文件系统，多用于大数据领域，其具备数据冗余备份、分片存储等功能，保障了数据存储的可靠性和高效性。

所述分布式数据库模块，用于保存实时计算层计算出来的总特征以及经过预处理后的数据包的唯一标签与原始数据包存储路径的映射关系。所述分布式数据库模块采用Hbase。Hbase以HDFS作为底层文件系统，实现了列式稀疏存储，在本发明中，Hbase用于存储网络流特征，包括直接提取的特征以及统计特征，这些特征以列式稀疏存储的方式存储在Hbase中。

所述检索服务模块，用于存储计算结果数据、建立索引以及快速检索结果数据并进行展示。所述检索服务模块可采用ElasticSearch来实现，所述Elasticsearch是一个分布式的搜索和分析引擎，可以用于全文检索、结构化检索和分析，并能将这三者结合起来。

作为一种优选方案，所述数据分析层，包括模型训练模块、实时检测模块。

所述模型训练模块，以所述分布式数据库模块中的特征作为输入通过机器学习来训练用于识别带有攻击行为的流量的模型。所述模型训练模块可采用集成学习算法，让模型从大量的特征中学习，不断优化算法对带有攻击行为的流量的识别能力。

所述实时检测模块，将从实时计算层计算出来的特征通过模型训练模块中训练好的模型来进行检测，当检测出可疑流量时，所述数据分析层将可疑流量保存到检索服务模块中。检索服务模块对所述可疑流量建立索引，方便分析人员进行各种维度的检索和查询。所述可疑流量以每个特征作为一个字段进行保存，包括这个会话包含的数据包在流量采集层中预处理时打上的唯一标签。

所述数据分析层可使用Spark作为计算引擎，进行模型训练、数据挖掘以及统计分析，所述统计分析包括离线分析和实时分析。

作为一种优选方案，所述应用层，为数据分析层和数据存储层提供可视化界面，包括智能分析模块、可视化告警模块、APT关联分析模块。

所述智能分析模块用于分析指定IP、端口、时间范围、网络会话流量趋势以及会话信息，为进一步的故障定位提供数据支持。

所述可视化告警模块对经过异常检测分类的流量进行展示和告警。所述告警的数据用于对攻击行为进行定位。

APT关联分析模块用于对各类渗透、窃密行为进行精准识别，并可快速追踪问题源、提取异常数据、还原异常通讯现象，为安全取证提供依据。为安全管理提供发现和掌握异常行为的能力，以保障关键数据安全。通过深入的数据关联、数据包解码分析和特征分析，真实的还原安全事件的发生过程，从而构建出高级持续性威胁的攻击画像。

实施例2：

S1：流量采集层从数据源采集流量数据，并对数据进行预处理，之后将预处理后的数据发送到数据管道层中的分布式消息系统，并将原始数据包保存到数据存储层中；

S4：数据分析层将从实时计算层计算出来的特征通过训练好的模型来进行检测，当检测出可疑流量时，所述数据分析层将可疑流量保存到数据存储层中并建立索引；

S5：应用层通过索引检索数据存储层中保存的可疑流量信息并对其进行展示和告警。

作为一种优选方案，所述步骤S1中所述的对数据进行预处理包括以下步骤：

S12：对解析后的流量数据特征进行提取(主要是一些简单的特征，如IP、端口号、协议等)；

S13：将提取后的数据通过序列化转换成二进制格式。

进一步地，在预处理后的数据发送到数据管道层后，还包括如下步骤：

作为一种优选方案，所述步骤S3中的统计特征包括：

过去X秒内，与当前包具有相同目标的主机的数据包数；

过去X秒内，与当前包具有相同服务的主机的数据包数；

过去X秒内，与当前包具有相同目标主机的数据包的百分比；

过去X秒内，与当前包具有不同目标主机的数据包的百分比；

前Y个数据包中，与当前包具有相同目标的主机的数据包数；

前Y个数据包中，与当前包具有相同服务的主机的数据包数；

前Z个连接中，与当前包具有相同目标的主机的数据包数；

前Z个连接中，与当前包具有相同服务的主机的数据包数；

以上所述仅为本发明的优选实施方式，本发明的保护范围并不仅限于上述实施方式，凡是属于本发明原理的技术方案均属于本发明的保护范围。对于本领域的技术人员而言，在不脱离本发明的原理的前提下进行的若干改进，这些改进也应视为本发明的保护范围。

Claims

1.一种基于大数据的实时网络异常行为检测系统，其特征在于：包括流量采集层、数据管道层、实时计算层、数据存储层、数据分析层以及应用层；

所述实时计算层，包括流式计算模块，所述流式计算模块提供流式计算服务，所述流式计算服务包括特征反序列化与切割服务、特征统计分析服务以及特征入库服务；所述流式计算模块从数据管道层获取经过预处理的数据，通过特征反序列化与切割服务获得基础特征，通过特征统计分析服务获得统计特征，再将所述统计特征和协议特征追加到所述基础特征中形成总的特征，并通过特征入库服务将所述总的特征保存到所述数据存储层的分布式数据库模块中；所述实时计算层还将所述数据包的唯一标签与原始数据包存储路径的映射关系保存到数据存储层的分布式数据库模块中；

2.根据权利要求1所述的一种基于大数据的实时网络异常行为检测系统，其特征在于：所述采集装置包括对从交换机上镜像下来的流量进行采集的镜像流量采集模块、对本地文件进行采集的本地文件采集模块以及对传感器的数据进行采集的网络探针采集模块，所述镜像流量采集模块、所述本地文件采集模块和所述网络探针采集模块均能提供所述流量采集服务。

3.根据权利要求1所述的一种基于大数据的实时网络异常行为检测系统，其特征在于：所述数据管道层包括多个数据管道节点。

4.根据权利要求1所述的一种基于大数据的实时网络异常行为检测系统，其特征在于：所述统计特征包括但不限于：

过去X秒内，与当前包具有相同目标的主机的数据包数；

过去X秒内，与当前包具有相同服务的主机的数据包数；

过去X秒内，与当前包具有相同目标主机的数据包的百分比；

过去X秒内，与当前包具有不同目标主机的数据包的百分比；

前Y个数据包中，与当前包具有相同目标的主机的数据包数；

前Y个数据包中，与当前包具有相同服务的主机的数据包数；

前Z个连接中，与当前包具有相同目标的主机的数据包数；

前Z个连接中，与当前包具有相同服务的主机的数据包数；

5.根据权利要求1所述的一种基于大数据的实时网络异常行为检测系统，其特征在于：所述分布式消息系统采用kafka，所述流式计算模块采用Flink来进行流式计算，所述分布式文件服务模块采用HDFS，所述分布式数据库模块采用Hbase，所述检索服务模块采用ElasticSearch来实现。

6.根据权利要求1所述的一种基于大数据的实时网络异常行为检测系统，其特征在于：所述应用层还包括智能分析模块和APT关联分析模块，所述智能分析模块用于分析指定IP、端口、时间范围、网络会话流量趋势以及会话信息；所述APT关联分析模块用于对各类渗透、窃密行为进行精准识别，并快速追踪问题源、提取异常数据、还原异常通讯现象。

7.一种基于大数据的实时网络异常行为检测方法，其特征在于：包括流量采集层、数据管道层、实时计算层、数据存储层、数据分析层以及应用层，具体包括以下步骤：

8.根据权利要求7所述的一种基于大数据的实时网络异常行为检测方法，其特征在于：所述步骤S1中的预处理包括以下步骤：

S12：对解析后的流量数据特征进行提取；

S13：将提取后的数据通过序列化转换成二进制格式。

9.根据权利要求8所述的一种基于大数据的实时网络异常行为检测方法，其特征在于：所述步骤S2还包括以下步骤：

S21：实时计算层将数据包的唯一标签与原始数据包存储路径的映射关系保存到数据存储层。

10.根据权利要求7所述的一种基于大数据的实时网络异常行为检测方法，其特征在于：所述步骤S3中的统计特征包括：

过去X秒内，与当前包具有相同目标的主机的数据包数；

过去X秒内，与当前包具有相同服务的主机的数据包数；

过去X秒内，与当前包具有相同目标主机的数据包的百分比；

过去X秒内，与当前包具有不同目标主机的数据包的百分比；

前Y个数据包中，与当前包具有相同目标的主机的数据包数；

前Y个数据包中，与当前包具有相同服务的主机的数据包数；

前Z个连接中，与当前包具有相同目标的主机的数据包数；

前Z个连接中，与当前包具有相同服务的主机的数据包数；