CN110753064A

CN110753064A - 机器学习和规则匹配融合的安全检测系统

Info

Publication number: CN110753064A
Application number: CN201911031332.5A
Authority: CN
Inventors: 姜晓枫; 程思雨; 杨坚; 谭小彬; 张勇东
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-10-28
Filing date: 2019-10-28
Publication date: 2020-02-04
Anticipated expiration: 2039-10-28
Also published as: WO2021082339A1; US20220368703A1; CN110753064B

Abstract

本发明公开了一种机器学习和规则匹配融合的安全检测系统，包括：离线部分与在线部分；其中：离线部分，利用带有标签的合法流量和恶意流量建立机器学习模型，并进行模型训练；在线部分，通过采集网络流量并进行预处理，然后，进行两部分处理：第一部分为，采用传统规则匹配的方式从预处理结果中检测恶意流量；第二部分为，对预处理结果进行特征提取，再利用离线部分训练得到的机器学习模型识别出恶意流量；最后，融合两部分处理的结果，实现恶意流量的拦截。该系统既能检测已知恶意流量又能检测未知恶意流量，最大程度的减少入侵检测系统的误报率和漏报率，从而保证计算机网络的安全。

Description

机器学习和规则匹配融合的安全检测系统

技术领域

本发明涉及机器学习与信息安全技术领域，尤其涉及一种机器学习和规则匹配融合的安全检测系统。

背景技术

当今社会计算机网络应用于各行各业，网络可以满足商业、企业和政府机构的各种需求。但是如今这些计算机网络比以往任何时候都更加脆弱，因为今天的攻击者有良好的组织，充足的时间，专业的知识和大量的资源来发动网络攻击。攻击者像普通用户一样，生成数据并将恶意活动隐藏在TB级的数据之下。由于存储了海量的数据、存在可伸缩性问题和缺乏安全检测等，许多安全机制都无法保证网络的安全。

入侵检测系统(IDS)在20世纪80年代被提出，其根据网络流量数据来判断系统是否执行正常行动。在当今安全的通信和网络基础设施中，IDS是大多数网络的一部分。但是，IDS检测机制只有在具有足够的准确性来区分正常流量与恶意流量时才有用。使用IDS的结果有如下可能：检测到恶意流量、未检测到恶意流量、合法流量被IDS检测为恶意流量和合法流量被IDS检测通过。

优秀的IDS可以检测尽可能多的恶意流量并减少误报。目前有许多商业IDS，如：JuniperNetworks、McAfee、Cisco和Symantec等。商业IDS通常不能提供像宣传一样理想的性能并且可能损害计算机的网络安全。同时也有许多开源IDS可用，如Snort，Suricata和Bro等。Snort是一种具有内联防入侵功能的支持中高速网络的IDS，其包含获取网络数据包模块、解码和分类网络数据包模块以及根据规则集检测恶意数据包模块。Snort通过规则集来检查网络数据包中是否存在恶意流量，并在数据包的有效负载与其中一个规则发生匹配时触发警报。Snort的单线程架构，如图1所示。

网络速度和恶意流量的持续增加给IDS带来了严重问题。IDS都必须处理更高的网络流量以检测恶意流量，速度达到约10Gbps。如果IDS无法以所需的速率执行数据包检查，则它们将允许未被检测到的恶意数据包进入计算机网络。

传统的IDS使用规则集来检测已知的恶意流量，如果恶意流量与规则集匹配，则它将触发警报，这种方法效率高且误报率低。

发明内容

本发明的目的是提供一种机器学习和规则匹配融合的安全检测系统，既能检测已知恶意流量又能检测未知恶意流量，最大程度的减少入侵检测系统的误报率和漏报率，从而保证计算机网络的安全。

本发明的目的是通过以下技术方案实现的：

一种机器学习和规则匹配融合的安全检测系统，包括：离线部分与在线部分；其中：

离线部分，利用带有标签的合法流量和恶意流量建立机器学习模型，并进行模型训练；

在线部分，通过采集网络流量并进行预处理，然后，进行两部分处理：第一部分为，采用传统规则匹配的方式从预处理结果中检测恶意流量；第二部分为，对预处理结果进行特征提取，再利用离线部分训练得到的机器学习模型识别出恶意流量；最后，融合两部分处理的结果，实现恶意流量的拦截。

由上述本发明提供的技术方案可以看出，使用传统的规则匹配方法对已知的恶意流量进行检测，同时使用机器学习方法对未知的恶意流量进行检测，从而降低入侵检测系统的误报率和漏报率，提高对恶意流量检测的准确率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明背景技术提供的Snort的单线程架构示意图；

图2为本发明基于多核CPU的软件式负载分配器示意图；

图3为本发明实施例提供的一种机器学习和规则匹配融合的安全检测系统的架构图；

图4为本发明实施例提供的安全检测系统构架图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

传统IDS不会对未知的恶意流量采取任何的行动，漏报率较高，这是因为传统的基于规则匹配的IDS没有使用机器学习技术，因此无法阻止未知的恶意流量。随着近些年机器学习技术的飞速发展，机器学习技术可以检测未知的恶意流量，从而通过主动应对未知恶意流量来减少IDS的漏报率。现在有多种机器学习算法可用于IDS，如支持向量机、决策树、模糊逻辑、朴素贝叶斯和神经网络等。

因此，本发明实施例提供一种机器学习和规则匹配融合的安全检测系统(以下简称系统)，同时使用机器学习方法对未知的恶意流量进行检测，从而降低入侵检测系统的误报率和漏报率，提高对恶意流量检测的准确率。并可使用GPU并行计算技术，使系统能够满足高通量的需求。如图3所示，其主要包括在线部分和离线部分；其中：

为了便于理解，下面针对在线部分和离线部分做详细介绍。

一、离线部分。

离线部分中，将带有标签的合法流量和恶意流量作为训练集，从中提取基于时间的特征、基于网络层的特征和基于生存时间值(Time To Live，TTL)的特征，然后采用机器学习方法进行模型构建，并进行模型训练；可选择的机器学习方法有支持向量机、决策树、模糊逻辑、朴素贝叶斯和神经网络等，可参照传统模型训练方式进行训练。训练之后，使用验证数据集对训练好的机器学习模型进行验证，通过验证的模型即可用于在线部分的处理。

此外，离线部分运行在GPU上进行高速并行运算，有效的提高了系统的运行速度，满足高通量的需求。

二、在线部分。

所述在线部分包括：

网络流量采集模块，用于采集网络流量；

流量采样模块，用于按照指定采样规则，从采集的网络流量中提取相应数据；

数据预处理模块，用于对采样到的数据进行预处理；

传统规则匹配模块，用于采用传统规则匹配的方式从预处理结果中检测恶意流量；

特征提取与流量分类模块，用于对预处理结果进行特征提取，再利用离线部分训练得到的机器学习模型进行分类，从而识别出恶意流量；

结果融合与展示模块，用于融合传统规则匹配模块、以及特征提取与流量分类模块的结果，以拦截相应的恶意流量，并通过可视化技术展示。

上述模块中，传统规则匹配模块、特征提取与流量分类模块可以并行计算的规则匹配模块和特征提取与流量分类模块在GPU上运行，提高运算速度并满足处理高通量的网络流量的需求。

1、网络流量采集模块。

网络入侵检测的前提是对网络流量进行有效的采集。在线实时入侵检测系统中经常需要面对高达10～100Gbps的输入流量，因此高速的数据包捕获技术是进行后续流量识别的前提条件。因此，本发明实施例中采用了一种高性能的数据平面开发套件(Data PlaneDevelopment Kit，DPDK)，设计出来的网络流量采集模块能够基于零拷贝技术，利用直接内存存取(DMA)结构，将数据包从网卡的缓存队列直接复制到用户空间，从而越过中间内核空间的处理部分，节约了大量的IO和内核协议栈的处理时间开销，最终能够达到更高的线速数据包捕获能力。

但是，传统的DPDK以串行的工作方式在CPU上运行，难以满足抓取高通量数据的需求，本发明实施例中，将传统数据抓取工具进行修改使网络流量采集模块运行在GPU上，以提高网络流量采集效率。

当前，主流的网卡支持将其环形缓冲区分割成多个硬件队列(典型值为单网卡支持最多16个队列)。这种特性可以被用在多核CPU的场景，来进行数据包处理。通过使用基于哈希函数的调度方法，输入的海量数据包可以被分发到多个网卡队列来进行负载均衡，其实现的是数据流粒度的负载均衡。本系统主要采用基于哈希函数的方法，来将输入的数据流映射到一个专用的队列，这里主要将该条流中数据包的四元组(源IP地址、源端口号、目的IP地址和目的端口号)作为输入来获得哈希值。需要注意的是，对于一个交互式的会话，其前向和后向的数据流被作为一条单独的流看待，因为他们得到的哈希值是一样的。在多核CPU的场景下，主要有两种方式捕获数据包：单队列到单核的映射和基于软件式分配器的负载均衡。本系统采用基于软件式分配器的负载均衡的方法，如图2所示，其中有K个CPU作为负载分配器，剩下的M个CPU作为workers。负载分配器专门用来将数据包从网卡队列中取回，然后将他们分配到空闲的workers上，workers主要负责后续的数据包预处理流程。

2、流量采样模块。

由于流经不同系统的数据流量不同，且不同系统对于系统安全的需求不同，本系统设置一个流量采样模块，数据釆样是指按照一定的采样规律，从大量数据中提取部分具有代表性的数据。根据不同的需求设置不同采样函数，用来减轻高速网络中测量设备的内存和CPU的消耗。

有两种采样技术被广泛的使用：包采样和流采样。包采样可以在使用很少CPU能力和内存的前提下方便的实现。然而包采样不能准确的推断出流的统计特性。自适应包采样技术可以调整采样速率，从而降低内存消耗或者增加统计的准确度。流采样的出现克服了包采样的局限性，可以提高准确率，但是需要消耗更多的内存和CPU。为了解决这些问题，特别是为了减少内存和带宽消耗，本系统采用灵活采样算法。

所述灵活采样算法是一种依赖于大小的数据流记录选择算法；给定一个数据流大小的集合S＝{X₁,…,X_n}，灵活采样算法将以概率P(x_i)从每一X_i中选择一个大小为x_i的数据流x_i′来形成一个新的数据流集合S′＝{x₁′,…,x_n′}；灵活采样算法的目标是通过采样计算出来的总字节数

趋近真实流量的总字节数

其中，i＝1,…,n。

3、数据预处理模块。

数据预处理是在正式进行检测之前对数据进行一些处理，用相应的插件来检查数据流中的原始数据包，从中发现原始数据的“行为”，如端口扫描，IP碎片等，数据流中的数据包经过预处理后才能传到检测引擎。

数据预处理的主要包括：包重组、协议解码和异常检测等。

包重组主要分为分片重组和流重组。分片重组是指数据链路层用MTU(最大传输单元)来限制所能传输的数据包大小，发送的IP数据报的大小超过了MTU时，IP层就需要对数据进行分片。流重组是指TCP把数据流分割成适当长度的报文段，最大报文段大小(MSS)通常受以太网MTU限制。因为TCP使用IP来传递它的报文段，IP不提供重复消除和保证次序正确的功能，所以TCP重组主要处理包失序和包重复等问题。

协议解码是将数据包的协议解码成一个统一的格式以便于规则匹配模块对统一的格式进行规则匹配。如HTTP报文中URL有很多种表达格式，如ASCII码和Unicode等。不同的表达格式为恶意流量监测带来了很大的不便，攻击报文往往在一种格式下可被检测，通过协议解码，预先将各种格式的报文转换成可检测的标准格式，便于后续的检测。

异常检测包括端口扫描等，端口访问有合法也有非法，但是没有一个固定的规则来判断某次端口访问是否合法，如果通过规则匹配来检测，会产生较高的误报率与漏报率。因此预处理器用状态检测的方法对一定时间内的端口访问和目的主机等情况进行统计分析，对超出正常情况的端口访问发出警报。

正常情况下，即数据包通过了异常检测时，预处理的输出是经过包重组与协议解码的数据。但是，针对某些非法流量，如：Dos攻击流量等，由于规则匹配来检测Dos可能会有高的误报率和漏报率，因此，本发明在预处理阶段引入异常检测的手段来提前清理出这些非法流量，如果有针对端口的非法访问可以产生警报。

4、传统规则匹配模块

传统规则匹配模块使用现有的入侵检测系统的规则集和匹配算法对恶意流量进行检测，如Snort和Hyperscan等。传统的匹配算法一般是Aho-Corasick算法与基于正则表达式的匹配算法。当网络流量的有效负载与入侵检测的规则集匹配时，系统会将流量标示为恶意流量并触发警报，由此即可发现规则集中已经设定过的恶意流量。但是传统的规则匹配算法在CPU上运行，其无法满足入侵检测系统对高通量与实时性的需求，因此本系统设计将规则匹配算法进行改进，使其在GPU上并行运算，从而有效地提升安全检测系统的效率。

本发明实施例中，使用PFAC算法实现恶意流量检测，它有效地利用了AC算法的并行性。PFAC算法为输入数据流的每个字节创建一个单独的线程，以标识从线程起始位置开始的任何模式，创建的线程数等于输入数据流的长度；PFAC的每个线程仅负责识别从线程起始位置的模式，每当线程找不到位于起始位置的任何模式时，终止而不以回溯状态机进行故障转换；PFAC的每个最终状态代表一种独特的模式，能够在不处理多个输出的情况下保持PFAC中每个最终状态的唯一性。虽然PFAC创建了大量的线程，但大多数线程很有可能很早就终止，因为PFAC的线程只负责从其起始位置开始匹配模式。

因此使用改进后的PFAC算法，将网络流量的有效负载同时并行地与入侵检测的规则集中的多条规则进行匹配验证，如果发生匹配系统将流量标示为恶意流量并触发警报，即可发现规则集中已经设定过的恶意流量。此算法有效的适合GPU并行计算，提升了系统的检测效率。

5、特征提取与流量分类模块。

网路数据流量的特征多种多样，特征提取与流量分类模块首先要提取出需要统计的相关特征，提取的特征包括：源端口、源地址、目的端口、目的地址、ICMP类型、协议标识符、原始数据长度和原始数据等特征。然后，利用离线部分训练得到的机器学习模型分类为合法流量或恶意流量，从而有效识别出传统规则匹配方法检测不到的未知恶意流量。

由于数据包的连续到达，对应于特定数据流的特征数据信息必须在有数据包到达时进行实时更新。考虑到高达100Gbps的海量流量每秒钟可能会包含数以万计活跃的数据流和几百万的数据包，这将会使得在承受如此大量的更新请求下快速检索到目标特征数据极具挑战性。

为了解决这个问题，本发明实施例中，特征提取阶段，在GPU中实现一个哈希表，用来维护和追踪对应于每一条活跃数据流的特征数据的索引；每个GPU数据单元特有的哈希值用来确定一条特定的数据流；每一个互斥的哈希条目上使用了原子锁，使得每一个时刻只有一个线程被允许更新其哈希条目；当一个特征数据传输结束时，其对应的数据流会变成非活跃的，这将会触发从哈希表中删除相应数据流对应的特征数据的操作；对每条数据流而言，最后到达的数据包的时间被记录在了哈希表中，采用一种基于阈值的方法来确定一条非活跃的数据流；具体来说，如果时间间隔超过了阈值，此时就认为相应数据流的特征数据是非活跃的，通过设置一个定时任务来输出非活跃数据流的特征数据进行深层分析(即利用离线部分训练得到的机器学习模型进行分类)，或者直接输出到一个输出文件(即将特征提取模块提取到的流统计信息保存下来)，以进行离线的分析工作。

6、结果融合与展示模块

结果融合与展示模块，融合传统规则匹配模块、以及特征提取与流量分类模块的结果，使得合法流量能够顺利通过，同时，对恶意流量进行拦截；将拦截到的恶意流量特征保存到数据库中并通过可视化技术将结果展示，实时地显示系统是否遭到了恶意攻击，从而采取相应行动，并对恶意流量做后续的特征分析。

本发明实施例提供的上述系统主要获得如下有益效果：

1)识别已知恶意流量：通过使用传统入侵检测系统的规则集进行规则匹配来检测已知的恶意流量，如果恶意流量与规则集匹配，则它将触发警报，这种方法效率高且误报率低。

2)识别未知恶意流量：通过提取出的网络流量特征，使用离线训练好的机器学习模型对流量进行检测，从而发现未知的恶意流量，此方法漏报率低。

3)降低误报率与漏报率：通过将传统规则匹配方法与机器学习方法融合，既能通过规则集检测出已知的恶意流量又能通过机器学习技术检测出未知的恶意流量，从而降低误报率与漏报率。

4)在线检测：本系统通过离线训练相关的机器学习算法，然后结合传统的规则匹配入侵检测方法在线地进行安全检测，以满足系统的实时性需求。

5)满足高通量要求：本方法在硬件上使用CPU与GPU，充分发挥其各自的优势，离线模式训练机器学习模型、线模式抓取数据包、进行特征提取与分类和规则匹配模块在GPU上进行并行计算，提高系统检测恶意流量的整体效率。

下面结合一个具体示例来针对上述系统进行介绍。

如图4所示，系统以Snort开源入侵检测系统为主要构架，首先进行Snort的初始化，然后我们利用网络流量抓取工具DPDK进行网络流量采集，为了满足高通量实时性的需求将DPDK移植到GPU上并行地对数据包进行抓取，有效提高了网络流量采集的效率。然后对系统进行设置采样函数，由于本系统的设计需要满足实时性与高通量的要求，本示例中，设置了一个每通过两个数据包抓取一个数据包的采样函数进行采样。随后对数据进行包重组、协议解码和端口检测的预处理，然后设置两个线程，其中一个使用Snort的规则集和匹配算法进行规则匹配来识别恶意流量，其中将Snort的规则匹配算法移植到GPU上进行并行计算提高规则匹配的效率。另一个线程对数据包的源端口、源地址、目的端口、目的地址、ICMP类型、协议标识符、原始数据长度和原始数据进行特征提取，然后利用训练好的神经网络模型对流量进行分类，识别出未知的恶意流量。最后要对两个线程得到的结果进行融合，使合法流量顺利通过检测系统，恶意流量被有效拦截。并将拦截结果在可视化界面上进行展示，将恶意流量的相关信息存储到数据库中以便后续分析处理。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种机器学习和规则匹配融合的安全检测系统，其特征在于，包括：离线部分与在线部分；其中：

2.根据权利要求1所述的一种机器学习和规则匹配融合的安全检测系统，其特征在于，离线部分中，将带有标签的合法流量和恶意流量作为训练集，从中提取基于时间的特征、基于网络层的特征和基于TTL的特征，然后采用机器学习方法进行模型构建，并进行模型训练；

训练之后，使用验证数据集对训练好的机器学习模型进行验证。

3.根据权利要求1所述的一种机器学习和规则匹配融合的安全检测系统，其特征在于，所述在线部分包括：

网络流量采集模块，用于采集网络流量；

数据预处理模块，用于对采样到的数据进行预处理；

4.根据权利要求1或3所述的一种机器学习和规则匹配融合的安全检测系统，其特征在于，在线部分中的网络流量采集模块运行在GPU上，基于零拷贝技术，利用直接内存存取结构，将数据流中的数据包从网卡的缓存队列直接复制到用户空间。

5.根据权利要求1或3所述的一种机器学习和规则匹配融合的安全检测系统，其特征在于，在线部分中的流量采样模块采用了灵活采样算法；

所述灵活采样算法是一种依赖于大小的数据流记录选择算法；给定一个数据流大小的集合S＝{X₁，...，X_n}，灵活采样算法将以概率P(x_i)从每一X_i中选择一个大小为x_i的数据流x_i′来形成一个新的数据流集合S′＝{x₁′，...，x_n′}；灵活采样算法的目标是通过采样计算出来的总字节数趋近真实流量的总字节数

其中，i＝1，…，n。

6.根据权利要求1或3所述的一种机器学习和规则匹配融合的安全检测系统，其特征在于，在线部分中的数据预处理模块，进行的预处理至少包括：数据包重组、协议解码与异常检测；其中：

数据包重组分为流重组和分片重组；

协议解码是将数据包的协议解码成一个统一的格式；

异常检测至少包括端口扫描；

当数据包通过了异常检测时，数据预处理模块输出是经过数据包重组与协议解码的数据；否则，产生报警。

7.根据权利要求1或3所述的一种机器学习和规则匹配融合的安全检测系统，其特征在于，在线部分中的传统规则匹配模块使用PFAC算法实现恶意流量检测；

PFAC算法为输入数据流的每个字节创建一个单独的线程，以标识从线程起始位置开始的任何模式，创建的线程数等于输入数据流的长度；

PFAC的每个线程仅负责识别从线程起始位置的模式，每当线程找不到位于起始位置的任何模式时，终止而不以回溯状态机进行故障转换；PFAC的每个最终状态代表一种独特的模式，能够在不处理多个输出的情况下保持PFAC中每个最终状态的唯一性；

通过PFAC算法，将数据流的有效负载同时并行地与入侵检测的规则集中的多条规则进行匹配验证，如果发生匹配，则将数据流标示为恶意流量并触发警报。

8.根据权利要求1或3所述的一种机器学习和规则匹配融合的安全检测系统，其特征在于，在线部分中的特征提取与流量分类模块，首先进行特征提取，提取的特征包括：源端口、源地址、目的端口、目的地址、ICMP类型、协议标识符、原始数据长度和原始数据；然后，利用离线部分训练得到的机器学习模型分类为合法流量或恶意流量。

9.根据权利要求8所述的一种机器学习和规则匹配融合的安全检测系统，其特征在于，

在GPU中实现一个哈希表，用来维护和追踪对应于每一条活跃数据流的特征数据的索引；每个数据单元特有的哈希值用来确定一条特定的数据流；

每一个互斥的哈希条目上使用了原子锁，使得每一个时刻只有一个线程被允许更新其哈希条目；当一个特征数据传输结束时，其对应的数据流会变成非活跃的，这将会触发从哈希表中删除相应数据流对应的特征数据的操作；对每条数据流而言，最后到达的数据包的时间被记录在了哈希表中，采用一种基于阈值的方法来确定一条非活跃的数据流；具体来说，如果时间间隔超过了阈值，此时就认为相应数据流的特征数据是非活跃的，通过设置一个定时任务来输出非活跃数据流的特征数据，并利用离线部分训练得到的机器学习模型进行分类。

10.根据权利要求1或3所述的一种机器学习和规则匹配融合的安全检测系统，其特征在于，在线部分中的结果融合与展示模块，融合传统规则匹配模块、以及特征提取与流量分类模块的结果，使得合法流量能够顺利通过，同时，对恶意流量进行拦截；将拦截到的恶意流量特征保存到数据库中并通过可视化技术将结果展示，实时地显示系统是否遭到了恶意攻击，从而采取相应行动，并对恶意流量做后续的特征分析。