CN110753064A - 机器学习和规则匹配融合的安全检测系统 - Google Patents

机器学习和规则匹配融合的安全检测系统 Download PDF

Info

Publication number
CN110753064A
CN110753064A CN201911031332.5A CN201911031332A CN110753064A CN 110753064 A CN110753064 A CN 110753064A CN 201911031332 A CN201911031332 A CN 201911031332A CN 110753064 A CN110753064 A CN 110753064A
Authority
CN
China
Prior art keywords
flow
data
machine learning
malicious
rule matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911031332.5A
Other languages
English (en)
Other versions
CN110753064B (zh
Inventor
姜晓枫
程思雨
杨坚
谭小彬
张勇东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN201911031332.5A priority Critical patent/CN110753064B/zh
Publication of CN110753064A publication Critical patent/CN110753064A/zh
Priority to PCT/CN2020/079972 priority patent/WO2021082339A1/zh
Priority to US17/761,861 priority patent/US20220368703A1/en
Application granted granted Critical
Publication of CN110753064B publication Critical patent/CN110753064B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1466Active attacks involving interception, injection, modification, spoofing of data unit addresses, e.g. hijacking, packet injection or TCP sequence number attacks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/16Implementing security features at a particular protocol layer
    • H04L63/166Implementing security features at a particular protocol layer at the transport layer

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种机器学习和规则匹配融合的安全检测系统,包括:离线部分与在线部分;其中:离线部分,利用带有标签的合法流量和恶意流量建立机器学习模型,并进行模型训练;在线部分,通过采集网络流量并进行预处理,然后,进行两部分处理:第一部分为,采用传统规则匹配的方式从预处理结果中检测恶意流量;第二部分为,对预处理结果进行特征提取,再利用离线部分训练得到的机器学习模型识别出恶意流量;最后,融合两部分处理的结果,实现恶意流量的拦截。该系统既能检测已知恶意流量又能检测未知恶意流量,最大程度的减少入侵检测系统的误报率和漏报率,从而保证计算机网络的安全。

Description

机器学习和规则匹配融合的安全检测系统
技术领域
本发明涉及机器学习与信息安全技术领域,尤其涉及一种机器学习和规则匹配融合的安全检测系统。
背景技术
当今社会计算机网络应用于各行各业,网络可以满足商业、企业和政府机构的各种需求。但是如今这些计算机网络比以往任何时候都更加脆弱,因为今天的攻击者有良好的组织,充足的时间,专业的知识和大量的资源来发动网络攻击。攻击者像普通用户一样,生成数据并将恶意活动隐藏在TB级的数据之下。由于存储了海量的数据、存在可伸缩性问题和缺乏安全检测等,许多安全机制都无法保证网络的安全。
入侵检测系统(IDS)在20世纪80年代被提出,其根据网络流量数据来判断系统是否执行正常行动。在当今安全的通信和网络基础设施中,IDS是大多数网络的一部分。但是,IDS检测机制只有在具有足够的准确性来区分正常流量与恶意流量时才有用。使用IDS的结果有如下可能:检测到恶意流量、未检测到恶意流量、合法流量被IDS检测为恶意流量和合法流量被IDS检测通过。
优秀的IDS可以检测尽可能多的恶意流量并减少误报。目前有许多商业IDS,如:JuniperNetworks、McAfee、Cisco和Symantec等。商业IDS通常不能提供像宣传一样理想的性能并且可能损害计算机的网络安全。同时也有许多开源IDS可用,如Snort,Suricata和Bro等。Snort是一种具有内联防入侵功能的支持中高速网络的IDS,其包含获取网络数据包模块、解码和分类网络数据包模块以及根据规则集检测恶意数据包模块。Snort通过规则集来检查网络数据包中是否存在恶意流量,并在数据包的有效负载与其中一个规则发生匹配时触发警报。Snort的单线程架构,如图1所示。
网络速度和恶意流量的持续增加给IDS带来了严重问题。IDS都必须处理更高的网络流量以检测恶意流量,速度达到约10Gbps。如果IDS无法以所需的速率执行数据包检查,则它们将允许未被检测到的恶意数据包进入计算机网络。
传统的IDS使用规则集来检测已知的恶意流量,如果恶意流量与规则集匹配,则它将触发警报,这种方法效率高且误报率低。
发明内容
本发明的目的是提供一种机器学习和规则匹配融合的安全检测系统,既能检测已知恶意流量又能检测未知恶意流量,最大程度的减少入侵检测系统的误报率和漏报率,从而保证计算机网络的安全。
本发明的目的是通过以下技术方案实现的:
一种机器学习和规则匹配融合的安全检测系统,包括:离线部分与在线部分;其中:
离线部分,利用带有标签的合法流量和恶意流量建立机器学习模型,并进行模型训练;
在线部分,通过采集网络流量并进行预处理,然后,进行两部分处理:第一部分为,采用传统规则匹配的方式从预处理结果中检测恶意流量;第二部分为,对预处理结果进行特征提取,再利用离线部分训练得到的机器学习模型识别出恶意流量;最后,融合两部分处理的结果,实现恶意流量的拦截。
由上述本发明提供的技术方案可以看出,使用传统的规则匹配方法对已知的恶意流量进行检测,同时使用机器学习方法对未知的恶意流量进行检测,从而降低入侵检测系统的误报率和漏报率,提高对恶意流量检测的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明背景技术提供的Snort的单线程架构示意图;
图2为本发明基于多核CPU的软件式负载分配器示意图;
图3为本发明实施例提供的一种机器学习和规则匹配融合的安全检测系统的架构图;
图4为本发明实施例提供的安全检测系统构架图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
传统IDS不会对未知的恶意流量采取任何的行动,漏报率较高,这是因为传统的基于规则匹配的IDS没有使用机器学习技术,因此无法阻止未知的恶意流量。随着近些年机器学习技术的飞速发展,机器学习技术可以检测未知的恶意流量,从而通过主动应对未知恶意流量来减少IDS的漏报率。现在有多种机器学习算法可用于IDS,如支持向量机、决策树、模糊逻辑、朴素贝叶斯和神经网络等。
因此,本发明实施例提供一种机器学习和规则匹配融合的安全检测系统(以下简称系统),同时使用机器学习方法对未知的恶意流量进行检测,从而降低入侵检测系统的误报率和漏报率,提高对恶意流量检测的准确率。并可使用GPU并行计算技术,使系统能够满足高通量的需求。如图3所示,其主要包括在线部分和离线部分;其中:
离线部分,利用带有标签的合法流量和恶意流量建立机器学习模型,并进行模型训练;
在线部分,通过采集网络流量并进行预处理,然后,进行两部分处理:第一部分为,采用传统规则匹配的方式从预处理结果中检测恶意流量;第二部分为,对预处理结果进行特征提取,再利用离线部分训练得到的机器学习模型识别出恶意流量;最后,融合两部分处理的结果,实现恶意流量的拦截。
为了便于理解,下面针对在线部分和离线部分做详细介绍。
一、离线部分。
离线部分中,将带有标签的合法流量和恶意流量作为训练集,从中提取基于时间的特征、基于网络层的特征和基于生存时间值(Time To Live,TTL)的特征,然后采用机器学习方法进行模型构建,并进行模型训练;可选择的机器学习方法有支持向量机、决策树、模糊逻辑、朴素贝叶斯和神经网络等,可参照传统模型训练方式进行训练。训练之后,使用验证数据集对训练好的机器学习模型进行验证,通过验证的模型即可用于在线部分的处理。
此外,离线部分运行在GPU上进行高速并行运算,有效的提高了系统的运行速度,满足高通量的需求。
二、在线部分。
所述在线部分包括:
网络流量采集模块,用于采集网络流量;
流量采样模块,用于按照指定采样规则,从采集的网络流量中提取相应数据;
数据预处理模块,用于对采样到的数据进行预处理;
传统规则匹配模块,用于采用传统规则匹配的方式从预处理结果中检测恶意流量;
特征提取与流量分类模块,用于对预处理结果进行特征提取,再利用离线部分训练得到的机器学习模型进行分类,从而识别出恶意流量;
结果融合与展示模块,用于融合传统规则匹配模块、以及特征提取与流量分类模块的结果,以拦截相应的恶意流量,并通过可视化技术展示。
上述模块中,传统规则匹配模块、特征提取与流量分类模块可以并行计算的规则匹配模块和特征提取与流量分类模块在GPU上运行,提高运算速度并满足处理高通量的网络流量的需求。
1、网络流量采集模块。
网络入侵检测的前提是对网络流量进行有效的采集。在线实时入侵检测系统中经常需要面对高达10~100Gbps的输入流量,因此高速的数据包捕获技术是进行后续流量识别的前提条件。因此,本发明实施例中采用了一种高性能的数据平面开发套件(Data PlaneDevelopment Kit,DPDK),设计出来的网络流量采集模块能够基于零拷贝技术,利用直接内存存取(DMA)结构,将数据包从网卡的缓存队列直接复制到用户空间,从而越过中间内核空间的处理部分,节约了大量的IO和内核协议栈的处理时间开销,最终能够达到更高的线速数据包捕获能力。
但是,传统的DPDK以串行的工作方式在CPU上运行,难以满足抓取高通量数据的需求,本发明实施例中,将传统数据抓取工具进行修改使网络流量采集模块运行在GPU上,以提高网络流量采集效率。
当前,主流的网卡支持将其环形缓冲区分割成多个硬件队列(典型值为单网卡支持最多16个队列)。这种特性可以被用在多核CPU的场景,来进行数据包处理。通过使用基于哈希函数的调度方法,输入的海量数据包可以被分发到多个网卡队列来进行负载均衡,其实现的是数据流粒度的负载均衡。本系统主要采用基于哈希函数的方法,来将输入的数据流映射到一个专用的队列,这里主要将该条流中数据包的四元组(源IP地址、源端口号、目的IP地址和目的端口号)作为输入来获得哈希值。需要注意的是,对于一个交互式的会话,其前向和后向的数据流被作为一条单独的流看待,因为他们得到的哈希值是一样的。在多核CPU的场景下,主要有两种方式捕获数据包:单队列到单核的映射和基于软件式分配器的负载均衡。本系统采用基于软件式分配器的负载均衡的方法,如图2所示,其中有K个CPU作为负载分配器,剩下的M个CPU作为workers。负载分配器专门用来将数据包从网卡队列中取回,然后将他们分配到空闲的workers上,workers主要负责后续的数据包预处理流程。
2、流量采样模块。
由于流经不同系统的数据流量不同,且不同系统对于系统安全的需求不同,本系统设置一个流量采样模块,数据釆样是指按照一定的采样规律,从大量数据中提取部分具有代表性的数据。根据不同的需求设置不同采样函数,用来减轻高速网络中测量设备的内存和CPU的消耗。
有两种采样技术被广泛的使用:包采样和流采样。包采样可以在使用很少CPU能力和内存的前提下方便的实现。然而包采样不能准确的推断出流的统计特性。自适应包采样技术可以调整采样速率,从而降低内存消耗或者增加统计的准确度。流采样的出现克服了包采样的局限性,可以提高准确率,但是需要消耗更多的内存和CPU。为了解决这些问题,特别是为了减少内存和带宽消耗,本系统采用灵活采样算法。
所述灵活采样算法是一种依赖于大小的数据流记录选择算法;给定一个数据流大小的集合S={X1,…,Xn},灵活采样算法将以概率P(xi)从每一Xi中选择一个大小为xi的数据流xi′来形成一个新的数据流集合S′={x1′,…,xn′};灵活采样算法的目标是通过采样计算出来的总字节数
Figure BDA0002250236800000051
趋近真实流量的总字节数
Figure BDA0002250236800000052
其中,i=1,…,n。
3、数据预处理模块。
数据预处理是在正式进行检测之前对数据进行一些处理,用相应的插件来检查数据流中的原始数据包,从中发现原始数据的“行为”,如端口扫描,IP碎片等,数据流中的数据包经过预处理后才能传到检测引擎。
数据预处理的主要包括:包重组、协议解码和异常检测等。
包重组主要分为分片重组和流重组。分片重组是指数据链路层用MTU(最大传输单元)来限制所能传输的数据包大小,发送的IP数据报的大小超过了MTU时,IP层就需要对数据进行分片。流重组是指TCP把数据流分割成适当长度的报文段,最大报文段大小(MSS)通常受以太网MTU限制。因为TCP使用IP来传递它的报文段,IP不提供重复消除和保证次序正确的功能,所以TCP重组主要处理包失序和包重复等问题。
协议解码是将数据包的协议解码成一个统一的格式以便于规则匹配模块对统一的格式进行规则匹配。如HTTP报文中URL有很多种表达格式,如ASCII码和Unicode等。不同的表达格式为恶意流量监测带来了很大的不便,攻击报文往往在一种格式下可被检测,通过协议解码,预先将各种格式的报文转换成可检测的标准格式,便于后续的检测。
异常检测包括端口扫描等,端口访问有合法也有非法,但是没有一个固定的规则来判断某次端口访问是否合法,如果通过规则匹配来检测,会产生较高的误报率与漏报率。因此预处理器用状态检测的方法对一定时间内的端口访问和目的主机等情况进行统计分析,对超出正常情况的端口访问发出警报。
正常情况下,即数据包通过了异常检测时,预处理的输出是经过包重组与协议解码的数据。但是,针对某些非法流量,如:Dos攻击流量等,由于规则匹配来检测Dos可能会有高的误报率和漏报率,因此,本发明在预处理阶段引入异常检测的手段来提前清理出这些非法流量,如果有针对端口的非法访问可以产生警报。
4、传统规则匹配模块
传统规则匹配模块使用现有的入侵检测系统的规则集和匹配算法对恶意流量进行检测,如Snort和Hyperscan等。传统的匹配算法一般是Aho-Corasick算法与基于正则表达式的匹配算法。当网络流量的有效负载与入侵检测的规则集匹配时,系统会将流量标示为恶意流量并触发警报,由此即可发现规则集中已经设定过的恶意流量。但是传统的规则匹配算法在CPU上运行,其无法满足入侵检测系统对高通量与实时性的需求,因此本系统设计将规则匹配算法进行改进,使其在GPU上并行运算,从而有效地提升安全检测系统的效率。
本发明实施例中,使用PFAC算法实现恶意流量检测,它有效地利用了AC算法的并行性。PFAC算法为输入数据流的每个字节创建一个单独的线程,以标识从线程起始位置开始的任何模式,创建的线程数等于输入数据流的长度;PFAC的每个线程仅负责识别从线程起始位置的模式,每当线程找不到位于起始位置的任何模式时,终止而不以回溯状态机进行故障转换;PFAC的每个最终状态代表一种独特的模式,能够在不处理多个输出的情况下保持PFAC中每个最终状态的唯一性。虽然PFAC创建了大量的线程,但大多数线程很有可能很早就终止,因为PFAC的线程只负责从其起始位置开始匹配模式。
因此使用改进后的PFAC算法,将网络流量的有效负载同时并行地与入侵检测的规则集中的多条规则进行匹配验证,如果发生匹配系统将流量标示为恶意流量并触发警报,即可发现规则集中已经设定过的恶意流量。此算法有效的适合GPU并行计算,提升了系统的检测效率。
5、特征提取与流量分类模块。
网路数据流量的特征多种多样,特征提取与流量分类模块首先要提取出需要统计的相关特征,提取的特征包括:源端口、源地址、目的端口、目的地址、ICMP类型、协议标识符、原始数据长度和原始数据等特征。然后,利用离线部分训练得到的机器学习模型分类为合法流量或恶意流量,从而有效识别出传统规则匹配方法检测不到的未知恶意流量。
由于数据包的连续到达,对应于特定数据流的特征数据信息必须在有数据包到达时进行实时更新。考虑到高达100Gbps的海量流量每秒钟可能会包含数以万计活跃的数据流和几百万的数据包,这将会使得在承受如此大量的更新请求下快速检索到目标特征数据极具挑战性。
为了解决这个问题,本发明实施例中,特征提取阶段,在GPU中实现一个哈希表,用来维护和追踪对应于每一条活跃数据流的特征数据的索引;每个GPU数据单元特有的哈希值用来确定一条特定的数据流;每一个互斥的哈希条目上使用了原子锁,使得每一个时刻只有一个线程被允许更新其哈希条目;当一个特征数据传输结束时,其对应的数据流会变成非活跃的,这将会触发从哈希表中删除相应数据流对应的特征数据的操作;对每条数据流而言,最后到达的数据包的时间被记录在了哈希表中,采用一种基于阈值的方法来确定一条非活跃的数据流;具体来说,如果时间间隔超过了阈值,此时就认为相应数据流的特征数据是非活跃的,通过设置一个定时任务来输出非活跃数据流的特征数据进行深层分析(即利用离线部分训练得到的机器学习模型进行分类),或者直接输出到一个输出文件(即将特征提取模块提取到的流统计信息保存下来),以进行离线的分析工作。
6、结果融合与展示模块
结果融合与展示模块,融合传统规则匹配模块、以及特征提取与流量分类模块的结果,使得合法流量能够顺利通过,同时,对恶意流量进行拦截;将拦截到的恶意流量特征保存到数据库中并通过可视化技术将结果展示,实时地显示系统是否遭到了恶意攻击,从而采取相应行动,并对恶意流量做后续的特征分析。
本发明实施例提供的上述系统主要获得如下有益效果:
1)识别已知恶意流量:通过使用传统入侵检测系统的规则集进行规则匹配来检测已知的恶意流量,如果恶意流量与规则集匹配,则它将触发警报,这种方法效率高且误报率低。
2)识别未知恶意流量:通过提取出的网络流量特征,使用离线训练好的机器学习模型对流量进行检测,从而发现未知的恶意流量,此方法漏报率低。
3)降低误报率与漏报率:通过将传统规则匹配方法与机器学习方法融合,既能通过规则集检测出已知的恶意流量又能通过机器学习技术检测出未知的恶意流量,从而降低误报率与漏报率。
4)在线检测:本系统通过离线训练相关的机器学习算法,然后结合传统的规则匹配入侵检测方法在线地进行安全检测,以满足系统的实时性需求。
5)满足高通量要求:本方法在硬件上使用CPU与GPU,充分发挥其各自的优势,离线模式训练机器学习模型、线模式抓取数据包、进行特征提取与分类和规则匹配模块在GPU上进行并行计算,提高系统检测恶意流量的整体效率。
下面结合一个具体示例来针对上述系统进行介绍。
如图4所示,系统以Snort开源入侵检测系统为主要构架,首先进行Snort的初始化,然后我们利用网络流量抓取工具DPDK进行网络流量采集,为了满足高通量实时性的需求将DPDK移植到GPU上并行地对数据包进行抓取,有效提高了网络流量采集的效率。然后对系统进行设置采样函数,由于本系统的设计需要满足实时性与高通量的要求,本示例中,设置了一个每通过两个数据包抓取一个数据包的采样函数进行采样。随后对数据进行包重组、协议解码和端口检测的预处理,然后设置两个线程,其中一个使用Snort的规则集和匹配算法进行规则匹配来识别恶意流量,其中将Snort的规则匹配算法移植到GPU上进行并行计算提高规则匹配的效率。另一个线程对数据包的源端口、源地址、目的端口、目的地址、ICMP类型、协议标识符、原始数据长度和原始数据进行特征提取,然后利用训练好的神经网络模型对流量进行分类,识别出未知的恶意流量。最后要对两个线程得到的结果进行融合,使合法流量顺利通过检测系统,恶意流量被有效拦截。并将拦截结果在可视化界面上进行展示,将恶意流量的相关信息存储到数据库中以便后续分析处理。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (10)

1.一种机器学习和规则匹配融合的安全检测系统,其特征在于,包括:离线部分与在线部分;其中:
离线部分,利用带有标签的合法流量和恶意流量建立机器学习模型,并进行模型训练;
在线部分,通过采集网络流量并进行预处理,然后,进行两部分处理:第一部分为,采用传统规则匹配的方式从预处理结果中检测恶意流量;第二部分为,对预处理结果进行特征提取,再利用离线部分训练得到的机器学习模型识别出恶意流量;最后,融合两部分处理的结果,实现恶意流量的拦截。
2.根据权利要求1所述的一种机器学习和规则匹配融合的安全检测系统,其特征在于,离线部分中,将带有标签的合法流量和恶意流量作为训练集,从中提取基于时间的特征、基于网络层的特征和基于TTL的特征,然后采用机器学习方法进行模型构建,并进行模型训练;
训练之后,使用验证数据集对训练好的机器学习模型进行验证。
3.根据权利要求1所述的一种机器学习和规则匹配融合的安全检测系统,其特征在于,所述在线部分包括:
网络流量采集模块,用于采集网络流量;
流量采样模块,用于按照指定采样规则,从采集的网络流量中提取相应数据;
数据预处理模块,用于对采样到的数据进行预处理;
传统规则匹配模块,用于采用传统规则匹配的方式从预处理结果中检测恶意流量;
特征提取与流量分类模块,用于对预处理结果进行特征提取,再利用离线部分训练得到的机器学习模型进行分类,从而识别出恶意流量;
结果融合与展示模块,用于融合传统规则匹配模块、以及特征提取与流量分类模块的结果,以拦截相应的恶意流量,并通过可视化技术展示。
4.根据权利要求1或3所述的一种机器学习和规则匹配融合的安全检测系统,其特征在于,在线部分中的网络流量采集模块运行在GPU上,基于零拷贝技术,利用直接内存存取结构,将数据流中的数据包从网卡的缓存队列直接复制到用户空间。
5.根据权利要求1或3所述的一种机器学习和规则匹配融合的安全检测系统,其特征在于,在线部分中的流量采样模块采用了灵活采样算法;
所述灵活采样算法是一种依赖于大小的数据流记录选择算法;给定一个数据流大小的集合S={X1,...,Xn},灵活采样算法将以概率P(xi)从每一Xi中选择一个大小为xi的数据流xi′来形成一个新的数据流集合S′={x1′,...,xn′};灵活采样算法的目标是通过采样计算出来的总字节数趋近真实流量的总字节数
Figure FDA0002250236790000022
其中,i=1,…,n。
6.根据权利要求1或3所述的一种机器学习和规则匹配融合的安全检测系统,其特征在于,在线部分中的数据预处理模块,进行的预处理至少包括:数据包重组、协议解码与异常检测;其中:
数据包重组分为流重组和分片重组;
协议解码是将数据包的协议解码成一个统一的格式;
异常检测至少包括端口扫描;
当数据包通过了异常检测时,数据预处理模块输出是经过数据包重组与协议解码的数据;否则,产生报警。
7.根据权利要求1或3所述的一种机器学习和规则匹配融合的安全检测系统,其特征在于,在线部分中的传统规则匹配模块使用PFAC算法实现恶意流量检测;
PFAC算法为输入数据流的每个字节创建一个单独的线程,以标识从线程起始位置开始的任何模式,创建的线程数等于输入数据流的长度;
PFAC的每个线程仅负责识别从线程起始位置的模式,每当线程找不到位于起始位置的任何模式时,终止而不以回溯状态机进行故障转换;PFAC的每个最终状态代表一种独特的模式,能够在不处理多个输出的情况下保持PFAC中每个最终状态的唯一性;
通过PFAC算法,将数据流的有效负载同时并行地与入侵检测的规则集中的多条规则进行匹配验证,如果发生匹配,则将数据流标示为恶意流量并触发警报。
8.根据权利要求1或3所述的一种机器学习和规则匹配融合的安全检测系统,其特征在于,在线部分中的特征提取与流量分类模块,首先进行特征提取,提取的特征包括:源端口、源地址、目的端口、目的地址、ICMP类型、协议标识符、原始数据长度和原始数据;然后,利用离线部分训练得到的机器学习模型分类为合法流量或恶意流量。
9.根据权利要求8所述的一种机器学习和规则匹配融合的安全检测系统,其特征在于,
在GPU中实现一个哈希表,用来维护和追踪对应于每一条活跃数据流的特征数据的索引;每个数据单元特有的哈希值用来确定一条特定的数据流;
每一个互斥的哈希条目上使用了原子锁,使得每一个时刻只有一个线程被允许更新其哈希条目;当一个特征数据传输结束时,其对应的数据流会变成非活跃的,这将会触发从哈希表中删除相应数据流对应的特征数据的操作;对每条数据流而言,最后到达的数据包的时间被记录在了哈希表中,采用一种基于阈值的方法来确定一条非活跃的数据流;具体来说,如果时间间隔超过了阈值,此时就认为相应数据流的特征数据是非活跃的,通过设置一个定时任务来输出非活跃数据流的特征数据,并利用离线部分训练得到的机器学习模型进行分类。
10.根据权利要求1或3所述的一种机器学习和规则匹配融合的安全检测系统,其特征在于,在线部分中的结果融合与展示模块,融合传统规则匹配模块、以及特征提取与流量分类模块的结果,使得合法流量能够顺利通过,同时,对恶意流量进行拦截;将拦截到的恶意流量特征保存到数据库中并通过可视化技术将结果展示,实时地显示系统是否遭到了恶意攻击,从而采取相应行动,并对恶意流量做后续的特征分析。
CN201911031332.5A 2019-10-28 2019-10-28 机器学习和规则匹配融合的安全检测系统 Active CN110753064B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201911031332.5A CN110753064B (zh) 2019-10-28 2019-10-28 机器学习和规则匹配融合的安全检测系统
PCT/CN2020/079972 WO2021082339A1 (zh) 2019-10-28 2020-03-18 将机器学习和规则匹配相融合的安全检测方法和设备
US17/761,861 US20220368703A1 (en) 2019-10-28 2020-03-18 Method and device for detecting security based on machine learning in combination with rule matching

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911031332.5A CN110753064B (zh) 2019-10-28 2019-10-28 机器学习和规则匹配融合的安全检测系统

Publications (2)

Publication Number Publication Date
CN110753064A true CN110753064A (zh) 2020-02-04
CN110753064B CN110753064B (zh) 2021-05-07

Family

ID=69280495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911031332.5A Active CN110753064B (zh) 2019-10-28 2019-10-28 机器学习和规则匹配融合的安全检测系统

Country Status (3)

Country Link
US (1) US20220368703A1 (zh)
CN (1) CN110753064B (zh)
WO (1) WO2021082339A1 (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111885059A (zh) * 2020-07-23 2020-11-03 清华大学 一种工业网络流量异常检测定位的方法
CN112532642A (zh) * 2020-12-07 2021-03-19 河北工业大学 一种基于改进Suricata引擎的工控系统网络入侵检测方法
CN112671618A (zh) * 2021-03-15 2021-04-16 北京安帝科技有限公司 深度报文检测方法和装置
WO2021082339A1 (zh) * 2019-10-28 2021-05-06 中国科学技术大学 将机器学习和规则匹配相融合的安全检测方法和设备
CN112769840A (zh) * 2021-01-15 2021-05-07 杭州安恒信息技术股份有限公司 一种基于强化学习Dyna框架的网络攻击行为识别方法
CN112953971A (zh) * 2021-04-01 2021-06-11 长扬科技(北京)有限公司 一种网络安全流量入侵检测方法和系统
CN112965970A (zh) * 2021-03-22 2021-06-15 湖南大学 一种基于哈希算法的异常流量并行检测方法及系统
CN113098895A (zh) * 2021-04-26 2021-07-09 成都中恒星电科技有限公司 一种基于dpdk的网络流量隔离系统
CN113132349A (zh) * 2021-03-12 2021-07-16 中国科学院信息工程研究所 一种免代理云平台虚拟流量入侵检测方法及装置
CN113381980A (zh) * 2021-05-13 2021-09-10 优刻得科技股份有限公司 信息安全防御方法及系统、电子设备、存储介质
CN113472791A (zh) * 2021-06-30 2021-10-01 深信服科技股份有限公司 一种攻击检测方法、装置、电子设备及可读存储介质
CN113556354A (zh) * 2021-07-29 2021-10-26 国家工业信息安全发展研究中心 一种基于流量分析的工业互联网安全威胁检测方法与系统
CN113691562A (zh) * 2021-09-15 2021-11-23 神州网云(北京)信息技术有限公司 一种精确识别恶意网络通讯的规则引擎实现方法
CN113709129A (zh) * 2021-08-20 2021-11-26 绿盟科技集团股份有限公司 一种基于流量学习的白名单生成方法、装置和系统
CN113761522A (zh) * 2021-09-02 2021-12-07 恒安嘉新(北京)科技股份公司 一种webshell流量的检测方法、装置、设备和存储介质
CN114189368A (zh) * 2021-11-30 2022-03-15 华中科技大学 一种多推理引擎兼容的实时流量检测系统和方法
CN114499991A (zh) * 2021-12-30 2022-05-13 浙江大学 一种拟态waf中恶意流量检测和行为分析方法
CN114584371A (zh) * 2022-03-04 2022-06-03 桀安信息安全技术(上海)有限公司 一种加密流量行为检测的方法、系统及装置
CN114697068A (zh) * 2020-12-31 2022-07-01 华为技术有限公司 一种恶意流量识别方法及相关装置
CN114866279A (zh) * 2022-03-24 2022-08-05 中国科学院信息工程研究所 基于http请求有效负载的漏洞攻击流量检测方法和系统
CN115022100A (zh) * 2022-08-10 2022-09-06 东南大学 一种基于流量画像与机器学习的物联网入侵检测方法
CN115225301A (zh) * 2021-04-21 2022-10-21 上海交通大学 基于d-s证据理论的混合入侵检测方法和系统
CN115296919A (zh) * 2022-08-15 2022-11-04 江西师范大学 一种边缘网关对特殊流量包计算方法及系统
CN115776449A (zh) * 2022-11-08 2023-03-10 中车工业研究院有限公司 列车以太网通信状态监测方法及系统
CN117061249A (zh) * 2023-10-12 2023-11-14 明阳时创(北京)科技有限公司 基于网络流量的入侵监控方法及系统

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220232023A1 (en) * 2021-01-21 2022-07-21 Noname Gate Ltd. Techniques for securing computing interfaces
CN114553513A (zh) * 2022-02-15 2022-05-27 北京华圣龙源科技有限公司 一种通信检测方法、装置及设备
CN114979828B (zh) * 2022-05-18 2023-03-10 成都安讯智服科技有限公司 基于Modbus的物联网通信模块流量控制方法及系统
CN115208682B (zh) * 2022-07-26 2023-12-12 上海欣诺通信技术股份有限公司 一种基于snort的高性能网络攻击特征检测方法及装置
CN115563570B (zh) * 2022-12-05 2023-04-14 上海飞旗网络技术股份有限公司 一种资源的异常检测方法、装置及设备
CN115695046B (zh) * 2022-12-28 2023-03-31 广东工业大学 一种基于增强集成学习的网络入侵检测方法
CN116346452B (zh) * 2023-03-17 2023-12-01 中国电子产业工程有限公司 一种基于stacking的多特征融合恶意加密流量识别方法和装置
CN116821907B (zh) * 2023-06-29 2024-02-02 哈尔滨工业大学 一种基于Drop-MAML的小样本学习入侵检测方法
CN116738415A (zh) * 2023-08-10 2023-09-12 北京中超伟业信息安全技术股份有限公司 基于粒子群优化加权朴素贝叶斯入侵检测方法及装置
CN117220911B (zh) * 2023-08-11 2024-03-29 释空(上海)品牌策划有限公司 一种基于协议深度分析的工控安全审计系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102904770A (zh) * 2012-08-02 2013-01-30 北京邮电大学 一种高带宽VoIP检测系统
CN103685268A (zh) * 2013-12-10 2014-03-26 华东理工大学 一种基于gpu和svm的网络入侵检测方法
CN105208037A (zh) * 2015-10-10 2015-12-30 中国人民解放军信息工程大学 一种基于轻量级入侵检测的DoS/DDoS攻击检测和过滤方法
US20170063912A1 (en) * 2015-08-31 2017-03-02 Splunk Inc. Event mini-graphs in data intake stage of machine data processing platform
CN108123939A (zh) * 2017-12-14 2018-06-05 华中师范大学 恶意行为实时检测方法及装置
CN108616498A (zh) * 2018-02-24 2018-10-02 国家计算机网络与信息安全管理中心 一种web访问异常检测方法和装置
CN110213287A (zh) * 2019-06-12 2019-09-06 北京理工大学 一种基于集成机器学习算法的双模式入侵检测装置
CN110224990A (zh) * 2019-07-17 2019-09-10 浙江大学 一种基于软件定义安全架构的入侵检测系统
CN110311829A (zh) * 2019-05-24 2019-10-08 西安电子科技大学 一种基于机器学习加速的网络流量分类方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2916203C (en) * 2014-09-17 2018-02-20 Resurgo, Llc Heterogeneous sensors for network defense
KR101666177B1 (ko) * 2015-03-30 2016-10-14 한국전자통신연구원 악성 도메인 클러스터 탐지 장치 및 방법
CN110753064B (zh) * 2019-10-28 2021-05-07 中国科学技术大学 机器学习和规则匹配融合的安全检测系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102904770A (zh) * 2012-08-02 2013-01-30 北京邮电大学 一种高带宽VoIP检测系统
CN103685268A (zh) * 2013-12-10 2014-03-26 华东理工大学 一种基于gpu和svm的网络入侵检测方法
US20170063912A1 (en) * 2015-08-31 2017-03-02 Splunk Inc. Event mini-graphs in data intake stage of machine data processing platform
CN105208037A (zh) * 2015-10-10 2015-12-30 中国人民解放军信息工程大学 一种基于轻量级入侵检测的DoS/DDoS攻击检测和过滤方法
CN108123939A (zh) * 2017-12-14 2018-06-05 华中师范大学 恶意行为实时检测方法及装置
CN108616498A (zh) * 2018-02-24 2018-10-02 国家计算机网络与信息安全管理中心 一种web访问异常检测方法和装置
CN110311829A (zh) * 2019-05-24 2019-10-08 西安电子科技大学 一种基于机器学习加速的网络流量分类方法
CN110213287A (zh) * 2019-06-12 2019-09-06 北京理工大学 一种基于集成机器学习算法的双模式入侵检测装置
CN110224990A (zh) * 2019-07-17 2019-09-10 浙江大学 一种基于软件定义安全架构的入侵检测系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHEN-HSIUNG LIU,ETL.: "PFAC Library: GPU-Based String Matching Algorithm", 《HIGH PERFORMANCE COMPUTING ON GRAPHICS PROCESSING UNITS: HGPU.ORG》 *
XIAOBING HE,ETL.: "An Adaptive Traffic Sampling Method for Anomaly Detection", 《2009 FOURTH INTERNATIONAL CONFERENCE ON INTERNET COMPUTING FOR SCIENCE AND ENGINEERING》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021082339A1 (zh) * 2019-10-28 2021-05-06 中国科学技术大学 将机器学习和规则匹配相融合的安全检测方法和设备
CN111885059A (zh) * 2020-07-23 2020-11-03 清华大学 一种工业网络流量异常检测定位的方法
CN112532642A (zh) * 2020-12-07 2021-03-19 河北工业大学 一种基于改进Suricata引擎的工控系统网络入侵检测方法
CN112532642B (zh) * 2020-12-07 2022-05-20 河北工业大学 一种基于改进Suricata引擎的工控系统网络入侵检测方法
CN114697068A (zh) * 2020-12-31 2022-07-01 华为技术有限公司 一种恶意流量识别方法及相关装置
CN112769840A (zh) * 2021-01-15 2021-05-07 杭州安恒信息技术股份有限公司 一种基于强化学习Dyna框架的网络攻击行为识别方法
CN113132349A (zh) * 2021-03-12 2021-07-16 中国科学院信息工程研究所 一种免代理云平台虚拟流量入侵检测方法及装置
CN112671618B (zh) * 2021-03-15 2021-06-15 北京安帝科技有限公司 深度报文检测方法和装置
CN112671618A (zh) * 2021-03-15 2021-04-16 北京安帝科技有限公司 深度报文检测方法和装置
CN112965970A (zh) * 2021-03-22 2021-06-15 湖南大学 一种基于哈希算法的异常流量并行检测方法及系统
CN112965970B (zh) * 2021-03-22 2024-06-25 湖南匡安网络技术有限公司 一种基于哈希算法的异常流量并行检测方法及系统
CN112953971A (zh) * 2021-04-01 2021-06-11 长扬科技(北京)有限公司 一种网络安全流量入侵检测方法和系统
CN115225301B (zh) * 2021-04-21 2023-11-21 上海交通大学 基于d-s证据理论的混合入侵检测方法和系统
CN115225301A (zh) * 2021-04-21 2022-10-21 上海交通大学 基于d-s证据理论的混合入侵检测方法和系统
CN113098895A (zh) * 2021-04-26 2021-07-09 成都中恒星电科技有限公司 一种基于dpdk的网络流量隔离系统
CN113381980A (zh) * 2021-05-13 2021-09-10 优刻得科技股份有限公司 信息安全防御方法及系统、电子设备、存储介质
CN113472791A (zh) * 2021-06-30 2021-10-01 深信服科技股份有限公司 一种攻击检测方法、装置、电子设备及可读存储介质
CN113556354B (zh) * 2021-07-29 2022-03-01 国家工业信息安全发展研究中心 一种基于流量分析的工业互联网安全威胁检测方法与系统
CN113556354A (zh) * 2021-07-29 2021-10-26 国家工业信息安全发展研究中心 一种基于流量分析的工业互联网安全威胁检测方法与系统
CN113709129A (zh) * 2021-08-20 2021-11-26 绿盟科技集团股份有限公司 一种基于流量学习的白名单生成方法、装置和系统
CN113761522A (zh) * 2021-09-02 2021-12-07 恒安嘉新(北京)科技股份公司 一种webshell流量的检测方法、装置、设备和存储介质
CN113691562A (zh) * 2021-09-15 2021-11-23 神州网云(北京)信息技术有限公司 一种精确识别恶意网络通讯的规则引擎实现方法
CN113691562B (zh) * 2021-09-15 2024-04-23 神州网云(北京)信息技术有限公司 一种精确识别恶意网络通讯的规则引擎实现方法
CN114189368A (zh) * 2021-11-30 2022-03-15 华中科技大学 一种多推理引擎兼容的实时流量检测系统和方法
CN114499991A (zh) * 2021-12-30 2022-05-13 浙江大学 一种拟态waf中恶意流量检测和行为分析方法
CN114584371A (zh) * 2022-03-04 2022-06-03 桀安信息安全技术(上海)有限公司 一种加密流量行为检测的方法、系统及装置
CN114866279A (zh) * 2022-03-24 2022-08-05 中国科学院信息工程研究所 基于http请求有效负载的漏洞攻击流量检测方法和系统
CN114866279B (zh) * 2022-03-24 2023-07-25 中国科学院信息工程研究所 基于http请求有效负载的漏洞攻击流量检测方法和系统
CN115022100B (zh) * 2022-08-10 2022-11-01 东南大学 一种基于流量画像与机器学习的物联网入侵检测方法
CN115022100A (zh) * 2022-08-10 2022-09-06 东南大学 一种基于流量画像与机器学习的物联网入侵检测方法
CN115296919A (zh) * 2022-08-15 2022-11-04 江西师范大学 一种边缘网关对特殊流量包计算方法及系统
CN115776449B (zh) * 2022-11-08 2023-10-03 中车工业研究院有限公司 列车以太网通信状态监测方法及系统
CN115776449A (zh) * 2022-11-08 2023-03-10 中车工业研究院有限公司 列车以太网通信状态监测方法及系统
CN117061249A (zh) * 2023-10-12 2023-11-14 明阳时创(北京)科技有限公司 基于网络流量的入侵监控方法及系统
CN117061249B (zh) * 2023-10-12 2024-04-26 明阳时创(北京)科技有限公司 基于网络流量的入侵监控方法及系统

Also Published As

Publication number Publication date
WO2021082339A1 (zh) 2021-05-06
US20220368703A1 (en) 2022-11-17
CN110753064B (zh) 2021-05-07

Similar Documents

Publication Publication Date Title
CN110753064B (zh) 机器学习和规则匹配融合的安全检测系统
Wang et al. SGuard: A lightweight SDN safe-guard architecture for DoS attacks
CN108701187A (zh) 混合硬件软件分布式威胁分析
Yu et al. A cooperative DDoS attack detection scheme based on entropy and ensemble learning in SDN
CN109922048B (zh) 一种串行分散隐藏式威胁入侵攻击检测方法和系统
US10440035B2 (en) Identifying malicious communication channels in network traffic by generating data based on adaptive sampling
US20210303984A1 (en) Machine-learning based approach for classification of encrypted network traffic
Krishnaveni et al. Ensemble approach for network threat detection and classification on cloud computing
CN110222503A (zh) 一种大数据流负载下的数据库审计方法、系统与设备
CN107302534A (zh) 一种基于大数据平台的DDoS网络攻击检测方法及装置
Khakpour et al. An information-theoretical approach to high-speed flow nature identification
Iqbal et al. A classification framework to detect DoS attacks
CN105407096A (zh) 基于流管理的报文数据检测方法
CN114785563A (zh) 一种软投票策略的加密恶意流量检测方法
Liu et al. A survey on encrypted traffic identification
Wang et al. Honeynet construction based on intrusion detection
Liang et al. FECC: DNS tunnel detection model based on CNN and clustering
US9398040B2 (en) Intrusion detection system false positive detection apparatus and method
Hu et al. Detecting cryptojacking traffic based on network behavior features
CN112104628B (zh) 一种自适应特征规则匹配的实时恶意流量检测方法
Li et al. A Survey of Encrypted Malicious Traffic Detection
Yu et al. Design of DDoS attack detection system based on intelligent bee colony algorithm
CN101984635B (zh) P2p协议流量识别方法及系统
Long et al. Deep encrypted traffic detection: An anomaly detection framework for encryption traffic based on parallel automatic feature extraction
Zhao et al. A novel malware encrypted traffic detection framework based on ensemble learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant