CN116668085B

CN116668085B - 基于lightGBM的流量多进程入侵检测方法及系统

Info

Publication number: CN116668085B
Application number: CN202310512607.7A
Authority: CN
Inventors: 娄国庆; 徐丽娟; 赵大伟; 杨淑棉; 赵梓程; 杨志
Original assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Current assignee: Qilu University of Technology; Shandong Computer Science Center National Super Computing Center in Jinan
Priority date: 2023-05-05
Filing date: 2023-05-05
Publication date: 2024-02-27
Anticipated expiration: 2043-05-05
Also published as: CN116668085A

Abstract

本公开提供了基于lightGBM的流量多进程入侵检测方法及系统，涉及网络流量入侵检测技术领域，方法包括设定入侵检测的父进程，所述父进程下设定两个并行的子进程，第一子进程和第二子进程分别获取网络数据的流级统计特征以及流量；其中，第二子进程以相同的时间为间隔对监听的流量进行拆分存储，再以五元组信息将流量文件拆分为多个单独的会话，判断每个会话是否采用tls协议进行加密传输，对采用tls协议加密传输的会话进行特征提取，获取加密流量的字节特征；两个子进程分别将获取的流级统计特征和字节特征输入至基于决策树的lightGBM的模型中，判断是否发生入侵检测行为。本公开解决多种特征并行检测的问题，保证了入侵检测的高准确率。

Description

基于lightGBM的流量多进程入侵检测方法及系统

技术领域

本公开涉及网络流量入侵检测技术领域，具体涉及基于lightGBM的流量多进程入侵检测方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

随着现代化技术的不断发展，网络安全问题成为人们越来越关注的话题。尤其是近年来，网络安全事件频发，引起了社会各界的高度关注。为了保护个人隐私和企业信息安全，人们对网络安全的意识越来越高。在网络通信过程中，存在黑客盗取、篡改、伪造等攻击行为的发生，从而导致诸如信息泄露、服务中断等严重的安全问题。为了解决这些问题，入侵检测系统应运而生，它能够监控网络流量并识别潜在的威胁，已保障网络的安全性和可靠性。然而，随着加密技术的广泛应用，网络流量从明文传输到了密文，加密流量在网络中所占比例逐渐增加。加密流量在保护数据隐私的同时，也给不法分子提供了可乘之机；识别加密流量中的入侵行为给入侵检测系统的设计和开发带来了新的挑战。入侵检测系统需要能够识别和分析加密流量中的攻击行为，同时还需要考虑到加密流量的特殊性，以确保检测系统的准确性和有效性。为此，研究人员正在探索新的技术和方法，以解决这些挑战。例如，利用机器学习算法对加密流量进行分类和识别，以帮助检测系统更准确地识别恶意流量。

深度数据包检测等传统入侵检测方法广泛用于检测非加密流量。深度数据包检测通过深入检查数据包的有效载荷来确定流量的合法性，在入侵检测方面具有较高的准确性。

但是，由于需要查看流量内容，深度数据包检测不适用于加密流量检测。有国外学者建议使用中间人方法对加密的流量数据进行解密，这样传统的入侵检测方法仍然可以对解密的数据进行处理。但这种方法不符合流量加密保护隐私的目的，而且解密和重新加密数据包的过程会消耗大量资源。与解密密文的检测方法相比，基于机器学习算法的方法在检测加密流量方面显示出独特的优势。基于机器学习的模型通常使用从流量中提取的特征，而无需解密。研究中广泛使用的特征可以分为三类:元数据特征、统计特征和未加密TLS报头特征。元数据特征是基本特征，包含了五元组等数据流的基本信息。统计特征是对网络流量的数据流进行统计分析得到的特征，通常不直接显示，需要通过统计计算提取。当流量使用TLS(传输层安全性)协议加密时，会引入未加密的TLS报头功能，TLS协议是一种为应用程序提供隐私保护的加密协议。在真实的网络环境中，更多情况下是即存在加密流量，也存在非加密流量，对这种复杂情况如何实现较高性能的入侵检测是要研究的问题。网络流量的流级统计特征不仅适用于传统网络，同样也适用于加密网络环境。但上述的未加密TLS报头特征只适用于对采用tls协议的加密流量进行检测，无疑大大缩小了其适用范围。

并且现有的方法在对网络流量数据进行检测时没有充分利用网络流量流级统计特征与加密流量报头字节特征的问题，无法兼顾时间维度与空间维度的缺陷，在对加密流量进行检测时没有考虑到其独特的字节特性与入侵行为发生的相关性，以及无法解决多种特征并行检测又要保证入侵检测模型高可用性和高准确率的问题。

发明内容

本公开为了解决上述问题，提出基于lightGBM(LightGradientBoostingMachine,轻量级梯度提升机器学习)的流量多进程入侵检测方法及系统，考虑真实网络环境下加密流量与非加密流量共存的状态，以及网络流量在时间和空间上的不同维度的特征表现，以双进程的形式对设备网卡进行流量监听，进行检测判断是否有入侵行为的发生。

根据一些实施例，本公开采用如下技术方案：

基于lightGBM的流量多进程入侵检测方法，包括：

设定入侵检测的父进程，所述父进程下设定两个并行的子进程，分别为第一子进程和第二子进程；

父进程启动两个并行的第一子进程和第二子进程同时对网卡进行监听，分别获取网络数据的流级统计特征以及流量；

其中，第二子进程以相同的时间为间隔对监听的流量进行拆分存储，再以五元组信息将流量文件拆分为多个单独的会话，判断每个会话是否采用tls协议进行加密传输，对采用tls协议加密传输的会话进行特征提取，获取加密流量的字节特征；

两个子进程分别将获取的流级统计特征和字节特征输入至基于决策树的lightGBM的模型中，判断是否发生入侵检测行为。

根据一些实施例，本公开采用如下技术方案：

基于lightGBM的流量多进程入侵检测系统，包括：

数据获取模块，设定入侵检测的父进程，所述父进程下设定两个并行的子进程，分别为第一子进程和第二子进程；父进程启动两个并行的第一子进程和第二子进程同时对网卡进行监听，分别获取网络数据的流级统计特征以及流量；

特征获取取模块，其中，第二子进程以相同的时间为间隔对监听的流量进行拆分存储，再以五元组信息将流量文件拆分为多个单独的会话，判断每个会话是否采用tls协议进行加密传输，对采用tls协议加密传输的会话进行特征提取，获取加密流量的字节特征；

入侵检测模块，两个子进程分别将获取的流级统计特征和字节特征输入至基于决策树的lightGBM的模型中，判断是否发生入侵检测行为。

根据一些实施例，本公开采用如下技术方案：

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行所述的基于lightGBM的流量多进程入侵检测方法。

根据一些实施例，本公开采用如下技术方案：

一种终端设备，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行所述的基于lightGBM的流量多进程入侵检测方法。

与现有技术相比，本公开的有益效果为：

本公开通过第一个子进程获取经过被监听网卡的流量流级统计特征，解决从网络数据流层面获取流量统计特征的问题；通过第二子进程实现对网络流量的切分、清洗、转换和裁剪，获取使用tls协议的加密流量的字节特征；从统计特征和加密流量字节特征两方面分析流量数据，实现对入侵行为的高效检测。同时依靠lightGBM强大的分类与并行运算能力，使得在不降低检测准确率的同时，还具有较好的检测速率。

本公开兼顾时间维度与空间维度，在对加密流量进行检测时考虑到其独特的字节特性与入侵行为发生的相关性，提高系统的吞吐量和响应速度，增加系统的可靠性和稳定性。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开实施例入侵检测方法总体框架图；

图2为本公开实施例第二子进程对加密流量提取字节特征的流程图；

图3为本公开实施例在tls加密流量中提取的字节特征示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

术语解释

网络流级统计特征：网络流级统计特征是指对网络中的流进行统计分析，提取流的各种属性特征，以描述网络中的流量分布和特征。这些特征可以包括流的起始时间、结束时间、持续时间、源IP地址、目的端口号、协议类型等。网络流级统计特征在网络安全、网络管理、流量分析等领域有广泛的应用，可以用于识别恶意流量、监控网络性能、优化网络资源分配等。

加密流量：加密流量是指在网络通信中使用加密技术对数据进行加密，使得未授权的第三方无法查看、窃取或篡改数据，以保障通信的机密性和完整性。加密流量可以通过各种加密协议和算法实现，如SSL/TLS、IPSec、SSH等。

lightGBM算法：LightGBM是基于决策树的梯度提升算法，采用了基于直方图的决策树学习方法和多种性能优化技术，以加快模型训练速度和提高模型性能。。

多进程：多进程是指在计算机系统中同时运行多个程序实例，每个进程都有自己的内存空间和执行上下文，彼此之间相互独立并可以通过进程间通信机制协作。多进程可以提高系统的吞吐量和响应速度，增加系统的可靠性和稳定性。

实施例1

本公开的一种实施例中提供了一种基于lightGBM的流量多进程入侵检测方法，包括：

步骤一：设定入侵检测的父进程，所述父进程下设定两个并行的子进程，分别为第一子进程和第二子进程；

步骤二：父进程启动两个并行的第一子进程和第二子进程同时对网卡进行监听，分别获取网络数据的流级统计特征以及流量；

步骤三：两个子进程分别将获取的流级统计特征和字节特征输入至基于决策树的lightGBM的模型中，判断是否发生入侵检测行为。

其中，第二子进程以相同的时间为间隔对监听的流量进行拆分存储，再以五元组信息将流量文件拆分为多个单独的会话，判断每个会话是否采用tls协议进行加密传输，对采用tls协议加密传输的会话进行特征提取，获取加密流量的字节特征。

作为一种实施例，基于lightGBM的流量多进程入侵检测方法的具体实施步骤包括：

根据本公开优选的，主程序作为父进程，分别为并行的检测方法启动两个子进程，在分别实现流级统计特征的提取与检测，以及加密流量字节的特征的提取与检测。

第一子进程启动cicflowmaster工具对网卡进行监听获取网络数据的流级统计特征；

其中，使用cicflowmeter工具对流量提取的特征中。Cicflowmeter工具提取的特征包括：流量持续时间、正向数据包总数、反向数据包总数、每秒流数据包数、流中两个数据包之间的平均时间等，上述特征是流量数据时间维度的特征。

第二子进程实时对网卡进行流量获取，并以2分钟时间为间隔对监听的流量进行拆分存储，再以五元组信息将流量文件进一步拆分为一个个单独的会话，分别判断会话流量中是否是采用tls协议进行加密传输，最后对采用tls协议的会话流量采取进制转换、截取、补0等特征提取工作；

其中，五元组信息包括源ip地址、源mac地址、目的ip地址、目的mac地址以及协议类型信息。

特征提取完毕后，两个进程分别将各自提取的特征传入提前训练好的模型判断是否发生入侵行为。其中本公开的入侵检测算法模型采用的是基于决策树的lightGBM，其能在占用内存较小的情况下快速完成检测工作。

作为一种实施例，如图2所示，第二子进程实时对网卡进行流量获取，并以2分钟时间为间隔进行拆分存储，再以网络会话为单位对其进行拆分，分别判断会话流量中是否是采用tls协议进行加密传输，最后对采用tls协议的会话流量进行字节级进制转换、截取、补0等处理工作，最终获得加密流量的字节特征信息，

第二子进程获取加密流量的字节特征，所述获取加密流量的字节特征提取过程包括如下步骤：

步骤1：对获取到的流量文件依照是否具有相同的五元组信息进行细粒度拆分，拆分为多个单独的会话数据包；

步骤2：分别对会话中的流量或者含有协议层数据进行分析，判断是否是采用的tls协议的加密流量；

步骤3：若是采用tls协议的加密流量，则对其字节特征进行提取；

步骤4：以二进制的形式对采用tls协议的加密流量会话文件读取字节并进行分组，然后将每组的二进制数据进行十进制数据的转化处理后，获取最后的字节特征；

具体的，在进行步骤1之前，假设在对网卡进行监听的过程中，E＝[E₁,E₂,...,E_m]表示自开始捕获至2分钟时间节点内监听到的全部网络数据包。

其中，按时间段拆分是依靠在程序中内置一个计时器来实现，自开始对流量进行捕获计时，每两分钟将捕获的流量保存到本地文件中。

步骤1中，对捕获到的流量文件E＝[E₁,E₂,...,E_m]依照是否具有相同的五元组信息(源ip地址、源mac地址、目的ip地址、目的mac地址、协议)进行进一步的细粒度拆分，得到E＝[S1，S2,…,Sn]，其中Si由具有相同五元组信息的多个数据包组成。

其中，按五元组拆分为会话流量的具体步骤为：

a、读取流量文件：首先读取包含网络流量数据的文件。可以使用各种编程语言和库来实现，如Python中的Scapy、dpkt等。

b、解析五元组信息：解析网络流量中的五元组信息(源IP、目的IP、源端口、目的端口、协议类型)，这些信息通常包含在数据包的IP头和TCP/UDP头中。可以使用上述的库来实现。

c、识别会话：使用五元组信息来识别会话。如果两个数据包具有相同的五元组信息，它们通常属于同一个会话。

优选的，可以使用哈希表或类似的数据结构来跟踪会话。

d、拆分会话流量：根据识别出的会话信息，将流量数据拆分成单独的会话流量。

步骤2中，分别对会话流量[S1，S2,…,Sn]或含有的协议层数据进行检测分析，判断其是否是采用tls协议的加密流量。

步骤3中，若是采用tls协议的加密流量，则对其字节特征进行提取；反之，则忽略，继续对下一条会话流量进行检测判断。

然后在步骤4中对采用tls协议的加密流量进行字节特征提取，以二进制的形式对采用tls协议的加密流量会话文件读取前1200字节，并以8bit为1组进行分组。最后将每组的二进制数据转化为10进制的形式。对于达不到1200字节的会话文件，用数字0填充至1200。

对加密流量提取前1200字节的字节特征。因为流量在网络中传输是以一维的数据流形式体现的，对其提取前1200字节也是以一维的方式进行提取转换等操作，所以保留了加密流量空间维度的特征信息。

具体的，对经过处理后的流量文件进行特征的提取工作，以提取出适合检测算法进行判断的特征信息。第一子进程使用cicflowmeter工具获取网络流量流级的统计数据。如图3所示，第二子进程对采用tls协议的加密流量提取前1200字节的特征信息。具体步骤如下：

a、将流量文件以2进制的形式读取，以8bit为一组，对读取的数据进行分组。

b、将8bit的2进制数转化为对应的10进制数值，得到元素为10进制数值的一维数组。例如，2进制的00000000，对应10进制的0；2进制的11111111，对应10进制的255。因此，该10进制一维数组中每个元素都在[0，255]之间。

c、当数组长度大于1200时，只保留前1200个数值。当数组长度小于1200时，用0填充至1200。

入侵检测时，检测模型由两个训练好的lightGBM算法模型组成，之后，将获取的网络数据的流级统计特征与字节特征分别输入至两个训练好的lightGBM算法模型中，该模型由该模型可以分为四个部分：树结构、决策节点、叶子节点和叶子节点的输出值。在训练过程中，lightGBM采用了梯度提升算法，通过不断地训练新的树来减少残差误差，直到达到预设的停止条件。在预测时，lightGBM通过遍历树结构，根据特征值判断进入哪个决策节点，最终到达叶子节点并输出叶子节点的输出值，将这些输出值相加即为最终的预测值。

lightGBM采用直方图算法，使得它可以在处理海量数据时获得很高的训练速度和精度。同时，lightGBM也支持类别特征的直接使用，无需进行独热编码等预处理，大大简化了特征工程的流程。

所述lightGBM算法模型分别接收对应子进程提取到的特征信息并给予检测判断，输出检测结果。若检测到入侵行为的发生，则向管理人员发出警告，并将触发报警的相关特征信息进行输出，以便管理人员进行入侵核验及后续防御工作。

实验验证

本公开选择加拿大网络安全研究所的CICIDS2017数据集、2020年datacon大数据安全分析竞赛中加密恶意流量赛道的公开数据集(统称为加密恶意流量公开数据集)进行验证。

本实施例的实验条件如下：

高性能服务器一台，windows10 64位系统，python编译环境。

从以下四个方面对模型的效果进行评估。

首先将实验结果分为以下四种样本集合：

(1)TP：实际为正常样本且被模型检测为正常的实例数。

(2)FP：实际为异常样本但被模型检测为正常的实例数。

(3)FN：实际为正常样本但被模型检测为异常的实例数。

(4)TN：实际为异常样本且被模型检测为异常的实例数。

对结果进行分类后，可通过计算准确率(Accuracy)，精确率(Precision)，召回率(Recall)和F-Measure来评价模型的性能。具体定义如下：

分别对CICIDS2017数据集、加密恶意流量公开数据集进行预处理后，分别使用第一子进程与第二子进程进行检测实验。其中CICIDS2017数据集是通过直接cicflowmeter生成的csv特征文件，可以直接被第一子进程用于训练和测试lightGBM算法模型；加密恶意流量公开数据集是以pcap(Packet Capture是一种常见的网络数据包捕获文件格式，它可以被用于存储网络流量)文件形式给出的，所以在实施过程中需要第二子进程对其进行特征提取工作，将其转换为lightGBM算法可以接受的参数类型。两个数据集均采用7:3的比例划分训练集与测试集。在CICIDS2017数据集、加密恶意流量公开数据集上进行验证。其效果如表1所示，其检测结果可以达到较高的检测精度；

表1公开数据集的性能对比表

实施例2

本公开的一种实施例中提供了基于lightGBM的流量多进程入侵检测系统，包括：

特征获取模块，其中，第二子进程以相同的时间为间隔对监听的流量进行拆分存储，再以五元组信息将流量文件拆分为多个单独的会话，判断每个会话是否采用tls协议进行加密传输，对采用tls协议加密传输的会话进行特征提取，获取加密流量的字节特征；

所述入侵检测模块由两个lightGBM算法模型组成，分别接收对应子进程提取到的特征信息作为输入，进行入侵检测判断，输出入侵检测结果。

实施例2中所述的系统具体执行实施例1中所述的方法的具体步骤。

实施例3

实施例4

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本公开的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims

1.基于lightGBM的流量多进程入侵检测方法，其特征在于，包括：

两个子进程分别将获取的流级统计特征和字节特征输入至基于决策树的lightGBM的模型中，判断是否发生入侵检测行为；

所述获取网络数据的流级统计特征包括：

其中，使用cicflowmeter工具对流量提取的特征中，cicflowmeter工具提取的特征包括：流量持续时间、正向数据包总数、反向数据包总数、每秒流数据包数、流中两个数据包之间的平均时间；

所述获取加密流量的字节特征的具体步骤为：

对获取到的流量文件依照是否具有相同的五元组信息进行细粒度拆分，拆分为多个单独的会话数据包；

分别对会话中的流量或者含有协议层数据进行分析，判断是否是采用的tls协议的加密流量；

若是采用tls协议的加密流量，则对其字节特征进行提取；

以二进制的形式对采用tls协议的加密流量会话文件读取字节并进行分组，然后将每组的二进制数据进行十进制数据的转化处理后，获取最后的字节特征。

2.如权利要求1所述的基于lightGBM的流量多进程入侵检测方法，其特征在于，所述五元组信息包括源ip地址、源mac地址、目的ip地址、目的mac地址以及协议类型信息。

3.如权利要求1所述的基于lightGBM的流量多进程入侵检测方法，其特征在于，所述第二子进程以相同的时间为间隔对监听的流量进行拆分存储的方法为：自开始对流量进行捕获计时，每间隔一段相同的时间就将捕获的流量保存到本地文件中。

4.如权利要求1所述的基于lightGBM的流量多进程入侵检测方法，其特征在于，在解析五元组信息时，网络流量中的五元组信息包含在数据包的IP头和TCP/UDP中，并使用五元组信息识别会话，如果两个数据包具有相同的五元组信息，则属于同一个会话。

5.如权利要求4所述的基于lightGBM的流量多进程入侵检测方法，其特征在于，采用哈希表的数据结构来跟踪会话，根据识别出的会话信息，将网络流量数据拆分成多个单独的会话流量。

6.基于lightGBM的流量多进程入侵检测系统，基于如权利要求1-5任一项所述的基于lightGBM的流量多进程入侵检测方法，其特征在于，包括：

7.如权利要求6所述的基于lightGBM的流量多进程入侵检测系统，其特征在于，包括：所述入侵检测模块由两个lightGBM算法模型组成，分别接收对应子进程提取到的特征信息作为输入，进行入侵检测判断，输出入侵检测结果。

8.一种计算机可读存储介质，其特征在于，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行权利要求1-5中任一项所述的基于lightGBM的流量多进程入侵检测方法。

9.一种终端设备，其特征在于，包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行如权利要求1-5中任一项所述的基于lightGBM的流量多进程入侵检测方法。