CN115296856B

CN115296856B - 基于ResNet-AIS的加密流量网络威胁检测器进化学习方法

Info

Publication number: CN115296856B
Application number: CN202210812673.1A
Authority: CN
Inventors: 杨进; 姜鑫涢; 梁刚; 李思宇; 马梓城; 梁炜恒
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2022-07-12
Filing date: 2022-07-12
Publication date: 2024-04-19
Anticipated expiration: 2042-07-12
Also published as: CN115296856A

Abstract

本发明公开了基于ResNet‑AIS的加密流量网络威胁检测器进化学习方法，通过数据预处理，将原始流量包中的数据转换为改进的ResNet训练模型所需数据格式；将所得的数据输入到数据标注处理程序中进行类别标注；对打好标注的灰度图像输入改进的ResNet网络进行特征提取，并确定改进的ResNet网络所需的参数；对经过ResNet训练得到的特征图及AIS算法参数输入到AIS中进行进化学习；根据AIS算法参数进行免疫学习训练并输出检测结果。

Description

基于ResNet-AIS的加密流量网络威胁检测器进化学习方法

技术领域

本发明涉及网络安全技术等领域，具体的说，是基于ResNet-AIS的加密流量网络威胁检测器进化学习方法。

背景技术

随着加密技术在网络流量中的广泛应用，大量恶意攻击开始使用加密传输的方式逃避检测，从而达到对受害者进行攻击的目的。加密流量网络威胁检测，是指通过观察恶意流量与正常流量在特征表现上的差异来区分恶意流量与正常流量。传统的加密流量网络威胁检测器主要采用朴素贝叶斯算法和KNN算法。

朴素贝叶斯算法的基本思想是：以贝叶斯定理为基础并且假设特征条件之间相互独立的方法，先通过已给定的训练集，以特征词之间独立作为前提假设，学习从输入到输出的联合概率分布，再基于学习到的模型，输入X求出使得后验概率最大的输出Y。朴素贝叶斯分类算法的工作步骤如下：

1.确定流量属性向量；每一个流量样本F由特征的合取来描述，即F{f₁,f₂,...,f_n}。

2.计算后验概率；假定有m个类C_i(i＝1,2,...,m)，给定一个未知类的样本F，计算未知类样本F属于各个类的后验概率。后验概率根据贝叶斯法则：

进行计算，其中P(F|C_i)表示F属于类C_i的后验概率；假设属性相互条件独立，不存在依赖关系。则有：

其中P(f_k|C_i)通过训练样本计算得出，若属性f_k是离散(网络流量特征均为离散型变量)的，则有：

其中S_i是类C_i中的训练样本数，S_ik是类C_i中与未知样本F的属性k取值相同的训练样本个数。

3.通过比较得出未知类样本X属于最高后验概率的类C_i，将X归类到类C_i中。

KNN算法(K-Nearest Neighbors)，又称K最近邻算法。KNN算法的基本思想是：若某样本在特征空间中的K个最近邻样本多数属于某一个类别，则该样本属于这个类别。

有关文献：李秀龙.基于网络流量监测与预测的用户流量行为分析方法研究[D].北京工业大学,2013.

传统的加密流量网络威胁检测器大多基于手工提取的特征，特征选取的好坏直接决定算法检测的性能，具备局限性。并且传统的网络威胁检测方法智能性较差，在实际的加密流量威胁检测任务中得到的检测精度往往不高。

AIS是人工免疫系统(Artificial Immune System)的简称。人工免疫是受生物免疫系统的启发而发展起来的，并逐步成为人工智能研究的热点。很早以前，人们就注意到传染病患者痊愈后，对该病有不同程度的免疫力。因此，在相当长时期内，免疫在微生物学和病毒学上是指免除瘟疫；换言之，是指对传染因子的再次感染有抵抗力，这是机体在初次感染后对该传染因子产生了免疫应答的结果。在医学上，免疫是指机体接触抗原性异物的一种生理反应。生物免疫过程如图1所示。目前人工免疫算法已经展示出其在解决复杂问题例如网络安全、数据挖掘上具有自组织、自适应、鲁棒性的特点，显示出AIS在进行信息处理及进化学习上的强大能力和广阔的研究、应用前景。

残差网络(ResNet)是一种智能的人工神经网络，可扩展性好，分类准确率高。理论来说，越深的神经网络训练的模型分类效果越好，但在实际的训练过程中，过深的神经网络会出现梯度消失、梯度爆炸和模型退化的问题，导致模型的准确率下降。残差网络的提出就是为了解决这些难题。ResNet主要通过残差学习块削减了增加网络深度带来的性能问题。残差学习模块如图2所示。假设数据期望的基础映射为H(x)，让堆叠的非线性层去拟合残差映射F(x)＝H(x)-x，而不是直接拟合H(x)。此时基础映射H(x)可表示为F(x)+x。

AIS对人工神经网络不仅是有效的补充，更重要的是它们之间可以互相促进，提出多种解决问题的新思路。如何利用AIS与人工神经网络混合方法的特性，提供能够高效智能化检测加密流量网络威胁的方法，是实现加密流量网络威胁检测器进化学习亟待解决的技术问题。

发明内容

本发明的目的在于提供基于ResNet-AIS的加密流量网络威胁检测器进化学习方法，将ResNet与AIS结合起来，充分利用ResNet在自动化特征提取方面的优势，结合AIS算法在自动免疫进化学习上的长处。

本发明通过下述技术方案实现：基于ResNet-AIS的加密流量网络威胁检测器进化学习方法，包括下述步骤：

1)通过数据预处理，将原始流量包中的数据转换为改进的ResNet训练模型所需数据格式；

2)将步骤1)所得的数据输入到数据标注处理程序中进行类别标注；其中，数据标注处理程序的输入数据为预处理后的二维灰度图像，输出数据为打好标签的数据(打好标注的灰度图像)，数据标注处理程序采用Python程序，其能快速批量处理数据，将输入数据直接归入相应的类别；

3)经步骤2)后，对打好标注的灰度图像输入改进的ResNet网络进行特征提取，并确定改进的ResNet网络所需的参数，其中，采用公开可用的预训练模型，调整网络结构以适应加密流量输入数据后得到改进的ResNet网络；

4)对经过改进的ResNet网络训练得到的特征图及AIS算法参数输入到AIS中；

5)选取各类初始抗体种群和记忆抗体，存入各类抗体数组和记忆抗体数组；

6)对输入的特征图生成加密流量特征抗原进行人工免疫系统训练，直到输入特征图被全部训练完成；

7)判断是否满足训练结束条件，如果不满足则从步骤6)开始进行下一次迭代，满足则检测完成并输出检测结果。

进一步的为更好地实现本发明所述的基于ResNet-AIS的加密流量网络威胁检测器进化学习方法，由于原始流量包中的数据存储在单独的Pcap文件中，每个Pcap文件是一个包含不同大小的数据包的集合，每个文件代表一种应用程序，特别采用下述设置方式：所述步骤1)包括下述具体步骤：

1.1)原始流量包数据文件首先按会话进行分段，使用所有协议层次数据，根据五元组(源IP地址，源端口，目的IP地址，目的端口，传输层协议)将原始流量包中的数据划分为会话，删除会话中与检测无关的信息(例如IP地址、MAC地址，同时，删除重复的数据包和空数据包)，将会话长度固定为784字节；

1.2)对固定长度的会话文件进行复制和扩展，并将其转换为二维灰度图像，以png的格式存储。

进一步的为更好地实现本发明所述的基于ResNet-AIS的加密流量网络威胁检测器进化学习方法，特别采用下述设置方式：改进的ResNet网络所需的参数包括学习率、激活函数、优化算法、损失函数、批处理大小、迭代次数；其中，损失函数计算值的大小作为特征提取停止的判断条件。

进一步的为更好地实现本发明所述的基于ResNet-AIS的加密流量网络威胁检测器进化学习方法，特别采用下述设置方式：所述AIS算法参数包括选择抗体数、克隆率、最大迭代次数、分类类别数；其中，最大迭代次数作为AIS进化学习训练停止的判断条件。

进一步的为更好地实现本发明所述的基于ResNet-AIS的加密流量网络威胁检测器进化学习方法，特别采用下述设置方式：所述步骤6)包括下述具体步骤：

6.1)对初始抗体种群进行抗原匹配，计算加密流量特征抗原到每类记忆抗体的亲和度；

6.2)将加密流量特征抗原判决到具有最大亲和度的记忆抗体所属类别中，并做好相应的标记，纪录该记忆抗体为最佳匹配抗体；

6.3)计算该加密流量特征抗原与步骤6.2)标记的记忆抗体类别中的所有抗体的亲和度，选择与加密流量特征抗原亲和度最高的若干个抗体，产生一个新的抗体集合；

6.4)对步骤6.3)选出来的抗体进行克隆操作，从而产生克隆抗体集合；

6.5)计算加密流量特征抗原与克隆抗体集合中所有抗体的亲和度，从中选出亲和度最大的记忆抗体作为候选者；

6.6)判断作为候选者的记忆抗体与步骤6.2)得到的最佳匹配记忆抗体的亲和度大小，若大于最佳匹配记忆抗体亲和度，则作为候选者的记忆抗体存入记忆抗体数组，并且丢弃记忆抗体数组中原有的最佳匹配记忆抗体，记忆抗体群被更新；若小于最佳匹配记忆抗体亲和度，该候选记忆抗体被丢弃，记忆抗体群不发生变化。

进一步的为更好地实现本发明所述的基于ResNet-AIS的加密流量网络威胁检测器进化学习方法，特别采用下述设置方式：所述步骤6.5)在进行亲和度大小判断时，通过下述公式实现：

其中，O＝{Ab_j|C_j＞1}，O代表抗体的候选区域，C_j表示网络中抗体j的抗原浓度，也就是抗体j能识别的抗原个数、s为候选记忆抗体、Ab_j表示计算完亲和度的抗体。

本发明与现有技术相比，具有以下优点及有益效果：

本发明将ResNet与AIS结合起来，充分利用ResNet在自动化特征提取方面的优势，以及AIS算法在自动免疫进化学习上的长处，从而更精确的识别加密流量。

附图说明

图1为生物免疫过程的宏观描述示意图。

图2为残差学习模块图。

图3为AIS算法步骤示意图。

图4为算法整体流程图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合本发明实施方式中的附图，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。因此，以下对在附图中提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施方式。基于本发明中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

本发明基于下述理论基础而得到：

随着网络攻防博弈的不断升级，越来越多的恶意攻击利用加密技术隐藏攻击特征，从而绕过WAF、IPS、IDS等网络监控防护设备入侵企业内网，对企业形成新威胁、新挑战。据Gartner统计，2020年有超过70％的恶意网络攻击使用加密流量技术，加密攻击流量将逐渐成为黑客攻击的主要媒介和手段。目前，基于传统的规则匹配以及基于算法的防护措施无法及时发现和阻止恶意加密流量的攻击行为，这可能会对资产、声誉和数据造成严重损害，识别恶意加密流量已成为工业界和学术界的重点难点课题，对于这个重要且具有挑战性的主题，企业需要探索新的安全技术以增强其安全能力。

恶意加密流量是一种使用加密技术如https加密等，对攻击命令、恶意攻击软件、恶意程序等加密后进行传输的数据流。识别恶意加密流量涉及处理和分析大量数据的复杂任务，对网络安全运营提出了重大挑战。主要有三个原因：首先，加密的流量特征与明文的流量特征相比变化很大，不能通过常规的负载匹配来检测和识别；其次，恶意软件利用流量伪装技术(如流量变形、链路信息填充)将恶意流量特征转化为常规流量特征，使得识别更加困难；第三，不同编码协议的编码方法和封装模式存在显着差异，需要考虑检测和区分策略。

人工免疫系统(Artificial Immune System,简称AIS)是一种受免疫学理论启发的计算机系统，它通过观察免疫系统的功能、原理和模型，用于解决现实世界的问题。二十世纪八十年代，学术界首次出现基于免疫网络学说的免疫系统的动态模型，并探讨了免疫系统与其它人工智能方法的联系，开始了人工免疫系统的研究。直到1996年12月，在日本首次举行了基于免疫性系统的国际专题讨论会，首次提出了“人工免疫系统”的概念。随后，人工免疫系统进入了兴盛发展时期。

神经网络(Neural Network，简称NN)，在机器学习和认知科学领域，是一种模仿生物神经网络(动物的中枢神经系统，特别是大脑)的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。神经网络由大量的人工神经元联结进行计算。大多数情况下人工神经网络能在外界信息的基础上改变内部结构，是一种自适应系统，通俗地讲就是具备学习功能。现代神经网络是一种非线性统计性数据建模工具，神经网络通常是通过一个基于数学统计学类型的学习方法(Learning Method)得以优化，所以也是数学统计学方法的一种实际应用。和其他机器学习方法一样，神经网络已经被用于解决各种各样的问题，例如机器视觉和语音识别。这些问题都是很难被传统基于规则的编程所解决的。

神经系统和免疫系统之间有许多异同。AIS和神经网络都是受生物启发而产生的技术，二者利用学习、记忆、联想恢复等能力实现在高度分布式系统中识别问题功能。由于AIS能学习并记住曾被识别的模式并能高效地组建新的模式检测器，所以Glenn认为免疫系统是继神经系统之后的“第二大脑系统”。免疫系统中亲和力成熟过程等同于神经网络中权值更新过程，二者都是增加对被识别模式的响应能力。

实施例1：

本发明设计出基于ResNet-AIS的加密流量网络威胁检测器进化学习方法，包括下述步骤：

实施例2：

本实施例是在上述实施例的基础上进一步优化，与前述技术方案相同之处在此不再赘述，进一步的为更好地实现本发明所述的基于ResNet-AIS的加密流量网络威胁检测器进化学习方法，由于原始流量包中的数据存储在单独的Pcap文件中，每个Pcap文件是一个包含不同大小的数据包的集合，每个文件代表一种应用程序，特别采用下述设置方式：所述步骤1)包括下述具体步骤：

1.2)对固定长度的会话文件进行复制和扩展，并将其转换为二维灰度图像，规定以png的格式存储。

实施例3：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同之处在此不再赘述，进一步的为更好地实现本发明所述的基于ResNet-AIS的加密流量网络威胁检测器进化学习方法，特别采用下述设置方式：改进的ResNet网络所需的参数包括学习率、激活函数、优化算法、损失函数、批处理大小、迭代次数；其中，损失函数计算值的大小作为特征提取停止的判断条件。

实施例4：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同之处在此不再赘述，进一步的为更好地实现本发明所述的基于ResNet-AIS的加密流量网络威胁检测器进化学习方法，特别采用下述设置方式：所述AIS算法参数包括选择抗体数、克隆率、最大迭代次数、分类类别数；其中，最大迭代次数作为AIS进化学习训练停止的判断条件。

实施例5：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同之处在此不再赘述，进一步的为更好地实现本发明所述的基于ResNet-AIS的加密流量网络威胁检测器进化学习方法，特别采用下述设置方式：所述步骤6)包括下述具体步骤：

实施例6：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同之处在此不再赘述，进一步的为更好地实现本发明所述的基于ResNet-AIS的加密流量网络威胁检测器进化学习方法，特别采用下述设置方式：所述步骤6.5)在进行亲和度大小判断时，通过下述公式实现：

实施例7：

本实施例是在上述任一实施例的基础上进一步优化，与前述技术方案相同之处在此不再赘述，基于ResNet-AIS的加密流量网络威胁检测器进化学习方法，包括下述步骤：

1)数据预处理：由于原始流量包中的数据存储在单独的Pcap文件中，每个Pcap文件是一个包含不同大小的数据包的集合，每个文件代表一种应用程序，该步骤包括下述具体步骤：

1.2)对固定长度的会话文件进行复制和扩展，并将其转换为二维灰度图像，以png的格式存储；

2)将经过预处理的数据输入到数据标注处理程序中进行类别标注；其中，数据标注处理程序的输入数据为预处理后的二维灰度图像，输出数据为打好标签的数据(打好标注的灰度图像)，数据标注处理程序采用Python程序，其能快速批量处理数据，将输入数据直接归入相应的类别；

3)经步骤2)后，对打好标注的灰度图像输入改进的ResNet网络进行特征提取，并确定改进的ResNet网络所需的参数(包括学习率、激活函数、优化算法、损失函数、批处理大小、迭代次数；其中，损失函数计算值的大小作为特征提取停止的判断条件)，其中，采用公开可用的预训练模型，调整网络结构以适应加密流量输入数据后得到改进的ResNet网络；

4)对经过ResNet训练得到的特征图及AIS算法参数(包括选择抗体数、克隆率、最大迭代次数、分类类别数；其中，最大迭代次数作为AIS进化学习训练停止的判断条件输入到AIS中；

6)如图3所示，对输入的特征图生成加密流量特征抗原进行人工免疫系统训练，直到输入特征图被全部训练完成，其中，对加密流量特征抗原进行人工免疫系统训练包括下述具体步骤：

6.3)计算该加密流量特征抗原与步骤6.2)标记的记忆抗体类别中的所有的记忆抗体的亲和度，选择与加密流量特征抗原亲和度最高的若干个抗体，产生一个新的抗体集合；

以上所述，仅是本发明的较佳实施例，并非对本发明做任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化，均落入本发明的保护范围之内。

Claims

1.基于ResNet-AIS的加密流量网络威胁检测器进化学习方法，其特征在于：包括下述步骤：

2)将步骤1)所得的数据输入到数据标注处理程序中进行类别标注；

3)经步骤2)后，对打好标注的灰度图像输入改进的ResNet网络进行特征提取，并确定改进的ResNet网络所需的参数；

6)对输入的特征图生成加密流量特征抗原进行人工免疫系统训练，直到输入特征图被全部训练完成；包括下述具体步骤：

6.6)判断作为候选者的记忆抗体与步骤6.2)得到的最佳匹配记忆抗体的亲和度大小，若大于最佳匹配记忆抗体亲和度，则作为候选者的记忆抗体存入记忆抗体数组，并且丢弃记忆抗体数组中原有的最佳匹配记忆抗体，记忆抗体群被更新；若小于最佳匹配记忆抗体亲和度，该候选记忆抗体被丢弃，记忆抗体群不发生变化；

2.根据权利要求1所述的基于ResNet-AIS的加密流量网络威胁检测器进化学习方法，其特征在于：所述步骤1)包括下述具体步骤：

1.1)使用所有协议层次数据，根据五元组将原始流量包中的数据划分为会话，删除会话中与检测无关的信息，将会话长度固定为784字节；

3.根据权利要求1或2所述的基于ResNet-AIS的加密流量网络威胁检测器进化学习方法，其特征在于：改进的ResNet网络所需的参数包括学习率、激活函数、优化算法、损失函数、批处理大小、迭代次数；其中，损失函数计算值的大小作为特征提取停止的判断条件。

4.根据权利要求1或2所述的基于ResNet-AIS的加密流量网络威胁检测器进化学习方法，其特征在于：所述AIS算法参数包括选择抗体数、克隆率、最大迭代次数、分类类别数；其中，最大迭代次数作为AIS进化学习训练停止的判断条件。

5.根据权利要求4所述的基于ResNet-AIS的加密流量网络威胁检测器进化学习方法，其特征在于：所述步骤6.5)在进行亲和度大小判断时，通过下述公式实现：