CN113379000B

CN113379000B - 一种自适应更新的网络入侵检测方法

Info

Publication number: CN113379000B
Application number: CN202110791305.9A
Authority: CN
Inventors: 陈文�; 顾守珂; 康明
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2022-03-15
Anticipated expiration: 2041-07-13
Also published as: CN113379000A

Abstract

本发明公开了一种自适应更新的网络入侵检测方法，通过特征空间映射，在不同的特征空间下训练多个分类模型；多个分类模型协同进行入侵检测；多个分类模型根据当前样本分布与历史样本分布的差异自动更新触发；多个分类模型协同进行自适应更新。本发明通过周期性的计算新收集的样本分布与历史样本分布相对熵变化情况，自动确定入侵检测模型触发更新的时机；以及通过多分类模型协同学习，实现入侵检测模型的自适应更新，更能适应环境的变更。

Description

一种自适应更新的网络入侵检测方法

技术领域

本发明涉及网络空间安全技术领域，具体的说，是一种自适应更新的网络入侵检测方法。

背景技术

随着大数据、人工智能时代的到来，互联网攻击模式呈现多样化、规模化和智能化，且攻击持续时间更长、速度更快、实施成本更低。攻击者多采用集团化运作，大多攻击目标明确，主要针对企事业单位的核心业务系统，综合利用了漏洞、社工、新型木马等手段。

传统的网络入侵检测利用了机器学习模型，而传统的机器学习模型以结构化风险最小为理论为基础，认为只要模型在训练样本集上满足经验风险和置信风险最小化，就可以获得数据拟和与推广、泛化能力的平衡。然而在网络环境下，我们将机器学习模型用于网络异常数据检测，所要面临的问题不仅是结构化风险最小。我们还要面临网络数据环境的变化：历史数据的经验分布可能已经发生变化，仅靠在历史数据上训练出的模型结构化风险最小并不能保证模型能够适应变化了的数据环境，因此传统的网络入侵检测方法存在以下问题：

1）现有的网络入侵检测模型不能自动感知网络环境变化进而自动触发入侵检测模型的自动更新；

2）现有的网络入侵检测模型不能在触发更新后，在仅有少量已标记样本的情况下使模型具备自动更新学习的能力。

传统的入侵检测技术已难以适应日益复杂、多变的网络环境，不能对网络中存在的各类已知和未知安全威胁的快速检测与识别。我们需要寻求新的方法使机器学习模型能够自适应的进行更新训练，以适应环境的变更，以解决复杂网络环境下安全威胁的发现。

发明内容

本发明的目的在于提供一种自适应更新的网络入侵检测方法，用于解决传统的网络入侵检测方法不能自动触发入侵检测模型的自动更新、不具备自动更新学习的能力、不能适应环境的变更的问题。

本发明通过下述技术方案解决上述问题：

一种自适应更新的网络入侵检测方法，包括：

步骤S100：通过特征空间映射，在不同的特征空间下训练多个分类模型；

步骤S200：多个分类模型协同进行入侵检测；

步骤S300：多个分类模型根据当前样本分布与历史样本分布的差异自动更新触发；

步骤S400：多个分类模型协同进行自适应更新。

本发明训练生成的多个分类模型，通过协同学习，实现入侵检测模型的自适应更新；采用周期性的计算新收集的样本分布与历史样本分布相对熵变化情况，自动确定入侵检测模型触发更新的时机；能够适应环境的变更。

所述步骤S100具体包括：

步骤S110：收集初始已标记样本集Data_original，Data_original={<x_i,y_i>|x_i∈R^d,1≤i≤L}，其中R^d代表d维实数向量集，x_i在每一维的值代表一种网络数据流特征值，取值包括网络入侵检测数据流特征中的源IP、目的IP、源端口、目的端口、TTL时长、session会话错误、包负载大小、数据包负载特征值及其线性组合，L为已标记样本数量，y_i代表样本x_i的标签类别，y_i∈{‘正常’,‘异常’}；

步骤S120：Data_original构成了d维原始样本特征空间，随后通过PCA主成分分析、深度神经网络DNN等方法，将Data_original中的样本{<x_i,y_i>|x_i∈R^d,1≤i≤L}映射到低维的特征空间V_j（PCA主成分分析降维后的低维特征空间）或深度神经网络DNN的隐含层特征空间（神经网络中间层数据输出）：

其中，

是d_j维实数向量集，代表

映射后的特征空间，

为映射函数，映射函数为PCA降维函数或DNN深度神经网络，

将d维向量映射到维特征空间V_j，θ_j代表映射函数

的参数，j=1,2,…,n；Data_original中的样本映射到V_j后产生的样本集合为Data’_j={<

,y_i>|x_i∈Data_original,1≤i≤L},j=1,2,…,n；

步骤S130：在差异化的特征空间V₁,V₂,…,V_j,…,V_n中，分别基于数据集Data’₁，Data’₂,…,Data’_j,…,Data’_n训练n个不同的分类模型D_j，j=1,2,…,n。

利用不同的θ_j可以获得不同的映射函数，对于PCA，θ_j代表降维的阈值参数，对于DNN，θ_j代表神经网络结构和连接权值参数；然后在差异化的特征空间V₁,V₂,…,V_n中产生n个不同的分类模型D_j，j=1,2,…,n，D_j可以是SVM，神经网络，决策树等通用机器学习模型，由此入侵检测模型具备了在差异化特征空间下的异常检测能力。

所述步骤S200具体为：

步骤S210：提取网络数据流的原始特征，构成待测试样本集Data_test={x_p|x_p∈R^d,1≤p≤m_t}，m_t为待测试样本集中样本的数量；

步骤S220：将待测试样本集Data_test中的样本{x_p,x_p∈R^d,1≤p≤m_t}分别映射到n个特征空间V_j，获得映射后的样本集Data’_testj：

其中，j=1,2,…,n；x_p为待测试样本集Data_test中第p个样本；

步骤S230：利用分类模型D_j对Data’_testj中的每个样本划分类别，j=1,2,…,n，具体包括：

步骤S231：令p=1；步骤S232：令j=1，对于样本x_p∈Data_test，初始化样本x_p被分类为‘正常’的数量Tn_p=0，初始化样本x_p被分类为‘异常’的数量Ta_p=0；

步骤S233：在特征空间V_j中，分类模型D_j对样本

的分类结果为‘正常’，则Tn_p=Tn_p+1；否则Ta_p=Ta_p+1；

步骤S234：j=j+1，若j＜n，返回步骤S233执行；否则进入下一步；

步骤S235：若Tn_p>Ta_p，则x_p对应的标记类别y_p为‘正常’，否则y_p为‘异常’，进入下一步；

步骤S236：p=p+1，若p≤m_t，返回步骤S232执行；否则结束。

所述步骤S300包括：n个分类模型周期性的执行模型自动更新自动触发检查，检查过程如下：

在更新周期内进行自动采样，根据采样得到的样本值，通过Parzen窗法计算历史网络数据流特征样本在每个特征维度取值的概率分布P_r(x)、以及当前时间周期窗口下新收集的网络样本在每个特征维度取值数据分布Q_r(x)，1≤r≤d，d为数据维数；随后计算P_r(x)与Q_r(x)间的KL距离，KL距离用于量化数据的概率分布的变化：

其中X_c为更新周期内进行自动采样的样本集合；

计算加权KL距离S：

其中ω_r为对应维度的权重；

当S超出阈值λ₁，则自动触发入侵检测模型更新。

所述步骤S400具体包括：依次对每一个分类模型执行下述更新过程：

步骤S410：采集更新周期的网络通信数据流，提取其中的网络数据流原始特征，构成更新样本集合Data_update={x_s|x_s∈R^d,1≤s≤U}，U为更新样本数量；将Data_update中的样本映射到的特征空间V_j，获得映射后的样本集

；

步骤S420：对于特征空间V_j训练出来的分类模型D_j，j=1,2,…,n，由其余特征空间训练出的n-1个分类模型D_k，k=1,2,…,n，且j≠k，通过投票机制从Data_update中为D_j产生更新用的新标记样本，具体如下：

步骤S421：对于更新样本x_q∈Data_update，q=1,2,…,U，若在特征空间V_k中，k=1,2,…,n且k≠j，分类模型D_k对

的分类结果为‘正常’，则累加x_q被分类为‘正常’的数量Tn_q，否则累计x_q被分类为‘异常’的数量Ta_q，若Tn_q>Ta_q，则x_q对应的类别标记y_q为‘正常’，否则y_q为‘异常’；

步骤S422：并将<x_q,y_q>放入新标记样本集L_j；

步骤S430：对第j个分类模型D_j,j=1,2,…,n，获得的新标记样本集L_j进行可信度评估，具体包括：

步骤S431：定义概率传播矩阵P，具体如下：

定义X_U为随机采集更新周期内的少量样本集，X_U={x₁,x₂,…,x_v,…,x_u}，对X_U中样本进行人工标记，得到人工标记的标签集合Y’_U，Y’_U={y₁,y₂,…,y_v,…,y_u}，其中y_v=[p_v1,p_v2]，v=1,2…u，p_v1、p_v2分别表示X_U中已标记样本x_v属于‘正常’和‘异常’的概率；

从新标记样本集L_j中随机选出子集X_L={x₁,x₂,…,x_l}，X_L对应的标签集合Y_L={y₁,y₂,…,y_l}，令X=[X_L∪X_U]^T；定义规模为(l+u)*2的标签类别概率矩阵Y=[Y_L,Y_U]^T，Y中第e行，第f列的元素Y_ef表示X中第e个样本x_e属于类别f的概率，1≤e≤l+u，1≤f≤2，Y_U为标签传播结果集合，初始时Y_U设置为规模为u*2的0矩阵；

定义样本x_e∈X、x_z∈X，x_e与x_z之间的相似度w_ez：

其中，d代表样本维数，x_et代表样本x_e的第t维属性值，x_zt代表样本x_z的第t维属性值，σ为量化参数，则规模为(l+u)*(l+u)的概率传播矩阵P中第e行，第z列的元素P_ez：

其中，1≤e，z≤l+u，P_ez代表将样本x_e的标签传递给样本x_z的概率；

步骤S432：由于多个分类模型通过投票机制对x_i，i=1,2,…,U进行了标记，但新标记的样本<x_i,y_i>仍然可能存在错误的标记y_i，如果不对y_i进行筛选，则由错误的样本对分类模型进行迭代更新将引起错误累积。因此，本发明引入基于标签传播的新标记样本可信度评估过程，依次对第分类模型D_j,j=1,2,…,n,获得的新标记样本集L_j进行可信度评估，对于分类模型D_j，对新标记样本集L_j进行基于标签传播的置信评估：

1）临时变量Y_Temp=Y_U；

2）计算概率传播矩阵P与标签类别概率矩阵Y的乘积PY，更新标签类别概率矩阵Y，Y=PY；

3）替换标签类别概率矩阵Y的前l行为Y_L，保持Y_L中的类别标签不变；

4）令F=|Y_Temp-Y_U|，若矩阵F中的全部元素之和小于阈值λ，则输出Y_U，迭代结束，进入下一步，否则跳转2）；

5）计算人工标记的标签集合Y’_U与标签传播结果集合Y_U的差异V_D=|Y_U-Y’_U|，若V_D中元素的累积和值超过阈值λ₂，则表明本次多个分类模型通过投票机制为分类模型D_j协同产生的新标记样本T_j中存在较高的标记错误率，舍弃L_j，返回步骤S400；否则利用样本集合L_j∪X_U组成新的样本集，通过特征空间映射，在特征空间V_j下对分类模型D_j，j=1,2,…,n进行更新训练，实现多个分类模型的自适应更新。

通过基于标签传播的样本可信度评估过程，对新标记样本进行筛选，筛选后的样本集合用于对分类模型进行更新，以实现网络异常检测模型随网络环境同步动态演化的目的。

本发明与现有技术相比，具有以下优点及有益效果：

本发明通过周期性地计算新收集的样本分布与历史样本分布相对熵变化情况，自动确定入侵检测模型触发更新的时机；以及通过多分类模型协同学习，实现入侵检测模型的自适应更新，更能适应环境的变更。

附图说明

图1为本发明的流程图；

图2为本发明的多分类模型初始训练示意图；

图3为本发明的多分类模型协同入侵检测示意图；

图4为本发明的多分类模型自适应更新示意图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例1：

结合图1所示，一种自适应更新的网络入侵检测方法，包括：

步骤S200：多个分类模型协同进行入侵检测；

步骤S400：多个分类模型协同进行自适应更新。

采用周期性的计算新收集的样本分布与历史样本分布相对熵变化情况，自动确定入侵检测模型触发更新的时机；2）通过多分类模型协同学习，实现入侵检测模型的自适应更新。

结合图2所示，所述步骤S100具体包括：

其中，

是d_j维实数向量集，代表

映射后的特征空间，

为映射函数，映射函数为PCA降维函数或DNN深度神经网络，

将d维向量映射到d_j维特征空间V_j，θ_j代表映射函数

,y_i>|x_i∈Data_original,1≤i≤L},j=1,2,…,n；

结合图3所示，所述步骤S200具体为：

其中，j=1,2,…,n；x_p为待测试样本集Data_test中第p个样本；

步骤S231：令p=1；

步骤S232：令j=1，对于样本x_p∈Data_test，初始化样本x_p被分类为‘正常’的数量Tn_p=0，初始化样本x_p被分类为‘异常’的数量Ta_p=0；

步骤S233：在特征空间V_j中，分类模型D_j对样本

的分类结果为‘正常’，则Tn_p=Tn_p+1；否则Ta_p=Ta_p+1；

步骤S236：p=p+1，若p≤m_t，返回步骤S232执行；否则结束。

其中X_c为更新周期内进行自动采样的样本集合；

计算加权KL距离S：

其中ω_r为对应维度的权重；

当S超出阈值λ₁，则自动触发入侵检测模型更新。

结合附图4所示，所述步骤S400具体包括：依次对每一个分类模型执行下述更新过程：

；

步骤S422：并将<x_q,y_q>放入新标记样本集L_j；

步骤S431：定义概率传播矩阵P，具体如下：

定义样本x_e∈X、x_z∈X，x_e与x_z之间的相似度w_ez：

1）临时变量Y_Temp=Y_U；

尽管这里参照本发明的解释性实施例对本发明进行了描述，上述实施例仅为本发明较佳的实施方式，本发明的实施方式并不受上述实施例的限制，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims

1.一种自适应更新的网络入侵检测方法，其特征在于，包括：

步骤S200：多个分类模型协同进行入侵检测；

步骤S400：多个分类模型协同进行自适应更新；所述步骤S100具体包括：

步骤S110：收集初始已标记样本集Data_original，Data_original＝{<x_i,y_i>|x_i∈R^d,1≤i≤L}，其中R^d代表d维实数向量集，x_i在每一维的值代表一种网络数据流特征值，取值包括网络入侵检测数据流特征中的源IP、目的IP、源端口、目的端口、TTL时长、session会话错误、包负载大小、数据包负载特征值及其线性组合，L为已标记样本数量，y_i代表样本x_i的标签类别，y_i∈{‘正常’,‘异常’}；

步骤S120：将初始已标记样本集Data_original中的样本映射到特征空间V_j，V_j为低维特征空间或深度神经网络DNN的隐含层特征空间：

其中，

是d_j维实数向量集，代表

映射后的特征空间，

为映射函数，映射函数为PCA降维函数或DNN深度神经网络，

将d维向量映射到d_j维特征空间V_j，θ_j代表映射函数

的参数，j＝1,2,…,n；Data_original中的样本映射到V_j后产生的样本集合为

步骤S130：在差异化的特征空间V₁,V₂,…,V_j,…,V_n中，分别基于数据集Data’₁，Data’₂,…,Data’_j,…,Data’_n训练n个不同的分类模型D_j，j＝1,2,…,n；

所述步骤S200具体为：

步骤S210：提取网络数据流的原始特征，构成待测试样本集Data_test＝{x_p|x_p∈R^d,1≤p≤m_t}，m_t为待测试样本集中样本的数量；

其中，j＝1,2,…,n；x_p为待测试样本集Data_test中第p个样本；

步骤S230：利用分类模型D_j对Data’_testj中的每个样本划分类别，j＝1,2,…,n，具体包括：

步骤S231：令p＝1；

步骤S232：令j＝1，对于样本x_p∈Data_test，初始化样本x_p被分类为‘正常’的数量Tn_p＝0，初始化样本x_p被分类为‘异常’的数量Ta_p＝0；

步骤S233：在特征空间V_j中，分类模型D_j对样本

的分类结果为‘正常’，则Tn_p＝Tn_p+1；否则Ta_p＝Ta_p+1；

步骤S234：j＝j+1，若j＜n，返回步骤S233执行；否则进入下一步；

步骤S236：p＝p+1，若p≤m_t，返回步骤S232执行；否则结束；

其中X_c为更新周期内进行自动采样的样本集合；

计算加权KL距离S：

其中ω_r为对应维度的权重；

当S超出阈值λ₁，则自动触发入侵检测模型更新；

步骤S410：采集更新周期的网络通信数据流，提取其中的网络数据流原始特征，构成更新样本集合Data_update＝{x_s|x_s∈R^d,1≤s≤U}，U为更新样本数量；将Data_update中的样本映射到的特征空间V_j，获得映射后的样本集

步骤S420：对于特征空间V_j训练出来的分类模型D_j，j＝1,2,…,n，由其余特征空间训练出的n-1个分类模型D_k，k＝1，2…n，且j≠k，通过投票机制从Data_update中为D_j产生更新用的新标记样本，具体如下：

步骤S421：对于更新样本x_q∈Data_update，q＝1,2,…,U，若在特征空间V_k中，k＝1,2,…,n且k≠j，分类模型D_k对

步骤S422：并将<x_q,y_q>放入新标记样本集L_j；

步骤S430：对第j个分类模型D_j，j＝1,2,…,n，获得的新标记样本集L_j进行可信度评估，具体包括：

步骤S431：定义概率传播矩阵P，具体如下：

定义X_U为随机采集更新周期内的少量样本集，X_U＝{x₁,x₂,...,x_v,...,x_u}，对X_U中样本进行人工标记，得到人工标记的标签集合Y’_U，Y’_U＝{y₁,y₂,...,y_v,...,y_u}，其中y_v＝[p_v1,p_v2]，v＝1,2...u，p_v1、p_v2分别表示X_U中已标记样本x_v属于‘正常’和‘异常’的概率；

从新标记样本集L_j中随机选出子集X_L＝{x₁,x₂,...,x_l}，X_L对应的标签集合Y_L＝{y₁,y₂,…,y_l}，令X＝[X_L∪X_U]^T；定义规模为(l+u)*2的标签类别概率矩阵Y＝[Y_L,Y_U]^T，Y中第e行，第f列的元素Y_ef表示X中第e个样本x_e属于类别f的概率，1≤e≤l+u，1≤f≤2，Y_U为标签传播结果集合，初始时Y_U设置为规模为u*2的0矩阵；

定义样本x_e∈X、x_z∈X，x_e与x_z之间的相似度w_ez：

步骤S432：对于分类模型D_j，对新标记样本集L_j进行基于标签传播的置信评估：

1)临时变量Y_Temp＝Y_U；

2)计算概率传播矩阵P与标签类别概率矩阵Y的乘积PY，更新标签类别概率矩阵Y，Y＝PY；

3)替换标签类别概率矩阵Y的前l行为Y_L，保持Y_L中的类别标签不变；

4)令F＝|Y_Temp-Y_U|，若矩阵F中的全部元素之和小于阈值λ，则输出Y_U，迭代结束，进入下一步，否则跳转2)；

5)计算人工标记的标签集合Y’_U与标签传播结果集合Y_U的差异V_D＝|Y_U-Y’_U|，若V_D中元素的累积和值超过阈值λ₂，则表明本次多个分类模型通过投票机制为分类模型D_j协同产生的新标记样本T_j中存在较高的标记错误率，舍弃L_j，返回步骤S400；否则利用样本集合L_j∪X_U组成新的样本集，通过特征空间映射，在特征空间V_j下对分类模型D_j，j＝1,2,…,n进行更新训练，实现多个分类模型的自适应更新。