CN113569243A

CN113569243A - 基于自监督变分lstm的深层半监督学习网络入侵检测方法

Info

Publication number: CN113569243A
Application number: CN202110886266.0A
Authority: CN
Inventors: 蔡少康; 韩德志; 李明; 张茹悦; 王振辉
Original assignee: Shanghai Maritime University
Current assignee: Shanghai Maritime University
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2021-10-29

Abstract

本发明公开了一种基于自监督变分LSTM的深层半监督网络入侵检测方法，其实现步骤为：数据预处理，对数值表示进行标准化处理；压缩网络的LSTM编码器将有标签和无标签样本向量的高维特征表示压缩成低维表示，并使用softsign函数替换tanh函数作为激活函数；定义自监督变分自编码器，重构隐变量，定义潜在变量；使用LSTM解码器负责将隐变量转换为重构的特征向量，并将特征向量输入到评估网络中，得到初步分类结果；对标签数据和未标签数据的分类结果分别计算有监督损失和无监督损失，并将参数更新到权重函数内部；本发明可以用在存在不平衡数据的背景下最大限度的提取关键特征，具有较高的分类准确率，较低的误报率。

Description

基于自监督变分LSTM的深层半监督学习网络入侵检测方法

技术领域

本发明应用于网络安全中的入侵检测领域。特别是涉及一种基于自监督变分LSTM的深层半监督学习网络入侵检测方法。

背景技术

随着网络技术的更新迭代，各式各样的新型恶意攻击不断出现，攻击手段不断更新，攻击者时常利用流行的第三方组件的漏洞对目标网站进行攻击。网络安全问题已逐渐成为一个备受关注的话题。

入侵检测技术是一种高效的，积极主动的网络防护技术，通过分析网络通信过程数据交换过程中流量或系统审计记录，提供对内部、外部攻击和误操作的实时保护，当发现可疑通信异常行为流量时发出告警或采取拦截和阻止措施以保护系统安全。NIDS根据检测技术的不同可以归类为四种，基于统计的检测算法，基于规则的检测算法，基于免疫学的入侵检测算法，基于神经网络的检测算法。

深度学习是机器学习算法中的一个研究分支，它通过将线性或非线性模型转换序列组织为特定数据结构并不断地学习和收敛，训练出目标特征模型。在入侵检测领域，因深度学习现有的模型算法主要如下：

(1)基于卷积神经网络的入侵检测方法。卷积神经网络的基本结构由输入层、卷积层、池化层、全连接层和输出层组成，输入已知数据训练神经网络模型，输入测试集的数据作为网络模型的输入。隐层网络中，通过卷积与池化操作交替执行，缩减特征尺寸，最终输出层对卷积神经网络提取到特征的特征进行分类，分类的输出即为结果。该方法能以序列为主的网络流量进行图像化，以处理图像的方式对序列数据进行处理。缺点是卷积神经网络本身的局限性导致网络模型忽略了输入数据的时序特征。

(2)基于长短期网络入侵检测方法(Long Short-Term Memory)。LSTM是由输入门，输出门，遗忘门三个门机制组成，通过引入细胞状态，有效地解决了RNN的短期依赖瓶颈。通过三个门的协同作用，输出层将网络数据的时序特征作为分类器的输入进行分类。

(3)基于混合网络入侵检测方法。将LSTM和CNN进行并行或交替使用，弥补使用单一方法的缺陷与不足，将二者提取的特征“并联”得到融合特征，利用CNN的特征筛选，LSTM传递线性的循环信息，非线性的输出信息给隐藏层的外部状态，将融合特征输出至分类器进行数据分类。

(4)基于变分自编码器的入侵检测方法。变分自动自编码器是一种深度学习模型，与传统自编码器不同，变分自编码器学习的不再是样本的个体，而是通过建立样本的概率密度分布模型来学习样本的分布规律。自编码器用于建立原始输入数据的变分推断，生成隐变量的变分概率分布。解码器根据推断网络生成的隐变量变分概率分布，生成与原始数据接近的概率密度分布。

以上四种方法分别存在四个问题：

(1)模型结构的复杂化导致训练效率的低下；

(2)针对高维不平衡数据的异常检测问题。针对高维不平衡数据中降维与识别，不能很好的保留降维前的原始流量信息；

(3)只能检测已知的攻击类型且需要大量有标签样本，训练要求高。

(4)通过采样来获得边际似然函数的近似解，然而即便在极小的数据集上应用现代抽样方法(例如马尔科夫蒙特卡罗)，计算开销也十分高昂。

半监督学习利用少量有标签数据获得大规模的训练数据，一定程度上弥补了有监督学习与无监督学习的不足。现有半监督入侵检测算法无法有效的统计样本的分布，易导致欠拟合。

发明内容

本发明的目的在于提供一种基于自监督变分LSTM的深层半监督学习网络入侵检测方法，设计了一种与变分重参数化方案相关的编解码器神经网络，该方法可从高维原始数据中学习低维特征表示，并不断修正低维包含的关键信息。同时还定义并量化了三个损失函数，将重构后的隐变量约束为更明确、更有意义的形式。

为了达到上述目的，本发明通过以下技术方案实现：

步骤S1、对数据集进行预处理，将符号特征表示转换成数字特征表示，将所有的数值特征属性进行标准化；

步骤S2、将标准化后的数据作为压缩网络中LSTM编码器的输入，将高维度的数据进行降维，建立高维到低维空间的双向映射，得到压缩变量ω。设置LSTM模型的参数和每一层隐藏层单元的个数；

步骤S3、将压缩变量ω通过自监督变分自编码器生成隐变量Z，定义一个损失函数

衡量隐变量Z和输入数据X_i之间的离散损失(divergence loss)；

步骤S4、利用压缩网络中LSTM解码器，将样本标签编码得到的隐变量Z重构成生成新的标签样本X′。定义损失函数

衡量隐变量Z保留原始输入信息的程度；

步骤S5、利用LSTM解码器将无标签样本编码得到的隐变量Z，预测其标签所属每一类别的概率，利用无标签样本预测得到的标签与隐变量Z共同生成新的无标签样本；

步骤S6、将有标签样本和无标签样本的重构样本与分类损失函数的误差作为网络的目标函数之一，不断迭代更新模型参数直至收敛。为了从评估网络测量原始标签集合Y和检测标签集合Y′之间的分类损失，将原始标签样本y_i和检测标签样本y_i′的交叉熵损失定义为L_v；

步骤S7、利用权重函数，将无标签样本映射为权重，极小化监督损失和无监督损失值，利用反向传播算法反向微调模型参数。当达到最大训练次数或者损失值小于给定的阈值，训练将停止。

步骤S8、形成训练好的自监督变分LSTM模型，然后输入测试集进行快速学习，即可得到每条测试数据的入侵类别。

进一步，所述的步骤S2中，首先设置压缩网络中LSTM编码器和解码器遗忘门，输入门和输出门的参数以及每一层隐藏层单元的数量，然后将标准化后的数据集作为模型的输入，利用LSTM编码器对输入数据进行降维，建立高维到低维的双向映射，得到压缩变量w。设置LSTM模型的参数和每一层隐藏层单元的个数。

进一步，所述的步骤S3中，采用自监督变分自编码器对压缩变量w进行重构生成隐变量Z，随后将隐变量Z作为评估网络的输入并结合标签数据做数据分类训练器。并且，本发明还定义了一个损失函数

描述两个变量之间的交互信息和离散损失。

进一步，所述的步骤S4中，LSTM编码器对输入特征进行压缩过程中可能会丢失一些关键信息或引入一些噪声数据。为了评估压缩损失，LSTM解码器负责将隐变量Z重构回特征变量X′，其中重构变量X′的特征维度需与输入向量一致。同时，本发明定义一个损失函数

用以衡量隐变量Z保留原始输入信息的程度。

进一步，所述步骤S5中，首批输入的无标签样本经过压缩网络和自监督变分自编码器得到隐变量Z，在评估网络中利用隐变量Z预测样本所属每个类别的概率，借助LSTM解码器评估无标签数据的压缩损失，最后将无标签数据的隐变量Z输入至评估网络做数据分类训练。

进一步，所述步骤S6中，先计算有标签样本的预测结果与原始样本标签的分类误差L_v(h(Z，θ)，Y)，h表示评估网络，θ表示评估网络的参数，h(Z；θ)表示网络预测的结果，下同；Y表示原始样本的标签。其次，计算无标签样本的预测结果，并对预测结果进行正则化μ(z；θ)，防止模型对有限样本点集上评估的损失函数进行过拟合。最后，得到判断评估网络分类结果的目标函数L_es。

进一步，所述步骤S7中，在评估网络中，利用权重函数ψ(Z_i；η)，更新网络参数θ，极小化监督损失和无监督损失值，并最小化目标函数，以此来训练模型参数直至收敛。

本发明与现有技术相比具有以下优点：

本发明提供的基于变分LSTM的深层半监督学习网络入侵检测方法具有如下有益效果：

(1)本发明充分在处理不平衡数据的过程中，高维数据存在大量冗杂信息，并且会影响模型的效率，因此引入了两个LSTM实现编码和解码；为了估计无标签样本的后验概率，并借助估计的后验概率来对无标签样本进行聚类，引入自监督变分自编码器来生成隐变量Z。

(2)自监督变分自编码器引入两个潜在变量u和l，u捕获输入数据的全局结构，l编码w和Z之间的丢失信息，从而引导模型发现目标观测值的分布。

(3)考虑到在优化过程，隐变量Z的后验分布易受到外界因素的干扰，进而影响特征的提取能力，为了限制优化过程中隐变量Z，有效地保留关键特征，确保其数据分布与原始的输入数据保持一致，在模型的不同阶段分别引入了三个损失函数

L_v，有效的提高识别准确率。该方法具有较高的鲁棒性和效率性，且极大的削减了对先验分布的需求，具有较高的分类准确率，较低的误报率。

附图说明

图1为本发明基于自监督变分LSTM的深层半监督学习网络入侵检测方法的方法流程图。

图2为本发明基于自监督变分LSTM的深层半监督学习网络入侵检测方法的模型结构图。

图3为本发明基于自监督变分LSTM的深层半监督学习网络入侵检测方法的自监督变分自编码器的方法示意图。

具体实施方式

通过详细说明一个较佳的具体实施例，对本发明做进一步阐述。

如图1所示，本发明提供一种基于自监督变分LSTM的深层半监督学习网络入侵检测方法的方法流程图。

如图2所示，本发明提供一种基于自监督变分LSTM的深层半监督学习网络入侵检测方法的模型结构图(由于图片过长，为了方便展示已旋转90°)。

包含以下步骤：

步骤S1中、所述标准化处理具体为：对数据集进行预处理，将符号特征表示转换成数字特征表示。根据公式(1)将数据型样本线性映射到[0，1]区间。

其中X是输入数据，

表示标准化处理后的值，X_min是该属性的最小取值，X_max是该特征的最大取值。后续的处理均基于标准化后的输入数据，为方便理解，本发明以X表示

步骤S2、首先设置压缩网络中LSTM编码器和解码器遗忘门，输入门和输出门的参数以及每一层隐藏层单元的数量，然后将标准化后的数据集作为模型的输入，利用LSTM编码器对输入数据进行降维，建立高维到低维的双向映射，得到压缩变量w。设置LSTM模型的参数和每一层隐藏层单元的个数；

具体步骤如下：

步骤S2.1、构建LSTM编码器，初始化输入门，输出门和遗忘门的参数。标准化后的t时刻的输入数据X_t与前一个隐藏层的输出h_t-1作为遗忘门的输入，sigmoid函数控制需要更新的函数值。所述sigmoid函数，在机器学习中常用作逻辑回顾的假设函数，主要将输入数据的任意值转换到[0，1]之间。

步骤S2.2、为了让模型更有效的学习与对输入数据进行压缩，本发明使用softsign函数替换tanh函数作为激活函数。

所述的softsign函数是神经网络中的激活函数，具有反对称，去中心，可微分的特点，其曲线相较于tanh函数过渡更加平滑，因此更好的解决梯度消失问题。

所述的tanh函数在是神经网络中的激活函数，其具有定义域0附近近似线性，整个定义域有可导性的特点。

定义f_t表示遗忘门的输出，h_t-1表示上一时刻的隐藏状态，h_t表示当前时刻的隐藏状态；σ表示sigmoid函数；i_t表示输入门的输出，

表示候选记忆细胞；C_t表示记忆细胞，ot表示输出门的输出，W_f、W_i、

W_o分别表示遗忘门，输入门，候选记忆细胞和输出门的权重矩阵，w_t表示输出门的输出部分，即压缩变量；b_f、b_i、

b_o分别表示遗忘门，输入门，候选记忆细胞，输出门的偏置项，X_t表示t时刻的输入数据。

标准化后的数据

与h_t-1经过单元的输入门，与softsign函数产生一个新的候选记忆细胞

通过i_t与

结合得到新的记忆细胞C_t。记忆细胞C_t经过softsign函数激活后和该单元的输出门o_t相乘得到隐藏层单元的输出值w_t。

其步骤如公式(2)所示。

所述的步骤S3中，采用自监督变分自编码器对压缩变量w进行重构生成隐变量Z，随后将隐变量Z作为评估网络的输入并结合标签数据做数据分类训练器。并且，本发明还定义了一个损失函数

描述两个变量之间的交互信息和离散损失。

具体步骤如下：

步骤S3.1、本发明提出自监督变分自编码器处理得到隐变量Z，保证不可观测变量的重构过程，有效的减少计算开销。

具体内容：本发明所提出的自监督变分自编码器考虑由数据的确定性和离散变换产生的表示。首先本发明定义重参数化

压缩变量w返回一个经过重参数化的变量表示，即隐变量Z。其中，d(·)表示重参数化，

表示一个维度为D的向量，

表示一个维度为C的向量。因为在重参数化过程中可能丢失原始数据的信息，定义潜在变量l，作为输入数据丢失的细节的补偿。此外，本发明引入一个额外的潜在变量

用于建模l和隐变量Z，

表示实数域。

通过压缩变量w近似隐变量Z。隐变量Z的构建如公式(3)所示。

ρ和γ由两个不同的非线性神经元计算，分别代表w的均值向量和协方差向量，Mean(*)表示均值函数，Cov(*)表示协方差函数。

步骤S3.2、本步骤计算压缩变量w和隐变量Z的联合分布，并确定各个潜在变量的分布，以计算证据下界。

压缩变量w和隐变量Z的联合分布p(w，Z)＝p(Z|w)p(w)，其中，p(*)表示所求变量的概率密度，p(*|*)表示所求变量的后验概率，p(*，*)表示两个变量的联合概率，下同。

由于重参数化d(·)是一个确定性变换，因此后验分布的值也是确定的。定义p(Z|w)＝δ(Z-d(w))，其中δ(·)表示克罗内克符号。克罗内克符号用于将底数由正奇数推广至一切整数。

因为隐变量Z对应的是压缩变量w的一个表示，对隐变量Z的后验分布q(Z|X_i)建模比压缩变量的后验分布p(w|X_i)建模简单，将复杂边缘分布p(w)的分布求解转化为一个自监督问题，Z和w的联合分布分解为p(w，Z)＝p(w|Z)p(Z)。

计算所有随机变量的联合分布：

p(w，Z，l，u)＝p(w|Z，l)p(Z|u)p(l|Z，u)p(u) (4)

通过边际似然的对数计算联合分布p(w，Z)＝∫∫p(w，Z，l，u)dlu。积分函数无法直接计算，本发明使用变分推理，对所有变量应用下面的变分分布族。

Q(u，l|w，Z)＝q(u|Z)q(l|w) (5)

其中，Q(u，l|w，Z)表示以压缩变量w和隐变量Z为条件的变分分布族，q(*|*)表示需要近似的条件概率密度函数，下同。

最后，通过变分推论给出了边缘似然对数的证据下界。

其中，E_Q[*]表示以分布族Q为自变量的期望函数。

实现自监督变分自编码器的前提是潜在变量u将捕获输入数据的全局结构，潜在变量l编码在w和Z之间缺失的信息，引导模型发现分布目标观察。图3展示了本发明的自监督变分自编码器的方法示意图，其自监督的过程如下：u～p(u)→Z～p(z|u)→l～p(l|u，Z)→w～p(w|Z，l)。

其中，压缩变量w通过重参数化构造隐变量Z，潜在变量u通过近似估计辅助建模隐变量Z，随后潜在变量u与隐变量Z共同构造潜在变量l，对压缩变量生成隐变量过程中的损失进行补偿。

对于自监督变分自编码器，潜在变量u，u与隐变量Z的条件概率，潜在变量l与u，Z联合概率的条件概率，压缩变量w与l，Z的条件概率，潜在变量u与隐变量Z和潜在变量l与压缩变量w的近似概率如公式(6)所示：

其中，v表示遵从正态分布的变量；det表示行列式；

表示偏导；

第i次变换的雅可比行列式；

表示D维的欧式空间；

表示经过差分变换序列，即f_i(v_i-1)＝v_i；diag(*)表示求对角矩阵；Dlogistic表示离散逻辑分布；N(*|*)表示正态分布；

对于变量w和Z，本发明使用Dlogistic离散逻辑分布，其被定义为平均数为m、尺度为s的逻辑分布的两个累积分布函数之差。其中，σ表示sigmoid函数，m为输入x的平均数，s为输入x的尺度。

本发明使用的评估网络模型架构参照全卷积深度神经网络，将上述步骤所得到的隐变量Z作为评估网络的输入数据，判断输入数据是否可以归类为正常流量数据或某种特定类型的网络攻击。

步骤S3.3、损失函数

是用于衡量输入数据X_i和隐变量Z之间离散损失(divergence loss)。

定义隐变量Z的后验分布q(Z|X_i)于真实的后验分布p(w|X_i)，输入数据X_i的对数似然可以计算为基于q(Z|X_i)和p(w|X_i)的KL散度和X_i的概率密度下界，近似的方法按照公式(9)。

logp(X_i)＝V_KL(q(Z|X_i)||p(w|X_i))+L(X_i) (9)

其中，logp(X_i)表示输入X_i的对数似然，V_KL[q(Z|X_i)||p(w|X_i)]表示为q(Z|X_i)和p(w|X_i)的KL散度值，即两个后验概率分布的接近程度；L(X_i)表示X_i的概率密度下界。

因为KL散度是非负数，通过公式(10)，L(X_i)可以近似为对数似然logp(X_i)的下界：

其中，

是重构项，表示隐变量Z的分布和输入数据X_i分布之间的近似值；

表示以隐变量Z为自变量的后验分布的期望。

定义一个变量D(X_i，Z)，变量的定义如下：

D(X_i，Z)描述X_i和Z之间的交互信息，值越大，表示隐变量Z中保留的特征信息越完整；

表示以X_i和Z为自变量的概率函数的期望函数。D(X_i，Z)通过V_KL近似而成。由公式(10)可知，获取L(X_i)的最大值同时需要最小化V_KL，相应的会降低D(X_i，Z)。

实际上，公式(10)中的重构项和KL散度项并不是相互独立的，可以通过最小化重构项来获得D(X_i，Z)最大值的下界。在此基础上，利用重构项来调整D(X_i，Z)和V_KL之间的平衡，可以便捷地学习模型中更显性和更有意义的隐变量。

因此，本发明的

定义为公式(12)，表示X_i和Z之间的离散损失。

步骤S4、LSTM编码器对输入特征进行压缩过程中可能会丢失一些关键信息或引入一些噪声数据。为了评估压缩损失，LSTM解码器负责将隐变量Z进行重构得到重构变量X′，其中重构变量X′的特征维度需与输入向量一致。同时，本发明定义一个损失函数

用以衡量隐变量Z保留原始输入信息的程度。

步骤S4.1、对于隐变量Z，压缩和重参数化的过程中，可能会丢失一些关键信息或引入一些噪声数据。

为了评估压缩损失，本发明引入LSTM解码器，负责将隐变量Z进行重构得到重构变量X′。隐变量Z和<τ₁，τ₂，τ₃>都是LSTM解码器的输入，分别代表LSTM网络的初始输入和初始状态。

隐变量Z通过公式(13)中的变换，LSTM解码器中每个单元的隐藏层输出值w′定义为重构变量X′的值，最后可以得到：

w′＝X′＝r(Z；τ_d) (13)

其中r(*)表示LSTM解码函数，τ_d表示LSTM解码器的初始参数集。

步骤S4.2、在优化过程中，为了衡量隐变量Z可以保留多少原始输入信息，本发明定义了一个损失函数

和

分别是X_i和X_i′的第j个特征；

是

的概率分布，

是重构向量

的近似分布。

无标签样本经过公式(2)和步骤S3，分别求得无标签样本的压缩变量w、隐变量Z和重构变量X′，借助损失函数

衡量原始信息的保留程度，最后将隐变量Z输入至评估网络做数据分类训练。

步骤S6、将有标签样本和无标签样本的重构样本与分类损失函数的误差作为网络的目标函数之一，不断迭代更新模型参数直至收敛；

步骤S6.1、首先计算有标签样本的预测结果与原始样本标签的分类误差L_v(h(Z，θ)，Y)，h表示评估网络，θ表示评估网络的参数，h(Z；θ)表示网络预测的结果，下同；Y表示原始样本的标签。

评估网络的目标是从训练数据中学习模型h(Z；θ)：{Z；θ}→Y，评估网络由θ参数化。评估网络从训练数据中最小化泛化风险R(h)＝E_(Z，Y)[L_v(h(Z；θ)，Y)]作为有标签样本的目标函数，其中L_v是损失函数，在本发明中使用的是交叉熵损失函数，E_(Z，Y)[*]表示以Z和Y为变量的期望。

为了计算泛化风险，本发明通过最小化标签样本上的经验风险来逼近泛化风险

其中

表示经验风险，Z_i表示隐变量的第i个样本，Y_i表示第i个样本的真实标签。

步骤S6.2、步骤S6.1的方法忽略了无标签样本的作用。为了充分利用无标签样本的数据分布以使得目标函数的损失最小，对于无标签样本数据，本发明先计算无标签样本的预测结果，并对预测结果进行正则化μ(z；θ)，防止模型对有限样本点集上评估的损失函数进行过拟合。最小熵正则化定义如下：

K是类别的数量，h(Z；θ)_x表示预测无标签样本生成的隐变量Z属于类别K的置信度。最后，得到判断评估网络分类结果的目标函数L_es。

其中，L_v表示交叉熵损失函数，p(y_i)表示样本属于类别真实类别i的概率，q(y_i′)表示样本预测为类别i的概率，D_l表示标签样本，D_u无标签样本，s.t.表示约束条件，公式中的约束条件表示隐变量Z由输入样本X构造而成，X属于有标签和无标签样本的并集。

定义一个权重函数

将每个样本映射为一个权重，获得评估模型的最优解和最优参数

表示D维的欧式空间，D表示输入数据的维度，

表示实数域，

表示当函数取最小值时θ的取值。

权重函数用于将每个样本映射为一个权重。通过权重函数，极小化监督损失和无监督损失来获得最小化加权经验风险的最优

其中，

表示用η参数化的权重函数训练的模型最优的参数。

表示以θ为自变量的函数的最小值，n表示有标签样本的数量，m表示无标签样本的数量，ψ(Z_i；η)μ(Z_i；θ)表示将每个无标签样本映射为一个权重。

对于权重函数的参数η，试图找到最优参数η_b，通过极小化监督损失来获得最优的η_b：

因此，求两个参数的最优解就可以规约为一个双重优化问题：

本发明提供的基于自监督变分LSTM的深层半监督学习网络入侵检测方法基本原理如下：首先利用LSTM编码器和解码器对不平衡的高维数据进行降维，提取原始数据的低维特征向量，并使用部分低维标签样本和标签训练分类器，无标签数据借助低维向量预测类标签，同时借助低维向量和类标签重构数据。为了估计无标签样本的后验概率，并借助估计的后验概率来对无标签样本进行聚类，引入自监督变分自编码器来生成隐变量Z。另考虑到在优化过程，隐变量Z的后验分布易受到外界因素的干扰，进而影响特征的提取能力，为了限制优化过程中隐变量Z，确保其数据分布与原始的输入数据保持一致，在模型的不同阶段分别引入了三个损失函数，有效的提高识别准确率。本发明只需少量的标签数据进行检测，构建能准确识别大批量未知数据的模型，且极大的削减了对先验分布的需求，具有较高的泛化率与分类准确率。

以上对本发明的实施例进行了详细说明，但所述内容仅为本发明的较佳实施例，不能被认为用于限定本发明的实施范围。凡依本发明申请范围所作的均等变化与改进等，均应仍归属于本发明的专利涵盖范围之内。

Claims

1.一种基于自监督变分LSTM的深层半监督入侵检测方法，其特征在于，包含以下步骤：

步骤S2、将标准化后的数据作为压缩网络中LSTM编码器的输入，将高维度的数据进行降维，建立高维到低维空间的双向映射，得到压缩变量w；设置LSTM模型的参数和每一层隐藏层单元的个数；

具体步骤如下：

步骤S2.1、构建LSTM编码器，初始化输入门、输出门和遗忘门的参数；标准化后的t时刻的输入数据X_t与前一个隐藏层的输出h_t-1作为遗忘门的输入，sigmoid函数主要将输入数据的任意值转换到[0，1]之间；

步骤S2.2、使用LSTM编码器，获得输入数据的低维表示；

LSTM编码器使用softsign函数替换tanh函数作为激活函数；

所述的softsign函数是神经网络中的激活函数；

所述的tanh函数在是神经网络中的激活函数，其具有定义域0附近近似线性，整个定义域有可导性的特点；

表示候选记忆细胞；C_t表示记忆细胞，o_t表示输出门的输出，W_f、W_i、

b_o分别表示遗忘门，输入门，候选记忆细胞，输出门的偏置项，X_t表示t时刻的输入数据；

t时刻标准化后的数据X_t与h_t-1经过单元的输入门，与softsign函数产生一个新的候选记忆细胞

通过i_t与

结合得到新的记忆细胞C_t，记忆细胞C_t经过softsign函数激活后和该单元的输出门o_t相乘得到t时刻隐藏层单元的输出值w_t，步骤如公式(1)所示；

步骤S3、采用自监督变分自编码器对压缩变量w进行重构生成隐变量Z，将隐变量Z作为评估网络的输入并结合标签数据做数据分类训练器；定义一个损失函数

描述两个变量之间的交互信息和离散损失，其中dl表示离散损失，i表示第i个样本；具体步骤如下：

步骤S3.1、使用自监督变分自编码器处理压缩变量w得到隐变量Z；

使用重参数化d：

压缩变量w返回一个经过重参数化的变量表示，即隐变量Z；其中，d(·)表示重参数化，

表示一个维度为D的向量，

表示一个维度为C的向量；

定义潜在变量l，作为输入数据丢失的细节的补偿；引入一个潜在变量

用于建模l和隐变量Z，

表示实数域；

通过压缩变量w近似隐变量Z；隐变量Z的构建如公式(2)所示；

ρ和γ由两个不同的非线性神经元计算，分别代表w的均值向量和协方差向量，Mean(*)表示均值函数，Cov(*)表示协方差函数；

步骤S3.2、计算压缩变量w和隐变量Z的联合分布，确定各个潜在变量的分布，以计算证据下界；

定义压缩变量w和隐变量Z的联合分布p(w，Z)＝p(Z|w)p(w)，其中，p(*)表示所求变量的概率密度，p(*|*)表示所求变量的后验概率，p(*，*)表示两个变量的联合概率；

定义p(Z|w)＝δ(Z-d(w))，其中δ(·)表示克罗内克符号；

将Z和w的联合分布分解为p(w，Z)＝p(w|Z)p(Z)，对隐变量Z的后验分布q(Z|X_i)进行建模，将复杂边缘分布p(w)的分布求解转化为一个自监督问题；

计算所有随机变量的联合分布，定义如公式(3)所示：

p(w，Z，l，u)＝p(w|Z，l)p(Z|u)p(l|Z，u)p(u) (3)

通过边际似然的对数计算联合分布p(w，Z)＝∫∫p(w，Z，l，u)dlu；使用变分推理近似积分函数，对所有变量应用公式(4)所示的变分分布族；其中，l表示潜在变量，u是引入一个潜在变量；

Q(u，l|w，Z)＝q(u|Z)q(l|w) (4)

其中，Q(u，l|w，Z)表示以压缩变量w和隐变量Z为条件的变分分布族，q(*|*)表示需要近似的条件概率密度函数；

最后，通过变分推论给出边缘似然对数的证据下界；

其中，E_Q[*]表示以分布族Q为自变量的期望函数；

定义潜在变量u，u与隐变量Z的条件概率，潜在变量l与u，Z联合概率的条件概率，压缩变量w与l，Z的条件概率，潜在变量u与隐变量Z和潜在变量l与压缩变量w的近似概率如公式(6)所示：

其中，v表示遵从正态分布的变量；N(*|*)表示正态分布；det表示行列式；

表示偏导；

第i次变换的雅可比行列式；

表示D维的欧式空间；f：

表示经过差分变换序列，即f_i(v_i-1)＝v_i；diag(*)表示求对角矩阵；Dlogistic表示离散逻辑分布；

对于变量w和Z，使用Dlogistic离散逻辑分布，如公式(7)所示；其中，被定义为平均数为m、尺度为s的逻辑分布的两个累积分布函数之差；其中，σ表示sigmoid函数，m为输入x的平均数，s为输入x的尺度；

评估网络模型架构参照全卷积深度神经网络，将上述步骤所得到的隐变量Z作为评估网络的输入数据，判断输入数据是否可以归类为正常流量数据或某种特定类型的网络攻击；

步骤S3.3、定义损失函数

衡量输入数据X_i和隐变量Z之间离散损失；

定义隐变量Z的后验分布q(Z|X_i)于真实的后验分布p(w|X_i)，输入数据X_i的对数似然可以计算为基于q(Z|X_i)和p(w|X_i)的KL散度和X_i的概率密度下界，近似的方法按照公式(8)；

logp(X_i)＝V_KL(q(Z|X_i)||p(w|X_i))+L(X_i) (8)

其中，logp(X_i)表示输入X_i的对数似然，V_KL[q(Z|X_i)||p(w|X_i)]表示为q(Z|X_i)和p(w|X_i)的KL散度值，即两个后验概率分布的接近程度；L(X_i)表示X_i的概率密度下界；

通过公式(9)近似L(X_i)为对数似然logp(X_i)的下界：

其中，

表示以隐变量Z为自变量的后验分布的期望；

定义一个变量D(X_i，Z)，变量的定义如下：

其中，D(X_i，Z)描述X_i和Z之间的交互信息，值越大，表示隐变量Z中保留的特征信息越完整；

表示以X_i和Z为自变量的概率函数的期望函数；D(X_i，Z)通过V_KL近似而成；由公式(9)可知，获取L(X_i)的最大值同时需要最小化V_KL，相应的会降低D(X_i，Z)；

最小化重构项

获得D(X_i，Z)最大值的下界，调整D(X_i，Z)和V_KL之间的平衡，便捷地学习模型中更显性和更有意义的隐变量；

因此，损失函数

定义如公式11所示，表示X_i和Z之间的离散损失；

步骤S4、利用压缩网络中LSTM解码器，生成重构变量X′并定义损失函数

衡量隐变量Z保留原始输入信息的程度，具体步骤如下：

步骤S4.1、对于隐变量Z，压缩和重参数化的过程中，可能会丢失一些关键信息或引入一些噪声数据；

引入LSTM解码器，负责将隐变量Z进行重构得到重构变量X′；隐变量Z和<τ₁，τ₂，τ₃>都是LSTM解码器的输入，分别代表LSTM网络的初始输入和初始状态；

隐变量Z通过公式(12)中的变换，LSTM解码器中每个单元的隐藏层输出值w′定义为重构变量X′的值，最后可以得到：

w′＝X′＝r(Z；τ_d) (12)

其中r(*)表示LSTM解码函数，τ_d表示LSTM解码器的初始参数集；

步骤S4.2、在优化过程中，为了衡量隐变量Z可以保留多少原始输入信息，定义了一个损失函数

和

分别是X_i和X_i′的第j个特征；

是

的概率分布，

是重构向量

的近似分布；

无标签样本经过公式(1)和步骤S3，分别求得无标签样本的压缩变量w、隐变量Z和重构变量X′，定义损失函数

衡量原始信息的保留程度，最后将隐变量Z输入至评估网络做数据分类训练；

步骤S6、将有标签样本和无标签样本的重构样本与分类损失函数的误差作为网络的目标函数之一，不断迭代更新模型参数直至收敛；通过评估网络测量原始标签集Y和检测标签集Y′之间的分类损失，借助交叉熵损失L_v衡量原始标签y_i和检测标签y_i′的误差；具体步骤如下：

步骤S6.1、首先计算有标签样本的预测结果与原始样本标签的分类误差L(h(Z，θ)，Y)，h表示评估网络，θ表示评估网络的参数，h(Z；θ)表示网络预测的结果；Y表示原始样本的标签；

评估网络的目标是从训练数据中学习模型h(Z；θ)：{Z；θ}→Y，其中评估网络由θ参数化；

从训练数据中最小化泛化风险R(h)＝E_(Z，Y)[L_v(h(Z；θ)，Y)]作为有标签样本的目标函数，其中L_v是损失函数，使用交叉熵损失函数，E_(Z，Y)[*]表示以Z和Y为变量的期望；

通过最小化标签样本上的经验风险来逼近泛化风险

其中

表示经验风险，Z_i表示隐变量的第i个样本，Y_i表示第i个样本的真实标签；

步骤S6.2、计算无标签样本的预测结果，并对预测结果进行最小熵正则化；

对于无标签样本数据，先计算无标签样本的预测结果，并对预测结果进行正则化μ(z；θ)，防止模型对有限样本点集上评估的损失函数进行过拟合，充分利用无标签样本的数据分布以使得目标函数的损失最小；最小熵正则化定义如下：

K是类别的数量，h(Z；θ)_K表示预测无标签样本生成的隐变量Z属于类别K的置信度；最后，得到判断评估网络分类结果的目标函数L_es；

其中，L_v表示交叉熵损失函数，p(y_i)表示样本属于类别真实类别i的概率，q(y_i′)表示样本预测为类别i的概率，D_l表示标签样本，D_u无标签样本，s.t.表示约束条件，公式中的约束条件表示隐变量Z由输入样本X构造而成，X属于有标签和无标签样本的并集；

步骤S7、利用权重函数，将无标签样本映射为权重，极小化监督损失和无监督损失值，利用反向传播算法反向微调模型参数；当达到最大训练次数或者损失值小于给定的阈值，训练将停止；

定义一个权重函数ψ(*)：

表示D维的欧式空间，D表示输入数据的维度，

表示实数域，

表示当函数取最小值时θ的取值；

通过权重函数，极小化监督损失和无监督损失来获得最小化加权经验风险的最优

其中，

表示用η参数化的权重函数训练的模型的最优的参数；

表示以θ为自变量的函数的最小值，n表示有标签样本的数量，m表示无标签样本的数量，ψ(Z_i；η)μ(Z_i；θ)表示将每个无标签样本映射为一个权重；

步骤S8、形成训练好的自监督变分LSTM模型，然后输入测试数据集进行快速学习，即可得到每条测试数据的入侵类别，从而可以实现网络入侵的高效和快速检测。