CN113344071A

CN113344071A - 一种基于深度策略梯度的入侵检测算法

Info

Publication number: CN113344071A
Application number: CN202110612057.7A
Authority: CN
Inventors: 郭薇; 张国栋; 周翰逊; 胡叶帅
Original assignee: Shenyang Aerospace University
Current assignee: Xinjiang Energy Soaring Nebula Technology Co ltd
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2021-09-03
Anticipated expiration: 2041-06-02
Also published as: CN113344071B

Abstract

本发明公开了一种基于深度策略梯度的入侵检测算法。该算法利用LSTM擅长处理时序数据的特点，在DPG算法的基础上，采用深度学习中的Long Short Term Mermory network(LSTM)代替Deterministic Policy Gradient(DPG)算法中的全连接层网络，基于LSTM神经网络构建了入侵检测智能体，并使用了策略梯度算法。入侵检测智能体利用LSTM神经网络输出入侵检测动作概率，基于该概率利用策略梯度算法优化LSTM神经网络参数，使得入侵检测智能体探索到最优的入侵检测策略。

Description

一种基于深度策略梯度的入侵检测算法

技术领域

本发明公开涉及计算机网络信息安全技术领域，尤其涉及一种基于深度策略梯度的入侵检测算法。

背景技术

深度强化学习技术同时具有感知与决策能力，非常适合入侵检测的控制策略。但是，深度Q-learning(DQN)算法有很多局限性，DQN制定策略时，需要比较各种动作对应的价值大小，当遇到动作空间维度较高或者连续时，很难从中选出一个最大值函数对应的动作。此外，DQN无法学习到一些随机策略，导致很难计算价值函数。相反，作为深度强化学习的另一个代表深度策略梯度(DPG)算法一方面具有很好的收敛性，因为基于策略梯度的学习每次能朝着正确的方向改善一点，另一方面能够随机学习到一些连续动作空间的控制策略。

由于攻击的时序数据且动态变化，DPG算法使用的全连接层网络没有考虑到数据的非线性变化，无法更深层次提取数据特征和信息挖掘。此外，LSTM网络(长短期记忆网络)虽然克服了RNN(循环神经网络)会产生梯度消失或梯度爆炸的问题，但是LSTM网络也无法考虑到金融数据的非线性变化。

发明内容

鉴于此，本发明公开提供了一种基于深度策略梯度的入侵检测算法。将深度学习的神经网络和强化学习的策略梯度算法相结合，同时利用了深度学习的感知能力、特征提取能力以及强化学习的决策能力，然后将其应用在入侵检测。

本发明提供的技术方案，具体为，一种基于深度策略梯度的入侵检测算法，该算法中构建了入侵检测智能体，所述入侵检测智能体包括：能够根据历史入侵检测数据预测未来状态的感知模块；及根据当前入侵检测环境状态和历史信息决定此时采取什么入侵检测策略的决策模块；

应用所述入侵检测智能体，所述入侵检测算法包括如下步骤：

1)获取经过数据处理后的数据x₁,x₂,...,x_T并生成特征向量作为当前环境状态状态s_t；其中，所述当前环境状态s_t由入侵检测智能体与入侵检测环境交互生成；

2)选择执行动作a_t，环境反馈给智能体的奖励r_t，以及交互生成的新的环境状态s_t+1，之后以元组(s_t，a_t，r_t，s_t+1)的形式存储在经验池中；

3)入侵检测智能体计算一个入侵检测过程所有时刻入侵检测环境反馈给入侵检测智能体的累积奖励以及期望值；

4)入侵检测智能体根据策略梯度算法更新入侵检测策略π_θ，最终实现最大化步骤3)所获得的期望奖励；

5)判断是否到达终止状态，如果是，则执行步骤6)，否则返回到步骤2)；

6)入侵检测智能体根据最新的入侵检测策略进行入侵检测。

所述入侵检测环境包括：

1)策略：采用随机性策略，通过参数概率分布π_θ(a|s)来表示，计算公式如下：

π_θ(a|s)＝p(a|s；θ) (1)

其中，p(a|s；θ)表示在给定参数θ的前提下，入侵检测智能体根据输入的状态s选择入侵检测动作a的可能性；

2)状态序列：包括不限于历史入侵检测数据、入侵检测智能体与入侵检测环境在交互过程中选择的执行动作a_t，环境反馈给智能体的奖励r_t，以及交互生成的新的环境状态s_t+1；

3)动作

所述入侵检测智能体包括正常和报警两个入侵检测动作，具体动作种类如下所示：

a∈{正常，报警}＝{1，0} (2)

其中，0代表的是正常，1代表的是报警；

4)奖励值

奖励分为两个部分：在攻击面st的时候系统的检测准确率accuracy(st)和从攻击面st-1切换到st的效率effective(s_t,s_t-1)，β和γ为二者的调节系数；在攻击面st时的检测准确率方面，定义accuracy(st)如下：

其中，evalz(s_t,i)为与奖励函数成正比关系的n个指标，evalf(s_t,i)为与奖励函数成反比关系的m个指标；

在攻击面从st-1切换到st的效率方面，定义effective(s_t,s_t-1)函数来计算系统的切换效率，公式如下：

effective(s_t,s_t-1)＝λtime(s_t,s_t-1)+μresource(s_t,s_t-1) (5)

其中，time(s_t,s_t-1)为系统从攻击面st-1切换到st的时间，resource(s_t,s_t-1)为系统从攻击面st-1切换到st资源利用率的变化,λ和μ为二者的调节系数。

所述步骤2)中的经验池可以存储各个策略交互产生的经验数据，每个策略都可以互相利用彼此之间的经验数据。

所述步骤2)具体为：入侵检测智能体根据当前时刻t的环境状态s_t执行策略π_θ，采取执行动作a_t，环境反馈智能体的一个奖励值r_t；

所述步骤3)中计算一个入侵检测过程所有时刻入侵检测环境反馈给入侵检测智能体的累积奖励，计算公式如下：

其中，τ＝{s₁,a₁,r₁,s₂,a₂,r₂,...,s_T,a_T,r_T,s_T+1}表示的是一个交互过程产生的交互轨迹，基于马尔可夫决策过程，即新的环境状态s_t+1的概率取决于当前环境状态s_t和执行动作a_t，T表示的是到达终止状态的时刻；

代表时间影响奖励程度的因子γ∈[0,1]用于折现未来奖励，累积奖励计算如下：

其中，γ表示的是折扣因子，时间越久远的奖励对当前状态的评估影响越小，r(s_i,a_i)表示的是在状态s_i下采取的动作a_i；

计算所获得累积奖励的期望值，用L(θ)表示，计算公式如下：

其中，P(τ|θ)即为策略π_θ，策略是根据参数θ生成某一个交易动作的概率大小，计算公式如下：

N表示的是每次交易智能体与期货交易环境交互生成的轨迹数量，如果交易智能体与期货交易环境总共交互N次，则生成的轨迹样本可以表示为{τ¹,τ²,...,τ^N}。

所述步骤4)实现最大化步骤3)所获得的期望奖励具体为：通过对L(θ)求偏导，从而实现最大化所获得的期望奖励，计算公式如下：

其中，交互轨迹的对数概率计算公式如下：

则对训练轨迹的对数概率求梯度的计算公式如下：

最终策略梯度的计算公式如下：

利用策略梯度更新策略函数的参数θ，计算公式如下：

其中，β表示的是学习率，β∈[0,1]；由于交易智能体所得到的奖励值不可能一直是正数，因此引入一个负的参数b，则新公式计算如下：

所述入侵检测智能体采用LSTM网络结构，LSTM网络总共有五层结构，分别是输入层、全连接层、LSTM层、全连接层、Softmax层；每个神经网络的单元都采用Relu函数作为激活函数；

LSTM网络的网络结构的softmax函数的计算公式：

其中，z表示的是上一层的输出，softmax函数的输入，N表示的是N分类，本文是两类，分别是正常和报警，y_i表示的是预测的目标属于第i类的概率。

本发明的有益效果为：

本发明提供的一种基于深度策略梯度的入侵检测算法通过优化策略，从而实现最大化期望总奖励值，相比深度Q-learning算法省去了很多复杂的环节，只需要一个具有参数θ的策略函数，也不需要计算一系列的离散状态值，而是可以直接从历史入侵检测数据中学习到入侵检测策略，从而最大化期望总奖励值。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明的公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明公开实施例提供的入侵检测智能体的结构示意图；

图2为本发明公开实施例提供的网络结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的系统的例子。

由于攻击的时序数据且动态变化，现有技术中DPG算法使用的全连接层网络没有考虑到数据的非线性变化，无法更深层次提取数据特征和信息挖掘。且LSTM网络虽然克服了RNN会产生梯度消失或梯度爆炸的问题，但是LSTM网络也无法考虑到金融数据的非线性变化的问题。

本实施方案提供了一种基于深度策略梯度的入侵检测算法，该算法引入了经验池技巧，现有技术中的经验池用来存储过去执行策略之后产生的经验数据信息。由于在强化学习中，一个训练过程结束之后，才更新一个状态-动作值，更新效率非常低下，且相邻更新的样本之间存在很大的关联性，不满足深度神经网络要求数据独立同分布的要求，容易导致训练样本分布不均衡，此外，训练过程中每个样本只能被模型训练一次，就会使有些明显带来训练收益的样本不能被重复利用，不仅造成了资源的浪费，而且增加了算法的收敛时间。

本实施方案提出的经验池技巧，设计了一个容量为N的经验池，经验池可以存储各个策略交互产生的经验数据，每个策略都可以互相利用彼此之间的经验数据。具体而言，在模型训练时，智能体与环境在交互过程生成的信息包括当前环境状态s_t，选择的执行动作a_t，环境反馈给智能体的奖励r_t，以及交互生成的新的环境状态s_t+1，之后以元组(s_t，a_t，r_t，s_t+1)的形式存储在经验池中。经验池的容量是有限的，当经验池存储满时，新进入的样本就会替换最早进入的样本，保持经验池容量的稳定。某个策略在训练时可以使用其他策略产生的经验数据，这样不仅提高了样本的使用频率，而且增加了策略函数分布的多样性。此时对环境的搜索将更加全面，不仅打破了数据之间的关联性，使网络训练所使用的数据满足独立同分布，而且还减少了训练时间。

入侵检测智能体的环境(包括状态、动作、奖励值、策略)对整个入侵检测过程也会有很大影响。

入侵检测智能体环境几乎影响着入侵检测策略的每一个过程，从数据的输入、特征提取、策略分析以及最后实现最大化收益目标等。

具体而言，入侵检测环境包括：

(1)策略

策略分为随机策略和确定性策略。本实施例选取的策略是随机性策略，通过参数概率分布π_θ(a|s)来表示，计算公式如下：

π_θ(a|s)＝p(a|s；θ) (1)

其中，p(a|s；θ)表示在给定参数θ的前提下，入侵检测智能体根据输入的状态s选择入侵检测动作a的可能性。

(2)状态

入侵检测智能体根据当前入侵检测环境状态的输入进行分析与决策。状态序列不仅包括历史入侵检测数据等特征指标，还包括入侵检测智能体与入侵检测环境在交互过程中选择的执行动作a_t，环境反馈给智能体的奖励r_t，以及交互生成的新的环境状态s_t+1。

(3)动作

现实入侵检测共有两个入侵检测动作，分别是正常和报警。为了模拟真实的入侵检测，入侵检测智能体也同样有正常和报警两个入侵检测动作，入侵检测智能体会根据当前的状态序列选取概率最大的入侵检测动作。具体动作种类如下所示：

a∈{正常，报警}＝{1，0} (2)

其中，0代表的是正常，1代表的是报警。

(4)奖励值

奖励分为两个部分：在攻击面st的时候系统的检测准确率accuracy(st)和从攻击面st-1切换到st的效率effective(s_t,s_t-1),β和γ为二者的调节系数。在攻击面st时的检测准确率方面，由于不同的部署环境对于系统的检测指标(如漏报率，误报率或者召回率等)的侧重点不同，因此为了不失一般性我们定义accuracy(st)如下：

其中，evalz(s_t,i)为与奖励函数成正比关系的n个指标，evalf(s_t,i)为与奖励函数成反比关系的m个指标。

在攻击面从st-1切换到st的效率方面，我们定义effective(s_t,s_t-1)函数来计算系统的切换效率，公式如下：

effective(s_t,s_t-1)＝λtime(s_t,s_t-1)+μresource(s_t,s_t-1) (5)

该算法的核心是构建了入侵检测智能体，侵检测智能体需要能够高度抽象化表示复杂的数据特征，记忆历史入侵检测数据的关联，挖掘数据之间的潜在规律，从而找到最优的入侵检测策略，实现最大化期望累积奖励值。因此，构造一个合适的智能体网络结构尤为重要。

如图1即为入侵检测智能体结构。根据入侵检测过程，入侵检测智能体分为感知模块和决策模块两个功能模块：

1)感知模块：根据历史入侵检测数据预测未来状态

2)决策模块：入侵检测智能体根据当前入侵检测环境状态和历史信息决定此时采取什么入侵检测策略。

入侵检测智能体的感知模块主要接收当前状态、上一时刻具有短时记忆的隐藏状态以及上一时刻具有长时记忆的细胞状态，决策模块根据当前状态、上一时刻的入侵检测动作、上一时刻的奖励值以及感知模块的输出得出当前时刻的入侵检测动作。详细过程如下所述：

6)入侵检测智能体根据最新的入侵检测策略进行入侵检测。

其中，步骤2)、步骤3)、步骤4)的具体实现过程如下：

a、入侵检测智能体根据当前时刻t的状态s_t执行策略π_θ采取动作a_t，环境反馈智能体一个奖励值r_t。

b、计算一个入侵检测过程所有时刻入侵检测环境反馈给入侵检测智能体的累积奖励，计算公式如下：

其中，τ＝{s₁,a₁,r₁,s₂,a₂,r₂,...,s_T,a_T,r_T,s_T+1}表示的是一个交互过程产生的交互轨迹。基于马尔可夫决策过程，即下一个状态s_t+1的概率取决于当前状态s_t和动作a_t，而不是前一个状态和动作。T表示的是到达终止状态的时刻。

但是由于环境的随机性，下一次执行相同操作后，奖励将会发生变化。随着时间的流逝，错误也会累积。因此，代表时间影响奖励程度的因子γ∈[0,1]用于折现未来奖励，累积奖励计算如下：

其中，γ表示的是折扣因子，时间越久远的奖励对当前状态的评估影响越小，r(s_i,a_i)表示的是在状态s_i下采取的动作a_i。

c、计算所获得累积奖励的期望值，用L(θ)表示。在交互轨迹足够多的情况下，一般用均值来估计该期望值，计算公式如下：

d、通过对L(θ)求偏导，从而实现最大化所获得的期望奖励，计算公式如下：

其中，交互轨迹的对数概率计算公式如下：

则对训练轨迹的对数概率求梯度的计算公式如下：

综上所述，最终策略梯度的计算公式如下：

(5)利用策略梯度更新策略函数的参数θ，计算公式如下：

其中，β表示的是学习率，β∈[0,1]。由于交易智能体所得到的奖励值不可能一直是正数，因此引入一个负的参数b，则新公式计算如下：

其次，入侵检测智能体网络结构一方面决定入侵检测智能体是否可以在动态变化的市场中正确表征信号，从而挖掘到历史数据之间存在的潜在规律；另一方面影响着训练的收敛时间以及入侵检测的收益大小。在实施方案中入侵检测智能体为LSTM网络。

LSTM网络结构如图2所示，LSTM网络总共有五层结构，分别是输入层、全连接层、LSTM层、全连接层、Softmax层。输入层接收历史入侵检测数据，第一个全连接层有64个隐藏单元，用于整合历史入侵检测数据的特征。LSTM层有64个隐藏单元，每个隐藏单元之间循环连接，通过不同时刻的参数共享，实现了对历史入侵检测信息的获取，然后把提取到的历史入侵检测特征信息送入下一个全连接层，此外，LSTM网络不仅可以将历史数据特征高度抽象化，而且可以学习历史入侵检测数据的动态变化走势，从而挖掘出历史入侵检测数据蕴含的经济规律。第二个全连接层有64个隐藏单元，用于整合LSTM层输出的历史入侵检测特征信息。每个神经网络的单元同样都采用Relu函数作为激活函数。Softmax层用于输出每个入侵检测动作的概率。

LSTM网络的网络结构的softmax函数的计算如公式16。模型利用softmax函数将历史入侵检测信息转换输出一个概率向量，概率向量对应的入侵检测动作分别是正常和报警，每一个动作的概率范围都在(0，1)之间，如果属于“正常”的概率较大，那么模拟入侵检测决策结果就会选择正常，如果属于“报警”的概率较大，那么模拟入侵检测决策结果就会选择报警。

应用上述算法，在对入侵检测数据进行数据处理时，需要将数据划分成单独的片段，每个数据片段不能有重合。数据处理完之后，将其训练，训练结束之后，将保存好的参数运用到测试中，测试结束根据入侵检测智能体中取得的收益来评判效果。

基于深度策略梯度的入侵检测算法利用LSTM擅长处理时序数据的特点，在DPG算法的基础上，采用深度学习中的LSTM网络代替DPG算法中的全连接层网络，基于LSTM神经网络构建了入侵检测智能体，并使用了策略梯度算法。入侵检测智能体利用LSTM神经网络输出入侵检测动作概率，基于该概率利用策略梯度算法优化LSTM神经网络参数，使得入侵检测智能体探索到最优的入侵检测策略。

相比深度Q-learning算法省去了很多复杂的环节，只需要一个具有参数θ的策略函数，也不需要计算一系列的离散状态值，而是可以直接从历史入侵检测数据中学习到入侵检测策略，从而最大化期望总奖励值。训练设置了1000个训练过程(episode)，也就是说每只都需要训练1000个episode，每10个episode结束之后，就会保存一次神经网络参数。神经网络的训练学习率设置为0.003。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由权利要求指出。