CN113344071A - 一种基于深度策略梯度的入侵检测算法 - Google Patents

一种基于深度策略梯度的入侵检测算法 Download PDF

Info

Publication number
CN113344071A
CN113344071A CN202110612057.7A CN202110612057A CN113344071A CN 113344071 A CN113344071 A CN 113344071A CN 202110612057 A CN202110612057 A CN 202110612057A CN 113344071 A CN113344071 A CN 113344071A
Authority
CN
China
Prior art keywords
intrusion detection
agent
strategy
follows
reward
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110612057.7A
Other languages
English (en)
Other versions
CN113344071B (zh
Inventor
郭薇
张国栋
周翰逊
胡叶帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang Energy Soaring Nebula Technology Co ltd
Original Assignee
Shenyang Aerospace University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenyang Aerospace University filed Critical Shenyang Aerospace University
Priority to CN202110612057.7A priority Critical patent/CN113344071B/zh
Publication of CN113344071A publication Critical patent/CN113344071A/zh
Application granted granted Critical
Publication of CN113344071B publication Critical patent/CN113344071B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Computational Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Operations Research (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Burglar Alarm Systems (AREA)

Abstract

本发明公开了一种基于深度策略梯度的入侵检测算法。该算法利用LSTM擅长处理时序数据的特点,在DPG算法的基础上,采用深度学习中的Long Short Term Mermory network(LSTM)代替Deterministic Policy Gradient(DPG)算法中的全连接层网络,基于LSTM神经网络构建了入侵检测智能体,并使用了策略梯度算法。入侵检测智能体利用LSTM神经网络输出入侵检测动作概率,基于该概率利用策略梯度算法优化LSTM神经网络参数,使得入侵检测智能体探索到最优的入侵检测策略。

Description

一种基于深度策略梯度的入侵检测算法
技术领域
本发明公开涉及计算机网络信息安全技术领域,尤其涉及一种基于深度策略梯度的入侵检测算法。
背景技术
深度强化学习技术同时具有感知与决策能力,非常适合入侵检测的控制策略。但是,深度Q-learning(DQN)算法有很多局限性,DQN制定策略时,需要比较各种动作对应的价值大小,当遇到动作空间维度较高或者连续时,很难从中选出一个最大值函数对应的动作。此外,DQN无法学习到一些随机策略,导致很难计算价值函数。相反,作为深度强化学习的另一个代表深度策略梯度(DPG)算法一方面具有很好的收敛性,因为基于策略梯度的学习每次能朝着正确的方向改善一点,另一方面能够随机学习到一些连续动作空间的控制策略。
由于攻击的时序数据且动态变化,DPG算法使用的全连接层网络没有考虑到数据的非线性变化,无法更深层次提取数据特征和信息挖掘。此外,LSTM网络(长短期记忆网络)虽然克服了RNN(循环神经网络)会产生梯度消失或梯度爆炸的问题,但是LSTM网络也无法考虑到金融数据的非线性变化。
发明内容
鉴于此,本发明公开提供了一种基于深度策略梯度的入侵检测算法。将深度学习的神经网络和强化学习的策略梯度算法相结合,同时利用了深度学习的感知能力、特征提取能力以及强化学习的决策能力,然后将其应用在入侵检测。
本发明提供的技术方案,具体为,一种基于深度策略梯度的入侵检测算法,该算法中构建了入侵检测智能体,所述入侵检测智能体包括:能够根据历史入侵检测数据预测未来状态的感知模块;及根据当前入侵检测环境状态和历史信息决定此时采取什么入侵检测策略的决策模块;
应用所述入侵检测智能体,所述入侵检测算法包括如下步骤:
1)获取经过数据处理后的数据x1,x2,...,xT并生成特征向量作为当前环境状态状态st;其中,所述当前环境状态st由入侵检测智能体与入侵检测环境交互生成;
2)选择执行动作at,环境反馈给智能体的奖励rt,以及交互生成的新的环境状态st+1,之后以元组(st,at,rt,st+1)的形式存储在经验池中;
3)入侵检测智能体计算一个入侵检测过程所有时刻入侵检测环境反馈给入侵检测智能体的累积奖励以及期望值;
4)入侵检测智能体根据策略梯度算法更新入侵检测策略πθ,最终实现最大化步骤3)所获得的期望奖励;
5)判断是否到达终止状态,如果是,则执行步骤6),否则返回到步骤2);
6)入侵检测智能体根据最新的入侵检测策略进行入侵检测。
所述入侵检测环境包括:
1)策略:采用随机性策略,通过参数概率分布πθ(a|s)来表示,计算公式如下:
πθ(a|s)=p(a|s;θ) (1)
其中,p(a|s;θ)表示在给定参数θ的前提下,入侵检测智能体根据输入的状态s选择入侵检测动作a的可能性;
2)状态序列:包括不限于历史入侵检测数据、入侵检测智能体与入侵检测环境在交互过程中选择的执行动作at,环境反馈给智能体的奖励rt,以及交互生成的新的环境状态st+1
3)动作
所述入侵检测智能体包括正常和报警两个入侵检测动作,具体动作种类如下所示:
a∈{正常,报警}={1,0} (2)
其中,0代表的是正常,1代表的是报警;
4)奖励值
Figure BDA0003096232930000021
奖励分为两个部分:在攻击面st的时候系统的检测准确率accuracy(st)和从攻击面st-1切换到st的效率effective(st,st-1),β和γ为二者的调节系数;在攻击面st时的检测准确率方面,定义accuracy(st)如下:
Figure BDA0003096232930000022
其中,evalz(st,i)为与奖励函数成正比关系的n个指标,evalf(st,i)为与奖励函数成反比关系的m个指标;
在攻击面从st-1切换到st的效率方面,定义effective(st,st-1)函数来计算系统的切换效率,公式如下:
effective(st,st-1)=λtime(st,st-1)+μresource(st,st-1) (5)
其中,time(st,st-1)为系统从攻击面st-1切换到st的时间,resource(st,st-1)为系统从攻击面st-1切换到st资源利用率的变化,λ和μ为二者的调节系数。
所述步骤2)中的经验池可以存储各个策略交互产生的经验数据,每个策略都可以互相利用彼此之间的经验数据。
所述步骤2)具体为:入侵检测智能体根据当前时刻t的环境状态st执行策略πθ,采取执行动作at,环境反馈智能体的一个奖励值rt
所述步骤3)中计算一个入侵检测过程所有时刻入侵检测环境反馈给入侵检测智能体的累积奖励,计算公式如下:
Figure BDA0003096232930000031
其中,τ={s1,a1,r1,s2,a2,r2,...,sT,aT,rT,sT+1}表示的是一个交互过程产生的交互轨迹,基于马尔可夫决策过程,即新的环境状态st+1的概率取决于当前环境状态st和执行动作at,T表示的是到达终止状态的时刻;
代表时间影响奖励程度的因子γ∈[0,1]用于折现未来奖励,累积奖励计算如下:
Figure BDA0003096232930000032
其中,γ表示的是折扣因子,时间越久远的奖励对当前状态的评估影响越小,r(si,ai)表示的是在状态si下采取的动作ai
计算所获得累积奖励的期望值,用L(θ)表示,计算公式如下:
Figure BDA0003096232930000033
其中,P(τ|θ)即为策略πθ,策略是根据参数θ生成某一个交易动作的概率大小,计算公式如下:
Figure BDA0003096232930000034
N表示的是每次交易智能体与期货交易环境交互生成的轨迹数量,如果交易智能体与期货交易环境总共交互N次,则生成的轨迹样本可以表示为{τ12,...,τN}。
所述步骤4)实现最大化步骤3)所获得的期望奖励具体为:通过对L(θ)求偏导,从而实现最大化所获得的期望奖励,计算公式如下:
Figure BDA0003096232930000041
其中,交互轨迹的对数概率计算公式如下:
Figure BDA0003096232930000042
则对训练轨迹的对数概率求梯度的计算公式如下:
Figure BDA0003096232930000043
最终策略梯度的计算公式如下:
Figure BDA0003096232930000044
利用策略梯度更新策略函数的参数θ,计算公式如下:
Figure BDA0003096232930000045
其中,β表示的是学习率,β∈[0,1];由于交易智能体所得到的奖励值不可能一直是正数,因此引入一个负的参数b,则新公式计算如下:
Figure BDA0003096232930000046
所述入侵检测智能体采用LSTM网络结构,LSTM网络总共有五层结构,分别是输入层、全连接层、LSTM层、全连接层、Softmax层;每个神经网络的单元都采用Relu函数作为激活函数;
LSTM网络的网络结构的softmax函数的计算公式:
Figure BDA0003096232930000047
其中,z表示的是上一层的输出,softmax函数的输入,N表示的是N分类,本文是两类,分别是正常和报警,yi表示的是预测的目标属于第i类的概率。
本发明的有益效果为:
本发明提供的一种基于深度策略梯度的入侵检测算法通过优化策略,从而实现最大化期望总奖励值,相比深度Q-learning算法省去了很多复杂的环节,只需要一个具有参数θ的策略函数,也不需要计算一系列的离散状态值,而是可以直接从历史入侵检测数据中学习到入侵检测策略,从而最大化期望总奖励值。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明的公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明公开实施例提供的入侵检测智能体的结构示意图;
图2为本发明公开实施例提供的网络结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的系统的例子。
由于攻击的时序数据且动态变化,现有技术中DPG算法使用的全连接层网络没有考虑到数据的非线性变化,无法更深层次提取数据特征和信息挖掘。且LSTM网络虽然克服了RNN会产生梯度消失或梯度爆炸的问题,但是LSTM网络也无法考虑到金融数据的非线性变化的问题。
本实施方案提供了一种基于深度策略梯度的入侵检测算法,该算法引入了经验池技巧,现有技术中的经验池用来存储过去执行策略之后产生的经验数据信息。由于在强化学习中,一个训练过程结束之后,才更新一个状态-动作值,更新效率非常低下,且相邻更新的样本之间存在很大的关联性,不满足深度神经网络要求数据独立同分布的要求,容易导致训练样本分布不均衡,此外,训练过程中每个样本只能被模型训练一次,就会使有些明显带来训练收益的样本不能被重复利用,不仅造成了资源的浪费,而且增加了算法的收敛时间。
本实施方案提出的经验池技巧,设计了一个容量为N的经验池,经验池可以存储各个策略交互产生的经验数据,每个策略都可以互相利用彼此之间的经验数据。具体而言,在模型训练时,智能体与环境在交互过程生成的信息包括当前环境状态st,选择的执行动作at,环境反馈给智能体的奖励rt,以及交互生成的新的环境状态st+1,之后以元组(st,at,rt,st+1)的形式存储在经验池中。经验池的容量是有限的,当经验池存储满时,新进入的样本就会替换最早进入的样本,保持经验池容量的稳定。某个策略在训练时可以使用其他策略产生的经验数据,这样不仅提高了样本的使用频率,而且增加了策略函数分布的多样性。此时对环境的搜索将更加全面,不仅打破了数据之间的关联性,使网络训练所使用的数据满足独立同分布,而且还减少了训练时间。
入侵检测智能体的环境(包括状态、动作、奖励值、策略)对整个入侵检测过程也会有很大影响。
入侵检测智能体环境几乎影响着入侵检测策略的每一个过程,从数据的输入、特征提取、策略分析以及最后实现最大化收益目标等。
具体而言,入侵检测环境包括:
(1)策略
策略分为随机策略和确定性策略。本实施例选取的策略是随机性策略,通过参数概率分布πθ(a|s)来表示,计算公式如下:
πθ(a|s)=p(a|s;θ) (1)
其中,p(a|s;θ)表示在给定参数θ的前提下,入侵检测智能体根据输入的状态s选择入侵检测动作a的可能性。
(2)状态
入侵检测智能体根据当前入侵检测环境状态的输入进行分析与决策。状态序列不仅包括历史入侵检测数据等特征指标,还包括入侵检测智能体与入侵检测环境在交互过程中选择的执行动作at,环境反馈给智能体的奖励rt,以及交互生成的新的环境状态st+1
(3)动作
现实入侵检测共有两个入侵检测动作,分别是正常和报警。为了模拟真实的入侵检测,入侵检测智能体也同样有正常和报警两个入侵检测动作,入侵检测智能体会根据当前的状态序列选取概率最大的入侵检测动作。具体动作种类如下所示:
a∈{正常,报警}={1,0} (2)
其中,0代表的是正常,1代表的是报警。
(4)奖励值
Figure BDA0003096232930000061
奖励分为两个部分:在攻击面st的时候系统的检测准确率accuracy(st)和从攻击面st-1切换到st的效率effective(st,st-1),β和γ为二者的调节系数。在攻击面st时的检测准确率方面,由于不同的部署环境对于系统的检测指标(如漏报率,误报率或者召回率等)的侧重点不同,因此为了不失一般性我们定义accuracy(st)如下:
Figure BDA0003096232930000071
其中,evalz(st,i)为与奖励函数成正比关系的n个指标,evalf(st,i)为与奖励函数成反比关系的m个指标。
在攻击面从st-1切换到st的效率方面,我们定义effective(st,st-1)函数来计算系统的切换效率,公式如下:
effective(st,st-1)=λtime(st,st-1)+μresource(st,st-1) (5)
其中,time(st,st-1)为系统从攻击面st-1切换到st的时间,resource(st,st-1)为系统从攻击面st-1切换到st资源利用率的变化,λ和μ为二者的调节系数。
该算法的核心是构建了入侵检测智能体,侵检测智能体需要能够高度抽象化表示复杂的数据特征,记忆历史入侵检测数据的关联,挖掘数据之间的潜在规律,从而找到最优的入侵检测策略,实现最大化期望累积奖励值。因此,构造一个合适的智能体网络结构尤为重要。
如图1即为入侵检测智能体结构。根据入侵检测过程,入侵检测智能体分为感知模块和决策模块两个功能模块:
1)感知模块:根据历史入侵检测数据预测未来状态
2)决策模块:入侵检测智能体根据当前入侵检测环境状态和历史信息决定此时采取什么入侵检测策略。
入侵检测智能体的感知模块主要接收当前状态、上一时刻具有短时记忆的隐藏状态以及上一时刻具有长时记忆的细胞状态,决策模块根据当前状态、上一时刻的入侵检测动作、上一时刻的奖励值以及感知模块的输出得出当前时刻的入侵检测动作。详细过程如下所述:
1)获取经过数据处理后的数据x1,x2,...,xT并生成特征向量作为当前环境状态状态st;其中,所述当前环境状态st由入侵检测智能体与入侵检测环境交互生成;
2)选择执行动作at,环境反馈给智能体的奖励rt,以及交互生成的新的环境状态st+1,之后以元组(st,at,rt,st+1)的形式存储在经验池中;
3)入侵检测智能体计算一个入侵检测过程所有时刻入侵检测环境反馈给入侵检测智能体的累积奖励以及期望值;
4)入侵检测智能体根据策略梯度算法更新入侵检测策略πθ,最终实现最大化步骤3)所获得的期望奖励;
5)判断是否到达终止状态,如果是,则执行步骤6),否则返回到步骤2);
6)入侵检测智能体根据最新的入侵检测策略进行入侵检测。
其中,步骤2)、步骤3)、步骤4)的具体实现过程如下:
a、入侵检测智能体根据当前时刻t的状态st执行策略πθ采取动作at,环境反馈智能体一个奖励值rt
b、计算一个入侵检测过程所有时刻入侵检测环境反馈给入侵检测智能体的累积奖励,计算公式如下:
Figure BDA0003096232930000081
其中,τ={s1,a1,r1,s2,a2,r2,...,sT,aT,rT,sT+1}表示的是一个交互过程产生的交互轨迹。基于马尔可夫决策过程,即下一个状态st+1的概率取决于当前状态st和动作at,而不是前一个状态和动作。T表示的是到达终止状态的时刻。
但是由于环境的随机性,下一次执行相同操作后,奖励将会发生变化。随着时间的流逝,错误也会累积。因此,代表时间影响奖励程度的因子γ∈[0,1]用于折现未来奖励,累积奖励计算如下:
Figure BDA0003096232930000082
其中,γ表示的是折扣因子,时间越久远的奖励对当前状态的评估影响越小,r(si,ai)表示的是在状态si下采取的动作ai
c、计算所获得累积奖励的期望值,用L(θ)表示。在交互轨迹足够多的情况下,一般用均值来估计该期望值,计算公式如下:
Figure BDA0003096232930000083
其中,P(τ|θ)即为策略πθ,策略是根据参数θ生成某一个交易动作的概率大小,计算公式如下:
Figure BDA0003096232930000084
N表示的是每次交易智能体与期货交易环境交互生成的轨迹数量,如果交易智能体与期货交易环境总共交互N次,则生成的轨迹样本可以表示为{τ12,...,τN}。
d、通过对L(θ)求偏导,从而实现最大化所获得的期望奖励,计算公式如下:
Figure BDA0003096232930000091
其中,交互轨迹的对数概率计算公式如下:
Figure BDA0003096232930000092
则对训练轨迹的对数概率求梯度的计算公式如下:
Figure BDA0003096232930000093
综上所述,最终策略梯度的计算公式如下:
Figure BDA0003096232930000094
(5)利用策略梯度更新策略函数的参数θ,计算公式如下:
Figure BDA0003096232930000095
其中,β表示的是学习率,β∈[0,1]。由于交易智能体所得到的奖励值不可能一直是正数,因此引入一个负的参数b,则新公式计算如下:
Figure BDA0003096232930000096
其次,入侵检测智能体网络结构一方面决定入侵检测智能体是否可以在动态变化的市场中正确表征信号,从而挖掘到历史数据之间存在的潜在规律;另一方面影响着训练的收敛时间以及入侵检测的收益大小。在实施方案中入侵检测智能体为LSTM网络。
LSTM网络结构如图2所示,LSTM网络总共有五层结构,分别是输入层、全连接层、LSTM层、全连接层、Softmax层。输入层接收历史入侵检测数据,第一个全连接层有64个隐藏单元,用于整合历史入侵检测数据的特征。LSTM层有64个隐藏单元,每个隐藏单元之间循环连接,通过不同时刻的参数共享,实现了对历史入侵检测信息的获取,然后把提取到的历史入侵检测特征信息送入下一个全连接层,此外,LSTM网络不仅可以将历史数据特征高度抽象化,而且可以学习历史入侵检测数据的动态变化走势,从而挖掘出历史入侵检测数据蕴含的经济规律。第二个全连接层有64个隐藏单元,用于整合LSTM层输出的历史入侵检测特征信息。每个神经网络的单元同样都采用Relu函数作为激活函数。Softmax层用于输出每个入侵检测动作的概率。
LSTM网络的网络结构的softmax函数的计算如公式16。模型利用softmax函数将历史入侵检测信息转换输出一个概率向量,概率向量对应的入侵检测动作分别是正常和报警,每一个动作的概率范围都在(0,1)之间,如果属于“正常”的概率较大,那么模拟入侵检测决策结果就会选择正常,如果属于“报警”的概率较大,那么模拟入侵检测决策结果就会选择报警。
Figure BDA0003096232930000101
其中,z表示的是上一层的输出,softmax函数的输入,N表示的是N分类,本文是两类,分别是正常和报警,yi表示的是预测的目标属于第i类的概率。
应用上述算法,在对入侵检测数据进行数据处理时,需要将数据划分成单独的片段,每个数据片段不能有重合。数据处理完之后,将其训练,训练结束之后,将保存好的参数运用到测试中,测试结束根据入侵检测智能体中取得的收益来评判效果。
基于深度策略梯度的入侵检测算法利用LSTM擅长处理时序数据的特点,在DPG算法的基础上,采用深度学习中的LSTM网络代替DPG算法中的全连接层网络,基于LSTM神经网络构建了入侵检测智能体,并使用了策略梯度算法。入侵检测智能体利用LSTM神经网络输出入侵检测动作概率,基于该概率利用策略梯度算法优化LSTM神经网络参数,使得入侵检测智能体探索到最优的入侵检测策略。
相比深度Q-learning算法省去了很多复杂的环节,只需要一个具有参数θ的策略函数,也不需要计算一系列的离散状态值,而是可以直接从历史入侵检测数据中学习到入侵检测策略,从而最大化期望总奖励值。训练设置了1000个训练过程(episode),也就是说每只都需要训练1000个episode,每10个episode结束之后,就会保存一次神经网络参数。神经网络的训练学习率设置为0.003。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由权利要求指出。

Claims (7)

1.一种基于深度策略梯度的入侵检测算法,其特征在于,该算法中构建了入侵检测智能体,所述入侵检测智能体包括:能够根据历史入侵检测数据预测未来状态的感知模块;及根据当前入侵检测环境状态和历史信息决定此时采取什么入侵检测策略的决策模块;
应用所述入侵检测智能体,所述入侵检测算法包括如下步骤:
1)获取经过数据处理后的数据x1,x2,...,xT并生成特征向量作为当前环境状态状态st;其中,所述当前环境状态st由入侵检测智能体与入侵检测环境交互生成;
2)选择执行动作at,环境反馈给智能体的奖励rt,以及交互生成的新的环境状态stt1,之后以元组(st,at,rt,sr+1)的形式存储在经验池中;
3)入侵检测智能体计算一个入侵检测过程所有时刻入侵检测环境反馈给入侵检测智能体的累积奖励以及期望值;
4)入侵检测智能体根据策略梯度算法更新入侵检测策略πθ,最终实现最大化步骤3)所获得的期望奖励;
5)判断是否到达终止状态,如果是,则执行步骤6),否则返回到步骤2);
6)入侵检测智能体根据最新的入侵检测策略进行入侵检测。
2.根据权利要求1所述的一种基于深度策略梯度的入侵检测算法,其特征在于,所述步骤2)中的入侵检测环境包括:
1)策略:采用随机性策略,通过参数概率分布πθ(a|s)来表示,计算公式如下:
πθ(a|s)=p(a|s;θ) (1)
其中,p(a|s;θ)表示在给定参数θ的前提下,入侵检测智能体根据输入的状态s选择入侵检测动作a的可能性;
2)状态序列:包括不限于历史入侵检测数据、入侵检测智能体与入侵检测环境在交互过程中选择的执行动作at,环境反馈给智能体的奖励rt,以及交互生成的新的环境状态st+1
3)动作
所述入侵检测智能体包括正常和报警两个入侵检测动作,具体动作种类如下所示:
a∈{正常,报警}={1,0} (2)
其中,0代表的是正常,1代表的是报警;
4)奖励值
Figure RE-FDA0003195326150000021
奖励分为两个部分:在攻击面st的时候系统的检测准确率accuracy(st)和从攻击面st-1切换到st的效率effective(st,st-1),β和γ为二者的调节系数;在攻击面st时的检测准确率方面,定义accuracy(st)如下:
Figure RE-FDA0003195326150000022
其中,evalz(st,i)为与奖励函数成正比关系的n个指标,evalf(st,i)为与奖励函数成反比关系的m个指标;
在攻击面从st-1切换到st的效率方面,定义effective(st,st-1)函数来计算系统的切换效率,公式如下:
effective(st,st-1)=λtime(st,st-1)+μresource(st,st-1) (5)
其中,time(st,st-1)为系统从攻击面st-1切换到st的时间,resource(st,st-1)为系统从攻击面st-1切换到st资源利用率的变化,λ和μ为二者的调节系数。
3.根据权利要求1所述的一种基于深度策略梯度的入侵检测算法,其特征在于,
所述步骤2)中的经验池可以存储各个策略交互产生的经验数据,每个策略都可以互相利用彼此之间的经验数据。
4.根据权利要求1所述的一种基于深度策略梯度的入侵检测算法,其特征在于,
所述步骤2)具体为:入侵检测智能体根据当前时刻t的环境状态st执行策略πθ,采取执行动作at,环境反馈智能体的一个奖励值rt
5.根据权利要求1所述的一种基于深度策略梯度的入侵检测算法,其特征在于,
所述步骤3)中计算一个入侵检测过程所有时刻入侵检测环境反馈给入侵检测智能体的累积奖励,计算公式如下:
Figure RE-FDA0003195326150000023
其中,τ={s1,a1,r1,s2,a2,r2,...,sT,aT,rT,sT+1}表示的是一个交互过程产生的交互轨迹,基于马尔可夫决策过程,即新的环境状态st+1的概率取决于当前环境状态st和执行动作at,T表示的是到达终止状态的时刻;
代表时间影响奖励程度的因子γ∈[0,1]用于折现未来奖励,累积奖励计算如下:
Figure RE-FDA0003195326150000024
其中,γ表示的是折扣因子,时间越久远的奖励对当前状态的评估影响越小,r(si,ai)表示的是在状态si下采取的动作ai
计算所获得累积奖励的期望值,用L(θ)表示,计算公式如下:
Figure RE-FDA0003195326150000031
其中,P(τ|θ)即为策略πθ,策略是根据参数θ生成某一个交易动作的概率大小,计算公式如下:
Figure RE-FDA0003195326150000032
N表示的是每次交易智能体与期货交易环境交互生成的轨迹数量,如果交易智能体与期货交易环境总共交互N次,则生成的轨迹样本可以表示为{τ12,...,τN}。
6.根据权利要求5所述的一种基于深度策略梯度的入侵检测算法,其特征在于,
所述步骤4)实现最大化步骤3)所获得的期望奖励具体为:通过对L(θ)求偏导,从而实现最大化所获得的期望奖励,计算公式如下:
Figure RE-FDA0003195326150000033
其中,交互轨迹的对数概率计算公式如下:
Figure RE-FDA0003195326150000034
则对训练轨迹的对数概率求梯度的计算公式如下:
Figure RE-FDA0003195326150000035
最终策略梯度的计算公式如下:
Figure RE-FDA0003195326150000036
利用策略梯度更新策略函数的参数θ,计算公式如下:
θnew=θold+β▽θL(θ) (14)
其中,β表示的是学习率,β∈[0,1];由于交易智能体所得到的奖励值不可能一直是正数,因此引入一个负的参数b,则新公式计算如下:
Figure RE-FDA0003195326150000041
7.根据权利要求1所述的一种基于深度策略梯度的入侵检测算法,其特征在于,所述
所述入侵检测智能体采用LSTM网络结构,LSTM网络总共有五层结构,分别是输入层、全连接层、LSTM层、全连接层、Softmax层;每个神经网络的单元都采用Relu函数作为激活函数;
LSTM网络的网络结构的softmax函数的计算公式:
Figure RE-FDA0003195326150000042
其中,z表示的是上一层的输出,softmax函数的输入,N表示的是N分类,本文是两类,分别是正常和报警,yi表示的是预测的目标属于第i类的概率。
CN202110612057.7A 2021-06-02 2021-06-02 一种基于深度策略梯度的入侵检测算法 Active CN113344071B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110612057.7A CN113344071B (zh) 2021-06-02 2021-06-02 一种基于深度策略梯度的入侵检测算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110612057.7A CN113344071B (zh) 2021-06-02 2021-06-02 一种基于深度策略梯度的入侵检测算法

Publications (2)

Publication Number Publication Date
CN113344071A true CN113344071A (zh) 2021-09-03
CN113344071B CN113344071B (zh) 2024-01-26

Family

ID=77472730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110612057.7A Active CN113344071B (zh) 2021-06-02 2021-06-02 一种基于深度策略梯度的入侵检测算法

Country Status (1)

Country Link
CN (1) CN113344071B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797866A (zh) * 2022-12-06 2023-03-14 河北知数信息技术有限公司 一种基于孪生网络的电力安全控制方法、装置和电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052456A (zh) * 2020-08-31 2020-12-08 浙江工业大学 基于多智能体的深度强化学习策略优化防御方法
CN112351033A (zh) * 2020-11-06 2021-02-09 北京石油化工学院 工控网络中基于双种群遗传算法的深度学习入侵检测方法
CN112465151A (zh) * 2020-12-17 2021-03-09 电子科技大学长三角研究院(衢州) 一种基于深度强化学习的多智能体联邦协作方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052456A (zh) * 2020-08-31 2020-12-08 浙江工业大学 基于多智能体的深度强化学习策略优化防御方法
CN112351033A (zh) * 2020-11-06 2021-02-09 北京石油化工学院 工控网络中基于双种群遗传算法的深度学习入侵检测方法
CN112465151A (zh) * 2020-12-17 2021-03-09 电子科技大学长三角研究院(衢州) 一种基于深度强化学习的多智能体联邦协作方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115797866A (zh) * 2022-12-06 2023-03-14 河北知数信息技术有限公司 一种基于孪生网络的电力安全控制方法、装置和电子设备
CN115797866B (zh) * 2022-12-06 2023-08-25 河北知数信息技术有限公司 一种基于孪生网络的电力安全控制方法、装置和电子设备

Also Published As

Publication number Publication date
CN113344071B (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
Boussabaine The use of artificial neural networks in construction management: a review
CN111539515B (zh) 一种基于故障预测的复杂装备维修决策方法
CN104662526B (zh) 用于高效地更新尖峰神经元网络的装置和方法
Lyu et al. The advance of reinforcement learning and deep reinforcement learning
EP0471857A1 (en) Neuro-fuzzy fusion data processing system
Sternberg et al. Using cultural algorithms to support re-engineering of rule-based expert systems in dynamic performance environments: a case study in fraud detection
CN111416797B (zh) 改进天牛群算法优化正则化极限学习机的入侵检测方法
CN112329948A (zh) 一种多智能体策略预测方法及装置
CN111754025A (zh) 基于cnn+gru的公交短时客流预测方法
CN114139637B (zh) 多智能体信息融合方法、装置、电子设备及可读存储介质
CN112990485A (zh) 基于强化学习的知识策略选择方法与装置
CN111950722A (zh) 一种基于环境预测模型的强化学习方法
Li et al. A modular neural network-based population prediction strategy for evolutionary dynamic multi-objective optimization
CN113344071A (zh) 一种基于深度策略梯度的入侵检测算法
Pan et al. A probabilistic deep reinforcement learning approach for optimal monitoring of a building adjacent to deep excavation
Liu et al. Efficient adversarial attacks on online multi-agent reinforcement learning
CN115906673B (zh) 作战实体行为模型一体化建模方法及系统
Li Research on Bank Credit Risk Assessment Based on BP Neural Network
CN115909027A (zh) 一种态势估计方法及装置
CN115459982A (zh) 一种电力网络虚假数据注入攻击检测方法
CN114742644A (zh) 训练多场景风控系统、预测业务对象风险的方法和装置
CN112232557B (zh) 基于长短期记忆网络的转辙机健康度短期预测方法
CN114523990A (zh) 基于分层强化学习的自动驾驶决策方法和装置
Shi et al. Efficient hierarchical policy network with fuzzy rules
CN114627085A (zh) 目标图像的识别方法和装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20231229

Address after: 830000, Room 2228, 22nd Floor, No. 477 Xuanwu Lake Road, Urumqi Economic and Technological Development Zone (Toutunhe District), Urumqi City, Xinjiang Uygur Autonomous Region

Applicant after: Xinjiang Energy Soaring Nebula Technology Co.,Ltd.

Address before: 110136, Liaoning, Shenyang moral and Economic Development Zone, No. 37 South Avenue moral

Applicant before: SHENYANG AEROSPACE University

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant