CN113179263A - 一种网络入侵检测方法、装置及设备 - Google Patents

一种网络入侵检测方法、装置及设备 Download PDF

Info

Publication number
CN113179263A
CN113179263A CN202110450303.3A CN202110450303A CN113179263A CN 113179263 A CN113179263 A CN 113179263A CN 202110450303 A CN202110450303 A CN 202110450303A CN 113179263 A CN113179263 A CN 113179263A
Authority
CN
China
Prior art keywords
network
current
flow
actor
critic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110450303.3A
Other languages
English (en)
Inventor
董仕
夏元俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhoukou Normal University
Original Assignee
Zhoukou Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhoukou Normal University filed Critical Zhoukou Normal University
Priority to CN202110450303.3A priority Critical patent/CN113179263A/zh
Publication of CN113179263A publication Critical patent/CN113179263A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于多智能体深度确定性策略梯度模型的网络入侵检测方法,涉及计算机网络安全技术领域。包括:获取待检测网络流量数据;将待检测网络流量数据输入至基于多智能体深度确定性策略梯度的神经网络模型中,检测异常网络流量;基于多智能体深度确定性策略梯度的神经网络模型的确定包括:获取网络流量训练样本;采用多智能体深度确定性策略梯度,通过网络流量训练样本,对Actor网络和Critic网络进行训练;采用策略梯度对Actor网络参数进行更新;采用损失函数对Critic网络参数进行更新。本发明的多智能体深度确定性策略梯度,采用简单快速的神经网络,更易部署在苛刻的网络环境中;也能以对抗性学习方式提高数量较少流量样本的检测准确率。

Description

一种网络入侵检测方法、装置及设备
技术领域
本发明涉及网络入侵检测技术领域,更具体的涉及一种基于多智能体深度确定性策略梯度(Multi-Agent Deep Deterministic Policy Gradient,MADDPG)模型的网络入侵检测方法、装置及设备。
背景技术
网络入侵检测是目前应用最广泛也最有效的以数据驱动的网络安全主动防御方法,基于实时网络流量数据建立相应的攻击评测机制,从而实现对攻击行为的检测和预防。传统的入侵检测方法通常是通过对比已构建的网络行为模式或规则来检测当前网络连接属于正常状态还是攻击风险状态。随着互联网环境的更新换代,网络流量数据呈现出海量,高维复杂且各类别呈现不均衡的特点,直接用来进行攻击行为模式发现十分困难。传统的网络入侵检测方法出现检测效率低下、准确率较低、误报率和漏报率较高的问题,已不能满足网络信息安全的需求。
传统的机器学习方法通常需要人工选取特征,且需要大量的领域专业知识,是较为浅层的学习方法。然而,随着网络中海量数据的增加,网络带宽的提升,数据的复杂性和特征的多样性也在不断提升,浅层学习难以达到分析和预测的目的。2006年Hinton教授提出了深度学习理论,与传统机器学习不同,深度学习方法学习的是样本数据的内在规律和表示层次,构建多个隐藏层组建的非线性网络结构能够适应较高维度学习和预测的要求,效率更高,节省了大量特征提取的时间,可根据问题自动建立模型,不局限于某个固定的问题,在解决入侵检测问题中很有前景。但是由于其内部结构复杂,训练预测时间较长,无法部署在苛刻的网络环境当中。此外,虽然其能够应对复杂的高维流量数据,但是很难解决数据集不均衡造成的异常攻击流量识别准确率偏低的问题。
发明内容
本发明实施例提供一种基于多智能体深度确定性策略梯度模型的网络入侵检测方法、装置及设备,用以解决上述背景技术中提出的问题。
本发明实施例提供的一种基于多智能体深度确定性策略梯度模型的网络入侵检测方法,包括:
获取待检测网络流量数据;
将待检测网络流量数据输入至基于多智能体深度确定性策略梯度的神经网络模型中,检测异常网络流量;其中,
所述基于多智能体深度确定性策略梯度的神经网络模型的确定,包括:
获取网络流量训练样本;
采用多智能体深度确定性策略梯度,通过网络流量训练样本,对Actor网络和Critic网络进行训练;
采用策略梯度,对Actor当前网络的参数进行更新;
采用损失函数,对Critic当前网络的参数进行更新。
进一步地,所述网络流量训练样本,包括:
当前流量特征集合S=(st,st+1,…st+n)、当前流量特征标签集合
Figure BDA0003038379940000021
和下一阶段流量特征集合S‘=(st+n+1,st+n+2,…st+2n)。
进一步地,所述对Actor网络和Critic网络进行训练,具体包括:
将当前流量特征集合S=(st,st+1,…st+n)输入到Actor当前网络中,通过策略函数提供在给定状态下的动作概率分布,确定当前最佳流量特征标签A=(at,at+1,…at+n);
将下一阶段流量特征集合S‘=(st+n+1,st+n+2,…st+2n)输入到Actor目标网络中,通过策略函数提供在给定状态下的动作概率分布,确定下一阶段最佳流量特征标签A'=(a′t+n+1,a′t+n+2,…,a′t+2n);
将当前最佳流量特征标签A=(at,at+1,…at+n)和当前流量特征标签集合
Figure BDA0003038379940000031
进行匹配,如果一致,奖励值为1;如果不一致,奖励值为0,奖励集合为r=(r1,r2,…,rn);
将当前流量特征集合S=(st,st+1,…st+n)和当前最佳流量特征标签A=(at,at+1,…at+n)输入到Critic当前网络中,计算所有当前Q函数值集合;
将下一阶段流量特征集合S‘=(st+n+1,st+n+2,…st+2n)和下一阶段最佳流量标签A'=(a′t+n+1,a′t+n+2,…,a′t+2n)输入到Critic目标网络中,计算所有目标Q函数值集合。
进一步地,所述策略梯度为:
Figure BDA0003038379940000032
其中,n个智能体且策略为θ={θ12,…θn}参数化的博弈,当前多智能体确定性策略为μ={μ12,…μn};
Figure BDA0003038379940000033
是所有Critic当前网络的值函数集合。
进一步地,所述损失函数为:
Figure BDA0003038379940000034
其中,
Figure BDA0003038379940000035
γ为衰减因子;μ‘=(μ′1,μ'2,…,μ'n)是具有延迟参数θ′i的Actor目标策略集合,
Figure BDA0003038379940000036
是所有Critic目标网络集的值函数集合。
进一步地,本发明实施例提供的基于多智能体深度确定性策略梯度模型的网络入侵检测方法,还包括:
采用软更新方式,通过下式,对Actor目标网络和Critic目标网络的参数进行更新;
θ′i←τθi+(1-τ)θ′i
其中,τ为软更新系数。
另外,本发明实施例还提供了一种基于多智能体深度确定性策略梯度模型的网络入侵检测装置,包括:
流量获取模块,用于获取待检测网络流量数据;
异常流量检测模块,用于将待检测网络流量数据输入至基于多智能体深度确定性策略梯度的神经网络模型中,获得异常网络流量;其中,
所述基于多智能体深度确定性策略梯度的神经网络模型,包括:
训练样本获取单元,用于获取网络流量训练样本;
网络训练单元,用于采用多智能体深度确定性策略梯度,通过网络流量训练样本,对Actor网络和Critic网络进行训练;
Actor当前网络参数更新单元,用于采用策略梯度,对Actor当前网络的参数进行更新;
Critic当前网络参数更新单元,用于采用损失函数,对Critic当前网络的参数进行更新。
另外,本发明实施例还提供了一种计算机设备,包括存储器和处理器,所述存储器内存储有程序,所述处理器执行程序时实现上述方法的步骤。
本发明实施例提供一种基于多智能体深度确定性策略梯度模型的网络入侵检测方法、装置及设备,与现有技术相比,其有益效果如下:
本发明采用多智能体集中训练、分布式执行的方式,即每个智能体根据自身策略得到当前状态执行的动作,并存入到经验池当中,使用时每个智能体再从经验池当中随机抽取训练自身的网络。由于每个智能体训练一个需要全局的Critic以及一个需要局部信息的Actor,并且允许每个智能体有自己的奖励函数,因此可以用于对抗任务学习过程中,迫使智能体最大限度的学习数量较低且较难学习的流量样本,来解决流量不均衡的问题,以此提升异常攻击流量检测准确率。还有,本发明特别适用于不平衡的数据集条件下,可以更精确地检测异常流量。当今进行仿真模拟的数据集各类别间大小极其不均衡,异常攻击流量数量相对偏低。本发明在仿真模拟环境下,能够有效应对数据集各类别间相对不平衡问题,提升对少量异常攻击流量的检测准确率,以保护用户的信息和财产安全。
附图说明
图1为本发明实施例提供的深度确定性策略梯度模型;
图2为本发明实施例提供的多智能体深度确定策略梯度模型。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1~2,本发明实施例提供一种基于基于多智能体深度确定性策略梯度模型的网络入侵检测方法,该方法具体包括:
步骤1:获取网络流量数据集;将网络流量分为训练样本和测试样本;对数据集进行小批量采样,采样数据包括当前流量数据中的流量特征集合S=(st,st+1,…st+n),当前流量特征标签集合
Figure BDA0003038379940000051
和下一阶段流量特征集合S‘=(st+n+1,st+n+2,…st+2n)。
步骤2:建立神经网络MADDPG模型,将训练样本中采样的当前流量特征S=(st,st+1,…st+n)输入到Actor当前网络中,通过策略函数提供在给定状态下的动作概率分布,并在该过程中首选最佳流量特征标签A=(at,at+1,…at+n)。
步骤3:将预测的流量标签集合A=(at,at+1,…at+n)与训练样本中的真实流量标签集合进行匹配,如果一致奖励,奖励值为1;如果不一致,奖励值为0,奖励集合为r=(r1,r2,…,rn)。最后将获得的当前流量特征集合、奖励集合、预测流量标签集合以及下一阶段流量特征集合存入到经验回放当中,待使用时从中随机取出。
步骤4:接收训练样本中下一阶段的流量特征集合S‘=(st+n+1,st+n+2,…st+2n)输入到Actor目标网络当中,通过策略函数提供在给定状态下的动作概率分布,并在该过程中首选最佳流量特征标签A'=(a't+n+1,a′t+n+2,…,a′t+2n)
步骤5:将当前流量特征集合和Actor当前网络中选择的最佳流量标签集合A=(at,at+1,…at+n)输入到Critic当前网络中计算所有当前Q函数值集合,采用策略梯度方法更新Actor当前网络参数。
步骤6:将下一阶段流量特征S‘=(st+n+1,st+n+2,…st+2n)和Actor目标网络中选择的最交流了标签集合A'=(a't+n+1,a′t+n+2,…,a′t+2n)输入到Critic目标网络中计算所有目标Q函数值集合。通过当前Q函数值集合、目标Q函数值集合奖励集合以及衰减因子来计算损失函数集合,并通过反向传播算法更新Actor当前网络参数。
步骤7:采用软更新方式更新每一个智能体的目标网络参数。
步骤8:对于待检测的流量数据,将其输入到训练好的神经网络中进行异常流量检测。
对上述步骤1~8具体说明如下:
本发明在进行仿真模拟时首先对数据集进行小批量采样,采样包括当前流量特征st,真实流量标签a* t和下一阶段流量特征st+1。该发明是一种无环境模型,下一阶段流量特征st+1直接由数据集提供,不需要与环境交互产生。
本发明中的多智能体深度强化学习思想基于深度确定性策略梯度(DeepDeterministic Policy Gradient,DDPG),如图1所示,主要包括四个部分:1.Actor当前网络;2.Actor目标网络;3.Critic当前网络;4.Critic目标网络。需要说明的是,本申请的最终目标是通过这四个网络之间的训练,来使整体模型达到最优,最后采用Critic当前网络进行预测。
1.Actor当前网络。输入当前流量特征st,通过策略函数来估计真实流量标签a* t。策略函数提供给定状态下的标签概率分布π(a),在该采样过程中使用这种概率分布来选择最优标签a't。通过将最优标签a't和真实标签a* t进行对比,获得奖励rt。如果二者一致,奖励为1,如果不一致,奖励为0。
2.Actor目标网络。输入下一阶段的流量特征st+1,通过策略函数提供给定状态下的标签概率分布π(a),在该采样过程中使用这种概率分布来选择最优标签a′t+1
3.Critic当前网络。通过输入当前流量特征st和策略函数选择的最优标签a't来计算当前Q函数值Q(st,a't)。采用策略梯度算法:
Figure BDA0003038379940000071
并通过神经网络的梯度反向传播来更新Actor当前网络的所有参数θ。Actor目标网络中的参数θ’由Actor当前网络定期复制,并使用软更新方法:θ‘←τθ+(1-τ)θ‘。
4.Critic目标网络。通过输入当前流量特征st+1和策略函数选择的最优标签a′t+1来计算目标Q函数值Q'(st+1,a′t+1)。计算损失函数
Figure BDA0003038379940000072
并通过神经网络的梯度反向传播来更新Critic当前网络的所有参数ω。其中,y由奖励rt、衰减因子γ和Critic目标Q值函数Q'(st+1,a′t+1)求得:y=rt+γQ'(st+1,a′t+1)。Critic目标网络中的参数ω‘由Critic当前网络定期复制,并使用软更新方法:ω‘←τω+(1-τ)ω‘。
在上述步骤中得到的st、rt、a't、st+1存入经验回放当中,待使用时再从中随机取出。
由上述的单智能体演化到多智能体,通过采用分散执行、集中训练的框架来实现我们的目标,这种模型称为多智能体深度确定策略梯度,如图2所示。具体地说,考虑由n个智能体且策略为θ={θ12,…θn}参数化的博弈,当前多智能体确定性策略为μ={μ12,…μn},则更新Actor当前网络计算策略梯度可以写作:
Figure BDA0003038379940000073
其中A=(at,at+1,…at+n)是所有Actor当前网络预测出的流量标签集合,S=(st,st+1,…st+n)所有智能体输入的流量特征,
Figure BDA0003038379940000074
是所有Critic当前网络集中的值函数。更新Critic当前网络损失函数可以写作:
Figure BDA0003038379940000081
其中μ‘=(μ′1,μ′2,…,μ′n)是具有延迟参数θi'的Actor目标策略集合,A'=(a't+n+1,a′t+n+2,…,a′t+2n)是Actor目标网络预测出的流量标签集合,S‘=(st+n+1,st+n+2,…st+2n)是所有智能体下一阶段流量特征,r=(r1,r2,…,rn)为获得的奖励集合,
Figure BDA0003038379940000082
是所有Critic目标网络集中的值函数。最后对每一个智能体的目标网络参数进行更新:θi'←τθi+(1-τ)θi'。
在上述过程中得到的S、r、A、S‘存入经验回放当中,待使用时再从中随机取出。
具体实验实例:
本发明仿真模拟实验数据集采用公开并著名的数据集NSL-KDD,因为NSL-KDD数据集中正常流量占比53.46%,最不频繁的攻击流量占比0.04%,正是由于这种数据集各类别间大小不均衡性,更能体现该入侵检测框架降低人工代价并提升检测准确率的性能。实验主要分为以下几个步骤:
1.数据集采样。通过对训练样本小批量采样,采样样本包含当前流量特征集合S=(st,st+1,…st+n)、当前流量真实标签集合
Figure BDA0003038379940000083
下一阶段流量特征集合S‘=(st+n+1,st+n+2,…st+2n)。
2.多智能体Actor当前网络接收当前流量特征集合。接收当前流量特征集合后使用确定性策略预测流量标签集合A=(at,at+1,…at+n)。
3.获得奖励集合r=(r1,r2,…,rn)。通过对比Actor当前网络预测的流量标签与真实流量标签一一对比,如果一致获得奖励,奖励为1,如果不一致,奖励为0,最终获得奖励集合r=(r1,r2,…,rn)。最后将获得的当前流量特征集合、奖励集合、预测流量标签集合以及下一阶段流量特征集合存入到经验回放当中,待使用时从中随机取出。
4.多智能体Actor目标网络接收下一阶段流量特征集合。接收下一阶段流量特征集合S‘=(st+n+1,st+n+2,…st+2n)后使用确定性策略预测流量标签集合A'=(a't+n+1,a′t+n+2,…,a′t+2n)。
5.多智能体Critic当前网络计算当前Q值函数。神经网络接收当前流量特征集合S=(st,st+1,…st+n)和预测流量标签集合A=(a′t,a′t+1,…,a′t+n)预测当前所有Q值函数集合
Figure BDA0003038379940000091
并通过策略梯度更新当前网络参数:
Figure BDA0003038379940000092
6.多智能体Critic目标网络计算目标Q值函数。神经网络接收下一阶段流量特征集合S‘=(st+n+1,st+n+2,…st+2n)和预测流量标签集合A'=(a't+n+1,a′t+n+2,…,a′t+2n)预测目标所有Q值函数集合
Figure BDA0003038379940000093
并通过均方差计算损失函数更新当前网络参数:
Figure BDA0003038379940000094
其中
Figure BDA0003038379940000095
7.保存训练模型。模型训练至最大批次时,训练完成,并保存训练模型。
8.通过评价标准对该入侵检测框架进行评价。输入测试样本,加载本地训练模型,通过一系列评价标准来对模型进行评价。
本发明的优势分析:
海量高维数据。由于网络数据量的成倍增长,怎样对海量数据快速准确处理成了当前亟待解决的问题。传统的机器学习方法通常先使用聚类或者降维的方式对海量数据处理,再通过分类器对处理好的数据进行分类。由于传统机器学习的都是数据的浅层表示,在进行分类时效果较差。深度学习具有强大的表征学习能力,更容易对大型高维数据处理,但是深度学习内部结构复杂,训练需要花费较多的时间和计算机资源。本发明中的多智能体深度强化学习结合浅层的神经网络、不用区分的奖励函数以及确定性策略,使其不仅能处理高维流量数据,还能通过智能体间的策略集成交互提高智能体训练过程中的稳定性和训练后的鲁棒性。
数据集各类别间数量不均衡。由于恶意流量和攻击流量的数据量远小于正常流量,这就带来了数据集不平衡的问题。正是由于异常流量远小于正常流量,检测的过程中总是偏向于正常流量,因此会出现正常流量的识别准确率远高于异常流量。当前在解决数据集不均衡问题上的研究相对较少,通常采用欠采样和过采样的方法,但欠采样的方式缩小了整体的样本数量,过采样的方式又容易引发过拟合问题,这些在处理数据集不平衡的问题上均存在一定的缺陷。本发明采用多智能体集中训练、分步式执行的策略可以用于对抗任务学习当中,迫使智能体最大限度的学习数量较少的流量样本,以此来提高数量较少流量样本的检测准确率。
还有,本发明将多智能体深度确定性策略梯度应用到异常流量检测当中;多智能体深度确定性策略梯度集中训练、分步式执行的策略可以用于对抗任务学习当中,迫使智能体最大限度的学习数量较少的流量样本;相对于传统的机器学习,浅层的深度学习和深度强化学习,在检测准确率方面都有明显的提升。
以上公开的仅为本发明的几个具体实施例,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明的精神和范围,但是,本发明实施例并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围内。

Claims (8)

1.一种网络入侵检测方法,其特征在于,包括:
获取待检测网络流量数据;
将待检测网络流量数据输入至基于多智能体深度确定性策略梯度的神经网络模型中,检测异常网络流量;其中,
所述基于多智能体深度确定性策略梯度的神经网络模型的确定,包括:
获取网络流量训练样本;
采用多智能体深度确定性策略梯度,通过网络流量训练样本,对Actor网络和Critic网络进行训练;
采用策略梯度,对Actor网络参数进行更新;
采用损失函数,对Critic网络参数进行更新。
2.如权利要求1所述的网络入侵检测方法,其特征在于,所述网络流量训练样本,包括:
当前流量特征集合S=(st,st+1,…st+n)、当前流量特征标签集合
Figure FDA0003038379930000011
和下一阶段流量特征集合S‘=(st+n+1,st+n+2,…st+2n)。
3.如权利要求2所述的网络入侵检测方法,其特征在于,所述对Actor网络和Critic网络进行训练,具体包括:
将当前流量特征集合S=(st,st+1,…st+n)输入到Actor当前网络中,通过策略函数提供在给定状态下的动作概率分布,确定当前最佳流量特征标签A=(at,at+1,…at+n);
将下一阶段流量特征集合S‘=(st+n+1,st+n+2,…st+2n)输入到Actor目标网络中,通过策略函数提供在给定状态下的动作概率分布,确定下一阶段最佳流量特征标签A'=(a't+n+1,a't+n+2,…,a't+2n);
将当前最佳流量特征标签A=(at,at+1,…at+n)和当前流量特征标签集合
Figure FDA0003038379930000012
进行匹配,如果一致,奖励值为1;如果不一致,奖励值为0,奖励集合为r=(r1,r2,…,rn);
将当前流量特征集合S=(st,st+1,…st+n)和当前最佳流量特征标签A=(at,at+1,…at+n)输入到Critic当前网络中,计算所有当前Q函数值集合;
将下一阶段流量特征集合S‘=(st+n+1,st+n+2,…st+2n)和下一阶段最佳流量标签A'=(a't+n+1,a't+n+2,…,a't+2n)输入到Critic目标网络中,计算所有目标Q函数值集合。
4.如权利要求3所述的网络入侵检测方法,其特征在于,所述策略梯度为:
Figure FDA0003038379930000021
其中,n个智能体且策略为θ={θ12,…θn}参数化的博弈,当前多智能体确定性策略为μ={μ12,…μn};Qi μ=(S,A)是所有Critic当前网络的值函数集合。
5.如权利要求4所述的网络入侵检测方法,其特征在于,所述损失函数为:
Figure FDA0003038379930000022
其中,
Figure FDA0003038379930000023
γ为衰减因子;μ‘=(μ'1,μ'2,…,μ'n)是具有延迟参数θi'的Actor目标策略集合,
Figure FDA0003038379930000024
是所有Critic目标网络集的值函数集合。
6.如权利要求4所述的网络入侵检测方法,其特征在于,还包括:
采用软更新方式,通过下式,对Actor目标网络和Critic目标网络的参数进行更新;
θi'←τθi+(1-τ)θi'
其中,τ为为软更新系数。
7.一种网络入侵检测装置,其特征在于,包括:
流量获取模块,用于获取待检测网络流量数据;
异常流量检测模块,用于将待检测网络流量数据输入至基于多智能体深度确定性策略梯度的神经网络模型中,检测异常网络流量;其中,
所述基于多智能体深度确定性策略梯度的神经网络模型,包括:
训练样本获取单元,用于获取网络流量训练样本;
网络训练单元,用于采用多智能体深度确定性策略梯度,通过网络流量训练样本,对Actor网络和Critic网络进行训练;
Actor当前网络参数更新单元,用于采用策略梯度,对Actor当前网络的参数进行更新;
Critic当前网络参数更新单元,用于采用损失函数,对Critic当前网络的参数进行更新。
8.一种计算机设备,包括存储器和处理器,所述存储器内存储有程序,其特征在于,所述处理器执行程序时实现权利要求1~6任一项所述方法的步骤。
CN202110450303.3A 2021-04-25 2021-04-25 一种网络入侵检测方法、装置及设备 Pending CN113179263A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110450303.3A CN113179263A (zh) 2021-04-25 2021-04-25 一种网络入侵检测方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110450303.3A CN113179263A (zh) 2021-04-25 2021-04-25 一种网络入侵检测方法、装置及设备

Publications (1)

Publication Number Publication Date
CN113179263A true CN113179263A (zh) 2021-07-27

Family

ID=76926241

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110450303.3A Pending CN113179263A (zh) 2021-04-25 2021-04-25 一种网络入侵检测方法、装置及设备

Country Status (1)

Country Link
CN (1) CN113179263A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537383A (zh) * 2021-07-29 2021-10-22 周口师范学院 基于深度迁移强化学习无线网络异常流量检测方法
CN113783841A (zh) * 2021-08-06 2021-12-10 成都墨甲信息科技有限公司 一种工业物联网入侵检测网络架构构建方法、装置及设备
CN114050912A (zh) * 2021-09-30 2022-02-15 中国科学院信息工程研究所 一种基于深度强化学习的恶意域名检测方法和装置
CN114500102A (zh) * 2022-03-09 2022-05-13 绍兴文理学院 一种基于抽样的边缘计算架构物联网入侵检测系统及方法
CN114679310A (zh) * 2022-03-22 2022-06-28 安徽赛福贝特信息技术有限公司 一种网络信息安全检测方法
CN115134174A (zh) * 2022-08-31 2022-09-30 中国人民解放军战略支援部队航天工程大学 基于改进Actor-Critic算法的SDN下自适应威胁缓解方法及系统
CN117477607A (zh) * 2023-12-28 2024-01-30 国网江西综合能源服务有限公司 一种含智能软开关的配电网三相不平衡治理方法及系统
US11947671B2 (en) 2021-09-15 2024-04-02 Nanotronics Imaging, Inc. Method, systems and apparatus for intelligently emulating factory control systems and simulating response data

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111142522A (zh) * 2019-12-25 2020-05-12 北京航空航天大学杭州创新研究院 一种分层强化学习的智能体控制方法
CN111741002A (zh) * 2020-06-23 2020-10-02 广东工业大学 一种网络入侵检测模型的训练方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111142522A (zh) * 2019-12-25 2020-05-12 北京航空航天大学杭州创新研究院 一种分层强化学习的智能体控制方法
CN111741002A (zh) * 2020-06-23 2020-10-02 广东工业大学 一种网络入侵检测模型的训练方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张维: "基于列车行为分析的列控系统入侵检测方法研究", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113537383A (zh) * 2021-07-29 2021-10-22 周口师范学院 基于深度迁移强化学习无线网络异常流量检测方法
CN113783841B (zh) * 2021-08-06 2022-11-22 成都墨甲信息科技有限公司 工业物联网入侵检测网络架构构建方法、装置、设备及存储介质
CN113783841A (zh) * 2021-08-06 2021-12-10 成都墨甲信息科技有限公司 一种工业物联网入侵检测网络架构构建方法、装置及设备
US11947671B2 (en) 2021-09-15 2024-04-02 Nanotronics Imaging, Inc. Method, systems and apparatus for intelligently emulating factory control systems and simulating response data
CN114050912A (zh) * 2021-09-30 2022-02-15 中国科学院信息工程研究所 一种基于深度强化学习的恶意域名检测方法和装置
CN114050912B (zh) * 2021-09-30 2023-04-07 中国科学院信息工程研究所 一种基于深度强化学习的恶意域名检测方法和装置
CN114500102A (zh) * 2022-03-09 2022-05-13 绍兴文理学院 一种基于抽样的边缘计算架构物联网入侵检测系统及方法
CN114500102B (zh) * 2022-03-09 2024-02-13 绍兴文理学院 一种基于抽样的边缘计算架构物联网入侵检测系统及方法
CN114679310A (zh) * 2022-03-22 2022-06-28 安徽赛福贝特信息技术有限公司 一种网络信息安全检测方法
CN115134174B (zh) * 2022-08-31 2022-11-25 中国人民解放军战略支援部队航天工程大学 基于改进Actor-Critic算法的SDN下自适应威胁缓解方法及系统
CN115134174A (zh) * 2022-08-31 2022-09-30 中国人民解放军战略支援部队航天工程大学 基于改进Actor-Critic算法的SDN下自适应威胁缓解方法及系统
CN117477607A (zh) * 2023-12-28 2024-01-30 国网江西综合能源服务有限公司 一种含智能软开关的配电网三相不平衡治理方法及系统
CN117477607B (zh) * 2023-12-28 2024-04-12 国网江西综合能源服务有限公司 一种含智能软开关的配电网三相不平衡治理方法及系统

Similar Documents

Publication Publication Date Title
CN113179263A (zh) 一种网络入侵检测方法、装置及设备
CN108737406B (zh) 一种异常流量数据的检测方法及系统
Dewa et al. Data mining and intrusion detection systems
CN106776842A (zh) 多媒体数据检测方法及装置
CN106899440A (zh) 一种面向云计算的网络入侵检测方法及系统
CN116647411B (zh) 游戏平台网络安全的监测预警方法
CN112153002B (zh) 告警信息分析方法、装置、计算机设备和存储介质
CN107682317B (zh) 建立数据检测模型的方法、数据检测方法及设备
CN112016097B (zh) 一种预测网络安全漏洞被利用时间的方法
CN114124460B (zh) 工控系统入侵检测方法、装置、计算机设备及存储介质
CN109214444B (zh) 基于孪生神经网络和gmm的游戏防沉迷判定系统及方法
CN111957047A (zh) 关卡配置数据调整方法、计算机设备及存储介质
CN112668698A (zh) 一种神经网络的训练方法及系统
CN112791414A (zh) 外挂识别模型训练方法、装置、电子设备及存储介质
CN114581694A (zh) 一种基于改进的支持向量机的网络安全态势评估方法
Karanam et al. Intrusion detection mechanism for large scale networks using CNN-LSTM
CN114155397A (zh) 一种小样本图像分类方法及系统
Jia et al. Poisoning attacks on data-driven utility learning in games
CN113055384A (zh) 一种ssddqn的网络异常流量检测方法
CN116668198B (zh) 基于深度学习的流量回放测试方法、装置、设备及介质
CN117692242A (zh) 一种基于图谱分析的网络攻击路径分析方法
CN109934352B (zh) 智能模型的自动进化方法
CN112587932A (zh) 游戏外挂的检测方法、装置、电子设备及存储介质
CN111144243A (zh) 基于对抗学习的户型图识别方法和装置
CN113011893B (zh) 数据处理方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210727

RJ01 Rejection of invention patent application after publication