CN114520743A - 一种网络异常流量检测方法、系统及可存储介质 - Google Patents

一种网络异常流量检测方法、系统及可存储介质 Download PDF

Info

Publication number
CN114520743A
CN114520743A CN202210177461.0A CN202210177461A CN114520743A CN 114520743 A CN114520743 A CN 114520743A CN 202210177461 A CN202210177461 A CN 202210177461A CN 114520743 A CN114520743 A CN 114520743A
Authority
CN
China
Prior art keywords
network
actor
critic
training
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202210177461.0A
Other languages
English (en)
Inventor
董仕
夏元俊
丁新慧
张锦华
于来行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhoukou Normal University
Original Assignee
Zhoukou Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhoukou Normal University filed Critical Zhoukou Normal University
Priority to CN202210177461.0A priority Critical patent/CN114520743A/zh
Publication of CN114520743A publication Critical patent/CN114520743A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种网络异常流量检测方法、系统及可存储介质,涉及计算机网络安全技术领域。获取待检测网络流量数据,将其分为训练样本和测试样本;将训练样本输入多目标深度强化学习模型中对多个Actor‑Critic网络模型进行训练;分别采用策略梯度和损失函数对Actor网络和Critic网络参数进行更新,保存更新模型;通过该模型对网络流量测试样本进行测试,输出异常流量检测结果。本发明不依赖于高性能GPU,只需在CPU上就能快速训练预测,能够显著降低计算机资源。此外,本发明所构建的多目标深度强化学习模型不仅具有更好的收敛性,还能在高维度和连续动作空间上更有效的学习,提高网络异常流量检测效率以及准确率。

Description

一种网络异常流量检测方法、系统及可存储介质
技术领域
本发明涉及计算机网络安全技术领域,更具体的说是涉及一种网络异常流量检测方法、系统及可存储介质。
背景技术
随着互联网技术的飞速发展,当前P2P、流媒体、网络游戏以及各种移动互联网新应用等已占据网络流量的60%以上,同时新的业务也在持续增加,使得应用层协议也愈加复杂,网络异常流量对网络安全造成严重威胁。所以,在数据爆炸时代如何有效地进行网络管控、流量异常检测以及网络规划建设,是当前亟需解决的问题。异常流量检测技术作为网络安全防范的基础,已成为网络管理的重要技术手段。
但是,随着网络流量飞速增长给异常流量检测技术带来新的挑战,以往对于有限带宽下网络异常流量检测所面临的问题,已不再适合高速网络的应用场景。高速网络环境下的网络流量呈现高维性,普遍存在“维数灾难”的性质。高维数据中一些特征对有效的网络流量识别贡献不大,其中一些特征之间存在相关性,且高维数据导致很多机器学习算法的时空开销较大,一些算法因不同特征之间的相互干扰而性能急剧下降。为减少要处理的数据规模,提高高速网络下的数据处理能力,需要尽可能选择最能代表原始数据分布特征的最优特征子集,即进行特征选择。
然而,传统的特征选择算法和端口号检测等技术准确率降低,网络安全再度受到威胁,研究人员开始寻求新的解决方法。此外,流量样本的不均衡性特点更加明显,即大类的网络流数远超小类,部分类别的网络流数不足1%。然而大部分基于行为特征的机器学习算法都是假设各类别的流样本服从均匀分布,且以高的总体正确率为优化目标,导致所产生的异常检测模型偏向于对整体正确率贡献较大的大类流量而忽略了小类流量,如何解决由于流量样本不均衡性而带来的小样本流量检测精度较低的困境是高速网络亟待解决的问题之一。现有公开数据集十分有限,且人工标注成本较高,如何利用仅有的数据集样本实现检测精度的提升是值得探讨的问题。在已知标注样本集的前提下,异常流量可以在识别模型构建后完成样本的检测。然而对于未知异常流量的检测仍是目前该领域需要解决的问题,如何采用新技术解决异常流量检测领域的旧问题值得进一步研究。尽管传统机器学习算法已广泛用于流量识别和异常流量检测领域,然而随着移动终端等新型网络设备的激增,网络流量数据呈现爆炸性的增长,现有的机器学习识别技术已不能满足海量网络数据在线异常流量检测。
综上所述,传统的强化学习在离散情景下动作空间和样本空间较小。比较复杂的、更加接近实际情况的任务则往往有着很大的状态空间和连续的动作空间。当输入数据为图像或声音时,往往具有较高维度,传统的强化学习很难处理。此外,基于值的深度强化学习中主要面临以下两个问题:(1)难以处理连续的动作空间;(2)难以学习随机策略。基于策略的代表性算法Policy Gradient(PG)能够有效处理上两个问题,但该算法需要完整的状态序列,且需要同时单独对策略函数进行迭代更新,使得算法难以收敛。为了解决上述问题,研究人员将基于值和基于策略的强化学习方法结合起来,代表性算法有Actor-Critic(AC)。而AC在训练过程中极其不稳定,也存在着难以收敛的问题。
因此,如何提供一种网络异常流量检测方法、系统及可存储介质是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种网络异常流量检测方法、系统及可存储介质,采用深度强化学习和改进现有的机器学习算法使之适应于实时在线的异常流量检测,用以解决上述背景技术中提出的问题。
为了实现上述目的,本发明提供如下技术方案:
一方面,本发明提供一种网络异常流量检测方法,包括以下步骤:
S100:获取网络流量数据,并将所述网络流量数据划分为训练样本和测试样本;
S200:建立多目标深度强化学习模型,所述多目标深度强化学习模型包括i个Actor-Critic网络,其中所述Actor-Critic网络包括Actor网络及Critic网络,利用所述训练样本对所述多目标深度强化学习模型中的i个Actor-Critic网络模型进行训练,保存经验数据;
S300:根据所述经验数据对所述i个Actor-Critic网络模型参数进行更新,保存更新后的多目标深度强化学习模型;
S400:输入测试样本,加载更新后的多目标深度强化学习模型进行检测,输出网络异常流量检测结果。
优选的,所述S100包括:
所述训练样本包括:当前时刻流量特征集合S=(st,…,st+i,…,st+n)、当前时刻流量特征标签值集合A=(at,…,at+i,…,at+n)以及下一时刻流量特征集合S'=(st+1,…,st+1+i,…,st+n+1)。
优选的,所述S200包括:
S210:所述Actor网络包括Actor预测网络及Actor训练网络,所述Critic网络包括Critic预测网络及Critic训练网络,所述Actor预测网络接收当前时刻流量特征st,…,st+i,并通过其估计该时刻流量特征下的真实标签值at,…,at+i,然后采用策略πθ提供在给定流量特征下标签值的概率分布,并进行采样选择,在采样过程中首选最佳标签值
Figure BDA0003519470640000031
S220:通过对比最佳标签值
Figure BDA0003519470640000032
和真实标签值at,…,at+i来获得奖励值rt,…,rt+i
S230:所述Critic预测网络接收下一时刻流量特征st+1,…,st+1+i,并预测下一时刻的流量特征值Vt+1,…,Vt+1+i
S240:通过下一时刻的流量特征值Vt+1,…,Vt+1+i、奖励值rt,…,rt+i和衰减因子γ来计算值函数Rt,…,Rt+i,所述值函数Rt+i的计算方法如下:
Rt+i=rt+i+γ*Vt+1+i
S250:当前时刻的流量特征st,…,st+i通过所述Critic预测网络计算当前时刻流量特征值Vt,…,Vt+i,并与值函数Rt,…,Rt+i之间的差异来计算优势值At,…,At+i,所述优势值At+i的计算方式如下:
At+i=Rt+i-Vt+i
S260:将当前时刻的流量特征st,…,st+i输入到所述Actor训练网络中进行训练,并采用策略网络来提供给定流量特征下标签值的概率分布πθ(at),…,πθ(at+i);
S270:通过概率分布πθ(at),…,πθ(at+i)与最佳流量标签值
Figure BDA0003519470640000041
计算该标签值的概率分布
Figure BDA0003519470640000042
优选的,所述S300包括:
S310:采用策略梯度对所述Actor网络进行参数更新,并通过损失函数对所述Critic网络进行参数更新;
S320:保存更新后的模型。
优选的,所述S310中,利用策略梯度更新Actor训练网络,并定期将网络参数复制给Actor预测网络,具体过程使用下列公式:
Figure BDA0003519470640000043
Figure BDA0003519470640000044
其中,Lactor为Actor训练网络的损失函数,n为样本数量,θ为Actor训练网络参数,πθ为随机策略,α为学习率。
优选的,所述S310中,利用损失函数更新Critic训练网络,并定期将网络参数复制给Critic预测网络,具体过程使用下列公式:
Figure BDA0003519470640000045
Figure BDA0003519470640000046
其中,Lcritic为Critic训练网络的损失函数,n为样本数量,ω为Critic预测网络参数,α为学习率。
另一方面,本发明提供了一种网络异常流量检测系统,包括:
获取模块,用于获取网络流量数据,并将所述网络流量数据划分为训练样本和测试样本;
建立模块,与所述获取模块连接,用于建立多目标深度强化学习模型,所述多目标深度强化学习模型包括i个Actor-Critic网络,利用所述训练样本对所述多目标深度强化学习模型中的i个Actor-Critic网络模型进行训练,保存经验数据;
更新模块,与所述建立模块连接,用于根据所述经验数据对所述i个Actor-Critic网络模型参数进行更新,保存更新后的多目标深度强化学习模型;
检测模块,与所述获取模块与所述更新模块连接,用于将测试样本输入至更新后的多目标深度强化学习模型中进行检测,输出网络异常流量检测结果。
再一方面,本发明还提供了一种计算机可读存储介质,其上面存储有计算机程序,所述程序被处理器执行时实现如上所述的网络异常流量检测方法。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种网络异常流量检测方法、系统及可存储介质,通过多个智能体通过学习多个目标流量特征,所获得的经验数据整合在一起再更新局部智能体。本发明的多目标深度强化学习模型,采用简单快速的策略和值函数,并采用浅层的神经网络,使其不依赖于高性能GPU,只需在CPU上就能快速训练预测,能够显著降低计算机资源。此外,本发明的多目标深度强化学习模型多目标深度强化学习模型不仅具有更好的收敛性,还能在高维度和连续动作空间上更有效的学习,提高了网络异常流量检测效率以及准确率,与现有技术相比,其有益效果如下:
(1)本发明中的多目标深度强化学习模型结合浅层的神经网络、不用区分的奖励函数以及随机性策略,使其不仅能处理高维流量数据,还能提高智能体训练过程中的稳定性和训练后的鲁棒性。
(2)本发明采用多智能体同步训练,同时更新的方法可以增加对少量异常流量的抽样频率,从而提高异常流量的检测准确率。
(3)本发明基于Actor-Critic网络模型提出了一种多目标深度强化学习方法,通过多个智能体通过学习多个目标流量特征,所获得的经验数据整合在一起再更新局部智能体。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种网络异常流量检测方法的流程示意图;
图2为本实施例提供的一种网络异常流量检测系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一方面,参见附图1所示,本发明实施例公开了一种网络异常流量检测方法,具体包括一下步骤:
首先,获取网络流量数据,并将网络流量数据划分为训练样本和测试样本;
具体的,本发明采用公开并著名的数据集NSL-KDD,因为NSL-KDD数据集中正常流量占比53.46%,最不频繁的攻击流量占比0.04%,正是由于这种数据集各类别间大小不均衡性,且存在未知攻击,更能体现该发明具有检测未知攻击的能力,并提升检测准确率的性能。
在一个具体实施例中,通过对NSL-KDD数据集训练样本小批量采样,为了将深度强化学习中的元素同化到异常流量检测当中去,将网络流量数据中的流量特征视为状态,流量特征标签值视为动作,采样样本包含当前时刻流量特征集合S=(st,…,st+i,…,st+n)、当前时刻流量真实标签值集合A=(at,…,at+i,…,at+n),下一时刻流量特征集合S'=(st+1,…,st+1+i,…,st+n+1)。
在一个具体实施例中,建立多目标深度强化学习模型,多目标深度强化学习模型包括i个Actor-Critic网络,其中,Actor网络包括Actor预测网络及Actor训练网络,Critic网络包括Critic预测网络及Critic训练网络,利用训练样本对多目标深度强化学习模型中的i个Actor-Critic网络模型进行训练,保存经验数据。
具体的,经验数据包括:当前时刻i个智能体的流量特征集合、当前时刻i个智能体的奖励值集合、当前时刻i个智能体的标签值集合和下一时刻i个智能体的流量特征集合。
将当前时刻的流量特征st,…,st+i输入到i个Actor-Critic网络模型中的Actor网络中,使用策略网络来估计该时刻流量特征下的真实标签值at,…,at+i。然后,采用策略πθ提供在给定流量特征下标签值的概率分布,并进行采样选择,在采样过程中首选最佳标签值
Figure BDA0003519470640000071
在一个具体通过对比最佳标签值
Figure BDA0003519470640000072
和真实标签值at,…,at+i的值来获得奖励值rt,…,rt+i,如果最佳标签值和真实标签值一致,获得奖励,否则,不获得奖励。获得奖励的过程采用0/1奖励函数,获得奖励,奖励为1;否则,奖励为0。
更具体的,多目标深度强化学习模型中的智能体不再与环境交互,因此,下一时刻流量特征st+1,…,st+1+i不是与环境交互产生,而是由数据集直接提供。多目标深度强化学习模型中的i个Actor-Critic网络模型中的Critic预测网络接收下一时刻流量特征st+1,…,st+1+i,通过神经网络预测下一时刻的流量特征值Vt+1,…,Vt+1+i。通过下一时刻的流量特征值Vt+1,…,Vt+1+i、奖励值rt,…,rt+i和衰减因子γ来计算值函数Rt,…,Rt+i。当前时刻的流量特征st+1,…,st+1+i通过Critic训练网络计算当前时刻流量特征值Vt,…,Vt+i,并与值函数Rt,…,Rt+i之间的差异来计算优势值At,…,At+i。最后,计算损失函数更新Critic网络参数。
在一个具体实施例中,将当前时刻的流量特征st,…,st+i输入到i个Actor-Critic网络模型中的Actor网络中进行训练,并采用策略网络来提供给定流量特征下标签值的概率分布πθ(at),…,πθ(at+i)。通过概率分布与最佳流量标签值
Figure BDA0003519470640000073
计算该标签值的概率分布
Figure BDA0003519470640000074
最后,采用策略梯度方法更新Actor网络参数。
在一个具体实施例中,分别采用策略梯度和损失函数对Actor-Critic中的Actor和Critic网络参数更新,多目标深度强化学习模型训练完成后,保存更新后的模型。
具体的,利用策略梯度更新Actor训练网络,并定期将网络参数复制给Actor预测网络,具体过程使用下列公式:
Figure BDA0003519470640000081
Figure BDA0003519470640000082
其中,Lactor为Actor训练网络的损失函数,n为样本数量,θ为Actor训练网络参数,πθ为随机策略,α为学习率。
具体的,利用损失函数更新Critic训练网络,并定期将网络参数复制给Critic预测网络,具体过程使用下列公式:
Figure BDA0003519470640000083
Figure BDA0003519470640000084
其中,Lcritic为Critic训练网络的损失函数,n为样本数量,ω为Critic预测网络参数,α为学习率。
在一个具体实施例中,输入NSL-KDD数据集的测试样本,加载训练模型进行网络异常流量检测,最终输出网络异常流量检测结果。
另一方面,参见附图2所示,本发明实施例公开了一种网络异常流量检测系统,具体包括:
获取模块,用于获取网络流量数据,并将网络流量数据划分为训练样本和测试样本;
建立模块,与获取模块连接,用于建立多目标深度强化学习模型,多目标深度强化学习模型包括多个Actor-Critic网络,利用训练样本对多目标深度强化学习模型中的i个Actor-Critic网络模型进行训练,保存经验数据;
更新模块,与建立模块连接,用于根据经验数据对i个Actor-Critic网络模型参数进行更新,保存更新后的多目标深度强化学习模型;
检测模块,与获取模块与更新模块连接,用于将测试样本输入至更新后的多目标深度强化学习模型中进行检测,输出网络异常流量检测结果。
再一方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,程序被处理器执行时实现上述的网络异常流量检测方法。
使用多目标深度强化学习模型与不同的机器学习模型进行全面对比实验,深度学习(Deep Learning,DL)选择多层感知机(Multi-layer Perceptron,MLP)、一维卷积神经网络(One-dimensional Convolutional Neural Network,1D-CNN),深度强化学习(DeepReinforcement Learning,DRL)选择Double Deep Q-Network(DDQN)和Dueling Deep Q-Network(Dueling DQN)。
本实施例使用整个NSL-KDD数据集进行五分类实验,具体的实验结果由表1所示:
表1实验结果
Figure BDA0003519470640000091
从表1可以看出,多目标深度强化学习模型取得了较优值,且在准确率、召回率和F1值指标方面均优于其他对比模型。
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种网络异常流量检测方法、系统及可存储介质,通过多个智能体通过学习多个目标流量特征,所获得的经验数据整合在一起再更新局部智能体。本发明的多目标深度强化学习模型,采用简单快速的策略和值函数,并采用浅层的神经网络,使其不依赖于高性能GPU,只需在CPU上就能快速训练预测,能够显著降低计算机资源。此外,本发明的多目标深度强化学习模型多目标深度强化学习模型不仅具有更好的收敛性,还能在高维度和连续动作空间上更有效的学习,并能提高网络异常流量检测效率以及准确率,与现有技术相比,其有益效果如下:
(1)本发明中的多目标深度强化学习模型结合浅层的神经网络、不用区分的奖励函数以及随机性策略,使其不仅能处理高维流量数据,还能提高智能体训练过程中的稳定性和训练后的鲁棒性。
(2)本发明采用多智能体同步训练并更新的方法可以增加对少量异常流量的抽样频率,从而提高异常流量的检测准确率。
(3)本发明基于Actor-Critic网络模型提出了一种多目标深度强化学习方法,通过多个智能体通过学习多个目标流量特征,所获得的经验数据整合在一起再更新局部智能体。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (8)

1.一种网络异常流量检测方法,其特征在于,包括以下步骤:
S100:获取网络流量数据,并将所述网络流量数据划分为训练样本和测试样本;
S200:建立多目标深度强化学习模型,所述多目标深度强化学习模型包括i个Actor-Critic网络,其中所述Actor-Critic网络包括Actor网络及Critic网络,利用所述训练样本对所述多目标深度强化学习模型中的i个Actor-Critic网络模型进行训练,保存经验数据;
S300:根据所述经验数据对所述i个Actor-Critic网络模型参数进行更新,保存更新后的多目标深度强化学习模型;
S400:输入测试样本,加载更新后的多目标深度强化学习模型进行检测,输出网络异常流量检测结果。
2.根据权利要求1所述的一种网络异常流量检测方法,其特征在于,所述S100包括:
所述训练样本包括:当前时刻流量特征集合S=(st,…,st+i,…,st+n)、当前时刻流量特征标签值集合A=(at,…,at+i,…,at+n)以及下一时刻流量特征集合S'=(st+1,…,st+1+i,…,st+n+1)。
3.根据权利要求2所述的一种网络异常流量检测方法,其特征在于,所述S200包括:
S210:所述Actor网络包括Actor预测网络及Actor训练网络,所述Critic网络包括Critic预测网络及Critic训练网络,所述Actor预测网络接收当前时刻流量特征st,…,st+i,并通过其估计该时刻流量特征下的真实标签值at,…,at+i,然后采用策略πθ提供在给定流量特征下标签值的概率分布,并进行采样选择,在采样过程中首选最佳标签值
Figure FDA0003519470630000011
S220:通过对比最佳标签值
Figure FDA0003519470630000012
和真实标签值at,…,at+i来获得奖励值rt,…,rt+i
S230:所述Critic预测网络接收下一时刻流量特征st+1,…,st+1+i,并预测下一时刻的流量特征值Vt+1,…,Vt+1+i
S240:通过下一时刻的流量特征值Vt+1,…,Vt+1+i、奖励值rt,…,rt+i和衰减因子γ来计算值函数Rt,…,Rt+i,所述值函数Rt+i的计算方法如下:
Rt+i=rt+i+γ*Vt+1+i
S250:当前时刻的流量特征st,…,st+i通过所述Critic预测网络计算当前时刻流量特征值Vt,…,Vt+i,并与值函数Rt,…,Rt+i之间的差异来计算优势值At,…,At+i,所述优势值At+i的计算方式如下:
At+i=Rt+i-Vt+i
S260:将当前时刻的流量特征st,…,st+i输入到所述Actor训练网络中进行训练,并采用策略网络来提供给定流量特征下标签值的概率分布πθ(at),…,πθ(at+i);
S270:通过概率分布πθ(at),…,πθ(at+i)与最佳流量标签值
Figure FDA0003519470630000021
计算该标签值的概率分布
Figure FDA0003519470630000022
4.根据权利要求3所述的一种网络异常流量检测方法,其特征在于,所述S300包括:
S310:采用策略梯度对所述Actor网络进行参数更新,并通过损失函数对所述Critic网络进行参数更新;
S320:保存更新后的模型。
5.根据权利要求3所述的一种网络异常流量检测方法,其特征在于,所述S310中,利用策略梯度更新Actor训练网络,并定期将网络参数复制给Actor预测网络,具体过程使用下列公式:
Figure FDA0003519470630000023
其中,Lactor为Actor训练网络的损失函数,n为样本数量,θ为Actor训练网络参数,πθ为随机策略,α为学习率。
6.根据权利要求3所述的一种网络异常流量检测方法,其特征在于,所述S310中,利用损失函数更新Critic训练网络,并定期将网络参数复制给Critic预测网络,具体过程使用下列公式:
Figure FDA0003519470630000024
Figure FDA0003519470630000025
其中,Lcritic为Critic训练网络的损失函数,n为样本数量,ω为Critic预测网络参数,α为学习率。
7.一种网络异常流量检测系统,其特征在于,包括:
获取模块,用于获取网络流量数据,并将所述网络流量数据划分为训练样本和测试样本;
建立模块,与所述获取模块连接,用于建立多目标深度强化学习模型,所述多目标深度强化学习模型包括i个Actor-Critic网络,利用所述训练样本对所述多目标深度强化学习模型中的i个Actor-Critic网络模型进行训练,保存经验数据;
更新模块,与所述建立模块连接,用于根据所述经验数据对所述i个Actor-Critic网络模型参数进行更新,保存更新后的多目标深度强化学习模型;
检测模块,与所述获取模块与所述更新模块连接,用于将测试样本输入至更新后的多目标深度强化学习模型中进行检测,输出网络异常流量检测结果。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任意一项所述的网络异常流量检测方法。
CN202210177461.0A 2022-02-24 2022-02-24 一种网络异常流量检测方法、系统及可存储介质 Withdrawn CN114520743A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210177461.0A CN114520743A (zh) 2022-02-24 2022-02-24 一种网络异常流量检测方法、系统及可存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210177461.0A CN114520743A (zh) 2022-02-24 2022-02-24 一种网络异常流量检测方法、系统及可存储介质

Publications (1)

Publication Number Publication Date
CN114520743A true CN114520743A (zh) 2022-05-20

Family

ID=81599206

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210177461.0A Withdrawn CN114520743A (zh) 2022-02-24 2022-02-24 一种网络异常流量检测方法、系统及可存储介质

Country Status (1)

Country Link
CN (1) CN114520743A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115514614A (zh) * 2022-11-15 2022-12-23 阿里云计算有限公司 基于强化学习的云网络异常检测模型训练方法及存储介质
CN116452621A (zh) * 2023-03-10 2023-07-18 广州市易鸿智能装备有限公司 一种基于强化学习的理想轮廓生成算法、装置及存储介质
CN117077065A (zh) * 2023-10-16 2023-11-17 南京文道自动化系统有限公司 高压直流输电接地极检测与预警方法及系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115514614A (zh) * 2022-11-15 2022-12-23 阿里云计算有限公司 基于强化学习的云网络异常检测模型训练方法及存储介质
CN115514614B (zh) * 2022-11-15 2023-02-24 阿里云计算有限公司 基于强化学习的云网络异常检测模型训练方法及存储介质
WO2024104401A1 (zh) * 2022-11-15 2024-05-23 杭州阿里云飞天信息技术有限公司 基于强化学习的云网络异常检测模型训练方法及存储介质
CN116452621A (zh) * 2023-03-10 2023-07-18 广州市易鸿智能装备有限公司 一种基于强化学习的理想轮廓生成算法、装置及存储介质
CN116452621B (zh) * 2023-03-10 2023-12-15 广州市易鸿智能装备有限公司 一种基于强化学习的理想轮廓生成算法、装置及存储介质
CN117077065A (zh) * 2023-10-16 2023-11-17 南京文道自动化系统有限公司 高压直流输电接地极检测与预警方法及系统
CN117077065B (zh) * 2023-10-16 2024-01-26 南京文道自动化系统有限公司 高压直流输电接地极检测与预警方法及系统

Similar Documents

Publication Publication Date Title
CN114520743A (zh) 一种网络异常流量检测方法、系统及可存储介质
CN112181666A (zh) 一种基于边缘智能的设备评估和联邦学习重要性聚合方法、系统、设备和可读存储介质
Qi et al. Deep face clustering using residual graph convolutional network
CN110458084B (zh) 一种基于倒置残差网络的人脸年龄估计方法
CN111382868A (zh) 神经网络结构搜索方法和神经网络结构搜索装置
CN111079780A (zh) 空间图卷积网络的训练方法、电子设备及存储介质
Fazzolari et al. A study on the application of instance selection techniques in genetic fuzzy rule-based classification systems: Accuracy-complexity trade-off
CN113158554B (zh) 模型优化方法、装置、计算机设备及存储介质
CN113128671B (zh) 一种基于多模态机器学习的服务需求动态预测方法及系统
CN112436992B (zh) 基于图卷积网络的虚拟网络映射方法及装置
CN110163262A (zh) 模型训练方法、业务处理方法、装置、终端及存储介质
CN116596095B (zh) 基于机器学习的碳排放量预测模型的训练方法及装置
CN115860081B (zh) 一种芯粒算法调度方法、系统、电子设备及存储介质
WO2023071592A1 (zh) 面向超大搜索空间的网络结构搜索方法、系统及介质
CN113568954A (zh) 网络流量预测数据预处理阶段的参数最优化方法及系统
Peng et al. Pi-nas: Improving neural architecture search by reducing supernet training consistency shift
Huang et al. Adaptive resource prefetching with spatial–temporal and topic information for educational cloud storage systems
WO2022100607A1 (zh) 一种神经网络结构确定方法及其装置
Meirom et al. Optimizing tensor network contraction using reinforcement learning
Yang et al. Efficient knowledge management for heterogeneous federated continual learning on resource-constrained edge devices
CN108427773B (zh) 一种分布式知识图谱嵌入方法
CN113779287B (zh) 基于多阶段分类器网络的跨域多视角目标检索方法及装置
Li et al. An imbalanced ensemble learning method based on dual clustering and stage-wise hybrid sampling
CN112417224B (zh) 一种基于熵驱动的随机游走的图嵌入方法及系统
CN115219910A (zh) 一种电池余量预测误差的分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20220520