CN114374541A - 一种基于强化学习的异常网络流量检测器生成方法 - Google Patents

一种基于强化学习的异常网络流量检测器生成方法 Download PDF

Info

Publication number
CN114374541A
CN114374541A CN202111545423.8A CN202111545423A CN114374541A CN 114374541 A CN114374541 A CN 114374541A CN 202111545423 A CN202111545423 A CN 202111545423A CN 114374541 A CN114374541 A CN 114374541A
Authority
CN
China
Prior art keywords
reinforcement learning
network traffic
model
network
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111545423.8A
Other languages
English (en)
Inventor
方智阳
王俊峰
耿嘉炫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202111545423.8A priority Critical patent/CN114374541A/zh
Publication of CN114374541A publication Critical patent/CN114374541A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于强化学习的异常网络流量检测器生成方法,涉及网络与信息安全技术领域,包括网络流量样本获取步骤、智能模型设置步骤、强化学习模型构建步骤、特征集合选择步骤、检测评价步骤以及检测器生成步骤采用强化学习算法,模拟信息安全专家选择流量特征生成异常网络流量检测器过程,设计对应的强化学习交互环境。通过智能体不断地与环境交互,智能体从原始流量特征集合中选出高区分度的流量特征,最终将所选特征用于基于机器学习方法的异常网络流量检测器训练,最终实现对异常流量的高精度、高响应检测。

Description

一种基于强化学习的异常网络流量检测器生成方法
技术领域
本发明涉及网络与信息安全技术领域,确切地说涉及一种基于强化学习的异常网络流量检测器生成方法。
背景技术
近20年来,我国计算机网络技术不断蓬勃发展,人们的生产与生活方式逐渐受到各类互联网应用的影响。中国互联网络信息中心发布的第47次《中国互联网络发展状况统计报告》中指出,截止2020年底我国网民规模已经达到了9.89亿,互联网普及率则达到了70.4%。此外,物联网和人工智能的迅猛发展也使得各种类型的网络设备甚至是智能设备接入互联网。
然而,互联网在给人们带来便利的同时,也给人们带来了一定的负面影响。根据《2020年我国互联网网络安全态势综述》显示,2020年CNCERT处置网络安全事件约10.3万起。现如今,针对我国境内网站的境外攻击、控制事件不断增加,每年CNCERT捕获计算机恶意程序样本数量约为4,200万个,日均传播次数高达约482万次;中国境内受攻击的IP地址约5,541万个,约占我国活IP地址总数的14.2%;位于境外的约5.2万个计算机恶意程序控制服务器控制了我国境内约531万台主机,以网络为主要传播途径的恶意软件不断地利用网络开展攻击,我国网络攻击事件发生的频率呈总体上升的趋势。因此,为了应对频发的网络攻击,需要有正确且有效的理论方法作为相应指导,为了解决当前所面临的问题,需要去深入了解和分析网络攻击是如何产生并造成威胁的,而网络流量作为网络攻击中的一种重要载体,对其进行研究具有极其重大的意义。
异常网络流量检测器作为网络空间中较为有效的网络流量分析工具之一,有望抵御潜在的攻击者并保护网络空间的安全。其主要功能是监视流经设备的网络流量,以捕获潜在的异常活动并阻止来自潜在攻击者的异常流量。在检测的场景中,异常网络流量检测器的基本目标是从巨大的网络流量中识别异常流量。更进一步,异常网络流量可以分为四类攻击类型,例如DoS,Probe,U2R和R2L。
目前,异常网络流量检测器主要采用基于启发式的方法构建。启发式方法主要包括了基于监督学习的机器学习方法或者是深度学习方法,然而,基于监督学习的机器学习方法需要从网络流量样本中提取特征并训练检测器,而依靠专家知识和领域经验提取的特征并非一定是准确的,过多的特征也会导致异常网络流量检测器无法快速地鉴别异常行为,此外,穷尽流量特征子集与训练算法的组合是不切实际的;进一步的,许多设计人员倾向于在构造异常网络流量检测器时更专注于检测的准确性,却忽略了某些其它的检测成果指标,然而,这导致了所构建的恶意流量检测器在误警率和漏警率方面的性能较差,可这二者对于模型的性能而言是同样重要的。
同样的,基于深度学习方法所构建的异常网络流量检测器虽然有较高的检测准确率,但是其检测过程相比于基于机器学习方法所生成的检测器更为耗时。
因此,现在亟需一种可行、新颖,并且更为可靠的异常网络流量检测器生成方法。
发明内容
本发明目的在于针对上述问题,提供一种具备快速并准确识别异常网络流量能力的、基于机器学习方法的异常网络流量检测器生成方法。
本发明提供的这一种基于强化学习的异常网络流量检测器生成方法,包括网络流量样本获取步骤、智能模型设置步骤、强化学习模型构建步骤、特征集合选择步骤、检测评价步骤以及检测器生成步骤;
所述网络流量样本获取步骤,获取包含正常网络流量和异常网络流量的网络流量样本,并对网络流量样本进行预处理,使网络流量样本中的正常网络流量和异常网络流量均为归一化的数字特征,即获得明确已知含且能够区分的正常网络流量和异常网络流量的数据对象作为模型训练、学习、评价时的标准库。
优选地,所述网络流量样本获取步骤中,异常网络流量的类型包括DoS、Probe、U2R和R2L中的一种或者多种。
进一步的,所述网络流量样本获取步骤中,对网络流量样本进行预处理,具体的,是对网络流量样本中的非数字特征进行数字化操作,然后对所有数字特征进行归一化处理,通过预处理将所有的数据特征全部转换为便于智能模型识别和学习的二进制表达形式。
所述智能模型设置步骤,初始化智能模型,可根据先验阈值参数体系设置智能模型强化学习的环境、动作空间与状态空间,智能模型本身可以有多种的选择,AI模型等均可采用,而不同的模型选择则需要根据需求对应设置参数体系和具体参数,其中,所述环境中包括含有若干种可调用的机器学习算法的算法池,即存在一批量的可供模型选用调用的机器学习算法;设定对智能模型的奖励函数,并通过所述智能模型从环境中的算法池从环境中的算法池选取一种机器学习算法。
优选地,所述智能模型设置步骤中,环境中算法池所包含的机器学习算法至少包括随机森林(RF)算法、KNN(K近邻)算法、决策树(DT)算法、朴素贝叶斯(NB)算法、人工神经网络(ANN)算法、支持向量机(SVM)、AdaBoost算法和装袋(Bagging)算法。
进一步的,所述智能模型设置步骤中,奖励函数为
Figure BDA0003415691390000031
其中,ωa、ωp以及ωr为对应的权重系数,而ra、rp以及rr分别代表了异常流量检测器的检测准确率、精确率以及召回率的奖励值分量,即,根据模型识别对象以及数据复杂程度、结果需求偏好等,可以通过权重系数的调整来适配,而奖励分值这是基于本申请这种特定环境和目的设计的评分体系,根据这个体系,可以将模型的测试结果转换为直观的、量化的结论进行评比选择。
更为优选地,所述权重系数ωa、ωp以及ωr的取值分别为0.4、0.3以及0.3。
更进一步的,所述异常流量检测器的检测准确率ra、精确率rp以及召回率rr的奖励值分量的取值为:
Figure BDA0003415691390000032
其中,prea,p,r表示使用上一轮次中智能体选择的特征生成的恶意流量检测器所能获得的准确率、精确率和召回率。
所述强化学习模型构建步骤,选择至少包含两个前馈深度Q网络的Deep Q-Learning网络作为强化学习模型并初始化其超参数;其中一个前馈深度Q网络用于训练所述智能模型进行强化学习,另一个用于输出Q值指导所述智能模型做出决策,
优选地,所述强化学习模型构建步骤中,所述前馈深度Q网络的结构一致,每个前馈深度Q网络均包含输入层、输出层以及两个隐藏层;其中,第一个隐藏层含有128个神经元,第二个隐藏层含有64个神经元,神经元的激活函数均为ReLU激活函数,同时还加入了防止模型过拟合的Dropout机制,所述输出层含有41个输出值,对应的,所述动作空间的41个动作。
更为优选地,所述强化学习模型的超参数初始化的设定如下:
折扣系数gamma=0.99;
Q-Learning网络的更新间隔为5轮次更新一次;
单次输入网络的最小样本数量为16个;
采用经验回放机制,经验回放池的大小为50000;
开始采用经验回放机制的时机为算法执行了200轮次以后;
采用探索和利用策略,一开始探索参数为1,终止条件为0.3。
所述特征集合选择步骤,在所述强化学习模型构建步骤中得到强化学习模型的指导下、通过所述智能模型设置步骤的智能模型从原始网络流量的特征集中选取一个特征,并纳入已选特征集合;
进一步的,所述特征集合选择步骤中,是通过对强化学习模型中用于指导所述智能模型做出决策的前馈深度Q网络的输出Q值进行修改,来防止智能模型从原始网络流量的特征集中重复选取同一个特征。
所述检测评价步骤,基于所述特征集合选择步骤中的特征集合,通过所述强化学习模型构建步骤中得到的强化学习模型对所述智能模型设置步骤的智能模型进行强化学习训练生成备选异常网络流量检测器,并利用所述网络流量样本对备选异常网络流量对备选异常网络流量检测器进行测试获取评价指标、并革根据所述智能模型设置步骤中的奖励函数计算得到奖励;
进一步的,所述检测评价步骤中,所评价指标包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)、误警率(False Alarm Rate)、漏警率(Miss Alarm Rate)和单流量样本检测率(Test Time Per Sample)。
更为优选地,所述检测评价步骤中,利用所述网络流量样本对备选异常网络流量对备选异常网络流量检测器进行测试过程中,将所得到的当前的状态、当前的动作以及奖励反馈给智能模型,如果已经达到终止状态,即智能模型所选特征数量已达设置上限,则进入下一轮次的训练,否则跳转至所述特征集合选择步骤继续进行特征选取。
所述检测器生成步骤,当检测评价步骤中的备选异常网络流量检测器到达设定的训练轮次时,对所有备选异常网络流量检测器对应的智能模型进行评估,获得所有智能模型中最优流量特征子集所对应的机器学习算法,并生成最终的异常网络流量检测器。
有益效果
与现有技术相比,本发明的有益效果是:
本方法采用强化学习算法,模拟信息安全专家选择流量特征生成异常网络流量检测器过程,设计对应的强化学习交互环境。通过智能体不断地与环境交互,智能体从原始流量特征集合中选出高区分度的流量特征,最终将所选特征用于基于机器学习方法的异常网络流量检测器训练,最终实现对异常流量的高精度、高响应检测。
本发明方法与其他的异常网络流量检测器生成方法相比,更易于实现且无需人工选择流量特征;本发明中基于强化学习的异常网络流量检测器生成方法,对于不同的流量数据集以及不同的初始流量特征,都能自动、有效地选择出高区分度的流量特征,最终生成高性能的异常网络流量检测器;所生成的检测器足够轻量,具备快速并准确识别异常网络流量的能力,同时有较低的误警率和漏警率。
附图说明
本发明的前述和下文具体描述在结合以下附图阅读时变得更清楚,其中:
图1是基于强化学习的异常网络流量检测器生成框架图;
图2是训练过程中奖励值随训练过程变化趋势图;
图3是强化学习智能体所采用的DQN网络结构图;
图4是强化学习智能体训练过程中的决策过程图。
具体实施方式
下面通过具体的实施例来进一步说明实现本发明目的技术方案,需要说明的是,本发明要求保护的技术方案包括但不限于以下实施例。
实施例1
作为本发明一种最基本的实施方案,本实施例提供的这一种基于强化学习的异常网络流量检测器生成方法,包括网络流量样本获取步骤、智能模型设置步骤、强化学习模型构建步骤、特征集合选择步骤、检测评价步骤以及检测器生成步骤,采用强化学习算法,模拟信息安全专家选择流量特征生成异常网络流量检测器过程,设计对应的强化学习交互环境。通过智能体不断地与环境交互,智能体从原始流量特征集合中选出高区分度的流量特征,最终将所选特征用于基于机器学习方法的异常网络流量检测器训练,最终实现对异常流量的高精度、高响应检测。
具体的,如图1所示:
所述网络流量样本获取步骤,获取包含正常网络流量和异常网络流量的网络流量样本,并对网络流量样本进行预处理,使网络流量样本中的正常网络流量和异常网络流量均为归一化的数字特征,其中,异常网络流量的类型包括DoS、Probe、U2R和R2L中的一种或者多种,即获得明确已知含且能够区分的正常网络流量和异常网络流量的数据对象作为模型训练、学习、评价时的标准库。
所述智能模型设置步骤,初始化智能模型,可根据先验阈值参数体系设置智能模型强化学习的环境、动作空间与状态空间,智能模型本身可以有多种的选择,AI模型等均可采用,而不同的模型选择则需要根据需求对应设置参数体系和具体参数,其中,所述环境中包括含有若干种可调用的机器学习算法的算法池,即存在一批量的可供模型选用调用的机器学习算法;设定对智能模型的奖励函数,并通过所述智能模型从环境中的算法池从环境中的算法池选取一种机器学习算法。
所述强化学习模型构建步骤,如图3所示,选择至少包含两个前馈深度Q网络的Deep Q-Learning网络作为强化学习模型并初始化其超参数;其中一个前馈深度Q网络用于训练所述智能模型进行强化学习,另一个用于输出Q值指导所述智能模型做出决策。DeepQ-Learning网络是结合了神经网络的Q-Learning方法,Deep Q-Learning(DQN),通过在探索的过程中训练网络,最后所达到的目标就是将当前状态输入,得到的输出就是对应它的动作值函数,也即f(s)=q(s,a),这个f就是训练的网络,这个动作值函数就可以作为训练和指导智能模型进行异常识别的可控工具。
所示检测评价步骤,基于所述特征集合选择步骤中的特征集合,如图4,通过所述强化学习模型构建步骤中得到的强化学习模型对所述智能模型设置步骤的智能模型进行强化学习训练生成备选异常网络流量检测器,并利用所述网络流量样本对备选异常网络流量对备选异常网络流量检测器进行测试获取评价指标、并革根据所述智能模型设置步骤中的奖励函数计算得到奖励。
所示检测器生成步骤,当检测评价步骤中的备选异常网络流量检测器到达设定的训练轮次时,对所有备选异常网络流量检测器对应的智能模型进行评估,获得所有智能模型中最优流量特征子集所对应的机器学习算法,并生成最终的异常网络流量检测器。
本发明方法与其他的异常网络流量检测器生成方法相比,更易于实现且无需人工选择流量特征;本发明中基于强化学习的异常网络流量检测器生成方法,对于不同的流量数据集以及不同的初始流量特征,都能自动、有效地选择出高区分度的流量特征,最终生成高性能的异常网络流量检测器;所生成的检测器足够轻量,具备快速并准确识别异常网络流量的能力,同时有较低的误警率和漏警率。
实施例2
作为本发明一种优选地实施方案,本实施例提供的这一种基于强化学习的异常网络流量检测器生成方法,包括网络流量样本获取步骤、智能模型设置步骤、强化学习模型构建步骤、特征集合选择步骤、检测评价步骤以及检测器生成步骤,采用强化学习算法,模拟信息安全专家选择流量特征生成异常网络流量检测器过程,设计对应的强化学习交互环境。通过智能体不断地与环境交互,智能体从原始流量特征集合中选出高区分度的流量特征,最终将所选特征用于基于机器学习方法的异常网络流量检测器训练,最终实现对异常流量的高精度、高响应检测。
具体的,如图1所示:
所述网络流量样本获取步骤,获取包含正常网络流量和异常网络流量的网络流量样本,并对网络流量样本进行预处理,将网络流量样本中的非数字特征进行数字化操作,然后对所有数字特征进行归一化处理,使网络流量样本中的正常网络流量和异常网络流量均为归一化的数字特征,其中,异常网络流量的类型包括DoS、Probe、U2R和R2L中的一种或者多种,即获得明确已知含且能够区分的正常网络流量和异常网络流量的数据对象作为模型训练、学习、评价时的标准库。
所述智能模型设置步骤,初始化智能模型,可根据先验阈值参数体系设置智能模型强化学习的环境、动作空间与状态空间,智能模型本身可以有多种的选择,AI模型等均可采用,而不同的模型选择则需要根据需求对应设置参数体系和具体参数,其中,所述环境中包括含有若干种可调用的机器学习算法的算法池,机器学习算法至少包括随机森林(RF)算法、KNN(K近邻)算法、决策树(DT)算法、朴素贝叶斯(NB)算法、人工神经网络(ANN)算法、支持向量机(SVM)、AdaBoost算法和装袋(Bagging)算法。
并且设定对智能模型的奖励函数
Figure BDA0003415691390000081
其中,ωa、ωp以及ωr为对应的权重系数,取值分别为0.4、0.3以及0.3;而ra、rp以及rr分别代表了异常流量检测器的检测准确率、精确率以及召回率的奖励值分量,其取值为:
Figure BDA0003415691390000082
其中,prea,p,r表示使用上一轮次中智能体选择的特征生成的恶意流量检测器所能获得的准确率、精确率和召回率。
并通过所述智能模型从环境中的算法池从环境中的算法池选取一种机器学习算法。
所述强化学习模型构建步骤,如图3所示,选择至少包含两个前馈深度Q网络的Deep Q-Learning网络作为强化学习模型并初始化其超参数,Deep Q-Learning网络是结合了神经网络的Q-Learning方法,Deep Q-Learning(DQN),通过在探索的过程中训练网络,最后所达到的目标就是将当前状态输入,得到的输出就是对应它的动作值函数,也即f(s)=q(s,a),这个f就是训练的网络,这个动作值函数就可以作为训练和指导智能模型进行异常识别的可控工具;两个前馈深度Q网络,一个前馈深度Q网络用于训练所述智能模型进行强化学习,另一个用于输出Q值指导所述智能模型做出决策,每个前馈深度Q网络均包含输入层、输出层以及两个隐藏层;其中,第一个隐藏层含有128个神经元,第二个隐藏层含有64个神经元,神经元的激活函数均为ReLU激活函数,同时还加入了防止模型过拟合的Dropout机制,所述输出层含有41个输出值,对应的,所述动作空间的41个动作。
而所述强化学习模型的超参数初始化的设定如下:
折扣系数gamma=0.99;
Q-Learning网络的更新间隔为5轮次更新一次;
单次输入网络的最小样本数量为16个;
采用经验回放机制,经验回放池的大小为50000;
开始采用经验回放机制的时机为算法执行了200轮次以后;
采用探索和利用策略,一开始探索参数为1,终止条件为0.3。
所示特征集合选择步骤,在所述强化学习模型构建步骤中得到强化学习模型的指导下、通过所述智能模型设置步骤的智能模型从原始网络流量的特征集中选取一个特征,并纳入已选特征集合;且整个过程中,通过对强化学习模型中用于指导所述智能模型做出决策的前馈深度Q网络的输出Q值进行修改,来防止智能模型从原始网络流量的特征集中重复选取同一个特征。
所示检测评价步骤,基于所述特征集合选择步骤中的特征集合,如图4,通过所述强化学习模型构建步骤中得到的强化学习模型对所述智能模型设置步骤的智能模型进行强化学习训练生成备选异常网络流量检测器,并利用所述网络流量样本对备选异常网络流量对备选异常网络流量检测器进行测试获取评价指标、并革根据所述智能模型设置步骤中的奖励函数计算得到奖励。
其中,所评价指标包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)、误警率(False Alarm Rate)、漏警率(Miss Alarm Rate)和单流量样本检测率(Test TimePer Sample),而训练过程中奖励值随训练过程变化趋势则如图2所示。
并且,利用所述网络流量样本对备选异常网络流量对备选异常网络流量检测器进行测试过程中,将所得到的当前的状态、当前的动作以及奖励反馈给智能模型,如果已经达到终止状态,即智能模型所选特征数量已达设置上限,则进入下一轮次的训练,否则跳转至所述特征集合选择步骤继续进行特征选取
所示检测器生成步骤,当检测评价步骤中的备选异常网络流量检测器到达设定的训练轮次时,对所有备选异常网络流量检测器对应的智能模型进行评估,获得所有智能模型中最优流量特征子集所对应的机器学习算法,并生成最终的异常网络流量检测器。

Claims (10)

1.一种基于强化学习的异常网络流量检测器生成方法,其特征在于,包括网络流量样本获取步骤、智能模型设置步骤、强化学习模型构建步骤、特征集合选择步骤、检测评价步骤以及检测器生成步骤:
所述网络流量样本获取步骤,获取包含正常网络流量和异常网络流量的网络流量样本,并对网络流量样本进行预处理,使网络流量样本中的正常网络流量和异常网络流量均为归一化的数字特征;
所述智能模型设置步骤,初始化智能模型,设置智能模型强化学习的环境、动作空间与状态空间,其中,所述环境中包括含有若干种可调用的机器学习算法的算法池;设定对智能模型的奖励函数,并通过所述智能模型从环境中的算法池从环境中的算法池选取一种机器学习算法;
所述强化学习模型构建步骤,选择至少包含两个前馈深度Q网络的Deep Q-Learning网络作为强化学习模型并初始化其超参数;其中一个前馈深度Q网络用于训练所述智能模型进行强化学习,另一个用于输出Q值指导所述智能模型做出决策;
所述特征集合选择步骤,在所述强化学习模型构建步骤中得到强化学习模型的指导下、通过所述智能模型设置步骤的智能模型从原始网络流量的特征集中选取一个特征,并纳入已选特征集合;
所述检测评价步骤,基于所述特征集合选择步骤中的特征集合,通过所述强化学习模型构建步骤中得到的强化学习模型对所述智能模型设置步骤的智能模型进行强化学习训练生成备选异常网络流量检测器,并利用所述网络流量样本对备选异常网络流量对备选异常网络流量检测器进行测试获取评价指标、并根据所述智能模型设置步骤中的奖励函数计算得到奖励;
所述检测器生成步骤,当检测评价步骤中的备选异常网络流量检测器到达设定的训练轮次时,对所有备选异常网络流量检测器对应的智能模型进行评估,获得所有智能模型中最优流量特征子集所对应的机器学习算法,并生成最终的异常网络流量检测器。
2.如权利要求1所述的一种基于强化学习的异常网络流量检测器生成方法,其特征在于:所述网络流量样本获取步骤中,对网络流量样本进行预处理,具体的,是对网络流量样本中的非数字特征进行数字化操作,然后对所有数字特征进行归一化处理。
3.如权利要求1所述的一种基于强化学习的异常网络流量检测器生成方法,其特征在于:所述智能模型设置步骤中,奖励函数为
Figure FDA0003415691380000021
其中,ωa、ωp以及ωr为对应的权重系数,而ra、rp以及rr分别代表了异常流量检测器的检测准确率、精确率以及召回率的奖励值分量。
4.如权利要求3所述的一种基于强化学习的异常网络流量检测器生成方法,其特征在于:所述权重系数ωa、ωp以及ωr的取值分别为0.4、0.3以及0.3。
5.如权利要求3或4所述的一种基于强化学习的异常网络流量检测器生成方法,其特征在于,所述异常流量检测器的检测准确率ra、精确率rp以及召回率rr的奖励值分量的取值为:
Figure FDA0003415691380000022
其中,prea,p,r表示使用上一轮次中智能体选择的特征生成的恶意流量检测器所能获得的准确率、精确率和召回率。
6.如权利要求1所述的一种基于强化学习的异常网络流量检测器生成方法,其特征在于:所述强化学习模型构建步骤中,所述前馈深度Q网络的结构一致,每个前馈深度Q网络均包含输入层、输出层以及两个隐藏层;其中,第一个隐藏层含有128个神经元,第二个隐藏层含有64个神经元,神经元的激活函数均为ReLU激活函数,同时还加入了防止模型过拟合的Dropout机制,所述输出层含有41个输出值,对应的,所述动作空间的41个动作。
7.如权利要求1或6所述的一种基于强化学习的异常网络流量检测器生成方法,其特征在于,所述强化学习模型的超参数初始化的设定如下:
折扣系数gamma=0.99;
Q-Learning网络的更新间隔为5轮次更新一次;
单次输入网络的最小样本数量为16个;
采用经验回放机制,经验回放池的大小为50000;
开始采用经验回放机制的时机为算法执行了200轮次以后;
采用探索和利用策略,一开始探索参数为1,终止条件为0.3。
8.如权利要求1或6所述的一种基于强化学习的异常网络流量检测器生成方法,其特征在于:所述特征集合选择步骤中,是通过对强化学习模型中用于指导所述智能模型做出决策的前馈深度Q网络的输出Q值进行修改,来防止智能模型从原始网络流量的特征集中重复选取同一个特征。
9.如权利要求1所述的一种基于强化学习的异常网络流量检测器生成方法,其特征在于:所述检测评价步骤中,所评价指标包括准确率、精确率、召回率、误警率、漏警率和单流量样本检测率。
10.如权利要求1所述的一种基于强化学习的异常网络流量检测器生成方法,其特征在于:所述检测评价步骤中,利用所述网络流量样本对备选异常网络流量对备选异常网络流量检测器进行测试过程中,将所得到的当前的状态、当前的动作以及奖励反馈给智能模型,如果已经达到终止状态,即智能模型所选特征数量已达设置上限,则进入下一轮次的训练,否则跳转至所述特征集合选择步骤继续进行特征选取。
CN202111545423.8A 2021-12-16 2021-12-16 一种基于强化学习的异常网络流量检测器生成方法 Pending CN114374541A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111545423.8A CN114374541A (zh) 2021-12-16 2021-12-16 一种基于强化学习的异常网络流量检测器生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111545423.8A CN114374541A (zh) 2021-12-16 2021-12-16 一种基于强化学习的异常网络流量检测器生成方法

Publications (1)

Publication Number Publication Date
CN114374541A true CN114374541A (zh) 2022-04-19

Family

ID=81140468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111545423.8A Pending CN114374541A (zh) 2021-12-16 2021-12-16 一种基于强化学习的异常网络流量检测器生成方法

Country Status (1)

Country Link
CN (1) CN114374541A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115134168A (zh) * 2022-08-29 2022-09-30 成都盛思睿信息技术有限公司 基于卷积神经网络的云平台隐蔽通道检测方法及系统
CN115514614A (zh) * 2022-11-15 2022-12-23 阿里云计算有限公司 基于强化学习的云网络异常检测模型训练方法及存储介质
CN115809417A (zh) * 2023-02-09 2023-03-17 新风光电子科技股份有限公司 用于高压变频器控制柜的生产线运行信号检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101990326B1 (ko) * 2018-11-28 2019-06-18 한국인터넷진흥원 감가율 자동 조정 방식의 강화 학습 방법
CN110958135A (zh) * 2019-11-05 2020-04-03 东华大学 一种特征自适应强化学习DDoS攻击消除方法及系统
CN111552971A (zh) * 2020-04-30 2020-08-18 四川大学 基于深度强化学习的恶意软件家族分类规避方法
US20210126931A1 (en) * 2019-10-25 2021-04-29 Cognizant Technology Solutions India Pvt. Ltd System and a method for detecting anomalous patterns in a network
CN113055384A (zh) * 2021-03-12 2021-06-29 周口师范学院 一种ssddqn的网络异常流量检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101990326B1 (ko) * 2018-11-28 2019-06-18 한국인터넷진흥원 감가율 자동 조정 방식의 강화 학습 방법
US20210126931A1 (en) * 2019-10-25 2021-04-29 Cognizant Technology Solutions India Pvt. Ltd System and a method for detecting anomalous patterns in a network
CN110958135A (zh) * 2019-11-05 2020-04-03 东华大学 一种特征自适应强化学习DDoS攻击消除方法及系统
CN111552971A (zh) * 2020-04-30 2020-08-18 四川大学 基于深度强化学习的恶意软件家族分类规避方法
CN113055384A (zh) * 2021-03-12 2021-06-29 周口师范学院 一种ssddqn的网络异常流量检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHIYANG FANG: "Feature selection for malware detection based on reinforcement learning", 《IEEE ACCESS》 *
耿嘉炫: "基于强化学习的入侵检测系统生成方案", 《现代计算机》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115134168A (zh) * 2022-08-29 2022-09-30 成都盛思睿信息技术有限公司 基于卷积神经网络的云平台隐蔽通道检测方法及系统
CN115514614A (zh) * 2022-11-15 2022-12-23 阿里云计算有限公司 基于强化学习的云网络异常检测模型训练方法及存储介质
CN115514614B (zh) * 2022-11-15 2023-02-24 阿里云计算有限公司 基于强化学习的云网络异常检测模型训练方法及存储介质
CN115809417A (zh) * 2023-02-09 2023-03-17 新风光电子科技股份有限公司 用于高压变频器控制柜的生产线运行信号检测方法

Similar Documents

Publication Publication Date Title
CN108718310B (zh) 基于深度学习的多层次攻击特征提取及恶意行为识别方法
Li et al. Data fusion for network intrusion detection: a review
CN111027069B (zh) 恶意软件家族检测方法、存储介质和计算设备
CN114374541A (zh) 一种基于强化学习的异常网络流量检测器生成方法
CN111353153B (zh) 一种基于gep-cnn的电网恶意数据注入检测方法
CN110166484A (zh) 一种基于LSTM-Attention网络的工业控制系统入侵检测方法
CN111901340B (zh) 一种面向能源互联网的入侵检测系统及其方法
Onik et al. An analytical comparison on filter feature extraction method in data mining using J48 classifier
CN111598179A (zh) 电力监控系统用户异常行为分析方法、存储介质和设备
CN112738092A (zh) 一种日志数据增强方法、分类检测方法及系统
CN113376516A (zh) 一种基于深度学习的中压真空断路器运行故障自诊断与预警方法
Wang et al. A novel intrusion detector based on deep learning hybrid methods
Muslihi et al. Detecting SQL injection on web application using deep learning techniques: a systematic literature review
CN112733954A (zh) 一种基于生成对抗网络的异常流量检测方法
CN117992953A (zh) 基于操作行为跟踪的异常用户行为识别方法
Narayanan et al. Particle swarm optimization based artificial neural network (PSO-ANN) model for effective k-barrier count intrusion detection system in WSN
CN114254691A (zh) 基于主动识别及智能监测的多渠道运营风控方法
CN109918901A (zh) 实时检测基于Cache攻击的方法
Cui et al. Using EBGAN for anomaly intrusion detection
CN114915496A (zh) 基于时间权重和深度神经网络的网络入侵检测方法和装置
Salehi et al. Detecting DOS Attacks Using a Hybrid CNN-LSTM Model
Wen et al. Research on Automated Classification Method of Network Attacking Based on Gradient Boosting Decision Tree
CN117521042B (zh) 基于集成学习的高危授权用户识别方法
Fathima et al. Multi-stage deep investigation pipeline on detecting malign network traffic
Wu et al. AMS Intrusion Detection Method Based on Improved Generalized Regression Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20220419