CN115766104A - 一种基于改进的Q-learning网络安全决策自适应生成方法 - Google Patents

一种基于改进的Q-learning网络安全决策自适应生成方法 Download PDF

Info

Publication number
CN115766104A
CN115766104A CN202211312604.0A CN202211312604A CN115766104A CN 115766104 A CN115766104 A CN 115766104A CN 202211312604 A CN202211312604 A CN 202211312604A CN 115766104 A CN115766104 A CN 115766104A
Authority
CN
China
Prior art keywords
network security
state
learning
action
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211312604.0A
Other languages
English (en)
Inventor
高维
王国树
王明月
李方伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Yitong College
Original Assignee
Chongqing Yitong College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Yitong College filed Critical Chongqing Yitong College
Priority to CN202211312604.0A priority Critical patent/CN115766104A/zh
Publication of CN115766104A publication Critical patent/CN115766104A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明请求保护一种基于改进的Q‑learning网络安全决策自适应生成方法,属于网络安全领域。其包括以下步骤:步骤1、获取网络状态数据集合S和动作集合A;步骤2、系统模型构建:利用马尔科夫决策树,对网络安全决策问题建模,构建奖励函数;步骤3、初始化Q表;步骤4、采用改进Q‑learning算法对奖励函数进行求解优化,输出策略;步骤5、更新Q表。本发明利用态势感知结果形成的态势信息作为智能决策的输入,并利用强化学习中经典的Q‑learning算法,能自适应的生成网络安全决策,为快速应对网络安全提供决策支持。对强化学习中经典的Q‑learning算法进行了改进,能有效避免算法陷入局部最优解。

Description

一种基于改进的Q-learning网络安全决策自适应生成方法
技术领域
本发明属于网络安全领域,具体涉及一种改进的Q-learning网络安全决策自适应生成方法及系统。
背景技术
随着信息技术的快速发展,网络已经渗透到人类生活的方方面面,为个人和社会提供无处不在的信息和服务,同时也带来了频发的网络安全问题。现阶段的网络安全防御主要采用人工防御手段对网络安全事情做出响应,比如在软件开发阶段,采用各种规范,对用户访问网络资源的权限进行严格的认证和控制,常采用手段包括:用户身份认证,口令加密、访问文件权限控制、防火墙等技术;在系统上线后,采用比如安全测试、渗透测试、安全事件分析等手段监控网络的实时安全性。这种通过人工防御手段的网络安全的时效性较低,防御手段往往滞后于攻击方处于被动地位,远跟不上攻击者的速度,导致网络攻防形式不对称,在应对高强度的网络攻击时十分被动,无法满足日益增长的网络安全需求。
目前,在网络安全领域应用态势感知理论,能够在不断变化的网络环境中预测网络的安全状态以及发展趋势,从而为网络安全管理人员提供决策支持。然而在应对高强度的网络攻击时人工决策十分被动,也不具备现实可操作性。因此,亟需网络实体可以在不依赖人为干预的情况下,以自主学习的方式构建安全防护机制,寻找一种科学的决策理论和分析方法筛选出最优防御策略,以应对网络中的安全威胁。
强化学习是机器学习中的一种,可以在不要求预先给定任何数据,而是通过接收环境对动作的奖励获得学习信息并更新参数。在强化学习中,智能体通过选择一个动作用于环境,环境接受该动作后状态发生变化,同时产生一个强化信号(奖励或者惩罚)反馈给智能体,智能体根据强化信号和环境的当前状态再选择下一个动作,重复此循环,最终在算法收敛时得到关于系统的最优决策。但存在算法易陷入局部最优的困境,因此亟需对决策过程进行优化。
CN113965404A,一种网络安全态势自适应主动防御系统及方法,本方案基于由网络安全态势感知、态势理解及态势映射搭建的网络模型,准确预测网络安全状况发展趋势,首先对安全要素进行信息采集,其次对采集到的数据信息分析整合,关联数据相关性,对攻击网络状况行为解析,最后是对通过态势评估输出的数据,对网络态势评估结果,预测网络安全状况。本发明提供的方案通过预测网络未来发展的安全态势,实现对网络的动态管理,有预见性地对网络进行防护。
CN113965404A,专利仅对网络的安全状态进行了预测,并没有对安全决策的自动生成进行详细分析。本发明专利,将态势感知的结果作为输入、利用强化学习中经典的Q-learning算法,输出网络安全决策,为快速应对网络安全风险提供自适应决策支持。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于改进的Q-learning网络安全决策自适应生成方法。本发明的技术方案如下:
一种基于改进的Q-learning网络安全决策自适应生成方法,其包括以下步骤:
步骤1、获取网络状态数据集合S和动作集合A:
步骤2、系统模型构建:利用马尔科夫决策树,对网络安全决策问题建模,构建奖励函数;
步骤3、初始化Q表;
步骤4、采用改进Q-learning算法对奖励函数进行求解优化,输出策略;
步骤5、更新Q表。
进一步的,所述步骤1获取网络状态数据集合S和动作集合A,具体包括:
考虑到网络攻击的不确定性,安全决策过程是一个典型的非线性离散约束系统,可用数学表达式为:
si+1=f(si,ai)
其中f(.)表示的是非线性系统,si,(1≤i≤n)代表的状态向量,ai,(1≤i≤m)表示输入动作向量;
利用态势感知获取网络安全状态集合S={s1,s2,...,sn},n表示系统所对应的所有可能状态;智能体能采取的动作集合A={a1,a2,...,am},m表示所有可能动作数量;
进一步的,所述步骤2利用马尔科夫决策树,对网络安全决策问题建模,具体包括:
将马尔科夫决策过程定义为一个四元组(S,A,P,r)
1)网络状态数据获取:利用态势感知获取网络状态空间,并定义为S={s1,s2,...,sn},其中si,(1≤i≤n)表示系统的一个状态,n表示系统所对应的所有可能状态;
2)动作空间:算法执行过程中,智能体所采取的所有动作的集合,可表示为:A={a1,a2,...,am},其中ai,(1≤i≤m)表示一个可执行的动作;m表示所有可能动作数量;
3)状态转移概率
Figure BDA0003907618710000031
在转态s下采取动作a并转移到下一个状态s'的概率;
4)奖励函数r:指的是智能体在运行过程中,在不同状态之间转移时,获得的奖励值;为了描述当前动作对未来奖励的影响,引入折扣因子γ对其进行量化表示,γ∈[0,1],即在(t~T)时刻内的奖励之和定义为:
Figure BDA0003907618710000032
进一步的,所述步骤3、采用改进Q-learning算法对奖励函数进行求解优化,输出策略,具体为:
策略π:
表示状态和动作映射的集合,用来描述智能体采取动作a后,从状态s到状态s'的概率集合,用值函数Qπ(s,a)表示在转态s下,选择策略π,智能体执行动作a所获得的累积回报,可表示为如下所示:
Figure BDA0003907618710000041
选择策略:
根据网络安全态势和动作空间,设置最优策略的探索概率为ε;
产生随机数β,并按照以下方式输出策略;
Figure BDA0003907618710000042
进一步的,所述步骤四:初始化Q表,具体包括:
将行数设置为转态的数量m,列数为可选动作的数量n,并假设初始Q值均为0。
进一步的,所述步骤五:更新Q表,具体包括:
在每个t时间,智能体执行动作ai,进入新的转态s'得到奖励r,并按照下式对Q表进行更新,其中rt表示状态发生改变后,智能体获得的奖励值,α∈[0,1]为学习率,γ为折扣因子,Q(s,at)为旧的状态值,maxaQ(s',a)为新的值,并按下式更新Q表中的值。
Qnew(s,at)←(1-α)Q(s,at)+α(rt+γmaxaQ(s',a))。
本发明的优点及有益效果如下:
现有技术中,利用态势感知能获取到网络的态势数据,但缺乏安全决策的自适应生成方法。本发明利用态势感知获取到的态势数据,并利用强化学习中经典的Q-learning算法,自适应的生成网络安全决策;
常用的Q-learning算法中通常采用ε-greedy算法进行最优动作、策略的选择,容易导致算法陷入局部最优解,且算法的收敛性难以保证。本发明对ε-greedy算法进行改进,能有效避免算法陷入局部最优解。
本发明利用态势感知对网络安全状态进行有效地管理及动态地了解大规模网络安全的具体情况,全方位地分析历史及当前网络状态,对未来的网络安全状况进行预测。并将获取到的态势数据,对智能体进行训练,通过最大化累积回报学习最优策略,从而训练出Q表。同时考虑到传统Q学习存在收敛速度慢、容易陷入局部最优解的问题,对Q-learning进行了改进。产生随机数β,当β小于最优策略探索概率ε时,输出策略为最大累积回报所对应的策略,否则随机选择动作。该方案能有效避免局部最优,增大了策略的探索空间,使对应某种安全状态时,能得到最优决策。
附图说明
图1是本发明提供优选实施例实施方法步骤流程图;
图2:本发明改进Q学习算法基本流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
为解决人工防御手段远跟不上攻击者对网络的攻击速度,本发明利用网络安全态势感知数据,采用强化学习中最具有代表性的Q-learning方法,自主的形成安全策略,从而为网络安全响应提供指导意义。同时考虑到传统的Q-learning算法收敛速度慢,对其进行改进,可显著提高其收敛速度。
本发明旨在解决以上现有技术的问题,涉及一种改进的Q-learning网络安全决策自适应生成方法及系统。如图1所示,本发明的技术方案如下:
步骤一:非线性系统模型构建:
考虑到网络攻击的不确定性,安全决策过程是一个典型的非线性离散约束系统,可用数学表达式为:
si+1=f(si,ai)
其中f(.)表示的是非线性系统,si代表的状态向量,ai表示输入动作向量。
步骤二:马尔科夫模型构建:
马尔科夫决策过程能大大简化强化学习问题的建模以及求解问题的复杂性,通常将马尔科夫决策过程定义为一个四元组(S,A,P,r)
(1)网络状态数据获取:利用态势感知获取网络状态空间,并定义为S={s1,s2,...,sn},其中si表示系统的一个状态;
(2)动作空间:算法执行过程中,智能体所采取的所有动作的集合,可表示为:A={a1,a2,...,am},其中ai表示一个可执行的动作;
(3)状态转移概率:表示一个概率模型,即在转态s下采取动作a并转移到下一个状态s'的概率,可表示为
Figure BDA0003907618710000061
(4)奖励函数r:智能体在运行过程中,在不同状态之间转移时,获得的奖励值。为了描述当前动作对未来奖励的影响,引入折扣因子γ(γ∈[0,1])对其进行量化表示,即在(t~T)时刻内的奖励之和定义为:
Figure BDA0003907618710000062
步骤三:如图2所示,Q-learning算法改进具体为:
(1)策略π:
表示状态和动作映射的集合,用来描述智能体采取动作a后,从状态s到状态s'的概率集合。通常用值函数Qπ(s,a)表示在转态s下,选择策略π,智能体执行动作a所获得的累积回报,可表示为如下所示:
Figure BDA0003907618710000063
(2)选择策略
根据网络安全态势和动作空间,设置最优策略的探索概率为ε;
产生随机数β,并按照以下方式输出策略
Figure BDA0003907618710000071
步骤四:初始化Q表
将行数设置为转态的数量m,列数为可选动作的数量n,并假设初始Q值均为0。
步骤五:更新Q表
在每个t时间,智能体执行动作ai,进入新的转态s'得到奖励r,并按照下式对Q表进行更新,其中rt表示状态发生改变后,智能体获得的奖励值,α∈[0,1]为学习率,γ为折扣因子,Q(s,at)为旧的状态值,maxaQ(s',a)为新的值。并按下式更新Q表中的值。
Qnew(s,at)←(1-α)Q(s,at)+α(rt+γmaxaQ(s',a))
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (6)

1.一种基于改进的Q-learning网络安全决策自适应生成方法,其特征在于,包括以下步骤:
步骤1、获取网络状态数据集合S和动作集合A;
步骤2、系统模型构建:利用马尔科夫决策树,对网络安全决策问题建模,构建奖励函数;
步骤3、初始化Q表;
步骤4、采用改进Q-learning算法对奖励函数进行求解优化,产生随机数β,当β小于最优策略探索概率ε时,输出策略为最大累积回报所对应的策略,否则随机选择动作;
步骤5、更新Q表。
2.根据权利要求1所述的基于改进的Q-learning网络安全决策自适应生成方法,其特征在于,所述步骤1、获取网络状态数据集合S和动作集合A,具体包括:
考虑到网络攻击的不确定性,安全决策过程是一个典型的非线性离散约束系统,可用数学表达式为:
si+1=f(si,ai)
其中f(.)表示的是非线性系统,si代表的状态向量,ai表示输入动作向量;
利用态势感知获取网络安全状态集合S={s1,s2,...,sn},智能体能采取的动作集合A={a1,a2,...,am}。
3.根据权利要求1所述的基于改进的Q-learning网络安全决策自适应生成方法,其特征在于,所述步骤2利用马尔科夫决策树,对网络安全决策问题建模,具体包括:
将马尔科夫决策过程定义为一个四元组(S,A,P,r)
(1)网络状态数据获取:利用态势感知获取网络状态空间,并定义为S={s1,s2,...,sn},其中si,(1≤i≤n)表示系统的一个状态,n表示系统所对应的所有可能状态;
(2)动作空间:算法执行过程中,智能体所采取的所有动作的集合,可表示为:A={a1,a2,...,am},其中ai,(1≤i≤m)表示一个可执行的动作;m表示所有可能动作数量;
(3)状态转移概率
Figure FDA0003907618700000021
在转态s下采取动作a并转移到下一个状态s'的概率;
(4)奖励函数r:指的是智能体在运行过程中,在不同状态之间转移时,获得的奖励值;为了描述当前动作对未来奖励的影响,引入折扣因子γ对其进行量化表示,γ∈[0,1],即在(t~T)时刻内的奖励之和定义为:
Figure FDA0003907618700000022
4.根据权利要求1所述的基于改进的Q-learning网络安全决策自适应生成方法,其特征在于,所述步骤三:初始化Q表,具体包括:
将行数设置为转态的数量n,列数为可选动作的数量m,并假设初始Q值均为0。
5.根据权利要求1所述的基于改进的Q-learning网络安全决策自适应生成方法,其特征在于,所述步骤四、采用改进Q-learning算法对奖励函数进行求解优化,输出策略,具体为:
策略π:
表示状态和动作映射的集合,用来描述智能体采取动作a后,从状态s到状态s'的概率集合,用值函数Qπ(s,a)表示在转态s下,选择策略π,智能体执行动作a所获得的累积回报,可表示为如下所示:
Figure FDA0003907618700000023
选择策略:
根据网络安全态势和动作空间,设置最优策略的探索概率为ε;
产生随机数β,并按照以下方式输出策略;
Figure FDA0003907618700000031
6.根据权利要求1所述的基于改进的Q-learning网络安全决策自适应生成方法,其特征在于,所述步骤五:更新Q表,具体包括:
在每个t时间,智能体执行动作ai,进入新的转态s'得到奖励r,并按照下式对Q表进行更新,其中rt表示状态发生改变后,智能体获得的奖励值,α∈[0,1]为学习率,γ为折扣因子,Q(s,at)为旧的状态值,maxaQ(s',a)为新的值,并按下式更新Q表中的值。
Qnew(s,at)←(1-α)Q(s,at)+α(rt+γmaxaQ(s',a))。
CN202211312604.0A 2022-10-25 2022-10-25 一种基于改进的Q-learning网络安全决策自适应生成方法 Pending CN115766104A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211312604.0A CN115766104A (zh) 2022-10-25 2022-10-25 一种基于改进的Q-learning网络安全决策自适应生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211312604.0A CN115766104A (zh) 2022-10-25 2022-10-25 一种基于改进的Q-learning网络安全决策自适应生成方法

Publications (1)

Publication Number Publication Date
CN115766104A true CN115766104A (zh) 2023-03-07

Family

ID=85353137

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211312604.0A Pending CN115766104A (zh) 2022-10-25 2022-10-25 一种基于改进的Q-learning网络安全决策自适应生成方法

Country Status (1)

Country Link
CN (1) CN115766104A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541006A (zh) * 2023-06-28 2023-08-04 壹仟零壹艺网络科技(北京)有限公司 一种计算机人机交互界面的图形处理方法和装置
CN117634548A (zh) * 2024-01-26 2024-03-01 西南科技大学 一种无人机行为树调整与优化方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364984A (zh) * 2020-11-13 2021-02-12 南京航空航天大学 一种协作多智能体强化学习方法
CN112598137A (zh) * 2020-12-21 2021-04-02 西北工业大学 一种基于改进的Q-learning的最优决策方法
CN113676371A (zh) * 2021-07-27 2021-11-19 南京邮电大学 一种基于深度q学习的网络故障检测与诊断方法
US20210367426A1 (en) * 2019-11-16 2021-11-25 State Grid Zhejiang Electric Power Co., Ltd. Taizhou power supply company Method for intelligently adjusting power flow based on q-learning algorithm

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210367426A1 (en) * 2019-11-16 2021-11-25 State Grid Zhejiang Electric Power Co., Ltd. Taizhou power supply company Method for intelligently adjusting power flow based on q-learning algorithm
CN112364984A (zh) * 2020-11-13 2021-02-12 南京航空航天大学 一种协作多智能体强化学习方法
CN112598137A (zh) * 2020-12-21 2021-04-02 西北工业大学 一种基于改进的Q-learning的最优决策方法
CN113676371A (zh) * 2021-07-27 2021-11-19 南京邮电大学 一种基于深度q学习的网络故障检测与诊断方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘红军等: "《电网调度系统网络安全态势感知研究》", 《电测与仪表》, vol. 56, no. 17, pages 69 - 75 *
赵春晓等: "《多智能体技术及应用》", pages: 268 - 270 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541006A (zh) * 2023-06-28 2023-08-04 壹仟零壹艺网络科技(北京)有限公司 一种计算机人机交互界面的图形处理方法和装置
CN117634548A (zh) * 2024-01-26 2024-03-01 西南科技大学 一种无人机行为树调整与优化方法及系统

Similar Documents

Publication Publication Date Title
Wu et al. An adaptive federated learning scheme with differential privacy preserving
CN115766104A (zh) 一种基于改进的Q-learning网络安全决策自适应生成方法
Zhang et al. Efficient federated learning for cloud-based AIoT applications
Chen et al. Fedgraph: Federated graph learning with intelligent sampling
Reverdy et al. Modeling human decision making in generalized Gaussian multiarmed bandits
Gast et al. Mean field for Markov decision processes: from discrete to continuous optimization
CN104303538B (zh) 使用签名高速缓冲存储器来最小化行为分析的时延
Strumberger et al. Enhanced firefly algorithm for constrained numerical optimization
CN112488183B (zh) 一种模型优化方法、装置、计算机设备及存储介质
Qu et al. Minimalistic attacks: How little it takes to fool deep reinforcement learning policies
Iannucci et al. A hybrid model-free approach for the near-optimal intrusion response control of non-stationary systems
Chen et al. Deep actor–critic learning-based robustness enhancement of Internet of Things
Shen et al. Deep Q-network-based heuristic intrusion detection against edge-based SIoT zero-day attacks
CN115481441A (zh) 面向联邦学习的差分隐私保护方法及装置
CN116582349A (zh) 基于网络攻击图的攻击路径预测模型生成方法及装置
Wu et al. Combining Lyapunov Optimization With Actor-Critic Networks for Privacy-Aware IIoT Computation Offloading
CN108764489B (zh) 基于虚拟样本的模型训练方法及设备
Zhang et al. Sequential outlier criterion for sparsification of online adaptive filtering
CN113783841B (zh) 工业物联网入侵检测网络架构构建方法、装置、设备及存储介质
WO2022070278A1 (ja) 異常判定システム、異常判定方法及びプログラム
Lu et al. A network traffic prediction model based on reinforced staged feature interaction and fusion
Chen Police patrol optimization with security level functions
CN113240430A (zh) 移动支付验证方法及装置
CN113344071A (zh) 一种基于深度策略梯度的入侵检测算法
CN116016223B (zh) 一种数据中心网络数据传输优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230307