CN115766104A - 一种基于改进的Q-learning网络安全决策自适应生成方法 - Google Patents
一种基于改进的Q-learning网络安全决策自适应生成方法 Download PDFInfo
- Publication number
- CN115766104A CN115766104A CN202211312604.0A CN202211312604A CN115766104A CN 115766104 A CN115766104 A CN 115766104A CN 202211312604 A CN202211312604 A CN 202211312604A CN 115766104 A CN115766104 A CN 115766104A
- Authority
- CN
- China
- Prior art keywords
- network security
- state
- learning
- action
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000009471 action Effects 0.000 claims abstract description 50
- 230000006870 function Effects 0.000 claims abstract description 15
- 238000003066 decision tree Methods 0.000 claims abstract description 5
- 238000010276 construction Methods 0.000 claims abstract description 3
- 239000003795 chemical substances by application Substances 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 12
- 230000007704 transition Effects 0.000 claims description 12
- 230000003044 adaptive effect Effects 0.000 claims description 10
- 230000001186 cumulative effect Effects 0.000 claims description 4
- 229940060587 alpha e Drugs 0.000 claims description 2
- 230000006872 improvement Effects 0.000 claims 1
- 230000002787 reinforcement Effects 0.000 abstract description 10
- 230000008447 perception Effects 0.000 abstract description 3
- 230000010485 coping Effects 0.000 abstract description 2
- 230000007123 defense Effects 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明请求保护一种基于改进的Q‑learning网络安全决策自适应生成方法,属于网络安全领域。其包括以下步骤:步骤1、获取网络状态数据集合S和动作集合A;步骤2、系统模型构建:利用马尔科夫决策树,对网络安全决策问题建模,构建奖励函数;步骤3、初始化Q表;步骤4、采用改进Q‑learning算法对奖励函数进行求解优化,输出策略;步骤5、更新Q表。本发明利用态势感知结果形成的态势信息作为智能决策的输入,并利用强化学习中经典的Q‑learning算法,能自适应的生成网络安全决策,为快速应对网络安全提供决策支持。对强化学习中经典的Q‑learning算法进行了改进,能有效避免算法陷入局部最优解。
Description
技术领域
本发明属于网络安全领域,具体涉及一种改进的Q-learning网络安全决策自适应生成方法及系统。
背景技术
随着信息技术的快速发展,网络已经渗透到人类生活的方方面面,为个人和社会提供无处不在的信息和服务,同时也带来了频发的网络安全问题。现阶段的网络安全防御主要采用人工防御手段对网络安全事情做出响应,比如在软件开发阶段,采用各种规范,对用户访问网络资源的权限进行严格的认证和控制,常采用手段包括:用户身份认证,口令加密、访问文件权限控制、防火墙等技术;在系统上线后,采用比如安全测试、渗透测试、安全事件分析等手段监控网络的实时安全性。这种通过人工防御手段的网络安全的时效性较低,防御手段往往滞后于攻击方处于被动地位,远跟不上攻击者的速度,导致网络攻防形式不对称,在应对高强度的网络攻击时十分被动,无法满足日益增长的网络安全需求。
目前,在网络安全领域应用态势感知理论,能够在不断变化的网络环境中预测网络的安全状态以及发展趋势,从而为网络安全管理人员提供决策支持。然而在应对高强度的网络攻击时人工决策十分被动,也不具备现实可操作性。因此,亟需网络实体可以在不依赖人为干预的情况下,以自主学习的方式构建安全防护机制,寻找一种科学的决策理论和分析方法筛选出最优防御策略,以应对网络中的安全威胁。
强化学习是机器学习中的一种,可以在不要求预先给定任何数据,而是通过接收环境对动作的奖励获得学习信息并更新参数。在强化学习中,智能体通过选择一个动作用于环境,环境接受该动作后状态发生变化,同时产生一个强化信号(奖励或者惩罚)反馈给智能体,智能体根据强化信号和环境的当前状态再选择下一个动作,重复此循环,最终在算法收敛时得到关于系统的最优决策。但存在算法易陷入局部最优的困境,因此亟需对决策过程进行优化。
CN113965404A,一种网络安全态势自适应主动防御系统及方法,本方案基于由网络安全态势感知、态势理解及态势映射搭建的网络模型,准确预测网络安全状况发展趋势,首先对安全要素进行信息采集,其次对采集到的数据信息分析整合,关联数据相关性,对攻击网络状况行为解析,最后是对通过态势评估输出的数据,对网络态势评估结果,预测网络安全状况。本发明提供的方案通过预测网络未来发展的安全态势,实现对网络的动态管理,有预见性地对网络进行防护。
CN113965404A,专利仅对网络的安全状态进行了预测,并没有对安全决策的自动生成进行详细分析。本发明专利,将态势感知的结果作为输入、利用强化学习中经典的Q-learning算法,输出网络安全决策,为快速应对网络安全风险提供自适应决策支持。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于改进的Q-learning网络安全决策自适应生成方法。本发明的技术方案如下:
一种基于改进的Q-learning网络安全决策自适应生成方法,其包括以下步骤:
步骤1、获取网络状态数据集合S和动作集合A:
步骤2、系统模型构建:利用马尔科夫决策树,对网络安全决策问题建模,构建奖励函数;
步骤3、初始化Q表;
步骤4、采用改进Q-learning算法对奖励函数进行求解优化,输出策略;
步骤5、更新Q表。
进一步的,所述步骤1获取网络状态数据集合S和动作集合A,具体包括:
考虑到网络攻击的不确定性,安全决策过程是一个典型的非线性离散约束系统,可用数学表达式为:
si+1=f(si,ai)
其中f(.)表示的是非线性系统,si,(1≤i≤n)代表的状态向量,ai,(1≤i≤m)表示输入动作向量;
利用态势感知获取网络安全状态集合S={s1,s2,...,sn},n表示系统所对应的所有可能状态;智能体能采取的动作集合A={a1,a2,...,am},m表示所有可能动作数量;
进一步的,所述步骤2利用马尔科夫决策树,对网络安全决策问题建模,具体包括:
将马尔科夫决策过程定义为一个四元组(S,A,P,r)
1)网络状态数据获取:利用态势感知获取网络状态空间,并定义为S={s1,s2,...,sn},其中si,(1≤i≤n)表示系统的一个状态,n表示系统所对应的所有可能状态;
2)动作空间:算法执行过程中,智能体所采取的所有动作的集合,可表示为:A={a1,a2,...,am},其中ai,(1≤i≤m)表示一个可执行的动作;m表示所有可能动作数量;
4)奖励函数r:指的是智能体在运行过程中,在不同状态之间转移时,获得的奖励值;为了描述当前动作对未来奖励的影响,引入折扣因子γ对其进行量化表示,γ∈[0,1],即在(t~T)时刻内的奖励之和定义为:
进一步的,所述步骤3、采用改进Q-learning算法对奖励函数进行求解优化,输出策略,具体为:
策略π:
表示状态和动作映射的集合,用来描述智能体采取动作a后,从状态s到状态s'的概率集合,用值函数Qπ(s,a)表示在转态s下,选择策略π,智能体执行动作a所获得的累积回报,可表示为如下所示:
选择策略:
根据网络安全态势和动作空间,设置最优策略的探索概率为ε;
产生随机数β,并按照以下方式输出策略;
进一步的,所述步骤四:初始化Q表,具体包括:
将行数设置为转态的数量m,列数为可选动作的数量n,并假设初始Q值均为0。
进一步的,所述步骤五:更新Q表,具体包括:
在每个t时间,智能体执行动作ai,进入新的转态s'得到奖励r,并按照下式对Q表进行更新,其中rt表示状态发生改变后,智能体获得的奖励值,α∈[0,1]为学习率,γ为折扣因子,Q(s,at)为旧的状态值,maxaQ(s',a)为新的值,并按下式更新Q表中的值。
Qnew(s,at)←(1-α)Q(s,at)+α(rt+γmaxaQ(s',a))。
本发明的优点及有益效果如下:
现有技术中,利用态势感知能获取到网络的态势数据,但缺乏安全决策的自适应生成方法。本发明利用态势感知获取到的态势数据,并利用强化学习中经典的Q-learning算法,自适应的生成网络安全决策;
常用的Q-learning算法中通常采用ε-greedy算法进行最优动作、策略的选择,容易导致算法陷入局部最优解,且算法的收敛性难以保证。本发明对ε-greedy算法进行改进,能有效避免算法陷入局部最优解。
本发明利用态势感知对网络安全状态进行有效地管理及动态地了解大规模网络安全的具体情况,全方位地分析历史及当前网络状态,对未来的网络安全状况进行预测。并将获取到的态势数据,对智能体进行训练,通过最大化累积回报学习最优策略,从而训练出Q表。同时考虑到传统Q学习存在收敛速度慢、容易陷入局部最优解的问题,对Q-learning进行了改进。产生随机数β,当β小于最优策略探索概率ε时,输出策略为最大累积回报所对应的策略,否则随机选择动作。该方案能有效避免局部最优,增大了策略的探索空间,使对应某种安全状态时,能得到最优决策。
附图说明
图1是本发明提供优选实施例实施方法步骤流程图;
图2:本发明改进Q学习算法基本流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
为解决人工防御手段远跟不上攻击者对网络的攻击速度,本发明利用网络安全态势感知数据,采用强化学习中最具有代表性的Q-learning方法,自主的形成安全策略,从而为网络安全响应提供指导意义。同时考虑到传统的Q-learning算法收敛速度慢,对其进行改进,可显著提高其收敛速度。
本发明旨在解决以上现有技术的问题,涉及一种改进的Q-learning网络安全决策自适应生成方法及系统。如图1所示,本发明的技术方案如下:
步骤一:非线性系统模型构建:
考虑到网络攻击的不确定性,安全决策过程是一个典型的非线性离散约束系统,可用数学表达式为:
si+1=f(si,ai)
其中f(.)表示的是非线性系统,si代表的状态向量,ai表示输入动作向量。
步骤二:马尔科夫模型构建:
马尔科夫决策过程能大大简化强化学习问题的建模以及求解问题的复杂性,通常将马尔科夫决策过程定义为一个四元组(S,A,P,r)
(1)网络状态数据获取:利用态势感知获取网络状态空间,并定义为S={s1,s2,...,sn},其中si表示系统的一个状态;
(2)动作空间:算法执行过程中,智能体所采取的所有动作的集合,可表示为:A={a1,a2,...,am},其中ai表示一个可执行的动作;
步骤三:如图2所示,Q-learning算法改进具体为:
(1)策略π:
(2)选择策略
根据网络安全态势和动作空间,设置最优策略的探索概率为ε;
产生随机数β,并按照以下方式输出策略
步骤四:初始化Q表
将行数设置为转态的数量m,列数为可选动作的数量n,并假设初始Q值均为0。
步骤五:更新Q表
在每个t时间,智能体执行动作ai,进入新的转态s'得到奖励r,并按照下式对Q表进行更新,其中rt表示状态发生改变后,智能体获得的奖励值,α∈[0,1]为学习率,γ为折扣因子,Q(s,at)为旧的状态值,maxaQ(s',a)为新的值。并按下式更新Q表中的值。
Qnew(s,at)←(1-α)Q(s,at)+α(rt+γmaxaQ(s',a))
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (6)
1.一种基于改进的Q-learning网络安全决策自适应生成方法,其特征在于,包括以下步骤:
步骤1、获取网络状态数据集合S和动作集合A;
步骤2、系统模型构建:利用马尔科夫决策树,对网络安全决策问题建模,构建奖励函数;
步骤3、初始化Q表;
步骤4、采用改进Q-learning算法对奖励函数进行求解优化,产生随机数β,当β小于最优策略探索概率ε时,输出策略为最大累积回报所对应的策略,否则随机选择动作;
步骤5、更新Q表。
2.根据权利要求1所述的基于改进的Q-learning网络安全决策自适应生成方法,其特征在于,所述步骤1、获取网络状态数据集合S和动作集合A,具体包括:
考虑到网络攻击的不确定性,安全决策过程是一个典型的非线性离散约束系统,可用数学表达式为:
si+1=f(si,ai)
其中f(.)表示的是非线性系统,si代表的状态向量,ai表示输入动作向量;
利用态势感知获取网络安全状态集合S={s1,s2,...,sn},智能体能采取的动作集合A={a1,a2,...,am}。
3.根据权利要求1所述的基于改进的Q-learning网络安全决策自适应生成方法,其特征在于,所述步骤2利用马尔科夫决策树,对网络安全决策问题建模,具体包括:
将马尔科夫决策过程定义为一个四元组(S,A,P,r)
(1)网络状态数据获取:利用态势感知获取网络状态空间,并定义为S={s1,s2,...,sn},其中si,(1≤i≤n)表示系统的一个状态,n表示系统所对应的所有可能状态;
(2)动作空间:算法执行过程中,智能体所采取的所有动作的集合,可表示为:A={a1,a2,...,am},其中ai,(1≤i≤m)表示一个可执行的动作;m表示所有可能动作数量;
(4)奖励函数r:指的是智能体在运行过程中,在不同状态之间转移时,获得的奖励值;为了描述当前动作对未来奖励的影响,引入折扣因子γ对其进行量化表示,γ∈[0,1],即在(t~T)时刻内的奖励之和定义为:
4.根据权利要求1所述的基于改进的Q-learning网络安全决策自适应生成方法,其特征在于,所述步骤三:初始化Q表,具体包括:
将行数设置为转态的数量n,列数为可选动作的数量m,并假设初始Q值均为0。
6.根据权利要求1所述的基于改进的Q-learning网络安全决策自适应生成方法,其特征在于,所述步骤五:更新Q表,具体包括:
在每个t时间,智能体执行动作ai,进入新的转态s'得到奖励r,并按照下式对Q表进行更新,其中rt表示状态发生改变后,智能体获得的奖励值,α∈[0,1]为学习率,γ为折扣因子,Q(s,at)为旧的状态值,maxaQ(s',a)为新的值,并按下式更新Q表中的值。
Qnew(s,at)←(1-α)Q(s,at)+α(rt+γmaxaQ(s',a))。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211312604.0A CN115766104A (zh) | 2022-10-25 | 2022-10-25 | 一种基于改进的Q-learning网络安全决策自适应生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211312604.0A CN115766104A (zh) | 2022-10-25 | 2022-10-25 | 一种基于改进的Q-learning网络安全决策自适应生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115766104A true CN115766104A (zh) | 2023-03-07 |
Family
ID=85353137
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211312604.0A Pending CN115766104A (zh) | 2022-10-25 | 2022-10-25 | 一种基于改进的Q-learning网络安全决策自适应生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115766104A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116541006A (zh) * | 2023-06-28 | 2023-08-04 | 壹仟零壹艺网络科技(北京)有限公司 | 一种计算机人机交互界面的图形处理方法和装置 |
CN117634548A (zh) * | 2024-01-26 | 2024-03-01 | 西南科技大学 | 一种无人机行为树调整与优化方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112364984A (zh) * | 2020-11-13 | 2021-02-12 | 南京航空航天大学 | 一种协作多智能体强化学习方法 |
CN112598137A (zh) * | 2020-12-21 | 2021-04-02 | 西北工业大学 | 一种基于改进的Q-learning的最优决策方法 |
CN113676371A (zh) * | 2021-07-27 | 2021-11-19 | 南京邮电大学 | 一种基于深度q学习的网络故障检测与诊断方法 |
US20210367426A1 (en) * | 2019-11-16 | 2021-11-25 | State Grid Zhejiang Electric Power Co., Ltd. Taizhou power supply company | Method for intelligently adjusting power flow based on q-learning algorithm |
-
2022
- 2022-10-25 CN CN202211312604.0A patent/CN115766104A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210367426A1 (en) * | 2019-11-16 | 2021-11-25 | State Grid Zhejiang Electric Power Co., Ltd. Taizhou power supply company | Method for intelligently adjusting power flow based on q-learning algorithm |
CN112364984A (zh) * | 2020-11-13 | 2021-02-12 | 南京航空航天大学 | 一种协作多智能体强化学习方法 |
CN112598137A (zh) * | 2020-12-21 | 2021-04-02 | 西北工业大学 | 一种基于改进的Q-learning的最优决策方法 |
CN113676371A (zh) * | 2021-07-27 | 2021-11-19 | 南京邮电大学 | 一种基于深度q学习的网络故障检测与诊断方法 |
Non-Patent Citations (2)
Title |
---|
刘红军等: "《电网调度系统网络安全态势感知研究》", 《电测与仪表》, vol. 56, no. 17, pages 69 - 75 * |
赵春晓等: "《多智能体技术及应用》", pages: 268 - 270 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116541006A (zh) * | 2023-06-28 | 2023-08-04 | 壹仟零壹艺网络科技(北京)有限公司 | 一种计算机人机交互界面的图形处理方法和装置 |
CN117634548A (zh) * | 2024-01-26 | 2024-03-01 | 西南科技大学 | 一种无人机行为树调整与优化方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Wu et al. | An adaptive federated learning scheme with differential privacy preserving | |
CN115766104A (zh) | 一种基于改进的Q-learning网络安全决策自适应生成方法 | |
Zhang et al. | Efficient federated learning for cloud-based AIoT applications | |
Chen et al. | Fedgraph: Federated graph learning with intelligent sampling | |
Reverdy et al. | Modeling human decision making in generalized Gaussian multiarmed bandits | |
Gast et al. | Mean field for Markov decision processes: from discrete to continuous optimization | |
CN104303538B (zh) | 使用签名高速缓冲存储器来最小化行为分析的时延 | |
Strumberger et al. | Enhanced firefly algorithm for constrained numerical optimization | |
CN112488183B (zh) | 一种模型优化方法、装置、计算机设备及存储介质 | |
Qu et al. | Minimalistic attacks: How little it takes to fool deep reinforcement learning policies | |
Iannucci et al. | A hybrid model-free approach for the near-optimal intrusion response control of non-stationary systems | |
Chen et al. | Deep actor–critic learning-based robustness enhancement of Internet of Things | |
Shen et al. | Deep Q-network-based heuristic intrusion detection against edge-based SIoT zero-day attacks | |
CN115481441A (zh) | 面向联邦学习的差分隐私保护方法及装置 | |
CN116582349A (zh) | 基于网络攻击图的攻击路径预测模型生成方法及装置 | |
Wu et al. | Combining Lyapunov Optimization With Actor-Critic Networks for Privacy-Aware IIoT Computation Offloading | |
CN108764489B (zh) | 基于虚拟样本的模型训练方法及设备 | |
Zhang et al. | Sequential outlier criterion for sparsification of online adaptive filtering | |
CN113783841B (zh) | 工业物联网入侵检测网络架构构建方法、装置、设备及存储介质 | |
WO2022070278A1 (ja) | 異常判定システム、異常判定方法及びプログラム | |
Lu et al. | A network traffic prediction model based on reinforced staged feature interaction and fusion | |
Chen | Police patrol optimization with security level functions | |
CN113240430A (zh) | 移动支付验证方法及装置 | |
CN113344071A (zh) | 一种基于深度策略梯度的入侵检测算法 | |
CN116016223B (zh) | 一种数据中心网络数据传输优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230307 |