CN115766104A

CN115766104A - 一种基于改进的Q-learning网络安全决策自适应生成方法

Info

Publication number: CN115766104A
Application number: CN202211312604.0A
Authority: CN
Inventors: 高维; 王国树; 王明月; 李方伟
Original assignee: Chongqing Yitong College
Current assignee: Chongqing Yitong College
Priority date: 2022-10-25
Filing date: 2022-10-25
Publication date: 2023-03-07

Abstract

本发明请求保护一种基于改进的Q‑learning网络安全决策自适应生成方法，属于网络安全领域。其包括以下步骤：步骤1、获取网络状态数据集合S和动作集合A；步骤2、系统模型构建：利用马尔科夫决策树，对网络安全决策问题建模，构建奖励函数；步骤3、初始化Q表；步骤4、采用改进Q‑learning算法对奖励函数进行求解优化，输出策略；步骤5、更新Q表。本发明利用态势感知结果形成的态势信息作为智能决策的输入，并利用强化学习中经典的Q‑learning算法，能自适应的生成网络安全决策，为快速应对网络安全提供决策支持。对强化学习中经典的Q‑learning算法进行了改进，能有效避免算法陷入局部最优解。

Description

一种基于改进的Q-learning网络安全决策自适应生成方法

技术领域

本发明属于网络安全领域，具体涉及一种改进的Q-learning网络安全决策自适应生成方法及系统。

背景技术

随着信息技术的快速发展，网络已经渗透到人类生活的方方面面，为个人和社会提供无处不在的信息和服务，同时也带来了频发的网络安全问题。现阶段的网络安全防御主要采用人工防御手段对网络安全事情做出响应，比如在软件开发阶段，采用各种规范，对用户访问网络资源的权限进行严格的认证和控制，常采用手段包括：用户身份认证，口令加密、访问文件权限控制、防火墙等技术；在系统上线后，采用比如安全测试、渗透测试、安全事件分析等手段监控网络的实时安全性。这种通过人工防御手段的网络安全的时效性较低，防御手段往往滞后于攻击方处于被动地位，远跟不上攻击者的速度，导致网络攻防形式不对称，在应对高强度的网络攻击时十分被动，无法满足日益增长的网络安全需求。

目前，在网络安全领域应用态势感知理论，能够在不断变化的网络环境中预测网络的安全状态以及发展趋势，从而为网络安全管理人员提供决策支持。然而在应对高强度的网络攻击时人工决策十分被动，也不具备现实可操作性。因此，亟需网络实体可以在不依赖人为干预的情况下，以自主学习的方式构建安全防护机制，寻找一种科学的决策理论和分析方法筛选出最优防御策略，以应对网络中的安全威胁。

强化学习是机器学习中的一种，可以在不要求预先给定任何数据,而是通过接收环境对动作的奖励获得学习信息并更新参数。在强化学习中,智能体通过选择一个动作用于环境,环境接受该动作后状态发生变化，同时产生一个强化信号(奖励或者惩罚)反馈给智能体,智能体根据强化信号和环境的当前状态再选择下一个动作，重复此循环，最终在算法收敛时得到关于系统的最优决策。但存在算法易陷入局部最优的困境，因此亟需对决策过程进行优化。

CN113965404A，一种网络安全态势自适应主动防御系统及方法，本方案基于由网络安全态势感知、态势理解及态势映射搭建的网络模型，准确预测网络安全状况发展趋势，首先对安全要素进行信息采集，其次对采集到的数据信息分析整合，关联数据相关性，对攻击网络状况行为解析，最后是对通过态势评估输出的数据，对网络态势评估结果，预测网络安全状况。本发明提供的方案通过预测网络未来发展的安全态势，实现对网络的动态管理，有预见性地对网络进行防护。

CN113965404A，专利仅对网络的安全状态进行了预测，并没有对安全决策的自动生成进行详细分析。本发明专利，将态势感知的结果作为输入、利用强化学习中经典的Q-learning算法，输出网络安全决策，为快速应对网络安全风险提供自适应决策支持。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种基于改进的Q-learning网络安全决策自适应生成方法。本发明的技术方案如下：

一种基于改进的Q-learning网络安全决策自适应生成方法，其包括以下步骤：

步骤1、获取网络状态数据集合S和动作集合A：

步骤2、系统模型构建：利用马尔科夫决策树，对网络安全决策问题建模，构建奖励函数；

步骤3、初始化Q表；

步骤4、采用改进Q-learning算法对奖励函数进行求解优化，输出策略；

步骤5、更新Q表。

进一步的，所述步骤1获取网络状态数据集合S和动作集合A，具体包括：

考虑到网络攻击的不确定性，安全决策过程是一个典型的非线性离散约束系统，可用数学表达式为：

s_i+1＝f(s_i,a_i)

其中f(.)表示的是非线性系统，s_i,(1≤i≤n)代表的状态向量，a_i,(1≤i≤m)表示输入动作向量；

利用态势感知获取网络安全状态集合S＝{s₁,s₂,...,s_n}，n表示系统所对应的所有可能状态；智能体能采取的动作集合A＝{a₁,a₂,...,a_m}，m表示所有可能动作数量；

进一步的，所述步骤2利用马尔科夫决策树，对网络安全决策问题建模，具体包括：

将马尔科夫决策过程定义为一个四元组(S,A,P,r)

1)网络状态数据获取：利用态势感知获取网络状态空间，并定义为S＝{s₁,s₂,...,s_n}，其中s_i,(1≤i≤n)表示系统的一个状态，n表示系统所对应的所有可能状态；

2)动作空间：算法执行过程中，智能体所采取的所有动作的集合，可表示为：A＝{a₁,a₂,...,a_m}，其中a_i,(1≤i≤m)表示一个可执行的动作；m表示所有可能动作数量；

3)状态转移概率

在转态s下采取动作a并转移到下一个状态s'的概率；

4)奖励函数r：指的是智能体在运行过程中，在不同状态之间转移时，获得的奖励值；为了描述当前动作对未来奖励的影响，引入折扣因子γ对其进行量化表示，γ∈[0,1]，即在(t～T)时刻内的奖励之和定义为：

进一步的，所述步骤3、采用改进Q-learning算法对奖励函数进行求解优化，输出策略，具体为：

策略π：

表示状态和动作映射的集合，用来描述智能体采取动作a后，从状态s到状态s'的概率集合，用值函数Q^π(s,a)表示在转态s下，选择策略π，智能体执行动作a所获得的累积回报，可表示为如下所示：

选择策略：

根据网络安全态势和动作空间，设置最优策略的探索概率为ε；

产生随机数β，并按照以下方式输出策略；

进一步的，所述步骤四：初始化Q表，具体包括：

将行数设置为转态的数量m，列数为可选动作的数量n，并假设初始Q值均为0。

进一步的，所述步骤五：更新Q表，具体包括：

在每个t时间，智能体执行动作a_i，进入新的转态s'得到奖励r，并按照下式对Q表进行更新，其中r_t表示状态发生改变后，智能体获得的奖励值，α∈[0,1]为学习率，γ为折扣因子，Q(s，a_t)为旧的状态值，max_aQ(s'，a)为新的值，并按下式更新Q表中的值。

Q^new(s，a_t)←(1-α)Q(s，a_t)+α(r_t+γmax_aQ(s'，a))。

本发明的优点及有益效果如下：

现有技术中，利用态势感知能获取到网络的态势数据，但缺乏安全决策的自适应生成方法。本发明利用态势感知获取到的态势数据，并利用强化学习中经典的Q-learning算法，自适应的生成网络安全决策；

常用的Q-learning算法中通常采用ε-greedy算法进行最优动作、策略的选择，容易导致算法陷入局部最优解，且算法的收敛性难以保证。本发明对ε-greedy算法进行改进，能有效避免算法陷入局部最优解。

本发明利用态势感知对网络安全状态进行有效地管理及动态地了解大规模网络安全的具体情况，全方位地分析历史及当前网络状态，对未来的网络安全状况进行预测。并将获取到的态势数据，对智能体进行训练，通过最大化累积回报学习最优策略，从而训练出Q表。同时考虑到传统Q学习存在收敛速度慢、容易陷入局部最优解的问题，对Q-learning进行了改进。产生随机数β，当β小于最优策略探索概率ε时，输出策略为最大累积回报所对应的策略，否则随机选择动作。该方案能有效避免局部最优，增大了策略的探索空间，使对应某种安全状态时，能得到最优决策。

附图说明

图1是本发明提供优选实施例实施方法步骤流程图；

图2：本发明改进Q学习算法基本流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

为解决人工防御手段远跟不上攻击者对网络的攻击速度，本发明利用网络安全态势感知数据，采用强化学习中最具有代表性的Q-learning方法，自主的形成安全策略，从而为网络安全响应提供指导意义。同时考虑到传统的Q-learning算法收敛速度慢，对其进行改进，可显著提高其收敛速度。

本发明旨在解决以上现有技术的问题，涉及一种改进的Q-learning网络安全决策自适应生成方法及系统。如图1所示，本发明的技术方案如下：

步骤一：非线性系统模型构建：

s_i+1＝f(s_i,a_i)

其中f(.)表示的是非线性系统，s_i代表的状态向量，a_i表示输入动作向量。

步骤二：马尔科夫模型构建：

马尔科夫决策过程能大大简化强化学习问题的建模以及求解问题的复杂性，通常将马尔科夫决策过程定义为一个四元组(S,A,P,r)

(1)网络状态数据获取：利用态势感知获取网络状态空间，并定义为S＝{s₁,s₂,...,s_n}，其中s_i表示系统的一个状态；

(2)动作空间：算法执行过程中，智能体所采取的所有动作的集合，可表示为：A＝{a₁,a₂,...,a_m}，其中a_i表示一个可执行的动作；

(3)状态转移概率：表示一个概率模型，即在转态s下采取动作a并转移到下一个状态s'的概率，可表示为

(4)奖励函数r：智能体在运行过程中，在不同状态之间转移时，获得的奖励值。为了描述当前动作对未来奖励的影响，引入折扣因子γ(γ∈[0,1])对其进行量化表示，即在(t～T)时刻内的奖励之和定义为：

步骤三：如图2所示，Q-learning算法改进具体为：

(1)策略π：

表示状态和动作映射的集合，用来描述智能体采取动作a后，从状态s到状态s'的概率集合。通常用值函数Q^π(s,a)表示在转态s下，选择策略π，智能体执行动作a所获得的累积回报，可表示为如下所示：

(2)选择策略

产生随机数β，并按照以下方式输出策略

步骤四：初始化Q表

步骤五：更新Q表

在每个t时间，智能体执行动作a_i，进入新的转态s'得到奖励r，并按照下式对Q表进行更新，其中r_t表示状态发生改变后，智能体获得的奖励值，α∈[0,1]为学习率，γ为折扣因子，Q(s，a_t)为旧的状态值，max_aQ(s'，a)为新的值。并按下式更新Q表中的值。

Q^new(s，a_t)←(1-α)Q(s，a_t)+α(r_t+γmax_aQ(s'，a))

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于改进的Q-learning网络安全决策自适应生成方法，其特征在于，包括以下步骤：

步骤1、获取网络状态数据集合S和动作集合A；

步骤3、初始化Q表；

步骤4、采用改进Q-learning算法对奖励函数进行求解优化，产生随机数β，当β小于最优策略探索概率ε时，输出策略为最大累积回报所对应的策略，否则随机选择动作；

步骤5、更新Q表。

2.根据权利要求1所述的基于改进的Q-learning网络安全决策自适应生成方法，其特征在于，所述步骤1、获取网络状态数据集合S和动作集合A，具体包括：

s_i+1＝f(s_i,a_i)

其中f(.)表示的是非线性系统，s_i代表的状态向量，a_i表示输入动作向量；

利用态势感知获取网络安全状态集合S＝{s₁,s₂,...,s_n}，智能体能采取的动作集合A＝{a₁,a₂,...,a_m}。

3.根据权利要求1所述的基于改进的Q-learning网络安全决策自适应生成方法，其特征在于，所述步骤2利用马尔科夫决策树，对网络安全决策问题建模，具体包括：

将马尔科夫决策过程定义为一个四元组(S,A,P,r)

(1)网络状态数据获取：利用态势感知获取网络状态空间，并定义为S＝{s₁,s₂,...,s_n}，其中s_i,(1≤i≤n)表示系统的一个状态，n表示系统所对应的所有可能状态；

(2)动作空间：算法执行过程中，智能体所采取的所有动作的集合，可表示为：A＝{a₁,a₂,...,a_m}，其中a_i,(1≤i≤m)表示一个可执行的动作；m表示所有可能动作数量；

(3)状态转移概率

在转态s下采取动作a并转移到下一个状态s'的概率；

(4)奖励函数r：指的是智能体在运行过程中，在不同状态之间转移时，获得的奖励值；为了描述当前动作对未来奖励的影响，引入折扣因子γ对其进行量化表示，γ∈[0,1]，即在(t～T)时刻内的奖励之和定义为：

4.根据权利要求1所述的基于改进的Q-learning网络安全决策自适应生成方法，其特征在于，所述步骤三：初始化Q表，具体包括：

将行数设置为转态的数量n，列数为可选动作的数量m，并假设初始Q值均为0。

5.根据权利要求1所述的基于改进的Q-learning网络安全决策自适应生成方法，其特征在于，所述步骤四、采用改进Q-learning算法对奖励函数进行求解优化，输出策略，具体为：

策略π：

选择策略：

产生随机数β，并按照以下方式输出策略；

6.根据权利要求1所述的基于改进的Q-learning网络安全决策自适应生成方法，其特征在于，所述步骤五：更新Q表，具体包括：

Q^new(s，a_t)←(1-α)Q(s，a_t)+α(r_t+γmax_aQ(s'，a))。