CN106899595B

CN106899595B - 基于强化学习的不完全信息网络安全分析方法及装置

Info

Publication number: CN106899595B
Application number: CN201710113181.2A
Authority: CN
Inventors: 唐治理; 王长春; 朱永文; 陈志杰; 付莹; 朱立彬; 李纲
Original assignee: INSTITUTE OF RADAR AND ELECTRONIC COUNTERMEASURE OF CHINESE PLA AIR FORCE EQUIPM
Current assignee: INSTITUTE OF RADAR AND ELECTRONIC COUNTERMEASURE OF CHINESE PLA AIR FORCE EQUIPM
Priority date: 2017-02-28
Filing date: 2017-02-28
Publication date: 2018-06-29
Anticipated expiration: 2037-02-28
Also published as: CN106899595A

Abstract

本发明提供了一种基于强化学习的不完全信息网络安全分析方法及装置，该方法包括：首先，获取待分析网络的基础特征参数；然后，利用预先构建的网络安全强化分析模型根据待分析网络的基础特征参数确定攻击者的攻击策略空间集合和防御者的防御策略空间集合，该网络安全强化分析模型为采用区间数描述网络安全分析的不完全信息的方式构建的；最后，分别输出攻击者的攻击策略空间集合和防御者的防御策略空间集合。本发明实施例所采用的网络攻防策略分析手段提供了一种同时考虑网络攻击者和防御者行动的分析求解框架，提高了网络安全响应的及时性、有效性，为解决网络安全问题分析提供了一种新的有效途径。

Description

基于强化学习的不完全信息网络安全分析方法及装置

技术领域

本发明涉及网络安全技术领域，具体而言，涉及一种基于强化学习的不完全信息网络安全分析方法及装置。

背景技术

计算机网络加速了人类迈向信息社会的步伐，促进了人类社会生活习惯、生活方式、思想观念等各个方面的根本性改变。然而，在网络规模不断扩大的同时，网络安全事件也越来越多。和平时期发生的网络攻击事件，损失的是商业利益和对人们私人空间的侵害，可是如果网络攻击行为的主体是一个国家对另一个国家、一个作战集团对另一个作战集团的行动，那么所造成的后果将不堪设想。

传统网络安全解决方法，如防护墙，入侵检测系统用来防御各种已知入侵手段是足够了，但是这种被动防御模式不能有效应付有意图或者有组织的网络破坏行为。这是因为传统方法强调以目标为中心，检测到入侵行动后才有所响应，此时可能已经造成严重的损失。由于资源和能力限制，管理员不可能消除网络中每一个脆弱点，也不可能防御所有攻击行动。如何在信息安全风险与投入之间寻找一种均衡，充分考虑防御成本有效性并做到“适度安全”，是当前网络对抗领域亟待解决的复杂问题。同时，网络攻防双方对信息的了解是不完全的。对于网络防御者而言，虽然能够准确、具体和全面地了解网络状态和网络拓扑结构，但是无法预测攻击者在何时、何地以何种方式进行攻击；对应的，对于网络攻击者而言，虽然在网络对抗过程中占主动地位，但是在目标系统信息获取上往往还只是一个盲目搜索和攻击试探的过程。

当前，相关技术中提供的基于强化学习的不完全信息网络安全分析方法主要存在两个方面的不足：一是只考虑完美信息情况，并且假设防御者总是能够发现攻击者，这与现实不符；二是假设状态转移的概率是固定的，并且这些转移概率是由专家过去经验判断得到。在实现本发明的过程中，发明人发现相关技术中至少存在以下问题：相关技术中确定出的网络攻防策略存在准确度低、参考性差的问题，无法实现对网络安全管理起到科学指导作用。

发明内容

有鉴于此，本发明实施例的目的在于提供一种基于强化学习的不完全信息网络安全分析方法及装置，以解决上述技术问题。

第一方面，本发明实施例提供了一种基于强化学习的不完全信息网络安全分析方法，包括：

获取待分析网络的基础特征参数，所述基础特征参数包括：预设的攻击策略收益向量、防御策略收益向量、开展攻击行动所需费用向量、入侵检测系统响应费用向量、系统薄弱环节矩阵和系统攻击识别能力矩阵；

利用预先构建的网络安全强化分析模型根据所述待分析网络的所述基础特征参数确定攻击者的攻击策略空间集合和防御者的防御策略空间集合，所述网络安全强化分析模型为采用区间数描述网络安全分析的不完全信息的方式构建的；

分别输出所述攻击者的所述攻击策略空间集合和所述防御者的所述防御策略空间集合，所述攻击策略空间集合中各元素表示攻击者采取某一攻击策略的强度，所述防御策略空间集合中各元素表示防御者采取某一防御策略的强度。

优选的，所述利用预先构建的网络安全强化分析模型根据所述待分析网络的所述基础特征参数确定攻击者的攻击策略空间集合和防御者的防御策略空间集合，包括：

在考虑攻防双方策略基础上，根据所述待分析网络的所述基础特征参数和第一网络安全强化分析子模型

确定所述攻击者的所述攻击策略空间集合和所述防御者的所述防御策略空间集合；

其中，μ^A(μ^I,P)表示攻击者的攻击策略空间集合，μ^I(μ^A,P)表示防御者的防御策略空间集合，θ^A表示攻击定义向量，θ^I表示防御定义向量，表示攻击者的攻击策略收益向量，表示防御者的防御策略收益向量，表示开展攻击行动所需费用向量，表示入侵检测系统响应费用向量，γ表示虚警费用、入侵检测费用、攻击者欺骗费用之和，i表示攻击策略序号，i＝1,…,A_max，k表示防御策略序号，k＝1,…,R_max，diag(·)表示对角矩阵，Q表示系统薄弱环节矩阵，P表示系统攻击识别能力矩阵，表示防御行动与攻击行动之间的交互关系矩阵，[·]⁺表示将变量·中所有数值小于0的赋值为0。

优选的，所述第一网络安全强化分析子模型是通过如下方式构建的：

获取网络攻击者和防御者的原始收益函数方程

对所述原始收益函数方程中各个收益函数求导，并设置各所述收益函数的导数等于零，得到第一网络安全强化分析子模型

将所述第一网络安全强化分析子模型作为所述网络安全强化分析模型，所述网络安全强化分析模型确定出的攻击策略和防御策略，使得网络攻击者和防御者之间达到均衡；

其中，J^A(μ^A,μ^I,P)表示攻击策略收益函数，J^I(μ^A,μ^I,P)表示防御策略收益函数，(·)^T表示变量·的转置矩阵。

优选的，当所述系统攻击识别能力矩阵与时间变量之间的关系式为时，所述利用预先构建的网络安全强化分析模型根据所述待分析网络的所述基础特征参数确定攻击者的攻击策略空间集合和防御者的防御策略空间集合，包括：

根据所述待分析网络的所述基础特征参数和第二网络安全强化分析子模型

其中，n表示时间变量，n+1表示n时刻的下一时刻，μ^A(n+1)表示n+1时刻攻击者的防御策略空间集合，μ^I(n+1)表示n+1时刻防御者的防御策略空间集合，δ表示第一标量，δ＞0，ε表示第二标量，ε＞0，W(n)表示n时刻随机矩阵，[·]^N表示将变量·映射到区间[dt_min,dt_max]的函数，dt_min表示系统攻击识别能力矩阵P(n)中各个元素的最小值，dt_max表示系统攻击识别能力矩阵P(n)中各个元素的最大值，dt_max＜1。

优选的，所述方法还包括：

将不等式

|p_ij(n+1)-Idl_ij|＜|p_ij(n)-Idl_ij|+ε|w_ij(n)|+δ|x_-i|＜|p_ij(n)-Idl_ij|+ε+δ|x_-i|作为所述系统攻击识别能力矩阵与时间变量之间的关系式的约束条件，以提高所述第二网络安全强化分析子模型的收敛性和稳定性；

其中，系统攻击识别能力矩阵P(n)中各个元素满足idl_ij表示理想条件下系统攻击识别能力矩阵中第i行j列值，|x_-i|表示系统攻击能力的扰动变量，p_ij(n+1)表示在n+1时刻系统攻击识别能力矩阵中第i行j列值，p_ij(n)表示在n时刻系统攻击识别能力矩阵中第i行j列值，w_ij(n)表示服从均匀分布[-1,1]的扰动变量。

本发明实施例还提供了一种基于强化学习的不完全信息网络安全分析装置，该装置包括：

参数获取模块，用于获取待分析网络的基础特征参数，所述基础特征参数包括：预设的攻击策略收益向量、防御策略收益向量、开展攻击行动所需费用向量、入侵检测系统响应费用向量、系统薄弱环节矩阵和系统攻击识别能力矩阵；

策略确定模块，用于利用预先构建的网络安全强化分析模型根据所述待分析网络的所述基础特征参数确定攻击者的攻击策略空间集合和防御者的防御策略空间集合，所述网络安全强化分析模型为采用区间数描述网络安全分析的不完全信息的方式构建的；

策略输出模块，用于分别输出所述攻击者的所述攻击策略空间集合和所述防御者的所述防御策略空间集合，所述攻击策略空间集合中各元素表示攻击者采取某一攻击策略的强度，所述防御策略空间集合中各元素表示防御者采取某一防御策略的强度。

优选的，所述策略确定模块包括：

第一策略确定子模块，用于在考虑攻防双方策略基础上，根据所述待分析网络的所述基础特征参数和第一网络安全强化分析子模型

优选的，所述装置还包括：

模型构建模块，用于获取网络攻击者和防御者的原始收益函数方程

优选的，当所述系统攻击识别能力矩阵与时间变量之间的关系式为时，所述策略确定模块包括：

第二策略确定子模块，用于根据所述待分析网络的所述基础特征参数和第二网络安全强化分析子模型

优选的，所述装置还包括：

约束条件确定模块，用于将不等式|p_ij(n+1)-Idl_ij|＜|p_ij(n)-Idl_ij|+ε|w_ij(n)|+δ|x_-i|＜|p_ij(n)-Idl_ij|+ε+δ|x_-i|作为所述系统攻击识别能力矩阵与时间变量之间的关系式的约束条件，以提高所述第二网络安全强化分析子模型的收敛性和稳定性；

在本发明实施例提供的基于强化学习的不完全信息网络安全分析方法及装置中，该方法包括：首先，获取待分析网络的基础特征参数，该基础特征参数包括：预设的攻击策略及其收益向量、防御策略及其收益向量、开展攻击行动所需费用向量、入侵检测系统响应费用向量、系统薄弱环节矩阵和系统攻击识别能力矩阵；然后，利用预先构建的网络安全强化分析模型根据待分析网络的基础特征参数确定攻击者的攻击策略空间集合和防御者的防御策略空间集合，该网络安全强化分析模型为采用区间数描述网络安全分析的不完全信息的方式构建的；最后，分别输出攻击者的攻击策略空间集合和防御者的防御策略空间集合。本发明实施例所采用的网络攻防策略分析手段提供了一种同时考虑网络攻击者和防御者行动的分析求解框架，提高了网络安全响应的及时性、有效性，为解决网络安全问题分析提供了一种新的有效途径，并提高了确定出的攻防策略的准确性和参考性，从而对网络安全分析起到准确的指导作用。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例所提供的一种基于强化学习的不完全信息网络安全分析方法的流程示意图；

图2a示出了本发明实施例所提供的在研究收益向量对攻防策略影响的仿真实验中不同收益值下攻击者采取某一攻击策略的强度随时间变化的曲线示意图；

图2b示出了本发明实施例所提供的在研究收益向量对攻防策略影响的仿真实验中不同收益值下系统正确检测概率随时间变化的曲线示意图；

图2c示出了本发明实施例所提供的在研究收益向量对攻防策略影响的仿真实验中不同收益值下防御者采取某一防御策略的强度随时间变化的曲线示意图；

图2d示出了本发明实施例所提供的在研究收益向量对攻防策略影响的仿真实验中不同收益值下攻击者收益值和防御者收益值随时间变化的曲线示意图；

图3a示出了本发明实施例所提供的在研究薄弱环节对攻防策略影响的仿真实验中不同收益值下攻击者采取某一攻击策略的强度随时间变化的曲线示意图；

图3b示出了本发明实施例所提供的在研究薄弱环节对攻防策略影响的仿真实验中不同收益值下系统正确检测概率随时间变化的曲线示意图；

图3c示出了本发明实施例所提供的在研究薄弱环节对攻防策略影响的仿真实验中不同收益值下防御者采取某一防御策略的强度随时间变化的曲线示意图；

图3d示出了本发明实施例所提供的在研究薄弱环节对攻防策略影响的仿真实验中不同收益值下攻击者收益值和防御者收益值随时间变化的曲线示意图；

图4示出了本发明实施例所提供的一种基于强化学习的不完全信息网络安全分析装置的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

考虑到相关技术中缺乏一个同时考虑网络攻击者和防御者行动的分析框架，并确定出的网络攻防策略存在准确度低、参考性差的问题，无法实现对网络安全管理起到科学指导作用。基于此，本发明实施例提供了一种基于强化学习的不完全信息网络安全分析方法及装置，下面通过实施例进行描述。

如图1所示，本发明实施例提供了一种基于强化学习的不完全信息网络安全分析方法，该方法包括步骤S102-S106，具体如下：

步骤S102：获取待分析网络的基础特征参数，该基础特征参数包括：预设的攻击策略收益向量、防御策略收益向量、开展攻击行动所需费用向量、入侵检测系统响应费用向量、系统薄弱环节矩阵和系统攻击识别能力矩阵；

步骤S104：利用预先构建的网络安全强化分析模型根据上述待分析网络的上述基础特征参数确定攻击者的攻击策略空间集合和防御者的防御策略空间集合，该网络安全强化分析模型为采用区间数描述网络安全分析的不完全信息的方式构建的，具体的，在考虑攻防双方策略基础上，将入侵检测系统正确检测概率和收益值视为一个区间数，建立不完全信息下的网络安全强化分析模型，并验证了该网络安全强化分析模型均衡策略的存在性；

步骤S106：分别输出上述攻击者的上述攻击策略空间集合和上述防御者的上述防御策略空间集合，该攻击策略空间集合中各元素表示攻击者采取某一攻击策略的强度，该防御策略空间集合中各元素表示防御者采取某一防御策略的强度。

其中，强化学习在国际上是十分活跃的研究领域。强化学习的机理比较符合人及生物的学习过程，其思想与Brooks提出的行为主义思想是完全一致的。本发明在运用区间数描述不完全信息条件下的攻击收益和网络状态转移概率的基础上，分别建立了攻击者和防御者的收益函数，采用强化学习方法构建了一个包括网络攻击者和防御者的网络安全学习控制系统。

在本发明提供的实施例中，所采用的网络攻防策略分析手段提供了一种同时考虑网络攻击者和防御者行动的分析求解框架，提高了网络安全响应的及时性、有效性，为解决网络安全问题分析提供了一种新的有效途径，并提高了确定出的攻防策略的准确性和参考性，从而对网络安全分析起到准确的指导作用。

具体的，上述利用预先构建的网络安全强化分析模型根据上述待分析网络的上述基础特征参数确定攻击者的攻击策略空间集合和防御者的防御策略空间集合，包括：

在考虑攻防双方策略基础上，根据上述待分析网络的上述基础特征参数和第一网络安全强化分析子模型

确定上述攻击者的上述攻击策略空间集合和上述防御者的上述防御策略空间集合；

其中，μ^A(μ^I,P)表示攻击者的攻击策略空间集合，μ^I(μ^A,P)表示防御者的防御策略空间集合，θ^A表示攻击定义向量，θ^I表示防御定义向量，表示攻击者的攻击策略收益向量，表示防御者的防御策略收益向量，表示开展攻击行动所需费用向量，表示入侵检测系统响应费用向量，γ表示虚警费用、入侵检测费用、攻击者欺骗费用之和，i表示攻击策略序号，i＝1,…,A_max，k表示防御策略序号，k＝1,…,R_max，diag(·)表示对角矩阵，Q表示系统薄弱环节矩阵，_P表示系统攻击识别能力矩阵，表示防御行动与攻击行动之间的交互关系矩阵，[·]⁺表示将变量·中所有数值小于0的赋值为0。

具体的，在本发明提供的实施例中，将攻击者的攻击策略空间集合定义为表示攻击者采用攻击策略为i的强度，将防御者的防御策略空间集合定义为表示防御者采用防御策略为k的强度，网络对抗行动的入侵检测系统对攻击行动识别能力使用一个能力矩阵P＝[p_ij]，i,j＝1,…,A_max，p_ij表示入侵检测系统将攻击者的攻击策略i视为攻击策略j的可能性，i表示攻击者实际采取的攻击策略，j表示入侵检测系统识别出的攻击策略，当i＝j时，说明入侵检测系统正确识别出攻击者的攻击策略，当i≠j时，说明入侵检测系统错误识别出攻击者的攻击策略，此时属于入侵检测系统虚警。其中，上述为矩阵元素包括0和1两种值构成的矩阵。

其中，上述第一网络安全强化分析子模型是通过如下方式构建的：

获取网络攻击者和防御者的原始收益函数方程

对上述原始收益函数方程中各个收益函数求导，并设置各上述收益函数的导数等于零，得到第一网络安全强化分析子模型

将上述第一网络安全强化分析子模型作为上述网络安全强化分析模型，该网络安全强化分析模型确定出的攻击策略和防御策略，使得网络攻击者和防御者之间达到均衡，攻击策略和防御策略为假设攻击者和防御者均为理性人条件下的最优策略；

具体的，上述表示入侵检测系统虚警费用和检测攻击行动费用之和，上述表示攻击者被检测攻击行动费用和攻击者欺骗费用之和，(μ^I)^Tdiag(α)μ^I用来量化防御行动的费用，对入侵检测系统而言，根据具体的响应行动，该费用可以用来表示运用资源的费用，系统运用的各种约束条件，或者是传感器的配置，(μ^A)^Tdiag(β)μ^A用来量化攻击行动的费用，对于攻击者而言，该费用表示攻击者所需资源费用，表示防御者防御一次成功时的费用，表示攻击者攻击一次成功时的费用，另外，考虑到矩阵间的运算关系，令攻击者的攻击策略空间集合令防御者的防御策略空间集合

在本发明提供的实施例中，通过对原始收益函数方程中的攻击策略收益函数和防御策略收益函数分别进行求导，并设置其导数等于零，从而推到出攻击者的攻击策略空间集合计算公式和防御者的防御策略空间集合计算公式，进而计算得到攻击者的最优攻击策略空间集合和的防御者的最优防御策略空间集合，能够实现确定出的攻击策略和防御策略，使得网络攻击者和防御者之间达到均衡。

进一步的，考虑到入侵检测系统的学习能力，当上述系统攻击识别能力矩阵与时间变量之间的关系式为时，上述利用预先构建的网络安全强化分析模型根据上述待分析网络的上述基础特征参数确定攻击者的攻击策略空间集合和防御者的防御策略空间集合，包括：

根据上述待分析网络的上述基础特征参数和第二网络安全强化分析子模型

确定上述攻击者的上述攻击策略空间集合和上述防御者的上述防御策略空间集合，其中，当上述系统攻击识别能力矩阵与时间变量之间的关系式为时，将第二网络安全强化分析子模型作为网络安全强化分析模型；

其中，n表示时间变量，n+1表示n时刻的下一时刻，μ^A(n+1)表示n+1时刻攻击者的防御策略空间集合，μ^I(n+1)表示n+1时刻防御者的防御策略空间集合，δ表示第一标量，δ＞0，ε表示第二标量，ε＞0，W(n)表示n时刻随机矩阵，W＝[w_ik]，且w_ij服从均匀分布[-1,1]，i表示攻击策略序号，i＝1,…,A_max，k表示防御策略序号，k＝1,…,R_max，[·]^N表示将变量·映射到区间[dt_min,dt_max]的函数，即将入侵检测系统正确检测概率和收益值视为一个区间数，dt_min表示系统攻击识别能力矩阵P(n)中各个元素的最小值，dt_max表示系统攻击识别能力矩阵P(n)中各个元素的最大值，dt_max＜1。

在本发明提供的实施例中，给出的第二网络安全强化分析子模型将检测概率限定在[dt_min,dt_max]范围内波动，能够反映入侵检测系统的虚警率；同时，通过因式来考察过去攻防行动对入侵检测概率的影响，进而提高入侵检测系统的正确检测概率。

进一步的，为了提高第二网络安全强化分析子模型的收敛性和稳定性，避免出现第二网络安全强化分析子模型的最终求解结果为无解的情况，上述方法还包括：

将不等式

|p_ij(n+1)-Idl_ij|＜|p_ij(n)-Idl_ij|+ε|w_ij(n)|+δ|x_-i|＜|p_ij(n)-Idl_ij|+ε+δ|x_-i|作为上述系统攻击识别能力矩阵与时间变量之间的关系式的约束条件，以提高上述第二网络安全强化分析子模型的收敛性和稳定性；

具体的，并且对于任意n，ε＝0，δ＝0，当n→∞时，P(n)很明显将收敛于Idl矩阵，而且，当第一标量δ＞0、第二标量ε＞0足够小时，从任意可行点开始，将收敛到区域Reg(ε)＝并且当i≠j时，满足

在本发明提供的实施例中，通过将上述不等式|p_ij(n+1)-Idl_ij|＜|p_ij(n)-Idl_ij|+ε|w_ij(n)|+δ|x_-i|＜|p_ij(n)-Idl_ij|+ε+δ|x_-i|作为系统攻击识别能力矩阵与时间变量之间的关系式的约束条件，能够提高第二网络安全强化分析子模型的收敛性和稳定性，避免出现第二网络安全强化分析子模型的最终求解结果为无解的情况。

同样的，上述第二网络安全强化分析子模型与上述第一网络安全强化分析子模型的构建方式类似，不同点在于，需要将给出的系统攻击识别能力矩阵与时间变量之间的关系式带入模型中，在此不再赘述。

接下来，在本发明提供的实施例中还对收益向量对攻防策略影响、薄弱环节对攻防策略影响进行了仿真实验分析，具体为：

首先，假设入侵检测系统对三种攻击策略进行监控，网络攻击者和入侵检测系统默认参数的设定分别为：c^I＝c^A＝[20,40,60]，α＝β＝[10,10,10]，γ＝10，ε＝0.01，δ＝0.001，p_ij∈[dt_min,dt_max]＝[0.3,0.7]。

(1)收益向量对攻防策略影响：

为了考察网络对抗行动收益向量对最优攻防策略的影响，定义攻击者的攻击策略收益向量为c^A＝[50,100,150]，防御者的防御策略收益向量为c^I＝[50,100,150]，其它参数取上述默认值。运用上述第二网络安全强化分析子模型进行仿真，其中，仿真结果如图2a至2d所示。

从图2a和2c中可知，攻击策略和防御策略的收益值越大，相应攻击策略和防御策略的对抗强度就越大。从图2b可知，对抗行动的收益值越大，入侵检测系统正确检测概率收敛的越快，即学习能力越强。从管理学视角来看，对于影响局中人切身利益的事情，局中人往往会采取积极、主动的态度去分析问题，并且不断更新对对手行动的认识。从图2d可知，攻击者在初始阶段，其收益值迅速增长，但是随后其收益值逐渐下降，直到稳定。这一方面说明攻击者在网络对抗初期九应该集中“火力”对网络展开攻击。

(2)薄弱环节对攻防策略影响：

在网络对抗行动过程中，攻击者对于待攻击网络的信息是不断增加的。在本仿真实验中，假设当t＝100时，用系统薄弱环节矩阵从diag(1,1,1)转变为diag(2,1,1)来表示攻击者获得的系统薄弱信息，其它仿真参数取上述默认值，仿真结果如图3a至3d所示。

从图3a、3c、3d中可知，当攻击者发现网络中某薄弱环节后，针对该薄弱环节的攻击强度立刻增大，相应的攻击收益值也发生突变。相反，由于防御者时刻处于被动地位，为了确保网络安全，需要在网络薄弱环节处投入更多的防御力量。这种不对称的对抗行动，使得攻击者的收益值持续增大，而防御者的收益值越来越小。从图3b中可知，当攻击者获知系统薄弱环节后，系统的检测概率没有多大变化。由此可知，一方面，在网络对抗过程，攻击者对网络软件、硬件、结构脆弱性等掌握的越多，攻击者行动的成功率就越高；另一方面，以通过散步大量虚假信息来消耗网络攻击者的时间和资源，为网络防御者检测攻击创造出更多机会，便于后续分析、识别进而做出适当响应。

在本发明提供的基于强化学习的不完全信息网络安全分析方法中，首先，获取待分析网络的基础特征参数，该基础特征参数包括：预设的攻击策略及其收益向量、防御策略及其收益向量、开展攻击行动所需费用向量、入侵检测系统响应费用向量、系统薄弱环节矩阵和系统攻击识别能力矩阵；然后，利用预先构建的网络安全强化分析模型根据待分析网络的基础特征参数确定攻击者的攻击策略空间集合和防御者的防御策略空间集合，该网络安全强化分析模型为采用区间数描述网络安全分析的不完全信息的方式构建的；最后，分别输出攻击者的攻击策略空间集合和防御者的防御策略空间集合。本发明实施例所采用的网络攻防策略分析手段提供了一种同时考虑网络攻击者和防御者行动的分析求解框架，提高了网络安全响应的及时性、有效性，为解决网络安全问题分析提供了一种新的有效途径，并提高了确定出的攻防策略的准确性和参考性，从而对网络安全分析起到准确的指导作用；进一步的，通过对原始收益函数方程中的攻击策略收益函数和防御策略收益函数分别进行求导，并设置其导数等于零，从而推到出攻击者的攻击策略空间集合计算公式和防御者的防御策略空间集合计算公式，进而计算得到攻击者的最优攻击策略空间集合和的防御者的最优防御策略空间集合，能够实现确定出的攻击策略和防御策略，使得网络攻击者和防御者之间达到均衡；更进一步的，给出的第二网络安全强化分析子模型将检测概率限定在[dt_min,dt_max]范围内波动，能够反映入侵检测系统的虚警率；同时，通过因式来考察过去攻防行动对入侵检测概率的影响，进而提高入侵检测系统的正确检测概率。

本发明实施例还提供了一种基于强化学习的不完全信息网络安全分析装置，如图4所示，该装置包括：

参数获取模块402，用于获取待分析网络的基础特征参数，上述基础特征参数包括：预设的攻击策略收益向量、防御策略收益向量、开展攻击行动所需费用向量、入侵检测系统响应费用向量、系统薄弱环节矩阵和系统攻击识别能力矩阵；

策略确定模块404，用于利用预先构建的网络安全强化分析模型根据上述待分析网络的上述基础特征参数确定攻击者的攻击策略空间集合和防御者的防御策略空间集合，该网络安全强化分析模型为采用区间数描述网络安全分析的不完全信息的方式构建的，具体的，在考虑攻防双方策略基础上，将入侵检测系统正确检测概率和收益值视为一个区间数，建立不完全信息下的网络安全强化分析模型，并验证了该网络安全强化分析模型均衡策略的存在性；

策略输出模块406，用于分别输出上述攻击者的上述攻击策略空间集合和上述防御者的上述防御策略空间集合，上述攻击策略空间集合中各元素表示攻击者采取某一攻击策略的强度，上述防御策略空间集合中各元素表示防御者采取某一防御策略的强度。

在本发明提供的实施例中，所采用的网络攻防策略分析装置提供了一种同时考虑网络攻击者和防御者行动的分析求解框架，提高了网络安全响应的及时性、有效性，为解决网络安全问题分析提供了一种新的有效途径，并提高了确定出的攻防策略的准确性和参考性，从而对网络安全分析起到准确的指导作用。

进一步的，上述策略确定模块404具体包括：

第一策略确定子模块，用于在考虑攻防双方策略基础上，根据上述待分析网络的上述基础特征参数和第一网络安全强化分析子模型

进一步的，上述装置还包括：

将上述第一网络安全强化分析子模型作为上述网络安全强化分析模型，上述网络安全强化分析模型确定出的攻击策略和防御策略，使得网络攻击者和防御者之间达到均衡，攻击策略和防御策略为假设攻击者和防御者均为理性人条件下的最优策略；

进一步的，考虑到入侵检测系统的学习能力，当上述系统攻击识别能力矩阵与时间变量之间的关系式为时，上述策略确定模块404包括：

第二策略确定子模块，用于根据上述待分析网络的上述基础特征参数和第二网络安全强化分析子模型

其中，n表示时间变量，n+1表示n时刻的下一时刻，μ^A(n+1)表示n+1时刻攻击者的防御策略空间集合，μ^I(n+1)表示n+1时刻防御者的防御策略空间集合，δ表示第一标量，δ＞0，ε表示第二标量，ε＞0，W(n)表示n时刻随机矩阵，[·]^N表示将变量·映射到区间[dt_min,dt_max]的函数，即将入侵检测系统正确检测概率和收益值视为一个区间数，dt_min表示系统攻击识别能力矩阵P(n)中各个元素的最小值，dt_max表示系统攻击识别能力矩阵P(n)中各个元素的最大值，dt_max＜1。

进一步的，为了提高第二网络安全强化分析子模型的收敛性和稳定性，避免出现第二网络安全强化分析子模型的最终求解结果为无解的情况，上述装置还包括：

约束条件确定模块，用于将不等式|p_ij(n+1)-Idl_ij|＜|p_ij(n)-Idl_ij|+ε|w_ij(n)|+δ|x_-i|＜|p_ij(n)-Idl_ij|+ε+δ|x_-i|作为上述系统攻击识别能力矩阵与时间变量之间的关系式的约束条件，以提高上述第二网络安全强化分析子模型的收敛性和稳定性；

在本发明提供的基于强化学习的不完全信息网络安全分析装置中，首先，通过参数获取模块402获取待分析网络的基础特征参数，该基础特征参数包括：预设的攻击策略及其收益向量、防御策略及其收益向量、开展攻击行动所需费用向量、入侵检测系统响应费用向量、系统薄弱环节矩阵和系统攻击识别能力矩阵；然后，通过策略确定模块404利用预先构建的网络安全强化分析模型根据待分析网络的基础特征参数确定攻击者的攻击策略空间集合和防御者的防御策略空间集合，该网络安全强化分析模型为采用区间数描述网络安全分析的不完全信息的方式构建的；最后，通过策略输出模块406分别输出攻击者的攻击策略空间集合和防御者的防御策略空间集合。本发明实施例所采用的网络攻防策略分析装置提供了一种同时考虑网络攻击者和防御者行动的分析求解框架，提高了网络安全响应的及时性、有效性，为解决网络安全问题分析提供了一种新的有效途径，并提高了确定出的攻防策略的准确性和参考性，从而对网络安全分析起到准确的指导作用；进一步的，通过对原始收益函数方程中的攻击策略收益函数和防御策略收益函数分别进行求导，并设置其导数等于零，从而推到出攻击者的攻击策略空间集合计算公式和防御者的防御策略空间集合计算公式，进而计算得到攻击者的最优攻击策略空间集合和的防御者的最优防御策略空间集合，能够实现确定出的攻击策略和防御策略，使得网络攻击者和防御者之间达到均衡；更进一步的，给出的第二网络安全强化分析子模型将检测概率限定在[dt_min,dt_max]范围内波动，能够反映入侵检测系统的虚警率；同时，通过因式来考察过去攻防行动对入侵检测概率的影响，进而提高入侵检测系统的正确检测概率。

本发明实施例所提供的基于强化学习的不完全信息网络安全分析装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的实施例中，应该理解到，所揭露装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本发明提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于强化学习的不完全信息网络安全分析方法，其特征在于，所述方法包括：

分别输出所述攻击者的所述攻击策略空间集合和所述防御者的所述防御策略空间集合，所述攻击策略空间集合中各元素表示攻击者采取某一攻击策略的强度，所述防御策略空间集合中各元素表示防御者采取某一防御策略的强度；

其中，所述利用预先构建的网络安全强化分析模型根据所述待分析网络的所述基础特征参数确定攻击者的攻击策略空间集合和防御者的防御策略空间集合，包括：

2.根据权利要求1所述的方法，其特征在于，所述第一网络安全强化分析子模型是通过如下方式构建的：

获取网络攻击者和防御者的原始收益函数方程

3.根据权利要求1所述的方法，其特征在于，当所述系统攻击识别能力矩阵与时间变量之间的关系式为时，所述利用预先构建的网络安全强化分析模型根据所述待分析网络的所述基础特征参数确定攻击者的攻击策略空间集合和防御者的防御策略空间集合，包括：

其中，n表示时间变量，n+1表示n时刻的下一时刻，μ^A(n+1)表示n+1时刻攻击者的攻击策略空间集合，μ^I(n+1)表示n+1时刻防御者的防御策略空间集合，δ表示第一标量，δ＞0，ε表示第二标量，ε＞0，W(n)表示n时刻随机矩阵，[·]^N表示将变量·映射到区间[dt_min,dt_max]的函数，dt_min表示系统攻击识别能力矩阵P(n)中各个元素的最小值，dt_max表示系统攻击识别能力矩阵P(n)中各个元素的最大值，dt_max＜1。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

将不等式

5.一种基于强化学习的不完全信息网络安全分析装置，其特征在于，所述装置包括：

策略输出模块，用于分别输出所述攻击者的所述攻击策略空间集合和所述防御者的所述防御策略空间集合，所述攻击策略空间集合中各元素表示攻击者采取某一攻击策略的强度，所述防御策略空间集合中各元素表示防御者采取某一防御策略的强度；

其中，所述策略确定模块包括：

6.根据权利要求5所述的装置，其特征在于，所述装置还包括：

7.根据权利要求5所述的装置，其特征在于，当所述系统攻击识别能力矩阵与时间变量之间的关系式为时，所述策略确定模块包括：

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：