CN114615092B

CN114615092B - 网络攻击序列生成方法、装置、设备和存储介质

Info

Publication number: CN114615092B
Application number: CN202210506496.4A
Authority: CN
Inventors: 郝伟; 马维士; 沈传宝
Original assignee: Anhui Huayun'an Technology Co ltd
Current assignee: Anhui Huayun'an Technology Co ltd
Priority date: 2022-05-11
Filing date: 2022-05-11
Publication date: 2022-08-02
Anticipated expiration: 2042-05-11
Also published as: CN114615092A

Abstract

本发明的实施例提供了一种网络攻击序列生成方法、装置、设备和存储介质。该方法包括：获取网络攻击路径，网络攻击路径由多个网络攻击战术依次组成，每个网络攻击战术包括一个或多个网络攻击策略；根据每个网络攻击策略对应的目标网络攻击工具，计算任意两个目标网络攻击工具的连接权重，并根据任意两个目标网络攻击工具的连接权重，构建权重矩阵；采用权重矩阵和Q‑Learning算法生成并训练Q表，得到目标Q表；根据目标Q表，确定每个网络攻击战术使用的目标网络攻击工具，并根据每个网络攻击战术使用的目标网络攻击工具，快速生成攻击效果突出的网络攻击序列。

Description

网络攻击序列生成方法、装置、设备和存储介质

技术领域

本发明涉及网络安全领域，尤其涉及一种网络攻击序列生成方法、装置、设备和存储介质。

背景技术

近年来，网络攻击事件频发，互联网上的木马、蠕虫、勒索攻击层出不穷，这对网络安全形成了严重的威胁。因此，需要对网络进行攻防测试，测试网络的防护能力。

通常情况下攻击者的网络攻击战术多种多样，每种战术下有不同攻击策略可选择。传统情况下可以通过人工分析来获取网络攻击序列，但是该方式效率较低。因此，如何快速获取攻击效果突出的网络攻击序列就成了网络攻防测试中亟待解决的问题。

发明内容

本发明提供了一种网络攻击序列生成方法、装置、设备和存储介质，可以自动快速地生成攻击效果突出的网络攻击序列。

第一方面，本发明实施例提供了一种网络攻击序列生成方法，该方法包括：

获取网络攻击路径，其中，网络攻击路径由多个网络攻击战术依次组成，每个网络攻击战术包括一个或多个网络攻击策略；

根据每个网络攻击策略对应的目标网络攻击工具，计算任意两个目标网络攻击工具的连接权重，并根据任意两个目标网络攻击工具的连接权重，构建权重矩阵；

采用权重矩阵和Q-Learning算法生成Q表，并训练Q表，得到目标Q表；

根据目标Q表，确定每个网络攻击战术使用的目标网络攻击工具，并根据每个网络攻击战术使用的目标网络攻击工具，生成网络攻击序列。

在第一方面的一些可实现方式中，获取网络攻击路径包括：

获取网络攻击行为；

根据ATT&CK框架对网络攻击行为进行建模描述，得到网络攻击路径。

在第一方面的一些可实现方式中，该方法还包括：

对网络攻击设备进行检测，确定网络攻击设备安装的网络攻击工具；

对网络攻击设备安装的网络攻击工具进行分类，确定每个网络攻击策略对应的目标网络攻击工具。

在第一方面的一些可实现方式中，该方法还包括：

查找每个网络攻击策略对应的网络攻击工具；

向用户显示每个网络攻击策略对应的网络攻击工具的信息，以用于用户选择网络攻击工具；

接收用户输入的网络攻击工具选择信息；

确定网络攻击工具选择信息对应的网络攻击工具为其所属网络攻击策略对应的目标网络攻击工具。

在第一方面的一些可实现方式中，采用权重矩阵和Q-Learning算法训练Q表，得到目标Q表，包括：

将权重矩阵作为Q-Learning算法的奖励矩阵，利用奖励矩阵和Q-Learning算法训练规则执行Episode训练，不断更新Q表，直到Episode训练次数达到预设阈值，得到目标Q表；

Q-Learning算法训练规则如下：

其中，

表示更新后的Q值，

表示在当前网络攻击工具s连接网络攻击工具a后的Q值，

表示下一网络攻击工具a连接网络攻击工具a'后的Q值，R表示奖励矩阵中当前网络攻击工具s连接网络攻击工具a后的奖励，γ表示衰变系数，α表示学习效率。

在第一方面的一些可实现方式中，根据目标Q表，确定每个网络攻击战术使用的目标网络攻击工具，包括：

根据目标Q表，确定实施当前网络攻击战术使用的目标网络攻击工具与下一网络攻击战术的目标网络攻击工具对应的Q值；

确定下一网络攻击战术中Q值最大的目标网络攻击工具为实施下一网络攻击战术使用的目标网络攻击工具，不断迭代，直到确定实施最后一个网络攻击战术使用的目标网络攻击工具。

在第一方面的一些可实现方式中，该方法还包括：

根据网络攻击序列，对目标网络实施网络攻防测试。

第二方面，本发明实施例提供了一种网络攻击序列生成装置，该装置包括：

获取模块，用于获取网络攻击路径，其中，网络攻击路径由多个网络攻击战术依次组成，每个网络攻击战术包括一个或多个网络攻击策略；

计算模块，用于根据每个网络攻击策略对应的目标网络攻击工具，计算任意两个目标网络攻击工具的连接权重，并根据任意两个目标网络攻击工具的连接权重，构建权重矩阵；

训练模块，用于采用权重矩阵和Q-Learning算法生成Q表，并训练Q表，得到目标Q表；

生成模块，用于根据目标Q表，确定每个网络攻击战术使用的目标网络攻击工具，并根据每个网络攻击战术使用的目标网络攻击工具，生成网络攻击序列。

第三方面，本发明实施例提供了一种电子设备，该电子设备包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如以上所述的方法。

第四方面，本发明实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行如以上所述的方法。

第五方面，本发明实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序，计算机程序在被处理器执行时实现如以上所述的方法。

在本发明中，可以获取网络攻击路径，其中，网络攻击路径由多个网络攻击战术依次组成，每个网络攻击战术包括一个或多个网络攻击策略，然后根据每个网络攻击策略对应的目标网络攻击工具，计算任意两个目标网络攻击工具的连接权重，并根据任意两个目标网络攻击工具的连接权重，构建权重矩阵，接着采用权重矩阵和Q-Learning算法生成并训练Q表，得到目标Q表，进而根据目标Q表，确定每个网络攻击战术使用的目标网络攻击工具，并根据每个网络攻击战术使用的目标网络攻击工具，快速生成攻击效果突出的网络攻击序列。

应当理解，发明内容部分中所描述的内容并非旨在限定本发明的实施例的关键或重要特征，亦非用于限制本发明的范围。本发明的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本发明各实施例的上述和其他特征、优点及方面将变得更加明显。附图用于更好地理解本方案，不构成对本发明的限定在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了一种能够在其中实现本发明的实施例的示例性运行环境的示意图；

图2示出了本发明实施例提供的一种网络攻击序列生成方法的流程图；

图3示出了本发明实施例提供的一种网络攻击路径示意图；

图4示出了本发明实施例提供的一种提权网络攻击路径示意图；

图5示出了本发明实施例提供的一种网络攻击序列生成装置的结构图；

图6示出了一种能够实施本发明的实施例的示例性电子设备的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例，都属于本发明保护的范围。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

针对背景技术中出现的问题，本发明实施例提供了一种网络攻击序列生成方法、装置、设备和存储介质。具体地，可以获取网络攻击路径，其中，网络攻击路径由多个网络攻击战术依次组成，网络攻击战术包括一个或多个网络攻击策略，然后根据每个网络攻击策略对应的目标网络攻击工具，计算任意两个目标网络攻击工具的连接权重，并根据任意两个目标网络攻击工具的连接权重，构建权重矩阵，接着采用权重矩阵和Q-Learning算法生成并训练Q表，得到目标Q表，进而根据目标Q表，确定每个网络攻击战术使用的目标网络攻击工具，并根据每个网络攻击战术使用的目标网络攻击工具，快速生成攻击效果突出的网络攻击序列。

下面结合附图，通过具体的实施例对本发明实施例提供的网络攻击序列生成方法、装置、设备和存储介质进行详细地说明。

图1示出了一种能够在其中实现本发明的实施例的示例性运行环境100的示意图，如图1所示，运行环境100中可以包括电子设备110和目标网络120。

其中，电子设备110可以是移动电子设备，也可以是非移动电子设备。例如，移动电子设备可以是平板电脑、笔记本电脑、掌上电脑或者超级移动个人计算机（Ultra-MobilePersonal Computer，UMPC）等，非移动电子设备可以是个人计算机（Personal Computer，PC）或者服务器等。

目标网络120是进行网络攻防测试的网络，其可以是企业或团体的整体网络，包括多个资产，其中，资产可以是主机、网关设备、路由器、Web系统、数据库等。

作为一个示例，电子设备110可以获取网络攻击路径，其中，网络攻击路径由多个网络攻击战术依次组成，每个网络攻击战术包括一个或多个网络攻击策略。

然后根据每个网络攻击策略对应的目标网络攻击工具，计算任意两个目标网络攻击工具的连接权重，并根据任意两个目标网络攻击工具的连接权重，构建权重矩阵。

采用权重矩阵和Q-Learning算法生成Q表，并训练Q表，得到目标Q表，并根据目标Q表，确定每个网络攻击战术将要使用的目标网络攻击工具，并根据每个网络攻击战术将要使用的目标网络攻击工具，快速生成网络攻击序列也即有序的网络攻击工具组合。

在需要对目标网络120进行网络攻防测试时，可以根据网络攻击序列，对目标网络120实施网络攻防测试。也就是说，可以依次利用网络攻击序列中的网络攻击工具对目标网络120实施相应的网络攻击策略，达成对应的网络攻击战术，最终完成整个网络攻击路径。

下面将详细介绍本发明实施例提供的网络攻击序列生成方法，其中，该网络攻击序列生成方法的执行主体可以是图1所示的电子设备110。

图2示出了本发明实施例提供的一种网络攻击序列生成方法的流程图，如图2所示，网络攻击序列生成方法200可以包括以下步骤：

S210，获取网络攻击路径。

具体地，可以获取网络攻击行为也即用户想要发起的网络攻击行为，根据ATT&CK框架对网络攻击行为进行建模描述，快速得到网络攻击路径。

其中，网络攻击路径由多个网络攻击战术依次组成，每个网络攻击战术包括一个或多个网络攻击策略。可知，每个网络攻击策略均可实现其对应的网络攻击战术。

作为一个示例，图3示出了本发明实施例提供的一种网络攻击路径示意图，如图3所示，其中的网络攻击路径可以由初始、执行、持久、……、影响等网络攻击战术依次组成，每个网络攻击战术下的矩形表示其包括的网络攻击策略。其中，网络攻击策略可以由一个或多个网络攻击工具实施，例如端口扫描策略可以使用nmap、unicornscan、zenmap等网络攻击工具实施。可知，每个网络攻击工具均可实施其对应的网络攻击策略。

可以理解的是，网络攻击路径可以以矩阵形式表示。例如，网络攻击路径可以表示为一个三维矩阵，其定义如下：

（1）

其中，

表示第n个网络攻击战术，其展开为：

（2）

其中，

表示第n个网络攻击战术的第m个网络攻击策略，其展开为：

（3）

其中，

表示第m个网络攻击策略的第t个网络攻击工具。

S220，根据每个网络攻击策略对应的目标网络攻击工具，计算任意两个目标网络攻击工具的连接权重，并根据任意两个目标网络攻击工具的连接权重，构建权重矩阵。

可选地，可以对网络攻击设备进行检测，确定网络攻击设备安装的网络攻击工具，进而对网络攻击设备安装的网络攻击工具进行分类，也即划分网络攻击工具属于哪一网络攻击策略，进而确定每个网络攻击策略对应的目标网络攻击工具。如此一来，可以根据网络攻击设备上已存在的网络攻击工具，确定每个网络攻击策略对应的目标网络攻击工具，使得后续训练的目标Q表更适应于实际情况。

此外，也可以查找每个网络攻击策略对应的网络攻击工具，例如网络攻击策略实施所需的各种网络攻击工具，然后向用户显示每个网络攻击策略对应的网络攻击工具的信息，以用于用户选择其需要的网络攻击工具。进而接收用户输入的网络攻击工具选择信息，确定网络攻击工具选择信息对应的网络攻击工具为其所属网络攻击策略对应的目标网络攻击工具。如此一来，可以由用户主动选择所需的网络攻击工具为网络攻击策略对应的目标网络攻击工具，使得后续训练的目标Q表更符合用户需求。

在一些实施例中，可以根据权重算法计算任意两个目标网络攻击工具的连接权重，也可以从预设的权重表中查找任意两个目标网络攻击工具的连接权重，在此不做限制。进而根据任意两个目标网络攻击工具的连接权重，构建权重矩阵。

其中，任意两个目标网络攻击工具的连接权重包括：任意两个目标网络攻击工具中第一目标网络攻击工具连接到第二目标网络攻击工具的权重，以及第二目标网络攻击工具连接到第一目标网络攻击工具的权重。

例如，假设存在工具A和工具B，工具A和工具B的连接权重，即包括工具A连接到工具B的权重，工具B连接到工具A的权重。其中，工具A连接到工具B表示当前使用工具A，下一步使用工具B。工具B连接到工具A表示当前使用工具B，下一步使用工具A。

作为一个示例，权重矩阵可以如下所示：

（4）

示例性地，第1个网络攻击工具与第x个网络攻击工具的连接权重可以包括

和

，其中，

表示第1个网络攻击工具连接到第x个网络攻击工具的权重，

表示第x个网络攻击工具连接到第1个网络攻击工具的权重。

S230，采用权重矩阵和Q-Learning算法生成Q表，并训练Q表，得到目标Q表。

可知，Q-Learning算法是强化学习算法中的算法，其中的Q（s,a）就是在某一时刻的s状态下（s∈S），采取动作a（a∈A）后能够获得奖励的期望，所以该算法的主要思想就是将状态（State）与动作（Action）构建成一张Q表来存储Q值，然后根据Q值来选取能够获得最大的奖励的动作。

示例性地，Q表结构可以如下所示：

表1

Q-Table	a1	a2
			s1	Q(s1,a1)	Q(s1,a2)
s2	Q(s2,a1)	Q(s2,a2)
			s3	Q(s3,a1)	Q(s3,a2)

Q表可以根据以下公式进行更新：

（5）

其中，

表示更新后的Q值，

表示在当前状态s下执行动作a后的Q值，

表示下一状态s'下执行动作a'后的Q值，R表示奖励矩阵中当前状态s下执行动作a后的奖励，γ表示衰变系数，α表示学习效率。

在一些实施例中，参见S220中训构建的权重矩阵，生成的Q表可以如下所示：

表2

Q-Table	T<sub>1</sub>	T<sub>2</sub>	…	T<sub>x</sub>
					T<sub>1</sub>	Q(T<sub>1</sub>,T<sub>1</sub>)	Q(T<sub>1</sub>,T<sub>2</sub>)	…	Q(T<sub>1</sub>,T<sub>x</sub>)
T<sub>2</sub>	Q(T<sub>2</sub>,T<sub>1</sub>)	Q(T<sub>2</sub>,T<sub>2</sub>)	…	Q(T<sub>2</sub>,T<sub>x</sub>)
					…	…	…	…	…
T<sub>X</sub>	Q(T<sub>x</sub>,T<sub>1</sub>)	Q(T<sub>x</sub>,T<sub>2</sub>)	…	Q(T<sub>x</sub>,T<sub>x</sub>)

示例性地，Q(T₁,T_x)表示第1个网络攻击工具连接到第x个网络攻击工具的Q值，Q(T_x,T₁)表示第x个网络攻击工具连接到第1个网络攻击工具的Q值。

可知，刚生成的Q表中的Q值皆为0，可以将权重矩阵作为Q-Learning算法的奖励矩阵，利用奖励矩阵和Q-Learning算法训练规则执行Episode训练，不断更新Q表，直到Episode训练次数达到预设阈值，从而快速得到精确的目标Q表。

Q-Learning算法训练规则可以如下所示：

其中，

表示更新后的Q值，

表示在当前网络攻击工具s连接网络攻击工具a后的Q值，

表示下一网络攻击工具a连接网络攻击工具a'后的Q值，R表示奖励矩阵中当前网络攻击工具s连接网络攻击工具a后的奖励即权重，γ表示衰变系数，α表示学习效率。

S240，根据目标Q表，确定每个网络攻击战术使用的目标网络攻击工具，并根据每个网络攻击战术使用的目标网络攻击工具，生成网络攻击序列。

具体地，可以根据目标Q表，确定实施当前网络攻击战术使用的目标网络攻击工具与下一网络攻击战术的目标网络攻击工具对应的Q值，进而确定下一网络攻击战术中Q值最大的目标网络攻击工具为实施下一网络攻击战术使用的目标网络攻击工具，不断迭代下去，直到确定实施最后一个网络攻击战术使用的目标网络攻击工具，从而自动精确地得到每个网络攻击战术使用的目标网络攻击工具。可以理解，可以计算第一个网络攻击战术的每个目标网络攻击工具与第二个网络攻击战术的每个目标网络攻击工具对应的Q值，选择第一个网络攻击战术中Q值最大的目标网络攻击工具为实施第一个网络攻击战术使用的目标网络攻击工具。

接下来根据每个网络攻击战术使用的目标网络攻击工具，生成网络攻击序列也即有序的网络攻击工具组合。

根据本发明实施例，可以根据网络攻击路径中的每个网络攻击策略对应的目标网络攻击工具，计算任意两个目标网络攻击工具的连接权重，并根据任意两个目标网络攻击工具的连接权重，构建权重矩阵，接着采用权重矩阵和Q-Learning算法生成并训练Q表，得到目标Q表，进而根据目标Q表，确定每个网络攻击战术使用的目标网络攻击工具，并根据每个网络攻击战术使用的目标网络攻击工具，快速生成攻击效果突出的网络攻击序列。

在一些实施例中，可以根据网络攻击序列，对目标网络实施网络攻防测试，提高网络攻击效果。具体地，可以依次利用网络攻击序列中的网络攻击工具对目标网络实施相应的网络攻击策略，达成对应的网络攻击战术，最终完成整个网络攻击路径。

下面可以结合一个具体实施例，对本发明实施例提供的网络攻击序列生成方法进行详细说明，具体如下：

当用户需要对目标网络进行一个提权网络攻击行为时，可以从根据ATT&CK框架对提权攻击行为进行建模描述，得到提权网络攻击路径。该提权网络攻击路径可以如图4所示，由初始、执行、持久和提权四个网络攻击战术依次组成，每个网络攻击战术包括多个网络攻击策略，每个网络攻击策略由多个网络攻击工具实施。

接着将权重矩阵作为Q-Learning算法的奖励矩阵，利用奖励矩阵和Q-Learning算法训练规则执行Episode训练，不断更新Q表，直到Episode训练次数达到预设阈值，从而得到目标Q表。

紧接着根据目标Q表，确定每个网络攻击战术使用的目标网络攻击工具，并根据每个网络攻击战术使用的目标网络攻击工具，生成网络攻击序列。

最终根据每个网络攻击战术使用的目标网络攻击工具，生成网络攻击序列。

如图4所示，连接的线段箭头表示网络攻击工具连接即执行的方向，线上的数据表示目标Q表中对应的Q值。如上所示，经过对Q值的评估计算，虚线箭头线段所连接的网络攻击工具即是每个网络攻击战术推荐使用的网络攻击工具。这样就可以生成网络攻击序列，便于后续进行提权网络攻击。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本发明所必须的。

以上是关于方法实施例的介绍，以下通过装置实施例，对本发明所述方案进行进一步说明。

图5示出了根据本发明的实施例提供的一种网络攻击序列生成装置的结构图，如图5所示，网络攻击序列生成装置500可以包括：

获取模块510，用于获取网络攻击路径，其中，网络攻击路径由多个网络攻击战术依次组成，每个网络攻击战术包括一个或多个网络攻击策略。

计算模块520，用于根据每个网络攻击策略对应的目标网络攻击工具，计算任意两个目标网络攻击工具的连接权重，并根据任意两个目标网络攻击工具的连接权重，构建权重矩阵。

训练模块530，用于采用权重矩阵和Q-Learning算法生成Q表，并训练Q表，得到目标Q表。

生成模块540，用于根据目标Q表，确定每个网络攻击战术使用的目标网络攻击工具，并根据每个网络攻击战术使用的目标网络攻击工具，生成网络攻击序列。

在一些实施例中，获取模块510具体用于：

获取网络攻击行为。

在一些实施例中，网络攻击序列生成装置500还包括：

检测模块，用于对网络攻击设备进行检测，确定网络攻击设备安装的网络攻击工具。

分类模块，用于对网络攻击设备安装的网络攻击工具进行分类，确定每个网络攻击策略对应的目标网络攻击工具。

在一些实施例中，网络攻击序列生成装置500还包括：

查找模块，用于查找每个网络攻击策略对应的网络攻击工具。

显示模块，用于向用户显示每个网络攻击策略对应的网络攻击工具的信息，以用于用户选择网络攻击工具。

接收模块，用于接收用户输入的网络攻击工具选择信息。

确定模块，用于确定网络攻击工具选择信息对应的网络攻击工具为其所属网络攻击策略对应的目标网络攻击工具。

在一些实施例中，训练模块530具体用于：

将权重矩阵作为Q-Learning算法的奖励矩阵，利用奖励矩阵和Q-Learning算法训练规则执行Episode训练，不断更新Q表，直到Episode训练次数达到预设阈值，得到目标Q表。

Q-Learning算法训练规则如下：

其中，

表示更新后的Q值，

表示在当前网络攻击工具s连接网络攻击工具a后的Q值，

在一些实施例中，生成模块540具体用于：

根据目标Q表，确定实施当前网络攻击战术使用的目标网络攻击工具与下一网络攻击战术的目标网络攻击工具对应的Q值。

在一些实施例中，网络攻击序列生成装置500还包括：

测试模块，用于根据网络攻击序列，对目标网络实施网络攻防测试。

可以理解的是，图5所示网络攻击序列生成装置500中的各个模块/单元具有实现本发明实施例提供的网络攻击序列生成方法200中的各个步骤的功能，并能达到其相应的技术效果，为了简洁，在此不再赘述。

图6示出了一种可以用来实施本发明的实施例的电子设备的结构图。电子设备600旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备600还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图6所示，电子设备600可以包括计算单元601，其可以根据存储在只读存储器（ROM）602中的计算机程序或者从存储单元608加载到随机访问存储器（RAM）603中的计算机程序，来执行各种适当的动作和处理。在RAM603中，还可存储电子设备600操作所需的各种程序和数据。计算单元601、ROM602以及RAM603通过总线604彼此相连。输入/输出（I/O）接口605也连接至总线604。

电子设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如方法200。例如，在一些实施例中，方法200可被实现为计算机程序产品，包括计算机程序，其被有形地包含于计算机可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM603并由计算单元601执行时，可以执行上文描述的方法200的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行方法200。

本文中以上描述的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、片上系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。计算机可读介质可以是计算机可读信号介质或计算机可读储存介质。计算机可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。计算机可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

需要注意的是，本发明还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行方法200，并达到本发明实施例执行其方法达到的相应技术效果，为简洁描述，在此不再赘述。

另外，本发明还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，计算机程序在被处理器执行时实现方法200。

为了提供与用户的交互，可以在计算机上实施以上描述的实施例，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将以上描述的实施例实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种网络攻击序列生成方法，其特征在于，所述方法包括：

获取网络攻击路径，其中，所述网络攻击路径由多个网络攻击战术依次组成，每个网络攻击战术包括一个或多个网络攻击策略；

采用所述权重矩阵和Q-Learning算法生成Q表，并训练Q表，得到目标Q表；

根据所述目标Q表，确定每个网络攻击战术使用的目标网络攻击工具，并根据每个网络攻击战术使用的目标网络攻击工具，生成网络攻击序列；

所述方法还包括：

根据所述网络攻击序列，对目标网络实施网络攻防测试。

2.根据权利要求1所述的方法，其特征在于，所述获取网络攻击路径包括：

获取网络攻击行为；

根据ATT&CK框架对所述网络攻击行为进行建模描述，得到所述网络攻击路径。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对网络攻击设备进行检测，确定所述网络攻击设备安装的网络攻击工具；

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

查找每个网络攻击策略对应的网络攻击工具；

向用户显示每个网络攻击策略对应的网络攻击工具的信息，以用于所述用户选择网络攻击工具；

接收所述用户输入的网络攻击工具选择信息；

确定所述网络攻击工具选择信息对应的网络攻击工具为其所属网络攻击策略对应的目标网络攻击工具。

5.根据权利要求1所述的方法，其特征在于，采用所述权重矩阵和Q-Learning算法训练Q表，得到目标Q表，包括：

将所述权重矩阵作为Q-Learning算法的奖励矩阵，利用所述奖励矩阵和Q-Learning算法训练规则执行Episode训练，不断更新Q表，直到Episode训练次数达到预设阈值，得到目标Q表；

所述Q-Learning算法训练规则如下：

其中，

表示更新后的Q值，

表示在当前网络攻击工具s连接网络攻击工具a后的Q值，

表示下一网络攻击工具a连接网络攻击工具a'后的Q值，R表示所述奖励矩阵中当前网络攻击工具s连接网络攻击工具a后的奖励，γ表示衰变系数，α表示学习效率。

6.根据权利要求1所述的方法，其特征在于，所述根据所述目标Q表，确定每个网络攻击战术使用的目标网络攻击工具，包括：

根据所述目标Q表，确定实施当前网络攻击战术使用的目标网络攻击工具与下一网络攻击战术的目标网络攻击工具对应的Q值；

7.一种网络攻击序列生成装置，其特征在于，所述装置包括：

获取模块，用于获取网络攻击路径，其中，所述网络攻击路径由多个网络攻击战术依次组成，每个网络攻击战术包括一个或多个网络攻击策略；

训练模块，用于采用所述权重矩阵和Q-Learning算法生成Q表，并训练Q表，得到目标Q表；

生成模块，用于根据所述目标Q表，确定每个网络攻击战术使用的目标网络攻击工具，并根据每个网络攻击战术使用的目标网络攻击工具，生成网络攻击序列；

所述装置还包括：

测试模块，用于根据所述网络攻击序列，对目标网络实施网络攻防测试。

8.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

9.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使计算机执行权利要求1-6中任一项所述的方法。