CN117097627B

CN117097627B - 渗透测试智能体训练与验证环境构建方法及电子设备

Info

Publication number: CN117097627B
Application number: CN202311352737.5A
Authority: CN
Inventors: 熊鑫立; 姚倩; 王永杰; 王维维; 任乾坤; 张敬业; 郭亮
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2023-10-19
Filing date: 2023-10-19
Publication date: 2023-12-22
Anticipated expiration: 2043-10-19
Also published as: CN117097627A

Abstract

本发明公开了渗透测试智能体训练与验证环境构建方法及电子设备。该渗透测试智能体训练与验证环境构建的方法，包括：获取配置数据；基于所述配置数据构建训练环境，其中，所述训练环境包括虚实结合环境和抽象模拟环境，所述虚实结合环境和所述抽象模拟环境通过训练接口互联互通；将实体环境中进行渗透测试的智能体通过所述训练接口接入所述训练环境，并通过所述智能体的训练场景配置文件对所述训练环境进行验证，进而利用验证合格的训练环境完成对所述智能体的训练与验证。

Description

渗透测试智能体训练与验证环境构建方法及电子设备

技术领域

本发明涉及信息安全技术领域，尤其是涉及渗透测试智能体训练与验证环境构建方法及电子设备。

背景技术

目前，网络信息系统容易受到频繁、复杂的各类网络威胁，通过积极搜索和利用现有的漏洞进行渗透测试是评估网络信息系统安全性的最有效方法。但是，随着网络信息系统在规模上、复杂性和数量上的指数级增长，完成渗透测试需要大量专业人员，依靠专家人工经验，花费大量时间，对实现网络系统的及时和有效防护造成了巨大阻碍。

为了解决这些问题，提高渗透测试效率和安全性评估结果的可用性，市场上出现了能够进行智能化渗透测试的软件。这些软件一般支持构建用于智能体训练环境，并利用强化学习方法训练渗透测试智能体（PT-Agent）对模拟的网络信息系统进行安全性评估，此种方式需要构建尽可能逼近实际运行的网络信息系统的模拟环境用于智能体训练。例如：某企业需要训练一个可以智能化进行渗透测试的智能体对其网络信息系统进行渗透测试来评估其安全性，其维护人员根据企业实际运行的网络信息系统的配置，包括网络拓扑结构、安全漏洞信息、防火墙策略等等；对照构建符合马尔可夫决策过程（MDP）模型的模拟环境，然后使用强化学习算法在该模拟环境中的训练渗透测试智能体，最后通过训练完成的智能体进行渗透测试并评估安全性。

现有技术要求构建用于进行强化学习训练的模拟环境，要尽可能逼近企业中实际运行的网络信息系统，即要求用户尽可能的将真实环境的配置映射到数据模型中，并且模拟训练环境中动作处理与环境反馈依靠其所建立的相应模型，导致这种智能体训练模拟环境可扩展性较差，如果需要扩展相应模块时需要根据渗透过程重新编写相应动作处理和环境反馈的实现代码。此外，现有技术中这种智能体训练模拟环境，与真实环境中渗透测试动作的执行和结果反馈存在较大差异。

因此，如何构建逼近网络信息系统实际环境的训练环境，提升智能体渗透测试效率和安全性评估结果的可用性是本发明要解决的问题。

发明内容

本发明的目的在于提供一种渗透测试智能体训练与验证环境构建方法及电子设备，不仅能够构建逼近网络信息系统实际环境的训练环境，还可极大提升智能体渗透测试效率和安全性评估结果的可用性。

根据本发明的一方面，至少一个实施例提供了一种渗透测试智能体训练与验证环境构建的方法，包括：获取配置数据；基于所述配置数据构建训练环境，其中，所述训练环境包括虚实结合环境和抽象模拟环境，所述虚实结合环境和所述抽象模拟环境通过训练接口互联互通；将实体环境中进行渗透测试的智能体通过所述训练接口接入所述训练环境，并通过所述智能体的训练场景配置文件对所述训练环境进行验证，进而利用验证合格的训练环境完成对所述智能体的渗透测试。

根据本发明的另一方面，至少一个实施例还提供了一种对进行渗透测试的智能体训练与验证的装置，包括：配置数据模块，用于生成配置数据；虚实结合环境模块，用于根据配置数据初始化虚拟结合环境，构建与配置虚实结合环境节点，将虚实结合环境网络互联互通；第三互联互通接口模块，用于将虚实结合环境与抽象模拟环境进行标准化和通用化映射，将要进行渗透测试的智能体做标准化、通用化接入；抽象模拟环境模块，用于根据配置数据初始化抽象模拟环境，构建与配置抽象模拟环境模型，将抽象模拟环境参数化表示以实现抽象模拟环境的互联互通；智能体。

根据本发明的另一方面，至少一个实施例还提供了一种电子设备，包括：处理器，适于实现各指令；以及存储器，适于存储多条指令，所述指令适于由处理器加载并执行：本发明研发的渗透测试智能体训练与验证环境构建的方法。

根据本发明的另一方面，至少一个实施例还提供了一种渗透测试的系统，包括：本发明研发的电子设备和/或对进行渗透测试的智能体训练与验证的装置。

根据本发明的另一方面，至少一个实施例还提供了一种计算机可读的非易失性存储介质，存储计算机程序指令，当所述计算机执行所述程序指令时，执行：本发明研发的渗透测试智能体训练与验证环境构建的方法。

通过本发明上述实施例，可以根据智能体训练需求，构建具备不同粒度的训练环境，既包括细粒度的虚实结合环境可以复现高逼真的渗透测试环境，也包括粗粒度的抽象模拟环境可以实现高效率的智能体训练过程，提高了智能化渗透测试训练环境的逼真度、合理性。同时，本发明可以针对智能体训练结果验证需求，构建不同场景的多粒度智能体验证环境，为渗透测试智能体的训练结果在多场景和真实设备中验证提供环境基础。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一般智能化渗透测试训练环境架构示意图；

图2是根据本发明实施例的渗透测试的系统示意图；

图3是根据本发明实施例的电子设备示意图；

图4是根据本发明实施例的渗透测试智能体训练与验证环境构建的方法流程图；

图5是根据本发明实施例的对进行渗透测试的智能体训练与验证的装置示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

鉴于当前有很多智能化渗透测试（AI-driven PT）的软件，因此，发明人对这些软件分析了分析：通过数据序列化格式来描述网络信息系统的配置，构建符合马尔可夫决策过程（MDP）模型的模拟环境用于强化学习（RL）算法对智能体进行训练。智能化渗透测试（AI-driven PT）：AI-driven penetration testing，是指利用强化学习（RL）方法描述和训练智能体（Agent）来代替网络安全人员进行渗透测试，进而评估计算机系统的安全性。渗透测试（PT）：penetration testing，主要指一项在计算机系统上进行的授权模拟攻击，旨在对其安全性进行评估，是为了证明网络防御按照预期计划正常运行而提供的一种机制。马尔可夫决策过程（MDP）：Markov Decision Process，是序贯决策（sequential decision）的数学模型，主要用于在系统状态具有马尔可夫性质的环境中模拟智能体可实现的随机性策略与回报。RL：Reinforcement Learning，强化学习，是机器学习的范式和方法论之一，主要用于描述和解决智能体（agent）在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

如图1所示，例如目前最普遍的智能体强化训练环境架构，该技术实现是由环境配置文件生成相应的训练环境数据模型，包含网络拓扑、漏洞信息和安全策略；根据数据模型，在智能体训练模拟环境中构建相应的网络拓扑结构、漏洞模型和安全防护模型。在图1所示的智能体训练过程中，首先需要对模拟环境进行初始化；其次，通过智能体的执行器输出渗透测试动作到模拟环境，并由模拟环境中动作处理模块根据安全漏洞模型和安全防护模型进行处理，生成环境反馈结果；然后，由智能体的探测器接收环境反馈结果，并将该结果送给智能体的决策器；再然后，智能体的决策器根据强化学习算法生成渗透策略；最后，根据强化学习算法设置，在训练结束后，模拟环境终止执行动作处理与环境反馈。

经实践，在这些软件中：要求用户尽可能的将真实环境的配置映射到数据模型中，智能体进行渗透测试的能力依赖于其训练中进行交互的环境真实性，模拟环境与真实环境存在的差异性使得智能体在真实环境进行渗透测试时准确性和效率下降，并且当差异过大时会导致渗透测试评估结果的合理性和可用性下降。

基于上述研究基础，本发明至少一个实施例提供了一种进行渗透测试的智能体训练与验证系统，该系统采用虚实结合与抽象模拟相融合的网络空间建模与仿真技术，解决了网络信息系统中智能化渗透测试训练与验证环境中不能逼真、合理、可选地复现网络拓扑和状态的技术问题。如图2所示，该渗透测试的系统的环境可以包括硬件环境和网络环境，上述硬件环境包括电子设备100和服务器200，该电子设备100可以通过相应的指令操作该服务器200，从而可以读取、改变、添加数据等。上述网络环境包括有线网络和无线网络，该无线网络包括但不限于：广域网、城域网、局域网或移动数据网络。典型地，该移动数据网络包括但不局限于：全球移动通信（GSM）网络、码分多址（CDMA）网络、宽带码分多址（WCDMA）网络、长期演进（LTE）通信网络、WIFI网络、ZigBee网络、基于蓝牙技术的网络等。不同类型的通信网络可能由不同的运营商运营。通信网络的类型不构成对本发明实施例的限制。

该电子设备100可以为一个或多个，也可以包括多个处理节点，该多个处理节点对外可以作为一个整体。可选的，该电子设备100也可将获取到的数据发送至服务器200，以使服务器200执行本发明研发的渗透测试智能体训练与验证环境构建的方法（后续将进行详细介绍）。该电子设备100，如图3所示，包括：处理器301；以及存储器303，配置为存储计算机程序指令，计算机程序指令适于由处理器加载并执行本发明所研发的渗透测试智能体训练与验证环境构建的方法（后续将进行详细介绍）。与此同时，该电子设备100可以内置计算机可读的非易失性存储介质，该计算机可读的非易失性存储介质可以存储计算机程序指令，当计算机执行程序指令时，执行本发明所研发的渗透测试智能体训练与验证环境构建的方法（后续将进行详细介绍）。

该处理器301可以为各种适用的处理器，例如实现为中央处理器、微处理器、嵌入处理器等形式，可以采用X86、ARM等架构。该存储器303可以为各种适用的存储装置，例如非易失性存储装置，包括但不限于磁存储装置、半导体存储装置、光存储装置等，并且可以布置为单个存储装置、存储装置阵列或分布式存储装置，本发明的实施例对这些不作限制。

本领域普通技术人员可以理解，上述电子设备100的结构仅为示意，其并不对设备的结构造成限定。例如，电子设备100还可包括比图3中所示更多或者更少的组件（如传输装置）。上述的传输装置用于经由一个网络接收或者发送数据。在一个实例中，传输装置为射频（RadioFrequency，RF）模块，其用于通过无线方式与互联网进行通讯。

通过本发明上述实施方式，不仅能构建出逼近网络信息系统实际环境的训练环境，还极大提升了智能体渗透测试效率和安全性评估结果的可用性。

基于上述软硬件运行环境，本发明至少一个实施例提出了一种渗透测试智能体训练与验证环境构建的方法，该渗透测试智能体训练与验证环境构建的方法可以由电子设备100的处理器301加载并执行，至少解决训练环境与真实环境中渗透测试动作的执行和结果反馈存在较大差异、训练环境可扩展性较差的技术问题。如图4所示的渗透测试智能体训练与验证环境构建的方法的流程图，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，该方法可以包括如下步骤：

步骤S402，获取配置数据；

步骤S404，基于配置数据构建训练环境，其中，训练环境包括虚实结合环境和抽象模拟环境，虚实结合环境和抽象模拟环境通过训练接口互联互通；

步骤S406，将实体环境中进行渗透测试的智能体通过训练接口接入训练环境，并通过智能体的训练场景配置文件对训练环境进行验证，进而利用验证合格的训练环境完成对智能体的训练与验证。

可以看出，本发明提出的渗透测试智能体训练与验证环境构建的方法，也可称之为是一个粒度可选的智能化渗透测试训练与验证环境构建方法，主要采用网络空间建模技术、离散事系统件仿真方法和虚拟化技术对智能体训练环境进行构建。该构建方法，采用实际环境接入和虚拟化构建的方法尽可能的保留渗透测试过程中真实交互过程，降低了训练环境与真实环境差异性。

在步骤S402中，获取配置数据，该配置数据根据数据用途的类型分为：网络拓扑、网络配置、安全漏洞和／或环境配置。例如，在网络信息系统的实体环境中，获取智能体的第一场景；利用第一场景生成智能体的配置数据，该配置数据包含构建虚实结合环境和抽象模拟环境所需的所有数据。

该网络拓扑，描述了虚实结合环境和抽象模拟环境中组成网络的节点、连接和节点之间的连接关系。上述节点包括抽象节点、虚拟化节点、离散事件仿真节点和实体节点。上述连接包含以上4类节点之间的连接，包括相同类型节点之间的连接，如抽象节点与抽象节点、虚拟化节点与虚拟化节点、离散事件仿真节点与离散事件仿真节点、实体节点与实体节点；也包括不同类型节点之间的连接，如抽象节点与虚拟化节点、抽象节点与离散事件仿真节点、抽象节点与实体节点，虚拟化节点与离散事件仿真节点、虚拟化节点与实体节点，离散事件仿真节点与实体节点等等。

该网络配置，描述了虚实结合环境和抽象模拟环境中网络的详细配置。对于虚实结合环境，网络配置信息用于配置具体网络中节点和连接的属性，如IP地址、子网掩码和DNS地址等等。对于抽象模拟环境，网络配置用于配置抽象节点和抽象连接的属性，其中既包含具体网络中节点和连接的属性，也包含用于抽象模拟所需的其他属性，如链路带宽、协议类型和子网配置等等。

该安全漏洞，描述了虚实结合环境和抽象模拟环境中各类软件的漏洞信息。对于虚实结合环境，安全漏洞依赖于具体软件及软件的运行环境，可根据安全漏洞信息可以构建包含对应漏洞的软件运行环境和具体软件。对于抽象模拟环境，安全漏洞信息不仅提供了可供抽象的具体软件及软件运行环境，也提供了某个漏洞被利用后的效果和危害等级等信息，可根据安全漏洞信息构建抽象的漏洞利用过程用于智能体动作处理与结果反馈。

该安全防护，描述了虚实结合环境和抽象模拟环境中各类安全防护的配置信息。对于虚实结合环境，可根据安全防护信息来配置具体的安全防护软硬件，如防火墙、反病毒、入侵检测等等。对于抽象模拟环境，安全防护信息不仅提供了具体安全防护的配置，也提供了某个安全防护方法的可抽象的防护过程，可根据安全防护信息构建抽象的安全防护过程用于智能体动作处理与结果反馈。

也就是说，本发明可以根据渗透测试智能体训练所需具体场景（如第一场景），按照环境配置数据相关格式生成渗透测试智能体训练场景配置的文件，并对第一场景的环境配置数据采用Json格式存储，包括网络拓扑信息、网络配置信息、安全漏洞信息和环境配置信息。

在步骤S404中，基于配置数据构建训练环境，其中，训练环境包括虚实结合环境和抽象模拟环境，虚实结合环境和抽象模拟环境通过训练接口互联互通。该训练接口包括第一训练接口、第二训练接口和第三互联互通接口，通过第一训练接口接收配置数据，并构建虚实结合环境；通过第二训练接口接收配置数据，并构建抽象模拟环境；利用第三互联互通接口建立虚实结合环境和抽象模拟环境之间的映射，其中，映射包括环境、状态、动作和策略，即由第三互联互通接口完成虚实结合环境与抽象模拟环境的集成。

这里，本发明的虚实结合环境，通过第一训练接口统一接收相应环境构建配置数据，用于构建细粒度智能训练与验证环境，包含虚拟化环境、离散事件仿真环境和实体环境三部分。该虚拟化环境、离散事件仿真环境和实体环境之间，通过第一训练接口根据配置数据中的环境配置实现互联互通。

该虚拟化环境由虚拟化平台构建，其既可以使用通用的商业或开源云平台环境（如亚马逊云，微软云，华为云或OpenStack等），也可以根据实际需求自行开发特定功能的云平台环境。在虚拟化环境中，用户可根据环境构建配置所提供的数据，通过计算虚拟化、网络虚拟化、存储虚拟化等技术，按需构建虚拟化节点和网络，并将相应的网络拓扑与配置，安全漏洞和安全防护在该环境中复现。虚拟化节点中运行的是真实的服务软件和安全防护软件，而其硬件环境为虚拟化平台所提供；虚拟化网络中运行的也是具备真实功能的路由器、交换机和安全防护设备的软件，而其硬件环境为虚拟化平台所提供。在复现细粒度的且非具体硬件相关的安全漏洞时，可采用虚拟化环境构建智能体训练与验证环境。

该离散事件仿真环境由离散事件系统仿真平台构建，其既可以使用通用的商业或开源离散事件系统仿真平台（如Opnet、Qualnet、Exata或NS2、NS3、OMNet等），也可以根据实际需求自行开发特定功能的离散事件系统仿真平台。在离散事件仿真环境中，用户可根据环境构建配置所提供的数据，通过离散事件系统仿真技术，按需构建离散事件仿真节点和挽留过，并将相应的网络拓扑与配置，安全漏洞和安全防护在该环境中复现。离散事件仿真节点中运行的是服务软件和安全防护软件的功能仿真，包含各类软件的逻辑功能，而不是真实的软件程序；离散事件仿真网络中运行的也是路由器、交换机和安全防护设备的功能仿真，而不是真实的软件程序和硬件设备。在复现细粒度的且非具体软硬件相关的漏洞时，可采用离散事件仿真环境构建智能体训练与验证环境。

该实体环境由实体软件系统和硬件设备构建，是真实环境的一比一复制。在实体环境中，用户可根据环境构建配置所提供的数据，一比一地复现真实环境中所运行的软件系统和硬件设备。实体节点中运行的是真实环境中的服务软件和安全防护软件；实体网络中运行的也是真实环境中的路由器、交换机和安全防护设备。在复现细粒度的且与具体软硬件密切相关的漏洞时，可采用实体环境构建智能体训练与验证环境。

这里，本发明的抽象模拟环境，通过第二训练接口统一接收相应环境构建配置数据，用于构建粗粒度智能训练与验证环境。该抽象模拟环境包括网络拓扑模型、渗透者模型、防御者模型、用户模型和动作交互模型，例如基于网络拓扑、网络配置构建网络拓扑模型，基于安全漏洞构建渗透者模型、防御者模型、用户模型和动作交互模型。

该网络拓扑模型，是对真实环境网络的高度抽象建模，通过对节点、连接和连接关系利用图模型进行建模，并将真实网络中与渗透测试相关的属性在节点、连接和连接关系中进行建模。通过网络拓扑模型将真实网络进行粗粒度复现，既满足智能体训练准确度的需要，也满足智能体训练效率的需求。

该渗透者模型，是对渗透测试中渗透相关的属性进行抽象建模，包含对渗透目标、能力和资源等方面的建模。通过渗透者模型可以对渗透测试智能体训练的边界进行清晰的描述。

该防御者模型，是对渗透测试中安全防护相关的属性进行抽象建模，包含对防御目标、能力和资源的等方面的建模。通过防御者模型可以对渗透测试智能体训练中存在的对抗性因素进行清晰的描述。

该用户模型，是对渗透测试中正常用户相关的属性进行抽象建模，包含对用户凭证、保存的敏感信息和用户与节点间关系等方面的建模。通过用户模型，可以对渗透测试智能体训练中存在的社会工程学因素进行清晰的描述。

该动作交互模型，是对渗透测试过程中智能体执行的所有动作描述，既包含动作本身，也包含动作执行后的反馈。

这里，本发明利用数据层面的第三互联互通接口建立虚实结合环境和抽象模拟环境之间的映射，完成虚实结合环境与抽象模拟环境的集成。该映射包括环境表示、状态表示、动作表示和/或策略表示等。

该环境表示，描述了虚实结合环境和抽象模拟环境中关于节点自身配置和节点间互联互通的相应数据。由于虚实结合环境和抽象模拟环境对真实环境的复现粒度不同，所以节点自身配置和节点间交互的数据的粒度也有所区别。环境表示通过标准化的数据转换，将不同粒度的数据通用化，使虚实结合环境和抽象模拟环境中的节点可以互联互通，进而满足智能体训练过程中进行探测和执行动作可以准确映射到具体节点和链路的需求。

该状态表示，描述了智能体渗透测试训练环境中节点状态、链路状态和节点间连接关系。由于虚实结合环境和抽象模拟环境对真实环境的复现粒度不同，所以节点状态、链路状态和节点间连接关系的数据类型也有所区别。状态表示通过标准化的数据转换，将不同粒度的数据通用化，使智能体可以探测获取的状态信息遵循通用的标准，减少二次开发修改相应代码的工作量，进而满足不同环境配置下智能体训练的效率需求。

该动作表示，描述了智能体执行动作在智能体渗透测试训练环境中的映射。由于虚实结合环境和抽象模拟环境对真实环境的复现粒度不同，所以这种映射也有所区别。在虚实结合环境中，其对真实环境的复现粒度较细，所以智能体执行动作在虚实结合环境中的映射是具体的，可以直接复用到真实环境中。在抽象模拟环境中，其对真实环境的复现粒度较粗，所以智能体执行动作在抽象模拟环境中的映射也是抽象的，只能在抽象模拟环境中使用，不可以直接复用到真实环境中。动作表示通过标准化的映射转换，将智能体执行动作的映射根据复现粒度不同进行通用化，使智能体在训练过程中可以灵活地选择符合需求的不同粒度的环境，提高智能体训练的效果。

策略表示，描述了智能体根据探测结果选择执行动作的策略。为了最大程度的利用智能体训练环境中产生的交互数据进行分析，通过策略表示将虚实结合环境和抽象模拟环境中生成的包含先后关系的动作-状态对进行标准化和通用化。由于虚实结合环境与抽象模拟环境的复现粒度不同，所以智能体训练过程中产生的动作-状态对中包含的数据类型也不尽相同。通过策略表示的标准化、通用化处理，可以将智能体训练过程中产生的交互数据进行保存，不仅可以用于智能体训练过程的分析，也可以用于提取渗透测试过程中产生的专家经验和知识。

也就是说，本发明根据配置数据和渗透测试智能体训练场景的需求选择相应训练环境的复现粒度，并将拟构建的训练环境中节点、连接和连接关系按照Json格式更新到环境配置数据的配置文件中；在完成复现粒度选择后，将配置文件下发至虚实结合环境和抽象模拟环境，完成对虚实结合环境、抽象模拟环境的构建与配置；通过通用数据表示实现两个粒度不同环境的标准化、通用化映射。

在步骤S406中，将实体环境中进行渗透测试的智能体通过训练接口接入训练环境，并通过智能体的训练场景配置文件对训练环境进行验证，进而利用验证合格的训练环境完成对智能体的渗透测试。例如，将实体环境中进行渗透测试的智能体通过第三互联互通接口接入训练环境，进而将智能体的训练场景配置文件输入到训练环境；通过智能体与训练环境的交互，获取训练场景配置文件对训练环境的反馈奖励值；根据反馈奖励值更新训练环境的训练参数。

也就是说，本发明可将进行渗透测试的智能体通过第三互联互通接口的通用数据表示完成标准化、通用化接入到训练环境中，并根据训练场景配置文件和配置数据完成对智能体训练参数的初始化；根据智能体训练参数，按照训练迭代中对环境复现粒度的需求，选择细粒度的虚实结合环境和／或粗粒度的抽象模拟环境，完成智能体与训练环境的交互，并根据两个不同粒度环境反馈的奖励值更新训练参数。后续，本发明可根据训练场景配置文件对一次训练迭代后的训练结果进行判定，如果满足训练要求可以结束，否则继续执行步骤S7进行训练迭代，由此进而利用验证合格的训练环境完成对智能体的渗透测试，将训练迭代过程中的相关数据和最终训练结果数据进行输出。

通过本发明上述实施方式，可以根据智能体训练需求，构建具备不同粒度的训练环境，既包括细粒度的虚实结合环境可以复现高逼真的渗透测试环境，也包括粗粒度的抽象模拟环境可以实现高效率的智能体训练过程，提高了智能化渗透测试训练环境的逼真度、合理性。同时，本发明可以针对智能体训练结果验证需求，构建不同场景的多粒度智能体验证环境，为渗透测试智能体的训练结果在多场景和真实设备中验证提供环境基础。

另外，为使本领域技术人员较好的掌握本发明的渗透测试智能体训练与验证环境构建的方法，因此，发明人将本发明的电子设备100抽象为了对进行渗透测试的智能体训练与验证的装置，如图5所示。基于上述，本发明至少一个实施例提出了与渗透测试智能体训练与验证环境构建的方法对应的对进行渗透测试的智能体训练与验证的装置，该对进行渗透测试的智能体训练与验证的装置能够对本发明的渗透测试智能体训练与验证环境构建的方法进行详细清晰表述。

如图5所示，该对进行渗透测试的智能体训练与验证的装置包括：配置数据模块501、虚实结合环境模块503、第三互联互通接口模块507、抽象模拟环境模块505和智能体509。

这里，该配置数据模块501，用于生成配置数据。即：当需要构建智能化渗透测试训练与验证环境时，本发明根据环境构建配置的数据格式要求，生成用于构建智能化渗透测试训练与验证环境的配置数据，包括网络拓扑信息、网络配置信息、安全漏洞信息和环境配置信息。该配置数据可采用XML、Json，YAML等格式化语言实现，使其既具备通用、标准的数据格式，也具备良好的阅读性。

与此同时，配置数据模块501还会对智能化渗透测试训练与验证环境复现粒度进行选择。即：配置数据模块根据配置数据、本次智能体进行训练的需求自行选择训练环境的复现粒度，并将拟构建的训练环境中节点、连接和连接关系按照相应格式更新到环境配置数据的配置文件中。在完成复现粒度选择后，将配置文件下发至虚实结合环境和抽象模拟环境。

这里，虚实结合环境模块503，首先，根据配置数据初始化虚拟结合环境；其次，构建与配置虚实结合环境节点；最后，将虚实结合环境网络互联互通。

第一，根据配置数据初始化虚拟结合环境。根据环境配置数据提供的配置文件，将虚拟化环境、离散事件仿真环境和实体环境中相应节点和网络进行初始化。在虚拟化环境的初始化中，主要是对支撑虚拟化环境的云平台（云环境）进行初始化，并将环境配置数据提供的配置文件转换为适用于云平台中节点和网络的构建文件。在离散事件仿真环境的初始化中，主要是对支撑离散事件仿真环境的离散事件系统仿真软件进行初始化，并将环境配置数据提供的配置文件转换为适用于离散事件系统仿真软件中节点和网络的构建文件。在实体环境的初始化中，主要是对支撑实体环境的相关软硬件平台进行初始化，并将环境配置数据提供的配置文件转换为适用于实体软硬件平台中节点和网络的构建文件。

第二，构建与配置虚实结合环境节点。根据环境配置数据提供的配置文件和虚实结合环境初始化后生成的构建文件，虚实结合环境完成对虚拟化节点、离散事件仿真节点和实体节点的构建与配置。

在虚拟化节点构建与配置中，本发明考虑两种典型的构建与配置场景：虚拟机场景和Docker（轻量化容器技术）场景。在虚拟机场景中，首先根据初始化后生成的构建文件对虚拟化节点所需的操作系统进行选取、安装和配置；然后，根据初始化后生成的构建文件，对虚拟化节点所需的应用软件进行选择、安装和配置；最后，对虚拟机场景中构建和配置的节点进行测试，确保其满足环境配置数据的配置文件中的相关要求。在Docker（轻量化容器技术）场景中，首先根据初始化后生成的构建文件，配置Docker（轻量化容器技术）所需要基础环境；然后，根据初始化后生成的构建文件，利用Docker（轻量化容器技术）将应用软件及其运行所需的依赖、函数库、环境、配置等文件打包在一起形成镜像文件；其次，利用Docker（轻量化容器技术）在容器中运行应用软件；最后，对Docker（轻量化容器技术）场景中构建和配置的节点进行测试，确保其满足环境配置数据的配置文件中的相关要求。

在离散仿真节点构建与配置中，本发明针对具体使用的离散事件仿真软件，进一步对初始化后生成的构建文件进行处理。首先，根据初始化后生成的构建文件和选取使用的离散事件仿真软件，生成离散事件仿真软件的网络拓扑中节点文件，并配置相应节点的参数；其次，根据初始化后生成的构建文件和网络拓扑中节点文件，生成离散事件仿真软件的可视化场景文件；最后，对离散事件仿真软件中构建和配置的节点进行测试，确保其满足环境配置数据的配置文件中的相关要求。

在实体环境节点构建与配置中，本发明针对环境配置数据提供的配置文件中标明的软硬件，按照初始化后生成的构建文件，对相应软硬件进行选取和配置。首先，按照环境配置数据提供的配置文件要求，选择对应版本、满足配置要求、可实现对应功能的软硬件；然后，对选取的软硬件按照初始化后生成的构建文件要求进行配置；最后，对实体环境中选取和配置的软硬件节点进行测试，确保其满足环境配置数据的配置文件中的相关要求。

第三，将虚实结合环境网络互联互通。在完成虚实结合环境对节点的构建与配置后，本发明根据环境配置数据提供的配置文件，对虚拟化节点、离散事件仿真节点和实体节点进行互联互通。

对于虚拟化节点与实体节点间的互联互通，通过对相应节点的网络参数，如IP地址、端口号等进行配置，利用网线将实体节点与承载虚拟化节点的服务器通过交换机、路由器或集线器进行连接，就可以完成这些节点间的互联互通。对于离散事件仿真节点与虚拟化节点和实体节点间的互联互通，首先需要保证运行离散事件仿真软件的宿主机与虚拟化节点和实体节点间互联互通；其次需要根据所选用的离散事件仿真软件，在宿主机上配置互联互通相关的网络参数；最后需要将离散事件仿真节点与对应的虚拟化节点和实体节点进行映射，在离散事件仿真软件中配置对应的网络参数。在完成网络互联互通配置后，需要根据环境配置数据提供的配置文件进行测试，确保其满足相关网络连接的要求。

这里，抽象模拟环境模块505，首先，根据配置数据初始化抽象模拟环境；其次，构建与配置抽象模拟环境模型；最后，将抽象模拟环境参数化表示，以实现抽象模拟环境的互联互通。

第一，根据配置数据初始化抽象模拟环境。即：根据环境配置数据提供的配置文件，抽象模拟环境将用于模型构建的数据进行初始化。本发明中需要对环境配置数据进行初始化，包括网络拓扑数据、网络配置数据、安全漏洞数据和安全防护数据。其中，网络拓扑数据包含了对网络拓扑的抽象表示；网络配置数据包含了对网络拓扑中节点和网络的抽象表示；安全漏洞数据包含了对节点中存在漏洞信息的抽象表示；安全防护数据包含了对节点和链路中安全防护机制的抽象表示。

第二，构建与配置抽象模拟环境模型。在完成抽象模拟环境初始化后，本发明根据环境配置数据提供的配置文件，对网络拓扑模型、渗透者模型、防御者模型、用户模型和动作交互模型进行构建与配置。其中，对网络拓扑模型进行构建与配置，完成对网络拓扑中节点与链路的模拟；对渗透者模型进行构建与配置，完成对网络渗透攻击操作的模拟；对防御者模型进行构建与配置，完成对网络防御机制操作的模拟；对用户模型进行构建与配置，完成对网络中用户执行操作的模拟；对动作交互模型进行构建与配置，完成对渗透者、防御者和用户三者之间操作相互影响的模拟。

第三，将抽象模拟环境参数化表示，以实现抽象模拟环境的互联互通。在完成抽象模拟环境模型构建与配置后，本发明根据环境配置数据提供的配置文件，对抽象模拟环境进行参数化表示，使其可以满足不同深度强化学习算法对与之交互环境的参数化表示需求。

这里，第三互联互通接口507模块，一方面将虚实结合环境与抽象模拟环境进行标准化和通用化映射，另一方面将要进行渗透测试的智能体做标准化、通用化接入。

第一，将虚实结合环境与抽象模拟环境进行标准化和通用化映射。在完成虚实结合环境构建与抽象模拟环境构建后，本发明需要根据环境配置数据提供的配置文件，通过通用数据表示对虚实结合环境和抽象模拟环境之间进行数据层面的互联互通，包括环境、状态、动作和策略的标准化、通用化映射。其中，对环境的标准化、通用化映射，完成虚实结合网络拓扑与抽象模拟网络拓扑在环境中的映射，使得相应节点与链路在数据层面可以进行互联互通；对状态的标准化、通用化映射，完成虚实结合的网络状态与抽象模拟的网络状态统一表示，使得智能体既可以获取虚实结合的网络状态也可以获取抽象模拟的网络状态；对动作的标准化、通用化映射，完成智能体执行动作在虚实结合环境和抽象模拟环境中的统一表示，使得智能体的动作既可以被虚实结合环境执行也可以被抽象模拟环境执行，并反馈相应动作执行结果的统一表示；对策略的标准化、通用化映射，完成智能体在不同环境、状态、动作下策略的统一表示，使得智能体的决策结果既可以被虚实结合环境所使用也可以被抽象模拟环境所使用，并可通过统一表示进行导出，用于生成专家经验数据进行深入分析。

第二，将要进行渗透测试的智能体做标准化、通用化接入。本发明将渗透测试智能体通过通用数据表示完成标准化、通用化的接入。智能体所感知的网络环境、网络状态，执行的具体动作与反馈结果和进行决策的结果都通过通用数据表示提供的标准化、通用化接口接入，然后由通用数据表示根据环境配置数据提供的配置文件将相应数据转化成虚实结合环境或抽象模拟环境可接受的对应格式，最后将虚实结合环境或抽象模拟环境的变化结果通过通用数据表示转化成渗透测试智能体可以直接使用的格式。

这里，智能体509，指渗透测试智能体（PT-Agent）：penetration testing agent，是利用强化学习训练得到的，可在相应网络信息系统环境中能持续自主地进行渗透测试的计算实体。

通过本发明上述方式，采用网络空间建模技术（有限状态自动机）、离散事系统件仿真方法和虚拟化技术，对智能体训练环境进行构建。该构建方法，以不同粒度对智能体训练环境进行构建，对渗透测试中关键节点进行细粒度构建虚实结合训练环境，采用实际系统接入和虚拟化构建的方法尽可能的保留渗透测试过程中真实交互过程，降低了训练环境与真实环境差异性；并综合考虑利用强化学习算法进行智能体训练过程中学习速度和学习能力的平衡，采用网络空间建模技术（有限状态自动机）进行粗粒度构建抽象模拟训练与验证环境，降低智能体动作处理和结果反馈的时延，提高智能体训练过程中学习速度。

其中，网络空间建模技术（有限状态自动机）用于构建智能化渗透测试的抽象模拟环境；离散系统事件仿真方法和虚拟化技术用于构建智能化渗透测试的虚实结合训练与验证环境，并通过接口与实体环境互联互通。上述有限状态自动机（FSM）：finite statemachine，是指研究有限内存的计算过程和某些语言类而抽象出的一种计算模型，拥有有限数量的状态，每个状态可以迁移到零个或多个状态，输入字串决定执行哪个状态的迁移。上述离散事件系统仿真（DESS）：Discrete event system simulation，是用计算机对离散事件系统进行仿真实验的方法，其由事件驱动（event），事件的发生（occur）是离散且随机的，即系统状态变量（state）的取值是依时间轴离散且随机分布的。上述虚拟化技术：是指通过虚拟化技术将一台计算机虚拟为多台逻辑计算机（对计算机物理资源的抽象，实现资源的模拟、隔离和共享）；在一台计算机上同时运行多个逻辑计算机，每个逻辑计算机可运行不同的操作系统，并且应用程序都可以在相互独立的空间内运行而互不影响，从而显著提高计算机的工作效率。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种渗透测试智能体训练与验证环境构建的方法，其特征在于，包括：

获取配置数据：网络拓扑、网络配置、安全漏洞和环境配置；

基于所述配置数据构建训练环境，其中，所述训练环境包括虚实结合环境和抽象模拟环境，所述虚实结合环境和所述抽象模拟环境通过训练接口互联互通；

将实体环境中进行渗透测试的智能体通过所述训练接口接入所述训练环境，并通过所述智能体的训练场景配置文件对所述训练环境进行验证，进而利用验证合格的训练环境完成对所述智能体的训练与验证；

其中，所述虚实结合环境包括虚拟化环境、离散事件仿真环境和实体环境，其特征在于，构建虚实结合环境包括：

由虚拟化平台构建虚拟化环境、由离散事件系统仿真平台构建离散事件仿真环境、由实体软件系统和硬件设备构建实体环境；

根据所述环境配置将所述虚拟化环境、所述离散事件仿真环境和所述实体环境之间互联互通；

其中，所述抽象模拟环境包括网络拓扑模型、渗透者模型、防御者模型、用户模型和动作交互模型，其特征在于，构建抽象模拟环境包括：

基于所述网络拓扑、所述网络配置构建网络拓扑模型，基于所述安全漏洞构建渗透者模型、防御者模型、用户模型和动作交互模型；

其中，该渗透者模型，是对渗透测试中渗透相关的属性进行抽象建模，包含对渗透目标、能力和资源的建模；

该防御者模型，是对渗透测试中安全防护相关的属性进行抽象建模，包含对防御目标、能力和资源的建模；

该用户模型，是对渗透测试中正常用户相关的属性进行抽象建模；

该动作交互模型，是对渗透测试过程中智能体执行的所有动作描述，既包含动作本身，也包含动作执行后的反馈；

其中，所述训练接口包括第一训练接口、第二训练接口和第三互联互通接口，基于所述配置数据构建训练环境包括：

通过第一训练接口接收所述配置数据，并构建虚实结合环境；

通过第二训练接口接收所述配置数据，并构建抽象模拟环境；

利用第三互联互通接口建立所述虚实结合环境和所述抽象模拟环境之间的映射，其中，所述映射包括环境、状态、动作和策略。

2.根据权利要求1所述的方法，其特征在于，获取配置数据包括：

在实体环境中，获取智能体的第一场景；

利用所述第一场景生成所述智能体的配置数据。

3.根据权利要求2所述的方法，其特征在于，将实体环境中进行渗透测试的智能体通过所述训练接口接入所述训练环境包括：

将实体环境中进行渗透测试的智能体通过所述第三互联互通接口接入所述训练环境。

4.根据权利要求2所述的方法，其特征在于，通过所述智能体的训练场景配置文件对所述训练环境进行验证包括：

将所述智能体的训练场景配置文件输入到所述训练环境；

通过所述智能体与所述训练环境的交互，获取所述训练场景配置文件对所述训练环境的反馈奖励值；

根据所述反馈奖励值更新所述训练环境的训练参数。

5.一种电子设备，其特征在于，包括：

处理器，适于实现各指令；以及存储器，适于存储多条指令，所述指令适于由处理器加载并执行：如权利要求1-4任一所述的渗透测试智能体训练与验证环境构建的方法。

6.一种渗透测试的系统，其特征在于，包括：如权利要求5所述的电子设备。

7.一种计算机可读的非易失性存储介质，存储计算机程序指令，其特征在于，当计算机执行程序指令时，执行：如权利要求1-4任一所述的渗透测试智能体训练与验证环境构建的方法。