CN116707870A

CN116707870A - 防御策略模型训练方法、防御策略确定方法和设备

Info

Publication number: CN116707870A
Application number: CN202310557573.3A
Authority: CN
Inventors: 周赞
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-09-05

Abstract

本申请提供一种防御策略模型训练方法、防御策略确定方法和设备，该方法包括：获取多个样本服务器在第一个时段的样本防御状态数据；根据防御策略模型，对第一个时段的样本防御状态数据进行处理，得到多个时段分别对应的动作选择概率集合和多个时段分别对应的状态价值；根据多个时段分别对应的动作选择概率集合和多个时段分别对应的状态价值，对防御策略模型的参数进行调整，以得到训练好的防御策略模型。通过防御策略模型能够确定各个样本服务器选择部署防御策略的概率，从而更合理的结合服务器自身的特点部署相应的防御策略来防止被网络攻击，提高了防御策略部署的效率和合理性，能够实现对智能攻击侵蚀的良好防御性能。

Description

防御策略模型训练方法、防御策略确定方法和设备

技术领域

本申请涉及网络安全技术领域，尤其涉及一种防御策略模型训练方法、防御策略确定方法和设备。

背景技术

随着第五代高速网络和移动的泛在通信等最新通信技术的跨越式发展，网络流量在数量和复杂性上都有了显著增长。与此同时，流量安全正受到不断涌现的恶意攻击模式。

基于此，对网络攻击进行相应的防御是必要的。目前，针对网络攻击的防御措施，主要是基于预先定义的识别标准来识别网络攻击并进行防御，其具有较高的检测精度和效率，但过分依赖于预先定义的识别标准，只能减轻恶意流量的危害。

综上，上述防御方案的防御效果不佳，亟需提供一种防御效果较好的网络攻击防御方案。

发明内容

本申请提供一种防御策略模型训练方法、防御策略确定方法和设备，用以解决现有技术中针对网络攻击的防御效果不佳的问题。

第一方面，本申请提供一种防御策略模型训练方法，应用于第一设备，所述方法包括：

获取多个样本服务器在第一个时段的样本防御状态数据，针对各样本服务器，所述第一个时段的样本防御状态数据用于指示所述第一个时段内、所述样本服务器是否部署了预设防御策略集合中的各防御策略；

根据防御策略模型，对所述第一个时段的样本防御状态数据进行处理，得到多个时段分别对应的动作选择概率集合和多个时段分别对应的状态价值，所述多个时段包括所述第一个时段，针对所述多个时段中的任意时段以及任意样本服务器，所述时段对应的动作选择概率集合用于指示所述样本服务器针对各所述防御策略选择执行子动作的概率，所述子动作包括部署对应的防御策略或者不部署对应的防御策略；

根据所述多个时段分别对应的动作选择概率集合和所述多个时段分别对应的状态价值，对所述防御策略模型的参数进行调整，以得到训练好的防御策略模型。

在一种可能的实施方式中，所述根据防御策略模型，对所述第一个时段的样本防御状态数据进行处理，得到多个时段分别对应的动作选择概率集合和多个时段分别对应的状态价值，包括：

将第t个时段的样本防御状态数据输入至所述防御策略模型，得到所述第t个时段对应的动作选择概率集合和所述第t个时段对应的状态价值；所述t初始为1，所述t为大于或等于1的正整数；

根据所述第t个时段对应的动作选择概率集合，确定所述多个样本服务器在第t+1个时段的样本防御状态数据；

更新t为t+1，并重复执行上述操作，直至t大于或等于T，得到T个时段分别对应的动作选择概率集合和状态价值，所述T为正整数。

在一种可能的实施方式中，所述防御策略模型包括子动作选择网络和状态价值网络；所述将第t个时段的样本防御状态数据输入至所述防御策略模型，得到所述第t个时段对应的动作选择概率集合和所述第t个时段对应的状态价值，包括：

将所述第t个时段的样本防御状态数据输入至子动作选择网络，得到各所述样本服务器在所述第t个时段针对各所述防御策略的子动作选择概率；

根据各所述样本服务器在所述第t个时段针对各所述防御策略的子动作选择概率，得到所述第t个时段对应的动作选择概率集合；

将所述第t个时段的样本防御状态数据输入至状态价值网络，得到所述第t个时段对应的状态价值。

在一种可能的实施方式中，所述根据各所述样本服务器在所述第t个时段针对各所述防御策略的子动作选择概率，得到所述第t个时段对应的动作选择概率集合，包括：

在所述第t个时段，针对任意样本服务器，根据所述样本服务器针对各所述防御策略的子动作选择概率，得到所述样本服务器对应的总概率；

根据所述总概率，对所述样本服务器针对各所述防御策略的子动作选择概率进行归一化处理，得到所述样本服务器针对各所述防御策略的子动作选择归一化概率；

根据各所述样本服务器针对各所述防御策略的子动作选择归一化概率，得到所述第t个时段对应的动作选择概率集合。

在一种可能的实施方式中，所述根据所述第t个时段对应的动作选择概率集合，确定所述多个样本服务器在第t+1个时段的样本防御状态数据，包括：

根据所述第t个时段对应的动作选择概率集合，确定第t+1个时段所述多个样本服务器针对各所述防御策略选择执行的子动作；

根据第t+1个时段所述多个样本服务器针对各所述防御策略选择执行的子动作，指示所述多个样本服务器更新部署的防御策略；

基于所述多个边缘代理服务器更新部署的防御策略，确定所述多个样本服务器在第t+1个时段的样本防御状态数据。

在一种可能的实施方式中，所述根据所述第t个时段对应的动作选择概率集合，确定第t+1个时段所述多个样本服务器针对各所述防御策略选择执行的子动作，包括：

确定各所述样本服务器上可部署的防御策略的最大数量；

根据所述第t个时段对应的动作选择概率集合，以及各所述样本服务器上可部署的防御策略的最大数量，确定所述第t+1个时段所述多个样本服务器针对各所述防御策略选择执行的子动作。

在一种可能的实施方式中，所述根据所述多个时段分别对应的动作选择概率集合和所述多个时段分别对应的状态价值，对所述防御策略模型的参数进行调整，以得到训练好的防御策略模型，包括：

针对任意时段，根据所述时段的样本防御状态数据，获取所述时段对应的防御策略内生安全性奖励参数；

根据各所述时段的样本防御状态数据、对应的防御策略内生安全性奖励参数、对应的动作选择概率集合、对应的状态价值以及所述多个样本服务器针对各所述防御策略选择执行的子动作，对所述防御策略模型的参数进行调整，以得到训练好的防御策略模型。

第二方面，本申请提供一种防御策略确定方法，应用于第二设备，所述方法包括：

获取多个服务器在当前时段的防御状态数据，针对各服务器，所述当前时段的防御状态数据用于指示所述当前时段内、所述服务器是否部署了预设防御策略集合中的各防御策略；

将所述当前时段的防御状态数据输入至防御策略模型，得到所述当前时段对应的动作选择概率集合，其中，所述防御策略模型为根据第一方面任一项所述的方法训练得到的模型；

根据所述当前时段对应的动作选择概率集合，确定下一时段所述多个服务器针对各所述防御策略选择执行的子动作，所述子动作包括部署对应的防御策略或者不部署对应的防御策略；

针对所述多个服务器中的任意服务器，根据下一时段所述服务器针对各所述防御策略选择执行的子动作，向所述服务器发送指示信息，所述指示信息用于指示所述服务器执行针对各所述防御策略选择执行的子动作。

第三方面，本申请提供一种防御策略模型训练装置，包括：

获取模块，用于获取多个样本服务器在第一个时段的样本防御状态数据，针对各样本服务器，所述第一个时段的样本防御状态数据用于指示所述第一个时段内、所述样本服务器是否部署了预设防御策略集合中的各防御策略；

处理模块，用于根据防御策略模型，对所述第一个时段的样本防御状态数据进行处理，得到多个时段分别对应的动作选择概率集合和多个时段分别对应的状态价值，所述多个时段包括所述第一个时段，针对所述多个时段中的任意时段以及任意样本服务器，所述时段对应的动作选择概率集合用于指示所述样本服务器针对各所述防御策略选择执行子动作的概率，所述子动作包括部署对应的防御策略或者不部署对应的防御策略；

训练模块，用于根据所述多个时段分别对应的动作选择概率集合和所述多个时段分别对应的状态价值，对所述防御策略模型的参数进行调整，以得到训练好的防御策略模型。

在一种可能的实施方式中，所述处理模块具体用于：

在一种可能的实施方式中，所述防御策略模型包括子动作选择网络和状态价值网络；所述处理模块具体用于：

在一种可能的实施方式中，所述处理模块具体用于：

确定各所述样本服务器上可部署的防御策略的最大数量；

在一种可能的实施方式中，所述训练模块具体用于：

第四方面，本申请提供一种防御策略模型训练装置，包括：

第五方面，本申请提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面任一项所述的防御策略模型训练方法，或者，所述处理器执行所述程序时实现如第二方面所述的防御策略确定方法。

第六方面，本申请提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的防御策略模型训练方法，或者，所述计算机程序被处理器执行时实现如第二方面所述的防御策略确定方法。

本申请实施例提供的防御策略模型训练方法、防御策略确定方法和设备，首先获取多个样本服务器在第一个时段的样本防御状态数据，针对各样本服务器，第一个时段的样本防御状态数据用于指示第一个时段内、样本服务器是否部署了预设防御策略集合中的各防御策略；然后根据防御策略模型，对第一个时段的样本防御状态数据进行处理，得到多个时段分别对应的动作选择概率集合和多个时段分别对应的状态价值，多个时段包括所述第一个时段，针对多个时段中的任意时段以及任意样本服务器，该时段对应的动作选择概率集合用于指示样本服务器针对各防御策略选择执行子动作的概率，子动作包括部署对应的防御策略或者不部署对应的防御策略；根据多个时段分别对应的动作选择概率集合和多个时段分别对应的状态价值，对防御策略模型的参数进行调整，以得到训练好的防御策略模型。通过防御策略模型能够确定各个样本服务器选择部署防御策略的概率，从而更合理的结合服务器自身的特点部署相应的防御策略来防止被网络攻击，提高了防御策略部署的效率和合理性，能够实现对智能攻击侵蚀的良好防御性能。

附图说明

为了更清楚地说明本申请或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的应用场景示意图；

图2为本申请实施例提供的防御策略模型训练方法的流程示意图；

图3为本申请实施例提供的防御策略模型的内部处理示意图；

图4为本申请实施例提供的防御策略模型的处理流程示意图；

图5为本申请实施例提供的防御策略确定方法的流程示意图；

图6为本申请实施例提供的防御策略模型训练装置的结构示意图；

图7为本申请实施例提供的防御策略确定装置的结构示意图；

图8为本申请实施例提供的电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请中的附图，对本申请中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着第五代高速网络和移动的泛在通信等最新通信技术的跨越式发展，网络流量在数量和复杂性上都有了显著增长。与此同时，流量安全正受到不断涌现的恶意攻击模式(例如全球分布式拒绝服务攻击数量到2023年将翻倍至1540万)。

面向流量的攻击过程大致可以分为三个步骤：

(1)信息收集。

信息收集过程指的是收集待攻击的服务器的数据或信息的过程。例如，可以获取待攻击的服务器的网络数据、IP地址、所在地址信息、与其他设备进行交互的数据等等。

(2)生成报告。

在步骤(1)中已经完成了待攻击的服务器的相关信息的收集，根据收集的信息，可以对待攻击的服务器进行解析和分析，生成对应的报告。其中，报告中可以包括步骤(1)中收集的信息，还可以包括对信息进行分析得到的结果，例如可以包括待攻击的服务器的属性、弱点等等。

(3)生成攻击流量。

在生成报告后，即可根据生成的报告生成攻击流量。在报告中，包括了待攻击的服务器的属性、弱点等信息，因此可以根据报告中的这些信息，生成相对应的攻击流量。

生成的攻击流量可以发送给待攻击的服务器，从而对其进行网络攻击。例如，若报告中包括待攻击的服务器的弱点，弱点是待攻击的服务器针对某类网络攻击的防御较为薄弱，则可以生成该类网络攻击对应的攻击流量，从而发起对待攻击的服务器的该类网络攻击。

目前，针对网络攻击的防御措施，包括静态防御方法。静态防御方法主要是基于预先定义的识别标准来识别网络攻击并进行防御，其具有较高的检测精度和效率，但过分依赖于预先定义的识别标准，只能减轻恶意流量的危害。因此，持续攻击者(即发起网络攻击的设备)在上述三个步骤中的攻击能力对于反应性的、被动的防御机制是完整的。

基于静态防御方法存在的缺点，网络移动目标防御被提出。网络移动目标防御方法通过在一开始就主动阻挠信息收集过程，进一步阻止面向流量的攻击。

具体而言，网络移动目标防御基于攻击面理论，不是仅仅保持改进的针对流量的恶意匹配规则，而是移动目标系统的攻击面，从而在理论上使攻击无效。更重要的是，防御者定期在代理之间转移用户，并根据每个用户长期积累的恶意评估来消除隐形间谍。

然而，不断涌现的智能攻击暴露了网络移动目标防御的其它缺点，这些缺点被总结为内生安全缺陷。现有的网络移动目标防御方案大多采用固定的或最优的恶意评估公式来保证令人满意的防御性能。复杂的攻击者可以通过集成深度学习等智能技术来推导评估标准。然后，恶意攻击流量可能在生成过程中被相应地改变，从而使整个网络移动目标防御系统降级甚至失效。总之，由于缺乏对自身安全性的考虑，现有的网络移动目标防御方法在面对智能攻击的演绎时容易受到攻击。因此，加强网络移动目标防御机制的内生安全性是必要的。

基于此，本申请实施例提供一种针对网络攻击的防御方案，以提高网络移动目标防御机制的内生安全性。首先结合图1介绍本申请实施例一种适用的应用场景。

图1为本申请实施例提供的应用场景示意图，如图1所示，包括主服务器、安全中心服务器、多个边缘代理服务器、多个客户端以及攻击设备。

其中，主服务器用于确定多个边缘代理服务器作为代理服务的服务器。以主服务器提供某个业务服务为例，为了减小被网络攻击的风险，主服务器可以将该业务服务部署到这多个边缘代理服务器上，部署在多个边缘代理服务器上的业务服务是相同的。客户端在访问该业务服务的过程中，可能从这多个边缘代理服务器中的任意一个进行访问。

攻击设备则在通过多个客户端在访问边缘代理服务器中部署的业务服务的过程中，收集边缘代理服务器的相关信息，并生成报告，从而基于报告生成攻击流量，来攻击边缘代理服务器。安全中心服务器可以为这多个边缘代理服务器部署相应的防御策略，以减小被网络攻击的风险。

下面基于图1示例的应用场景，对本申请实施例的方案进行介绍。

图2为本申请实施例提供的防御策略模型训练方法的流程示意图，该方法应用于第一设备，如图2所示，包括：

S21，获取多个样本服务器在第一个时段的样本防御状态数据，针对各样本服务器，第一个时段的样本防御状态数据用于指示第一个时段内、样本服务器是否部署了预设防御策略集合中的各防御策略。

本申请实施例中的多个样本服务器为可能会受到网络攻击的服务器，例如可以为图1中示例的边缘代理服务器，或者其他可能受到网络攻击的设备。

针对任意一个样本服务器而言，该样本服务器上可能部署了一个或多个防御策略，这一个或多个防御策略，属于预设防御策略集合中的防御策略。

本申请实施例中，预设防御策略集合中包括的防御策略，可以根据历史网络攻击的相关数据得到。具体的，针对某个被攻击的设备而言，当该设备在受到某个网络攻击的过程中，该设备针对该网络攻击会作出相应的防御反馈，在此过程中，该设备会生成相应的数据，采集生成的数据即可得到针对该网络攻击的防御策略。

具体的，首先获取一个数据集，数据集为真实的网络攻击中的流量。数据集具有相应的规模，例如可以包括多行多列，每一行对应一次网络请求，也即网络响应的流量，各列对应相应的网络请求中和网络流量相关的数据，例如可以包括该网络请求的源IP地址、目标IP地址、源端口信息、目标端口信息、数据请求协议、数据包大小等等。针对每个网络请求，还包括相应的分类标签，该分类标签用于指示对应的网络请求是否为一个正常请求，其可能为正常网络请求，或者是网络攻击请求。

防御策略指的是该数据集中的部分数据以及该部分数据对应的分类标签。其中，该数据集中的部分数据可以作为训练一个神经网络模型的样本，根据这部分数据和对应的分类标签训练该神经网络模型，从而使得该神经网络模型能够判断网络请求是否为一个正常网络请求，还是一个网络攻击请求。

例如，该数据集包括10万行，对应10万次网络请求，该数据集包括30列，各列对应网络请求中的不同类型的数据。其中，选择1万行数据作为特征训练该神经网络模型，这就是一种防御策略。根据数据集中的不同的特征来训练该神经网络模型，得到的训练好的神经网络模型是不同的，因而对应的防御策略也是不同的。

本申请实施例中，可以将公开的数据集作为上述数据集，也可以在现实网络流量数据中进行抓包，得到上述数据集。

在介绍本申请实施例的方案之前，为了便于理解，对本申请实施例中涉及到的相关概念进行介绍。

为了实时防御网络中的攻击，可以将时间划分为相等的时段t∈[1,T]，其中，t表示第t个时段，总共包括T个时段，T为正整数。在每个时段内，根据当前的样本防御状态数据部署新的防御策略、计算新策略收益、最后过渡到下一个样本防御状态。为了捕获随时间变化的防御策略，可以将上述过程公式化为马尔可夫决策过程。

首先对状态空间进行介绍。

不同样本服务器上部署的防御策略的情况代表了防御状态，表示为多维向量S_t＝{s_1,1,…,s_N,M}。s_i,j＝1表示第i个样本服务器上部署了特征j作为防御策略，s_i,j＝0表示第i个样本服务器上未部署特征j作为防御策略。

本申请实施例中，将网络状态空间表示为由所有可能的防御状态组成。但是由于样本服务器的计算资源有限，不能同时部署过多的特征。本申请实施例中，用C_i∈[1,M]表示第i个样本服务器上最多可以部署的特征数量，也即第i个样本服务器上可部署的防御策略的最大数量，以此代表样本服务器的计算能力。在本申请实施例中，M表示为预设防御策略集合中包括的防御策略的数量，M为正整数。

下面对动作空间进行介绍。

定义在第t个时段为样本服务器的每个特征(也即防御策略)执行添加、保持或移除操作是一个动作，表示为一个多维向量A_t＝{a_1,1,…,a_N,M}。其中a_i,j∈{-1,0,1}(1≤i≤N,1≤j≤M)表示针对第i个样本服务器上特征j的动作。a_i,j＝-1表示在第i个样本服务器上移除特征j，a_i,j＝0表示在第i个样本服务器上保持特征j，a_i,j＝1表示在第i个样本服务器上添加特征j。

将动作空间表示为由全部动作组成。动作空间大小为3^N×M，并随着边缘代理服务器和特征的数量增长呈指数增长。除了规模庞大，当前动作空间中还存在大量非法动作，非法动作即为不满足样本服务器的计算资源约束或者与上一个时段的防御状态相冲突的动作。

针对多个时段中的第1个时段，根据多个样本服务器在第1个时段是否部署了预设防御策略集合中的各防御策略，得到第一个时段的样本防御状态数据。

设总共包括T个时段，第1个时段的样本防御状态数据为S₁，S₁＝{s_1,1,...,s_N,M}。其中，任意元素s_i,j表示第i个样本服务器是否部署了特征j作为防御策略，i∈[1,N]，j∈[1,M]，M和N均为正整数，M为预设防御策略集合中包括的防御策略的数量，N为多个样本服务器的数量。若s_i,j＝1，则表示第i个样本服务器部署了特征j作为防御策略；若s_i,j＝0，则表示第i个样本服务器未部署特征j作为防御策略。

S22，根据防御策略模型，对第一个时段的样本防御状态数据进行处理，得到多个时段分别对应的动作选择概率集合和多个时段分别对应的状态价值，多个时段包括第一个时段，针对多个时段中的任意时段以及任意样本服务器，时段对应的动作选择概率集合用于指示样本服务器针对各防御策略选择执行子动作的概率，子动作包括部署对应的防御策略或者不部署对应的防御策略。

图3为本申请实施例提供的防御策略模型的内部处理示意图，如图3所示，在一种可能的实现方式中，将第t个时段的样本防御状态数据输入至防御策略模型，得到第t个时段对应的动作选择概率集合和第t个时段对应的状态价值。其中，t初始为1，t为大于或等于1的正整数。

然后，根据第t个时段对应的动作选择概率集合，确定多个样本服务器在第t+1个时段的样本防御状态数据。

在t小于T的情况下，更新t为t+1，并重复执行上述操作。直至t大于或等于T时，得到T个时段分别对应的动作选择概率集合和状态价值，T为正整数。

如图3所示，防御策略模型包括子动作选择网络和状态价值网络。针对任意第t个时段，第t个时段的样本防御状态数据会分别输入至子动作选择网络和状态价值网络中进行处理。下面结合图4对该过程进行介绍。

图4为本申请实施例提供的防御策略模型的处理流程示意图，如图4所示，包括：

S41，将第t个时段的样本防御状态数据输入至子动作选择网络，得到各样本服务器在第t个时段针对各防御策略的子动作选择概率。

针对任意第t个时段，第一设备首先将第t个时段的样本防御状态数据输入至子动作选择网络，由子动作选择网络对第t个时段的样本防御状态数据进行处理，输出各样本服务器在第t个时段针对各防御策略的子动作选择概率。

针对任意第i个样本服务器选择第j个防御策略的子动作选择概率，其可以表示为行索引代表样本服务器的编号，列索引代表特征编号，也即防御策略的编号。

S42，根据各样本服务器在第t个时段针对各防御策略的子动作选择概率，得到第t个时段对应的动作选择概率集合。

具体的，在第t个时段，针对任意样本服务器，根据该样本服务器针对各防御策略的子动作选择概率得到样本服务器对应的总概率/>

然后，根据总概率对样本服务器针对各防御策略的子动作选择概率进行归一化处理，得到样本服务器针对各防御策略的子动作选择归一化概率其中：

在得到各样本服务器针对各防御策略的子动作选择归一化概率后，根据各样本服务器针对各防御策略的子动作选择归一化概率/>得到第t个时段对应的动作选择概率集合P_t中包括的元素即为/>

S43，将第t个时段的样本防御状态数据输入至状态价值网络，得到第t个时段对应的状态价值。

针对任意第t个时段，第一设备首先将第t个时段的样本防御状态数据输入至状态价值网络，由状态价值网络对第t个时段的样本防御状态数据进行处理，输出第t个时段对应的状态价值，第t个时段对应的状态价值用于对第t个时段的样本防御状态数据进行评价，评价其合理性。

在得到第t个时段对应的动作选择概率集合后，根据第t个时段对应的动作选择概率集合，可以确定多个样本服务器在第t+1个时段的样本防御状态数据。

具体的，首先根据第t个时段对应的动作选择概率集合，确定第t+1个时段多个样本服务器针对各防御策略选择执行的子动作。

在一种可能的实现方式中，首先确定各样本服务器上可部署的防御策略的最大数量。由于各样本服务器的计算资源是一定的，因此各样本服务器上可不是的防御策略的最大数量也是一定的。本申请实施例中，针对任意第i个样本服务器而言，采用C_i表示第i个样本服务器上可部署的防御策略的最大数量，C_i∈[1,M]。

在确定各样本服务器上可部署的防御策略的最大数量后，根据第t个时段对应的动作选择概率集合P_t，以及各样本服务器上可部署的防御策略的最大数量C_i，确定第t+1个时段多个样本服务器针对各防御策略选择执行的子动作表示第t+1个时段第i个样本服务器选择执行针对第j个防御策略的子动作。/>表示第t+1个时段第i个样本服务器选择执行针对第j个防御策略的子动作为部署第j个防御策略；/>表示第t+1个时段第i个样本服务器选择执行针对第j个防御策略的子动作为不部署第j个防御策略。

具体的，在得到第t个时段对应的动作选择概率集合P_t后，针对第i个样本服务器，根据第t个时段对应的动作选择概率集合P_t，在M个防御策略中随机选择C_i个防御策略作为第i个样本服务器的防御策略，直至所有的样本服务器都选择完毕。在所有的样本服务器都选择完毕后，根据所有样本服务器针对各防御策略选择执行的子动作，可以得到第t+1个时段的子动作集合A_t+1。

S23，根据多个时段分别对应的动作选择概率集合和多个时段分别对应的状态价值，对防御策略模型的参数进行调整，以得到训练好的防御策略模型。

针对任意第t个时段，根据第t个时段的样本防御状态数据，可以获取第t个时段对应的防御策略内生安全性奖励参数。

具体的，由于本申请实施例中在样本服务器上部署的防御策略的存在形式是特征的形式，因此对样本服务器上部署的防御策略(也即特征)进行显著性求和，可以得到第t个时段对应的显著性参数。而对样本服务器上部署的防御策略(也即特征)计算欧式距离，可以得到第t个时段对应的差异性参数。

然后，根据第t个时段对应的显著性参数和第t个时段对应的差异性参数，可以获取第t个时段对应的防御策略内生安全性奖励参数，具体计算过程可参见下式(2)：

其中，R_t为第t个时段对应的防御策略内生安全性奖励参数，λ为调节内生安全性和检测性能的参数，是一个预设值，为第t个时段对应的显著性参数，/>为第t个时段对应的差异性参数。/>

本申请实施例的方案，综合考虑了恶意流量检测和内生安全性，为了正确评价特征组合(防御策略)的性能，提出了一种增强的内生安全性准则，并加入到奖励函数。

基于提出的具有内生安全增强需求的主动防御体系架构，综合考虑显著性和差异性目标，将网络移动目标防御策略优化问题转化为强化学习问题。

改造了近端策略优化算法，通过对原始动作空间的抽象，提出一种动作空间缩减方法，有效降低动作空间规模，加快算法收敛速度。此外，创新性地提出一种多子动作选择算法，更为符合现实系统模型。

在得到各时段对应的防御策略内生安全性奖励参数R^t后，根据各时段的样本防御状态数据、对应的防御策略内生安全性奖励参数、对应的动作选择概率集合、对应的状态价值以及多个样本服务器针对各防御策略选择执行的子动作，对防御策略模型的参数进行调整，以得到训练好的防御策略模型。

本申请实施例中，需要更新子动作的参数，但是选择动作的输出A_t是一个子动作的集合。在经典的近端策略优化算法中，在执行完每个动作A_t之后，系统会将(S_t,A_t,p(A_t|S_t),V_μ(S_t),R_t)存放进内存中供下次更新使用，其中V_μ(S_t)是状态价值网络的输出。因此集合A_t的奖励不能用于子动作/>的更新。本申请实施例中，通过按比例分配来解决这个问题，子动作的奖励/>和状态价值网络的输出/>按照每个子动作的选择概率按比例分配，可参见下式(3)和式(4)：

在训练前，初始化子动作选择网络和状态价值网络的权重和经验回放区。在每个回合k∈{1,2,…,K}中，先重置状态S₀，准备开启这个回合。在每个时段t∈0,1,…,T-1中，根据当前状态S_t通过子动作选择得到子动作集合A_t、每个子动作的选择概率和评论家网络输出的状态价值V_μ(S_t)。执行每个子动作/>得到新的样本防御状态数据S_t+1和防御策略内生安全性奖励参数R_t。对于每个子动作按照概率比例计算出子动作/>的奖励/>和价值/>将/>存储到经验回放区B中。然后从B中采样B次对子动作选择网络和状态价值网络进行梯度更新，每次采样U个形式如同<s_t,a_t,p_t,v_t,r_t>的元组。最后清空B。每一轮训练，通过损失函数来更新子动作选择网络和状态价值网络的参数。

强化学习与分层网络流量移动目标防御结合具有重要的研究价值。在本本申请实施例中，先构建了分层网络流量移动目标防御机制的内生安全标准和量化模型，权衡代理节点防御特征分配的显著性和差异性两方面，从而进行最优防御策略选择。然后将强化学习算法应用到分层网络流量移动目标防御中，最大化移动目标防御的防御性能，并在演员-评论家框架下实现了对近端策略优化算法的动作空间缩减和多子动作选择机制，从而提升学习效果。

图5为本申请实施例提供的防御策略确定方法的流程示意图，该方法应用于第二设备，如图5所示，包括：

S51，获取多个服务器在当前时段的防御状态数据，针对各服务器，当前时段的防御状态数据用于指示当前时段内、服务器是否部署了预设防御策略集合中的各防御策略。

本申请实施例中的第二设备和第一设备可以是同一个设备，也可以是不同的设备。多个服务器为可能会受到网络攻击的服务器，例如可以为图1中示例的边缘代理服务器，或者其他可能受到网络攻击的设备。

针对任意一个服务器而言，该服务器上可能部署了一个或多个防御策略，这一个或多个防御策略，属于预设防御策略集合中的防御策略。

设当前时段为t，则可以以多维向量S_t＝{s_1,1,…,s_N,M}表示多个服务器在当前时段的防御状态数据。s_i,j＝1表示第i个服务器上部署了特征j作为防御策略，s_i,j＝0表示第i个服务器上未部署特征j作为防御策略。

S52，将当前时段的防御状态数据输入至防御策略模型，得到当前时段对应的动作选择概率集合。

本申请实施例中的防御策略模型为根据上述实施例介绍的方案进行训练得到的模型。在训练完成后，将当前时段的防御状态数据输入至防御策略模型，通过防御策略模型中的子动作选择网络对当前时段的防御状态数据进行处理，即可得到当前时段对应的动作选择概率集合。

本申请实施例中，通过防御策略模型中的子动作选择网络对当前时段的防御状态数据进行处理，得到当前时段对应的动作选择概率集合的过程，与上述实施例中通过子动作选择网络对多个样本服务器在第t个时段的防御状态数据进行处理，得到第t个时段对应的动作选择概率集合的过程类似，此处不再赘述。

S53，根据当前时段对应的动作选择概率集合，确定下一时段多个服务器针对各防御策略选择执行的子动作，子动作包括部署对应的防御策略或者不部署对应的防御策略。

本申请实施例中，根据当前时段对应的动作选择概率集合，确定下一时段多个服务器针对各防御策略选择执行的子动作的过程，与上述实施例中根据第t个时段对应的动作选择概率集合，确定第t+1个时段多个样本服务器针对各防御策略选择执行的子动作的过程类似，具体实现过程可参见上述实施例的相关介绍，此处不再赘述。

S54，针对多个服务器中的任意服务器，根据下一时段服务器针对各防御策略选择执行的子动作，向服务器发送指示信息，指示信息用于指示服务器执行针对各防御策略选择执行的子动作。

在确定了下一时段多个服务器针对各防御策略选择执行的子动作后，根据下一时段服务器针对各防御策略选择执行的子动作，向各服务器分别发送对应的指示信息，从而指示各服务器执行针对各防御策略选择执行的子动作，即可实现防御策略的部署，以避免网络攻击对服务器造成的不利影响。

本申请实施例提供的防御策略模型训练方法，应用于第一设备，首先获取多个样本服务器在第一个时段的样本防御状态数据，针对各样本服务器，第一个时段的样本防御状态数据用于指示第一个时段内、样本服务器是否部署了预设防御策略集合中的各防御策略；然后根据防御策略模型，对第一个时段的样本防御状态数据进行处理，得到多个时段分别对应的动作选择概率集合和多个时段分别对应的状态价值，多个时段包括所述第一个时段，针对多个时段中的任意时段以及任意样本服务器，该时段对应的动作选择概率集合用于指示样本服务器针对各防御策略选择执行子动作的概率，子动作包括部署对应的防御策略或者不部署对应的防御策略；根据多个时段分别对应的动作选择概率集合和多个时段分别对应的状态价值，对防御策略模型的参数进行调整，以得到训练好的防御策略模型。通过防御策略模型能够确定各个样本服务器选择部署防御策略的概率，从而更合理的结合服务器自身的特点部署相应的防御策略来防止被网络攻击，提高了防御策略部署的效率和合理性，能够实现对智能攻击侵蚀的良好防御性能。本申请实施例的方案，设计了一种分层网络流量移动目标防御框架的系统模型，将防御策略生成问题构造为马尔可夫决策过程，使如何选择最优特征组合转化为寻找该多目标规划的最优策略。通过综合考虑显著性和差异性目标，将策略优化问题进一步转化为强化学习问题，建立强化学习五元组，并将新提出的增强的内生安全性准则加入到奖励函数。最后，改造了近端策略优化算法，缩减原始动作空间、新增子动作选择机制，得到了“安全-性能”并行最大化算法，在全局差异、平均防御显著性、防御成功率等多个防御和内生安全指标上均优于现有的网络移动目标防御方案。

下面对本申请提供的防御策略模型训练装置进行描述，下文描述的防御策略模型训练装置与上文描述的防御策略模型训练方法可相互对应参照。

图6为本申请实施例提供的防御策略模型训练装置的结构示意图，如图6所示，包括：

获取模块61，用于获取多个样本服务器在第一个时段的样本防御状态数据，针对各样本服务器，所述第一个时段的样本防御状态数据用于指示所述第一个时段内、所述样本服务器是否部署了预设防御策略集合中的各防御策略；

处理模块62，用于根据防御策略模型，对所述第一个时段的样本防御状态数据进行处理，得到多个时段分别对应的动作选择概率集合和多个时段分别对应的状态价值，所述多个时段包括所述第一个时段，针对所述多个时段中的任意时段以及任意样本服务器，所述时段对应的动作选择概率集合用于指示所述样本服务器针对各所述防御策略选择执行子动作的概率，所述子动作包括部署对应的防御策略或者不部署对应的防御策略；

训练模块63，用于根据所述多个时段分别对应的动作选择概率集合和所述多个时段分别对应的状态价值，对所述防御策略模型的参数进行调整，以得到训练好的防御策略模型。

在一种可能的实施方式中，所述处理模块62具体用于：

在一种可能的实施方式中，所述防御策略模型包括子动作选择网络和状态价值网络；所述处理模块62具体用于：

在一种可能的实施方式中，所述处理模块62具体用于：

确定各所述样本服务器上可部署的防御策略的最大数量；

在一种可能的实施方式中，所述训练模块63具体用于：

下面对本申请提供的防御策略确定装置进行描述，下文描述的防御策略确定装置与上文描述的防御策略确定方法可相互对应参照。

图7为本申请实施例提供的防御策略确定装置的结构示意图，如图7所示，包括：

获取模块71，用于获取多个服务器在当前时段的防御状态数据，针对各服务器，所述当前时段的防御状态数据用于指示所述当前时段内、所述服务器是否部署了预设防御策略集合中的各防御策略；

处理模块72，用于将所述当前时段的防御状态数据输入至防御策略模型，得到所述当前时段对应的动作选择概率集合；

确定模块73，用于根据所述当前时段对应的动作选择概率集合，确定下一时段所述多个服务器针对各所述防御策略选择执行的子动作，所述子动作包括部署对应的防御策略或者不部署对应的防御策略；

指示模块74，用于针对所述多个服务器中的任意服务器，根据下一时段所述服务器针对各所述防御策略选择执行的子动作，向所述服务器发送指示信息，所述指示信息用于指示所述服务器执行针对各所述防御策略选择执行的子动作。

图8示例了一种电子设备的实体结构示意图，如图8所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行防御策略模型训练方法或防御策略确定方法。防御策略模型训练方法应用于第一设备，包括：获取多个样本服务器在第一个时段的样本防御状态数据，针对各样本服务器，所述第一个时段的样本防御状态数据用于指示所述第一个时段内、所述样本服务器是否部署了预设防御策略集合中的各防御策略；根据防御策略模型，对所述第一个时段的样本防御状态数据进行处理，得到多个时段分别对应的动作选择概率集合和多个时段分别对应的状态价值，所述多个时段包括所述第一个时段，针对所述多个时段中的任意时段以及任意样本服务器，所述时段对应的动作选择概率集合用于指示所述样本服务器针对各所述防御策略选择执行子动作的概率，所述子动作包括部署对应的防御策略或者不部署对应的防御策略；根据所述多个时段分别对应的动作选择概率集合和所述多个时段分别对应的状态价值，对所述防御策略模型的参数进行调整，以得到训练好的防御策略模型。防御策略确定方法应用于第二设备，包括：获取多个服务器在当前时段的防御状态数据，针对各服务器，所述当前时段的防御状态数据用于指示所述当前时段内、所述服务器是否部署了预设防御策略集合中的各防御策略；将所述当前时段的防御状态数据输入至防御策略模型，得到所述当前时段对应的动作选择概率集合；根据所述当前时段对应的动作选择概率集合，确定下一时段所述多个服务器针对各所述防御策略选择执行的子动作，所述子动作包括部署对应的防御策略或者不部署对应的防御策略；针对所述多个服务器中的任意服务器，根据下一时段所述服务器针对各所述防御策略选择执行的子动作，向所述服务器发送指示信息，所述指示信息用于指示所述服务器执行针对各所述防御策略选择执行的子动作。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本申请还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的防御策略模型训练方法或防御策略确定方法。防御策略模型训练方法应用于第一设备，包括：获取多个样本服务器在第一个时段的样本防御状态数据，针对各样本服务器，所述第一个时段的样本防御状态数据用于指示所述第一个时段内、所述样本服务器是否部署了预设防御策略集合中的各防御策略；根据防御策略模型，对所述第一个时段的样本防御状态数据进行处理，得到多个时段分别对应的动作选择概率集合和多个时段分别对应的状态价值，所述多个时段包括所述第一个时段，针对所述多个时段中的任意时段以及任意样本服务器，所述时段对应的动作选择概率集合用于指示所述样本服务器针对各所述防御策略选择执行子动作的概率，所述子动作包括部署对应的防御策略或者不部署对应的防御策略；根据所述多个时段分别对应的动作选择概率集合和所述多个时段分别对应的状态价值，对所述防御策略模型的参数进行调整，以得到训练好的防御策略模型。防御策略确定方法应用于第二设备，包括：获取多个服务器在当前时段的防御状态数据，针对各服务器，所述当前时段的防御状态数据用于指示所述当前时段内、所述服务器是否部署了预设防御策略集合中的各防御策略；将所述当前时段的防御状态数据输入至防御策略模型，得到所述当前时段对应的动作选择概率集合；根据所述当前时段对应的动作选择概率集合，确定下一时段所述多个服务器针对各所述防御策略选择执行的子动作，所述子动作包括部署对应的防御策略或者不部署对应的防御策略；针对所述多个服务器中的任意服务器，根据下一时段所述服务器针对各所述防御策略选择执行的子动作，向所述服务器发送指示信息，所述指示信息用于指示所述服务器执行针对各所述防御策略选择执行的子动作。

又一方面，本申请还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的防御策略模型训练方法或防御策略确定方法。防御策略模型训练方法应用于第一设备，包括：获取多个样本服务器在第一个时段的样本防御状态数据，针对各样本服务器，所述第一个时段的样本防御状态数据用于指示所述第一个时段内、所述样本服务器是否部署了预设防御策略集合中的各防御策略；根据防御策略模型，对所述第一个时段的样本防御状态数据进行处理，得到多个时段分别对应的动作选择概率集合和多个时段分别对应的状态价值，所述多个时段包括所述第一个时段，针对所述多个时段中的任意时段以及任意样本服务器，所述时段对应的动作选择概率集合用于指示所述样本服务器针对各所述防御策略选择执行子动作的概率，所述子动作包括部署对应的防御策略或者不部署对应的防御策略；根据所述多个时段分别对应的动作选择概率集合和所述多个时段分别对应的状态价值，对所述防御策略模型的参数进行调整，以得到训练好的防御策略模型。防御策略确定方法应用于第二设备，包括：获取多个服务器在当前时段的防御状态数据，针对各服务器，所述当前时段的防御状态数据用于指示所述当前时段内、所述服务器是否部署了预设防御策略集合中的各防御策略；将所述当前时段的防御状态数据输入至防御策略模型，得到所述当前时段对应的动作选择概率集合；根据所述当前时段对应的动作选择概率集合，确定下一时段所述多个服务器针对各所述防御策略选择执行的子动作，所述子动作包括部署对应的防御策略或者不部署对应的防御策略；针对所述多个服务器中的任意服务器，根据下一时段所述服务器针对各所述防御策略选择执行的子动作，向所述服务器发送指示信息，所述指示信息用于指示所述服务器执行针对各所述防御策略选择执行的子动作。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种防御策略模型训练方法，其特征在于，应用于第一设备，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据防御策略模型，对所述第一个时段的样本防御状态数据进行处理，得到多个时段分别对应的动作选择概率集合和多个时段分别对应的状态价值，包括：

3.根据权利要求2所述的方法，其特征在于，所述防御策略模型包括子动作选择网络和状态价值网络；所述将第t个时段的样本防御状态数据输入至所述防御策略模型，得到所述第t个时段对应的动作选择概率集合和所述第t个时段对应的状态价值，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据各所述样本服务器在所述第t个时段针对各所述防御策略的子动作选择概率，得到所述第t个时段对应的动作选择概率集合，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述第t个时段对应的动作选择概率集合，确定所述多个样本服务器在第t+1个时段的样本防御状态数据，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述第t个时段对应的动作选择概率集合，确定第t+1个时段所述多个样本服务器针对各所述防御策略选择执行的子动作，包括：

确定各所述样本服务器上可部署的防御策略的最大数量；

7.根据权利要求2-6任一项所述的方法，其特征在于，所述根据所述多个时段分别对应的动作选择概率集合和所述多个时段分别对应的状态价值，对所述防御策略模型的参数进行调整，以得到训练好的防御策略模型，包括：

8.一种防御策略确定方法，其特征在于，应用于第二设备，所述方法包括：

将所述当前时段的防御状态数据输入至防御策略模型，得到所述当前时段对应的动作选择概率集合，其中，所述防御策略模型为根据权利要求1-7任一项所述的方法训练得到的模型；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述的防御策略模型训练方法，或者，所述处理器执行所述程序时实现如权利要求8所述的防御策略确定方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的防御策略模型训练方法，或者，所述计算机程序被处理器执行时实现如权利要求8所述的防御策略确定方法。