CN115134174A

CN115134174A - 基于改进Actor-Critic算法的SDN下自适应威胁缓解方法及系统

Info

Publication number: CN115134174A
Application number: CN202211058834.9A
Authority: CN
Inventors: 石成豪; 王宇; 钱克昌; 熊达鹏; 万颖; 吴曙光; 苏英豪
Original assignee: Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Current assignee: Peoples Liberation Army Strategic Support Force Aerospace Engineering University
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2022-09-30
Anticipated expiration: 2042-08-31
Also published as: CN115134174B

Abstract

本发明涉及网络安全技术领域，具体公开了基于改进Actor‑Critic算法的SDN下自适应威胁缓解方法及系统，包括架设SDN下自适应威胁缓解架构，SDN下自适应威胁缓解架构包括深度强化学习代理，其为基于改进Actor‑Critic算法搭建的深度神经网络；训练基于改进Actor‑Critic算法搭建的深度神经网络，以获得自适应威胁缓解代理；基于自适应威胁缓解代理输出最优自适应网络威胁缓解策略，基于最优自适应网络威胁缓解策略来改变网络安全部署；该方法对Actor‑Critic算法进行改进，对于长序列、不完全信息的观测环境效果更好，能产生更好网络威胁缓解策略。

Description

基于改进Actor-Critic算法的SDN下自适应威胁缓解方法及系统

技术领域

本发明涉及网络安全技术领域，具体涉及一种基于改进Actor-Critic算法的SDN下自适应威胁缓解方法及系统。

背景技术

软件定义网络（Software Define Network，SDN）是一种新型网络架构，如图1所示，SDN由三层组成，自底向上分别为数据层、控制层和应用层，控制层是SDN的核心，对上层的应用层提供编程接口，给网络管理者提供网络实时状态信息和控制指令，对下层的数据层提供流规则，从而指导OpenFlow交换机进行数据的转发和处理；SDN将网络中的数据层和控制层进行解耦，使控制层独立出来并集中化进而获得全局网络视图，能够以全局的视角进行网络安全管理，这样的体系架构给网络入侵防御能力的提升以新的机会和可能性；而随着网络技术日益复杂、网络威胁技术不断革新，网络攻击者能够设计更复杂有效的攻击来进行入侵，这给网络威胁缓解工作带来了巨大的挑战，在实际的网络安全管理中，使人工检查网络流量威胁的成本巨幅提高；综合SDN对于网络拥有全局视角的优势，开发人员可以在应用层快速开发应用并进行测试，有助于降低网络安全管理的成本，在降低网络威胁的同时保证正常用户的网络服务质量，这也使全局化的网络安全管理成为可能。

对于网络威胁的识别和隔离是网络威胁缓解任务的主要目标，该目标会影响正常用户的网络服务质量和网络服务的正常运行；APT（Advanced Persistent Threat）区别于普通网络攻击，对其采用基于特征的入侵检测方法一般无法得到有效地检测，其攻击向量相对较为复杂，可以根据目标网络和系统环境来自适应地改变自身行为，并在较长时间周期内采用缓慢的步骤来发现目标网络系统弱点并进行攻击以躲过检测，具有很强的隐蔽性；对于APT攻击无法对某个特定的标志性特征来对其进行识别，而需对APT网络攻击的整个生命周期进行监测并跟踪，并采用具有时间或空间序列的多步特征对其进行有效地判断与防范，如今对于APT攻击的缓解工作仍主要通过人工处理、事后总结分析的方式进行；但是由于网络数据流量庞大而复杂，具有高维特征，使用人工方式对网络流量中的恶意流量进行识别和缓解需要巨大的人力成本和资源，这加大了自适应网络安全管理技术的需求，即亟需研究自适应网络威胁缓解问题，并基于算法求得合适的自适应网络威胁缓解方案。

强化学习作为机器学习的一个研究领域，在过去几年中有了突飞猛进式的发展，从视频游戏到自动驾驶，在某些实例中可以通过强化学习方法实现超越人类专家级别的控制的智能代理；因此研究强化学习方法在SDN下网络主动防御中实现自适应控制是很自然而迫切的；Actor-Critic算法为深度强化学习算法，该算法是Q-learning算法与PolicyGradient算法的结合；Actor-Critic算法适合解决多维连续状态空间和动作空间的时间序列决策问题，算法能在有限维的输入和有限维的输出中起到比较好的效果；如图2所示，深度强化学习代理通过对环境进行观测并在环境中实施动作以获得奖励回报来对深度神经网络进行训练，Actor角色起到的作用是：在当前状态下决定哪一个动作被执行会达到最好的效果；而Critic则是对某一个状态下采取的某个动作做出评价，这个评价会影响Actor今后的选择，Actor-Critic算法所需要的训练时间要比Policy Gradient算法短，训练成功后获得可以处理对于特定时间序列决策任务的智能体；Actor-Critic算法适合解决多维连续状态空间和动作空间的时间序列决策问题，算法能在有限维的输入和有限维的输出中起到比较好的效果，但在部分可观测的任务上表现不够理想，还需进行改进。

发明内容

针对上述问题，本发明的第一个目的在于解决SDN下的自适应威胁缓解问题，提出一种基于改进Actor-Critic算法的SDN下自适应威胁缓解方法，该方法在实际任务场景下，处理网络攻击威胁事件，旨在解决SDN网络下自适应威胁缓解问题；该方法对Actor-Critic算法进行改进设计，使改进后的Actor-Critic算法对于长序列、不完全信息的观测环境效果更好，能产生更好网络威胁缓解策略，从而保证网络服务的正常运行。

本发明的第二个目的是提供一种基于改进Actor-Critic算法的SDN下自适应威胁缓解系统。

本发明所采用的第一个技术方案是：一种基于改进Actor-Critic算法的SDN下自适应威胁缓解方法，包括以下步骤：

S100：架设SDN下自适应威胁缓解架构，所述SDN下自适应威胁缓解架构包括深度强化学习代理、SDN基础设施和主机配置；其中，所述深度强化学习代理为基于改进Actor-Critic算法搭建的深度神经网络，所述基于改进Actor-Critic算法搭建的深度神经网络包括改进Critic网络和Actor网络，所述改进Critic网络为四层结构，其第一层、第三层和第四层为全连接层，第二层为LSTM网络；所述SDN基础设施用于获取网络观测状态，所述主机配置用于反馈服务质量和攻击进度；

S200：训练基于改进Actor-Critic算法搭建的深度神经网络，以获得自适应威胁缓解代理；

S300：基于所述自适应威胁缓解代理输出最优自适应网络威胁缓解策略，以及基于所述最优自适应网络威胁缓解策略来改变网络安全部署以缓解网络威胁。

优选地，所述步骤S200包括以下子步骤：

S210：设置服务质量和攻击进度所对应的奖励量化标准；

S220：初始化基于改进Actor-Critic算法搭建的深度神经网络中的超参数与神经网络参数；

S230：判断是否达到最大迭代次数，若是，则输出自适应威胁缓解代理，若否，则获取当前网络观测状态；

S240：随机生成一个随机浮点数，若随机浮点数大于探索参数，则执行探索动作，即随机选取一个部署动作；若随机浮点数小于或等于探索参数，则不执行探索动作；

S250：判断经验回放池中是否存在回合序列，若经验回放池中存在回合序列，则从经验回放池中进行采样并训练，更新Actor和改进Critic网络，并进一步判断当前回合是否结束；若经验回放池中不存在回合序列，则直接判断当前回合是否结束；

若当前回合结束，则将回合序列放入到经验回放池中，并再次判断是否达到最大迭代次数，若达到最大迭代次数，则输出自适应威胁缓解代理，若未达到最大迭代次数，则循环步骤S230~S250的迭代训练过程，最后获得当前SDN网络环境下的自适应威胁缓解代理；若当前回合未结束，则循环步骤S230~S250的迭代训练过程，最后获得当前SDN网络环境下的自适应威胁缓解代理。

优选地，所述步骤S240包括：

若随机浮点数小于或等于探索参数，则将当前网络观测状态输入到Actor网络中从而输出一个部署动作；

在SDN网络中执行部署动作，调用Mysql数据库来记录得到的新网络观测状态，调用正常主机的服务质量和恶意主机的攻击进度信息，基于所述服务质量和攻击进度所对应的奖励量化标准将服务质量和攻击进度信息进行量化，以获得奖励回报；

部署动作执行完成后，将当前网络观测状态、部署动作、奖励回报和新网络观测状态添加到回合序列中。

优选地，所述步骤S200中还包括通过构建时间序列控制模型进行观测及部署；

所述时间序列控制模型的构建为：在一个时间段内，每间隔一定时间对网络状态进行一次观测，并执行一次部署。

优选地，网络观测状态包括前30s内SDN网络中主机的发送流量大小、接收流量大小、UDP报警数和TCP报警数中的一种或多种信息。

优选地，所述网络观测状态还包括网络服务连接数量和开放端口数目的特征信息。

优选地，所述步骤S250中从经验回放池中进行采样并训练，更新Actor和改进Critic网络包括：

从经验回放池中进行采样，使用样本数据对基于改进Actor-Critic算法搭建的深度神经网络进行训练，并更新Actor和改进Critic网络；其中，从经验回放池中进行采样包括：

若经验回放池中至少存在一次完整的回合序列，则在经验回放池中随机选取一个回合序列，在该回合序列中随机选取一段序列进行采样。

优选地，使用样本数据对基于改进Actor-Critic算法搭建的深度神经网络进行训练，并更新Actor和改进Critic网络包括：

结合样本数据，先使用改进Actor-Critic算法中的改进Critic网络通过时间差分算法计算TD-Error，通过TD-Error计算MSE均方差损失函数，并使用梯度下降法对改进Actor-Critic算法中的改进Critic网络的网络参数进行更新，再结合计算好的TD-Error，使用策略梯度和梯度上升算法对Actor网络参数进行更新。

本发明所采用的第二个技术方案是：一种基于改进Actor-Critic算法的SDN下自适应威胁缓解系统，包括SDN下自适应威胁缓解架构架设模块、训练模块和部署模块；

所述SDN下自适应威胁缓解架构架设模块用于架设SDN下自适应威胁缓解架构，所述SDN下自适应威胁缓解架构包括深度强化学习代理、SDN基础设施和主机配置；其中，所述深度强化学习代理为基于改进Actor-Critic算法搭建的深度神经网络，所述基于改进Actor-Critic算法搭建的深度神经网络包括改进Critic网络和Actor网络，所述改进Critic网络为四层结构，其第一层、第三层和第四层为全连接层，第二层为LSTM网络；所述SDN基础设施用于获取网络观测状态，所述主机配置用于反馈服务质量和攻击进度；

所述训练模块用于训练基于改进Actor-Critic算法搭建的深度神经网络，以获得自适应威胁缓解代理；

所述部署模块用于基于所述自适应威胁缓解代理输出最优自适应网络威胁缓解策略，以及基于所述最优自适应网络威胁缓解策略来改变网络安全部署以缓解网络威胁。

上述技术方案的有益效果：

（1）本发明公开的一种基于改进Actor-Critic算法的SDN下自适应威胁缓解方法在实际任务场景下，处理网络攻击威胁事件，旨在解决SDN网络下自适应威胁缓解问题；该方法以最大化缓解网络威胁的同时保证正常用户的网络服务质量为目标，构建时间序列控制模型，使用改进的Actor-Critic算法，得到目标网络下最优的自适应威胁缓解策略。

（2）本发明公开的一种基于改进Actor-Critic算法的SDN下自适应威胁缓解方法在SDN网络下的自适应威胁缓解架构的基础上，对Actor-Critic算法进行改进设计，包括将Critic网络的第二层更换为LSTM网络来辅助智能体进行记忆，使改进后的Actor-Critic算法对于长序列、不完全信息的观测环境效果更好，能产生更好的自适应威胁缓解策略。

附图说明

图1为SDN基本网络架构的示意图；

图2为深度强化学习算法基本架构的示意图；

图3为本发明的一个实施例提供的一种基于改进Actor-Critic算法的SDN下自适应威胁缓解方法的流程示意图；

图4为本发明的一个实施例提供的SDN下自适应威胁缓解架构的示意图；

图5为本发明仿真实验中短周期的APT攻击情况下，Actor-Critic算法与改进Actor-Critic算法的效果对比图；

图6为本发明仿真实验中长周期的APT攻击情况下，Actor-Critic算法与改进Actor-Critic算法的效果对比图；

图7为本发明的一个实施例提供的一种基于改进Actor-Critic算法的SDN下自适应威胁缓解系统的结构示意图。

具体实施方式

下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例的详细描述和附图用于示例性地说明本发明的原理，但不能用来限制本发明的范围，即本发明不限于所描述的优选实施例，本发明的范围由权利要求书限定。

在本发明的描述中，需要说明的是，除非另有说明，“多个”的含义是两个或两个以上；术语“第一”“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性；对于本领域的普通技术人员而言，可视具体情况理解上述术语在本发明中的具体含义。

实施例一

图3为本发明的一个实施例提供的一种基于改进Actor-Critic算法的SDN下自适应威胁缓解方法，包括以下步骤：

S100：架设SDN下自适应威胁缓解架构；

如图4所示，SDN下自适应威胁缓解架构包括深度强化学习代理、SDN基础设施和主机配置；其中，

深度强化学习代理是指基于改进Actor-Critic算法搭建的深度神经网络，用于接收网络观测状态，并基于网络观测状态产生安全部署行为；并基于安全部署行为输出部署动作并实施，从而获取奖励回报来对基于改进Actor-Critic算法搭建的深度神经网络进行训练；基于改进Actor-Critic算法搭建的深度神经网络包括改进Critic网络和Actor网络，因为Actor-Critic算法对于部分可观测的长序列环境表现较差，本发明创新性地将Critic网络的第二层更换为LSTM网络来辅助智能体进行记忆；除改进Critic网络的第二层为LSTM网络外，其他均设置为全连接层；即基于改进Actor-Critic算法搭建的深度神经网络中的改进Critic网络为四层结构，其第一层、第三层和第四层为全连接层，第二层为LSTM网络；基于改进Actor-Critic算法搭建的深度神经网络中的Actor网络也为四层结构；

SDN基础设施包括控制器（例如OpenDaylight）、OpenFlow交换机（例如OpenvSwitch）、Snort（网络入侵检测/防御系统）和VTN（Virtual Tenant Network），其中控制器和OpenFlow交换机用于保证网络的正常运行；Snort用于监测网络状态从而获得的网络观测状态，例如TCP、UDP报警信息、流量统计信息等；VTN用于虚拟网络区域建立；

主机配置用于对正常主机和恶意主机进行模拟，分别反馈服务质量（Qos）和攻击进度。

在SDN基础设施中，采用OpenDaylight（ODL）作为SDN网络控制器，Open vSwitch（OvS）作为OpenFlow交换机；使用Snort（网络入侵检测/防御系统）作为网络监测器，Snort并作为IDS/IPS使用，Snort对网络流量进行实时监控并生成网络观测状态，例如TCP、UDP报警信息等；在Snort开启被动模式时仅当作IDS使用，进行网络检测；Snort开启主动模式时作为IDS/IPS使用，对可疑流量进行拦截检测，TCP、UDP报警信息使用Barnyard插件进行观测，并通过Barnyard储存到Mysql数据库中。

在主机配置中，训练时部署一组正常主机和恶意主机，正常主机用来帮助深度强化学习代理确定其允许且不被干扰的流量类型，以及确定正常用户的行为请求；正常主机采用虚拟用户代理进行网页浏览、资源上传与下载或即时通讯行为，恶意主机则进行端口扫描、漏洞利用或服务、系统渗透等恶意行为，正常主机会对深度强化学习代理反馈其服务质量（Qos），服务质量例如包括网络延迟、丢包率等信息，恶意主机相应地则会反馈攻击进度和攻击成功率等信息，主机的反馈信息会被量化为标量的奖励回报，从而被深度强化学习代理所接收。

在深度强化学习代理中，通过控制器北向接口来接收Snort网络监测器所获得的网络观测状态，例如TCP、UDP报警信息、流量统计信息等，深度强化学习代理通过所接收的网络观测状态产生安全部署行为，并将产生的安全部署行为作为输出动作来设置SDN网络的安全级别；在训练阶段，正常与恶意主机所提供的服务质量与攻击进度信息会量化为标量的奖励汇报，该奖励汇报作为某网络状态下深度强化学习代理所做出部署动作好坏的评判标准。

进一步的，在一个实施例中，在划分不同级别安全的虚拟网络区域时，可以增加安全级别的细粒度，根据不同的安全级别划分更多的区域，通过增加更多的安全级别设置，给网络以更多的缓冲，给不同程度的网络攻击以更多的安全级别来应对。

S210：设置服务质量（Qos）和攻击进度所对应的奖励量化标准；

S220：初始化参数，即初始化深度强化学习代理（基于改进Actor-Critic算法搭建的深度神经网络）中的超参数与神经网络参数；

本发明的自适应威胁缓解方法是动态设置网络的安全级别；设SDN网络中主机总数量为m，其中正常主机数量为m₁，恶意主机数量为m₂，满足m₁+m₂=m；网络有两个不同的安全级别可以设置，分别为Snort开启主动模式，即IDS/IPS模式下入侵检测系统和入侵防御系统同时开启；Snort开启被动模式，即IDS模式下只开启入侵检测系统。

初始化时，该网络下的Snort只开启被动模式；假设主机总数量m=4，其中正常主机数量m₁=3，恶意主机数量m₂=1；对于网络状态的观测为前30s内对于网络流量和报警的数据总和，网络观测状态包括但不限于前30s内SDN网络中主机的发送流量大小、接收流量大小、UDP报警数和TCP报警数；即基于改进Actor-Critic算法搭建的深度神经网络的输入为4维，输出为1维，深度神经网络的输出对应于接下来30s内Snort开启主动模式的时长。

初始化深度强化学习代理中的超参数与神经网络参数，例如初始化学习率、折扣系数、探索参数、训练总回合数，每回合训练总步数、经验回放池大小。

初始化深度强化学习代理（基于改进Actor-Critic算法搭建的深度神经网络），本发明创新性地将Critic网络的第二层更换为LSTM网络来辅助智能体进行记忆；除改进Critic网络的第二层为LSTM网络外，其他层均设置为全连接层；改进Actor-Critic算法的Actor网络与改进Critic网络均为四层结构，其中Actor网络的输入为4维，对应输入网络观测状态，输出为1维，对应输出安全级别部署的动作，Actor网络的1到4层的神经元个数分别为4、16、64、1；改进Actor-Critic算法的改进Critic网络的输入为4维，对应输入网络观测状态，输出为1维，对应当前网络观测状态的预估奖励回报，改进Actor-Critic算法的改进Critic网络的1到4层的神经元个数也分别为4、16、64、1，激活函数使用ReLU。

通过Snort对网络进行实时监测，从而获得当前网络观测状态，当前网络观测状态通过Barnyard储存到Mysql数据库中；训练时对Mysql数据库中的网络观测状态进行调用，网络观测状态包括但不限于前30s内SDN网络中主机的发送流量大小、接收流量大小、UDP报警数和TCP报警数。

进一步的，在一个实施例中，本发明通过构建时间序列控制模型进行观测，时间序列控制模型为：假设在一个时间段0~T内，每间隔Δt对网络状态进行一次观测，并执行一次部署。

设t_n为第n次对网络状态的观测，观测内容为网络在t_(n-1)~t_n时间段内主机所产生的发送流量大小、接收流量大小、TCP警报、UDP警报信息，记作观测o_n，在t_n时刻所做出的决策控制为对于各个主机的安全区域的划分，记作控制动作a_n。

进一步的，在一个实施例中，网络观测状态还包括网络服务连接数量和开放端口数目等特征信息，通过获取更多的网络观测状态信息作为深度强化学习代理（基于改进Actor-Critic算法搭建的深度神经网络）的输入数据，能使深度强化学习代理更准确地缓解威胁。

S240：随机生成一个随机浮点数，若随机浮点数大于探索参数，则执行探索动作；若随机浮点数小于或等于探索参数，则不执行探索动作；

随机生成一个随机浮点数r（0<r<1），若随机浮点数r大于探索参数ε，则执行探索动作，即随机选取一个部署动作a；

若随机浮点数r小于或等于探索参数ε，则将当前网络观测状态s输入到Actor网络中从而输出一个部署动作a；在SDN网络中执行部署动作a，30s后调用Mysql数据库来记录得到的新网络观测状态s’，调用正常主机的Qos和恶意主机的攻击进度信息，基于服务质量（Qos）和攻击进度所对应的奖励量化标准将Qos和攻击进度信息进行量化，以获得奖励回报R，该奖励回报的大小和Qos成正比，与恶意主机攻击进度成反比；其中，Qos采用网络延迟和丢包率大小两个评价尺度来衡量，攻击进度信息采用恶意主机的攻击进度来衡量；部署动作a执行完成后，将状态动作对（当前网络观测状态，部署动作，奖励回报，新网络观测状态）（s,a,R,s’）添加到回合序列中。

S250：判断经验回放池中是否存在回合序列，若经验回放池中存在回合序列，则从经验回放池中进行采样并训练，更新Actor和改进Critic网络，并进一步判断当前回合是否结束，若当前回合结束，则将回合序列放入到经验回放池中，并再次判断是否达到最大迭代次数，若达到最大迭代次数，则输出自适应威胁缓解代理，若未达到最大迭代次数，则循环步骤S230~S250的迭代训练过程，最后获得当前SDN网络环境下的自适应威胁缓解代理；若当前回合未结束，则循环步骤S230~S250的迭代训练过程，最后获得当前SDN网络环境下的自适应威胁缓解代理；

若经验回放池中不存在回合序列，则直接判断当前回合是否结束，若当前回合结束，则将回合序列放入到经验回放池中，并再次判断是否达到最大迭代次数，若达到最大迭代次数，则输出自适应威胁缓解代理，若未达到最大迭代次数，则循环步骤S230~S250的迭代训练过程，最后获得当前SDN网络环境下的自适应威胁缓解代理；若当前回合未结束，则循环步骤S230~S250的迭代训练过程，最后获得当前SDN网络环境下的自适应威胁缓解代理。

从经验回放池中进行采样并训练包括：从经验回放池中进行采样，使用样本数据对深度强化学习代理（基于改进Actor-Critic算法搭建的深度神经网络）进行训练；

（1）从经验回放池中进行采样包括：若经验回放池中至少存在一次完整的回合序列，则在经验回放池中随机选取一个回合序列，在该回合序列中随机选取一段序列进行采样；

（2）使用样本数据对深度强化学习代理进行训练包括：

综合Actor-Critic适用于解决多维连续状态和动作空间的时间序列决策问题，因此考虑用Actor-Critic算法求解SDN网络下的自适应威胁缓解问题；然而，在实际网络攻防场景中，APT攻击具有长期多阶段的特性，只取当前网络状态的部分观测作为当前网络状态并不具有合理性，当前条件下做出的最优决策往往需要历史若干次的网络状态观测作为支撑，因此需要对算法进行改进，使其适用于自适应威胁缓解任务。

本发明在训练过程中，将整个回合序列放入经验回放池中当作样本数据，每次经验回放时随机在经验回放池中选取一个回合序列，在选取的该回合序列中随机选取一段序列进行训练；即本发明创新性地引入DQN所采用的经验回放池技术进行批量训练。

S300：在该网络环境下，基于自适应威胁缓解代理输出最优的自适应网络威胁缓解策略，以及基于最优的自适应网络威胁缓解策略来改变网络安全部署以缓解网络威胁，从而保证网络服务的正常运行；网络安全部署是指将SDN网络中的主机放置到高安全级别或低安全级别的虚拟网络区域中。

下面结合仿真实验说明本发明技术方案的有益效果：

本发明是基于改进Actor-Critic算法的SDN下自适应威胁缓解方法，通过对Actor-Critic算法进行改进，使其适用于求解SDN下自适应威胁缓解问题；仿真实验中，在SDN下APT攻击场景中，对比采用改进后的Actor-Critic算法与Actor-Critic原始算法在威胁缓解中的应用效果，并对应用效果进行实验分析，为验证改进后的Actor-Critic算法相对于Actor-Critic算法对于自适应威胁缓解任务的优势，设置不同速度的两类APT攻击，将APT攻击根据攻击周期分为短周期和长周期，并将长周期一组中一次回合总观测时间设置为短周期的1.5倍，所得实验结果如图5和图6所示；

根据图5和图6中的实验结果可知，在两种不同周期的APT攻击情况下，改进后的Actor-Critic算法对于APT威胁缓解任务的性能均优于Actor-Critic算法，且能够将奖励回报值限制在(-1,0)区间内；而且对于长周期的APT威胁缓解任务，Actor-Critic算法的性能有明显的下降，而改进后Actor-Critic算法的性能仍较为稳定，使奖励回报值仍处于一个合适的区间内。

综上，改进后的Actor-Critic算法在该场景中能够更加胜任威胁缓解任务，且能达到理想效果。

实施例二

图7为本发明的一个实施例提供的一种基于改进Actor-Critic算法的SDN下自适应威胁缓解系统，包括SDN下自适应威胁缓解架构架设模块、训练模块和部署模块；

SDN下自适应威胁缓解架构架设模块用于架设SDN下自适应威胁缓解架构，所述SDN下自适应威胁缓解架构包括深度强化学习代理、SDN基础设施和主机配置；其中，所述深度强化学习代理为基于改进Actor-Critic算法搭建的深度神经网络，所述SDN基础设施用于获取网络观测状态，所述主机配置用于反馈服务质量和攻击进度；

训练模块用于训练基于改进Actor-Critic算法搭建的深度神经网络，以获得自适应威胁缓解代理；

部署模块用于基于所述自适应威胁缓解代理输出最优自适应网络威胁缓解策略，以及基于所述最优自适应网络威胁缓解策略来改变网络安全部署以缓解网络威胁。

在本申请所提供的实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于改进Actor-Critic算法的SDN下自适应威胁缓解方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的SDN下自适应威胁缓解方法，其特征在于，所述步骤S200包括以下子步骤：

S210：设置服务质量和攻击进度所对应的奖励量化标准；

3.根据权利要求2所述的SDN下自适应威胁缓解方法，其特征在于，所述步骤S240包括：

4.根据权利要求3所述的SDN下自适应威胁缓解方法，其特征在于，所述步骤S200中还包括通过构建时间序列控制模型进行观测及部署；

5.根据权利要求3所述的SDN下自适应威胁缓解方法，其特征在于，网络观测状态包括前30s内SDN网络中主机的发送流量大小、接收流量大小、UDP报警数和TCP报警数中的一种或多种信息。

6.根据权利要求5所述的SDN下自适应威胁缓解方法，其特征在于，所述网络观测状态还包括网络服务连接数量和开放端口数目的特征信息。

7.根据权利要求2所述的SDN下自适应威胁缓解方法，其特征在于，所述步骤S250中从经验回放池中进行采样并训练，更新Actor和改进Critic网络包括：

8.根据权利要求7所述的SDN下自适应威胁缓解方法，其特征在于，使用样本数据对基于改进Actor-Critic算法搭建的深度神经网络进行训练，并更新Actor和改进Critic网络包括：

9.一种基于改进Actor-Critic算法的SDN下自适应威胁缓解系统，其特征在于，包括SDN下自适应威胁缓解架构架设模块、训练模块和部署模块；