CN112183777A

CN112183777A - 一种基于深度强化学习的复杂网络局部破坏控制方法

Info

Publication number: CN112183777A
Application number: CN202010960298.6A
Authority: CN
Inventors: 冯强; 吴其隆; 任羿; 杨德真; 孙博; 王自力
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2020-09-14
Filing date: 2020-09-14
Publication date: 2021-01-05

Abstract

本发明公开了一种基于深度强化学习的复杂网络局部破坏控制方法，解决了复杂网络在局部破坏状态下的集群维修问题。步骤如下：1根据局部破坏信息建立复杂网络“节点‑单元”集群的维修状态0‑1矩阵。2基于集群维修状态映射生成复杂网络邻接矩阵。3设计一个神经网络预测“节点‑单元”集群的先验维修状态转移概率和先验局部破坏控制策略价值。4构建局部破坏控制策略迭代体系，遍历局部破坏控制策略解空间，选择当前时刻全局最佳维修动作。5基于集群维修状态的变化更新复杂网络邻接矩阵，然后计算并检验复杂网络恢复程度。6由局部破坏控制策略迭代过程存储的一系列最佳维修动作生成一个完整的局部破坏控制策略。

Description

一种基于深度强化学习的复杂网络局部破坏控制方法

所属技术领域

本发明提供一种基于深度强化学习的复杂网络局部破坏控制(LocalizedAttacks Control，LAC)方法，尤其涉及一种考虑网络节点的组成单元特征，基于深度强化学习算法，实现求解复杂网络多节点集群维修问题的局部破坏控制方法，属于维修性工程领域。

背景技术

局部破坏控制(LAC)是指复杂网络发生局部破坏后，破坏位置出现多节点集中不可用的情况，通过集群维修的方式快速抢修至整体可用状态。但目前国内外关于集群维修问题的研究一般不考虑时序。随着维修性越来越受到重视，对复杂网络局部破坏状态下开展集群维修问题的研究提出了更高的要求，即充分考虑集群维修的时序和收益不确定特征，以及问题整体的NP-hard特征，提供一种高效的局部破坏控制方法。

本发明基于深度神经网络预测模型和蒙特卡洛树搜索(Monte Carlo TreeSearch，MCTS)算法，发明了一种基于深度强化学习的新型局部破坏控制(LAC)方法，解决了复杂网络局部破坏状态下的集群维修问题。

发明内容

本发明的目的是为局部破坏状态下的复杂网络提供一种新型的局部破坏控制(LAC)方法，旨在解决传统集群维修方法未充分考虑集群维修的时序和收益不确定特征，以及问题整体的NP-hard特征等问题。

本发明提出了一种基于神经网络预测模型和蒙特卡洛树搜索(MCTS)算法的LAC方法，主要包含以下步骤：

步骤一：复杂网络局部破坏状态特征描述。

将复杂网络局部破坏恢复策略视为多节点的集群维修问题展开研究。首先，构建复杂网络的节点集合K＝{k₁,k₂,…,k_i,…,k_j,…,k_n}(其中n为节点的个数)，将各节点的组成进行拆解，建立其单元集合U＝{u₁,u₂,…,u_m}。以此为基础，建立m×n的“节点-单元”矩阵，并根据局部破坏信息，用“0”表示待维修的局部破坏空间中的故障单元，“1”表示正常单元，对矩阵中元素赋值，形成维修状态矩阵S。

步骤二：复杂网络连通状态特征描述。

将一个复杂网络抽象为一个由节点集K＝{k₁,k₂,…,k_i,…,k_j,…,k_n}和连接(边)集

组成的图G＝(K,E)。用一个n×n的邻接矩阵A描述复杂网络中n个节点之间的连接关系(边)，且不考虑自环。当复杂网络中所有单元均正常时，邻接矩阵记为A*。

将节点k_i的单元集U_i＝{u₁,u₂,…,u_m}分为三类单元集

则

表示单元集

中的所有节点均为破坏空间中的故障单元，同理可以对

和

两类单元集进行描述。基于上述分类，以节点k_i为例，假设维修状态矩阵S中元素与邻接矩阵A中元素的映射关系f_S→A为

上述关系表示，当节点k_i的a类单元全部破坏时，与该节点关联的所有边均断开；当节点k_i的b类单元全部破坏时，由该节点指向其余节点的边断开；当节点k_i的c类单元全部破坏时，由其余节点指向该节点的边断开。基于复杂网络的初始维修状态，由映射关系f_S→A可以生成初始维修状态的邻接矩阵A。

步骤三：基于神经网络的局部破坏控制策略预测。

设计一个压缩-激励残差网络(Squeeze-and-Excitation Residual Networks，SE-ResNet)通过提取复杂网络的破坏状态特征和连通状态特征，预测“节点-单元”集群的先验维修状态转移概率矩阵p和先验集群LAC策略价值v。

神经网络输入特征张量X：包括当前的“节点-单元”集群维修状态S、LAC策略迭代过程中的最近的历史集群维修状态(以7步历史集群维修状态为例)，以及复杂网络节点的邻接矩阵A(S)和A*。

神经网络输出信息：包括“节点-单元”集群的一个先验集群维修状态转移概率p和一个先验集群LAC策略价值v。

选用的神经网络结构：包括卷积模块、残差模块、压缩-激励(Squeeze-and-Excitation，SE)模块、ReLU函数模块等。神经网络的表达式为f_θ(X)＝(p,v)。

步骤四：基于蒙特卡洛树的局部破坏控制策略搜索。

以提高复杂网络“节点-单元”集群性能恢复程度，减少恢复时间为目标，构建LAC策略的迭代体系。设计一种基于改进的加权MCTS算法的强化学习框架，用于求解LAC策略。

MCTS算法利用步骤三中SE-ResNet的维修预测结果p作为搜索权重，避免直接全局搜索LAC策略解空间出现组合爆炸问题，基于先验概率p进行解空间的局部搜索同样能得到全局最优LAC策略，依据树搜索得到改进的维修状态转移概率矩阵π，执行一次全局最佳维修动作a，当前的“节点-单元”集群维修状态S转移至下一时刻集群维修状态，MCTS算法的其表达式为MCTS_θ(X,p,v)＝(π,a)。

步骤五：检验复杂网络恢复程度。

LAC策略的迭代过程某一时刻的最佳维修动作执行后，集群维修状态转移至下一时刻，基于集群维修状态的变化，按照步骤二中的映射关系f_S→A，更新复杂网络邻接矩阵，由状态转移后的“节点-单元”集群维修状态S及其邻接矩阵A(S)计算复杂网络的恢复程度。

若未满足恢复要求，返回步骤三，继续执行LAC策略的迭代过程。若T时刻的集群维修状态S_T满足恢复要求，则经过执行LAC迭代过程的T次最佳维修动作，完成了一个完整的LAC策略迭代。

由奖励函数计算一个奖励值z对LAC策略迭代过程进行评估，基于奖励值和LAC策略迭代过程产生的T组最新的强化学习经验参数，SE-ResNet以最小化预测的评估值v与迭代过程结束的奖励值z之间的误差，以及最大化先验状态转移概率p与改进的状态转移概率π之间的相似度为目标，利用梯度下降方法训练网络参数θ，得到一个新的SE-ResNet用于下一次最有LAC策略迭代过程。通过训练神经网络可为MCTS提供更好的搜索方向。

步骤六：输出局部破坏控制策略。

由LAC策略迭代过程存储的一系列最佳维修动作{a¹,a²,...,a^T}生成一个完整的LAC策略，可以表示为

LAC＝f_LAC(a¹,a²,...,a^T)＝1×a¹+2×a²+…+T×a^T

执行LAC策略之后，由复杂网络的节点集群维修状态S_T及其邻接矩阵A(S_T)计算复杂网络的恢复程度。

附图说明

图1为本发明中所述方法的整体架构框图

图2为本发明中复杂网络状态特征提取的神经网络模型

图3为本发明中神经网络模型选用的SE-Residual单元结构

图4为本发明中遍历局部破坏控制策略的MCTS算法模型图

具体实施方式

为使本发明的技术方案、特征及优点得到更清楚的了解，以下结合附图，作详细说明。

本发明给出了一种新型的局部破坏控制(LAC)方法，可用于解决局部破坏状态下复杂网络的节点集群维修问题，解决了传统方法未充分考虑集群维修的时序和收益不确定特征，以及问题整体的NP-hard特征等不足。

本发明的整体架构，见图1所示。其具体实施步骤是：

步骤一：复杂网络局部破坏状态特征描述。

LAC策略迭代过程进行至t时刻时，“节点-单元”集群的维修状态矩阵表达式为

矩阵中的元素

表示t时刻节点k_n中单元u_m的维修状态，

表示该单元正常，

表示该单元是待维修的局部破坏空间中的故障单元。

例：设分析对象为一个包含10个节点的复杂网络，每个节点包含6个单元，初始时刻“节点-单元”集群的维修状态矩阵表达式为

矩阵中的元素

表示初始时刻节点k₁中单元u₁正常，

表示初始时刻节点k₅中单元u₁是待维修的局部破坏空间中的故障单元。

步骤二：复杂网络连通状态特征描述。

将节点k_i的单元集U_i＝{u₁,u₂,…,u_m}分为三类单元集

则

表示单元集

中的所有节点均为破坏空间中的故障单元，同理可以对

和

上述关系表示，当节点k_i的a类单元全部破坏时，与该节点关联的所有边均断开；当节点k_i的b类单元全部破坏时，由该节点指向其余节点的边断开；当节点k_i的c类单元全部破坏时，由其余节点指向该节点的边断开。

基于复杂网络的初始维修状态，由映射关系f_S→A可以生成初始维修状态的邻接矩阵A，邻接矩阵的表达式为

矩阵中的元素x^ij(i,j＝1,2,...,n；i≠j)表示节点k_i与节点k_j之间的连接关系(边)，x^ij＝0表示两个节点之间没有边(破坏或者不存在)，x^ij＝1表示两个节点之间有一条由节点k_i指向节点k_j的边。当复杂网络中所有单元均正常时，按照同样的方法可以生成邻接矩阵A*。

例：设步骤一中建立的m×n复杂网络中的节点k_i只与节点集{k_i-2,k_i-1,k_i+1,k_i+2}中的节点存在连接关系，则邻接矩阵A*的表达式为

假设节点k_i的单元集U_i＝{u₁,u₂,…,u₆}分为三类单元集

由映射关系f_S→A可得，步骤一中初始时刻复杂网络的领接矩阵表达式为

步骤三：基于神经网络的局部破坏控制策略预测。

(1)神经网络输入信息：

神经网络输入特征张量X，包括t时刻的“节点-单元”集群维修状态S_t、LAC策略迭代过程中的最近的历史集群维修状态，以及复杂网络节点的邻接矩阵A(S_t)和A*。以7步历史集群维修状态为例，输入特征张量X在t时刻的表达式为

X_t＝[S_t,S_t-1,...,S_t-7,A(S_t),A*]

(2)神经网络输出信息：

包括“节点-单元”集群的一个先验集群维修状态转移概率p和一个先验集群LAC策略价值v。

a)“节点-单元”集群在t时刻的先验集群维修状态转移概率p_t，记为：

矩阵中的元素

表示在t时刻对节点n中单元m执行维修动作的概率。

b)先验集群LAC策略价值v_t是一个归一化参数，预测t时刻的集群维修状态满足恢复程度的评估值。

(3)神经网络结构：

选用的SE-ResNet神经网络结构包括卷积模块、残差模块、压缩-激励(Squeeze-and-Excitation，SE)模块、ReLU函数模块等。

例：设计的深度神经网络如图2所示，输入特征张量X_t由一个深度SE-Residual塔进行处理，深度SE-Residual塔包括一个单独的卷积模块和堆叠多个SE-Residual单元的中间层模块构成：

a)单独的卷积模块：

①由256个3×3的滤波器组成的卷积层，步长为1；

②ReLU函数层；

b)中间层模块：通过堆叠SE-Residual单元构造深度神经网络的中间层(以堆叠19层SE-Residual为例)，SE-Residual单元的结构如图3所示，包括以下结构：

①残差(Residual)模块：含有一个由c个滤波器组成的卷积层，该卷积层输出一个大小为w×h×c的特征张量，c是特征张量的深度(以选取256个滤波器为例)；

②压缩(Squeeze)模块：由一个全局平均池化层组成；

③激励(Excitation)模块：由两个全连接层组成的一个瓶颈结构，两个全连接层之间经过ReLU函数连接，前一个全连接层的降维系数r通常设置为16；

④归一化模块：通过一个Sigmoid函数获得0～1之间归一化的权重；

⑤权重重置(Reweight)模块：将归一化后的权重加权到特征张量的每个通道上；

注：图3中将SE模块嵌入到残差模块中时，SE模块与卷积层输出特征张量的通道并联，在残差模块的

操作前对分支上卷积层输出的特征张量进行了特征重标定。

深度SE-Residual塔的输出分为策略模块和价值模块两部分：

c)策略模块：

①由2个1×1的滤波器组成的卷积层，步长为1；

②ReLU函数层；

③全连接输出层：输出大小为m×n的特征张量，对应“节点-单元”集群p_t的分对数；

d)价值模块：

①由1个1×1的滤波器组成的卷积层，步长为1；

②规模为256的线性全连接层；

③ReLU函数层；

④线性全连接层；

⑤双曲正切输出层：输出一个在区间[-1,1]上取值的标量值。

上述深度SE-ResNet预测模型的表达式为

θ_i是第i次自改进过程深度SE-ResNet预测模型的网络参数，初始网络参数θ₀通过随机初始化得到。

步骤四：基于蒙特卡洛树的局部破坏控制策略搜索。

MCTS算法利用步骤三中SE-ResNet的维修预测结果p_t作为搜索权重，避免直接全局搜索集群LAC策略解空间出现组合爆炸问题，基于先验概率p_t进行解空间的局部搜索同样能得到全局最优LAC策略，依据树搜索得到改进的维修状态转移概率矩阵π_t，执行一次全局最佳维修动作a^t，当前的“节点-单元”集群维修状态S转移至下一时刻集群维修状态，MCTS算法的其表达式为

集群维修状态S作为MCTS搜索树的树节点，其所有树枝(S,a)对应该树节点下一步所有的维修动作a∈Action(S)，每条树枝(S,a)存储一组统计数据，如下所示：

Data(S,a)＝{N(S,a),W(S,a),Q(S,a),P(S,a)}

其中，N(S,a)表示被访问的次数；W(S,a)表示总行动价值的总和；Q(S,a)表示平均行动价值；P(S,a)表示选择树枝(S,a)的先验概率。

在维修状态输入特征张量X_t的条件下，以SE-ResNet获得的先验参数(p_t,v_t)为输入，执行基于MCTS算法的解空间搜索操作，如图4所示，其搜索过程主要包括4个步骤：

(1)选择

首先，选择t时刻的维修状态S_t作为搜索树的根节点，根节点记为S⁰，MCTS搜索过程由根节点开始，直到进行至L时刻到达搜索树末端的叶子节点S^L时截止。在第l时刻(1≤l＜L)，根据当前节点S^l的每条树枝存储的统计数据选择一个维修动作a_l，可表示为

其中U(S^l,a)是一个中间变量，引用了一种改进的PUCT算法，可表示为

其中c_puct是一个由MCTS搜索程度决定的常数；这个搜索控制策略最初倾向与选择具有较高先验概率和较低访问次数的动作a，但是随着搜索的进行会更加倾向选择具有较高行动价值的动作。

(2)扩展与评估

将叶子节点S^L加入到一个队列中，由映射关系f_S→A生成A(S^L)，进而得到叶子节点对应的集群维修状态的输入特征张量X^L，输入至神经网络得到扩展叶子节点的边(S^L,a)需要存储的统计数据，这个操作可以表示为

f_θ(X^L)＝(p_a,v)

完成上述操作之前，此条搜索线程一直处于锁死状态。当叶子结点S^L继续扩展的时候，它的每一条树枝(S^L,a)存储的统计参数初始化，可以表示为

Data(S^L,a)＝{N(S^L,a)＝0,W(S^L,a)＝0,Q(S^L,a)＝0,P(S^L,a)＝p_a}

(3)回溯

统计数据沿着搜索线程访问的所有树枝由叶子节点向根节点回溯传输，更新并存储于搜索树树枝中。回溯过程中，树枝(S^l,a_l)存储的访问次数参数更新一次，可以表示为

N(S^l,a_l)＝N(S^l,a_l)+1

同时，该树枝(S^l,a_l)的总行动价值和平均行动价值参数也更新一次，可以表示为

W(S^l,a_l)＝W(S^l,a_l)+v

(4)执行

通过迭代上述三个操作，完成1000次树搜索之后，依据一个改进的集群维修状态转移概率矩阵π_t选择t时刻最佳维修动作a^t，集群维修状态S_t转移至S_t+1，π_t中的元素π可以表示为

π(a|X_t)＝N(X_t,a)^1/τ/∑_bN(X_t,b)^1/τ

其中τ是一个控制搜索进程的温度参数。

搜索树在接下来的LAC策略迭代过程中继续使用，每次执行最佳维修动作a^t之后达到的子节点成为新的搜索树根节点，保留该节点的所有树枝，同时丢弃上一个根节点的其余树枝。

基于MCTS算法执行1000次对LAC策略解空间的搜索遍历操作，最终可得到t时刻的全局最佳维修动作a^t和改进的维修状态转移概率矩阵π_t，其表达式为

例：由步骤一、步骤二和步骤三得到一组(X_t,p_t,v_t)之后，MCTS算法搜索遍历LAC策略解空间，得到一个改进的m×n维修状态转移概率矩阵

选择其中维修状态转移概率最大的单元执行维修动作，t时刻全局最佳维修动作a^t的表达式为

上式表示t时刻对节点k₂的单元u₂执行维修动作，完成之后t时刻集群维修状态转移至t+1时刻。

步骤五：检验复杂网络恢复程度。

LAC策略迭代过程t-1时刻的最佳维修动作执行后，集群维修状态转移至t时刻，基于集群维修状态的变化，按照步骤二中的映射关系f_S→A，更新复杂网络邻接矩阵，其表达式为

矩阵中的元素

表示t时刻节点k_i与节点k_j之间的连接关系(边)，

表示两个节点之间没有边(破坏或者不存在)，

表示两个节点之间有一条由节点k_i指向节点k_j的边。

完成LAC迭代过程中的一次最佳维修动作之后，由转移后的“节点-单元”集群维修状态S及其邻接矩阵A(S)计算复杂网络的恢复程度。若未满足恢复要求，返回步骤三，继续执行LAC策略迭代过程。若T时刻的集群维修状态S_T满足要求，则经过执行LAC迭代过程的T次最佳维修动作，完成了一个完整的LAC策略迭代。。

由奖励函数计算一个奖励值z对LAC策略迭代过程进行评估，基于奖励值和LAC策略迭代过程产生的最新的强化学习经验参数，SE-ResNet以最小化预测的评估值v与自改进结束的奖励值z之间的误差，以及最大化先验状态转移概率p与改进的状态转移概率π之间的相似度为目标，利用梯度下降法训练网络参数θ，其损失函数可以表示为

loss＝(z-v)²-π^Tlogp+c||θ||²

网络参数训练完成后，得到一个新的SE-ResNet用于下一次恢复策略的自改进过程。通过迭代训练神经网络可为MCTS提供更好的搜索方向。

步骤六：输出局部破坏控制策略。

LAC＝f_LAC(a¹,a²,...,a^T)＝1×a¹+2×a²+…+T×a^T

由最终的集群维修状态S_T及其邻接矩阵A(S_T)计算复杂网络的恢复程度。

例：设步骤一中初始时刻10×6的“节点-单元”集群维修状态S₀在LAC策略迭代过程一共执行了5次维修动作{a¹,a²,a³,a⁴,a⁵}，生成的LAC方案可以表示为

该方案表示按照维修时序，依次对下列单元执行维修动作：节点k₇的单元u₂，节点k₃的单元u₆，节点k₇的单元u₆，节点k₂的单元u₅，节点k₁₀的单元u₆。

Claims

1.基于深度强化学习的复杂网络局部破坏控制方法，其特征在于：它包含以下步骤：

第一步：复杂网络局部破坏状态特征描述：根据破坏信息建立复杂网络“节点-单元”集群的维修状态0-1矩阵。

第二步：复杂网络连通状态特征描述：考虑维修状态矩阵与邻接矩阵的映射关系，基于初始的集群维修状态生成复杂网络邻接矩阵。

第三步：基于神经网络的局部破坏控制策略预测：设计一个神经网络预测“节点-单元”集群的先验维修状态转移概率和先验局部破坏控制策略价值。

第四步：基于蒙特卡洛树的局部破坏控制策略搜索：构建局部破坏控制策略迭代体系，遍历局部破坏控制策略解空间，得到改进的局部破坏控制策略，并据此选择当前时刻全局最佳维修动作。

第五步：检验复杂网络恢复程度：基于集群维修状态的变化更新复杂网络邻接矩阵，然后基于更新的复杂网络集群维修状态和邻接矩阵计算并检验其恢复程度。

第六步：输出局部破坏控制策略：由局部破坏控制策略迭代过程存储的一系列最佳维修动作生成一个完整的局部破坏控制策略。

通过以上步骤，给出了一种基于深度强化学习的局部破坏控制方法，可以解决复杂网络局部破坏状态下进行集群维修的恢复策略问题。

2.根据权利要求1所述的基于深度强化学习的复杂网络局部破坏控制方法，其特征在于：在第一步中所述的“复杂网络局部破坏状态特征描述”中，将复杂网络局部破坏控制问题视为复杂网络的多节点集群维修问题，根据破坏信息建立复杂网络“节点-单元”集群的维修状态0-1矩阵。

首先，构建复杂网络的节点集合K＝{k₁,k₂,…,k_i,…,k_j,…,k_n}(其中n为节点的个数)，将各节点的组成进行拆解，建立其单元集合U＝{u₁,u₂,…,u_i,…,u_j,…,u_m}。以此为基础，建立m×n的“节点-单元”矩阵，并根据破坏信息用“0”、“1”对矩阵中元素赋值，形成维修状态矩阵S。

3.根据权利要求1所述的基于深度强化学习的复杂网络局部破坏控制方法，其特征在于：在第二步中所述的“复杂网络连通状态特征描述”中，将一个复杂网络抽象为一个由节点集K＝{k₁,k₂,…,k_i,…,k_j,…,k_n}和连接(边)集

将节点k_i的单元集U_i＝{u₁,u₂,…,u_m}分为三类单元集

则

表示单元集

中的所有节点均为破坏空间中的故障单元，同理可以对另外两类单元集进行描述。基于上述分类，以节点k_i为例，假设维修状态矩阵S中元素与邻接矩阵A中元素的映射关系f_S→A为

4.根据权利要求1所述的基于深度强化学习的复杂网络局部破坏控制方法，其特征在于：在第三步中所述的“基于神经网络的局部破坏控制策略预测”中，设计了一个压缩-激励残差网络(Squeeze-and-Excitation Residual Networks，SE-ResNet)预测“节点-单元”集群的先验维修状态转移概率矩阵p和先验集群局部破坏控制策略价值v。

神经网络输入特征图X：包括当前的“节点-单元”集群维修状态S、局部破坏控制策略迭代过程中的最近的历史集群维修状态(以7步历史集群维修状态为例)，以及复杂网络的邻接矩阵A(S)和A*。

神经网络输出信息：包括“节点-单元”集群的一个先验集群维修状态转移概率p和一个先验集群局部破坏控制策略价值v。

5.根据权利要求1所述的基于深度强化学习的复杂网络局部破坏控制方法，其特征在于：在第四步中所述的“基于蒙特卡洛树的局部破坏控制策略搜索”中，以提高复杂网络“节点-单元”集群性能恢复程度，减少恢复时间为目标，构建LAC策略的迭代体系。设计一种基于改进的加权MCTS算法的强化学习框架，用于求解LAC策略。

6.根据权利要求1所述的基于深度强化学习的复杂网络局部破坏控制方法，其特征在于：在第五步中所述的“检验复杂网络恢复程度”中，局部破坏控制策略的迭代过程某一时刻的最佳维修动作执行后，集群维修状态转移至下一时刻，基于集群维修状态的变化，按照步骤二中的映射关系f_S→A，更新复杂网络邻接矩阵，由状态转移后的“节点-单元”集群维修状态S及其邻接矩阵A(S)计算复杂网络的恢复程度。

若未满足恢复要求，返回步骤三，继续执行局部破坏控制策略的迭代过程。若T时刻的集群维修状态S_T满足恢复要求，则经过执行局部破坏控制迭代过程的T次最佳维修动作，完成了一个完整的局部破坏控制策略迭代。

由奖励函数计算一个奖励值z对局部破坏控制策略迭代过程进行评估，基于奖励值和局部破坏控制策略迭代过程产生的T组最新的强化学习经验参数，SE-ResNet以最小化预测的评估值v与迭代过程结束的奖励值z之间的误差，以及最大化先验状态转移概率p与改进的状态转移概率π之间的相似度为目标，利用梯度下降方法训练网络参数θ，得到一个新的SE-ResNet用于下一次最有局部破坏控制策略迭代过程。通过训练神经网络可为MCTS提供更好的搜索方向。

7.根据权利要求1所述的基于深度强化学习的复杂网络局部破坏控制方法，其特征在于：在第六步中所述的“输出局部破坏控制策略”中，由局部破坏控制策略迭代过程存储的一系列最佳维修动作{a¹,a²,...,a^T}生成一个完整的局部破坏控制策略，可以表示为

LAC＝f_LAC(a¹,a²,…,a^T)＝1×a¹+2×a²+…+T×a^T

执行局部破坏控制策略之后，由复杂网络的节点集群维修状态S_T及其邻接矩阵A(S_T)计算复杂网络的恢复程度。