CN112183777A - 一种基于深度强化学习的复杂网络局部破坏控制方法 - Google Patents

一种基于深度强化学习的复杂网络局部破坏控制方法 Download PDF

Info

Publication number
CN112183777A
CN112183777A CN202010960298.6A CN202010960298A CN112183777A CN 112183777 A CN112183777 A CN 112183777A CN 202010960298 A CN202010960298 A CN 202010960298A CN 112183777 A CN112183777 A CN 112183777A
Authority
CN
China
Prior art keywords
complex network
node
cluster
control strategy
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010960298.6A
Other languages
English (en)
Inventor
冯强
吴其隆
任羿
杨德真
孙博
王自力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202010960298.6A priority Critical patent/CN112183777A/zh
Publication of CN112183777A publication Critical patent/CN112183777A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/08Construction

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Primary Health Care (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于深度强化学习的复杂网络局部破坏控制方法,解决了复杂网络在局部破坏状态下的集群维修问题。步骤如下:1根据局部破坏信息建立复杂网络“节点‑单元”集群的维修状态0‑1矩阵。2基于集群维修状态映射生成复杂网络邻接矩阵。3设计一个神经网络预测“节点‑单元”集群的先验维修状态转移概率和先验局部破坏控制策略价值。4构建局部破坏控制策略迭代体系,遍历局部破坏控制策略解空间,选择当前时刻全局最佳维修动作。5基于集群维修状态的变化更新复杂网络邻接矩阵,然后计算并检验复杂网络恢复程度。6由局部破坏控制策略迭代过程存储的一系列最佳维修动作生成一个完整的局部破坏控制策略。

Description

一种基于深度强化学习的复杂网络局部破坏控制方法
所属技术领域
本发明提供一种基于深度强化学习的复杂网络局部破坏控制(LocalizedAttacks Control,LAC)方法,尤其涉及一种考虑网络节点的组成单元特征,基于深度强化学习算法,实现求解复杂网络多节点集群维修问题的局部破坏控制方法,属于维修性工程领域。
背景技术
局部破坏控制(LAC)是指复杂网络发生局部破坏后,破坏位置出现多节点集中不可用的情况,通过集群维修的方式快速抢修至整体可用状态。但目前国内外关于集群维修问题的研究一般不考虑时序。随着维修性越来越受到重视,对复杂网络局部破坏状态下开展集群维修问题的研究提出了更高的要求,即充分考虑集群维修的时序和收益不确定特征,以及问题整体的NP-hard特征,提供一种高效的局部破坏控制方法。
本发明基于深度神经网络预测模型和蒙特卡洛树搜索(Monte Carlo TreeSearch,MCTS)算法,发明了一种基于深度强化学习的新型局部破坏控制(LAC)方法,解决了复杂网络局部破坏状态下的集群维修问题。
发明内容
本发明的目的是为局部破坏状态下的复杂网络提供一种新型的局部破坏控制(LAC)方法,旨在解决传统集群维修方法未充分考虑集群维修的时序和收益不确定特征,以及问题整体的NP-hard特征等问题。
本发明提出了一种基于神经网络预测模型和蒙特卡洛树搜索(MCTS)算法的LAC方法,主要包含以下步骤:
步骤一:复杂网络局部破坏状态特征描述。
将复杂网络局部破坏恢复策略视为多节点的集群维修问题展开研究。首先,构建复杂网络的节点集合K={k1,k2,…,ki,…,kj,…,kn}(其中n为节点的个数),将各节点的组成进行拆解,建立其单元集合U={u1,u2,…,um}。以此为基础,建立m×n的“节点-单元”矩阵,并根据局部破坏信息,用“0”表示待维修的局部破坏空间中的故障单元,“1”表示正常单元,对矩阵中元素赋值,形成维修状态矩阵S。
步骤二:复杂网络连通状态特征描述。
将一个复杂网络抽象为一个由节点集K={k1,k2,…,ki,…,kj,…,kn}和连接(边)集
Figure BDA0002680304080000027
组成的图G=(K,E)。用一个n×n的邻接矩阵A描述复杂网络中n个节点之间的连接关系(边),且不考虑自环。当复杂网络中所有单元均正常时,邻接矩阵记为A*。
将节点ki的单元集Ui={u1,u2,…,um}分为三类单元集
Figure BDA0002680304080000021
Figure BDA0002680304080000022
表示单元集
Figure BDA0002680304080000023
中的所有节点均为破坏空间中的故障单元,同理可以对
Figure BDA0002680304080000024
Figure BDA0002680304080000025
两类单元集进行描述。基于上述分类,以节点ki为例,假设维修状态矩阵S中元素与邻接矩阵A中元素的映射关系fS→A
Figure BDA0002680304080000026
上述关系表示,当节点ki的a类单元全部破坏时,与该节点关联的所有边均断开;当节点ki的b类单元全部破坏时,由该节点指向其余节点的边断开;当节点ki的c类单元全部破坏时,由其余节点指向该节点的边断开。基于复杂网络的初始维修状态,由映射关系fS→A可以生成初始维修状态的邻接矩阵A。
步骤三:基于神经网络的局部破坏控制策略预测。
设计一个压缩-激励残差网络(Squeeze-and-Excitation Residual Networks,SE-ResNet)通过提取复杂网络的破坏状态特征和连通状态特征,预测“节点-单元”集群的先验维修状态转移概率矩阵p和先验集群LAC策略价值v。
神经网络输入特征张量X:包括当前的“节点-单元”集群维修状态S、LAC策略迭代过程中的最近的历史集群维修状态(以7步历史集群维修状态为例),以及复杂网络节点的邻接矩阵A(S)和A*。
神经网络输出信息:包括“节点-单元”集群的一个先验集群维修状态转移概率p和一个先验集群LAC策略价值v。
选用的神经网络结构:包括卷积模块、残差模块、压缩-激励(Squeeze-and-Excitation,SE)模块、ReLU函数模块等。神经网络的表达式为fθ(X)=(p,v)。
步骤四:基于蒙特卡洛树的局部破坏控制策略搜索。
以提高复杂网络“节点-单元”集群性能恢复程度,减少恢复时间为目标,构建LAC策略的迭代体系。设计一种基于改进的加权MCTS算法的强化学习框架,用于求解LAC策略。
MCTS算法利用步骤三中SE-ResNet的维修预测结果p作为搜索权重,避免直接全局搜索LAC策略解空间出现组合爆炸问题,基于先验概率p进行解空间的局部搜索同样能得到全局最优LAC策略,依据树搜索得到改进的维修状态转移概率矩阵π,执行一次全局最佳维修动作a,当前的“节点-单元”集群维修状态S转移至下一时刻集群维修状态,MCTS算法的其表达式为MCTSθ(X,p,v)=(π,a)。
步骤五:检验复杂网络恢复程度。
LAC策略的迭代过程某一时刻的最佳维修动作执行后,集群维修状态转移至下一时刻,基于集群维修状态的变化,按照步骤二中的映射关系fS→A,更新复杂网络邻接矩阵,由状态转移后的“节点-单元”集群维修状态S及其邻接矩阵A(S)计算复杂网络的恢复程度。
若未满足恢复要求,返回步骤三,继续执行LAC策略的迭代过程。若T时刻的集群维修状态ST满足恢复要求,则经过执行LAC迭代过程的T次最佳维修动作,完成了一个完整的LAC策略迭代。
由奖励函数计算一个奖励值z对LAC策略迭代过程进行评估,基于奖励值和LAC策略迭代过程产生的T组最新的强化学习经验参数,SE-ResNet以最小化预测的评估值v与迭代过程结束的奖励值z之间的误差,以及最大化先验状态转移概率p与改进的状态转移概率π之间的相似度为目标,利用梯度下降方法训练网络参数θ,得到一个新的SE-ResNet用于下一次最有LAC策略迭代过程。通过训练神经网络可为MCTS提供更好的搜索方向。
步骤六:输出局部破坏控制策略。
由LAC策略迭代过程存储的一系列最佳维修动作{a1,a2,...,aT}生成一个完整的LAC策略,可以表示为
LAC=fLAC(a1,a2,...,aT)=1×a1+2×a2+…+T×aT
执行LAC策略之后,由复杂网络的节点集群维修状态ST及其邻接矩阵A(ST)计算复杂网络的恢复程度。
附图说明
图1为本发明中所述方法的整体架构框图
图2为本发明中复杂网络状态特征提取的神经网络模型
图3为本发明中神经网络模型选用的SE-Residual单元结构
图4为本发明中遍历局部破坏控制策略的MCTS算法模型图
具体实施方式
为使本发明的技术方案、特征及优点得到更清楚的了解,以下结合附图,作详细说明。
本发明给出了一种新型的局部破坏控制(LAC)方法,可用于解决局部破坏状态下复杂网络的节点集群维修问题,解决了传统方法未充分考虑集群维修的时序和收益不确定特征,以及问题整体的NP-hard特征等不足。
本发明的整体架构,见图1所示。其具体实施步骤是:
步骤一:复杂网络局部破坏状态特征描述。
将复杂网络局部破坏恢复策略视为多节点的集群维修问题展开研究。首先,构建复杂网络的节点集合K={k1,k2,…,ki,…,kj,…,kn}(其中n为节点的个数),将各节点的组成进行拆解,建立其单元集合U={u1,u2,…,um}。以此为基础,建立m×n的“节点-单元”矩阵,并根据局部破坏信息,用“0”表示待维修的局部破坏空间中的故障单元,“1”表示正常单元,对矩阵中元素赋值,形成维修状态矩阵S。
LAC策略迭代过程进行至t时刻时,“节点-单元”集群的维修状态矩阵表达式为
Figure BDA0002680304080000051
矩阵中的元素
Figure BDA0002680304080000052
表示t时刻节点kn中单元um的维修状态,
Figure BDA0002680304080000053
表示该单元正常,
Figure BDA0002680304080000054
表示该单元是待维修的局部破坏空间中的故障单元。
例:设分析对象为一个包含10个节点的复杂网络,每个节点包含6个单元,初始时刻“节点-单元”集群的维修状态矩阵表达式为
Figure BDA0002680304080000055
矩阵中的元素
Figure BDA0002680304080000056
表示初始时刻节点k1中单元u1正常,
Figure BDA0002680304080000057
表示初始时刻节点k5中单元u1是待维修的局部破坏空间中的故障单元。
步骤二:复杂网络连通状态特征描述。
将一个复杂网络抽象为一个由节点集K={k1,k2,…,ki,…,kj,…,kn}和连接(边)集
Figure BDA0002680304080000058
组成的图G=(K,E)。用一个n×n的邻接矩阵A描述复杂网络中n个节点之间的连接关系(边),且不考虑自环。当复杂网络中所有单元均正常时,邻接矩阵记为A*。
将节点ki的单元集Ui={u1,u2,…,um}分为三类单元集
Figure BDA0002680304080000059
Figure BDA00026803040800000510
表示单元集
Figure BDA00026803040800000511
中的所有节点均为破坏空间中的故障单元,同理可以对
Figure BDA00026803040800000512
Figure BDA00026803040800000513
两类单元集进行描述。基于上述分类,以节点ki为例,假设维修状态矩阵S中元素与邻接矩阵A中元素的映射关系fS→A
Figure BDA0002680304080000061
上述关系表示,当节点ki的a类单元全部破坏时,与该节点关联的所有边均断开;当节点ki的b类单元全部破坏时,由该节点指向其余节点的边断开;当节点ki的c类单元全部破坏时,由其余节点指向该节点的边断开。
基于复杂网络的初始维修状态,由映射关系fS→A可以生成初始维修状态的邻接矩阵A,邻接矩阵的表达式为
Figure BDA0002680304080000062
矩阵中的元素xij(i,j=1,2,...,n;i≠j)表示节点ki与节点kj之间的连接关系(边),xij=0表示两个节点之间没有边(破坏或者不存在),xij=1表示两个节点之间有一条由节点ki指向节点kj的边。当复杂网络中所有单元均正常时,按照同样的方法可以生成邻接矩阵A*。
例:设步骤一中建立的m×n复杂网络中的节点ki只与节点集{ki-2,ki-1,ki+1,ki+2}中的节点存在连接关系,则邻接矩阵A*的表达式为
Figure BDA0002680304080000063
假设节点ki的单元集Ui={u1,u2,…,u6}分为三类单元集
Figure BDA0002680304080000071
Figure BDA0002680304080000072
由映射关系fS→A可得,步骤一中初始时刻复杂网络的领接矩阵表达式为
Figure BDA0002680304080000073
步骤三:基于神经网络的局部破坏控制策略预测。
设计一个压缩-激励残差网络(Squeeze-and-Excitation Residual Networks,SE-ResNet)通过提取复杂网络的破坏状态特征和连通状态特征,预测“节点-单元”集群的先验维修状态转移概率矩阵p和先验集群LAC策略价值v。
(1)神经网络输入信息:
神经网络输入特征张量X,包括t时刻的“节点-单元”集群维修状态St、LAC策略迭代过程中的最近的历史集群维修状态,以及复杂网络节点的邻接矩阵A(St)和A*。以7步历史集群维修状态为例,输入特征张量X在t时刻的表达式为
Xt=[St,St-1,...,St-7,A(St),A*]
(2)神经网络输出信息:
包括“节点-单元”集群的一个先验集群维修状态转移概率p和一个先验集群LAC策略价值v。
a)“节点-单元”集群在t时刻的先验集群维修状态转移概率pt,记为:
Figure BDA0002680304080000081
矩阵中的元素
Figure BDA0002680304080000082
表示在t时刻对节点n中单元m执行维修动作的概率。
b)先验集群LAC策略价值vt是一个归一化参数,预测t时刻的集群维修状态满足恢复程度的评估值。
(3)神经网络结构:
选用的SE-ResNet神经网络结构包括卷积模块、残差模块、压缩-激励(Squeeze-and-Excitation,SE)模块、ReLU函数模块等。
例:设计的深度神经网络如图2所示,输入特征张量Xt由一个深度SE-Residual塔进行处理,深度SE-Residual塔包括一个单独的卷积模块和堆叠多个SE-Residual单元的中间层模块构成:
a)单独的卷积模块:
①由256个3×3的滤波器组成的卷积层,步长为1;
②ReLU函数层;
b)中间层模块:通过堆叠SE-Residual单元构造深度神经网络的中间层(以堆叠19层SE-Residual为例),SE-Residual单元的结构如图3所示,包括以下结构:
①残差(Residual)模块:含有一个由c个滤波器组成的卷积层,该卷积层输出一个大小为w×h×c的特征张量,c是特征张量的深度(以选取256个滤波器为例);
②压缩(Squeeze)模块:由一个全局平均池化层组成;
③激励(Excitation)模块:由两个全连接层组成的一个瓶颈结构,两个全连接层之间经过ReLU函数连接,前一个全连接层的降维系数r通常设置为16;
④归一化模块:通过一个Sigmoid函数获得0~1之间归一化的权重;
⑤权重重置(Reweight)模块:将归一化后的权重加权到特征张量的每个通道上;
注:图3中将SE模块嵌入到残差模块中时,SE模块与卷积层输出特征张量的通道并联,在残差模块的
Figure BDA0002680304080000091
操作前对分支上卷积层输出的特征张量进行了特征重标定。
深度SE-Residual塔的输出分为策略模块和价值模块两部分:
c)策略模块:
①由2个1×1的滤波器组成的卷积层,步长为1;
②ReLU函数层;
③全连接输出层:输出大小为m×n的特征张量,对应“节点-单元”集群pt的分对数;
d)价值模块:
①由1个1×1的滤波器组成的卷积层,步长为1;
②规模为256的线性全连接层;
③ReLU函数层;
④线性全连接层;
⑤双曲正切输出层:输出一个在区间[-1,1]上取值的标量值。
上述深度SE-ResNet预测模型的表达式为
Figure BDA0002680304080000093
θi是第i次自改进过程深度SE-ResNet预测模型的网络参数,初始网络参数θ0通过随机初始化得到。
步骤四:基于蒙特卡洛树的局部破坏控制策略搜索。
以提高复杂网络“节点-单元”集群性能恢复程度,减少恢复时间为目标,构建LAC策略的迭代体系。设计一种基于改进的加权MCTS算法的强化学习框架,用于求解LAC策略。
MCTS算法利用步骤三中SE-ResNet的维修预测结果pt作为搜索权重,避免直接全局搜索集群LAC策略解空间出现组合爆炸问题,基于先验概率pt进行解空间的局部搜索同样能得到全局最优LAC策略,依据树搜索得到改进的维修状态转移概率矩阵πt,执行一次全局最佳维修动作at,当前的“节点-单元”集群维修状态S转移至下一时刻集群维修状态,MCTS算法的其表达式为
Figure BDA0002680304080000092
集群维修状态S作为MCTS搜索树的树节点,其所有树枝(S,a)对应该树节点下一步所有的维修动作a∈Action(S),每条树枝(S,a)存储一组统计数据,如下所示:
Data(S,a)={N(S,a),W(S,a),Q(S,a),P(S,a)}
其中,N(S,a)表示被访问的次数;W(S,a)表示总行动价值的总和;Q(S,a)表示平均行动价值;P(S,a)表示选择树枝(S,a)的先验概率。
在维修状态输入特征张量Xt的条件下,以SE-ResNet获得的先验参数(pt,vt)为输入,执行基于MCTS算法的解空间搜索操作,如图4所示,其搜索过程主要包括4个步骤:
(1)选择
首先,选择t时刻的维修状态St作为搜索树的根节点,根节点记为S0,MCTS搜索过程由根节点开始,直到进行至L时刻到达搜索树末端的叶子节点SL时截止。在第l时刻(1≤l<L),根据当前节点Sl的每条树枝存储的统计数据选择一个维修动作al,可表示为
Figure BDA0002680304080000101
其中U(Sl,a)是一个中间变量,引用了一种改进的PUCT算法,可表示为
Figure BDA0002680304080000102
其中cpuct是一个由MCTS搜索程度决定的常数;这个搜索控制策略最初倾向与选择具有较高先验概率和较低访问次数的动作a,但是随着搜索的进行会更加倾向选择具有较高行动价值的动作。
(2)扩展与评估
将叶子节点SL加入到一个队列中,由映射关系fS→A生成A(SL),进而得到叶子节点对应的集群维修状态的输入特征张量XL,输入至神经网络得到扩展叶子节点的边(SL,a)需要存储的统计数据,这个操作可以表示为
fθ(XL)=(pa,v)
完成上述操作之前,此条搜索线程一直处于锁死状态。当叶子结点SL继续扩展的时候,它的每一条树枝(SL,a)存储的统计参数初始化,可以表示为
Data(SL,a)={N(SL,a)=0,W(SL,a)=0,Q(SL,a)=0,P(SL,a)=pa}
(3)回溯
统计数据沿着搜索线程访问的所有树枝由叶子节点向根节点回溯传输,更新并存储于搜索树树枝中。回溯过程中,树枝(Sl,al)存储的访问次数参数更新一次,可以表示为
N(Sl,al)=N(Sl,al)+1
同时,该树枝(Sl,al)的总行动价值和平均行动价值参数也更新一次,可以表示为
W(Sl,al)=W(Sl,al)+v
Figure BDA0002680304080000111
(4)执行
通过迭代上述三个操作,完成1000次树搜索之后,依据一个改进的集群维修状态转移概率矩阵πt选择t时刻最佳维修动作at,集群维修状态St转移至St+1,πt中的元素π可以表示为
π(a|Xt)=N(Xt,a)1/τ/∑bN(Xt,b)1/τ
其中τ是一个控制搜索进程的温度参数。
搜索树在接下来的LAC策略迭代过程中继续使用,每次执行最佳维修动作at之后达到的子节点成为新的搜索树根节点,保留该节点的所有树枝,同时丢弃上一个根节点的其余树枝。
基于MCTS算法执行1000次对LAC策略解空间的搜索遍历操作,最终可得到t时刻的全局最佳维修动作at和改进的维修状态转移概率矩阵πt,其表达式为
Figure BDA0002680304080000112
例:由步骤一、步骤二和步骤三得到一组(Xt,pt,vt)之后,MCTS算法搜索遍历LAC策略解空间,得到一个改进的m×n维修状态转移概率矩阵
Figure BDA0002680304080000121
选择其中维修状态转移概率最大的单元执行维修动作,t时刻全局最佳维修动作at的表达式为
Figure BDA0002680304080000122
上式表示t时刻对节点k2的单元u2执行维修动作,完成之后t时刻集群维修状态转移至t+1时刻。
步骤五:检验复杂网络恢复程度。
LAC策略迭代过程t-1时刻的最佳维修动作执行后,集群维修状态转移至t时刻,基于集群维修状态的变化,按照步骤二中的映射关系fS→A,更新复杂网络邻接矩阵,其表达式为
Figure BDA0002680304080000123
矩阵中的元素
Figure BDA0002680304080000124
表示t时刻节点ki与节点kj之间的连接关系(边),
Figure BDA0002680304080000125
表示两个节点之间没有边(破坏或者不存在),
Figure BDA0002680304080000126
表示两个节点之间有一条由节点ki指向节点kj的边。
完成LAC迭代过程中的一次最佳维修动作之后,由转移后的“节点-单元”集群维修状态S及其邻接矩阵A(S)计算复杂网络的恢复程度。若未满足恢复要求,返回步骤三,继续执行LAC策略迭代过程。若T时刻的集群维修状态ST满足要求,则经过执行LAC迭代过程的T次最佳维修动作,完成了一个完整的LAC策略迭代。。
由奖励函数计算一个奖励值z对LAC策略迭代过程进行评估,基于奖励值和LAC策略迭代过程产生的最新的强化学习经验参数,SE-ResNet以最小化预测的评估值v与自改进结束的奖励值z之间的误差,以及最大化先验状态转移概率p与改进的状态转移概率π之间的相似度为目标,利用梯度下降法训练网络参数θ,其损失函数可以表示为
loss=(z-v)2Tlogp+c||θ||2
网络参数训练完成后,得到一个新的SE-ResNet用于下一次恢复策略的自改进过程。通过迭代训练神经网络可为MCTS提供更好的搜索方向。
步骤六:输出局部破坏控制策略。
由LAC策略迭代过程存储的一系列最佳维修动作{a1,a2,...,aT}生成一个完整的LAC策略,可以表示为
LAC=fLAC(a1,a2,...,aT)=1×a1+2×a2+…+T×aT
由最终的集群维修状态ST及其邻接矩阵A(ST)计算复杂网络的恢复程度。
例:设步骤一中初始时刻10×6的“节点-单元”集群维修状态S0在LAC策略迭代过程一共执行了5次维修动作{a1,a2,a3,a4,a5},生成的LAC方案可以表示为
Figure BDA0002680304080000131
该方案表示按照维修时序,依次对下列单元执行维修动作:节点k7的单元u2,节点k3的单元u6,节点k7的单元u6,节点k2的单元u5,节点k10的单元u6

Claims (7)

1.基于深度强化学习的复杂网络局部破坏控制方法,其特征在于:它包含以下步骤:
第一步:复杂网络局部破坏状态特征描述:根据破坏信息建立复杂网络“节点-单元”集群的维修状态0-1矩阵。
第二步:复杂网络连通状态特征描述:考虑维修状态矩阵与邻接矩阵的映射关系,基于初始的集群维修状态生成复杂网络邻接矩阵。
第三步:基于神经网络的局部破坏控制策略预测:设计一个神经网络预测“节点-单元”集群的先验维修状态转移概率和先验局部破坏控制策略价值。
第四步:基于蒙特卡洛树的局部破坏控制策略搜索:构建局部破坏控制策略迭代体系,遍历局部破坏控制策略解空间,得到改进的局部破坏控制策略,并据此选择当前时刻全局最佳维修动作。
第五步:检验复杂网络恢复程度:基于集群维修状态的变化更新复杂网络邻接矩阵,然后基于更新的复杂网络集群维修状态和邻接矩阵计算并检验其恢复程度。
第六步:输出局部破坏控制策略:由局部破坏控制策略迭代过程存储的一系列最佳维修动作生成一个完整的局部破坏控制策略。
通过以上步骤,给出了一种基于深度强化学习的局部破坏控制方法,可以解决复杂网络局部破坏状态下进行集群维修的恢复策略问题。
2.根据权利要求1所述的基于深度强化学习的复杂网络局部破坏控制方法,其特征在于:在第一步中所述的“复杂网络局部破坏状态特征描述”中,将复杂网络局部破坏控制问题视为复杂网络的多节点集群维修问题,根据破坏信息建立复杂网络“节点-单元”集群的维修状态0-1矩阵。
首先,构建复杂网络的节点集合K={k1,k2,…,ki,…,kj,…,kn}(其中n为节点的个数),将各节点的组成进行拆解,建立其单元集合U={u1,u2,…,ui,…,uj,…,um}。以此为基础,建立m×n的“节点-单元”矩阵,并根据破坏信息用“0”、“1”对矩阵中元素赋值,形成维修状态矩阵S。
3.根据权利要求1所述的基于深度强化学习的复杂网络局部破坏控制方法,其特征在于:在第二步中所述的“复杂网络连通状态特征描述”中,将一个复杂网络抽象为一个由节点集K={k1,k2,…,ki,…,kj,…,kn}和连接(边)集
Figure FDA0002680304070000025
组成的图G=(K,E)。用一个n×n的邻接矩阵A描述复杂网络中n个节点之间的连接关系(边),且不考虑自环。当复杂网络中所有单元均正常时,邻接矩阵记为A*。
将节点ki的单元集Ui={u1,u2,…,um}分为三类单元集
Figure FDA0002680304070000021
Figure FDA0002680304070000022
表示单元集
Figure FDA0002680304070000023
中的所有节点均为破坏空间中的故障单元,同理可以对另外两类单元集进行描述。基于上述分类,以节点ki为例,假设维修状态矩阵S中元素与邻接矩阵A中元素的映射关系fS→A
Figure FDA0002680304070000024
上述关系表示,当节点ki的a类单元全部破坏时,与该节点关联的所有边均断开;当节点ki的b类单元全部破坏时,由该节点指向其余节点的边断开;当节点ki的c类单元全部破坏时,由其余节点指向该节点的边断开。基于复杂网络的初始维修状态,由映射关系fS→A可以生成初始维修状态的邻接矩阵A。
4.根据权利要求1所述的基于深度强化学习的复杂网络局部破坏控制方法,其特征在于:在第三步中所述的“基于神经网络的局部破坏控制策略预测”中,设计了一个压缩-激励残差网络(Squeeze-and-Excitation Residual Networks,SE-ResNet)预测“节点-单元”集群的先验维修状态转移概率矩阵p和先验集群局部破坏控制策略价值v。
神经网络输入特征图X:包括当前的“节点-单元”集群维修状态S、局部破坏控制策略迭代过程中的最近的历史集群维修状态(以7步历史集群维修状态为例),以及复杂网络的邻接矩阵A(S)和A*。
神经网络输出信息:包括“节点-单元”集群的一个先验集群维修状态转移概率p和一个先验集群局部破坏控制策略价值v。
选用的神经网络结构:包括卷积模块、残差模块、压缩-激励(Squeeze-and-Excitation,SE)模块、ReLU函数模块等。神经网络的表达式为fθ(X)=(p,v)。
5.根据权利要求1所述的基于深度强化学习的复杂网络局部破坏控制方法,其特征在于:在第四步中所述的“基于蒙特卡洛树的局部破坏控制策略搜索”中,以提高复杂网络“节点-单元”集群性能恢复程度,减少恢复时间为目标,构建LAC策略的迭代体系。设计一种基于改进的加权MCTS算法的强化学习框架,用于求解LAC策略。
MCTS算法利用步骤三中SE-ResNet的维修预测结果p作为搜索权重,避免直接全局搜索LAC策略解空间出现组合爆炸问题,基于先验概率p进行解空间的局部搜索同样能得到全局最优LAC策略,依据树搜索得到改进的维修状态转移概率矩阵π,执行一次全局最佳维修动作a,当前的“节点-单元”集群维修状态S转移至下一时刻集群维修状态,MCTS算法的其表达式为MCTSθ(X,p,v)=(π,a)。
6.根据权利要求1所述的基于深度强化学习的复杂网络局部破坏控制方法,其特征在于:在第五步中所述的“检验复杂网络恢复程度”中,局部破坏控制策略的迭代过程某一时刻的最佳维修动作执行后,集群维修状态转移至下一时刻,基于集群维修状态的变化,按照步骤二中的映射关系fS→A,更新复杂网络邻接矩阵,由状态转移后的“节点-单元”集群维修状态S及其邻接矩阵A(S)计算复杂网络的恢复程度。
若未满足恢复要求,返回步骤三,继续执行局部破坏控制策略的迭代过程。若T时刻的集群维修状态ST满足恢复要求,则经过执行局部破坏控制迭代过程的T次最佳维修动作,完成了一个完整的局部破坏控制策略迭代。
由奖励函数计算一个奖励值z对局部破坏控制策略迭代过程进行评估,基于奖励值和局部破坏控制策略迭代过程产生的T组最新的强化学习经验参数,SE-ResNet以最小化预测的评估值v与迭代过程结束的奖励值z之间的误差,以及最大化先验状态转移概率p与改进的状态转移概率π之间的相似度为目标,利用梯度下降方法训练网络参数θ,得到一个新的SE-ResNet用于下一次最有局部破坏控制策略迭代过程。通过训练神经网络可为MCTS提供更好的搜索方向。
7.根据权利要求1所述的基于深度强化学习的复杂网络局部破坏控制方法,其特征在于:在第六步中所述的“输出局部破坏控制策略”中,由局部破坏控制策略迭代过程存储的一系列最佳维修动作{a1,a2,...,aT}生成一个完整的局部破坏控制策略,可以表示为
LAC=fLAC(a1,a2,…,aT)=1×a1+2×a2+…+T×aT
执行局部破坏控制策略之后,由复杂网络的节点集群维修状态ST及其邻接矩阵A(ST)计算复杂网络的恢复程度。
CN202010960298.6A 2020-09-14 2020-09-14 一种基于深度强化学习的复杂网络局部破坏控制方法 Pending CN112183777A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010960298.6A CN112183777A (zh) 2020-09-14 2020-09-14 一种基于深度强化学习的复杂网络局部破坏控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010960298.6A CN112183777A (zh) 2020-09-14 2020-09-14 一种基于深度强化学习的复杂网络局部破坏控制方法

Publications (1)

Publication Number Publication Date
CN112183777A true CN112183777A (zh) 2021-01-05

Family

ID=73920906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010960298.6A Pending CN112183777A (zh) 2020-09-14 2020-09-14 一种基于深度强化学习的复杂网络局部破坏控制方法

Country Status (1)

Country Link
CN (1) CN112183777A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673721A (zh) * 2021-08-26 2021-11-19 北京航空航天大学 一种基于深度强化学习的集群系统预防性维修方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130290223A1 (en) * 2012-04-27 2013-10-31 Yahoo! Inc. Method and system for distributed machine learning
CN108573303A (zh) * 2018-04-25 2018-09-25 北京航空航天大学 一种基于改进强化学习的复杂网络局部破坏的自改进恢复策略
CN109886401A (zh) * 2019-01-10 2019-06-14 南京邮电大学 一种复杂网络表征学习方法
CN110209770A (zh) * 2019-06-03 2019-09-06 北京邮电大学 一种基于策略价值网络和树搜索增强的命名实体识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130290223A1 (en) * 2012-04-27 2013-10-31 Yahoo! Inc. Method and system for distributed machine learning
CN108573303A (zh) * 2018-04-25 2018-09-25 北京航空航天大学 一种基于改进强化学习的复杂网络局部破坏的自改进恢复策略
CN109886401A (zh) * 2019-01-10 2019-06-14 南京邮电大学 一种复杂网络表征学习方法
CN110209770A (zh) * 2019-06-03 2019-09-06 北京邮电大学 一种基于策略价值网络和树搜索增强的命名实体识别方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113673721A (zh) * 2021-08-26 2021-11-19 北京航空航天大学 一种基于深度强化学习的集群系统预防性维修方法

Similar Documents

Publication Publication Date Title
CN109102126B (zh) 一种基于深度迁移学习的理论线损率预测模型
CN112217202B (zh) 考虑灵活性投资的分布式新能源、储能与配电网规划方法
CN108573303A (zh) 一种基于改进强化学习的复杂网络局部破坏的自改进恢复策略
CN112631717B (zh) 基于异步强化学习的网络服务功能链动态部署系统及方法
CN114896937A (zh) 一种基于强化学习的集成电路布局优化方法
CN113190688B (zh) 基于逻辑推理和图卷积的复杂网络链接预测方法及系统
CN111815033A (zh) 一种基于rcnn和气象时序特征的海上风电功率预测方法
CN112491818B (zh) 基于多智能体深度强化学习的电网输电线路防御方法
CN110851662B (zh) 基于元路径的异质信息网络链路预测方法
CN111488946A (zh) 基于信息融合的雷达伺服系统故障诊断方法
CN108537366B (zh) 基于最优卷积二维化的水库调度方法
CN105868863B (zh) 一种基于模糊判断的机电系统多层级可靠性预计方法
CN111553469A (zh) 一种无线传感器网络数据融合方法、装置和存储介质
CN112364913A (zh) 一种基于核心数据集的联邦学习通信量优化方法及系统
CN114065646B (zh) 基于混合优化算法的能耗预测方法、云计算平台及系统
CN113469891A (zh) 一种神经网络架构搜索方法、训练方法、图像补全方法
CN112072695A (zh) 风电基地集电线路控制方法、系统、存储介质及计算设备
CN114205251A (zh) 基于时空特征的交换机链路资源预测方法
CN112183777A (zh) 一种基于深度强化学习的复杂网络局部破坏控制方法
CN113673721A (zh) 一种基于深度强化学习的集群系统预防性维修方法
CN117270520A (zh) 一种巡检路线优化方法及装置
CN116502779A (zh) 基于局部注意力机制的旅行商问题生成式求解方法
CN116432359A (zh) 基于元迁移学习的变拓扑网络潮流计算方法
Du et al. Evolutionary NAS in light of model stability for accurate continual learning
CN116070714B (zh) 基于联邦学习和神经架构搜索的云边协同训练方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210105

WD01 Invention patent application deemed withdrawn after publication