CN114189470A - 一种基于模仿学习的智能路由决策保护方法和装置 - Google Patents

一种基于模仿学习的智能路由决策保护方法和装置 Download PDF

Info

Publication number
CN114189470A
CN114189470A CN202210131705.1A CN202210131705A CN114189470A CN 114189470 A CN114189470 A CN 114189470A CN 202210131705 A CN202210131705 A CN 202210131705A CN 114189470 A CN114189470 A CN 114189470A
Authority
CN
China
Prior art keywords
network
value
traffic
flow
target agent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210131705.1A
Other languages
English (en)
Other versions
CN114189470B (zh
Inventor
杨林
冯涛
张京京
高先明
王雯
陶沛琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Network Engineering Institute of Systems Engineering Academy of Military Sciences
Original Assignee
Institute of Network Engineering Institute of Systems Engineering Academy of Military Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Network Engineering Institute of Systems Engineering Academy of Military Sciences filed Critical Institute of Network Engineering Institute of Systems Engineering Academy of Military Sciences
Priority to CN202210131705.1A priority Critical patent/CN114189470B/zh
Publication of CN114189470A publication Critical patent/CN114189470A/zh
Application granted granted Critical
Publication of CN114189470B publication Critical patent/CN114189470B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • H04L45/08Learning-based routing, e.g. using neural networks or artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提出一种基于模仿学习的智能路由决策保护方法和装置。其中方法包括:步骤S1、基于软件定义网络SDN中各个网络节点的流量状态矩阵,利用Q网络算法对目标智能体进行预训练;具体包括:步骤S1.1、获取第一Q网络的网络结构,构建具有第一Q网络的网络结构的第二Q网络,第一Q网络为Q网络算法中当前状态的Q目标网络,第二Q网络为Q网络算法中构建的Q预测网络;步骤S1.2、基于第一Q网络的Q值和第二Q网络的Q值计算Q值损失函数,当Q值损失函数具有最小值时,预训练过程结束,目标智能体具有将流量以最优策略进行下发的决策能力;步骤S2、利用经预训练的目标智能体执行流量下发任务。

Description

一种基于模仿学习的智能路由决策保护方法和装置
技术领域
本发明属于智能路由安全技术领域,尤其涉及一种基于模仿学习的智能路由决策保护方法和装置。
背景技术
近年来,随着互联网技术的不断发展,使网络系统连接对象变得海量化、连接关系复杂化,传统基于人工配置的路由决策方法导致在有限时间内无法配置出最优的路由决策,促使研究人员将人工智能算法引入到智能路由决策过程中。随着强化学习的快速发展和应用,强化学习已在机器人控制、计算机视觉、无人驾驶等领域被广泛使用,而深度强化学习结合了深度学习的感知能力和强化学习的决策能力来优化深度强化学习策略,将深度强化学习算法与路由决策结合,可在很大程度上解决网络传输中丢包率高,网络分配流量不均以及资源利用率不高等问题。
已有研究表明,通过恶意状态输入导致的恶意流量攻击,将会改变训练集中的数据,从而使路由决策发生改变,令智能体动作选取失误,最终使智能体达不到学习目的。
发明内容
目前,互联网应用越来越广泛,随着网络路由决策也面临着越来越大的挑战。而现有的路由协议无法做到采用一定量的带宽传输流量,采用最短路径算法会增加丢包率和恶化资源利用率,还常常导致网络上的流量分布不平衡。此外,真实网络节点容易受到恶意流量的攻击,最后导致路由决策出错。总之,路由决策易受到丢包率高以及流量分布不均等影响,同时还易受到恶意流量的状态输入攻击。
针对上述问题,本发明提出一种基于模仿学习的智能路由决策保护方案,以提高模型训练的鲁棒性以及路由决策效率。具体地,该方案是在强化学习训练过程遇到链路过载与恶意流量攻击的场景下的一种策略优化方案,其基于生成式对抗模仿学习来生成训练策略,从而利用生成的序列数据对模型进行优化,达到策略优化目的,进而提高模型的鲁棒性。
本发明第一方面公开了一种基于模仿学习的智能路由决策保护方法,所述方法包括:
步骤S1、基于软件定义网络SDN中各个网络节点的流量状态矩阵,利用Q网络算法对目标智能体进行预训练,所述目标智能体为所述软件定义网络SDN中用于将流量下发至所述各个网络节点的控制器;所述预训练具体包括:
步骤S1.1、获取第一Q网络的网络结构,构建具有所述第一Q网络的网络结构的第二Q网络,所述第一Q网络为所述Q网络算法中当前状态的Q目标网络,所述第二Q网络为所述Q网络算法中构建的Q预测网络;
步骤S1.2、基于所述第一Q网络的Q值和所述第二Q网络的Q值计算Q值损失函数,当所述Q值损失函数具有最小值时,所述预训练过程结束,所述目标智能体具有将所述流量以最优策略进行下发的决策能力;
步骤S2、利用经预训练的目标智能体执行流量下发任务。
根据本发明第一方面的方法,在所述步骤S1中:
将所述软件定义网络SDN中各个网络节点在状态转换过程产生的数据存储在经验回放缓冲区中,以基于经验回放机制将所述经验回放缓冲区中的数据作为所述流量状态矩阵,以随机采样的方式执行批处理的预训练过程;
对于所述第一Q网络,利用不断最小化的所述Q值损失函数通过迭代更新所述第一Q网络的网络参数,对于所述第二Q网络,以固定时间间隔获取所述第一Q网络的网络参数,以延时更新的方式更新所述第二Q网络的网络参数。
根据本发明第一方面的方法,在所述步骤S1.2中:
所述第一Q网络的Q值和所述第二Q网络的Q值利用如下方式来确定:
当用于接收下发的流量的节点接收到所述下发的流量时,将所述第一Q网络的Q值和所述第二Q网络的Q值置为1;
当所述用于接收下发的流量的节点在超过第一阈值的时间后仍未接收到所述下发的流量时,首先将所述第一Q网络的Q值和所述第二Q网络的Q值置为0;进一步判断所述用于接收下发的流量的节点所属的交换机是否连接在线,若是,则维持所述第一Q网络的Q值和所述第二Q网络的Q值为0不变,若否,则将所述第一Q网络的Q值和所述第二Q网络的Q值置为-1;
在基于所述第一Q网络的Q值和所述第二Q网络的Q值计算所述Q值损失函数时,限制选取所述第一Q网络的Q值和所述第二Q网络的Q值为-1的情况,以减少所述交换机未连接在线的情况下的无效训练探索。
根据本发明第一方面的方法,在所述步骤S2中,利用经预训练的目标智能体执行流量下发任务时,同步收集由所述经预训练的目标智能体下发的流量的轨迹数据,作为真实状态策略下的序列轨迹数据,所述真实状态策略下的序列轨迹数据用于训练Gail判别器网络;所述方法还包括:
步骤S3、在利用经预训练的目标智能体执行流量下发任务的过程中检测到恶意流量攻击时,利用经训练的Gail判别器网络生成替代决策,所述经预训练的目标智能体以所述替代决策执行后续的流量下发任务。
根据本发明第一方面的方法,训练所述Gail判别器网络包括:
利用未预训练的目标智能体执行所述流量下发任务,同步收集由所述未预训练的目标智能体下发的流量的轨迹数据,作为生成的序列轨迹数据;
将所述真实状态策略下的序列轨迹数据和所述生成的序列轨迹数据作为所述Gail判别器网络的输入,通过迭代训练使得所述生成的序列轨迹数据和所述真实状态策略下的序列轨迹数据的判别差距小于阈值。
根据本发明第一方面的方法,在所述步骤S3中,利用如下方式检测所述恶意流量攻击:获取经预训练的目标智能体执行流量下发任务时的当前节点的流量状态信息,将所述当前节点的流量状态信息与所述真实状态策略下的序列轨迹数据中的流量状态信息进行对比,当超过50%的流量状态存在异常时,判定所述当前节点受到所述恶意流量攻击。
根据本发明第一方面的方法,在所述步骤S3中,当检测到所述恶意流量攻击时,将受到所述恶意流量攻击的所述当前节点的流量状态信息作为所述经训练的Gail判别器网络的输入,所述经训练的Gail判别器网络通过判别输出所述替代决策。
本发明第二方面公开了一种基于模仿学习的智能路由决策保护装置。所述装置包括:
第一处理单元,被控制为,基于软件定义网络SDN中各个网络节点的流量状态矩阵,利用Q网络算法对目标智能体进行预训练,所述目标智能体为所述软件定义网络SDN中用于将流量下发至所述各个网络节点的控制器;所述预训练具体包括:
获取第一Q网络的网络结构,构建具有所述第一Q网络的网络结构的第二Q网络,所述第一Q网络为所述Q网络算法中当前状态的Q目标网络,所述第二Q网络为所述Q网络算法中构建的Q预测网络;
基于所述第一Q网络的Q值和所述第二Q网络的Q值计算Q值损失函数,当所述Q值损失函数具有最小值时,所述预训练过程结束,所述目标智能体具有将所述流量以最优策略进行下发的决策能力;
第二处理单元,被控制为,利用经预训练的目标智能体执行流量下发任务;其中,利用经预训练的目标智能体执行流量下发任务时,同步收集由所述经预训练的目标智能体下发的流量的轨迹数据,作为真实状态策略下的序列轨迹数据,所述真实状态策略下的序列轨迹数据用于训练Gail判别器网络;
第三处理单元,被控制为,在利用经预训练的目标智能体执行流量下发任务的过程中检测到恶意流量攻击时,利用经训练的Gail判别器网络生成替代决策,所述经预训练的目标智能体以所述替代决策执行后续的流量下发任务。
根据本发明第二方面的装置,所述第一处理单元具体被控制为:
将所述软件定义网络SDN中各个网络节点在状态转换过程产生的数据存储在经验回放缓冲区中,以基于经验回放机制将所述经验回放缓冲区中的数据作为所述流量状态矩阵,以随机采样的方式执行批处理的预训练过程;
对于所述第一Q网络,利用不断最小化的所述Q值损失函数通过迭代更新所述第一Q网络的网络参数,对于所述第二Q网络,以固定时间间隔获取所述第一Q网络的网络参数,以延时更新的方式更新所述第二Q网络的网络参数。
根据本发明第二方面的装置,所述第一处理单元具体被控制为,利用如下方式来确定所述第一Q网络的Q值和所述第二Q网络的Q值:
当用于接收下发的流量的节点接收到所述下发的流量时,将所述第一Q网络的Q值和所述第二Q网络的Q值置为1;
当所述用于接收下发的流量的节点在超过第一阈值的时间后仍未接收到所述下发的流量时,首先将所述第一Q网络的Q值和所述第二Q网络的Q值置为0;进一步判断所述用于接收下发的流量的节点所属的交换机是否连接在线,若是,则维持所述第一Q网络的Q值和所述第二Q网络的Q值为0不变,若否,则将所述第一Q网络的Q值和所述第二Q网络的Q值置为-1;
在基于所述第一Q网络的Q值和所述第二Q网络的Q值计算所述Q值损失函数时,限制选取所述第一Q网络的Q值和所述第二Q网络的Q值为-1的情况,以减少所述交换机未连接在线的情况下的无效训练探索。
根据本发明第二方面的装置,训练所述Gail判别器网络包括:
利用未预训练的目标智能体执行所述流量下发任务,同步收集由所述未预训练的目标智能体下发的流量的轨迹数据,作为生成的序列轨迹数据;
将所述真实状态策略下的序列轨迹数据和所述生成的序列轨迹数据作为所述Gail判别器网络的输入,通过迭代训练使得所述生成的序列轨迹数据和所述真实状态策略下的序列轨迹数据的判别差距小于阈值。
根据本发明第二方面的装置,所述第三控制单元具体被配置为,利用如下方式检测所述恶意流量攻击:获取经预训练的目标智能体执行流量下发任务时的当前节点的流量状态信息,将所述当前节点的流量状态信息与所述真实状态策略下的序列轨迹数据中的流量状态信息进行对比,当超过50%的流量状态存在异常时,判定所述当前节点受到所述恶意流量攻击。
根据本发明第二方面的装置,所述第三控制单元具体被配置为:当检测到所述恶意流量攻击时,将受到所述恶意流量攻击的所述当前节点的流量状态信息作为所述经训练的Gail判别器网络的输入,所述经训练的Gail判别器网络通过判别输出所述替代决策。
本发明第三方面公开了一种电子设备。所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现本发明第一方面所述的一种基于模仿学习的智能路由决策保护方法中的步骤。
本发明第四方面公开了一种计算机可读存储介质。所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现本发明第一方面所述的一种基于模仿学习的智能路由决策保护方法中的步骤。
综上,本发明的目的在于保护基于深度强化学习(Deep Reinforcement Learning,DRL)的路由决策模型不受链路过载或者恶意流量攻击的影响。技术方案包括:首 先在流量传输过程中遇到链路过载时,优化后的DQN(Deep Q-Network,深度Q网络)模型能 通过当前节点状态输入后输出的
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE004
值来获得此刻网络节点是否拥堵的关键信息, 并通过
Figure DEST_PATH_IMAGE006
贪婪探索获取最佳的路由决策路径;在流量传输过程中遇恶意流量攻击 时,GAIL模型可根据当前输入的节点状态输出一个更贴近真实策略的动作,将该动作作为 接下来的路由下发动作,从而阻断了恶意流量的传输。采用本发明既提高了路由决策路径 探索的效率,也优化了模型的路由决策,从而提高了整体模型的鲁棒性,进而达到保护智能 路由决策模型的目的。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的一种基于模仿学习的智能路由决策保护方法的流程图;
图2为根据本发明实施例的DQN算法结构的示意图;
图3为根据本发明实施例的基于Gail训练生成替换决策的示意图;
图4为根据本发明实施例的针对链路过载和恶意攻击的路由决策保护的流程图;
图5为根据本发明实施例的一种基于模仿学习的智能路由决策保护装置的结构图;
图6为根据本发明实施例的一种电子设备的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明第一方面公开了一种基于模仿学习的智能路由决策保护方法。图1为根据本发明实施例的一种基于模仿学习的智能路由决策保护方法的流程图;如图1所示,所述方法包括:
步骤S1、基于软件定义网络SDN中各个网络节点的流量状态矩阵,利用Q网络算法对目标智能体进行预训练,所述目标智能体为所述软件定义网络SDN中用于将流量下发至所述各个网络节点的控制器;所述预训练具体包括:
步骤S1.1、获取第一Q网络的网络结构,构建具有所述第一Q网络的网络结构的第二Q网络,所述第一Q网络为所述Q网络算法中当前状态的Q目标网络,所述第二Q网络为所述Q网络算法中构建的Q预测网络;
步骤S1.2、基于所述第一Q网络的Q值和所述第二Q网络的Q值计算Q值损失函数,当所述Q值损失函数具有最小值时,所述预训练过程结束,所述目标智能体具有将所述流量以最优策略进行下发的决策能力;
步骤S2、利用经预训练的目标智能体执行流量下发任务。
在步骤S1中,基于软件定义网络SDN中各个网络节点的流量状态矩阵,利用Q网络算法对目标智能体进行预训练,所述目标智能体为所述软件定义网络SDN中用于将流量下发至所述各个网络节点的控制器。
在一些实施例中,所述预训练具体包括:
步骤S1.1、获取第一Q网络的网络结构,构建具有所述第一Q网络的网络结构的第二Q网络,所述第一Q网络为所述Q网络算法中当前状态的Q目标网络,所述第二Q网络为所述Q网络算法中构建的Q预测网络;
步骤S1.2、基于所述第一Q网络的Q值和所述第二Q网络的Q值计算Q值损失函数,当所述Q值损失函数具有最小值时,所述预训练过程结束,所述目标智能体具有将所述流量以最优策略进行下发的决策能力
具体地,对目标智能体进行预训练包括:基于强化学习中的深度Q网络算法(DQN)训练软件定义网络SDN中的控制器,控制器的目标是将流量正确地、完整地、无延时地下发至各个网络节点,DQN将Q学习与卷积神经网络相结合,构建强化学习训练模型。
(1)构建基于OpenFlow协议的软件定义网络SDN拓扑流量模型;
(2)基于深度Q网络算法(DQN)训练目标智能体,此处的智能体是指软件定义网络SDN中的控制器;
(3)训练过程中,源节点为初始状态
Figure DEST_PATH_IMAGE008
,动作
Figure DEST_PATH_IMAGE010
是指从当前节点发送流量至交换机 (目的节点),若成功发送至边缘层交换机则给予奖励
Figure DEST_PATH_IMAGE012
,下一个状态表示从当前节点跳至 下一个节点。将状态转换过程(状态
Figure DEST_PATH_IMAGE008A
、动作
Figure DEST_PATH_IMAGE010A
、奖励
Figure DEST_PATH_IMAGE012A
、下一个状态
Figure DEST_PATH_IMAGE014
)存储在经验回放缓 冲区Buff中,作为网络模型的训练数据集;
(4)从缓冲区Buff中采样N个训练数据集,通过最小化当前Q网络的预测Q值
Figure DEST_PATH_IMAGE015
和 目标Q网络的目标Q值
Figure DEST_PATH_IMAGE004A
的均方差来更新当前Q网络的网络参数,每隔一段时间将当前Q网 络的相关参数复制给目标Q网络;
(5)在计算
Figure DEST_PATH_IMAGE015A
Figure DEST_PATH_IMAGE004AA
时,若当前链路出现拥塞,
Figure DEST_PATH_IMAGE002A
Figure DEST_PATH_IMAGE004AAA
的值都将设为0;若未出 现拥堵,则设为1;若交换机没有互相连接,则将
Figure DEST_PATH_IMAGE002AA
Figure DEST_PATH_IMAGE004AAAA
都设为-1。以此来确定当前网络 连接状态;
(6)在随机动作探索的过程中,执行贪婪探索策略
Figure DEST_PATH_IMAGE017
,并对所执行的动作进 行限制,限制在某T时刻下可选择的动作为该状态下
Figure DEST_PATH_IMAGE002AAA
Figure DEST_PATH_IMAGE004_5A
值均大于0的动作,以此减少 出现下一步动作与当前状态交换机无连接的无效探索,从而在更快找出全局最优动作的同 时加快收敛速度。
在一些实施例中,DQN通过结合深度神经网络与强化学习的Q学习算法,不仅解决了状态空间过大难以维护的问题,而且由于神经网络强大的特征提取能力,其潜力也远大于人工的特征表示。强化学习中的Q学习通过贝尔曼方程,采用时序差分的方式进行迭代更新状态-动作价值函数Q:
Figure DEST_PATH_IMAGE019
其中,
Figure DEST_PATH_IMAGE021
为目标Q值,
Figure DEST_PATH_IMAGE023
是作为动作
Figure DEST_PATH_IMAGE010AA
出现的下 一状态,
Figure DEST_PATH_IMAGE025
Figure DEST_PATH_IMAGE023A
状态下的可能动作。
Figure DEST_PATH_IMAGE027
为学习率,
Figure DEST_PATH_IMAGE029
为折现因子。根据贝尔曼最优方程 理论,只要通过不断迭代更新上式,即可使Q函数逼近至真实值Q*,从而最终得到最优策略:
Figure DEST_PATH_IMAGE031
在一些实施例中,DQN还使用了目标网络机制,即在当前
Figure DEST_PATH_IMAGE033
网络结构(第一Q网络的 网络结构)基础上,搭建了一个结构完全相同的目标
Figure DEST_PATH_IMAGE035
网络(具有第一Q网络的网络结构的 第二Q网络)组成DQN的整体模型框架,训练过程中,当前
Figure DEST_PATH_IMAGE036
网络输出的预测Q值用来选择动 作a,另一个目标
Figure DEST_PATH_IMAGE035A
网络用于计算目标Q值。通过计算预测Q值和目标Q值得均方差来定义损 失函数:
Figure DEST_PATH_IMAGE038
其中,
Figure DEST_PATH_IMAGE040
为目标Q值,通过神经网络的反向梯度传 播来更新当前
Figure DEST_PATH_IMAGE036A
网络的参数
Figure DEST_PATH_IMAGE042
在一些实施例中,在所述步骤S1中,将所述软件定义网络SDN中各个网络节点在状态转换过程产生的数据存储在经验回放缓冲区中,以基于经验回放机制将所述经验回放缓冲区中的数据作为所述流量状态矩阵,以随机采样的方式执行批处理的预训练过程。
具体地,训练过程中DQN采用了经验回放机制,图2为根据本发明实施例的DQN算法 结构的示意图;如图2所示,将状态转换过程(状态
Figure DEST_PATH_IMAGE044
、动作
Figure DEST_PATH_IMAGE046
、奖励
Figure DEST_PATH_IMAGE048
、下一个状态
Figure DEST_PATH_IMAGE050
)存储 在经验回放缓冲区Buff中,作为网络模型的训练数据集,并以随机采样的形式进行批处理 学习。从Buff中采样N个训练数据集,通过最小化损失函数来更新当前
Figure DEST_PATH_IMAGE036AA
网络的网络参数, 对于目标
Figure DEST_PATH_IMAGE051
网络,其网络参数不需要进行迭代更新,而是每隔一段时间从当前
Figure DEST_PATH_IMAGE033A
网络中 将网络参数复制过来,即延时更新,再进行下一轮的学习。这种方法减轻了每次Q值变化对 策略参数的影响,即减少了目标Q值与预测Q值之间的相关性,增加了策略训练的稳定性。
在一些实施例中,在所述步骤S1.2中:所述第一Q网络的Q值和所述第二Q网络的Q值利用如下方式来确定:当用于接收下发的流量的节点接收到所述下发的流量时,将所述第一Q网络的Q值和所述第二Q网络的Q值置为1;当所述用于接收下发的流量的节点在超过第一阈值的时间后仍未接收到所述下发的流量时,首先将所述第一Q网络的Q值和所述第二Q网络的Q值置为0;进一步判断所述用于接收下发的流量的节点所属的交换机是否连接在线,若是,则维持所述第一Q网络的Q值和所述第二Q网络的Q值为0不变,若否,则将所述第一Q网络的Q值和所述第二Q网络的Q值置为-1。
具体地,在计算
Figure DEST_PATH_IMAGE015AA
(第二Q网络的Q值)和
Figure DEST_PATH_IMAGE004_6A
(第一Q网络的Q值)时,若当前链路出 现拥塞,
Figure DEST_PATH_IMAGE052
Figure DEST_PATH_IMAGE004_7A
的值都将设为0;若未出现拥堵,则设为1;若交换机没有互相连接,则将
Figure DEST_PATH_IMAGE052A
Figure DEST_PATH_IMAGE004_8A
都设为-1。以此来确定当前网络连接状态。
在一些实施例中,在所述步骤S1.2中:在基于所述第一Q网络的Q值和所述第二Q网络的Q值计算所述Q值损失函数时,限制选取所述第一Q网络的Q值和所述第二Q网络的Q值为-1的情况,以减少所述交换机未连接在线的情况下的无效训练探索。
具体地,在所述步骤S1中,对于所述第一Q网络,利用不断最小化的所述Q值损失函 数通过迭代更新所述第一Q网络的网络参数,对于所述第二Q网络,以固定时间间隔获取所 述第一Q网络的网络参数,以延时更新的方式更新所述第二Q网络的网络参数。在随机动作 探索的过程中,执行贪婪探索策略
Figure DEST_PATH_IMAGE054
,并对所执行的动作进行限制,限制在某T时刻 下可选择的动作为该状态下
Figure DEST_PATH_IMAGE015AAA
Figure DEST_PATH_IMAGE004_9A
值均大于0的动作,即表明此刻网络节点出现拥堵或 无连接,以此减少出现下一步动作与当前状态交换机无连接的无效探索。
在步骤S2,利用经预训练的目标智能体执行流量下发任务。
在一些实施例中,在所述步骤S2中,利用经预训练的目标智能体执行流量下发任务时,同步收集由所述经预训练的目标智能体下发的流量的轨迹数据,作为真实状态策略下的序列轨迹数据,所述真实状态策略下的序列轨迹数据用于训练Gail判别器网络。
具体地,收集真实状态策略序列轨迹数据包括,根据深度强度学习预训练模型的 策略生成多组T+1个时刻状态动作对(state,action)
Figure DEST_PATH_IMAGE056
轨迹,并 取其中获得正奖励的状态动作对作为真实状态策略序列轨迹数据用于与生成的序列轨迹 数据进行判别比较,用于判别是否出现恶意流量传输。
在一些实施例中,训练所述Gail判别器网络包括:利用未预训练的目标智能体执行所述流量下发任务,同步收集由所述未预训练的目标智能体下发的流量的轨迹数据,作为生成的序列轨迹数据;将所述真实状态策略下的序列轨迹数据和所述生成的序列轨迹数据作为所述Gail判别器网络的输入,通过迭代训练使得所述生成的序列轨迹数据和所述真实状态策略下的序列轨迹数据的判别差距小于阈值。
在一些实施例中,训练GAIL的目的旨在当出现恶意流量传输时,利用强化学习的方法来训练GAIL,将GAIL的动作输出来替换上一时刻的动作输出。将预训练好模型经筛选后生成的真实状态策略序列轨迹数据进行拼接,并将拼接后的状态动作置标签1;同时将现生成的序列轨迹数据也进行拼接,并将拼接后的状态动作置标签0。将拼接好的两类数据输入GAIL中的判别器网络进行训练,不断优化真实状态策略序列轨迹数据的损失函数和现生成序列轨迹数据的损失函数,直至判别器网络训练完毕。当判别器网络训练完毕后,将下一个时刻的状态输入GAIL中的actor网络,actor网络由三层线性层组成,actor网络会输出所有动作的概率,选择概率最大的值对应的动作作为最终的动作,并以此替代受到恶意流量攻击后SDN控制器的下一步动作。
具体地,根据深度强强化学习预训练模型DRL的策略生成多个T+1个时刻控制器传 输流量的序列状态动作对(state,action)
Figure DEST_PATH_IMAGE058
轨迹作为真实状 态策略序列轨迹数据用于与生成的序列轨迹数据进行判别比较,如图3所示,图3为根据本 发明实施例的基于Gail训练生成替换决策的示意图。
基于GAIL训练生成序列状态策略动作,GAIL中使用生成器actor网络来生成序列数据,判别器D用于评估生成的序列与真实的序列之间的差距,从而引导生成器的训练,同时利用强化学习算法来计算奖励值以评估序列数据的生成,其训练过程步骤如下:
(1)输入expert trajectories专家样本轨迹
Figure DEST_PATH_IMAGE060
(2)初始化判别器D和actor网络
Figure DEST_PATH_IMAGE062
(3)在每次迭代过程中:
利用actor网络生成状态动作轨迹
Figure DEST_PATH_IMAGE064
更新判别器参数,增加
Figure DEST_PATH_IMAGE066
,减少
Figure DEST_PATH_IMAGE068
,其中
Figure DEST_PATH_IMAGE070
表示T时刻内状态 动作的分布。
判别器D的目的是使生成数据与目标数据分布(训练集数据所代表的的分布)相接近,其中判别器的目标是使两者的分布最小化,目标函数可表示为:
Figure DEST_PATH_IMAGE072
其中,Y表示样本序列数据,Pdata为来自样本序列数据的分布,第一项中的
Figure DEST_PATH_IMAGE074
表示判别器对真实序列数据即
Figure DEST_PATH_IMAGE076
的判断,第二项
Figure DEST_PATH_IMAGE078
则表示对生成的 序列数据即
Figure DEST_PATH_IMAGE080
的判断。通过对目标函数进行梯度反向求导来更新判别器的参数
Figure DEST_PATH_IMAGE082
训练过程中,使用判别器来评估生成的序列数据,来指导生成器的训练,通过策略 梯度更新的方法对生成器的参数
Figure DEST_PATH_IMAGE084
进行更新:
Figure DEST_PATH_IMAGE086
其中,
Figure DEST_PATH_IMAGE088
表示第h步相应的学习率。
更新actor网络参数,增加
Figure DEST_PATH_IMAGE090
,同时不断更新参数
Figure DEST_PATH_IMAGE092
,
Figure DEST_PATH_IMAGE094
Figure DEST_PATH_IMAGE096
为学习率。
将actor网络生成的状态动作轨迹
Figure DEST_PATH_IMAGE098
输入到判别器网络D中,通过判 别器的输出P来判定
Figure DEST_PATH_IMAGE098A
是否无限接近专家样本。
若判别器输出P为1,表明判别器已训练完毕;若P输出为0,则重复上述步骤。
所述方法还包括:步骤S3、在利用经预训练的目标智能体执行流量下发任务的过程中检测到恶意流量攻击时,利用经训练的Gail判别器网络生成替代决策,所述经预训练的目标智能体以所述替代决策执行后续的流量下发任务。
在一些实施例中,在所述步骤S3中,利用如下方式检测所述恶意流量攻击:获取经预训练的目标智能体执行流量下发任务时的当前节点的流量状态信息,将所述当前节点的流量状态信息与所述真实状态策略下的序列轨迹数据中的流量状态信息进行对比,当超过50%的流量状态存在异常时,判定所述当前节点受到所述恶意流量攻击。
在一些实施例中,在所述步骤S3中,当检测到所述恶意流量攻击时,将受到所述恶意流量攻击的所述当前节点的流量状态信息作为所述经训练的Gail判别器网络的输入,所述经训练的Gail判别器网络通过判别输出所述替代决策。
图4为根据本发明实施例的针对链路过载和恶意攻击的路由决策保护的流程图;如图4所示,SDN中的控制器在训练过程中,流量传输需首先经过链路信息收集模块,随后开始判断链路是否过载;若链路过载,则将当前的节点信息输入优化后的DQN模型,根据DQN模型输出的Q值大小获取此刻节点是否过载或者封闭等信息,随后开始判断网络拓扑是否存在恶意流量;若同一节点状态信息和输出的对应动作矩阵与真实状态策略轨迹中的动作矩阵存在超过半数的差异,则认为此节点传输的流量为恶意流量,若差异低于50%,则直接进行正常的路由下发;当发现恶意流量存在时,将此刻的节点状态输入至事先训练的GAIL网络,将GAIL网络输出的动作作为控制器将要采取的动作。
可见,SDN控制器在基于深度强化学习的训练过程中,遇到链路过载的同时也可能受到恶意流量的攻击,链路过载会使控制器无法在短时间内选择出一条最佳的路由决策路径,而恶意流量的攻击,则将直接导致控制器将流量往错误的节点传输,最终导致整个网络出现故障甚至瘫痪。
基于上述情况,当出现链路过载时,先利用优化后的DQN模型对当前节点状态信息 进行判断,根据模型输出的
Figure DEST_PATH_IMAGE052AA
Figure DEST_PATH_IMAGE004_10A
是否大于0来当前网络节点是否出现拥堵,利用
Figure DEST_PATH_IMAGE100
贪婪探索策略减少对未与交换机相连的节点进行探索,从而更快得出一条最佳 的路由决策路径;与此同时,若发现遭受恶意流量攻击,则将当前的节点状态信息输入预训 练好的GAIL网络,将GAIL网络的输出作为最终控制器下发的动作。DRL模型和GAIL模型的引 入,既提高了路由决策路径探索的效率也优化了模型的决策,从而提高了整体模型的鲁棒 性。
本发明第二方面公开了一种基于模仿学习的智能路由决策保护装置。图5为根据本发明实施例的一种基于模仿学习的智能路由决策保护装置的结构图;如图5所示,所述装置500包括:
第一处理单元501,被控制为,基于软件定义网络SDN中各个网络节点的流量状态矩阵,利用Q网络算法对目标智能体进行预训练,所述目标智能体为所述软件定义网络SDN中用于将流量下发至所述各个网络节点的控制器;所述预训练具体包括:
获取第一Q网络的网络结构,构建具有所述第一Q网络的网络结构的第二Q网络,所述第一Q网络为所述Q网络算法中当前状态的Q目标网络,所述第二Q网络为所述Q网络算法中构建的Q预测网络;
基于所述第一Q网络的Q值和所述第二Q网络的Q值计算Q值损失函数,当所述Q值损失函数具有最小值时,所述预训练过程结束,所述目标智能体具有将所述流量以最优策略进行下发的决策能力;
第二处理单元503,被控制为,利用经预训练的目标智能体执行流量下发任务;其中,利用经预训练的目标智能体执行流量下发任务时,同步收集由所述经预训练的目标智能体下发的流量的轨迹数据,作为真实状态策略下的序列轨迹数据,所述真实状态策略下的序列轨迹数据用于训练Gail判别器网络;
第三处理单元503,被控制为,在利用经预训练的目标智能体执行流量下发任务的过程中检测到恶意流量攻击时,利用经训练的Gail判别器网络生成替代决策,所述经预训练的目标智能体以所述替代决策执行后续的流量下发任务。
根据本发明第二方面的装置,所述第一处理单元501具体被控制为:
将所述软件定义网络SDN中各个网络节点在状态转换过程产生的数据存储在经验回放缓冲区中,以基于经验回放机制将所述经验回放缓冲区中的数据作为所述流量状态矩阵,以随机采样的方式执行批处理的预训练过程;
对于所述第一Q网络,利用不断最小化的所述Q值损失函数通过迭代更新所述第一Q网络的网络参数,对于所述第二Q网络,以固定时间间隔获取所述第一Q网络的网络参数,以延时更新的方式更新所述第二Q网络的网络参数。
根据本发明第二方面的装置,所述第一处理单元501具体被控制为,利用如下方式来确定所述第一Q网络的Q值和所述第二Q网络的Q值:
当用于接收下发的流量的节点接收到所述下发的流量时,将所述第一Q网络的Q值和所述第二Q网络的Q值置为1;
当所述用于接收下发的流量的节点在超过第一阈值的时间后仍未接收到所述下发的流量时,首先将所述第一Q网络的Q值和所述第二Q网络的Q值置为0;进一步判断所述用于接收下发的流量的节点所属的交换机是否连接在线,若是,则维持所述第一Q网络的Q值和所述第二Q网络的Q值为0不变,若否,则将所述第一Q网络的Q值和所述第二Q网络的Q值置为-1;
在基于所述第一Q网络的Q值和所述第二Q网络的Q值计算所述Q值损失函数时,限制选取所述第一Q网络的Q值和所述第二Q网络的Q值为-1的情况,以减少所述交换机未连接在线的情况下的无效训练探索。
根据本发明第二方面的装置,训练所述Gail判别器网络包括:
利用未预训练的目标智能体执行所述流量下发任务,同步收集由所述未预训练的目标智能体下发的流量的轨迹数据,作为生成的序列轨迹数据;
将所述真实状态策略下的序列轨迹数据和所述生成的序列轨迹数据作为所述Gail判别器网络的输入,通过迭代训练使得所述生成的序列轨迹数据和所述真实状态策略下的序列轨迹数据的判别差距小于阈值。
根据本发明第二方面的装置,所述第三控制单元503具体被配置为,利用如下方式检测所述恶意流量攻击:获取经预训练的目标智能体执行流量下发任务时的当前节点的流量状态信息,将所述当前节点的流量状态信息与所述真实状态策略下的序列轨迹数据中的流量状态信息进行对比,当超过50%的流量状态存在异常时,判定所述当前节点受到所述恶意流量攻击。
根据本发明第二方面的装置,所述第三控制单元503具体被配置为:当检测到所述恶意流量攻击时,将受到所述恶意流量攻击的所述当前节点的流量状态信息作为所述经训练的Gail判别器网络的输入,所述经训练的Gail判别器网络通过判别输出所述替代决策。
本发明第三方面公开了一种电子设备。所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现本发明第一方面所述的一种基于模仿学习的智能路由决策保护方法中的步骤。
图6为根据本发明实施例的一种电子设备的结构图;如图6所示,电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本公开的技术方案相关的部分的结构图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本发明第四方面公开了一种计算机可读存储介质。所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现本发明第一方面所述的一种基于模仿学习的智能路由决策保护方法中的步骤。
综上,本发明的目的在于保护基于深度强化学习(Deep Reinforcement Learning,DRL)的路由决策模型不受链路过载或者恶意流量攻击的影响。技术方案包括:首 先在流量传输过程中遇到链路过载时,优化后的DQN模型能通过当前节点状态输入后输出 的
Figure DEST_PATH_IMAGE052AAA
Figure DEST_PATH_IMAGE004_11A
值来获得此刻网络节点是否拥堵的关键信息,并通过
Figure DEST_PATH_IMAGE100A
贪婪探索获取 最佳的路由决策路径;在流量传输过程中遇恶意流量攻击时,GAIL模型可根据当前输入的 节点状态输出一个更贴近真实策略的动作,将该动作作为接下来的路由下发动作,从而阻 断了恶意流量的传输。采用本发明既提高了路由决策路径探索的效率,也优化了模型的路 由决策,从而提高了整体模型的鲁棒性,进而达到保护智能路由决策模型的目的。
本发明的有益效果主要包括:(1)通过根据DQN模型的
Figure DEST_PATH_IMAGE002AAAA
Figure DEST_PATH_IMAGE004_12A
输出,来判断当前 网络节点是否存在拥堵,再利用
Figure DEST_PATH_IMAGE101
贪婪探索策略减少智能体对未与交换机相连的 节点进行不必要探索,从而大大提高最佳路由决策路径的生成效率;(2)在GAIL训练过程 中,生成器用来生成序列状态和策略动作轨迹数据,判别器的真实数据输入是采样自预训 练的DQN模型筛选后的序列状态动作对数据,训练过程中通过更新生成器和判别器的参数 来生成更为贴近真实序列状态策略的数据;(3)在流量传输过程中遇到链路过载时,优化后 的DQN模型能通过当前节点状态输入后输出的
Figure DEST_PATH_IMAGE002_5A
Figure DEST_PATH_IMAGE004_13A
值来获得此刻网络节点是否拥堵 的关键信息,并通过
Figure DEST_PATH_IMAGE101A
贪婪探索获取最佳的路由决策路径;(4)在流量传输过程中 糟遇恶意流量攻击时,GAIL模型的可根据当前输入的节点状态输出一个更贴近真实策略的 动作,将该动作作为接下来的路由下发,从而阻断了恶意流量的传输。既提高了路由决策路 径探索的效率,也优化了模型的决策,从而提高了整体模型的鲁棒性。
请注意,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于模仿学习的智能路由决策保护方法,其特征在于,所述方法包括:
步骤S1、基于软件定义网络SDN中各个网络节点的流量状态矩阵,利用Q网络算法对目标智能体进行预训练,所述目标智能体为所述软件定义网络SDN中用于将流量下发至所述各个网络节点的控制器;所述预训练具体包括:
步骤S1.1、获取第一Q网络的网络结构,构建具有所述第一Q网络的网络结构的第二Q网络,所述第一Q网络为所述Q网络算法中当前状态的Q目标网络,所述第二Q网络为所述Q网络算法中构建的Q预测网络;
步骤S1.2、基于所述第一Q网络的Q值和所述第二Q网络的Q值计算Q值损失函数,当所述Q值损失函数具有最小值时,所述预训练过程结束,所述目标智能体具有将所述流量以最优策略进行下发的决策能力;
步骤S2、利用经预训练的目标智能体执行流量下发任务。
2.根据权利要求1所述的一种基于模仿学习的智能路由决策保护方法,其特征在于,在所述步骤S1中:
将所述软件定义网络SDN中各个网络节点在状态转换过程产生的数据存储在经验回放缓冲区中,以基于经验回放机制将所述经验回放缓冲区中的数据作为所述流量状态矩阵,以随机采样的方式执行批处理的预训练过程;
对于所述第一Q网络,利用不断最小化的所述Q值损失函数通过迭代更新所述第一Q网络的网络参数,对于所述第二Q网络,以固定时间间隔获取所述第一Q网络的网络参数,以延时更新的方式更新所述第二Q网络的网络参数。
3.根据权利要求2所述的一种基于模仿学习的智能路由决策保护方法,其特征在于,在所述步骤S1.2中:
所述第一Q网络的Q值和所述第二Q网络的Q值利用如下方式来确定:
当用于接收下发的流量的节点接收到所述下发的流量时,将所述第一Q网络的Q值和所述第二Q网络的Q值置为1;
当所述用于接收下发的流量的节点在超过第一阈值的时间后仍未接收到所述下发的流量时,首先将所述第一Q网络的Q值和所述第二Q网络的Q值置为0;进一步判断所述用于接收下发的流量的节点所属的交换机是否连接在线,若是,则维持所述第一Q网络的Q值和所述第二Q网络的Q值为0不变,若否,则将所述第一Q网络的Q值和所述第二Q网络的Q值置为-1;
在基于所述第一Q网络的Q值和所述第二Q网络的Q值计算所述Q值损失函数时,限制选取所述第一Q网络的Q值和所述第二Q网络的Q值为-1的情况,以减少所述交换机未连接在线的情况下的无效训练探索。
4.根据权利要求3所述的一种基于模仿学习的智能路由决策保护方法,其特征在于,在所述步骤S2中,利用经预训练的目标智能体执行流量下发任务时,同步收集由所述经预训练的目标智能体下发的流量的轨迹数据,作为真实状态策略下的序列轨迹数据,所述真实状态策略下的序列轨迹数据用于训练Gail(Generative Adversarial ImitationLearning)判别器网络;所述方法还包括:
步骤S3、在利用经预训练的目标智能体执行流量下发任务的过程中检测到恶意流量攻击时,利用经训练的Gail判别器网络生成替代决策,所述经预训练的目标智能体以所述替代决策执行后续的流量下发任务。
5.根据权利要求4所述的一种基于模仿学习的智能路由决策保护方法,其特征在于,训练所述Gail判别器网络包括:
利用未预训练的目标智能体执行所述流量下发任务,同步收集由所述未预训练的目标智能体下发的流量的轨迹数据,作为生成的序列轨迹数据;
将所述真实状态策略下的序列轨迹数据和所述生成的序列轨迹数据作为所述Gail判别器网络的输入,通过迭代训练使得所述生成的序列轨迹数据和所述真实状态策略下的序列轨迹数据的判别差距小于阈值。
6.根据权利要求5所述的一种基于模仿学习的智能路由决策保护方法,其特征在于,在所述步骤S3中,利用如下方式检测所述恶意流量攻击:获取经预训练的目标智能体执行流量下发任务时的当前节点的流量状态信息,将所述当前节点的流量状态信息与所述真实状态策略下的序列轨迹数据中的流量状态信息进行对比,当超过50%的流量状态存在异常时,判定所述当前节点受到所述恶意流量攻击。
7.根据权利要求6所述的一种基于模仿学习的智能路由决策保护方法,其特征在于,在所述步骤S3中,当检测到所述恶意流量攻击时,将受到所述恶意流量攻击的所述当前节点的流量状态信息作为所述经训练的Gail判别器网络的输入,所述经训练的Gail判别器网络通过判别输出所述替代决策。
8.一种基于模仿学习的智能路由决策保护装置,其特征在于,所述装置包括:
第一处理单元,被控制为,基于软件定义网络SDN中各个网络节点的流量状态矩阵,利用Q网络算法对目标智能体进行预训练,所述目标智能体为所述软件定义网络SDN中用于将流量下发至所述各个网络节点的控制器;所述预训练具体包括:
获取第一Q网络的网络结构,构建具有所述第一Q网络的网络结构的第二Q网络,所述第一Q网络为所述Q网络算法中当前状态的Q目标网络,所述第二Q网络为所述Q网络算法中构建的Q预测网络;
基于所述第一Q网络的Q值和所述第二Q网络的Q值计算Q值损失函数,当所述Q值损失函数具有最小值时,所述预训练过程结束,所述目标智能体具有将所述流量以最优策略进行下发的决策能力;
第二处理单元,被控制为,利用经预训练的目标智能体执行流量下发任务;其中,利用经预训练的目标智能体执行流量下发任务时,同步收集由所述经预训练的目标智能体下发的流量的轨迹数据,作为真实状态策略下的序列轨迹数据,所述真实状态策略下的序列轨迹数据用于训练Gail判别器网络;
第三处理单元,被控制为,在利用经预训练的目标智能体执行流量下发任务的过程中检测到恶意流量攻击时,利用经训练的Gail判别器网络生成替代决策,所述经预训练的目标智能体以所述替代决策执行后续的流量下发任务。
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现权利要求1至7中任一项所述的一种基于模仿学习的智能路由决策保护方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现权利要求1至7中任一项所述的一种基于模仿学习的智能路由决策保护方法中的步骤。
CN202210131705.1A 2022-02-14 2022-02-14 一种基于模仿学习的智能路由决策保护方法和装置 Active CN114189470B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210131705.1A CN114189470B (zh) 2022-02-14 2022-02-14 一种基于模仿学习的智能路由决策保护方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210131705.1A CN114189470B (zh) 2022-02-14 2022-02-14 一种基于模仿学习的智能路由决策保护方法和装置

Publications (2)

Publication Number Publication Date
CN114189470A true CN114189470A (zh) 2022-03-15
CN114189470B CN114189470B (zh) 2022-04-19

Family

ID=80545849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210131705.1A Active CN114189470B (zh) 2022-02-14 2022-02-14 一种基于模仿学习的智能路由决策保护方法和装置

Country Status (1)

Country Link
CN (1) CN114189470B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019127063A1 (en) * 2017-12-27 2019-07-04 Intel Corporation Reinforcement learning for human robot interaction
CN110574046A (zh) * 2017-05-19 2019-12-13 渊慧科技有限公司 各种行为的数据有效模仿
CN111010294A (zh) * 2019-11-28 2020-04-14 国网甘肃省电力公司电力科学研究院 一种基于深度强化学习的电力通信网路由方法
US20200143206A1 (en) * 2018-11-05 2020-05-07 Royal Bank Of Canada System and method for deep reinforcement learning
CN112671865A (zh) * 2020-12-16 2021-04-16 之江实验室 一种基于sdn的物联网微服务自动编排方法
CN112884131A (zh) * 2021-03-16 2021-06-01 浙江工业大学 一种基于模仿学习的深度强化学习策略优化防御方法和装置
CN113641099A (zh) * 2021-07-13 2021-11-12 西北工业大学 一种超越专家演示的阻抗控制模仿学习训练方法
US20210357731A1 (en) * 2018-11-16 2021-11-18 Deepmind Technologies Limited Controlling agents using amortized q learning

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110574046A (zh) * 2017-05-19 2019-12-13 渊慧科技有限公司 各种行为的数据有效模仿
WO2019127063A1 (en) * 2017-12-27 2019-07-04 Intel Corporation Reinforcement learning for human robot interaction
US20200143206A1 (en) * 2018-11-05 2020-05-07 Royal Bank Of Canada System and method for deep reinforcement learning
US20210357731A1 (en) * 2018-11-16 2021-11-18 Deepmind Technologies Limited Controlling agents using amortized q learning
CN111010294A (zh) * 2019-11-28 2020-04-14 国网甘肃省电力公司电力科学研究院 一种基于深度强化学习的电力通信网路由方法
CN112671865A (zh) * 2020-12-16 2021-04-16 之江实验室 一种基于sdn的物联网微服务自动编排方法
CN112884131A (zh) * 2021-03-16 2021-06-01 浙江工业大学 一种基于模仿学习的深度强化学习策略优化防御方法和装置
CN113641099A (zh) * 2021-07-13 2021-11-12 西北工业大学 一种超越专家演示的阻抗控制模仿学习训练方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
朱小琴等: "基于深度强化学习的电力通信网路由策略", 《科学技术创新》 *
胡洋: "基于深度学习的SDN虚拟蜜网路由优化", 《计算机系统应用》 *

Also Published As

Publication number Publication date
CN114189470B (zh) 2022-04-19

Similar Documents

Publication Publication Date Title
CN109039942B (zh) 一种基于深度强化学习的网络负载均衡系统及均衡方法
US20220248237A1 (en) Neural network circuit remote electrical tilt antenna infrastructure management based on probability of actions
US11424999B2 (en) Method and apparatus for key performance indicator forecasting using artificial life
CN110196554B (zh) 一种多智能体系统的安全一致性控制方法
Liu et al. Provably efficient black-box action poisoning attacks against reinforcement learning
CN112422443B (zh) 一种拥塞算法的自适应控制方法、存储介质、设备及系统
CN114363093A (zh) 一种基于深度强化学习的蜜罐部署主动防御方法
Zhong et al. Adversarial jamming attacks on deep reinforcement learning based dynamic multichannel access
CN107733877B (zh) 一种物联网无线通讯架构的管理方法及系统
CN108075975A (zh) 一种物联网环境中的路由传输路径的确定方法及确定系统
Xu et al. Evaluating and boosting reinforcement learning for intra-domain routing
KR102460485B1 (ko) 정책 벡터 기반 인공신경망 탐색 장치 및 방법
US20220417269A1 (en) Edge-based polymorphic network with advanced agentless security
Sun et al. Improving the scalability of deep reinforcement learning-based routing with control on partial nodes
CN114189470B (zh) 一种基于模仿学习的智能路由决策保护方法和装置
Parras et al. Inverse reinforcement learning: a new framework to mitigate an Intelligent Backoff Attack
TWI452529B (zh) Combined with the system equivalent model of the system and its computer program products
Liu et al. Scalable deep reinforcement learning-based online routing for multi-type service requirements
CN106406082B (zh) 一种系统控制方法、装置,控制器及控制系统
CN110971471B (zh) 基于状态感知的电力通信主干网故障恢复方法和装置
CN114039916B (zh) 面向实时视频质量优化的深度混合模型流量控制方法、装置和存储介质
CN113015196B (zh) 一种基于状态感知的网络切片故障愈合方法
Masoumzadeh et al. Deep blue: A fuzzy q-learning enhanced active queue management scheme
Zhao et al. Learning multi-agent communication with policy fingerprints for adaptive traffic signal control
Desgeorges et al. Detection of anomalies of a non-deterministic software-defined networking control

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant