CN110896360A - 基于历史信息和分层强化学习的拒绝服务攻击防护方法 - Google Patents

基于历史信息和分层强化学习的拒绝服务攻击防护方法 Download PDF

Info

Publication number
CN110896360A
CN110896360A CN201911008958.4A CN201911008958A CN110896360A CN 110896360 A CN110896360 A CN 110896360A CN 201911008958 A CN201911008958 A CN 201911008958A CN 110896360 A CN110896360 A CN 110896360A
Authority
CN
China
Prior art keywords
traffic
router
legal
flow
limiting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911008958.4A
Other languages
English (en)
Other versions
CN110896360B (zh
Inventor
夏士明
潘志松
张艳艳
张磊
饶瑞
白玮
王陈雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Army Engineering University of PLA
Original Assignee
Army Engineering University of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Army Engineering University of PLA filed Critical Army Engineering University of PLA
Priority to CN201911008958.4A priority Critical patent/CN110896360B/zh
Publication of CN110896360A publication Critical patent/CN110896360A/zh
Application granted granted Critical
Publication of CN110896360B publication Critical patent/CN110896360B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • H04L41/044Network management architectures or arrangements comprising hierarchical management structures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0893Assignment of logical groups to network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1458Denial of Service

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于历史信息和分层强化学习的拒绝服务攻击防护方法。对于小规模网络流量响应问题,本发明首先使用经验信息来估计合法流量,然后采用线性规划(LP)进行计算以找到每个限制路由器的理想策略。对于大规模网络流量响应问题,本发明的基于层次(Hierarchical)结构的ELP(HELP)策略可以减轻中心路由器的压力,并且可以实现比直接ELP(中心节点与所有节点通信)更好的性能,对于实际的应用具有一定的指导意义,可以有效减少DDoS流量的影响。

Description

基于历史信息和分层强化学习的拒绝服务攻击防护方法
技术领域
本发明涉及一种网络流量自动控制技术,具体涉及一种基于分层 线性规划的、面向大规模网络环境下的流量自动控制的方法。
背景技术
随着互联网带宽的增加和各种黑客工具的持续发布,DDoS攻击 变得更容易实现,并且DDoS攻击事件的发生正在呈上升趋势。由于 商业竞争,报复和在线勒索等各种因素,许多商业网站,网络游戏服 务器,聊天网络和其它网络服务提供商长期以来一直受到DDoS攻击 的困扰。据全球知名的内容交付网络服务提供商的报告所述,2014 年遭受的攻击流量超过100G。2016年的DDoS攻击包括针对Krebs 安全博客的620Gbps攻击和针对法国ISPOVH的1Tbps攻击。恶意 软件甚至可以感染物联网的设备进行传播,例如著名的物联网僵尸网 络Mirai,通过感染网络摄像头等物联网设备进行传播,曾经对Brian Krebs个人网站和法国网络服务商OVH发动DDoS攻击。
路由限制是一种分布式的流量限制方法。具体来说,为了防止服 务器处理通过全局网络到达的过多服务请求,在转发路径上安装限流 路由器,并要求它们在过量的流量达到服务器导致服务器崩溃之前, 将分组到达的流量调节到合适的水平。尽管以往取得了成功的结果, 但由于多种原因,多智能体路由限制方法仍然存在很多挑战。
多智能体路由流量控制,由于难以区分正常流量和恶意流量等多 种原因,不能直接采用线性规划(LP)进行求解。而直接进行策略 的学习难度较大,并且学到的策略与理想状态下LP的结果差距巨 大。如何缩短与LP的差距,已经成为急需解决的难题。
发明内容
1、本发明的目的
本发明的目的是针对多路由的流量控制问题,缩短现有方法与理 想的线性规划方法之间的差距,对于小规模的流量控制问题,提出了 基于经验的线性规划(ELP)方法,对于大规模的流量控制问题,提 出了基于分层的ELP(HELP)方法。
2、本发明所采用的技术方案
本发明提出了一种基于历史信息和分层强化学习的拒绝服务攻 击防护方法:
步骤1、基于经验的线性规划
每个限制路由器负责管理一片区域的终端,限制对应区域的终 端流量;限制路由器先从整个网络拓扑中获取状态信息,然后通过 ELP方法获取每个路由器的动作,这些动作将对网络拓扑环境产生影 响并从环境中获取一些奖励信息;
步骤2、基于经验的合法流量估算
收集经验数据,其中包含每个路由器的当前总流量Trouter和历史的 合法流量Hleg作为模型的输入,模型的输出为预期的合法流量
Figure BDA0002243609420000021
实际的合法流量
Figure BDA0002243609420000022
作为类别标签; 其中,
Figure BDA0002243609420000031
是时刻t第i个智能体包含的合法流量的大小,
Figure BDA0002243609420000032
是时刻t第i 个智能体估算的合法流量的大小;此处,历史的合法流量Hleg由公式 (1)更新,这里α∈(0,1)是更新率;
Figure BDA0002243609420000033
采用监督学习方法来学习基于历史经验数据的模型,模型参数为 θ,对于每个限制路由器,通过学习的SL模型获得估计的合法流量 Eleg,这个模型的目标是最小化预期的合法流量Eleg与实际的合法流量 Rleg的差距,如公式(2)所示;
Figure BDA0002243609420000034
步骤3、线性规划
采用LP方法事先估算出合法流量Eleg的大小,由于合法流量
Figure BDA0002243609420000035
是估算出来的,与实际的合法流量
Figure BDA0002243609420000036
之间存在一定差别,因此与理想结果之间也存在一定差距;线性规划 约束如公式(3)所示,
Figure BDA0002243609420000037
是时刻t第i个智能体估算的合法流量的大 小,
Figure BDA0002243609420000038
是第i个路由器的限制率,Us是服务器的上限;
Figure BDA0002243609420000039
每个路由器的总流量
Figure BDA00022436094200000310
和每个路由预期的合法流量
Figure BDA00022436094200000311
是LP 方法所需的数据;经过LP的处理后,可以得到每个路由器的流量限 制动作,每个限制路由器根据限制比例限制部分的流量,即每个限制 路由管理部分区域的终端的流量,这将对环境产生影响,环境将转变 到一个新的状态;这里LP的效果依赖于合法流量
Figure BDA0002243609420000041
估算的精度,Eleg与实际的合法流量Rleg越接近,最终的效果越好;
步骤4、分层通信
对于集中通信,定义通信延迟Pdelay的概率计算如公式(4)所示; 这里,
Figure BDA0002243609420000042
是路由器限制前的总流量,Us是服务器负载的上边 界;
Figure BDA0002243609420000043
步骤5、基于分层的ELP
将整个网络划分为几个小团队,每个团队也有一个中心节点,每 个团队的中心节点的通信压力会低于整个网络中的中心节点。
更进一步,ELP方法的具体流程为:限制路由器首先从环境中 获取状态信息,然后使用有监督的模型来估算每个路由器的预期合法 流量;每个路由器的预期合法流量和每个路由器的总流量将被收集在 一起,通过线性规划得到每个路由器的流量限制比例。
更进一步,步骤5、基于分层的ELP,将整个限制路由器分为两 个级别,第一级由几个团队组成,每个团队即第二级由几个限制路由 器组成;第一级基于每个团队的历史合法流量,每个团队的总流量, 服务器Us的上限,LP结果决定每个团队的上限
Figure BDA0002243609420000044
第二级,在每个 团队中,LP根据每个团队的上限
Figure BDA0002243609420000051
每个限制路由器的历史合法流 量Hleg,每个路由器的总流量Trouter,来决定每个路由器的限制比例; 基础的LP框架类似于前面;在这里,第一级中用于估算合法流量的 有监督模型和第二级的模型都是监督学习模型,用于估计团队中每个 团队的合法流量或每个限制路由器的合法流量Eleg
3、本发明所采用的有益效果
本发明对于小规模网络流量响应问题,本发明的基于经验 (Experience)的LP(ELP)策略比现有的一些策略(RL,SL,随机, 基于规则)好得多。本发明首先使用经验信息来估计合法流量,然后 采用线性规划(LP)进行计算以找到每个限制路由器的理想策略。对于大规模网络流量响应问题,本发明的基于层次(Hierarchical)结 构的ELP(HELP)策略可以减轻中心路由器的压力,并且可以实现 比直接ELP(中心节点与所有节点通信)更好的性能,对于实际的应 用具有一定的指导意义,可以有效减少DDoS流量的影响。
附图说明
图1为基于经验的线性规划框架;
图2为基于层次结构的ELP框架;
图3为基于OPNET仿真的网络环境的拓扑结构;
图4为分布式防御DDoS模型。
具体实施方式
下面结合本发明实例中的附图,对本发明实例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施 例,而不是全部的实施例。基于本发明的实施例,本领域技术人员在 没有做创造性劳动前提下所获得的所有其他实施例,都属于本发明的 保护范围。
下面将结合附图对本发明实例作进一步地详细描述。
本发明采用如下的技术方案:
(1)基于经验的线性规划
由于无法知道每个限制路由中的合法流量比例,因此对于给定的 网络环境,线性规划(LP)无法用于DDoS流量响应问题。如果本 发明可以先收集一些历史数据,那么本发明可以学习一个模型来估计 合法流量的大小,基于估计的合法流量就可以采用LP方法解决流量 控制问题。
本发明提出的基于经验的线性规划(Experience Linear Programming,ELP)框架如图2所示,图中每个限制路由器负责管 理一片区域的终端,可以限制对应区域的终端流量。限制路由器先从 环境(整个网络拓扑)中获取状态信息,然后通过ELP方法获取每 个路由器的动作,这些动作将对环境产生影响并从环境中获取一些奖 励信息。本发明的ELP方法的具体流程为:限制路由器首先从环境 中获取状态信息,然后使用有监督的模型来估算每个路由器的预期合 法流量;每个路由器的预期合法流量和每个路由器的总流量将被收集 在一起,通过线性规划得到每个路由器的流量限制比例。
(2)基于经验的合法流量估算
为了估计来自攻击流量的合法流量。本发明收集了一些经验数 据,其中包含每个路由器的当前总流量Trouter和历史的合法流量Hleg作 为模型的输入,模型的输出为预期的合法流量
Figure BDA0002243609420000071
实 际的合法流量
Figure BDA0002243609420000072
作为(类别标签)。其中,
Figure BDA0002243609420000073
是时刻t第 i个智能体包含的合法流量的大小,
Figure BDA0002243609420000074
是时刻t第i个智能体估算的合 法流量的大小。此处,历史的合法流量Hleg由公式(1)更新,这里 α∈(0,1)是更新率。
Figure BDA0002243609420000075
本发明采用监督学习(Supervised Learning,SL)方法来学习基 于历史经验数据的模型,模型参数为θ。对于每个限制路由器,本 发明可以通过学习的SL模型获得估计的合法流量Eleg,这个模型的目 标是最小化预期的合法流量Eleg与实际的合法流量Rleg的差距,如公式 (2)所示。
Figure BDA0002243609420000076
(3)线性规划
线性规划(Linear Programming,LP)问题是可以用来解决许多 应用的基本数学问题。由于本发明可以通过学习模型事先估算出合法 流量Eleg的大小,因此本发明可以采用LP方法进行问题的解决。由于 合法流量
Figure BDA0002243609420000077
是估算出来的,与实际的合法流量
Figure BDA0002243609420000078
之间存在一定差别,因此与理想结果之间也存在一 定差距。本发明的线性规划约束如公式(3)所示,
Figure BDA0002243609420000081
是时刻t第i个 智能体估算的合法流量的大小,
Figure BDA0002243609420000082
是第i个路由器的限制率,Us是服 务器的上限。
Figure BDA0002243609420000083
每个路由器的总流量
Figure BDA0002243609420000084
和每个路由预期的合法流量
Figure BDA0002243609420000085
是LP 方法所需的数据(此处,给出了服务器Us的上边界)。经过LP的处 理后,本发明可以得到每个路由器的流量限制动作,每个限制路由器 根据限制比例(从LP获取的动作)限制部分的流量(每个限制路由 管理部分区域的终端的流量),这将对环境产生影响,环境将转变到 一个新的状态。这里LP的效果依赖于合法流量
Figure BDA0002243609420000086
估 算的精度,Eleg与实际的合法流量Rleg越接近,最终的效果越好。
(4)分层通信
在现实的互联网环境中,可能存在大量的用户终端并需要更多的 限制路由器。对于大规模网络拓扑中的DDoS流量响应问题,基于中 心化的方法,中心节点的通信压力过高,这将导致通信延迟。对于集 中通信,本发明定义通信延迟Pdelay的概率计算如公式(4)所示。这 里,
Figure BDA0002243609420000087
是路由器限制前的总流量,Us是服务器负载的上边界。
Figure BDA0002243609420000088
通信延迟的出现可能使中心智能体难以做出准确的决定。当发生 通信延迟时,每个限制将具有Pdelay的概率不将其信息发送到中心节 点,一旦出现延时不发送信息,中心节点将使用先前时刻的信息作为 通信信息。当中心节点将限制比例(动作)发送给每个限制路由器时, 也会发生通信延迟。由于中心节点获得的状态信息和每个限制路由器 获得的动作在时间上并不同步,这可能会导致分布式的限制路由器在 应对DDoS流量时会出现混乱。
分层通信结构是对应对大规模网络通信延迟的一种较为合适的 方法。对于网络拓扑规模的扩大,中心节点的通信压力也会相应提 高。如果本发明可以将整个网络划分为几个小团队,每个团队也有一 个中心节点,每个团队的中心节点的通信压力会低于整个网络中的中 心节点。
(5)基于分层的ELP
本发明提出的基于层次(Hierarchical)的ELP(HELP)方法的 框架如图2所示,本发明将整个限制路由器分为两个级别,第一级由 几个团队组成,每个团队(第二级)由几个限制路由器组成。第一级 基于每个团队的历史合法流量,每个团队的总流量,服务器Us的上 限,LP结果决定每个团队的上限
Figure RE-GDA0002369354240000091
第二级,在每个团队中,LP根 据每个团队的上限
Figure RE-GDA0002369354240000092
每个限制路由器的历史合法流量Hleg,每个路 由器的总流量Trouter,来决定每个路由器的限制比例。基础的LP框架 类似于前面。在这里,第一级中用于估算合法流量的有监督模型 (Model)和第二级的模型(Model)都是监督学习模型,用于估计 团队中每个团队的合法流量或每个限制路由器的合法流量Eleg
本发明对于完整的信息输入(假设可以知道每个限制路由器的合 法信息),通过实验验证线性规划(LP)的方法优于监督学习(SL) 和强化学习(RL)的方法。对于部分信息输入(很多时候只知道每 个路由器的总流量信息,并不能知道合法流量的具体比例),实验验 证模仿学习(IL)无法从专家的演示(LP策略)中学习到理想的策 略。
实施例
本发明提出了一种分布式防御DDoS攻击的问题的方法,该方法 将线性规划与多智能体强化学习进行结合,克服多智能体路由限制方 法中存在的挑战(部分可见,多智能体的合作困境,难以区分正常流 量和恶意流量等多种原因)。能够快速分析出每个限制路由应该丢弃 的流量比例,从而保证服务器的正常工作,同时能够减少对正常用户 的影响。
本发明提出的分布式防御DDoS攻击的方法,其主要步骤如图1 所示,节流路由器(智能体,Agents)与网络环境(Environment)进 行交互,将交互的过程存储在内存(Memory)中,节流路由器从内 存中获取训练数据进行模型的学习更新,学到的模型可以直接用于 DDoS流量的限制:
以下结合附图和具体实施例对本发明作具体的介绍:
(1)实验数据
由于目前网上很难找到公开的用于DDoS流量控制的数据,为了 验证本发明提出的方法的有效性,本发明基于流行的网络环境模拟器 OPNE来仿真本发明的实验。实验中,本发明模拟的网络拓扑结构如 附图3所示。整个环境中共有27个节点,每个节点下包含4个限制 路由器(共108个限制路由)。这里,服务器位于中心位置处,以字 母A开头。这27个节点的规模不一样,图中有5个大型节点(包括 服务器节点A0)以字母B开头,12个中等规模节点以字母C开 头,10个小规模节点以字母D开头。这里每个规模的节点下面都包 含4个限制路由器,但不同规模节点下的限制路由器所管辖的区域规 模是不一样的。大规模节点下的每个限制路由限制3个用户单元,中 等规模节点下的限制路由限制2个用户单元,小规模节点下的限制路 由限制1个用户单元,每个用户单元包含相同数量的用户,每个用户 按照一定的分布产生随时间变化的合法流量数据。这里只是合法流量 的数据产生,攻击流量是另外加入。在本发明的实验中,聚合的合法 流量可能也会出现在短时间内超过服务器容量的情形。这里需要声明 并不是所有的拥塞都是由于攻击流量造成的(合法流量过多也会使得服务器崩溃),但是有了攻击流量,服务器更容易出现崩溃。具体来 说,本发明保持总合法流量占服务器总流量的70%-80%,总攻击流 量为服务器容量35%-45%。
(2)基准方法
本发明考虑将五个现有的基准方法(DDPG,BC,DAgger, GAIL,LP)与本发明的方法(ELP,HELP)进行比较。
深度确定性梯度下降(DDPG):DDPG是一种RL方法。假设有 一个中心智能体可以从其它限制智能体获取所有信息,中心智能体通 过DDPG学习策略。
行为克隆(BC):BC是一种监督学习方法,通过监督学习方法 从专家演示(在全局信息下,线性规划方法得到的理想策略结果)的 行为数据中学习策略。
数据增广(DAgger):DAgger算法主要用来解决行为克隆中固 有的缺点,也是模仿学习方法的一种。
生成对抗模仿学习(GAIL):GAIL允许智能体与环境交互并通 过RL方法学习策略,同时在训练期间改进奖励函数。因此,RL方 法是GAN框架中的生成器。该方法需要先拟合出奖励函数(在本发 明的问题中奖励函数是给定的),然后基于学到的奖励函数进行策略 的学习。
线性规划(LP):假设可以知道全局信息(上帝视角),则直接 进行LP求解就可以得到理想结果。假设只知道局部信息,但可以估 算出每个限制路由器的合法流量的比例,那么可以使用LP来找到解 决方案,此时的结果依赖于合法流量估算的准确度。
(3)实验分析
1)RQ1(全局信息下,LP是否比BC和RL更好)
对于完整的信息输入(假设可以知道合法流量信息,上帝视角), 线性规划(LP)的方法是否优于监督学习(SL)和强化学习(RL)方法?
实验中,每个节点有4个限制路由器(27个节点共有108个限 制路由器)。首先收集100个片段(每个片段由200个时间步组成) 作为DDPG和BC方法的训练数据。然后收集20的片段的数据作为 测试数据。这里的LP方法不需要训练过程,因此只需要比较测试阶 段的性能。
这里的全局信息指的是,输入数据的维度为217(由108个限制 路由器各自的路由流量大小,108个限制路由器的合法流量以及服务 器的上边界Us,输出维数为108(108个限制路由器的限制比例)。
中心化DDPG,BC和LP方法在测试阶段的比较结果如图3所 示,横轴是时间步长(20个片段,每个片段200个时间步,总共4000 个时间步),纵轴是合法的流量响应率(Legitimate Traffic Response Rate)。LP的性能在这些方法中是最好的,它可以被视为一种理想情 况下的最优策略,因为在现实中无法知道合法流量,因此LP不能直 接用于真实环境。并且中心化DDPG的效果优于BC,这是因为DDoS 流量响应问题是个时序的马尔科夫决策(MDP)问题,因此强化学 习方法(中心化DDPG)更适合于解决DDoS流量响应问题。因此,对于相同的完整信息,LP方法优于中心化DDPG(强化学习方法) 和BC(监督学习方法)。
在全局信息条件下,不同度量指标的中心化DDPG,BC和LP 的比较结果显示在表1中。线性规划(LP)是最理想的结果,其它 两个方法与LP有着较大的差距。在这里,中心化的DDPG的合法流 量响应率要优于BC,但队列长度却非常高,因此在全局信息下,中 心化DDPG的策略也不够理想。
表1在全局信息下不同方法的性能比较
Figure BDA0002243609420000141
实际上,无法获得217个维度输入数据,只能得到每个限制路由 器的108个总流量和服务器的上边界(总共109个维度的局部信息)。 想知道是否可以通过109维的部分状态信息来学习理想的策略。
2)RQ2(在部分信息条件下可否通过IL学到策略)
对于部分信息输入(假设只知道每个路由器的总流量信息,并且 不能知道合法信息),模仿学习(Imitation Learning,IL)是否可以从 专家(在全局信息条件写计算出的LP策略)的演示中学习理想的策略?
本发明收集了100个片段(每个片段由200个时间步组成)的 LP策略的结果(完整信息条件下的结果,即输入217维数据,输出 108维的策略结果)作为专家演示数据。模拟学习(IL)方法使用109 维输入数据(与217维的全局信息相比,这里的109维是部分信息, 217维和109维数据是同时产生,对应的108个限制路由的总流量信 息保持一致)和108维输出(这与LP计算得到的策略相同,可以将 其视为监督学习中的标签信息)。
模拟学习方法(BC,DAgger,GAIL)和LP的方法在测试阶段 的比较结果如图4所示,横轴是时间步长(20个片段,每个片段200 个时间步,总共4000个时间步),纵轴是合法的流量响应率。从图3 中可以看出,模仿学习的方法(Dagger,BC和GAIL)无法学习到 最优策略,和LP方法之间仍然存在着较大的差距。特别是GAIL方 法,效果更差,该方法失败的主要原因可能是它需要先学习奖励函 数,但奖励函数已经给出,并且学习的奖励函数可能不够准确,这导 致了最差的表现。DAgger的表现优于BC,这符合预期(Dagger方 法是为了克服BC的问题而提出的)。
在局部信息条件下,不同方法(DAgger,BC,GAIL和LP)的 比较结果显示在表2中。RQ2中BC的性能比RQ1差,这是因为RQ2 中的BC方法使用部分信息而在RQ1中使用完整的信息。
表2不同模仿学习与不同指标的比较
Figure BDA0002243609420000151
在局部信息条件下,LP方法依然是最优的,因为它具有第一章 的公式(1)的约束,因此LP计算的路由器限制比例可以使总流量Zt略低于上边界Us。对于那些基于学习的方法,这是一个多智能体问 题,每个智能体只知道自己的信息,因此所有智能体都很难做出决策使得总流量Zt略低于上边界Us。在局部信息条件下,模仿学习的方法 (DAgger,BC,GAIL)和LP方法之间仍然存在巨大的差距,但本 发明如何才能获得像LP这样的性能是一个需要解决的问题。
3)RQ3(可否缩小本发明方法与LP策略的差距)
为了缩小现有的方法与LP策略的差距,有两种可能的解决方 案。一种是首先估算合法流量,然后采用LP解决问题,即本发明提 出的基于经验的线性规划(ELP)方法;另一种是采用基于学习的方 法(例如中心化DDPG)来学习策略,然后根据总流量和服务器的上 边界Us的差值同等比例的修改所有限制路由器(智能体)的限制比例 (动作)。
对于小规模的DDoS流量响应问题,本发明的基于经验的LP (ELP)策略是否更好?为了进行比较,可以采用不同的方法来估计 合法流量的大小,估计的合法流量的准确性越高,越容易解决流量响 应问题。在这里,本发明将采用不同的方法来估计合法流量,它们是基于非学习的方法(基于随机估计Random和规则Rule),基于学习 的方法(基于监督学习SL或强化学习RL)。基于学习的方法有两种 决策模式,分别是集中决策(模型的输入输出是针对108个路由)和 分散决策(模型的输入输出是针对单个路由,所有路由共用一个模 型),每种方法用不同的随机种子运行10次取均值作为最终结果。
表3中比较了以上不同方法应对DDoS问题的有效性。这里本发 明还比较中心化DDPG方法(输入109维,每个限制路由器的108 个总流量和服务器的左边带宽)和DDPG_modify方法(基于限流后 的总流量Zt和服务器的上边界Us的差距来同比例的修改所有限制路 由器的动作。DDPG_modify的性能优于DDPG,特别是在队列长度 的性能方面,但它比BC_decentralize方法差很多。可以看出基于监督 学习的方法估算的合法流量的值更准确,本发明的ELP方法也确实 能够缩短与LP方法的差距。本发明可以看到分散决策的监督学习(BC_decentralize)方法表现最好,本发明将采用BC_decentralize方 法作为本发明的学习模型。
表3不同方法在小规模网络的不同指标的比较
Figure BDA0002243609420000171
4)RQ4(本发明的HELP策略是否可以应对大规模流量响应问 题)
对于大规模网络流量响应问题,所需的限制路由器数量远大于上 述问题(RQ1,RQ2,RQ3)。在这里,本发明模拟一个具有1080个 限制智能体的环境,其中限制智能体的数量是上述问题的10倍。
表4中显示了在大规模网络场景下,不同方法在不同度量指标下 的比较结果。可以看出HELP方法所需的时间远远小于ELP或 ELP-D,通过层次结构,本发明可以用更少的时间来获得类似的性 能。因此,分层结构对于大规模网络环境是必需的。
表4大规模网络中不同方法与不同指标的比较
Figure BDA0002243609420000172
Figure BDA0002243609420000181
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范 围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技 术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围 之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。

Claims (3)

1.基于历史信息和分层强化学习的拒绝服务攻击防护方法,其特征在于:
步骤1、基于经验的线性规划
基于经验的线性规划,每个限制路由器负责管理一片区域的终端,限制对应区域的终端流量;限制路由器先从整个网络拓扑中获取状态信息,然后通过ELP方法获取每个路由器的动作,这些动作将对网络拓扑环境产生影响并从环境中获取一些奖励信息;
步骤2、基于经验的合法流量估算
为了估计来自攻击流量的合法流量,收集经验数据,其中包含每个路由器的当前总流量Trouter和历史的合法流量Hleg作为模型的输入,模型的输出为预期的合法流量
Figure FDA0002243609410000011
实际的合法流量
Figure FDA0002243609410000012
作为类别标签;其中,
Figure FDA0002243609410000013
是时刻t第i个智能体包含的合法流量的大小,
Figure FDA0002243609410000014
是时刻t第i个智能体估算的合法流量的大小;此处,历史的合法流量Hleg由公式(1)更新,这里α∈(0,1)是更新率;
Figure FDA0002243609410000015
采用监督学习方法来学习基于历史经验数据的模型,模型参数为θ,对于每个限制路由器,通过学习的SL模型获得估计的合法流量Eleg,这个模型的目标是最小化预期的合法流量Eleg与实际的合法流量Rleg的差距,如公式(2)所示;
Figure FDA0002243609410000016
步骤3、线性规划
采用LP方法事先估算出合法流量Eleg的大小,由于合法流量
Figure FDA0002243609410000021
是估算出来的,与实际的合法流量
Figure FDA0002243609410000022
之间存在一定差别,因此与理想结果之间也存在一定差距;线性规划约束如公式(3)所示,
Figure FDA0002243609410000023
是时刻t第i个智能体估算的合法流量的大小,
Figure FDA0002243609410000024
是第i个路由器的限制率,Us是服务器的上限;
Figure FDA0002243609410000025
Figure FDA0002243609410000026
每个路由器的总流量
Figure FDA0002243609410000027
和每个路由预期的合法流量
Figure FDA0002243609410000028
是LP方法所需的数据;经过LP的处理后,可以得到每个路由器的流量限制动作,每个限制路由器根据限制比例限制部分的流量,即每个限制路由管理部分区域的终端的流量,这将对环境产生影响,环境将转变到一个新的状态;这里LP的效果依赖于合法流量
Figure FDA0002243609410000029
估算的精度,Eleg与实际的合法流量Rleg越接近,最终的效果越好;
步骤4、分层通信
对于集中通信,定义通信延迟Pdelay的概率计算如公式(4)所示;这里,
Figure FDA00022436094100000210
是路由器限制前的总流量,Us是服务器负载的上边界;
Figure FDA00022436094100000211
步骤5、基于分层的ELP
将整个网络划分为几个小团队,每个团队也有一个中心节点,每个团队的中心节点的通信压力会低于整个网络中的中心节点。
2.根据权利要求1所述的基于历史信息和分层强化学习的拒绝服务攻击防护方法,其特征在于:ELP方法的具体流程为:限制路由器首先从环境中获取状态信息,然后使用有监督的模型来估算每个路由器的预期合法流量;每个路由器的预期合法流量和每个路由器的总流量将被收集在一起,通过线性规划得到每个路由器的流量限制比例。
3.根据权利要求1所述的基于历史信息和分层强化学习的拒绝服务攻击防护方法,其特征在于:步骤5、基于分层的ELP,将整个限制路由器分为两个级别,第一级由几个团队组成,每个团队即第二级由几个限制路由器组成;第一级基于每个团队的历史合法流量,每个团队的总流量,服务器Us的上限,LP结果决定每个团队的上限
Figure FDA0002243609410000031
第二级,在每个团队中,LP根据每个团队的上限
Figure FDA0002243609410000032
每个限制路由器的历史合法流量Hleg,每个路由器的总流量Trouter,来决定每个路由器的限制比例;基础的LP框架类似于前面;在这里,第一级中用于估算合法流量的有监督模型和第二级的模型都是监督学习模型,用于估计团队中每个团队的合法流量或每个限制路由器的合法流量Eleg
CN201911008958.4A 2019-10-23 2019-10-23 基于历史信息和分层强化学习的拒绝服务攻击防护方法 Active CN110896360B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911008958.4A CN110896360B (zh) 2019-10-23 2019-10-23 基于历史信息和分层强化学习的拒绝服务攻击防护方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911008958.4A CN110896360B (zh) 2019-10-23 2019-10-23 基于历史信息和分层强化学习的拒绝服务攻击防护方法

Publications (2)

Publication Number Publication Date
CN110896360A true CN110896360A (zh) 2020-03-20
CN110896360B CN110896360B (zh) 2022-03-15

Family

ID=69785837

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911008958.4A Active CN110896360B (zh) 2019-10-23 2019-10-23 基于历史信息和分层强化学习的拒绝服务攻击防护方法

Country Status (1)

Country Link
CN (1) CN110896360B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112333110A (zh) * 2020-10-30 2021-02-05 深圳壹账通智能科技有限公司 基于漏斗限流模型的请求验证处理方法及相关设备
CN114785693A (zh) * 2022-06-24 2022-07-22 中国科学技术大学 基于分层强化学习的虚拟网络功能迁移方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160028750A1 (en) * 2014-07-23 2016-01-28 Cisco Technology, Inc. Signature creation for unknown attacks
WO2017154012A1 (en) * 2016-03-10 2017-09-14 Telefonaktibolaget Lm Ericsson (Publ) Ddos defence in a packet-switched network
CN109639515A (zh) * 2019-02-16 2019-04-16 北京工业大学 基于隐马尔可夫和Q学习协作的DDoS攻击检测方法
CN110011999A (zh) * 2019-03-29 2019-07-12 东北大学 基于深度学习的IPv6网络DDoS攻击检测系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160028750A1 (en) * 2014-07-23 2016-01-28 Cisco Technology, Inc. Signature creation for unknown attacks
WO2017154012A1 (en) * 2016-03-10 2017-09-14 Telefonaktibolaget Lm Ericsson (Publ) Ddos defence in a packet-switched network
CN109639515A (zh) * 2019-02-16 2019-04-16 北京工业大学 基于隐马尔可夫和Q学习协作的DDoS攻击检测方法
CN110011999A (zh) * 2019-03-29 2019-07-12 东北大学 基于深度学习的IPv6网络DDoS攻击检测系统及方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
E. C. AMADI; G.E.EHEDURU,F.U.EZE,C.IKERIONWU,K.C.OKAFO: ""Anti-DDoS firewall; A zero-sum mitigation game model for distributed denial of service attack using Linear programming"", 《 2017 IEEE 4TH INTERNATIONAL CONFERENCE ON KNOWLEDGE-BASED ENGINEERING AND INNOVATION (KBEI)》 *
E.C.AMADI,G.E.EHEDURU,F.U.EZE,C.IKERIONWU,H.O.AMUJI: ""A zero-sum mitigation game model for distributed denial of service attack using linear programming"", 《2017 IEEE 3RD INTERNATIONAL CONFERENCE ON ELECTRO-TECHNOLOGY FOR NATIONAL DEVELOPMENT (NIGERCON)》 *
刘自豪,张斌,祝宁,唐慧林: ""基于改进AP聚类算法的自学习应用层DDoS检测方法"", 《计算机研究与发展》 *
李传煌,吴艳,钱正哲,孙正君,王伟明: ""SDN下基于深度学习混合模型的DDoS攻击检测与防御"", 《通信学报》 *
李传煌,孙正君,袁小雍,李晓林,龚梁,王伟明: ""基于深度学习的实时DDoS攻击检测"", 《电信科学》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112333110A (zh) * 2020-10-30 2021-02-05 深圳壹账通智能科技有限公司 基于漏斗限流模型的请求验证处理方法及相关设备
CN114785693A (zh) * 2022-06-24 2022-07-22 中国科学技术大学 基于分层强化学习的虚拟网络功能迁移方法及装置
CN114785693B (zh) * 2022-06-24 2022-09-30 中国科学技术大学 基于分层强化学习的虚拟网络功能迁移方法及装置

Also Published As

Publication number Publication date
CN110896360B (zh) 2022-03-15

Similar Documents

Publication Publication Date Title
Hurley et al. HMM-based intrusion detection system for software defined networking
Duan et al. Efficient random route mutation considering flow and network constraints
Ferriol-Galmés et al. RouteNet-Fermi: Network modeling with graph neural networks
Sood et al. Alleviating heterogeneity in SDN-IoT networks to maintain QoS and enhance security
Backes et al. (Nothing else) MATor (s) monitoring the anonymity of Tor's path selection
CN110896360B (zh) 基于历史信息和分层强化学习的拒绝服务攻击防护方法
CN112749392A (zh) 一种联邦学习中异常节点的检测方法及系统
Dawood Graph theory and cyber security
Zhang et al. An intelligent route mutation mechanism against mixed attack based on security awareness
Saha et al. Learning network traffic dynamics using temporal point process
Darir et al. Mleflow: Learning from history to improve load balancing in tor
CN114095285A (zh) 一种利用自适应扰动抵御网络侦察的方法和系统
Nyberg et al. Cyber threat response using reinforcement learning in graph-based attack simulations
Li et al. The new threat to internet: DNP attack with the attacking flows strategizing technology
CN107454069B (zh) 基于as安全联盟的域间路由系统拟态防护方法
Lin et al. ACO-BTM: a behavior trust model in cloud computing environment
Darir et al. ProbFlow: Using Probabilistic Programming in Anonymous Communication Networks.
Seibert et al. Newton: securing virtual coordinates by enforcing physical laws
Abdurohman et al. Improving distributed denial of service (DDOS) detection using entropy method in software defined network (SDN)
Goohs et al. Adversarial Knapsack and Secondary Effects of Common Information for Cyber Operations
Castelli et al. Modeling the communication costs of content-based routing: the case of subscription forwarding
Koutiva et al. An Agent-Based Modelling approach to assess risk in Cyber-Physical Systems (CPS)
Huang et al. TNDP: Tensor-based network distance prediction with confidence intervals
Qi et al. Game-theoretic analysis for security of various software-defined networking (SDN) architectures
Mikhailenko et al. Analysis of the adaptive neural network router

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Pan Zhisong

Inventor after: Xia Shiming

Inventor after: Zhang Yanyan

Inventor after: Zhang Lei

Inventor after: Rao Rui

Inventor after: Bai Wei

Inventor after: Wang Chenyu

Inventor before: Xia Shiming

Inventor before: Pan Zhisong

Inventor before: Zhang Yanyan

Inventor before: Zhang Lei

Inventor before: Rao Rui

Inventor before: Bai Wei

Inventor before: Wang Chenyu

GR01 Patent grant
GR01 Patent grant