CN110602062B - 基于强化学习的网络主动防御方法及装置 - Google Patents

基于强化学习的网络主动防御方法及装置 Download PDF

Info

Publication number
CN110602062B
CN110602062B CN201910794323.5A CN201910794323A CN110602062B CN 110602062 B CN110602062 B CN 110602062B CN 201910794323 A CN201910794323 A CN 201910794323A CN 110602062 B CN110602062 B CN 110602062B
Authority
CN
China
Prior art keywords
network security
network
defense
value
reinforcement learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910794323.5A
Other languages
English (en)
Other versions
CN110602062A (zh
Inventor
许长桥
杨树杰
张焘
苏盘社
张寅�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Beijing Armyfly Technology Co Ltd
Original Assignee
Beijing University of Posts and Telecommunications
Beijing Armyfly Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications, Beijing Armyfly Technology Co Ltd filed Critical Beijing University of Posts and Telecommunications
Priority to CN201910794323.5A priority Critical patent/CN110602062B/zh
Publication of CN110602062A publication Critical patent/CN110602062A/zh
Application granted granted Critical
Publication of CN110602062B publication Critical patent/CN110602062B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/20Hop count for routing purposes, e.g. TTL
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic

Abstract

本发明实施例提供一种基于强化学习的网络主动防御方法及装置,所述方法包括:感知网络安全态势值,所述网络安全态势值用于衡量网络安全态势的变化趋势;将所述网络安全态势值,输入至预设的自适应跳变周期调整算法模型,确定最佳的路由跳变周期。本发明实施例提供的基于强化学习的网络主动防御方法及装置,运用博弈理论,提出一种新颖的网络安全态势感知模型,可以准确感知网络安全态势的变化趋势,提升了网络的防御性能。

Description

基于强化学习的网络主动防御方法及装置
技术领域
本发明涉及网络安全技术领域,尤其涉及一种基于强化学习的网络主动防御方法及装置。
背景技术
面对日益普遍的网络威胁(例如分布式拒绝服务(DDoS)和窃听),网络安全对于服务可用性和服务质量(QoS)都至关重要。但是传统静态网络防御方法总是需要检测攻击行为,因此它们这些方法在成本、时间和信息收集等方面都存在着明显缺陷。例如,当前的DDoS防御方法试图通过过滤掉恶意流量来达到防御的效果,但是交火攻击的攻击行为是非常隐秘的,现有防御方法无法有效区分良性流量和恶意流量。相反,攻击者几乎拥有无限时间收集相关信息,构建攻击方案并最终发起攻击行为。
为了应对静态网络防御方法这种严重的固有缺陷,网络动目标防御(NMTD)作为一种主动防御方法,通过调整网络参数、网络身份标识或资源分配机制,从而能够达到主动躲避攻击的效果。其中,因为路由是一个非常重要的保护对象,近年来已经提出了一些路由跳变的方法来实现主动防御。路由跳变旨在通过定期更改路由来避免不同类型的攻击。事实上,变异路由的动态性和不可预测性可以在很大程度上使攻击者的先验知识无效化。但基于目前对路径跳变的研究,还存在三个亟待解决的主要问题。第一个是大多数的路径跳变方法仅针对特定攻击;其次,在以前的研究中,防御者无法学习到攻击者的攻击策略;最后,大多数路由跳变方法不具有在不同网络安全态势下的自适应能力。因此,目前的方法难以最大化路由跳变方法的防御效果。
发明内容
本发明实施例提供一种基于强化学习的网络主动防御方法及装置,用于解决现有技术中路由跳变方法的防御效果差的技术问题。
为了解决上述技术问题,一方面,本发明实施例提供一种基于强化学习的网络主动防御方法,包括:
感知网络安全态势值,所述网络安全态势值用于衡量网络安全态势的变化趋势;
将所述网络安全态势值,输入至预设的自适应跳变周期调整算法模型,确定最佳的路由跳变周期。
进一步地,所述感知网络安全态势值,具体包括:
获取攻击者的攻击收益,以及防御者的防御收益;
根据所述攻击收益和所述防御收益,计算所述网络安全态势值。
进一步地,所述确定最佳的路由跳变周期之后,还包括:
将所述网络安全态势值、网络状态数量、潜在的跳变路由数量,以及折扣因子,输入至预设的强化学习算法模型,输出防御者的最优路由跳变矩阵。
进一步地,所述强化学习算法模型的目标是收敛到最优动作价值函数;
所述强化学习算法模型的约束条件包括:入侵检测系统约束、容量约束和服务质量约束。
进一步地,在输出防御者的最优路由跳变矩阵的过程中,根据所述网络安全态势值动态调整强化学习速率。
进一步地,所述强化学习算法模型为Q-learning算法模型或者深度Q-Learning算法模型。
另一方面,本发明实施例提供一种基于强化学习的网络主动防御装置,包括:
感知模块,用于感知网络安全态势值,所述网络安全态势值用于衡量网络安全态势的变化趋势;
路由跳变周期决策模块,用于将所述网络安全态势值,输入至预设的自适应跳变周期调整算法模型,确定最佳的路由跳变周期。
进一步地,还包括路由跳变矩阵决策模块;
所述路由跳变矩阵决策模块用于将所述网络安全态势值、网络状态数量、潜在的跳变路由数量,以及折扣因子,输入至预设的强化学习算法模型,输出防御者的最优路由跳变矩阵。
再一方面,本发明实施例提供一种电子设备,包括:存储器、处理器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述方法的步骤。
又一方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被处理器执行时,实现上述方法的步骤。
本发明实施例提供的基于强化学习的网络主动防御方法及装置,运用博弈理论,提出一种新颖的网络安全态势感知模型,可以准确感知网络安全态势的变化趋势,提升了网络的防御性能。
附图说明
图1为本发明实施例提供的基于强化学习的网络主动防御方法示意图;
图2为本发明实施例提供的路由跳变系统框图;
图3为本发明实施例提供的安全感知的强化学习过程示意图;
图4为本发明实施例提供的基于强化学习的网络主动防御装置示意图;
图5为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为了使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
攻击策略识别和最优防御策略选择的自动化对于最大化系统防御效率和网络的主动防御是必要的。强化学习(RL)的基本思想是通过最大化智能体从环境中获得的累积奖励值来学习目标的最佳策略。本质上,强化学习的方法更侧重于学习解决问题的策略。因此,可以利用强化学习的技术优势来解决现有路由跳变方法中的缺陷和不足。
强化学习与路由跳变的主动防御方法结合具有重要的研究价值。在本专利中,考虑将强化学习算法应用到路由跳变方法中,使防御者能够给自主学习到攻击者的攻击策略,从而进行最优防御策略选择,最大化主动防御方法的防御性能,此外,进一步提出了一种网络安全态势感知的算法和一种路由跳变周期自适应算法来降低路由跳变所带来的网络消耗与管理消耗,从而增加路由跳变主动防御方法的适用性。
图1为本发明实施例提供的基于强化学习的网络主动防御方法示意图,如图1所示,本发明实施例提供一种基于强化学习的网络主动防御方法,其执行主体为基于强化学习的网络主动防御装置,该方法包括:
步骤S101、感知网络安全态势值,所述网络安全态势值用于衡量网络安全态势的变化趋势。
具体来说,网络安全态势感知的步骤包括:
1)数据采集:通过各种检测工具,对各种影响系统安全性的要素进行检测采集获取,这一步是态势感知的前提。
2)态势理解:对各种网络安全要素数据进行分类、归并、关联分析等手段进行处理融合,对融合的信息进行综合分析,得出影响网络的整体安全状况,这一步是态势感知基础。
3)态势评估:定性、定量分析网络当前的安全状态和薄弱环节,并给出相应的应对措施,这一步是态势感知的核心。
4)态势预测:通过对态势评估输出的数据,预测网络安全状况的发展趋势,这一步是态势感知的目标。
本发明实施例通过感知网络安全态势值,以网络安全态势值衡量网络安全态势的变化趋势。
步骤S102、将所述网络安全态势值,输入至预设的自适应跳变周期调整算法模型,确定最佳的路由跳变周期。
具体来说,路由跳变预先使得网络拓扑存在多种组成方式和连接关系(即存在备选连接),将网络中的拓扑以及节点之间的连接关系按照一定的规则(跳变策略)进行动态的变化,使得渗透者的渗透路径在一段时间后即会发生变化,从而导致先前收集的信息失效过期,理论上可极大地降低渗透的成功率。但频繁的路由跳变会导致网络资源与管理资源的巨大消耗,使得路由跳变的主动防御方法难以在真实网络环境中大规模部署。
本发明实施例将网络安全态势值,输入至预设的自适应跳变周期调整算法模型,确定最佳的路由跳变周期。
进一步提出一种自适应的跳变周期调整算法,通过安全态势感知,有效降低路由跳变的网络资源消耗和管理消耗,大幅提升路由主动防御方法的可用性。该自适应的跳变周期调整算法能够基于安全态势值动态调整跳变周期,从而大幅降低资源开销,显著增加路由跳变的主动防御方法的适用性。
自适应的跳变周期调整算法的详细伪代码如下:
Figure BDA0002180479760000051
Figure BDA0002180479760000061
本发明实施例提供的基于强化学习的网络主动防御方法,运用博弈理论,提出一种新颖的网络安全态势感知模型,可以准确感知网络安全态势的变化趋势,提升了网络的防御性能。
基于上述任一实施例,进一步地,所述感知网络安全态势值,具体包括:
获取攻击者的攻击收益,以及防御者的防御收益;
根据所述攻击收益和所述防御收益,计算所述网络安全态势值。
具体来说,图2为本发明实施例提供的路由跳变系统框图,如图2所示,攻击者和防御者之间的交互可以被建模为随机博弈,其被描述为四元组
Figure BDA0002180479760000062
攻击者攻击不同的节点需要付出不同的代价,同时如果攻击者攻击成功,将会获得相应的攻击收益。定义攻击消耗为
Figure BDA0002180479760000063
Figure BDA0002180479760000064
攻击收益为
Figure BDA0002180479760000065
防御者采取路由跳变具有相应的消耗,定义防御者的消耗函数为Cdefense,用公式表示如下:
Figure BDA0002180479760000066
其中,Cdefense表示防御者的消耗函数,μ表示跳变消耗系数,Bf(t)表示t时刻路由节点被选择的情况,Bf(t+1)表示t+1时刻路由节点被选择的情况,d[.]表示两个向量距离的计算公式。
Figure BDA0002180479760000067
表示t+1时刻路由节点i是否被选入数据流f的路径中,
Figure BDA0002180479760000068
表示t时刻路由节点i是否被选入数据流f的路径中,n表示路由节点的总数量。
如果防御者选择的路由没有被攻击中,则防御者会具有一定的奖励,被定义为
Figure BDA0002180479760000069
同时定义网络安全矩阵为NSi×j,用公式表示如下:
Figure BDA00021804797600000610
其中,NSi×j表示网络安全矩阵,nsij表示网络安全矩阵中的第i行第j列的元素,
Figure BDA0002180479760000071
表示第j列所代表的路由节点被攻击者命中的攻击收益,rj d表示第j列所代表的路由节点防御成功获得的防御奖励,i表示过去的k个时隙。因此当前网络安全值V用公式表示如下:
Figure BDA0002180479760000072
其中,V表示当前网络安全值,k表示时隙,n表示网络中的节点数,m表示每个时隙被攻击的节点。nsij表示网络安全矩阵中的第i行第j列的元素,
Figure BDA0002180479760000073
表示第j列所代表的路由节点被攻击者命中的攻击消耗,Cdefense表示防御者的防御消耗。
用网络安全值的导数表示安全态势值K,用公式表示如下:
Figure BDA0002180479760000074
其中,K表示安全态势值,V′(t0)表示在t0时刻当前网络安全值的导数值。
当K=0时,攻防对抗中的收益与消耗相持平;当K>0时,攻击者占据优势;当K<0时,防御者占据优势。
本发明实施例提供的基于强化学习的网络主动防御方法,运用博弈理论,提出一种新颖的网络安全态势感知模型,可以准确感知网络安全态势的变化趋势,提升了网络的防御性能。
基于上述任一实施例,进一步地,所述确定最佳的路由跳变周期之后,还包括:
将所述网络安全态势值、网络状态数量、潜在的跳变路由数量,以及折扣因子,输入至预设的强化学习算法模型,输出防御者的最优路由跳变矩阵。
基于上述任一实施例,进一步地,在输出防御者的最优路由跳变矩阵的过程中,根据所述网络安全态势值动态调整强化学习速率。
基于上述任一实施例,进一步地,所述强化学习算法模型为Q-learning算法模型或者深度Q-Learning算法模型。
具体来说,图3为本发明实施例提供的安全感知的强化学习过程示意图,如图3所示,攻击者在每个时刻所采用的攻击策略对防御者而言都是未知且不可预测的。基于此,拟采用强化学习中的Q-learning算法或者深度Q-Learning算法对攻击者的行为策略进行学习,从而实现能够在备选路径跳变集合中挑选最优路径。在Q-learning算法中,动作价值函数和更新过程表示如下:
Figure BDA0002180479760000081
Qt+1(st,at)=Qt(st,at)+αδ
其中,δ表示TD-误差,Rt+1表示t+1时刻的反馈,γ表示折扣因子Qt表示在t时间步的动作价值函数,α表示强化学习设置的学习速率。Q-learning算法以概率1收敛到最优动作价值函数Q*,因此Q-learning算法最终能够挑选出最优路径。进一步根据安全态势感知模型获得的安全态势值,动态调整学习速率加速强化学习,其中学习速率函数α用公式表示如下:
Figure BDA0002180479760000082
其中,α(K,τ)表示由网络安全态势值与时间因子共同决定的学习速率,K是感知到的当前网络安全态势值,τ是时间因子,其值每经过固定个数的时隙后增加1。
上述流程的详细伪代码如算法2所示:
Figure BDA0002180479760000083
Figure BDA0002180479760000091
本发明实施例提出一种基于强化学习的路由跳变方法,使防御者能够给自主学习到攻击者的攻击策略,从而进行最优防御策略选择,最大化主动防御方法的防御性能。
通过改造Q-learning算法,创新性地提出一种基于强化学习的路由跳变方法,能够根据网络安全态势,动态调整学习速率,加快算法收敛速度。
本发明实施例提供的基于强化学习的网络主动防御方法,运用博弈理论,提出一种新颖的网络安全态势感知模型,可以准确感知网络安全态势的变化趋势,提升了网络的防御性能。
基于上述任一实施例,进一步地,所述强化学习算法模型的目标是收敛到最优动作价值函数;
所述强化学习算法模型的约束条件包括:入侵检测系统约束、容量约束和服务质量约束。
具体来说,网络通常可以建模成无向连通图模型G=(V,E),其中V代表网络中的节点,E代表节点间的链路。定义一个多维向量
Figure BDA0002180479760000092
Figure BDA0002180479760000093
表示一条数据流当前所处路由的选择状态,
Figure BDA0002180479760000094
是一个布尔型变量,表示如果数据流f中的节点i在时隙t时被路由选中,bi的值等于1,否则等于0。对一条从源节点S到目的节点D的数据流依据性能约束建立模型从而能够备选路由跳变的空间:
(1)入侵检测系统约束
存在一些关键节点拥有入侵检测系统,意味着一条数据流必须至少经过这些节点中的一个,将入侵检测系统约束写成可满足性模块理论(SMT)的形式:
(bi=1)∧…∧(bj=1)
其中,bi与bj表示具有入侵检系统的节点。
(2)容量约束
备选的跳变节点不能够包含那些没有额外带宽的节点或者链路,其SMT表达式为:
Figure BDA0002180479760000101
其中,
Figure BDA0002180479760000102
表示节点i的最大容量,n表示网络中路由节点的总数量,
Figure BDA0002180479760000103
表示路由节点i是否被选入数据流fj的路径中,ci(j)表示数据流j在节点i所需要的容量,
Figure BDA0002180479760000104
表示节点i的最小门限。ci(j)可以被定义为:
Figure BDA0002180479760000105
其中,ci(j)表示数据流j在节点i所需要的容量,Ci表示节点i剩余的容量,
Figure BDA00021804797600001010
表示一个通常被设置为2n的参数,n表示节点总数。
(3)服务质量约束
跳变路由需要满足一些用户服务质量需求,例如传输时延、最大跳数等。传输时延的SMT表达式为:
Figure BDA0002180479760000106
其中,n表示路由节点的总数量,
Figure BDA0002180479760000107
表示路由节点i是否被选入数据流f的路径中,
Figure BDA0002180479760000108
表示路由节点j是否被选入数据流f的路径中,
Figure BDA0002180479760000109
表示设定的时延阈值,m表示节点i周围邻居节点的数量,Dforward表示节点的转发时延,Dtransmission表示节点的传输时延。路由最大跳数的SMT表达式为:
Figure BDA0002180479760000111
其中,n表示路由节点的总数量,
Figure BDA0002180479760000112
表示路由节点i是否被选入数据流f的路径中,εth表示设定的路由跳数阈值,这意味着路由的最大跳数需要小于门限值εth
本发明实施例提供的基于强化学习的网络主动防御方法,运用博弈理论,提出一种新颖的网络安全态势感知模型,可以准确感知网络安全态势的变化趋势,提升了网络的防御性能。
基于上述任一实施例,图4为本发明实施例提供的基于强化学习的网络主动防御装置示意图,如图4所示,本发明实施例提供一种基于强化学习的网络主动防御装置,包括感知模块401和路由跳变周期决策模块402,其中:
感知模块401用于感知网络安全态势值,所述网络安全态势值用于衡量网络安全态势的变化趋势。
路由跳变周期决策模块402用于将所述网络安全态势值,输入至预设的自适应跳变周期调整算法模型,确定最佳的路由跳变周期。
基于上述任一实施例,进一步地,还包括路由跳变矩阵决策模块;
所述路由跳变矩阵决策模块用于将所述网络安全态势值、网络状态数量、潜在的跳变路由数量,以及折扣因子,输入至预设的强化学习算法模型,输出防御者的最优路由跳变矩阵。
本发明实施例提供一种基于强化学习的网络主动防御装置,用于执行上述任一实施例中所述的方法,通过本实施例提供的装置执行上述某一实施例中所述的方法的具体步骤与上述相应实施例相同,此处不再赘述。
本发明实施例提供的基于强化学习的网络主动防御装置,运用博弈理论,提出一种新颖的网络安全态势感知模型,可以准确感知网络安全态势的变化趋势,提升了网络的防御性能。使防御者能够给自主学习到攻击者的攻击策略,从而进行最优防御策略选择,最大化主动防御方法的防御性能。能够根据网络安全态势,动态调整学习速率,加快算法收敛速度。
图5为本发明实施例提供的电子设备的结构示意图,如图5所示,所述设备包括:处理器(processor)501、存储器(memory)502、总线503,以及存储在存储器上并可在处理器上运行的计算机程序。
其中,处理器501和存储器502通过总线503完成相互间的通信;
处理器501用于调用并执行存储器502中的计算机程序,以执行上述各方法实施例中的步骤,例如包括:
感知网络安全态势值,所述网络安全态势值用于衡量网络安全态势的变化趋势;
将所述网络安全态势值,输入至预设的自适应跳变周期调整算法模型,确定最佳的路由跳变周期。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例中的步骤,例如包括:
感知网络安全态势值,所述网络安全态势值用于衡量网络安全态势的变化趋势;
将所述网络安全态势值,输入至预设的自适应跳变周期调整算法模型,确定最佳的路由跳变周期。
本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被处理器执行时,实现上述各方法实施例中的步骤,例如包括:
感知网络安全态势值,所述网络安全态势值用于衡量网络安全态势的变化趋势;
将所述网络安全态势值,输入至预设的自适应跳变周期调整算法模型,确定最佳的路由跳变周期。
以上所描述的装置及设备等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种基于强化学习的网络主动防御方法,其特征在于,包括:
感知网络安全态势值,所述网络安全态势值用于衡量网络安全态势的变化趋势;
将所述网络安全态势值,输入至预设的自适应跳变周期调整算法模型,确定最佳的路由跳变周期;
所述感知网络安全态势值,具体包括:
获取攻击者的攻击收益,以及防御者的防御收益;
根据所述攻击收益和所述防御收益,计算所述网络安全态势值;
攻击者和防御者之间的交互被建模为随机博弈,其被描述为四元组
Figure FDA0002731417040000011
攻击者攻击不同的节点需要付出不同的代价,同时如果攻击者攻击成功,将会获得相应的攻击收益;定义攻击消耗为
Figure FDA0002731417040000012
Figure FDA0002731417040000013
攻击收益为
Figure FDA0002731417040000014
防御者采取路由跳变具有相应的消耗,定义防御者的消耗函数为Cdefense,用公式表示如下:
Figure FDA0002731417040000015
其中,Cdefense表示防御者的消耗函数,μ表示跳变消耗系数,Bf(t)表示t时刻路由节点被选择的情况,Bf(t+1)表示t+1时刻路由节点被选择的情况,d[.]表示两个向量距离的计算公式;
Figure FDA0002731417040000016
表示t+1时刻路由节点i是否被选入数据流f的路径中,
Figure FDA0002731417040000017
表示t时刻路由节点i是否被选入数据流f的路径中,n表示路由节点的总数量;
如果防御者选择的路由没有被攻击中,则防御者会具有一定的奖励,被定义为
Figure FDA0002731417040000018
同时定义网络安全矩阵为NSi×j,用公式表示如下:
Figure FDA0002731417040000019
其中,NSi×j表示网络安全矩阵,nsij表示网络安全矩阵中的第i行第j列的元素,
Figure FDA0002731417040000021
表示第j列所代表的路由节点被攻击者命中的攻击收益,
Figure FDA0002731417040000022
表示第j列所代表的路由节点防御成功获得的防御奖励,i表示过去的k个时隙;因此当前网络安全值V用公式表示如下:
Figure FDA0002731417040000023
其中,V表示当前网络安全值,k表示时隙,n表示网络中的节点数,m表示每个时隙被攻击的节点;nsij表示网络安全矩阵中的第i行第j列的元素,
Figure FDA0002731417040000024
表示第j列所代表的路由节点被攻击者命中的攻击消耗,Cdefense表示防御者的防御消耗;
用网络安全值的导数表示安全态势值K,用公式表示如下:
Figure FDA0002731417040000025
其中,K表示安全态势值,V′(t0)表示在t0时刻当前网络安全值的导数值。
2.根据权利要求1所述的基于强化学习的网络主动防御方法,其特征在于,所述确定最佳的路由跳变周期之后,还包括:
将所述网络安全态势值、网络状态数量、潜在的跳变路由数量,以及折扣因子,输入至预设的强化学习算法模型,输出防御者的最优路由跳变矩阵。
3.根据权利要求2所述的基于强化学习的网络主动防御方法,其特征在于,所述强化学习算法模型的目标是收敛到最优动作价值函数;
所述强化学习算法模型的约束条件包括:入侵检测系统约束、容量约束和服务质量约束。
4.根据权利要求2所述的基于强化学习的网络主动防御方法,其特征在于,在输出防御者的最优路由跳变矩阵的过程中,根据所述网络安全态势值动态调整强化学习速率。
5.根据权利要求2所述的基于强化学习的网络主动防御方法,其特征在于,所述强化学习算法模型为Q-learning算法模型或者深度Q-Learning算法模型。
6.一种基于强化学习的网络主动防御装置,其特征在于,包括:
感知模块,用于感知网络安全态势值,所述网络安全态势值用于衡量网络安全态势的变化趋势;
路由跳变周期决策模块,用于将所述网络安全态势值,输入至预设的自适应跳变周期调整算法模型,确定最佳的路由跳变周期;
所述感知网络安全态势值,具体包括:
获取攻击者的攻击收益,以及防御者的防御收益;
根据所述攻击收益和所述防御收益,计算所述网络安全态势值;
攻击者和防御者之间的交互被建模为随机博弈,其被描述为四元组
Figure FDA0002731417040000031
攻击者攻击不同的节点需要付出不同的代价,同时如果攻击者攻击成功,将会获得相应的攻击收益;定义攻击消耗为
Figure FDA0002731417040000032
Figure FDA0002731417040000033
攻击收益为
Figure FDA0002731417040000034
防御者采取路由跳变具有相应的消耗,定义防御者的消耗函数为Cdefense,用公式表示如下:
Figure FDA0002731417040000035
其中,Cdefense表示防御者的消耗函数,μ表示跳变消耗系数,Bf(t)表示t时刻路由节点被选择的情况,Bf(t+1)表示t+1时刻路由节点被选择的情况,d[.]表示两个向量距离的计算公式;
Figure FDA0002731417040000036
表示t+1时刻路由节点i是否被选入数据流f的路径中,
Figure FDA0002731417040000037
表示t时刻路由节点i是否被选入数据流f的路径中,n表示路由节点的总数量;
如果防御者选择的路由没有被攻击中,则防御者会具有一定的奖励,被定义为
Figure FDA0002731417040000038
同时定义网络安全矩阵为NSi×j,用公式表示如下:
Figure FDA0002731417040000041
其中,NSi×j表示网络安全矩阵,nsij表示网络安全矩阵中的第i行第j列的元素,
Figure FDA0002731417040000042
表示第j列所代表的路由节点被攻击者命中的攻击收益,
Figure FDA0002731417040000043
表示第j列所代表的路由节点防御成功获得的防御奖励,i表示过去的k个时隙;因此当前网络安全值V用公式表示如下:
Figure FDA0002731417040000044
其中,V表示当前网络安全值,k表示时隙,n表示网络中的节点数,m表示每个时隙被攻击的节点;nsij表示网络安全矩阵中的第i行第j列的元素,
Figure FDA0002731417040000045
表示第j列所代表的路由节点被攻击者命中的攻击消耗,Cdefense表示防御者的防御消耗;
用网络安全值的导数表示安全态势值K,用公式表示如下:
Figure FDA0002731417040000046
其中,K表示安全态势值,V′(t0)表示在t0时刻当前网络安全值的导数值。
7.根据权利要求6所述的基于强化学习的网络主动防御装置,其特征在于,还包括路由跳变矩阵决策模块;
所述路由跳变矩阵决策模块用于将所述网络安全态势值、网络状态数量、潜在的跳变路由数量,以及折扣因子,输入至预设的强化学习算法模型,输出防御者的最优路由跳变矩阵。
8.一种电子设备,包括存储器、处理器,以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如权利要求1至5任一项所述基于强化学习的网络主动防御方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序被处理器执行时,实现如权利要求1至5任一所述基于强化学习的网络主动防御方法的步骤。
CN201910794323.5A 2019-08-27 2019-08-27 基于强化学习的网络主动防御方法及装置 Active CN110602062B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910794323.5A CN110602062B (zh) 2019-08-27 2019-08-27 基于强化学习的网络主动防御方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910794323.5A CN110602062B (zh) 2019-08-27 2019-08-27 基于强化学习的网络主动防御方法及装置

Publications (2)

Publication Number Publication Date
CN110602062A CN110602062A (zh) 2019-12-20
CN110602062B true CN110602062B (zh) 2020-12-25

Family

ID=68855787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910794323.5A Active CN110602062B (zh) 2019-08-27 2019-08-27 基于强化学习的网络主动防御方法及装置

Country Status (1)

Country Link
CN (1) CN110602062B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112839042B (zh) * 2021-01-08 2021-11-23 北京虹信万达科技有限公司 一种基于信息系统网络安全的态势感知系统
CN113904937B (zh) * 2021-12-06 2022-03-29 北京邮电大学 一种服务功能链迁移方法、装置、电子设备及存储介质
CN115102790B (zh) * 2022-08-24 2022-12-20 珠海市鸿瑞信息技术股份有限公司 基于大数据的网络流量异常感知系统及方法
CN116389075B (zh) * 2023-03-08 2023-10-20 安芯网盾(北京)科技有限公司 一种主机攻击行为动态拦截方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109981686A (zh) * 2019-04-15 2019-07-05 广东电网有限责任公司 一种基于循环对抗的网络安全态势感知方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170140953A (ko) * 2016-06-14 2017-12-22 한국전자통신연구원 소프트웨어 정의망 기반의 랜덤 경로 설정 장치 및 방법
CN109327427A (zh) * 2018-05-16 2019-02-12 中国人民解放军战略支援部队信息工程大学 一种面对未知威胁的动态网络变化决策方法及其系统
CN109379322A (zh) * 2018-05-16 2019-02-22 中国人民解放军战略支援部队信息工程大学 一种完全信息条件下网络动态变换的决策方法及其系统
CN108833285A (zh) * 2018-06-08 2018-11-16 浙江捷尚人工智能研究发展有限公司 网络移动目标防御方法、电子设备、存储介质及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109981686A (zh) * 2019-04-15 2019-07-05 广东电网有限责任公司 一种基于循环对抗的网络安全态势感知方法及系统

Also Published As

Publication number Publication date
CN110602062A (zh) 2019-12-20

Similar Documents

Publication Publication Date Title
CN110602062B (zh) 基于强化学习的网络主动防御方法及装置
Dahiya et al. A reputation score policy and Bayesian game theory based incentivized mechanism for DDoS attacks mitigation and cyber defense
Rathore et al. BlockSecIoTNet: Blockchain-based decentralized security architecture for IoT network
Shamshirband et al. Cooperative game theoretic approach using fuzzy Q-learning for detecting and preventing intrusions in wireless sensor networks
Guillen et al. Security countermeasures of a SCIRAS model for advanced malware propagation
US8275899B2 (en) Methods, devices and computer program products for regulating network activity using a subscriber scoring system
CN110602047B (zh) 面向网络攻防的多步攻击动态防御决策选取方法及系统
Balarezo et al. A survey on DoS/DDoS attacks mathematical modelling for traditional, SDN and virtual networks
Sherazi et al. DDoS attack detection: A key enabler for sustainable communication in internet of vehicles
CN104836702A (zh) 一种大流量环境下主机网络异常行为检测及分类方法
CN108701260B (zh) 用于辅助决策的系统和方法
Zhou et al. Cost-effective moving target defense against DDoS attacks using trilateral game and multi-objective Markov decision processes
KR102117696B1 (ko) 게임 이론을 이용한 보안 취약점 정량화 방법 및 장치
CN112491803A (zh) 拟态waf中执行体的裁决方法
Zolotukhin et al. On artificial intelligent malware tolerant networking for IoT
CN110290122B (zh) 入侵响应策略生成方法及装置
Celdrán et al. Cyberspec: Intelligent behavioral fingerprinting to detect attacks on crowdsensing spectrum sensors
Radoglou-Grammatikis et al. Strategic honeypot deployment in ultra-dense beyond 5g networks: A reinforcement learning approach
Chen et al. Use of MARKOV Chain for Early Detecting DDoS Attacks
Arulselvan et al. Hybrid trust-based secure routing protocol for detection of routing attacks in environment monitoring over MANETs
Kabdjou et al. Cyber Deception System based on Monte Carlo Simulation in the Mobile Edge Computing (MEC)
Xia et al. DDoS Traffic Control Using Transfer Learning DQN With Structure Information
Rathore et al. Review of game theory approaches for DDoS mitigation by SDN
Liu et al. Modeling and analysis of the decentralized interactive cyber defense approach
Girma et al. The Design, Data Flow Architecture, and Methodologies for a Newly Researched Comprehensive Hybrid Model for the Detection of DDoS Attacks on Cloud Computing Environment

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant