CN107277065A - 基于强化学习的检测高级持续威胁的资源调度方法 - Google Patents

基于强化学习的检测高级持续威胁的资源调度方法 Download PDF

Info

Publication number
CN107277065A
CN107277065A CN201710684939.8A CN201710684939A CN107277065A CN 107277065 A CN107277065 A CN 107277065A CN 201710684939 A CN201710684939 A CN 201710684939A CN 107277065 A CN107277065 A CN 107277065A
Authority
CN
China
Prior art keywords
mrow
resource
apt
cloud storage
defense
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710684939.8A
Other languages
English (en)
Other versions
CN107277065B (zh
Inventor
肖亮
闵明慧
陈烨
许冬瑾
唐余亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN201710684939.8A priority Critical patent/CN107277065B/zh
Publication of CN107277065A publication Critical patent/CN107277065A/zh
Application granted granted Critical
Publication of CN107277065B publication Critical patent/CN107277065B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer And Data Communications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

基于强化学习的检测高级持续威胁的资源调度方法,涉及计算机和信息安全。针对计算机或云存储系统,调度其CPU等计算资源检测APT攻击,采用神经情景控制学习,不需预知APT攻击模型,优化动态数据存储系统的检测资源调度策略。结合深度卷积神经网络和情景记忆,压缩APT检测的状态空间,利用情景记忆模块存储资源分配经验,充分利用上下文环境信息,加快对APT攻防新特征的认知,加快学习速度。该方法可适应动态云存储环境和攻击模式,提高计算机和云存储系统在APT攻击下的数据隐私性能。

Description

基于强化学习的检测高级持续威胁的资源调度方法
技术领域
本发明涉及计算机和信息安全,尤其是涉及基于强化学习的检测高级持续威胁的资源调度方法。
背景技术
云计算技术飞速发展,在大数据背景下的云存储技术已经被越来越多的企业和个人熟悉并使用。云存储在为我们提供便利的同时,其安全性也日益引起我们的关注。云存储系统承载了大量的企业文件和私人信息等隐私敏感性数据,2016年5亿Yahoo用户账号泄露,同年俄罗斯央行3100万美元被盗。因此,云存储系统的安全性和隐私性成为制约其未来发展的关键因素。
高级持续威胁(APT),是指组织(特别是政府)或者小团体利用先进的攻击手段对特定的目标进行长期持续性网络攻击的攻击形式,其主要目的是窃取隐私数据而不是摧毁网络,由于其手段复杂、隐蔽性强等特点导致传统的网络防御方法无法有效的抵御APT攻击,因此云存储系统很容易遭受这种攻击。
此类APT威胁往往可以绕过防火墙和IPS等传统的安全机制,悄无声息的从企业或者政府机构获取高机密资料。为应对云计算下APT攻击,各国政府陆续制定和出台了一系列相关政策,国内外针对APT攻击的防御产品及方案不断涌现。例如美国政府大力支持FireEye公司推出的APT防御产品,利用沙箱技术和静止分析防止0day漏洞、未知型攻击、木马程序。现有的APT防御产品和方案各有侧重,如[孙海波,田进山,周涛.高级持续威胁的检测方法和系统[P].CN 103312679 A.2013.09.18]利用上下文环境的支持,结合历史事件检测出APT攻击。(康学斌,肖新光.一种针对高级可持续威胁的溢出漏洞检测方法及系统[P].CN 103902914 A.2014.07.02)通过建立从历史到最新的软件的各分支版本,并监控各分支版本是否存在溢出行为,从而更加高效的判断带检测软件是否具有0day攻击。(M.vanDijk,A.Juels,A.Oprea,and R.L.Rivest,“Flipit:The game of stealthytakeover”,J.Cryptology.vol.26,no.4,pp 655-713,2013)提出可将博弈论用于捕捉APT的隐形入侵访问特性,防御者和攻击者通过建立博弈模型来决定防御及攻击行为。(肖亮,许冬瑾,范业仙,谢彩霞.一种云存储系统的持续性攻击的检测方法[P].CN 106612287A.2017.05.03)提出基于Q学习算法的抗APT入侵的方法,在未知攻击模型的情况下动态学习最优的安全扫描时间。
目前很多解决方案未充分考虑防御系统资源受限的情景,然而该限制是防御系统制定检测资源调度方案的关键因素之一。同时,强化学习算法例如Q学习算法在状态集和动作集维度大的情况下,它的学习速度会快速下降。这些问题制约着强化学习算法的应用。
发明内容
本发明的目的是提供一种基于强化学习的检测高级持续威胁的资源调度方法,针对计算机或云存储系统,调度其CPU等计算资源检测APT攻击,采用神经情景控制学习,不需预知APT攻击模型,优化动态数据存储系统的检测资源调度策略,结合深度卷积神经网络和情景记忆,压缩APT检测的状态空间,利用情景记忆模块存储资源分配经验,充分利用上下文环境信息,加快对APT攻防新特征的认知,加快学习速度,可适应动态云存储环境和攻击模式,提高计算机和云存储系统在APT攻击下的数据隐私性能的基于强化学习的检测高级持续威胁的资源调度方法。
本发明包括以下步骤:
步骤1:防御系统利用SM个CPU等计算资源检测计算机或云存储系统中的高级持续威胁(APT),利用个CPU等计算资源在k时刻对第i个云存储设备进行检测,其中1≤i≤D。防御系统检测D个云存储设备的资源分配向量为:
可选动作范围为:
可选动作个数为:
D|;
步骤2:防御系统观察上一时刻APT攻击D个云存储设备使用的CPU等计算资源个数作为系统当前k时刻的状态s(k),即s(k)=N(k-1),其中是APT攻击每个云存储设备分配的攻击资源的个数,N(k-1)表示APT攻击D个云存储设备的攻击资源分配向量;
步骤3:计算防御系统的即时收益公式为云存储设备中的数据量是时变的,表示k时刻第i个设备的数据存储量,其中1≤i≤D,Mi、Ni表示防御系统和攻击者为第i个设备分配的计算资源个数,sgn表示符号函数,
步骤4:在APT攻击模型未知的情况下,防御系统通过神经情景控制算法,学习如何调度其CPU等计算资源来检测APT攻击,优化动态数据存储系统的检测资源调度策略,以获得防御系统的最大收益,其中神经情景控制学习算法包括以下步骤:
4.1)构造深度卷积神经网络,初始化深度卷积神经网络权重参数θ、输入状态序列包含的以往状态动作对个数W以及网络更新操作次数H;初始化的Q值矩阵,对防御系统的所有资源分配动作一个对应的输出Q值;初始化折扣因子γ和学习因子δ,其中0<γ≤1,0≤δ≤1;
4.2)为防御系统的每个资源分配动作初始化一个情景记忆模块,即一个键-值对阵列,键为给定输入下卷积神经网络的输出h,值即为对应的估计Q值,该模块可方便的进行读写操作;
4.3)在k时刻,k≤W时,防御系统随机选取一个资源分配动作M(k)检测数据存储系统中的APT攻击;k≥W时,构造深度卷积神经网络的输入状态序列
4.4)将状态序列输入到深度卷积神经网络产生一个键h,对于每个资源分配动作M,利用近似最近邻查找算法在情景记忆模块中查询与键h最为相近的p个情景,对应键为hi(1≤i≤p),计算h与hi的核k(h,hi),其中δ=10-3;利用公式获得每个近似情景所占权重wi,其中表示对p个核k(h,hj)求和,1≤j≤p。最终输出的Q值是该动作的情景记忆模块中p个邻近情景的键hi与对应估计Qi值的加权之和,即
4.5)防御系统以1-ε的概率,选取具有最大Q值的CPU等计算资源调度策略,以ε的概率随机选取其他资源调度策略,然后根据选择的资源调度策略检测计算机或云存储系统中的APT攻击,其中0<ε<1;
4.6)观察当前时刻下APT攻击者的CPU等计算资源的分配结果,评估当前防御系统的即时收益
4.7)求解键h对应的估计Q值。首先查询对应最大Q值的动作M',然后根据公式获得N阶估计Q值将键-值对存入到情景记忆模块中;
4.8)将k时刻经验存放入经验池中;
4.9)最小化网络输出Q值与估计值Q(N)之间的损失值,对第k时刻网络的权重参数θ(k)进行更新操作。在每一次更新过程中,随机从经验池中选取经验, 计算损失值L(θ(k)),其中表示统计期望计算;
采用随机梯度下降法,更新深度卷积神经网络的权重参数θ(k)
4.10)根据云存储环境和攻击模型变化,防御系统重复步骤4.4-4.9,直到学习到稳定的检测资源调度策略。
在步骤3中,所述即时效益与安全的云存储设备的个数成正比例关系,对于任何一个云存储设备,若防御系统分配的检测资源个数大于APT分配的攻击资源个数,则认为云存储设备中的数据是安全的;所述云存储设备中的数据,存储量Bi随时间动态变化。
在步骤4第4.1)部分中,所述构造深度卷积神经网络,包含卷积层m层和全连接层n层,在m(m≥1)层卷积层中,第一层卷积层输入大小2*H+1,具有q个过滤器;在n(n≥1)层全连接层中最后一层的全连接层输出大小与防御系统的可选择动作范围大小一致,即|ΔD|。
在步骤4第4.3)部分中,所述在第k时刻,深度卷积神经网络的输入是由以往状态-动作对W和当前的系统状态s(k)组成,即
本发明充分利用防御系统与攻击者之间的行为博弈交互,不需预知具体的APT攻击模型,通过神经情景控制学习算法使得防御系统可以根据攻击者的攻击资源分配动态的调整防御资源分配,优化动态数据存储系统的检测资源调度策略。
本发明结合深度卷积神经网络和情景记忆,压缩APT检测的状态空间,利用情景记忆模块存储资源分配经验,充分利用上下文环境信息,加快对APT攻防新特征的认知,加快学习速度,提高计算机和云存储系统在APT攻击下的数据隐私性能。
具体实施方式
下面结合实施例进一步描述本发明的技术方案,但要求保护的范围并不局限于所述。
一种基于强化学习的检测高级持续威胁的资源调度方法具体实施步骤如下:
步骤1:防御系统利用SM=16个CPU等计算资源检测计算机或云存储系统中的高级持续威胁(APT),利用个CPU等计算资源在k时刻对第i个云存储设备进行检测,其中1≤i≤D,D=4。防御系统检测D个云存储设备的资源分配向量为可选动作范围为:可选动作个数为|ΔD|。
步骤2:防御系统观察上一时刻APT攻击D个云存储设备使用的CPU等计算资源个数作为系统当前k时刻的状态s(k),即s(k)=N(k-1),其中是APT攻击每个云存储设备分配的攻击资源的个数,N(k-1)表示APT攻击D个云存储设备的攻击资源分配向量。
步骤3:计算防御系统的即时收益公式为云存储设备中的数据量是时变的,表示k时刻第i个设备的数据存储量,其中1≤i≤D,Mi、Ni表示防御系统和攻击者为第i个设备分配的计算资源个数。sgn表示符号函数,
步骤4:在APT攻击模型未知的情况下,防御系统通过神经情景控制算法,学习如何调度其CPU等计算资源来检测APT攻击,优化动态数据存储系统的检测资源调度策略,以获得防御系统的最大收益。其中神经情景控制学习算法包括以下几个步骤:
4.1)构造深度卷积神经网络,包含2个卷积层和两个全连接层。第一层为卷积层,输入大小为25,包含有20个3*3的卷积核,步进为1,输出大小为20*4*4;第二层为卷积层,输入大小为20*4*4,包含有40个2*2的卷积核,步进为1,输出大小为40*3*3;第三层为全连接层,输入大小为360,输出大小为180;最后一层为全连接层,输入大小为180,输出为防御系统的可选择动作范围大小|ΔD|。4层都采用ReLU函数作为激活函数。
4.2)初始化深度卷积神经网络权重参数θ、输入状态序列包含的以往状态-动作对W=11以及网络更新的操作次数H=16;初始化防御系统所有资源分配动作的Q值;初始化折扣因子γ=0.5,学习δ=0.01;
4.3)为防御系统的每个资源分配动作初始化一个情景记忆模块,即一个键-值对阵列,键为给定输入下卷积神经网络的输出h,值即为对应的估计Q值,该模块可方便的进行读写操作。
4.4)在k时刻,k≤W时,防御系统随机选取一个资源分配动作M(k)检测数据存储系统中的APT攻击;k≥W时,构造深度卷积神经网络的输入状态序列
4.5)将状态序列输入到深度卷积神经网络产生一个键h,对于每个资源分配动作M,利用近似最近邻查找算法在情景记忆模块中查询与键h最为相近的p个情景,对应键为hi(1≤i≤p),计算h与hi的核k(h,hi),其中δ=10-3;利用公式获得每个近似情景所占权重wi,其中表示对p个核k(h,hj)求和,1≤j≤p。最终输出的Q值是该动作的情景记忆模块中p个邻近情景的键hi与对应估计Qi值的加权之和,即
4.6)防御系统以0.9的概率,选取具有最大Q值的CPU等计算资源调度策略,以0.1的概率随机选取其他资源调度策略,然后根据选择的资源调度策略检测计算机或云存储系统中的APT攻击。
4.7)观察当前时刻下APT攻击者的CPU等计算资源的分配结果,评估当前防御系统的即时收益
4.8)求解键h对应的估计Q值。首先查询对应最大Q值的动作M',然后根据公式获得N阶估计Q值将键-值对存入到情景记忆模块中。
4.9)将k时刻经验存放入经验池中。
4.10)最小化网络输出Q值与估计值Q(N)之间的损失值,对第k时刻网络的权重参数θ(k)进行更新操作。在每一次更新过程中,随机从经验池中选取经验, 计算损失值L(θ(k)),其中表示统计期望计算。
采用随机梯度下降法,更新深度卷积神经网络的权重参数θ(k)
4.11)根据云存储环境和攻击模型变化,防御系统重复步骤4.4)~4.10),直到学习到稳定的检测资源调度策略。
本发明提出一种基于强化学习的计算机系统或云存储系统检测高级持续威胁(APT)的CPU等计算资源调度方法,涉及计算机和信息安全领域。针对计算机或云存储系统,调度其CPU等计算资源检测APT攻击,采用神经情景控制学习,不需预知APT攻击模型,优化动态数据存储系统的检测资源调度策略。结合深度卷积神经网络和情景记忆,压缩APT检测的状态空间,利用情景记忆模块存储资源分配经验,充分利用上下文环境信息,加快对APT攻防新特征的认知,加快学习速度。该方法可适应动态云存储环境和攻击模式,提高计算机和云存储系统在APT攻击下的数据隐私性能。

Claims (4)

1.基于强化学习的检测高级持续威胁的资源调度方法,其特征在于包括以下步骤:
步骤1:防御系统利用SM个CPU等计算资源检测计算机或云存储系统中的高级持续威胁(APT),利用个CPU等计算资源在k时刻对第i个云存储设备进行检测,其中1≤i≤D;防御系统检测D个云存储设备的资源分配向量为:
<mrow> <msup> <mi>M</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <msub> <mrow> <mo>&amp;lsqb;</mo> <msubsup> <mi>M</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msubsup> <mo>&amp;rsqb;</mo> </mrow> <mrow> <mn>1</mn> <mo>&amp;le;</mo> <mi>i</mi> <mo>&amp;le;</mo> <mi>D</mi> </mrow> </msub> <mo>&amp;Element;</mo> <msub> <mi>&amp;Delta;</mi> <mi>D</mi> </msub> </mrow>
可选动作范围为:
<mrow> <msub> <mi>&amp;Delta;</mi> <mi>D</mi> </msub> <mo>=</mo> <mo>{</mo> <msub> <mrow> <mo>&amp;lsqb;</mo> <msubsup> <mi>M</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msubsup> <mo>&amp;rsqb;</mo> </mrow> <mrow> <mn>1</mn> <mo>&amp;le;</mo> <mi>i</mi> <mo>&amp;le;</mo> <mi>D</mi> </mrow> </msub> <mo>|</mo> <mn>0</mn> <mo>&amp;le;</mo> <msubsup> <mi>M</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msubsup> <mo>&amp;le;</mo> <msub> <mi>S</mi> <mi>M</mi> </msub> <mo>;</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>D</mi> </munderover> <msubsup> <mi>M</mi> <mi>i</mi> <mrow> <mo>(</mo> <mi>k</mi> <mo>)</mo> </mrow> </msubsup> <mo>&amp;le;</mo> <msub> <mi>S</mi> <mi>M</mi> </msub> <mo>}</mo> </mrow>
可选动作个数为:
D|;
步骤2:防御系统观察上一时刻APT攻击D个云存储设备使用的CPU等计算资源个数作为系统当前k时刻的状态s(k),即s(k)=N(k-1),其中是APT攻击每个云存储设备分配的攻击资源的个数,N(k-1)表示APT攻击D个云存储设备的攻击资源分配向量;
步骤3:计算防御系统的即时收益公式为云存储设备中的数据量是时变的,表示k时刻第i个设备的数据存储量,其中1≤i≤D,Mi、Ni表示防御系统和攻击者为第i个设备分配的计算资源个数,sgn表示符号函数,
步骤4:在APT攻击模型未知的情况下,防御系统通过神经情景控制算法,学习如何调度其CPU计算资源来检测APT攻击,优化动态数据存储系统的检测资源调度策略,以获得防御系统的最大收益,其中神经情景控制学习算法包括以下步骤:
4.1)构造深度卷积神经网络,初始化深度卷积神经网络权重参数θ、输入状态序列包含的以往状态动作对个数W以及网络更新操作次数H;初始化的Q值矩阵,对防御系统的所有资源分配动作一个对应的输出Q值;初始化折扣因子γ和学习因子δ,其中0<γ≤1,0≤δ≤1;
4.2)为防御系统的每个资源分配动作初始化一个情景记忆模块,即一个键-值对阵列,键为给定输入下卷积神经网络的输出h,值即为对应的估计Q值,该模块可方便的进行读写操作;
4.3)在k时刻,k≤W时,防御系统随机选取一个资源分配动作M(k)检测数据存储系统中的APT攻击;k≥W时,构造深度卷积神经网络的输入状态序列
4.4)将状态序列输入到深度卷积神经网络产生一个键h,对于每个资源分配动作M,利用近似最近邻查找算法在情景记忆模块中查询与键h最为相近的p个情景,对应键为hi,1≤i≤p,计算h与hi的核k(h,hi),其中δ=10-3;利用公式获得每个近似情景所占权重wi,其中表示对p个核k(h,hj)求和,1≤j≤p;最终输出的Q值是该动作的情景记忆模块中p个邻近情景的键hi与对应估计Qi值的加权之和,即
4.5)防御系统以1-ε的概率,选取具有最大Q值的CPU等计算资源调度策略,以ε的概率随机选取其他资源调度策略,然后根据选择的资源调度策略检测计算机或云存储系统中的APT攻击,其中0<ε<1;
4.6)观察当前时刻下APT攻击者的CPU等计算资源的分配结果,评估当前防御系统的即时收益
4.7)求解键h对应的估计Q值;首先查询对应最大Q值的动作M',然后根据公式获得N阶估计Q值将键-值对存入到情景记忆模块中;
4.8)将k时刻经验存放入经验池中;
4.9)最小化网络输出Q值与估计值Q(N)之间的损失值,对第k时刻网络的权重参数θ(k)进行更新操作;在每一次更新过程中,随机从经验池中选取经验,计算损失值L(θ(k)),其中表示统计期望计算;
采用随机梯度下降法,更新深度卷积神经网络的权重参数θ(k)
4.10)根据云存储环境和攻击模型变化,防御系统重复步骤4.4-4.9,直到学习到稳定的检测资源调度策略。
2.如权利要求1所述基于强化学习的检测高级持续威胁的资源调度方法,其特征在于在步骤3中,所述即时效益与安全的云存储设备的个数成正比例关系,对于任何一个云存储设备,若防御系统分配的检测资源个数大于APT分配的攻击资源个数,则认为云存储设备中的数据是安全的;所述云存储设备中的数据,存储量Bi随时间动态变化。
3.如权利要求1所述基于强化学习的检测高级持续威胁的资源调度方法,其特征在于在步骤4第4.1)部分中,所述构造深度卷积神经网络,包含卷积层m层和全连接层n层,在m层卷积层中,第一层卷积层输入大小2*H+1,具有q个过滤器,m≥1;在n层全连接层中最后一层的全连接层输出大小与防御系统的可选择动作范围大小一致,即|ΔD|,n≥1。
4.如权利要求1所述基于强化学习的检测高级持续威胁的资源调度方法,其特征在于在步骤4第4.3)部分中,所述在第k时刻,深度卷积神经网络的输入是由以往状态-动作对W和当前的系统状态s(k)组成,即
CN201710684939.8A 2017-08-11 2017-08-11 基于强化学习的检测高级持续威胁的资源调度方法 Active CN107277065B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710684939.8A CN107277065B (zh) 2017-08-11 2017-08-11 基于强化学习的检测高级持续威胁的资源调度方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710684939.8A CN107277065B (zh) 2017-08-11 2017-08-11 基于强化学习的检测高级持续威胁的资源调度方法

Publications (2)

Publication Number Publication Date
CN107277065A true CN107277065A (zh) 2017-10-20
CN107277065B CN107277065B (zh) 2019-12-17

Family

ID=60077151

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710684939.8A Active CN107277065B (zh) 2017-08-11 2017-08-11 基于强化学习的检测高级持续威胁的资源调度方法

Country Status (1)

Country Link
CN (1) CN107277065B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002358A (zh) * 2018-07-23 2018-12-14 厦门大学 基于深度强化学习的移动终端软件自适应优化调度方法
CN109388484A (zh) * 2018-08-16 2019-02-26 广东石油化工学院 一种基于Deep Q-network算法的多资源云作业调度方法
CN110191083A (zh) * 2019-03-20 2019-08-30 中国科学院信息工程研究所 面向高级持续性威胁的安全防御方法、装置与电子设备
CN110213262A (zh) * 2019-05-30 2019-09-06 华北电力大学 一种基于深度q网络的全自动高级逃逸技术测试方法
CN110365713A (zh) * 2019-08-22 2019-10-22 中国科学技术大学 针对高级持续性威胁的网络防御资源最优分配方法
CN110659492A (zh) * 2019-09-24 2020-01-07 北京信息科技大学 一种基于多智能体强化学习的恶意软件检测方法及装置
CN112187710A (zh) * 2020-08-17 2021-01-05 杭州安恒信息技术股份有限公司 威胁情报数据的感知方法、装置、电子装置和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103312679A (zh) * 2012-03-15 2013-09-18 北京启明星辰信息技术股份有限公司 高级持续威胁的检测方法和系统
CN106612287A (zh) * 2017-01-10 2017-05-03 厦门大学 一种云存储系统的持续性攻击的检测方法
CN106961684A (zh) * 2017-03-24 2017-07-18 厦门大学 基于深度强化学习的认知无线电空频二维抗敌意干扰方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103312679A (zh) * 2012-03-15 2013-09-18 北京启明星辰信息技术股份有限公司 高级持续威胁的检测方法和系统
CN106612287A (zh) * 2017-01-10 2017-05-03 厦门大学 一种云存储系统的持续性攻击的检测方法
CN106961684A (zh) * 2017-03-24 2017-07-18 厦门大学 基于深度强化学习的认知无线电空频二维抗敌意干扰方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109002358A (zh) * 2018-07-23 2018-12-14 厦门大学 基于深度强化学习的移动终端软件自适应优化调度方法
CN109002358B (zh) * 2018-07-23 2021-08-31 厦门大学 基于深度强化学习的移动终端软件自适应优化调度方法
CN109388484A (zh) * 2018-08-16 2019-02-26 广东石油化工学院 一种基于Deep Q-network算法的多资源云作业调度方法
CN109388484B (zh) * 2018-08-16 2020-07-28 广东石油化工学院 一种基于Deep Q-network算法的多资源云作业调度方法
CN110191083A (zh) * 2019-03-20 2019-08-30 中国科学院信息工程研究所 面向高级持续性威胁的安全防御方法、装置与电子设备
CN110213262A (zh) * 2019-05-30 2019-09-06 华北电力大学 一种基于深度q网络的全自动高级逃逸技术测试方法
CN110213262B (zh) * 2019-05-30 2022-01-28 华北电力大学 一种基于深度q网络的全自动高级逃逸技术检测方法
CN110365713A (zh) * 2019-08-22 2019-10-22 中国科学技术大学 针对高级持续性威胁的网络防御资源最优分配方法
CN110365713B (zh) * 2019-08-22 2021-12-14 中国科学技术大学 针对高级持续性威胁的网络防御资源最优分配方法
CN110659492A (zh) * 2019-09-24 2020-01-07 北京信息科技大学 一种基于多智能体强化学习的恶意软件检测方法及装置
CN110659492B (zh) * 2019-09-24 2021-10-15 北京信息科技大学 一种基于多智能体强化学习的恶意软件检测方法及装置
CN112187710A (zh) * 2020-08-17 2021-01-05 杭州安恒信息技术股份有限公司 威胁情报数据的感知方法、装置、电子装置和存储介质

Also Published As

Publication number Publication date
CN107277065B (zh) 2019-12-17

Similar Documents

Publication Publication Date Title
CN107277065A (zh) 基于强化学习的检测高级持续威胁的资源调度方法
Min et al. Defense against advanced persistent threats in dynamic cloud storage: A colonel blotto game approach
Jormakka et al. Modelling information warfare as a game
Tang et al. Incentivizing honest mining in blockchain networks: A reputation approach
CN110300106A (zh) 基于Markov时间博弈的移动目标防御决策选取方法、装置及系统
Tan et al. WF-MTD: Evolutionary decision method for moving target defense based on wright-fisher process
CN106612287B (zh) 一种云存储系统的持续性攻击的检测方法
CN108701260B (zh) 用于辅助决策的系统和方法
Hossain et al. Desmp: Differential privacy-exploited stealthy model poisoning attacks in federated learning
CN107070956A (zh) 基于动态贝叶斯博弈的apt攻击预测方法
CN109714364A (zh) 一种基于贝叶斯改进模型的网络安全防御方法
Laszka et al. Mitigating covert compromises: A game-theoretic model of targeted and non-targeted covert attacks
Lin et al. Optimal defense-attack strategies between M defenders and N attackers: A method based on cumulative prospect theory
Yang Research on network behavior anomaly analysis based on bidirectional LSTM
CN110460572A (zh) 基于Markov信号博弈的移动目标防御策略选取方法及设备
CN115328189B (zh) 多无人机协同博弈决策方法和系统
CN114491541B (zh) 基于知识图谱路径分析的安全运营剧本自动化编排方法
Jakóbik et al. Stackelberg games for modeling defense scenarios against cloud security threats
Wu et al. Risk-attitude-based defense strategy considering proactive strike, preventive strike and imperfect false targets
CN115580430A (zh) 一种基于深度强化学习的攻击树蜜罐部署防御方法与装置
CN113132398A (zh) 一种基于q学习的阵列蜜罐系统防御策略预测方法
Dong et al. Mind your heart: Stealthy backdoor attack on dynamic deep neural network in edge computing
Kinneer et al. Modeling observability in adaptive systems to defend against advanced persistent threats
Liu et al. Assessing Membership Leakages via Task-Aligned Divergent Shadow Datasets in Vehicular Road Cooperation
CN114666107B (zh) 移动雾计算中一种高级持续性威胁防御方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20171020

Assignee: XIAMEN FOUR-FAITH COMMUNICATION TECHNOLOGY Co.,Ltd.

Assignor: XIAMEN University

Contract record no.: X2023350000113

Denomination of invention: A Resource Scheduling Method for Detecting Advanced Persistent Threats Based on Reinforcement Learning

Granted publication date: 20191217

License type: Common License

Record date: 20230323

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20171020

Assignee: XIAMEN XINGZHONG WULIAN TECHNOLOGY Co.,Ltd.

Assignor: XIAMEN University

Contract record no.: X2023350000206

Denomination of invention: A Resource Scheduling Method for Detecting Advanced Persistent Threats Based on Reinforcement Learning

Granted publication date: 20191217

License type: Common License

Record date: 20230417

EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20171020

Assignee: RUIMA ELECTRIC MANUFACTURING (FUJIAN) Co.,Ltd.

Assignor: XIAMEN University

Contract record no.: X2024980007788

Denomination of invention: Resource scheduling method for detecting advanced persistent threats based on reinforcement learning

Granted publication date: 20191217

License type: Common License

Record date: 20240703