CN113641496A - 基于深度强化学习的dids任务调度优化方法 - Google Patents

基于深度强化学习的dids任务调度优化方法 Download PDF

Info

Publication number
CN113641496A
CN113641496A CN202110930083.4A CN202110930083A CN113641496A CN 113641496 A CN113641496 A CN 113641496A CN 202110930083 A CN202110930083 A CN 202110930083A CN 113641496 A CN113641496 A CN 113641496A
Authority
CN
China
Prior art keywords
data packet
time
detection
dids
task scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110930083.4A
Other languages
English (en)
Other versions
CN113641496B (zh
Inventor
赵旭
薛涛
江晋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi Bianyun Collaborative Network Technology Co ltd
Original Assignee
Xian Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Polytechnic University filed Critical Xian Polytechnic University
Priority to CN202110930083.4A priority Critical patent/CN113641496B/zh
Publication of CN113641496A publication Critical patent/CN113641496A/zh
Application granted granted Critical
Publication of CN113641496B publication Critical patent/CN113641496B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5072Grid computing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于深度强化学习的DIDS任务调度优化方法,包括如下步骤:对检测引擎进行性能等级评估,对所检测的数据包进行负载评估,用马尔科夫决策过程建模,建立深度循环神经网络模型,调度器进行决策并确定如何分配检测引擎去检测数据包。对于检测引擎数量固定的分布式入侵检测系统,本发明提出的任务调度算法可以做出最优决策使系统整体负载降低,同时还能解决状态空间和动作空间过大造成内存空间占用太大的问题。

Description

基于深度强化学习的DIDS任务调度优化方法
技术领域
本发明属于网络安全技术领域,涉及一种基于深度强化学习的DIDS任务调度优化方法。
背景技术
边缘计算作为一种新的计算模式,在快速发展的同时也面临新的网络安全挑战。在节点性能有限的边缘计算环境下进行分布式入侵检测系统(DIDS)的任务分配,是一种典型的资源受限任务调度问题。由于边缘节点性能受限,所以云计算中依赖高性能设备的DIDS(DIDS,分布式入侵检测系统)需要向低负载化改进,才能在网络边缘就近检测数据。在现有技术中,当使用强化学习解决以上问题时,如果状态空间和动作空间过大或高维连续,将会带来内存空间占用太大等诸多问题。
发明内容
本发明的目的是提供一种基于深度强化学习的DIDS任务调度优化方法,该方法能够在边缘计算环境下根据网络变化动态调节任务调度策略,使DIDS的负载有效降低,同时还能够解决现有技术中状态空间和动作空间过大造成内存空间占用太大的问题。
本发明所采用的技术方案是,基于深度强化学习的DIDS任务调度优化方法,具体包括如下步骤:
步骤1,对DIDS中的各检测引擎进行性能评估,收集各检测引擎对测试流量的数据量da、检测时间dt、内存占用mu和检测引擎i的CPU频率Fi信息,并定义检测引擎的性能指标pi计算模型如下:
Figure BDA0003211013410000021
对所有检测引擎测试后,根据性能高低各检测引擎分成不同等级d,d=1,…,D,d值相差在10%以内的,即归为同一等级;
步骤2,当一个数据包到来需要检测时,调度器首先获取数据包长度,对数据包产生的负载进行评估;
步骤3,利用马尔科夫决策过程对DIDS任务调度进行建模,确定实现系统最小负载的最优策略;
步骤4,建立深度循环神经网络模型,基于步骤3所得的最优策略模拟状态空间和动作空间;
步骤5,基于步骤4所得结果,调度器向检测引擎分配数据包;
步骤6,当一个需要检测的数据包到来时,若分布式入侵检测系统中没有空闲的检测引擎,调度器将记录这一检测数据包放入等待队列,一旦等待队列满额,这个新到的数据包将被放弃检测。
本发明的特点还在于:
步骤2中对数据包产生的负载进行评估的方法为:通过数据包长度与以太网最大传输单元1500Bytes的比值,得出该数据包所产生的负载等级k,k=1,…,K,k值相差在10%以内的,即归为同一等级。
步骤4的具体过程如下:
步骤4.1,建立深度循环神经网络模型;
步骤4.2,基于步骤4.1所得结果度量深度循环神经网络模型输出产生的误差;
步骤4.3,基于步骤4.2所得结果训练深度循环神经网络。
步骤4.1的具体过程为:
深度循环神经网络结构包括输入层、隐藏层和输出层;
隐藏层中包括信息记忆功能,对于某个具体的隐藏层,在t时刻,该隐藏层的状态st的计算公式为:
st=tanh(Uxt+Wst-1) (2);
其中,st-1为t-1时刻的状态,W为状态s的权重参数矩阵,xt为t时刻的输入,U为输入的序列信息的权重参数矩阵,而t时刻,状态st的输出为:
Figure BDA0003211013410000031
其中,softmax为输出的激活函数,V为输出的序列信息的权重参数矩阵。
步骤4.2的具体过程为:
使用交叉熵的损失函数来优化权重参数矩阵U、W和V,使得输入的序列数据经过循环神经网络处理后的输出值更加接近真实的输出值;
设输出的时间序列总数为T,则深度循环神经网络模型的总损失函数L为:
Figure BDA0003211013410000032
其中,yt为t时刻的真实值,
Figure BDA0003211013410000033
为t时刻的预测值。
步骤4.3的具体过程为:
步骤4.3.1,根据公式st=tanh(Uxt+Wst-1)前向计算每个神经元的输出值st
步骤4.3.2,向上和向前两个方向,反向计算每个神经元的误差项δj值,误差项δj值同时也是误差函数E对神经元的加权输入netj的偏导数,任意时刻k的误差项δk具体计算公式如下:
Figure BDA0003211013410000041
其中,
Figure BDA0003211013410000042
表示δk的行向量,diag[a]表示根据向量a创建一个对角矩阵,向量netj表示神经元在j时刻的加权输入。
步骤4.3.3,计算每个权重的梯度;
具体为:首先计算误差函数E对权重矩阵W的梯度
Figure BDA0003211013410000043
然后计算权重矩阵W在i时刻的梯度▽wiE,具体公式为:
Figure BDA0003211013410000044
其中,最终的梯度
Figure BDA0003211013410000045
是各个时刻的梯度之和;
步骤4.3.4,用随机梯度下降算法更新权重。
本发明的有益效果是:本发明能够在边缘计算环境下根据网络变化动态调节任务调度策略,使分布式入侵检测系统的负载有效降低,并能够解决状态空间和动作空间过大带来的问题。
附图说明
图1是本发明基于深度强化学习的DIDS任务调度优化方法中深度循环神经网络与调度器。
具体实施方式
下面结合具体实施方式对本发明进行详细说明。
本发明基于深度强化学习的DIDS任务调度优化方法,具体按照以下步骤实施:
步骤1,工作开始前,对DIDS中的各检测引擎进行性能评估,收集其对测试流量的数据量da(单位bit)、检测时间dt(单位ms)、内存占用mu(单位Mb)和检测引擎i的CPU频率Fi(单位Ghz)信息,并定义检测引擎的性能指标pi(performance index)计算模型如下:
Figure BDA0003211013410000051
对所有检测引擎测试后,根据性能高低将其分成不同等级d,d=1,…,D,d值相差在10%以内的,可归为同一等级;
步骤2,开始工作后,当一个数据包到来需要检测时,调度器首先获取数据包长度,对数据包产生的负载进行评估,评估方法是通过数据包长度与以太网最大传输单元(MTU)1500Bytes的比值,得出该数据包所产生的负载等级k,k=1,…,K。k值相差在10%以内的,可归为同一等级;
步骤3,利用马尔科夫决策过程就本发明所要解决的具体调度问题建模;
步骤3.1,定义参数;
分布式入侵检测系统有D个性能等级的检测引擎对K个负载等级的数据包的检测需求,检测时间服从指数分布,数据包的到达过程可以看作K个独立的泊松过程。评判准则采取平均负载准则。考虑数据包到达和检测结束的时刻,那么此时嵌入链是马尔科夫链。表1对建模中用到的参数进行定义:
表1
Figure BDA0003211013410000061
步骤3.2,基于步骤3.1所得结果确定状态空间;
步骤3.2的具体过程为:
下面将s=(N(D,K),B(K),r)设为状态,其中N(D,L)是一个向量,具有形式(n10,n11,…,n1K-1,n20,…,nDK-1),描述了分布式入侵检测系统的工作状态,包括尚未分配检测任务的检测引擎的分布以及正在为各等级数据包检测的检测引擎状况;B(K)也是一个向量,而且具有形式(b1,b2,…,bK),描述了正在等待检测的数据包情况,包括各种数据包的数量;而r取值于集合{K,K-1,…,1,0},描述最一个到达的数据包的情况。当队列长度的限制b确定以后,就可以定义一个含有所有可能状态的集合X,如公式1所示。
Figure BDA0003211013410000071
在上式中,b>0是允许的队列长度。
下面列出集合X中的几种典型的可能状态:
1.系统里如果有空闲的检测引擎,刚好有一个数据包到达,经过负载评估是第j等级数据包,那么X1作为X集合中的一个状态,如公
式2所示
Figure BDA0003211013410000072
其中状态(N(D,K),B(K),j)表示新到的数据包带来了第j等级的检测需求。
2.系统里没有可用的检测引擎时的所有可能状态X2可以表示为下式
Figure BDA0003211013410000081
3.系统里仍有空闲的检测引擎且无数据包等待检测(此时r=0)的所有可能状态X3可以表示为下式
Figure BDA0003211013410000082
4.系统里只有一个空闲的检测引擎且有等待检测的数据包的所有可能状态(这种情况比较少见)。
Figure BDA0003211013410000083
步骤3.3,基于步骤3.2所得结果确定决策时刻;步骤3.3的具体过程为:
当一个新的数据包到达,需要调度器分配一个检测引擎进行检测,这时发生了系统状态的变化,所以调度器需要做出决策,选择执行对应的行为。与此类似,当一个检测引擎完成对某个数据包的检测时,这个行为的执行使得系统的状态也发生了改变,使系统当前的状态转移到状态空间中另一个状态。
步骤3.4,基于步骤3.3所得结果确定动作集合;步骤3.4的具体过程为:
在上面列出的几种情况中,对于X1中的状态,调度器需要选择指派哪一等级的检测引擎来处理这个数据包,对于X4中的状态,系统需要考虑目前唯一空闲的检测引擎应该检测队列中哪一等级数据包,对于X2和X3中的状态,系统不需要做出选择。所以状态空间X的动作集合A定义为
A(s)={d|nd0>0,d=1,2,...,D},s∈X1
A(s)={0},s∈X2
A(s)={0},s∈X3
A(s)={k|bk>0,k=1,2,..,K},s∈X4 (7);
动作集合中的0表示不需要作出决策,动作k∈A(s)(s∈X4)表示由系统里唯一空闲的检测引擎去处理一个等待的k等级数据包,而d∈A(s)(s∈X1)表示由第d等级的检测引擎去检测刚刚到达的数据包。
步骤3.5,基于步骤3.4所得结果确定转移速率与转移概率;步骤3.5的具体过程为:转移概率是依赖于系统当前所处的状态和调度器选取的行动来决定。本发明中因为使用的是马尔科夫决策过程,所以转移概率可以通过转移速率求得。而转移速率可以分为下面的几种情况确定:
1.对于X1中的状态s,当k等级的数据包到达,调度器选择与之对应的d等级检测引擎去检测,此时,会出现两种可能的转移:
1)转移到状态s'∈X3,其转移速率为
Figure BDA0003211013410000091
这里的s'∈X3表示一个i等级的检测引擎恰好完成对一个j等级数据包的检测;
2)转移到状态s'∈X1∪X2,其转移速率为q(s'|s,d)=λj,s'∈(X1∪X2)表示一个j等级的数据包到达。
2.对于X2中的状态s,也会发生两种转移:
1)转移到状态s'∈X4,其转移速率为q(s'|s,0)=nijμij,s'(∈X4)表示一个i等级检测引擎恰好完成一个j等级数据包的检测;
2)转移到状态s'∈X2,其转移速率为q(s'|s,0)=λj,s'(∈X2)表示一个j等级的数据包到来。
3.对于X3中的状态s,只有可能发生两种转移:
1)s′∈X3,其转移速率为q(s'|s,0)=λj,s′(∈X3)表示一个j等级的数据包到来;
2)s′∈X1,其转移速率为q(s'|s,0)=nijμij,s'(∈X1)表示一个i等级检测引擎恰好完成一个j等级数据包的检测;
4.对于X4中的状态s,nk0>0,采取行动k,可能会发生两种转移:
1)转移到状态s′∈X3∪X4,其转移速率为
Figure BDA0003211013410000101
s′∈X3∪X4表示一个i等级检测引擎恰好完成一个j等级数据包;
2)转移到状态s'∈X2,其转移速率为q(s'|s,k)=λj,s'(∈X2)表示一个j等级的数据包到来。
除了上面已经定义的元素以外,转移速率矩阵的非对角元素全部都是0。转移速率矩阵的对角元素可以定义为
Figure BDA0003211013410000102
对任何的确定性策略f∈F,可以得到对应的转移速率矩阵Q(f).根据连续时间的马尔科夫决策过程理论,得到转移概率矩阵P(f)为
P(f)=λ-1[Q(f)]+I (11);
其中λ满足
Figure BDA0003211013410000103
对于转移速率矩阵Q(f),将每一行除以该行对应对角线上的元素以后,再加上一个单位矩阵,也可以得到一个嵌入马尔科夫链的转移概率矩阵P'(f)。通过这两种不同方法得到的系统,它们的最优策略和对应的值函数都是相同的。
步骤3.6,基于步骤3.5所得结果确定价值函数和最优策略;步骤3.6的具体过程为:
前面设定lk为检测第k等级数据包对检测引擎带来的最小负载,lk依赖于要检测的数据包的负载等级k;平均负载ldk取决于检测引擎的性能等级d和数据包的负载等级k,考虑到检测时间的分布通常是指数分布,那么在状态s时采取行动a的期望负载为
Figure BDA0003211013410000111
上式也就是基于策略f的状态-行为价值函数(state-action value function)qf(s,a),所以qf(s,a)=l(s,a)。
使用平稳策略f时,希望的最小的平均负载准则是
Figure BDA0003211013410000112
在上式中,Yi是决策时刻i的状态,s是初始状态,τi是决策时刻i的平均滞留时间。这样,一个连续时间的马尔科夫决策过程系统就形成了。考虑到行动集和状态空间都是有限集合,所以可以得出:对于平均最小负载准则,存在确定性平稳最优策略f*满足g(f*,s)≤g(f,s),对所有f∈F和s∈X,f*是最优策略。
步骤3.7,基于步骤3.6所得结果进行值迭代。步骤3.7的具体过程为:
通过上面的推导,找到了实现最小负载的最优策略f*。在寻找更小的g(f*,s)过程中,可以使用值迭代。值迭代的具体方法是依靠循环的方式通过对不同动作下的g(f,s)进行计算,如果小于收敛阈值便可以确定。
步骤4,建立深度循环神经网络模型,模拟状态空间和动作空间,解决了步骤3在状态空间和动作空间过大时造成内存空间占用太大的问题。步骤4的具体过程如下:
步骤4.1,基于步骤3,建立深度循环神经网络模型;
通常当状态空间和动作空间较小且维数不高的时候,可以使用表格形式存储每个状态和动作对应的Q值(即q(s,a)的值)。而就本发明所涉及的问题而言,状态和动作空间过大且是高维连续,所以使用表格存储Q值将带来内存太大等诸多问题。鉴于这种问题,本发明通过神经网络进行函数拟合,通过神经网络接受外部的状态信息,使相近的状态得到相近的输出动作。
由于网络流量中含有的大量视频音频等都属于时间序列数据,存在时间关联性和整体逻辑特性。与卷积神经网络相比,循环神经网络(Recurrent Neural Network,RNN)更适合处理时间序列数据的建模,所以本发明选择使用深度循环神经网络。本发明设计的深度循环神经网络结构包括输入层、隐藏层和输出层;由于处理的信息量太大,为了增加模型的表达能力,本文在深度循环神经网络中堆叠多个隐藏层。深度循环神经网络与状态动作和调度器的工作关系如图1所示:
隐藏层中包括了信息记忆功能,也就是说每一时刻隐藏层的输入不仅是输入层的输出,还包含上一时刻隐藏层的输出。所以对具体某个隐藏层来说,在t时刻,它的状态st的计算公式为:
st=tanh(Uxt+Wst-1) (14);
上式中st-1为t-1时刻的状态,W为状态s的权重参数矩阵,xt为t时刻的输入,U为输入的序列信息的权重参数矩阵。而t时刻,状态st的输出为:
Figure BDA0003211013410000131
上式中softmax为输出的激活函数,V为输出的序列信息的权重参数矩阵。
由于处理的信息量太大,为了增加模型的表达能力,本发明在深度循环神经网络中堆叠多个隐藏层。
步骤4.2,基于步骤4.1所得结果度量深度循环神经网络模型输出产生的误差;步骤4.2的具体过程为:
为了度量循环神经网络模型输出产生的误差,本发明使用了交叉熵的损失函数来优化权重参数矩阵U、W和V,使得输入的序列数据经过循环神经网络处理后的输出值更加接近真实的输出值。
设输出的时间序列总数为T,那么深度循环神经网络模型的总损失函数为:
Figure BDA0003211013410000132
其中,yt为t时刻的真实值,
Figure BDA0003211013410000133
为t时刻的预测值。
步骤4.3,基于步骤4.2所得结果训练深度循环神经网络。
步骤4.3的具体过程为:
深度循环神经网络模型建好后,为了模拟状态空间和动作空间,需要对其进行训练。训练过程中使用的算法是时间反向传播算法(Backpropagation through Time,BPTT),BPTT算法沿着需要优化的参数的负梯度方向不断寻找更优的点直至收敛,具体步骤为:
1)根据公式st=tanh(Uxt+Wst-1)前向计算每个神经元的输出值;
2)沿向上和向前两个方向,反向计算每个神经元的误差项δj值,误差项δj值同时也是误差函数E对神经元的加权输入netj的偏导数。任意时刻k的误差项δk具体计算公式如下:
Figure BDA0003211013410000141
其中,
Figure BDA0003211013410000142
表示δk的行向量。diag[a]表示根据向量a创建一个对角矩阵。向量netj表示神经元在j时刻的加权输入。
3)计算每个权重的梯度;
具体方法为:首先计算误差函数E对权重矩阵W的梯度
Figure BDA0003211013410000143
接下来计算权重矩阵W在i时刻的梯度
Figure BDA0003211013410000144
具体公式为:
Figure BDA0003211013410000145
其中最终的梯度
Figure BDA0003211013410000146
是各个时刻的梯度之和。
4)用随机梯度下降算法更新权重。
当步骤4.3完成后,深度循环网络即可模拟状态空间和动作空间,由深度循环网络接受外部的状态信息,使相近的状态得到相近的输出动作,解决了步骤3状态空间和动作空间过大造成内存空间占用太大的问题。
步骤5,调度器基于步骤3所产生的最优策略和步骤4对步骤3的优化措施向检测引擎分配数据包;
步骤6,当一个需要检测的数据包到来时,如果分布式入侵检测系统中没有空闲的检测引擎,调度器将记录这一检测数据包放入等待队列,一旦等待队列满额,这个新到的数据包将不得不被放弃检测。
因为下一个到来的数据包负载等级是不确定的,而且队列的长度是有限的,所以对于检测引擎数量固定的分布式入侵检测系统来说,本发明提出的任务调度算法可以做出最优决策使系统整体负载降低,并解决状态空间和动作空间过大造成内存空间占用太大的问题。

Claims (6)

1.基于深度强化学习的DIDS任务调度优化方法,其特征在于:具体包括如下步骤:
步骤1,对DIDS中的各检测引擎进行性能评估,收集各检测引擎对测试流量的数据量da、检测时间dt、内存占用mu和检测引擎i的CPU频率Fi信息,并定义检测引擎的性能指标pi计算模型如下:
Figure FDA0003211013400000011
对所有检测引擎测试后,根据性能高低各检测引擎分成不同等级d,d=1,…,D,d值相差在10%以内的,即归为同一等级;
步骤2,当一个数据包到来需要检测时,调度器首先获取数据包长度,对数据包产生的负载进行评估;
步骤3,利用马尔科夫决策过程对DIDS任务调度进行建模,确定实现系统最小负载的最优策略;
步骤4,建立深度循环神经网络模型,基于步骤3所得的最优策略模拟状态空间和动作空间;
步骤5,基于步骤4所得结果,调度器向检测引擎分配数据包;
步骤6,当一个需要检测的数据包到来时,若分布式入侵检测系统中没有空闲的检测引擎,调度器将记录这一检测数据包放入等待队列,一旦等待队列满额,这个新到的数据包将被放弃检测。
2.根据权利要求1所述的基于深度强化学习的DIDS任务调度优化方法,其特征在于:所述步骤2中对数据包产生的负载进行评估的方法为:通过数据包长度与以太网最大传输单元1500Bytes的比值,得出该数据包所产生的负载等级k,k=1,…,K,k值相差在10%以内的,即归为同一等级。
3.根据权利要求2所述的基于深度强化学习的DIDS任务调度优化方法,其特征在于:所述步骤4的具体过程如下:
步骤4.1,建立深度循环神经网络模型;
步骤4.2,基于步骤4.1所得结果度量深度循环神经网络模型输出产生的误差;
步骤4.3,基于步骤4.2所得结果训练深度循环神经网络。
4.根据权利要求3所述的基于深度强化学习的DIDS任务调度优化方法,其特征在于:所述步骤4.1的具体过程为:
深度循环神经网络结构包括输入层、隐藏层和输出层;
隐藏层中包括信息记忆功能,对于某个具体的隐藏层,在t时刻,该隐藏层的状态st的计算公式为:
st=tanh(Uxt+Wst-1) (2);
其中,st-1为t-1时刻的状态,W为状态s的权重参数矩阵,xt为t时刻的输入,U为输入的序列信息的权重参数矩阵,而t时刻,状态st的输出为:
Figure FDA0003211013400000021
其中,softmax为输出的激活函数,V为输出的序列信息的权重参数矩阵。
5.根据权利要求4所述的基于深度强化学习的DIDS任务调度优化方法,其特征在于:所述步骤4.2的具体过程为:
使用交叉熵的损失函数来优化权重参数矩阵U、W和V;
设输出的时间序列总数为T,则深度循环神经网络模型的总损失函数L为:
Figure FDA0003211013400000031
其中,yt为t时刻的真实值,
Figure FDA0003211013400000032
为t时刻的预测值。
6.根据权利要求5所述的基于深度强化学习的DIDS任务调度优化方法,其特征在于:所述步骤4.3的具体过程为:
步骤4.3.1,根据公式st=tanh(Uxt+Wst-1)前向计算每个神经元的输出值st
步骤4.3.2,向上和向前两个方向,反向计算每个神经元的误差项δj值,误差项δj值同时也是误差函数E对神经元的加权输入netj的偏导数,任意时刻k的误差项δk具体计算公式如下:
Figure FDA0003211013400000033
其中,
Figure FDA0003211013400000034
表示δk的行向量,diag[a]表示根据向量a创建一个对角矩阵,向量netj表示神经元在j时刻的加权输入。
步骤4.3.3,计算每个权重的梯度;
具体为:首先计算误差函数E对权重矩阵W的梯度
Figure FDA0003211013400000035
然后计算权重矩阵W在i时刻的梯度
Figure FDA0003211013400000036
具体公式为:
Figure FDA0003211013400000037
其中,最终的梯度
Figure FDA0003211013400000038
是各个时刻的梯度之和;
步骤4.3.4,用随机梯度下降算法更新权重。
CN202110930083.4A 2021-08-13 2021-08-13 基于深度强化学习的dids任务调度优化方法 Active CN113641496B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110930083.4A CN113641496B (zh) 2021-08-13 2021-08-13 基于深度强化学习的dids任务调度优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110930083.4A CN113641496B (zh) 2021-08-13 2021-08-13 基于深度强化学习的dids任务调度优化方法

Publications (2)

Publication Number Publication Date
CN113641496A true CN113641496A (zh) 2021-11-12
CN113641496B CN113641496B (zh) 2023-12-12

Family

ID=78421695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110930083.4A Active CN113641496B (zh) 2021-08-13 2021-08-13 基于深度强化学习的dids任务调度优化方法

Country Status (1)

Country Link
CN (1) CN113641496B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115766241A (zh) * 2022-11-21 2023-03-07 西安工程大学 基于dqn算法的分布式入侵检测系统任务调度卸载方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145387A (zh) * 2017-05-23 2017-09-08 南京大学 一种车载网环境下基于深度强化学习的任务调度方法
US20190095819A1 (en) * 2017-09-27 2019-03-28 Oracle International Corporation Scalable and efficient distributed auto-tuning of machine learning and deep learning models
CN109799533A (zh) * 2018-12-28 2019-05-24 中国石油化工股份有限公司 一种基于双向循环神经网络的储层预测方法
CN111506405A (zh) * 2020-04-08 2020-08-07 北京交通大学 一种基于深度强化学习的边缘计算时间片调度方法
CN111694662A (zh) * 2020-05-26 2020-09-22 西安工程大学 基于强化学习的dids中低负载与丢包率的平衡方法
US20210081787A1 (en) * 2019-09-12 2021-03-18 Beijing University Of Posts And Telecommunications Method and apparatus for task scheduling based on deep reinforcement learning, and device
CN112839048A (zh) * 2020-05-21 2021-05-25 西安工程大学 边缘计算环境下基于强化学习的dids任务调度算法
CN112882815A (zh) * 2021-03-23 2021-06-01 南京邮电大学 基于深度强化学习的多用户边缘计算优化调度方法
US20210216366A1 (en) * 2020-01-15 2021-07-15 B.G. Negev Technologies & Applications Ltd. At Ben-Gurion University Multi-objective scheduling system and method
CN113127193A (zh) * 2021-03-23 2021-07-16 北京工业大学 一种边缘网络动态业务卸载和调度方法及装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145387A (zh) * 2017-05-23 2017-09-08 南京大学 一种车载网环境下基于深度强化学习的任务调度方法
US20190095819A1 (en) * 2017-09-27 2019-03-28 Oracle International Corporation Scalable and efficient distributed auto-tuning of machine learning and deep learning models
CN109799533A (zh) * 2018-12-28 2019-05-24 中国石油化工股份有限公司 一种基于双向循环神经网络的储层预测方法
US20210081787A1 (en) * 2019-09-12 2021-03-18 Beijing University Of Posts And Telecommunications Method and apparatus for task scheduling based on deep reinforcement learning, and device
US20210216366A1 (en) * 2020-01-15 2021-07-15 B.G. Negev Technologies & Applications Ltd. At Ben-Gurion University Multi-objective scheduling system and method
CN111506405A (zh) * 2020-04-08 2020-08-07 北京交通大学 一种基于深度强化学习的边缘计算时间片调度方法
CN112839048A (zh) * 2020-05-21 2021-05-25 西安工程大学 边缘计算环境下基于强化学习的dids任务调度算法
CN111694662A (zh) * 2020-05-26 2020-09-22 西安工程大学 基于强化学习的dids中低负载与丢包率的平衡方法
CN112882815A (zh) * 2021-03-23 2021-06-01 南京邮电大学 基于深度强化学习的多用户边缘计算优化调度方法
CN113127193A (zh) * 2021-03-23 2021-07-16 北京工业大学 一种边缘网络动态业务卸载和调度方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈新鹏;汪莹;: "云环境下基于强化学习的任务调度问题研究", 现代计算机, no. 09 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115766241A (zh) * 2022-11-21 2023-03-07 西安工程大学 基于dqn算法的分布式入侵检测系统任务调度卸载方法

Also Published As

Publication number Publication date
CN113641496B (zh) 2023-12-12

Similar Documents

Publication Publication Date Title
CN111867139B (zh) 基于q学习的深度神经网络自适应退避策略实现方法及系统
CN111694662B (zh) 基于强化学习的dids中低负载与丢包率的平衡方法
CN113852432B (zh) 基于rcs-gru模型的频谱预测感知方法
CN112839048B (zh) 边缘计算环境下基于强化学习的dids任务调度算法
CN113887748B (zh) 在线联邦学习任务分配方法、装置、联邦学习方法及系统
CN113285831B (zh) 网络行为知识智能学习方法、装置、计算机设备及存储介质
CN108111335B (zh) 一种调度和链接虚拟网络功能的方法及系统
CN111553469A (zh) 一种无线传感器网络数据融合方法、装置和存储介质
CN113537580B (zh) 一种基于自适应图学习的公共交通客流预测方法及系统
CN115099133B (zh) 一种基于tlmpa-bp的集群系统可靠性评估方法
CN111416797A (zh) 改进天牛群算法优化正则化极限学习机的入侵检测方法
Zhao et al. Adaptive swarm intelligent offloading based on digital twin-assisted prediction in VEC
CN116366453A (zh) 异构网元业务需求表征与虚拟网元的自适应动态部署方法
CN112307667A (zh) 一种蓄电池的荷电状态估算方法、装置、电子设备及存储介质
CN117014355A (zh) 一种基于ddpg深度强化学习算法的tssdn动态路由决策方法
CN113641496B (zh) 基于深度强化学习的dids任务调度优化方法
CN114936708A (zh) 基于边云协同任务卸载的故障诊断优化方法及电子设备
CN114546609A (zh) 一种面向异构集群的dnn推理任务批调度方法
CN113516163B (zh) 基于网络剪枝的车辆分类模型压缩方法、装置及存储介质
Huang et al. Effective scheduling function design in SDN through deep reinforcement learning
CN114650321A (zh) 用于边缘计算的任务调度方法及边缘计算终端
CN116680969A (zh) 一种pso-bp算法的充填体评估参数预测方法及装置
CN115794405A (zh) 一种基于SSA-XGboost算法的大数据处理框架的动态资源分配方法
CN113487870B (zh) 一种基于cw攻击对智能单交叉口的对抗扰动生成方法
CN114662658A (zh) 一种基于lstm神经网络的片上光网络热点预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20231108

Address after: Room 1516, 15th Floor, Building 3, Yungu Phase 2, West Fengxi New City, Xixian New District, Xi'an City, Shaanxi Province, 712000

Applicant after: Shaanxi Bianyun Collaborative Network Technology Co.,Ltd.

Address before: 710048 Shaanxi province Xi'an Beilin District Jinhua Road No. 19

Applicant before: XI'AN POLYTECHNIC University

GR01 Patent grant
GR01 Patent grant