CN113641496A - 基于深度强化学习的dids任务调度优化方法 - Google Patents
基于深度强化学习的dids任务调度优化方法 Download PDFInfo
- Publication number
- CN113641496A CN113641496A CN202110930083.4A CN202110930083A CN113641496A CN 113641496 A CN113641496 A CN 113641496A CN 202110930083 A CN202110930083 A CN 202110930083A CN 113641496 A CN113641496 A CN 113641496A
- Authority
- CN
- China
- Prior art keywords
- data packet
- time
- detection
- dids
- task scheduling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000005457 optimization Methods 0.000 title claims abstract description 15
- 230000002787 reinforcement Effects 0.000 title claims abstract description 15
- YSCNMFDFYJUPEF-OWOJBTEDSA-N 4,4'-diisothiocyano-trans-stilbene-2,2'-disulfonic acid Chemical compound OS(=O)(=O)C1=CC(N=C=S)=CC=C1\C=C\C1=CC=C(N=C=S)C=C1S(O)(=O)=O YSCNMFDFYJUPEF-OWOJBTEDSA-N 0.000 title claims abstract 10
- 238000001514 detection method Methods 0.000 claims abstract description 75
- 230000008569 process Effects 0.000 claims abstract description 28
- 230000009471 action Effects 0.000 claims abstract description 24
- 238000003062 neural network model Methods 0.000 claims abstract description 15
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 20
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 9
- 210000002569 neuron Anatomy 0.000 claims description 9
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000006386 memory function Effects 0.000 claims description 2
- 238000012546 transfer Methods 0.000 description 15
- 230000007704 transition Effects 0.000 description 15
- 230000000306 recurrent effect Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5061—Partitioning or combining of resources
- G06F9/5072—Grid computing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种基于深度强化学习的DIDS任务调度优化方法,包括如下步骤:对检测引擎进行性能等级评估,对所检测的数据包进行负载评估,用马尔科夫决策过程建模,建立深度循环神经网络模型,调度器进行决策并确定如何分配检测引擎去检测数据包。对于检测引擎数量固定的分布式入侵检测系统,本发明提出的任务调度算法可以做出最优决策使系统整体负载降低,同时还能解决状态空间和动作空间过大造成内存空间占用太大的问题。
Description
技术领域
本发明属于网络安全技术领域,涉及一种基于深度强化学习的DIDS任务调度优化方法。
背景技术
边缘计算作为一种新的计算模式,在快速发展的同时也面临新的网络安全挑战。在节点性能有限的边缘计算环境下进行分布式入侵检测系统(DIDS)的任务分配,是一种典型的资源受限任务调度问题。由于边缘节点性能受限,所以云计算中依赖高性能设备的DIDS(DIDS,分布式入侵检测系统)需要向低负载化改进,才能在网络边缘就近检测数据。在现有技术中,当使用强化学习解决以上问题时,如果状态空间和动作空间过大或高维连续,将会带来内存空间占用太大等诸多问题。
发明内容
本发明的目的是提供一种基于深度强化学习的DIDS任务调度优化方法,该方法能够在边缘计算环境下根据网络变化动态调节任务调度策略,使DIDS的负载有效降低,同时还能够解决现有技术中状态空间和动作空间过大造成内存空间占用太大的问题。
本发明所采用的技术方案是,基于深度强化学习的DIDS任务调度优化方法,具体包括如下步骤:
步骤1,对DIDS中的各检测引擎进行性能评估,收集各检测引擎对测试流量的数据量da、检测时间dt、内存占用mu和检测引擎i的CPU频率Fi信息,并定义检测引擎的性能指标pi计算模型如下:
对所有检测引擎测试后,根据性能高低各检测引擎分成不同等级d,d=1,…,D,d值相差在10%以内的,即归为同一等级;
步骤2,当一个数据包到来需要检测时,调度器首先获取数据包长度,对数据包产生的负载进行评估;
步骤3,利用马尔科夫决策过程对DIDS任务调度进行建模,确定实现系统最小负载的最优策略;
步骤4,建立深度循环神经网络模型,基于步骤3所得的最优策略模拟状态空间和动作空间;
步骤5,基于步骤4所得结果,调度器向检测引擎分配数据包;
步骤6,当一个需要检测的数据包到来时,若分布式入侵检测系统中没有空闲的检测引擎,调度器将记录这一检测数据包放入等待队列,一旦等待队列满额,这个新到的数据包将被放弃检测。
本发明的特点还在于:
步骤2中对数据包产生的负载进行评估的方法为:通过数据包长度与以太网最大传输单元1500Bytes的比值,得出该数据包所产生的负载等级k,k=1,…,K,k值相差在10%以内的,即归为同一等级。
步骤4的具体过程如下:
步骤4.1,建立深度循环神经网络模型;
步骤4.2,基于步骤4.1所得结果度量深度循环神经网络模型输出产生的误差;
步骤4.3,基于步骤4.2所得结果训练深度循环神经网络。
步骤4.1的具体过程为:
深度循环神经网络结构包括输入层、隐藏层和输出层;
隐藏层中包括信息记忆功能,对于某个具体的隐藏层,在t时刻,该隐藏层的状态st的计算公式为:
st=tanh(Uxt+Wst-1) (2);
其中,st-1为t-1时刻的状态,W为状态s的权重参数矩阵,xt为t时刻的输入,U为输入的序列信息的权重参数矩阵,而t时刻,状态st的输出为:
其中,softmax为输出的激活函数,V为输出的序列信息的权重参数矩阵。
步骤4.2的具体过程为:
使用交叉熵的损失函数来优化权重参数矩阵U、W和V,使得输入的序列数据经过循环神经网络处理后的输出值更加接近真实的输出值;
设输出的时间序列总数为T,则深度循环神经网络模型的总损失函数L为:
步骤4.3的具体过程为:
步骤4.3.1,根据公式st=tanh(Uxt+Wst-1)前向计算每个神经元的输出值st:
步骤4.3.2,向上和向前两个方向,反向计算每个神经元的误差项δj值,误差项δj值同时也是误差函数E对神经元的加权输入netj的偏导数,任意时刻k的误差项δk具体计算公式如下:
步骤4.3.3,计算每个权重的梯度;
步骤4.3.4,用随机梯度下降算法更新权重。
本发明的有益效果是:本发明能够在边缘计算环境下根据网络变化动态调节任务调度策略,使分布式入侵检测系统的负载有效降低,并能够解决状态空间和动作空间过大带来的问题。
附图说明
图1是本发明基于深度强化学习的DIDS任务调度优化方法中深度循环神经网络与调度器。
具体实施方式
下面结合具体实施方式对本发明进行详细说明。
本发明基于深度强化学习的DIDS任务调度优化方法,具体按照以下步骤实施:
步骤1,工作开始前,对DIDS中的各检测引擎进行性能评估,收集其对测试流量的数据量da(单位bit)、检测时间dt(单位ms)、内存占用mu(单位Mb)和检测引擎i的CPU频率Fi(单位Ghz)信息,并定义检测引擎的性能指标pi(performance index)计算模型如下:
对所有检测引擎测试后,根据性能高低将其分成不同等级d,d=1,…,D,d值相差在10%以内的,可归为同一等级;
步骤2,开始工作后,当一个数据包到来需要检测时,调度器首先获取数据包长度,对数据包产生的负载进行评估,评估方法是通过数据包长度与以太网最大传输单元(MTU)1500Bytes的比值,得出该数据包所产生的负载等级k,k=1,…,K。k值相差在10%以内的,可归为同一等级;
步骤3,利用马尔科夫决策过程就本发明所要解决的具体调度问题建模;
步骤3.1,定义参数;
分布式入侵检测系统有D个性能等级的检测引擎对K个负载等级的数据包的检测需求,检测时间服从指数分布,数据包的到达过程可以看作K个独立的泊松过程。评判准则采取平均负载准则。考虑数据包到达和检测结束的时刻,那么此时嵌入链是马尔科夫链。表1对建模中用到的参数进行定义:
表1
步骤3.2,基于步骤3.1所得结果确定状态空间;
步骤3.2的具体过程为:
下面将s=(N(D,K),B(K),r)设为状态,其中N(D,L)是一个向量,具有形式(n10,n11,…,n1K-1,n20,…,nDK-1),描述了分布式入侵检测系统的工作状态,包括尚未分配检测任务的检测引擎的分布以及正在为各等级数据包检测的检测引擎状况;B(K)也是一个向量,而且具有形式(b1,b2,…,bK),描述了正在等待检测的数据包情况,包括各种数据包的数量;而r取值于集合{K,K-1,…,1,0},描述最一个到达的数据包的情况。当队列长度的限制b确定以后,就可以定义一个含有所有可能状态的集合X,如公式1所示。
在上式中,b>0是允许的队列长度。
下面列出集合X中的几种典型的可能状态:
1.系统里如果有空闲的检测引擎,刚好有一个数据包到达,经过负载评估是第j等级数据包,那么X1作为X集合中的一个状态,如公
式2所示
其中状态(N(D,K),B(K),j)表示新到的数据包带来了第j等级的检测需求。
2.系统里没有可用的检测引擎时的所有可能状态X2可以表示为下式
3.系统里仍有空闲的检测引擎且无数据包等待检测(此时r=0)的所有可能状态X3可以表示为下式
4.系统里只有一个空闲的检测引擎且有等待检测的数据包的所有可能状态(这种情况比较少见)。
步骤3.3,基于步骤3.2所得结果确定决策时刻;步骤3.3的具体过程为:
当一个新的数据包到达,需要调度器分配一个检测引擎进行检测,这时发生了系统状态的变化,所以调度器需要做出决策,选择执行对应的行为。与此类似,当一个检测引擎完成对某个数据包的检测时,这个行为的执行使得系统的状态也发生了改变,使系统当前的状态转移到状态空间中另一个状态。
步骤3.4,基于步骤3.3所得结果确定动作集合;步骤3.4的具体过程为:
在上面列出的几种情况中,对于X1中的状态,调度器需要选择指派哪一等级的检测引擎来处理这个数据包,对于X4中的状态,系统需要考虑目前唯一空闲的检测引擎应该检测队列中哪一等级数据包,对于X2和X3中的状态,系统不需要做出选择。所以状态空间X的动作集合A定义为
A(s)={d|nd0>0,d=1,2,...,D},s∈X1
A(s)={0},s∈X2
A(s)={0},s∈X3
A(s)={k|bk>0,k=1,2,..,K},s∈X4 (7);
动作集合中的0表示不需要作出决策,动作k∈A(s)(s∈X4)表示由系统里唯一空闲的检测引擎去处理一个等待的k等级数据包,而d∈A(s)(s∈X1)表示由第d等级的检测引擎去检测刚刚到达的数据包。
步骤3.5,基于步骤3.4所得结果确定转移速率与转移概率;步骤3.5的具体过程为:转移概率是依赖于系统当前所处的状态和调度器选取的行动来决定。本发明中因为使用的是马尔科夫决策过程,所以转移概率可以通过转移速率求得。而转移速率可以分为下面的几种情况确定:
1.对于X1中的状态s,当k等级的数据包到达,调度器选择与之对应的d等级检测引擎去检测,此时,会出现两种可能的转移:
1)转移到状态s'∈X3,其转移速率为
这里的s'∈X3表示一个i等级的检测引擎恰好完成对一个j等级数据包的检测;
2)转移到状态s'∈X1∪X2,其转移速率为q(s'|s,d)=λj,s'∈(X1∪X2)表示一个j等级的数据包到达。
2.对于X2中的状态s,也会发生两种转移:
1)转移到状态s'∈X4,其转移速率为q(s'|s,0)=nijμij,s'(∈X4)表示一个i等级检测引擎恰好完成一个j等级数据包的检测;
2)转移到状态s'∈X2,其转移速率为q(s'|s,0)=λj,s'(∈X2)表示一个j等级的数据包到来。
3.对于X3中的状态s,只有可能发生两种转移:
1)s′∈X3,其转移速率为q(s'|s,0)=λj,s′(∈X3)表示一个j等级的数据包到来;
2)s′∈X1,其转移速率为q(s'|s,0)=nijμij,s'(∈X1)表示一个i等级检测引擎恰好完成一个j等级数据包的检测;
4.对于X4中的状态s,nk0>0,采取行动k,可能会发生两种转移:
1)转移到状态s′∈X3∪X4,其转移速率为
s′∈X3∪X4表示一个i等级检测引擎恰好完成一个j等级数据包;
2)转移到状态s'∈X2,其转移速率为q(s'|s,k)=λj,s'(∈X2)表示一个j等级的数据包到来。
除了上面已经定义的元素以外,转移速率矩阵的非对角元素全部都是0。转移速率矩阵的对角元素可以定义为
对任何的确定性策略f∈F,可以得到对应的转移速率矩阵Q(f).根据连续时间的马尔科夫决策过程理论,得到转移概率矩阵P(f)为
P(f)=λ-1[Q(f)]+I (11);
对于转移速率矩阵Q(f),将每一行除以该行对应对角线上的元素以后,再加上一个单位矩阵,也可以得到一个嵌入马尔科夫链的转移概率矩阵P'(f)。通过这两种不同方法得到的系统,它们的最优策略和对应的值函数都是相同的。
步骤3.6,基于步骤3.5所得结果确定价值函数和最优策略;步骤3.6的具体过程为:
前面设定lk为检测第k等级数据包对检测引擎带来的最小负载,lk依赖于要检测的数据包的负载等级k;平均负载ldk取决于检测引擎的性能等级d和数据包的负载等级k,考虑到检测时间的分布通常是指数分布,那么在状态s时采取行动a的期望负载为
上式也就是基于策略f的状态-行为价值函数(state-action value function)qf(s,a),所以qf(s,a)=l(s,a)。
使用平稳策略f时,希望的最小的平均负载准则是
在上式中,Yi是决策时刻i的状态,s是初始状态,τi是决策时刻i的平均滞留时间。这样,一个连续时间的马尔科夫决策过程系统就形成了。考虑到行动集和状态空间都是有限集合,所以可以得出:对于平均最小负载准则,存在确定性平稳最优策略f*满足g(f*,s)≤g(f,s),对所有f∈F和s∈X,f*是最优策略。
步骤3.7,基于步骤3.6所得结果进行值迭代。步骤3.7的具体过程为:
通过上面的推导,找到了实现最小负载的最优策略f*。在寻找更小的g(f*,s)过程中,可以使用值迭代。值迭代的具体方法是依靠循环的方式通过对不同动作下的g(f,s)进行计算,如果小于收敛阈值便可以确定。
步骤4,建立深度循环神经网络模型,模拟状态空间和动作空间,解决了步骤3在状态空间和动作空间过大时造成内存空间占用太大的问题。步骤4的具体过程如下:
步骤4.1,基于步骤3,建立深度循环神经网络模型;
通常当状态空间和动作空间较小且维数不高的时候,可以使用表格形式存储每个状态和动作对应的Q值(即q(s,a)的值)。而就本发明所涉及的问题而言,状态和动作空间过大且是高维连续,所以使用表格存储Q值将带来内存太大等诸多问题。鉴于这种问题,本发明通过神经网络进行函数拟合,通过神经网络接受外部的状态信息,使相近的状态得到相近的输出动作。
由于网络流量中含有的大量视频音频等都属于时间序列数据,存在时间关联性和整体逻辑特性。与卷积神经网络相比,循环神经网络(Recurrent Neural Network,RNN)更适合处理时间序列数据的建模,所以本发明选择使用深度循环神经网络。本发明设计的深度循环神经网络结构包括输入层、隐藏层和输出层;由于处理的信息量太大,为了增加模型的表达能力,本文在深度循环神经网络中堆叠多个隐藏层。深度循环神经网络与状态动作和调度器的工作关系如图1所示:
隐藏层中包括了信息记忆功能,也就是说每一时刻隐藏层的输入不仅是输入层的输出,还包含上一时刻隐藏层的输出。所以对具体某个隐藏层来说,在t时刻,它的状态st的计算公式为:
st=tanh(Uxt+Wst-1) (14);
上式中st-1为t-1时刻的状态,W为状态s的权重参数矩阵,xt为t时刻的输入,U为输入的序列信息的权重参数矩阵。而t时刻,状态st的输出为:
上式中softmax为输出的激活函数,V为输出的序列信息的权重参数矩阵。
由于处理的信息量太大,为了增加模型的表达能力,本发明在深度循环神经网络中堆叠多个隐藏层。
步骤4.2,基于步骤4.1所得结果度量深度循环神经网络模型输出产生的误差;步骤4.2的具体过程为:
为了度量循环神经网络模型输出产生的误差,本发明使用了交叉熵的损失函数来优化权重参数矩阵U、W和V,使得输入的序列数据经过循环神经网络处理后的输出值更加接近真实的输出值。
设输出的时间序列总数为T,那么深度循环神经网络模型的总损失函数为:
步骤4.3,基于步骤4.2所得结果训练深度循环神经网络。
步骤4.3的具体过程为:
深度循环神经网络模型建好后,为了模拟状态空间和动作空间,需要对其进行训练。训练过程中使用的算法是时间反向传播算法(Backpropagation through Time,BPTT),BPTT算法沿着需要优化的参数的负梯度方向不断寻找更优的点直至收敛,具体步骤为:
1)根据公式st=tanh(Uxt+Wst-1)前向计算每个神经元的输出值;
2)沿向上和向前两个方向,反向计算每个神经元的误差项δj值,误差项δj值同时也是误差函数E对神经元的加权输入netj的偏导数。任意时刻k的误差项δk具体计算公式如下:
3)计算每个权重的梯度;
4)用随机梯度下降算法更新权重。
当步骤4.3完成后,深度循环网络即可模拟状态空间和动作空间,由深度循环网络接受外部的状态信息,使相近的状态得到相近的输出动作,解决了步骤3状态空间和动作空间过大造成内存空间占用太大的问题。
步骤5,调度器基于步骤3所产生的最优策略和步骤4对步骤3的优化措施向检测引擎分配数据包;
步骤6,当一个需要检测的数据包到来时,如果分布式入侵检测系统中没有空闲的检测引擎,调度器将记录这一检测数据包放入等待队列,一旦等待队列满额,这个新到的数据包将不得不被放弃检测。
因为下一个到来的数据包负载等级是不确定的,而且队列的长度是有限的,所以对于检测引擎数量固定的分布式入侵检测系统来说,本发明提出的任务调度算法可以做出最优决策使系统整体负载降低,并解决状态空间和动作空间过大造成内存空间占用太大的问题。
Claims (6)
1.基于深度强化学习的DIDS任务调度优化方法,其特征在于:具体包括如下步骤:
步骤1,对DIDS中的各检测引擎进行性能评估,收集各检测引擎对测试流量的数据量da、检测时间dt、内存占用mu和检测引擎i的CPU频率Fi信息,并定义检测引擎的性能指标pi计算模型如下:
对所有检测引擎测试后,根据性能高低各检测引擎分成不同等级d,d=1,…,D,d值相差在10%以内的,即归为同一等级;
步骤2,当一个数据包到来需要检测时,调度器首先获取数据包长度,对数据包产生的负载进行评估;
步骤3,利用马尔科夫决策过程对DIDS任务调度进行建模,确定实现系统最小负载的最优策略;
步骤4,建立深度循环神经网络模型,基于步骤3所得的最优策略模拟状态空间和动作空间;
步骤5,基于步骤4所得结果,调度器向检测引擎分配数据包;
步骤6,当一个需要检测的数据包到来时,若分布式入侵检测系统中没有空闲的检测引擎,调度器将记录这一检测数据包放入等待队列,一旦等待队列满额,这个新到的数据包将被放弃检测。
2.根据权利要求1所述的基于深度强化学习的DIDS任务调度优化方法,其特征在于:所述步骤2中对数据包产生的负载进行评估的方法为:通过数据包长度与以太网最大传输单元1500Bytes的比值,得出该数据包所产生的负载等级k,k=1,…,K,k值相差在10%以内的,即归为同一等级。
3.根据权利要求2所述的基于深度强化学习的DIDS任务调度优化方法,其特征在于:所述步骤4的具体过程如下:
步骤4.1,建立深度循环神经网络模型;
步骤4.2,基于步骤4.1所得结果度量深度循环神经网络模型输出产生的误差;
步骤4.3,基于步骤4.2所得结果训练深度循环神经网络。
6.根据权利要求5所述的基于深度强化学习的DIDS任务调度优化方法,其特征在于:所述步骤4.3的具体过程为:
步骤4.3.1,根据公式st=tanh(Uxt+Wst-1)前向计算每个神经元的输出值st:
步骤4.3.2,向上和向前两个方向,反向计算每个神经元的误差项δj值,误差项δj值同时也是误差函数E对神经元的加权输入netj的偏导数,任意时刻k的误差项δk具体计算公式如下:
步骤4.3.3,计算每个权重的梯度;
步骤4.3.4,用随机梯度下降算法更新权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110930083.4A CN113641496B (zh) | 2021-08-13 | 2021-08-13 | 基于深度强化学习的dids任务调度优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110930083.4A CN113641496B (zh) | 2021-08-13 | 2021-08-13 | 基于深度强化学习的dids任务调度优化方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113641496A true CN113641496A (zh) | 2021-11-12 |
CN113641496B CN113641496B (zh) | 2023-12-12 |
Family
ID=78421695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110930083.4A Active CN113641496B (zh) | 2021-08-13 | 2021-08-13 | 基于深度强化学习的dids任务调度优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113641496B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115766241A (zh) * | 2022-11-21 | 2023-03-07 | 西安工程大学 | 基于dqn算法的分布式入侵检测系统任务调度卸载方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145387A (zh) * | 2017-05-23 | 2017-09-08 | 南京大学 | 一种车载网环境下基于深度强化学习的任务调度方法 |
US20190095819A1 (en) * | 2017-09-27 | 2019-03-28 | Oracle International Corporation | Scalable and efficient distributed auto-tuning of machine learning and deep learning models |
CN109799533A (zh) * | 2018-12-28 | 2019-05-24 | 中国石油化工股份有限公司 | 一种基于双向循环神经网络的储层预测方法 |
CN111506405A (zh) * | 2020-04-08 | 2020-08-07 | 北京交通大学 | 一种基于深度强化学习的边缘计算时间片调度方法 |
CN111694662A (zh) * | 2020-05-26 | 2020-09-22 | 西安工程大学 | 基于强化学习的dids中低负载与丢包率的平衡方法 |
US20210081787A1 (en) * | 2019-09-12 | 2021-03-18 | Beijing University Of Posts And Telecommunications | Method and apparatus for task scheduling based on deep reinforcement learning, and device |
CN112839048A (zh) * | 2020-05-21 | 2021-05-25 | 西安工程大学 | 边缘计算环境下基于强化学习的dids任务调度算法 |
CN112882815A (zh) * | 2021-03-23 | 2021-06-01 | 南京邮电大学 | 基于深度强化学习的多用户边缘计算优化调度方法 |
US20210216366A1 (en) * | 2020-01-15 | 2021-07-15 | B.G. Negev Technologies & Applications Ltd. At Ben-Gurion University | Multi-objective scheduling system and method |
CN113127193A (zh) * | 2021-03-23 | 2021-07-16 | 北京工业大学 | 一种边缘网络动态业务卸载和调度方法及装置 |
-
2021
- 2021-08-13 CN CN202110930083.4A patent/CN113641496B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107145387A (zh) * | 2017-05-23 | 2017-09-08 | 南京大学 | 一种车载网环境下基于深度强化学习的任务调度方法 |
US20190095819A1 (en) * | 2017-09-27 | 2019-03-28 | Oracle International Corporation | Scalable and efficient distributed auto-tuning of machine learning and deep learning models |
CN109799533A (zh) * | 2018-12-28 | 2019-05-24 | 中国石油化工股份有限公司 | 一种基于双向循环神经网络的储层预测方法 |
US20210081787A1 (en) * | 2019-09-12 | 2021-03-18 | Beijing University Of Posts And Telecommunications | Method and apparatus for task scheduling based on deep reinforcement learning, and device |
US20210216366A1 (en) * | 2020-01-15 | 2021-07-15 | B.G. Negev Technologies & Applications Ltd. At Ben-Gurion University | Multi-objective scheduling system and method |
CN111506405A (zh) * | 2020-04-08 | 2020-08-07 | 北京交通大学 | 一种基于深度强化学习的边缘计算时间片调度方法 |
CN112839048A (zh) * | 2020-05-21 | 2021-05-25 | 西安工程大学 | 边缘计算环境下基于强化学习的dids任务调度算法 |
CN111694662A (zh) * | 2020-05-26 | 2020-09-22 | 西安工程大学 | 基于强化学习的dids中低负载与丢包率的平衡方法 |
CN112882815A (zh) * | 2021-03-23 | 2021-06-01 | 南京邮电大学 | 基于深度强化学习的多用户边缘计算优化调度方法 |
CN113127193A (zh) * | 2021-03-23 | 2021-07-16 | 北京工业大学 | 一种边缘网络动态业务卸载和调度方法及装置 |
Non-Patent Citations (1)
Title |
---|
陈新鹏;汪莹;: "云环境下基于强化学习的任务调度问题研究", 现代计算机, no. 09 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115766241A (zh) * | 2022-11-21 | 2023-03-07 | 西安工程大学 | 基于dqn算法的分布式入侵检测系统任务调度卸载方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113641496B (zh) | 2023-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111867139B (zh) | 基于q学习的深度神经网络自适应退避策略实现方法及系统 | |
CN111694662B (zh) | 基于强化学习的dids中低负载与丢包率的平衡方法 | |
CN113852432B (zh) | 基于rcs-gru模型的频谱预测感知方法 | |
CN112839048B (zh) | 边缘计算环境下基于强化学习的dids任务调度算法 | |
CN113887748B (zh) | 在线联邦学习任务分配方法、装置、联邦学习方法及系统 | |
CN113285831B (zh) | 网络行为知识智能学习方法、装置、计算机设备及存储介质 | |
CN108111335B (zh) | 一种调度和链接虚拟网络功能的方法及系统 | |
CN111553469A (zh) | 一种无线传感器网络数据融合方法、装置和存储介质 | |
CN113537580B (zh) | 一种基于自适应图学习的公共交通客流预测方法及系统 | |
CN115099133B (zh) | 一种基于tlmpa-bp的集群系统可靠性评估方法 | |
CN111416797A (zh) | 改进天牛群算法优化正则化极限学习机的入侵检测方法 | |
Zhao et al. | Adaptive swarm intelligent offloading based on digital twin-assisted prediction in VEC | |
CN116366453A (zh) | 异构网元业务需求表征与虚拟网元的自适应动态部署方法 | |
CN112307667A (zh) | 一种蓄电池的荷电状态估算方法、装置、电子设备及存储介质 | |
CN117014355A (zh) | 一种基于ddpg深度强化学习算法的tssdn动态路由决策方法 | |
CN113641496B (zh) | 基于深度强化学习的dids任务调度优化方法 | |
CN114936708A (zh) | 基于边云协同任务卸载的故障诊断优化方法及电子设备 | |
CN114546609A (zh) | 一种面向异构集群的dnn推理任务批调度方法 | |
CN113516163B (zh) | 基于网络剪枝的车辆分类模型压缩方法、装置及存储介质 | |
Huang et al. | Effective scheduling function design in SDN through deep reinforcement learning | |
CN114650321A (zh) | 用于边缘计算的任务调度方法及边缘计算终端 | |
CN116680969A (zh) | 一种pso-bp算法的充填体评估参数预测方法及装置 | |
CN115794405A (zh) | 一种基于SSA-XGboost算法的大数据处理框架的动态资源分配方法 | |
CN113487870B (zh) | 一种基于cw攻击对智能单交叉口的对抗扰动生成方法 | |
CN114662658A (zh) | 一种基于lstm神经网络的片上光网络热点预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20231108 Address after: Room 1516, 15th Floor, Building 3, Yungu Phase 2, West Fengxi New City, Xixian New District, Xi'an City, Shaanxi Province, 712000 Applicant after: Shaanxi Bianyun Collaborative Network Technology Co.,Ltd. Address before: 710048 Shaanxi province Xi'an Beilin District Jinhua Road No. 19 Applicant before: XI'AN POLYTECHNIC University |
|
GR01 | Patent grant | ||
GR01 | Patent grant |