CN113641496A

CN113641496A - 基于深度强化学习的dids任务调度优化方法

Info

Publication number: CN113641496A
Application number: CN202110930083.4A
Authority: CN
Inventors: 赵旭; 薛涛; 江晋
Original assignee: Xian Polytechnic University
Current assignee: Shaanxi Bianyun Collaborative Network Technology Co ltd
Priority date: 2021-08-13
Filing date: 2021-08-13
Publication date: 2021-11-12
Anticipated expiration: 2041-08-13
Also published as: CN113641496B

Abstract

本发明公开了一种基于深度强化学习的DIDS任务调度优化方法，包括如下步骤：对检测引擎进行性能等级评估，对所检测的数据包进行负载评估，用马尔科夫决策过程建模，建立深度循环神经网络模型，调度器进行决策并确定如何分配检测引擎去检测数据包。对于检测引擎数量固定的分布式入侵检测系统，本发明提出的任务调度算法可以做出最优决策使系统整体负载降低，同时还能解决状态空间和动作空间过大造成内存空间占用太大的问题。

Description

基于深度强化学习的DIDS任务调度优化方法

技术领域

本发明属于网络安全技术领域，涉及一种基于深度强化学习的DIDS任务调度优化方法。

背景技术

边缘计算作为一种新的计算模式，在快速发展的同时也面临新的网络安全挑战。在节点性能有限的边缘计算环境下进行分布式入侵检测系统(DIDS)的任务分配，是一种典型的资源受限任务调度问题。由于边缘节点性能受限，所以云计算中依赖高性能设备的DIDS(DIDS，分布式入侵检测系统)需要向低负载化改进，才能在网络边缘就近检测数据。在现有技术中，当使用强化学习解决以上问题时，如果状态空间和动作空间过大或高维连续，将会带来内存空间占用太大等诸多问题。

发明内容

本发明的目的是提供一种基于深度强化学习的DIDS任务调度优化方法，该方法能够在边缘计算环境下根据网络变化动态调节任务调度策略，使DIDS的负载有效降低，同时还能够解决现有技术中状态空间和动作空间过大造成内存空间占用太大的问题。

本发明所采用的技术方案是，基于深度强化学习的DIDS任务调度优化方法，具体包括如下步骤：

步骤1，对DIDS中的各检测引擎进行性能评估，收集各检测引擎对测试流量的数据量da、检测时间dt、内存占用mu和检测引擎i的CPU频率Fi信息，并定义检测引擎的性能指标pi计算模型如下：

对所有检测引擎测试后，根据性能高低各检测引擎分成不同等级d,d＝1,…,D，d值相差在10％以内的，即归为同一等级；

步骤2，当一个数据包到来需要检测时,调度器首先获取数据包长度，对数据包产生的负载进行评估；

步骤3，利用马尔科夫决策过程对DIDS任务调度进行建模，确定实现系统最小负载的最优策略；

步骤4，建立深度循环神经网络模型，基于步骤3所得的最优策略模拟状态空间和动作空间；

步骤5，基于步骤4所得结果，调度器向检测引擎分配数据包；

步骤6，当一个需要检测的数据包到来时，若分布式入侵检测系统中没有空闲的检测引擎，调度器将记录这一检测数据包放入等待队列,一旦等待队列满额，这个新到的数据包将被放弃检测。

本发明的特点还在于：

步骤2中对数据包产生的负载进行评估的方法为：通过数据包长度与以太网最大传输单元1500Bytes的比值，得出该数据包所产生的负载等级k,k＝1,…,K，k值相差在10％以内的，即归为同一等级。

步骤4的具体过程如下：

步骤4.1，建立深度循环神经网络模型；

步骤4.2，基于步骤4.1所得结果度量深度循环神经网络模型输出产生的误差；

步骤4.3，基于步骤4.2所得结果训练深度循环神经网络。

步骤4.1的具体过程为：

深度循环神经网络结构包括输入层、隐藏层和输出层；

隐藏层中包括信息记忆功能，对于某个具体的隐藏层，在t时刻，该隐藏层的状态s_t的计算公式为：

s_t＝tanh(Ux_t+Ws_t-1) (2)；

其中，s_t-1为t-1时刻的状态，W为状态s的权重参数矩阵，x_t为t时刻的输入，U为输入的序列信息的权重参数矩阵，而t时刻，状态s_t的输出为：

其中，softmax为输出的激活函数，V为输出的序列信息的权重参数矩阵。

步骤4.2的具体过程为：

使用交叉熵的损失函数来优化权重参数矩阵U、W和V，使得输入的序列数据经过循环神经网络处理后的输出值更加接近真实的输出值；

设输出的时间序列总数为T，则深度循环神经网络模型的总损失函数L为：

其中，y_t为t时刻的真实值，

为t时刻的预测值。

步骤4.3的具体过程为：

步骤4.3.1，根据公式s_t＝tanh(Ux_t+Ws_t-1)前向计算每个神经元的输出值s_t：

步骤4.3.2，向上和向前两个方向，反向计算每个神经元的误差项δ_j值，误差项δ_j值同时也是误差函数E对神经元的加权输入net_j的偏导数，任意时刻k的误差项δ_k具体计算公式如下：

其中，

表示δ_k的行向量，diag[a]表示根据向量a创建一个对角矩阵，向量net_j表示神经元在j时刻的加权输入。

步骤4.3.3，计算每个权重的梯度；

具体为：首先计算误差函数E对权重矩阵W的梯度

然后计算权重矩阵W在i时刻的梯度▽w_iE，具体公式为：

其中，最终的梯度

是各个时刻的梯度之和；

步骤4.3.4，用随机梯度下降算法更新权重。

本发明的有益效果是：本发明能够在边缘计算环境下根据网络变化动态调节任务调度策略，使分布式入侵检测系统的负载有效降低，并能够解决状态空间和动作空间过大带来的问题。

附图说明

图1是本发明基于深度强化学习的DIDS任务调度优化方法中深度循环神经网络与调度器。

具体实施方式

下面结合具体实施方式对本发明进行详细说明。

本发明基于深度强化学习的DIDS任务调度优化方法，具体按照以下步骤实施：

步骤1，工作开始前，对DIDS中的各检测引擎进行性能评估，收集其对测试流量的数据量da(单位bit)、检测时间dt(单位ms)、内存占用mu(单位Mb)和检测引擎i的CPU频率Fi(单位Ghz)信息，并定义检测引擎的性能指标pi(performance index)计算模型如下：

对所有检测引擎测试后，根据性能高低将其分成不同等级d,d＝1,…,D，d值相差在10％以内的，可归为同一等级；

步骤2，开始工作后，当一个数据包到来需要检测时,调度器首先获取数据包长度，对数据包产生的负载进行评估，评估方法是通过数据包长度与以太网最大传输单元(MTU)1500Bytes的比值，得出该数据包所产生的负载等级k,k＝1,…,K。k值相差在10％以内的，可归为同一等级；

步骤3，利用马尔科夫决策过程就本发明所要解决的具体调度问题建模；

步骤3.1，定义参数；

分布式入侵检测系统有D个性能等级的检测引擎对K个负载等级的数据包的检测需求,检测时间服从指数分布,数据包的到达过程可以看作K个独立的泊松过程。评判准则采取平均负载准则。考虑数据包到达和检测结束的时刻,那么此时嵌入链是马尔科夫链。表1对建模中用到的参数进行定义：

表1

步骤3.2，基于步骤3.1所得结果确定状态空间；

步骤3.2的具体过程为：

下面将s＝(N(D,K),B(K),r)设为状态,其中N(D,L)是一个向量,具有形式(n₁₀,n₁₁,…,n_1K-1,n₂₀,…,n_DK-1),描述了分布式入侵检测系统的工作状态,包括尚未分配检测任务的检测引擎的分布以及正在为各等级数据包检测的检测引擎状况；B(K)也是一个向量，而且具有形式(b₁,b₂,…,b_K),描述了正在等待检测的数据包情况,包括各种数据包的数量；而r取值于集合{K,K-1,…,1,0},描述最一个到达的数据包的情况。当队列长度的限制b确定以后，就可以定义一个含有所有可能状态的集合X，如公式1所示。

在上式中，b＞0是允许的队列长度。

下面列出集合X中的几种典型的可能状态：

1.系统里如果有空闲的检测引擎，刚好有一个数据包到达，经过负载评估是第j等级数据包，那么X₁作为X集合中的一个状态，如公

式2所示

其中状态(N(D,K),B(K),j)表示新到的数据包带来了第j等级的检测需求。

2.系统里没有可用的检测引擎时的所有可能状态X₂可以表示为下式

3.系统里仍有空闲的检测引擎且无数据包等待检测(此时r＝0)的所有可能状态X₃可以表示为下式

4.系统里只有一个空闲的检测引擎且有等待检测的数据包的所有可能状态(这种情况比较少见)。

步骤3.3，基于步骤3.2所得结果确定决策时刻；步骤3.3的具体过程为：

当一个新的数据包到达，需要调度器分配一个检测引擎进行检测，这时发生了系统状态的变化，所以调度器需要做出决策，选择执行对应的行为。与此类似，当一个检测引擎完成对某个数据包的检测时，这个行为的执行使得系统的状态也发生了改变，使系统当前的状态转移到状态空间中另一个状态。

步骤3.4，基于步骤3.3所得结果确定动作集合；步骤3.4的具体过程为：

在上面列出的几种情况中，对于X₁中的状态，调度器需要选择指派哪一等级的检测引擎来处理这个数据包，对于X₄中的状态，系统需要考虑目前唯一空闲的检测引擎应该检测队列中哪一等级数据包，对于X₂和X₃中的状态，系统不需要做出选择。所以状态空间X的动作集合A定义为

A(s)＝{d|n_d0＞0,d＝1,2,...,D},s∈X₁

A(s)＝{0},s∈X₂

A(s)＝{0},s∈X₃

A(s)＝{k|b_k＞0,k＝1,2,..,K},s∈X₄ (7)；

动作集合中的0表示不需要作出决策，动作k∈A(s)(s∈X₄)表示由系统里唯一空闲的检测引擎去处理一个等待的k等级数据包，而d∈A(s)(s∈X₁)表示由第d等级的检测引擎去检测刚刚到达的数据包。

步骤3.5，基于步骤3.4所得结果确定转移速率与转移概率；步骤3.5的具体过程为：转移概率是依赖于系统当前所处的状态和调度器选取的行动来决定。本发明中因为使用的是马尔科夫决策过程，所以转移概率可以通过转移速率求得。而转移速率可以分为下面的几种情况确定:

1.对于X₁中的状态s，当k等级的数据包到达，调度器选择与之对应的d等级检测引擎去检测，此时，会出现两种可能的转移：

1)转移到状态s'∈X₃，其转移速率为

这里的s'∈X₃表示一个i等级的检测引擎恰好完成对一个j等级数据包的检测；

2)转移到状态s'∈X₁∪X₂，其转移速率为q(s'|s,d)＝λ_j，s'∈(X₁∪X₂)表示一个j等级的数据包到达。

2.对于X₂中的状态s，也会发生两种转移:

1)转移到状态s'∈X₄，其转移速率为q(s'|s,0)＝n_ijμ_ij,s'(∈X₄)表示一个i等级检测引擎恰好完成一个j等级数据包的检测；

2)转移到状态s'∈X₂，其转移速率为q(s'|s,0)＝λ_j，s'(∈X₂)表示一个j等级的数据包到来。

3.对于X₃中的状态s,只有可能发生两种转移：

1)s′∈X₃,其转移速率为q(s'|s,0)＝λ_j，s′(∈X₃)表示一个j等级的数据包到来；

2)s′∈X₁，其转移速率为q(s'|s,0)＝n_ijμ_ij，s'(∈X₁)表示一个i等级检测引擎恰好完成一个j等级数据包的检测；

4.对于X₄中的状态s,n_k0＞0，采取行动k，可能会发生两种转移：

1)转移到状态s′∈X₃∪X₄,其转移速率为

s′∈X₃∪X₄表示一个i等级检测引擎恰好完成一个j等级数据包；

2)转移到状态s'∈X₂,其转移速率为q(s'|s,k)＝λ_j，s'(∈X₂)表示一个j等级的数据包到来。

除了上面已经定义的元素以外,转移速率矩阵的非对角元素全部都是0。转移速率矩阵的对角元素可以定义为

对任何的确定性策略f∈F,可以得到对应的转移速率矩阵Q(f).根据连续时间的马尔科夫决策过程理论,得到转移概率矩阵P(f)为

P(f)＝λ^-1[Q(f)]+I (11)；

其中λ满足

对于转移速率矩阵Q(f)，将每一行除以该行对应对角线上的元素以后，再加上一个单位矩阵，也可以得到一个嵌入马尔科夫链的转移概率矩阵P'(f)。通过这两种不同方法得到的系统，它们的最优策略和对应的值函数都是相同的。

步骤3.6，基于步骤3.5所得结果确定价值函数和最优策略；步骤3.6的具体过程为：

前面设定l_k为检测第k等级数据包对检测引擎带来的最小负载，l_k依赖于要检测的数据包的负载等级k；平均负载l_dk取决于检测引擎的性能等级d和数据包的负载等级k，考虑到检测时间的分布通常是指数分布,那么在状态s时采取行动a的期望负载为

上式也就是基于策略f的状态-行为价值函数(state-action value function)q_f(s,a)，所以q_f(s,a)＝l(s,a)。

使用平稳策略f时,希望的最小的平均负载准则是

在上式中，Y_i是决策时刻i的状态，s是初始状态，τ_i是决策时刻i的平均滞留时间。这样，一个连续时间的马尔科夫决策过程系统就形成了。考虑到行动集和状态空间都是有限集合，所以可以得出：对于平均最小负载准则，存在确定性平稳最优策略f^*满足g(f^*,s)≤g(f,s),对所有f∈F和s∈X，f^*是最优策略。

步骤3.7，基于步骤3.6所得结果进行值迭代。步骤3.7的具体过程为：

通过上面的推导，找到了实现最小负载的最优策略f^*。在寻找更小的g(f^*,s)过程中，可以使用值迭代。值迭代的具体方法是依靠循环的方式通过对不同动作下的g(f,s)进行计算，如果小于收敛阈值便可以确定。

步骤4，建立深度循环神经网络模型，模拟状态空间和动作空间，解决了步骤3在状态空间和动作空间过大时造成内存空间占用太大的问题。步骤4的具体过程如下：

步骤4.1，基于步骤3，建立深度循环神经网络模型；

通常当状态空间和动作空间较小且维数不高的时候，可以使用表格形式存储每个状态和动作对应的Q值(即q(s,a)的值)。而就本发明所涉及的问题而言，状态和动作空间过大且是高维连续，所以使用表格存储Q值将带来内存太大等诸多问题。鉴于这种问题，本发明通过神经网络进行函数拟合，通过神经网络接受外部的状态信息，使相近的状态得到相近的输出动作。

由于网络流量中含有的大量视频音频等都属于时间序列数据，存在时间关联性和整体逻辑特性。与卷积神经网络相比，循环神经网络(Recurrent Neural Network,RNN)更适合处理时间序列数据的建模，所以本发明选择使用深度循环神经网络。本发明设计的深度循环神经网络结构包括输入层、隐藏层和输出层；由于处理的信息量太大，为了增加模型的表达能力，本文在深度循环神经网络中堆叠多个隐藏层。深度循环神经网络与状态动作和调度器的工作关系如图1所示：

隐藏层中包括了信息记忆功能，也就是说每一时刻隐藏层的输入不仅是输入层的输出，还包含上一时刻隐藏层的输出。所以对具体某个隐藏层来说，在t时刻，它的状态s_t的计算公式为：

s_t＝tanh(Ux_t+Ws_t-1) (14)；

上式中s_t-1为t-1时刻的状态，W为状态s的权重参数矩阵，x_t为t时刻的输入，U为输入的序列信息的权重参数矩阵。而t时刻，状态s_t的输出为：

上式中softmax为输出的激活函数，V为输出的序列信息的权重参数矩阵。

由于处理的信息量太大，为了增加模型的表达能力，本发明在深度循环神经网络中堆叠多个隐藏层。

步骤4.2，基于步骤4.1所得结果度量深度循环神经网络模型输出产生的误差；步骤4.2的具体过程为：

为了度量循环神经网络模型输出产生的误差，本发明使用了交叉熵的损失函数来优化权重参数矩阵U、W和V，使得输入的序列数据经过循环神经网络处理后的输出值更加接近真实的输出值。

设输出的时间序列总数为T，那么深度循环神经网络模型的总损失函数为：

其中，y_t为t时刻的真实值，

为t时刻的预测值。

步骤4.3，基于步骤4.2所得结果训练深度循环神经网络。

步骤4.3的具体过程为：

深度循环神经网络模型建好后，为了模拟状态空间和动作空间，需要对其进行训练。训练过程中使用的算法是时间反向传播算法(Backpropagation through Time,BPTT)，BPTT算法沿着需要优化的参数的负梯度方向不断寻找更优的点直至收敛，具体步骤为：

1)根据公式s_t＝tanh(Ux_t+Ws_t-1)前向计算每个神经元的输出值；

2)沿向上和向前两个方向，反向计算每个神经元的误差项δ_j值，误差项δ_j值同时也是误差函数E对神经元的加权输入net_j的偏导数。任意时刻k的误差项δ_k具体计算公式如下：

其中，

表示δ_k的行向量。diag[a]表示根据向量a创建一个对角矩阵。向量net_j表示神经元在j时刻的加权输入。

3)计算每个权重的梯度；

具体方法为：首先计算误差函数E对权重矩阵W的梯度

接下来计算权重矩阵W在i时刻的梯度

具体公式为：

其中最终的梯度

是各个时刻的梯度之和。

4)用随机梯度下降算法更新权重。

当步骤4.3完成后，深度循环网络即可模拟状态空间和动作空间，由深度循环网络接受外部的状态信息，使相近的状态得到相近的输出动作，解决了步骤3状态空间和动作空间过大造成内存空间占用太大的问题。

步骤5，调度器基于步骤3所产生的最优策略和步骤4对步骤3的优化措施向检测引擎分配数据包；

步骤6，当一个需要检测的数据包到来时，如果分布式入侵检测系统中没有空闲的检测引擎,调度器将记录这一检测数据包放入等待队列,一旦等待队列满额，这个新到的数据包将不得不被放弃检测。

因为下一个到来的数据包负载等级是不确定的，而且队列的长度是有限的，所以对于检测引擎数量固定的分布式入侵检测系统来说，本发明提出的任务调度算法可以做出最优决策使系统整体负载降低，并解决状态空间和动作空间过大造成内存空间占用太大的问题。