CN111694662A

CN111694662A - 基于强化学习的dids中低负载与丢包率的平衡方法

Info

Publication number: CN111694662A
Application number: CN202010457134.1A
Authority: CN
Inventors: 赵旭; 江晋; 赵子江
Original assignee: Xian Polytechnic University
Current assignee: Shaanxi Senyin Duoxi Network Technology Co ltd
Priority date: 2020-05-26
Filing date: 2020-05-26
Publication date: 2020-09-22
Anticipated expiration: 2040-05-26
Also published as: CN111694662B

Abstract

本发明公开了一种基于强化学习的DIDS中低负载与丢包率的平衡方法，其中包括如下步骤：计算立即检测率，计算理论丢包率，计算平均数据包到达数，计算数据包平均等待数，计算数据包等待概率，计算检测引擎被分配的任务数量，计算检测引擎被分配任务的概率，计算检测引擎的工作效率，计算分布式入侵检测系统整体的工作效率，通过检测引擎被分配检测任务的概率，调节低负载与丢包率这两个矛盾指标的平衡。解决了现有技术中公开的以低负载为目标的分布式入侵检测系统的任务调度算法中，单纯强调低负载而可能造成丢包率上升的问题。

Description

基于强化学习的DIDS中低负载与丢包率的平衡方法

技术领域

本发明属于网络安全技术领域，涉及一种基于强化学习的DIDS中低负载与丢包率的平衡方法。

背景技术

边缘计算是将运算任务，由网络中心节点迁移至网络边缘节点来处理。由于边缘计算环境下的终端设备存在资源受限等特性，分布式入侵检测系统需要在低负载状态下运行。现有技术中公开了以低负载为目标的分布式入侵检测系统的任务调度算法。这种强调低负载的任务调度算法存在有可能使丢包率上升的问题。

发明内容

本发明的目的是提供一种基于强化学习的DIDS(DIDS，分布式入侵检测系统)中低负载与丢包率的平衡方法，解决了现有技术中公开的以低负载为目标的分布式入侵检测系统的任务调度算法中，单纯强调低负载而可能造成丢包率上升的问题。

本发明所采用的技术方案是，一种基于强化学习的DIDS中低负载与丢包率的平衡方法，具体包括如下步骤：

步骤1，工作开始前，对分布式入侵检测系统中的各检测引擎进行性能评估，收集该检测系统对测试流量的检测时间dt和内存占用mu信息，并将d作为检测引擎的性能指标，对所有检测引擎测试后，根据性能高低将检测引擎分成不同等级d,d＝1,…,D，d值相差在10％以内的，归为同一等级；

步骤2，开始工作后，当一个数据包到来需要检测时,调度器首先获取数据包长度，对数据包产生的负载进行评估，得出该数据包所产生的负载等级k,k＝1,…,K，k值相差在10％以内的，归为同一等级；

步骤3，利用马尔科夫决策过程进行建模，确定建模需要的状态空间、动作集合、转移速率、转移概率、价值函数、最优策略和策略迭代方式，调度器通过模型进行决策，决定分配哪个性能等级的检测引擎去检测这一数据包；

步骤4，在决策过程中，调度器将根据丢包率的变化，调节低负载与丢包率的平衡；

步骤5，当一个检测引擎完成检测后，如果调度器没有再分配别的检测任务，该检测引擎将暂时空闲；

步骤6，当一个检测引擎还被分配有其他检测任务时，该检测引擎将马上去完成调度器指派的另一检测任务；

步骤7，当一个检测请求到来时，如果分布式入侵检测系统中没有空闲的检测引擎，调度器将记录这一检测请求并放入队列，一旦队列满额，这个新到的数据包将不得不被放弃检测，如果分布式入侵检测系统中有空闲的检测引擎时，将不会将数据包放入队列等待。

本发明的特点还在于，

步骤4的具体过程如下：

步骤4.1，基于步骤3，计算立即检测率；

步骤4.2，基于步骤4.1所得结果计算理论丢包率；

步骤4.3，根据步骤4.2所得结果计算平均数据包到达数；

步骤4.4，根据步骤4.3所得结果计算数据包平均等待数；

步骤4.5，基于步骤4.4所得结果计算数据包等待概率；

步骤4.6，基于步骤4.5所得结果计算检测引擎被分配的任务数量、分配任务的概率及工作效率；

步骤4.7，根据步骤4.6所得结果计算分布式入侵检测系统整体的工作效率；

步骤4.8，根据步骤4.7所得结果进行低负载与丢包率这两个矛盾指标的平衡。

步骤4.1的具体过程为：

对于任意的平稳策略f∈F，立即检测率p_f(ISR)为

其中，b是队列允许的长度，

是与策略f相对应的平稳概率分布。

步骤4.2的具体过程为：

对于任意的平稳策略f∈F，理论丢包率p_f(LR)为

步骤4.3的具体过程为：

令f∈F为一平稳策略，则系统中的平均数据包到达数为

其中NT是检测引擎的总数，b为队列长度，NT和b的关系是

步骤4.4的具体过程为：

令公式(15)中的

则系统里的数据包平均等待数为

其中

步骤4.5的具体过程为：

在步骤4.1“f∈F为一平稳策略，

是与策略f相对应的平稳概率分布”这一条件下，n个数据包等待的概率是

步骤4.6的具体过程为：

d等级检测引擎被分配的任务数量的计算过程为：

其中，n＝1,2,...n_d,d＝1,2,...,D；

n个d等级检测引擎被调度器分配检测任务的概率是：

公式(19)中，

对所有的n，d的取值范围为d＝1,2,...,D，α是调节丢包率的参数；

d等级检测引擎的工作效率为

步骤4.7的具体过程为：

根据C(d)得出分布式入侵检测系统整体的工作效率为

步骤4.8的具体过程为：

包括如下三种情况：

(1)当丢包率低于低阈值T_L时，检测引擎被分配任务的概率

中的α被设定为1，此时调度器按照低负载优先的原则进行任务调度；

(2)当丢包率高于低阈值T_L且低于高阈值T_H时，将

中的α设定为

此时调度器按照低负载和低丢包率兼顾的原则进行任务调度；

(3)当丢包率高于高阈值T_H时，α将恢复为1，此时调度器按照低丢包率的原则进行任务调度；

基于上述三种情况，为了调节低负载与丢包率的平衡，检测引擎被分配检测任务的概率按照如下公式执行：

本发明的有益效果是，相对于现有技术中公开的以低负载为目标的分布式入侵检测系统的任务调度算法，这种强调低负载的任务调度算法存在有可能使丢包率上升的问题。本发明在此基础上，提供任务调度过程中低负载与丢包率的平衡方法。与现有技术相比，解决了强调低负载的任务调度算法有可能会造成丢包率上升的问题。该方法能够使分布式入侵检测系统在边缘计算环境下根据网络变化动态调节调度策略，在低负载和丢包率这两个矛盾的指标间保持平衡。

具体实施方式

下面结合具体实施方式对本发明进行详细说明。

本发明是一种基于强化学习的DIDS中低负载与丢包率的平衡方法，具体按照以下步骤实施：

步骤1，分布式入侵检测系统启动后，在开始工作之前，首先对各检测引擎进行的性能评估，收集其对测试流量的检测时间(dt)和内存占用(mu)信息，并将

作为检测引擎的性能指标。对所有检测引擎测试后，根据性能高低将其分成不同等级d,d＝1,…,D，d值相差在10％以内的，可归为同一等级；

步骤2，开始工作后，当一个数据包到来需要检测时,调度器首先获取数据包长度，对数据包产生的负载进行评估，评估方法是用数据包长度与以太网最大传输单元(MTU)1500Bytes的比值，可得出该数据包所产生的负载等级k,k＝1,…,K。k值相差在10％以内的，可归为同一等级；

步骤3，利用马尔科夫决策过程就本发明所要解决的具体调度问题建模，确定建模需要的状态空间、动作集合、转移速率、转移概率、价值函数、最优策略和策略迭代方式。调度器通过模型进行决策，决定分配哪个性能等级的检测引擎去检测这一数据包。

步骤3具体步骤按照以下实施：

步骤3.1，定义参数：

分布式入侵检测系统有D个性能等级的检测引擎对K个负载等级的数据包的检测需求,检测时间服从指数分布,数据包的到达过程可以看作K个独立的泊松过程。评判准则采取平均负载准则。考虑数据包到达和检测结束的时刻,那么此时嵌入链是马尔科夫链。

下面对后文将使用的各种标记进行说明:

步骤3.2，基于步骤3.1，确定状态空间：

下面将s＝(N(D,K),B(K),r)设为状态,其中N(D,L)是一个向量,具有形式(n₁₀,n₁₁,…,n_1K-1,n₂₀,…,n_DK-1),描述了分布式入侵检测系统的工作状态,包括尚未分配检测任务的检测引擎的分布以及正在为各等级数据包检测的检测引擎状况；B(K)也是一个向量，而且具有形式(b₁,b₂,…,b_K),描述了正在等待检测的数据包情况,包括各种数据包的数量；而r取值于集合{K,K-1,…,1,0},描述最一个到达的数据包的情况。当队列长度的限制b确定以后，就可以定义一个含有所有可能状态的集合X，如公式1所示。

在上式中，b＞0是允许的队列长度。

下面列出集合X中的几种典型的可能状态

1)系统里如果有空闲的检测引擎，刚好有一个数据包到达，经过负载评估是第j等级数据包，那么X₁作为X集合中的一个状态，如公式(2)所示

其中，状态(N(D,K),B(K),j)表示新到的数据包带来了第j等级的检测需求。

2)系统里没有可用的检测引擎时的所有可能状态X₂可以表示为下式

3)系统里仍有空闲的检测引擎且无数据包等待检测(此时r＝0)的所有可能状态X₃可以表示为下式

4)系统里只有一个空闲的检测引擎且有等待检测的数据包的所有可能状态(这种情况比较少见)。

步骤3.3，确定决策时刻：

当一个新的数据包到达，需要调度器分配一个检测引擎进行检测，这时发生了系统状态的变化，所以调度器需要做出决策，选择执行对应的行为。与此类似，当一个检测引擎完成对某个数据包的检测时，这个行为的执行使得系统的状态也发生了改变，使系统当前的状态转移到状态空间中另一个状态。

步骤3.4，基于步骤3.3，确定动作集合：

在上面列出的几种情况中，对于X₁中的状态，调度器需要选择指派哪一等级的检测引擎来处理这个数据包，对于X₄中的状态，系统需要考虑目前唯一空闲的检测引擎应该检测队列中哪一等级数据包，对于X₂和X₃中的状态，系统不需要做出选择。所以状态空间X的动作集合A(·)定义为

A(s)＝{d|n_d0＞0,d＝1,2,...,D},s∈X₁

A(s)＝{0},s∈X₂

A(s)＝{0},s∈X₃

A(s)＝{k|b_k＞0,k∈1,2,..,K},s∈X₄ (6)；

动作集合中的0表示不需要作出决策，动作k∈A(s)(s∈X₄)表示由系统里唯一空闲的检测引擎去处理一个等待的k等级数据包，而d∈A(s)(s∈X₁)表示由第d等级的检测引擎去检测刚刚到达的数据包。

步骤3.5，基于步骤3.4，确定转移速率与转移概率；

转移概率是依赖于系统当前所处的状态和调度器选取的行动来决定。本发明中因为使用的是马尔科夫决策过程，所以转移概率可以通过转移速率求得。而转移速率可以分为下面的几种情况确定:

1)对于X₁中的状态s，当k等级的数据包到达，调度器选择与之对应的d等级检测引擎去检测，此时，会出现两种可能的转移：

I)转移到状态s'∈X₃，其转移速率为

这里的s'∈X₃表示一个i等级的检测引擎恰好完成对一个j等级数据包的检测；

II)转移到状态s'∈X₁∪X₂，其转移速率为q(s'|s,d)＝λ_j，s'∈(X₁∪X₂)表示一个j等级的数据包到达。

2)对于X₂中的状态s，也会发生两种转移:

I)转移到状态s'∈X₄，其转移速率为q(s'|s,0)＝n_ijμ_ij,s'(∈X₄)表示一个i等级检测引擎恰好完成一个j等级数据包的检测；

II)转移到状态s'∈X₂，其转移速率为q(s'|s,0)＝λ_j，s'(∈X₂)表示一个j等级的数据包到来。

3)对于X₃中的状态s,只有可能发生两种转移：

I)s′∈X₃,其转移速率为q(s'|s,0)＝λ_j，s′(∈X₃)表示一个j等级的数据包到来；

II)s′∈X₁，其转移速率为q(s'|s,0)＝n_ijμ_ij，s'(∈X₁)表示一个i等级检测引擎恰好完成一个j等级数据包的检测；

4)对于X₄中的状态s,n_k0＞0，采取行动k，可能会发生两种转移：

I)转移到状态s′∈X₃∪X₄,其转移速率为

s′∈X₃∪X₄表示一个i等级检测引擎恰好完成一个j等级数据包；

II)转移到状态s'∈X₂,其转移速率为q(s'|s,k)＝λ_j，s'(∈X₂)表示一个j等级的数据包到来。

除了上面已经定义的元素以外，转移速率矩阵的非对角元素全部都是0。转移速率矩阵的对角元素可以定义为

对任何的确定性策略f∈F,可以得到对应的转移速率矩阵Q(f).根据连续时间的马尔科夫决策过程理论，得到转移概率矩阵P(f)为

P(f)＝λ^-1[Q(f)]+I (10)；

其中λ满足

对于转移速率矩阵Q(f)，将每一行除以该行对应对角线上的元素以后，再加上一个单位矩阵，也可以得到一个嵌入马尔科夫链的转移概率矩阵P'(f)。通过这两种不同方法得到的系统，它们的最优策略和对应的值函数都是相同的。

步骤3.6，基于步骤3.5，确定价值函数和最优策略；

前面设定l_k为检测第k等级数据包对检测引擎带来的最小负载，l_k依赖于要检测的数据包的负载等级k；平均负载l_dk取决于检测引擎的性能等级d和数据包的负载等级k，考虑到检测时间的分布通常是指数分布,那么在状态s时采取行动a的期望负载为

上式也就是基于策略f的状态-行为价值函数((state-action value function)q_f(s,a)，所以q_f(s,a)＝l(s,a)。

使用平稳策略f时,期望的最小平均负载准则是：

在上式中，Y_i是决策时刻i的状态，s是初始状态，τ_i是决策时刻i的平均滞留时间。这样，一个连续时间的马尔科夫决策过程系统就形成了。考虑到行动集和状态空间都是有限集合，所以可以得出：对于平均最小负载准则，存在确定性平稳最优策略f^*满足g(f^*,s)≤g(f,s),对所有f∈F和s∈X，f^*是最优策略。

步骤3.7，进行策略迭代；

通过上面的推导，找到了实现最小负载的最优策略f^*，在寻找更小的g(f^*,s)过程中，可以使用策略迭代(Policy Iteration)，策略迭代算法包含了策略估计的过程，而策略估计则需要对所有的状态扫描(sweep)若干次，这个过程所产生的巨大的计算量会影响策略迭代算法的效率，实际上价值函数的值没有必要计算的非常精确，为了缩短策略估计的过程，可采用值迭代的方法。值迭代的具体方法是依靠循环的方式通过对不同动作下的g(f,s)进行计算，如果小于收敛阈值便可以确定。

步骤4、在决策过程中，调度器将根据丢包率的变化，调节低负载与丢包率的平衡；

步骤4具体步骤按照以下实施：

步骤4.1，基于步骤3，计算立即检测率，计算方法如下：

对于任意的平稳策略f∈F，立即检测率p_f(ISR)为

上式中b是队列允许的长度，

是与策略f相对应的平稳概率分布。

步骤4.2，基于步骤4.1，计算理论丢包率。理论丢包率是指调度器在决策时因为队列长度的限制而主动放弃检查数据包造成的丢包率。理论丢包率的计算方法如下：

考虑到实际运行时一些不可预见因素，理论上的丢包率应该比实际丢包率会低一些。对于任意的平稳策略f∈F，理论丢包率p_f(LR)为

步骤4.3，基于步骤4.2，计算平均数据包到达数，计算方法如下：

令f∈F为一平稳策略，则系统中的平均数据包到达数为

其中，NT是检测引擎的总数，b为队列长度，NT和b的关系是

步骤4.4，基于步骤4.3，计算数据包平均等待数，计算方法如下：

令公式(15)中的

那么系统里的数据包平均等待数为

其中

步骤4.5，基于步骤4.4，计算数据包等待概率，计算方法如下：

在步骤4.1“f∈F为一平稳策略，

步骤(4.6)、基于步骤4.5，计算检测引擎被分配的任务数量，计算方法如下：

d等级检测引擎被分配检测的数据包的平均数量为

其中，n＝1,2,...n_d,d＝1,2,...,D。

计算检测引擎被分配任务的概率，计算方法如下：

n个d等级检测引擎被调度器分配检测任务的概率是

在上式中，

对所有的n，d＝1,2,...,D。α是调节丢包率的参数。

计算检测引擎的工作效率，计算方法如下：

利用上式可以得出，d等级检测引擎的工作效率为

掌握某一等级检测引擎的工作效率后，调度器可以在步骤3.7策略迭代过程中根据流量的变化调节决策。

步骤4.7，基于步骤4.6，计算分布式入侵检测系统整体的工作效率，计算方法如下：

根据C(d)也可以得出分布式入侵检测系统整体的工作效率为

步骤4.8，基于步骤4.7，进行低负载与丢包率这两个矛盾指标的平衡。平衡过程需要加入2个参数：丢包率LR的低阈值T_L和高阈值T_H。平衡的具体方法分如下几种情况处理：

1)如果丢包率低于低阈值T_L时，检测引擎被分配任务的概率

中的α被设定为1。此时调度器按照低负载优先的原则进行任务调度。

2)当丢包率高于低阈值T_L时且低于高阈值T_H时，将

中的α设定为

这意味着与分布式入侵检测系统的整体工作效率相比，某等级检测引擎的效率越高，被分配检测任务的概率越高。反之，检测引擎的效率越低，被分配检测任务的概率越低。此时调度器按照低负载和低丢包率兼顾的原则进行任务调度。

3)当丢包率高于高阈值T_H时，高于系统整体效率的检测引擎被分配的任务已经使它们达到处理极限，这时为了使低效率的检测引擎也分担压力，α将恢复为1。此时调度器按照低丢包率的原则进行任务调度。

为了调节低负载与丢包率的平衡，检测引擎被分配检测任务的概率按照如下公式执行。

步骤5，当一个检测引擎完成检测后，如果调度器没有再分配别的检测任务，它将暂时空闲；

步骤6，当一个检测引擎还被分配有其他检测任务时，它将马上去完成调度器指派的另一检测任务；

步骤7，当一个检测请求到来时,如果分布式入侵检测系统中没有空闲的检测引擎,调度器将记录这一检测请求并放入队列，一旦队列满额，这个新到的数据包将不得不被放弃检测。如果分布式入侵检测系统中有空闲的检测引擎时,将不会将数据包放入队列等待；

因为下一个到来的数据包负载等级是不确定的，而且队列的长度是有限的，所以对于检测引擎数量固定的分布式入侵检测系统来说，需要本发明提出的任务调度方法做出最优决策使整体负载降低，同时丢包率保持在较低的范围。

Claims

1.一种基于强化学习的DIDS中低负载与丢包率的平衡方法，其特征在于：具体包括如下步骤：

2.根据权利要求1所述的一种基于强化学习的DIDS中低负载与丢包率的平衡方法，其特征在于：所述步骤4的具体过程如下：

步骤4.1，基于步骤3，计算立即检测率；

步骤4.2，基于步骤4.1所得结果计算理论丢包率；

步骤4.3，根据步骤4.2所得结果计算平均数据包到达数；

步骤4.4，根据步骤4.3所得结果计算数据包平均等待数；

步骤4.5，基于步骤4.4所得结果计算数据包等待概率；

3.根据权利要求1所述的一种基于强化学习的DIDS中低负载与丢包率的平衡方法，其特征在于：所述步骤4.1的具体过程为：

对于任意的平稳策略f∈F，立即检测率p_f(ISR)为

其中，b是队列允许的长度，

是与策略f相对应的平稳概率分布。

4.根据权利要求3所述的一种基于强化学习的DIDS中低负载与丢包率的平衡方法，其特征在于：所述步骤4.2的具体过程为：

对于任意的平稳策略f∈F，理论丢包率p_f(LR)为

5.根据权利要求4所述的一种基于强化学习的DIDS中低负载与丢包率的平衡方法，其特征在于：所述步骤4.3的具体过程为：

令f∈F为一平稳策略，则系统中的平均数据包到达数为

其中NT是检测引擎的总数，b为队列长度，NT和b的关系是

6.根据权利要求5所述的一种基于强化学习的DIDS中低负载与丢包率的平衡方法，其特征在于：所述步骤4.4的具体过程为：

令公式(15)中的

则系统里的数据包平均等待数为

其中

7.根据权利要求6所述的一种基于强化学习的DIDS中低负载与丢包率的平衡方法，其特征在于：所述步骤4.5的具体过程为：

在步骤4.1“f∈F为一平稳策略，

8.根据权利要求7所述的一种基于强化学习的DIDS中低负载与丢包率的平衡方法，其特征在于：所述步骤4.6的具体过程为：

d等级检测引擎被分配的任务数量的计算过程为：

其中，n＝1,2,...n_d,d＝1,2,...,D；

n个d等级检测引擎被调度器分配检测任务的概率是：

公式(19)中，

d等级检测引擎的工作效率为

9.根据权利要求8所述的一种基于强化学习的DIDS中低负载与丢包率的平衡方法，其特征在于：所述步骤4.7的具体过程为：

根据C(d)得出分布式入侵检测系统整体的工作效率为

10.根据权利要求9所述的一种基于强化学习的DIDS中低负载与丢包率的平衡方法，其特征在于：所述步骤4.8的具体过程为：

包括如下三种情况：

(1)当丢包率低于低阈值T_L时，检测引擎被分配任务的概率

(2)当丢包率高于低阈值T_L时且低于高阈值T_H时，将

中的α设定为