CN110011876B

CN110011876B - 一种基于强化学习的Sketch的网络测量方法

Info

Publication number: CN110011876B
Application number: CN201910321086.0A
Authority: CN
Inventors: 张栋; 周政演; 陈翰泽; 程灵飞
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-04-19
Filing date: 2019-04-19
Publication date: 2022-05-03
Anticipated expiration: 2039-04-19
Also published as: CN110011876A

Abstract

本发明涉及一种基于强化学习的Sketch的网络测量方法。该方法其利用强化学习方法使Sketch在真实网络环境下自行寻找最优的资源和测量准确度平衡，从而适应多变的网络环境，提高测量性能，减轻管理员的配置负担。

Description

一种基于强化学习的Sketch的网络测量方法

技术领域

本发明涉及网络测量，特别涉及网络异常检测和网络故障分析在网络测量中的应用，具体为一种基于强化学习的Sketch的网络测量方法。

背景技术

网络状态检测、网络故障分析、网络安全防御等是保证现代网络鲁棒性和安全性的重要技术，网络测量为上述技术提供了基本的信息，是上述技术的基础。然而，随着网络的高速发展，测量海量的流量数据成为了网络测量的难点，需要在有限的资源下，尽可能提升测量的准确度。其中，Sketch是一种基于散列的近似的数据结构，由于其具备准确度和资源理论上的平衡特性，被网络测量领域广泛接受。

然而，Sketch的理论保证与真实部署存在距离：现有基于Sketch的网络测量方法在真实环境下需要过多的资源以保证测量的准确度，造成巨大的资源开销；现有基于Sketch的网络测量在多变的环境下适应性不佳，无法保证较高的性能；现有基于Sketch的网络测量工具配置要求用户具备相关的领域知识，网络管理员并不能很好地利用现有基于Sketch网络测量方法的理论进行配置，造成严重的性能损失。强化学习是机器学习的一个分支，它通过在环境中设置状态、动作、奖励，智能体根据状态计算出动作，获得奖励并更新智能体的动作选择策略，从而获得更高的奖励。

发明内容

本发明的目的在于提供一种基于强化学习的Sketch的网络测量方法，利用强化学习方法使Sketch在真实网络环境下自行寻找最优的资源和测量准确度平衡，从而适应多变的网络环境、降低资源开销、减轻管理员的配置负担。

为实现上述目的，本发明的技术方案是：一种基于强化学习的Sketch的网络测量方法，包括如下步骤：

步骤S1、构建Sketch，将使用Sketch进行网络测量看作强化学习的过程，其具有状态、动作和奖励；

步骤S2、在构建完成Sketch后，利用数据对Sketch进行训练，Sketch的智能体根据状态计算出最优的动作，并利用奖励更新智能体；

步骤S3、训练完成后，利用训练过的Sketch进行网络测量，Sketch可在网络测量过程中间歇抽取网络数据学习。

在本发明一实施例中，所述Sketch的数据结构为：Sketch包括一个r行w列的二维表和一个智能体，二维表中每一个单元是一个桶(i,j)，每个桶包括一个可动态变化的数组A_i,j，数组A_i,j包括若干用于存储一系列网络流(x,v_x)的计数器，以及三个参数：V_i,j、l_i,j、e_i,j；其中，对到来的每个网络流，V_i,j都加上v_x，l_i,j为桶中数组的长度；e_i,j为桶的测量误差，x是检测网络流的特征，v_x是网络流所对应的字节数；智能体包括状态(V_i,j,l_i,j,v_n)和动作(True,False)。

在本发明一实施例中，所述步骤S2的具体实现过程如下：

首先，设定基于强化学习Sketch的桶的状态、动作、奖励：

状态包括一个三元组(V_i,j,l_i,j,v_n)，其中，v_n是当前到来网络流的字节数；

动作为一个布尔变量，真值表示将网络流(x,v_x)存进桶中的数组，假值表示将网络流的字节数与已存储网络流的总字节数最小值进行对比，留下二者之间的字节数较大的网络流；

奖励公式为R＝r+r×p+ɑ×s，其中，r是测量结果的召回率，p是测量结果的精度，s是Sketch的桶中网络流的总个数与经过网络流个数之比，ɑ为s在R中的权重系数。

而后，利用DQN方法对Sketch进行训练，对Sketch中的单个桶的训练过程如下：

(1)对桶的各项参数初始化，清空数组；

(2)若读取的网络流数超过预设值N，停止训练；否则，进行(3)；

(3)利用哈希函数，将网络流(x,v_x)散列到相应的桶中；获取(x,v_x)，将V_i,j的值加上v_x；

(4)若网络流(x,v_x)已存在于该桶中，将桶中x的值加v_x；

(5)智能体通过获取该桶的参数，计算状态(V_i,j,l_i,j,v_n)，根据状态计算相应的动作；

(6)如果动作为真值，该桶创建新的计数器，将(x,v_x)插入A_i,j中，如果动作为假值，将v_x与已存储网络流的v_x最小值进行对比，留下二者之间的v_x较大的网络流；

(7)利用DQN的方法更新神经网络；

(8)判断已处理的数据包个数，如果大于预设值k，则对Sketch的检测结果和真实值比较，计算召回率r、精度p和奖励R，若r或p低于预设值P₀，则返回(1)，若召回率和精度均高于预设值P₀，则返回(2)。

在本发明一实施例中，所述步骤S3的具体实现过程如下：

1)对桶的各项参数初始化，清空数组；

2)读取训练后的神经网络，整个基于强化学习的Sketch共享同一个神经网络；

3)利用哈希函数，将网络流(x,v_x)散列到相应的桶中，获取(x,v_x)，将V_i,j的值加上v_x；

4)智能体通过获取该桶的参数，计算状态(V_i,j,l_i,j,v_n)，根据状态计算相应的动作；

5)如果动作为真值，该桶创建新的计数器，将网络流(x,v_x)插入A_i,j中，如果动作为假值，将v_x与已存储网络流的v_x最小值进行对比，留下二者之间的v_x较大的网络流流；

6)通过查询Sketch报出Heavyhitter和Heavychanger，其中，Heavyhitter表示一段时间内，网络流的字节数超过一个阈值；表示网络流的字节数在两个相邻时间段内的变化超过一个阈值。

在本发明一实施例中，在Sketch中内置有一个可测量真实结果的计数器，并设置有一用于不断调整Sketch状态、动作、奖励、训练参数设定的应用程序接口。

相较于现有技术，本发明具有以下有益效果：本发明方法利用强化学习方法使Sketch在真实网络环境下自行寻找最优的资源和测量准确度平衡，从而适应多变的网络环境、降低资源开销、减轻管理员的配置负担。

附图说明

图1是基于强化学习Sketch的数据结构图。

图2是基于强化学习Sketch的训练过程示意图。

具体实施方式

下面结合附图，对本发明的技术方案进行具体说明。

请参照图1，本发明基于强化学习Sketch的网络测量方法，利用强化学习使Sketch在网络环境中自学习，通过智能体和环境的不断交互，实现基于强化学习Sketch的构建，对网络流进行检测，过程如下：

将网络流看作如下对象(x,v_x),x是检测网络流的特征(可用网络流的源目的IP或五元组表示)，v_x则是该流所对应的字节数。当有网络流到来时，将未来可能成为异常流的对象存入Sketch。所需检测的重要的异常流分为两种：1.一段时间内，网络流的字节数超过一个阈值(Heavy hitter)，2.网络流的字节数在两个相邻时间段内的变化超过一个阈值(Heavychanger)。Sketch通过对网络流字节数的检测，报出满足Heavyhitter、Heavychanger要求的异常流量，达到异常检测的目的。Sketch通过存储未来可能成为Heavyhitter和Heavychanger的网络流，移除其余流，以降低测量的空间资源使用。

本发明的Sketch的数据结构如图1所示，Sketch包括一个r行w列的二维表以及一个智能体。表中每一个单元是一个桶(i,j)，每个桶包括一个可动态变化的数组A_i,j,数组包括若干用于存储一系列(x,v_x)的计数器，及三个参数：V_i,j：对到来每个流，V_i,j都加上v_x；l_i,j为该桶中数组的长度；e_i,j为该桶的测量误差。智能体包括状态(V_i,j,l_i,j,v_n)和动作(True,False)。

请参照图2，本发明基于强化学习Sketch的网络测量方法，训练过程如下：

1、设定基于强化学习Sketch桶的状态、动作、奖励：状态包括一个三元组(V_i,j,l_i,j,v_n)，其中v_n是当前到来网络流的字节数。动作为一个布尔变量，真值表示将(x,v_x)存进桶中的数组，假值表示将该网络流的字节数与已存储流的总字节数最小值进行对比，留下二者之间的字节数较大的流。奖励：R＝r+r×p+ɑ×s,其中r是测量结果的召回率，p是测量结果的精度，s是Sketch的桶中流的总个数与经过流个数之比，ɑ为s在R中的权重系数。

2、基于强化学习Sketch的训练过程利用了DQN(DeepQNetwork)的方法，对Sketch中的单个桶：

(1)对桶的各项参数初始化，清空数组；

(2)若读取的网络流数超过预设值N，停止训练；

(3)利用哈希函数，将网络流(x,v_x)散列到相应的桶中。获取(x,v_x)，将V_i,j的值加上v_x；

(4)若(x,v_x)已存在于该桶中，将桶中x的值加v_x；

(6)如果动作为真值，该桶创建新的计数器，将(x,v_x)插入A_i,j中，如果动作为假值，将v_x与已存储流的v_x最小值进行对比，留下二者之间的v_x较大的流。

(7)利用深度Q网络(DeepQNetwork)的方法更新神经网络；

请参照图1，基于强化学习Sketch的测量过程如下：

(1)对桶的各项参数初始化，清空数组；

(2)读取训练后的神经网络，整个基于强化学习的Sketch共享同一个神经网络；

(4)智能体通过获取该桶的参数，计算状态(V_i,j,l_i,j,v_n)，根据状态计算相应的动作；

(5)如果动作为真值，该桶创建新的计数器，将(x,v_x)插入A_i,j中，如果动作为假值，将v_x与已存储流的v_x最小值进行对比，留下二者之间的v_x较大的流。

(6)通过查询Sketch报出Heavyhitter和Heavychanger。

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于强化学习的Sketch的网络测量方法，其特征在于，包括如下步骤：

步骤S3、训练完成后，利用训练过的Sketch进行网络测量，Sketch可在网络测量过程中间歇抽取网络数据学习；

所述Sketch的数据结构为：Sketch包括一个r行w列的二维表和一个智能体，二维表中每一个单元是一个桶(i,j)，每个桶包括一个可动态变化的数组A_i,j，数组A_i,j包括若干用于存储一系列网络流(x,v_x)的计数器，以及三个参数：V_i,j、l_i,j、e_i,j；其中，对到来的每个网络流，V_i,j都加上v_x，l_i,j为桶中数组的长度；e_i,j为桶的测量误差，x是检测网络流的特征，v_x是网络流所对应的字节数；智能体包括状态(V_i,j,l_i,j,v_n)和动作(True,False)；

所述步骤S2的具体实现过程如下：

首先，设定基于强化学习Sketch的桶的状态、动作、奖励：

奖励公式为R＝r+r×p+ɑ×s，其中，r是测量结果的召回率，p是测量结果的精度，s是Sketch的桶中网络流的总个数与经过网络流个数之比，ɑ为s在R中的权重系数；

(1)对桶的各项参数初始化，清空数组；

(4)若网络流(x,v_x)已存在于该桶中，将桶中x的值加v_x；

(7)利用DQN的方法更新神经网络；

2.根据权利要求1所述的一种基于强化学习的Sketch的网络测量方法，其特征在于，所述步骤S3的具体实现过程如下：

1)对桶的各项参数初始化，清空数组；

5)如果动作为真值，该桶创建新的计数器，将网络流(x,v_x)插入A_i,j中，如果动作为假值，将v_x与已存储网络流的v_x最小值进行对比，留下二者之间的v_x较大的网络流；

6)通过查询Sketch报出Heavy hitter和Heavy changer，其中，Heavy hitter表示一段时间内，网络流的字节数超过一个阈值；Heavy changer表示网络流的字节数在两个相邻时间段内的变化超过一个阈值。

3.根据权利要求1所述的一种基于强化学习的Sketch的网络测量方法，其特征在于，在Sketch中内置有一个可测量真实结果的计数器，并设置有一用于不断调整Sketch状态、动作、奖励、训练参数设定的应用程序接口。