CN104283809A

CN104283809A - 一种基于机器学习的主动式队列管理方法生成器

Info

Publication number: CN104283809A
Application number: CN201410622752.1A
Authority: CN
Inventors: 张栋; 林新安
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2014-11-08
Filing date: 2014-11-08
Publication date: 2015-01-14
Anticipated expiration: 2034-11-08
Also published as: CN104283809B

Abstract

本发明涉及一种基于机器学习的主动式队列管理方法生成器，利用用户对网络环境的模糊描述，通过机器学习中强化学习的方法在该网络环境下进行离线学习，以生成符合用户定制需求的主动式队列管理方法。本发明避免了对不同网络场景手工设计主动队式管理方法的繁琐，且生成的方法具有高吞吐率低延时的特征。

Description

一种基于机器学习的主动式队列管理方法生成器

技术领域

本发明涉及网络拥塞控制，特别是一种基于机器学习的主动式队列管理方法生成器。

背景技术

随着近年来计算机网络规模的急剧膨胀，特别是层出不穷的多媒体应用对网络服务质量的要求越来越高，控制网络拥塞，提高网络服务质量变得尤为重要。网络拥塞控制主要由两部分组成：一是端到端的传输协议，比如TCP协议，二是部署在中间节点的主动式队列管理算法。在网络传输过程中，中间节点的队列过短，会导致新到的数据包无法入队而被丢弃；过长，会导致排队时延太大。同时，中间节点适时丢包可以作为一种拥塞信号反馈给发送端，使其降低发送速率，避免拥塞。因此，如何管理队列是网络拥塞控制的关键。

发明内容

本发明的目的是提供一种基于机器学习的主动式队列管理方法生成器，能自动为用户定制的网络生成高效的主动式队列管理算法。

本发明采用以下技术方案实现：一种基于机器学习的主动式队列管理方法生成器，其特征在于,包括以下步骤：步骤S01：根据用户对网络环境的模糊描述模拟出一仿真网络场景；步骤S02：定义规则为状态空间到动作的映射，将现有的规则集合初始化为一条规则；步骤S03：将所述规则集合作为队列管理方法应用到所述仿真网络场景中，该队列管理方法在所述仿真网络场景运行固定时间后计算出规则集合反馈值；步骤S04：对所述规则集合内的所有规则进行规则优化后跳回步骤S03，直至无法得到更高的规则集合的反馈值后执行步骤S05；步骤S05：选择获得最大规则反馈值的规则进行规则分裂，将该规则分裂成若干子规则；步骤S06：返回步骤S03，直至达到规定的迭代次数后退出，最终得到的规则集合为生成的队列管理方法。

在本发明一实施例中，所述仿真网络场景中的每个发送端部署了随机开关的FTP，使得每个发送端随机关闭一段时间后发送随机数量的数据包，再随机关闭，再随机发送，如此循环。

在本发明一种实施例中，所述状态空间为队列长度的指数加权移动平均值和接收到包的时间间隔的指数加权移动平均值所组成的二维空间(,)；所述动作< k,b >表示对瞬时最大队列长度的更新,更新公式为：，其中k,b为二维动作空间中的一个点（k,b）的组成。

在本发明另一实施例中，所述规则集合的数据结构为树形结构。

在本发明一实施例中，步骤S03中所述规则集合的反馈值的定义为：，其中是指全局的吞吐率，是指每个包的平均端到端时延；所述规则集合的反馈值越大，表示其所构成的队列管理算法性能越好。

在本发明一实施例中，步骤S04中所述的规则优化包括以下步骤：将需要进行优化的规则的动作替换成其他动作，然后应用到仿真网络中，直至不能获得更高的反馈值。

在本发明一实施例中，步骤S05中所述规则的反馈值定义为：，其中表示该条规则在仿真运行时被用到的次数，所有规则被用到的次数，R为所述规则集合的反馈值。

在本发明一实施例中，所述步骤S05中的规则分裂包括以下步骤：现有规则为父规则，将所述父规则的状态空间在每个维度二分，得到若干个子空间；将所述子空间对应到父规则的动作，这样就产生了若干个不同状态空间相同动作的子规则。

本发明利用用户对网络环境的模糊描述（网络参数范围），通过机器学习方法进行在该网络环境下进行离线学习，以生成符合用户定制需求的主动式队列管理方法，该方法简单，实现灵活，具有较强的实用性。本发明避免了对不同网络场景手工设计主动队式管理方法的繁琐。本发明利用机器学习中强化学习的算法框架，通过不断迭代，不断优化生成的队列管理方法，使其具有高吞吐率，低延时的特点。

附图说明

图1是本发明算法框架结构示意图。

图2是本发明算法流程图。

图3是本发明队列管理方法的数据结构图。

具体实施方

图1为本发明算法结构示意图。本发明基于机器学习的主动式队列管理方法生成器，其利用用户对网络环境的模糊描述（网络参数范围），通过机器学习方法进行在该网络环境下进行离线学习，以生成符合用户定制需求的主动式队列管理方法。

图2为本发明算法流程图。本发明包括以下步骤：步骤S01：根据用户对网络环境的模糊描述模拟出一仿真网络场景；步骤S02：定义规则为状态空间到动作的映射，将现有的规则集合初始化为一条规则；步骤S03：将所述规则集合作为队列管理方法应用到所述仿真网络场景中，该队列管理方法在所述仿真网络场景运行固定时间后计算出规则集合反馈值；步骤S04：对所述规则集合内的所有规则进行规则优化后跳回步骤S03，直至无法得到更高的规则集合的反馈值后执行步骤S05；步骤S05：选择获得最大规则反馈值的规则进行规则分裂，将该规则分裂成若干子规则；步骤S06：返回步骤S03，直至达到规定的迭代次数后退出，最终得到的规则集合为生成的队列管理方法。

本发明通过用户的网络场景的模糊描述（即网络参数范围，包括网络拓扑，链路带宽等）建立仿真网络环境。本发明在每个发送端部署了随机开关的FTP（文件传输协议），使得每个发送端随机关闭一段时间后发送随机数量的数据包，再随机关闭，再随机发送，如此循环，使得仿真网络场景更具有一般性地模拟拥塞状况。

所述状态空间为队列长度的指数加权移动平均值和接收到包的时间间隔的指数加权移动平均值所组成的二维空间(,)；所述动作< k,b >表示对瞬时最大队列长度的更新,更新公式为：，其中k,b为二维空间中的一个点（k,b）的组成。

其中队列长度的指数加权移动平均值: ，

表示队列长度的指数加权移动平均值，表示当前队列长度。同时表示了当前队列长度和历史队列长度。

接收到包的时间间隔的指数加权移动平均值: ，

表示接收到包的时间间隔的指数加权移动平均值，表示当前接收到包的时间间隔。同时表示了当前接收到包的时间间隔和历史接收到包的时间间隔。

一个完整的拥塞状态是由这两个状态组成的二维状态空间中的一个点(,)。

本发明定义了一个值：，表示瞬时最大队列长度。若当前队列长度大于则丢弃接收到的包。其中的更新如下公式表示：。所述动作的表示就是由k, b 组成的二维空间中的一个点，对当前的更新。

本发明定义规则为一个状态空间到一个动作的映射：。

对于任意的状态(ewma_qlen,ewma_inter)，都有应动作 <k,b>, 将规则集合初始化为一条规则，即使k = b = 1。

步骤S03中所述的队列管理方法为若干个所述规则的集合。规则集合的数据结构表示见图3，规则集合是一个树形结构，其非叶子节点是状态空间，叶子节点是规则。每个非叶节点的状态空间在每个维度进行二分后分裂出若干个子空间，而这些子空间就是其孩子节点的状态空间，这是规则分裂的过程。

步骤S04中所述规则优化包括以下步骤：将需要优化的规则的动作替换成其他动作，然后应用到仿真网络中，直至不能获得更高的反馈。

本发明中，反馈是指将现有规则集合应用到仿真网络环境中后，从网络中得到的反馈。规则集合的反馈定义如下：，其中是指全局的吞吐率，而是指每个包的平均端到端时延。规则集合的反馈值越大，表示其所构成的队列管理算法性能越好。

对于每一条规则，其反馈定义如下：，其中表示该条规则在仿真运行时被用到的次数，所有规则被用到的次数。

步骤S05中规则分裂包括以下步骤：新规则的产生是由现有的规则分裂得到的，即现有规则为父规则。父规则首先将其状态空间在每个维度二分，得到若干个子空间，然后将这些子空间对应到父规则的动作，这样就产生了若干个不同空间相同动作的子规则。树形结构使得在搜索一个状态所对应的规则时，只需对数时间内便可完成，大大提高了搜索的效率。

本发明利用机器学习中强化学习的算法框架，通过不断迭代，不断优化生成的队列管理方法，使其具有高吞吐率，低延时的特点。

以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所做的均等变化与修饰，皆应属本发明的涵盖范围。

Claims

1.一种基于机器学习的主动式队列管理方法生成器，其特征在于，包括以下步骤：

步骤S01：根据用户对网络环境的模糊描述模拟出一仿真网络场景；

步骤S02：定义规则为状态空间到动作的映射

，将现有的规则集合初始化为一条规则；

步骤S03：将所述规则集合作为队列管理方法应用到所述仿真网络场景中，该队列管理方法在所述仿真网络场景运行固定时间后计算出所述规则集合反馈值；

步骤S04：对所述规则集合内的所有规则进行规则优化后跳回步骤S03，直至无法得到更高的规则集合的反馈值后执行步骤S05；

步骤S05：选择获得最大规则反馈值的规则进行规则分裂，将该规则分裂成若干子规则；

步骤S06：返回步骤S03，直至达到规定的迭代次数后退出，最终得到的规则集合为生成的队列管理方法。

2.根据权利要求1所述的基于机器学习的主动式队列式管理方法生成器，其特征在于：所述仿真网络场景中的每个发送端部署了随机开关的FTP，使得每个发送端随机关闭一段时间后发送随机数量的数据包，再随机关闭，再随机发送，如此循环。

3.根据权利要求1所述的基于机器学习的主动式队列式管理方法生成器，其特征在于：所述状态空间为队列长度的指数加权移动平均值和接收到包的时间间隔的指数加权移动平均值所组成的二维空间(,)；所述动作< k,b >表示对瞬时最大队列长度的更新,更新公式为：，其中k,b为二维动作空间中的一个点（k,b）的组成。

4.根据权利要求1所述的基于机器学习的主动式队列式管理方法生成器，其特征在于：所述规则集合的数据结构为树形结构。

5.要求1所述的基于机器学习的主动式队列式管理方法生成器，其特征在于：步骤S03中所述规则集合的反馈值的为：

，其中是指全局的吞吐率，是指每个包的平均端到端时延；所述规则集合的反馈值越大，表示其所构成的队列管理算法性能越好。

6.权利要求1所述的基于机器学习的主动式队列式管理方法生成器，其特征在于：步骤S04中所述的规则优化包括以下步骤：将需要进行优化的规则的动作替换成其他动作，然后应用到仿真网络中，直至不能获得更高的反馈值。

7.根据权利要求1所述的基于机器学习的主动式队列式管理方法生成器，其特征在于：步骤S05中所述规则的反馈值定义为：，其中表示该条规则在仿真运行时被用到的次数，所有规则被用到的次数，R为所述规则集合的反馈值。

8.根据权利要求1所述的基于机器学习的主动式队列式管理方法生成器，其特征在于：所述步骤S05中的规则分裂包括以下步骤：现有规则为父规则，将所述父规则的状态空间在每个维度二分，得到若干个子空间；将所述子空间对应到父规则的动作，这样就产生了若干个不同空间相同动作的子规则。