CN104283809A - 一种基于机器学习的主动式队列管理方法生成器 - Google Patents
一种基于机器学习的主动式队列管理方法生成器 Download PDFInfo
- Publication number
- CN104283809A CN104283809A CN201410622752.1A CN201410622752A CN104283809A CN 104283809 A CN104283809 A CN 104283809A CN 201410622752 A CN201410622752 A CN 201410622752A CN 104283809 A CN104283809 A CN 104283809A
- Authority
- CN
- China
- Prior art keywords
- rule
- management method
- machine learning
- value
- feedback
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及一种基于机器学习的主动式队列管理方法生成器,利用用户对网络环境的模糊描述,通过机器学习中强化学习的方法在该网络环境下进行离线学习,以生成符合用户定制需求的主动式队列管理方法。本发明避免了对不同网络场景手工设计主动队式管理方法的繁琐,且生成的方法具有高吞吐率低延时的特征。
Description
技术领域
本发明涉及网络拥塞控制,特别是一种基于机器学习的主动式队列管理方法生成器。
背景技术
随着近年来计算机网络规模的急剧膨胀,特别是层出不穷的多媒体应用对网络服务质量的要求越来越高,控制网络拥塞,提高网络服务质量变得尤为重要。网络拥塞控制主要由两部分组成:一是端到端的传输协议,比如TCP协议,二是部署在中间节点的主动式队列管理算法。在网络传输过程中,中间节点的队列过短,会导致新到的数据包无法入队而被丢弃;过长,会导致排队时延太大。同时,中间节点适时丢包可以作为一种拥塞信号反馈给发送端,使其降低发送速率,避免拥塞。因此,如何管理队列是网络拥塞控制的关键。
发明内容
本发明的目的是提供一种基于机器学习的主动式队列管理方法生成器,能自动为用户定制的网络生成高效的主动式队列管理算法。
本发明采用以下技术方案实现:一种基于机器学习的主动式队列管理方法生成器,其特征在于,包括以下步骤:步骤S01:根据用户对网络环境的模糊描述模拟出一仿真网络场景;步骤S02:定义规则为状态空间到动作的映射 ,将现有的规则集合初始化为一条规则;步骤S03:将所述规则集合作为队列管理方法应用到所述仿真网络场景中,该队列管理方法在所述仿真网络场景运行固定时间后计算出规则集合反馈值;步骤S04:对所述规则集合内的所有规则进行规则优化后跳回步骤S03,直至无法得到更高的规则集合的反馈值后执行步骤S05;步骤S05:选择获得最大规则反馈值的规则进行规则分裂,将该规则分裂成若干子规则;步骤S06:返回步骤S03,直至达到规定的迭代次数后退出,最终得到的规则集合为生成的队列管理方法。
在本发明一实施例中,所述仿真网络场景中的每个发送端部署了随机开关的FTP,使得每个发送端随机关闭一段时间后发送随机数量的数据包,再随机关闭,再随机发送,如此循环。
在本发明一种实施例中,所述状态空间为队列长度的指数加权移动平均值和接收到包的时间间隔的指数加权移动平均值所组成的二维空间(,);所述动作< k,b >表示对瞬时最大队列长度的更新,更新公式为:,其中k,b为二维动作空间中的一个点(k,b)的组成。
在本发明另一实施例中,所述规则集合的数据结构为树形结构。
在本发明一实施例中,步骤S03中所述规则集合的反馈值的定义为: ,其中 是指全局的吞吐率, 是指每个包的平均端到端时延;所述规则集合的反馈值越大,表示其所构成的队列管理算法性能越好。
在本发明一实施例中,步骤S04中所述的规则优化包括以下步骤:将需要进行优化的规则的动作替换成其他动作,然后应用到仿真网络中,直至不能获得更高的反馈值。
在本发明一实施例中,步骤S05中所述规则的反馈值定义为:,其中 表示该条规则在仿真运行时被用到的次数, 所有规则被用到的次数,R为所述规则集合的反馈值。
在本发明一实施例中,所述步骤S05中的规则分裂包括以下步骤:现有规则为父规则,将所述父规则的状态空间在每个维度二分,得到若干个子空间;将所述子空间对应到父规则的动作,这样就产生了若干个不同状态空间相同动作的子规则。
本发明利用用户对网络环境的模糊描述(网络参数范围),通过机器学习方法进行在该网络环境下进行离线学习,以生成符合用户定制需求的主动式队列管理方法,该方法简单,实现灵活,具有较强的实用性。本发明避免了对不同网络场景手工设计主动队式管理方法的繁琐。本发明利用机器学习中强化学习的算法框架,通过不断迭代,不断优化生成的队列管理方法,使其具有高吞吐率,低延时的特点。
附图说明
图1是本发明算法框架结构示意图。
图2是本发明算法流程图。
图3是本发明队列管理方法的数据结构图。
具体实施方
图1为本发明算法结构示意图。本发明基于机器学习的主动式队列管理方法生成器,其利用用户对网络环境的模糊描述(网络参数范围),通过机器学习方法进行在该网络环境下进行离线学习,以生成符合用户定制需求的主动式队列管理方法。
图2为本发明算法流程图。本发明包括以下步骤:步骤S01:根据用户对网络环境的模糊描述模拟出一仿真网络场景;步骤S02:定义规则为状态空间到动作的映射 ,将现有的规则集合初始化为一条规则;步骤S03:将所述规则集合作为队列管理方法应用到所述仿真网络场景中,该队列管理方法在所述仿真网络场景运行固定时间后计算出规则集合反馈值;步骤S04:对所述规则集合内的所有规则进行规则优化后跳回步骤S03,直至无法得到更高的规则集合的反馈值后执行步骤S05;步骤S05:选择获得最大规则反馈值的规则进行规则分裂,将该规则分裂成若干子规则;步骤S06:返回步骤S03,直至达到规定的迭代次数后退出,最终得到的规则集合为生成的队列管理方法。
本发明通过用户的网络场景的模糊描述(即网络参数范围,包括网络拓扑,链路带宽等)建立仿真网络环境。本发明在每个发送端部署了随机开关的FTP(文件传输协议),使得每个发送端随机关闭一段时间后发送随机数量的数据包,再随机关闭,再随机发送,如此循环,使得仿真网络场景更具有一般性地模拟拥塞状况。
所述状态空间为队列长度的指数加权移动平均值和接收到包的时间间隔的指数加权移动平均值所组成的二维空间(,);所述动作< k,b >表示对瞬时最大队列长度的更新,更新公式为:,其中k,b为二维空间中的一个点(k,b)的组成。
其中队列长度的指数加权移动平均值: ,
表示队列长度的指数加权移动平均值, 表示当前队列长度。同时表示了当前队列长度和历史队列长度。
接收到包的时间间隔的指数加权移动平均值: ,
表示接收到包的时间间隔的指数加权移动平均值, 表示当前接收到包的时间间隔。同时表示了当前接收到包的时间间隔和历史接收到包的时间间隔。
一个完整的拥塞状态是由这两个状态组成的二维状态空间中的一个点(,)。
本发明定义了一个值: ,表示瞬时最大队列长度。若当前队列长度大于 则丢弃接收到的包。其中 的更新如下公式表示:。所述动作的表示就是由k, b 组成的二维空间中的一个点,对当前的更新。
本发明定义规则为一个状态空间到一个动作的映射:。
对于任意的状态(ewma_qlen,ewma_inter),都有应动作 <k,b>, 将规则集合初始化为一条规则,即使k = b = 1。
步骤S03中所述的队列管理方法为若干个所述规则的集合。规则集合的数据结构表示见图3,规则集合是一个树形结构,其非叶子节点是状态空间,叶子节点是规则。每个非叶节点的状态空间在每个维度进行二分后分裂出若干个子空间,而这些子空间就是其孩子节点的状态空间,这是规则分裂的过程。
步骤S04中所述规则优化包括以下步骤:将需要优化的规则的动作替换成其他动作,然后应用到仿真网络中,直至不能获得更高的反馈。
本发明中,反馈是指将现有规则集合应用到仿真网络环境中后,从网络中得到的反馈。规则集合的反馈定义如下:,其中 是指全局的吞吐率,而 是指每个包的平均端到端时延。规则集合的反馈值越大,表示其所构成的队列管理算法性能越好。
对于每一条规则,其反馈定义如下:,其中 表示该条规则在仿真运行时被用到的次数, 所有规则被用到的次数。
步骤S05中规则分裂包括以下步骤:新规则的产生是由现有的规则分裂得到的,即现有规则为父规则。父规则首先将其状态空间在每个维度二分,得到若干个子空间,然后将这些子空间对应到父规则的动作,这样就产生了若干个不同空间相同动作的子规则。树形结构使得在搜索一个状态所对应的规则时,只需对数时间内便可完成,大大提高了搜索的效率。
本发明利用机器学习中强化学习的算法框架,通过不断迭代,不断优化生成的队列管理方法,使其具有高吞吐率,低延时的特点。
以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本发明的涵盖范围。
Claims (8)
1.一种基于机器学习的主动式队列管理方法生成器,其特征在于,包括以下步骤:
步骤S01:根据用户对网络环境的模糊描述模拟出一仿真网络场景;
步骤S02:定义规则为状态空间到动作的映射
,将现有的规则集合初始化为一条规则;
步骤S03:将所述规则集合作为队列管理方法应用到所述仿真网络场景中,该队列管理方法在所述仿真网络场景运行固定时间后计算出所述规则集合反馈值;
步骤S04:对所述规则集合内的所有规则进行规则优化后跳回步骤S03,直至无法得到更高的规则集合的反馈值后执行步骤S05;
步骤S05:选择获得最大规则反馈值的规则进行规则分裂,将该规则分裂成若干子规则;
步骤S06:返回步骤S03,直至达到规定的迭代次数后退出,最终得到的规则集合为生成的队列管理方法。
2.根据权利要求1所述的基于机器学习的主动式队列式管理方法生成器,其特征在于:所述仿真网络场景中的每个发送端部署了随机开关的FTP,使得每个发送端随机关闭一段时间后发送随机数量的数据包,再随机关闭,再随机发送,如此循环。
3.根据权利要求1所述的基于机器学习的主动式队列式管理方法生成器,其特征在于:所述状态空间为队列长度的指数加权移动平均值和接收到包的时间间隔的指数加权移动平均值所组成的二维空间(,);所述动作< k,b >表示对瞬时最大队列长度的更新,更新公式为:,其中k,b为二维动作空间中的一个点(k,b)的组成。
4.根据权利要求1所述的基于机器学习的主动式队列式管理方法生成器,其特征在于:所述规则集合的数据结构为树形结构。
5.要求1所述的基于机器学习的主动式队列式管理方法生成器,其特征在于:步骤S03中所述规则集合的反馈值的为:
,其中 是指全局的吞吐率, 是指每个包的平均端到端时延;所述规则集合的反馈值越大,表示其所构成的队列管理算法性能越好。
6.权利要求1所述的基于机器学习的主动式队列式管理方法生成器,其特征在于:步骤S04中所述的规则优化包括以下步骤:将需要进行优化的规则的动作替换成其他动作,然后应用到仿真网络中,直至不能获得更高的反馈值。
7.根据权利要求1所述的基于机器学习的主动式队列式管理方法生成器,其特征在于:步骤S05中所述规则的反馈值定义为: ,其中 表示该条规则在仿真运行时被用到的次数, 所有规则被用到的次数,R为所述规则集合的反馈值。
8.根据权利要求1所述的基于机器学习的主动式队列式管理方法生成器,其特征在于:所述步骤S05中的规则分裂包括以下步骤:现有规则为父规则,将所述父规则的状态空间在每个维度二分,得到若干个子空间;将所述子空间对应到父规则的动作,这样就产生了若干个不同空间相同动作的子规则。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410622752.1A CN104283809B (zh) | 2014-11-08 | 2014-11-08 | 一种基于机器学习的主动式队列管理方法生成器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410622752.1A CN104283809B (zh) | 2014-11-08 | 2014-11-08 | 一种基于机器学习的主动式队列管理方法生成器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104283809A true CN104283809A (zh) | 2015-01-14 |
CN104283809B CN104283809B (zh) | 2017-07-04 |
Family
ID=52258305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410622752.1A Expired - Fee Related CN104283809B (zh) | 2014-11-08 | 2014-11-08 | 一种基于机器学习的主动式队列管理方法生成器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104283809B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1885824A (zh) * | 2006-06-07 | 2006-12-27 | 清华大学 | 主动队列管理的分类器实现方法 |
CN101562566A (zh) * | 2009-06-04 | 2009-10-21 | 吉林大学 | 基于实时路由器缓存占有率的主动队列管理方法 |
CN101635674A (zh) * | 2009-08-20 | 2010-01-27 | 上海交通大学 | 通信网络自适应拥塞控制方法 |
CN101969408A (zh) * | 2010-11-03 | 2011-02-09 | 南京邮电大学 | 基于分组dscp标记的主动队列管理方法 |
-
2014
- 2014-11-08 CN CN201410622752.1A patent/CN104283809B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1885824A (zh) * | 2006-06-07 | 2006-12-27 | 清华大学 | 主动队列管理的分类器实现方法 |
CN101562566A (zh) * | 2009-06-04 | 2009-10-21 | 吉林大学 | 基于实时路由器缓存占有率的主动队列管理方法 |
CN101635674A (zh) * | 2009-08-20 | 2010-01-27 | 上海交通大学 | 通信网络自适应拥塞控制方法 |
CN101969408A (zh) * | 2010-11-03 | 2011-02-09 | 南京邮电大学 | 基于分组dscp标记的主动队列管理方法 |
Non-Patent Citations (1)
Title |
---|
李雪娇: "网络拥塞控制中智能AQM算法的研究", 《优秀硕士论文》 * |
Also Published As
Publication number | Publication date |
---|---|
CN104283809B (zh) | 2017-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105553749B (zh) | 一种基于sdn的icn逻辑拓扑构建方法 | |
CN114143264B (zh) | 一种SRv6网络下基于强化学习的流量调度方法 | |
Joo et al. | Greedy maximal matching: Performance limits for arbitrary network graphs under the node-exclusive interference model | |
Sarasvathi et al. | QoS guaranteed intelligent routing using hybrid PSO-GA in wireless mesh networks | |
Joo et al. | Performance limits of greedy maximal matching in multi-hop wireless networks | |
Qadeer et al. | Flow-level dynamic bandwidth allocation in SDN-enabled edge cloud using heuristic reinforcement learning | |
Koutsopoulos | Learning the optimal controller placement in mobile software-defined networks | |
Desai et al. | Analysis of reinforcement based adaptive routing in MANET | |
Wang et al. | A PSO-based multicast routing algorithm | |
CN104283809A (zh) | 一种基于机器学习的主动式队列管理方法生成器 | |
CN103905319A (zh) | 一种基于迭代编码的多约束组播路由算法 | |
Punia et al. | Effect of mobility in IoT environment | |
Sadat et al. | A neighborhood contact history based spraying heuristic for delay tolerant networks | |
Sadat et al. | An improved MaxProp based on neighborhood contact history for Delay Tolerant Networks | |
Islam et al. | An analytical study to minimize load of ZigBee network based on statistical modeling | |
CN103118411A (zh) | 一种基于时延容忍网络的无领导节点式分组路由方法 | |
Sundaram et al. | OLSR with optimized hybrid particle swarm optimization and invasive weed optimization | |
Nair et al. | A hybrid PSO-GA algorithm for energy efficient routing in AMMNET | |
Abdulhameed et al. | Performance Evaluation of Datacenter Network Topologies via NS-2 Simulations | |
Fu et al. | Research of Satellite Tactical Communication Network Routing Protocol Simulation Based on TDMA | |
Yadav et al. | Design of efficient multicast routing protocol using limited flooding mechanism | |
Momanyi et al. | Performance Analysis of FIFO And Priority Packet Queuing Mechanisms In MANETs | |
Kolici et al. | Application of WMN-SA web interface and NS-3 for optimization and analysis in WMNs considering different number of mesh routers and architectures | |
Tajaldeen et al. | Improving of 5G Wireless Networks using Optimization Method | |
Mala et al. | Route discovery in cellular networks using soft computing techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170704 Termination date: 20191108 |
|
CF01 | Termination of patent right due to non-payment of annual fee |