CN102427596A

CN102427596A - 基于定位信息辅助的节点移动网络的路由方法及调度方法

Info

Publication number: CN102427596A
Application number: CN2011103906334A
Authority: CN
Inventors: 马正新; 王毓晗; 李涛; 宁永忠
Original assignee: BEIJING CNTEC TECHNOLOGY Co Ltd; Tsinghua University
Current assignee: BEIJING CNTEC TECHNOLOGY Co Ltd; Tsinghua University
Priority date: 2011-11-30
Filing date: 2011-11-30
Publication date: 2012-04-25
Anticipated expiration: 2031-11-30
Also published as: CN102427596B

Abstract

本发明是一种基于定位信息辅助的节点移动网络的路由方法及调度方法，所述路由方法包括：在节点为数据包选路过程中，每个节点周期地针对各个可达目的地，统计可以为各个相邻节点提供的到达任意目的地的可用带宽，并将该信息周期地通告所有相邻节点；每个节点根据路径跳数和从相邻节点收到的路径可用带宽，按公平的比例选择数据包的发送路径。本发明能够使节点状态保持平稳，减少延时造成的丢包率，降低网络拥塞概率。

Description

基于定位信息辅助的节点移动网络的路由方法及调度方法

技术领域

本发明属于通信技术领域，具体涉及一种基于定位信息辅助的节点移动网络的路由方法及调度方法。

背景技术

移动网络就是节点移动的网络，由于节点的移动引入了网络拓扑结构的不确定性，从而使业务到达的突发度和数据流的突发度增大，节点状态不能保持平稳，延时造成的丢包率增加，网络拥塞概率增大。

在QoS机制中，调度机制直接负责对每个数据包的操作，通过对各个节点队列中包的发送顺序或者具体发送时间的控制，来满足业务的特定QoS要求，是实现QoS保证的重要组件和关键环节。调度机制工作在数据包级(Packet level)，直接对通过的每一个数据包进行操作，是提供诸如延时，抖动和丢包率等QoS保证的关键组件。调度机制的特性直接决定了各个节点以及整个网络能够提供何种类型以及何种程度的QoS保证，因此包调度方法是在分组网中实现QoS保证的核心。

调度机制作为网络QoS保证提供的重要组件，已经得到了广泛的研究，提出了许多经典的算法。总体说来，调度机制按照其基本结构可以分为以下几类：基于轮循机制(Round-Robin)的调度算法；基于GPS(Generalized Processor Sharing)模型的调度算法；基于EDF(Earliest Deadline First)的调度算法；基于统计目标的调度算法。最早提出的轮循机制及其改进型有着最小的运算复杂度，但在公平性保证和延时保证等方面性能较差；基于GPS模型的调度机制提供最优的公平性，能够为途经的每个流提供确定性带宽保证，以及当业务流符合特定业务特性要求时提供确定性的延时上界保证；EDF被证明在可调度区间的意义下是最优的调度机制。这意味着它可以接纳更多的业务流，提供更高带宽利用率。

路由选择过程由两个部分组成：一是为到达业务选择路径并发送数据包的过程，称为寻路过程；另一个是节点间路由信息的交互过程。路由分为QoS路由和Best Effort(尽力而为)路由。

Best Effort路由算法基于业务的目的地址和当前网络拓扑结构，计算最短路径。它不区分业务类型，只要目的地址相同，所有类型的业务都按相同路径发送。因此，网络中各节点可以根据全网状态库中的拓扑信息预先计算路径，做成路由表，每个业务请求到来时，直接根据目的地址，查找路由表，获得发送路径。在节点移动网络中，由于网络拓扑结构是随时变化的，因此该路由算法是不可取的。

QoS路由就是寻找能够同时满足多种QoS要求的可行路径。它的目标是为到达的业务选择能满足其QoS要求的传输路径，并保证网络资源的有效利用。

为了实现QoS保证，路由算法必须实时了解网络拓扑结构和资源的使用情况。以便寻找最有可能满足业务需求的路径。因此QoS路由是基于网络状态的路由方式。路由选择的依据是业务的QoS要求和网络状态信息。状态信息的收集和计算会给网络带来附加的额外开销。

QoS路由分为源路由和分布式路由两种方式。源路由的特点是每个节点收集和维护全网状态信息，包括网络拓扑，到达其他节点的路径的度量参数值等。业务请求到达时，源节点根据网络状态信息和业务QoS要求计算路径，如果存在合适的路径，则由源节点沿所选路径发送资源预约信令建立路径，以此保障业务能够沿所选路径发送。

分布式路由中，路由选择由多个节点协同完成。每个节点存有到所有目的节点的下一跳列表。当收到一个数据包时，路由节点仅查表确定下一跳节点，然后发送数据包。这样，数据包经由每一个节点一跳接一跳前向发送。分布式路由的寻路一般是通过分布式地发送信令过程实现的。每个节点通过信令，了解本节点相应于到达某个目的节点的某种业务的前一级节点和后继节点。

分布式路由计算和信令发送过程一般是在业务到达前预先进行的。因此路由建立的响应比源路由快。基于探测(probing)的分布式路由算法是一种典型的分布式QoS路由算法。这种算法的基本思想是沿多条路径为业务发送寻路探测包。算法中每个节点仅需保留部分网络状态信息，计算开销小。此算法中业务源节点为该业务沿多条路径发送寻路的探测包。接收到探测包的节点，向多个节点转发该探测包。每个探测包负责搜集所经路径的状态信息。目的节点收到探测包后，沿选定路由反向发送确认包。选定路径上每个节点通过收到的确认包获知本节点在所选路径中的下一跳节点。通过这个过程，各个节点间就建立了基于业务的前后联系。基于探测包的算法不需要每个节点都保存全网状态信息，可以减小路由节点的状态存储量和节点计算开销，同时可以减小网络状态信息更新量，为网络扩展提供了良好的基础，因此得到了广泛关注。分布式路由存在两个主要问题。一个是环路问题。网络中各个节点保留的其他节点状态信息不一致或者节点路由信息不准确，都可能引起环路。虽然，环路可以在数据包第二次到达同一节点时被检测到，但是环路的存在会引起非网络拥塞造成的业务延时。另外，业务在相同链路上的重复发送也会加重网络负荷，降低网络效率。另一个是多个路由节点的有效协同问题，如果路由节点间不能很好地协同，对整个网络的性能、路由协议的动态特性及路由结构的扩展性都会有负面影响。

QoS路由计算是基于逐个业务QoS请求的。因此，为找到适合各业务的最佳可行路径，它不能采用预计算方式，只能在业务请求到达时发起路径计算，称为在线计算。在线计算和预计算各有各的优缺点。在线计算只计算一条路径，一次计算量小，相对简单，但对请求的频率较敏感；预计算对请求的频率不敏感，但一次计算量大，因此对路由表的更新频率很敏感。QoS网络是动态网络，提高路由表的更新频率可以提高路由性能，但它会带来大量附加开销。

主动队列管理AQM(Active Queue Management)的目标是维持队列长度在一个较小的目标值附近，且尽量稳定。目标值的选取应是吞吐量和延时的折衷。稳定的队列长度可以有效的消除延时抖动(delay jitter)；并具有较强的鲁棒性，即对环境变化不敏感。随机早期检测(Random Early Detection，RED)是一种早期的AQM算法。RED试图用一种“提前通知”的手段来避免网络进入拥塞的状态，从而提高网络的性能。通过以一定概率丢弃数据包来“提前通知”源端改变发送速率的方法成为以后几乎所有AQM算法的核心思想。不同的AQM算法主要区别就在于用不同的方法来估计网络的拥塞状态，并计算随机丢包的概率。目前AQM主要通过两种参数来估计网络的拥塞状态：(平均)队列长度和(平均)包到达率。比如，RED及其改进算法都是根据平均队列长度来计算丢包概率。

发明内容

(一)要解决的技术问题

本发明的目的是提出一种基于定位信息辅助的节点移动网络的路由方法及调度方法，能够使节点状态保持平稳，减少延时造成的丢包率，降低网络拥塞概率。

(二)技术方案

为了解决上述技术问题，本发明提供一种基于定位信息辅助的节点移动网络的路由方法，

包括：在节点为数据包选路过程中，每个节点周期地针对各个可达目的地，统计可以为各个相邻节点提供的到达任意目的地的可用带宽，并将该信息周期地通告所有相邻节点；每个节点根据路径跳数和从相邻节点收到的路径可用带宽，按公平的比例选择数据包的发送路径。

优选地，在所述路由方法进一步包括：若网络中每个节点都周期地向网络中的其他节点发送节点出口链路的可用带宽信息；i节点按照状态更新周期，统计每个周期中从任意一个相邻节点j到达本节点的目的地为D的总数据量，其中j∈Vⁱⁿ _i，D；如果节点i连接的是业务源，则统计每个周期内请求的总数据量，并将统计值通告给所有的相邻节点；节点i按照以下步骤为数据包选择相应的下一跳节点；

S1：若某业务流从i的相邻节点j到达节点i；节点i首先寻找到达目的节点D的跳数最小的路径；如果路径跳数满足业务要求，且跳数最小的路径有L条，其中L＞1；这L条路径与i相邻的节点共M个，组成集合

根据

计算该数据包到各个可选相邻节点的分配比例，其中

是节点i根据相邻节点k接收到的上一个状态更新周期内k节点的各个相邻节点到目的节点D的数据量的统计值计算得到的，其中

S2：该业务流的某个数据包到达节点i时，节点i按照均匀分布随机地产生一个随机数，如果该随机数落在概率区间

其中则将数据包发往相邻节点k_m；

S3：如果该业务流的数据包继续到达，而且节点状态信息没有更新，则重复S2；

S4：如果节点状态信息更新时该业务流没有传输完毕，则返回S1重新选择可选路径、下一跳节点以及数据包到各个可选相邻节点的分配比例。

优选地，在所述步骤S1中：

如果i到D的L条可选路径中没有交叉节点，则

是节点i根据获得的网络各个节点出口链路可用带宽的信息计算得到的节点k 到达目的节点D的最大带宽；

如果i到D的L条可选路径中有交叉节点，则

是节点i根据获得的网络各个节点出口链路可用带宽的信息计算得到的节点k到交叉节点的最大带宽。

本发明还提供一种基于定位信息辅助的节点移动网络的调度方法，包括：数据包级调度和队列管理调度。

优选地，所述数据包级调度为基于最早截止时间优先算法(EDF)的节点延时比例平均EDF(DP-EDF)，利用路径各个节点的延时信息，按照比例平均的原则对延时要求进行分配；设流i允许的最大延时为D_i，在传输过程中要经过m个节点，每个节点的平均延时可以获得为w_j，则在每个节点j为流i分配的延时上界为

d_{ij} = \frac{w_{j}}{Σ_{l = 1}^{m} w_{l}} D_{i},

i＝1，2，...，N，j＝1，2，...，m

优选地，所述数据包级调度为在DP-EDF的基础上提出的动态延时比例公平EDF(DDP-EDF)，设流i允许的最大延时为D_i，在传输过程中要经过m个节点，每个节点的平均延时可以获得为w_j，再设在到达节点j时包实际已经经历的延时为T_j-1，则DDP-EDF在节点j为该包分配的延时上界为

d_{ij} = \frac{w_{j}}{Σ_{l = j}^{m} w_{l}} (D_{i} - T_{j - 1}) .

优选地，所述队列管理调度为利用再励学习结合梯度下降法的一种新的主动队列管理(AQM)方法RLGD：

设报酬函数r＝-ω₁(c-B)²-ω₂(q-q_ref)²；其中，c是当前的数据到达率，B是链路带宽，q是当前的队列长度，q_ref是目标队列长度，ω₁和ω₂分别称为吞吐量权重和延时权重，ω₁和ω₂的比反映了吞吐量和延时的折衷；在这一定义下，AQM的目标：使数据到达率尽量接近链路带宽和使队列长度尽量稳定在目标值附近就相当于最大化

设状态S为当前到达率与链路带宽之差和当前队列长度与目标长度之差，将其表示为矢量形式：

S = [\begin{matrix} c - B \\ q - q_{ref} \end{matrix}]

选择总报酬的期望值Q为θ和S的内积，θ为可调节的矢量参数，即：

Q_{t + 1} = Q (θ_{t + 1}, S_{t + 1})

= θ_{t + 1}^{T} \times S_{t + 1}

= [θ_{t + 1,1,} θ_{t + 1,2}] \times [\begin{matrix} S_{t + 1,1} \\ S_{t + 1,2} \end{matrix}]

= θ_{t + 1,1} (c_{t + 1} - B) + θ_{t + 1,2} (q_{t + 1} - q_{ref})

这样，Q的梯度：

{&dtri;}_{θ} Q_{t} = [\begin{matrix} \frac{&PartialD; Q_{t}}{{&PartialD; θ}_{t, 1}} \\ \frac{&PartialD; Q_{t}}{{&PartialD; θ}_{t, 2}} \end{matrix}] = [\begin{matrix} c_{t} - B \\ q_{t} - q_{ref} \end{matrix}]

代入

θ_{t + 1} = θ_{t} + α (r_{t + 1} + γ Q_{t} - Q_{t - 1}) {&dtri;}_{θ} Q_{t}

得，

[\begin{matrix} θ_{t + 1,1} \\ θ_{t + 1,2} \end{matrix}] = [\begin{matrix} θ_{t, 1} + α (r_{t + 1} + γ Q_{t} - Q_{t - 1}) (c_{t} - B) \\ θ_{t, 2} + α (r_{t + 1} + γ Q_{t} - Q_{t - 1}) (q_{t} - q_{ref}) \end{matrix}]

Q_{t + 1} = θ_{t + 1,1} (c_{t + 1} - B) + θ_{t + 1,2} (q_{t + 1} - q_{ref})

即RLGD按照

[\begin{matrix} θ_{t + 1,1} \\ θ_{t + 1,2} \end{matrix}] = [\begin{matrix} θ_{t, 1} + α (r_{t + 1} + γ Q_{t} - Q_{t - 1}) (c_{t} - B) \\ θ_{t, 2} + α (r_{t + 1} + γ Q_{t} - Q_{t - 1}) (q_{t} - q_{ref}) \end{matrix}]

和Q_t+1＝θ_t+1，1(c_t+1-B)+θ_t+1，2(q_t+1-q_ref)进行迭代，得到Q值；其中θ₁和θ₂分别根据当前的到达率和队列长度进行调整，且调整的步长自适应变化；

最后，按照下式计算丢包概率：

p_{t + 1} = 1 - φ^{- Q_{t + 1}}

这里φ是大于1的常数。

(三)有益效果

本发明中的分布式比例公平多路由方法(DPRA)是一种以传输延时最小为目标的多路径路由方法，该方法可以有效地降低节点的丢包率，提高节点状态的稳定性。

本发明中的数据包级调度直接负责对每个数据包的操作，通过对各个节点队列中包的发送顺序或发送时间的控制，来满足业务的特定要求。本发明提出的节点延时比例平均调度算法(DP-EDF)及动态延时比例平均调度算法(DDP-EDF)，要求网络中各节点的延时分配与网络状态信息直接相关，对每个节点的延时要求动态分配，可以在相同链路利用率的情况下，减少端到端传输超时的概率，从而提高传输成功率。

本发明中的主动队列管理是一种调度机制，基于再励学习的主动队列管理(RLGD)方法通过自适应地调整丢包概率的更新步长和方向，使队列长度能够快速收敛于目标值，并且抖动很小。其队列长度收敛速度、稳定度及鲁棒性明显好于目前所采用的方法。

附图说明

图1为本发明架构图；

图2为本发明路由方法的流程图；

图3为本发明一实施例中从节点i到节点D的业务传输模型；

图4为本发明中RLGD方法的流程图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不是限制本发明的范围。

如图1所示，本发明包括基于定位信息辅助的节点移动网络的路由方法和调度方法。

如图2所示，本发明所述的基于定位信息辅助的节点移动网络的路由方法，包括：在节点为数据包选路过程中，每个节点周期地针对各个可达目的地，统计可以为各个相邻节点提供的到达任意目的地的可用带宽，并将该信息周期地通告所有相邻节点；每个节点根据路径跳数和从相邻节点收到的路径可用带宽，按公平的比例选择数据包的发送路径。

本发明所述的调度方法包括：数据包级调度和队列管理调度。

1.路由算法

1.1分布式比例公平多路由算法(DPRA)

路由过程是网络传输过程中的重要环节。路由过程是节点状态的函数，路由的目标是将业务及时发送到目的地的同时，使节点状态尽量平稳。本发明是一种以传输延时最小为目标的多路径路由算法。该方法可以有效地降低节点的丢包率，提高节点状态的稳定性。

可以证明：

定理1：假设某节点S，存在总量为Q的业务需要发送到目的地D，从发送点到目的点共有N条路径可选。当业务总量Q足够大，以至可以忽略线路延时而仅考虑传输延时，如果业务在各路径上传输的数据能够同时传输完毕(业务在各路径上传输时，最后一个包的到达时间相同)，则业务的端到端延时最小。

由定理1可得推论1：

推论1：假设某节点S，存在总量为Q的业务需要发送到目的地D，从发送点到目的点共有N条路径可选。当业务总量Q足够大，以至可以忽略线路延时而仅考虑传输延时，如果N条路径相互独立，每条路径的可用带宽为W_i(i＝1，2，...，n)，则每条链路发送数据量满足公平比例式(1)时，传输延时最小。因此业务传输延时具有下确界。

Q_{i} = \frac{W_{i}}{Σ_{j - 1}^{N} w_{j}},

i＝1，2，...，N

(1)

推论1给出了在可选路径独立的情况下，选择多路径的方法。当可选路径不是相互独立的时候，很难直接推导出使传输延时小的多路径方案。根据推论1，提出了一种分布式的按照可用带宽成比例地选择传输路径的多路径算法，简称分布式比例公平多路由算法(DPRA)。

考虑到大多数多媒体应用都是延时敏感的，我们将路径跳数和可获得带宽作为选路的主要度量参量。

分布式比例公平多路由算法的主要设计思路是：数据包传输过程中，各节点都根据到达的目的地址的可用带宽，根据式(1)式的公平比例选路准则，为数据包选择发送路径。

在节点为数据包选路过程中，每个节点周期地针对各个可达目的地，统计可以为各个相邻节点提供的到达任意目的地的可用带宽，并将该信息周期地通告所有相邻节点。每个节点根据路径跳数和从相邻节点收到的路径可用带宽，按公平的比例选择数据包的发送路径。

这里采用分布式比例公平路由主要有两个原因：

采用分布式路由策略可以减小节点所需存储的状态量，算法扩展性好。采用分布式路由一跳接一跳递推地选择路径可以提高节点状态信息的可靠性。

1.2DPRA算法描述

符号说明：

V表示网络中所有节点的集合；

E表示网络中所有有向链路的集合；

Vⁱⁿ _i，D表示节点i的邻节点中，选择节点i作为目的地为D的数据包的转发节点的所有j节点的集合。

V^out _i，D表示节点i的邻节点中，被节点i选择作为目的地为D的数据包的转发节点的所有节点的集合。

λ^D _j，i表示节点i在一个状态更新周期内，统计得到的从邻节点j(∈Vⁱⁿ _i，D)发出的目的地为D的总业务量。

H^D _i表示从节点i到节点D的最小跳数。

B^D _i表示节点i到节点D最大可获得带宽。

我们以图3为例，对分布式比例公平多路由算法进行描述。节点i有N个邻节点向i发送目的地为D的数据包，i向其他M个相邻节点发送目的地为D的数据包。

考虑到大多数多媒体应用都是延时敏感的，我们将路径跳数和可获得带宽作为选路的主要度量参量，DPRA算法是在其中一种常用算法-最大带宽-最小延时算法基础上设计的。

假设网络中每个节点都周期地向网络中的其他节点发送节点出口链路的可用带宽信息。i节点按照状态更新周期，统计每个周期中从任意一个相邻节点j(∈Vⁱⁿ _i，D)到达本节点的目的地为D的总数据量。如果节点i连接的是业务源，则统计每个周期内请求的总数据量，并将统计值通告给所有的相邻节点。节点i按照以下步骤为数据包选择相应的下一跳节点。

步骤一：假设某业务流从i的相邻节点j(∈Vⁱⁿ _i，D)到达节点i。节点i首先寻找到达目的节点D的跳数最小的路径。如果路径跳数满足业务要求，且跳数最小的路径有L(L＞1)条，这L条路径与i相邻的节点共M个，组成集合V^out _i，D。根据(2)式计算该数据包到各个可选相邻节点的分配比例

a_{i, k}^{D} = \frac{B_{i, k}^{D}}{Σ_{u &Element; V_{i, u}^{in}} B_{i, u}^{D}} (k &Element; V_{i, D}^{out}) - - - (2)

其中

是节点i根据相邻节点k接收到的上一个状态更新周期内k节点的各个相邻节点到目的节点D的数据量的统计值

计算得到的。式(3)为

的计算式：

B_{i, k}^{D} = \frac{B_{k}^{D} \cdot λ_{i, k}^{D}}{Σ_{v &Element; V_{i, D}^{in}} λ_{v, k}^{D}} - - - (3)

如果i到D的L条可选路径中，没有交叉节点，则

是节点i根据获得的网络各个节点出口链路可用带宽的信息计算得到的节点k到达目的节点D的最大带宽。

如果i到D的L条可选路径中有交叉节点，则

是节点根据获得的网络各个节点出口链路可用带宽的信息计算得到的节点k到交叉节点的最大带宽。

步骤二：该业务流的某个数据包到达节点i时，节点i按照均匀分布随机地产生一个随机数，如果该随机数落在概率区间

则将数据包发往相邻节点k_m。

步骤三：如果该业务流的数据包继续到达，而且节点状态信息没有更新，则重复步骤二。

步骤四：如果节点状态信息更新时该业务流没有传输完毕，则返回步骤一重新选择可选路径和下一跳节点，以及数据包到各个可选相邻节点的分配比例。

2.调度算法

2.1节点延时比例平均调度算法(DP-EDF)

本发明提出一种利用路径各节点延时信息的调度算法，称为节点延时比例平均EDF(DP-EDF，Delay Proportional EDF)调度算法。

EDF(Earliest Deadline First)作为一种处理器调度算法很早就被提出了，并于上世纪80年代末被引入到了包调度算法的研究中。它的基本思想极为简单：算法首先为通过该节点的每个流i分配一个本地延时上届d_i，当一个属于流i的包在时刻t_a到达时，为该包设定一个期限(deadline)为t_a+d_i，并根据该期限对包进行排序，总是选择有最小期限的包进行服务。

EDF通过对途经的每个包分配一个最后期限t_a+d_i，并利用该期限进行排序来实现调度。参数d_i的选择实际成为该算法的关键，传统的方式是在连接建立时由各节点根据自身状态结合业务流特性参数来决定d_i，缺乏对路径其他节点状况的考虑。DP-EDF的核心思想就是充分利用路径各个节点的延时信息，按照比例平均的原则对延时要求进行分配。

设流i(i＝1，2，3...N)允许的最大延时为D_i，在传输过程中要经过m个节点，每个节点的平均延时可以获得为w_j，则在每个节点j为流i分配的延时上界为

d_{ij} = \frac{w_{j}}{Σ_{l = 1}^{m} w_{l}} D_{i},

i＝1，2，...，N，j＝1，2，...，m

(4)

基于这样的机制，包可以在平均延时较大的节点获得较大的延时上界，这一方面可以在延时较大的节点降低在该节点超时被丢弃的概率，另一方面也可以在延时较小的节点为其它流保留更多资源。避免了业务流在发生拥塞的节点不合时宜地提出十分紧迫的延时要求，自身难以被满足的同时还会影响其它流的传输。

2.2动态节点延时比例平均调度算法(DDP-EDF)

在DP-EDF的基础上提出动态延时比例公平EDF(DDP-EDF，Dynamic Delay Proportional EDF)的算法。DP-EDF实际是在流的建立阶段就为沿途各个节点分配了相应的延时要求，而DDP-EDF则是在包的传输过程中动态的分配延时要求。

设流i(i＝1，2，3...N)允许的最大延时为D_i，在传输过程中要经过m个节点，每个节点的平均延时可以获得为w_j，再设在到达节点j时包实际已经经历的延时为T_j-1，则DDP-EDF在节点j为该包分配的延时上界为

d_{ij} = \frac{w_{j}}{Σ_{l = j}^{m} w_{l}} (D_{i} - T_{j - 1}) - - - (5)

这种机制的好处是显而易见的，它可以将前面节点超前得到传输后剩余的延时余量再动态的分配到剩余的节点中，从而提高传输的成功率。

2.3基于再励学习的主动队列管理(RLGD)

主动队列管理(Active Queue Management，AQM)有如下的三个目标：1)维持队列长度在一个较小的目标值附近，且尽量稳定。目标值的选取应是吞吐量和延时的折衷(较短的队列长度可以减小延时，但丢包率相应增大，即吞吐量降低)。稳定的队列长度可以有效的消除延时抖动(delay jitter)；2)具有较强的鲁棒性，即对环境变化不敏感；3) 保证一定的公平性。

通过以一定概率丢弃数据包来“提前通知”源端改变发送速率的方法成为以后几乎所有AQM算法的核心思想。不同的AQM算法主要区别就在于用不同的方法来估计网络的拥塞状态，并计算随机丢包的概率。

主动队列管理根据队列长度q(t)的变化在缓存溢出之前对到达的包以概率p(t)丢弃。这个概率经过一些延迟后被源端检测到，源端由此判断网络的状态，调整拥塞窗口大小，路由器缓存中的队列长度得到控制。AQM通过调整丢包概率p(t)促使TCP源端改变拥塞窗口，调整流量。从这个角度看AQM是系统的控制器，其输出的丢包率p(t)为系统的控制信号，而源端的拥塞窗口调整算法是系统的执行器。

我们将AQM归纳为一个最优决策问题，采用再励学习的思想，结合梯度下降法提出了一种新的AQM算法RLGD(Reinforcement Learning Gradient-Descent)。RLGD以链路速率匹配和队列长度稳定为优化目标，通过自适应地调整丢包概率的更新步长和方向，使队列长度能够快速收敛于目标值，并且抖动很小。由于RL是一种与模型无关的学习方法，因此RLGD不用关心源端的速率调整方法，只要求有一定的反馈控制机制即可，这使得RLGD具有很强的可扩展性。仿真显示，RLGD比PI和REM控制器具有更好的性能和鲁棒性。

RLGD算法

根据TCP/AQM拥塞控制模型，有如下的平均队列长度

和链路利用率u与丢包概率p之间的关系：

\bar{q} (p) = \{\begin{matrix} \max (B, c (T_{R}^{- 1} (p, c / n) - R_{0}), & p \leq p_{0} \\ 0, & otherwise \end{matrix} - - - (6)

u (p) = \{\begin{matrix} 1, & p \leq p_{0} \\ \frac{T (p, R_{0})}{c / r_{0}} & otherwise \end{matrix} - - - (7)

其中T(p，R₀)是TCP源的吞吐率，它取决于丢包率p和往返时间 R₀，B是缓冲区大小，c是链路带宽，n是TCP源数目。从上式可以看出，队列长度和链路利用率与丢包概率的关系十分复杂，一般的梯度下降法在这里不能直接应用。因此，我们利用再励学习结合梯度下降法来求解，

设t时刻系统的状态可以表示为矢量S_t，t+1时刻获得的报酬为rt1，

表示t时刻系统状态为S时，此后获得总报酬的期望值，称为状态值函数(State-Value Function)。显然，为取得长期总报酬的最大化，应选择使Q_t最大的动作a_t。由于直接的状态值函数很难求，所以一般用S_t的函数Q(θ_t，S_t)来逼近Q_t。其中θ_t是矢量参数，近似函数Q(θ_t，S_t)的形式可根据具体问题选取，可以是各种线性或非线性函数形式，甚至是人工神经网络。在给出Q(θ_t，S_t)的形式后，有以下定理：

定理1：设r是一有界报酬函数，α满足标准的随机逼近条件

θ_{t + 1} = θ_{t} + α (r_{t + 1} + γ Q_{t} - Q_{t - 1}) {&dtri;}_{θ} Q_{t} - - - (8)

Q_t+1＝Q(θ_t+1，S_t+1) (9)

这里，α称为学习因子，γ称为折扣因子。以下，我们给出一个简单的证明。

证明：由于Q(θ_t，S_t)是Q_t的近似，我们可调节θ_t来使Q(θ_t，S_t)尽量逼近Q_t，即使均方误差(Q_t-Q(θ_t，S_t))²最小。由梯度下降法，θ_t可按照下式迭代：

θ_{t + 1} = θ_{t} - \frac{1}{2} α {&dtri;}_{θ} {(Q_{t} - Q (θ_{t}, S_{t}))}^{2}

= θ_{t} + α (Q_{t} - Q (θ_{t}, S_{t})) {&dtri;}_{θ} Q (θ_{t}, S_{t}) - - - (10)

由于真实值Q_t很难得到，我们用一阶近似来代替，即Q_t＝r_t+1+γQ(θ_t，S_t)，代入(10)式，即得(8)式。

基于定理1，我们构建如下的RLGD算法：

设报酬函数r＝-ω₁(c-B)²-ω₂(q-q_ref)²。这里，c是当前的数据到达率，B是链路带宽，q是当前的队列长度，q_ref是目标队列长度，ω₁和 ω₂分别称为吞吐量权重和延时权重，它们的比反映了吞吐量和延时的折衷。在这一定义下，AQM的目标：使数据到达率尽量接近链路带宽和使队列长度尽量稳定在目标值附近就相当于最大化

RLGD算法结构示于图4。

设状态为当前到达率与链路带宽之差和当前队列长度与目标长度之差，将其表示为矢量形式：

S = [\begin{matrix} c - B \\ q - q_{ref} \end{matrix}] - - - (11)

θ为可调节的矢量参数，为计算方便，我们选择Q为θ和S的内积，即：

Q_{t + 1} = Q (θ_{t + 1}, S_{t + 1})

= θ_{t + 1}^{T} \times S_{t + 1}

= [θ_{t + 1,1,} θ_{t + 1,2}] \times [\begin{matrix} S_{t + 1,1} \\ S_{t + 1,2} \end{matrix}]

= θ_{t + 1,1} (c_{t + 1} - B) + θ_{t + 1,2} (q_{t + 1} - q_{ref}) - - - (12)

这样，Q的梯度：

{&dtri;}_{θ} Q_{t} = [\begin{matrix} \frac{&PartialD; Q_{t}}{{&PartialD; θ}_{t, 1}} \\ \frac{&PartialD; Q_{t}}{{&PartialD; θ}_{t, 2}} \end{matrix}] = [\begin{matrix} c_{t} - B \\ q_{t} - q_{ref} \end{matrix}] - - - (13)

代入(8)得，

[\begin{matrix} θ_{t + 1,1} \\ θ_{t + 1,2} \end{matrix}] = [\begin{matrix} θ_{t, 1} + α (r_{t + 1} + γ Q_{t} - Q_{t - 1}) (c_{t} - B) \\ θ_{t, 2} + α (r_{t + 1} + γ Q_{t} - Q_{t - 1}) (q_{t} - q_{ref}) \end{matrix}] - - - (14)

Q_{t + 1} = θ_{t + 1,1} (c_{t + 1} - B) + θ_{t + 1,2} (q_{t + 1} - q_{ref}) - - - (15)

即RLGD按照(14)和(15)式进行迭代，得到Q值。其中θ₁和θ₂分别根据当前的到达率和队列长度进行调整，且调整的步长自适应变化。

最后，按照下式计算丢包概率：

p_{t + 1} = 1 - φ^{- Q_{t + 1}} - - - (16)

这里φ是大于1的常数。在(16)式中，我们的公式保留了与REM 算法中相似的形式。在这种形式下，一个数据包经过一条由L段链路组成的路径后被丢弃的概率为：

p_{t + 1}^{total} = 1 - Π_{l = 1}^{L} (1 - p_{t + 1}^{l}) = 1 - φ^{- Σ_{l} Q_{t + 1}^{l}} - - - (17)

可见，RLGD算法中的Q值与REM算法中的“价格”类似，也可以被看作是网络拥塞程度的一种度量。如果我们将其称为“Q价格”，则(17)式表示一条由L段链路组成的路径上的Q价格就等于各段链路上的Q价格之和。

下面给出了RLGD算法的伪代码。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和替换，这些改进和替换也应视为本发明的保护范围。

Claims

1.一种基于定位信息辅助的节点移动网络的路由方法，其特征在于，

2.如权利要求1所述的方法，其特征在于，在所述路由方法进一步包括：若网络中每个节点都周期地向网络中的其他节点发送节点出口链路的可用带宽信息；i节点按照状态更新周期，统计每个周期中从任意一个相邻节点j到达本节点的目的地为D的总数据量，其中j∈Vⁱⁿ _i，D；如果节点i连接的是业务源，则统计每个周期内请求的总数据量，并将统计值通告给所有的相邻节点；节点i按照以下步骤为数据包选择相应的下一跳节点；

根据

计算该数据包到各个可选相邻节点的分配比例，其中

计算得到的，其中

其中

则将数据包发往相邻节点k_m；

3.如权利要求2所述的方法，其特征在于，在所述步骤S1中：

如果i到D的L条可选路径中没有交叉节点，则

是节点i根据获得的网络各个节点出口链路可用带宽的信息计算得到的节点k到达目的节点D的最大带宽；

如果i到D的L条可选路径中有交叉节点，则

4.一种基于定位信息辅助的节点移动网络的调度方法，其特征在于，包括：数据包级调度和队列管理调度。

5.如权利要求4所述的方法，其特征在于，所述数据包级调度为基于最早截止时间优先算法(EDF)的节点延时比例平均EDF(DP-EDF)，利用路径各个节点的延时信息，按照比例平均的原则对延时要求进行分配；设流i允许的最大延时为D_i，在传输过程中要经过m个节点，每个节点的平均延时可以获得为w_j，则在每个节点j为流i分配的延时上界为

d_{ij} = \frac{w_{j}}{Σ_{l = 1}^{m} w_{l}} D_{i},

i＝1，2，...，N，j＝1，2，...，m

。

6.如权利要求5所述的方法，其特征在于，所述数据包级调度为在DP-EDF的基础上提出的动态延时比例公平EDF(DDP-EDF)，设流i允许的最大延时为D_i，在传输过程中要经过m个节点，每个节点的平均延时可以获得为w_j，再设在到达节点j时包实际已经经历的延时为T_j-1，则DDP-EDF在节点j为该包分配的延时上界为

d_{ij} = \frac{w_{j}}{Σ_{l = j}^{m} w_{l}} (D_{i} - T_{j - 1}) .

7.如权利要求4所述的方法，其特征在于，所述队列管理调度为利用再励学习结合梯度下降法的一种新的主动队列管理(AQM)方法RLGD：

S = [\begin{matrix} c - B \\ q - q_{ref} \end{matrix}]

Q_{t + 1} = Q (θ_{t + 1}, S_{t + 1})

= θ_{t + 1}^{T} \times S_{t + 1}

= [θ_{t + 1,1,} θ_{t + 1,2}] \times [\begin{matrix} S_{t + 1,1} \\ S_{t + 1,2} \end{matrix}]

= θ_{t + 1,1} (c_{t + 1} - B) + θ_{t + 1,2} (q_{t + 1} - q_{ref})

这样，Q的梯度：

{&dtri;}_{θ} Q_{t} = [\begin{matrix} \frac{&PartialD; Q_{t}}{{&PartialD; θ}_{t, 1}} \\ \frac{&PartialD; Q_{t}}{{&PartialD; θ}_{t, 2}} \end{matrix}] = [\begin{matrix} c_{t} - B \\ q_{t} - q_{ref} \end{matrix}]

代入

θ_{t + 1} = θ_{t} + α (r_{t + 1} + γ Q_{t} - Q_{t - 1}) {&dtri;}_{θ} Q_{t}

得，

[\begin{matrix} θ_{t + 1,1} \\ θ_{t + 1,2} \end{matrix}] = [\begin{matrix} θ_{t, 1} + α (r_{t + 1} + γ Q_{t} - Q_{t - 1}) (c_{t} - B) \\ θ_{t, 2} + α (r_{t + 1} + γ Q_{t} - Q_{t - 1}) (q_{t} - q_{ref}) \end{matrix}]

Q_{t + 1} = θ_{t + 1,1} (c_{t + 1} - B) + θ_{t + 1,2} (q_{t + 1} - q_{ref})

即RLGD按照

[\begin{matrix} θ_{t + 1,1} \\ θ_{t + 1,2} \end{matrix}] = [\begin{matrix} θ_{t, 1} + α (r_{t + 1} + γ Q_{t} - Q_{t - 1}) (c_{t} - B) \\ θ_{t, 2} + α (r_{t + 1} + γ Q_{t} - Q_{t - 1}) (q_{t} - q_{ref}) \end{matrix}]

最后，按照下式计算丢包概率：

p_{t + 1} = 1 - φ^{- Q_{t + 1}}

这里φ是大于1的常数。