CN110995590A

CN110995590A - 一种分布式分域网络下的高效路由方法

Info

Publication number: CN110995590A
Application number: CN201911007273.8A
Authority: CN
Inventors: 罗涛; 李泽旭; 刘颖; 李勇; 杨灿
Original assignee: CETC 7 Research Institute
Current assignee: CETC 7 Research Institute
Priority date: 2019-10-22
Filing date: 2019-10-22
Publication date: 2020-04-10
Anticipated expiration: 2039-10-22
Also published as: CN110995590B

Abstract

本发明公开了一种分布式分域网络下的高效路由方法，包括步骤如下：源节点将业务请求包发送至该区域簇首节点，由簇首节点判断，源节点与目标节点是否处于同一区域；若在同一区域，簇首节点调用区域资源池信息，基于强化学习的路由决策算法，返回一条或多条满足业务服务质量QoS需求的路由路径，完成该业务端到端的路由建立；若在不同区域，簇首节点调用全局资源池信息，基于强化学习的路由决策算法判断该业务需要经过的区域，采用跨区域业务请求拆分方法将该业务请求拆分；将拆分后的业务请求分别发送至所经过的区域的簇首节点，再调用区域资源池信息、基于强化学习的路由决策算法，最终由多区域协作完成端到端的路由决策，得到源节点到目标节点的路由路径。

Description

一种分布式分域网络下的高效路由方法

技术领域

本发明涉及无线通信技术领域，更具体的，涉及一种分布式分域网络下的高效路由方法。

背景技术

随着多种无线通信技术日益成熟和多样化移动服务大量涌现，未来无线网络呈现出密集部署、动态接入、异构网络并存的发展趋势，移动通信网络将会面临网络规模剧烈扩张、网络拓扑高动态变化、网络资源维度爆发增长等问题，传统的网络管理架构难以适应未来通信网络管理要求。

而另一方面，随着信息与通信技术的发展与升级，人们对于信息传递的形式也有了更多的期待，如文本、话音、视频等各个类型的业务。而业务形式的不同，会产生各类业务服务质量(Quality of Service，QoS)的差异化需求，例如文本业务在时延敏感性方面要求较低，而话音业务要求较高。

与传统的移动通信系统相比，未来通信网络在保证差异化QoS的需求方面将会提出更高要求，然而目前在分布式分域架构下，还没有能保障多种业务差异QoS需求的通用路由方法。

传统路径规划算法大体上可以分为精确算法和近似算法两种，其中精确算法如单纯形法、椭球算法、Karmarkar等存在时间复杂度过高而无法胜任大型网络的局限性，因此，求解过程相对简单的近似算法更适用于规模大、去中心化、高动态性的分布式分域架构下的差异化QoS需求的路由问题。

如图1所示，传统方法中一般将差异化QoS需求的路由问题转化为图论中加权最短路径问题，采取经典路径规划算法解决，如Dijkstra算法、Floyd算法等，时延、带宽等信息被按比例折合为链路权重值，节点通过与相邻的节点交互链路信息，累积迭代获取最小加权路径。除此之外还可以采取蚁群算法、遗传算法等启元式算法求解最短路径，通过设置探索参数不断逼近最优路径解。

传统基于最短路径的路由技术虽然迭代求解规则相对简单，易于在大规模网络中实现，但是存在求解目标单一，对未来网络中多属性维度用户需求支持能力差的缺陷。多跳链路间的资源属性存在不同类型的耦合，例如带宽属性为凹性度量，即数据包从发送端到达接收端所能达到的最大速率等价于所有链路上带宽中的最小值，而时延属性为加性度量，即业务传输总时延等价于各个链路上时延之和，这导致无法通过简单的迭代规则将业务的各个属性化为具体数值。因此，基于最短路径的经典路由算法已经无法良好适用于未来通信网络高维度、差异化的业务属性。

发明内容

本发明为了解决在分布式分域的管理架构下，传统Dijkstra等基于最小跳的路由算法，无法满足多样化业务复杂差异的QoS需求的问题，提出一种分布式分域网络下的高效路由方法，其采用基于强化学习的路由决策算法，该算法具有复杂度低、收敛速度快的优势，能够有效支撑时延敏感业务对时延属性的需求，能够满足不同业务差异化的QoS需求。

为实现上述本发明目的，采用的技术方案如下：一种分布式分域网络下的高效路由方法，所述该方法基于分布式分域的网络架构，每个骨干网区域包括簇内成员节点、簇首节点，所有簇内成员节点均能通过一跳或多跳的方式连接至簇首节点；

所述该方法包括步骤如下：

S1：源节点将业务请求包发送至该区域簇首节点，由簇首节点判断，源节点与目标节点是否处于同一区域；

S2：当源节点与目标节点处于同一区域时，簇首节点调用区域资源池信息，基于强化学习的路由决策算法，返回一条或多条满足业务服务质量QoS需求的路由路径，并将决策信息发送至路径相关节点，执行路由决策，完成该业务端到端的路由建立；

S3：当源节点与目标节点处于不同区域，簇首节点调用全局资源池信息，基于强化学习的路由决策算法判断该业务需要经过的区域，采用跨区域业务请求拆分方法将该业务请求拆分为多段域内请求；

S4：将拆分后的业务请求分别发送至所经过的区域的簇首节点，簇首节点调用区域资源池信息、基于强化学习的路由决策算法，为每段区域内业务请求规划路由路径，最终由多区域协作完成端到端的路由决策，从而得到源节点到目标节点的路由路径。

优选地，所述区域资源池信息是区域内的所有成员节点，周期性向簇首节点上报本地的资源信息，所述的资源信息包括与相邻节点之间的链路类型、带宽能力、信号传输时延及丢包率；由区域簇首节点汇聚而形成区域资源池，以链路类型进行划分，并将区域资源池信息备份至区域内备份节点处；其中所述的链路类型包括短波、微波、光纤；

所述的区域内资源池信息用于表征该区域拓扑结构以及各节点之间链路带宽信息，并将区域资源池信息以多个上三角矩阵的形式存储于簇首节点和备份节点处。

优选地，由各个簇首节点收集到区域内资源信息后，进行抽象聚合，并在各区域簇首节点间进行同步，从而得到全局资源池；所述全局资源池信息包括区域聚合链路带宽、域间链路带宽；

其中所述区域聚合链路带宽是在区域资源池的基础上，计算每个区域边缘节点之间所有路径能够提供的最大带宽能力；

所述的域间链路表示相邻区域之间所有链路能够提供的最大带宽能力；

所述的全局资源池信息以矩阵的形式存储于各区域簇首处，并周期同步更新。

优选地，所述基于强化学习的路由决策算法，其步骤如下：

D1：将骨干网络拓扑用图G(V,E)表示，其中i∈V代表骨干网节点，边ij∈E表示节点i至节点j之间的通信链路；通过计算端到端时延、带宽能力、丢包率三类性能指标；

D2：基于资源信息获取方法，将端到端时延、带宽能力、丢包率以区域资源池和全局资源池的方式存储于相应区域的簇首节点，并周期性同步更新；

D3：基于业务QoS需求建立路径规划问题，并将图G(V,E)的路由过程映射为马尔可夫决策过程E＝<X,A,P,R>，其中X代表当前系统状态，A代表决策动作集合，P代表状态转移概率，R表示奖赏函数；

D4：所述马尔可夫决策过程四元组均为已知，采用强化学习中值迭代算法进行求解；采用归一化加权平均将问题转为单一优化目标求解，从而得到最优策略π，通过策略π标识出源节点S至目标节点D路由路径上的每一跳节点，即端到端的一条完整路由路径。

进一步地，步骤D1，计算端到端时延、带宽能力、丢包率的具体公式如下：

其中，端到端时延M_D(E_ρ)：路由路径上端到端的时延为路径上每一跳链路d_ij时延的加和，即

带宽能力M_W(E_ρ)：路由路径能够提供的带宽能力为路径上每一跳链路所能提供的带宽的最小值，即

丢包率M_L(E_ρ)：路径成功传输的概率为路径上每一跳链路成功传输概率的成绩，因此端到端丢包率可以表示为

其中，E_ρ表示源节点S到目标节点D的一条路由路径，ρ表示目标节点D的业务，d_ij表示节点i到节点j一跳的时延、w_ij表示节点i到节点j的可用带宽、e_ij表示节点i到节点j的传输丢包率。

进一步地，步骤D3，所述的业务QoS需求是在满足用户时延(D_req)、带宽(W_req)和丢包率(L_req)的基本需求前提下，为该业务分配一条或多条时延和丢包率最低的路由路径，其数学表达式如下：

s.t.M_W(E_ρ)≥W_req

M_D(E_ρ)≤D_req

M_L(E_ρ)≤L_req

其中，E[x]_t表示在业务传输时间t内的期望值，W_req，D_req，L_req分别表示该业务的带宽、时延和丢包率的需求。

再进一步地，步骤D4，所述采用强化学习中值迭代算法进行求解，具体如下：

将在当前状态下通过策略π可得到的最大累积奖赏采用状态值函数V^π(x)代表，并采用状态-动作值函数Q^π(x,a)代表在当前状态下执行动作a后，继续通过策略π可得到的最大累积奖赏；

其中，T步累积奖赏下的V^π(x)可定义如下：

T步累积奖赏下的

可定义如下：

因模型已知，可进行全概率展开：

其中，r_t表示t时刻的瞬时奖赏、π(x,a)表示在状态x执行动作a的策略、

状态x在执行动作a后转移到状态x’的概率；

对于收敛阈值θ给定的情况下，值迭代算法过程如下所示：

C1：状态值函数V(x)初始化为0，转至A2；

C2：按公式

计算执行当前策略获得的状态值函数V′(x)，若当前状态值函数V′(x)与上一策略中状态值函数V(x)相等则转至A4，否则转至A3；

C3：使用当前状态值函数V′(x)覆盖原有状态值函数V(x)，跳转至A2；

C4：输出最佳状态值函数V(x)；

将瞬时奖赏

替换为端到端时延、带宽能力、丢包率；假设在状态x下，动作a为选择x′为下一跳节点，那么求最大路径剩余带宽的相应迭代更新公式如下：

q_w(x,a)＝min(w_x,x′,max(x′,a^*))

当q_w(x,a)≥w_thr时才进行时延与误码率指标的更新：

q_d(x,a)＝d_x,x′+min(q_d(x′,a^*))

q_e(x,a)＝1-(1-e_x,x′)*(1-min(q_e(x′,a^*)))

当q值矩阵收敛时结束更新，此时可得到q_d(x,a),q_e(x,a)两张q值表，横坐标为状态，纵坐标为动作，q值表中的每一行代表当前状态下选择各个动作可得到的最优奖赏值；

通过加权平均可将q_d(x,a),q_e(x,a)两张q值表转化为一张q值表，按照q值表依次选择最小的q值即可得到策略π。

再进一步地，针对部分包可拆分的业务，基于多路径路由对业务进行拆包，返回多条源节点到目标节点的路由路径；

其中所述基于多路径路由对业务进行拆包的步骤包括如下：

A1：设业务带宽请求为w_thr，路径数i初始化为1，未分配带宽w_remained＝w_thr；

A2：调用基于强化学习的路由决策算法，获得当前网络可提供最大带宽w_max，若当前最大带宽链路w_max≥w_thr则w_remained＝w_remained-w_thr，并转至A4，否则转至A3；

A3：对业务进行拆包处理，并将当前带宽需求值分割为两部分

记录路径数i＝i+1，若i>4则退出并输出分配路径失败信息，否将w′_thr1赋值给w_thr跳转至A2；

A4：输出当前路径i，更新全局资源池信息或区域资源池信息，判断w_remained是否等于0，如果不等于则跳转至A2，等于则输出分配路径失成功信息并结束。

再进一步地，所述源节点产生业务请求信息包括源节点ID、目标节点ID、包大小、传输时间以及是否支持多路径；所述部分包可拆分的业务包括视频、XML文件、流媒体。

再进一步地，当簇首节点通过基于强化学习的路由决策算法输出路由策略π后，簇首节点生成两类策略控制包完成策略下发过程，如果业务目的节点在区域内，则只生成第一类控制包；其中所述两类策略控制包分别如下：

第一类是域内控制包，控制包的数目与路由策略π途经节点数的数目相同，并以簇首节点为源节点，各个途径节点为目的节点，完成控制包的投递；

第二类控制包是域间控制包，所述域间控制包由于域与域之间的簇首节点协调与交互完成；且控制包的数目与多路径路由的数目一致，簇首节点通过全局资源信息、跨区域业务请求拆分方法；将控制包多跳传输至跨域路由下一邻域内的边缘节点，由该邻域边缘节点上报至该邻域簇首节点；该邻域簇首节点通过解析控制包内业务信息，采用基于强化学习的路由决策算法计算该上报边缘节点至目的节点域内路由信息；

若目的节点不在该域内，则簇首节点重复进行跨区域业务请求拆分方法，并下发两类策略控制包，完成新一轮的路由策略制定任务；若目的节点在本域内，则采用基于强化学习的路由决策算法计算该上报边缘节点至目的节点域内路由策略，完成总跨域路由在本域内的最后部分路由策略；

当域内的各个节点收到簇首节点的控制包后，执行控制包内容完成路由策略搭建任务。

本发明在分布式分域网络的架构下，单个区域内节点数量一般不超过30个，在30个节点的网络规模下，区域内节点一般可以在5跳以内进行互联通信。

本发明的有益效果如下：

1.本发明对于源节点与目标节点处于不同区域，通过簇首节点协同管理的方式，简化路由问题，降低路由调度复杂度。采用基于强化学习的路由决策算法具有复杂度低、收敛速度快的优势，能够有效支撑时延敏感业务对时延属性的需求。

2.本发明所述的基于强化学习的路由决策算法以带宽能力、端到端时延、丢包率等性能指标的加权值作为学习收益，使路由决策能够满足不同业务差异化的QoS需求。该路由决策算法具备一定的通用性，未来可针对新的业务需求指标进行指标体系的扩中，方法具有较强可扩展能力。

3.本发明所述的基于强化学习的路由决策算法进行迭代路由计算，该算法可移植性强，当网络资源信息不完备时，可以将算法迁移至各个网络节点处进行分布式计算，能够提高网络抗毁性和灵活性。

4.本发明所述的高效路由方法支持多路径路由，能够实现网络的负载均衡，防止高带宽需求业务造成网络链路的拥塞，能够有效降低业务拒绝率，提升网络资源利用率。

附图说明

图1是现有技术面向差异化QoS需求的路由技术。

图2是实施例1的所述高效路由方法的调度流程。

图3是实施例1的网络资源池信息获取过程。

图4是实施例1的区域资源池视图。

图5是实施例1的全局资源池视图。

图6是实施例1的网络拓扑图G(V,E)。

图7是实施例1的跨区域业务请求拆分的示意图。

图8是实施例1的多路径路由的示意图。

图9是实施例1的路由策略的执行示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做详细描述。

实施例1

一种分布式分域网络下的高效路由方法，所述的高效路由方法基于分布式分域的网络架构，每个骨干网区域由簇内成员节点和簇首节点组成，所有成员节点均能通过一跳或多跳的方式连接至簇首节点。面向QoS需求存在差异并且类型不同的业务请求时，由区域簇首基于当前的网络资源状态进行判决，返回一条或多条满足业务需求的路由路径。当源节点和目标节点处于同一区域时，路由决策由该区域簇首节点独立完成，当源节点和目标节点处于不同区域时，路由决策由相关区域簇首协作完成。

如图2所示，具体的，所述的高效路由方法的包括步骤如下：

本发明所述的源节点产生业务请求信息包括源节点ID，目标节点ID，包大小，传输时间以及是否支持多路径。

由于现有的分布式分域网络中每一个区域无法实时获取全网详细的资源信息。为了构建完备的资源池信息，如图3所示，将区域内所有成员节点，周期性向簇首节点上报本地的资源信息，所述的资源信息包括与相邻节点之间的链路类型、带宽能力、信号传输时延及丢包率等。由区域簇首汇聚并形成区域资源池，以链路类型进行划分，并将区域资源池信息备份至区域内备份节点处；其中所述的链路类型包括短波、微波、光纤；

如图4所示，以链路带宽资源为例，区域内资源池信息能够表征该区域拓扑结构以及各节点之间链路带宽信息，并将资源池信息以多个上三角矩阵的形式(如表1表示的短波资源池)存储于簇首节点和备份节点处。矩阵行列代表区域内节点编号，矩阵元素数值代表行列节点之间链路所能提供的带宽能力，若元素值为0，则表示节点之间不存短波链路。

表1区域资源池矩阵

为了构建完备的资源池信息，本实施例还进行构建全局资源池，基于网络资源虚拟化技术，全局资源池通过在区域资源池的基础上进一步进行聚合抽象得到更粗粒度划分的全局资源信息。如图5所示，由各个簇首收集到区域内资源信息后，进行抽象聚合，并在各区域簇首间进行同步，从而形成全局资源池。以链路带宽资源为例，如图3所示，所述全局资源池信息包括区域聚合链路带宽、域间链路带宽。

所述域间链路表示相邻区域之间所有链路能够提供的最大带宽能力。各个区域内入口节点到出口节点之间能够提供的带宽能力以及各区域相邻边缘节点之间能够提供的带宽能力。图5中聚合链路所标识的并非是实际物理链路的带宽值，而是经过聚合之后，区域边缘节点之间能够提供的最大带宽能力(实际可映射为多条物理链路)。

所述的全局资源池信息以矩阵的形式(如表2表示的资源池)存储于各区域簇首处，并周期同步更新。矩阵行列代表各区域边缘节点编号，矩阵元素数值代表行列节点之间链路所能提供的带宽能力，若元素值为0，则表示节点之间不存一跳或多跳能够连接的链路。

表2全局资源池矩阵

本发明的目标是为QoS需求存在差异的多种业务类型，提供通用的路由决策模型，实现高效可靠的端到端的路由决策，在保证全网用户需求的前提下，进一步提高网络资源调度效能。因此本发明通过基于强化学习的路由决策算法进行实现，所述的基于强化学习的路由决策算法，其步骤如下：

D1：如图7所示，将骨干网络拓扑用图G(V,E)表示，其中i∈V代表骨干网节点，边ij∈E表示节点i至节点j之间的通信链路。为满足用户差异的QoS需求，本实施例主要考虑端到端时延、带宽能力、丢包率三类性能指标，其中三类指标的计算方法如下：

端到端时延M_D(E_ρ)：路由路径上端到端的时延为路径上每一跳链路d_ij时延的加和，即

D2：基于以上的资源信息获取方法，将骨干网端到端时延、带宽能力、丢包率以区域资源池和全局资源池的方式存储与相应区域的簇首节点，并周期性同步更新，保证路由决策的时效性。

D3：本实施例以业务QoS需求为限制条件，以时延和丢包率为优化目标，本实施例的路由问题模型即可建立为在满足用户端到端时延D_req、带宽能力W_req和丢包率L_req的基本需求前提下，寻找一条或多条时延和丢包率最低的路由路径分配给该业务，其数学表达式如下：

s.t.M_W(E_ρ)≥W_req

M_D(E_ρ)≤D_req

M_L(E_ρ)≤L_req

基于以上业务QoS需求建立路径规划问题，并将图G(V,E)的路由过程映射为马尔可夫决策过程E＝<X,A,P,R>，其中X代表当前系统状态，A代表决策动作集合，P代表状态转移概率，R表示奖赏函数；其中所述骨干网络拓扑图G(V,E)的路由过程与MDP模型的映射关系见表3。

表3骨干网路由问题的MDP转化

D4：在本问题中，所述的马尔可夫决策过程四元组均为已知，可利用强化学习中值迭代算法进行求解；采用归一化加权平均将问题转为单一优化目标求解，从而得到最优策略π，通过策略π标识出源节点S至目标节点D路由路径上的每一跳节点，即端到端的一条完整路由路径。

本实施例所述采用强化学习中值迭代算法进行求解，具体如下：

其中，T步累积奖赏下的V^π(x)可定义如下：

T步累积奖赏下的

可定义如下：

因模型已知，可进行全概率展开：

状态x在执行动作a后转移到状态x’的概率。

对于收敛阈值θ给定的情况下，值迭代算法过程如下所示：

C1：状态值函数V(x)初始化为0，转至A2；

C2：按公式

C4：输出最佳状态值函数V(x)；

将瞬时奖赏

q_w(x,a)＝min(w_x,x′,max(x′,a^*))

当q_w(x,a)≥w_thr时才进行时延与误码率指标的更新：

q_d(x,a)＝d_x,x′+min(q_d(x′,a^*))

q_e(x,a)＝1-(1-e_x,x′)*(1-min(q_e(x′,a^*)))

当q值矩阵收敛时结束更新，此时可得到q_d(x,a),q_e(x,a)两张q值表，横坐标为状态纵坐标为动作，表中的每一行代表当前状态下选择各个动作可得到的最优奖赏值，即是最小时延与最低丢包率。

对于时延及丢包率两类指标，采用归一化加权平均，从而转化为单一目标进行求解。通过加权平均可将q_d(x,a),q_e(x,a)两张q值表转化为一张q值表，按照q值表依次选择最小的q值即可得到策略π。

本实施例通过所述基于强化学习的路由决策算法得到策略π＝{a₁,a₂,…,D}其标识出源节点S至目标节点D路由路径上的每一跳节点，即端到端的一条完整路由路径。

本实施例所述的跨域业务请求拆分方法具体如下：

如图7所示，源节点和目标节点分别处于区域1和区域3，由于区域1簇首节点没有其他区域的完整拓扑和资源池信息，因此在进行完整路由决策之前首先要对业务请求进行区域拆分。源节点将业务请求(源节点、目标结点、带宽、时延、多径策略)发送至区域1簇首节点。所述簇首节点调用全局资源池信息、基于强化学习的路由决策算法。以图7中业务为例，基于强化学习的路由决策算法返回的路径节点为：1-2、2-1、2-2、3-1。

因此源节点到目标结点的请求可以拆分为3段区域内业务请求和2段域间业务请求，其中域内业务请求包括：源节点至区域1边缘节点1-2；区域2边缘节点2-1至2-2；区域3边缘节点3-1至目标节点。域间业务请求包括:区域1边缘节点1-2至区域2边缘节点2-1；区域2边缘节点2-1至区域3边缘节点3-1。

请求拆分后，三段域内的业务请求分别发送给相应区域的簇首节点，相应区域簇首节点调用区域资源池信息及基于强化学习的路由决策算法，为每段区域内业务请求规划路由路径，最终形成一条或多条源节点到目标节点的路由路径。

由于多种业务对网络带宽的需求存在差异，针对部分包可拆分的业务(如视频、XML文件、流媒体等业务)，单条路由路径无法满足业务大带宽的需求，为了提升网络资源利用率并且降低高带宽需求业务被拒绝的概率，因此本实施例基于多路径路由对业务进行拆包，为该类业务划分多条源节点到目标结点的路由路径，从而满足业务的高带宽需求，同时实现网络的负载均衡，避免某些过高带宽需求的业务造成部分链路的拥塞。

如图8所示，其中所述基于多路径路由对业务进行拆包的步骤包括如下：

由于在拆包合包过程中可能导致丢失，随着多径数的增加，传输可靠性将降低，因此在本方案中限制最大可分路径条数为4条。

本实施例通过拆包不断降低业务带宽需求，寻找最低满足单路径路由的带宽门限，并设置为路由路径之一。在探索第一条路径时，为降低搜索次数，设置首次带宽门限降低尺度为1/2，如果没有满足条件的单路径，则说明无法通过两条单路径满足其QoS需求，则将带宽门限降低为原需求的1/4，如果仍没有满足条件的单路径，说明无法通过分四条单路径满足其QoS需求，退出大循环，拒绝该业务请求。

如果找到首条路径，更新带宽需求w_remained＝w_remained-w_thr并且更新资源池信息，当门限w_remained＝0时，说明能够找到满足就当前拆包方式的路由路径，退出大循环，不再需要进行拆包探索；当w_remained≠0时，重复这一过程，寻找下一条路径。

通过上述基于多路径路由对业务进行拆包，可以实现高带宽需求业务的灵活调度，提高网络整体的路由容错性和可靠性，进一步提升网络资源利用率。

当簇首节点通过基于强化学习的路由决策算法输出路由策略π后，簇首节点生成两类策略控制包完成策略下发过程，如果业务目的节点在区域内，则只生成第一类控制包。其中所述两类策略控制包分别如下：

第二类控制包是域间控制包，所述域间控制包由于域与域之间的簇首节点协调与交互完成，如果业务目的节点位于本域内则第二类控制包生成数量为0，否则控制包的数目与多路径路由的数目一致。

所述簇首节点通过全局资源信息、跨区域业务请求拆分方法；将控制包多跳传输至跨域路由下一邻域内的边缘节点，由该邻域边缘节点上报至该邻域簇首节点；该邻域簇首节点通过解析控制包内业务信息，采用基于强化学习的路由决策算法计算该上报边缘节点至目的节点域内路由信息；

当域内的各个节点收到簇首的控制包后，执行控制包内容完成路由策略搭建任务。以图9所示为例，簇首节点5制定路由策略后生成4个控制包，目标节点分别为2,4,5,8，其中目标为2号节点的控制包经过3号节点两跳转发到达。各节点收到控制包后，执行控制包内容建立2-4-5-8的路由，完成由源节点(2号)至目的节点(8号)的路由建立。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种分布式分域网络下的高效路由方法，所述该方法基于分布式分域的网络架构，每个骨干网区域包括簇内成员节点、簇首节点，所有簇内成员节点均能通过一跳或多跳的方式连接至簇首节点；

其特征在于：所述该方法包括步骤如下：

2.根据权利要求1所述的分布式分域网络下的高效路由方法，其特征在于：所述区域资源池信息是区域内的所有成员节点，周期性向簇首节点上报本地的资源信息，所述的资源信息包括与相邻节点之间的链路类型、带宽能力、信号传输时延及丢包率；由区域簇首节点汇聚而形成区域资源池，以链路类型进行划分，并将区域资源池信息备份至区域内备份节点处；其中所述的链路类型包括短波、微波、光纤；

3.根据权利要求1所述的分布式分域网络下的高效路由方法，其特征在于：由各个簇首节点收集到区域内资源信息后，进行抽象聚合，并在各区域簇首节点间进行同步，从而得到全局资源池；所述全局资源池信息包括区域聚合链路带宽、域间链路带宽；

4.根据权利要求1所述的分布式分域网络下的高效路由方法，其特征在于：所述基于强化学习的路由决策算法，其步骤如下：

5.根据权利要求4所述的分布式分域网络下的高效路由方法，其特征在于：步骤D1，计算端到端时延、带宽能力、丢包率的具体公式如下：