CN114938530B

CN114938530B - 基于深度强化学习的无线自组网智能组网方法

Info

Publication number: CN114938530B
Application number: CN202210651819.9A
Authority: CN
Inventors: 黄晓燕; 车文扬; 曹佳钰; 冷甦鹏
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2023-03-21
Anticipated expiration: 2042-06-10
Also published as: CN114938530A

Abstract

本发明公开了一种基于深度强化学习的无线自组网智能组网方法，本发明的方法首先确定逻辑拓扑，通过逻辑拓扑选择合理的业务路径，并结合业务信息以及业务路径信息决策出相应的MAC协议种类，最后综合考虑业务的丢包率需求和端到端时延需求，通过调整相应参数完成当前网络的组网决策。本发明的方案可以用于在无线自组网场景下，实现业务与环境感知的网络拓扑构型、MAC机制选择与参数控制、资源分配的智能控制。

Description

基于深度强化学习的无线自组网智能组网方法

技术领域

本发明属于无线网络技术领域，具体涉及一种基于深度强化学习的无线自组网智能组网方法。

背景技术

随着通信技术的发展和部署成本的降低，无线自组网越来越被广泛地普及至各个领域。无需预定基础设施支撑，网络中各节点自组织地构成无线网络，使节点间可以通过直连无线链路或多跳的方式相互通信，灵活地在各领域中建立通信平台。

但是无线节点自身的限制和无线通信环境的复杂性也为业务在无线自组网中传输带来了挑战。受无线发射功率的限制，节点间需要采用多条路由互相通信；无线自组网的节点的移动性也可能导致网络拓扑发生变化；无线通信环境的复杂多变性也要求无线自组网能自适应地使在其中传输的业务满足性能需求。

针对以上问题，“Fidler M,Rizk A.A Guide to the Stochastic NetworkCalculus，IEEE Communications Surveys&Tutorials,2017,17(1):92-105”提出了使用网络演算来评估网络中每条流的具体性能情况，可以分析出每个网络节点上的积压情况以及每条业务流的时延上界，“Jing X,Jiang Y.A network calculus approach to delayevaluation of IEEE 802.11DCF[C]//IEEE Conference on Local ComputerNetworks.IEEE,2010”利用已有的网络演算知识对802.11协议的一个具体场景进行了端到端时延上界的估算，不过二者都没有考虑底层MAC协议对上层报文产生的影响。“Zhang X.ANew Method for Analyzing Nonsaturated IEEE 802.11DCF Networks，IEEE WirelessCommunications Letters,2013,2(2):243-246”中通过建立马尔科夫链模型计算出802.11协议中节点间的碰撞概率，不过并没有将计算结果合理应用到自组网的场景下。“Bitam S,Mellouk A,Zeadally S.Bio-Inspired Routing Algorithms Survey for Vehicular AdHoc Networks，IEEE Communications Surveys&Tutorials,2015,17(2):843-867”提出了一种自组网场景下负载均衡的路由算法，不过对于复杂多变的自组网情况，算法开销过于巨大。

就目前而言，大多研究单纯集中在如何将已有协议抽象为数学表达式并获取时延上界以及针对某一个特定的问题进行具体的求解，极少关注如何针对整个组网决策进行一个联合的优化调整。

发明内容

为解决现有技术存在的上述问题，本发明提出了一种基于深度强化学习的无线自组网智能组网方法，用于在无线自组网场景下，实现业务与环境感知的网络拓扑构型、MAC机制选择与参数控制、资源分配的智能控制。

本发明的技术方案为：一种基于深度强化学习的无线自组网智能组网方法，包括如下步骤：

S1、根据当前网络的物理拓扑，确定出逻辑拓扑，如果逻辑拓扑抗毁性满足需求，转到步骤S3，否则转入步骤S2；

S2、判断迭代次数是否到达上限，如果没有，则转入步骤S1，否则转入步骤S3；

S3、判断拓扑重复训练次数是否超过N1，如果没有，则转入步骤S1，并记录逻辑拓扑重复训练次数+1，否则转入步骤S4；

S4、按照业务时延需求从小到大对业务进行排序，在前者相同的情况下，以业务序号从小到大排序；

S5、设置逻辑拓扑中每个节点的初始点权设置为0；

S6、将链路信道速率均值作为链路信道速率，计算业务在两点间的传输时延，将链路丢包率均值作为链路丢包率，通过二者加权和确定逻辑拓扑中所有边权；

S7、通过最短路算法选择一条业务的最优路径；

S8、将该业务量大小累加至选出路径上的每一个点权和边权，如果存在没有决策路径的业务，转入步骤S9，否则转入步骤S6；

S9、根据丢包率需求确定所有业务路径上的链路丢包率，如果多次决定一个链路丢包率则该链路丢包率取最小值；

S10、计算逻辑拓扑中所有节点的累加业务到达率；

S11计算逻辑拓扑中所有节点的碰撞概率，如果最大的碰撞概率大于预先设定的阈值，转入步骤S12，否则转入步骤S15；

S12、选用TDMA协议作为MAC协议，针对当前业务，在当前业务路径上决策出MAC协议及链路对应的参数，所述参数包括：节点队列优先级比例，节点时隙选择概率，TDMA数据时隙长度，链路信道速率；判断决策出协议参数是否能满足性能需求，如果不能，转入步骤S13，否则转入步骤S16；

S13、判断当前迭代次数是否达到上限，如果没有达到，转入步骤S12，否则转入步骤S14；

S14、判断参数重复训练次数是否超过了N2，如果没有超过，转入步骤S1，并记录协议参数重复训练次数+1，否则转入步骤S16；

S15、选用随机接入协议作为MAC协议，针对当前业务，在当前业务路径上决策出MAC协议及链路对应的参数，所述参数包括：节点队列优先级比例，节点回退窗口上限，链路信道速率；判断决策出协议参数是否能满足性能需求，如果不能，转入步骤S13，否则转入步骤S16；

S16、输出组网决策策略。

下面给出网络场景。多个节点组成无线网络，可以通过直连无线链路或者多跳相互通信。网络中存在多个业务，这些业务从某个节点产生，需要向另一个业务发送。业务分为3个优先级，节点在发送或者转发业务时优先发送或者转发高优先级业务。

首先，步骤S1中提出了逻辑拓扑的概念。逻辑拓扑是通过物理拓扑剪枝得到的，为了服务于接下来的各种算法，训练出的逻辑拓扑需要在保证每条业务源目之间连通的同时满足抗毁性指标需求。

其次，步骤S4根据逻辑拓扑，提出了基于业务QoS需求和负载均衡设计路由算法。该算法同时考虑了网络中不同业务之间的相互影响以及网络的实时负载情况。

步骤S9按照业务已经决策出的业务路径，决策出网络中所有链路的丢包率，丢包率决策时将实际物理层实现丢包率的难易程度简化为自组网中不同节点之间的距离。在得到每个业务对各个链路的需求后，每条链路需要满足其最小的丢包率需求，作为参数提供给物理层。

步骤S10，S11将随机接入协议的碰撞、回退过程建模为马尔可夫随机过程，通过稳态概率以及利用M/G/1排队理论得出节点发生的碰撞的概率，如果碰撞太高，则不推荐使用随机接入协议，反之，如果碰撞概率低，考虑到控制帧的开销，则不推荐使用TDMA接入协议。

步骤S12、S15根据所选的不同协议，通过网络演算算法来评估每条业务的端到端时延上界指标。将网络中所有业务抽象为业务流，通过每条业务流经过的节点和链路的服务曲线来评估端到端时延上界。

最后，S16中输出所有的组网策略，包括逻辑拓扑、业务路径、业务丢包率、MAC协议类型以及MAC协议相应参数策略。

本发明的有益效果：本发明的方法采用较高真实度的网络场景，首先确定逻辑拓扑，通过逻辑拓扑选择合理的业务路径，并结合业务信息以及业务路径信息决策出相应的MAC协议种类，最后综合考虑业务的丢包率需求和端到端时延需求，通过调整相应参数完成当前网络的组网决策。

附图说明

图1为本发明实施例的网络场景示意图。

图2为本发明提供的基于深度强化学习的无线自组网智能组网方法的流程图。

图3为本发明实施例的路由算法流程图具体流程示意图。

图4为本发明实施的随机接入协议状态转移图。

图5为本发明实施的拓扑下业务到达率计算示意图。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，下面结合附图对本发明内容进一步阐释。

在无线自组网场景下，网络需要根据网络环境状态与业务需求动态地调整组网策略，具体包括网络拓扑、路由策略、链路参数、以及MAC机制，从而满足不同任务的性能需求。

如图1所示为本发明的实施例所采用的网络场景。多个节点在空中组成无线网络，可以通过直连无线链路或者多跳相互通信。网络中存在多个业务，这些业务从某个节点产生，需要向另一个业务发送。业务分为3个优先级，节点在发送或者转发业务时优先发送或者转发高优先级业务。

基于上文所提到的网络场景，如图2所示，本发明的一种无线自组网中基于深度强化学习的智能组网决策，详细流程如下：

首先对业务性能指标进行统一定义，使用T来表示业务的集合，使用一个四元组

来表示具体业务的QoS需求，其中，i是任务序号，d指时延(delay)，e为丢包率(error rate)，

为时延达成率，r_i ^e为丢包率达成率。就时延来说，一个业务的时延如果是

(实际能够达到的时延)，而目标时延是d_i，那么其时延的达成率为

对丢包率而言，一个业务的丢包率如果是

(实际能达到的丢包率)，而目标丢包率是e_i，那么其丢包率的达成率为

一个业务的达成率收益可以表示为

w_i为业务对应的优先级，这里将丢包率达成率带来的收益和时延达成率带来的收益解耦为两个子问题来求解。

对网络抗毁性指标进行定义，网络的抗毁性计算可以得到一个0到1的数值，其中，0表示抗毁性最差，代表的是没有边的图，1表示抗毁性最好，代表的是完全图。令nums表示网络中的节点数量，抗毁性计算可通过如下公式来计算：

其中，l表示当前图中所有的边，n_start为该边的起始点所连接的节点数目，n_end为该边的终点所连接的节点数目，max_s为nums(nums-1)²。

1.逻辑拓扑决策如下

使用强化学习DDPG算法进行拓扑的训练，训练目标是满足业务抗毁性要求。若计算出一个符合抗毁性要求的拓扑则立刻停止训练并输出逻辑拓扑的邻接矩阵。

环境设置为：网络节点个数，物理拓扑邻接矩阵，业务的源目对。令Adj表示当前网络的逻辑拓扑，将状态空间定义为逻辑拓扑的邻接矩阵，而动作空间相应的为对逻辑拓扑邻接矩阵的调整，定义奖励函数为

其中，s′为目标抗毁性，T_istart和T_iend表示第T_i个业务的源节点和目的节点。相应的优化问题可以表示为：

maxmize R_G

其中，

表示决策出的逻辑拓扑必须要保证所有业务源目之间连通，否则放弃这个逻辑拓扑重新挑选动作进行训练。

2.业务路径决策如下

基于业务QoS需求和负载均衡设计路由算法，输入逻辑拓扑邻接矩阵，链路信道速率均值，链路丢包率均值，决策出业务路径以用于后续的MAC协议类型选择、丢包率决策和端到端时延学习训练。本路由算法避免课由于大量业务涌入相同路径，从而提高了业务QoS需求达成的可能性

1)按照业务时延需求从小到大对业务进行排序，在前者相同的情况下，以业务序号从小到大排序；

2)逻辑拓扑中每个节点的初始点权设置为0；

3)对于每一个业务：

a)确定逻辑拓扑边权

i.将链路信道速率均值作为链路信道速率，计算业务在此两点间的传输时延，即业务大小与传输速率之商。

ii.将链路丢包率均值作为链路丢包率。

iii.逻辑拓扑边权即为链路丢包率与业务在对应两点之间的传输时延的加权和。

b)根据带点权和边权的最短路径算法，以当前逻辑拓扑的点权和边权选择最优路径作为当前业务的路由路径；

4)将该业务路径上所有节点的点权更新，将业务大小累加至节点原有点权上作为新的节点的点权；

路由算法流程图可以表示为如图3所示。

3.丢包率需求决策

对于每条链路，达到指定的丢包率的难易程度不同。为了简化问题，这里以链路两个端点的欧式距离作为难易程度的度量。假设链路l的两个端点为n₁和n₂，其欧式距离为d_e(n₁,n₂)＝l_d。则对于链路l，其达到丢包率e的代价可以记为l_d/e，即l_d越大，e越小，其代价就越大。对于业务i，其丢包率需求为e_i，其经过的链路为

对应的长度分别为

每条链路的丢包率分别

为则可以建模为以下优化问题，得到每个业务对传输路径上的各条链路的丢包率需求：

4.MAC协议类型选择

假设MAC种类初始为随机接入类型，对该协议进行马尔可夫建模其中BS为节点进行的回退过程，随机接入协议采用二进制指数退避算法，在初始竞争时，节点的默认CW范围是[0,31]。而如果在节点数较多的情况下，那么就有可能发生冲突问题，发生一次冲突后，那么CW范围就会从[0,31]变化到[0,63]。在随机接入协议中，一共允许回退6次，第7次不倍增窗口，再次尝试重发若失败，则丢弃这个数据包。在信道为理想信道的前提下，此处定义p表示该节点在发送数据的过程中与其他节点发生了碰撞，而q表示在未发生碰撞的情况下，发送完毕发送队列缓冲区为空的概率。由此可以给出马尔科夫链的单步转移概率，即从状态i转移到状态j的概率，其中R取802.11协议中规定的回退次数上限，状态转移图如图4所示。

根据马尔可夫状态转移方程进一步可以求得稳态概率为：

使用P(TX)表示站点尝试在随机选择的时隙中传输的概率，条件概率P(TX|S＝i)当处于退避阶段i时，站点尝试在随机选择的时隙中传输的概率。P(S＝i)则表示当前状态处于回退阶段i的概率。通过这个平稳分布进一步导出在某一个回退i状态的节点尝试发送数据包的概率：

其中，b_i是第i个状态下的回退时隙数目，可以得到状态i下的回退时隙的数量：

μ_i＝E(b_i)+1,0≤i≤R

其中，E(b_i)即为状态i下回退数目的期望，为E(b_i)＝[min(2ⁱW₀,2^mW₀)-1]/2，其中回退阶段为0时的W₀是初始回退窗口，m表示目前处于第m次回退。

对于最后一个状态，有：

其中，P_a表示在一个时隙中至少一个数据包达到IDLE状态的概率，n表示从第一个时隙开始算一直算到最后，得出最后一个状态的期望回退时隙数量。

根据马尔可夫更新过程，可以得到一个节点处于回退状态i的概率：

进一步得到在一个随机时隙中一个节点尝试发送数据包的概率：

其中，p＝1-(1-τ)^N-1表示这个节点在一个随机时隙中发送数据包发生碰撞的概率。

P_a可以通过泊松到达公式

来计算，t_I表示空闲状态下一个站所经历的时隙的平均长度，这个长度是由在一个区域内其余N-1个节点来决定的。q可以通过M/G/1排队理论得到：

其中，λ为业务到达率，

表示平均服务时间，ρ₀表示任意时刻队伍是空闲的概率。而到达、离开过程随机观察者都看到系统中客户数量的相同平稳分布，故q＝ρ₀。进而可以求解出一个节点的碰撞概率，可以将联合求解问题表示为：

其中，t_B代表协议中的平均回退时隙数，t_TX代表协议中平均传输时隙数，

则对应于一个节点在进入回退阶段i时停留在回退阶段i的平均时间，可以根据τ进行估计。

求解这个问题需要一个实际的业务到达率λ，对于无线自组织网络中的不同业务的相互影响，此处将业务到达看作泊松到达，将到达率累加到上一次决策出的路径上，根据其邻居节点所有到达率的均值作为这个节点竞争范围内的

计算其碰撞概率p，求解上述联合问题并记录所有节点中碰撞概率最大的值。如果存在节点的碰撞概率p＞p_max，则采用TDMA协议，否则采用随机接入协议。

以图4的图场景为例，假设此时存在两个业务需求，分别是(1,8)和(2,6)，业务到达率分别是λ₁＝2kps和λ₂＝1kps使用前一部分的路由选择算法得到两条业务路径1-3-4-7-8和2-3-4-6。对于节点3，业务到达率为2+1＝3kbps，节点4为2+1＝3kbps，节点7为2+0+0＝2kbps，节点6是第二个业务的到达节点，针对节点4，其邻居节点的平均业务到达率为(3+3+2+0)/4＝2kbps，范围内的节点一共有3，4，6，7四个节点。进而可以计算出节点4的碰撞概率。类似地，可以得到其他节点的碰撞概率。取所有节点的最大碰撞概率，如果大于指定阈值p_max，则采用TDMA协议，否则，采用CSMA协议。综上，对于网络中节点j来说，其碰撞概率可以通过联合求解获得：

其中，λ_neighbor表示节点j范围内的邻居节点的业务到达率(包括节点j)，node_neighbor表示这个节点范围的邻居数量(包括该节点自身)。

5.MAC协议参数决策

MAC协议训练目标是满足业务的时延要求。若满足

即时延的达成率

大于等于时延最低达成度r_i ^d时，则学习结束，输出MAC协议参数的具体数值以及每条链路信道速率。

设置一个最大重复训练次数，若迭代次数达到上限训练仍然不能满足要求，且重复次数小于阈值，返回第一步重新训练出一个逻辑拓扑并重新生成组网决策，前一回合失败的拓扑计入失败拓扑集合T_bad，在后续学习中不予考虑；若迭代次数达到上限且训练仍然不能满足要求，且重复次数大于阈值，直接输出当前这一轮训练中记录到的最优解。

训练环境设置为：逻辑拓扑的邻接矩阵，MAC协议类型，业务路径，业务优先级。状态空间为不同类型MAC协议参数以及链路速率。相应的动作空间为对状态空间中相应参数的调整。

(1)TDMA协议

针对在线学习组网决策请求，参数优化逻辑如下：同时调整TDMA协议的数据时隙长度、节点时隙选择概率、节点优先级队列比例以及信道速率，记录这一次的参数初始状态、动作以及调整后的参数状态，通过网络演算模块评估出调整后的业务时延达成率，如果满足需求，则结束迭代。不满足则按照上文所说流程进行下一步操作。

对于指标而言，当调整MAC协议及链路参数时，若MAC协议为TDMA协议，则按照参数优化逻辑求解以下优化问题：

其中，w_i为业务i对应的优先级，slot为数据时隙长度，p_j为第j个节点的时隙选择概率，pri_j1，pri_j2和pri_j3分别是第j个节点的高、中、低队列优先级，Rate_k为自组网中第k条链路的信道速率。

(2)随机接入协议

针对在线学习组网决策请求，参数优化逻辑如下：同时调整随机接入协议的节点回退窗口次数上限、节点优先级队列比例以及信道速率，记录这一次的参数初始状态、动作以及调整后的参数状态，通过网络演算模块评估出调整后的业务时延达成率，如果满足需求，则结束迭代。不满足则按照上文所说流程进行下一步操作。

对于指标而言，当调整MAC协议及链路参数时，若MAC协议为随机协议，则按照参数优化逻辑求解以下优化问题：

其中，w_i为业务i对应的优先级，m_j为第j个节点的回退次数上限，pri_j1，pri_j2和pri_j3分别是第j个节点的高、中、低队列优先级，Rate_k为自组网中第k条链路的信道速率。

上述模型均可以通过DDPG算法进行求解。将所有可调参数压缩为一个状态。对这个状态进行调整并得到下一个状态以及奖励值，神经网络会朝着奖励值大的方向学习，大幅度减少了无效搜索。

表1基于DDPG的链路参数更新算法

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种基于深度强化学习的无线自组网智能组网方法，包括如下步骤：

S5、设置逻辑拓扑中每个节点的初始点权设置为0；

S6、将链路信道速率均值作为链路信道速率，计算业务在两点间的传输时延，将链路丢包率均值作为链路丢包率，通过传输时延与链路丢包率的加权和确定逻辑拓扑中所有边权；

S7、通过最短路算法选择一条业务的最优路径；

S8、将当前决策出路径的业务的业务量大小累加至选出路径上的每一个点权和边权，如果存在没有决策路径的业务，转入步骤S9，否则转入步骤S6；

S9、根据丢包率需求确定所有业务路径上的链路丢包率，如果一个链路丢包率同时被决策多次，则该链路丢包率取最小值；

S10、计算逻辑拓扑中所有节点的累加业务到达率；

S11、根据步骤S10得到的每个节点的累加业务到达率，基于随机接入协议的马尔可夫模型进行碰撞概率计算，得到逻辑拓扑中所有节点的碰撞概率，如果最大的碰撞概率大于预先设定的阈值，转入步骤S12，否则转入步骤S15；

S15、选用随机接入协议作为MAC协议，针对当前业务，在当前业务路径上决策出MAC协议及链路对应的参数，所述参数包括：节点队列优先级比例，节点回退窗口上限，链路信道速率；根据网络演算计算出当前协议下各条业务时延是否满足设定的时延指标需求，如果不能，转入步骤S13，否则转入步骤S16；

S16、输出组网决策策略。

2.根据权利要求1所述的一种基于深度强化学习的无线自组网智能组网方法，其特征在于，步骤S16中输出所有的组网策略，包括逻辑拓扑、业务路径、业务丢包率、MAC协议类型以及MAC协议相应参数策略。