CN114938530B - 基于深度强化学习的无线自组网智能组网方法 - Google Patents

基于深度强化学习的无线自组网智能组网方法 Download PDF

Info

Publication number
CN114938530B
CN114938530B CN202210651819.9A CN202210651819A CN114938530B CN 114938530 B CN114938530 B CN 114938530B CN 202210651819 A CN202210651819 A CN 202210651819A CN 114938530 B CN114938530 B CN 114938530B
Authority
CN
China
Prior art keywords
service
turning
link
packet loss
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210651819.9A
Other languages
English (en)
Other versions
CN114938530A (zh
Inventor
黄晓燕
车文扬
曹佳钰
冷甦鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210651819.9A priority Critical patent/CN114938530B/zh
Publication of CN114938530A publication Critical patent/CN114938530A/zh
Application granted granted Critical
Publication of CN114938530B publication Critical patent/CN114938530B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/32Flow control; Congestion control by discarding or delaying data units, e.g. packets or frames
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W40/00Communication routing or communication path finding
    • H04W40/02Communication route or path selection, e.g. power-based or shortest path routing
    • H04W40/12Communication route or path selection, e.g. power-based or shortest path routing based on transmission quality or channel quality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W84/00Network topologies
    • H04W84/18Self-organising networks, e.g. ad-hoc networks or sensor networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于深度强化学习的无线自组网智能组网方法,本发明的方法首先确定逻辑拓扑,通过逻辑拓扑选择合理的业务路径,并结合业务信息以及业务路径信息决策出相应的MAC协议种类,最后综合考虑业务的丢包率需求和端到端时延需求,通过调整相应参数完成当前网络的组网决策。本发明的方案可以用于在无线自组网场景下,实现业务与环境感知的网络拓扑构型、MAC机制选择与参数控制、资源分配的智能控制。

Description

基于深度强化学习的无线自组网智能组网方法
技术领域
本发明属于无线网络技术领域,具体涉及一种基于深度强化学习的无线自组网智能组网方法。
背景技术
随着通信技术的发展和部署成本的降低,无线自组网越来越被广泛地普及至各个领域。无需预定基础设施支撑,网络中各节点自组织地构成无线网络,使节点间可以通过直连无线链路或多跳的方式相互通信,灵活地在各领域中建立通信平台。
但是无线节点自身的限制和无线通信环境的复杂性也为业务在无线自组网中传输带来了挑战。受无线发射功率的限制,节点间需要采用多条路由互相通信;无线自组网的节点的移动性也可能导致网络拓扑发生变化;无线通信环境的复杂多变性也要求无线自组网能自适应地使在其中传输的业务满足性能需求。
针对以上问题,“Fidler M,Rizk A.A Guide to the Stochastic NetworkCalculus,IEEE Communications Surveys&Tutorials,2017,17(1):92-105”提出了使用网络演算来评估网络中每条流的具体性能情况,可以分析出每个网络节点上的积压情况以及每条业务流的时延上界,“Jing X,Jiang Y.A network calculus approach to delayevaluation of IEEE 802.11DCF[C]//IEEE Conference on Local ComputerNetworks.IEEE,2010”利用已有的网络演算知识对802.11协议的一个具体场景进行了端到端时延上界的估算,不过二者都没有考虑底层MAC协议对上层报文产生的影响。“Zhang X.ANew Method for Analyzing Nonsaturated IEEE 802.11DCF Networks,IEEE WirelessCommunications Letters,2013,2(2):243-246”中通过建立马尔科夫链模型计算出802.11协议中节点间的碰撞概率,不过并没有将计算结果合理应用到自组网的场景下。“Bitam S,Mellouk A,Zeadally S.Bio-Inspired Routing Algorithms Survey for Vehicular AdHoc Networks,IEEE Communications Surveys&Tutorials,2015,17(2):843-867”提出了一种自组网场景下负载均衡的路由算法,不过对于复杂多变的自组网情况,算法开销过于巨大。
就目前而言,大多研究单纯集中在如何将已有协议抽象为数学表达式并获取时延上界以及针对某一个特定的问题进行具体的求解,极少关注如何针对整个组网决策进行一个联合的优化调整。
发明内容
为解决现有技术存在的上述问题,本发明提出了一种基于深度强化学习的无线自组网智能组网方法,用于在无线自组网场景下,实现业务与环境感知的网络拓扑构型、MAC机制选择与参数控制、资源分配的智能控制。
本发明的技术方案为:一种基于深度强化学习的无线自组网智能组网方法,包括如下步骤:
S1、根据当前网络的物理拓扑,确定出逻辑拓扑,如果逻辑拓扑抗毁性满足需求,转到步骤S3,否则转入步骤S2;
S2、判断迭代次数是否到达上限,如果没有,则转入步骤S1,否则转入步骤S3;
S3、判断拓扑重复训练次数是否超过N1,如果没有,则转入步骤S1,并记录逻辑拓扑重复训练次数+1,否则转入步骤S4;
S4、按照业务时延需求从小到大对业务进行排序,在前者相同的情况下,以业务序号从小到大排序;
S5、设置逻辑拓扑中每个节点的初始点权设置为0;
S6、将链路信道速率均值作为链路信道速率,计算业务在两点间的传输时延,将链路丢包率均值作为链路丢包率,通过二者加权和确定逻辑拓扑中所有边权;
S7、通过最短路算法选择一条业务的最优路径;
S8、将该业务量大小累加至选出路径上的每一个点权和边权,如果存在没有决策路径的业务,转入步骤S9,否则转入步骤S6;
S9、根据丢包率需求确定所有业务路径上的链路丢包率,如果多次决定一个链路丢包率则该链路丢包率取最小值;
S10、计算逻辑拓扑中所有节点的累加业务到达率;
S11计算逻辑拓扑中所有节点的碰撞概率,如果最大的碰撞概率大于预先设定的阈值,转入步骤S12,否则转入步骤S15;
S12、选用TDMA协议作为MAC协议,针对当前业务,在当前业务路径上决策出MAC协议及链路对应的参数,所述参数包括:节点队列优先级比例,节点时隙选择概率,TDMA数据时隙长度,链路信道速率;判断决策出协议参数是否能满足性能需求,如果不能,转入步骤S13,否则转入步骤S16;
S13、判断当前迭代次数是否达到上限,如果没有达到,转入步骤S12,否则转入步骤S14;
S14、判断参数重复训练次数是否超过了N2,如果没有超过,转入步骤S1,并记录协议参数重复训练次数+1,否则转入步骤S16;
S15、选用随机接入协议作为MAC协议,针对当前业务,在当前业务路径上决策出MAC协议及链路对应的参数,所述参数包括:节点队列优先级比例,节点回退窗口上限,链路信道速率;判断决策出协议参数是否能满足性能需求,如果不能,转入步骤S13,否则转入步骤S16;
S16、输出组网决策策略。
下面给出网络场景。多个节点组成无线网络,可以通过直连无线链路或者多跳相互通信。网络中存在多个业务,这些业务从某个节点产生,需要向另一个业务发送。业务分为3个优先级,节点在发送或者转发业务时优先发送或者转发高优先级业务。
首先,步骤S1中提出了逻辑拓扑的概念。逻辑拓扑是通过物理拓扑剪枝得到的,为了服务于接下来的各种算法,训练出的逻辑拓扑需要在保证每条业务源目之间连通的同时满足抗毁性指标需求。
其次,步骤S4根据逻辑拓扑,提出了基于业务QoS需求和负载均衡设计路由算法。该算法同时考虑了网络中不同业务之间的相互影响以及网络的实时负载情况。
步骤S9按照业务已经决策出的业务路径,决策出网络中所有链路的丢包率,丢包率决策时将实际物理层实现丢包率的难易程度简化为自组网中不同节点之间的距离。在得到每个业务对各个链路的需求后,每条链路需要满足其最小的丢包率需求,作为参数提供给物理层。
步骤S10,S11将随机接入协议的碰撞、回退过程建模为马尔可夫随机过程,通过稳态概率以及利用M/G/1排队理论得出节点发生的碰撞的概率,如果碰撞太高,则不推荐使用随机接入协议,反之,如果碰撞概率低,考虑到控制帧的开销,则不推荐使用TDMA接入协议。
步骤S12、S15根据所选的不同协议,通过网络演算算法来评估每条业务的端到端时延上界指标。将网络中所有业务抽象为业务流,通过每条业务流经过的节点和链路的服务曲线来评估端到端时延上界。
最后,S16中输出所有的组网策略,包括逻辑拓扑、业务路径、业务丢包率、MAC协议类型以及MAC协议相应参数策略。
本发明的有益效果:本发明的方法采用较高真实度的网络场景,首先确定逻辑拓扑,通过逻辑拓扑选择合理的业务路径,并结合业务信息以及业务路径信息决策出相应的MAC协议种类,最后综合考虑业务的丢包率需求和端到端时延需求,通过调整相应参数完成当前网络的组网决策。
附图说明
图1为本发明实施例的网络场景示意图。
图2为本发明提供的基于深度强化学习的无线自组网智能组网方法的流程图。
图3为本发明实施例的路由算法流程图具体流程示意图。
图4为本发明实施的随机接入协议状态转移图。
图5为本发明实施的拓扑下业务到达率计算示意图。
具体实施方式
为便于本领域技术人员理解本发明的技术内容,下面结合附图对本发明内容进一步阐释。
在无线自组网场景下,网络需要根据网络环境状态与业务需求动态地调整组网策略,具体包括网络拓扑、路由策略、链路参数、以及MAC机制,从而满足不同任务的性能需求。
如图1所示为本发明的实施例所采用的网络场景。多个节点在空中组成无线网络,可以通过直连无线链路或者多跳相互通信。网络中存在多个业务,这些业务从某个节点产生,需要向另一个业务发送。业务分为3个优先级,节点在发送或者转发业务时优先发送或者转发高优先级业务。
基于上文所提到的网络场景,如图2所示,本发明的一种无线自组网中基于深度强化学习的智能组网决策,详细流程如下:
首先对业务性能指标进行统一定义,使用T来表示业务的集合,使用一个四元组
Figure BDA0003687982620000041
来表示具体业务的QoS需求,其中,i是任务序号,d指时延(delay),e为丢包率(error rate),
Figure BDA0003687982620000042
为时延达成率,ri e为丢包率达成率。就时延来说,一个业务的时延如果是
Figure BDA0003687982620000043
(实际能够达到的时延),而目标时延是di,那么其时延的达成率为
Figure BDA0003687982620000044
对丢包率而言,一个业务的丢包率如果是
Figure BDA0003687982620000045
(实际能达到的丢包率),而目标丢包率是ei,那么其丢包率的达成率为
Figure BDA0003687982620000046
一个业务的达成率收益可以表示为
Figure BDA0003687982620000047
wi为业务对应的优先级,这里将丢包率达成率带来的收益和时延达成率带来的收益解耦为两个子问题来求解。
对网络抗毁性指标进行定义,网络的抗毁性计算可以得到一个0到1的数值,其中,0表示抗毁性最差,代表的是没有边的图,1表示抗毁性最好,代表的是完全图。令nums表示网络中的节点数量,抗毁性计算可通过如下公式来计算:
Figure BDA0003687982620000048
其中,l表示当前图中所有的边,nstart为该边的起始点所连接的节点数目,nend为该边的终点所连接的节点数目,max_s为nums(nums-1)2
1.逻辑拓扑决策如下
使用强化学习DDPG算法进行拓扑的训练,训练目标是满足业务抗毁性要求。若计算出一个符合抗毁性要求的拓扑则立刻停止训练并输出逻辑拓扑的邻接矩阵。
环境设置为:网络节点个数,物理拓扑邻接矩阵,业务的源目对。令Adj表示当前网络的逻辑拓扑,将状态空间定义为逻辑拓扑的邻接矩阵,而动作空间相应的为对逻辑拓扑邻接矩阵的调整,定义奖励函数为
Figure BDA0003687982620000051
其中,s′为目标抗毁性,Tistart和Tiend表示第Ti个业务的源节点和目的节点。相应的优化问题可以表示为:
maxmize RG
Figure BDA0003687982620000052
其中,
Figure BDA0003687982620000053
表示决策出的逻辑拓扑必须要保证所有业务源目之间连通,否则放弃这个逻辑拓扑重新挑选动作进行训练。
2.业务路径决策如下
基于业务QoS需求和负载均衡设计路由算法,输入逻辑拓扑邻接矩阵,链路信道速率均值,链路丢包率均值,决策出业务路径以用于后续的MAC协议类型选择、丢包率决策和端到端时延学习训练。本路由算法避免课由于大量业务涌入相同路径,从而提高了业务QoS需求达成的可能性
1)按照业务时延需求从小到大对业务进行排序,在前者相同的情况下,以业务序号从小到大排序;
2)逻辑拓扑中每个节点的初始点权设置为0;
3)对于每一个业务:
a)确定逻辑拓扑边权
i.将链路信道速率均值作为链路信道速率,计算业务在此两点间的传输时延,即业务大小与传输速率之商。
ii.将链路丢包率均值作为链路丢包率。
iii.逻辑拓扑边权即为链路丢包率与业务在对应两点之间的传输时延的加权和。
b)根据带点权和边权的最短路径算法,以当前逻辑拓扑的点权和边权选择最优路径作为当前业务的路由路径;
4)将该业务路径上所有节点的点权更新,将业务大小累加至节点原有点权上作为新的节点的点权;
路由算法流程图可以表示为如图3所示。
3.丢包率需求决策
对于每条链路,达到指定的丢包率的难易程度不同。为了简化问题,这里以链路两个端点的欧式距离作为难易程度的度量。假设链路l的两个端点为n1和n2,其欧式距离为de(n1,n2)=ld。则对于链路l,其达到丢包率e的代价可以记为ld/e,即ld越大,e越小,其代价就越大。对于业务i,其丢包率需求为ei,其经过的链路为
Figure BDA0003687982620000061
对应的长度分别为
Figure BDA0003687982620000062
每条链路的丢包率分别
Figure BDA0003687982620000063
为则可以建模为以下优化问题,得到每个业务对传输路径上的各条链路的丢包率需求:
Figure BDA0003687982620000064
Figure BDA0003687982620000065
Figure BDA0003687982620000066
4.MAC协议类型选择
假设MAC种类初始为随机接入类型,对该协议进行马尔可夫建模其中BS为节点进行的回退过程,随机接入协议采用二进制指数退避算法,在初始竞争时,节点的默认CW范围是[0,31]。而如果在节点数较多的情况下,那么就有可能发生冲突问题,发生一次冲突后,那么CW范围就会从[0,31]变化到[0,63]。在随机接入协议中,一共允许回退6次,第7次不倍增窗口,再次尝试重发若失败,则丢弃这个数据包。在信道为理想信道的前提下,此处定义p表示该节点在发送数据的过程中与其他节点发生了碰撞,而q表示在未发生碰撞的情况下,发送完毕发送队列缓冲区为空的概率。由此可以给出马尔科夫链的单步转移概率,即从状态i转移到状态j的概率,其中R取802.11协议中规定的回退次数上限,状态转移图如图4所示。
Figure BDA0003687982620000071
根据马尔可夫状态转移方程进一步可以求得稳态概率为:
Figure BDA0003687982620000072
使用P(TX)表示站点尝试在随机选择的时隙中传输的概率,条件概率P(TX|S=i)当处于退避阶段i时,站点尝试在随机选择的时隙中传输的概率。P(S=i)则表示当前状态处于回退阶段i的概率。通过这个平稳分布进一步导出在某一个回退i状态的节点尝试发送数据包的概率:
Figure BDA0003687982620000073
其中,bi是第i个状态下的回退时隙数目,可以得到状态i下的回退时隙的数量:
μi=E(bi)+1,0≤i≤R
其中,E(bi)即为状态i下回退数目的期望,为E(bi)=[min(2iW0,2mW0)-1]/2,其中回退阶段为0时的W0是初始回退窗口,m表示目前处于第m次回退。
对于最后一个状态,有:
Figure BDA0003687982620000074
其中,Pa表示在一个时隙中至少一个数据包达到IDLE状态的概率,n表示从第一个时隙开始算一直算到最后,得出最后一个状态的期望回退时隙数量。
根据马尔可夫更新过程,可以得到一个节点处于回退状态i的概率:
Figure BDA0003687982620000075
进一步得到在一个随机时隙中一个节点尝试发送数据包的概率:
Figure BDA0003687982620000081
其中,p=1-(1-τ)N-1表示这个节点在一个随机时隙中发送数据包发生碰撞的概率。
Pa可以通过泊松到达公式
Figure BDA0003687982620000082
来计算,tI表示空闲状态下一个站所经历的时隙的平均长度,这个长度是由在一个区域内其余N-1个节点来决定的。q可以通过M/G/1排队理论得到:
Figure BDA0003687982620000083
其中,λ为业务到达率,
Figure BDA0003687982620000084
表示平均服务时间,ρ0表示任意时刻队伍是空闲的概率。而到达、离开过程随机观察者都看到系统中客户数量的相同平稳分布,故q=ρ0。进而可以求解出一个节点的碰撞概率,可以将联合求解问题表示为:
Figure BDA0003687982620000085
其中,tB代表协议中的平均回退时隙数,tTX代表协议中平均传输时隙数,
Figure BDA0003687982620000086
则对应于一个节点在进入回退阶段i时停留在回退阶段i的平均时间,可以根据τ进行估计。
求解这个问题需要一个实际的业务到达率λ,对于无线自组织网络中的不同业务的相互影响,此处将业务到达看作泊松到达,将到达率累加到上一次决策出的路径上,根据其邻居节点所有到达率的均值作为这个节点竞争范围内的
Figure BDA0003687982620000087
计算其碰撞概率p,求解上述联合问题并记录所有节点中碰撞概率最大的值。如果存在节点的碰撞概率p>pmax,则采用TDMA协议,否则采用随机接入协议。
以图4的图场景为例,假设此时存在两个业务需求,分别是(1,8)和(2,6),业务到达率分别是λ1=2kps和λ2=1kps使用前一部分的路由选择算法得到两条业务路径1-3-4-7-8和2-3-4-6。对于节点3,业务到达率为2+1=3kbps,节点4为2+1=3kbps,节点7为2+0+0=2kbps,节点6是第二个业务的到达节点,针对节点4,其邻居节点的平均业务到达率为(3+3+2+0)/4=2kbps,范围内的节点一共有3,4,6,7四个节点。进而可以计算出节点4的碰撞概率。类似地,可以得到其他节点的碰撞概率。取所有节点的最大碰撞概率,如果大于指定阈值pmax,则采用TDMA协议,否则,采用CSMA协议。综上,对于网络中节点j来说,其碰撞概率可以通过联合求解获得:
Figure BDA0003687982620000091
其中,λneighbor表示节点j范围内的邻居节点的业务到达率(包括节点j),nodeneighbor表示这个节点范围的邻居数量(包括该节点自身)。
5.MAC协议参数决策
MAC协议训练目标是满足业务的时延要求。若满足
Figure BDA0003687982620000092
即时延的达成率
Figure BDA0003687982620000093
大于等于时延最低达成度ri d时,则学习结束,输出MAC协议参数的具体数值以及每条链路信道速率。
设置一个最大重复训练次数,若迭代次数达到上限训练仍然不能满足要求,且重复次数小于阈值,返回第一步重新训练出一个逻辑拓扑并重新生成组网决策,前一回合失败的拓扑计入失败拓扑集合Tbad,在后续学习中不予考虑;若迭代次数达到上限且训练仍然不能满足要求,且重复次数大于阈值,直接输出当前这一轮训练中记录到的最优解。
训练环境设置为:逻辑拓扑的邻接矩阵,MAC协议类型,业务路径,业务优先级。状态空间为不同类型MAC协议参数以及链路速率。相应的动作空间为对状态空间中相应参数的调整。
(1)TDMA协议
针对在线学习组网决策请求,参数优化逻辑如下:同时调整TDMA协议的数据时隙长度、节点时隙选择概率、节点优先级队列比例以及信道速率,记录这一次的参数初始状态、动作以及调整后的参数状态,通过网络演算模块评估出调整后的业务时延达成率,如果满足需求,则结束迭代。不满足则按照上文所说流程进行下一步操作。
对于指标而言,当调整MAC协议及链路参数时,若MAC协议为TDMA协议,则按照参数优化逻辑求解以下优化问题:
Figure BDA0003687982620000101
Figure BDA0003687982620000102
其中,wi为业务i对应的优先级,slot为数据时隙长度,pj为第j个节点的时隙选择概率,prij1,prij2和prij3分别是第j个节点的高、中、低队列优先级,Ratek为自组网中第k条链路的信道速率。
(2)随机接入协议
针对在线学习组网决策请求,参数优化逻辑如下:同时调整随机接入协议的节点回退窗口次数上限、节点优先级队列比例以及信道速率,记录这一次的参数初始状态、动作以及调整后的参数状态,通过网络演算模块评估出调整后的业务时延达成率,如果满足需求,则结束迭代。不满足则按照上文所说流程进行下一步操作。
对于指标而言,当调整MAC协议及链路参数时,若MAC协议为随机协议,则按照参数优化逻辑求解以下优化问题:
Figure BDA0003687982620000103
Figure BDA0003687982620000104
其中,wi为业务i对应的优先级,mj为第j个节点的回退次数上限,prij1,prij2和prij3分别是第j个节点的高、中、低队列优先级,Ratek为自组网中第k条链路的信道速率。
上述模型均可以通过DDPG算法进行求解。将所有可调参数压缩为一个状态。对这个状态进行调整并得到下一个状态以及奖励值,神经网络会朝着奖励值大的方向学习,大幅度减少了无效搜索。
表1基于DDPG的链路参数更新算法
Figure BDA0003687982620000105
Figure BDA0003687982620000111
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (2)

1.一种基于深度强化学习的无线自组网智能组网方法,包括如下步骤:
S1、根据当前网络的物理拓扑,确定出逻辑拓扑,如果逻辑拓扑抗毁性满足需求,转到步骤S3,否则转入步骤S2;
S2、判断迭代次数是否到达上限,如果没有,则转入步骤S1,否则转入步骤S3;
S3、判断拓扑重复训练次数是否超过N1,如果没有,则转入步骤S1,并记录逻辑拓扑重复训练次数+1,否则转入步骤S4;
S4、按照业务时延需求从小到大对业务进行排序,在前者相同的情况下,以业务序号从小到大排序;
S5、设置逻辑拓扑中每个节点的初始点权设置为0;
S6、将链路信道速率均值作为链路信道速率,计算业务在两点间的传输时延,将链路丢包率均值作为链路丢包率,通过传输时延与链路丢包率的加权和确定逻辑拓扑中所有边权;
S7、通过最短路算法选择一条业务的最优路径;
S8、将当前决策出路径的业务的业务量大小累加至选出路径上的每一个点权和边权,如果存在没有决策路径的业务,转入步骤S9,否则转入步骤S6;
S9、根据丢包率需求确定所有业务路径上的链路丢包率,如果一个链路丢包率同时被决策多次,则该链路丢包率取最小值;
S10、计算逻辑拓扑中所有节点的累加业务到达率;
S11、根据步骤S10得到的每个节点的累加业务到达率,基于随机接入协议的马尔可夫模型进行碰撞概率计算,得到逻辑拓扑中所有节点的碰撞概率,如果最大的碰撞概率大于预先设定的阈值,转入步骤S12,否则转入步骤S15;
S12、选用TDMA协议作为MAC协议,针对当前业务,在当前业务路径上决策出MAC协议及链路对应的参数,所述参数包括:节点队列优先级比例,节点时隙选择概率,TDMA数据时隙长度,链路信道速率;判断决策出协议参数是否能满足性能需求,如果不能,转入步骤S13,否则转入步骤S16;
S13、判断当前迭代次数是否达到上限,如果没有达到,转入步骤S12,否则转入步骤S14;
S14、判断参数重复训练次数是否超过了N2,如果没有超过,转入步骤S1,并记录协议参数重复训练次数+1,否则转入步骤S16;
S15、选用随机接入协议作为MAC协议,针对当前业务,在当前业务路径上决策出MAC协议及链路对应的参数,所述参数包括:节点队列优先级比例,节点回退窗口上限,链路信道速率;根据网络演算计算出当前协议下各条业务时延是否满足设定的时延指标需求,如果不能,转入步骤S13,否则转入步骤S16;
S16、输出组网决策策略。
2.根据权利要求1所述的一种基于深度强化学习的无线自组网智能组网方法,其特征在于,步骤S16中输出所有的组网策略,包括逻辑拓扑、业务路径、业务丢包率、MAC协议类型以及MAC协议相应参数策略。
CN202210651819.9A 2022-06-10 2022-06-10 基于深度强化学习的无线自组网智能组网方法 Active CN114938530B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210651819.9A CN114938530B (zh) 2022-06-10 2022-06-10 基于深度强化学习的无线自组网智能组网方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210651819.9A CN114938530B (zh) 2022-06-10 2022-06-10 基于深度强化学习的无线自组网智能组网方法

Publications (2)

Publication Number Publication Date
CN114938530A CN114938530A (zh) 2022-08-23
CN114938530B true CN114938530B (zh) 2023-03-21

Family

ID=82867524

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210651819.9A Active CN114938530B (zh) 2022-06-10 2022-06-10 基于深度强化学习的无线自组网智能组网方法

Country Status (1)

Country Link
CN (1) CN114938530B (zh)

Citations (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101448296A (zh) * 2009-01-04 2009-06-03 华为技术有限公司 一种分布式的网络拓扑控制方法及节点
CN101715225A (zh) * 2009-11-20 2010-05-26 西安电子科技大学 认知网络中的自适应自组网络路由方法
CN102231898A (zh) * 2011-07-05 2011-11-02 深圳市融创天下科技股份有限公司 一种网络带宽自适应qos传输的方法、系统和终端设备
CN104661260A (zh) * 2015-01-20 2015-05-27 中南大学 一种QoS感知和负载均衡的无线Mesh智能电网路由机制
CN105072676A (zh) * 2015-08-10 2015-11-18 重庆大学 基于tdma协议的航空自组网功率控制方法
CN105515915A (zh) * 2015-12-25 2016-04-20 厦门网宿软件科技有限公司 节点探测方法及装置、路径选取方法及装置、及网络系统
CN105828446A (zh) * 2016-05-26 2016-08-03 武汉大学 一种无线网络丢包感知的实时数据包调度方法
CN106059960A (zh) * 2016-05-24 2016-10-26 北京交通大学 一种基于软件定义网络的空间网络QoS保障方法及管理中心
CN106487684A (zh) * 2016-11-08 2017-03-08 中国电子科技集团公司第二十研究所 一种基于链路质量和排队时延的路由方法
CN106792970A (zh) * 2017-02-17 2017-05-31 重庆邮电大学 一种车辆自组织网络路由选择方法
CN108055205A (zh) * 2018-01-26 2018-05-18 武汉理工大学 用于实现vdes的路由协议及路由方法
WO2018161073A1 (en) * 2017-03-03 2018-09-07 Intel IP Corporation High speed train in new radio (nr)
CN109275171A (zh) * 2018-10-17 2019-01-25 珠海云洲智能科技有限公司 无线自组网通信方法和装置
WO2019028269A2 (en) * 2017-08-02 2019-02-07 Strong Force Iot Portfolio 2016, Llc METHODS AND SYSTEMS FOR DETECTION IN AN INDUSTRIAL ENVIRONMENT OF COLLECTING INTERNET DATA FROM OBJECTS WITH LARGE DATA SETS
CN109618375A (zh) * 2018-12-03 2019-04-12 哈尔滨工业大学(深圳) 基于业务优先级和信道中断概率的uav自组网时隙调度算法
CN109831386A (zh) * 2019-03-08 2019-05-31 西安交通大学 一种sdn下基于机器学习的最优路径选择算法
CN111010294A (zh) * 2019-11-28 2020-04-14 国网甘肃省电力公司电力科学研究院 一种基于深度强化学习的电力通信网路由方法
CN111601398A (zh) * 2020-05-19 2020-08-28 电子科技大学 一种基于增强学习的自组织网介质访问控制方法
CN113301032A (zh) * 2021-05-17 2021-08-24 西北工业大学 一种基于Q-Learning的水声网络MAC协议切换方法
CN113328938A (zh) * 2021-05-25 2021-08-31 电子科技大学 一种基于深度强化学习的网络自主智能管控方法
CN113613339A (zh) * 2021-07-10 2021-11-05 西北农林科技大学 基于深度强化学习的多优先级无线终端的信道接入方法
CN113949413A (zh) * 2021-09-09 2022-01-18 广东电网有限责任公司电力调度控制中心 一种低压电力线载波通信系统分层组网方法
CN114585103A (zh) * 2022-03-30 2022-06-03 电子科技大学 一种业务感知的智能信道接入控制方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140309876A1 (en) * 2013-04-15 2014-10-16 Flextronics Ap, Llc Universal vehicle voice command system
US11646808B2 (en) * 2016-05-09 2023-05-09 Strong Force Iot Portfolio 2016, Llc Methods and systems for adaption of data storage and communication in an internet of things downstream oil and gas environment
US10334463B2 (en) * 2017-04-26 2019-06-25 Verizon Patent And Licensing Inc. System and method for access point selection and scoring based on machine learning

Patent Citations (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101448296A (zh) * 2009-01-04 2009-06-03 华为技术有限公司 一种分布式的网络拓扑控制方法及节点
CN101715225A (zh) * 2009-11-20 2010-05-26 西安电子科技大学 认知网络中的自适应自组网络路由方法
CN102231898A (zh) * 2011-07-05 2011-11-02 深圳市融创天下科技股份有限公司 一种网络带宽自适应qos传输的方法、系统和终端设备
CN104661260A (zh) * 2015-01-20 2015-05-27 中南大学 一种QoS感知和负载均衡的无线Mesh智能电网路由机制
CN105072676A (zh) * 2015-08-10 2015-11-18 重庆大学 基于tdma协议的航空自组网功率控制方法
CN105515915A (zh) * 2015-12-25 2016-04-20 厦门网宿软件科技有限公司 节点探测方法及装置、路径选取方法及装置、及网络系统
CN106059960A (zh) * 2016-05-24 2016-10-26 北京交通大学 一种基于软件定义网络的空间网络QoS保障方法及管理中心
CN105828446A (zh) * 2016-05-26 2016-08-03 武汉大学 一种无线网络丢包感知的实时数据包调度方法
CN106487684A (zh) * 2016-11-08 2017-03-08 中国电子科技集团公司第二十研究所 一种基于链路质量和排队时延的路由方法
CN106792970A (zh) * 2017-02-17 2017-05-31 重庆邮电大学 一种车辆自组织网络路由选择方法
WO2018161073A1 (en) * 2017-03-03 2018-09-07 Intel IP Corporation High speed train in new radio (nr)
WO2019028269A2 (en) * 2017-08-02 2019-02-07 Strong Force Iot Portfolio 2016, Llc METHODS AND SYSTEMS FOR DETECTION IN AN INDUSTRIAL ENVIRONMENT OF COLLECTING INTERNET DATA FROM OBJECTS WITH LARGE DATA SETS
CN108055205A (zh) * 2018-01-26 2018-05-18 武汉理工大学 用于实现vdes的路由协议及路由方法
CN109275171A (zh) * 2018-10-17 2019-01-25 珠海云洲智能科技有限公司 无线自组网通信方法和装置
CN109618375A (zh) * 2018-12-03 2019-04-12 哈尔滨工业大学(深圳) 基于业务优先级和信道中断概率的uav自组网时隙调度算法
CN109831386A (zh) * 2019-03-08 2019-05-31 西安交通大学 一种sdn下基于机器学习的最优路径选择算法
CN111010294A (zh) * 2019-11-28 2020-04-14 国网甘肃省电力公司电力科学研究院 一种基于深度强化学习的电力通信网路由方法
CN111601398A (zh) * 2020-05-19 2020-08-28 电子科技大学 一种基于增强学习的自组织网介质访问控制方法
CN113301032A (zh) * 2021-05-17 2021-08-24 西北工业大学 一种基于Q-Learning的水声网络MAC协议切换方法
CN113328938A (zh) * 2021-05-25 2021-08-31 电子科技大学 一种基于深度强化学习的网络自主智能管控方法
CN113613339A (zh) * 2021-07-10 2021-11-05 西北农林科技大学 基于深度强化学习的多优先级无线终端的信道接入方法
CN113949413A (zh) * 2021-09-09 2022-01-18 广东电网有限责任公司电力调度控制中心 一种低压电力线载波通信系统分层组网方法
CN114585103A (zh) * 2022-03-30 2022-06-03 电子科技大学 一种业务感知的智能信道接入控制方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"R2-17xxxx_draft_report_RAN2_96_Reno_v0.1".全文. *
B.Venkata.A_systematic_approach_for_analyzing_hop_count_and_path_reliability_of_mobile_Ad_Hoc_networks.2021,全文. *
王恒.考虑链路重传的工业无线网络确定性调度算法.2021,全文. *

Also Published As

Publication number Publication date
CN114938530A (zh) 2022-08-23

Similar Documents

Publication Publication Date Title
Chen et al. RL-routing: An SDN routing algorithm based on deep reinforcement learning
Malone et al. Modeling the 802.11 distributed coordination function in nonsaturated heterogeneous conditions
Zhai et al. Performance analysis of IEEE 802.11 MAC protocols in wireless LANs
Hossain et al. Multi-objective Harris hawks optimization algorithm based 2-Hop routing algorithm for CR-VANET
Barán et al. AntNet routing algorithm for data networks based on mobile agents
Liu et al. A biologically inspired QoS routing algorithm for mobile ad hoc networks
Rath et al. Inter-layer communication based QoS platform for real time multimedia applications in MANET
Nakayama et al. Low-latency routing for fronthaul network: A Monte Carlo machine learning approach
Le Nguyen et al. Modeling and minimizing latency in three-tier v2x networks
Parsa et al. QoS-aware routing and traffic management in multi-flow opportunistic routing
Liu et al. A biologically inspired QoS routing algorithm for mobile ad hoc networks
CN114938530B (zh) 基于深度强化学习的无线自组网智能组网方法
Zhao et al. Delay-aware backpressure routing using graph neural networks
Meng et al. Intelligent routing orchestration for ultra-low latency transport networks
Roy et al. Optimizing QoS-based multicast routing in wireless networks: A multi-objective genetic algorithmic approach
Deng PSSB: priority enforced slow-start backoff algorithm for multimedia transmission in wireless ad-hoc networks
Safdar Malik et al. Reinforcement learning-based routing protocol to minimize channel switching and interference for cognitive radio networks
Maret et al. Preliminary results of OLSR based MANET routing algorithms: OLSRd2-Qx reinforcement learning agents and ODRb
Belbekkouche et al. Novel reinforcement learning-based approaches to reduce loss probability in buffer-less OBS networks
Zhuang et al. Adaptive and robust network routing based on deep reinforcement learning with lyapunov optimization
Quy et al. An adaptive on-demand routing protocol with QoS support for urban-MANETs
Li et al. Deep reinforcement learning-based collaborative routing algorithm for clustered MANETs
He et al. A feedback control scheme for resource allocation in wireless multi-hop ad hoc networks
Ridwan et al. A New Machine Learning-based Hybrid Intrusion Detection System and Intelligent Routing Algorithm for MPLS Network
Khoukhi et al. A quality of service approach based on neural networks for mobile ad hoc networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant