CN114025330A - 一种空地协同的自组织网络数据传输方法 - Google Patents
一种空地协同的自组织网络数据传输方法 Download PDFInfo
- Publication number
- CN114025330A CN114025330A CN202210012558.6A CN202210012558A CN114025330A CN 114025330 A CN114025330 A CN 114025330A CN 202210012558 A CN202210012558 A CN 202210012558A CN 114025330 A CN114025330 A CN 114025330A
- Authority
- CN
- China
- Prior art keywords
- ground
- aerial vehicle
- unmanned aerial
- node
- data packet
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 67
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000005457 optimization Methods 0.000 claims abstract description 31
- 230000002787 reinforcement Effects 0.000 claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 claims description 60
- 230000006399 behavior Effects 0.000 claims description 33
- 238000004891 communication Methods 0.000 claims description 33
- 238000011156 evaluation Methods 0.000 claims description 31
- 230000006870 function Effects 0.000 claims description 17
- 230000000875 corresponding effect Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 230000009471 action Effects 0.000 claims description 9
- 238000005562 fading Methods 0.000 claims description 6
- 241001515997 Eristalis tenax Species 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000003595 spectral effect Effects 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 230000007613 environmental effect Effects 0.000 claims 1
- NAXKFVIRJICPAO-LHNWDKRHSA-N [(1R,3S,4R,6R,7R,9S,10S,12R,13S,15S,16R,18S,19S,21S,22S,24S,25S,27S,28R,30R,31R,33S,34S,36R,37R,39R,40S,42R,44R,46S,48S,50R,52S,54S,56S)-46,48,50,52,54,56-hexakis(hydroxymethyl)-2,8,14,20,26,32,38,43,45,47,49,51,53,55-tetradecaoxa-5,11,17,23,29,35,41-heptathiapentadecacyclo[37.3.2.23,7.29,13.215,19.221,25.227,31.233,37.04,6.010,12.016,18.022,24.028,30.034,36.040,42]hexapentacontan-44-yl]methanol Chemical compound OC[C@H]1O[C@H]2O[C@H]3[C@H](CO)O[C@H](O[C@H]4[C@H](CO)O[C@H](O[C@@H]5[C@@H](CO)O[C@H](O[C@H]6[C@H](CO)O[C@H](O[C@H]7[C@H](CO)O[C@@H](O[C@H]8[C@H](CO)O[C@@H](O[C@@H]1[C@@H]1S[C@@H]21)[C@@H]1S[C@H]81)[C@H]1S[C@@H]71)[C@H]1S[C@H]61)[C@H]1S[C@@H]51)[C@H]1S[C@@H]41)[C@H]1S[C@H]31 NAXKFVIRJICPAO-LHNWDKRHSA-N 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W16/00—Network planning, e.g. coverage or traffic planning tools; Network deployment, e.g. resource partitioning or cells structures
- H04W16/18—Network planning tools
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W84/00—Network topologies
- H04W84/18—Self-organising networks, e.g. ad-hoc networks or sensor networks
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种空地协同的自组织网络数据传输方法,包括:构建有无人机辅助的地面自组织网络数据传输系统模型;以最小化数据包的最大端到端时延为优化目标,构建有关无人机航迹和地面节点接入的联合优化问题;构建无人机辅助地面自组织网络传输数据包的系统MDP模型;采用深度强化学习算法对联合优化问题进行求解,并将求解结果应用于空地协同的自组织网络数据传输,降低数据包的端到端时延。本发明采用深度强化学习算法求解无人机航迹和地面节点接入的联合优化问题,可以实现快速在线决策,使得数据包在更好的视距链路中灵活传输,提升自组织网络的传输性能并扩大自组织网络的应用范围。
Description
技术领域
本发明属于无线通信技术领域,尤其涉及一种应用深度强化学习实现空地协同的自组织网络数据传输方法。
背景技术
自组织网络是一个无线节点的集合,网络中节点间的通信可以不依赖任何预先存在的基础路由设施,而是可以直接通信或者依靠其他节点作为中继节点进行通信,其分布式的无线和自配置特性让它得到广泛的应用。然而,当多个节点同时向一个中继节点传输数据包时,会导致中继节点过载。这是由于节点传输速率有限、数据包数量多,使得系统的传输时延增加。
无人机辅助通信具有高移动性、快速灵活部署、低成本及视距链路通信的特性,它可以用作空中物联网用户收集信息、不受地理限制成为空中基站,以及在没有可靠的直接通信链路的用户之间充当移动中继设备。相比于陆地基站通信和高空平台通信,按需分配的无人机通信系统能更快部署、更加灵活,并且由于短程视距链路的出现,还可能带来更好的通信信道。
专利申请公开号CN113193906A,基于无人机模式转换的空地融合通信方法,通过依据无线通信环境动态地选择无人机工作模式,可以在避免无人机频繁巡航所产生大量机械能耗的同时,在一定程度上改善信号传输质量,在信息传输吞吐量和能量消耗之间取得最优折中,有效提升无人机通信链路的经济效率;专利申请公开号CN111800185A提出了一种无人机辅助通信中的分布式空地联合部署方法,该算法收敛于最优的联盟结构。
为了解决地面节点拥堵的问题,可以采用无人机作为空中中继节点对自组织网络中的数据包进行中继传输。然而无人机的高机动性与地面自组织网络中数据包传输导致的动态环境使得需要无人机辅助传输的节点动态变化,动态变化的环境又会使得选择数据包的传输路径变得困难,且无人机的航迹规划问题与地面节点接入规划问题紧密耦合,使得最优的无人机辅助地面自组织网络的决策方案难以求解。
发明内容
为了解决上述已有技术存在的不足,本发明提出一种基于深度强化学习的空地协同的自组织网络数据传输方法,可以根据数据传输的情况,快速在线优化无人机与地面节点间的通信,从而缓解自组织网络中的数据包拥堵问题,提升自组织网络的传输性能,并降低数据包的端到端时延,扩大自组织网络的应用范围。本发明的具体技术方案如下:
一种空地协同的自组织网络数据传输方法,包括以下步骤:
S1:建立无人机辅助地面自组织网络传输数据包的系统模型;具体过程为:
S1-1:构建无人机辅助地面自组织网络传输数据包的基本场景模型,并进行模型简化;
S1-2:补充信道模型,包括地-地信道模型和空-地信道模型,设自组织网络间的通信和与无人机的通信均采用正交信道,因此不存在信道间干扰;
S2:以最小化数据包的最大端到端时延为优化目标,构建有关无人机航迹和地面节点接入的联合优化问题;
S3:构建无人机辅助地面自组织网络传输数据包的系统MDP模型;
S4:基于步骤S3的模型,采用深度强化学习算法对联合优化问题进行求解;
S5:将步骤S4的结果应用于空地协同的自组织网络数据传输。
进一步地,所述步骤S1-1包括以下步骤:
S1-1-1:在长度为L,宽度为W的L×W矩形地面区域内,存在由J个节点组成的地面自组织网络以及一个地面接入点,每个节点有K个大小为N bits的数据包,各节点需要将所有数据包传输到地面接入点,采用prim算法预先给定地面路由方式;
S1-1-2:各节点依次传输在本节点处的数据包,节点能够选择将数据包经由其他节点传输到地面接入点,或选择通过将数据包传给无人机,再由无人机传输到地面接入点;
S1-1-3:设时间离散化,时间间隔为Δt,每个数据包的每一次传输需要花费整数个时间间隔Δt;设无人机以时间间隔Δtaction调整其飞行策略,Δtaction是Δt的整数倍;
S1-1-4:设无人机以固定高度H和恒定速度V飞行,从一个随机的初始位置li起飞,且无人机通过改变飞行方向调整飞行轨迹,在一个时间间隔Δtaction内的位置保持不变,无人机持续向地面接入点传输数据包,但只能在悬停时接受节点的数据包,将第j个节点坐标记为(xj,yj, 0);其中,在t时刻至t+1时刻的时间间隔Δtaction中,环境与无人机状态的信息维持不变,即用t时刻的状态表征t+Δtaction时间段内的信息,t时刻无人机的位置为l(t) =(x(t), y(t), H)。
进一步地,所述步骤S1-2包括以下步骤:
S1-2-1:地面通信链路采用Sub-6GHz频带,信道模型为瑞利衰落下的自由空间传输路径损耗模型,考虑环境中存在高斯白噪声,给出t时刻节点j在给定功率P j 下,向节点传输数据包的信道模型和传输速率,即:
其中,为参照距离d 0=1m时的路径损耗,为节点j到节点直线距离,为非视距传输的路径损耗参数,为t时刻单位方差下的循环对称复高斯分布小尺度衰落成分,B 1是Sub-6G频带下的子信道带宽,N 0为高斯白噪声单边功率谱密度;
S1-2-2:对空地通信链路,在视距链路通信模型下,无人机与节点及地面接入点间的信道增益服从自由空间路径损耗模型,考虑环境中存在高斯白噪声,给出t时刻节点j向无人机传输数据包的信道模型h j,u (t)和传输速率R j,u (t),以及无人机在给定功率P u 下,向地面接入点传输数据包的信道模型h u,AP (t)和传输速率R u,AP (t),即:
其中,d j,u (t)和d u,AP (t)分别为t时刻节点j到无人机的直线距离和无人机到地面接入点的直线距离,为视距传输的路径损耗参数,B 2表示无人机传输数据时所用的信道带宽,G a 为定向波束赋形天线增益。
进一步地,所述步骤S2的具体过程为:确定优化目标为最小化数据包的最大端到端时延,其中,一个数据包端到端时延是指该数据包从源节点传输到地面接入点所用的总时间,包括数据包在各节点间传输所用的时间,和在各节点处等待传输的时间;
系统模型中,所有数据包都是从t=0时刻开始传输,因此,数据包的最大端到端时延即最后一个到达地面接入点的数据包的端到端时延,即所有数据包都到达地面接入点的所用时间T end ,则建立的联合优化问题为:
其中,V flight 表示无人机飞行方向,V access 表示节点接入策略。
进一步地,所述步骤S3构建无人机辅助地面自组织网络传输数据包的系统的MDP模型,包括状态S、行为A、状态转移概率矩阵P、奖励函数R和折扣因子γ,包括以下步骤:
S3-1:状态S:每个时间间隔Δtaction内,系统的状态由以下两部分组成:
无人机的位置坐标l(t),包括x和y坐标;
各节点处及无人机处的数据包数量Q(t)={q i (t),i=1,2,…,J,u},其中,i取1,2,…,J时表示第i个节点,i取u时表示无人机,q i (t)为t时刻第i个节点或无人机处的数据包数量;
S3-2:行为A:考虑无人机轨迹规划和地面节点接入规划的联合优化,从而在MDP的行为中也包括这两个方面的行为:
在无人机轨迹规划方面,在每个时间间隔Δtaction内,无人机通过改变其飞行方向来调整其飞行轨迹,对应行为
S3-3:奖励函数R:奖励函数设置为:
其中,r表示在终止状态前的最后一个大时间间隔Δtaction里,仍有r个时间间隔Δt内系统未到达终止状态。
进一步地,所述步骤S4采用DQN算法对联合优化问题进行求解,包括以下步骤:
S4-1:给定初始环境S0,初始化评估神经网络参数θ和目标神经网络参数θ - ,并减少随机探索的概率ε;
S4-2:以概率ε随机选择一个行为或以概率1 – ε将当前状态St输入评估神经网络,选择评估神经网络估计出的Q值中最大Q值对应的行为At;
S4-3:将选择的行为At作用于环境,得到环境反馈的奖励Rt+1,并将环境更新到状态St+1;
S4-4:判断经验回放池是否存满,如果未存满,将(St,At,Rt+1,St+1)对存入经验回放池并重复步骤S4-2 至步骤S4-4;如果已存满,用(St,At,Rt+1,St+1)对替换掉最开始存入经验回放池的(Sm,Am,Rm+1,Sm+1)对;
S4-5:判断评估神经网络更新次数是否为目标神经网络更新间隔C的整数倍,如果是则将评估神经网络参数赋值给目标神经网络,即θ - =θ;
S4-6:从经验回放池中抽取M个(Sm,Am,Rm+1,Sm+1)对;
S4-9:计算损失函数
S4-10:通过损失函数L(θ)用梯度下降法更新评估神经网络,并使评估神经网络更新计数器+1;
S4-11:判断环境是否到达终止状态,如果未到达终止状态则重复步骤S4-2 至步骤S4-11;
S4-12:判断是否经训练了设定的次数,即是否到达了设定次数的终止状态,如果是则结束训练,否则重复步骤S4-1至步骤S4-12。
进一步地,所述步骤S5包括以下步骤:
S5-1:给定初始环境S0;
S5-2:将当前状态St输入评估神经网络,选择评估神经网络估计出的Q值中最大Q值对应的行为At;
S5-3:将选择的行为At作用于环境,得到环境反馈的奖励Rt+1,并将环境更新到状态St+1;
S5-4:判断环境是否到达终止状态,如果未到达终止状态则重复步骤S5-1至步骤S5-4,如果到达终止状态则结束应用过程。
本发明的有益效果在于:
1.本发明的一种基于深度强化学习的无人机辅助地面自组织网络的空地通信联合优化方法,通过对无人机辅助地面自组织网络传输数据包的场景进行建模,同时根据优化目标和约束条件构建系统MDP模型,再利用深度强化学习不断更新神经网络,据此调整无人机的飞行策略和地面节点接入方案,最终实现自组织网络中数据包端到端时延的最小化。
2.本发明考虑到高度耦合的联合优化问题,使用强化学习进行求解可以简化系统模型,实现快速在线决策。
3.本发明应用无人机辅助地面自组织网络能够利用无人机的高机动性和与地面节点建立视距链路的能力,以较低的成本实现数据包的灵活传输,并为数据传输提供更好的信道。
4.本发明提出无人机辅助地面自组织网络传输数据包的技术方案能够提升自组织网络的传输性能,降低网络传输时延,为时间敏感型数据提供端到端时延保证,使得自组织网络能够应用到军用通信、灾后重建、救援行动等对端到端时延有严格要求的通信场景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图。其中:
图1为系统模型示意图;
图2为节点传输数据包的两种方式;
图3为DQN算法求解流程图;
图4为DQN算法应用流程图;
图5为传输方法整体流程图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
如图1所示,本发明提出了一种基于深度强化学习的空地协同的自组织网络数据传输方法,首先建立无人机辅助地面自组织网络传输数据包的系统模型,其中无人机作为空中中继设备可以接收地面节点的数据包,并与远处的地面接入点(AP,Access Point)建立视距通信链路,可以向地面接入点高速传输数据包,从而缓解地面节点处的数据包拥堵问题。然后利用神经网络区分并评价环境的不同状态,然后不断训练神经网络并更新其权重,最终学会使得系统传输时延最低的无人机飞行航迹与地面节点接入方案。
如图5所示,一种空地协同的自组织网络数据传输方法,包括以下步骤:
S1:建立无人机辅助地面自组织网络传输数据包的系统模型;具体过程为:
S1-1:构建无人机辅助地面自组织网络传输数据包的基本场景模型,并进行模型简化;
S1-2:补充信道模型,包括地-地信道模型和空-地信道模型,设自组织网络间的通信和与无人机的通信均采用正交信道,因此不存在信道间干扰。
S2:以最小化数据包的最大端到端时延为优化目标,构建有关无人机航迹和地面节点接入的联合优化问题;具体过程为:确定优化目标为最小化数据包的最大端到端时延,其中,一个数据包端到端时延是指该数据包从源节点传输到地面接入点所用的总时间,包括数据包在各节点间传输所用的时间,和在各节点处等待传输的时间;
系统模型中,所有数据包都是从t=0时刻开始传输,因此,数据包的最大端到端时延即最后一个到达地面接入点的数据包的端到端时延,即所有数据包都到达地面接入点的所用时间T end ,则建立的联合优化问题为:
其中,V flight 表示无人机飞行方向,V access 表示节点接入策略。
本发明的优化目标为最小化系统的最大端到端时延,在模型中,一个数据包的端到端时延是指从t = 0时刻至该数据包到达地面接收点的时刻所用的总时间,也包括了该数据包在各个节点等待该节点传输数据包队列中所有排在其前面的数据包时的等待时间,而数据包的最大端到端时延是所有数据包端到端时延的最大值。
在本发明使用的模型中,虽然存在多个数据包同时到达某一节点的情况,而没有决定这些数据包在该节点处被传输向下一个目标的先后顺序,所以无法通过单独描述每个数据包的端到端时延,再对其求最大值的方法得到最大端到端时延的表达式。但在模型中假设了所有数据包都是从t = 0时刻开始传输,不难发现最大端到端时延就是最后一个到达地面接入点的数据包的端到端时延,即所有数据包都到达地面接入点的所用时间,因此本发明没有必要对同时传输到某个节点的数据包进行排序,决定其传输的先后顺序。
S3:构建无人机辅助地面自组织网络传输数据包的系统MDP模型;本发明要解决的联合优化问题可以表述为一个序列决策问题,从而可以用深度强化学习算法进行求解。强化学习算法通过让智能体与环境不断交互来训练智能体,最终使得智能体学会能够获得最大长期回报的策略,智能体的行为完全由策略决定。
S4:基于步骤S3的模型,采用深度强化学习算法对联合优化问题进行求解;
S5:将步骤S4的结果应用于空地协同的自组织网络数据传输。
在一些实施方式中,步骤S1-1包括以下步骤:
S1-1-1:如图1所示,在长度为L,宽度为W的L×W矩形地面区域内,存在由J个节点组成的地面自组织网络以及一个地面接入点,每个节点有K个大小为N bits的数据包,各节点需要将所有数据包传输到地面接入点,采用prim算法预先给定地面路由方式;
S1-1-2:如图2所示,各节点依次传输在本节点处的数据包,节点能够选择将数据包经由其他节点传输到地面接入点,或选择通过将数据包传给无人机,再由无人机传输到地面接入点;
S1-1-3:设时间离散化,时间间隔为Δt,每个数据包的每一次传输需要花费整数个时间间隔Δt;由于无人机在极短的时间Δt内连续大幅度改变其飞行方向在现实中难以实现且没有必要,故设无人机以时间间隔Δtaction调整其飞行策略,Δtaction是Δt的整数倍;
S1-1-4:设无人机以固定高度H和恒定速度V飞行,从一个随机的初始位置li起飞,且无人机通过改变飞行方向调整飞行轨迹,在一个时间间隔Δtaction内的位置保持不变,无人机持续向地面接入点传输数据包,但只能在悬停时接受节点的数据包,将第j个节点坐标记为(xj,yj, 0);其中,在t时刻至t+1时刻的时间间隔Δtaction中,环境与无人机状态的信息维持不变,即用t时刻的状态表征t+Δtaction时间段内的信息,t时刻无人机的位置为l(t) =(x(t), y(t), H)。
在一些实施方式中,步骤S1-2包括以下步骤:
S1-2-1:地面通信链路采用Sub-6GHz频带,信道模型为瑞利衰落下的自由空间传输路径损耗模型,考虑环境中存在高斯白噪声,给出t时刻节点j在给定功率P j 下,向节点传输数据包的信道模型和传输速率,即:
其中,为参照距离d 0=1m时的路径损耗,为节点j到节点直线距离,为非视距传输的路径损耗参数,为t时刻单位方差下的循环对称复高斯分布小尺度衰落成分,B 1是Sub-6G频带下的子信道带宽,N 0为高斯白噪声单边功率谱密度;
S1-2-2:对空地通信链路,在视距链路通信模型下,无人机与节点及地面接入点间的信道增益服从自由空间路径损耗模型,考虑环境中存在高斯白噪声,给出t时刻节点j向无人机传输数据包的信道模型h j,u (t)和传输速率R j,u (t),以及无人机在给定功率P u 下,向地面接入点传输数据包的信道模型h u,AP (t)和传输速率R u,AP (t),即:
其中,d j,u (t)和d u,AP (t)分别为t时刻节点j到无人机的直线距离和无人机到地面接入点的直线距离,为视距传输的路径损耗参数,B 2表示无人机传输数据时所用的信道带宽,G a 为定向波束赋形天线增益。实际上由于无人机传输数据时所用的信道带宽远大于,且无人机向地面接入点传输数据包时拥有较大的天线增益,因此无人机向地面接入点传输数据包的速度很大。
在一些实施方式中,步骤S3构建无人机辅助地面自组织网络传输数据包的系统的MDP模型,包括状态S、行为A、状态转移概率矩阵P、奖励函数R和折扣因子γ,包括以下步骤:
S3-1:状态S:每个时间间隔Δtaction内,系统的状态由以下两部分组成:
无人机的位置坐标l(t),包括x和y坐标;
各节点处及无人机处的数据包数量Q(t)={q i (t),i=1,2,…,J,u},其中,i取1,2,…,J时表示第i个节点,i取u时表示无人机,q i (t)为t时刻第i个节点或无人机处的数据包数量;
S3-2:行为A:考虑无人机轨迹规划和地面节点接入规划的联合优化,从而在MDP的行为中也包括这两个方面的行为:
在无人机轨迹规划方面,在每个时间间隔Δtaction内,无人机通过改变其飞行方向来调整其飞行轨迹,对应行为
S3-3:奖励函数R:奖励函数设置为:
其中,r表示在终止状态前的最后一个大时间间隔Δtaction里,仍有r个时间间隔Δt内系统未到达终止状态。
奖励函数的设定与优化目标紧密相关,如果将所有数据包到达地面接入点的状态设为系统的终止状态,则可以在终止状态给予一个很大的正奖励,而在终止状态之前,为了促使智能体选择能够让系统更快到达终止状态的策略,给予一个较小的负奖励。
因为不同策略可能使得系统在相同的大时间间隔Δtaction时到达终止状态,但系统到达终止状态的时间按小时间间隔Δt来计算却并不相同,为了区分导致细微的端到端时延差别的不同策略,在奖励函数中增加了这一项。
本发明采用深度强化学习对联合优化问题进行求解,其中采用的深度强化学习方法不唯一,在一些实施方式中,步骤S4采用DQN算法对联合优化问题进行求解。DQN中的神经网络可以在训练后将输入的状态转换拟合出各动作的Q值,用于评估在各个状态做出各个行为的优劣,从而得到智能体进行决策的策略。同时,DQN中采用了经验回放(ExperienceReply)和固定目标值网络(Fixed Q-target)技术:经验回放是将采集到的样本先放入记忆池中,训练神经网络时则从记忆池中随机抽取部分样本来进行训练,从而消除了样本之间的关联性并提升了样本的利用率。DQN中还定义了固定目标值网络,通过一个更新缓慢的目标神经网络(Target Network)计算目标Q值,从而提高了训练的稳定性和收敛性。
步骤S4的具体过程为:通过对环境进行建模,利用构建出的环境对智能体进行训练,即智能体不断与环境交互并获得奖励,智能体利用获得的奖励更新其神经网络参数,最终使得神经网络能够根据输入的状态拟合出较为精确的各行为的Q值,从而得到一个收敛的策略,流程图如图3所示,较佳地,步骤S4包括以下步骤:
S4-2:以概率ε随机选择一个行为或以概率1 – ε将当前状态St输入评估神经网络,选择评估神经网络估计出的Q值中最大Q值对应的行为At;
S4-3:将选择的行为At作用于环境,得到环境反馈的奖励Rt+1,并将环境更新到状态St+1;
S4-4:判断经验回放池是否存满,如果未存满,将(St,At,Rt+1,St+1)对存入经验回放池并重复步骤S4-2 至步骤S4-4;如果已存满,用(St,At,Rt+1,St+1)对替换掉最开始存入经验回放池的(Sm,Am,Rm+1,Sm+1)对;
S4-6:从经验回放池中抽取M个(Sm,Am,Rm+1,Sm+1)对;
S4-9:计算损失函数
S4-10:通过损失函数L(θ)用梯度下降法更新评估神经网络,并使评估神经网络更新计数器+1;
S4-11:判断环境是否到达终止状态,如果未到达终止状态则重复步骤S4-2 至步骤S4-11;
S4-12:判断是否经训练了设定的次数,即是否到达了设定次数的终止状态,如果是则结束训练,否则重复步骤S4-1至步骤S4-12。
具体的应用过程不需要更新神经网络,而是直接向训练好的神经网络中输入各状态值,根据神经网络输出的Q值选择行为直到终止状态,从而得到用训练结束后得到的策略进行无人机轨迹规划和节点接入规划时数据包的最大端到端时延。步骤S5的流程图如图4所示,较佳地,步骤S5包括以下步骤:
S5-1:给定初始环境S0;
S5-2:将当前状态St输入评估神经网络,选择评估神经网络估计出的Q值中最大Q值对应的行为At;
S5-3:将选择的行为At作用于环境,得到环境反馈的奖励Rt+1,并将环境更新到状态St+1;
S5-4:判断环境是否到达终止状态,如果未到达终止状态则重复步骤S5-1至步骤S5-4,如果到达终止状态则结束应用过程。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种空地协同的自组织网络数据传输方法,其特征在于,包括以下步骤:
S1:建立无人机辅助地面自组织网络传输数据包的系统模型;具体过程为:
S1-1:构建无人机辅助地面自组织网络传输数据包的基本场景模型,并进行模型简化;
S1-2:补充信道模型,包括地-地信道模型和空-地信道模型,设自组织网络间的通信和与无人机的通信均采用正交信道,因此不存在信道间干扰;
S2:以最小化数据包的最大端到端时延为优化目标,构建有关无人机航迹和地面节点接入的联合优化问题;
S3:构建无人机辅助地面自组织网络传输数据包的系统MDP模型;
S4:基于步骤S3的模型,采用深度强化学习算法对联合优化问题进行求解;
S5:将步骤S4的结果应用于空地协同的自组织网络数据传输。
2.根据权利要求1所述的传输方法,其特征在于,所述步骤S1-1包括以下步骤:
S1-1-1:在长度为L,宽度为W的L×W矩形地面区域内,存在由J个节点组成的地面自组织网络以及一个地面接入点,每个节点有K个大小为N bits的数据包,各节点需要将所有数据包传输到地面接入点,采用prim算法预先给定地面路由方式;
S1-1-2:各节点依次传输在本节点处的数据包,节点能够选择将数据包经由其他节点传输到地面接入点,或选择通过将数据包传给无人机,再由无人机传输到地面接入点;
S1-1-3:设时间离散化,时间间隔为Δt,每个数据包的每一次传输需要花费整数个时间间隔Δt;设无人机以时间间隔Δtaction调整其飞行策略,Δtaction是Δt的整数倍;
S1-1-4:设无人机以固定高度H和恒定速度V飞行,从一个随机的初始位置li起飞,且无人机通过改变飞行方向调整飞行轨迹,在一个时间间隔Δtaction内的位置保持不变,无人机持续向地面接入点传输数据包,但只能在悬停时接受节点的数据包,将第j个节点坐标记为(xj,yj, 0);其中,在t时刻至t+1时刻的时间间隔Δtaction中,环境与无人机状态的信息维持不变,即用t时刻的状态表征t+Δtaction时间段内的信息,t时刻无人机的位置为l(t) = (x(t), y(t), H)。
3.根据权利要求1或2所述的传输方法,其特征在于,所述步骤S1-2包括以下步骤:
S1-2-1:地面通信链路采用Sub-6GHz频带,信道模型为瑞利衰落下的自由空间传输路径损耗模型,考虑环境中存在高斯白噪声,给出t时刻节点j在给定功率P j 下,向节点传输数据包的信道模型和传输速率,即:
其中,为参照距离d 0=1m时的路径损耗,为节点j到节点直线距离,为非视距传输的路径损耗参数,为t时刻单位方差下的循环对称复高斯分布小尺度衰落成分,B 1是Sub-6G频带下的子信道带宽,N 0为高斯白噪声单边功率谱密度;
S1-2-2:对空地通信链路,在视距链路通信模型下,无人机与节点及地面接入点间的信道增益服从自由空间路径损耗模型,考虑环境中存在高斯白噪声,给出t时刻节点j向无人机传输数据包的信道模型h j,u (t)和传输速率R j,u (t),以及无人机在给定功率P u 下,向地面接入点传输数据包的信道模型h u,AP (t)和传输速率R u,AP (t),即:
5.根据权利要求4所述的传输方法,其特征在于,所述步骤S3构建无人机辅助地面自组织网络传输数据包的系统的MDP模型,包括状态S、行为A、状态转移概率矩阵P、奖励函数R和折扣因子γ,包括以下步骤:
S3-1:状态S:每个时间间隔Δtaction内,系统的状态由以下两部分组成:
无人机的位置坐标l(t),包括x和y坐标;
各节点处及无人机处的数据包数量Q(t)={q i (t),i=1,2,…,J,u},其中,i取1,2,…,J时表示第i个节点,i取u时表示无人机,q i (t)为t时刻第i个节点或无人机处的数据包数量;
S3-2:行为A:考虑无人机轨迹规划和地面节点接入规划的联合优化,从而在MDP的行为中也包括这两个方面的行为:
在无人机轨迹规划方面,在每个时间间隔Δtaction内,无人机通过改变其飞行方向来调整其飞行轨迹,对应行为
S3-3:奖励函数R:奖励函数设置为:
其中,r表示在终止状态前的最后一个大时间间隔Δtaction里,仍有r个时间间隔Δt内系统未到达终止状态。
6.根据权利要求5所述的传输方法,其特征在于,所述步骤S4采用DQN算法对联合优化问题进行求解,包括以下步骤:
S4-1:给定初始环境S0,初始化评估神经网络参数θ和目标神经网络参数θ - ,并减少随机探索的概率ε;
S4-2:以概率ε随机选择一个行为或以概率1 – ε将当前状态St输入评估神经网络,选择评估神经网络估计出的Q值中最大Q值对应的行为At;
S4-3:将选择的行为At作用于环境,得到环境反馈的奖励Rt+1,并将环境更新到状态St+1;
S4-4:判断经验回放池是否存满,如果未存满,将(St,At,Rt+1,St+1)对存入经验回放池并重复步骤S4-2 至步骤S4-4;如果已存满,用(St,At,Rt+1,St+1)对替换掉最开始存入经验回放池的(Sm,Am,Rm+1,Sm+1)对;
S4-5:判断评估神经网络更新次数是否为目标神经网络更新间隔C的整数倍,如果是则将评估神经网络参数赋值给目标神经网络,即θ - =θ;
S4-6:从经验回放池中抽取M个(Sm,Am,Rm+1,Sm+1)对;
S4-9:计算损失函数
S4-10:通过损失函数L(θ)用梯度下降法更新评估神经网络,并使评估神经网络更新计数器+1;
S4-11:判断环境是否到达终止状态,如果未到达终止状态则重复步骤S4-2 至步骤S4-11;
S4-12:判断是否经训练了设定的次数,即是否到达了设定次数的终止状态,如果是则结束训练,否则重复步骤S4-1至步骤S4-12。
7.根据权利要求6所述的传输方法,其特征在于,所述步骤S5包括以下步骤:
S5-1:给定初始环境S0;
S5-2:将当前状态St输入评估神经网络,选择评估神经网络估计出的Q值中最大Q值对应的行为At;
S5-3:将选择的行为At作用于环境,得到环境反馈的奖励Rt+1,并将环境更新到状态St+1;
S5-4:判断环境是否到达终止状态,如果未到达终止状态则重复步骤S5-1至步骤S5-4,如果到达终止状态则结束应用过程。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210012558.6A CN114025330B (zh) | 2022-01-07 | 2022-01-07 | 一种空地协同的自组织网络数据传输方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210012558.6A CN114025330B (zh) | 2022-01-07 | 2022-01-07 | 一种空地协同的自组织网络数据传输方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114025330A true CN114025330A (zh) | 2022-02-08 |
CN114025330B CN114025330B (zh) | 2022-03-25 |
Family
ID=80069572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210012558.6A Active CN114025330B (zh) | 2022-01-07 | 2022-01-07 | 一种空地协同的自组织网络数据传输方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114025330B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114567597A (zh) * | 2022-02-21 | 2022-05-31 | 重庆邮电大学 | 一种物联网中基于深度强化学习的拥塞控制方法及装置 |
CN114599115A (zh) * | 2022-02-16 | 2022-06-07 | 东南大学 | 一种无人机自组织网络信道接入方法 |
CN114630335A (zh) * | 2022-03-11 | 2022-06-14 | 西安电子科技大学 | 时效性保障的低能耗高动态空中网络覆盖方法 |
CN115470894A (zh) * | 2022-10-31 | 2022-12-13 | 中国人民解放军国防科技大学 | 基于强化学习的无人机知识模型分时调用方法及装置 |
CN116132353A (zh) * | 2022-12-28 | 2023-05-16 | 重庆邮电大学 | 基于ddqn的tsn路由选择方法 |
CN117474295A (zh) * | 2023-12-26 | 2024-01-30 | 长春工业大学 | 一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法 |
CN117651123A (zh) * | 2024-01-30 | 2024-03-05 | 深圳市瀚晖威视科技有限公司 | 基于摄像头的多路视频流处理方法和系统 |
CN117835463A (zh) * | 2023-12-27 | 2024-04-05 | 武汉大学 | 基于深度强化学习的空地自组通信网络时空动态部署方法 |
CN118042528A (zh) * | 2024-04-12 | 2024-05-14 | 南京邮电大学 | 无人机辅助网络的自适应负载均衡地面用户接入方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112822234A (zh) * | 2020-12-29 | 2021-05-18 | 华北电力大学 | 一种车联网中基于深度强化学习的任务卸载方法 |
CN113162679A (zh) * | 2021-04-01 | 2021-07-23 | 南京邮电大学 | 基于ddpg算法的irs辅助无人机通信联合优化方法 |
CN113377131A (zh) * | 2021-06-23 | 2021-09-10 | 东南大学 | 一种使用强化学习获得无人机收集数据轨迹的方法 |
US20210326695A1 (en) * | 2020-04-21 | 2021-10-21 | Caci, Inc. - Federal | Method and apparatus employing distributed sensing and deep learning for dynamic spectrum access and spectrum sharing |
CN113708886A (zh) * | 2021-08-25 | 2021-11-26 | 中国人民解放军陆军工程大学 | 无人机抗干扰通信系统及联合轨迹与波束成形优化方法 |
-
2022
- 2022-01-07 CN CN202210012558.6A patent/CN114025330B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210326695A1 (en) * | 2020-04-21 | 2021-10-21 | Caci, Inc. - Federal | Method and apparatus employing distributed sensing and deep learning for dynamic spectrum access and spectrum sharing |
CN112822234A (zh) * | 2020-12-29 | 2021-05-18 | 华北电力大学 | 一种车联网中基于深度强化学习的任务卸载方法 |
CN113162679A (zh) * | 2021-04-01 | 2021-07-23 | 南京邮电大学 | 基于ddpg算法的irs辅助无人机通信联合优化方法 |
CN113377131A (zh) * | 2021-06-23 | 2021-09-10 | 东南大学 | 一种使用强化学习获得无人机收集数据轨迹的方法 |
CN113708886A (zh) * | 2021-08-25 | 2021-11-26 | 中国人民解放军陆军工程大学 | 无人机抗干扰通信系统及联合轨迹与波束成形优化方法 |
Non-Patent Citations (2)
Title |
---|
ZHAO JINGJING 等: "RIS-Assisted Air-to-Ground Communications with Non-Orthogonal Multiple Access", 《2021 IEEE GLOBECOM WORKSHOPS (GC WKSHPS)》 * |
沈学民 等: "空天地一体化网络技术:探索与展望", 《物联网学报》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114599115A (zh) * | 2022-02-16 | 2022-06-07 | 东南大学 | 一种无人机自组织网络信道接入方法 |
CN114567597A (zh) * | 2022-02-21 | 2022-05-31 | 重庆邮电大学 | 一种物联网中基于深度强化学习的拥塞控制方法及装置 |
CN114567597B (zh) * | 2022-02-21 | 2023-12-19 | 深圳市亦青藤电子科技有限公司 | 一种物联网中基于深度强化学习的拥塞控制方法及装置 |
CN114630335B (zh) * | 2022-03-11 | 2023-09-08 | 西安电子科技大学 | 时效性保障的低能耗高动态空中网络覆盖方法 |
CN114630335A (zh) * | 2022-03-11 | 2022-06-14 | 西安电子科技大学 | 时效性保障的低能耗高动态空中网络覆盖方法 |
CN115470894A (zh) * | 2022-10-31 | 2022-12-13 | 中国人民解放军国防科技大学 | 基于强化学习的无人机知识模型分时调用方法及装置 |
CN116132353A (zh) * | 2022-12-28 | 2023-05-16 | 重庆邮电大学 | 基于ddqn的tsn路由选择方法 |
CN117474295A (zh) * | 2023-12-26 | 2024-01-30 | 长春工业大学 | 一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法 |
CN117474295B (zh) * | 2023-12-26 | 2024-04-26 | 长春工业大学 | 一种基于Dueling DQN算法的多AGV负载均衡与任务调度方法 |
CN117835463A (zh) * | 2023-12-27 | 2024-04-05 | 武汉大学 | 基于深度强化学习的空地自组通信网络时空动态部署方法 |
CN117651123A (zh) * | 2024-01-30 | 2024-03-05 | 深圳市瀚晖威视科技有限公司 | 基于摄像头的多路视频流处理方法和系统 |
CN117651123B (zh) * | 2024-01-30 | 2024-04-05 | 深圳市瀚晖威视科技有限公司 | 基于摄像头的多路视频流处理方法和系统 |
CN118042528A (zh) * | 2024-04-12 | 2024-05-14 | 南京邮电大学 | 无人机辅助网络的自适应负载均衡地面用户接入方法 |
CN118042528B (zh) * | 2024-04-12 | 2024-06-28 | 南京邮电大学 | 无人机辅助网络的自适应负载均衡地面用户接入方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114025330B (zh) | 2022-03-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114025330B (zh) | 一种空地协同的自组织网络数据传输方法 | |
Zhang et al. | Beyond D2D: Full dimension UAV-to-everything communications in 6G | |
CN113162679B (zh) | 基于ddpg算法的irs辅助无人机通信联合优化方法 | |
Zhang et al. | Energy-efficient trajectory optimization for UAV-assisted IoT networks | |
CN112737837B (zh) | 一种高动态网络拓扑下无人机群带宽资源分配方法 | |
CN114690799A (zh) | 基于信息年龄的空天地一体化无人机物联网数据采集方法 | |
CN112383922A (zh) | 一种基于优先经验重放的深度强化学习频谱共享方法 | |
CN113055078B (zh) | 有效信息年龄确定方法、以及无人机飞行轨迹优化方法 | |
Anokye et al. | Deep reinforcement learning-based mobility-aware UAV content caching and placement in mobile edge networks | |
Wu et al. | 3D aerial base station position planning based on deep Q-network for capacity enhancement | |
CN113163466A (zh) | 基于模糊决策树的自适应鱼群寻路包路由方法 | |
Lyu et al. | Qngpsr: A q-network enhanced geographic ad-hoc routing protocol based on gpsr | |
CN115499921A (zh) | 面向复杂无人机网络的三维轨迹设计及资源调度优化方法 | |
Qiu et al. | Maintaining links in the highly dynamic fanet using deep reinforcement learning | |
Fan et al. | Optimal relay selection for UAV-assisted V2V communications | |
CN116436512A (zh) | 一种ris辅助通信的多目标优化方法、系统及设备 | |
CN115134779A (zh) | 一种基于信息年龄感知的车联网资源分配方法 | |
Budhiraja et al. | Energy-efficient optimization scheme for RIS-assisted communication underlaying UAV with NOMA | |
CN114980126A (zh) | 基于深度确定性策略梯度算法的无人机中继通信系统的实现方法 | |
CN113382060B (zh) | 一种物联网数据收集中的无人机轨迹优化方法及系统 | |
CN114020024A (zh) | 基于蒙特卡洛树搜索的无人机路径规划方法 | |
Cao et al. | Deep reinforcement learning for user access control in UAV networks | |
Zhang et al. | Machine learning driven UAV-assisted edge computing | |
Chu et al. | Fast or slow: An autonomous speed control approach for UAV-assisted IoT data collection networks | |
Hao et al. | Mobility-aware trajectory design for aerial base station using deep reinforcement learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |