CN114025330A

CN114025330A - 一种空地协同的自组织网络数据传输方法

Info

Publication number: CN114025330A
Application number: CN202210012558.6A
Authority: CN
Inventors: 赵晶晶; 蔡开泉; 朱衍波; 王鑫; 喻兰辰晖
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-01-07
Filing date: 2022-01-07
Publication date: 2022-02-08
Anticipated expiration: 2042-01-07
Also published as: CN114025330B

Abstract

本发明公开了一种空地协同的自组织网络数据传输方法，包括：构建有无人机辅助的地面自组织网络数据传输系统模型；以最小化数据包的最大端到端时延为优化目标，构建有关无人机航迹和地面节点接入的联合优化问题；构建无人机辅助地面自组织网络传输数据包的系统MDP模型；采用深度强化学习算法对联合优化问题进行求解，并将求解结果应用于空地协同的自组织网络数据传输，降低数据包的端到端时延。本发明采用深度强化学习算法求解无人机航迹和地面节点接入的联合优化问题，可以实现快速在线决策，使得数据包在更好的视距链路中灵活传输，提升自组织网络的传输性能并扩大自组织网络的应用范围。

Description

一种空地协同的自组织网络数据传输方法

技术领域

本发明属于无线通信技术领域，尤其涉及一种应用深度强化学习实现空地协同的自组织网络数据传输方法。

背景技术

自组织网络是一个无线节点的集合，网络中节点间的通信可以不依赖任何预先存在的基础路由设施，而是可以直接通信或者依靠其他节点作为中继节点进行通信，其分布式的无线和自配置特性让它得到广泛的应用。然而，当多个节点同时向一个中继节点传输数据包时，会导致中继节点过载。这是由于节点传输速率有限、数据包数量多，使得系统的传输时延增加。

无人机辅助通信具有高移动性、快速灵活部署、低成本及视距链路通信的特性，它可以用作空中物联网用户收集信息、不受地理限制成为空中基站，以及在没有可靠的直接通信链路的用户之间充当移动中继设备。相比于陆地基站通信和高空平台通信，按需分配的无人机通信系统能更快部署、更加灵活，并且由于短程视距链路的出现，还可能带来更好的通信信道。

专利申请公开号CN113193906A，基于无人机模式转换的空地融合通信方法，通过依据无线通信环境动态地选择无人机工作模式，可以在避免无人机频繁巡航所产生大量机械能耗的同时，在一定程度上改善信号传输质量，在信息传输吞吐量和能量消耗之间取得最优折中，有效提升无人机通信链路的经济效率；专利申请公开号CN111800185A提出了一种无人机辅助通信中的分布式空地联合部署方法，该算法收敛于最优的联盟结构。

为了解决地面节点拥堵的问题，可以采用无人机作为空中中继节点对自组织网络中的数据包进行中继传输。然而无人机的高机动性与地面自组织网络中数据包传输导致的动态环境使得需要无人机辅助传输的节点动态变化，动态变化的环境又会使得选择数据包的传输路径变得困难，且无人机的航迹规划问题与地面节点接入规划问题紧密耦合，使得最优的无人机辅助地面自组织网络的决策方案难以求解。

发明内容

为了解决上述已有技术存在的不足，本发明提出一种基于深度强化学习的空地协同的自组织网络数据传输方法，可以根据数据传输的情况，快速在线优化无人机与地面节点间的通信，从而缓解自组织网络中的数据包拥堵问题，提升自组织网络的传输性能，并降低数据包的端到端时延，扩大自组织网络的应用范围。本发明的具体技术方案如下：

一种空地协同的自组织网络数据传输方法，包括以下步骤：

S1：建立无人机辅助地面自组织网络传输数据包的系统模型；具体过程为：

S1-1：构建无人机辅助地面自组织网络传输数据包的基本场景模型，并进行模型简化；

S1-2：补充信道模型，包括地-地信道模型和空-地信道模型，设自组织网络间的通信和与无人机的通信均采用正交信道，因此不存在信道间干扰；

S2：以最小化数据包的最大端到端时延为优化目标，构建有关无人机航迹和地面节点接入的联合优化问题；

S3：构建无人机辅助地面自组织网络传输数据包的系统MDP模型；

S4：基于步骤S3的模型，采用深度强化学习算法对联合优化问题进行求解；

S5：将步骤S4的结果应用于空地协同的自组织网络数据传输。

进一步地，所述步骤S1-1包括以下步骤：

S1-1-1：在长度为L，宽度为W的L×W矩形地面区域内，存在由J个节点组成的地面自组织网络以及一个地面接入点，每个节点有K个大小为N bits的数据包，各节点需要将所有数据包传输到地面接入点，采用prim算法预先给定地面路由方式；

S1-1-2：各节点依次传输在本节点处的数据包，节点能够选择将数据包经由其他节点传输到地面接入点，或选择通过将数据包传给无人机，再由无人机传输到地面接入点；

S1-1-3：设时间离散化，时间间隔为Δt，每个数据包的每一次传输需要花费整数个时间间隔Δt；设无人机以时间间隔Δt_action调整其飞行策略，Δt_action是Δt的整数倍；

S1-1-4：设无人机以固定高度H和恒定速度V飞行，从一个随机的初始位置l_i起飞，且无人机通过改变飞行方向调整飞行轨迹，在一个时间间隔Δt_action内的位置保持不变，无人机持续向地面接入点传输数据包，但只能在悬停时接受节点的数据包，将第j个节点坐标记为(x_j,y_j, 0)；其中，在t时刻至t+1时刻的时间间隔Δt_action中，环境与无人机状态的信息维持不变，即用t时刻的状态表征t+Δt_action时间段内的信息，t时刻无人机的位置为l(t) =(x(t), y(t), H)。

进一步地，所述步骤S1-2包括以下步骤：

S1-2-1：地面通信链路采用Sub-6GHz频带，信道模型为瑞利衰落下的自由空间传输路径损耗模型，考虑环境中存在高斯白噪声，给出t时刻节点j在给定功率P _j下，向节点

传输数据包的信道模型

和传输速率

，即：

（1）

（2）

其中，

为参照距离d ₀=1m时的路径损耗，

为节点j到节点

直线距离，

为非视距传输的路径损耗参数，

为t时刻单位方差下的循环对称复高斯分布小尺度衰落成分，B ₁是Sub-6G频带下的子信道带宽，N ₀为高斯白噪声单边功率谱密度；

S1-2-2：对空地通信链路，在视距链路通信模型下，无人机与节点及地面接入点间的信道增益服从自由空间路径损耗模型，考虑环境中存在高斯白噪声，给出t时刻节点j向无人机传输数据包的信道模型h _j,u(t)和传输速率R _j,u(t)，以及无人机在给定功率P _u下，向地面接入点传输数据包的信道模型h _u,AP(t)和传输速率R _u,AP(t)，即：

（3）

（4）

（5）

（6）

其中，d _j,u(t)和d _u,AP(t)分别为t时刻节点j到无人机的直线距离和无人机到地面接入点的直线距离，

为视距传输的路径损耗参数，B ₂表示无人机传输数据时所用的信道带宽，G _a为定向波束赋形天线增益。

进一步地，所述步骤S2的具体过程为：确定优化目标为最小化数据包的最大端到端时延，其中，一个数据包端到端时延是指该数据包从源节点传输到地面接入点所用的总时间，包括数据包在各节点间传输所用的时间，和在各节点处等待传输的时间；

系统模型中，所有数据包都是从t=0时刻开始传输，因此，数据包的最大端到端时延即最后一个到达地面接入点的数据包的端到端时延，即所有数据包都到达地面接入点的所用时间T _end，则建立的联合优化问题为：

其中，V _flight表示无人机飞行方向，V _access表示节点接入策略。

进一步地，所述步骤S3构建无人机辅助地面自组织网络传输数据包的系统的MDP模型，包括状态S、行为A、状态转移概率矩阵P、奖励函数R和折扣因子γ，包括以下步骤：

S3-1：状态S：每个时间间隔Δt_action内，系统的状态由以下两部分组成：

无人机的位置坐标l(t)，包括x和y坐标；

各节点处及无人机处的数据包数量Q(t)={q _i(t),i=1,2,…,J,u}，其中，i取1,2,…,J时表示第i个节点，i取u时表示无人机，q _i(t)为t时刻第i个节点或无人机处的数据包数量；

S3-2：行为A：考虑无人机轨迹规划和地面节点接入规划的联合优化，从而在MDP的行为中也包括这两个方面的行为：

在无人机轨迹规划方面，在每个时间间隔Δt_action内，无人机通过改变其飞行方向来调整其飞行轨迹，对应行为

；

在地面节点接入规划方面，无人机悬停并接收距离其最近的节点的数据包，对应行为

，即总共有五个能够选择的行为V _flight+V _access；

S3-3：奖励函数R：奖励函数设置为：

（7）

其中，r表示在终止状态前的最后一个大时间间隔Δt_action里，仍有r个时间间隔Δt内系统未到达终止状态。

进一步地，所述步骤S4采用DQN算法对联合优化问题进行求解，包括以下步骤：

S4-1：给定初始环境S₀，初始化评估神经网络参数θ和目标神经网络参数θ ^-，并减少随机探索的概率ε；

S4-2：以概率ε随机选择一个行为或以概率1 – ε将当前状态S_t输入评估神经网络，选择评估神经网络估计出的Q值中最大Q值对应的行为A_t；

S4-3：将选择的行为A_t作用于环境，得到环境反馈的奖励R_t+1，并将环境更新到状态S_t+1；

S4-4：判断经验回放池是否存满，如果未存满，将（S_t，A_t，R_t+1，S_t+1）对存入经验回放池并重复步骤S4-2 至步骤S4-4；如果已存满，用（S_t，A_t，R_t+1，S_t+1）对替换掉最开始存入经验回放池的（S_m，A_m，R_m+1，S_m+1）对；

S4-5：判断评估神经网络更新次数是否为目标神经网络更新间隔C的整数倍，如果是则将评估神经网络参数赋值给目标神经网络，即θ ^-=θ；

S4-6：从经验回放池中抽取M个（S_m，A_m，R_m+1，S_m+1）对；

S4-7：对每个R_m和S_m+1，如果S_m+1是终止状态，则令y _m= R _m，否则将状态S_m+1输入目标神经网络，得到目标神经网络估计出的在状态S_m+1时做出各行为A_m+1的Q值的最大值

，并令

；

S4-8：对每个S_m和A_m，将状态S_m输入评估神经网络，获得评估神经网络估计出的在状态S_m时做出各行为的Q值中，所选行为A对应的Q值

；

S4-9：计算损失函数

；

S4-10：通过损失函数L(θ)用梯度下降法更新评估神经网络，并使评估神经网络更新计数器+1；

S4-11：判断环境是否到达终止状态，如果未到达终止状态则重复步骤S4-2 至步骤S4-11；

S4-12：判断是否经训练了设定的次数，即是否到达了设定次数的终止状态，如果是则结束训练，否则重复步骤S4-1至步骤S4-12。

进一步地，所述步骤S5包括以下步骤：

S5-1：给定初始环境S₀；

S5-2：将当前状态S_t输入评估神经网络，选择评估神经网络估计出的Q值中最大Q值对应的行为A_t；

S5-3：将选择的行为A_t作用于环境，得到环境反馈的奖励R_t+1，并将环境更新到状态S_t+1；

S5-4：判断环境是否到达终止状态，如果未到达终止状态则重复步骤S5-1至步骤S5-4，如果到达终止状态则结束应用过程。

本发明的有益效果在于：

1.本发明的一种基于深度强化学习的无人机辅助地面自组织网络的空地通信联合优化方法，通过对无人机辅助地面自组织网络传输数据包的场景进行建模，同时根据优化目标和约束条件构建系统MDP模型，再利用深度强化学习不断更新神经网络，据此调整无人机的飞行策略和地面节点接入方案，最终实现自组织网络中数据包端到端时延的最小化。

2.本发明考虑到高度耦合的联合优化问题，使用强化学习进行求解可以简化系统模型，实现快速在线决策。

3.本发明应用无人机辅助地面自组织网络能够利用无人机的高机动性和与地面节点建立视距链路的能力，以较低的成本实现数据包的灵活传输，并为数据传输提供更好的信道。

4.本发明提出无人机辅助地面自组织网络传输数据包的技术方案能够提升自组织网络的传输性能，降低网络传输时延，为时间敏感型数据提供端到端时延保证，使得自组织网络能够应用到军用通信、灾后重建、救援行动等对端到端时延有严格要求的通信场景。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，通过参考附图会更加清楚的理解本发明的特征和优点，附图是示意性的而不应理解为对本发明进行任何限制，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他的附图。其中：

图1为系统模型示意图；

图2为节点传输数据包的两种方式；

图3为DQN算法求解流程图；

图4为DQN算法应用流程图；

图5为传输方法整体流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

如图1所示，本发明提出了一种基于深度强化学习的空地协同的自组织网络数据传输方法，首先建立无人机辅助地面自组织网络传输数据包的系统模型，其中无人机作为空中中继设备可以接收地面节点的数据包，并与远处的地面接入点（AP，Access Point）建立视距通信链路，可以向地面接入点高速传输数据包，从而缓解地面节点处的数据包拥堵问题。然后利用神经网络区分并评价环境的不同状态，然后不断训练神经网络并更新其权重，最终学会使得系统传输时延最低的无人机飞行航迹与地面节点接入方案。

如图5所示，一种空地协同的自组织网络数据传输方法，包括以下步骤：

S1-2：补充信道模型，包括地-地信道模型和空-地信道模型，设自组织网络间的通信和与无人机的通信均采用正交信道，因此不存在信道间干扰。

S2：以最小化数据包的最大端到端时延为优化目标，构建有关无人机航迹和地面节点接入的联合优化问题；具体过程为：确定优化目标为最小化数据包的最大端到端时延，其中，一个数据包端到端时延是指该数据包从源节点传输到地面接入点所用的总时间，包括数据包在各节点间传输所用的时间，和在各节点处等待传输的时间；

本发明的优化目标为最小化系统的最大端到端时延，在模型中，一个数据包的端到端时延是指从t = 0时刻至该数据包到达地面接收点的时刻所用的总时间，也包括了该数据包在各个节点等待该节点传输数据包队列中所有排在其前面的数据包时的等待时间，而数据包的最大端到端时延是所有数据包端到端时延的最大值。

在本发明使用的模型中，虽然存在多个数据包同时到达某一节点的情况，而没有决定这些数据包在该节点处被传输向下一个目标的先后顺序，所以无法通过单独描述每个数据包的端到端时延，再对其求最大值的方法得到最大端到端时延的表达式。但在模型中假设了所有数据包都是从t = 0时刻开始传输，不难发现最大端到端时延就是最后一个到达地面接入点的数据包的端到端时延，即所有数据包都到达地面接入点的所用时间，因此本发明没有必要对同时传输到某个节点的数据包进行排序，决定其传输的先后顺序。

S3：构建无人机辅助地面自组织网络传输数据包的系统MDP模型；本发明要解决的联合优化问题可以表述为一个序列决策问题，从而可以用深度强化学习算法进行求解。强化学习算法通过让智能体与环境不断交互来训练智能体，最终使得智能体学会能够获得最大长期回报的策略，智能体的行为完全由策略决定。

S5：将步骤S4的结果应用于空地协同的自组织网络数据传输。

在一些实施方式中，步骤S1-1包括以下步骤：

S1-1-1：如图1所示，在长度为L，宽度为W的L×W矩形地面区域内，存在由J个节点组成的地面自组织网络以及一个地面接入点，每个节点有K个大小为N bits的数据包，各节点需要将所有数据包传输到地面接入点，采用prim算法预先给定地面路由方式；

S1-1-2：如图2所示，各节点依次传输在本节点处的数据包，节点能够选择将数据包经由其他节点传输到地面接入点，或选择通过将数据包传给无人机，再由无人机传输到地面接入点；

S1-1-3：设时间离散化，时间间隔为Δt，每个数据包的每一次传输需要花费整数个时间间隔Δt；由于无人机在极短的时间Δt内连续大幅度改变其飞行方向在现实中难以实现且没有必要，故设无人机以时间间隔Δt_action调整其飞行策略，Δt_action是Δt的整数倍；

在一些实施方式中，步骤S1-2包括以下步骤：

传输数据包的信道模型

和传输速率

，即：

（1）

（2）

其中，

为参照距离d ₀=1m时的路径损耗，

为节点j到节点

直线距离，

为非视距传输的路径损耗参数，

（3）

（4）

（5）

（6）

为视距传输的路径损耗参数，B ₂表示无人机传输数据时所用的信道带宽，G _a为定向波束赋形天线增益。实际上由于无人机传输数据时所用的信道带宽

远大于

，且无人机向地面接入点传输数据包时拥有较大的天线增益，因此无人机向地面接入点传输数据包的速度很大。

在一些实施方式中，步骤S3构建无人机辅助地面自组织网络传输数据包的系统的MDP模型，包括状态S、行为A、状态转移概率矩阵P、奖励函数R和折扣因子γ，包括以下步骤：

无人机的位置坐标l(t)，包括x和y坐标；

；

，即总共有五个能够选择的行为V _flight+V _access；

S3-3：奖励函数R：奖励函数设置为：

（7）

奖励函数的设定与优化目标紧密相关，如果将所有数据包到达地面接入点的状态设为系统的终止状态，则可以在终止状态给予一个很大的正奖励，而在终止状态之前，为了促使智能体选择能够让系统更快到达终止状态的策略，给予一个较小的负奖励。

因为不同策略可能使得系统在相同的大时间间隔Δt_action时到达终止状态，但系统到达终止状态的时间按小时间间隔Δt来计算却并不相同，为了区分导致细微的端到端时延差别的不同策略，在奖励函数中增加了

这一项。

本发明采用深度强化学习对联合优化问题进行求解，其中采用的深度强化学习方法不唯一，在一些实施方式中，步骤S4采用DQN算法对联合优化问题进行求解。DQN中的神经网络可以在训练后将输入的状态转换拟合出各动作的Q值，用于评估在各个状态做出各个行为的优劣，从而得到智能体进行决策的策略。同时，DQN中采用了经验回放（ExperienceReply）和固定目标值网络（Fixed Q-target）技术：经验回放是将采集到的样本先放入记忆池中，训练神经网络时则从记忆池中随机抽取部分样本来进行训练，从而消除了样本之间的关联性并提升了样本的利用率。DQN中还定义了固定目标值网络，通过一个更新缓慢的目标神经网络（Target Network）计算目标Q值，从而提高了训练的稳定性和收敛性。

步骤S4的具体过程为：通过对环境进行建模，利用构建出的环境对智能体进行训练，即智能体不断与环境交互并获得奖励，智能体利用获得的奖励更新其神经网络参数，最终使得神经网络能够根据输入的状态拟合出较为精确的各行为的Q值，从而得到一个收敛的策略，流程图如图3所示，较佳地，步骤S4包括以下步骤：

S4-1：给定初始环境S₀，初始化评估神经网络参数θ和目标神经网络参数

，并减少随机探索的概率ε；

S4-5：判断评估神经网络更新次数是否为目标神经网络更新间隔C的整数倍，如果是则将评估神经网络参数赋值给目标神经网络，即

；

S4-6：从经验回放池中抽取M个（S_m，A_m，R_m+1，S_m+1）对；

，并令

；

；

S4-9：计算损失函数

；

具体的应用过程不需要更新神经网络，而是直接向训练好的神经网络中输入各状态值，根据神经网络输出的Q值选择行为直到终止状态，从而得到用训练结束后得到的策略进行无人机轨迹规划和节点接入规划时数据包的最大端到端时延。步骤S5的流程图如图4所示，较佳地，步骤S5包括以下步骤：

S5-1：给定初始环境S₀；

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种空地协同的自组织网络数据传输方法，其特征在于，包括以下步骤：

S5：将步骤S4的结果应用于空地协同的自组织网络数据传输。

2.根据权利要求1所述的传输方法，其特征在于，所述步骤S1-1包括以下步骤：

S1-1-4：设无人机以固定高度H和恒定速度V飞行，从一个随机的初始位置l_i起飞，且无人机通过改变飞行方向调整飞行轨迹，在一个时间间隔Δt_action内的位置保持不变，无人机持续向地面接入点传输数据包，但只能在悬停时接受节点的数据包，将第j个节点坐标记为(x_j,y_j, 0)；其中，在t时刻至t+1时刻的时间间隔Δt_action中，环境与无人机状态的信息维持不变，即用t时刻的状态表征t+Δt_action时间段内的信息，t时刻无人机的位置为l(t) = (x(t), y(t), H)。

3.根据权利要求1或2所述的传输方法，其特征在于，所述步骤S1-2包括以下步骤：