CN114690799A

CN114690799A - 基于信息年龄的空天地一体化无人机物联网数据采集方法

Info

Publication number: CN114690799A
Application number: CN202210077304.2A
Authority: CN
Inventors: 张国斌; 韦鑫; 赵铁柱
Original assignee: Dongguan University of Technology
Current assignee: Dongguan University of Technology
Priority date: 2022-01-24
Filing date: 2022-01-24
Publication date: 2022-07-01
Also published as: US20230239037A1

Abstract

本发明公开了一种基于信息年龄的空天地一体化无人机物联网数据采集方法，构建无人机辅助的空天地一体化物联网系统,构建无人机信道模型、信息年龄模型，建立基于信息年龄的无人机辅助空天地一体化物联网数据采集模型，将问题转换为马尔可夫问题，引入神经网络解决状态高维问题，引入深度强化学习算法训练无人机寻找最优采集点，引入匹配理论将无人机与物联网设备进行配对。本发明针对信息采集实时性需求，寻求无人机飞行参数的优化配置，推演信息年龄、系统容量、能量利用率等性能指标之间的制约关系，有效提高信息采集实时性，降低系统管控复杂度，提升人工智能技术在物联网领域的应用水平。

Description

基于信息年龄的空天地一体化无人机物联网数据采集方法

技术领域

本发明涉及一种数据采集方法，特别是一种基于信息年龄的空天地一体化无人机物联网数据采集方法，属于无线通信技术领域。

背景技术

在第五代和即将到来的第六代(6G)无线通信中，广域物联网(IoT)的普及不断增加。物联网作为继计算机和互联网技术之后重要的第三信息技术，近年来得到高速发展。物联网技术的最大特征是通过传感技术将物与物之间有效连接，实现事物的监控和信息的收集及传输，从而促进社会经济发展和人们的交流沟通。随着无线技术的飞速发展，无线传感器在工业、农业、交通、物流等领域的应用前景日益广泛。为了同时实现广泛的覆盖和灵活的数据采集，将卫星和无人机与物联网设备相结合，如图1所示，形成天-空-地一体化网络(SAGIN)，这被认为是6G无线通信的一个重要趋势。在该框架中，无人机作为中继将物联网设备的数据传输到卫星，这大大提高了数据传输速率。

空天地一体化被认为是6G系统的潜在关键技术和重要特征。现有技术中UAV已被用于无线通信的空中基站、移动中继、回程等。为了测量物联网信息的新鲜度，Kaul首先引入了信息年龄，现有研究中信息年龄已被用来定义UAV辅助空天地一体化网络收集的数据包新鲜度，并进一步提出了基于UAV蜂窝互联网的联合优化问题，以最小化信息年龄。

近年来针对空天地一体化网络已有多种规划组网技术提出，但是现有解决规划无人机轨迹问题的方案仍存在计算复杂度高、局限性大等问题。随着人工智能技术的发展，深度强化学习开始广泛应用于无线通信的性能优化中，采用深度Q网络、深度确定性策略梯度等多种训练方法来提高优化性能，但利用深度强化学习规划无人机轨迹的研究还存在很多限制，主要包括：

1.在空天地一体化的系统下，使用无人机作为中继传输数据，无人机数据收集时的飞行轨迹对数据新鲜度有着重要影响，然而目前对无人机轨迹规划的解决方法计算复杂度过高，且有可能导致求解过程过早陷入局部最优点。

2.现有系统模型中，多个无人机和物联网设备之间的数据传输涉及匹配问题。目前大部分研究都仅针对无人机轨迹优化或者匹配问题，未做出联合考虑和设计，且将深度强化学习和匹配理论结合的技术较少。

3.随着地面物联网设备分布范围的扩大，多个无人机之间的协作性加强，无人机之间的协作也会直接影响系统全局信息年龄。现有技术都是针对一个固定范围讨论系统的优化问题，建立信息点数据动态分布、将UAV作为智能体进行分布式学习的技术较少。

发明内容

本发明所要解决的技术问题是提供一种基于信息年龄的空天地一体化无人机物联网数据采集方法，提高信息采集实时性，降低系统管控复杂度，提升人工智能技术在物联网领域的应用水平。

为解决上述技术问题，本发明所采用的技术方案是：

一种基于信息年龄的空天地一体化无人机物联网数据采集方法，其特征在于包含以下步骤：

步骤一：构建无人机辅助的空天地一体化物联网系统；

步骤二：构建无人机信道模型、信息年龄模型；

步骤三：建立基于信息年龄的无人机辅助空天地一体化物联网数据采集模型；

步骤四：将问题转换为马尔可夫问题；

步骤五：引入神经网络解决状态高维问题；

步骤六：引入深度强化学习算法训练无人机寻找最优采集点；

步骤七：引入匹配理论将无人机与物联网设备进行配对。

进一步地，所述步骤一具体为：构建无人机辅助的空天地一体化物联网系统，系统中包含低轨卫星，低轨卫星与多个无人机连接，无人机与多个物联网设备连接，物联网设备产生的数据具有随机的时间分布，且产生的数据量服从泊松分布，每辆无人机从初始位置飞到预定位置，收集数据并传送给卫星，无人机在数据采集时配置为悬停模式。

进一步地，所述步骤二具体为：

无人机与物联网设备之间的数据传输基于视线，无人机n与物联网设备m之间的路损为：

其中，d_m,n表示无人机n与物联网设备m之间的距离，f表示中心频率，c表示光速，η_LoS表示由人造结构引起的阴影和散射造成的附加损失；

物联网设备m到无人机n的数据加噪声比可以表示为：

其中，p_m表示物联网设备m到无人机的功率，σ²表示高斯白噪声功率；

物联网设备m到无人机n的传输速率可以通过以下公式计算：

R_m,n＝Blog₂(1+Γ_m,n)

其中，B表示带宽；

引入信息年龄来描述无人机接收到的感知数据的新鲜度；假设当第一个匹配的物联网设备生成数据时，无人机开始飞向最终位置；其他匹配物联网设备在无人机飞行时间内随机生成数据；当无人机到达目标点时，开始发送数据；因此，信息年龄由无人机的飞行时间和物联网设备到无人机的传输时间组成；

我们用A_m(t)表示在时间t接收到的物联网设备m的数据的信息年龄：

A_m(t)＝t-u_m(t)

u_m(t)表示物联网设备m生成数据的时间。

进一步地，所述步骤三具体为：

要解决的最小化系统信息年龄问题总结为最优化问题为：

其中，

是在时间t无人机n与物联网设备m的匹配变量，

分别表示时间t无人机飞行位置的水平和垂直坐标；约束C1表示如无人机n与物联网设备m直接进行匹配，则

为1，反之为0；约束C2和C3表示无人机与物联网设备之间的一对多匹配；约束C4表示半径为S的无人机飞行区域。

进一步地，所述步骤四具体为：构建一个结合深度强化学习和匹配算法的框架，以找到无人机的数据采集位置和配对信息；在匹配过程中，我们将代理表示为

为了实现一对多的数据采集，引入虚拟代理到每个无人机中，并将每个代理与一个物联网设备进行配对；

无人机在相同高度飞行，深度强化学习用于训练无人机的位置，在强化学习中，代理通过与环境交互获得最优策略；

马尔可夫决策过程由四元数组组成＜S,A,P,R＞,分别表示状态空间、动作空间、状态转移概率以及奖励；

状态：

表示时间t时无人机的位置；

动作：a_t＝(d_t,θ_t),a_t∈A，其中d_t和θ_t分别表示时间t时无人机的飞行距离和方向，并且我们将其进行了离散化，以限制选择；

奖励：r_t定义为时间t时信息年龄的负值r_t＝-A_m(t)；

为了使网络的总体信息年龄最小化，利用最佳无人机位置探索每个代理和物联网设备之间的最小信息年龄，因此，上述最优问题可以转换为使累计奖励最大化：

s.t.C4

其中，γ∈[0,1]是未来奖励的折扣因素；

在政策π下，用于在状态s_t下选择动作a_t的Q值函数定义为

然后得到最优动作-状态值Q^*(s_t,a_t)定义为在s_t状态下采取行动后获得的最大期望回报；

根据Bellman公式，Q^*(s_t,a_t)可以表示为：

最优策略可以通过以下方法获得：

进一步地，所述步骤五具体为：

使用深度强化学习解决关于系统模型中高维状态空间的问题；深度Q网络中引入了经验回放和目标网络，在体验重放机制中，代理与环境之间的交互顺序＜s_t,a_t,r_t,s_t+1＞存储在体验重放缓冲区D中；学习过程中，将从D中均匀采样小批量序列，并使用随机梯度下降训练深度神经网络，以在高位状态空间中逼近Q函数；用θ参数化神经网络，使Q函数近似为：

对于参数梯度下降，定义了神经网络的损失函数，表示为：

其中，θ^-和θ分别表示单独目标网络和在线网络的参数。

进一步地，所述步骤六具体为：

为找到无人机的最佳采集点，使用SAC算法进行训练；SAC采用一种随机策略，通过最大熵来实现，防止任何有用的行为或轨迹被忽略；代理通过开发更多可行解来更充分地探索状态空间，以更好的优化性能和学习效率完成任务；

最优策略是通过利用熵来实现的：

其中

是政策熵，α表示平和熵和系统奖励重要性的温度参数；

状态值函数V(s_t)和动作-状态值函数Q(s_t,a_t)表示为：

该算法通过参数θ和φ构造了两个动作-状态值函数

和策略π_φ；在每个时隙，演员网络和评论家网络通过从体验重放缓冲区中统一采样小批量来更新；

评论家网络的损失函数公式如下：

其中

定义为：

当训练策略π_φ时，演员网络的损失函数为：

由于温度参数α在训练中也有十分重要的影响，所以采用自动熵调整方案；在无人机初始探索空间的状态下，α增加以探索更多的空间，然后随着未探索空间的减少而降低，通过以下方法将温度损失降至最低：

训练后，代理将获得与每个物联网设备之间的信息年龄最小值，并将其传输到卫星中进行匹配。

进一步地，所述步骤七具体为：

根据接收到的信息年龄值，卫星按照信息年龄的递增顺序为每个代理和物联网设备构建偏好列表

和

然后通过GS算法对无人机和物联网设备进行配对；为了保证无人机代理的位置相同，首先将选择具有最小信息年龄的代理作为主代理，辅助代理将选择距主代理训练位置最近的物联网设备；

GS算法的具有申请和拒绝规则，总结如下：

定义1：申请规则：对于代理V_k∈V，它将向偏好列表

中最喜爱的物联网设备提出连接申请；

定义2：拒绝规则：对于接收到连接申请的物联网设备I_m∈I，如果存在更好的匹配候选，则会拒绝代理，否则，代理将保留为匹配候选；

根据以上规则，GS算法的匹配步骤如下：

(3)将V划分为主代理集合V^P和辅助代理集合V^A；

(4)每个主代理

根据自己的偏好列表向最喜爱的物联网设备发出连接申请，然后每个物联网设备I_m根据自己的偏好列表选择喜爱程度最高的代理，并拒绝其余代理；

每个辅助代理

随着学习出的最有位置到主代理之间的距离调整自己的偏好列表，然后执行与步骤(2)中相同的程序，直至达到稳定匹配。

本发明与现有技术相比，具有以下优点和效果：

1、本发明构建了由卫星、无人机和物联网设备组成的空天地一体化模型，物联网设备感知环境信息，无人机收集数据并发送到卫星。

2、信息年龄是根据无人机的飞行时间和物联网设备到无人机的数据传输时间计算出来的，针对无人机轨迹设计和物联网设备选择，提出了深度强化学习与匹配博弈相结合的方案，以最小化整体信息年龄，有效提高信息采集实时性，降低系统管控复杂度，提升人工智能技术在物联网领域的应用水平；

3、为了实现点对多点的信息采集，在每个无人机中引入了虚拟代理，采用SAC算法进行培训，实现每个代理与物联网设备之间的最小AoI，由卫星建立偏好列表来完成配对以及确定无人机的飞行位置，解决无人机与物联网设备配对问题。

附图说明

图1是本发明的无人机辅助的空天地一体化物联网系统的示意图。

图2是本发明的基于匹配的深度强化学习的示意图。

具体实施方式

为了详细阐述本发明为达到预定技术目的而所采取的技术方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清晰、完整地描述，显然，所描述的实施例仅仅是本发明的部分实施例，而不是全部的实施例，并且，在不付出创造性劳动的前提下，本发明的实施例中的技术手段或技术特征可以替换，下面将参考附图并结合实施例来详细说明本发明。

本发明的一种基于信息年龄的空天地一体化无人机物联网数据采集方法，包含以下步骤：

步骤一：构建无人机辅助的空天地一体化物联网系统。

如图1所示，系统中包含低轨卫星，低轨卫星与多个无人机连接，无人机与多个物联网设备连接，物联网设备产生的数据具有随机的时间分布，且产生的数据量服从泊松分布，每辆无人机从初始位置飞到预定位置，收集数据并传送给卫星，由于无人机在数据采集时配置为悬停模式，因此在数据传输时认为无人机与物联网设备之间的链路是稳定的。

步骤二：构建无人机信道模型、信息年龄模型。

物联网设备m到无人机n的数据加噪声比可以表示为：

物联网设备m到无人机n的传输速率可以通过以下公式计算：

R_m,n＝B log₂(1+Γ_m,n)

其中，B表示带宽。

引入信息年龄来描述无人机接收到的感知数据的新鲜度，以衡量系统的实时性。假设当第一个匹配的物联网设备生成数据时，无人机开始飞向最终位置；其他匹配物联网设备在无人机飞行时间内随机生成数据；当无人机到达目标点时，开始发送数据；因此，信息年龄由无人机的飞行时间(即等待数据传输的时间)和物联网设备到无人机的传输时间组成；

A_m(t)＝t-u_m(t)

u_m(t)表示物联网设备m生成数据的时间。

步骤三：建立基于信息年龄的无人机辅助空天地一体化物联网数据采集模型。

本发明要解决的最小化系统信息年龄问题总结为最优化问题为：

其中，

是在时间t无人机n与物联网设备m的匹配变量，

分别表示时间t无人机飞行位置的水平和垂直坐标；约束C2和C3表示无人机与物联网设备之间的一对多匹配；约束C4表示半径为S的无人机飞行区域。

步骤四：将问题转换为马尔可夫问题。

构建一个结合深度强化学习和匹配算法的框架，以找到无人机的数据采集位置和配对信息；如图2所示，为了实现一对多的数据采集，引入虚拟代理到每个无人机中，并将每个代理与一个物联网设备进行配对；因此，代理被表示为

在该场景中，无人机在相同高度飞行，深度强化学习用于训练无人机的位置，在强化学习中，代理通过与环境交互获得最优策略，，从而实现长期收益最大化。

马尔可夫决策过程为强化学习提供了理论框架，这个过程由四元数组组成＜S,A,P,R＞,分别表示状态空间、动作空间、状态转移概率以及奖励；

状态：

表示时间t时无人机的位置；

奖励：r_t定义为时间t时信息年龄的负值r_t＝-A_m(t)；

s.t.C4

其中，γ∈[0,1]是未来奖励的折扣因素；

在政策π下，用于在状态s_t下选择动作a_t的Q值函数定义为

根据Bellman公式，Q^*(s_t,a_t)可以表示为：

最优策略可以通过以下方法获得：

步骤五：引入神经网络解决状态高维问题。

由于传统的强化学习难以应用于大规模离散空间或连续状态空间，我们将使用深度强化学习，解决关于系统模型中高维状态空间的问题。深度Q网络(Deep Q Network DQN)中引入了经验回放和目标网络。在体验重放机制中，代理与环境之间的交互顺序＜s_t,a_t,r_t,s_t+1＞存储在体验重放缓冲区D中；学习过程中，将从D中均匀采样小批量序列，并使用随机梯度下降训练深度神经网络，以在高位状态空间中逼近Q函数；用θ参数化神经网络，使Q函数近似为：

对于参数梯度下降，定义了神经网络的损失函数，表示为：

其中，θ^-和θ分别表示单独目标网络和在线网络的参数。

步骤六：引入深度强化学习算法训练无人机寻找最优采集点。

我们的目标是找到无人机的最佳采集点，由于信息年龄变化的复杂性，训练中可能存在多个局部最优采集点，为了避免无人机陷入局部最优，我们使用软演员评论家(SoftActor-Critic SAC)算法进行训练。

SAC算法是解决离散和连续控制问题的一种出色的深度强化学习算法。与传统的深度强化学习算法相比，SAC采用了一种随机策略，在训练中具有比确定性策略更实际的优势。随机策略是通过最大熵来实现的，其目的是防止任何有用的行为或轨迹被忽略。代理可以通过开发更多可行解来更充分地探索状态空间，从而以更好的优化性能和学习效率完成任务。

最优策略是通过利用熵来实现的：

其中

是政策熵，α表示平和熵和系统奖励重要性的温度参数；

状态值函数V(s_t)和动作-状态值函数Q(s_t,a_t)表示为：

该算法通过参数θ和φ构造了两个动作-状态值函数

评论家网络的损失函数公式如下：

其中

定义为：

当训练策略π_φ时，演员网络的损失函数为：

步骤七：引入匹配理论将无人机与物联网设备进行配对。

和

然后通过盖尔-沙普利(Gale-Shapley GS)算法对无人机和物联网设备进行配对；为了保证无人机代理的位置相同，首先将选择具有最小信息年龄的代理作为主代理，辅助代理将选择距主代理训练位置最近的物联网设备；

GS算法的具有申请和拒绝规则，总结如下：

定义1：申请规则：对于代理V_k∈V，它将向偏好列表

中最喜爱的物联网设备提出连接申请；

根据以上规则，GS算法的匹配步骤如下：

(1)将V划分为主代理集合V^P和辅助代理集合V^A；

(2)每个主代理

每个辅助代理

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案内容，依据本发明的技术实质，在本发明的精神和原则之内，对以上实施例所作的任何简单的修改、等同替换与改进等，均仍属于本发明技术方案的保护范围之内。

Claims

1.一种基于信息年龄的空天地一体化无人机物联网数据采集方法，其特征在于包含以下步骤：

步骤一：构建无人机辅助的空天地一体化物联网系统；

步骤二：构建无人机信道模型、信息年龄模型；

步骤四：将问题转换为马尔可夫问题；

步骤五：引入神经网络解决状态高维问题；

步骤七：引入匹配理论将无人机与物联网设备进行配对。

2.根据权利要求1所述的基于信息年龄的空天地一体化无人机物联网数据采集方法，其特征在于：所述步骤一具体为：构建无人机辅助的空天地一体化物联网系统，系统中包含低轨卫星，低轨卫星与多个无人机连接，无人机与多个物联网设备连接，物联网设备产生的数据具有随机的时间分布，且产生的数据量服从泊松分布，每辆无人机从初始位置飞到预定位置，收集数据并传送给卫星，无人机在数据采集时配置为悬停模式。

3.根据权利要求1所述的基于信息年龄的空天地一体化无人机物联网数据采集方法，其特征在于：所述步骤二具体为：