CN114690799A - 基于信息年龄的空天地一体化无人机物联网数据采集方法 - Google Patents

基于信息年龄的空天地一体化无人机物联网数据采集方法 Download PDF

Info

Publication number
CN114690799A
CN114690799A CN202210077304.2A CN202210077304A CN114690799A CN 114690799 A CN114690799 A CN 114690799A CN 202210077304 A CN202210077304 A CN 202210077304A CN 114690799 A CN114690799 A CN 114690799A
Authority
CN
China
Prior art keywords
unmanned aerial
internet
aerial vehicle
things
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210077304.2A
Other languages
English (en)
Inventor
张国斌
韦鑫
赵铁柱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan University of Technology
Original Assignee
Dongguan University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan University of Technology filed Critical Dongguan University of Technology
Priority to CN202210077304.2A priority Critical patent/CN114690799A/zh
Publication of CN114690799A publication Critical patent/CN114690799A/zh
Priority to US17/882,619 priority patent/US20230239037A1/en
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18506Communications with or from aircraft, i.e. aeronautical mobile service
    • H04B7/18508Communications with or from aircraft, i.e. aeronautical mobile service with satellite system used as relay, i.e. aeronautical mobile satellite service
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course or altitude of land, water, air, or space vehicles, e.g. automatic pilot
    • G05D1/10Simultaneous control of position or course in three dimensions
    • G05D1/101Simultaneous control of position or course in three dimensions specially adapted for aircraft
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18504Aircraft used as relay or high altitude atmospheric platform
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/18502Airborne stations
    • H04B7/18506Communications with or from aircraft, i.e. aeronautical mobile service
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/185Space-based or airborne stations; Stations for satellite systems
    • H04B7/1851Systems using a satellite or space-based relay
    • H04B7/18513Transmission in a satellite or space-based system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B7/00Radio transmission systems, i.e. using radiation field
    • H04B7/14Relay systems
    • H04B7/15Active relay systems
    • H04B7/204Multiple access
    • H04B7/2041Spot beam multiple access
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W28/00Network traffic management; Network resource management
    • H04W28/16Central resource management; Negotiation of resources or communication parameters, e.g. negotiating bandwidth or QoS [Quality of Service]
    • H04W28/18Negotiating wireless communication parameters
    • H04W28/20Negotiating bandwidth

Abstract

本发明公开了一种基于信息年龄的空天地一体化无人机物联网数据采集方法,构建无人机辅助的空天地一体化物联网系统,构建无人机信道模型、信息年龄模型,建立基于信息年龄的无人机辅助空天地一体化物联网数据采集模型,将问题转换为马尔可夫问题,引入神经网络解决状态高维问题,引入深度强化学习算法训练无人机寻找最优采集点,引入匹配理论将无人机与物联网设备进行配对。本发明针对信息采集实时性需求,寻求无人机飞行参数的优化配置,推演信息年龄、系统容量、能量利用率等性能指标之间的制约关系,有效提高信息采集实时性,降低系统管控复杂度,提升人工智能技术在物联网领域的应用水平。

Description

基于信息年龄的空天地一体化无人机物联网数据采集方法
技术领域
本发明涉及一种数据采集方法,特别是一种基于信息年龄的空天地一体化无人机物联网数据采集方法,属于无线通信技术领域。
背景技术
在第五代和即将到来的第六代(6G)无线通信中,广域物联网(IoT)的普及不断增加。物联网作为继计算机和互联网技术之后重要的第三信息技术,近年来得到高速发展。物联网技术的最大特征是通过传感技术将物与物之间有效连接,实现事物的监控和信息的收集及传输,从而促进社会经济发展和人们的交流沟通。随着无线技术的飞速发展,无线传感器在工业、农业、交通、物流等领域的应用前景日益广泛。为了同时实现广泛的覆盖和灵活的数据采集,将卫星和无人机与物联网设备相结合,如图1所示,形成天-空-地一体化网络(SAGIN),这被认为是6G无线通信的一个重要趋势。在该框架中,无人机作为中继将物联网设备的数据传输到卫星,这大大提高了数据传输速率。
空天地一体化被认为是6G系统的潜在关键技术和重要特征。现有技术中UAV已被用于无线通信的空中基站、移动中继、回程等。为了测量物联网信息的新鲜度,Kaul首先引入了信息年龄,现有研究中信息年龄已被用来定义UAV辅助空天地一体化网络收集的数据包新鲜度,并进一步提出了基于UAV蜂窝互联网的联合优化问题,以最小化信息年龄。
近年来针对空天地一体化网络已有多种规划组网技术提出,但是现有解决规划无人机轨迹问题的方案仍存在计算复杂度高、局限性大等问题。随着人工智能技术的发展,深度强化学习开始广泛应用于无线通信的性能优化中,采用深度Q网络、深度确定性策略梯度等多种训练方法来提高优化性能,但利用深度强化学习规划无人机轨迹的研究还存在很多限制,主要包括:
1.在空天地一体化的系统下,使用无人机作为中继传输数据,无人机数据收集时的飞行轨迹对数据新鲜度有着重要影响,然而目前对无人机轨迹规划的解决方法计算复杂度过高,且有可能导致求解过程过早陷入局部最优点。
2.现有系统模型中,多个无人机和物联网设备之间的数据传输涉及匹配问题。目前大部分研究都仅针对无人机轨迹优化或者匹配问题,未做出联合考虑和设计,且将深度强化学习和匹配理论结合的技术较少。
3.随着地面物联网设备分布范围的扩大,多个无人机之间的协作性加强,无人机之间的协作也会直接影响系统全局信息年龄。现有技术都是针对一个固定范围讨论系统的优化问题,建立信息点数据动态分布、将UAV作为智能体进行分布式学习的技术较少。
发明内容
本发明所要解决的技术问题是提供一种基于信息年龄的空天地一体化无人机物联网数据采集方法,提高信息采集实时性,降低系统管控复杂度,提升人工智能技术在物联网领域的应用水平。
为解决上述技术问题,本发明所采用的技术方案是:
一种基于信息年龄的空天地一体化无人机物联网数据采集方法,其特征在于包含以下步骤:
步骤一:构建无人机辅助的空天地一体化物联网系统;
步骤二:构建无人机信道模型、信息年龄模型;
步骤三:建立基于信息年龄的无人机辅助空天地一体化物联网数据采集模型;
步骤四:将问题转换为马尔可夫问题;
步骤五:引入神经网络解决状态高维问题;
步骤六:引入深度强化学习算法训练无人机寻找最优采集点;
步骤七:引入匹配理论将无人机与物联网设备进行配对。
进一步地,所述步骤一具体为:构建无人机辅助的空天地一体化物联网系统,系统中包含低轨卫星,低轨卫星与多个无人机连接,无人机与多个物联网设备连接,物联网设备产生的数据具有随机的时间分布,且产生的数据量服从泊松分布,每辆无人机从初始位置飞到预定位置,收集数据并传送给卫星,无人机在数据采集时配置为悬停模式。
进一步地,所述步骤二具体为:
无人机与物联网设备之间的数据传输基于视线,无人机n与物联网设备m之间的路损为:
Figure BDA0003484614950000031
其中,dm,n表示无人机n与物联网设备m之间的距离,f表示中心频率,c表示光速,ηLoS表示由人造结构引起的阴影和散射造成的附加损失;
物联网设备m到无人机n的数据加噪声比可以表示为:
Figure BDA0003484614950000032
其中,pm表示物联网设备m到无人机的功率,σ2表示高斯白噪声功率;
物联网设备m到无人机n的传输速率可以通过以下公式计算:
Rm,n=Blog2(1+Γm,n)
其中,B表示带宽;
引入信息年龄来描述无人机接收到的感知数据的新鲜度;假设当第一个匹配的物联网设备生成数据时,无人机开始飞向最终位置;其他匹配物联网设备在无人机飞行时间内随机生成数据;当无人机到达目标点时,开始发送数据;因此,信息年龄由无人机的飞行时间和物联网设备到无人机的传输时间组成;
我们用Am(t)表示在时间t接收到的物联网设备m的数据的信息年龄:
Am(t)=t-um(t)
um(t)表示物联网设备m生成数据的时间。
进一步地,所述步骤三具体为:
要解决的最小化系统信息年龄问题总结为最优化问题为:
Figure BDA0003484614950000033
Figure BDA0003484614950000041
Figure BDA0003484614950000042
Figure BDA0003484614950000043
Figure BDA0003484614950000044
其中,
Figure BDA0003484614950000045
是在时间t无人机n与物联网设备m的匹配变量,
Figure BDA0003484614950000046
分别表示时间t无人机飞行位置的水平和垂直坐标;约束C1表示如无人机n与物联网设备m直接进行匹配,则
Figure BDA0003484614950000047
为1,反之为0;约束C2和C3表示无人机与物联网设备之间的一对多匹配;约束C4表示半径为S的无人机飞行区域。
进一步地,所述步骤四具体为:构建一个结合深度强化学习和匹配算法的框架,以找到无人机的数据采集位置和配对信息;在匹配过程中,我们将代理表示为
Figure BDA0003484614950000048
为了实现一对多的数据采集,引入虚拟代理到每个无人机中,并将每个代理与一个物联网设备进行配对;
无人机在相同高度飞行,深度强化学习用于训练无人机的位置,在强化学习中,代理通过与环境交互获得最优策略;
马尔可夫决策过程由四元数组组成<S,A,P,R>,分别表示状态空间、动作空间、状态转移概率以及奖励;
状态:
Figure BDA0003484614950000049
表示时间t时无人机的位置;
动作:at=(dtt),at∈A,其中dt和θt分别表示时间t时无人机的飞行距离和方向,并且我们将其进行了离散化,以限制选择;
奖励:rt定义为时间t时信息年龄的负值rt=-Am(t);
为了使网络的总体信息年龄最小化,利用最佳无人机位置探索每个代理和物联网设备之间的最小信息年龄,因此,上述最优问题可以转换为使累计奖励最大化:
Figure BDA0003484614950000051
s.t.C4
其中,γ∈[0,1]是未来奖励的折扣因素;
在政策π下,用于在状态st下选择动作at的Q值函数定义为
Figure BDA0003484614950000052
然后得到最优动作-状态值Q*(st,at)定义为在st状态下采取行动后获得的最大期望回报;
根据Bellman公式,Q*(st,at)可以表示为:
Figure BDA0003484614950000053
最优策略可以通过以下方法获得:
Figure BDA0003484614950000054
进一步地,所述步骤五具体为:
使用深度强化学习解决关于系统模型中高维状态空间的问题;深度Q网络中引入了经验回放和目标网络,在体验重放机制中,代理与环境之间的交互顺序<st,at,rt,st+1>存储在体验重放缓冲区D中;学习过程中,将从D中均匀采样小批量序列,并使用随机梯度下降训练深度神经网络,以在高位状态空间中逼近Q函数;用θ参数化神经网络,使Q函数近似为:
Figure BDA0003484614950000055
对于参数梯度下降,定义了神经网络的损失函数,表示为:
Figure BDA0003484614950000056
其中,θ-和θ分别表示单独目标网络和在线网络的参数。
进一步地,所述步骤六具体为:
为找到无人机的最佳采集点,使用SAC算法进行训练;SAC采用一种随机策略,通过最大熵来实现,防止任何有用的行为或轨迹被忽略;代理通过开发更多可行解来更充分地探索状态空间,以更好的优化性能和学习效率完成任务;
最优策略是通过利用熵来实现的:
Figure BDA0003484614950000061
其中
Figure BDA0003484614950000062
是政策熵,α表示平和熵和系统奖励重要性的温度参数;
状态值函数V(st)和动作-状态值函数Q(st,at)表示为:
Figure BDA0003484614950000063
Figure BDA0003484614950000064
该算法通过参数θ和φ构造了两个动作-状态值函数
Figure BDA0003484614950000065
和策略πφ;在每个时隙,演员网络和评论家网络通过从体验重放缓冲区中统一采样小批量来更新;
评论家网络的损失函数公式如下:
Figure BDA0003484614950000066
其中
Figure BDA0003484614950000067
定义为:
Figure BDA0003484614950000068
当训练策略πφ时,演员网络的损失函数为:
Figure BDA0003484614950000069
由于温度参数α在训练中也有十分重要的影响,所以采用自动熵调整方案;在无人机初始探索空间的状态下,α增加以探索更多的空间,然后随着未探索空间的减少而降低,通过以下方法将温度损失降至最低:
Figure BDA00034846149500000610
训练后,代理将获得与每个物联网设备之间的信息年龄最小值,并将其传输到卫星中进行匹配。
进一步地,所述步骤七具体为:
根据接收到的信息年龄值,卫星按照信息年龄的递增顺序为每个代理和物联网设备构建偏好列表
Figure BDA0003484614950000071
Figure BDA0003484614950000072
然后通过GS算法对无人机和物联网设备进行配对;为了保证无人机代理的位置相同,首先将选择具有最小信息年龄的代理作为主代理,辅助代理将选择距主代理训练位置最近的物联网设备;
GS算法的具有申请和拒绝规则,总结如下:
定义1:申请规则:对于代理Vk∈V,它将向偏好列表
Figure BDA0003484614950000073
中最喜爱的物联网设备提出连接申请;
定义2:拒绝规则:对于接收到连接申请的物联网设备Im∈I,如果存在更好的匹配候选,则会拒绝代理,否则,代理将保留为匹配候选;
根据以上规则,GS算法的匹配步骤如下:
(3)将V划分为主代理集合VP和辅助代理集合VA
(4)每个主代理
Figure BDA0003484614950000074
根据自己的偏好列表向最喜爱的物联网设备发出连接申请,然后每个物联网设备Im根据自己的偏好列表选择喜爱程度最高的代理,并拒绝其余代理;
每个辅助代理
Figure BDA0003484614950000075
随着学习出的最有位置到主代理之间的距离调整自己的偏好列表,然后执行与步骤(2)中相同的程序,直至达到稳定匹配。
本发明与现有技术相比,具有以下优点和效果:
1、本发明构建了由卫星、无人机和物联网设备组成的空天地一体化模型,物联网设备感知环境信息,无人机收集数据并发送到卫星。
2、信息年龄是根据无人机的飞行时间和物联网设备到无人机的数据传输时间计算出来的,针对无人机轨迹设计和物联网设备选择,提出了深度强化学习与匹配博弈相结合的方案,以最小化整体信息年龄,有效提高信息采集实时性,降低系统管控复杂度,提升人工智能技术在物联网领域的应用水平;
3、为了实现点对多点的信息采集,在每个无人机中引入了虚拟代理,采用SAC算法进行培训,实现每个代理与物联网设备之间的最小AoI,由卫星建立偏好列表来完成配对以及确定无人机的飞行位置,解决无人机与物联网设备配对问题。
附图说明
图1是本发明的无人机辅助的空天地一体化物联网系统的示意图。
图2是本发明的基于匹配的深度强化学习的示意图。
具体实施方式
为了详细阐述本发明为达到预定技术目的而所采取的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清晰、完整地描述,显然,所描述的实施例仅仅是本发明的部分实施例,而不是全部的实施例,并且,在不付出创造性劳动的前提下,本发明的实施例中的技术手段或技术特征可以替换,下面将参考附图并结合实施例来详细说明本发明。
本发明的一种基于信息年龄的空天地一体化无人机物联网数据采集方法,包含以下步骤:
步骤一:构建无人机辅助的空天地一体化物联网系统。
如图1所示,系统中包含低轨卫星,低轨卫星与多个无人机连接,无人机与多个物联网设备连接,物联网设备产生的数据具有随机的时间分布,且产生的数据量服从泊松分布,每辆无人机从初始位置飞到预定位置,收集数据并传送给卫星,由于无人机在数据采集时配置为悬停模式,因此在数据传输时认为无人机与物联网设备之间的链路是稳定的。
步骤二:构建无人机信道模型、信息年龄模型。
无人机与物联网设备之间的数据传输基于视线,无人机n与物联网设备m之间的路损为:
Figure BDA0003484614950000081
其中,dm,n表示无人机n与物联网设备m之间的距离,f表示中心频率,c表示光速,ηLoS表示由人造结构引起的阴影和散射造成的附加损失;
物联网设备m到无人机n的数据加噪声比可以表示为:
Figure BDA0003484614950000082
其中,pm表示物联网设备m到无人机的功率,σ2表示高斯白噪声功率;
物联网设备m到无人机n的传输速率可以通过以下公式计算:
Rm,n=B log2(1+Γm,n)
其中,B表示带宽。
引入信息年龄来描述无人机接收到的感知数据的新鲜度,以衡量系统的实时性。假设当第一个匹配的物联网设备生成数据时,无人机开始飞向最终位置;其他匹配物联网设备在无人机飞行时间内随机生成数据;当无人机到达目标点时,开始发送数据;因此,信息年龄由无人机的飞行时间(即等待数据传输的时间)和物联网设备到无人机的传输时间组成;
我们用Am(t)表示在时间t接收到的物联网设备m的数据的信息年龄:
Am(t)=t-um(t)
um(t)表示物联网设备m生成数据的时间。
步骤三:建立基于信息年龄的无人机辅助空天地一体化物联网数据采集模型。
本发明要解决的最小化系统信息年龄问题总结为最优化问题为:
Figure BDA0003484614950000091
Figure BDA0003484614950000092
Figure BDA0003484614950000093
Figure BDA0003484614950000094
Figure BDA0003484614950000095
其中,
Figure BDA0003484614950000096
是在时间t无人机n与物联网设备m的匹配变量,
Figure BDA0003484614950000097
分别表示时间t无人机飞行位置的水平和垂直坐标;约束C2和C3表示无人机与物联网设备之间的一对多匹配;约束C4表示半径为S的无人机飞行区域。
步骤四:将问题转换为马尔可夫问题。
构建一个结合深度强化学习和匹配算法的框架,以找到无人机的数据采集位置和配对信息;如图2所示,为了实现一对多的数据采集,引入虚拟代理到每个无人机中,并将每个代理与一个物联网设备进行配对;因此,代理被表示为
Figure BDA0003484614950000101
在该场景中,无人机在相同高度飞行,深度强化学习用于训练无人机的位置,在强化学习中,代理通过与环境交互获得最优策略,,从而实现长期收益最大化。
马尔可夫决策过程为强化学习提供了理论框架,这个过程由四元数组组成<S,A,P,R>,分别表示状态空间、动作空间、状态转移概率以及奖励;
状态:
Figure BDA0003484614950000102
表示时间t时无人机的位置;
动作:at=(dtt),at∈A,其中dt和θt分别表示时间t时无人机的飞行距离和方向,并且我们将其进行了离散化,以限制选择;
奖励:rt定义为时间t时信息年龄的负值rt=-Am(t);
为了使网络的总体信息年龄最小化,利用最佳无人机位置探索每个代理和物联网设备之间的最小信息年龄,因此,上述最优问题可以转换为使累计奖励最大化:
Figure BDA0003484614950000103
s.t.C4
其中,γ∈[0,1]是未来奖励的折扣因素;
在政策π下,用于在状态st下选择动作at的Q值函数定义为
Figure BDA0003484614950000104
然后得到最优动作-状态值Q*(st,at)定义为在st状态下采取行动后获得的最大期望回报;
根据Bellman公式,Q*(st,at)可以表示为:
Figure BDA0003484614950000105
最优策略可以通过以下方法获得:
Figure BDA0003484614950000106
步骤五:引入神经网络解决状态高维问题。
由于传统的强化学习难以应用于大规模离散空间或连续状态空间,我们将使用深度强化学习,解决关于系统模型中高维状态空间的问题。深度Q网络(Deep Q Network DQN)中引入了经验回放和目标网络。在体验重放机制中,代理与环境之间的交互顺序<st,at,rt,st+1>存储在体验重放缓冲区D中;学习过程中,将从D中均匀采样小批量序列,并使用随机梯度下降训练深度神经网络,以在高位状态空间中逼近Q函数;用θ参数化神经网络,使Q函数近似为:
Figure BDA0003484614950000111
对于参数梯度下降,定义了神经网络的损失函数,表示为:
Figure BDA0003484614950000112
其中,θ-和θ分别表示单独目标网络和在线网络的参数。
步骤六:引入深度强化学习算法训练无人机寻找最优采集点。
我们的目标是找到无人机的最佳采集点,由于信息年龄变化的复杂性,训练中可能存在多个局部最优采集点,为了避免无人机陷入局部最优,我们使用软演员评论家(SoftActor-Critic SAC)算法进行训练。
SAC算法是解决离散和连续控制问题的一种出色的深度强化学习算法。与传统的深度强化学习算法相比,SAC采用了一种随机策略,在训练中具有比确定性策略更实际的优势。随机策略是通过最大熵来实现的,其目的是防止任何有用的行为或轨迹被忽略。代理可以通过开发更多可行解来更充分地探索状态空间,从而以更好的优化性能和学习效率完成任务。
最优策略是通过利用熵来实现的:
Figure BDA0003484614950000113
其中
Figure BDA0003484614950000114
是政策熵,α表示平和熵和系统奖励重要性的温度参数;
状态值函数V(st)和动作-状态值函数Q(st,at)表示为:
Figure BDA0003484614950000121
Figure BDA0003484614950000122
该算法通过参数θ和φ构造了两个动作-状态值函数
Figure BDA0003484614950000123
和策略πφ;在每个时隙,演员网络和评论家网络通过从体验重放缓冲区中统一采样小批量来更新;
评论家网络的损失函数公式如下:
Figure BDA0003484614950000124
其中
Figure BDA0003484614950000125
定义为:
Figure BDA0003484614950000126
当训练策略πφ时,演员网络的损失函数为:
Figure BDA0003484614950000127
由于温度参数α在训练中也有十分重要的影响,所以采用自动熵调整方案;在无人机初始探索空间的状态下,α增加以探索更多的空间,然后随着未探索空间的减少而降低,通过以下方法将温度损失降至最低:
Figure BDA0003484614950000128
训练后,代理将获得与每个物联网设备之间的信息年龄最小值,并将其传输到卫星中进行匹配。
步骤七:引入匹配理论将无人机与物联网设备进行配对。
根据接收到的信息年龄值,卫星按照信息年龄的递增顺序为每个代理和物联网设备构建偏好列表
Figure BDA0003484614950000129
Figure BDA00034846149500001210
然后通过盖尔-沙普利(Gale-Shapley GS)算法对无人机和物联网设备进行配对;为了保证无人机代理的位置相同,首先将选择具有最小信息年龄的代理作为主代理,辅助代理将选择距主代理训练位置最近的物联网设备;
GS算法的具有申请和拒绝规则,总结如下:
定义1:申请规则:对于代理Vk∈V,它将向偏好列表
Figure BDA00034846149500001211
中最喜爱的物联网设备提出连接申请;
定义2:拒绝规则:对于接收到连接申请的物联网设备Im∈I,如果存在更好的匹配候选,则会拒绝代理,否则,代理将保留为匹配候选;
根据以上规则,GS算法的匹配步骤如下:
(1)将V划分为主代理集合VP和辅助代理集合VA
(2)每个主代理
Figure BDA0003484614950000131
根据自己的偏好列表向最喜爱的物联网设备发出连接申请,然后每个物联网设备Im根据自己的偏好列表选择喜爱程度最高的代理,并拒绝其余代理;
每个辅助代理
Figure BDA0003484614950000132
随着学习出的最有位置到主代理之间的距离调整自己的偏好列表,然后执行与步骤(2)中相同的程序,直至达到稳定匹配。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。

Claims (8)

1.一种基于信息年龄的空天地一体化无人机物联网数据采集方法,其特征在于包含以下步骤:
步骤一:构建无人机辅助的空天地一体化物联网系统;
步骤二:构建无人机信道模型、信息年龄模型;
步骤三:建立基于信息年龄的无人机辅助空天地一体化物联网数据采集模型;
步骤四:将问题转换为马尔可夫问题;
步骤五:引入神经网络解决状态高维问题;
步骤六:引入深度强化学习算法训练无人机寻找最优采集点;
步骤七:引入匹配理论将无人机与物联网设备进行配对。
2.根据权利要求1所述的基于信息年龄的空天地一体化无人机物联网数据采集方法,其特征在于:所述步骤一具体为:构建无人机辅助的空天地一体化物联网系统,系统中包含低轨卫星,低轨卫星与多个无人机连接,无人机与多个物联网设备连接,物联网设备产生的数据具有随机的时间分布,且产生的数据量服从泊松分布,每辆无人机从初始位置飞到预定位置,收集数据并传送给卫星,无人机在数据采集时配置为悬停模式。
3.根据权利要求1所述的基于信息年龄的空天地一体化无人机物联网数据采集方法,其特征在于:所述步骤二具体为:
无人机与物联网设备之间的数据传输基于视线,无人机n与物联网设备m之间的路损为:
Figure RE-FDA0003675476250000011
其中,dm,n表示无人机n与物联网设备m之间的距离,f表示中心频率,c表示光速,ηLoS表示由人造结构引起的阴影和散射造成的附加损失;
物联网设备m到无人机n的数据加噪声比可以表示为:
Figure RE-FDA0003675476250000012
其中,pm表示物联网设备m到无人机的功率,σ2表示高斯白噪声功率;
物联网设备m到无人机n的传输速率可以通过以下公式计算:
Rm,n=Blog2(1+Γm,n)
其中,B表示带宽;
引入信息年龄来描述无人机接收到的感知数据的新鲜度;假设当第一个匹配的物联网设备生成数据时,无人机开始飞向最终位置;其他匹配物联网设备在无人机飞行时间内随机生成数据;当无人机到达目标点时,开始发送数据;因此,信息年龄由无人机的飞行时间和物联网设备到无人机的传输时间组成;
我们用Am(t)表示在时间t接收到的物联网设备m的数据的信息年龄:
Am(t)=t-um(t)
um(t)表示物联网设备m生成数据的时间。
4.根据权利要求1所述的基于信息年龄的空天地一体化无人机物联网数据采集方法,其特征在于:所述步骤三具体为:
要解决的最小化系统信息年龄问题总结为最优化问题为:
Figure RE-FDA0003675476250000021
s.t.C1:
Figure RE-FDA0003675476250000022
C2:
Figure RE-FDA0003675476250000023
C3:
Figure RE-FDA0003675476250000024
C4:
Figure RE-FDA0003675476250000025
其中,
Figure RE-FDA0003675476250000026
是在时间t无人机n与物联网设备m的匹配变量,
Figure RE-FDA0003675476250000027
分别表示时间t无人机飞行位置的水平和垂直坐标;约束C1表示如无人机n与物联网设备m直接进行匹配,则
Figure RE-FDA0003675476250000028
为1,反之为0;约束C2和C3表示无人机与物联网设备之间的一对多匹配;约束C4表示半径为S的无人机飞行区域。
5.根据权利要求1所述的基于信息年龄的空天地一体化无人机物联网数据采集方法,其特征在于:所述步骤四具体为:构建一个结合深度强化学习和匹配算法的框架,以找到无人机的数据采集位置和配对信息;在匹配过程中,我们将代理表示为
Figure RE-FDA0003675476250000031
为了实现一对多的数据采集,引入虚拟代理到每个无人机中,并将每个代理与一个物联网设备进行配对;
无人机在相同高度飞行,深度强化学习用于训练无人机的位置,在强化学习中,代理通过与环境交互获得最优策略;
马尔可夫决策过程由四元数组组成<S,A,P,R>,分别表示状态空间、动作空间、状态转移概率以及奖励;
状态:
Figure RE-FDA0003675476250000032
表示时间t时无人机的位置;
动作:at=(dtt),at∈A,其中dt和θt分别表示时间t时无人机的飞行距离和方向,并且我们将其进行了离散化,以限制选择;
奖励:rt定义为时间t时信息年龄的负值rt=-Am(t);
为了使网络的总体信息年龄最小化,利用最佳无人机位置探索每个代理和物联网设备之间的最小信息年龄,因此,上述最优问题可以转换为使累计奖励最大化:
Figure RE-FDA0003675476250000033
s.t.C4
其中,γ∈[0,1]是未来奖励的折扣因素;
在政策π下,用于在状态st下选择动作at的Q值函数定义为
Figure RE-FDA0003675476250000034
然后得到最优动作-状态值Q*(st,at)定义为在st状态下采取行动后获得的最大期望回报;
根据Bellman公式,Q*(st,at)可以表示为:
Figure RE-FDA0003675476250000035
最优策略可以通过以下方法获得:
Figure RE-FDA0003675476250000041
6.根据权利要求1所述的基于信息年龄的空天地一体化无人机物联网数据采集方法,其特征在于:所述步骤五具体为:
使用深度强化学习解决关于系统模型中高维状态空间的问题;深度Q网络中引入了经验回放和目标网络,在体验重放机制中,代理与环境之间的交互顺序<st,at,rt,st+1>存储在体验重放缓冲区D中;学习过程中,将从D中均匀采样小批量序列,并使用随机梯度下降训练深度神经网络,以在高位状态空间中逼近Q函数;用θ参数化神经网络,使Q函数近似为:
Figure RE-FDA0003675476250000042
对于参数梯度下降,定义了神经网络的损失函数,表示为:
Figure RE-FDA0003675476250000043
其中,θ-和θ分别表示单独目标网络和在线网络的参数。
7.根据权利要求1所述的基于信息年龄的空天地一体化无人机物联网数据采集方法,其特征在于:所述步骤六具体为:
为找到无人机的最佳采集点,使用SAC算法进行训练;SAC采用一种随机策略,通过最大熵来实现,防止任何有用的行为或轨迹被忽略;代理通过开发更多可行解来更充分地探索状态空间,以更好的优化性能和学习效率完成任务;
最优策略是通过利用熵来实现的:
Figure RE-FDA0003675476250000044
其中
Figure RE-FDA0003675476250000045
是政策熵,α表示平和熵和系统奖励重要性的温度参数;
状态值函数V(st)和动作-状态值函数Q(st,at)表示为:
Figure RE-FDA0003675476250000046
Figure RE-FDA0003675476250000047
该算法通过参数θ和φ构造了两个动作-状态值函数
Figure RE-FDA0003675476250000048
和策略πφ;在每个时隙,演员网络和评论家网络通过从体验重放缓冲区中统一采样小批量来更新;
评论家网络的损失函数公式如下:
Figure RE-FDA0003675476250000051
其中
Figure RE-FDA0003675476250000052
定义为:
Figure RE-FDA0003675476250000053
当训练策略πφ时,演员网络的损失函数为:
Figure RE-FDA0003675476250000054
由于温度参数α在训练中也有十分重要的影响,所以采用自动熵调整方案;在无人机初始探索空间的状态下,α增加以探索更多的空间,然后随着未探索空间的减少而降低,通过以下方法将温度损失降至最低:
Figure RE-FDA0003675476250000055
训练后,代理将获得与每个物联网设备之间的信息年龄最小值,并将其传输到卫星中进行匹配。
8.根据权利要求1所述的基于信息年龄的空天地一体化无人机物联网数据采集方法,其特征在于:所述步骤七具体为:
根据接收到的信息年龄值,卫星按照信息年龄的递增顺序为每个代理和物联网设备构建偏好列表
Figure RE-FDA0003675476250000056
Figure RE-FDA0003675476250000057
然后通过GS算法对无人机和物联网设备进行配对;为了保证无人机代理的位置相同,首先将选择具有最小信息年龄的代理作为主代理,辅助代理将选择距主代理训练位置最近的物联网设备;
GS算法的具有申请和拒绝规则,总结如下:
定义1:申请规则:对于代理Vk∈V,它将向偏好列表
Figure RE-FDA0003675476250000058
中最喜爱的物联网设备提出连接申请;
定义2:拒绝规则:对于接收到连接申请的物联网设备Im∈I,如果存在更好的匹配候选,则会拒绝代理,否则,代理将保留为匹配候选;
根据以上规则,GS算法的匹配步骤如下:
(1)将V划分为主代理集合VP和辅助代理集合VA
(2)每个主代理
Figure RE-FDA0003675476250000061
根据自己的偏好列表向最喜爱的物联网设备发出连接申请,然后每个物联网设备Im根据自己的偏好列表选择喜爱程度最高的代理,并拒绝其余代理;
每个辅助代理
Figure RE-FDA0003675476250000062
随着学习出的最有位置到主代理之间的距离调整自己的偏好列表,然后执行与步骤(2)中相同的程序,直至达到稳定匹配。
CN202210077304.2A 2022-01-24 2022-01-24 基于信息年龄的空天地一体化无人机物联网数据采集方法 Pending CN114690799A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210077304.2A CN114690799A (zh) 2022-01-24 2022-01-24 基于信息年龄的空天地一体化无人机物联网数据采集方法
US17/882,619 US20230239037A1 (en) 2022-01-24 2022-08-08 Space-air-ground integrated uav-assisted iot data collectioncollection method based on aoi

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210077304.2A CN114690799A (zh) 2022-01-24 2022-01-24 基于信息年龄的空天地一体化无人机物联网数据采集方法

Publications (1)

Publication Number Publication Date
CN114690799A true CN114690799A (zh) 2022-07-01

Family

ID=82138035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210077304.2A Pending CN114690799A (zh) 2022-01-24 2022-01-24 基于信息年龄的空天地一体化无人机物联网数据采集方法

Country Status (2)

Country Link
US (1) US20230239037A1 (zh)
CN (1) CN114690799A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115633320A (zh) * 2022-09-28 2023-01-20 中山大学 多无人机辅助的数据采集与回传方法、系统、设备及介质
CN115714793A (zh) * 2022-11-08 2023-02-24 大连海事大学 一种工业物联网中感知信息按需传输方法
CN116232440A (zh) * 2023-03-23 2023-06-06 鹏城实验室 数据采集方法、系统及存储介质
CN116232440B (zh) * 2023-03-23 2024-05-14 鹏城实验室 数据采集方法、系统及存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117253381B (zh) * 2023-09-14 2024-04-12 安徽农业大学 一种离散符号输入下无人机数据收集设计方法
CN117588394B (zh) * 2024-01-18 2024-04-05 华土木(厦门)科技有限公司 基于AIoT的真空泵智能联动控制方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115633320A (zh) * 2022-09-28 2023-01-20 中山大学 多无人机辅助的数据采集与回传方法、系统、设备及介质
CN115714793A (zh) * 2022-11-08 2023-02-24 大连海事大学 一种工业物联网中感知信息按需传输方法
CN115714793B (zh) * 2022-11-08 2023-09-15 大连海事大学 一种工业物联网中感知信息按需传输方法
CN116232440A (zh) * 2023-03-23 2023-06-06 鹏城实验室 数据采集方法、系统及存储介质
CN116232440B (zh) * 2023-03-23 2024-05-14 鹏城实验室 数据采集方法、系统及存储介质

Also Published As

Publication number Publication date
US20230239037A1 (en) 2023-07-27

Similar Documents

Publication Publication Date Title
You et al. Hybrid offline-online design for UAV-enabled data harvesting in probabilistic LoS channels
Liu et al. Average AoI minimization in UAV-assisted data collection with RF wireless power transfer: A deep reinforcement learning scheme
CN114690799A (zh) 基于信息年龄的空天地一体化无人机物联网数据采集方法
Do et al. Deep reinforcement learning for energy-efficient federated learning in UAV-enabled wireless powered networks
CN114389679B (zh) 基于信息年龄最小化的多天线无人机感知和传输优化方法
Meng et al. Space pruning based time minimization in delay constrained multi-task UAV-based sensing
CN115499921A (zh) 面向复杂无人机网络的三维轨迹设计及资源调度优化方法
CN115696211A (zh) 一种基于信息年龄的无人机轨迹自适应优化方法
Amodu et al. Age of Information minimization in UAV-aided data collection for WSN and IoT applications: A systematic review
Shi et al. Age of information optimization with heterogeneous uavs based on deep reinforcement learning
CN114142908B (zh) 一种面向覆盖侦察任务的多无人机通信资源分配方法
CN114020024A (zh) 基于蒙特卡洛树搜索的无人机路径规划方法
Zhang et al. Multi-objective optimization for UAV-enabled wireless powered IoT networks: an LSTM-based deep reinforcement learning approach
CN113776531A (zh) 无线自供电通信网络的多无人机自主导航及任务分配算法
CN116321237A (zh) 一种基于深度强化学习的无人机辅助车联网数据收集方法
Wei et al. DRL-based energy-efficient trajectory planning, computation offloading, and charging scheduling in UAV-MEC network
Yuhua et al. A research on age of information minimization scheme of wireless sensor network assisted by UAV
Martín-Lammerding et al. An ontology-based system to collect WSN-UAS data effectively
Bouhamed et al. A DDPG-based Approach for Energy-aware UAV Navigation in Obstacle-constrained Environment
CN115119174A (zh) 灌区场景中基于能耗优化的无人机自主部署方法
Wei et al. Satellite-controlled uav-assisted iot information collection with deep reinforcement learning and device matching
Khodaparast et al. Deep reinforcement learning based data collection in IoT networks
Liu et al. Maximizing data gathering and energy efficiency in UAV-assisted IoT: A multi-objective optimization approach
Zhang et al. Learning-Based Trajectory Design and Time Allocation in UAV-Supported Wireless Powered NOMA-IoT Networks
Gao et al. MO-AVC: Deep Reinforcement Learning Based Trajectory Control and Task Offloading in Multi-UAV enabled MEC Systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination