CN116321237A - 一种基于深度强化学习的无人机辅助车联网数据收集方法 - Google Patents
一种基于深度强化学习的无人机辅助车联网数据收集方法 Download PDFInfo
- Publication number
- CN116321237A CN116321237A CN202310383823.6A CN202310383823A CN116321237A CN 116321237 A CN116321237 A CN 116321237A CN 202310383823 A CN202310383823 A CN 202310383823A CN 116321237 A CN116321237 A CN 116321237A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- vehicles
- road side
- data collection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/02—Arrangements for optimising operational condition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/092—Reinforcement learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/38—Services specially adapted for particular environments, situations or purposes for collecting sensor information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
- H04W4/42—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for mass transport vehicles, e.g. buses, trains or aircraft
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
- H04W4/44—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for communication between vehicles and infrastructures, e.g. vehicle-to-cloud [V2C] or vehicle-to-home [V2H]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2111/00—Details relating to CAD techniques
- G06F2111/04—Constraint-based CAD
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computer Hardware Design (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Aviation & Aerospace Engineering (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Geometry (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Traffic Control Systems (AREA)
Abstract
本发明涉及一种基于深度强化学习的无人机辅助车联网数据收集方法,属于无线通信领域。包括构建无人机辅助车联网数据收集系统模型,进行虚拟网格的划分,利用网格化管理简化优化问题,训练网络参数,选择最优动作从而完成数据采集任务。优点是无人机能够及时地收集车联网运行的信息,同时实现无人机自主的路径规划,增加车辆的信息维度,能够更好的实现信息的收集工作,为车联网系统提供及时援助,简化了无人机路径规划的训练算法的复杂度,具有较高的应用价值。在应急救灾的场景下,采用本发明能够提升无人机数据收集的可靠性和车联网应急通信的及时性。
Description
技术领域
本发明属于无线通信领域,涉及一种基于深度强化学习的无人机辅助车联网数据收集方法。
背景技术
作为近年来通信和网络技术最重要的进步之一,车联网是实现未来城市智能交通的关键技术。作为可以高速移动的空中节点,无人机(Unmanned Aerial Vehicle,UAV)不受道路的限制,具有机动性强、部署灵活、经济高效、易建立视距通信链路等诸多优势,目前已广泛应用在环境监测、交通管控和灾难救援等多场景中。无人机与车联网共同组成UAV-V2I网络中,无人机充当车联网的移动基站,能够增强网络的覆盖范围、容量、可靠性和能量效率等。在发生自然灾害或人为恐怖活动等应急场景中,地面通信基站等基础设施无法正常工作,无人机替代无法工作的地面基站恢复灾后通信,为热点区域提供网络覆盖和额外的通信能力。无人机携带任务设备的多样性还能够增加车联网的信息维度。根据车联网的实时运行状态对无人机的飞行轨迹进行规划,使其能够提供更为灵活高效的通信服务,对提升车联网应用的性能有着十分重要的意义。无人机辅助车联网已成为车联网通信的一种趋势。
车联网作为一个高动态网络,信息时效性对网络的正常运行至关重要,采用延迟、吞吐量和服务质量等性能指标无法准确评估信息的新鲜程度,为此学者们提出了信息年龄这一指标。信息年龄是指信息从产生时刻到当前时刻为止的时间差,相较于传输时延还包括了信息的处理时间和逗留时间。相较于传统指标,信息年龄能够更准确的描述信息的新鲜程度。在无人机辅助车联网中路侧单元负责收集车联网数据并上传至无人机,无人机需要包含车联网中所有节点的信息年龄。
无人机辅助车联网可以更好地实现车联网的功能,更好地发挥无人机成本低、可按需部署的优势。车联网中路侧单元的数据具有差异性和快速变化特性,无人机能够实现尽快收集路侧单元的信息,保证车联网中信息的时效性。由于无人机的能量和通信资源是有限的,可能会有部分路侧单元的信息不能够被及时收集,导致整个网络的信息时效性下降。此外,路侧单元有多种数据包生成形式。因此,在优化平均信息年龄时,不仅需要考虑路侧单元的数据包生成形式,还需要尽量降低无人机的飞行功耗,让无人机能够有更长的工作时间和更高的工作效率。因此在无人机资源受限的情况下,存在一个最佳的无人机数据收集方法。
车联网中环境状态是实时变化的,而且规律难以总结,所以在基于无人机辅助数据收集的方法中,传统的路径规划方法难以应对复杂多变的环境,无法及时收集到数据。然而,强化学习方法可以很好适应高度动态的环境,通过不断学习改进的思想来寻找最优的解决方案,而无需知道环境中不同状态之间的转换规律。但是,当环境逐渐庞大时,训练的复杂度就会快速上升,训练的难度也会随之增加。
发明内容
本发明提供一种基于深度强化学习的无人机辅助车联网数据收集方法,目的是合理规划出路径,使无人机在对车联网进行数据收集时系统的平均信息年龄最小,达到及时收集数据的效果。
发明采取的技术方案是,包括下列步骤:
步骤一:构建无人机辅助车联网数据收集系统模型,包括无人机位置和路侧单元位置,路侧单元的信息年龄模型,无人机的通信模型,与无人机的自身硬件配置属性有关的飞行能耗模型并设计优化问题;
步骤二:进行虚拟网格的划分,利用网格化管理简化优化问题,以最小化系统平均信息年龄为优化目标,同时需满足无人机资源调度约束、探测范围约束和飞行轨迹约束;
步骤三:把问题用马尔可夫决策过程表述,采用深度强化学习算法DQN求解,使无人机通过不断与环境交互,训练网络参数,选择最优动作从而完成数据采集任务,使用python语言仿真。
本发明所述步骤一中系统模型具体为:无人机辅助车联网系统包含无人机、地面车辆和路侧单元,在长为L米,宽为W米的无人机工作区域内,同时存在随机分布的N个路侧单元和一台无人机,路侧单元负责收集工作区域内附近车辆、路侧基础设施以及环境等相关信息,路侧单元表示为u={u1,u2,...,uN},第n个路侧单元的地面位置坐标为wn=(xn,yn),其中n=1,2,3…N,每周期开始时无人机在固定位置P起飞,以固定高度H和周期T在区域中执行数据收集工作,其位置在地面的投影坐标表示为wu(t)=(xu(t),yu(t)),电池容量为Emax,无人机的飞行周期T被划分为T′个时隙,即t=0,1,2,…,T′,每个时隙为δ秒,按时隙控制无人机的飞行规律。
本发明所述步骤一中路侧单元的信息年龄模型具体为:对于路侧单元n,在时隙t时,信息年龄Δn(t)被定义为当前时刻与目的地接收到的最新数据包生成时间An的差值,即每当接收端接收到一个新的数据包,信息年龄将被重置为Δn(t)=t-An,若没有收到新的数据包,则信息年龄正常加1,如果发送端每时每刻产生数据包,则接收端成功接收到其数据包时发送端的信息年龄被重置为1,信息年龄作为评估状态信息更新及时性的一个度量指标,可用于评价无人机接收信息的新鲜度;
描述无人机对于路侧单元n的信息年龄变化为:
对于一个飞行周期T,含有N个路侧单元的系统的平均信息年龄可表示为:
本发明所述步骤一中无人机的通信模型具体为:无人机与路侧单元之间为视距信道,信道增益h为:
h=β0d-2
其中,β0表示通信距离为1m时的信道增益,d是无人机与路侧单元的欧式距离:
在环境中网格宽度与无人机飞行高度差距较大,所以无人机与路侧单元的欧式距离可近似为无人机的固定飞行高度H,即d≈H,
利用香农公式求得无人机与路侧单元通信时的数据传输速率R为:
其中,B是通信带宽,PGN是无人机的发射功率,σ2是噪声功率。
本发明所述步骤一中无人机飞行能耗模型具体为:通信能耗与传输数据量有关,而与无人机的飞行模式关系较小,求得无人机通信能耗Etran为:
其中,k为单次无人机悬停要接收数据的信息量;
无人机在飞行时的功耗表示为:
其中,P0和P1分别表示无人机处于悬停状态下旋转功率和诱导功率,Utip表示旋翼的翼尖转速,v0表示无人机悬停状态下旋翼的平均诱导速度,d0、ρ、s0和A分别表示机身阻力比、空气密度、旋翼硬度和旋翼旋转面积,V表示无人机的飞行速度,当无人机飞行速度V=0时的悬停功率消耗Phov为:
Phov=P0+P1。
本发明所述步骤一中设计优化问题具体为:构建基本的系统模型,以最小化系统平均信息年龄为优化目标设立优化问题:
s.t.Δn(t)≤t+1
0≤xu(t)≤L
0≤yu(t)≤W
wu(0)=P
1<tpro+thov≤T′
Etran·thov+Ppro(V)·tpro·δ+Phov·thov·δ≤Emax
其中,tpro和thov分别为无人机推进时隙数和悬停时隙数,Emax为无人机电池容量。
本发明所述的步骤二采用网格化管理该工作区域,对长为L米宽为W米的工作区域按边长为Len的正方形网格进行虚拟划分,无人机沿网格线飞行且只悬停在网格交叉点上,路侧单元只与最近网格交叉点上的无人机通信,网格交叉点的通信覆盖范围是半径为rad的圆形区域;无人机在时隙开始时进行决策,判断本时隙应飞行还是收集数据;当无人机通信范围内无路侧单元或路侧单元无数据包发送时,无人机将沿网格线持续飞行;当无人机的通信范围内路侧单元有数据包要发送时,无人机悬停在距离该路侧单元最近的网格交叉点上进行数据收集,为了保证网格和时隙的协同与兼容,规定无人机在一个时隙内完成一格距离的运动,即δ·V≤Len,或完成一次数据传输,即δ·R≥k。
本发明所述步骤二中利用网格化管理简化优化问题具体为:无人机的轨迹动作随着网格化管理相应离散化,其能耗约束可并入时隙的约束中,即通过单周期时隙个数T′限定无人机单周期能耗,与此同时,无人机飞行时隙数与悬停时隙数之和等于T′,即tpro+thov=T′,减小了计算的复杂度,优化问题简化为:
s.t.Δn(t)≤t+1
0≤xu(t)≤L
0≤yu(t)≤W
wu(0)=P
δ·V≤Len
δ·R≥k。
本发明所述的步骤三先把问题用马尔可夫决策过程表述:
动作空间为:at={0,1,2,3,4}
其中,“0”代表无人机向北移动;“1”代表无人机向南移动;“2”代表无人机向西移动;“3”代表无人机向东移动;“4”代表无人机悬停;
在每一时隙的开始时,无人机在动作空间中选择动作,使状态发生改变,具体表现为:
由于目标是提高无人机接收的数据的信息新鲜度,系统平均信息年龄越小,所得奖励应该越大,因此奖励为系统的平均信息年龄的相反数。
本发明所述步骤三中深度强化学习算法DQN具体为:DQN是强化学习算法Q-learning与神经网络的结合,强化学习的目标是给定一个马尔科夫决策过程,寻找最优策略,给出最优动作,使系统的平均信息年龄最小;
DQN利用Q-learning算法的Q值函数迭代方法,如下式:
其中s′和rt分别表示t时隙的状态s下执行动作a后的下一状态和即时奖励,α和γ分别是学习率和折扣因子,由于Q-learning基于Q表更新Q值,为避免用于大型状态空间时造成维度灾难,引入神经网络可以从已经获得的经验中提取重要特征并在更小的维度上拟合输入和输出的关系,神经网络将Q值函数近似为Q(s,a∣θ),即:
Q(s,a|θ)≈Q(s,a)
其中,θ为当前网络的权重,通过定期更新达到训练网络的关系,从而拟合出动作和动作价值的关系,更新规则由损失函数确定,损失函数为:
其中,θ-是目标网络的权重,Q(s′,a′|θ-)由目标网络评估,Q(s,a|θ)由当前网络评估。进而求得损失函数对于θ的梯度:
由此可得出网络权重的更新规则,如下式:
无人机在实施动作造成状态改变的过程中不断学习经验,学习的经验越多损失函数值越小、越稳定,当前网络参数也随之收敛,这样就可以选择最优动作,以最小的系统平均信息年龄的路径实现数据收集工作。
本发明的有益效果:
本发明将车联网中对高可靠性、信息新鲜度、低能耗问题的优化问题转化为在保证感知数据的成功传输(高可靠性)和低信息年龄(高信息新鲜度)的情况下,最小化无人机飞行轨迹(低能耗)问题,并且针对深度强化学习算法进行适当的状态空间、动作空间、奖励函数的设置,联合优化无人机的任务调度、探测范围、发射功率和飞行轨迹。
实验结果表明通过联合优化无人机的任务调度、探测范围、发射功率和飞行轨迹,可以在有效执行数据收集任务的情况下,最小化网络平均信息。本发明计算复杂度适中,系统模型简单合理,充分考虑了车联网中的信息年龄指标,仿真结果表明,该方法能够获得较高的年龄效益。
本发明使无人机能够及时地收集车联网运行的信息,同时实现无人机自主的路径规划,增加车辆的信息维度。无人机不易受到地面复杂因素的限制,能够更好的实现信息的收集工作,为车联网系统提供及时援助。本发明在车联网中引入信息年龄作为信息新鲜程度的衡量标准,通过联合优化无人机的能耗和飞行路径,实现最小化系统平均信息年龄。本发明引入网格化管理的概念,将车联网工作区域进行网格划分,简化了无人机路径规划的训练算法的复杂度,具有较高的应用价值。在应急救灾的场景下,采用本发明能够提升无人机数据收集的可靠性和车联网应急通信的及时性。
附图说明
图1是本发明系统模型图;
图2是本发明网格化管理示意图;
图3是本发明系统的离散化信息年龄变化趋势图;
图4是本发明DQN算法结构图;
图5是本发明DQN应用流程图;
图6是本发明不同学习率下DQN算法奖励的变化曲线图;
图7是本发明四种环境设定下DQN算法奖励的变化曲线图;
图8是本发明路侧单元数固定时,随着单周期步数的增加,不同算法的系统平均信息年龄的对比图;
图9是本发明路侧单元数固定时,随着单周期步数的增加,不同算法的系统最优信息年龄的对比图;
图10是本发明单周期步数固定时,随着路侧单元数的增加,不同算法的系统平均信息年龄的对比图;
图11是本发明单周期步数固定时,随着路侧单元数的增加,不同算法的系统最优信息年龄的对比图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
包括下列步骤:
步骤一:构建无人机辅助车联网数据收集系统模型,包括无人机位置和路侧单元位置,路侧单元的信息年龄模型,无人机的通信模型,与无人机的自身硬件配置属性有关的飞行能耗模型并设计优化问题;
步骤二:进行虚拟网格的划分,利用网格化管理简化优化问题,以最小化系统平均信息年龄为优化目标,同时需满足无人机资源调度约束、探测范围约束和飞行轨迹约束;
步骤三:把问题用马尔可夫决策过程表述,采用深度强化学习算法DQN(DeepQNetwork)求解,使无人机通过不断与环境交互,训练网络参数,选择最优动作从而完成数据采集任务,使用python语言仿真。
如图1所示为系统模型图。
无人机辅助车联网系统包含无人机、地面车辆和路侧单元。在长为L米,宽为W米的无人机工作区域内,同时存在随机分布的N个路侧单元和一台无人机,路侧单元负责收集工作区域内附近车辆、路侧基础设施以及环境等相关信息,路侧单元表示为u={u1,u2,...,uN},第n个路侧单元的地面位置坐标为wn=(xn,yn),其中n=1,2,3…N。每周期开始时无人机在固定位置P起飞,以固定高度H和周期T在区域中执行数据收集工作,其位置在地面的投影坐标表示为wu(t)=(xu(t),yu(t)),电池容量为Emax,无人机的飞行周期T被划分为T′个时隙,即t=0,1,2,…,T′,每个时隙为δ秒,按时隙控制无人机的飞行规律,
路侧单元负责收集区域内附近车辆、路侧基础设施以及环境等相关信息,可设置为无时无刻收集新的数据和周期性收集数据两种情况,即路侧单元可以分为随机生成数据包和周期性生成数据包。无人机负责飞到相应位置接收数据,在无人机与路侧单元通信时也设置为无数据包丢失和概率性的数据包丢失两种情况。
系统平均信息年龄的计算
利用离散系统的信息年龄图像性质计算平均信息年龄。计算方法如下:
如图3所示为离散系统的信息年龄变化趋势,将一个无人机运动周期T的时间分为相同大小的T'个时隙,采用离散时间系统,每个时隙为δ秒。对于路侧单元n,在时隙t时,信息年龄Δn(t)被定义为当前时刻与目的地接收到的最新数据包生成时间An的差值,即每当接收端接收到一个新的数据包,信息年龄将被重置为Δn(t)=t-An。若没有收到新的数据包,则信息年龄正常加1。值得注意的是,如果发送端每时每刻产生数据包,则接收端成功接收到其数据包时发送端的信息年龄被重置为1。
描述无人机对于路侧单元n的信息年龄变化为:
对于一个飞行周期T,含有N个路侧单元的系统的平均信息年龄可表示为:
无人机通信速率和能耗的计算
为了研究无人机与路侧单元通信的信道情况,对信道模型研究如下:
受环境影响,无人机可能出现视距和非视距两种通信链路,但无人机飞行高度较高,所以可以假设无人机与路侧单元之间建立的是视距链路,其信道增益h为:h=β0d-2
其中,β0表示通信距离为1m时的信道增益,d是无人机与路侧单元的欧式距离:
在环境中网格宽度与无人机飞行高度差距较大,所以无人机与路侧单元的欧式距离可近似为无人机的固定飞行高度H,即d≈H;
求出信道增益后,根据香农公式可以求出数据传输速率R:
其中,B是通信带宽,PGN是路侧单元发射功率,σ2是噪声功率。通信能耗与传输数据量有关,与无人机的飞行模式关系较小,求得无人机的通信能耗Etran为:
其中,k为单次无人机悬停要接收数据的信息量;
旋翼无人机的飞行消耗的能量主要由叶片轮廓消耗能量、推动功率和克服阻力所消耗能量组成。无人机在飞行时的功耗表示为:
其中,P0和P1分别表示无人机处于悬停状态下旋转功率和诱导功率,Utip表示旋翼的翼尖转速,v0表示无人机悬停状态下旋翼的平均诱导速度,d0、ρ、s0和A分别表示机身阻力比、空气密度、旋翼硬度和旋翼旋转面积,V表示无人机的飞行速度,无人机飞行速度V=0时的悬停功率消耗Phov为:
Phov=P0+P1。
本发明是在无人机辅助的车联网中,实现数据收集,同时满足相关地理环境和无人机性能的限制条件,使系统的平均信息年龄最小,目标函数及约束条件如下:
s.t.Δn(t)≤t+1
0≤xu(t)≤L
0≤yu(t)≤W
wu(0)=P
1<tpro+thov≤T′
Etran·thov+Ppro(V)·tpro·δ+Phov·thov·δ≤Emax
其中,tpro和thov分别为无人机推进时隙数和悬停时隙数,Emax为无人机电池容量。
因为当环境逐渐庞大时,训练的复杂度就会快速上升,为了缓解训练量过大,将工作区域按正方形网格进行虚拟划分,如图2所示是工作区域的网格化示意图,对长为L米宽为W米的工作区域按边长为Len的正方形网格进行虚拟划分,无人机沿网格线飞行且只悬停在网格交叉点上,路侧单元只与最近网格交叉点上的无人机通信,网格交叉点的通信覆盖范围是半径为rad的圆形区域。无人机在时隙开始时进行决策,判断本时隙应飞行还是收集数据;当无人机通信范围内无路侧单元或路侧单元无数据包发送时,无人机将沿网格线持续飞行;当无人机的通信范围内路侧单元有数据包要发送时,无人机悬停在距离该路侧单元最近的网格交叉点上进行数据收集,为了保证网格和时隙的协同与兼容,规定无人机在一个时隙内完成一格距离的运动,即δ·V≤Len,或一次数据传输,即δ·R≥k。由于无人机的轨迹动作随着网格化管理相应离散化,其能耗约束可并入时隙的约束中,即通过单周期时隙个数T′限定无人机单周期能耗。与此同时,无人机飞行时隙数与悬停时隙数之和等于T′,即tpro+thov=T′,减小了计算的复杂度。
同一网格交叉点可覆盖多个路侧单元,所有网格交叉点的通信范围覆盖整个工作区域,但存在路侧单元被两个网格交叉点同时覆盖的情况,为避免划分通信范围冲突的情况,规定若同时被两个网格交叉点的通信范围覆盖,则无人机只能在该路侧单元的左侧网格交叉点或下方网格交叉点上才能收集其数据。网格化管理大大减小了计算的复杂度。
环境参数含义及赋值如表1所示。
则优化问题可简化为:
s.t.Δn(t)≤t+1
0≤xu(t)≤L
0≤yu(t)≤W
wu(0)=P
δ·V≤Len
δ·R≥k
无人机路径规划策略
利用深度强化学习算法DQN,对无人机进行路径规划,在工作区域中选择最优动作从而完成数据采集任务,使系统平均信息年龄最小化。
先把问题用马尔可夫决策过程表述:
1)状态空间:
状态是无人机遇到的场景,将状态空间定义为:
其中,t是当前时隙,在周期开始时,即t=1时,Δn(t)初始化为1。(xu(t),yu(t))为时隙t时的无人机的三维坐标在x-y平面的投影坐标。
2)动作空间:
动作为无人机可选择的动作集合,将动作空间定义为:
at={0,1,2,3,4}
其中,“0”代表无人机向北移动;“1”代表无人机向南移动;“2”代表无人机向西移动;“3”代表无人机向东移动;“4”代表无人机悬停。
在每一时隙的开始时,无人机在动作空间中选择动作,使状态发生改变,具体表现为:
3)奖励:
由于目标是提高无人机接收的数据的信息新鲜度,系统平均信息年龄越小,所得奖励应该越大,因此奖励为系统的平均信息年龄的相反数:
DQN是强化学习算法Q-learning与神经网络的结合。强化学习的目标是给定一个马尔科夫决策过程,寻找最优策略π,给出最优动作,使系统的平均信息年龄最小。
Q-learning通过学习最大化累积奖励的策略来计算Q值函数,是基于值迭代思想的算法,其更新Q值的方法如下式:
在上式中,s′和rt分别表示t时隙的状态s下执行动作a后的下一状态和即时奖励;α和γ分别是学习率和折扣因子,学习率控制模型学习的速度,决定着目标函数能否收敛到局部最小值以及何时收敛到最小值,表达了新旧权重值之间的关系。折扣因子表示未来奖励的重要性,设为0.99。
智能体使用上式更新Q值,然后采取最大化奖励的动作。由于智能体在训练前期没有访问过许多状态-动作对,因此对其对应的Q值没有正确的估计,除了利用已知的状态-动作对外,它还需要进行探索,被称为探索-开发权衡。通常采用一种epsilon(ε)贪心算法,智能体会以概率ε探索环境,即采取随机行动,以概率1-ε贪婪地行动,即采取当前已知奖励最大的行动。随机动作不一定是当前最优动作,但这是为了了解全局环境而必须执行的策略,以确保智能体不会陷入次优行动。
虽然上式在理论上可以用于所有场景,但Q-learning是基于Q表实现经验的记录,用于大型状态空间时会造成维度灾难,导致需要大内存外,收敛还非常缓慢。所以,当处于访问每个状态-动作对变得不切实际时的特殊情况下,不能简单使用这种方法。这就引出了使用神经网络的近似能力,神经网络可以从可用数据点中提取重要特征并在更小的维度上拟合输入和输出的关系。神经网络将Q值函数近似为Q(s,a∣θ),即:
Q(s,a|θ)≈Q(s,a)
其中,θ为当前网络的权重。这种用于Q学习的方法称为深度Q网络(DQN),用于解决马尔可夫决策过程制式的问题。网络的目标是找到最优的θ权重,使神经网络可以尽可能接近最优Q值函数。然而,使用单个神经网络可能会导致收敛不稳定,因此使用具有相同结构的两个神经网络:用θ表示的当前神经网络权重、用θ-表示的目标神经网络权重。当前网络作为函数逼近器,在每个周期都会迭代更新其权重,而目标网络每隔O个时隙更新一次。
DQN除了采用两个结构相同的网络外,还采用了经验回放机制,因为智能体在探索环境时是一个连续经验,样本之间具有高度相关性,为了消除这种相关性,防止学习效率低下,DQN采用经验回放机制。在当前时隙t时,智能体获得的经验以exp(t)=(s,a,r,s′)的形式存储到经验池中,经验池大小为Bexp。然后从经验池中随机采样大小为Bmb的小批量(mini-batch)样本用于训练神经网络。损失函数如下式:
其中,Q(s′,a′|θ-)由目标网络评估,Q(s,a|θ)由当前网络评估。利用上式进而求得损失函数对于θ的梯度:
由此可得出网络权重的更新规则,如下式:
DQN算法的结构如图4所示,智能体观察环境状态s,当前网络返回动作a影响环境到下一个状态s′,得出一个奖励r,由当前状态、动作、奖励和下一个状态组成的四元素元组储存在经验池中,每次训练会从经验池中随机提取小批量经验用作输入。当前网络输出Q(s,a),目标网络输出maxQ(s′,a)用于计算损失函数。应用Adam优化器根据损失函数对每个参数的梯度的一阶矩估计和二阶矩估计动态调整当前网络参数,每隔O个时隙目标网络向当前网络复制一次网络参数。运用DQN解决该问题的流程图如图5所示,首先设定相关参数,初始化无人机位置和路侧单元信息年龄,然后运用DQN算法选择动作,如果周期未结束则继续运行,如果周期结束则判断是否总迭代完成,如果未完成则重新初始化环境,如果总迭代完成则输出奖励曲线,计算结束。若奖励曲线收敛,表示网络参数也已收敛,无人机则以最小的系统平均信息年龄的路径实现数据收集工作。神经网络的收敛性强烈依赖于所使用的超参数集。超参数的选择是一项具有挑战性的任务,因此通过尝试不同的值来找到一组合理的超参数,如表2所示。
表2
下边进一步说明本发明的效果。
首先为探索本发明中不同学习率下DQN算法解决该问题的平均信息年龄变化趋势进行仿真,接着将不同实验环境设定下的DQN算法平均信息年龄变化趋势进行仿真,然后分别以单周期迭代最大步数和和环境中路侧单元作为变量,对比了系统平均信息年龄和系统最小信息年龄的信息收集效果对比。
图6为不同学习率下DQN算法奖励的变化曲线。从仿真图可以看出,当学习率为0.01和0.005时,算法效果差,网络不会收敛。这是因为学习率较大情况下会造成网络不能收敛,直接跳过最优点,从而忽视了找到最优值的位置,导致无法收敛。当学习率为0.001和0.0005时,网络可以慢慢收敛,直到收敛到最佳,这是因为学习率大小设置合适,所以奖励正常收敛。当学习率为0.0001时,仍可以收敛,但相对较慢,这是因为学习率较小情况下网络收敛非常缓慢,会增大找到最优值的时间。综上,学习率设定为0.001。
图7为四种环境设定下DQN算法奖励的变化曲线。实验1为传输过程无包丢失且路侧单元每时每刻产生数据包;实验2为传输过程有包丢失且路侧单元每时每刻产生数据包;实验3为传输过程无包丢失且路侧单元周期性产生数据包;实验4为传输过程有包丢失且路侧单元周期性产生数据包。从图中可以看出,实验1网络收敛效果最好,实验3收敛效果较好,但相比于实验1收敛速度明显缓慢,这是因为虽然传输过程均无包丢失,但实验3因为网络要适应路侧单元周期性产生数据包这一特性,所以学习任务加重,收敛较慢,不过最终成功收敛后效果和实验1效果大致相等。同时,由实验2可以看出,虽和实验1均为每时每刻产生数据包,但由于存在随机性的包丢失情况,所以收敛效果大大降低。原因是包丢失是随机事件,系统运行中无法规避,算法也无法学习规律,从而奖励降低不可避免。实验4即存在包丢失也周期性产生数据,所以效果最差。
图8为路侧单元数固定时,随着单周期步数的增加,不同算法的系统平均信息年龄的对比。路侧单元数为20个,单周期步数分别为20,30,40,50和60时,DQN、c51和随机算法的对比。由图可知,DQN算法的系统平均信息年龄最小,c51算法和随机算法的系统平均信息年龄大致相同,且随着单周期步数的增加,DQN的优势越来越大。在单周期步数为20步时,DQN算法的系统平均信息年龄为316.2,c15算法的系统平均信息年龄为386.8,随机算法的系统平均信息年龄为411.5,DQN算法的系统平均信息年龄比c51低了18.25%,比随机算法低了23.16%。到单周期步数为60步时,DQN算法的系统平均信息年龄为744.2,c15算法的系统平均信息年龄为1112.6,随机算法的系统平均信息年龄为1114.8,DQN算法的系统平均信息年龄比c51低了33.11%,比随机算法低了33.24%,DQN算法效果最优且单周期步数越多优势越大。
图9为路侧单元数固定时,随着单周期步数的增加,不同算法的系统最优信息年龄的对比。路侧单元数为20个,单周期步数分别为20,30,40,50和60时,DQN、c51和随机算法的对比。由图可知,DQN算法的系统最优信息年龄最小,c51算法的效果其次,随机算法效果最差,且随着单周期步数的增加,DQN的优势比系统平均信息年龄表现的还要明显。在单周期步数为20步时,DQN算法的系统最优信息年龄为298,c15算法的系统最优信息年龄为333,随机算法的系统最优信息年龄为379.2,DQN算法的系统最优信息年龄比c51低了10.51%,比随机算法低了21.41%。到单周期步数为60步时,DQN算法的系统最优信息年龄为486,c15算法的系统平均信息年龄为886,随机算法的系统平均信息年龄为951.8,DQN算法的系统最优信息年龄比c51低了45.15%,比随机算法低了48.94%,DQN算法效果最优且单周期步数越多优势越大。
同时,从图8和图9综合来看,c51算法和随机算法的系统平均信息年龄大致相同,但是c51算法的系统最优信息年龄明显小于随机算法。这是因为c51算法的框架虽然是DQN算法,但c51为值分布强化学习算法,网络输出不是像DQN一样的数值,而是服从一个分布的随机变量。这种输出会让学到的内容除了数值以外的更多信息,但是在该发明的网格路径规划环境下输出值分布不如输出动作价值Q直接有效,反而不容易收敛,这就导致c51算法在系统最优信息年龄上优于随机算法,但总体效果不稳定,在系统平均信息年龄上优势并不明显。
图10为单周期步数固定为20步时,随着路侧单元数分别为20、30、40、50和60时,不同算法的系统平均信息年龄的对比。结果为:DQN算法的系统平均信息年龄最小,效果最优,c51算法和随机算法的系统平均信息年龄大致相同,各算法的差距也相对平稳。
图11为单周期步数固定为20步时,随着路侧单元数分别为20、30、40、50和60时,不同算法的系统最优信息年龄的对比。结果为:DQN算法的系统最优信息年龄最小,效果最优,c51算法的效果其次,随机算法效果最差,各算法的差距也相对平稳。
本发明通过在无线传感网中无人机收集固定区域内多个路侧单元产生的数据,并且引入信息年龄作为评估状态信息更新及时性的一个度量指标,求得系统平均信息年龄表达式;
本发明通过使用网格化管理该场景,将路侧单元归为距离它最近的网格交叉点管辖,无人机沿着网格线运动,在网格交叉点停留,将无人机的动作和时间离散化,在每一个时隙开始时决策运动还是停留,方便分析;
本发明深度强化学习算法DQN使无人机作为智能体不断与环境交互,通过动作价值函数值评价动作的优劣,用学习的经验训练网络,拟合动作与动作价值函数值的映射关系,以最小的系统平均信息年龄的路径实现数据收集。;
本发明不限于上述实施例,路侧单元数可以随实际情况进行更改。
Claims (10)
1.一种基于深度强化学习的无人机辅助车联网数据收集方法,其特征在于,包括下列步骤:
步骤一:构建无人机辅助车联网数据收集系统模型,包括无人机位置和路侧单元位置,路侧单元的信息年龄模型,无人机的通信模型,与无人机的自身硬件配置属性有关的飞行能耗模型并设计优化问题;
步骤二:进行虚拟网格的划分,利用网格化管理简化优化问题,以最小化系统平均信息年龄为优化目标,同时需满足无人机资源调度约束、探测范围约束和飞行轨迹约束;
步骤三:把问题用马尔可夫决策过程表述,采用深度强化学习算法DQN(Deep QNetwork)求解,使无人机通过不断与环境交互,训练网络参数,选择最优动作从而完成数据采集任务,使用python语言仿真。
2.根据权利要求1所述的基于深度强化学习的无人机辅助车联网数据收集方法,其特征在于,所述步骤一中无人机辅助车联网数据收集系统模型具体为:无人机辅助车联网系统包含无人机、地面车辆和路侧单元,在长为L米,宽为W米的无人机工作区域内,同时存在随机分布的N个路侧单元和一台无人机,路侧单元负责收集工作区域内附近车辆、路侧基础设施以及环境等相关信息,路侧单元表示为u={u1,u2,...,uN},第n个路侧单元的地面位置坐标为wn=(xn,yn),其中n=1,2,3…N,每周期开始时无人机在固定位置P起飞,以固定高度H和周期T在区域中执行数据收集工作,其位置在地面的投影坐标表示为wu(t)=(xu(t),yu(t)),电池容量为Emax,无人机的飞行周期T被划分为T′个时隙,即t=0,1,2,…,T′,每个时隙为δ秒,按时隙控制无人机的飞行规律。
3.根据权利要求1所述的基于深度强化学习的无人机辅助车联网数据收集方法,其特征在于,所述步骤一中路侧单元的信息年龄模型具体为:对于路侧单元n,在时隙t时,信息年龄△n(t)被定义为当前时刻与目的地接收到的最新数据包生成时间An的差值,即每当接收端接收到一个新的数据包,信息年龄将被重置为△n(t)=t-An,若没有收到新的数据包,信息年龄正常加1,如果发送端每时每刻产生数据包,则接收端成功接收到其数据包时发送端的信息年龄被重置为1,信息年龄作为评估状态信息更新及时性的一个度量指标,可用于评价无人机接收信息的新鲜度;
描述无人机对于路侧单元n的信息年龄变化为:
对于一个飞行周期T,含有N个路侧单元的系统的平均信息年龄可表示为:
7.根据权利要求1所述的基于深度强化学习的无人机辅助车联网数据收集方法,其特征在于,所述步骤二中进行虚拟网格的划分具体为:对长为L米宽为W米的工作区域按边长为Len的正方形网格进行虚拟划分,无人机沿网格线飞行且只悬停在网格交叉点上,路侧单元只与最近网格交叉点上的无人机通信,网格交叉点的通信覆盖范围是半径为rad的圆形区域;无人机在时隙开始时进行决策,判断本时隙应飞行还是收集数据;当无人机通信范围内无路侧单元或路侧单元无数据包发送时,无人机将沿网格线持续飞行;当无人机的通信范围内路侧单元有数据包要发送时,无人机悬停在距离该路侧单元最近的网格交叉点上进行数据收集,为了保证网格和时隙的协同与兼容,规定无人机在一个时隙内完成一格距离的运动,即δ·V≤Len,或完成一次数据传输,即δ·R≥k。
9.根据权利要求1所述的基于深度强化学习的无人机辅助车联网数据收集方法,其特征在于,所述步骤三中把问题用马尔可夫决策过程表述具体为:
其中,t是当前时隙,在周期开始时,即t=1时,△n(t)初始化为1,(xu(t),yu(t))为时隙t时的无人机的三维坐标在x-y平面的投影坐标;
动作空间为:at={0,1,2,3,4}
其中,“0”代表无人机向北移动;“1”代表无人机向南移动;“2”代表无人机向西移动;“3”代表无人机向东移动;“4”代表无人机悬停;
在每一时隙的开始时,无人机在动作空间中选择动作,使状态发生改变,具体表现为:
奖励为:rt=-△AoI
由于目标是提高无人机接收的数据的信息新鲜度,系统平均信息年龄越小,所得奖励应该越大,因此奖励为系统的平均信息年龄的相反数。
10.根据权利要求1所述的基于深度强化学习的无人机辅助车联网数据收集方法,其特征在于,所述步骤三中深度强化学习算法DQN具体为:DQN是强化学习算法Q-learning与神经网络的结合,强化学习的目标是给定一个马尔科夫决策过程,寻找最优策略,给出最优动作,使系统的平均信息年龄最小;
DQN利用Q-learning算法的Q值函数更新方法,如下式:
其中s′和rt分别表示t时隙的状态s下执行动作a后的下一状态和即时奖励,α和γ分别是学习率和折扣因子,由于Q-learning基于Q表更新Q值,为避免用于大型状态空间时造成维度灾难,引入神经网络可以从已经获得的经验中提取重要特征并在更小的维度上拟合输入和输出的关系,神经网络将Q值函数近似为Q(s,a∣θ),即:
Q(s,a|θ)≈Q(s,a)
其中,θ为当前网络的权重,通过更新权重值达到训练网络的关系,从而拟合出动作和动作价值的关系,更新规则由损失函数确定,损失函数为:
其中,θ-是目标网络的权重,Q(s′,a′|θ-)由目标网络评估,Q(s,a|θ)由当前网络评估,进而求得损失函数对于θ的梯度:
由此可得出网络权重的更新规则,如下式:
无人机在实施动作造成状态改变的过程中不断学习经验,学习的经验越多损失函数值越小、越稳定,当前网络参数也随之收敛,这样就可以选择最优动作,以最小的系统平均信息年龄的路径实现数据收集工作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310383823.6A CN116321237A (zh) | 2023-04-11 | 2023-04-11 | 一种基于深度强化学习的无人机辅助车联网数据收集方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310383823.6A CN116321237A (zh) | 2023-04-11 | 2023-04-11 | 一种基于深度强化学习的无人机辅助车联网数据收集方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116321237A true CN116321237A (zh) | 2023-06-23 |
Family
ID=86794211
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310383823.6A Pending CN116321237A (zh) | 2023-04-11 | 2023-04-11 | 一种基于深度强化学习的无人机辅助车联网数据收集方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116321237A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117010482A (zh) * | 2023-07-06 | 2023-11-07 | 三峡大学 | 一种基于双经验池优先采样和DuelingDQN实现的策略方法 |
-
2023
- 2023-04-11 CN CN202310383823.6A patent/CN116321237A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117010482A (zh) * | 2023-07-06 | 2023-11-07 | 三峡大学 | 一种基于双经验池优先采样和DuelingDQN实现的策略方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11703853B2 (en) | Multiple unmanned aerial vehicles navigation optimization method and multiple unmanned aerial vehicles system using the same | |
Zhang et al. | Energy-efficient trajectory optimization for UAV-assisted IoT networks | |
You et al. | Hybrid offline-online design for UAV-enabled data harvesting in probabilistic LoS channels | |
CN114690799B (zh) | 基于信息年龄的空天地一体化无人机物联网数据采集方法 | |
KR102394237B1 (ko) | 다중 무인항공기 네비게이션 최적화 방법 및 그를 이용한 무인항공항 시스템 | |
CN112511250B (zh) | 一种基于drl的多无人机空中基站动态部署方法及系统 | |
CN112902969B (zh) | 一种无人机在数据收集过程中的路径规划方法 | |
CN113660681B (zh) | 一种应用于无人机集群辅助传输的多智能体资源优化方法 | |
CN115499921A (zh) | 面向复杂无人机网络的三维轨迹设计及资源调度优化方法 | |
CN116321237A (zh) | 一种基于深度强化学习的无人机辅助车联网数据收集方法 | |
Zhao et al. | Adaptive multi-UAV trajectory planning leveraging digital twin technology for urban IIoT applications | |
Shi et al. | Age of information optimization with heterogeneous uavs based on deep reinforcement learning | |
CN113382060A (zh) | 一种物联网数据收集中的无人机轨迹优化方法及系统 | |
Zeng et al. | Periodic Collaboration and Real-Time Dispatch Using an Actor–Critic Framework for UAV Movement in Mobile Edge Computing | |
CN116847293A (zh) | 一种无人机辅助车联网下的联合缓存决策和轨迹优化方法 | |
Yang et al. | Path planning of UAV base station based on deep reinforcement learning | |
CN116795138A (zh) | 一种面向数据采集的多无人机智能航迹规划方法 | |
CN116847379A (zh) | 基于联邦学习的框架训练无人机集群的神经网络建模方法 | |
Si et al. | UAV-assisted Semantic Communication with Hybrid Action Reinforcement Learning | |
Wu et al. | UAV-Assisted Data Synchronization for Digital-Twin-Enabled Vehicular Networks | |
CN116017479B (zh) | 一种分布式多无人机中继网络覆盖的方法 | |
CN117055621B (zh) | 面向数据采集的多无人机路径规划方法 | |
Chen et al. | Joint optimization of UAV-WPT and mixed task offloading strategies with shared mode in SAG-PIoT: A MAD4PG approach | |
CN117993475A (zh) | 一种基于深度强化学习的能量效率无人机资源调度方法 | |
CN118609426A (zh) | 无人机辅助的物联网信息年龄优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |